ビジネス要因分析の統計的因果探索 データ分析講座(その205)

更新日

投稿日

 

 

最近のデータ分析やモデル構築では「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。画像処理などの世界では、それでいいかもしれません。ただ、ビジネス系のデータ分析の場合、単に当てるだけというよりも「なぜそうなったの?」という要因分析ニーズが高いのです。要因分析で使えるデータ分析手法の多くは、解釈性の高い伝統的な統計モデルが多いのです。最も簡単な手法は、相関係数を使ったものです。それはそれで、シンプルで強力な手法です。このような中、最近では「統計的因果探索」という手法が注目され始めています。

今回は、「ビジネス要因分析で欠かせない統計的因果探索」というお話しをします。

【目次】

1.要因分析とは?
2.相関分析とは?
3.2つの変量間に線を引く
(1)統計的因果探索とは?
(2)因果推論と因果探索
(3)本当の因果ではない!

1.要因分析とは?

 

DATA

 

着目している指標である目的変数Y(売上など)の異常が検知された場合……​

  • なぜこのような異常が起こったのか?​
  • 異常の要因は何だったのか?
  • そのためにどのような対策を打つべきなのか?

……など、色々と協議される​ことでしょう。このとき、着目している指標である目的変数Y(売上など)に影響を与えるであろう、X(説明変数)のデータがある場合、X(説明変数)から要因を探る要因分析を実施することがあります。

 

このとき、X(説明変数)同士がどのような関係性にあるのかを知ることは、対策を考える上で非常に重要です。「構造の把握」と言います。最もシンプルなのが、2変量の関係性を探る相関分析です。

 

2.相関分析とは?

 

DATA

 

相関分析とは、2変量間の線形関係を、相関係数という指標で分析するものです。

 

線形関係とは、「一方の値が増えると、他方の値も比例して増える」みたいな関係です。もちろん、「増える」という関係性だけでなく、「減る」という関係性もあります。

 

大きく3つの線形関係を見出していきます。

  • 正の相関関係がある(相関係数が1に近い)
  • 相関関係がない(相関係数が0前後)
  • 負の相関関係がある(相関係数が-1に近い)

ちなみに、相関係数は-1以上1以下の値を取ります。

 

3.2つの変量間に線を引く

 

DATA

 

相関分析は、2つの変量間に線形関係がありそうかどうかを検討します。

 

そして、2つの変量間に線形関係がありそうな場合、その間に「線」を引くことで表現することが多いです。その「線」は、単なる線に過ぎません。なんとなく、「線」に「矢印」があると嬉しいでしょう。特に、説明変数X同士の場合には、「矢印」を付けられると便利です。

 

(1)統計的因果探索とは?

 

DATA

 

一言で言うと、「矢印の向きを分析する」という感じです。

 

日本でよく使われるのは、LinGAM(Linear Non Gaussian Model、線形非ガウス非巡回モデル)という手法です。非正規分布を仮定し因果関係を推測する手法です。

 

(2)因果推論と因果探索

似たようなワードに、統計的因果推論というものがあります。似たような感じですが、データ分析の置かれている状況がことなります。超簡単に言うと、統計的因果推論は、検討したい因果をあらかじめ想定した、伝統的な統計学アプローチの1つである実験計画法・分散分析の流れを汲んでいます。

 

一方、統計的因果探索は、手元にあるデータから因果構造の分析する、探索的なデータ分析の流れを汲んでいます。数理統計学に詳しい方は、伝統的な統計学アプローチの1つであるパス解析をイメージすると、分かりやすいかもしれしれません。

 

(3)本...

 

 

最近のデータ分析やモデル構築では「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。画像処理などの世界では、それでいいかもしれません。ただ、ビジネス系のデータ分析の場合、単に当てるだけというよりも「なぜそうなったの?」という要因分析ニーズが高いのです。要因分析で使えるデータ分析手法の多くは、解釈性の高い伝統的な統計モデルが多いのです。最も簡単な手法は、相関係数を使ったものです。それはそれで、シンプルで強力な手法です。このような中、最近では「統計的因果探索」という手法が注目され始めています。

今回は、「ビジネス要因分析で欠かせない統計的因果探索」というお話しをします。

【目次】

1.要因分析とは?
2.相関分析とは?
3.2つの変量間に線を引く
(1)統計的因果探索とは?
(2)因果推論と因果探索
(3)本当の因果ではない!

1.要因分析とは?

 

DATA

 

着目している指標である目的変数Y(売上など)の異常が検知された場合……​

  • なぜこのような異常が起こったのか?​
  • 異常の要因は何だったのか?
  • そのためにどのような対策を打つべきなのか?

……など、色々と協議される​ことでしょう。このとき、着目している指標である目的変数Y(売上など)に影響を与えるであろう、X(説明変数)のデータがある場合、X(説明変数)から要因を探る要因分析を実施することがあります。

 

このとき、X(説明変数)同士がどのような関係性にあるのかを知ることは、対策を考える上で非常に重要です。「構造の把握」と言います。最もシンプルなのが、2変量の関係性を探る相関分析です。

 

2.相関分析とは?

 

DATA

 

相関分析とは、2変量間の線形関係を、相関係数という指標で分析するものです。

 

線形関係とは、「一方の値が増えると、他方の値も比例して増える」みたいな関係です。もちろん、「増える」という関係性だけでなく、「減る」という関係性もあります。

 

大きく3つの線形関係を見出していきます。

  • 正の相関関係がある(相関係数が1に近い)
  • 相関関係がない(相関係数が0前後)
  • 負の相関関係がある(相関係数が-1に近い)

ちなみに、相関係数は-1以上1以下の値を取ります。

 

3.2つの変量間に線を引く

 

DATA

 

相関分析は、2つの変量間に線形関係がありそうかどうかを検討します。

 

そして、2つの変量間に線形関係がありそうな場合、その間に「線」を引くことで表現することが多いです。その「線」は、単なる線に過ぎません。なんとなく、「線」に「矢印」があると嬉しいでしょう。特に、説明変数X同士の場合には、「矢印」を付けられると便利です。

 

(1)統計的因果探索とは?

 

DATA

 

一言で言うと、「矢印の向きを分析する」という感じです。

 

日本でよく使われるのは、LinGAM(Linear Non Gaussian Model、線形非ガウス非巡回モデル)という手法です。非正規分布を仮定し因果関係を推測する手法です。

 

(2)因果推論と因果探索

似たようなワードに、統計的因果推論というものがあります。似たような感じですが、データ分析の置かれている状況がことなります。超簡単に言うと、統計的因果推論は、検討したい因果をあらかじめ想定した、伝統的な統計学アプローチの1つである実験計画法・分散分析の流れを汲んでいます。

 

一方、統計的因果探索は、手元にあるデータから因果構造の分析する、探索的なデータ分析の流れを汲んでいます。数理統計学に詳しい方は、伝統的な統計学アプローチの1つであるパス解析をイメージすると、分かりやすいかもしれしれません。

 

(3)本当の因果ではない!

統計的因果探索をいくら精緻に実施したところで、それはあくまでもデータから垣間見た因果関係のようなものに過ぎません。

 

統計的因果探索だけの話しではなく、RubinやPearl系の統計的因果推論もそうですし、時系列データに対する因果推論であるGranger因果などもそうです。データから統計学的な手法を用いても、あくまでもデータ上の関係であって、因果関係どころか、たまたまそのように見えるだけで、まったくの無関係の可能性すらあります。要は、最後は人間の経験値と洞察力がものを言います。

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
階層時系列データと予測モデル構築 データ分析講座(その270)

  ビジネスの現場で目にする多くのデータは時系列データです。例えば、売上やセンサーデータなどです。さらに、ビジネスの現場で目にする多くの時...

  ビジネスの現場で目にする多くのデータは時系列データです。例えば、売上やセンサーデータなどです。さらに、ビジネスの現場で目にする多くの時...


データサイエンスの基礎体力づくりとは データ分析講座(その278)

  ビジネスの現場でデータ活用するには、現場の事情を知る必要もありますし、現場に寄り添わなければなりません。ただし、データサイエンスの基礎...

  ビジネスの現場でデータ活用するには、現場の事情を知る必要もありますし、現場に寄り添わなければなりません。ただし、データサイエンスの基礎...


データ活用の成果にはタイムラグがある データ分析講座(その293)

  データ活用をする企業や組織などが増えていますが、データ活用には、即効性があるものもあれば、そうでないものもあります。即効性がありそうな...

  データ活用をする企業や組織などが増えていますが、データ活用には、即効性があるものもあれば、そうでないものもあります。即効性がありそうな...


「情報マネジメント一般」の活用事例

もっと見る
P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...


‐情報収集で配慮すべき事項(第2回)‐  製品・技術開発力強化策の事例(その10)

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


Web上で試作受注するツールを成功させるポイントとは

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...