分析結果が妥当かを、判断する前提知識とは データ分析講座(その77)

更新日

投稿日

データ分析

◆ 現場を知らなすぎると呆れられる分析者達

 データ分析結果を疑われる時、それは「現場を知らなすぎる」と呆れられている時です。現場にいる人が自らデータ分析をしない限り、現場との乖離(かいり)はどうしても生まれてしまいます。しかしながら、忙しい現場に高度なデータ分析のできる人財がいることは稀で、どうしても現場と離れた所にデータ分析者がいることが多いわけです。

 現場をそのものを知らないことは仕方ないとしても「ここまで知らないとは」と呆れられたらお仕舞いです。そうならないためにも、最低限のことは押さえましょう。今回は「現場を知らなすぎると呆れられる分析者達」というお話しをします。

1. どうすれば、どうなるのかということが分かる分析ツール

 受注件数や金額などのデータを集計するぐらいであれば、どのような営業やマーケティングの部署でも、やっていることでしょう。データ分析に期待されるのは、単なる集計以上の何かです。例えば「次に何をすべきか」を示唆することができれば、かなり喜ばれます。

 「次に何をすべきか」を言い換えると「どうすれば(行動)、どうなるのか(結果)」ということです。営業であれば「この顧客には、この商材を次に勧めると(行動)、受注に結び付く可能性が高い(結果)」といったことでしょう。

 マーケティングであれば「この販促施策よりも、こちらの販促施策を実施したほうが(行動)、見込み顧客が引き付けられお試し購買につながる(結果)」といったことや「この販促施策よりも、こちらの施策を実施したほうが(行動)、費用効果が高い(結果)」といったことです。

 多くの現場では「受注が増える」といったプラスの効果のほうが「コストが下がる」といったマイナスの効果の改善よりも喜ばれます。「効率」という視点でも、組織としては費用対効果が改善したことが喜ばれますが、個人としては工数効率が良くなることが喜ばれるようです。

 それはさておき「どうすれば(行動)、どうなるのか(結果)」ということが分かる分析ツールの一つに、回帰分析というものがあります。過去のデータを使い、回帰モデルという数式を求め、その数式を使い「どうすれば(行動)、どうなるのか(結果)」を導き出すことができます。昔からある伝統的なデータ分析手法です。この手法は強烈で今でも十分に使えますし、多くのところで活用されています。

2. 回帰分析とは?

 回帰分析の結果を、初めて見た人の多くが「コレ凄いね」といってくれます。

 何がすごいかというと「どうすれば(行動)、どうなるのか(結果)」ということが分かるからです。もちろん、過去の傾向に照らし合わせてですが「どうなるのか(結果)」の部分を「目的変数」といい「どうすれば(行動)」の部分を「説明変数」といいます。

 目的変数には、KPIなどの重要な指標が該当し、受注金額や件数、受注率、売上、客単価、受注商材、離反率、離反件数などを設定することが多いです。説明変数には、目的変数に影響を及ぼす「営業活用や販促施策などの実施したこと」や「天候などの外部環境」などを設定することが多く、回帰分析から次の2つのことが分かります。

  • 【過去】こうなったのは(結果)、こうだったからだ(要因)
  • 【未来】どうすれば(行動)、どうなるのか(結果)

 「こうなったのは(結果)、こうだったからだ(要因)」で、今までの過去の振り返り、つまり過去評価ができます。「どうすれば(行動)、どうなるのか(結果)」という考えで来の見通しをつける、つまりシミュレーションができます。過去の評価と未来の見通しがつくという、非常に強烈なものなのです。

3. データ分析:結果を聞いて、顔色を変える現場

 私が、回帰分析の結果報告を聞いたとき「これは無いなぁ~」というものが、今までいくつかありました。

 回帰分析の結果は非常に分かりやすく、一本の数式で表現されます。

   y c b1 x1 b2 x2

 目的変数(y)への説明変数(x1、x2、……)の影響は、その数式の係数(b1、b2、……)として表現されます。

 係数の大小は説明変数の「単位の大きさ」に影響されるため、一見すると解釈し難いのですが、誰が見ても分かりやすいのが、係数がプラスなのかマイナスなのかどうかということです。ちなみに「単位の大きさ」に係数が影響されるということは例えば、日販60万円を60と表現するのか600と表現するのか600000と表現するのか、数字の単位を”万円”にするか”千円”にするか”円”にするのかによるということです。日販60万円を60と表現したとき係数が1000だとすると、日販60万円を600000と表現したとき係数が0.1になります。

 なぜならば、「1000×60=0.1×600000」となるからです。

 例えば、次のような結果が報告されたらどうでしょうか。

  • ある店舗で、目的変数「来店客数」(y)に対する、説明変数「新聞の折り込みチラシの配布枚数」(x)の「係数」(b)がマイナスである。
  • ある法人営業で、目的変数「既存顧客の離反率」(y)に対する、説明変数「訪問回数」(x)の「係数」(b)がプラスである。
  • ある飲料メーカーのビールで、目的変数「ビールの売上」(y)に対する、説明変数「気温」(x)の「係数」(b)がマイナスである。

 通常、チラシを撒けば撒くほど来店客数は増えますし、訪問回数が少ないと離反されやすくなります。要するに、現場の感覚と真逆になっているのです。このようなことが、実際に回帰分析をすると起こります。

 もしかしたら、今まで誰も知らなかった知見が発見されたのかもしれませんが、多くの場合は違います。多くの場合、目的変数「来店客数」(y)と説明変数「新聞の折り込みチラシの配布枚数」(x)の散布図を描き確認すると、チラシを撒けば撒くほど来店客数は増えていることが分かります。訪問回数ごとに離反率を集計し、棒グラフで表現して確認してみると、訪問回数が少ないほど離反率が高くなることが分かります。夏の気温とビールの売上の散布図を描けば、夏の気温が高いほどビールの売上は増えます。

 簡単な集計をし、それを単純な散布図や棒グラフなどで表現した結果と、集計レベルから考え高度な回帰分析の結果に、乖離が生まれているのです。何がどうなっているのでしょうか。

 係数のプラス・マイナスは、非常に目立ちます。その係数のプラス・マイナスが現場感から乖離していると、一気にその分析結果の信頼が失われます。ちなみに、このようなデータ分析結果同志の辻褄が合わないという現象はよく起こります。回帰分析の場合、多重共線性がこのような係数のプラス・マイナスを逆転させてしまうケースが非常に多いのです。

4. データ分析:最低限、インタビューはしよう!

 「回帰分析の係数のプラス・マイナスが、現場の感覚から乖離している」という問題に対処するには、回帰分析そのものの理解も必要ですが、そもそも「現場に近い人へのインタビュー」は欠かせません。

 「現場に近い人へのインタビュー」から、色々なことが分かります。とくに、データからは読み取れないことが分かります。そのことが、結局のところ、そのデータ分析結果が妥当かどうかを、判断するときの前提知識になります。

 当然ですが、データは実際に起こった現象のほんの一部に過ぎません。多くの現象は、データ以外の所にあります。そもそも、データには現れない営業活動や販促施策などが実際には行われているかもしれません。さらに、原材料の調達の影響で製造ラインの一部が一時期ストップしたとか、不祥事で商品の売れ行きが一時期落ち込んだとか、このようなデータに現れない突発的な事象が起こっているかもしれません。このようなことは、インタビューをしないと分からないことが多いです。このようなことを知った上で分析するかどうかは、その分析結果を解釈する上で非常に重要です。

 

5. データ分析:分析ミスに気が付くうえでも、最低限インタビューは必要

 今回は「現場を知らなすぎ...

データ分析

◆ 現場を知らなすぎると呆れられる分析者達

 データ分析結果を疑われる時、それは「現場を知らなすぎる」と呆れられている時です。現場にいる人が自らデータ分析をしない限り、現場との乖離(かいり)はどうしても生まれてしまいます。しかしながら、忙しい現場に高度なデータ分析のできる人財がいることは稀で、どうしても現場と離れた所にデータ分析者がいることが多いわけです。

 現場をそのものを知らないことは仕方ないとしても「ここまで知らないとは」と呆れられたらお仕舞いです。そうならないためにも、最低限のことは押さえましょう。今回は「現場を知らなすぎると呆れられる分析者達」というお話しをします。

1. どうすれば、どうなるのかということが分かる分析ツール

 受注件数や金額などのデータを集計するぐらいであれば、どのような営業やマーケティングの部署でも、やっていることでしょう。データ分析に期待されるのは、単なる集計以上の何かです。例えば「次に何をすべきか」を示唆することができれば、かなり喜ばれます。

 「次に何をすべきか」を言い換えると「どうすれば(行動)、どうなるのか(結果)」ということです。営業であれば「この顧客には、この商材を次に勧めると(行動)、受注に結び付く可能性が高い(結果)」といったことでしょう。

 マーケティングであれば「この販促施策よりも、こちらの販促施策を実施したほうが(行動)、見込み顧客が引き付けられお試し購買につながる(結果)」といったことや「この販促施策よりも、こちらの施策を実施したほうが(行動)、費用効果が高い(結果)」といったことです。

 多くの現場では「受注が増える」といったプラスの効果のほうが「コストが下がる」といったマイナスの効果の改善よりも喜ばれます。「効率」という視点でも、組織としては費用対効果が改善したことが喜ばれますが、個人としては工数効率が良くなることが喜ばれるようです。

 それはさておき「どうすれば(行動)、どうなるのか(結果)」ということが分かる分析ツールの一つに、回帰分析というものがあります。過去のデータを使い、回帰モデルという数式を求め、その数式を使い「どうすれば(行動)、どうなるのか(結果)」を導き出すことができます。昔からある伝統的なデータ分析手法です。この手法は強烈で今でも十分に使えますし、多くのところで活用されています。

2. 回帰分析とは?

 回帰分析の結果を、初めて見た人の多くが「コレ凄いね」といってくれます。

 何がすごいかというと「どうすれば(行動)、どうなるのか(結果)」ということが分かるからです。もちろん、過去の傾向に照らし合わせてですが「どうなるのか(結果)」の部分を「目的変数」といい「どうすれば(行動)」の部分を「説明変数」といいます。

 目的変数には、KPIなどの重要な指標が該当し、受注金額や件数、受注率、売上、客単価、受注商材、離反率、離反件数などを設定することが多いです。説明変数には、目的変数に影響を及ぼす「営業活用や販促施策などの実施したこと」や「天候などの外部環境」などを設定することが多く、回帰分析から次の2つのことが分かります。

  • 【過去】こうなったのは(結果)、こうだったからだ(要因)
  • 【未来】どうすれば(行動)、どうなるのか(結果)

 「こうなったのは(結果)、こうだったからだ(要因)」で、今までの過去の振り返り、つまり過去評価ができます。「どうすれば(行動)、どうなるのか(結果)」という考えで来の見通しをつける、つまりシミュレーションができます。過去の評価と未来の見通しがつくという、非常に強烈なものなのです。

3. データ分析:結果を聞いて、顔色を変える現場

 私が、回帰分析の結果報告を聞いたとき「これは無いなぁ~」というものが、今までいくつかありました。

 回帰分析の結果は非常に分かりやすく、一本の数式で表現されます。

   y c b1 x1 b2 x2

 目的変数(y)への説明変数(x1、x2、……)の影響は、その数式の係数(b1、b2、……)として表現されます。

 係数の大小は説明変数の「単位の大きさ」に影響されるため、一見すると解釈し難いのですが、誰が見ても分かりやすいのが、係数がプラスなのかマイナスなのかどうかということです。ちなみに「単位の大きさ」に係数が影響されるということは例えば、日販60万円を60と表現するのか600と表現するのか600000と表現するのか、数字の単位を”万円”にするか”千円”にするか”円”にするのかによるということです。日販60万円を60と表現したとき係数が1000だとすると、日販60万円を600000と表現したとき係数が0.1になります。

 なぜならば、「1000×60=0.1×600000」となるからです。

 例えば、次のような結果が報告されたらどうでしょうか。

  • ある店舗で、目的変数「来店客数」(y)に対する、説明変数「新聞の折り込みチラシの配布枚数」(x)の「係数」(b)がマイナスである。
  • ある法人営業で、目的変数「既存顧客の離反率」(y)に対する、説明変数「訪問回数」(x)の「係数」(b)がプラスである。
  • ある飲料メーカーのビールで、目的変数「ビールの売上」(y)に対する、説明変数「気温」(x)の「係数」(b)がマイナスである。

 通常、チラシを撒けば撒くほど来店客数は増えますし、訪問回数が少ないと離反されやすくなります。要するに、現場の感覚と真逆になっているのです。このようなことが、実際に回帰分析をすると起こります。

 もしかしたら、今まで誰も知らなかった知見が発見されたのかもしれませんが、多くの場合は違います。多くの場合、目的変数「来店客数」(y)と説明変数「新聞の折り込みチラシの配布枚数」(x)の散布図を描き確認すると、チラシを撒けば撒くほど来店客数は増えていることが分かります。訪問回数ごとに離反率を集計し、棒グラフで表現して確認してみると、訪問回数が少ないほど離反率が高くなることが分かります。夏の気温とビールの売上の散布図を描けば、夏の気温が高いほどビールの売上は増えます。

 簡単な集計をし、それを単純な散布図や棒グラフなどで表現した結果と、集計レベルから考え高度な回帰分析の結果に、乖離が生まれているのです。何がどうなっているのでしょうか。

 係数のプラス・マイナスは、非常に目立ちます。その係数のプラス・マイナスが現場感から乖離していると、一気にその分析結果の信頼が失われます。ちなみに、このようなデータ分析結果同志の辻褄が合わないという現象はよく起こります。回帰分析の場合、多重共線性がこのような係数のプラス・マイナスを逆転させてしまうケースが非常に多いのです。

4. データ分析:最低限、インタビューはしよう!

 「回帰分析の係数のプラス・マイナスが、現場の感覚から乖離している」という問題に対処するには、回帰分析そのものの理解も必要ですが、そもそも「現場に近い人へのインタビュー」は欠かせません。

 「現場に近い人へのインタビュー」から、色々なことが分かります。とくに、データからは読み取れないことが分かります。そのことが、結局のところ、そのデータ分析結果が妥当かどうかを、判断するときの前提知識になります。

 当然ですが、データは実際に起こった現象のほんの一部に過ぎません。多くの現象は、データ以外の所にあります。そもそも、データには現れない営業活動や販促施策などが実際には行われているかもしれません。さらに、原材料の調達の影響で製造ラインの一部が一時期ストップしたとか、不祥事で商品の売れ行きが一時期落ち込んだとか、このようなデータに現れない突発的な事象が起こっているかもしれません。このようなことは、インタビューをしないと分からないことが多いです。このようなことを知った上で分析するかどうかは、その分析結果を解釈する上で非常に重要です。

 

5. データ分析:分析ミスに気が付くうえでも、最低限インタビューは必要

 今回は「現場を知らなすぎると呆れられる分析者達」というお話しをしました。データ分析結果を疑われる時、それは現場を知らなすぎると呆れられる時です。例えば、最初は驚きとともに迎えられる回帰分析は、過去の評価ができるだけでなく、未来の見通し(シミュレーション)もできるという優れものです。しかし、この回帰分析結果をきっかけに、データ分析の信頼性を失うこともあります。

 例えば、目的変数「来店客数」(y)と説明変数「新聞の折り込みチラシの配布枚数」(x)の散布図を描けば、チラシを撒けば撒くほど来店客数は増えています。しかし、目的変数「来店客数」(y)に対する、説明変数「新聞の折り込みチラシの配布枚数」(x)の「係数」(b)がマイナスになっている。散布図と回帰分析結果が逆になっている。

 このように、単純な散布図による分析結果と、ちょっと高度な回帰分析結果の、2つの分析結果が矛盾している、というケースはたまに起こります。現場の人からみれば、単純な散布図による分析結果のほうが感覚に合います。そうすると、回帰分析の結果に対し懐疑的になり、そしてデータ分析そのものに対する信頼も凋落します。では、どうすればよいのか?

 「回帰分析の係数のプラス・マイナスが、現場の感覚から乖離している」という問題に対処するには、回帰分析そのものの理解も必要です。しかし、それ以上に必要なのは「現場に近い人へのインタビュー」です。

 少なくとも「現場に近い人へのインタビュー」を実施していれば、自分が出した回帰分析の結果がおかしいことに気が付くことでしょう。結果がおかしいということは、その回帰分析のやり方にミスがあるということです。そのミスに気が付くうえでも、最低限インタビューは必要ですし、何よりも、その分析結果を解釈する上で非常に重要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
コア技術の利用を切り口としたオープン・イノベーションの類型  研究テーマの多様な情報源(その19)

  1.オープン・イノベーションの類型(インバウンドを対象に) ◆関連解説『情報マネジメントとは』    オープン・イノベーシ...

  1.オープン・イノベーションの類型(インバウンドを対象に) ◆関連解説『情報マネジメントとは』    オープン・イノベーシ...


BPMN、CMMN、DMNとは

   この歳になると、転職などは現実としてあまり考えられないし、ましてや良い転職先などはほとんど見つけられそうもないのですが、それでも定期的に...

   この歳になると、転職などは現実としてあまり考えられないし、ましてや良い転職先などはほとんど見つけられそうもないのですが、それでも定期的に...


SOR理論とデータ分析の「XYZフレームワーク」 データ分析講座(その158)

  ♦ レコメンド情報示し、確実なアクションを導く  今回は「SOR理論とデータ分析の『XYZフレームワーク』」の解説です。 ...

  ♦ レコメンド情報示し、確実なアクションを導く  今回は「SOR理論とデータ分析の『XYZフレームワーク』」の解説です。 ...


「情報マネジメント一般」の活用事例

もっと見る
生産スピード向上と品質管理

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...


たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...