より高度な分析にこだわる罠とは データ分析講座(その51)

更新日

投稿日

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という...

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という観点で考えると、あまりよい結果にはなりません。より高度になればなるほど、活用されにくくなるということです。マーケティングや営業などの人が介在するデータ活用では、特にそうです。では、どの程度高度なデータ分析やモデル構築であれば、よいのでしょうか。その見極めのための一番大きな試金石が、「分析者本人が他人に上手く説明できるかどうか」になります。実務で実施するデータ分析は、自分で説明できないものはやめましょう。間違った分析やモデル構築をするケースが多いからです。

 そして、説明できたとしても、やたらめったら時間がかかるようであれば、それも避けた方が良いでしょう。活用タイミングを逃すからです。理想は、「スピィーディにより高度な分析(もしくは、より高度な予測モデル構築)を実施し、他人にもきちんと説明できる」です。

 スピード面に不安があるときは、例えば予測モデル構築であれば、先ずは「単純な予測モデル」を構築し活用する側に渡し、残りの時間が許す限り「より高度は予測モデル」にチャレンジするのがよいでしょう。もちろん、他人に説明できるということが大前提ですが。

 もし、実務でのデータ活用が上手くいかない! と感じたら、いたずらに分析が小難しくなっていないかをチャックしてみると良いと思います。データ活用が上手く回るきっかけになるかもしれません。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
IT化が貧弱でも、すぐれた洞察力さえあればどうにかなる データ分析講座(その54)

◆ データ活用では、最後は洞察力がものをいう  今はビッグデータの時代と言われ、そのデータをどうにか活用しようと、大企業とベンチャー企業を中心に、し...

◆ データ活用では、最後は洞察力がものをいう  今はビッグデータの時代と言われ、そのデータをどうにか活用しようと、大企業とベンチャー企業を中心に、し...


検索の基礎とデータベース 技術情報を調べる(その1)

    今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっている方へも対応...

    今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっている方へも対応...


3つの市場シェアとは データ分析講座(その256)

  【この連載の前回:データ分析講座(その255)生存時間分析とはへのリンク】   簡単に計算できそうでできない指標の1つに...

  【この連載の前回:データ分析講座(その255)生存時間分析とはへのリンク】   簡単に計算できそうでできない指標の1つに...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...