現場感とデータ分析 データ分析講座(その219)

投稿日

データ分析

 

【この連載の前回:データ分析講座(その218)見える化の魔力へのリンク】

データから新たな知見を得たい! という要望は、昔からあります。仮説発見をするぞという、データマイニングがその現れでしょう。従来のメインが「仮説検証型データ分析」で、それを進化させたような感じを与えるようなモノでした。最近ですと、未来創造型と言えそうです。仮説検証から仮説発見へ、仮説発見から未来創造へ、ということです。

 

「未来創造型データ分析」はさておき、仮説発見は本当に起こり得るのでしょうか?今回は、「現場感とデータ分析(どちらかというと仮説探索型データ分析)」というお話しをします。

【目次】
1.仮説発見
2.データは過去の一部分に過ぎない
3.現場から見たら当然のことが多い
4.現場感に合わないデータ分析結果は怪しいケースが多い
5.記録は何のためにする?
6.どちらかというと、仮説探索型

 

1.仮説発見

「仮説発見型データ分析」とは、「缶ビールと紙おむつが同時購買されている!」みたいな新たなルールをデータから発見することです。

 

「缶ビールと紙おむつ」の事例
1998年の米国のForbes誌で紹介されたものです。当時のNCR社が米国にある小売店であるオスコのデータを分析して得た併買ルールです。この新たに発見されたルールで収益を拡大したとは、Forbes誌には記載されていません。

 

「発見」とは「今まで知られていない物事を初めて見いだすこと」です。「今まで知られていない物事を初めて見いだすこと」は、本当にデータで可能なのでしょうか?

 

2.データは過去の一部分に過ぎない

当然のことですが、データは過去の一部分に過ぎません。要するに、過去全体を知ることはできません。そのため、データ分析をするとき、分析者の洞察力や前提になる知識が必要になってきます。

 

「缶ビールと紙おむつが同時購買されている!」というデータ分析結果を見たとき、洞察力や前提知識などによって、反応が異なり、次のように分かれます。

  • 現場から見たら「わかる、わかる」
  • 現場から距離があるほど「へぇ、面白い」

 

3.現場から見たら当然のことが多い

データは過去の一部分に過ぎません。データの発生源に近いところで働いている現場の人にとって、毎日のように接している事象です。先ほどの「缶ビールと紙おむつ」で考えると、本当に缶ビールと紙おむつがよく併買されているのなら、レジ係は知っているはずです。毎日のように目の前で見ていますし、そのレジ打ちをするからです。

 

現場から距離があるほど、この事実を知りません。現場を知らないからです。

 

4.現場感に合わないデータ分析結果は怪しいケースが多い

データ分析結果を現場の人に見てもらうことは非常に重要です。現場感に合わないデータ分析結果は怪しいケースが多いからです。現場にとって全く身に覚えのないことがデータに記録されることは、稀だからです。現場から距離のある人にデータ分析結果を見てもらい、「面白い! 使える! これいいね!」と言ってもらえても、現場から見たら「そんなことはない」となることもあります。それは、どこかでミスっているのです。

 

5.記録は何のためにする?

データは、過去の一部分を記録したものです。記録は何のためにするのでしょうか?答えは人それぞれだとは思いますが、例えば「思い出すため」という用途もあるのではないでしょうか。データを分析し、現場の人に見てもらったときに、「あぁ確かに、こんなことあった」という感じです。

 

さらに、「何となく分かっていた現実」を再認識させるという用途もありそ...

データ分析

 

【この連載の前回:データ分析講座(その218)見える化の魔力へのリンク】

データから新たな知見を得たい! という要望は、昔からあります。仮説発見をするぞという、データマイニングがその現れでしょう。従来のメインが「仮説検証型データ分析」で、それを進化させたような感じを与えるようなモノでした。最近ですと、未来創造型と言えそうです。仮説検証から仮説発見へ、仮説発見から未来創造へ、ということです。

 

「未来創造型データ分析」はさておき、仮説発見は本当に起こり得るのでしょうか?今回は、「現場感とデータ分析(どちらかというと仮説探索型データ分析)」というお話しをします。

【目次】
1.仮説発見
2.データは過去の一部分に過ぎない
3.現場から見たら当然のことが多い
4.現場感に合わないデータ分析結果は怪しいケースが多い
5.記録は何のためにする?
6.どちらかというと、仮説探索型

 

1.仮説発見

「仮説発見型データ分析」とは、「缶ビールと紙おむつが同時購買されている!」みたいな新たなルールをデータから発見することです。

 

「缶ビールと紙おむつ」の事例
1998年の米国のForbes誌で紹介されたものです。当時のNCR社が米国にある小売店であるオスコのデータを分析して得た併買ルールです。この新たに発見されたルールで収益を拡大したとは、Forbes誌には記載されていません。

 

「発見」とは「今まで知られていない物事を初めて見いだすこと」です。「今まで知られていない物事を初めて見いだすこと」は、本当にデータで可能なのでしょうか?

 

2.データは過去の一部分に過ぎない

当然のことですが、データは過去の一部分に過ぎません。要するに、過去全体を知ることはできません。そのため、データ分析をするとき、分析者の洞察力や前提になる知識が必要になってきます。

 

「缶ビールと紙おむつが同時購買されている!」というデータ分析結果を見たとき、洞察力や前提知識などによって、反応が異なり、次のように分かれます。

  • 現場から見たら「わかる、わかる」
  • 現場から距離があるほど「へぇ、面白い」

 

3.現場から見たら当然のことが多い

データは過去の一部分に過ぎません。データの発生源に近いところで働いている現場の人にとって、毎日のように接している事象です。先ほどの「缶ビールと紙おむつ」で考えると、本当に缶ビールと紙おむつがよく併買されているのなら、レジ係は知っているはずです。毎日のように目の前で見ていますし、そのレジ打ちをするからです。

 

現場から距離があるほど、この事実を知りません。現場を知らないからです。

 

4.現場感に合わないデータ分析結果は怪しいケースが多い

データ分析結果を現場の人に見てもらうことは非常に重要です。現場感に合わないデータ分析結果は怪しいケースが多いからです。現場にとって全く身に覚えのないことがデータに記録されることは、稀だからです。現場から距離のある人にデータ分析結果を見てもらい、「面白い! 使える! これいいね!」と言ってもらえても、現場から見たら「そんなことはない」となることもあります。それは、どこかでミスっているのです。

 

5.記録は何のためにする?

データは、過去の一部分を記録したものです。記録は何のためにするのでしょうか?答えは人それぞれだとは思いますが、例えば「思い出すため」という用途もあるのではないでしょうか。データを分析し、現場の人に見てもらったときに、「あぁ確かに、こんなことあった」という感じです。

 

さらに、「何となく分かっていた現実」を再認識させるという用途もありそうです。

 

6.どちらかというと、仮説探索型

冒頭に、「缶ビールと紙おむつが同時購買されている!」というお話しをしました。

 

このような新たなルールをデータから見つけるのは、どちらかというと「仮説探索型データ分析」といった方がしっくりきます。「発見」(知られていないことを初めて見いだす)というよりも「探索」(見落しているものを探している)という感じです。

 

データを使い、見落しているものを探し出し炙り出す、そんな感じです。炙り出された現実の多くは、現場感と合うケースが多いのです。ちなみに、データから知られていないことを初めて見いだす「発見」の可能性が皆無ではありません。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
知恵が鍵を握る時代 データ分析講座(その114)

◆ データが鍵を握る時代の到来  データが鍵を握る時代が到来しましたが、拒否反応とともに「データごときに何ができる」というような意見が聞こえてきます...

◆ データが鍵を握る時代の到来  データが鍵を握る時代が到来しましたが、拒否反応とともに「データごときに何ができる」というような意見が聞こえてきます...


点過程データと時系列データ データ分析講座(その266)

  時系列(time series)データと混同されやすいデータに点過程(point process)データがあります。点過程時系列データ...

  時系列(time series)データと混同されやすいデータに点過程(point process)データがあります。点過程時系列データ...


統計的機械学習で使用する混同行列と評価指標 データ分析講座(その296)

  統計的機械学習の世界に、2 値分類問題というものがあります。例えば、受注 or 失注、継続 or 離反、異常 or 正常、死亡 or ...

  統計的機械学習の世界に、2 値分類問題というものがあります。例えば、受注 or 失注、継続 or 離反、異常 or 正常、死亡 or ...


「情報マネジメント一般」の活用事例

もっと見る
中小製造業とIoTの波

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...


ソフトウェア特許とは(その2)

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...