有象無象なデータとは データ分析講座(その94)

更新日

投稿日

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るの...

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るのかが求められる時代だと、私は2012年頃のビッグデータブーム時に感じました。

5. データ分析:大量の低品質データを相手にする時代

 今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをしました。単なる、2000年と2012年のデータ分析ブームの比較で、本質的には何も変わっていないというお話しです。

 「大量の低品質なデータを上手く活用する」という根幹の部分が同じということです。そこで、私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」と強く感じました。

 私がこのように感じたある事例があります。ある大手電機メーカーの工場のデータ分析事例です。従来の統計的品質管理の統計学的アプローチでは上手くいかなくなったのです。詳細は、この連載の別の機会に、解説します。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
災害時の対処とデータ分析・活用 データ分析講座(その169)

  ◆ 災害予測は難しいが、データを使った災害対応は可能  データを使った災害予測は非常に難しいようです。特に、自然現象が相手となる天災...

  ◆ 災害予測は難しいが、データを使った災害対応は可能  データを使った災害予測は非常に難しいようです。特に、自然現象が相手となる天災...


早わかりEDA:Electronic Design Automation

  集積回路、プリント回路基板設計と検証に使われるワークフロー、アプリケーション、手法は、CAE (Computer-Aided Engi...

  集積回路、プリント回路基板設計と検証に使われるワークフロー、アプリケーション、手法は、CAE (Computer-Aided Engi...


見込み顧客の受注予測とは データ分析講座(その252)

  法人相手のビジネスやECサイト、個別面談を通すようなビジネスなどでは、顧客をIDベースで追えるケースが多いのです。運が良ければ、リード...

  法人相手のビジネスやECサイト、個別面談を通すようなビジネスなどでは、顧客をIDベースで追えるケースが多いのです。運が良ければ、リード...


「情報マネジメント一般」の活用事例

もっと見る
情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


システムトラブル、誰に相談したら良いか

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...


‐販路開拓に関する問題 第2回‐ 製品・技術開発力強化策の事例(その18)

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....