有象無象なデータとは データ分析講座(その94)

更新日

投稿日

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るの...

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るのかが求められる時代だと、私は2012年頃のビッグデータブーム時に感じました。

5. データ分析:大量の低品質データを相手にする時代

 今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをしました。単なる、2000年と2012年のデータ分析ブームの比較で、本質的には何も変わっていないというお話しです。

 「大量の低品質なデータを上手く活用する」という根幹の部分が同じということです。そこで、私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」と強く感じました。

 私がこのように感じたある事例があります。ある大手電機メーカーの工場のデータ分析事例です。従来の統計的品質管理の統計学的アプローチでは上手くいかなくなったのです。詳細は、この連載の別の機会に、解説します。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データサイエンス実践、3つの壁 データ分析講座(その178)

  ◆ データ分析・活用(データサイエンス実践)の3つの壁  データ活用が上手くいかない原因として、何があると思いますか? 江戸時代の剣...

  ◆ データ分析・活用(データサイエンス実践)の3つの壁  データ活用が上手くいかない原因として、何があると思いますか? 江戸時代の剣...


販売力を高めるデータ分析の技術 データ分析講座(その185)

  ◆ 販売力を高めるデータ分析の技術 多くの企業にあるデータの1つが、販売系のデータだと思います。売上を計上する上で、必ず必要になるた...

  ◆ 販売力を高めるデータ分析の技術 多くの企業にあるデータの1つが、販売系のデータだと思います。売上を計上する上で、必ず必要になるた...


国立国会図書館オンラインNDL-OPACとは 技術情報を調べる(その2)

   今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっ...

   今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっ...


「情報マネジメント一般」の活用事例

もっと見る
人的資源マネジメント:製品開発の滞留を引き起こすファイルとは(その2)

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...


‐技術開発の目標について 第1回‐  製品・技術開発力強化策の事例(その15)

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...


守秘義務は情報社会の命綱

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...