有象無象なデータとは データ分析講座(その94)

更新日

投稿日

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るの...

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るのかが求められる時代だと、私は2012年頃のビッグデータブーム時に感じました。

5. データ分析:大量の低品質データを相手にする時代

 今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをしました。単なる、2000年と2012年のデータ分析ブームの比較で、本質的には何も変わっていないというお話しです。

 「大量の低品質なデータを上手く活用する」という根幹の部分が同じということです。そこで、私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」と強く感じました。

 私がこのように感じたある事例があります。ある大手電機メーカーの工場のデータ分析事例です。従来の統計的品質管理の統計学的アプローチでは上手くいかなくなったのです。詳細は、この連載の別の機会に、解説します。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
課題解決アプローチ データ分析講座(その101)

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...


自動機械学習 データ分析講座(その184)

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...


取引履歴データ データ分析講座(その9)

  ◆ 営業データ分析は、どの企業にもある「取引履歴データ」だけで成果は出る  「取引履歴ぐらいしか、データ無いんだけど…...

  ◆ 営業データ分析は、どの企業にもある「取引履歴データ」だけで成果は出る  「取引履歴ぐらいしか、データ無いんだけど…...


「情報マネジメント一般」の活用事例

もっと見る
守秘義務は情報社会の命綱

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...


‐技術開発の目標について 第2回‐  製品・技術開発力強化策の事例(その16)

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....


人的資源マネジメント:データ指向ものづくりがもたらす高い生産性

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...