ガベージイン・ゴスペルアウトとは データ分析講座(その100)

更新日

投稿日

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジ...

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

(4) データ分析者のビジネス活用スキルが飛躍的に向上する

 汚いデータを整備して分析し、その結果を読み込み現実世界へフィードバックする作業は非常に大変です。

 データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに壁にぶち当たり、苦労して出した分析結果が怪しい、なぜならばデータが怪しいから、などということが起こります。

 そもそものデータの中でどの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか、怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか、さらにその歪んだ結果を、どのように定性的な解釈で乗り越えるのか、データの整備から分析、解釈を行うことでデータ分析のビジネス活用スキルが否が応でも高められます。しかしこのような状況下では一人でデータ分析を進めるのは危険です。できればデータ分析の上級者に相談しながら進めましょう。軌道修正する人が必要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
「KPI」と「KGI」 データ分析講座(その30)

◆ 営業やマーケティング担当者が、OODAループでモニタリングする指標(KPIなど)は絞る  指標(KPIなど)が1つ2つであれな問題ないのですが、...

◆ 営業やマーケティング担当者が、OODAループでモニタリングする指標(KPIなど)は絞る  指標(KPIなど)が1つ2つであれな問題ないのですが、...


データ分析結果のレポートとは データ分析講座(その91)

  ◆ 受験の模擬テスト結果レポートは、優れたデータ分析レポート  受験生は受験に向けて、模擬テストを受けると思います。ある模擬テスト結果の...

  ◆ 受験の模擬テスト結果レポートは、優れたデータ分析レポート  受験生は受験に向けて、模擬テストを受けると思います。ある模擬テスト結果の...


営業データ分析で冒険的なチャレンジをやり続ける データ分析講座(その14)

  ◆ 営業データ分析で冒険的なチャレンジができるからワクワクする  「データから何か新しい発見したいのだけど」よくこのような質問をされ...

  ◆ 営業データ分析で冒険的なチャレンジができるからワクワクする  「データから何か新しい発見したいのだけど」よくこのような質問をされ...


「情報マネジメント一般」の活用事例

もっと見る
P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...


‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...