ガベージイン・ゴスペルアウトとは データ分析講座(その100)

更新日

投稿日

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジ...

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

(4) データ分析者のビジネス活用スキルが飛躍的に向上する

 汚いデータを整備して分析し、その結果を読み込み現実世界へフィードバックする作業は非常に大変です。

 データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに壁にぶち当たり、苦労して出した分析結果が怪しい、なぜならばデータが怪しいから、などということが起こります。

 そもそものデータの中でどの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか、怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか、さらにその歪んだ結果を、どのように定性的な解釈で乗り越えるのか、データの整備から分析、解釈を行うことでデータ分析のビジネス活用スキルが否が応でも高められます。しかしこのような状況下では一人でデータ分析を進めるのは危険です。できればデータ分析の上級者に相談しながら進めましょう。軌道修正する人が必要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
変化に適応し柔軟に動くための運用サイクルとは データ分析講座(その28)

◆ OODAループとデータ分析  営業やマーケティングの現場で、変化に適応し柔軟に「動くため」の運用サイクルがあります。OODA(Observe-O...

◆ OODAループとデータ分析  営業やマーケティングの現場で、変化に適応し柔軟に「動くため」の運用サイクルがあります。OODA(Observe-O...


IoBとは、-活用事例、リスクおよび今後の展開-

  各種センサーデバイスの進化により、身の回りの事象データが取得できるようになってきました。すでにIoT(Internet of Thin...

  各種センサーデバイスの進化により、身の回りの事象データが取得できるようになってきました。すでにIoT(Internet of Thin...


データ分析・活用、進化の順番とは データ分析講座(その111)

◆ データ分析・活用には進化の順番がある。最初は「効率化」で次は「多様化」  今あるデータやこれから取得するであろうデータで何をするのか。これはデー...

◆ データ分析・活用には進化の順番がある。最初は「効率化」で次は「多様化」  今あるデータやこれから取得するであろうデータで何をするのか。これはデー...


「情報マネジメント一般」の活用事例

もっと見る
生産スピード向上と品質管理

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...


電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...


個票データの共用化でコストダウン

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...