ガベージイン・ゴスペルアウトとは データ分析講座(その100)

更新日

投稿日

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジ...

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

(4) データ分析者のビジネス活用スキルが飛躍的に向上する

 汚いデータを整備して分析し、その結果を読み込み現実世界へフィードバックする作業は非常に大変です。

 データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに壁にぶち当たり、苦労して出した分析結果が怪しい、なぜならばデータが怪しいから、などということが起こります。

 そもそものデータの中でどの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか、怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか、さらにその歪んだ結果を、どのように定性的な解釈で乗り越えるのか、データの整備から分析、解釈を行うことでデータ分析のビジネス活用スキルが否が応でも高められます。しかしこのような状況下では一人でデータ分析を進めるのは危険です。できればデータ分析の上級者に相談しながら進めましょう。軌道修正する人が必要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
営業に「行くべき顧客」とは データ分析講座(その37)

◆ 営業が「行きたがる顧客」ではなく「行くべき顧客」を、ちょっとしたデータで明らかにする方法  どの企業にでもあるのが、過去の取引データです。いつど...

◆ 営業が「行きたがる顧客」ではなく「行くべき顧客」を、ちょっとしたデータで明らかにする方法  どの企業にでもあるのが、過去の取引データです。いつど...


問題解決フレームワークPPDACとは データ分析講座(その147)

   データを使い、実務的な課題をどのように解決していくのか、というデータ活用上の問題があります。幾つか方法がありますが、最も取り組みやす...

   データを使い、実務的な課題をどのように解決していくのか、というデータ活用上の問題があります。幾つか方法がありますが、最も取り組みやす...


立場によって意味合いが異なる見える化 データ分析講座(その126)

◆ 「データによる見える化」で見たいものが異なる人々  データ分析・活用の第一歩として「見える化」というキーワードがあります。まずはデータを収集し現...

◆ 「データによる見える化」で見たいものが異なる人々  データ分析・活用の第一歩として「見える化」というキーワードがあります。まずはデータを収集し現...


「情報マネジメント一般」の活用事例

もっと見る
電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...


レストランでのタブレット端末

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...