ガベージイン・ゴスペルアウトとは データ分析講座(その100)

更新日

投稿日

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジ...

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

(4) データ分析者のビジネス活用スキルが飛躍的に向上する

 汚いデータを整備して分析し、その結果を読み込み現実世界へフィードバックする作業は非常に大変です。

 データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに壁にぶち当たり、苦労して出した分析結果が怪しい、なぜならばデータが怪しいから、などということが起こります。

 そもそものデータの中でどの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか、怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか、さらにその歪んだ結果を、どのように定性的な解釈で乗り越えるのか、データの整備から分析、解釈を行うことでデータ分析のビジネス活用スキルが否が応でも高められます。しかしこのような状況下では一人でデータ分析を進めるのは危険です。できればデータ分析の上級者に相談しながら進めましょう。軌道修正する人が必要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
新規拡大、既存奪い取りの判断指標とは データ分析講座(その259)

  売上増の方向性としては、次の2つがあります。 すでに市場にいる既存顧客を競合から奪い取る 市場規模を拡大すべく市場外からの新規...

  売上増の方向性としては、次の2つがあります。 すでに市場にいる既存顧客を競合から奪い取る 市場規模を拡大すべく市場外からの新規...


時系列データの3つの見方とは データ分析講座(その46)

◆ 売上分析指標(KPIなど)の3つの見方  売上分析をするデータの多くは、時系列データと呼ばれるものです。時系列データとは、時系列に推移したデータ...

◆ 売上分析指標(KPIなど)の3つの見方  売上分析をするデータの多くは、時系列データと呼ばれるものです。時系列データとは、時系列に推移したデータ...


より高度な分析にこだわる罠とは データ分析講座(その51)

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実  データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によって...

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実  データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によって...


「情報マネジメント一般」の活用事例

もっと見る
‐クレ-ム情報を開発に活用‐  製品・技術開発力強化策の事例(その13)

 前回の事例その12に続いて解説します。顧客から出されたクレ-ムは、技術開発や、関連製品の開発の可能性を潜在させている場合が多いようです。その視点からクレ...

 前回の事例その12に続いて解説します。顧客から出されたクレ-ムは、技術開発や、関連製品の開発の可能性を潜在させている場合が多いようです。その視点からクレ...


P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...


ソフトウェア特許とは(その1)

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...