ガベージイン・ゴスペルアウトとは データ分析講座(その100)

更新日

投稿日

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジ...

データ分析

◆ データ分析: 汚いデータでも成果を出すのが腕の見せ所

 ある程度データが溜まったらどのような分析手法でもいいので、一度データ分析をすることをお薦めします。そのことでデータの溜め方が多少なりとも、良い方向に向かうことでしょう。とはいえ、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。今回は「汚いデータでも成果を出すのが腕の見せ所」というお話しをします。

1. ガベージイン・ガベージアウト

 データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

 文字通り「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出してそれをお金に変える人もいます。その人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

2. ガベージイン・ゴスペルアウト

 安全保障の世界で考えればゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。ミサイルが飛んできて、データが汚いから座して死を待ちます、という人は少ないのではないでしょうか。通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。ガベージイン・ゴスペルアウトとは「ゴミみたいなデータからは、福音がでる」ということです。

(1) データ分析:2種類の汚いデータ

 汚いデータには2種類あります。

 1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。この辺りは一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

 2つめは、データそのものが怪しい汚いケースです。

 そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。このようなデータは、まず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データがどんなに汚いかを思い知ります。

(2) データ分析:汚いデータで分析するメリットは、計り知れない

 昔「自分の未熟な分析の腕を、データに擦り付けるな」と言われたことがあります。汚いデータから価値を見出せるかどうかは、データ分析者の腕次第だというのです。なかなか大変なことです。汚いデータには色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。その代わり、汚いデータで分析するメリットは計り知れません。

 例えばどのようなデータを、どのように蓄積すればいいのかが見えてきます。また、データ分析者のビジネス活用スキルが飛躍的に向上します。

(3) データ分析:どのようなデータを、どのように蓄積すればいいのかが見える

 よく次のようなことを聞きますが一度「それなりのデータ分析」をしてみれば、多くの場合、解決します。

  • 「どのようなデータを集めればいいのか分からない」
  • 「今集めているデータが、これでいいのか不安だ」
  • 「どのように分析すればいいのかイメージがわかない」 

 「それなりのデータ分析」とは何かという疑問を持つ人もいるかもしれません。「それなりのデータ分析」とは、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

 実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しい、こういう風にデータを蓄積していくとよさそうだ、など色々なことを思うことでしょう。少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

(4) データ分析者のビジネス活用スキルが飛躍的に向上する

 汚いデータを整備して分析し、その結果を読み込み現実世界へフィードバックする作業は非常に大変です。

 データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに壁にぶち当たり、苦労して出した分析結果が怪しい、なぜならばデータが怪しいから、などということが起こります。

 そもそものデータの中でどの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか、怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか、さらにその歪んだ結果を、どのように定性的な解釈で乗り越えるのか、データの整備から分析、解釈を行うことでデータ分析のビジネス活用スキルが否が応でも高められます。しかしこのような状況下では一人でデータ分析を進めるのは危険です。できればデータ分析の上級者に相談しながら進めましょう。軌道修正する人が必要です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
セキュリティ認証 制御システム(その7)

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...


リスク分析とセキュリティ脅威 制御システム(その3)

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...


実例で学ぶMCAR、MAR、MNARの全貌:データ分析講座(その346)

【目次】 データサイエンスの世界では、欠損データは避けて通れない問題です。データが完全でないことは、分析の正確性や結果の信頼性に大き...

【目次】 データサイエンスの世界では、欠損データは避けて通れない問題です。データが完全でないことは、分析の正確性や結果の信頼性に大き...


「情報マネジメント一般」の活用事例

もっと見る
ソフトウェア特許とは(その2)

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...


‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...


ソフトウェア特許とは(その1)

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...