ビッグデータにまつわる病とは

更新日

投稿日

情報マネジメント

 以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。

 私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。

1.機械学習とは

 データを与えて、機械学習のモデルを学習させて、予測する方法です。

  • 学習データ:今回の事例では画像データ
  • 学習器:機械学習のモデル
  • 予測

2.機械学習の種類

  • 教師あり学習:ロジスティクス回帰、サポートベクトルマシン、ランダムフォレスト、ニューラルネットワークなど
  • 教師なし学習:主成分分析、K-means、混合ガウス分布など
  • 教科学習

 分析はできるのですが、解析結果、良不良の判別率が上がりません。

 そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。

 先生にその点を発表しましたら、鋭い評価を頂きました。

 実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。

3.結果の扱い方

  • 予測結果の精度を上げる
  • 予測結果が予測データを解釈ための使う
  • 実データから今後の予測する

 ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。

 手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。

 データから目的、課題に対してにどう活かせるか、どう反映させられるかです。

 確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。

 数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上...

情報マネジメント

 以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。

 私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。

1.機械学習とは

 データを与えて、機械学習のモデルを学習させて、予測する方法です。

  • 学習データ:今回の事例では画像データ
  • 学習器:機械学習のモデル
  • 予測

2.機械学習の種類

  • 教師あり学習:ロジスティクス回帰、サポートベクトルマシン、ランダムフォレスト、ニューラルネットワークなど
  • 教師なし学習:主成分分析、K-means、混合ガウス分布など
  • 教科学習

 分析はできるのですが、解析結果、良不良の判別率が上がりません。

 そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。

 先生にその点を発表しましたら、鋭い評価を頂きました。

 実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。

3.結果の扱い方

  • 予測結果の精度を上げる
  • 予測結果が予測データを解釈ための使う
  • 実データから今後の予測する

 ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。

 手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。

 データから目的、課題に対してにどう活かせるか、どう反映させられるかです。

 確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。

 数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上していきます。データ分析をしていると、目的に対してどう活用するより、データ処理に焦点を当ててしまいがちです。組織はテクニックに興味ありません。そこで時間も、投資も行っています。

 データから何を見つけられるか、データ分析者が作業をただしているのでは意味がありません。なにを目的にその処理をするのか、それを忘れないように痛感した出来事でした。

4.実務での扱い方

  • 良不良判定の解釈と活用方法
  • 今後、人間による判断から、ビッグデータ分析に変える

【参考文献】加藤公一監修、秋庭伸也他著『機械学習図鑑』翔泳社、2019年

 

   続きを読むには・・・


この記事の著者

石川 朋雄

日本のものづくりは品質向上に切磋琢磨し,高品質な商品を開発しました。高品質商品と顧客価値創造を融合する商品企画のシステム化を提案します。

日本のものづくりは品質向上に切磋琢磨し,高品質な商品を開発しました。高品質商品と顧客価値創造を融合する商品企画のシステム化を提案します。


「データマイニング/ビッグデータ」の他のキーワード解説記事

もっと見る
最終回 ビッグデータ処理による機械学習・データマイニング (その3)

  【ビッグデータ処理による機械学習・データマイニング 連載目次】 1. 機械学習とビッグデータの関係性 2. 機械学習法と数理モデリング...

  【ビッグデータ処理による機械学習・データマイニング 連載目次】 1. 機械学習とビッグデータの関係性 2. 機械学習法と数理モデリング...


データマイニングで使われるツール

 データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。   1.スプレッドシ...

 データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。   1.スプレッドシ...


ビッグデータとデータマイニング

 データマイニングは、大量のデータから有用な知識・情報を取り出す技術のことです。マイニングとは、鉱山から鉱物を掘り出す作業のことで、あたかもデータの山から...

 データマイニングは、大量のデータから有用な知識・情報を取り出す技術のことです。マイニングとは、鉱山から鉱物を掘り出す作業のことで、あたかもデータの山から...