ビッグデータにまつわる病とは

 以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。

 私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。

1.機械学習とは

 データを与えて、機械学習のモデルを学習させて、予測する方法です。

2.機械学習の種類

 分析はできるのですが、解析結果、良不良の判別率が上がりません。

 そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。

 先生にその点を発表しましたら、鋭い評価を頂きました。

 実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。

3.結果の扱い方

 ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。

 手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。

 データから目的、課題に対してにどう活かせるか、どう反映させられるかです。

 確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。

 数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上...

していきます。データ分析をしていると、目的に対してどう活用するより、データ処理に焦点を当ててしまいがちです。組織はテクニックに興味ありません。そこで時間も、投資も行っています。

 データから何を見つけられるか、データ分析者が作業をただしているのでは意味がありません。なにを目的にその処理をするのか、それを忘れないように痛感した出来事でした。

4.実務での扱い方

  • 良不良判定の解釈と活用方法
  • 今後、人間による判断から、ビッグデータ分析に変える

【参考文献】加藤公一監修、秋庭伸也他著『機械学習図鑑』翔泳社、2019年

 

◆関連解説『情報マネジメントとは』

↓ 続きを読むには・・・

新規会員登録


この記事の著者