データサイエンスの基礎体力づくりとは データ分析講座(その278)

投稿日

データ分析

 

ビジネスの現場でデータ活用するには、現場の事情を知る必要もありますし、現場に寄り添わなければなりません。ただし、データサイエンスの基礎的な部分が疎かなデータ分析者やデータサイエンティスト、機械学習エンジニアですと、現場に寄り添う以前の問題があります。どんな問題かと言いますと、手法の使い方や解釈が理解不足という問題です。

 

人は間違いますし、勘違いも大いにあります。得手不得手や興味の偏りなどから、知識には濃淡があります。すべてを深く正しく理解する人は存在しません。しかし、データ活用する現場に悪影響を与えるようですと問題です。今回は「データサイエンスの基礎体力づくり」というお話しです。

 

【目次】
1. データをインプットした結果
2. 欠測値をすべて0にしました
3. ツール活用に数理の力をプラス
4. 身をもって体験することが重要

 

【この連載の前回:(その277)横展開という悪魔へのリンク】

◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

1. データをインプットした結果

最近の分析ツールの発展は目を見張るものがあります。ツールに、それっぽいデータをインプットしたら、それっぽい結果が返ってくることがあります。どのような処理を内部でしているのか不思議なくらいです。

 

例えば、インプットしたデータの変数が、量的データ(ニューメリックデータ)なのか質的データ(カテゴリカルデータ)なのかを、あるルールに則り自動判別しているようでした。自動判別後、それを人の目で見て修正できるようになっていたのですが、そのまま分析をしている方を目撃したことがあります。そもそも、自動判別していることすら気がついていないようでした。

 

実際、顧客データの都道府県をあらわす変数が「1:北海道、2:青森、3:岩手、…」のように数字で入っていました。それを、自動判別装置は量的データ(ニューメリックデータ)としていました。本来は、質的データ(カテゴリカルデータ)です。この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。

 

2. 欠測値をすべて0にしました

こちらも、たまに目にする恐ろしい事例です。データには欠測値という歯抜けの状態のものがあります。欠測値が多い変数は使えませんし、欠測値だらけのレコードは抜いた方がいいでしょう。

 

欠測値のある変数やレコードを無理に使うのであれば、欠測値補完をする必要があります。そこで、欠測値(歯抜けのデータ)をすべて「0」で置き換えてしまうという、恐ろしいことをする方がたまにいます。一度「0」で置き換えてしまうと、欠測値だから「0」にしたデータと、もともと「0」だったデータと見分けがつかず、その変数やレコードが使えなくなります。

 

ただ、この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。こちらは、ツールの問題というよりもリテラシーの問題です。他にも色々なよくある恐ろしい事例がありますが、共通しているのが、ツール依存でデータサイエンスの基礎体力づくりをしているという点です。

 

3. ツール活用に数理の力をプラス

ツール依存でデータサイエンスの基礎体力づくりをすることは、悪いことではありません。実務では、大いにツールを活用するからです。そこに数理の力がプラスされると、大いなる力になるのではないかと思います。

 

数理の力とは、例えば、これから構築しようとしているモデルを、数式でイメージする、といった類のものです。意味不明な定理を証明するわけでもなく、小難しい数式展開をするわけでもなく、単にイメージするだけです。

 

イメージできれば、都道府県をあらわす変数「1:北海道、2:青森、3:岩手、…」を量的データ(ニューメリックデータ)として主成分分析や回帰分析に利用しないかなぁ~と思います。正直、数式でイメージすることはハードルが高いので、数式+図(脳内映像)でイメージできるといいのかな、と思ったりします。

 

4. 身をもって体験することが重要

正直、数式+図(脳内映像)でイメージするのもハードルが高い気がするので、結局のところ場数かなとも思います。身をもって体験する、ことが重要なのかもしれません。ただ困ったことに、周囲に指摘できる人や指導できる人、教育できる人などがいないと、おかしなことをおかしなまま気づかず、やり続けるといいう危険性は大いにあります。弱小運動部がたいさん練習しているのに弱小のまま、みたいな感じです。

 

スポーツなどで基本を身につけるために、100本ノックのごとく、一見つまらなそうな基本動作を徹底的にトレーニングすることがあります。

...

データ分析

 

ビジネスの現場でデータ活用するには、現場の事情を知る必要もありますし、現場に寄り添わなければなりません。ただし、データサイエンスの基礎的な部分が疎かなデータ分析者やデータサイエンティスト、機械学習エンジニアですと、現場に寄り添う以前の問題があります。どんな問題かと言いますと、手法の使い方や解釈が理解不足という問題です。

 

人は間違いますし、勘違いも大いにあります。得手不得手や興味の偏りなどから、知識には濃淡があります。すべてを深く正しく理解する人は存在しません。しかし、データ活用する現場に悪影響を与えるようですと問題です。今回は「データサイエンスの基礎体力づくり」というお話しです。

 

【目次】
1. データをインプットした結果
2. 欠測値をすべて0にしました
3. ツール活用に数理の力をプラス
4. 身をもって体験することが重要

 

【この連載の前回:(その277)横展開という悪魔へのリンク】

◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

1. データをインプットした結果

最近の分析ツールの発展は目を見張るものがあります。ツールに、それっぽいデータをインプットしたら、それっぽい結果が返ってくることがあります。どのような処理を内部でしているのか不思議なくらいです。

 

例えば、インプットしたデータの変数が、量的データ(ニューメリックデータ)なのか質的データ(カテゴリカルデータ)なのかを、あるルールに則り自動判別しているようでした。自動判別後、それを人の目で見て修正できるようになっていたのですが、そのまま分析をしている方を目撃したことがあります。そもそも、自動判別していることすら気がついていないようでした。

 

実際、顧客データの都道府県をあらわす変数が「1:北海道、2:青森、3:岩手、…」のように数字で入っていました。それを、自動判別装置は量的データ(ニューメリックデータ)としていました。本来は、質的データ(カテゴリカルデータ)です。この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。

 

2. 欠測値をすべて0にしました

こちらも、たまに目にする恐ろしい事例です。データには欠測値という歯抜けの状態のものがあります。欠測値が多い変数は使えませんし、欠測値だらけのレコードは抜いた方がいいでしょう。

 

欠測値のある変数やレコードを無理に使うのであれば、欠測値補完をする必要があります。そこで、欠測値(歯抜けのデータ)をすべて「0」で置き換えてしまうという、恐ろしいことをする方がたまにいます。一度「0」で置き換えてしまうと、欠測値だから「0」にしたデータと、もともと「0」だったデータと見分けがつかず、その変数やレコードが使えなくなります。

 

ただ、この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。こちらは、ツールの問題というよりもリテラシーの問題です。他にも色々なよくある恐ろしい事例がありますが、共通しているのが、ツール依存でデータサイエンスの基礎体力づくりをしているという点です。

 

3. ツール活用に数理の力をプラス

ツール依存でデータサイエンスの基礎体力づくりをすることは、悪いことではありません。実務では、大いにツールを活用するからです。そこに数理の力がプラスされると、大いなる力になるのではないかと思います。

 

数理の力とは、例えば、これから構築しようとしているモデルを、数式でイメージする、といった類のものです。意味不明な定理を証明するわけでもなく、小難しい数式展開をするわけでもなく、単にイメージするだけです。

 

イメージできれば、都道府県をあらわす変数「1:北海道、2:青森、3:岩手、…」を量的データ(ニューメリックデータ)として主成分分析や回帰分析に利用しないかなぁ~と思います。正直、数式でイメージすることはハードルが高いので、数式+図(脳内映像)でイメージできるといいのかな、と思ったりします。

 

4. 身をもって体験することが重要

正直、数式+図(脳内映像)でイメージするのもハードルが高い気がするので、結局のところ場数かなとも思います。身をもって体験する、ことが重要なのかもしれません。ただ困ったことに、周囲に指摘できる人や指導できる人、教育できる人などがいないと、おかしなことをおかしなまま気づかず、やり続けるといいう危険性は大いにあります。弱小運動部がたいさん練習しているのに弱小のまま、みたいな感じです。

 

スポーツなどで基本を身につけるために、100本ノックのごとく、一見つまらなそうな基本動作を徹底的にトレーニングすることがあります。

 

データサイエンスも基礎体力づくりも同様で、基本的な定式化やツール操作、解釈などを、馬鹿みたいに繰り返したほうがいいでしょう。しかも、同じデータに対し繰り返しです。受験生が何度も過去問を解くようにです。さらに、自分が関わっていないプロジェクトのデータなどを入手できるのであれば入手し、自分なりに基本的な定式化やツール操作、解釈などを実施するのもいいでしょう。受験生が模擬テストを受験するかのごとくです。

 

これを繰り返すと「あのときのやり方が今回使えそうだけど、あのときどうやったっけ???」みたいな忘却がある程度防げます。データ分析やデータサイエンスに関連する数理的な書籍も、何度も何度も読んで頭の中にインプットしておいたほうがいいでしょう。

 

データサイエンスの基礎体力づくりは、場数と練習量などで数式+図(脳内映像)のスキルを高めるのがいいのではと思います。

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
新製品の需要予測とは:データ分析講座(その325)需要をどう予測するのか

  企業は、消費者に新しい価値を提案することで、市場シェアを拡大し、全体的な売上と利益の成長を享受したいと考えています。そのために、既存製...

  企業は、消費者に新しい価値を提案することで、市場シェアを拡大し、全体的な売上と利益の成長を享受したいと考えています。そのために、既存製...


データ分析のビジネス成果は金額で データ分析講座(その83)

◆ ビジネス貢献できないデータ分析、ビジネス成果は金額で  ここ10年、次のような合言葉とともにデータ分析者が増えています。 「データがあるか...

◆ ビジネス貢献できないデータ分析、ビジネス成果は金額で  ここ10年、次のような合言葉とともにデータ分析者が増えています。 「データがあるか...


立場によって意味合いが異なる見える化 データ分析講座(その126)

◆ 「データによる見える化」で見たいものが異なる人々  データ分析・活用の第一歩として「見える化」というキーワードがあります。まずはデータを収集し現...

◆ 「データによる見える化」で見たいものが異なる人々  データ分析・活用の第一歩として「見える化」というキーワードがあります。まずはデータを収集し現...


「情報マネジメント一般」の活用事例

もっと見る
ソフトウェア特許とは(その2)

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...


ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...


‐技術開発の目標について 第2回‐  製品・技術開発力強化策の事例(その16)

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....