数理統計学的な厳密性との狭間で データ分析講座(その155)

更新日

投稿日

データ分析

 

◆ データ分析・活用と数理統計学的な厳密性との狭間で

 データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理統計学に関するある程度の知識は必須です。しかしデータ分析・活用を目指すなら、数理統計学的厳密性は放棄したほうが良さそうです。今回は「データ分析・活用と数理統計学的な厳密性との狭間で」というお話をします。

 

1. 数統計学的な判断をデータ分析に組み込む

 データ分析・活用を考えた時、その中で統計学的な判断をデータ分析に組み込むことをよく考えます。

 統計学的な判断とは、次のようなデータによる意思決定支援です。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 

2. 厳密性を追求したあのころ

 私が20代のころ、数理統計学的な厳密性を最大限に考慮したデータ分析を試行したことがありました。いたずらに時間だけが過ぎ、骨の折れるものでした。工夫次第でどうにかなりそうで、どうにもならないものでした。現場のスピード感に合わせるためには、どこかで厳密性の追求を放棄する必要が出てきました。

 

(1) 回帰分析

 データ分析・活用で、よく登場するものに回帰分析というものがあります。手法の紹介やツールの使い方を説明した、データ分析やデータサイエンス、機械学習などの入門書に、必ず登場する分析手法です。回帰分析については、これ以上説明はしません。よく目にする分析手法だということだけ、ここでは知って頂ければと思います。

 

3. 数理統計学的厳密性を満たすのはほぼ不可能

 回帰分析は、厳密には独立性・等分散性・正規性・線形性などの条件を満たす必要があります。これらの条件の話も、ここでは説明しません。ここで言いたいのは、ビジネスの現場で発生するデータは、これらの条件を満たすことは皆無だということです。実際は、工夫次第でこれらの条件に近づくことは可能です。

 しかし近づくだけで条件を十分に満たすことはありません。

 

(1) 明らかに条件を逸脱していない限り、実務的にはいいのではないか

 言いたいことは「明らかに条件を逸脱していない限り、実務的にはいいのではないか」ということです。したがって実務的には数理統計学的...

データ分析

 

◆ データ分析・活用と数理統計学的な厳密性との狭間で

 データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理統計学に関するある程度の知識は必須です。しかしデータ分析・活用を目指すなら、数理統計学的厳密性は放棄したほうが良さそうです。今回は「データ分析・活用と数理統計学的な厳密性との狭間で」というお話をします。

 

1. 数統計学的な判断をデータ分析に組み込む

 データ分析・活用を考えた時、その中で統計学的な判断をデータ分析に組み込むことをよく考えます。

 統計学的な判断とは、次のようなデータによる意思決定支援です。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 

2. 厳密性を追求したあのころ

 私が20代のころ、数理統計学的な厳密性を最大限に考慮したデータ分析を試行したことがありました。いたずらに時間だけが過ぎ、骨の折れるものでした。工夫次第でどうにかなりそうで、どうにもならないものでした。現場のスピード感に合わせるためには、どこかで厳密性の追求を放棄する必要が出てきました。

 

(1) 回帰分析

 データ分析・活用で、よく登場するものに回帰分析というものがあります。手法の紹介やツールの使い方を説明した、データ分析やデータサイエンス、機械学習などの入門書に、必ず登場する分析手法です。回帰分析については、これ以上説明はしません。よく目にする分析手法だということだけ、ここでは知って頂ければと思います。

 

3. 数理統計学的厳密性を満たすのはほぼ不可能

 回帰分析は、厳密には独立性・等分散性・正規性・線形性などの条件を満たす必要があります。これらの条件の話も、ここでは説明しません。ここで言いたいのは、ビジネスの現場で発生するデータは、これらの条件を満たすことは皆無だということです。実際は、工夫次第でこれらの条件に近づくことは可能です。

 しかし近づくだけで条件を十分に満たすことはありません。

 

(1) 明らかに条件を逸脱していない限り、実務的にはいいのではないか

 言いたいことは「明らかに条件を逸脱していない限り、実務的にはいいのではないか」ということです。したがって実務的には数理統計学的な厳密性は、過剰に追求しないほうがいいでしょう。

(2) 数理統計学の知識は必要か

 データ分析を実施する上で、数理統計学の知識は必要です。大学の1、2年生レベルの教科書など簡単な書籍を参考に学習して頂ければと思います。数理統計学的厳密性を知っていた上で厳密性を崩したデータ分析をするのと、知らずに厳密性を崩してデータ分析するのとでは、大きく意味合いは異なります。場合によっては、分析結果の解釈に大きく影響することがあります。

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
手法の知識・使い方と成果の関係 データ分析講座(その154)

  ◆ データ分析に立ちはだかる実践・活用の壁  データ分析をやることになった時、多くの人は分析手法の知識やツールの使い方を学ぶようです...

  ◆ データ分析に立ちはだかる実践・活用の壁  データ分析をやることになった時、多くの人は分析手法の知識やツールの使い方を学ぶようです...


データ分析上必須な2つのロジカルシンキング データ分析講座(その198)

    ビジネス必須のスキルとしてロジカルシンキングというものがあります。系統図法という名称で呼ばれていたもので、昔から日本の製造...

    ビジネス必須のスキルとしてロジカルシンキングというものがあります。系統図法という名称で呼ばれていたもので、昔から日本の製造...


裁判で解決できないシステム開発トラブルとは

 桃尾・松尾・難波法律事務所の皆様が、過去のシステム紛争案件にかかわる150の判例を調査して「裁判例から考えるシステム紛争の法律実務」という本を出版されま...

 桃尾・松尾・難波法律事務所の皆様が、過去のシステム紛争案件にかかわる150の判例を調査して「裁判例から考えるシステム紛争の法律実務」という本を出版されま...


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題 第2回‐ 製品・技術開発力強化策の事例(その18)

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...


‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...