グラフを眺めただけの判断は要注意 データ分析講座(その156)

更新日

投稿日

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統...

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統計的仮説検定は「対立仮説を採択するかどうか?」しかいえないということです。帰無仮説に関しては何もいえません。簡単に説明します。

 「5%の確率でしか起こらないぐらい稀なことが起こった」のであれば、すんなり「帰無仮説を棄却し対立仮説を採択する」となります。

 一方「5%の確率でしか起こらないぐらい稀なことは起こらなかった」場合どうなるでしょうか。この場合、当然ながら「帰無仮説を棄却し対立仮説を採択する」とはなりません。「対立仮説を採択することができなかった」ということがいえるだけで「帰無仮説が採択する」ことにはなりません。便宜的に「帰無仮説が採択する」ことはあっても、厳密には「帰無仮説が採択する」ことにはなりません。

 このような場合「昨年の売り上げと今年の売り上げに差がなかった」ではなく「昨年の売り上げと比べ、今年の売り上げに差があるとはいえなかった」という表現になります。もう少し丁寧にいうと「昨年の売り上げと比べ、今年の売り上げに差があったかもしれないが、今回のデータから差があるとはいえなかった」となります。手元にあるデータで検討した結果、差があるかどうか判断が付かなかっただけなのです。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ゲーム理論的データ分析・活用術 データ分析講座(その168)

    ◆ 先行き不透明な際、活用するゲーム理論的分析と活用術  2020年からの新コロナウイルスという不測の事態により、先が見...

    ◆ 先行き不透明な際、活用するゲーム理論的分析と活用術  2020年からの新コロナウイルスという不測の事態により、先が見...


AIとセキュリティ 制御システム(その8)

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....


リモートセンシング技術の進歩、そしてドローンへ

  リモートセンシングとは、離れたところから対象物に触れずに、その形状や性質など様々な情報を取得する技術または手法のことをいいます。可視光...

  リモートセンシングとは、離れたところから対象物に触れずに、その形状や性質など様々な情報を取得する技術または手法のことをいいます。可視光...


「情報マネジメント一般」の活用事例

もっと見る
現場情報の自動収集に道具だてを

 一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...

 一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...


‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...