グラフを眺めただけの判断は要注意 データ分析講座(その156)

更新日

投稿日

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統...

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統計的仮説検定は「対立仮説を採択するかどうか?」しかいえないということです。帰無仮説に関しては何もいえません。簡単に説明します。

 「5%の確率でしか起こらないぐらい稀なことが起こった」のであれば、すんなり「帰無仮説を棄却し対立仮説を採択する」となります。

 一方「5%の確率でしか起こらないぐらい稀なことは起こらなかった」場合どうなるでしょうか。この場合、当然ながら「帰無仮説を棄却し対立仮説を採択する」とはなりません。「対立仮説を採択することができなかった」ということがいえるだけで「帰無仮説が採択する」ことにはなりません。便宜的に「帰無仮説が採択する」ことはあっても、厳密には「帰無仮説が採択する」ことにはなりません。

 このような場合「昨年の売り上げと今年の売り上げに差がなかった」ではなく「昨年の売り上げと比べ、今年の売り上げに差があるとはいえなかった」という表現になります。もう少し丁寧にいうと「昨年の売り上げと比べ、今年の売り上げに差があったかもしれないが、今回のデータから差があるとはいえなかった」となります。手元にあるデータで検討した結果、差があるかどうか判断が付かなかっただけなのです。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
間接部門のプロセス改善とは 人材育成・組織・マネジメント(その1)

    【人材育成・組織・マネジメントの考察 連載目次】 1. 間接部門のプロセス改善とは 2. 現場は全てを物語る ...

    【人材育成・組織・マネジメントの考察 連載目次】 1. 間接部門のプロセス改善とは 2. 現場は全てを物語る ...


データ活用の成果にはタイムラグがある データ分析講座(その293)

  データ活用をする企業や組織などが増えていますが、データ活用には、即効性があるものもあれば、そうでないものもあります。即効性がありそうな...

  データ活用をする企業や組織などが増えていますが、データ活用には、即効性があるものもあれば、そうでないものもあります。即効性がありそうな...


時系列性を加味した因果推論でよく利用されるSC法 データ分析講座(その302)

  前回のデータ分析講座(その301)ABテストからExcelでも出来る差の差推定へで、ABテストにおいて時系列性(Before&...

  前回のデータ分析講座(その301)ABテストからExcelでも出来る差の差推定へで、ABテストにおいて時系列性(Before&...


「情報マネジメント一般」の活用事例

もっと見る
システムトラブル、誰に相談したら良いか

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...


守秘義務は情報社会の命綱

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...


Web上で試作受注するツールを成功させるポイントとは

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...