「分散分析」とは、キーワードからわかりやすく解説

 

1. 「分散分析」とは

分散分析は、統計手法として広く利用されていて、実験や研究の結果を判断する際に使われ、要因間の影響を評価するために有用です。複数の母集団で平均値の差を比較したり、有意差を検証する手法で、データのばらつきを分解し、群間の分散が大きいほど有意差があると判断します。

 

2. 偏差と分散

標準偏差=分散の平方根です。偏差は分散の計算に用いられるからです。偏差は平均値と各データの差です。母集団の偏差を導きたい場合は分散は全データ数Nで割ることで算出されますが一部のデータn個をサンプルとして抜き取りそのデータから母分散値を推定する場合はn-1で 割ります。サンプルデータは当然母集団全てのデータより少ないので滅多に出現しない平均値から 離れたデータが含まれる可能性も低いです。平均値に近いデータだけで計算すると全データでの計算値よりも小さくなってしまうの でサンプルだけで母集団の分散を推定する場合は補正が必要なのです。よってデータ1つ分小さい数値n-1で割ってやるのだと理解してみて下さい。ちなみにn-1は自由度と呼ばれています。

 

今度は数学的に説明すると「各データと平均値の差(=偏差)」の和がゼロの数式が成り立ちます。未知数Xが5個あってもこの数式を用いれば4つ分かれば残り一つは決まります。つまりn個の未知数があればn-1個が分かれば残り一つは自動的に決まります。分かりやすく言えばn-1人は自由に椅子を選べるが残りの人は自ずと残った椅子に座ら ざるを得ないと言う感じです。その為自由度と呼ぶと思って下さい。分散が出たら後はその平方根を計算すれば標準偏差となります。 平方根を取るのはデータを自乗しているので元の単位に戻すためです。

 

3. 分散分析の種類とその使い分け

分散分析(Analysis of Variance: ANOVA)は、要因(因子)の数や水準(カテゴリ)の構造によって、いくつかの種類に分類されます。最も基本となるのが、一元配置分散分析(One-way ANOVA)です。これは、一つの要因が複数の水準を持っている場合に、それらの水準間で平均値に差があるかどうかを検定する手法です。例えば、「異なる3種類の学習方法(要因)がテストの点数(従属変数)に影響するか」を調べたい場合などに用います。

次に、要因が二つある場合に用いられるのが二元配置分散分析(Two-way ANOVA)です。これは、二つの要因がそれぞれ従属変数に与える影響(主効果)を個別に評価できるだけでなく、二つの要因が組み合わさることによって生じる影響(交互作用)を検出できるのが大きな特徴です。例えば、「学習方法」と「学習時間」という二つの要因がテストの点数に与える影響を同時に分析できます。交互作用が有意であれば、「特定の学習方法が、長い学習時間と組み合わさった時のみ、特に高い効果を発揮する」といった、より深い知見を得ることが可能になります。

さらに、要因の間に繰り返し測定(同一の被験者に対して異なる条件で測定)が含まれる場合は、反復測定分散分析を用います。これは、被験者間の個人差を考慮に入れた分析が可能となり、個人内での変化をより鋭敏に捉えることができます。適切な分散分析を選択することは、研究デザインから得られたデータを正確に解釈するために不可欠です。

  

4. 分散分析の検定手順:F比の導出

分散分析の中心となる概念は、データ全体のばらつき(分散)を、「要因によって説明できるばらつき(群間分散)」と「要因では説明できない誤差によるばらつき(群内分散または残差分散)」に分解し、それらの比率を見ることにあります。この比率こそが、F比(F値)です。

分散分析では、まず「すべての群の母平均は等しい」という帰無仮説を立てます。もし要因に真の効果がないならば、群間分散は誤差のばらつきと同程度になるはずです。つまり、F比は1に近い値を取るはずです。逆に、要因に大きな効果がある、すなわち群間の平均値に大きな差があるならば、群間分散は群内分散よりも著しく大きくなり、F比は1よりもかなり大きな値となります。

統計的有意性を判断するためには、算出したF比をF分布という確率分布と比較します。F比がこの分布の「稀にしか起こらない」とされる領域(通常、有意水準 p < 0.05)に入っていれば、帰無仮説を棄却し、「要因間に統計的に有意な差がある」と結論づけます。この「有意差がある」という結論は、その差が偶然によって生じた可能性が極めて低いことを意味します。

  

5. 分散分析の応用と検定後の多重比較

分散分析で有意差が検出された場合、それは「少なくともどこか一組の群間に差がある」ことを示していますが、具体的にどの群とどの群の間に差があるのかまでは教えてくれません。この、詳細な差の所在を特定するために、さらに多重比較(Post-hoc test)という手続きを行います。

代表的な多重比較の手法には、Tukey(テューキー)法やBonferroni(ボンフェローニ)法などがあります。これらの手法は、多数の群間でペアごとの平均値の差を検定する際、偶然の誤り(本来差がないのに「差がある」と誤って判断する第一種の過誤)の確率が増大するのを防ぐために、有意水準を厳しく補正しながら検定を行います。例えば、Tukey法は、すべてのペアを公平に比較するために開発されており、最も広く利用されています。

分散分析は、医学、心理学、社会学、農学、経済学など、非常に幅広い分野で応用されています。例えば、新薬開発における複数の治療法効果の比較、異なる広告戦略が売上に与える影響の分析、新しい教育手法の効果測定など、複数のカテゴリカルな要因が、連続的な結果変数に与える影響を評価する上で、極めて強力で基礎的な統計ツールと言えます。これにより、客観的かつデータに基づいた意思決定が可能となるのです。


「分散分析」の活用事例

もっと見る
統計手法利用の改善事例:直交表、分散分析表

 インターネットを媒介とした契約商品を販売しているE社は積極的に売上の改善に取り組んでいました。様々なアイデアを社員から募集し、採用したものは契約率への効...

 インターネットを媒介とした契約商品を販売しているE社は積極的に売上の改善に取り組んでいました。様々なアイデアを社員から募集し、採用したものは契約率への効...