「判別分析」とは、キーワードからわかりやすく解説
1. 「判別分析」とは
判別分析とは、過去のデータに基づきいくつかの群を設定し、新たなサンプルががどの群に属すかを特定するための手法です。この判別のための基準を見ることで、データの特徴を知ることが可能になります。
2. 「判別分析」どこを見れば違いが分かるか
多変量解析のなかに判別分析というものがあります。重回帰分析や主成分分析ほど有名でないかもしれませんが、非常に便利で大切な分析ツールです。
また多変量解析の手法の中では、名が体を表しているともいえます。要は「判別をどうするか? 何をどういう基準で判別するか?」ということになります。我々の身の回りにも結構、それが大事とされる局面があります。
例えば、昔から「アヤメとカキツバタ」や「ヒラメとカレイ」「食用キノコと毒キノコ」など「どこを見れば、違いが分かるのか?」といった判別方法があります。その違うポイントを知っておけば、判断や予想が楽になります。
3. 「判別分析」の計算方法
多変量解析ではとりあえず、相関を考え判別分析で境界線を引きます。これは、線形判別法(線形判別関数法)といわれます。他に、マハラノビス距離を使うものや重回帰分析を利用するもの(実はこれが一番簡単です)がありますが、概念を理解するには線形判別法が理解しやすく、初心者向きです。
線形判別法(線形判別関数法)で差をみるということは結局、差がもっとも出やすい線引きをするということです。差が最も出るということは、二つのグループの差が大きく出るところということです。これを統計用語でいうと、群間ばらつきが最も大きく出るところに線を引け、ということです(群間とは、名前通り、グループ間です。)差をどのように表現するかですが、変動(偏差平方和)を使います。偏差平方和というのも名前通り、偏差=個別データ値―平均値 ですから、この二乗和です。
4. 線形判別分析の具体的なイメージと応用
線形判別分析では、群間ばらつき(グループ間の差)が最大になるように、かつ群内ばらつき(各グループ内でのデータの散らばり)が最小になるように判別軸を設定します。これは、データ空間において、二つの群を最も効果的に分離できる「境界線」を引くことに他なりません。この境界線、すなわち判別関数は、各変数が判別にどれだけ寄与しているかを示す判別係数を持つ一次関数として表現されます。
応用例は多岐にわたります。医療分野では、特定の検査値から「疾患の有無」を判別する。マーケティング分野では、購買履歴やデモグラフィック情報から「自社製品のリピーターになるか否か」を判別する。生態学では、生物の形態測定値から「種の識別」を行う。これらはすべて、判別分析によって得られた「判別の基準」を応用しています。
5. 判別関数と判別係数の解釈
判別分析の成果物は、単に「分類結果」だけでなく、判別関数を構成する判別係数の大きさと符号にも大きな意味があります。判別係数は、その変数がグループの分離にどれだけ貢献しているかを示します。上記の銀行の例でいえば、年収の係数がプラスで最も大きい(0.5)ことは、年収が高いほど非滞納群に属する傾向が強い、すなわち「年収」が最も重要な判別基準であることを示唆します。逆に、借入額の係数がマイナス(-0.3)であることは、借入額が大きいほど滞納群に属しやすく、判別に逆向きに作用していることを意味します。
この係数の解釈を通じて、群を特徴づける本質的な要因が明らかになります。これは、単に分類するだけでなく、なぜその分類に至るのか、というメカニズムの理解に貢献します。
6. 判別分析と他の分析手法との違い
判別分析は、群が明確に決まっている状態で、その群に属する新しい個体を予測・分類する手法です。
これに対し、重回帰分析は連続的な目的変数(例:売上額、温度)を予測するものであり、ロジスティック回帰分析は二値の目的変数(例:合格/不合格、購入/非購入)を予測する点で似ていますが、判別分析が多変量正規分布など特定の統計的仮定(線形判別の場合)を前提とし、判別関数を導き出して分類するのに対し、ロジスティック回帰は確率(ある群に属する確率)を直接モデリングする点で異なります。
また、クラスター分析は群が未確定な状態で、データそのものの類似性に基づいて最適な群を探索する手法です。判別分析は「既知の群への分類」、クラスター分析は「未知の群の発見」という点で、目的が対照的です。判別分析は、これらの多変量解析のツールキットにおいて、「最も効率的な線引き」を見つけるための、独特かつ強力な位置を占めているのです。この理解が進めば、データから得られる知見をより深く、そして実務に活かすことができるでしょう。


