「クラスター分析」とは、キーワードからわかりやすく解説
1. 「クラスター分析」とは
クラスター分析とは、分析対象となるサンプル間の類似度や非類似度に基づいて、いくつかのクラスター(集団)に分類する方法の総称です。 類似度を指標としては相関係数や連関係数を用い、被類似度には2点間の距離がよく用いられます。 クラスターの数はサンプルのまとまり具合や、仮説によって評価者が設定し、その数になるまでクラスターを統合していきます。 これによって選挙候補者をグループ分けしたり、マーケティングのセグメントを検討したりします。
現代ではクラスター(cluster)は「束、房」という意味が一般的ですが、本来は「cluster=集落」という意味で使われるそうです。「群れ・集団」という意味もありますが、これがクラスター分析の「クラスター」に一番近い表現です。つまり“仲間探し”なのです。
仲間探しですから、その基準の設定次第で色々と変わってきます。例えば象、キリン、ライオン、犬、猫、鉛筆、消しゴムを想定した時、誰でも「象、キリン、ライオン、犬、猫」と「鉛筆、消しゴム」に分けると思います。おそらく、頭の中で「動物と文房具」という集団分類をしているからでしょう。また「象、キリン、ライオン、犬、猫」をさらにクラスター分けすると、どうなるでしょうか?体の大きさでクラスターを考えると「象、キリン、ライオン」「犬、猫」になります。
このように基準をどこに設定するかで、クラスターは変わってきます。
2. 「クラスタ分析ー」と主成分分析
「クラスター分析」と主成分分析は、データを集約(もしくは、グルーピング)する分析技術の1つです。クラスター分析はケース(データセットの行)を集約(もしくは、グルーピング)するのに対して、主成分分析は変数(データセットの列)を集約(もしくは、グルーピング)することで次元縮約(例:1,000変数を10変数にまとめる)することで似たようなケースを同じようなのが集まっている状態にします。この場合のケースとは、個体(例:個人や店舗、企業など)です。ちなみに、主成分分析で作られた新たな変数を「主成分」と呼びます。
3. クラスター分析の具体的な手法とアルゴリズム
クラスター分析の大きな分類として、階層的手法と非階層的手法があります。どちらの手法を選ぶかは、データの特性、分析の目的、そしてクラスター数の事前知識の有無によって決定されます。
階層的手法(Hierarchical Methods)
階層的手法は、サンプル間の類似度に基づいて、小さなクラスターを徐々に統合していく(凝集型)か、あるいは大きな集団から徐々に分離していく(分離型)ことで、クラスター構造の階層図(デンドログラム)を作成します。最も一般的に用いられる凝集型には、「最短距離法(単連結法)」「最長距離法(完全連結法)」「群平均法」「ウォード法」などがあります。
ウォード法は、クラスターを統合する際に、そのクラスター内でのデータのばらつき(二乗誤差)が最も小さくなるように統合を進めます。これは、各クラスターがより密で均質な集団となることを目指すため、実務で最も人気があり、しばしば最も有効な結果をもたらします。
階層的手法の利点は、クラスターの最適な数を知らなくても、デンドログラムを見ることでデータの自然な構造や、どの階層でクラスターを区切るべきかを視覚的に判断できる点にあります。しかし、データ量が多くなると計算負荷が増大し、処理に時間がかかるという欠点もあります。
非階層的手法(Non-hierarchical Methods)
非階層的手法は、あらかじめクラスターの数を決定し、その数になるようにサンプルを分割していきます。代表的なものに「K-means法(K平均法)」があります。
K-means法は、まずランダムにK個のクラスターの中心(重心)を設定し、各サンプルを最も近い重心のクラスターに割り当てます。次に、割り当てられたサンプルに基づいて各クラスターの新しい重心を計算し、このプロセスを重心の位置がほとんど変化しなくなるまで繰り返します。
この手法は、計算速度が速く、大規模データセットの分析に適しているのが大きな強みです。しかし、事前にクラスター数$K$を設定する必要がある点や、初期の重心の選び方によって結果が変動する可能性があるという注意点があります。そのため、多くの場合、階層的手法でデータの構造を把握してから、K-means法で最終的な分類を行うといった組み合わせも行われます。
4. クラスター分析の活用事例と分析上の課題
クラスター分析は、その“仲間探し”の性質から、多岐にわたる分野で活用されています。
- マーケティング:顧客を購買行動、デモグラフィック属性(年齢、性別など)、またはライフスタイルによってセグメント化し、セグメントごとに最適な製品開発やプロモーション戦略を立案します。例えば、特定商品の購入頻度が高い「ロイヤル層」と、価格に敏感な「節約志向層」といったセグメントの特定です。
- 生物学・医学:遺伝子発現データのパターンをクラスター化し、病気のサブタイプ(病型)を特定したり、類似した作用機序を持つ薬物をグループ化したりします。
- 社会科学:アンケート調査の結果から、回答者の意見や意識構造の類型を特定し、社会的な傾向を把握します。
分析上の課題と注意点
クラスター分析は強力なツールですが、結果の解釈や妥当性の判断には注意が必要です。
- 距離(類似度)の測り方:クラスター分析の結果は、サンプル間の「距離」や「非類似度」の定義に大きく依存します。例えば、ユークリッド距離を用いるのか、マンハッタン距離を用いるのかでクラスターの形が変わることがあります。データの尺度や性質を考慮して、適切な指標を選択することが重要です。
- 変数の標準化:分析に使用する変数の尺度が大きく異なる場合(例:年収の数百万と、評価の1~5点)、値の大きい変数がクラスター形成に過度に影響を与えてしまいます。この影響を避けるため、通常は分析前に各変数を標準化(スケール調整)する処理が不可欠です。
- クラスター数の決定:特に非階層的手法において、最適なクラスター数を決める客観的な基準はありません。多くの場合、デンドログラムの構造、実務的な解釈のしやすさ、そしてエルボー法やシルエット係数などの統計的な指標を総合的に勘案して、最終的なクラスター数を決定します。
クラスター分析は、単にデータを分類するだけでなく、「なぜそのように分類されたのか」という解釈こそが最も価値を持つ部分です。導き出されたクラスターの特徴を明確に言語化し、そこからどのような意味のある示唆(インサイト)が得られるかを検討することで、分析は真価を発揮します。

