※いずれも質問投稿には会員登録が必要です
個人情報(個人名やメールアドレスなど)が公開されることはありません。


QUESTION 質問No.452

MT法におけるマハラノビス距離の計算手順に関するご質問

設計・開発  | 投稿日時:

MTシステム初学者です。
MT法の原理的な部分に関して、ここでお伺いする内容ではないかもしれませんが、可能ならご回答いただければ幸いです。

MT法におけるマハラノビス距離の計算方法・計算手順は、様々な文献で紹介されておりますが、ほとんどの文献ではその計算過程を淡々と書いてあるのみで(このように求めるものだと書いてあるのみで)、その手順で求めたマハラノビス距離によって何故評価対象データの正常な集団からの離れ具合・異常度をはかることができるのかがわかりません。


具体的にマハラノビス距離の計算過程でわからない点を挙げさせていただきます。

・まず単位空間のデータに関して、特徴項目ごとに正規化を行いますが、何故正規化によって、全データの平均値を0に、標準偏差を1にする必要があるのでしょうか。

・評価対象のデータを特徴項目ごとに正規化する際に、単位空間のデータの平均値と標準偏差を用いて、正規化するのは何故ですか。

・単位空間の正規化したデータで特徴項目間の相関係数をすべて求めて相関行列をつくり、その逆行列と評価対象の正規化したデータからなる行列によってマハラノビス距離の計算式が得られますが、なぜこの計算式によって最初に述べたように評価対象データの正常な集団からの離れ具合・異常度をはかることができるのでしょうか。

今後、MT法を用いるうえでどうしてもその原理を説明できるようにしておかなければならないため、ご教示いただけますと幸いです。




補足1

いただいた以下のリンクの18ページ目の4.1.5のマハラノビス距離を表す(5.4)式と(5.5)式に関しまして、各変数間の相関を考慮するために、相関行列の逆行列をかけていると思うのですが、何故、相関行列の逆行列をかけることによって、各変数間の相関を考慮できるようになるのでしょうか。

マハラノビスの距離入門(MTS法を理解するために)救仁郷 誠氏
https://www.jstage.jst.go.jp/article/qes/9/1/9_13/_pdf


ANSWER
回答No1 | 投稿日時:

A様、ご質問ありがとうございます。

この場の限られた文字数でご質問の内容を説明することはとても難しいので、代わりに救仁郷 誠氏が書かれた文章(リンク)をご紹介します。とても簡潔に分かりやすくMT法について書かれており、理解しやすいと思います。

マハラノビスの距離入門(MTS法を理解するために)救仁郷 誠氏
https://www.jstage.jst.go.jp/article/qes/9/1/9_13/_pdf

リンクの文章をご覧になれば、ご質問の回答が得られるのではないかと思います。

ご質問の内容を読んで、もしかしたらA様はマハラノビス距離が単位を持つ絶対値(絶対距離)と誤解されているのではないか、と思いました。

マハラノビス距離はすべての変量が標準化(正規化)された相対的な距離(単に尺度)を示しています。正規化することで、それぞれの変量の単位を考える必要がなくなり、相対的な尺度を基に「相関のある集団に似ているかどうか」を判断することができるようになります。

以上、少しでも参考になれば幸いです。




ANSWER
回答No2 | 投稿日時:

A様、補足の説明ありがとうございます。

一次元のマハラノビス距離を考えてみると、なぜ共分散行列(一次元の場合は分散)の逆行列(一次元の場合は逆数)を掛けるのかが分かるのではないかと思います。

一次元の場合はマハラノビス距離は D^2 = SQRT(基準点からの距離^2 / 分散) で表すことができます(または D = 基準点からの距離 / 標準偏差、つまりZスコアと同じ)。リンクの論文では15ページの(2)式が当てはまります。

これが多次元となると、(基準点からの距離)は行列で表され、(分散)は共分散行列で表されます。

一次元の場合、(分散)は式の分母、つまり逆数として用いましたが、多次元の場合も同様に、共分散行列の逆行列を用います。18ページの(5.4)式と(5.5)式は、共分散行列を分数式の分母で表す代わりに、逆行列に変換して掛け算で表しています。

以上、少しでも参考になれば幸いです。