マハラノビス距離が必要な理由

更新日

投稿日

 タグチメソッドのMT法で一気に有名になったマハラノビス距離ですが、判別分析という昔ながらの統計的手法にも使われています。又、難しい式だと思われそうですが、なじみのふかいところでは、偏差値があります。偏差値というのは、下記のように計算されています。
     MT
 実は、MT の項が、一次のマハラノビス距離に該当します。10倍したり 50を足したりするのは、満点が100点の感覚に近づけるためであって、比較のためなら別になくてもよいのです。偏差値はその式が示すように、平均からの距離が遠いほど高くなりますが、ばらつきが大きければたいしたことないということで、ばらつきの尺度である標準偏差でわり、平均からの距離が何σ(シグマ)離れているかという、一種の標準化です。 
 
 数学の点数が90点だといっても、平均が90点なら、偏差値50で、平均が50点で標準偏差が2点なら70にもなります。前者は簡単な問題だったので、だれでも高得点だったこと示しますが、後者は、問題がむずかしく、ほとんどの人が50点前後のところを90点もとったのですから、かなり数学の成績が良いということになります。このように相対的な比較をするには非常に便利な式です。
 
 こんどは、項目が二つあるような場合を考えましょう。数学と理科の試験点数でもいいのですが、話の焦点に近づけていきたいため、ある電気製品の工程内検査項目にします。ひとつは、電流特性(x1)とし、もうひとつは電圧特性(ⅹ2)とします。また、これらに相関関係がある場合です。数学の出来と理科の出来がゆるやかな正相関のようなものです。あるときの製品工程検査データを座標プロットすると、図1のようになったとします。
 
      MT
図1.工程内検査値のプロット
 
 ここで、だいたいの分布に線をひくと下図のように楕円形になります。(ここでは感覚的な理解でかまいません) 次に、x1、x2の管理限界線を引きます。これも大体でいいでしょう。通常平均値±2σや3σ、95%信頼限界とかで管理します。これらを図示したものが、図2です。
 
      MT
図2 管理限界線として引いた分布線と相関データの周辺を囲んだ図
 
 図2では、95%信頼区間を引いていますが、3σ管理ならここが平均値±3σに変わるだけです。そこで、図3をご覧ください。★や●データを異常判定できるかどうかです。
        
     MT
図3 管理限界線と異常データ
 
 ★印は、一個一個の項目の管理をしていれば、つかまりますから、こういう管理(3σ管理の親戚)は有効です。ところが、● 印は、楕円からずれているので、二次元の分布からは外れている点で異常ですが、一軸方向からみているかぎり、管理限界線内のため、つかまりません。通過してしまいます。これが、クレームの素になったりします。
 
 この場合の管理限界線は、直線で縦横にひいたものでなく、楕円だということです。(実際、これは楕円になることが数理的に証明されます。)この楕円の方程式をだすときに、マハラノビス距離が必要になってきます。マハラノビス距離による管理限界線でなければ、クレームの素が生まれます。
 
 不良が工程内検査で簡単につかまるなら、クレームになりません。流出するからクレームになるのです。(信頼性の問題は別)この点からすれば、図3の● データは通常の管理ではつかまりませんから、流出してしまいます。
 
 この例は、実は、半導体の実例としておこったことです。半導体では、電流特性として電流増幅率が、電圧特性として1次降伏電圧があります。降伏電圧の逆数は電流増幅率に比例するので、図1のような相関があるのです。しかし、● 印データが発生することがあります。「異品種混入」です。パターン面積や形状が違う異品種が混入すると、図3のような事態が起こります。通常の3σ管理や95%信頼区間管理ではつかまりません。よって、相関を含めた管理=マハラノビス距離が重要になります。二項目の場合のマハラノビス距離は、以下のように計算されます。
         MT             
(通常はこれを項目数2でわり平方根をとりますが、式2を単にマハラノビス距離という場合もあり注意が必要です。)Vは分散ならびに共分散です。この定義は統計の本をご覧ください。式2を項目数の2でわり平方根をとったあとのマハラノビス距離をdとすれば、
         MT
 この距離が、95%信頼区間にはいるには、棄却限界値から、MT です。
 
 5.99という数値は2変量の場合の外側に出る確率が5%(信頼水準が95%)の場合の限界棄却値です...
 タグチメソッドのMT法で一気に有名になったマハラノビス距離ですが、判別分析という昔ながらの統計的手法にも使われています。又、難しい式だと思われそうですが、なじみのふかいところでは、偏差値があります。偏差値というのは、下記のように計算されています。
     MT
 実は、MT の項が、一次のマハラノビス距離に該当します。10倍したり 50を足したりするのは、満点が100点の感覚に近づけるためであって、比較のためなら別になくてもよいのです。偏差値はその式が示すように、平均からの距離が遠いほど高くなりますが、ばらつきが大きければたいしたことないということで、ばらつきの尺度である標準偏差でわり、平均からの距離が何σ(シグマ)離れているかという、一種の標準化です。 
 
 数学の点数が90点だといっても、平均が90点なら、偏差値50で、平均が50点で標準偏差が2点なら70にもなります。前者は簡単な問題だったので、だれでも高得点だったこと示しますが、後者は、問題がむずかしく、ほとんどの人が50点前後のところを90点もとったのですから、かなり数学の成績が良いということになります。このように相対的な比較をするには非常に便利な式です。
 
 こんどは、項目が二つあるような場合を考えましょう。数学と理科の試験点数でもいいのですが、話の焦点に近づけていきたいため、ある電気製品の工程内検査項目にします。ひとつは、電流特性(x1)とし、もうひとつは電圧特性(ⅹ2)とします。また、これらに相関関係がある場合です。数学の出来と理科の出来がゆるやかな正相関のようなものです。あるときの製品工程検査データを座標プロットすると、図1のようになったとします。
 
      MT
図1.工程内検査値のプロット
 
 ここで、だいたいの分布に線をひくと下図のように楕円形になります。(ここでは感覚的な理解でかまいません) 次に、x1、x2の管理限界線を引きます。これも大体でいいでしょう。通常平均値±2σや3σ、95%信頼限界とかで管理します。これらを図示したものが、図2です。
 
      MT
図2 管理限界線として引いた分布線と相関データの周辺を囲んだ図
 
 図2では、95%信頼区間を引いていますが、3σ管理ならここが平均値±3σに変わるだけです。そこで、図3をご覧ください。★や●データを異常判定できるかどうかです。
        
     MT
図3 管理限界線と異常データ
 
 ★印は、一個一個の項目の管理をしていれば、つかまりますから、こういう管理(3σ管理の親戚)は有効です。ところが、● 印は、楕円からずれているので、二次元の分布からは外れている点で異常ですが、一軸方向からみているかぎり、管理限界線内のため、つかまりません。通過してしまいます。これが、クレームの素になったりします。
 
 この場合の管理限界線は、直線で縦横にひいたものでなく、楕円だということです。(実際、これは楕円になることが数理的に証明されます。)この楕円の方程式をだすときに、マハラノビス距離が必要になってきます。マハラノビス距離による管理限界線でなければ、クレームの素が生まれます。
 
 不良が工程内検査で簡単につかまるなら、クレームになりません。流出するからクレームになるのです。(信頼性の問題は別)この点からすれば、図3の● データは通常の管理ではつかまりませんから、流出してしまいます。
 
 この例は、実は、半導体の実例としておこったことです。半導体では、電流特性として電流増幅率が、電圧特性として1次降伏電圧があります。降伏電圧の逆数は電流増幅率に比例するので、図1のような相関があるのです。しかし、● 印データが発生することがあります。「異品種混入」です。パターン面積や形状が違う異品種が混入すると、図3のような事態が起こります。通常の3σ管理や95%信頼区間管理ではつかまりません。よって、相関を含めた管理=マハラノビス距離が重要になります。二項目の場合のマハラノビス距離は、以下のように計算されます。
         MT             
(通常はこれを項目数2でわり平方根をとりますが、式2を単にマハラノビス距離という場合もあり注意が必要です。)Vは分散ならびに共分散です。この定義は統計の本をご覧ください。式2を項目数の2でわり平方根をとったあとのマハラノビス距離をdとすれば、
         MT
 この距離が、95%信頼区間にはいるには、棄却限界値から、MT です。
 
 5.99という数値は2変量の場合の外側に出る確率が5%(信頼水準が95%)の場合の限界棄却値です。MTからきています。これを式2にいれると、楕円の方程式となります。計算方法の説明は、ここでは詳しくしませんが、散布図からみれば、その概念がわかりやすいと思います。実際の工程検査は、もっと多くの検査項目や管理項目があります。これでは、二次元グラフ(散布図)を書いていては追従できません。3次元以上は、マハラノビス距離でなければ何ともならないということです。(二次元ぐらいであれば、散布図をいちいち書くという手段もありますが)
 
 この考え方が基本になって、多変量管理図ができあがります。又、判別分析やタグチのMT法でもマハラノビス距離が使われます。なお、使用する行列の種類(分散共分散行列と相関行列)の話については別の機会にしましょう。                            

◆関連解説『品質工学(タグチメソッド)とは』

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「MTシステム」の他のキーワード解説記事

もっと見る
MTシステム超入門(その12)

46:予測の話  相場や競馬だけではなく、予測が当たるとうれしいテーマはたくさんありますが、予測も考え方はパターン認識と同一です。多くの項目の情報を総合...

46:予測の話  相場や競馬だけではなく、予測が当たるとうれしいテーマはたくさんありますが、予測も考え方はパターン認識と同一です。多くの項目の情報を総合...


MTAと余因子 Ⅱ

   今回は、MT法やMTA法で使われるマハラノビス距離の話をおさらいします。余因子の話からは一旦離れますが、次回また扱います。 1.M...

   今回は、MT法やMTA法で使われるマハラノビス距離の話をおさらいします。余因子の話からは一旦離れますが、次回また扱います。 1.M...


多変量の効率的な解析法「MTシステム」の主な応用分野

 世界的に著名な田口玄一博士が、多変量に視点を向けて開発した「MTシステム」が、近年広い分野で応用されています。ここでは、そのほんの一部を紹介しましょう。...

 世界的に著名な田口玄一博士が、多変量に視点を向けて開発した「MTシステム」が、近年広い分野で応用されています。ここでは、そのほんの一部を紹介しましょう。...


「MTシステム」の活用事例

もっと見る
半導体製造プロセスにおけるパラメータ設計とT法の併用による超効率的条件最適化

これは2010年の品質工学研究発表大会で、東芝の岡川宏之さんが発表した「半導体製造プロセスにおけるT法活用による超効率的プロセス条件最適化」を要約したもの...

これは2010年の品質工学研究発表大会で、東芝の岡川宏之さんが発表した「半導体製造プロセスにおけるT法活用による超効率的プロセス条件最適化」を要約したもの...


イプシロンロケットとMTシステム

1.イプシロンロケット打上げ成功とMTシステム  先月9月14日午後2時に、JAXAのイプシロンロケットが無事打上げに成功しました。成否を左右する「ロケ...

1.イプシロンロケット打上げ成功とMTシステム  先月9月14日午後2時に、JAXAのイプシロンロケットが無事打上げに成功しました。成否を左右する「ロケ...


T法によって拡張されたパラメータ・スタディー

 これは2012年の品質工学研究発表大会で、リコーの細川哲夫さんが発表した「T法によって拡張されたパラメータ・スタディー」を、ご本人の承諾を得て要約掲載し...

 これは2012年の品質工学研究発表大会で、リコーの細川哲夫さんが発表した「T法によって拡張されたパラメータ・スタディー」を、ご本人の承諾を得て要約掲載し...