※いずれも質問投稿には会員登録が必要です
個人情報(個人名やメールアドレスなど)が公開されることはありません。


QUESTION 質問No.475

直交表の最大因子数を使うと回帰分析できない

全体/その他  | 投稿日時:
実験計画法を始めたばかりです。直交表L8(水準は2)を使って実施(EXCELの回帰分析:因子7個を説明変数、新たに目的変数を設定)しました。直交表L8は、因子が最大7個まで可能と記載されているのですが、因子6個までは解析できるのですが、直交表L8での因子最大値7個で解析するとうまくいきません。何がまずいのでしょうか? ご指導よろしくお願いいたします。


ANSWER
回答No1 | 投稿日時:

回帰分析はじめ、実験計画法、タグチメソッドのコンサルをしている村島です。直交表のデータを回帰分析するということは、重回帰分析ですね。重回帰分析では、説明変数の数をp、データ数をnとするとき、偏回帰係数を決める(解析可能)な条件は、n-p-1≧0です。これがないと方程式が解けないわけです。p=6なら、nは7個以上ですから、L8ならデータ数が8個ですから、一応解けます。p=7ではデータ数が8個以上ですから、これでも一応は解けます。ここで、p=1の場合を考えてください。p=1すなわち、単回帰です。この場合、nは2個以上です。2個でもいいわけです。方程式が解ける、解けないの立場からは、です。でも、2個のデータがあれば、必ず絶対、直線になります。よって、次に別のデータが出てきたとき、その回帰直線に乗るかどうかは別です。よって、通常は3個以上のデータがないと話になりません。とすると、数学的に方程式が解けるのは、n-p-1≧0であっても、意味のある方程式(回帰分析の観点から)は、n-p-2≧0だということになります。p=1、単回帰なら3個以上のデータです。しかし、明らかにわかるように、3個のデータでよいはずがありません。統計的なばらつきを考慮すれば、通常、最低でも20個以上、と言われています。その根拠はここでは説明しません。この路線から言えば、説明変数すなわち因子数が7個なら、最低でも70個は必要です。
説明変数が6個でうまくいったといっても、先ほどの単回帰と同じように考えれば、全く意味のない解析であるといえます。データ数をもっと増やさないといけません。数学的に解析可能であることと、統計的に十分であることは違います。
 6月12日には、この辺のセミナーが予定されています。当サイトのセミナー「製造業に役立つ 数理的手法10選」です。申し込んでいただくとよくわかります。




ANSWER
回答No2 | 投稿日時:

結論からです。L8に7個の因子数を割り付けた場合には、重回帰分析を使えません。理由は、前回の解答によります。長々とした説明で申し訳なかったです。




ANSWER
回答No3 | 投稿日時:

くどいですが、今、もっと簡単な説明を思いつきました。回帰式では、実測値(観測値、実現値)と仮の予測値(予測式の形)との残差をとって、残差全体が最小になるように、係数を決定します。L8に7個の因子を割り付けてしまうと、この残差が出ません。実は、実験計画法でも同じことです。テキストには、L8なら7個の因子が割り付けられるとあるかもしれませんが、ウソです。7個割り付けたら、いったい効果は何と比較するのでしょうか?効果というのは、誤差と比較しての話ですから、誤差がなければそこで計算上はストップします。 手慣れた人は、7個割り付けて、最も平均変動の小さいものを半分ぐらい、プーリングして検定することで、効果を比較します。タグチメソッドではよく使う手です。ただし、通常は、(初歩では)、誤差列を確保して、その平均変動との比較で、残り6個の効果を知るわけです。プーリングするとしても、あくまで、基準は誤差列ですから、L8でも諸レベルでは6個割り付けのほうが迷いません。初心者は迷うのは無理ないです。ややこしいですね。エクセル使うと、プーリングなんて自動ではしませんので、おそらくそこで計算は止まります。