直交表の最大因子数を使うと回帰分析できない

全体/その他｜統計・SQC ｜投稿日時：2020/06/09 17:23

実験計画法を始めたばかりです。直交表Ｌ８（水準は２）を使って実施（ＥＸＣＥＬの回帰分析：因子7個を説明変数、新たに目的変数を設定）しました。直交表Ｌ８は、因子が最大7個まで可能と記載されているのですが、因子6個までは解析できるのですが、直交表Ｌ８での因子最大値7個で解析するとうまくいきません。何がまずいのでしょうか？　ご指導よろしくお願いいたします。

投稿者：直交表初心者

ANSWER

回答No1　｜　投稿日時：2020/06/09 20:16

回帰分析はじめ、実験計画法、タグチメソッドのコンサルをしている村島です。直交表のデータを回帰分析するということは、重回帰分析ですね。重回帰分析では、説明変数の数をｐ、データ数をｎとするとき、偏回帰係数を決める（解析可能）な条件は、n-p-1≧０です。これがないと方程式が解けないわけです。ｐ＝６なら、ｎは7個以上ですから、L8ならデータ数が8個ですから、一応解けます。ｐ＝７ではデータ数が8個以上ですから、これでも一応は解けます。ここで、ｐ＝１の場合を考えてください。ｐ＝１すなわち、単回帰です。この場合、ｎは2個以上です。2個でもいいわけです。方程式が解ける、解けないの立場からは、です。でも、2個のデータがあれば、必ず絶対、直線になります。よって、次に別のデータが出てきたとき、その回帰直線に乗るかどうかは別です。よって、通常は3個以上のデータがないと話になりません。とすると、数学的に方程式が解けるのは、n-p-1≧０であっても、意味のある方程式（回帰分析の観点から）は、n-p-2≧０だということになります。ｐ＝１、単回帰なら3個以上のデータです。しかし、明らかにわかるように、3個のデータでよいはずがありません。統計的なばらつきを考慮すれば、通常、最低でも20個以上、と言われています。その根拠はここでは説明しません。この路線から言えば、説明変数すなわち因子数が7個なら、最低でも70個は必要です。
説明変数が6個でうまくいったといっても、先ほどの単回帰と同じように考えれば、全く意味のない解析であるといえます。データ数をもっと増やさないといけません。数学的に解析可能であることと、統計的に十分であることは違います。
　6月12日には、この辺のセミナーが予定されています。当サイトのセミナー「製造業に役立つ数理的手法10選」です。申し込んでいただくとよくわかります。

村島繁延　（むらしま　しげのぶ）　/　専門家S　/　村島技術士事務所

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

この回答の評価：

ご丁寧な回答まことにありがとうございました。回帰式一般論はご指摘の通りだと思いますが、私が実施した重回帰は、説明変数が直交表Ｌ８の8行7列に目的変数を1列追加して実施すると、因子を最大7個使うとおかしな結果が返ってくるということです。「例題とExcel演習で学ぶ実験計画法とタグチメソッド　著者: 菅　民郎」という本の137ページに、因子の水準が2で、因子数が6つ以下ならＬ８を、7～１４個であれば、Ｌ16の直交表を適用するという記述がありました。「Excelで学ぶ実験計画法シックスシグマと重回帰分析第2版」112頁には、必ず1列誤差列が必要とあります。Ｌ８では、因子数７が使えるか聞きたいです。

ANSWER

回答No2　｜　投稿日時：2020/06/10 15:24

結論からです。L8に7個の因子数を割り付けた場合には、重回帰分析を使えません。理由は、前回の解答によります。長々とした説明で申し訳なかったです。

村島繁延　（むらしま　しげのぶ）　/　専門家S　/　村島技術士事務所

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

この回答の評価：
	ありがとうございました。ただ、実験計画法についての一般的な書籍には、直交表Ｌ８は、因子は最大7個というように記載されています。初心者は迷いますね。ありがとうございました。

ANSWER

回答No3　｜　投稿日時：2020/06/10 16:14

くどいですが、今、もっと簡単な説明を思いつきました。回帰式では、実測値（観測値、実現値）と仮の予測値（予測式の形）との残差をとって、残差全体が最小になるように、係数を決定します。L8に7個の因子を割り付けてしまうと、この残差が出ません。実は、実験計画法でも同じことです。テキストには、L8なら7個の因子が割り付けられるとあるかもしれませんが、ウソです。7個割り付けたら、いったい効果は何と比較するのでしょうか？効果というのは、誤差と比較しての話ですから、誤差がなければそこで計算上はストップします。　手慣れた人は、7個割り付けて、最も平均変動の小さいものを半分ぐらい、プーリングして検定することで、効果を比較します。タグチメソッドではよく使う手です。ただし、通常は、（初歩では）、誤差列を確保して、その平均変動との比較で、残り6個の効果を知るわけです。プーリングするとしても、あくまで、基準は誤差列ですから、L8でも諸レベルでは6個割り付けのほうが迷いません。初心者は迷うのは無理ないです。ややこしいですね。エクセル使うと、プーリングなんて自動ではしませんので、おそらくそこで計算は止まります。