層別因子を含むデータ解析(その2)

更新日

投稿日

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下の...

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下のようになります。

表6. 相関行列

表7.重回帰分析結果

 説明するまでもなく号機1の時は、その他の号機の数値は0ですから、x3が1の時は号機1と言い切れます。順序も関係ありません。他の号機でも同じ考え方です。
 このように、説明変数が層別因子である場合には、その割り当て数(定義変数)には、注意する必要があります。ちなみに号機A1からA4に順に1、2、3、4と割り当てて、重回帰分析をしてみたものと比べましょう(意味のない解析ですが、一応差異を確認しておきましょう)。

表8.生データの例

表9.相関行列

表10.重回帰分析結果


 この表を、正しい解析である表6、表7と見比べてみてください。全く違うのですが、どこにその違いが表れるのかを考察しておくとよいでしょう。

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「SQC一般」の他のキーワード解説記事

もっと見る
算術平均と幾何平均 平均のいろいろ(その1)

◆関連解説『SQCとは』


~スパコンは速くなった? 続・現場数学(その19)

  1.  新幹線とスパコン“速さ”の違い  東北新幹線は最高時速260kmで走っていました。それが、...

  1.  新幹線とスパコン“速さ”の違い  東北新幹線は最高時速260kmで走っていました。それが、...


調和平均と重みつき平均 平均のいろいろ(その2)

◆関連解説『SQCとは』


「SQC一般」の活用事例

もっと見る
信頼できる結果を得るために統計的手法の活用を

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...


DPMOとは何か

 DPMOとはDefects Per Million Opportunityのイニシャルを取ったものです。DPMOを百万個当りの欠陥数(製品百万個当りの不...

 DPMOとはDefects Per Million Opportunityのイニシャルを取ったものです。DPMOを百万個当りの欠陥数(製品百万個当りの不...


ビックデータ時代と米国大統領戦

 ビックデータ時代を考える事例として、今回の第45代米国大統領選挙を見てみます。第45代の米国大統領に、ドナルド・トランプ氏が決まりましたが、トランプ氏当...

 ビックデータ時代を考える事例として、今回の第45代米国大統領選挙を見てみます。第45代の米国大統領に、ドナルド・トランプ氏が決まりましたが、トランプ氏当...