層別因子を含むデータ解析(その1)

更新日

投稿日

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準2個の場合

 よく出てくるシチュエーションに、機械号機の差を含んだ重回帰分析や判別分析があります。以下の話は共通ですので、重回帰分析を例にします。重回帰分析の初歩レベルでのお話ですが、層別因子を含んだ例は、市販テキストにも載っていない場合が多いです。重回帰分析では、目的変数(従属変数ともいい、単に特性値ともいう)と説明変数(独立変数)から構成されています。目的変数をy(解析目的の収量であったり、寸法であったり、結果系、出来映え系のことです)とし、説明変数をxi(iは、1,2,3,、、で、原因系。温度、圧力、触媒の量、とか。x0と書いた場合は、重回帰分析の式の定数項)とします。

 本来は目的変数も伴う誤差の仮定として、独立性、不偏性、等分散性、正規性が大事なため、通常は連続した計量値が望ましいわけです。この問題も結構あり、例えばアンケートの得点やキズの個数、収率などは、ひと工夫しないといけないわけですが、一旦差し置きまして今回は、説明変数のほうのお話をいたします。

 説明変数にも、よく似た注意は必要です。例えば、濃度や温度は連続計量値ですが、層別因子は注意が必要となります。椅子の数(整数因子)などは、計量値ではないのですが、椅子の数1.6個が最適だとなれば、多めに2個配置しようという対策が取れます。つまり、計量値として解析しても大きな実害はないわけです。椅子の数(整数)に、小から大という順序関係、大小関係があるからです。ところが層別因子の場合、1号機と2号機はあっても、1.6号機というのは存在しません。ただし、1号機に1を、2号機に2を当てても、2台しかない場合は構いません。1号機に0を、2号機に1を当てても同じです。当然、回帰式は当てる数字によって異なりますが、その決定係数や回帰式の有意性が変わるわけではありません。また、回帰式が変わるといっても、定義した数値通りに打ち込めば、重回帰式から得られる予測値は一致します。例で示しましょう。次の事例は、多変量解析法(日科技連、奥野他)p123表7.8から抜き出して編集、改変したものです。

 x1とx2は構成部品の部品寸法で、yは電気特性のようです。ここで、x3を機械号機とします。1号機と2号機のような感じです。1号機には1を、2号機には0という数字をあてがいます(この辺は先ほどの本とは異なる解説です。本から頂いたのは、データのみです)。ここで確認したいのは、1号機に1,2号機に2など、何を持ってきても解析結果が異なることがないということです(回帰係数は変わりますが、変数に定義された数字を入れれば、結果は一致します)。

表1. 各変数の説明(xは説明変数、yは目的変数)

 

表2. 対応させたデータ(連データ)(1)

 

表3. 相関行列(1)

 

表4. 重回帰分析結果

 これは、回帰式Y=-4.54132+0.713455x1+0.079179x2-2.04342x3 ということです。

このYを観測値(実現値)yと列記すると、

表5. 観測値と予測値(1)

 これが、機械号機1号機に1を、2号機に0を定義して割り当てたものの結果です。次に、機械号機1号に1を、2号機に2を割り当てて、同じことをやってみます。

 対応データは下表のようになります。

表6. 対応させたデータ(連データ)(2)

 

表7. 相関行列(2)

 1号機に1を、2号機に0を定義したときの相関行列(1)とは正負が一致しませんが、大小を逆に定義したためです。大小関係を一致させておけば一致します。

 

表8. 重回帰分析結果(2)

 回帰統計は(1)と一致します。要は、定義変数を適当に変えても、寄与率や決定係数は変わりません。係数は一致しません(定数項も)が、この回帰式に定義した数値を当てはめてみると、得られる予測値Yは以下のようになり、...

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準2個の場合

 よく出てくるシチュエーションに、機械号機の差を含んだ重回帰分析や判別分析があります。以下の話は共通ですので、重回帰分析を例にします。重回帰分析の初歩レベルでのお話ですが、層別因子を含んだ例は、市販テキストにも載っていない場合が多いです。重回帰分析では、目的変数(従属変数ともいい、単に特性値ともいう)と説明変数(独立変数)から構成されています。目的変数をy(解析目的の収量であったり、寸法であったり、結果系、出来映え系のことです)とし、説明変数をxi(iは、1,2,3,、、で、原因系。温度、圧力、触媒の量、とか。x0と書いた場合は、重回帰分析の式の定数項)とします。

 本来は目的変数も伴う誤差の仮定として、独立性、不偏性、等分散性、正規性が大事なため、通常は連続した計量値が望ましいわけです。この問題も結構あり、例えばアンケートの得点やキズの個数、収率などは、ひと工夫しないといけないわけですが、一旦差し置きまして今回は、説明変数のほうのお話をいたします。

 説明変数にも、よく似た注意は必要です。例えば、濃度や温度は連続計量値ですが、層別因子は注意が必要となります。椅子の数(整数因子)などは、計量値ではないのですが、椅子の数1.6個が最適だとなれば、多めに2個配置しようという対策が取れます。つまり、計量値として解析しても大きな実害はないわけです。椅子の数(整数)に、小から大という順序関係、大小関係があるからです。ところが層別因子の場合、1号機と2号機はあっても、1.6号機というのは存在しません。ただし、1号機に1を、2号機に2を当てても、2台しかない場合は構いません。1号機に0を、2号機に1を当てても同じです。当然、回帰式は当てる数字によって異なりますが、その決定係数や回帰式の有意性が変わるわけではありません。また、回帰式が変わるといっても、定義した数値通りに打ち込めば、重回帰式から得られる予測値は一致します。例で示しましょう。次の事例は、多変量解析法(日科技連、奥野他)p123表7.8から抜き出して編集、改変したものです。

 x1とx2は構成部品の部品寸法で、yは電気特性のようです。ここで、x3を機械号機とします。1号機と2号機のような感じです。1号機には1を、2号機には0という数字をあてがいます(この辺は先ほどの本とは異なる解説です。本から頂いたのは、データのみです)。ここで確認したいのは、1号機に1,2号機に2など、何を持ってきても解析結果が異なることがないということです(回帰係数は変わりますが、変数に定義された数字を入れれば、結果は一致します)。

表1. 各変数の説明(xは説明変数、yは目的変数)

 

表2. 対応させたデータ(連データ)(1)

 

表3. 相関行列(1)

 

表4. 重回帰分析結果

 これは、回帰式Y=-4.54132+0.713455x1+0.079179x2-2.04342x3 ということです。

このYを観測値(実現値)yと列記すると、

表5. 観測値と予測値(1)

 これが、機械号機1号機に1を、2号機に0を定義して割り当てたものの結果です。次に、機械号機1号に1を、2号機に2を割り当てて、同じことをやってみます。

 対応データは下表のようになります。

表6. 対応させたデータ(連データ)(2)

 

表7. 相関行列(2)

 1号機に1を、2号機に0を定義したときの相関行列(1)とは正負が一致しませんが、大小を逆に定義したためです。大小関係を一致させておけば一致します。

 

表8. 重回帰分析結果(2)

 回帰統計は(1)と一致します。要は、定義変数を適当に変えても、寄与率や決定係数は変わりません。係数は一致しません(定数項も)が、この回帰式に定義した数値を当てはめてみると、得られる予測値Yは以下のようになり、(1)と一致します。

 

表9. 観測値と予測値(1)と(2)

 

 層別因子の水準が2個しかない時は、適当に2つの数値を割り当てればよいことになります。何でもいいわけです。決定係数は一致し、回帰から得られる予測値も一致します。相関行列や回帰係数は一致しませんが、もともと、物理的に意味のある数値ではないので、一致しなくても構いません。意味がないからです。要は、2個の水準値で比較するので、大小関係がひっくり返るだけのことです。また2個の水準ですから、その間の回帰は直線になるので、決定係数は個々の水準値に付随したyのバラツキのみから決定されるため一致します。

 ところが、機械号機の1号機、2号機、3号機に対し適当に、―1,0,1とか、1,2,3など割り当てることは厳禁です。

 

 続きは次回解説記事(その2)で説明いたします。

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「回帰分析」の他のキーワード解説記事

もっと見る
回帰分析のリスキリング 【厳選記事紹介】

  回帰分析の学び直しに厳選記事が無料でお読みいただけます!   ◆こんな方におすすめ!=回帰分析を学び直したい!= 「回...

  回帰分析の学び直しに厳選記事が無料でお読みいただけます!   ◆こんな方におすすめ!=回帰分析を学び直したい!= 「回...


単回帰分析で二変数間の従属関係を知る

1.単回帰分析とは  一般的に2変数以上の多変量のデータで、ある1変数を残りの変数で説明しようとする解析法を回帰分析と言います。主となる変数は"目的変数...

1.単回帰分析とは  一般的に2変数以上の多変量のデータで、ある1変数を残りの変数で説明しようとする解析法を回帰分析と言います。主となる変数は"目的変数...


回帰分析とは データ分析講座(その157)

   「回帰分析」とは  回帰分析では、狙いとする特性(従属変数)に対して、複数の影響変数が組み合わされたサンプルデータから、...

   「回帰分析」とは  回帰分析では、狙いとする特性(従属変数)に対して、複数の影響変数が組み合わされたサンプルデータから、...


「回帰分析」の活用事例

もっと見る
統計手法による改善事例:検査コスト削減〔回帰分析〕

 製造メーカーG社は製品品質の保証を最終分析結果にて行っていましたが、分析結果を待っての出荷となる為、 生産計画が組みにくい問題点を抱えていました。最終検...

 製造メーカーG社は製品品質の保証を最終分析結果にて行っていましたが、分析結果を待っての出荷となる為、 生産計画が組みにくい問題点を抱えていました。最終検...


回帰分析の応用事例

   今回は、統計手法の一つである「回帰分析」の解析事例を解説します。    事例として、ほぼ同じタイミングで製造を開始した製品(約200個)に現時...

   今回は、統計手法の一つである「回帰分析」の解析事例を解説します。    事例として、ほぼ同じタイミングで製造を開始した製品(約200個)に現時...