多変量解析概要(その1)

更新日

投稿日

 

 

【多変量解析概要 連載目次】

◆ 多変量データとは?


1.様々なデータの関連性を調べ客観的、定量的に評価

 現在、私たちの身の回りには製造業ではもちろん、サービス業、物流、等々の分野で多くのデータが存在しています。存在するデータから多くのことを学習し、次の段階に生かそうという活動は大昔からありました。株の売買でも、先を読むには現状や過去の傾向について関連情報を参考にします。製造業のようなものづくりの場でも歩留や生産数がおちた時「どの装置がダメだったのか」「温度が低下していなかったか」「濃度が低かったのではないか」「攪拌(かくはん)回転数は適切だったのか」といった調査を行います。

 「知りたいこと」を「何が関係しているのか」によって知りたいわけです。通常は、何が関係しているのかの数は複数個となります。QC7つ道具で有名な特性要因図は、一つの特性(例えば、歩留まり悪化)に対して、様々な要因(原因と考えられるもの:温度差、作業条件、材料不純物…)を挙げていくわけですが、これも知りたいことが何によって決まっているのかを知りたいということにつきます。ここでも様々な要因は文字通り複数個です。もし、1個で決まっているのなら、特性要因図は要りません。

 これから説明する多変量解析というのも、様々なデータの関連性を調べて客観的にそれを定量的に評価するという試みであって、やろうとしていることは大昔から変わらないのです。

2.多変量データについて

 まず、表1を見てください。これは、私の趣味であるエビ飼育表で、一定数が餌に集まる時間をその時の水槽環境(飼育環境とか条件)で対応させた記録データです。もちろん抜粋です。

表1.エビ飼育における記録データ


 この表では、第一列の時間yから第7列の添加剤x7まで7個の項目から対応データがとられています(なぜか、x3がありません。気にしないでください)。

 このように複数個(この表では7個)の項目からなる資料を多変量データといいます。多変量というのは、名前通り複数の項目(=変量といいます)をいっているわけです。当然、このデータは、各項目(変量)で対応していることが重要です。当たり前かと思われますが、実際にこうなっていない場合も、結構あります。例えば上表で、温度x1が1日の最高と最低の平均であったり、時間yが何回かの平均であったりすると、対応していないことになります。なぜなら、平均や最高、最低の回りに多くのデータがばらついているわけですから、個々のデータは対応していないことになります。見せかけは対応していても、そういうデータは対応していないデータになります。実際によくやる失敗ですので今から注意してください。それでも、そのようなデータしか取れない、存在していない場合については、コンサルの出番になります。それはここでは扱いません。個別にご相談なさってください。

 また、実験計画法にて実験データを採取する場合も、特性と因子水準とのデータは対応するわけで、多変量データですが、通常は実験計画法で得られた対応データを多変量データとはいいません。そのように呼んでいる書籍もありますが、ここでは実験計画法上のデータは多変量データから外します。

 以上のことを概念的に図示すると、下図のよう...

 

 

【多変量解析概要 連載目次】

◆ 多変量データとは?


1.様々なデータの関連性を調べ客観的、定量的に評価

 現在、私たちの身の回りには製造業ではもちろん、サービス業、物流、等々の分野で多くのデータが存在しています。存在するデータから多くのことを学習し、次の段階に生かそうという活動は大昔からありました。株の売買でも、先を読むには現状や過去の傾向について関連情報を参考にします。製造業のようなものづくりの場でも歩留や生産数がおちた時「どの装置がダメだったのか」「温度が低下していなかったか」「濃度が低かったのではないか」「攪拌(かくはん)回転数は適切だったのか」といった調査を行います。

 「知りたいこと」を「何が関係しているのか」によって知りたいわけです。通常は、何が関係しているのかの数は複数個となります。QC7つ道具で有名な特性要因図は、一つの特性(例えば、歩留まり悪化)に対して、様々な要因(原因と考えられるもの:温度差、作業条件、材料不純物…)を挙げていくわけですが、これも知りたいことが何によって決まっているのかを知りたいということにつきます。ここでも様々な要因は文字通り複数個です。もし、1個で決まっているのなら、特性要因図は要りません。

 これから説明する多変量解析というのも、様々なデータの関連性を調べて客観的にそれを定量的に評価するという試みであって、やろうとしていることは大昔から変わらないのです。

2.多変量データについて

 まず、表1を見てください。これは、私の趣味であるエビ飼育表で、一定数が餌に集まる時間をその時の水槽環境(飼育環境とか条件)で対応させた記録データです。もちろん抜粋です。

表1.エビ飼育における記録データ


 この表では、第一列の時間yから第7列の添加剤x7まで7個の項目から対応データがとられています(なぜか、x3がありません。気にしないでください)。

 このように複数個(この表では7個)の項目からなる資料を多変量データといいます。多変量というのは、名前通り複数の項目(=変量といいます)をいっているわけです。当然、このデータは、各項目(変量)で対応していることが重要です。当たり前かと思われますが、実際にこうなっていない場合も、結構あります。例えば上表で、温度x1が1日の最高と最低の平均であったり、時間yが何回かの平均であったりすると、対応していないことになります。なぜなら、平均や最高、最低の回りに多くのデータがばらついているわけですから、個々のデータは対応していないことになります。見せかけは対応していても、そういうデータは対応していないデータになります。実際によくやる失敗ですので今から注意してください。それでも、そのようなデータしか取れない、存在していない場合については、コンサルの出番になります。それはここでは扱いません。個別にご相談なさってください。

 また、実験計画法にて実験データを採取する場合も、特性と因子水準とのデータは対応するわけで、多変量データですが、通常は実験計画法で得られた対応データを多変量データとはいいません。そのように呼んでいる書籍もありますが、ここでは実験計画法上のデータは多変量データから外します。

 以上のことを概念的に図示すると、下図のようになります。


 なお、単回帰分析は変量が2個(目的変数と説明変数)あるわけですが、多変量解析に入れません。説明変数が2個以上の回帰分析(重回帰分析といいます)を指すのが普通です。

 また変量という言葉を使っていますが、この変量とは、上述の単回帰分析でもよくつかわれる言葉で、目的変数とか説明変数、従属変数とか独立変数などとも呼ばれています。

 個人的には機能を表しているという意味で、目的変数と説明変数といったほうがピンときます。また今の段階では難しいので省略しますが、主成分分析などのように目的変数のようなものが存在しない場合は、説明変数とか目的変数という言い方はできませんので変量といったほうがピンときます。

 ※今回はここまでです。2部に続きます。

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「多変量解析一般」の他のキーワード解説記事

もっと見る
多変量解析概要(その2)

  【多変量解析概要 連載目次】 多変量解析概要(その1)多変量データとは? 多変量解析概要(その2)多変量解析とその種類 ...

  【多変量解析概要 連載目次】 多変量解析概要(その1)多変量データとは? 多変量解析概要(その2)多変量解析とその種類 ...


多変量解析概要 【連載記事紹介】

  多変量解析概要の連載記事が無料でお読みいただけます! ◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細...

  多変量解析概要の連載記事が無料でお読みいただけます! ◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細...