実務で使える5つの数理モデル   データ分析講座(その287)

更新日

投稿日

情報分析

 

色々な数理モデルがありますが、実用性ではどうでしょうか。誰もが実務で使えるという観点で考えると、次の3つの回帰モデルと2つのデータ集約手法で十分なケースが多いようです。今回は「実務で使える5つの数理モデル」というお話しをします。

  • 線形回帰モデル(単回帰/重回帰)
  • ポアソン回帰モデル
  • ロジスティック回帰モデル
  • 主成分分析
  • クラスタ分析

 

【目次】
1. 3つの回帰モデル
2. カウントデータと非カウントデータ
3. 定性データ(2値)とは?
4. 主成分分析とクラスタ分析
5. 意思決定をサポートするのにそのまま使える回帰モデル
6. 主成分分析とクラスタ分析の活用例
7. 仮説創造

【この連載の前回:(その286)データ活用の成果は金額換算でへのリンク】

◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

1. 3つの回帰モデル

「線形回帰モデル」「ポアソン回帰モデル」「ロジスティック回帰モデル」は「〇〇回帰モデル」と呼ばれるもので「目的変数Y」と「説明変数X」で構成される数理モデルです。「〇〇回帰モデル」と呼ばれるものは、他にもありますが、使用頻度の高いのはこの3つです。この3つの違いは、目的変数Yがどのようなデータなのか、によります。通常は、次にようになります。

  1. 目的変数Yが定量データ(非カウントデータ)→ 線形回帰モデル
  2. 目的変数Yが定量データ(カウントデータ)→ ポアソン回帰モデル
  3. 目的変数Yが定性データ(2値)→ ロジスティック回帰モデル

 

2. カウントデータと非カウントデータ

カウントデータは、1つ2つ3つとカウントするデータで、非負の整数値(0、1、2、3、…)の値をとります。例えば、訪問件数や受注件数、故障台数などです。非カウントデータは、カウントデータではない定量データで、負の値をとることもありますし、小数点が付く場合もあります。例えば、気温や体重などです。受注金額などの値の大きなカウントデータは、非カウントデータとして扱うことができます。値が大きいとは、単純に大きな数値という意味でです。例えば、0円、1円、2円、…ではなく、1,000円、10,000円、100,000円…ということです。

 

3. 定性データ(2値)とは?

定性データ(2値)は、2つのカテゴリ(例:受注と失注、継続と離反、など)を持つデータです。2値データと呼んだりします。例えば「受注の有無」や「離反の有無」などです。このときデータは「1:受注、0:失注」「1:離反、0:継続」などと数字を割り振ります。

 

また「目的変数Y」を「受注の有無」と表現したり「1:受注、0:失注」と表現したり、簡単に「受注率」と表現したりします。ちなみに「目的変数Y」が「受注の有無」のロジスティック回帰モデルで出力されるのは「受注率」になり、受注率が0.5より大きいと予測されたとき「受注」と予測する、といった使い方をします。

 

4. 主成分分析とクラスタ分析

主成分分析とクラスタ分析は、データを集約(もしくは、グルーピング)する分析技術の1つです。

 

 

2つの違いは、主成分分析は変数(データセットの列)を集約(もしくは、グルーピング)することで次元縮約(例:1,000変数を10変数にまとめる)するのに対し、クラスタ分析はケース(データセットの行)を集約(もしくは、グルーピング)することで似たようなケースをクラスタ化(同じようなのが集まっている状態)します。

 

この場合のケースとは、個体(例:個人や店舗、企業など)です。ちなみに、主成分分析で作られた新たな変数を「主成分」と呼びます。クラスタ分析で作られたグループを「クラスタ」もしくは「クラス」と呼びます。

 

5. 意思決定をサポートするのにそのまま使える回帰モデル

線形回帰モデルやポアソン回帰モデル、ロジスティック回帰モデルなどの「〇〇回帰モデル」と呼ばれるものは、多くの場合、意思決定をサポートするのにそのまま使えます。例えば、売上を目的変数とする線形回帰モデルを構築すれば、売上の異常を検知することができます。受注件数を目的変数とするポアソン回帰モデルを構築すれば、受注件数が伸び悩んだときに、その要因を分析することに使えます。

 

受注の有無を目的変数とするロジスティック回帰モデルを構築すれば、リード(見込み顧客)の受注確率を予測することができます。一方で、主成分分析やクラスタ分析は、単体で意思決定に役立つとうよりも、仮説発見(どちらかというと、仮説創造)のためや「〇〇回帰モデル」の前に実施する「前処理」として、実施することが多いようです。

 

6. 主成分分析とクラスタ分析の活用例

最近のビッグデータ化により、データセットが2方向に延びました。「横方向の伸び」(変数の数が増える)と「縦方向に伸び」(ケースの数が増える)です。

 

 

変数の数が急増し、数百変数や数千変数ではなく、場合によっては数万変数や数億変数という状況に陥ることもあります。このようなとき、主成分分析を実施することで、データの持つ情報量を出来るだけ失うことなく「少数の変数」に減らすことができます。その「少数の変数」は「主成分」と呼ばれ、主成分分析によって作られた「新しい変数」です。数理モデルを構築するときに、この新しく作られた変数でモデルを構築します。ちなみに、主成分そのものが、どういった変数なのかは、人の頭で考える必要があります。

 

例えば、元の変数と主成分の関係性(例:相関係数)などから考えていくことが多いです。主成分分析は使い勝手のいいので、他にも色々な前処理で利用したり、他の分析手法と組み合わせて利用したりします。

 

 

例えば、...

情報分析

 

色々な数理モデルがありますが、実用性ではどうでしょうか。誰もが実務で使えるという観点で考えると、次の3つの回帰モデルと2つのデータ集約手法で十分なケースが多いようです。今回は「実務で使える5つの数理モデル」というお話しをします。

  • 線形回帰モデル(単回帰/重回帰)
  • ポアソン回帰モデル
  • ロジスティック回帰モデル
  • 主成分分析
  • クラスタ分析

 

【目次】
1. 3つの回帰モデル
2. カウントデータと非カウントデータ
3. 定性データ(2値)とは?
4. 主成分分析とクラスタ分析
5. 意思決定をサポートするのにそのまま使える回帰モデル
6. 主成分分析とクラスタ分析の活用例
7. 仮説創造

【この連載の前回:(その286)データ活用の成果は金額換算でへのリンク】

◆【特集】 連載記事紹介:連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

1. 3つの回帰モデル

「線形回帰モデル」「ポアソン回帰モデル」「ロジスティック回帰モデル」は「〇〇回帰モデル」と呼ばれるもので「目的変数Y」と「説明変数X」で構成される数理モデルです。「〇〇回帰モデル」と呼ばれるものは、他にもありますが、使用頻度の高いのはこの3つです。この3つの違いは、目的変数Yがどのようなデータなのか、によります。通常は、次にようになります。

  1. 目的変数Yが定量データ(非カウントデータ)→ 線形回帰モデル
  2. 目的変数Yが定量データ(カウントデータ)→ ポアソン回帰モデル
  3. 目的変数Yが定性データ(2値)→ ロジスティック回帰モデル

 

2. カウントデータと非カウントデータ

カウントデータは、1つ2つ3つとカウントするデータで、非負の整数値(0、1、2、3、…)の値をとります。例えば、訪問件数や受注件数、故障台数などです。非カウントデータは、カウントデータではない定量データで、負の値をとることもありますし、小数点が付く場合もあります。例えば、気温や体重などです。受注金額などの値の大きなカウントデータは、非カウントデータとして扱うことができます。値が大きいとは、単純に大きな数値という意味でです。例えば、0円、1円、2円、…ではなく、1,000円、10,000円、100,000円…ということです。

 

3. 定性データ(2値)とは?

定性データ(2値)は、2つのカテゴリ(例:受注と失注、継続と離反、など)を持つデータです。2値データと呼んだりします。例えば「受注の有無」や「離反の有無」などです。このときデータは「1:受注、0:失注」「1:離反、0:継続」などと数字を割り振ります。

 

また「目的変数Y」を「受注の有無」と表現したり「1:受注、0:失注」と表現したり、簡単に「受注率」と表現したりします。ちなみに「目的変数Y」が「受注の有無」のロジスティック回帰モデルで出力されるのは「受注率」になり、受注率が0.5より大きいと予測されたとき「受注」と予測する、といった使い方をします。

 

4. 主成分分析とクラスタ分析

主成分分析とクラスタ分析は、データを集約(もしくは、グルーピング)する分析技術の1つです。

 

 

2つの違いは、主成分分析は変数(データセットの列)を集約(もしくは、グルーピング)することで次元縮約(例:1,000変数を10変数にまとめる)するのに対し、クラスタ分析はケース(データセットの行)を集約(もしくは、グルーピング)することで似たようなケースをクラスタ化(同じようなのが集まっている状態)します。

 

この場合のケースとは、個体(例:個人や店舗、企業など)です。ちなみに、主成分分析で作られた新たな変数を「主成分」と呼びます。クラスタ分析で作られたグループを「クラスタ」もしくは「クラス」と呼びます。

 

5. 意思決定をサポートするのにそのまま使える回帰モデル

線形回帰モデルやポアソン回帰モデル、ロジスティック回帰モデルなどの「〇〇回帰モデル」と呼ばれるものは、多くの場合、意思決定をサポートするのにそのまま使えます。例えば、売上を目的変数とする線形回帰モデルを構築すれば、売上の異常を検知することができます。受注件数を目的変数とするポアソン回帰モデルを構築すれば、受注件数が伸び悩んだときに、その要因を分析することに使えます。

 

受注の有無を目的変数とするロジスティック回帰モデルを構築すれば、リード(見込み顧客)の受注確率を予測することができます。一方で、主成分分析やクラスタ分析は、単体で意思決定に役立つとうよりも、仮説発見(どちらかというと、仮説創造)のためや「〇〇回帰モデル」の前に実施する「前処理」として、実施することが多いようです。

 

6. 主成分分析とクラスタ分析の活用例

最近のビッグデータ化により、データセットが2方向に延びました。「横方向の伸び」(変数の数が増える)と「縦方向に伸び」(ケースの数が増える)です。

 

 

変数の数が急増し、数百変数や数千変数ではなく、場合によっては数万変数や数億変数という状況に陥ることもあります。このようなとき、主成分分析を実施することで、データの持つ情報量を出来るだけ失うことなく「少数の変数」に減らすことができます。その「少数の変数」は「主成分」と呼ばれ、主成分分析によって作られた「新しい変数」です。数理モデルを構築するときに、この新しく作られた変数でモデルを構築します。ちなみに、主成分そのものが、どういった変数なのかは、人の頭で考える必要があります。

 

例えば、元の変数と主成分の関係性(例:相関係数)などから考えていくことが多いです。主成分分析は使い勝手のいいので、他にも色々な前処理で利用したり、他の分析手法と組み合わせて利用したりします。

 

 

例えば、主成分分析後に「主成分」でクラスタ分析を実施し、似たような主成分を持つケースをグルーピングしたりします。

 

 

7. 仮説創造

クラスタ分析の中の「最大の分析」(最も頭を使う)が「なぜ、そのようなグルーピングがなされたのか? 各クラスタにはどのような特徴があるのか?」を考えるプロファイリングです。クラスタ別にデータを集計し比較したり「○○回帰モデル」を構築したりすることで、各クラスタの特徴を把握していきます。

 

そうして、仮説発見(どちらかというと、仮説創造)をしていきます。主成分分析やクラスタ分析を実施したからといって「これが仮説です」という感じで教えてくれることはありません。人の頭を使い仮説を考えていきます。そして、クラスタ分析の結果を、新たな説明変数Xにしたり、新たな媒介変数Zにすることも多く、そのことで構築した数理モデルの精度が向上したり、説明しやすくなったりします。

 

【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
中小製造業のためのバックオフィスDX化戦略

  【目次】 中小製造業向けのバックオフィス関連SaaS(Software as a Service)は、業務の効率化と...

  【目次】 中小製造業向けのバックオフィス関連SaaS(Software as a Service)は、業務の効率化と...


メタバースとは?メタバースの概要が2分でわかる!

  2021年10月のFacebook社のMeta社への改称を契機に、デジタル仮想空間であるメタバースが再注目されています。モバイルインタ...

  2021年10月のFacebook社のMeta社への改称を契機に、デジタル仮想空間であるメタバースが再注目されています。モバイルインタ...


テキストマイニング技術のビジネスへの応用とその効果(その2)

   前回のその1に続いて解説します。 2. トランザクティブ・メモリー  トランザクティブ・メモリーは、1980年代半ばに米ハーバード大...

   前回のその1に続いて解説します。 2. トランザクティブ・メモリー  トランザクティブ・メモリーは、1980年代半ばに米ハーバード大...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集と開発活動、営業の役割‐  製品・技術開発力強化策の事例(その12)

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...


ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...