コーホートを活用した受注予測モデルとは データ分析講座(その108)

更新日

投稿日

 

◆ 営業や販売のCRM系のデータ分析、どうしてもコーホート的になる

 分析用データはどのような視点で分析するかによりデータセットの呼び名、データ分析の名称が変わったりします。営業や販売のCRM系やECサイトのアクセスログ系のデータ分析、つまりデータが特定の誰かに紐づいている分析の場合、クロスセクション、タイムシリーズ(時系列)、そしてコーホートの3種類のデータ分析が可能になります。今回は「営業や販売のCRM系のデータ分析、どうしてもコーホート的になる」というお話しです。
コーホート:観察対象となる集団が共通した因子を持つ。例えば、同年(または同期間)に出生した集団など。 

1. 2つのタイプに集約される

 データの分類方法は様々です。教科書的には名義尺度、間隔尺度と尺度で論じるケースも少なくありません。さらに数値データとテキストデータ、画像データなどのデータの保存状態によって分類するケースもあります。実務的にはどうでしょうか。ざっくり、2つのタイプに分類されるかと思います。定量データ(ニューメリカルデータ)と定性データ(カテゴリカルデータ)です。どちらも数字で表現されます。画像データでさえ処理する時には数字で表現します。

2. 定量データ(ニューメリカルデータ)

 定量データ(ニューメリカルデータ)とはどういったデータでしょうか。例えば以下のようなデータです。

  • 気温、湿度、雨量、
  • 身長、体重、BMI、
  • 売上金額、受注件数、来店者数、
  • GRP、出稿金額、製作費、
  • 人件費、研修費、交通費、
  • 接触回数、訪問回数、説明回数、
  • 受注率、離反率、LTV、契約期間、
    など

 さらに定量データは2つのタイプに分かれます。非カウントデータとカウントデータです。

データ分析

 カウントデータとは、1つ2つ3つ…とカウントされ、非負の整数の値をとります。

3. 定性データ(カテゴリカルデータ)

 定性データとは以下のようになります。

  • 性別(1:男性、2:女性)
  • エリア(1:北海道、2:青森…)
  • 購入意向(1:非常に買いたい、2:買いたい…)
  • 受注の有無(1:受注、0:失注)
  • 顧客ランク(1:トライアル、2:レギュラー、3:ロイヤル)
    など

 定性データは、さらに2つのタイプに分かれます。非順序データと順序データです。

データ分析

 順序データとは、名称の通り順序関係があるデータで、定量データではありません。便宜的に順序データを定量データとして扱い分析する場合もありす(例えば、アンケートの程度を聞く質問の回答に対し因子分析する時など)。

4. データセット

 データ分析用のデータは多くの場合、定量データと定性データが混在しています。

データ分析

 この混在したデータをデータセットなどと言ったりします。パッと見はExcelなどのスプレッドシートそのものです。通常はこのように定量データと定性データが混在しているデータセットを分析していきます。

5. クロスセクションデータとタイムシリーズ(時系列)データ

 分析用データであるデータセットに対しどのような視点で分析するかにより、分析手法の選び方と幅が異なります。例えばクロスセクションとタイムシリーズ(時系列)という視点があります。

データ分析

 クロスセクションデータは時系列の概念を取り払ったものとも言えます。例えば上記の場合、2017年1月~2017年7月のデータをすべて一緒くたに扱えば(時間という概念を無視)、それもクロスセクションになります。

6. コーホートデータ

 タイムシリーズ(時系列)をさらに一歩進めて、コーホートという視点の分析もあります。

データ分析

 単なる「時間」(例:2017年1月、2017年2月…)という概念だけでなく「時間の経過」(例:営業開始0カ月、1カ月…)という視点も加えたものです。クロスセクションと比べると複雑な感じがしてきますが、こちらのほうが分析の幅が広がっているのが分かるかと思います。

7. 分析の面倒度

 では分析する時、どの視点の分析が一番面倒でしょうか。それはコーホートです。

データ分析

 コーホートを分析する時は、クロスセクションデータとして分析するほうが楽でしょう。実際そうしたほうがいいと思います。しかし、時間的な要素(季節性や営業開始からの履歴など)が抜け落ちるため「ク...

 

◆ 営業や販売のCRM系のデータ分析、どうしてもコーホート的になる

 分析用データはどのような視点で分析するかによりデータセットの呼び名、データ分析の名称が変わったりします。営業や販売のCRM系やECサイトのアクセスログ系のデータ分析、つまりデータが特定の誰かに紐づいている分析の場合、クロスセクション、タイムシリーズ(時系列)、そしてコーホートの3種類のデータ分析が可能になります。今回は「営業や販売のCRM系のデータ分析、どうしてもコーホート的になる」というお話しです。
コーホート:観察対象となる集団が共通した因子を持つ。例えば、同年(または同期間)に出生した集団など。 

1. 2つのタイプに集約される

 データの分類方法は様々です。教科書的には名義尺度、間隔尺度と尺度で論じるケースも少なくありません。さらに数値データとテキストデータ、画像データなどのデータの保存状態によって分類するケースもあります。実務的にはどうでしょうか。ざっくり、2つのタイプに分類されるかと思います。定量データ(ニューメリカルデータ)と定性データ(カテゴリカルデータ)です。どちらも数字で表現されます。画像データでさえ処理する時には数字で表現します。

2. 定量データ(ニューメリカルデータ)

 定量データ(ニューメリカルデータ)とはどういったデータでしょうか。例えば以下のようなデータです。

  • 気温、湿度、雨量、
  • 身長、体重、BMI、
  • 売上金額、受注件数、来店者数、
  • GRP、出稿金額、製作費、
  • 人件費、研修費、交通費、
  • 接触回数、訪問回数、説明回数、
  • 受注率、離反率、LTV、契約期間、
    など

 さらに定量データは2つのタイプに分かれます。非カウントデータとカウントデータです。

データ分析

 カウントデータとは、1つ2つ3つ…とカウントされ、非負の整数の値をとります。

3. 定性データ(カテゴリカルデータ)

 定性データとは以下のようになります。

  • 性別(1:男性、2:女性)
  • エリア(1:北海道、2:青森…)
  • 購入意向(1:非常に買いたい、2:買いたい…)
  • 受注の有無(1:受注、0:失注)
  • 顧客ランク(1:トライアル、2:レギュラー、3:ロイヤル)
    など

 定性データは、さらに2つのタイプに分かれます。非順序データと順序データです。

データ分析

 順序データとは、名称の通り順序関係があるデータで、定量データではありません。便宜的に順序データを定量データとして扱い分析する場合もありす(例えば、アンケートの程度を聞く質問の回答に対し因子分析する時など)。

4. データセット

 データ分析用のデータは多くの場合、定量データと定性データが混在しています。

データ分析

 この混在したデータをデータセットなどと言ったりします。パッと見はExcelなどのスプレッドシートそのものです。通常はこのように定量データと定性データが混在しているデータセットを分析していきます。

5. クロスセクションデータとタイムシリーズ(時系列)データ

 分析用データであるデータセットに対しどのような視点で分析するかにより、分析手法の選び方と幅が異なります。例えばクロスセクションとタイムシリーズ(時系列)という視点があります。

データ分析

 クロスセクションデータは時系列の概念を取り払ったものとも言えます。例えば上記の場合、2017年1月~2017年7月のデータをすべて一緒くたに扱えば(時間という概念を無視)、それもクロスセクションになります。

6. コーホートデータ

 タイムシリーズ(時系列)をさらに一歩進めて、コーホートという視点の分析もあります。

データ分析

 単なる「時間」(例:2017年1月、2017年2月…)という概念だけでなく「時間の経過」(例:営業開始0カ月、1カ月…)という視点も加えたものです。クロスセクションと比べると複雑な感じがしてきますが、こちらのほうが分析の幅が広がっているのが分かるかと思います。

7. 分析の面倒度

 では分析する時、どの視点の分析が一番面倒でしょうか。それはコーホートです。

データ分析

 コーホートを分析する時は、クロスセクションデータとして分析するほうが楽でしょう。実際そうしたほうがいいと思います。しかし、時間的な要素(季節性や営業開始からの履歴など)が抜け落ちるため「クロスセクション」→「タイムシリーズ(時系列)」→「コーホート」という順番に、分析の視点を変えていくと良いと思います。

8. 受注予測モデルの簡単な例

 受注予測モデルの簡単な例を使って「クロスセクション」→「タイムシリーズ(時系列)」→「コーホート」の例を示します。

 クロスセクションデータの受注予測モデル例

データ分析

 タイムシリーズ(時系列)データの受注予測モデル例

データ分析

 コーホートデータの受注予測モデル例

データ分析

 どのもモデルが一番いいでしょうか。恐らくコーホートデータを活用した受注予測モデルが一番よさそうだと感じた方が多いと思います。いきなりコーホート視点で分析を始めると大変なので、最初はクロスセクション的な視点で分析をして、次にタイムシリーズ(時系列)視点を加え、そしてコーホート視点の分析をすると良いと思います。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
分析・活用の成果は現場で生まれる データ分析講座(その145)

◆ データ分析・活用の成果は現場で生まれる  データ分析・活用の成果は、どこで生まれるでしょうか?答えは「現場」です。データ分析そのものからは何も生...

◆ データ分析・活用の成果は現場で生まれる  データ分析・活用の成果は、どこで生まれるでしょうか?答えは「現場」です。データ分析そのものからは何も生...


もっとも手軽なAIである異常検知 データ分析講座(その271)

  AIって何だろうと考えたとき、感覚的に思いつくことの1つとして「何かを教えてくれるコンピュータ上の何か」といのもあるのではないでしょう...

  AIって何だろうと考えたとき、感覚的に思いつくことの1つとして「何かを教えてくれるコンピュータ上の何か」といのもあるのではないでしょう...


非構造化データにまで拡大! ビッグデータの活用で変わるものづくり

 近年、大量データを分析して、顧客や市場、あるいは自社の現状を定量的に把握し、そこから人間の勘だけでは分からない新たな知見を見出し、それをマーケティングや...

 近年、大量データを分析して、顧客や市場、あるいは自社の現状を定量的に把握し、そこから人間の勘だけでは分からない新たな知見を見出し、それをマーケティングや...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


システムトラブル、誰に相談したら良いか

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...


人的資源マネジメント:データ指向ものづくりがもたらす高い生産性

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...