生存時間分析とは データ分析講座(その255)

投稿日

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存する...

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存することを前提にしています。要は、比例ハザードは時間で変化せず一定ということです。

 

Cox比例ハザードモデル(Cox proportional hazard model)の進化版として、時間変化するCox比例ハザードモデルがあります。さらに、スパースcox回帰モデルやランダム生存時間フォレスト(Random Survival Forest)など機械学習的なモデルも色々あります。

 

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
分析結果レポートのポイント データ分析講座(その274)

  集計や分析、予測の結果をダッシュボードやレポートなどとして、データ活用する現場に提供することがあります。どのようなダッシュボードやレポ...

  集計や分析、予測の結果をダッシュボードやレポートなどとして、データ活用する現場に提供することがあります。どのようなダッシュボードやレポ...


「KPI」と「KGI」 データ分析講座(その30)

◆ 営業やマーケティング担当者が、OODAループでモニタリングする指標(KPIなど)は絞る  指標(KPIなど)が1つ2つであれな問題ないのですが、...

◆ 営業やマーケティング担当者が、OODAループでモニタリングする指標(KPIなど)は絞る  指標(KPIなど)が1つ2つであれな問題ないのですが、...


最近多いケーススタディ⑦「需要予測と発注最適化」 データ分析講座(その194)

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


人的資源マネジメント:製品開発の滞留を引き起こすファイルとは(その2)

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...


人的資源マネジメント:データ指向ものづくりがもたらす高い生産性

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...