生存時間分析とは データ分析講座(その255)

投稿日

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存する...

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存することを前提にしています。要は、比例ハザードは時間で変化せず一定ということです。

 

Cox比例ハザードモデル(Cox proportional hazard model)の進化版として、時間変化するCox比例ハザードモデルがあります。さらに、スパースcox回帰モデルやランダム生存時間フォレスト(Random Survival Forest)など機械学習的なモデルも色々あります。

 

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ビジネス時系列データでよくある7つの活用事例 データ分析講座(その304)

  ビジネスの現場で時系列データを使った、よく目にする幾つかの活用事例があります。次の7つです。 ・基本となる3活用事例 &nbs...

  ビジネスの現場で時系列データを使った、よく目にする幾つかの活用事例があります。次の7つです。 ・基本となる3活用事例 &nbs...


予測モデルの活用とは データ分析講座(その116)

◆ 予測モデルは帰納的に構築し演繹的に活用する。そして論理展開する。  データ分析・活用を推し進める時にある段階まで進むと、予測モデルが一つのトピッ...

◆ 予測モデルは帰納的に構築し演繹的に活用する。そして論理展開する。  データ分析・活用を推し進める時にある段階まで進むと、予測モデルが一つのトピッ...


データサイエンスで人が起こしたミラクルをサポートする データ分析講座(その117)

◆ データサイエンスの効果・効能  データサイエンス(データ分析・活用)と聞くと、ものすごいミラクルを起こす何かであると、勘違いする人も少なくありま...

◆ データサイエンスの効果・効能  データサイエンス(データ分析・活用)と聞くと、ものすごいミラクルを起こす何かであると、勘違いする人も少なくありま...


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題 第1回‐  製品・技術開発力強化策の事例(その17)

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...


‐技術開発の目標について 第1回‐  製品・技術開発力強化策の事例(その15)

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...


Excelの帳票を見直そう

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...