生存時間分析とは データ分析講座(その255)

投稿日

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存する...

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存することを前提にしています。要は、比例ハザードは時間で変化せず一定ということです。

 

Cox比例ハザードモデル(Cox proportional hazard model)の進化版として、時間変化するCox比例ハザードモデルがあります。さらに、スパースcox回帰モデルやランダム生存時間フォレスト(Random Survival Forest)など機械学習的なモデルも色々あります。

 

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ活用上の「お困りごと」の混在とは データ分析講座(その275)

    データ活用を考えたとき、先ずはデータ活用する「現場のお困りごと」を考えるべきです。しかし「データのお困りごと」から入っ...

    データ活用を考えたとき、先ずはデータ活用する「現場のお困りごと」を考えるべきです。しかし「データのお困りごと」から入っ...


データ環境によって成長が大きく異なるAI データ分析講座(その123)

◆ ぐれるAI、オタクになるAI  フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと...

◆ ぐれるAI、オタクになるAI  フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと...


アクションを導くために考えるべきこと   データ分析講座(その285)

    データ活用全般にいえることですが、データは「過去」の「ある事象」(例:受注や生産、購買など)の「1面の1部分」だけを表...

    データ活用全般にいえることですが、データは「過去」の「ある事象」(例:受注や生産、購買など)の「1面の1部分」だけを表...


「情報マネジメント一般」の活用事例

もっと見る
‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...


Excelの帳票を見直そう

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...


‐技術開発の目標について 第2回‐  製品・技術開発力強化策の事例(その16)

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....