生存時間分析とは データ分析講座(その255)

投稿日

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存する...

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存することを前提にしています。要は、比例ハザードは時間で変化せず一定ということです。

 

Cox比例ハザードモデル(Cox proportional hazard model)の進化版として、時間変化するCox比例ハザードモデルがあります。さらに、スパースcox回帰モデルやランダム生存時間フォレスト(Random Survival Forest)など機械学習的なモデルも色々あります。

 

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ダイナミックプライシングとは データ分析講座(その181)

    ◆ 新聞売り子問題とダイナミックプライシング  データ活用が進む中、ダイナミックプライシングの動きが活発化しています。ダ...

    ◆ 新聞売り子問題とダイナミックプライシング  データ活用が進む中、ダイナミックプライシングの動きが活発化しています。ダ...


見える化の魔力 データ分析講座(その218)

  【この連載の前回:データ分析講座(その217)なぜ、開票率数%で当確なのか?へのリンク】 データ活用をするとき、「見える化」というキ...

  【この連載の前回:データ分析講座(その217)なぜ、開票率数%で当確なのか?へのリンク】 データ活用をするとき、「見える化」というキ...


今までにない気付きが発見されると分析結果が疑われる データ分析講座(その162)

  ◆ データ分析と活用のメリットを甘受させることを最優先に  よくデータ分析を実施する前に「データから今までにない気付きを得られるので...

  ◆ データ分析と活用のメリットを甘受させることを最優先に  よくデータ分析を実施する前に「データから今までにない気付きを得られるので...


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題 第1回‐  製品・技術開発力強化策の事例(その17)

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...


レストランでのタブレット端末

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...


P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...