生存時間分析とは データ分析講座(その255)

投稿日

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存する...

データ分析

 

あなたの会社の顧客が、顧客である期間はどのくらいですか?この顧客は何年後に離反しますか?あなたの会社の機械(もしくは、顧客の機械)が、1年間正常に稼働した後、どのくらい持ちますか?この機械はどのくらいで故障しますか?このようなことは、生存時間分析で予測することができます。

 

生存時間分析は、対象となるイベント(離反や故障など)をすべて観察することなく、イベント(離反や故障など)までの時間を推測するための統計学的なデータサイエンス技術です。今回は「顧客であるまでの期間(離反する時期)を予測する生存時間分析」というお話しをします。

 

【目次】
1. 打ち切りデータの問題
2. カプラン・マイヤー法(Kaplan-Meier method)
3. Cox比例ハザードモデル(Cox proportional hazard model)

【この連載の前回:データ分析講座(その254)データの前処理とは何かへのリンク】

 

1. 打ち切りデータの問題

顧客の離反や機械の故障などを分析するときの問題の1つとして、打ち切りデータの問題があります。打ち切りデータの問題とは、最終的な結果(離反や故障など)がわかる前のデータしかないデータです。例えば、ある時期のデータまでを活用するとき場合、その時期以降のデータがないため、その時期以降に離反した顧客のイベント(この場合、離反)のデータは「打ち切り」となります。 

 

データ分析

 

打ち切りデータの問題を解決するには、すべての顧客が離反するまでデータを取得し続けなければなりませんが、これは非現実的です。生存時間分析では、このイベント(例えば、離反や故障)の打ち切りの問題を前提にした技術です。

 

2.カプラン・マイヤー法(Kaplan-Meier method)

カプラン・マイヤー法(Kaplan-Meier method)とは、生存時間分析の手法の一つで、生存率曲線(survival curves)を使い、生存時間(顧客である期間)の推定を行います。

 

データ分析

 

生存率曲線(survival curves)に影響を及ぼす要因(説明変数X)が見つかれば、生存時間(顧客である期間)を伸ばすことができるかもしれません。そのような分析をするために、Cox比例ハザードモデル(Cox proportional hazard model)を使います。

 

3.Cox比例ハザードモデル(Cox proportional hazard model)

Cox比例ハザードモデル(Cox proportional hazard model)とは、離反or継続を予測するロジスティック回帰の概念に、時間的な概念を加味したかのようなモデルです。時間的な概念を加味したかのようなモデルとは、離反or継続と予測するのではなく、1年以内にどのくらい離反しそうかを予測する、といった感じです。

 

このCox比例ハザードモデル(Cox proportional hazard model)を使うことで、想定される要因(説明変数X)がどのくらい生存時間に影響を与えているのかを、分析することができます。言い換えると、何が顧客離反を早めているのかや何が故障をはやめているのかなどを、分析することができます。

 

ここではハザードや比例ハザードそのものの説明を避けますが、Cox比例ハザードモデル(Cox proportional hazard model)は、説明変数Xは時間で変化せず、比例ハザードは説明変数Xにのみ依存することを前提にしています。要は、比例ハザードは時間で変化せず一定ということです。

 

Cox比例ハザードモデル(Cox proportional hazard model)の進化版として、時間変化するCox比例ハザードモデルがあります。さらに、スパースcox回帰モデルやランダム生存時間フォレスト(Random Survival Forest)など機械学習的なモデルも色々あります。

 

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ分析は必ず「アクション」まで導き出す データ分析講座(その140)

◆ データ分析で導き出す5つのこと  データによる課題解決を考えた時、「データ分析講座(その139)データから未来とアクションを検討する」で述べまし...

◆ データ分析で導き出す5つのこと  データによる課題解決を考えた時、「データ分析講座(その139)データから未来とアクションを検討する」で述べまし...


データ分析の専門部署を新設するときの留意点とは データ分析講座(その57)

◆ 「データ分析の専門部署」は、現場を知る人財との混合チームがいい。「手法偏重者」には気をつけよう。  今回は、データ分析の専門部署を維持発展させて...

◆ 「データ分析の専門部署」は、現場を知る人財との混合チームがいい。「手法偏重者」には気をつけよう。  今回は、データ分析の専門部署を維持発展させて...


教師あり・なし学習による異常検知とは:データ分析講座(その315)

  データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なる...

  データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なる...


「情報マネジメント一般」の活用事例

もっと見る
たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


中小製造業のウェブ戦略

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...


現場のExcel依存に注意しよう

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...