効果検証のための回帰不連続デザイン分析 データ分析講座(その214)

投稿日

情報マネジメント

 

効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。

  • AB比較分析
  • Before&After分析
  • 差分の差分析

Before&After分析とは、何か処置(例:プロモーション実施)されたときの前後を比較・分析することです。ありがちな分析かと思います。

 

例えば……

  • 法定飲酒年齢の前後で死亡率がど変化するのか?
  • キャンペーンの前後で売上がどう変化するのか?

……などです。

 

Before&After分析の1つに、回帰不連続デザイン(RDD)分析と呼ばれるものでがあります。今回は、「効果検証のための回帰不連続デザイン(RDD)分析」というお話しをします。

【目次】

1.回帰不連続デザイン(RDD)とは?
(1)アルコールの飲酒と死亡率の関係
(2)効果の大きさ≒境界線上の差(LATE)
2.回帰不連続デザイン(RDD)分析で登場する記号
3.パラメトリック回帰不連続デザイン(RDD)分析
4.ノンパラメトリック回帰不連続デザイン(RDD)分析
(1)営業・マーケティングの例

 

1.回帰不連続デザイン(RDD)とは?

回帰不連続デザインのRDDは、Regression Discontinuity Designの頭文字をとったものです。「回帰」というキーワードが入っていることから、回帰分析の親戚であることは想像が付くと思います。回帰不連続デザイン(RDD)とは、回帰分析を使い効果検証する手法の1つで、自然ルールではない人為的なルールによって生まれる境界線を利用した統計的因果推論の手法の1つです。統計学的因果推論は、当然ですが本当の因果ではありません。データから推論するだけです。その結果を使いどう解釈し実行に移すのかは人間に委ねられます。

 

(1)アルコールの飲酒と死亡率の関係

回帰不連続デザイン(RDD)の説明でよく登場する例で説明します。以下の参考文献にある、法定飲酒年齢が死亡者数に与える影響を分析した例です。

参考文献:Joshua D. Angrist, Jorn-steffen Pischke. 2008. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.   日本語訳:「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

 

アルコールを飲酒していい年齢は、国によって異なります。米国では、法定飲酒年齢は21歳以上です。この場合、21歳が境界線(データのカットオフ)になります。

  • 処置群:21歳以上(アンコールの飲酒OK)
  • 統制群:21歳未満(アンコールの飲酒ダメ)

境界線付近の個体(人)は、ほぼ同じような人でしょう。そのため、処置群と統制群は境界線に近い場合のみ「ほぼ同じ」と仮定し、比較・分析をします。

 

情報マネジメント

 

この境界線に近いところでは「ほぼ同じ」という仮定が満たされない場合には、回帰不連続デザイン(RDD)分析は有効ではありません。この仮定が満たされれば、21歳の誕生日(境界線)の前後で死亡率に違いがあれば、それは飲酒による影響に違いない、と考えます。このように何か人為的なルールを決めて実施したときの効果を知りたいときに利用できます。そういう意味では、マーケティングなどのキャンペーンやプロモーション施策などは、思いっきり人為的なものです。

 

(2)効果の大きさ≒境界線上の差(LATE)

端的に言うと、回帰不連続デザイン(RDD)で推定する「効果の大きさ」は「境界線上の差」です。

 

情報マネジメント

 

難しい用語で言うと「局所的平均処置効果」(local average treatment effect、LATE)、通常はLATEと言います。回帰不連続デザイン(RDD)分析で効果が分かるのは、境界付近のみでサンプル全体については分かりません。

 

2.回帰不連続デザイン(RDD)分析で登場する記号

回帰不連続デザイン(RDD)分析では、以下の3つの変数が登場します。

  • 目的変数Y(例:死亡率)
  • 処置変数D(例:21歳以上かどうかの0-1変数)
  • 割当変数R(例:年齢)

ここで知りたいのは、処置変数Dが目的変数Yに与える影響です。これが、効果の大きさだからです。

 

情報マネジメント

 

このとき、割当変数Rは、目的変数Yと処置変数Dに影響を与えます。実際、処置変数Dは割当変数Rによって定義されます。

先ほどの例ですと……

  • D=1 if R≧21
  • D=0 if R<21

さらに、死亡率も年齢(R)によって変化することでしょう。では、実際にどうやって効果の大きさを推定するのでしょうか?

 

ざっくり2種類の回帰モデルを活用した方法があります。

  • パラメトリック回帰モデル(重回帰など)
  • ノンパラメトリック回帰モデル

 

3.パラメトリック回帰不連続デザイン(RDD)分析

通常の重回帰を使い、回帰不連続デザイン(RDD)分析するのが、最もシンプルでしょう。パラメトリック回帰不連続デザイン(RDD)分析と言います。

 

次のように定式化できます。 Y = α + ρD + βR + ε (ρが効果の大きさ)

 

先ほどの線形式は、最も単純なものです。通常は、多項式にしたり非線形にしたり他の変数を追加することもあります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「パラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは7.66(標準誤差は1.32)です。

 

4.ノンパラメトリック回帰不連続デザイン(RDD)分析

重回帰のようなパラメトリックな回帰モデルではなく、ノンパラメトリックな回帰モデルを使い分析することもあります。ノンパラメトリック回帰不連続デザイン(RDD)分析と言います。パラメトリック回帰不連続デザイン(RDD)分析と違い、回帰式の関数の形が明確には分かりません。

 

また、パラメトリック回帰不連続デザイン(RDD)分析と違い、効果の推定で利用する幅(バンド幅、Bandwidth)を設定する必要があります。バンド幅は、幅を狭くするほどサンプルサイズが小さくなり精度が低くなります(標準誤差が大きくなります)が、バイアスも小さくなります。

 

情報マネジメント

 

境界線の前後の「バンド幅内のYの推定値の平均値の差」がLATE(局所的平均処置効果、local average treatment effect)になります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「ノンパラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは9(標準誤差は1.48)です。...

情報マネジメント

 

効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。

  • AB比較分析
  • Before&After分析
  • 差分の差分析

Before&After分析とは、何か処置(例:プロモーション実施)されたときの前後を比較・分析することです。ありがちな分析かと思います。

 

例えば……

  • 法定飲酒年齢の前後で死亡率がど変化するのか?
  • キャンペーンの前後で売上がどう変化するのか?

……などです。

 

Before&After分析の1つに、回帰不連続デザイン(RDD)分析と呼ばれるものでがあります。今回は、「効果検証のための回帰不連続デザイン(RDD)分析」というお話しをします。

【目次】

1.回帰不連続デザイン(RDD)とは?
(1)アルコールの飲酒と死亡率の関係
(2)効果の大きさ≒境界線上の差(LATE)
2.回帰不連続デザイン(RDD)分析で登場する記号
3.パラメトリック回帰不連続デザイン(RDD)分析
4.ノンパラメトリック回帰不連続デザイン(RDD)分析
(1)営業・マーケティングの例

 

1.回帰不連続デザイン(RDD)とは?

回帰不連続デザインのRDDは、Regression Discontinuity Designの頭文字をとったものです。「回帰」というキーワードが入っていることから、回帰分析の親戚であることは想像が付くと思います。回帰不連続デザイン(RDD)とは、回帰分析を使い効果検証する手法の1つで、自然ルールではない人為的なルールによって生まれる境界線を利用した統計的因果推論の手法の1つです。統計学的因果推論は、当然ですが本当の因果ではありません。データから推論するだけです。その結果を使いどう解釈し実行に移すのかは人間に委ねられます。

 

(1)アルコールの飲酒と死亡率の関係

回帰不連続デザイン(RDD)の説明でよく登場する例で説明します。以下の参考文献にある、法定飲酒年齢が死亡者数に与える影響を分析した例です。

参考文献:Joshua D. Angrist, Jorn-steffen Pischke. 2008. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.   日本語訳:「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

 

アルコールを飲酒していい年齢は、国によって異なります。米国では、法定飲酒年齢は21歳以上です。この場合、21歳が境界線(データのカットオフ)になります。

  • 処置群:21歳以上(アンコールの飲酒OK)
  • 統制群:21歳未満(アンコールの飲酒ダメ)

境界線付近の個体(人)は、ほぼ同じような人でしょう。そのため、処置群と統制群は境界線に近い場合のみ「ほぼ同じ」と仮定し、比較・分析をします。

 

情報マネジメント

 

この境界線に近いところでは「ほぼ同じ」という仮定が満たされない場合には、回帰不連続デザイン(RDD)分析は有効ではありません。この仮定が満たされれば、21歳の誕生日(境界線)の前後で死亡率に違いがあれば、それは飲酒による影響に違いない、と考えます。このように何か人為的なルールを決めて実施したときの効果を知りたいときに利用できます。そういう意味では、マーケティングなどのキャンペーンやプロモーション施策などは、思いっきり人為的なものです。

 

(2)効果の大きさ≒境界線上の差(LATE)

端的に言うと、回帰不連続デザイン(RDD)で推定する「効果の大きさ」は「境界線上の差」です。

 

情報マネジメント

 

難しい用語で言うと「局所的平均処置効果」(local average treatment effect、LATE)、通常はLATEと言います。回帰不連続デザイン(RDD)分析で効果が分かるのは、境界付近のみでサンプル全体については分かりません。

 

2.回帰不連続デザイン(RDD)分析で登場する記号

回帰不連続デザイン(RDD)分析では、以下の3つの変数が登場します。

  • 目的変数Y(例:死亡率)
  • 処置変数D(例:21歳以上かどうかの0-1変数)
  • 割当変数R(例:年齢)

ここで知りたいのは、処置変数Dが目的変数Yに与える影響です。これが、効果の大きさだからです。

 

情報マネジメント

 

このとき、割当変数Rは、目的変数Yと処置変数Dに影響を与えます。実際、処置変数Dは割当変数Rによって定義されます。

先ほどの例ですと……

  • D=1 if R≧21
  • D=0 if R<21

さらに、死亡率も年齢(R)によって変化することでしょう。では、実際にどうやって効果の大きさを推定するのでしょうか?

 

ざっくり2種類の回帰モデルを活用した方法があります。

  • パラメトリック回帰モデル(重回帰など)
  • ノンパラメトリック回帰モデル

 

3.パラメトリック回帰不連続デザイン(RDD)分析

通常の重回帰を使い、回帰不連続デザイン(RDD)分析するのが、最もシンプルでしょう。パラメトリック回帰不連続デザイン(RDD)分析と言います。

 

次のように定式化できます。 Y = α + ρD + βR + ε (ρが効果の大きさ)

 

先ほどの線形式は、最も単純なものです。通常は、多項式にしたり非線形にしたり他の変数を追加することもあります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「パラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは7.66(標準誤差は1.32)です。

 

4.ノンパラメトリック回帰不連続デザイン(RDD)分析

重回帰のようなパラメトリックな回帰モデルではなく、ノンパラメトリックな回帰モデルを使い分析することもあります。ノンパラメトリック回帰不連続デザイン(RDD)分析と言います。パラメトリック回帰不連続デザイン(RDD)分析と違い、回帰式の関数の形が明確には分かりません。

 

また、パラメトリック回帰不連続デザイン(RDD)分析と違い、効果の推定で利用する幅(バンド幅、Bandwidth)を設定する必要があります。バンド幅は、幅を狭くするほどサンプルサイズが小さくなり精度が低くなります(標準誤差が大きくなります)が、バイアスも小さくなります。

 

情報マネジメント

 

境界線の前後の「バンド幅内のYの推定値の平均値の差」がLATE(局所的平均処置効果、local average treatment effect)になります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「ノンパラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは9(標準誤差は1.48)です。

 

(1)営業・マーケティングの例

ここで、営業・マーケティングの例を示します。離反分析(チャーン分析)です。多くの場合、チャーンスコア(離反スコア)を計算し、一定のスコア以上の既存顧客に対し、離反対策を実施します。この離反対策は効果があったかどうかを知りたい場合に利用できます。チャーンスコアを、0から100の数値で表現し、100に近いほど離反されやすいとします。チャーンスコアが50以上のとき、メールなり電話なりを実施しコンタクトを取るという離反対策を実施したとします。

 

この例の場合……

  • 目的変数Y:離反もしくは離反率
  • 処置変数D:チャーンスコアが50以上かどうかの0-1変数
  • 割当変数R:チャーンスコア

チャーンスコアが50前後の顧客を集め、その後どうなったのかを元に分析することで、この離反対策の効果を知ることができることでしょう。

 

情報マネジメント

 

同様に、新規顧客獲得でも取引量の拡大でも、似たような感じで分析を実施し、施策の効果を知ることができることでしょう。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ケーススタディ①「リード(見込み顧客)の選別」 データ分析講座(その187)

  データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。   新規顧客の獲得 ...

  データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。   新規顧客の獲得 ...


視座の高低と将来予測 データ分析講座(その261)

  高い塔に登って見渡せば、遠くまで見渡せます。低い椅子の上から見渡せば、遠くまで見渡せません。低い椅子の上から下を見れば、足元(この場合...

  高い塔に登って見渡せば、遠くまで見渡せます。低い椅子の上から見渡せば、遠くまで見渡せません。低い椅子の上から下を見れば、足元(この場合...


数理統計学的な厳密性との狭間で データ分析講座(その155)

  ◆ データ分析・活用と数理統計学的な厳密性との狭間で  データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理...

  ◆ データ分析・活用と数理統計学的な厳密性との狭間で  データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第2回)‐  製品・技術開発力強化策の事例(その10)

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


現場のExcel依存に注意しよう

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...


‐技術開発の目標について 第1回‐  製品・技術開発力強化策の事例(その15)

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...