効果検証のための回帰不連続デザイン分析 データ分析講座(その214)

投稿日

情報マネジメント

 

効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。

  • AB比較分析
  • Before&After分析
  • 差分の差分析

Before&After分析とは、何か処置(例:プロモーション実施)されたときの前後を比較・分析することです。ありがちな分析かと思います。

 

例えば……

  • 法定飲酒年齢の前後で死亡率がど変化するのか?
  • キャンペーンの前後で売上がどう変化するのか?

……などです。

 

Before&After分析の1つに、回帰不連続デザイン(RDD)分析と呼ばれるものでがあります。今回は、「効果検証のための回帰不連続デザイン(RDD)分析」というお話しをします。

【目次】

1.回帰不連続デザイン(RDD)とは?
(1)アルコールの飲酒と死亡率の関係
(2)効果の大きさ≒境界線上の差(LATE)
2.回帰不連続デザイン(RDD)分析で登場する記号
3.パラメトリック回帰不連続デザイン(RDD)分析
4.ノンパラメトリック回帰不連続デザイン(RDD)分析
(1)営業・マーケティングの例

 

1.回帰不連続デザイン(RDD)とは?

回帰不連続デザインのRDDは、Regression Discontinuity Designの頭文字をとったものです。「回帰」というキーワードが入っていることから、回帰分析の親戚であることは想像が付くと思います。回帰不連続デザイン(RDD)とは、回帰分析を使い効果検証する手法の1つで、自然ルールではない人為的なルールによって生まれる境界線を利用した統計的因果推論の手法の1つです。統計学的因果推論は、当然ですが本当の因果ではありません。データから推論するだけです。その結果を使いどう解釈し実行に移すのかは人間に委ねられます。

 

(1)アルコールの飲酒と死亡率の関係

回帰不連続デザイン(RDD)の説明でよく登場する例で説明します。以下の参考文献にある、法定飲酒年齢が死亡者数に与える影響を分析した例です。

参考文献:Joshua D. Angrist, Jorn-steffen Pischke. 2008. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.   日本語訳:「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

 

アルコールを飲酒していい年齢は、国によって異なります。米国では、法定飲酒年齢は21歳以上です。この場合、21歳が境界線(データのカットオフ)になります。

  • 処置群:21歳以上(アンコールの飲酒OK)
  • 統制群:21歳未満(アンコールの飲酒ダメ)

境界線付近の個体(人)は、ほぼ同じような人でしょう。そのため、処置群と統制群は境界線に近い場合のみ「ほぼ同じ」と仮定し、比較・分析をします。

 

情報マネジメント

 

この境界線に近いところでは「ほぼ同じ」という仮定が満たされない場合には、回帰不連続デザイン(RDD)分析は有効ではありません。この仮定が満たされれば、21歳の誕生日(境界線)の前後で死亡率に違いがあれば、それは飲酒による影響に違いない、と考えます。このように何か人為的なルールを決めて実施したときの効果を知りたいときに利用できます。そういう意味では、マーケティングなどのキャンペーンやプロモーション施策などは、思いっきり人為的なものです。

 

(2)効果の大きさ≒境界線上の差(LATE)

端的に言うと、回帰不連続デザイン(RDD)で推定する「効果の大きさ」は「境界線上の差」です。

 

情報マネジメント

 

難しい用語で言うと「局所的平均処置効果」(local average treatment effect、LATE)、通常はLATEと言います。回帰不連続デザイン(RDD)分析で効果が分かるのは、境界付近のみでサンプル全体については分かりません。

 

2.回帰不連続デザイン(RDD)分析で登場する記号

回帰不連続デザイン(RDD)分析では、以下の3つの変数が登場します。

  • 目的変数Y(例:死亡率)
  • 処置変数D(例:21歳以上かどうかの0-1変数)
  • 割当変数R(例:年齢)

ここで知りたいのは、処置変数Dが目的変数Yに与える影響です。これが、効果の大きさだからです。

 

情報マネジメント

 

このとき、割当変数Rは、目的変数Yと処置変数Dに影響を与えます。実際、処置変数Dは割当変数Rによって定義されます。

先ほどの例ですと……

  • D=1 if R≧21
  • D=0 if R<21

さらに、死亡率も年齢(R)によって変化することでしょう。では、実際にどうやって効果の大きさを推定するのでしょうか?

 

ざっくり2種類の回帰モデルを活用した方法があります。

  • パラメトリック回帰モデル(重回帰など)
  • ノンパラメトリック回帰モデル

 

3.パラメトリック回帰不連続デザイン(RDD)分析

通常の重回帰を使い、回帰不連続デザイン(RDD)分析するのが、最もシンプルでしょう。パラメトリック回帰不連続デザイン(RDD)分析と言います。

 

次のように定式化できます。 Y = α + ρD + βR + ε (ρが効果の大きさ)

 

先ほどの線形式は、最も単純なものです。通常は、多項式にしたり非線形にしたり他の変数を追加することもあります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「パラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは7.66(標準誤差は1.32)です。

 

4.ノンパラメトリック回帰不連続デザイン(RDD)分析

重回帰のようなパラメトリックな回帰モデルではなく、ノンパラメトリックな回帰モデルを使い分析することもあります。ノンパラメトリック回帰不連続デザイン(RDD)分析と言います。パラメトリック回帰不連続デザイン(RDD)分析と違い、回帰式の関数の形が明確には分かりません。

 

また、パラメトリック回帰不連続デザイン(RDD)分析と違い、効果の推定で利用する幅(バンド幅、Bandwidth)を設定する必要があります。バンド幅は、幅を狭くするほどサンプルサイズが小さくなり精度が低くなります(標準誤差が大きくなります)が、バイアスも小さくなります。

 

情報マネジメント

 

境界線の前後の「バンド幅内のYの推定値の平均値の差」がLATE(局所的平均処置効果、local average treatment effect)になります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「ノンパラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは9(標準誤差は1.48)です。...

情報マネジメント

 

効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。

  • AB比較分析
  • Before&After分析
  • 差分の差分析

Before&After分析とは、何か処置(例:プロモーション実施)されたときの前後を比較・分析することです。ありがちな分析かと思います。

 

例えば……

  • 法定飲酒年齢の前後で死亡率がど変化するのか?
  • キャンペーンの前後で売上がどう変化するのか?

……などです。

 

Before&After分析の1つに、回帰不連続デザイン(RDD)分析と呼ばれるものでがあります。今回は、「効果検証のための回帰不連続デザイン(RDD)分析」というお話しをします。

【目次】

1.回帰不連続デザイン(RDD)とは?
(1)アルコールの飲酒と死亡率の関係
(2)効果の大きさ≒境界線上の差(LATE)
2.回帰不連続デザイン(RDD)分析で登場する記号
3.パラメトリック回帰不連続デザイン(RDD)分析
4.ノンパラメトリック回帰不連続デザイン(RDD)分析
(1)営業・マーケティングの例

 

1.回帰不連続デザイン(RDD)とは?

回帰不連続デザインのRDDは、Regression Discontinuity Designの頭文字をとったものです。「回帰」というキーワードが入っていることから、回帰分析の親戚であることは想像が付くと思います。回帰不連続デザイン(RDD)とは、回帰分析を使い効果検証する手法の1つで、自然ルールではない人為的なルールによって生まれる境界線を利用した統計的因果推論の手法の1つです。統計学的因果推論は、当然ですが本当の因果ではありません。データから推論するだけです。その結果を使いどう解釈し実行に移すのかは人間に委ねられます。

 

(1)アルコールの飲酒と死亡率の関係

回帰不連続デザイン(RDD)の説明でよく登場する例で説明します。以下の参考文献にある、法定飲酒年齢が死亡者数に与える影響を分析した例です。

参考文献:Joshua D. Angrist, Jorn-steffen Pischke. 2008. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.   日本語訳:「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

 

アルコールを飲酒していい年齢は、国によって異なります。米国では、法定飲酒年齢は21歳以上です。この場合、21歳が境界線(データのカットオフ)になります。

  • 処置群:21歳以上(アンコールの飲酒OK)
  • 統制群:21歳未満(アンコールの飲酒ダメ)

境界線付近の個体(人)は、ほぼ同じような人でしょう。そのため、処置群と統制群は境界線に近い場合のみ「ほぼ同じ」と仮定し、比較・分析をします。

 

情報マネジメント

 

この境界線に近いところでは「ほぼ同じ」という仮定が満たされない場合には、回帰不連続デザイン(RDD)分析は有効ではありません。この仮定が満たされれば、21歳の誕生日(境界線)の前後で死亡率に違いがあれば、それは飲酒による影響に違いない、と考えます。このように何か人為的なルールを決めて実施したときの効果を知りたいときに利用できます。そういう意味では、マーケティングなどのキャンペーンやプロモーション施策などは、思いっきり人為的なものです。

 

(2)効果の大きさ≒境界線上の差(LATE)

端的に言うと、回帰不連続デザイン(RDD)で推定する「効果の大きさ」は「境界線上の差」です。

 

情報マネジメント

 

難しい用語で言うと「局所的平均処置効果」(local average treatment effect、LATE)、通常はLATEと言います。回帰不連続デザイン(RDD)分析で効果が分かるのは、境界付近のみでサンプル全体については分かりません。

 

2.回帰不連続デザイン(RDD)分析で登場する記号

回帰不連続デザイン(RDD)分析では、以下の3つの変数が登場します。

  • 目的変数Y(例:死亡率)
  • 処置変数D(例:21歳以上かどうかの0-1変数)
  • 割当変数R(例:年齢)

ここで知りたいのは、処置変数Dが目的変数Yに与える影響です。これが、効果の大きさだからです。

 

情報マネジメント

 

このとき、割当変数Rは、目的変数Yと処置変数Dに影響を与えます。実際、処置変数Dは割当変数Rによって定義されます。

先ほどの例ですと……

  • D=1 if R≧21
  • D=0 if R<21

さらに、死亡率も年齢(R)によって変化することでしょう。では、実際にどうやって効果の大きさを推定するのでしょうか?

 

ざっくり2種類の回帰モデルを活用した方法があります。

  • パラメトリック回帰モデル(重回帰など)
  • ノンパラメトリック回帰モデル

 

3.パラメトリック回帰不連続デザイン(RDD)分析

通常の重回帰を使い、回帰不連続デザイン(RDD)分析するのが、最もシンプルでしょう。パラメトリック回帰不連続デザイン(RDD)分析と言います。

 

次のように定式化できます。 Y = α + ρD + βR + ε (ρが効果の大きさ)

 

先ほどの線形式は、最も単純なものです。通常は、多項式にしたり非線形にしたり他の変数を追加することもあります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「パラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは7.66(標準誤差は1.32)です。

 

4.ノンパラメトリック回帰不連続デザイン(RDD)分析

重回帰のようなパラメトリックな回帰モデルではなく、ノンパラメトリックな回帰モデルを使い分析することもあります。ノンパラメトリック回帰不連続デザイン(RDD)分析と言います。パラメトリック回帰不連続デザイン(RDD)分析と違い、回帰式の関数の形が明確には分かりません。

 

また、パラメトリック回帰不連続デザイン(RDD)分析と違い、効果の推定で利用する幅(バンド幅、Bandwidth)を設定する必要があります。バンド幅は、幅を狭くするほどサンプルサイズが小さくなり精度が低くなります(標準誤差が大きくなります)が、バイアスも小さくなります。

 

情報マネジメント

 

境界線の前後の「バンド幅内のYの推定値の平均値の差」がLATE(局所的平均処置効果、local average treatment effect)になります。以下は、先ほどお話しした「アルコールの飲酒と死亡率の関係」の「ノンパラメトリック回帰不連続デザイン(RDD)分析」の結果です。

 

情報マネジメント

 

効果の大きさは9(標準誤差は1.48)です。

 

(1)営業・マーケティングの例

ここで、営業・マーケティングの例を示します。離反分析(チャーン分析)です。多くの場合、チャーンスコア(離反スコア)を計算し、一定のスコア以上の既存顧客に対し、離反対策を実施します。この離反対策は効果があったかどうかを知りたい場合に利用できます。チャーンスコアを、0から100の数値で表現し、100に近いほど離反されやすいとします。チャーンスコアが50以上のとき、メールなり電話なりを実施しコンタクトを取るという離反対策を実施したとします。

 

この例の場合……

  • 目的変数Y:離反もしくは離反率
  • 処置変数D:チャーンスコアが50以上かどうかの0-1変数
  • 割当変数R:チャーンスコア

チャーンスコアが50前後の顧客を集め、その後どうなったのかを元に分析することで、この離反対策の効果を知ることができることでしょう。

 

情報マネジメント

 

同様に、新規顧客獲得でも取引量の拡大でも、似たような感じで分析を実施し、施策の効果を知ることができることでしょう。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ分析文化を組織内で広めたいなら、Excelで データ分析講座(その72)

◆ 表計算ソフトととしての Excel  多くの企業が使っている表計算ソフトがあります。Excelです。Excelは無料ではなく、有料のソフトウェア...

◆ 表計算ソフトととしての Excel  多くの企業が使っている表計算ソフトがあります。Excelです。Excelは無料ではなく、有料のソフトウェア...


現場に寄り添い過ぎる危険 データ分析講座(その234)

  【この連載の前回:データ分析講座(その233)利益病とデータ活用へのリンク】 ◆関連解説『情報マネジメントとは』   ...

  【この連載の前回:データ分析講座(その233)利益病とデータ活用へのリンク】 ◆関連解説『情報マネジメントとは』   ...


データドリブン思考はやめる データ分析講座(その63)

◆ データドリブン思考ではデータの価値は生み出せない。データの価値は逆算アプローチで創造する  データの価値は利活用にあります。でも、その利活用が分...

◆ データドリブン思考ではデータの価値は生み出せない。データの価値は逆算アプローチで創造する  データの価値は利活用にあります。でも、その利活用が分...


「情報マネジメント一般」の活用事例

もっと見る
簡易版DX/IoTから機械学習への移行

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...


‐販路開拓に関する問題 第1回‐  製品・技術開発力強化策の事例(その17)

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...


現場情報の自動収集に道具だてを

 一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...

 一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...