YuRAN-HIKO

アナリスト兼、日曜歴史家のブログ。ゲーム分析や歴史のトピックが中心。

読了メモ:R. Dehejia (2005), "Practical Propensity Score Matching: A Reply to Smith and Todd"

f:id:ngyope:20160417155010j:plain

はじめに

本記事は R. Dehejia (2005), "Practical Propensity Score Matching: A Reply to Smith and Todd", Journal of Econometrics, 125(1-2), pp.355-364. の読了メモです*1
会社の同僚とやっている統計的因果推論の勉強会でピックアップされた別の論文の中で、傾向スコア推定における共変量の二条項 / 相互作用項の選択基準についてこの論文を参考にしたと述べられていたので、どういうことをやっているのか気になって読んでみました。

ただ初めに断っておきますが、上記のような期待を持って読み進めたものの、読んでみた結果としては当初のイメージとはちょっと違う感じの論文ではありましたが......。

以下、論文のまとめです。
 

論文の主旨

本論文は、Smith and Todd(2005)で問題提起された傾向スコアマッチングの有効性について反論を述べたものになります*2
Smith and Todd(2005) が異議を唱えたのは Deheija and Wahba(1999, 2002) が行った傾向スコアマッチング (Nearest Neighbor Matching) の分析です*3。ちなみに、後者は有名な Lalonde(1986) の再分析を行った論文です。そのため、この論文は Smith and Todd(2005) が傾向スコアマッチングの手法に対して懐疑的な見解を述べたのに対し、著者のひとりである Deheija が再反論したものということになります。
本論文は Smith and Todd(2005) の主張に対して、3つの点から反論を展開していくといった体裁を取っています。以下、その 3つの点を順に追っていくこととしましょう。
 

1. Smith and Todd(2005) において誤解ないしは看過されている点

1つ目は比較的単純な問題で、Dehejia and Wahba(1999, 2002) で述べられている主張に対して、Smith and Todd(2005) では一部誤解ないしは看過している点があるというものです。その点とはすなわち以下の通りです。

  • Smith and Todd(2005) では傾向スコアを「銀の弾丸」とみなすことに対して異論が述べられているが、もともと Deheija and Wahba(1999, 2002) でも傾向スコアをそのように確約された結果が得られる万能なものとは見なしておらず後者の論文でも傾向スコアは信頼のおける推定結果を「出し得る」としか述べていないこと。
  • Smith and Todd(2005) では傾向スコアマッチングは Lalonde(1986) のオリジナルのデータにおいてロバストな推定結果を生み出さないと主張されているが、これはすでに Deheija and Wahba(1999, 2002) の中でも示唆されていること(すなわち、共変量として用いる年収は1年分だけでは不足しており、2年分は必要という主張) であり、Smith and Todd(2005) の反論はこの点を看過している。

 

2. 傾向スコアのモデル特定 (specification) に関する問題

あるサンプルを用いて推定された傾向スコアのモデルを他のサンプルに適用しても妥当な結果が得られるとは限らない、という趣旨の反論です。
前提を述べると、Lalondeの分析とその再分析においては、処置群として Lalonde original / Deheija and Wahba / Smith and Todd という3パターン、統制群として CPS / PSID という2パターンのデータが存在します。もとにしているデータセットが異なっているにも関わらず、Smith and Todd(2005) は Deheija and Wahba のデータをもとに作成されたモデルを Smith and Todd のデータに適用しようとしているため、妥当な結果が得られていないだけであるというものです。
傾向スコアを用いてマッチングを行う目的は処置群 / 統制群の両者間で処置前の共変量のバランスを取ることであるため、ある集団をもとに作成された傾向スコアのモデルを別の集団に適用し、共変量のバランスが取れていない状態で因果効果を推定してもうまくいくはずがない、という話になります。改めて指摘されれば至極真っ当な反論ですね。

また、論文中では 3種類の処置群データ(Lalonde original / Deheija and Wahba / Smith and Todd) と、2種類の統制群データ (CPS / PSID) のそれぞれの組み合わせにおいて、共変量のバランスを取るための傾向スコアのモデル式が異なることを明らかにしています*4。同じ事象の効果を分析する点ではどのデータも目的は一緒なのですが、かといって傾向スコアの推定モデルを複数のサンプルで使いまわせるかと言うとそうではない、ということになります。別のデータに対してはそれぞれにあった回帰式によって傾向スコアの値を推定し、共変量のバランスを取ることが重要と言う訳です。

また、本論文では Lalonde original / Deheija and Wahba / Smith and Todd のいずれかに処置群を固定した上で、統制群として CPS / PSID のそれぞれのデータを用いて推定された因果効果を比較し、いずれも実験データから得られた推定効果からほぼ差がないことを明らかにしています。
すなわち、Smith and Todd(2005) の主張はあるサンプルから得られた傾向スコアのモデルを別のサンプルに適用しようとしたことによる問題であり、本来あるべき傾向スコアマッチングの適用の仕方を適切に行えば正しく因果効果を推定することができるということです。
 

3. 傾向スコアのモデル特定における感度 (sensitivity) の問題

最後に著者は傾向スコアマッチングによって推定された平均因果効果について、傾向スコアのモデル式が微小に変化した際にどれくらい影響を受けるのかを確認する必要性を述べています。ここで言う微小な変化とは、例えばn条項の追加や削除といったものです。

論文中では2つの方法で傾向スコアのモデルの感度を確認しています。
1つ目はある処置群=統制群の組み合わせで得られた傾向スコアのモデルを他の5種類の処置群=統制群の組み合わせに適用した際、平均因果効果の推定結果にどれだけバラつきが出るかを調べるといったものです。前述の通り、あるサンプルから得られた傾向スコアのモデルを他のサンプルに適用することは共変量のバランスやその結果えられる因果効果の妥当性を担保するものではないので、ここではあくまでモデルの変化に伴う結果の感度を確かめるという目的のみでこの方法を用いています。
感度分析の結果としては、処置群に Deheija and Wahba のデータを用いたケースでは傾向スコアのモデルを変えても比較的結果が安定しているのに対し、Lalonde original や Smith and Todd のデータを用いた場合は傾向スコアの推定モデルの式が多少変化しただけで結果に大きな差異(RCTによる結果との差異のみならず、モデル間での差異も大きい)が生じている形となっています。このことから、モデルの微小な変化によって結果が非常に不安定な場合、その推定値を安易に受け入れることに警鐘を鳴らしています。

2つ目は6パターンの処置群=統制群の組み合わせにおいて、最大4つまで二条項ないしは相互作用項を含めたあらゆる傾向スコアの推定モデルを想定し、それらの中から Schwarz のモデル選定基準 (いわゆるBIC) が高かったトップ10のモデルを選択して平均因果効果の推定結果がどう振舞うかを確認しています。
結果としては、処置群に Deheija and Wahba のデータを使った場合は推定結果が RCT によって得られた結果に近く、平均しても RCT によって得られた結果の周囲にばらついているのに対し、Lalonde original や Smith and Todd の処置群データを使った場合は RCT によって得られた結果から離れており、平均してもモデルによる推定値がその周囲にばらついていないという形になっています。

これら2つの感度分析の結果から、筆者は仮に RCT による結果が得られていない場合においても、Deheija and Wahba のデータを用いて傾向スコアマッチングの推定結果を得ることが望ましいという主張をしています。

*1:https://www.researchgate.net/publication/222428112_Practical_Propensity_Score_Matching_A_Reply_to_Smith_and_Todd

*2:J. Smith and E. Todd,(2005), "Does matching overcome LaLonde's critique of nonexperimental estimators?", Journal of Econometrics, 125(1-2), pp. 305-353.

*3:R. Dehejia and S. Wahba (1999), "Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs", Journal of the American Statistical Association, 94, pp. 1053–1062. R. Dehejia and S. Wahba (2002), "Propensity Score Matching Methods for Nonexperimental Causal Studies", The Revue of Econometrics and Statistics, 84(1), pp.151-161.

*4:含める変数の違いや、二条項や相互作用項の扱い、さらにはその結果としてバランスが取れていない変数の違いなど。