合成控制法方法论探索

封面图


为解决网络效应对实验数据的干扰和对实验结果的评估,探探实验平台引入了区域全量实验来进行策略的小流量实施。但是区域全量实验存在一个明显的问题,不存在一个可直接对比的控制组。目前AB平台目前使用的控制组是剔除实验区域后的剩余区域均作为控制组来进行对比。

为了更好地去评估这类实验的效果,需要构建合理的控制组。目前比较前沿的主流方法是合成控制法(Synthetic Control Method,SCM)。

合成控制法简介

合成控制法(Synthetic Control Method, 简称 SCM) 首次由 Abadie and Gardeazabal (2003) 创立以研究西班牙巴斯克地区恐怖活动的经济成本。

Athey and Imbens (2017) 称赞合成控制法为过去15年间最重要的政策评价模型.

这个方法其实就是构造一个虚拟的控制组,保证策略上线前合成控制组和处理组在指标上尽量一致。从而能够用来更好地做预测。

合成控制法的一大优势是,可以根据数据(data-driven)来选择线性组合的最优权重,避免了研究者主观选择控制组的随意性。该方法选出的控制组是相对客观的,是比较可信的。

常规操作步骤如下:

筛选合适的控制组,确定合理的预测变量;
拟合一个适宜的反事实合成控制组;
对比合成组与处理组的差异以评估政策冲击的影响。

合成控制法的优点

作为一种非参数的方法,是对传统的双重差分法DID的拓展
通过数据驱动确定权重,减少了主观选择的误差,避免了政策内生性问题。
其基本思想是,虽然无法找到A市的最佳控制地区,但通常可对若干大城市进行适当的线性组合,以构造一个更为优秀的“合成控制地区” (synthetic control region),并将“真实A市”与“合成A市”进行对比,故名“合成控制法”。

合成控制法的一大优势是,可以根据数据(data-driven)来选择线性组合的最优权重,避免了研究者主观选择控制组的随意性。

通过对多个控制对象加权来模拟目标对象政策实施前的情况,不仅可以清晰地反映每个控制对象对“反事实”事件的贡献,同时也避免了过分外推。
可以对每一个研究个体提供与之对应的合成控制对象,避免平均化的评价,不至于因各国政策实施时间不同而影响政策评估结果,避免了主观选择造成的偏差。
研究者们可在不知道实施效果的情况下设计实验。

合成控制法的难点

由于合成控制法用到了面板数据的回归方法,所以特征功能的构建就变得十分重要!

面板数据也会带来一些老生常谈的问题 ----内生性,异方差,自相关之类的。

拓展

在改进合成控制法方面, 这几年做的比较出色的是斯坦福的徐秩青助教的“广义合成控制法”(2017, political analysis)。该方法能够有效缓解SCM存在的“只能研究单地区、单次冲击”、“无法给出有意性推断(只能借助placebo和均值比较等)”、“对common trend假设的依赖”等不足之处。

作者:Qingyun
                
comments powered by Disqus