匹配作为回归估计

匹配避免了对回归方程的函数形式进行假设,使分析更加可靠

芝加哥大学和美国芝加哥大学的NORC,以及德国IZA

单页 全文

电梯游说

“匹配”是一种统计技术,用于在观察性研究中通过比较治疗单位和非治疗单位来评估治疗效果。匹配提供了一种替代的老式估计方法,如普通最小二乘(OLS),它涉及强大的假设,通常没有太多的经济理论证明。虽然在20世纪70年代和80年代计算的早期,使用简单的OLS模型可能是合适的,但自那时以来计算能力的显著提高使其他方法,特别是匹配,非常容易实现。

使用匹配对照OLS估计治疗对被治疗者的影响

重要发现

优点

匹配允许在不依赖这种强假设的情况下估计因果效应,这使其结果更加可靠。

匹配使研究人员能够平衡困扰统计估计的两个问题:偏差和方差。

治疗组和对照组中可能缺乏相似的个体,通过匹配突出了这一点。

缺点

匹配需要大量的计算。

匹配和OLS仍然依赖于对处理的外生性的强假设,这使得结果不那么可靠。

匹配需要在过程的几个步骤上做出决定,这可能会使估计产生偏差并限制其精度。

作者的主要信息

匹配是一种强大但经常被误解的统计技术。它允许研究人员对影响进行编程(以类似于回归分析的方式),但不需要研究人员对确切的函数形式做出假设。这可以避免在预测项目的影响方面出现一些非常严重的错误的可能性——这使得匹配成为决策者统计工具箱的一个重要组成部分。

动机

LaLonde批判的

1986年,Robert LaLonde发表了他的论文《用实验数据评价培训计划的计量经济评价》美国经济评论[1].在他的论文中,LaLonde使用了来自国家支持工作(NSW)实验的数据,看看当时的标准计量经济学评价方法是否可以复制实验估计。通过比较随机选择的治疗组和对照组的个体,实验是评估某种措施的因果效应的最可靠的方法,两组之间唯一的区别是一组接受治疗,另一组没有。在现实中,这种实验设置非常罕见,甚至不存在。然而,经济学方法的目的是提供与使用不同技术的实验相同的(因果)结果。

LaLonde从以下几个方面为新南威尔士州的实验构建了比较群体:当前人口调查(CPS);以及密歇根收入动态小组研究(PSID)。两者都是美国具有全国代表性的样本。计量经济学估计者提供的估计值大相径庭。因此,许多人认为LaLonde的论文令人信服地证明了计量经济学模型的脆弱性。如果没有一个估计值看起来非常接近,那么我们能因此在各种估计值之间进行选择吗?

许多人将LaLonde的论文解读为对计量经济学模型提供估计能力的谴责,但一项研究指出,LaLonde认为的许多估计器都是失败的规范测试,测试模型的基本函数形式是否正确[2]

对于这些模型的弱点,(至少)有两种可能的解释:

  • 对不可观察因素的选择:在非实验性(现实世界)环境中,选择治疗(例如参加额外培训)的个体与没有选择治疗的个体在某些方面(如雄心壮志)存在差异,这些差异没有被研究人员观察到(例如,由于数据缺失)。有可能数据不够丰富,无法采用传统的估计方法。

  • 对可观察数据和函数形式的选择:虽然可能有足够丰富的数据来控制选择,但回归的精确函数形式尚不可知(例如,利息-收入的结果与预期解释这一结果的变量之间的线性关系,例如学校教育)。这是一项特别研究提出的论点,尽管所使用的分析随后受到了强烈的质疑[3][4].这些研究的作者之间进行了激烈的辩论,其结果决定了我们是否可以使用匹配,或者需要使用选择未观察到的变量的模型[5][6][7]

    第一种关于观察对象选择的解释促使经济学家寻找替代的估计方法,如工具变量,利用自然实验,以及在可行的情况下,进行社会实验来评估方案。第二个解释(自然实验)促使我们寻找一种避免对模型的功能形式进行假设的方法。

这份贡献概述了研究人员使用匹配作为工具回答政策问题时必须具备的条件。

讨论利弊

评估的问题

在评估社会项目时,一个重要的目标是了解项目对每个参与者的影响。如果一个人参加了这个项目(如培训),她可能会有不同的结果(如更高的收入),如果她没有。当然,对于每个申请人,只观察到两个结果中的一个(有或没有培训的收入),这就产生了评估的基本问题:只观察到两个潜在结果中的一个。未被观察到的潜在结果被称为“缺失的反事实”。

“反事实缺失”的问题

如果可以观察到缺失的反事实,那么问题就很简单了,即治疗的影响只是两种制度下结果的差异。但由于这是不可能的,计量经济学家试图从一个不同的角度,通过观察平均的影响的治疗。这比找出每个个体的治疗效果要容易得多。

治疗的几种不同的平均影响可能值得关注。在这里,重点将放在两个方面。第一,治疗对人群的影响平均处理效应(ATE)表示如果人群中每个人都接受治疗,则治疗的平均(或平均)影响。总体平均值只是两种潜在结果(即有和没有训练)的总体平均值的差值。然而,我们可能不想知道一个项目对整个人群有什么影响,而更感兴趣的是治疗对被治疗者(即那些实际参与培训的人)的影响。这被称为被治疗者的平均治疗效果(ATET)。

没有理由假定这两个平均数是相同的。事实上,大多数经济模型都会预测,受益最多的人最有可能参与其中。因此,我们的预期是,对受治疗(训练)的影响大于对总人口的影响。

为了考虑如何估计这些治疗效果,只关注被治疗者(ATET)的效果是有用的。ATET取决于两个平均值:(1)接受治疗者的平均治疗结果——这可以从数据中估计出来;(2)未接受治疗的患者的(潜在)平均治疗结果。然而,后者当然不能被观察到!这就是“缺失的反事实”。

反事实缺失的问题并不是社会科学所特有的。其他学科(如医学)通常依靠实验来解决问题。在一个实验中,治疗是随机分配的。随机分配治疗,治疗个体的缺失结果与未治疗个体的观察结果相等。因此,在实验设置中,对照组的平均结果(即那些没有参加治疗的人)将提供对缺失的反事实的良好估计(即那些参加治疗的人的结果,因为他们没有参加)。然而,在社会科学中,由于各种各样的原因,经常很难进行实验,包括伦理方面的考虑。当实验无法进行时,研究人员必须依靠统计方法来找回缺失的反事实。

用OLS回归估计缺失的反事实

经济学家经常使用OLS来满足各种各样的估计要求,很容易看出如何使用它来估计缺失的反事实。OLS假设兴趣的协变量(如教育、年龄、性别)与结果变量(如收入)的均值之间存在线性关系。例如,线性假设意味着,年龄每增加一岁,在20岁和60岁时,结果变量的平均值会发生相同的变化。

来自经济理论的模型对于经验研究者应该使用的合适的函数形式(例如线性)提供了很少的指导。此外,不正确的规范将导致许多问题,使OLS估计对于估计所需的因果关系毫无意义。为了克服这个问题,只要有适当的限制,匹配可以用来估计缺失的反事实。下一节将讨论如何实现这一点。

匹配模型的一些假设

匹配是一种通过观察数据来寻找“完全相同”的个体的方法,除了一个人参加了项目而另一个人没有。毫不奇怪,考虑到对函数形式的限制相当弱,匹配需要其他很强的假设。不幸的是,其中一个假设在没有辅助数据的情况下无法检验,而第二个假设是可检验的。实际上,虽然它被称为假设,但它实际上是一种数据需求,因为它迫使研究人员理解比较比较的人的重要性[8].回归可以让研究人员从非常不相似的人身上构建出缺失的反事实,匹配则采用了更为保守的策略,坚持比较观察上相似的人。

离散协变量的精确匹配

匹配的一个重大挑战是,当研究人员对回归函数的形式未知时,在没有治疗的情况下,对每个接受过治疗的个体估计缺失的反事实。为了说明这一点,一个例子从最简单的可能匹配估计量开始,即精确匹配或单元匹配估计量。有了这个估计器,数据被分成不同的“单元格”,这些“单元格”给出了的所有可能值X(解释变量)。例如,假设一个人想用性别(男性,女性)和年龄(年轻,年老)这两个指标来解释结果,那么他就可以定义四个细胞(年轻的男性,年轻的女性,年长的男性,年老的女性)。假设每个细胞包含治疗和未治疗的个体。

对于每个细胞,反事实是未经治疗个体的平均结果;也就是说,与接受治疗的个体具有相同特征但未接受治疗的个体的结果的平均值。在这个例子中,接受治疗的年轻女性的遗漏结果是所有未接受治疗的年轻女性的平均结果。的条件独立性假设(CIA)需要这样一个假设:在一个特定的细胞中,未接受治疗的个体的结果与未接受治疗的个体的未观察的结果相等。CIA假定,在观察到的特征相同的情况下,接受的治疗是随机的。在a的情况下随机对照试验(RCT),在一个细胞内,在没有治疗的情况下,未观察到的治疗结果只是观察到的未治疗的平均结果。的共同支持的假设(CSA)以确保未治疗的观察结果存在,以计算未治疗的平均结果。每个细胞的治疗效果现在可以被构建为治疗和未治疗的平均结果的差异。

当然,数据中可能有大量的单元格,检查成百上千的估计是没有帮助的。因此,需要对估计进行汇总。然后,治疗效果是细胞效果的加权和。ATET和ATE的区别仅仅在于每个细胞的重新加权。在ATET的情况下,每个细胞的权重与细胞中观察到的被治疗的总数的百分比成比例,而对于ATE,每个细胞的权重与细胞中总种群的百分比成比例。

回到这个例子,假设在性别和年龄的条件下,对治疗的分配是随机的(也就是说,CIA被调用),这样每个细胞的治疗效果就可以计算为治疗组和未治疗组之间的平均结果的差异(见图1).

一个匹配的例子

中提供的虚构值图1,年轻男性的平均治疗效果为3.5 - 2.0 = 1.5。同样,对年轻女性、老年男性和老年女性的平均处理效果分别为0.5、1.0和0.0。图1展示了四组个体的分布情况。

假设在前面定义的四个细胞中的个体分布如下图1时,ATET只是每个单元的加权和,当权重由该单元所代表的处理种群的百分比提供时。在这个例子中,10名年轻人和14名老年人接受了治疗,因此24人接受了治疗。因此,年轻男性占所有治疗对象的6/24(25%)。同样,年轻女性、老年男性和老年女性分别占所有治疗对象的4/24、7/24和7/24。在本例中,ATET如图所示图2

计算ATET和ATE

ATE的权重由细胞所代表的种群的百分比给出。在这个例子中,总人口为44,年轻男性占总人口的9/44(20.4%)。同样,年轻女性、老年男性和老年女性分别占人口的6/44、17/44和12/44。因此,ATE的计算方法如图2.两项研究提供了精确匹配模型的实证例子[9][10]

注意,不必指定回归函数的函数形式。这使得治疗的影响以非常复杂的方式变化。该模型非常复杂,可以考虑到数据中的复杂模式,而且非常容易估计。那么为什么研究人员要使用OLS呢?

首先,如果OLS方程已被正确指定,OLS估计的方差将低于精确匹配估计量,因此接收到的估计更精确。第二,一些人认为OLS需要比匹配更弱的假设。这包含了真理的萌芽。OLS不假设CSA,因为关于函数形式的假设允许在没有数据的情况下进行预测。这种对无数据区域的外推或插值是否准确取决于正确指定函数形式的能力。此外,OLS假设协变量X(解释变量)必须正交于回归误差u(即不相关),而匹配需要完全独立。

OLS的正交性假设和条件独立的匹配假设都是非常强大且有争议的假设。匹配为研究人员提供了对回归函数的函数形式不做任何假设的奢侈,尽管以使用可能具有高方差的估计量为代价。

与离散或连续数据的局部匹配

精确匹配估计通常会有很大的标准误差,因为一个人只依赖于观测结果Xx0(例如年龄= 34岁)。如果有5个年龄= 34岁的观察结果,但治疗组有4个观察结果,则只有一个观察结果就可以推断出缺失的反事实。那么,如何才能提高估计的准确性呢?

更具体地说,假设一个研究人员匹配了一个34岁的细胞,在对照组中只发现了两个人。如果她回头看33年的牢房,再往前看35年的牢房,她会发现额外的14个观察结果。这些观察结果应该被使用吗?显然,对缺失的反事实的估计将有一个更低的方差,因为有16个观察的估计将比有两个观察的估计有更低的方差。更多的数据通常会产生更精确的估计。但这一估计会有偏差,因为年龄只有“大约”34岁(Xx0).显然,减少方差是可取的——更精确的估计比更不精确的估计更可取——但不考虑偏差。

偏差和方差之间的权衡是匹配的基础。事实上,有了连续的数据,我们别无选择。假设解释变量(年龄)是连续的,观察年龄为34岁的处理观察。观察到年龄正好为34岁的未处理观察结果的概率是多少?零。一个人必须在34岁左右进行观察。但离34还有多远呢?越接近34,引入的偏差越小,但所用的样本越小,估计的方差越高。随着观测值的选择越来越远离34,引入了更多的偏差,但方差的数量减少了。因此需要选择一个“平滑参数”来平衡估计量的偏差和方差。

如何选择平滑参数来平衡偏差和方差之间的权衡?做出这一选择的标准程序是使用“交叉验证”等程序,在比较样本中对未接受治疗的患者的结果进行样本外预测。然后将预测的均方误差在许多不同的可能选择中进行比较,以确定该过程与实际实现的接近程度。然后从样本中选择最能预测非治疗个体结果的模型。直观地说,一个人只需使用所有的数据,除了一个观察,来预测实现Y0(34岁时的结果)进行兴趣的观察,然后将其与实际实现进行比较Y0.重复此过程每一个和各平滑参数的观测值。然后选择使方差和偏差平方和最小的平滑参数值。

这些方法往往需要大量的计算,在30年前是不切实际的。随着计算能力的不断提高,这些方法现在可以在个人电脑上实现[11]

倾向得分匹配

如果不提罗森鲍姆和鲁宾定理,那就太失职了。这是一个了不起的定理,它允许研究人员只匹配一个构造,即个体被处理的概率。这个定理可以解释如下:假设有满足CIA和CSA的数据。治疗和不治疗的结果在统计学上是独立的D(另一个变量),取决于那些协变量等于特定值的个体的治疗概率。

定理告诉我们,我们只需要匹配接受治疗的概率,条件是实现X.罗森鲍姆和鲁宾称之为倾向分数,这通常被称为倾向得分匹配。这里有两点可能不太明显。首先,真实的倾向分数当然是未知的。好消息是,这可能是估计出来的[12].第二,这可以降低解释变量的“维度”,因为倾向得分是一维的。然而,这是具有欺骗性的,因为它只是把高维问题推回到倾向分数的估计上。因此,虽然简化了匹配模型的估计,但仍然需要估计倾向分数。

匹配如何回答政策问题

虽然本文中使用的示例很好地说明了匹配是如何工作的,但它自然会导致一个问题,即是否可以使用回答实质性问题的真实数据实现匹配估计器。一项使用1979年NLSY队列的研究着眼于进入更好大学的回报[11].这项研究比较了那些处于质量前四分之一的人的工资。质量最低的大学,却有高质量的学生。它分别对男性和女性进行比较,并使用OLS将匹配估计值与相应估计值进行比较。

对于男性来说,匹配的估计表明,从最好的大学毕业的男性比从最差的大学毕业的男性多挣近15%。相比之下,OLS是17%的工资溢价,所以这两个估计相当接近。然而,与之匹配的估计值表明,女性的工资溢价略高于8%,而OLS估计的工资溢价是女性的两倍多,接近17%。

造成这些差异的原因至少有两个。首先,OLS强加的线性关系可能是不正确的。通过不强加线性的匹配,可能更真实地报告了上精英大学的真实收益。然而,第二个原因与CSA有关。图3绘制女性倾向得分在顶部和底部四分位数之间的分布。很明显,上低质量大学的女性的工资与上精英大学的女性的工资有很大的不同,但当观察到共同支持区域时,上精英大学的女性的回报大幅降低。

倾向分数在顶部和底部四分位数之间的分布

限制和差距

到目前为止,使用OLS或匹配的最困难的情况是条件正交性的极强假设以及在治疗和不治疗下的潜在结果。这一局限性导致许多经济学家追求工具变量估计来处理“内生性”问题。

匹配的另一个主要缺点是,它要求研究人员在过程的几个步骤上做出决定,这些步骤可能会影响估计、估计的精度,甚至这些估计的统计显著性。

总结及政策建议

匹配提供了一种估算方法,而不需要进行OLS必须进行的强函数形式假设。通常情况下,这些严格的假设在经济理论中没有太多的理由。虽然在计算费用昂贵且相对原始的情况下,使用简单的OLS模型是合理的,但计算能力的显著提高和计算机价格的暴跌使匹配很容易实现。

匹配可以使研究人员和政策制定者避免对函数形式经常武断的假设。这可以避免在预测项目影响时出现一些非常严重的错误,并可能指导我们做出更好的政策决策。

致谢

作者感谢两位匿名的推荐人和IZA World of Labor编辑对早期草案提出的许多有益建议。作者以前的工作包含了大量的背景参考资料,本文的所有主要部分都大量使用了这些资料[9][10][11]

相互竞争的利益

IZA劳工世界项目致力于IZA研究完整性指导原则.作者宣称自己遵守了这些原则。

©丹·a·布莱克

证据地图

匹配作为回归估计

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家