财政激励对教师的效果如何?

将教师工资与学生表现挂钩已经变得很流行,但其有效性的证据好坏参半

美国密歇根州立大学

单页 全文

电梯游说

对学生表现不佳的担忧导致学校背离了传统的教师薪酬,并将部分薪酬基于学生的成绩。在美国,自2004年以来,采用这种基于成绩的财务激励措施的学区数量增加了40%以上。在发达国家,有关个人激励的证据有好有坏,有些影响是积极的,有些则可以忽略不计。发展中国家的证据较少,但几项研究表明,激励措施可能非常有效,实施成本也低得多。创新的激励机制,如基于学生相对表现的激励,显示出前景。

2011/2012年度,美国各州实行绩效激励的学区比例差别很大(最大的州)

重要发现

优点

如果激励措施设计得当,可以有效地提高学生的学习成绩。

在发展中国家,根据学生表现向教师支付报酬已被证明是一种成本低廉的高效方法。

基于小团体教师集体绩效的激励措施在搭便车的教师的效率损失和教师相互合作的效率提高之间取得了平衡。

基于损失而非收益或相对学生表现的创新激励机制显示出高效的前景,但仍有待严格评估。

缺点

总的来说,发达国家关于个人激励的证据好坏参半,有积极的影响也有消极的影响。

在教师工资高的国家,激励措施需要很大才能引起反应,这可能会使它们过于昂贵而无法普遍使用。

基于大群教师集体表现的激励措施已被证明对成绩影响甚微,在某些情况下甚至产生负面影响。

没有证据表明,与特定考试相关的激励措施会导致其他学术表现指标的提高,这表明知识缺乏普遍的提高。

作者的主要信息

如果设计得当,对教师的经济激励是有效的,但设计不当的激励收效甚微。政策制定者应该避免基于阈值的激励,比如达到目标或比其他教师做得更好,而是支持基于学生表现增量改进的系统。为了避免让教师专注于任何一个具体的措施而牺牲了广泛的学习,激励措施应该与客观和主观的多种结果相一致。如果采用的是集体激励而不是个人激励,那么小组应该保持规模较小:例如,基于年级和学科。

动机

传统上,世界上许多地方的教师是根据证书(学位和证书)和经验获得报酬的。然而,研究表明,经验的回报是有限的,证书对学生的表现几乎没有影响。尽管如此,教师素质是非常重要的。由于教师薪酬与教师绩效之间的脱节,对教师进行财务激励(通常被称为“绩效”、“绩效”或“激励”薪酬)的想法与学生绩效的衡量标准相一致,已变得越来越流行。

根据美国教育部的学校和人员配置调查,从2004年到2012年,美国公立和特许学区对优秀教学提供财政激励的比例增加了40%以上。各州之间也存在很大差异:有些地区没有奖励计划,而另一些地区则有近一半的地区提供奖励计划。丹麦、印度、以色列、肯尼亚、匈牙利和挪威等许多国家也实施了激励措施。

除了直接提高学生成绩的财政激励(本文的重点)之外,其他类型的激励包括招聘人手不足的学校,激励获得某些证书,以及激励招聘人手不足领域的教师。

正反两面的讨论

激励薪酬的主要目标和变化

教师激励背后的激励概念是根据教师的生产力来支付工资。其目标是产生两个关键影响。首先,鼓励教师付出更多的“努力”,广义上包括数量和质量。例如,为了提高质量,教师可以花更多的时间在课堂教学或课外辅导上。他们可以通过采用创新的教学技术、分析数据以提高学生表现,或尝试不同的教学方法来提高质量。第二,招聘高素质的教师。一些经济学家从理论上认为,激励措施会吸引那些更善于提高学生表现的人进入教学行业。

在实践中,激励性薪酬的实施存在细微差别,可能会对效率产生重大影响。因此,任何政策制定者都必须仔细考虑提供最合适的激励类型。

基于个人或团队表现的激励

第一个问题是,是否根据教学团队或教师个人的表现提供激励。教师的个人奖项是根据他们提高学生表现的程度而颁发的。群体激励是根据一组教师的平均表现提供奖励。大多数情况下,这个小组由学校的所有教师组成,包括学校年级、学校学科或学校学科年级。在某些情况下,教师被分成更小的团队。

这些奖励类型之间有两个关键的经济区别,这决定了它们的有效性。一个重要的问题是群体激励促进搭便车(如果老师为了达到共同目标而减少自己的努力,以应对其他小组成员贡献的增加,他们就会搭便车):有些老师不像他们为了个人激励而增加自己的努力,因为他们可以利用其他小组成员努力的提高。从积极的方面来看,群体激励鼓励教师之间的合作,而个人绩效则促进竞争。由于教师倾向于从同事的帮助中受益,而大学环境更有利于提高工作效率,因此有人担心,个人动机可能会破坏这种关系。

衡量性能的指标

第二个关键设计特征是用于识别获奖者的指标。通常情况下,至少有一部分激励措施是与测试分数衡量相一致的。由于基于未经调整的考试成绩来奖励教师往往是因为他们有高能力的学生,而不是因为他们提高了学生的表现,所以学区一直依赖考试成绩的增长来评估教师的表现。更复杂的统计模型叫做老师增值模型也被广泛使用,旨在确定教师对学生成绩增长的直接贡献。这些模型使用统计调整来提高学生的考试成绩,以孤立教师对学生成绩的贡献。仅用考试成绩来评价教师是有问题的,因为它没有区分教师的有效性和学生的现有能力。然而,根据学生在某门考试中的表现来奖励教师,会鼓励教师只针对这门考试,这可能对更广泛的学习影响不大。因此,除了考试成绩之外,学区通常还会根据课堂观察和校长评估等多种结果来制定薪酬标准。

激励制度的结构

最后的设计特点是激励体系的结构。激励机制可以通过三种方式实现:绝对目标、排名顺序竞赛和计件计酬。绝对目标为教师提供奖金,如果他们的学生达到一定的结果,而不管其他教师表现如何。例如,德克萨斯州的大学先修课程激励计划(Advanced Placement Incentive Program)根据通过大学先修课程考试的学生来奖励教师。

排名顺序锦标赛奖励那些在该指标上表现优于一定比例其他教师的教师。休斯顿独立学区(Houston Independent School District)的ASPIRE项目就是一个例子,如果教师的增值分数超过第50百分位,他们就会获得奖金;得分超过75百分位的奖励加倍。这些与绝对指标相结合构成基于阈值的激励系统.总而言之,阈值补偿意味着为达到某些目标的教师支付报酬,例如比其他教师做得好得多。一个例子是,只向那些表现比平均水平更好的教师提供额外的报酬。

最后,计件工资制度按学生成绩的每一单位提高(增量提高)向教师支付工资。例如,计件计酬制度可能向教师支付100美元乘以他们的增值分数。虽然经济学理论表明计件计件制可能比基于门槛的计件制更有效,而且有更少的不正当动机,但地区倾向于选择排名顺序锦标赛,因为它们能确保预算安全。任何相对的系统都会对总派息设定上限,而计件计酬系统,或有绝对目标的系统,可能产生远高于预期的派息。这两种方法之间的一种有趣的折衷方法叫做按百分位数付费,最近已被提出[1].这个想法是根据学生相对于一组明显相似的比较学生的表现来支付教师工资。虽然理论上已经证明,这样的系统可以调整激励机制,使教师提供最佳的努力水平,但这还没有得到实证证明。

激励性薪酬的证据

评估教师激励机制的一个根本困难是,选择有激励机制的学校系统可能与那些没有激励机制的学校系统在不可观察的方面有所不同。例如,一个典型的担忧是,如果学区在招聘有效教师方面存在问题,他们可能更倾向于实施激励性薪酬计划。因此,该计划的任何可衡量的影响都将改善该地区现有的低绩效状态。为了解决这个问题,许多关于激励的学术研究已经转向使用随机对照试验来评估教师激励。随机化消除了受激励因素影响的教师与未受激励因素影响的教师之间未观察到的差异。然而,随机对照试验的范围通常是有限的,教师在这些实验期间的反应可能与其他时候不同,因为他们知道实验是暂时的。因此,在评估这些项目时,还应该检查其他基于证据的非实验研究,这些研究使用了估计因果影响的方法。

图1列出了这里所考虑的研究,并提供了一些关键的信息,包括影响的大小估计值(考试成绩的常用衡量标准,以标准偏差单位衡量;通常,一个标准偏差的改善相当于提高了25 - 30%的排名),以及它们在统计上是否显著95%置信水平(即真正的冲击为零的概率小于5%)。由于大多数研究报告了多个估计值——相对于项目开始的不同时间,以及对激励和非激励考试的不同估计——因此,如果提供了该研究所有年份的平均值,则使用与激励直接相关的测试的影响估计值。否则,效应量估计是研究的最后一年。进一步,估计与最广泛的控制变量集显示。一般来说,这些研究倾向于显示积极的结果,尽管在许多情况下,估计值接近于零,在统计上不显著。

教师激励的重点研究

美国激励性薪酬计划的证据

大多数关于教师激励性薪酬的研究都是在美国进行的。特别是,使用各种实验设计对激励性薪酬方案进行了几次评估。激励制度在全国许多地方实施,尽管都在城市或郊区。因此,这些项目往往在少数民族和低收入人口较多的地区实施。在这里研究和描述的所有激励系统中,除了芝加哥高地实验,工资都是基于达到阈值的教师,而不是计件工资激励。

一项广泛宣传的随机对照试验研究了田纳西州纳什维尔市的一项激励计划,该计划为提高学生数学成绩的教师提供高达1.5万美元的巨额奖金[13].这种固定门槛系统的门槛相对较高:教师需要至少达到增值分数的85%才能获得任何奖励。研究发现,这些奖项对数学成绩没有统计学上的显著影响。然而,激励制度某些特点的问题可能降低了其有效性。首先,高门槛可能会让许多教师望而却步。其次,对数学的关注留下了对其他学科影响的问题。第三,激励完全基于考试成绩。虽然这在某种意义上是一个优势,因为它允许研究分离这种特别集中的激励,但它仍然限制了可以从更普遍的激励中了解到的东西。

在伊利诺斯州芝加哥高地(芝加哥的郊区)进行的实验也发现了类似的缺乏个人激励的影响[5].结果显示,给教师最多8000美元奖励学生考试成绩的个人和小团队激励措施都没有显著影响。尽管这些结果并不显著,但该研究的两个独特方面值得提及。首先,这是唯一一项使用百分位数薪酬激励制度的研究。第二,尽管没有发现为教师提供金钱收益的激励措施的影响,但该研究也测试了金钱损失的影响。有大量的经济证据表明,人们更关心赔钱而不是赚钱,即使金额是一样的损失厌恶.在学年开始之前,所有的老师都会收到奖金,并签署一份合同,要求他们在学年结束时,如果他们的学生在年终考试中表现不够好,就会退还奖金。这个激励计划结构上的简单改变对考试成绩产生了非常大的积极影响。然而,尽管这种方法很有趣,但在实践中可能很难实现。

另一个关于个人激励的随机实验是芝加哥实施的教师进步计划(Teacher Advancement Program),该计划根据学生表现改善措施(增值分数)、课堂观察和教师在学校的参与程度,向教师支付高达6400美元的报酬[6].与前两次实验不同的是,整个学校被随机分为早或晚采用该项目的两组。这种方法更好地反映了在实践中采用的情况,因为通常整个学校或地区都会集体采用激励系统。即便如此,与其他研究一样,这项研究在一年后没有发现激励措施的显著影响。

另外两项美国研究确实发现了激励措施对学生表现的积极影响。一项研究评估了在华盛顿特区实施的IMPACT激励计划的独特特征[2].这个项目为教师提供了一个获得一次性奖金外加每年高达2.7万美元的永久加薪的机会,这使得它比那些提供临时奖金但也提供特别大激励的典型项目贵得多。与芝加哥教师进步计划一样,教师获得奖励的标准包括教师的增值分数、课堂观察和教师对学校的参与。虽然该项目并不是实验性的,但该研究利用了该系统设计的一个方面,即提供了一个自然的实验:为了有资格获得永久加薪,教师必须连续两年被评为“高效”。这意味着,在第一年被评为“高效”的教师,在第二年比那些几乎没有被评为“高效”的教师有更强的表现动力,尽管这两组教师在其他方面几乎相同。该研究比较了这两组教师,发现教师绩效有显著的积极影响。

第二项研究着眼于明尼苏达州的Q-Comp项目[12].与迄今为止讨论的其他项目不同,Q-Comp在设计激励措施方面给了学区很大的灵活性,包括选择使用什么指标,以及是根据团队表现还是个人表现来奖励。因此,本研究不区分激励类型。尽管如此,通过比较各地区采用这种方法的时间以及是否采用这种方法,研究发现,对阅读有很小的积极影响,但对数学没有统计上的显著影响。

上述研究表明,在美国,个人激励奖励的影响是复杂的,最好的情况下,奖励需要非常大才能有效。尽管如此,尽管存在搭便车的可能,但以小组为基础的奖励仍有可能利用鼓励教师之间的合作。然而,证据又一次混杂在一起。关于团体奖励在美国的影响,最有力的证据来自两项研究。这两项研究对纽约市的学校进行了调查,这些学校被随机分配到一个激励计划中[3][4].虽然该项目旨在让学校在如何分配奖励方面具有灵活性(尽管奖励必须基于考试成绩),但实际上,几乎所有学校都采用了基于全校平均成绩的每名教师3000美元左右的奖励。研究发现,对数学或阅读成绩没有显著的积极影响,对中学的数学或阅读成绩有轻微但显著的负面影响。然而,其中一项研究指出,规模较小的学校对激励的反应更好,这表明搭便车在群体激励中发挥了重要作用,而在大型学校,搭便车将是一个更大的问题。

最后,一项针对休斯顿ASPIRE项目的研究更直接地测试了这个搭便车问题[8].这项研究的重点是高中教师的激励制度,该制度在学科年级水平上提供奖励(例如,9年级的科学教师)。因此,群体规模差异很大。该奖项完全基于考试成绩的增值,每名教师的奖金高达7700美元。这项研究发现了大量教师群体搭便车的证据,这表明最有效的群体激励措施是将教师分成5人或更少的团队。虽然这项研究没有估计激励措施的直接影响,但间接地从搭便车的估计中确定了影响,并显示激励措施对目标考试有很大的积极影响。然而,在同一科目的考试中,与激励无关的因素对考试没有影响。通过强调教师可能将他们的努力局限于考试而不是整体学习这一重要问题,这一发现为采用一系列衡量奖项的指标提供了支持。

教师财务激励的国际证据

在美国以外,关于教师激励的研究要少得多。即便如此,一些重要的研究表明,国际上关于激励机制的证据要比美国的证据积极得多。以色列的两项研究发现,教师激励对学生表现有实质性的积极影响[9][10].由于以色列是一个发达国家,其教育体系与美国和欧洲国家类似,因此这些额外的证据可以与美国关于激励性薪酬在发达国家如何运作的证据结合起来。这些研究集中在两种激励机制上,即根据学生在高中毕业考试和大学入学考试中的表现来奖励教师。虽然这些研究不是随机实验,但它们的进行方式允许估计因果关系。第一项研究估计了一项相对低风险的全校(团体)激励计划的影响,该计划向每位教师提供高达1000美元的奖励。第二项研究关注的是一个教师个人激励计划,该计划的支出要高得多——高达7500美元。在这两种情况下,激励措施对学生的表现都有积极的、统计上显著的影响。

对发展中国家影响的了解要有限得多。尽管如此,两个重要的实验提供了深刻的见解,表明在发展中国家实施激励措施可能非常有效,而且成本要低得多。在印度安得拉邦进行的一项随机对照试验将教师分为三组:没有激励;全校范围的激励;或者个人动机[11].作为教师工资的一个百分比,这些激励措施是可观的,但就绝对金额而言,它们并不昂贵——通常每名教师不到100美元。这些激励措施基于计件计酬制度,而不是门槛制度。该研究发现,个人激励对数学和语言成绩的影响在统计上具有重大意义,而群体激励对数学和语言成绩的影响仍然相当可观,但要小50%。值得注意的是,与美国的学校不同,这些学校规模很小,平均每所学校只有三名教师。例如,纽约市的激励学校平均有16名激励教师。因此,这里的群体激励效应的发现与休斯顿的研究一致,即小群体的反应更多。印度的这项研究将这种影响很大程度上归因于这样一个事实:受激励的教师在学生准备考试方面投入了更多的精力,包括通过额外的考试准备、更多的家庭作业和课堂作业、课外额外的辅导,以及对较弱学生的更多关注。

在肯尼亚进行的第二个发展中国家实验中,学校被随机分配到一个激励计划中,该计划根据学校的平均考试成绩为教师提供最高51美元的奖励[7].这些激励措施成功地提高了学生在激励考试中的表现。然而,正如休斯顿的研究一样,在相同的科目中,几乎没有证据表明这对非激励考试有影响。

图2提供本文中讨论的研究的广泛概述。

教师财务激励的影响综述

局限性和差距

虽然有许多优秀的研究评估教师的激励性工资,但仍有许多未知。首先,研究主要集中在美国。在其他国家进行的严格研究屈指可数,而且没有一个是在欧洲、东亚或中南美洲进行的。其次,大多数研究的激励方案都是基于门槛,要求教师达到一定的成就水平才能获得奖励。这主要是由于这些方法(尤其是基于教师排名的方法)具有吸引力的特点:预算的确定性。然而,从理论上讲,门槛激励的效果可能不如计件计酬法,计件计酬法是按每单位的额外绩效支付报酬的。第三,很少直接比较群体激励和个人激励。虽然两者都在不同的背景下进行了研究,但在同一地点进行比较是有限的。第四,与教师增值等单一产出激励相比,基于多重产出的激励如何建立,缺乏经验证据。

摘要和政策建议

总的来说,有关财政激励对教师的影响的证据有好有坏。虽然经济激励在发展中国家似乎相当成功,但在美国和以色列等发达国家的结果尚不清楚,尽管这些国家的积极影响也往往大于消极影响。即便如此,在有积极影响的情况下,这种影响似乎集中在直接激励的考试上,这表明,如果经济激励的目标狭窄,可能不会改善一般的学习。基于多种结果的激励研究往往显示出更积极的效果。

从这里回顾的研究中可以得出一些建议,以指导政策制定者考虑实施教师激励性薪酬以提高学生的表现。首先,系统的指标和激励结构的选择关系到其有效性,设计糟糕的系统甚至会使结果变得更糟。其次,激励应该基于多种结果,其中学生表现的提高(教师增值)只是几个指标之一,其中至少有一个应该是主观的(校长评价或课堂观察)。第三,在可能的情况下,应该避免门槛和排名顺序竞赛,而采用计件计酬制度。按百分位数付费是一种很有前途的方法,但仍有待实证检验。

对于基于群体的激励制度,群体的规模应该保持在较低的水平。学校层面的激励通常是无效的,但有证据表明,小团体可以提高学生的表现。

致谢

作者感谢一位匿名的推荐人和IZA劳动世界的编辑们为早期的草稿提供了许多有用的建议。

相互竞争的利益

IZA劳动世界项目致力于IZA研究诚信指导原则.作者声明他遵守了这些原则。

©Scott A. Imberman

证据地图

财政激励对教师的效果如何?

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家