劳动的IZA世界-奖金和绩效评估

单页全文

电梯游说

长期以来，经济学家一直认为，基于绩效的奖金可以提高业绩。事实上，许多公司使用与个人绩效挂钩的奖金来激励员工。然而，最近在人力资源专业人士中掀起了一场激烈的争论，一些公司已经从个人绩效奖金转向了固定工资或集体绩效激励计划，如利润分享或团队激励。适当的方法取决于每个公司的独特情况，经理们需要意识到个人奖金计划并不是激励员工的灵丹妙药。

重要发现

优点

奖金可能会提高绩效，如果有客观的措施来评估绩效的关键方面，如果员工有足够的余地来提高他们的绩效。

奖金激励那些表现出低任务动机的人。

团队奖金可以提高绩效，因为同伴效应和社会偏好可以缓解所谓的搭便车问题。

缺点

当员工同时承担多项任务，而对重要任务的付出难以评估时，奖金计划可能会造成扭曲。

基于绩效的奖金可能对性格认真的员工影响有限。

奖金支付可能会影响，甚至可能破坏其他用来激励员工的管理实践。

基于个人表现的奖金往往依赖于主观的绩效评估，而这些评估往往是有偏见的。

作者的主要信息

最近有关奖金方案效果的经验证据表明，其实施细节很重要。当员工的内在任务动机较低且业绩难以监控时，奖金方案可能对容易衡量的任务很有效。然而，在其他情况下，有几个因素限制了它们的好处。因此，奖金计划必须在将要实施的组织的具体情况下仔细评估。企业和学者应该针对不同的员工群体实施方案改革，以便对观察到的结果进行强有力的评估，从而追求基于证据的奖金设计。

动机

经济学家传统上支持奖金提高员工绩效的观点。关键思想很简单:如果人们根据表现获得报酬，他们就应该被激励更努力地工作。从业者和学者有时会质疑这一观点。尽管多年来，绩效薪酬在企业中的使用有所增加，但最近的描述性证据表明，这一趋势有可能发生逆转插图）.

在令人惊讶的很长一段时间里，很少有来自实际公司的关于奖金对业绩影响的明确因果证据。一个关键的原因是，如果一家公司同时为其所有员工推出奖金计划(这在实践中很常见)，那么几乎不可能估计其对业绩的影响。这是因为许多其他有影响力的事情往往同时发生(商业周期效应、市场发展等等);这样，业绩的任何变化都不能明确地归因于奖金方案的变化。然而，在一个现场实验(随机对照试验，RTC)中，一个新方案只对一组员工实施，这使研究人员能够清晰地估计其因果影响。关于奖金制度对企业绩效的影响，越来越多的现场实验和准实验提供了证据，这些证据可能有助于进一步阐明这一问题。

正反两面的讨论

一个基准案例

在美国最大的汽车玻璃维修服务提供商Safelite，最早的大规模准实验研究之一调查了向维修挡风玻璃的技术人员引入绩效工资的影响[1]。安全技术人员以前是按固定小时工资工作的。从1993年开始，该公司推出了绩效工资计划，根据每单位时间安装挡风玻璃的数量来支付技术人员的工资。由于新方案不是随机分配给子公司，因此设置与实际的RCT不相符。但它并没有同时对所有公司实施，在推出期间，有子公司在旧的和新的薪酬计划下工作。这创造了一个近似的实验设置。

绩效薪酬计划对业绩产生了非常大的影响:每个技术人员安装的挡风玻璃数量增加了40%以上。这种效应大约有一半是由于传统Safelite技术人员的更高表现(“激励效应”)。另一半是因为Safelite在新的绩效薪酬计划下吸引了更多有生产力(有能力)的员工(“选择效应”)。

这项研究构成了绩效薪酬文献的重要基准，但考虑其具体背景至关重要。Safelite技术人员主要开车到客户现场进行挡风玻璃维修。因此，监控员工的行为是困难的，并可能导致实质性的“道德风险”问题。此外，修理挡风玻璃是技术人员的主要工作，也是唯一重要的工作。用来衡量业绩的关键指标(修理挡风玻璃的数量)因此衡量了它们对公司重要性的所有关键方面。总而言之，Safelite的环境非常有利于绩效薪酬的成功。

环境因素和设计挑战

如上所示，奖金计划在难以监控员工以及关键绩效指标追踪员工基本任务的情况下可能会很好地发挥作用。然而，许多工作在系统上与这些设置不同，这可能会在很大程度上影响奖金计划是否以及在多大程度上提高绩效。此类备用设置的示例包括:

在大多数工作中，人们要同时完成几项任务，而客观的绩效评估往往无法适用于所有的任务。这可能会造成多任务处理问题。
员工可以被激励社会偏好或有人格特质这会让他们产生把工作做好的内在偏好，这可能会减少通过奖金来调整利益的需求。
客观的绩效衡量通常只适用于一组员工，这可能会导致搭便车的行为。
其他管理实践例如绩效反馈或目标设置也被证明可以提高绩效;奖金计划可能以复杂的方式与这些实践相互作用。
公司往往依赖于主观评估(例如由主管)来发放奖金主观绩效评估的偏见。

下面将参考来自企业实地研究和(准)实地实验的相关经验证据来讨论这些设计挑战。

多任务处理

激励理论的一个经典结果表明，如果只有任务的子集可以客观衡量，而绩效薪酬是基于这些任务，人们就会过分关注可衡量的任务。一个典型的例子是，当产出的“质量”难以衡量时，企业是否应该用奖金来奖励生产的“数量”。最近在几家中国电子制造公司进行的实地实验发现了一些与这一猜想相符的证据[２]。在实验中，五家公司从事辅助工作(如包装)的工人在数天内由于数量的增加而获得可观的奖金。工作质量(不良率)被秘密检查，并表明干预增加了数量，但也导致了更高的不良率。另一个能证明多任务扭曲发挥重要作用的例子是，奖励短期表现的奖金是否会抑制探索和创造力。这种多任务处理扭曲的结果是，如果特定的关键任务不容易衡量，而这些任务对组织的总体目标非常重要，那么最好不要使用绩效薪酬计划。

社会偏好

经济学中的激励理论传统上依赖于经济人模式:人们被自身利益所引导，几乎不关心他人的福祉。然而，行为经济学和实验经济学(当然还有心理学)的大量证据表明，许多人关心他人的福祉，因此，用经济学的语言来说，他们有社会偏好。例如，一项针对农业工人的研究表明，在奖金计划的背景下，人们倾向于考虑自己的行为对同事的影响[3]。这项研究探索了一种转变，即从一种基于员工的相对表现(表现比同事好时，他们挣得更多)支付奖金的方案，到一种仅取决于员工自身表现的奖金方案。然而，在前者中，一个员工的更高努力会对另一个同事的幸福产生负面影响，而在后者中则不是这样。作者发现，在放弃相对性能组件后，性能显著提高。当同事是亲密的朋友时，这种影响更强，这支持了社会偏好很重要的观点。然而，作者提供了进一步的证据，表明只有在相互观察到员工的努力时，员工才会“内化”(即考虑)他们的行为对同事的影响——这表明触发这些影响的不是纯粹的利他主义，而是这种社会行为也有战略成分。

人格特质

员工的偏好和性格特征会影响他们对金钱激励的反应，这一观点还有另一个重要的含义:那些本质上觉得有义务工作的人，或者那些喜欢工作的人，可能对绩效薪酬的反应较小，因为即使在工资不变的情况下，他们也会“尽力做到最好”。

最近在印度产妇护理提供者中进行的一项实地实验支持了这一观点[4]:作者评估了提供者的性格，测量所谓的“五大人格特征”(最广泛接受的人格心理学特征:开放性、严谨性、外向性、宜人性和神经质)。一个关键的性格特征是尽责性:在尽责性方面得分高的人是那些从本质上有动力把他们的工作或职责做好而彻底的人。研究发现，绩效工资的引入提高了员工的绩效，但这种积极效应是由不那么认真的员工推动的。非常认真的工人对这种激励几乎没有反应。

团队激励和搭便车

客观的绩效评估通常只适用于规模较大的员工群体。例如，财务业绩通常只在整个公司或该公司内部特定利润中心的层面上进行评估。除了销售工作，员工个人的利润贡献很少能被客观评估。因此，在这种情况下，绩效工资可能基于团队的结果。这可能会导致所谓的搭便车问题，根据这种问题，个别员工工作不那么努力，因为他们个人只能从增加的努力中获得一小部分绩效收益。经济学家传统上一直对团队激励方案的有效性持怀疑态度。然而，越来越多的实证研究支持这一观点，即搭便车可能没有之前想象的那么严重。一个关键原因仍然是社会偏好的普遍存在，当团队奖金到位时，这会导致员工将自己的努力对同事幸福的(积极)影响内在化。另一个核心机制是同伴压力:在团队薪酬制度下，团队成员有激励或惩罚搭便车的同事的动机。

一项研究探讨了大陆航空公司为提高准点率而引入的非常简单的奖金计划对业绩的影响［5］。根据该计划，如果大陆航空公司在美国航空公司中准点率排名靠前，该公司将向所有员工支付特定金额。从理论上讲，这一计划应该会导致一个巨大的搭便车问题，因为特定机场的个人员工对整个航空公司准点率排名的影响非常小。然而，作者提供了令人信服的证据，证明该计划是有效的，他们比较了大陆航空运营由自己的员工完成的机场与运营外包给独立公司的机场之间的绩效变化，表明绩效的提高是由前者推动的。

研究人员研究了美国一家服装厂引入团队合作的情况(该工厂的激励机制正从个人激励转向团队激励)，发现团队合作与生产率的提高有关[6]。在这种环境下的员工最初可以自愿加入团队。有趣的是，特别是高能力的员工决定尽早加入团队——尽管这通常会导致工资损失(因为这些员工在个人绩效工资下有很高的收入)。这一证据再次支持了搭便车可能不那么普遍的观点——因为能力较低的员工有最强的物质动机加入团队并搭便车。此外，这与团队合作可以带来非金钱利益的观点是一致的，例如当社会偏好超过搭便车效应时。

最近，德国一家大型烘焙连锁店进行了一项实地实验，随机给门店分配了团队奖金，结果发现团队奖金显著提高了利润[7]。该研究还分析了详细的人员数据，以调查潜在原因;证据表明，团队奖金提高了客户服务速度，从而提高了服务客户的数量。

反馈还是奖励?

当一家公司引入奖金支付时，它不仅会通过金钱激励来影响员工，还会让人们注意到用于评估业绩的关键指标。出于同样的原因，奖金的引入也可能产生绩效反馈，而绩效反馈本身就会影响员工的积极性。与这一观点一致的证据来自对一家荷兰零售商(销售服装、鞋子和运动服装)进行的一项研究。[8]。该研究通过不同商店之间为期六周的比赛引入了团队奖金。商店被分成五组，每组中表现最好的商店的所有员工都将获得固定奖金。研究发现，这种比赛提高了销售业绩。但引人注目的是，在“反馈”处理中，奖励(比赛奖金)与金钱奖金无关，而只是象征性的，这种影响是最强的，在统计上也是最强劲的。

最近在一家连锁超市进行的实地实验表明，奖金和反馈之间的相互作用可能更加复杂[9]。研究将224家超市随机分为三个不同的治疗组和一个对照组。其中一组接受了金钱奖励，以增加商店利润。在另一组中，没有奖金，但门店经理每两周会进行一次绩效评估对话，讨论他们如何提高利润。最后，第三组既获得了奖金，又进行了回顾对话。评论对话提高了约8%的利润。然而，奖金对业绩没有明显的影响。此外，奖金甚至削弱了回顾对话的价值，因为联合治疗的表现也没有超过对照组的表现。对审查会议的协议进行分析的证据表明，奖金的支付改变了审查对话的性质。例如，在奖金到位的情况下，商店经理谈论遇到的问题的频率要低得多，而在没有奖金到位的情况下，反馈的质量要高得多。 The authors argue that performance review conversations trigger reputational incentives as store managers want to signal their motivation to supervisors and these reputational incentives are undermined when the bonus is in place. An implication for the design of bonus plans is thus to carefully evaluate their interplay with other management practices.

主观绩效评估

在缺乏客观的绩效衡量标准的情况下，企业在实施奖金计划时只能依靠主观的绩效评估。一个典型的程序是，奖金的支付是由绩效评估决定的，在绩效评估中，员工的表现是根据评级量表进行评估的(最常见的是由他们的主管进行评估)。常见的评分量表包括五分制，例如，1分表示最高，5分表示最低。其他的评估形式遵循目标管理(MbO)方法，管理者设定目标并评估员工的目标实现情况(通常以目标的百分比进行评估，例如，评分为100%意味着员工已经实现了所有目标，评分大于100%则意味着员工超出了目标)。最后，一些公司，特别是银行和金融公司，采用奖金池安排，即单位的财务业绩决定奖金池的数量，主管主观决定如何分配给下属。在所有这些方案中，由于真实业绩无法客观核查，管理者在奖金如何分配方面有一定的自由裁量权。心理学和经济学的大量文献已经证实，这些主观评价往往是有偏见的。一个典型的说法是，评级往往对高绩效和低绩效区分得太少(“评级压缩”)，而在没有固定预算的情况下，评级往往对员工过于慷慨(“宽容偏见”)。造成这种扭曲的核心原因包括有限的可观察性(限制了监管者区分的能力)和社会偏好(引发更慷慨的评级)。此外，大量证据表明，人们倾向于根据同事收入等特定参考点来评估工资(和奖金)。 When supervisors anticipate this, it may again lead to a reluctance to differentiate between high and low performers. Such biases may undermine the effectiveness of bonus schemes that rely on subjective assessments.

一项关于在零售银行引入客观关键数据的研究为主观评估存在偏见的说法提供了因果证据，这些扭曲限制了绩效奖金的收益[10]。在干预之前，该银行采用了奖金池安排，即分行经理必须根据自己的主观评估来分配奖金。随后，该银行进行了一项现场实验，从所有分支机构中随机选择一个子集(从销售IT系统中)，向分支机构经理提供精确的客观销售数据，然后由主管分配奖金池。

引入客观的绩效衡量标准确实增加了员工的努力(通过员工主动与客户预约来衡量)和利润。图1显示员工发起的客户预约随时间的发展。治疗组在第4个月后宣布从第7个月开始进行客观的绩效评估。分析还显示，在较大的分支机构中，绩效提升尤其大，这表明主观评估不太准确，因此，当主管同时评估更多员工时，客观绩效信息更有用。

人员和调查数据的结合可以更深入地了解主观评估中偏见的行为驱动因素。在一家跨国公司的实地研究为参考点和股权问题在评估奖金中的具体作用提供了证据[11]。该公司采用奖金制度，由主管对下属的表现进行主观评价，然后发放年度奖金。每个员工都有一个“奖金预算”(由公司和子单位的绩效决定)，主管可以在下属之间重新分配这笔预算。他们必须为每个下属确定一个“奖金比例”，即分配给该员工的预算份额的百分比。收到的奖金百分比低于100%，因此意味着员工收到的奖金低于其同事的平均水平。该公司在德国和美国的经理也采用了这一方案——只有一个不同之处:在德国被评估的员工知道他们奖金的确切比例，而在美国的员工只知道奖金的金额。

然后，该研究调查了分配的奖金比例(包含员工相对地位的信息)与工作满意度之间的关系。图2显示了这种关联，揭示了在德国，当员工得知他们得到的奖金不到分配预算的100%(因此比他们的平均同事要少)时，他们的满意度显著降低，而那些获得超过100%的员工的满意度几乎没有提高。有趣的是，美国没有这种模式。因此，当员工知道100%的奖金水平时，就构成了一个明确的比较参考点。此外，据观察，德国的管理人员显然试图通过压缩奖金支付来避免这种“违反参考点”的行为。德国员工的评价为100%的比例是美国员工的两倍多，这支持了一种观点，即对股权的担忧可能是评级压缩的主要驱动因素。

这一发现提出了一个后续问题，即评级压缩是否会损害业绩，还是也可能产生有益的影响。例如，缺乏差异化的评估可能会导致更高的整体工作满意度，从而提高员工的积极性。另外，过高的差异化水平可能会削弱员工与同事合作的意愿，从而损害绩效。在一项使用一家跨国公司瑞士分公司的面板数据的研究中，对这个问题进行了实证探索，结果显示，奖金支付的多变性与加班时间的增加呈正相关[12]。

一项相关研究通过一组横跨德国众多银行的人员数据，探讨了奖金发放的分散性与后续奖金池规模之间的联系[13]。这项研究通常发现的证据与差异化增加后续财务绩效的假设一致。作者还在银行业专家中进行了一项调查，要求他们根据个人表现可以客观评估的程度，对不同的职能进行评级。研究发现，在存在这种情况的职能部门(如零售和投资银行以及资产管理部门，而不是企业银行和后台部门)，奖金差异化更有价值。有趣的是，在较高的层次上，分散和随后的绩效之间的关联更强，但实际上在最低层次上可能相反——这表明，在较低的层次上，公平关注和合作可能对绩效更重要。

想要在评估中培养差异化的公司有时会实施强制分配——也就是说，他们引入了一项义务，要求经理在评级时必须遵循特定的分配(例如，将低评级分配给足够多的员工)。虽然有来自实验室实验的证据表明，如果员工独立工作，强制分配可以提高绩效，如果他们可能互相伤害，则会降低绩效，但目前还没有关于强制分配成本和收益的公司层面的实地实验。

局限性和差距

越来越多的实地实验正在公司中进行，以估计奖金计划对业绩的影响。然而，每个实地实验研究的都是一家特定的公司，甚至往往是一种特定的工作类型。而且，正如本文所讨论的，环境很重要:哪些绩效指标是可用的?员工的任务偏好和性格特征是什么?还有哪些管理措施影响业绩?这些措施如何与奖金支付相互作用?相对于获得这些相互依存关系的全面图景，现有的公司奖金设计现场实验的数量仍然相当少。每个通过实地实验评估其薪酬方案的公司不仅了解到自己环境中的最佳薪酬，而且有助于完成这一图景。

摘要和政策建议

奖金计划是可行的，但并不是激励公司员工的万灵药。如果有简单的关键绩效衡量标准来捕捉员工工作的关键要素，而且很难监控，那么基于员工个人绩效衡量标准的奖金支付往往会像预期的那样发挥作用。然而，个人绩效奖金可能对某些类型的员工影响有限，例如那些自我激励很强的员工。此外，其他管理实践，如象征性奖励或绩效考核对话，也可以激励员工。此外，当个人表现无法客观评估时，必须采用主观评估来确定奖金，而这些评估往往是有偏见的。个人绩效奖金的另一种选择是基于特定团队或整个组织的成功的团队奖金。虽然经济学家通常担心搭便车的问题，但越来越多的证据表明，团队奖金可能会很好地发挥作用，因为它们既能提高激励，也能促进合作。

很明显，在判断奖金是否以及何种类型能够在特定环境中提高业绩时，背景很重要。因此，激励方案的设计应该被视为一项工程任务:它始于对所考虑的工作和先前证据的详细分析。在此基础上，提出了具体的奖金方案设计。考虑到任务的复杂性，合理的基于证据的奖金设计旨在利用其在组织内的实施来评估其效果。并且，只有当设计首先为组织单元的一个子集(理想情况下是随机选择的)实现时，正确的评估才有效。通过比较子组之间的结果，这种基于证据的奖金设计有助于可验证地确定对绩效和员工福利的影响。

致谢

作者感谢一位匿名的推荐人和IZA劳动世界的编辑们为早期的草稿提供了许多有用的建议。作者以前的作品包含了本文所介绍材料的大量背景参考资料，并在本文的所有主要部分中被大量使用[9]，[10]，[11]，[13]。

相互竞争的利益

IZA劳动世界项目致力于IZA行为准则。作者声明他遵守了守则中列出的原则。

©Dirk Sliwka

证据地图

奖金和绩效评估

奖金和绩效评估

个人奖金并不总能提高业绩;这取决于工作的特点

电梯游说

重要发现

优点

缺点

作者的主要信息

动机

正反两面的讨论

一个基准案例

环境因素和设计挑战

多任务处理

社会偏好

人格特质

团队激励和搭便车

反馈还是奖励?

主观绩效评估

局限性和差距

摘要和政策建议

致谢

相互竞争的利益

证据地图

财政激励对教师的效果如何?

目标设定和员工激励

员工激励:奖金还是惩罚?

职场比赛的利与弊

相对的报酬、努力和劳动力供给

奖金和绩效评估

个人奖金并不总能提高业绩;这取决于工作的特点

电梯游说

重要发现

优点

缺点

作者的主要信息

动机

正反两面的讨论

一个基准案例

环境因素和设计挑战

多任务处理

社会偏好

人格特质

团队激励和搭便车

反馈还是奖励?

主观绩效评估

局限性和差距

摘要和政策建议

致谢

相互竞争的利益

证据地图

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家