对应测试研究更新

关于雇佣歧视,我们可以学到什么?

瑞典斯德哥尔摩大学和德国IZA

单页 全文

电梯游说

反歧视政策在公众讨论中发挥着重要作用。然而,识别劳动力市场中的歧视性做法并非易事。对应测试提供了一种可信的方式来揭示招聘中的歧视现象,并为政策提供了确凿的事实,它提供了除非洲以外几乎所有大洲的招聘歧视现象的证据。这种方法包括向发布招聘信息的雇主发送匹配的相同的求职申请-唯一的区别是一个特征表明该群体的成员资格。

对申请的积极回应

重要发现

优点

对应测试(CT)方法揭示了招聘过程初始阶段的歧视性做法。

CT方法可用于测试基于种族或民族、残疾、性别、年龄、性取向、宗教或信仰的招聘歧视。

CT方法可以确定招聘歧视是否因职业和/或地区而异。

CT方法可以增加对歧视招聘人员特征的了解。

研究结果可以指导政策,防止招聘歧视,并告知雇主。

缺点

CT方法只衡量了招聘过程中第一阶段的歧视,而不是工资或晋升。

CT方法只捕捉到那些使用正式搜索方法的公司,这让人对外部有效性产生怀疑。

这是不可能归因于雇主的偏好为结果的唯一责任。

过度使用CT方法可能会鼓励雇主使用其他方法寻找员工。

雇主没有被告知他们参与了这项实验。

作者的主要信息

通信测试方法已被用于识别基于种族、残疾、性别、年龄、宗教和性取向的非法招聘歧视在世界各地的许多国家。其结果对于指导反歧视政策和告知雇主他们的招聘流程非常重要。

动机

世界上大多数国家都批准了联合国关于就业和职业平等权利的《歧视(就业和职业)公约》。欧盟立法可能在这方面走得最远,明确禁止基于种族、民族、性别、年龄、残疾、宗教或信仰的就业歧视。然而,我们有理由相信雇主中仍然存在歧视行为。对公众的态度调查显示了对少数群体的消极态度,对可能受到歧视的群体的调查也指向了这一方向。

例如,在瑞典,公众(以及少数群体)的态度调查表明,种族歧视对有中东背景的个人最为严重。此外,出生在中东的移民的失业率比瑞典本地人高几倍,这表明在招聘过程中存在种族歧视。

然而,歧视只是就业群体差异的一种可能解释。另一个是不同群体之间在生产力特征上未观察到的差异,比如语言技能或对网络的访问。由于研究人员很少能解释群体之间生产率特征的所有这些差异,因此使用标准回归方法很难从经验上确定就业歧视的程度[2][3].另一组文献利用实验室实验来识别歧视行为,这有助于揭示歧视的微观基础,但这种方法容易受到外部有效性问题的影响[4]

为了克服这些困难,研究人员使用了专门用于测试招聘歧视的现场实验。最常见的两种是对应测试(以下简称CT)研究和审计。

典型的CT研究将配对的、质量完全相同的求职申请发送给已经发布招聘广告的雇主。两者之间的唯一区别是一个特征,该特征表示一个组的成员资格(例如一个特定种族组的共同名称)。如果雇主只关心工作申请中包含的生产力特征,那么回访就应该没有区别。然而,如果他们重视多数人而不是少数人,那么在招聘中就存在歧视。歧视程度是通过计算每组成员收到的工作邀请回电数量的差异来量化的。

在一项审计研究中,雇主面试的是精心配对的求职者。然而,这种审计方法受到了批评,因为它不能在除成员资格之外的所有特征上完全匹配参加面试的两人。例如,在种族歧视的情况下,不排除一些少数族裔申请人有动机证明歧视的存在。因此,他们在面试中的行为可能会使结果偏向歧视[2][5].因此,CT方法的支持者会辩称,这种方法提供了最清晰、最令人信服的证据,证明招聘中存在歧视。但这是真的吗?

本文的其余部分将概述CT方法,并讨论其在消除招聘实践中歧视的政策制定工作中的应用。虽然重点是衡量劳动力市场的歧视,但讨论很容易扩展到衡量住房市场的歧视。

正反两面的讨论

第一个使用CT方法检测歧视性招聘做法的研究发生在40多年前[6].该研究衡量了英国伯明翰的雇主在白领工作面试中邀请白人(占多数)求职者而非亚洲人或西印度人(占少数)求职者的可能性。该测试应用于32个职位空缺,发现白人申请人被召回的可能性是亚裔申请人的两倍多(108%),比西印度群岛申请人高出13%。

如今,随着招聘越来越多地通过电子邮件或在线进行,研究人员能够向广告上的职位空缺发出数千份求职申请。例如,在一项关于中国民族歧视的研究中,超过2.1万份简历被发送给了雇主[7].这一发展使CT研究成为衡量劳动力市场歧视的一种越来越流行的方法。

虽然大多数CT研究都是用名字来表明申请人是某个群体的成员(从而确定是否存在性别或种族歧视),但最近的方法进步正在帮助研究人员研究基于年龄、残疾、性取向和外表的歧视。在这些情况下,向一个群体发出成员信息的经验设计变得更具挑战性。

例如,两个年龄相差很大的求职者,他们的工作经验也可能相差很大[8].此外,如果求职者明确表示自己是同性恋或残疾人,或者在申请材料中附上自己的照片,雇主可能会觉得这很奇怪[9].因此,这种“不寻常”可能对回调率有自己的影响,使得很难确定研究人员试图检测的歧视类型是否真的发生了。

CT研究已在许多国家和许多不同的人口群体中使用[2][3][10][11].他们在北美、澳大利亚、许多欧盟国家以及最近在亚洲和拉丁美洲发现了对不同种族和女性的招聘歧视的证据[2][7].他们还发现了基于年龄和残疾以及外貌和性取向的歧视做法的证据[2].在美国和英国,法院允许当事人根据CT研究结果提起歧视法律诉讼。CT方法也被用于衡量其他类型市场的歧视,如住房市场。

CT实验结果的解释

阅读CT实验结果时涉及的解释问题在以下在瑞典进行的CT研究中进行了说明[1].这个实验是一个典型的函授研究,因为它向雇主发送了配对的(质量上)完全相同的申请。这两个人之间唯一的区别是一个群体的成员,在这种情况下是申请人的名字(埃里克·约翰逊或穆罕默德·赛义德)。

准备工作申请的一个重要部分是选择可观察到的与生产力相关的特征,以使申请标准化。任何CT研究的目标都是包括对招聘最重要的特定于工作的生产力特征。这些特征因国家和职业的不同而有所不同。实验设计的另一个重要部分是样本量的选择:申请工作的数量。幂计算用于确定检测统计上显著的歧视水平所需的最小样本量。

最后一行图1提供了瑞典实验的汇总结果。这两份申请是针对1552个不同的职位空缺发出的。在1030个案例中,两位应聘者都没有接到面试通知。在剩下的522个案例中,两名申请人中至少有一人被邀请面试,而239个案例中两名申请人都被通知面试。在217个案例中,只有占多数的申请人被邀请面试,而只有66个案例中只有占少数的申请人被邀请面试。因此,多数和少数申请人的回调率分别为29%和20%。换句话说,占多数的申请人收到面试邀请的可能性比占少数的申请人高出近50%。

来自对应测试数据的聚合结果

实验结果表明,回访率的差异是由于公司或招聘人员在选择过程中将群体成员身份作为决策变量。但是如何解释这个结果呢?如何在实验之外使用它来为政策提出建议?

雇主偏好(品味)还是统计歧视?

出于政策目的,能够确定CT研究中各组回访的差异是否来自于taste-based歧视或者来自统计上的歧视。

CT研究理想地试图通过控制最重要的与生产力相关的特征,来衡量雇主对雇用大多数人而不是少数人求职者的偏好和品味。然而,除非CT研究包括招聘过程中的所有重要特征(在不同群体中平均存在差异),否则CT方法无法单独识别导致歧视性待遇的机制[5].因此,尽管精心设计的CT研究包括许多(但不是全部)重要的生产力特征,但对于是否应该将回调率的差异完全解释为基于品味的歧视,仍存在不确定性。

最近的一项方法学进步采用了一种更直接的方法,在使用CT实验时调查统计歧视在招聘中的作用。除了CT实验的结果外,该研究还通过使用工作申请和个人网站的超链接,提供了雇主对大多数和少数族裔申请人给予多少“关注”的证据[12]

可以说,与政策最相关的问题是招聘中是否存在歧视性做法或待遇,而不是研究人员如何对其进行分类。显然,基于品味和偏好歧视少数族裔工人是非法的。尽管在一个信息不完全的世界里,这是一种理性的策略,但招聘人员也不被允许歧视,根据所谓的生产力差异来使用或假设个人的资格。这些特征在CT实验的招聘过程中所起的任何作用也属于法律上的歧视定义。因此,CT研究中回调率的组差异可以解释为捕捉了基于品味的歧视和统计歧视的综合影响。

在决定防止招聘歧视的政策措施时,不能区分出这些不同的解释肯定是一个缺点。CT实验的设计在这方面很重要,因为申请人特征集越丰富,统计歧视在招聘群体差异中起作用的可能性就越小[2]

外部有效性:公司、职业和地理区域的选择

大多数CT实验对公司在报纸或网上发布的招聘广告做出反应。不幸的是,这些公司不太可能代表市场上所有公司的随机样本。因此,实验的可信度取决于研究人员能够提供信息的程度——关于公司和他们用来寻找工人的渠道——这表明公司确实代表了一般的劳动力市场。例如,可能只有歧视较少的公司使用非常公开的渠道,比如报纸上的招聘广告,这可能会导致研究人员低估该市场上歧视的可能性。

如果包括更多对劳动力市场重要的职业,CT实验在其外部效度方面的相关性也会增加。在选择将哪些职业纳入实验时,我们的目标是获得整个劳动力市场的代表性图片,同时设计一项在实践中可行的研究。

为了获得劳动力市场的代表性图像,实验中包含职业的变化是很重要的,因为根据工作的技能水平,歧视可能会有重要的差异。理想情况下,实验者可以报告由实验中包含的职业所构成的总就业或总空缺的份额。然而,为了了解不同职业的歧视是如何变化的,包括几个职业也很重要。也就是说,解释不同职业的回调率差异并非没有问题。回调结果的差异可能反映了不同职业之间歧视的真实差异,但这种差异也可能反映了一些职业简历(通过设计)比其他简历更多地控制了统计歧视。

前两行图1显示瑞典CT研究中高技能和中/低技能职业的单独结果[1].如果这项研究只包括中/低技能职业,那么结论将是,歧视比只包括高技能职业要严重得多。

一个相关的问题是,大多数CT实验都局限于特定的地理区域。这可能会限制一项研究确定歧视程度是否存在地域差异的能力。此外,实验的结果也是特定时期的,可能会因宏观经济变化而改变,例如,当劳动力市场收紧时。

虽然没有CT实验能够得出完全随机的雇主样本,但一些研究已经收集了某些职业和特定地理区域一年内发布的几乎所有职位。因此,公平地说,如果少数族裔工人使用这些渠道来找工作,他们将遇到这些研究估计的歧视程度。尽管如此,应该强调的是,由于研究设计的差异(例如,各研究对职业的选择),各研究之间的歧视水平比较(例如,在比较各国之间的歧视水平时)是复杂的[11]

另外一个识别问题

存在另一种类型的识别问题,与未被观察或被忽略的生产力特征的方差的群体差异有关。如果雇主根据生产率的某个阈值水平来评估申请,那么CT研究可以得到歧视的偏向估计(在任何方向上)[5].如果未观察到的生产率特征的方差在不同的组之间是不同的,即使这些相同特征的平均值没有差异,这意味着一个组有更高的概率超过或低于用于招聘的阈值。事实上,在这种情况下,标准的对应研究可以在不存在歧视的情况下发现歧视,或者在存在歧视的情况下发现没有歧视。这种偏差可能有多大取决于对应研究的设计——具体来说,相对于雇主可能使用的阈值,实验者分配给应用程序的生产力水平是多少[2][3]

基准测试的歧视

例如,CT实验的经验设计的进步使得对估计的工作经验回报的歧视水平进行基准测试成为可能。这种方法要求研究人员不仅要随机改变一个群体的成员特征,还要随机改变工作经验或其他相关的劳动力市场技能。因此,除了小组成员的信号之外,应用程序还随机附加了不同年限的工作经验。这种基准测试使得提出诸如“招聘中的性别歧视与多一年工作经验的回归有何关系?”实施这种设计的缺点是,与标准CT研究相比,它需要接触更大的雇主样本,以便做出统计上显著的推断。

出于教学原因,本文在解释典型的CT方法时采用了配对设计——向同一份工作发送两个申请。但许多研究采用了另一种设计,对每个职位只发送一份求职申请,而在简历中随机添加额外的特征。然而,歧视的程度仍然以相同的方式计算——少数和多数应用程序之间的回调差异[2].最近的一项研究结合了这两种方法,允许额外的特征在配对对之间变化,而不是在配对对内部变化[13]

局限性和差距

其他阶段的歧视

CT研究仅在招聘过程的第一阶段(即被叫去面试的人)衡量歧视。他们无法捕捉到在实际获得工作、晋升或工资增长方面的不平等待遇。必须使用其他方法来研究这些维度。

市场上是否存在这种歧视?

即使劳动力市场上的所有公司都可以被纳入CT实验,测量到的歧视程度可能也不能说明少数族裔候选人是否真的能找到工作的概率。情况可能是这样的,许多雇主都不愿意雇用少数族裔工人,但这些雇主从来没有接触过少数族裔工人,因此对他们找到工作的可能性没有影响。

诺贝尔奖得主詹姆斯·赫克曼断言:“市场歧视的影响不是由市场上最严重的歧视行为决定的,甚至不是由公司之间歧视的平均水平决定的,而是由少数族裔或女性实际最终购买、工作和借贷的公司的歧视程度决定的。”经济价值是在边际上确定的。市场内有目的的分类消除了最恶劣形式的歧视。”[5]第102页。

不管不同的群体在劳动力市场中如何排序,政治家们在提出影响就业群体比例的政策之前,可能仍然有兴趣了解在劳动力市场的特定部分中是否存在对特定群体的歧视。例如,许多国家提倡劳动力市场的性别比例更加平衡。因此,政策制定者可能有兴趣在实施之前了解这种政策是否存在障碍,以及劳动力市场的哪些部分存在障碍。

是否应该使用CT来识别有歧视倾向的雇主?

CT研究在美国和英国的法庭上都被允许作为证据。然而,瑞典实验的结果表明,它们不应该是唯一的证据[1]

要问的问题是,CT方法是否可以用来证明一个特定的公司是否真的存在歧视。换句话说,CT实验程序在确定单个公司是否有意识地以歧视的方式选择一个申请人而不是另一个人时有用吗?例如,在瑞典的研究中,只有4%的少数族裔申请人得到了回调。为什么会发生这种情况可能有几种解释。

首先,有些雇主可能只是倾向于雇佣少数人而不是多数人。然而,对数据的检查显示,所有66名招聘人员都是多数背景。所以即使这是真的,也存在其他解释。应用程序是按随机顺序发送的——可能是最先收到应用程序的候选人收到了唯一的回调。然而,在某些情况下,少数族裔的申请是最后发送的,而候选人仍然收到回调。

也有可能是雇主/招聘人员因为一些不相关的原因忽略了提前到达的申请。换句话说,CT结果可能会在公司层面上包含一些随机性。然而,也应该说,这种随机性在决定CT实验中的平均辨别水平方面起着次要的作用,因为这种随机性对两组的影响相同。然而,这一讨论表明,这种类型的CT数据不应该是法律案件中提出的唯一证据。

我们能从那些歧视者身上学到什么吗?

增加关于雇主及其工作场所的信息有助于指导未来的研究,并更多地了解歧视者的特征。然而,由于CT研究中公司不是随机选择的,因此在招聘时陈述某些招聘人员和/或公司属性对歧视性做法的任何因果影响是有问题的。例如,在瑞典的研究中,当加入负责招聘人员的性别和公司规模的信息时,发现歧视性做法主要是发生在小公司的男性现象[1].然而,这个结果可能与这些属性没有什么关系,因为这些特征不是随机变化的。如果所有男性招聘人员都被女性取代,歧视可能会消失,也可能不会消失。

也有一些CT研究试图衡量招聘人员的态度。当负责招聘的招聘人员对阿拉伯穆斯林男性有更强的负面隐性关联时,阿拉伯穆斯林求职者被面试的可能性就会大大降低[14].这表明自动化流程可能会对雇主的招聘决策产生重大影响。然而,这一结果受到与上述相同的怀疑,因为招聘人员和他们的内隐关联并不是随机变化的。

尽管人们担心实验中的这些补充并不会产生因果效应,但在设计更多受控的实验室实验以调查雇主在招聘实践中为什么存在歧视时,这些结果仍然是有用的。

伦理问题

在CT实验中,雇主接触的是一些虚构的求职者,他们不想被雇佣。雇主也没有被要求参与实验。因此,关于CT研究伦理的讨论围绕着欺骗和缺乏知情同意的问题(在某种程度上也包括受试者的成本-时间和法律负担)。可以说,“劳动力市场实地实验没有造成任何伤害,因为在发表中没有识别个人,而且面试或就业机会被迅速拒绝,对雇主和真正的申请人的不便最小化了。”此外,“在雇佣劳动力的行为中,不可能有合法的隐私期望,因为国家政府和国际机构已经接受了确保所有公民机会平等的责任,宣布就业歧视是非法的。”[15]第459页。

有一种相反的观点认为非欺骗性行为构成了公共利益。如果研究人员广泛使用欺骗,这可能会改变受试者的行为,使实验更难解释。例如,雇主可能会避免在报纸招聘广告上公布职位空缺,而是在招聘时依靠非正式的网络[2].在大多数国家,一个与大学有关的伦理委员会决定一个特定项目是否符合伦理,也就是说,任何特定研究的收益是否超过所涉及的成本。

摘要和政策建议

虽然CT方法不能解决劳动力市场歧视的所有相关方面,但它可以为招聘中发生的歧视提供强有力的直接措施。这种测试方法的一个重要优势是它与类似实验室的条件密切相关,能够对分析进行高度控制,并将招聘人员的行为置于重点。即便如此,仍有一些问题可能会降低结果的价值。

虽然强烈推荐CT方法来检测招聘中的歧视,但任何特定的研究都应首先被相关的道德审查委员会接受。其结果可以影响公众舆论,并最终改变雇主的行为。调查结果还可作为制定政策倡议和制定反对歧视的立法的基础。

致谢

作者感谢两位匿名的推荐人和IZA劳动世界的编辑为早期的草稿提供了许多有用的建议。作者还感谢Magnus Carlsson在本文早期阶段所做的详细工作。感谢马克斯·普朗克宗教和种族多样性研究所和梅西大学的支持。文章第二版对这方面的研究进行了更新,并对参考书目进行了全面修订。

相互竞争的利益

IZA劳动世界项目致力于IZA行为准则.作者声明他遵守了守则中列出的原则。

©Dan-Olof Rooth

证据地图

对应测试研究

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家