IZA劳动世界-分子遗传数据在公共政策中的作用是什么?

单页全文

电梯游说

包含单个分子遗传信息的数据集的可用性和绝对数量都在快速增长。许多人认为，这些数据可以促进识别重要社会经济结果(如受教育程度和生育率)背后的基因。反对者经常反驳说，好处还不清楚，而且对个人隐私的威胁是严重的。本文提出的初步探索表明，通过有效和安全地利用遗传数据，可以获得对社会经济结果的理解以及社会和教育政策设计的重大好处。

重要发现

优点

遗传数据为理解社会经济结果中的个体差异提供了一种有用的方法。

通过了解具体结果的遗传基础，政策和治疗可以更有效地有针对性。

最近的研究表明，由于不同的环境背景，与肥胖等结果的遗传关联可能在不同的出生队列中有所不同。

兄妹之间的基因遗传差异为估计因果关系提供了新的信息来源。

缺点

迄今为止，大多数证据只反映了个体遗传因素与社会经济结果之间的简单关联，而不是因果关系。

大多数遗传因素的效应量在量级上是非常小的。

基因数据的使用引起了对侵犯个人隐私和人权的担忧。

遗传数据的可用性可能影响决策，并可能导致基于基因型的歧视。

作者主要信息

分子遗传数据提供了设计新的、有效的方法来改善社会结果的潜力。例如，现有的研究大大提高了对心理健康如何影响教育和劳动力市场结果的认识。然而，人们仍然担心，有关遗传倾向的数据可能会在工作场所或保险范围内被滥用。考虑到新数据的复杂性，至关重要的是，研究人员要让公众了解它提供的真正希望，这样社会才能接受遗传学在政策设计中发挥的作用。

动机

2001年，来自世界各地的科学家合作完成了人类基因组的测序。自那次壮举以来，医学研究越来越关注细胞和分子水平上的疾病机制，这有助于对“个性化医疗”的发展产生重大兴趣。研究甚至已经开始揭示分子遗传学如何影响许多通常被研究的个人社会经济结果，如受教育程度和生育率。然而，随着基因研究的不断进步，社会现在面临着一些关键问题:在社会和经济政策的设计中是否应该考虑分子遗传信息?基因是否应该在社会对社会经济问题的思考中发挥核心作用?

几十年来，经济学家普遍忽略了遗传因素的作用。例如，许多研究人员研究了特征的代际传递和社会经济结果(如不平等)，但在确定代际相关性的来源方面犹豫不决。那些试图确定遗传因素作用的研究人员使用了亲生兄弟姐妹的样本，试图了解各种特征和结果的遗传性，从受教育程度到吸烟，再到对风险的态度。遗传率通常被定义为种群中由遗传因素引起的变异的比例。许多社会科学家可能不愿进行这些实验，部分原因是担心实验结果可能会被曲解为他们在提倡社会优生学。

有了分子遗传数据，研究人员就可以检查出遗传密码DNA染色体对特定位置的差异与社会经济结果的这些具体差异有关。个体DNA序列的差异可能直接或间接(通过环境渠道)影响许多社会经济结果。虽然经济学家早期的研究通常是探索特定遗传标记(称为候选基因)的变异，但最近的研究要么同时考虑更多的遗传因素，要么对个体遗传变异进行总结衡量。

社会科学家和政策制定者都对使用分子遗传数据的想法表示严重担忧，这也许并不奇怪。社会科学家拒绝研究基因因素与个体行为之间的关系的主要原因可能是基因完全是预先确定的。因此，基因对社会经济结果的任何影响都是先天的，这使得政策干预没有作用。这种简单化的推理是不正确的[1]，这个问题将在下面加以阐述。

讨论利弊

个体特异性，但不再被观察到，异质性

在无数的研究中，劳动经济学家试图将单一解释变量(如教育)对利息结果(如收入)的影响分离出来。为了让读者相信他们的主要发现，研究人员经常评估他们的估计是否对其他可观察特征(如经验、年龄、身高和健康)敏感。直到最近，分子水平的遗传数据还无法获得。这可能代表了先前研究的严重局限性，因为遗传研究表明，遗传因素可以解释高达65-80%的身高差异和20-40%的受教育程度差异。

没有遗传特征的数据，研究人员只能使用纵向数据来创建代理，以捕获所有未观察到的(时不变的)个体特定异质性。这种方法，通常被称为固定效应分析，将允许控制不可测量的个人特定因素，比如一个人的遗传密码以及无法衡量的技能，如天生的能力、毅力、勤奋或动机。这种方法假设，随着年龄的增长，未观察到的因素对个体有持续的影响，这是一个强有力的(但并不总是现实的)假设。如插图研究表明，随着个体年龄的增长，FTO基因的一种变体可能对身体质量指数(BMI)产生不同的影响，这意味着这种影响实际上会随着时间的推移而改变。

遗传数据可能是未观察到的个体特异性异质性的真正含义。一个人的遗传标记和DNA结构在受孕时是固定的，在整个生命周期中不会改变，这与一个人的技能不同，越来越多的证据表明，技能可以通过教育和培训投资来发展。换句话说，基因的表达方式可能会改变，但DNA本身的结构不会改变。

遗传标记的数据可能允许研究人员进入个体特定的未观察到的异质性的黑箱。如果遗传标记与回归模型既能解释也能解释的性状相关联，那么未能控制遗传差异可能会产生有偏见的估计并扭曲研究结果。然而，其中一个挑战是如何以有效和有意义的方式整合个体之间的遗传多样性。毕竟，一个人的DNA中有数百万个位置出现了遗传差异。早期的文献探讨了经济结果与染色体对上的特定位置(称为候选基因)之间的联系。然而，由于这些关联强度的发现在样本中并不可靠，可能是由于数据窃听，研究界已经提出调查结果与一个足够的统计数据之间的联系，称为多基因风险评分，它通常被计算为多个遗传位置变异的累积加权和。

然而，为了确定这些权重和用于计算多基因风险评分的遗传位置，需要来自全基因组关联研究(GWAS)的证据。GWAS可以被认为是对特定结果与数百万遗传变异子集之间关联的无假设扫描。最近的一项研究观察了过去五年中来自不同GWASs的多基因分数的预测能力，总结了分数解释受教育程度变化的能力如何从3%增加到7%(在这项研究中，受教育程度被视为完成学业的年数)。[2]。本研究指出，由于大多数统计上显著的效应非常小，因此需要非常大的数据集来进行GWASs。此外，更大的样本量也允许识别罕见的遗传效应，这些效应可能无法通过目前在GWASs中使用的潜在基因分型阵列来测量。

总之，虽然这些基因解释的变异数量明显小于利用家族变异的遗传研究的估计，但最近的研究表明，已确定的重要标记也与神经认知障碍和脑功能有关[3]。因此，这种类型的研究不仅可以识别个体基因，还可以通过指出特定基因与不同结果(即大脑功能和教育程度)之间相关性的共性来提示生物学途径。

遗传因素可以识别新的挑战和诊断

当经济学家在实证微观经济学文献中使用基因数据时，他们通常必须克服实证方面的挑战，例如在估计健康状况不佳对受教育年限或工资等结果的影响时。这是一项挑战，因为衡量健康状况不佳往往存在误差，同时也与未观察到的结果变量决定因素系统地相关。在这些情况下，可以使用工具变量回归。这里使用一个额外的变量(“工具”)来代替有问题的自变量，该变量与影响结果和测量误差的未观察因素无关。2009年的一项研究首次将遗传标记应用于工具变量应用中，以确定青少年身心健康状况如何影响学习成绩的因果估计[4]。因此，健康变量与其他解释因素(如养育投入)分离开来，在这种情况下，养育投入可能包括家庭居住的社区和青少年交往的同龄人。在使用这种方法时，研究人员假设基因工具不仅与不良的健康指标相关，而且它们只通过这些健康变量影响学术成果。这项研究的主要发现是，抑郁和肥胖都会导致学业成绩下降大约一个标准差。但这种恶化情况因学生性别而异:研究发现，年轻女性更容易受到消极身心健康状况的不利影响。最后，注意力不集中和多动对学业成绩的影响在大小和标志上都有很大差异。

虽然这项调查和随后的工作引发了关于哪些遗传标记是有效工具的重大争论，但这些工作也突出表明，由于共病性健康状况，即同一个人(无论是同时发生还是依次发生)出现两种或两种以上疾病的情况，测量个人的健康状况具有挑战性。在实证应用中，2009年的研究表明，忽略共病诊断将导致对特定健康诊断对社会经济结果的因果影响的估计有偏倚[4]。

目前对健康的许多定义都严格基于症状。多种疾病可能有相同的症状，但有时医生如何决定对疾病进行分类会导致诊断混乱。例如，从1994年开始，所有形式的注意力缺陷障碍都被称为“注意力缺陷/多动障碍”，即使这个人不是多动的。有了分子遗传学数据，就有可能确定特定疾病的遗传病因。也就是说，在观察上难以区分的条件可能由少数不同的条件组成，这些条件根据其基因组成而不同，从而允许对疾病进行新的分类[5]。这样做并随后使用基因数据不仅会导致更准确的诊断，而且还会从更有效的治疗中受益[6]。此外，随着对一个人基因组成的了解的增加，相关的风险评分将为个人提供一个机会，以更快的速度对疾病做出反应，并且比在任何症状出现之前由专家做出诊断的成本更低。总之，遗传标记的使用澄清了研究人员在任何实证研究中精确测量健康所面临的挑战，并可能有助于医疗专业人员诊断和治疗健康状况。

基因彩票和研究设计

遗传标记从一个人的亲生父母那里遗传，而他们自己的标记又从他们自己的亲生父母那里遗传。在将遗传信息作为控制变量或工具变量使用时，与遗传系有关的动态效应提出了明显的挑战，因为在未观察到的情况下，这种效应可能会混淆估计。考虑评估一个人的基因和受教育程度之间的联系。如果在影响教育结果的相关基因位点上，家族中存在正分类交配的历史——这意味着这些基因与几代人的教育成就呈正相关——研究人员可能会夸大个人成就与他们自己基因之间的关系。虽然可以添加控制变量来捕捉父母或祖父母的教育，但仍然有可能因为忽略了王朝的前几代人而产生偏差。

为了克服这一挑战并获得因果估计，两位研究人员引入了一种新的经验策略——创造了基因彩票——利用完全生物兄弟姐妹的基因遗传来消除动态影响[7],［８］。虽然经济学家熟悉自然实验，但作者指出，在家庭内部，特定遗传标记的遗传差异为“自然”中的其他实验提供了机会。［８］。这两项研究在学术上的重要贡献是，遗传彩票方法可以用来检验家庭固定效应估计器本身是否解决了内生性问题。

上述第一项研究的主要发现是，通过筛选问卷评估的儿童早期注意力不集中症状对减少完成学业有巨大而持久的影响[7]。该研究还发现，几乎没有一致的证据表明，青少年的超重状况会影响完成学业的年限。作者认为，由于健康和生产力通常被认为在工作场所具有复杂的相互依存关系，因此干预措施的时机存在政策影响。也就是说，针对青少年的健康措施可能会影响未来的教育和职业选择，因此，针对儿童和青少年健康措施的学校项目可能对个人的成人劳动力市场结果有很大的好处。

因此，遗传数据的可用性提供了一种方法来测试这种共同研究设计中的关键识别假设，这种设计几乎已应用于经验经济学和行为遗传学的每个分支。遗传彩票为社会科学家提供了一种新的研究设计，在许多GWASs中，研究人员现在检查结果是否足以控制家庭固定效应。

遗传因素在社会不平等中的重要性

使用遗传标记作为工具变量的研究并不表明遗传决定命运。为了说明这一点，考虑一下过去50年来全球肥胖的迅速蔓延。生物科学领域的研究人员对肥胖的遗传变异进行了研究，并为肥胖易感性和发展过程中涉及的遗传和表观遗传机制提供了丰富的证据基础。然而，基因变化在一个种群的许多代中基本保持稳定，因此这不大可能解释过去50年来肥胖率的急剧上升。

因此，许多经济学家和社会科学家开展了一个类似的研究项目，探讨环境的变化使人们更容易暴饮暴食，更难以进行足够的体育锻炼，这是否可以解释肥胖人数的上升。这项研究影响了有关对含糖饮料征税、根据卡路里给快餐贴标签、在学校设置汽水机等建议的政策讨论。这些政策辩论背后的证据往往来自忽视遗传标记混杂因素的研究，这可能是一个重要的考虑因素，特别是如果相同的政策或治疗对具有不同基因构成的个体产生异质影响。如果发现某一政策对某一群体(此处根据遗传特征定义)的影响大大超过对其他群体的影响，这些差异反应在成本效益练习中可能具有重要意义。毕竟，仅仅因为遗传特征在历史上没有被观察到，这并不是一个借口，因为现在基因信息变得越来越容易获得，就可以进行潜在的歧视性待遇。

肥胖是一种遗传和环境因素共同导致的复杂疾病，这就要求研究人员使用数据和估算模型，使环境和遗传影响以复杂的方式相互作用。此外，要获得关于遗传和环境因素如何导致肥胖的可靠证据，需要环境条件的外源性变异。2015年的一项研究考虑了另一种策略，该策略使用弗雷明汉心脏研究(美国国家心肺血液研究所和波士顿大学的一个项目)的后代样本中不同出生队列的数据，以及可以识别特定遗传因素与肥胖之间关系的未知断点的计量经济学模型(由BMI测量)。［9］。这种基因变异是一种被充分研究的肥胖促进基因，通常被称为FTO基因。该研究试图区分个体内部BMI随时间的差异(年龄效应)，人群范围内BMI随时间的差异(时期效应)，以及不同年龄个体经历时期效应的差异(队列效应)。在出生队列和FTO风险等位基因与BMI之间发现了强有力的关系，在1942年以后出生的人身上观察到一个拐点［9］。图1呈现了弗雷明汉心脏研究中三个独特基因型的个体的BMI平滑均值，并按出生队列(1942年之前和1942年期间/之后)分开。在较晚出生的队列中，具有两种基因型(AA和AT)的个体随着时间的推移始终具有较高的bmi，而具有更常见的TT基因型的个体则没有。结果表明，一个人成长的环境对BMI有很大的影响，而且随着年龄的增长，BMI也会平均增加。

上述研究还对关注基因发现的科学文献具有重要意义，因为它提出了遗传关联可能因主要环境背景的变化而在出生队列中有所不同的可能性［9］。许多GWASs汇集了不同的数据源，以便增加样本量，以帮助识别小的影响并提高其统计能力。然而，如果没有考虑到受试者出生日期和收集数据的时间和地点的差异信息，这样做可能会引入偏见。这些教训适用于任何使用基因数据来解释导致社会不平等的复杂结果的研究，并证明需要仔细(计量经济学)建模。

遗传学与公共政策

遗传性几乎在每一个社会经济和健康结果中都起着作用。这一特征长期以来一直被社会科学家和政策制定者所忽视。然而，遗传并不是命运，需要做很多工作才能将遗传学和基因组学的革命性进展转化为政策受众和更广泛的学术界。一个仁慈的社会规划者可以根据个人的遗传密码为他们制定个性化的政策，从而获得更大的成功，这种想法对许多人来说具有明显的吸引力，个性化医疗的概念也是如此。然而，如前所述，与隐私和基于遗传特征的歧视性待遇有关的问题为设计有效政策带来了一系列新的挑战。

分子遗传数据能够有效地整合到政策设计中的速度直接关系到对遗传标记如何运作的理解的改进。例如，如果基因筛查能够可靠地预测复杂的学习障碍，可能会获得巨大的优势。也就是说，即使一种疾病是许多基因的功能，每个基因的影响都很小，研究人员也可以从一系列经过充分验证的显著影响的标记中计算出一个单一的综合得分。综合得分提供了一个衡量个人患某种特定疾病或特征的风险的指标，在许多情况下，心理学家可能需要数年时间才能诊断出来。父母和雇主知道自己的孩子或雇员是否有较高的患病风险，就能在收到正式诊断的数年前做出不同的投资。这些投资可能会影响潜在基因的表达方式，从而降低未来不良结果的风险。此外，随着知识的进步，这些总结分数的预测准确性将会提高。这可以改进政策评价，因为研究人员可以排除遗传因素对个别结果的贡献，从而为环境投入的有效性提供更清晰的证据。

一个值得强调的重要观点是，即使一个问题的根源是遗传因素，公共政策仍然可以发挥作用[1]。以视力差为例。即使视力不佳完全是基因遗传的结果，政策制定者也可以为受影响的人提供眼镜。换句话说，当讨论遗传学和公共政策时，注意力不应该集中在一个特定的结果或特征是否主要是基因的功能的问题上。相反，政策制定者必须问，现有证据是否表明，一项政策将通过成本效益测试。任何成本效益测试都可以进一步考虑发布广泛授权与针对具有特定特征的政策的后果。总之，在政策制定环境中成功地整合分子遗传学并不需要政策制定方式的全面转变。

在使用和解释遗传数据时需要谨慎和小心

来自GWASs的证据非常有影响力，近年来获得了大量的新闻报道。与专门测试少数预先指定的遗传区域的方法相比，GWASs的优势在于它们可以研究完整的遗传密码。因此，gwas代表了一种非候选人驱动的方法。通常，大众媒体将GWASs的结果报道为因果关系，但它们只是特定位置的遗传变异之间的简单联系;正在研究的结果以及给定的遗传变异影响给定结果的机制通常仍然未知。任何重要位置的效应大小通常都相当低，而且很难找到一个基因变异能占劳动经济学家感兴趣的特征变异的0.001%以上。例如，来自最近的GWAS的证据表明，基因标记的任何单一差异对个体经营的影响可能只占个体经营方差的很小比例(<0.002%)［10］。

大多数复杂的疾病是许多遗传变异的结果，每一个都有很小的影响。然而，如果一个人决定改变他们的行为来回应这些新信息，就需要谨慎。2017年4月，美国食品和药物管理局允许基因检测公司23andMe出售带有限定词的报告，向客户展示他们患某些疾病和病症的遗传风险是否增加。条件的数量是有限的，这推翻了2013年迫使23andMe停止提供与健康相关特征结果的决定。

斯坦福癌症研究所(Stanford Cancer Institute)针对已知BRCA1或BRCA2基因突变个体的工具就是一个在报告遗传信息时非常小心的例子，这些基因突变使女性患癌症的风险更高(可在http://brcatool.stanford.edu/上找到)。这个计算器提供了在不同年龄采取不同预防措施后，生存机会如何变化的信息。然而，这种类型的计算器只能用于少数遗传变异，这表明，对一种易感性(这是相关的)做出反应(尤其是过度反应)可能会产生意想不到的后果，同时也指出，病人要求的医疗护理可能被证明是无效的。鉴于对遗传标记如何运作的理解有限，在没有适当的背景和限定符的情况下提供这些信息可能会使结果恶化。

如何利用分子遗传数据的道德和伦理问题引起了激烈的争论。这些数据可能构成侵犯隐私和侵犯人权的行为。许多地方都在担心，分子遗传数据的存在可能需要政府方面的仔细监管。主要关切的是关于遗传倾向的基因数据可能影响工作场所或保险范围的决定。例如，目前有60多个国家建立了罪犯的DNA数据库，社会利益是否凌驾于个人隐私权之上还存在争议。此外，由于这些数据可以与逮捕记录相关联，因此雇主在决定雇用、晋升或解雇工人时也可能会使用这些数据。同样，这些数据可能会导致健康保险公司的差别待遇或基因歧视，他们可能会拒绝为具有遗传差异的个人提供保险，因为遗传差异会增加他们患某种特定健康疾病的几率。由于在收集数据时并不明显的原因，迅速提供分子遗传数据供他人使用，除了通常的数据安全问题外，还可能构成对个人隐私的侵犯。总之，遗传数据集提供了以前未观察到或忽略的因素的信息，但由于对这些信息了解甚少，因此必须非常小心，以确保适当地使用这些信息。

限制和差距

关于遗传因素如何影响社会经济结果的知识仍处于起步阶段，但正在迅速发展。过去十年的许多进步都是由于更大数据集的可用性和计算能力的提高。一项配套研究对该领域迄今为止的一部分研究提供了更为关键和技术性的评估[11]。简而言之，这项研究推测，用于测量遗传效应和基因-环境相互作用的统计和计量工具的进步将决定未来取得进展的速度。

展望未来，仔细的研究设计可能会解决许多现有的限制。在估计结果与解释变量(包括遗传因素)之间的关系时，建立在改变了现代劳动经济学研究的同一套思想之上，似乎会带来实质性的好处。例如，利用生活在同一家庭的完全亲生兄弟姐妹之间遗传因素差异的研究可能会就特定遗传标记的作用提供更可信的证据。同样，确保环境因素是可信的外生因素的研究可能会被证明更有说服力。在使用遗传信息的所有类型的研究中，需要注意收集数据的方式，以减少与人类亚群遗传频率差异或出生时代环境条件差异有关的虚假关联。例如，在前者上，当分析来自多个种族的个体样本的数据时，一些遗传标记可能与结果相关，因为种族既存在不同的结果，也存在不同的遗传患病率。因此，利用遗传数据进行研究设计的潜在跨学科合作是有好处的。

摘要及政策建议

对于基因数据潜在的社会影响，人们既有热情又有恐惧，这并不是任何政府或个人所独有的。这种热情恰到好处。对于许多健康问题，通过纳入这些数据可以获得巨大的收益。例如，已经开发了一些工具，以便更好地教育个人了解不同的医疗方法可以提供的权衡，这些权衡是基于遗传了使个人易患某种特定疾病的基因突变。同样，对于许多社会和教育结果，所研究的行为表现出很大程度的遗传性。研究可以根据一个人的基因构成，为其某些不良后果的风险提供指导。

举个例子，假设某些技能有很大的遗传成分。在一个“技能偏向技术变革”的时代，拥有这些基因相关技能的个人可能不成比例地补充新技术，从而提高劳动生产率。如果研究发现基因变异对男性和女性的作用不同，那么这可能为工资和职业选择的性别差异提供新的解释。

要对一个人的基因构成的知识作出反应，需要对这些估计中固有的不确定性以及这些基因如何对不同的政策和干预作出反应有充分的了解。事实上，有证据表明，个体对基于基因组成的相同环境影响的反应是异质的。因此，主要的政策挑战之一将是了解如何利用遗传数据来弥补社会经济结果方面的差距。也就是说，遗传信息的优势在于它在受孕时是固定的。这使得研究人员可以得出关于环境和政策作用的结论，因为人们可以看到禀赋相似的个体如何对不同的政策做出反应。

然而，这种担忧也是有道理的。与许多其他“大数据”或人工智能的新来源一样，它们也有被滥用的可能。滥用的可能来源不仅包括对优生学式倡议的潜在推广，还包括保险公司或雇主的歧视。然而，考虑到将这些数据与适当的保护措施结合起来的巨大潜在好处，我们希望政策制定者能够变得更加自信，提出的问题将从“我们是否应该使用分子遗传因素的数据?”到“我们怎样才能使利益最大化，同时使危害最小化?”

致谢

作者感谢匿名审稿人和IZA劳动世界编辑对早期草稿的许多有益建议。作者以前的工作包含大量的背景参考资料在这里提出的材料，并已在本文的所有主要部分密集使用[3],[4],[7],［８］,［9］,[11]。感谢David Cesarini, Jason Fletcher和J. Niels Rosenquist以及其他许多人的支持，以及SSHRC的财政支持。

相互竞争的利益

IZA劳动世界项目致力于IZA研究诚信指导原则。作者宣称已遵守这些原则。

证据地图

分子遗传数据在公共政策中的作用是什么?

分子遗传数据在公共政策中的作用是什么?

将遗传数据纳入有效公共政策的设计中有潜在的价值，但也有一些风险

电梯游说

重要发现

优点

缺点

作者主要信息

动机

讨论利弊

个体特异性，但不再被观察到，异质性

遗传因素可以识别新的挑战和诊断

基因彩票和研究设计

遗传因素在社会不平等中的重要性

遗传学与公共政策

在使用和解释遗传数据时需要谨慎和小心

限制和差距

摘要及政策建议

致谢

相互竞争的利益

证据地图

简单介绍一下人类遗传密码

早期医疗保健和人力资本积累

心理健康经济学

经济学中的大数据

实证经济研究中的透明度

分子遗传数据在公共政策中的作用是什么?

将遗传数据纳入有效公共政策的设计中有潜在的价值，但也有一些风险

电梯游说

重要发现

优点

缺点

作者主要信息

动机

讨论利弊

个体特异性，但不再被观察到，异质性

遗传因素可以识别新的挑战和诊断

基因彩票和研究设计

遗传因素在社会不平等中的重要性

遗传学与公共政策

在使用和解释遗传数据时需要谨慎和小心

限制和差距

摘要及政策建议

致谢

相互竞争的利益

证据地图

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家