IT|影响多达21.6万项研究:流行的遗传学方法被发现存在严重缺陷

根据瑞典隆德大学的最新研究 , 人口遗传学中最常用的分析方法存在很大的缺陷 。这可能造成了不正确的结果和对种族和遗传关系的误解 。该方法已被用于数十万项研究 , 影响了医学遗传学甚至是商业血统测试的结果 。这些发现最近发表在《科学报告》杂志上 。
收集科学数据的速度正在迅速增加 , 从而产生了巨大且非常复杂的数据库 , 这被称为 “大数据革命” 。研究人员采用统计技术来压缩和简化数据 , 同时保留大部分重要信息 , 以使数据更易于管理 。主成分分析(Principal Component Analysis , PCA)可能是使用最广泛的方法 。将PCA想象成一个烤箱 , 面粉、糖和鸡蛋作为输入数据 。烤箱可能总是执行同样的事情 , 但最终的结果 , 即蛋糕 , 在很大程度上取决于成分的比例和它们的混合方式 。
IT|影响多达21.6万项研究:流行的遗传学方法被发现存在严重缺陷
文章图片

IT|影响多达21.6万项研究:流行的遗传学方法被发现存在严重缺陷
文章图片

“人们期望这种方法会给出正确的结果 , 因为它是如此频繁地被使用 。但它既不能保证可靠性 , 也不能产生统计学上的稳健结论 , ”隆德大学分子细胞生物学副教授Eran Elhaik博士说 。
根据Elhaik的说法 , 该方法促成了关于种族和民族的古老信念的发展 。它在制造关于人们来自谁和哪里的历史故事中发挥了作用 , 不仅科学界如此 , 商业性的祖先公司也是如此 。一个众所周知的例子是 , 在2020年总统竞选前 , 一位著名的美国政治家利用血统测试来支持他们的祖先主张 。另一个例子是在PCA结果的驱动下 , 将阿什肯纳兹犹太人误认为是一个孤立的群体或种族 。
“这项研究表明 , 这些结果是不可靠的 , ”Eran Elhaik 说 。
PCA被用于许多科学领域 , 但Elhaik的研究侧重于它在人口遗传学中的使用 , 在人口遗传学中 , 数据集规模的爆炸性增长尤为突出 , 这是由DNA测序的成本降低所推动的 。
IT|影响多达21.6万项研究:流行的遗传学方法被发现存在严重缺陷
文章图片

在古基因组学领域 , 我们想了解古代民族和个人 , 如铜器时代的欧洲人 , 严重依赖PCA 。PCA被用来创建一个遗传图谱 , 将未知样本与已知参考样本放在一起 。到目前为止 , 未知样本被认为与它们在地图上重合或最接近的参考人群有关 。
然而 ,  Elhaik发现 , 仅仅通过改变参考样本的数量和类型 , 就可以使未知样本接近任何参考群体 , 产生几乎无穷无尽的历史版本 , 所有数学上的"正确" , 但只有一个可能是生物学上的正确 。
在这项研究中 , Elhaik研究了PCA的12种最常见的群体遗传学应用 。他使用了模拟和真实的遗传数据来显示PCA的结果是多么的灵活 。根据Elhaik的说法 , 这种灵活性意味着基于PCA的结论是不可信的 , 因为参考或测试样本的任何变化都会产生不同的结果 。
仅在遗传学方面就有32000到21.6万篇科学文章采用了PCA来探索和可视化个体和种群之间的相似性和差异 , 并根据这些结果得出结论 。
“我认为必须对这些结果进行重新评估 , ”Elhaik 说 。