[ad_1]
我2000年6月,时任美国总统比尔·克林顿微笑地站在人类基因组计划负责人身边。 “就基因而言,所有人类,无论种族,99.9% 以上都是相同的,”他宣称。 这是在白宫公布人类基因组序列初稿时传递的信息。
As、Ts、Cs 和 Gs 的单串最终成为第一个人类参考基因组。 自 2003 年出版以来,该参考文献彻底改变了基因组测序,并帮助科学家发现了数以千计的致病突变。 然而,其核心是一个有点讽刺的问题:代表人类的代码主要基于纽约布法罗的一个人。
尽管人类非常相似,但“一个人并不能代表世界,”加州大学旧金山分校和台湾中央研究院的基因组分析专家 Pui-Yan Kwok 说。 结果,大多数基因组测序从根本上是有偏见的。
这种偏差限制了可以检测到的遗传变异类型,导致一些患者得不到诊断,也可能得不到适当的治疗。 更重要的是,与布法罗人血统较少的人可能不会从即将到来的精准医疗时代中获益,精准医疗有望为个人量身定制医疗保健。
为了解决这个问题,研究人员已经开始为特定国家组装参考基因组,包括韩国、日本、瑞典、丹麦和阿拉伯联合酋长国。 他们希望这能更好地为他们的人民服务,但批评者担心这可能会将移民变成他们医疗保健系统中的二等公民。 现在,一个巨大的新项目正在提供一种不同的解决方案,旨在代表全球多样性:人类泛基因组。
P切除医学,也称为个性化医学,多年来一直是医学界的流行语,不可否认,它听起来不错。 “在正确的时间为正确的患者提供正确的药物是标语,”美国国家人类基因组研究所的内科科学家尼尔·汉查德说。
但是标准的基因组测序遗漏了很多可能与疾病有关的变异。 在大多数情况下,它的工作原理是将 DNA 切割成称为“短读”的小片段,然后对它们进行测序,并使用参考作为指导将它们组织成基因组。
单核苷酸变异 (SNV)——例如,基因代码中从 C 到 T 的变化——通常很容易通过这种方式发现,但称为结构变异 (SV) 的较大变异块则比较棘手。 新的部分,有时有数百或数千个碱基对长,可能未被发现,丢失、反转或移动到其他地方的部分也是如此。 在这些情况下,短读不能轻易映射到参考,Kwok 说,“一大堆”被扔掉了。
这意味着标准基因组测序偏向于参考中已有的 SV。 如果您的 SV 不同,您最终得到的序列不能完全反映您的个人差异。 因为我们希望正是这些人与人之间的微小差异能够告诉我们,例如,为什么一个人可能对某种药物反应良好而另一个人却没有,这是个坏消息。
Kwok 的工作暗示了未被发现的 SV 数量。 2019 年,他的团队分析了来自世界各地 154 人的样本,发现参考文献中缺少价值 6000 万碱基对的 SV 基因组内容,还有更多。 对仅寻找额外插入 DNA 的 338 人进行的跟踪调查发现了近 130,000 个新序列。
但 SV 在不同人群中似乎也表现出不同的频率模式。 推而广之,Kwok 说,如果一个人“来自与基因组参考来源截然不同的人群,那么当他们的短读取被映射到参考时,将会出现更多的错位”。 因此,他说:“我们可能会错过参考文献中未提及的那些地区的风险变体。”
这种缺乏代表性是基因组学中的普遍问题。 即使是研究得更多的 SNV 也显示出巨大的数据差距。 例如,最近,Hanchard 和他的同事对来自非洲 50 个民族语言群体的 426 人进行了抽样,发现了超过 300 万个新的 SNV,其中大部分来自以前从未抽样过的人群。 “我们甚至还没有触及 [SVs],”Hanchard 说,“但我们的初步数据表明,情况会大同小异。”
这种数据差异直接影响医疗结果。 例如,如果携带罕见变异的人患有罕见病,那么变异很可能是罪魁祸首。 但我们通常不知道变体是否真的很罕见,或者只是在未被研究的人群中很常见。 在这些情况下,医生无法做出诊断。 “对于非欧洲血统的人来说,这种情况发生得更多,”汉查德说。
随着我们进入精准医学时代,这只会变得更加重要。 位于雷克雅未克的生物技术公司 DeCode Genetics 的 Kári Stefánsson 专门研究遗传变异与疾病之间的联系,他说让他夜不能寐的是我们现在对欧洲后裔人群多样性的理解如此之好,以至于我们可以开始将其用于精准医疗。 但对于其他人群,“我们没有相同类型的数据,”他说。 “[This] 将扩大医疗保健差距,超出目前的水平。”
W虽然没有基因基础可以有意义地将人们分为不同的种族,但一些人认为创建参考以捕捉特定人群(例如种族群体和民族国家)内的差异是有意义的。 现在有自己参考的一个国家是丹麦。
“我们看到的是有很多变化 [has only been detected in] 丹麦人口,”哥本哈根大学的计算生物学家 Simon Rasmussen 说,他领导了这项工作。 这是对本地参考的有力论据,而且吸引力显而易见:基于丹麦人的参考具有独特的优势,可以增强丹麦的医疗保健系统。
但一些人批评国家基因组过于关注种群之间的差异,而不是个体之间的差异。 澳大利亚维多利亚州迪肯大学的医学人类学家 Emma Kowal 担心国家基因组可能“让种族观念继续存在”。 加州大学圣克鲁兹分校的生命科学社会学家 Jenny Reardon 说,根据国籍来界定基因组确实不可避免地会导致排斥。 “实际上,我们正在决定谁是丹麦人,谁不是。”
Rasmussen 承认,对于占丹麦人口 15% 的移民或其后代,该参考资料用处不大。 混合血统的样本甚至在选择参考时被移除。 但由于同意问题,参考文献从未进入诊所,因此 Rasmussen 和他的团队想要创建另一个。 为此,他说:“我们想采取不同的 [selection] 方法。” 具体如何还有待确定。
不过,国家基因组还有一个替代方案。 Human Pangenome Reference Consortium 不想放大不同的人群,而是想要缩小; 叠加许多基因组以创建一个内置变异的参考——泛基因组。 该联盟最近在预印本中发布了此类参考文献的初稿。

该草案由 47 个非常详细的基因组组成,代表了它计划测序的 350 个基因组中的第一组,其中包括世界上最常见的变异。 “这不是以前执行过的标准,”加州大学圣克鲁兹分校的 Karen Miga 说,她是该联盟的一员。
但该项目不仅仅是对更多样化的数据进行排序。 “我们需要想出一个更好的数据结构来编码这些信息,”密苏里州圣路易斯华盛顿大学医学院的 Miga 同事 Ting Wang 说。
该数据结构称为基因组图。 与只是一长串字母的当前参考文献相比,基因组图将基因组之间的差异显示为共享路径上的弯路。 这将使研究人员和医生能够将短读取映射到最适合他们样本的路径版本。
自然的问题是:一个人如何选择谁来代表这个世界? 第一批基因组因其技术质量高而合格,但未来该联盟将需要选择新样本。 由于非洲是人类的摇篮,Miga 说:“我们纳入的绝大多数基因组都来自非洲。”
然而,从 Reardon 的角度来看,350 人可能比一个人更能代表世界,但是“[the consortium] 对群体做出了一些选择,”她说。 “他们采样了谁? 他们没有对谁进行采样?” 只要参考仅包含一个子集,就可以说有人不会削减。
米加并不否认这一点。 “[We are] 真的试图在全球范围内捕捉常见的变化,所以你会经常看到的东西,”她说。 在这种情况下记录常见的变化会遗漏不常见的变化。 “如果你正在寻找极其罕见的东西,”她说,“目前我们不负责。”
我在一个理想的世界中,个人可以在不使用参考的情况下对他们的基因组进行测序。 长期以来,这一直被认为是最终的、没有问题的解决方案,但几乎没有人相信这是可行的。 “这不是一项微不足道的任务,而且我认为它在 10 年内不会变得微不足道,”Hanchard 说。
而不是使用广泛的全球泛基因组,各国可能会受到更适合其人口的参考的影响,并由他们自己维护和控制。 “我们真的不希望丹麦人以外的任何人制作丹麦参考基因组,”Rasmussen 说,他希望下一次迭代将由丹麦国家控制的国家基因组中心运行,可能作为欧盟欧洲基因组项目的一部分.
Hanchard 还看到了本地或区域参考的好处。 “[The pangenome] 不会代表所有的变化,”他说。 他是 H3Africa 联盟的成员,该联盟旨在将基因组学的优势带给非洲,并且正在考虑针对非洲的基因组图谱。 与此同时,他预计所有这些参考资料最终可能会合并。
当被问及他对基因组学未来的希望时,他谈到了解和理解与他自己或任何其他有牙买加血统的人有关的变异。 他说:“我很想达到这样一种程度,即每个人都觉得自己得到了代表,这对他们来说是一样的,就像对任何特定群体一样。” “我们来自同一个人类,这是重要的部分。”
[ad_2]
Source link