科学家终于填补了最后8%的人类基因组

当人类基因组项目宣布他们在2003年完成了第一个人类基因组时,这是一个重大成就 – 首次,人类生命的DNA蓝图被解锁了。bu

当人类基因组项目宣布他们在2003年完成了第一个人类基因组时,这是一个重大成就 – 首次,人类生命的DNA蓝图被解锁了。但是它带有一个捕捉 – 他们实际上无法将基因组中的所有遗传信息整合在一起。有差距:未填充的,通常是重复的地区,这些区域太混乱了,无法拼凑在一起。

随着技术可以处理这些重复序列的进步,科学家最终填补了2021年5月的这些空白,并且第一个端到端的人类基因组于2022年3月31日正式出版。

我是一名基因组生物学家,研究重复的DNA序列以及它们如何在整个进化史中塑造基因组。我是团队的一员,帮助表征了基因组缺少的重复序列。现在,有了一个真正完整的人类基因组,这些未发现的重复区域终于首次全面探索。

当人类基因组项目研究人员宣布他们已经成功完成了人类基因组的测序时,只有92%的完成。仍然存在数百个间隙或缺失的DNA序列。为什么完成序列如此困难?让我们分解! #t2t pic.twitter.com/2rxdjundxm

– 国家人类基因组研究所(@genome_gov)2021年7月15日缺失拼图

德国植物学家汉斯·温克勒(Hans Winkler)在1920年创造了“基因组”一词,将“基因”一词与后缀“ -ome”相结合,意为“完整集”,以描述每个单元中包含的完整DNA序列。一个世纪后,研究人员仍然使用这个词来指组成有机体的遗传材料。

描述基因组的外观是将其与参考书进行比较。在这个类比中,基因组是一部包含DNA生命指示的选集。它由包装成染色体(章节)的大量核苷酸(字母)组成。每个染色体都包含基因(段落),这些基因是DNA的区域,这些区域为特定蛋白质编码,允许生物体发挥作用。虽然每个生物体都有一个基因组,但该基因组的大小因物种而异。大象使用与肠道中的草和细菌相同的遗传信息。但是没有两个基因组看起来完全一样。有些是短的,例如在112,000个核苷酸中只有137个基因的鼻虫细菌的基因组。有些人,例如开花植物巴黎Japonica的1490亿个核苷酸,很长,很难了解其中包含多少基因。

但是,传统上被理解的基因是蛋白质代码的DNA,只是生物体基因组的一小部分。实际上,它们不到人类DNA的2%。

人基因组含有大约30亿个核苷酸,不到20,000个蛋白质编码基因,估计占基因组总长度的1%。其余99%是不产生蛋白质的非编码DNA序列。有些是调节组件,可作为控制其他基因工作方式的总和板。其他的是伪基或失去其功能能力的基因组遗物。

超过一半的人类基因组是重复的,具有多个近相同序列的副本。

什么是重复的DNA?

重复的DNA的最简单形式是在称为卫星的串联中反复重复的DNA块。尽管给定基因组的卫星DNA有多少因人而异,但它们经常聚集在称为端粒的区域的染色体末端。这些区域可保护染色体在DNA复制过程中免受降解。它们还在染色体的centromeres中发现,该区域有助于在细胞分裂时保持遗传信息完整。研究人员仍然缺乏对卫星DNA的所有功能的清晰了解。但是,由于卫星DNA在每个人中形成独特的模式,因此法医生物学家和家谱学家使用这种基因组“指纹”来匹配犯罪现场样本并跟踪祖先。超过50种遗传疾病与包括亨廷顿氏病在内的卫星DNA的变化有关。

卫星DNA倾向于在其端粒中朝着染色体的末端聚集。在这里,有46种人类染色体是蓝色的蓝色,带有白色端粒。 (NIH图片库/Flickr,CC BY-NC)

另一种丰富的重复DNA是可转座元件,或者可以围绕基因组移动的序列。

一些科学家将它们描述为自私的DNA,因为无论后果如何,它们都可以在基因组中插入任何地方。随着人类基因组的发展,许多可转座序列收集的突变抑制其移动能力以避免有害中断。但是有些人可能仍然可以走动。例如,转座元素插入与许多血友病A(一种遗传出血障碍)有关。

但是,可转移的元素不仅是破坏性的。它们可以具有调节功能,有助于控制其他DNA序列的表达。当它们集中在中心粒中时,它们也可能有助于维持基因的完整性,这些基因基因生存的基因。它们也可以有助于进化。研究人员最近发现,将转座元件插入对开发重要的基因中的插入可能是为什么包括人类在内的一些灵长类动物不再具有尾巴的原因。由于转座元素而引起的染色体重排甚至与新物种的起源相关,例如东南亚的长臂猿和澳大利亚的小袋鼠。

完成基因组拼图

直到最近,许多这些复杂区域都可以与月球的最远地区进行比较:已知存在,但看不见。

当人类基因组项目于1990年首次启动时,技术局限性使得无法完全发现基因组中的重复区域。可用的测序技术一次只能读取约500个核苷酸,这些短片段必须相互重叠以重新创建完整序列。研究人员使用这些重叠的段来识别序列中的下一个核苷酸,一次逐步扩展了基因组组装一个片段。

这些重复的差距区域就像将1000件套的拼图放在一个阴天的天空中:当每个作品看起来都一样,您如何知道一个云的开始和另一个云的末端?随着许多斑点的几乎相同的重叠伸展,零碎的基因组完全不可行。数以百万计的核苷酸仍然隐藏在人类基因组的第一次迭代中。

从那时起,序列斑块逐渐逐渐填补了人类基因组的空白。在2021年,端粒到居组(T2T)财团是一个国际科学家联盟,致力于从头到尾完成人类基因组组件,宣布所有剩余的差距终于填补了。这是通过改进的测序技术实现的。读取更长序列的长度为数千个核苷酸。有了更多信息,可以将重复的序列放置在更大的情况下,因此更容易识别其在基因组中的适当位置。就像将1,000件式难题简化为100件式难题一样,长阅读序列使得首次组装大型重复区域成为可能。

随着长阅读DNA测序技术的越来越多的力量,遗传学家可以探索基因组学的新时代,这是首次与人群和物种之间无障碍的复杂重复序列。一个完整的,无差异的人类基因组为研究人员提供了一种宝贵的资源,以研究塑造遗传结构和变异,物种进化和人类健康的重复区域。

但是一个完整的基因组并不能捕捉到这一切。努力继续创造多种基因组参考,完全代表了人类人口和地球上的生命。凭借更完整的“端粒到凝聚力组”的基因组参考,科学家对DNA重复性暗物质的理解将变得更加清晰。

本文根据Creative Commons许可从对话中重新发布。阅读原始文章。

原创文章,作者:新鲜事,如若转载,请注明出处:http://www.dsonekey.com/3185.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息