华大医学执行总裁尹烨:基因大数据

  摘要:全世界已经测序完成的高等动植物基因组大概有800个,华大贡献了70%。 主讲嘉宾:尹烨 尹烨:华大医学执行总裁。尹烨,1979年生,籍贯山东烟台。2002年毕业于大连理工大学生物工程专业获学士学位, 2013年获华南理 ...

  尹烨:华大医学执行总裁。尹烨,1979年生,籍贯山东烟台。2002年毕业于大连理工大学生物工程专业获学士学位, 2013年获华南理工大学生物工程(基因组学)工程硕士学位。2002年加入华大基因,先后从事体外诊断试剂研发、管理及基因组研究行业,曾任华大科技总裁,华大集团首席运营官(COO),现任华大医学总裁,率领团队积极推动前沿生物医学技术和基因组学研究的临床应用,降低出生缺陷及其他重大疾病对人类健康的危害。

  各位好,华大基因的尹烨。基因这个词一直是我非常喜欢的词,也是英文翻译的最好的词,gene-基因,基因基因,基本之因。

  第一个话题,基因,基因组,大数据。对于目前我们已知的生物圈,碳链作为基本骨架的生命,我们都是通过DNA来进行遗传的。基因可以简单的理解成一段有意义的DNA序列,而全部的DNA就成为一个的基因组。

  地球诞生了46亿年,最早的细胞化石是30亿年,我们从简单到复杂,从水生到陆生,从低等到高等,从无性到有性,从单细胞到多细胞……

  但分析现有的(包括部分的),从DNA的角度来看,的确有着极强的进化或演化关系,我们称之为同源性。

  最简单的基因组来自于病毒,比如乙型肝炎病毒的DNA总量(基因组大小)只有3.2Kb.然后到了细菌,比如大肠杆菌,基因组就有4Mb,而到了酵母,也就是线Mb。他们的基因组不断的插入外源DNA,越来越大,功能也越来越多。然后高等线Mb 的基因组了,到了最简单的植物也只有100Mb左右的基因组,比如拟南芥。再向上,比如梅花200Mb,水稻400Mb,大豆1Gb,两爬类2Gb,哺乳类3Gb。所以人类的基因组也就是3Gb,即30亿个碱基。

  基因组的大小与进化高低并无一致性,我们称为C值悖论,或者说很多仍然是处于进化状态的。全世界(范围内),我们基本的预估,所有生命信息只测一次的数据量是 10的60次方,然而现在只有10的21次方-22次方左右。以人类举例,这个群体有70亿数量,如果每人都测一次,则测序的数据量至少就是3Gb*70亿这么大。且受到技术和方,目前每一个人至少要测100G(大约是基因组的30倍),才能得到相对准确的全基因组信息,所以刚才的数量就达到了100G*70亿人次这么大。

  水稻,玉米,小麦……这些都要育种,每一个也都需要按照这样的方式来做,所以这个数据量就变得无可估量了。现在是从每个只测一次的角度来讲,而对于活着的生命体,还需要测很多次,比如每个人睡觉、吃饭、思考、生病的基因表达都不一样,这个数据量还会有数量级的增加。

  所以你会发现,原来我们还有基因组万倍的细胞,还有十万倍的菌群。这些如果都测出来,那是不得了的数据量。

  我们计算过,一个人如果从出生下来就开始取样,生化、免疫、影像、基因,表型数据,如果都开始积累,那么一起步就是665个G,一辈子差不多就到了1个P。如果一个人1P,1000人就是1E,1M(Million)人就是1Y,1B(Billion)人就是1个Z,这就是10的24次方。这个数据还只是人类,如果把上千万个,都这样来一下,那么可能就达到了N或者D的级别。

  大家看这个,如果说20世纪是物理学世纪的线世纪毫无疑问的就是生命的世纪。物理在有了热力学三大定律特别是熵的概念提出后,开始进入快速发展阶段。生命科学至今还没有一个可以用数学语言可以阐述的定律。

  看下这张,生命科学从1859年起源来看,不过就是150年的时间。基因也是1911年才出现的提法。迄今为止,全世界已经测序完成的高等动植物基因组大概有800个,华大贡献了70%。

  一个行业如果要兴起,需要经过科学发现,技术发明,再到产业发展。比如富兰克林发现了电,爱迪生发明了电灯,而GE把照明做到了全世界。制造业包括IT,一般可以直接从发明到发展,所有学科里面唯独生命不行。这是因为,生命科学直接作用于人体,即使你知道了青蒿素可以治疗疟疾,但一定要从机理上证明,即回归发现,才可以允许你做产业发展。而生命的科学发现,必须依赖于大数据,重视相关关系,而不是关系。

  美国在1980年启动了肿瘤大战,希望通过蛋白等片段的信息来搞清楚肿瘤,十年后发现失败。所以在1990年正式启动了人类基因组,不去搞明白为什么,而是先把whole picture搞定,即解决是什么的问题。

  下面进入今天最后一个问题,生物大数据到底能做什么。先说育种。相当程度上,我们现在可以不通过种地,而直接通过运算的方式来进行虚拟育种。

  按目前的算法推测,如果做到相关性90%,对于玉米(基因组大小是2.5Gb),10000株玉米就可能让天河一号全年计算能力饱和。目前最快的测序仪,每一秒的数据产出会达到几十个G,除了用裸光纤,根本没决传输问题。如果个人基因组得到普及,以100万人的数据库如果要进行两两比较,那么天河二号也远远不够。这就是生命大数据带来的计算,存储,传输的挑战,瓶颈在IT。再来讲生命科学的应用,比如肿瘤,大家应该知道,肿瘤本身不是均质的,即不是简单的区分为癌症组织和癌旁组织,肿瘤的生长过程本身就是一个动态的进化过程,说的通俗点,最早的肿瘤细胞逃脱了细胞周期,战胜了普通细胞,然后抢到了离血管近的,开始快速繁殖,逐渐地,远离血管的就打不过离血管近的了,所以要进一步进化成更“厉害”的癌细胞。所以,所以肿瘤靶向药物,如果是直接针对的匀浆状态的,那很可能是无效的。我们发过几篇高水平文章都是关于单细胞测序的--即我们挑选肿瘤组织中的上百个细胞,一个一个测基因组,然后看他们基因组的进化关系,从而正确判断出这些癌细胞的出场顺序,知道了正在起作用的基因。这个时候的有的放矢就变得很重要了。

  比如血糖和糖尿病真的有必然关系么?在科学上,我们这个领域用相关关系的很多,比如GWAS,全基因组关联分析就是最典型的例子。但是只看静态是不对的。正如看见影片中一个人手里拿着刀,是无法判断他是否的。

  我们不能凭借image来说事,而要靠video.所以未来的健康领域,一定是综合了基因,,运动,营养,菌群,睡眠,心理共同作用的结果。在这个基础上,会产生全新的行业,即所谓的真正意义上的健康咨询师,目前的遗传咨询也只能解决20%或者更少的问题。比如精子,每次有50亿个左右,但任意两个精子的DNA都不一样,这就是进化或演化的根本。

  通常认为的菌群是我截图这张,但实际上肿瘤有上千种,但丰度谱是不同的,所以依次可以区分肠道菌群分型,我们称之为“肠型”。这些菌很大程度上决定了你的吸收,可以简单的理解为,它们的次生代谢产物才是我们吸收的营养。我们曾经测过欧洲亚洲不同食谱的人群菌群,在健康的时候是不一致的,但比如罹患了大肠癌,则菌群的多样性下降,到晚期趋同性更有一致的趋势。所以现在通过测粪便就可以分别相当多的疾病状态,包括大肠癌,包括糖尿病,甚至抑郁和很多性疾病,都和菌群的内毒素有关。

  这是华大CEO王俊提出的第一定律。表型组和基因组通过某种条件起作用。我们希望能够发现部分数学定律来阐述。

  最后一张片子,生命周期表,里面给出了从174噬菌体开始发表的所有顶尖的文章。我们希望能够找到生命周期表。

  尹烨:@施建旭 我们已经发现了很多规律,但是更多的规律不是今天的计算资源能够满足的。另外说一句,我们是民企,所有资源都是我们自己的产业利润纳税后支撑的。

  尹烨:@花甲青年 虚拟育种的概念 是和盖茨基金会合作中一起讨论出来的方向。现在通过对大量的重测序,我们可以瞬间知道很多基因的功能,然后利用矢量计算的算法可以对每一个基因每一个碱基加权,来预测后代可能的状态。当然,这里面有一些,比如要控制的相对稳定。

  尹烨:所以 现在通过测粪便就可以分别相当多的疾病状态,包括大肠癌,包括糖尿病,甚至抑郁和很多性疾病,都和菌群的内毒素有关。

  尹烨:@harry 濬 肝癌、大肠癌有关系,认可,或者说,现在以器官来命名癌症out了,EGFR癌,RAS癌……@张涵诚 @harry 濬 对于生态系统,多样性是稳定的基础;对于内,要看怎么理解。比如血液,只有红细胞、白细胞、血小板,不能太多样,不然就毒血或者脓血或者菌血了。但是换一个角度,如果血液中只有红细胞、白细胞、血小板的情况下,那么他们的免疫细胞是兵强马壮的,这也可以理解为稳定。

  尹烨:@杨力伟, 、冥想、、乐观积极的心理状态能够影响生理指标,这些心理状态都会直接影响基因表达,有物质基础。

  尹烨:@Bright Star 我部分认可,包括拉马克的用尽废退在特定条件下也是有道理的,但对于目前的生命起源学说比较不认可。

  郝鹏洲:@尹烨尹总有几个问题,1.去年11月我去过美国国立研究院,专门做大数据关于基因的话题,目前国际千人基因计划进展如何。2.拜访了几位专家,未来人类基因测序将和抽血一样,目前成本是否仍然很高。

  尹烨:@郝鹏洲 前几期基本做完了,结果符合预期,现在各个国家都在争做1M基因组。测序会便宜到和高端体检差不多,但是解读很难。

  尹烨:基因只是其中的一个最有代表性的指标,包括蛋白,小,细胞、组织,系统都是生命的“通货”;

  花甲青年:@尹烨 有了育种大数据和超级计算,以后人类吃饭不用愁了,这是大数据的人类的第一大贡献!谢谢你的报告!

  尹烨:@花甲青年 谢谢鼓励,我们叫做基因组指导下的定向聚合育种,我们做的杂交谷子去年最高的试验田亩产达到了950 kg。

  尹烨:这个很难讲,如果神经元的结合方式我们能解决的话,我相信会有很大的突破。现在来看差不多就是G级别的。

  曾经的小卢:@尹烨 刚才你说的计算能力不是问题,存储是更大挑战,请问如何用DNA做如此大量数据的存储呢?

  尹烨:@曾经的小卢 合成生物学,用0101的底层编码引导合成。只要你0101能存,我ATCG就能存。举一个最简单的例子,大肠杆菌,4M的基因组,可能在十几分钟就合成完毕了。如果我可以用1P的大肠杆菌定向做存储,不就很快解决了一个Y的存储了么?A——腺嘌呤 T——胸腺嘧啶 C——胞嘧啶G——鸟嘌呤,碱基,就是化学物质。比如A,就是HCN 氰化氢的五聚体,也是所谓的海洋起源的重要标志之一。

  尹烨:@曾经的小卢 它不存在“进”的概念,还有先后顺序,还有更多的奇怪规矩,比如AAAA这样不能连续太多次。

手机正文底部

您可以还会对下面的文章感兴趣:

  • 血液检测优于成像对肺癌的诊断
  • Eml1基因突变导致大脑皮质严重畸形
  • 相关部门的拖延阻碍了埃博拉病毒基因组学的发展
  • 致命遗传风险被忽视 遗忘基因能否终结老年痴呆
  • Mol Cancer Ther:研究人员沉默重要致癌基因
  • 最新评论