当前位置: 主页 > 科技 2024年的诺贝尔 化学奖

2024年的诺贝尔 化学奖

更新: 2024-11-27 16:45来源: Aaron浏览次数:

2024年,诺贝尔化学奖授予戴维·贝克(David Baker),以表彰他在计算蛋白质设计方面的贡献,另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper),以表彰他们在蛋白质结构预测方面的贡献。


之前诺贝尔物理奖给了AI,今年的诺贝尔化学奖实际上也颁发给了AI。两个团队都是做蛋白质结构预测和设计的,一个是老一代算法RoseTTAFold,一个是后来居上的新算法,由谷歌旗下DeepMind研发的AlphaFold。




故事从蛋白质预测大赛说起


国际蛋白质结构预测竞赛(CASP)是一个从1994年就成立的学术竞赛,每两年一次,主办方会给出一些氨基酸的序列,然后参赛选手用几天时间预测按这个序列会形成什么样的蛋白质,在给定条件下会在三维空间里形成一个什么形状。


我们知道,蛋白质是由氨基酸按顺序排列组成的。今天,科学家们一共发现了300多种不同的氨基酸,其中只有22种能在遗传物质翻译的过程中直接参与形成蛋白质。


由N个氨基酸首尾相连组成的蛋白质,不会总维持一条线的样子,它会在体液环境中按照能量最低的原理折叠起来,这样是它最稳定的状态。从蛋白质被制造出来到折叠起来,中间需要几毫秒时间。最近五十年来,困扰科学家的一个问题是:当给定一个蛋白质的氨基酸序列之后,按说我们已经知道它的基础信息了,却还是无法预测它会折叠成什么样。


虽然我们有量子力学,可以计算分子结构,但它只能处理几个原子在一起的样子,或者数量虽然众多,但结构几乎完全一样的原子形成的结构,也就是晶体,这是可以用量子力学解决的。而典型的蛋白质,包含的原子数量在几千到几万,涉及到的分子、原子种类成百上千,量子力学的计算对预测蛋白质的结构来说是无能为力的。所以在计算方法出现前,人们都是用实测来判断蛋白质结构。实测主要有三种方法:X射线晶体衍射、核磁共振、冷冻电镜。


这3种方法各有各的局限性——


X射线晶体衍射要求蛋白质的量足够多才行。而通常生物学研究的蛋白质都是微量的,达不到实验条件。


核磁共振虽然只需要一丁点蛋白质就够了,但要求氨基酸数量不能超过120个,否则也不再适用。


冷冻电镜不存在以上两个限制,也曾经获得过2017年诺贝尔生理学医学奖,它可以测定蛋白质上每一个原子的空间位置,而且是在活体状态下瞬间冻住,精确度达到了原子直径的水平。CASP大赛官方出的题,其实也是事先用冷冻电镜测出结果才给参赛选手下发的,否则没人知道正确答案。于是冷冻电镜可以算是终极大招,但就一个字——贵!一亿多人民币一台,世界上很少有实验室买得起。


假设我们足够富有,冷冻电镜随便买,还有困难无法解决。因为很多时候,科学家只想知道某种蛋白质是否可以形成某种特定结构,科学家们只想预测,可能那种蛋白质世界上根本不存在,研究团队也不知道怎么制备。但冷冻电镜只能用于实测,先得有蛋白质才能测出来,而不能用于预测。所以,蛋白质结构预测一直是一个实用价值极高的科学难题。


人工智能团队闯入生物学


DeepMind团队从2018年就使用自己开发的深度学习算法参赛并获得冠军,2019年依然是冠军。他们并没有使用很夸张的硬件设备,计算单元只有128个GPU。如果按2000块钱一个来算,也就是二三十万块钱的投入和一个月的训练时间。这可比花一两亿投资冷冻电镜要节约太多了。实际上,从2018年起,若干团队就都在使用深度学习算法。2020年这届比赛前5名全部使用的是深度学习算法。只是这方面谁都比不过DeepMind。


尽管DeepMind在2020年第三次赢下冠军,但他们对模型的训练结果有一个估值:分数从1-24,结果越接近真实情况,打分越高,满分是24,11分算及格。他们找目前已知的蛋白质做了大量训练,DeepMind当时能做到什么水平呢?1分而已。但即便如此,它当时的表现也比从前十几届比赛的冠军水平还要高很多。


又过了8个月,DeepMind把用下一代AlphaFold2计算出的36.5万种蛋白质结构全部公布出来了,涉及20种生物体,包括大肠杆菌、果蝇、斑马鱼、小鼠和人类。


在此之前,人类生物学家用了几十年时间一共测量了大约17万种蛋白质的结构。AlphaFold团队预测的这36.5万种蛋白质都是生物学研究中典型的“模式生物”体内的蛋白质,也就是被人类研究得很透彻且非常具有代表性的、实验室很常见的动物。其中有20000个左右的蛋白质属于是人类蛋白质组,覆盖了98.5%的人类蛋白质。


此前,生物学研究也有蛋白质相关的数据库,比如把组成蛋白质的氨基酸的序列集合在一起的数据库Pfam,还有蛋白质结构的UniProt、PDB等等。但这些传统的蛋白质数据库积累了几十年,也只覆盖到全部人类蛋白质的1/3左右,而且这1/3里,有一半都只研究了局部的空间结构。


在AlphaFold2公布数据库之前,只有17%的人类蛋白质结构是明确的。而2021年7月,一下推进到接近100%的地步了,这是一个很夸张的飞跃。


而且在公布的同时,AlphaFold2还在飞速计算中,并且在2021年底把预测的蛋白质结构的数量增加到了1.3亿种,平均算下来,1秒钟算出9个蛋白质结构,这几乎囊括了目前人类所有已知氨基酸序列的蛋白质。


AlphaFold2团队也给预测结果设置了一个可信度的数值——pLDDT(per-residue confidence metric)。这个值高于70,就表明预测结果是基本准确的。这个值高于90,就表示预测结果可信度很高。这次所有的预测结果中,基本准确的位点占比58%,可信度非常高的点位占比35.7%。如果只看人类蛋白质组的部分,这个算法现在可以基本准确地预测43.8%的蛋白质。


仅仅过了两年时间,结构生物学领域就发生了翻天覆地的变化。这话一点不夸张。


2018年时,一个团队花几个月测出一个蛋白质的真实结构,就能发一篇高水平的期刊。现在DeepMind把这类工作效率推进到1秒钟9个。结构生物学领域很多大佬都在哭泣。


这个数据库的快速进化会让医药领域的研发大幅进步。


从前对药物的研发是这样做的:先找到发病原因,然后知道如果有那么一个分子能和一个已知结构紧密结合的话,发病的过程就能被打断,于是最后的工作就是寻找那个分子。怎么找这个分子呢?一般会从小分子数据库中通过计算筛选一些候选者,然后分别对候选者单独测试安全性和疗效。而当蛋白质结构的数据库中,蛋白质分子足够多,结构预测又足够准的时候,药物研发就可以直接针对蛋白质的功能从数据库中筛蛋白质了。在没有数据库时,做这样的筛选,工作量是大到不可接受的。但之后,可能会成为一个研究生都能胜任的工作。这个工作的重要性,可以和21世纪初完成的人类基因组的测序工作相比拟。


2022年12月,CASP大赛再一次如期举行,冠军毫无疑问地花落DeepMind的AlphaFold2。更严重的是,这次冠军的诞生让这项拥有28年历史的大赛在今后失去了举办的意义。因为DeepMind在获奖后公布了一个消息——他们将在今后两年里陆续上传所有预测出的蛋白质结构,总计2.14亿种。AlphaFold2已经把地球上所有蛋白质结构都做了预测,而CASP比赛的题库最大范围也顶多是地球上的蛋白质,这个大赛之后只能在准确度上进一步做竞赛了。


AlphaFold2在公布2.14亿个蛋白质空间构型的同时,也着重把一个最复杂的蛋白质拿出来秀了一下——由30多种蛋白质组成的“核孔”,它100%的空间构型全都预测完成。这是多少个生物实验室努力了好多年梦寐以求的结果。


由于2.14亿种蛋白质的数据实在太多,还需要分门别类地存入科学界公认的蛋白质数据银行(Protein Data Bank),2022年12月底时已经完成了1亿个左右的数据存储,2023年12月完成了全部数据的存储。由于精度提高得很快,预测的速度又很惊人,它工作18个月的成果,大约就相当于过去30年全球所有此领域的科学家成果总和的几百倍。


当然,AlphaFold2对结构的预测也并不总是很完美。AlphaFold2自己也会对产出的结果做评估,它会把预测结果评级用颜色标注,比如蛋白质的哪些区域结果是极为可靠的,另外哪些区域不那么可靠。


今天研发新药,科学家筛选新的蛋白质结构时,会用AlphaFold2跑出一个初步的结果,但这个结果只能算是一个不错的提示,告诉科学家哪些部位可能是关键。此后,科学家会再利用传统方法精确测定一番。这并不是说AlphaFold2是个花架子,因为仅仅是提供一个初步的三维结构框架,就能给研发的第一步带来意想不到的灵感和时间上的节约。


Rosetta为什么也能获奖?


在人工智能狂扫结构生物学之前,这个领域其实也有一个老牌蛋白质结构预测算法——Rosetta。它是由华盛顿大学的David Baker团队开发的蛋白质结构预测工具,只不过一直使用统计势函数+直接耦合分析+深度残差网络相结合的方法预测蛋白质结构。


当DeepMind这个纯生物学外行在2018年第一次参赛就获得冠军后,David Baker团队受到很大刺激,并决定彻底改变算法,换用深度神经网络,Rosetta也改名为RoseTTAFold。但在人工智能领域,David Baker团队始终敌不过DeepMind。于是在2021年6月,David Baker团队出了一个奇招——把算法的源代码和所有技术细节公开,欢迎有识之士一起参与改进它。


这一举措真的刺激到了DeepMind,一周后,DeepMind的创始人、首席执行官哈萨比斯(Demis Hassabis),也就是这次的诺奖得主,决定也把AlphaFold2的论文和源代码公开。


2021年7月,RoseTTAFold和AlphaFold2这两个工具的技术论文分别发表在《Science》和《Nature》上,而这也是Rosetta算法虽然性能落后,但这次依然被颁奖的最主要原因。


随着技术细节的公布,更多蛋白质预测算法也在学术界出现。比如我们曾经解读过的,由斯坦福大学和硅谷的AI创业企业Salesforce Research研发的ProGen。


总结:最保守的权威机构也被AI拿下了


我们昨天解读了诺贝尔物理学奖,那是一个大意外。我看了两个直播,都是让研究员和教授级别的物理学家去解读今年的诺奖。结果当奖项公布的时候,场面极其尴尬,因为两个直播平台的两位专家都不知道这个奖项和物理学有什么关系。


今年的化学奖稍微好一点,毕竟蛋白质折叠算法对生物学家来说实在太熟悉了,不少结构生物学家因此已经转行,甚至失业了。


诺贝尔颁奖委员会是一个极其保守的机构。也只有极其保守,才能恪尽职守地兑现“炸药大王”的遗嘱。如今诺贝尔奖已经是瑞典以举国之力维护的一个关乎国家形象的重大典礼,科学界最保守的机构就是它。


在这个背景下,2024年把物理学奖和化学奖同时颁发给了人工智能,这背后的意义是什么呢?


有人说,这是科学成果即将爆发的时刻,明年说不定连生理学医学奖也都是AI获奖。也有人说,这是“人类科学”的至暗时刻,不知道你是哪一派?


关于我们 联系方式 发展历程 帮助中心 联系我

Copyright © 2002-2052 气体分析仪小站 版权所有

备案图标京公网安备11010802040943 京ICP备2022033671号