刚刚,顶级科学期刊英国《Nature》(自然)杂志发表了一份重磅、突破性研究论文。
北京时间5月8日23点,谷歌DeepMind和其英国子公司Isomorphic Labs联合团队在《自然》杂志上发表一份共46页的成果,推出全新AI蛋白质结构预测模型AlphaFold 3,可准确预测生物分子相互作用的结构。
具体来说,新的AlphaFold 3拥有更强的生成式AI模型能力,效果全面提升。对于蛋白质与其他分子的相互作用,与现有预测方法相比,AlphaFold 3改进了至少50%;对于一些重要的相互作用领域,AlphaFold 3预测精(准确)度提高一倍(100%),从而对蛋白质、核酸、小分子、配体、修饰残基等更广泛生物分子的复合物进行联合结构预测,有望帮助人们治疗癌症、免疫性疾病等。
稍早前举行的沟通会上,本论文共同监督作者、谷歌DeepMind联合创始人、CEO戴密斯•哈萨比斯(Demis Hassabis)对钛媒体App等表示,对于团队来说,AlphaFold 3的发布是一个重要的“里程碑”,同时也是用 AI 技术“理解和建模生物学”道路上迈出的重要一步。
“相比此前研究,AlphaFold 3不仅能够模拟蛋白质与其他分子的相互作用,而且还能准确预测包括DNA、RNA、配体等生物分子结构以及它们如何相互作用,从而能改变我们对生物世界和药物发现的理解,这非常重要。这是我们和Isomorphic共同正在推进的事情。我们非常自豪地在《自然》杂志新论文中宣布这些新突破发现、新结果和新方法。”Demis Hassabis表示。
六年构建超180万人的蛋白质数据库、节省数万亿美金
AlphaFold 3模型预测精准再提升一倍
据悉,AlphaFold是由谷歌DeepMind开发的一款蛋白质结构预测程序,它采用 AI 和深度学习技术仅根据其基因序列就能预测蛋白质的3D结构,仅需数日内可识别蛋白质的形状,从而找到药物靶点,并有望推进产生新的小分子药物。而在此之前,这通常需要数年时间、数亿美元的投入。
AlphaFold 1于2018年发布,其在CASP(蛋白质结构预测的关键评估)竞赛中成功预测了43种蛋白质中25种蛋白质的最精确结构,排名第一,并认为成功预测了最困难目标的蛋白质结构,引发全球的关注。
2020年,全新AlphaFold 2发布,并同步推出AlphaFold数据库,涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测。同时,超过2.14亿个预测中约有35%被认为是高度准确的,这意味着它们与实验确定的结构一样好,另外45%被认为对于许多应用来说足够准确。
2022年7月,AlphaFold 2全面升级,DeepMind公司与欧洲生物信息研究所(EMBL-EBI)的合作团队宣布,基于UniProt数据库序列,AlphaFold预测出约100万个物种的2亿多个蛋白质结构,几乎涵盖了所有科学已知的蛋白质。相关研究成果发表在《自然》杂志上。
据Demis Hassabis披露的一份官方数据显示,截至目前,AlphaFold数据库用户已达180万人次,覆盖超190个国家,已查看的结构超600万次,论文和数据引用次数超过20000次。
谷歌DeepMind反复强调,通过减少缓慢而昂贵的实验的需求,AlphaFold可能为研究界带来了数亿年的进步,并节省了数万亿美元。数百万研究人员全球范围内已经使用 AlphaFold 2 在疟疾疫苗、癌症治疗和酶设计等领域取得了发现。
钛媒体App参与对话的视频沟通会论文作者包括Max Jaderberg (Chief Al Officer, Isomorphic Labs) 、John Jumper (DeepMind)、Julien Bergeron (Kings's College London)、Dhavanthi Hariharan (DeepMind)和Josh Abramson (DeepMind),语音演讲是哈萨比斯
6年后的今天,AlphaFold 3终于来了。
此次公布的AlphaFold 3,官方定义为一种由神经网络架构组成、拥有能够高精度预测包含蛋白质数据库(PDB) 中几乎所有分子类型复合物的“生成式 AI 模型”。
钛媒体AGI基于DeepMind联合发布这份关于AlphaFold 3的46页论文以及数十页的外部信息,梳理了AlphaFold 3模型训练数据、实施过程、评测结果以及商业化与生态四个层面,谈及新模型的重要亮点:
1、模型训练数据上,AlphaFold 3模型根据蛋白质数据库中包含的世界分子结构数据进行训练,能够处理其中包含的 99% 以上的已知生物分子复合物。
2、实施过程层面,AlphaFold 3基于具备三角注意力的自定义Transformer构建,允许科学家输入生物分子复合物的描述,能预测该生物分子复合物的3D结构,并使用扩散过程生成每个原子的单独3D坐标,输入到指定系统。输入后,AlphaFold 3使用扩散网络处理其预测,类似于 AI 图像生成器中的网络。扩散过程从原子云开始,经过许多步骤汇聚成最终的、最准确的分子结构。
而这一模型的核心是DeepMind改进的Evoformer模块。AlphaFold 3 对分子相互作用的预测超过了所有现有系统的准确性。
据论文显示,据研究发现和使用过程看,AlphaFold 3的结构预测模式有助于创建与目标蛋白有效结合的设计;同时,AlphaFold 3 提高了蛋白质-蛋白质界面的结构准确性,为设计新的治疗方式(例如抗体或其他治疗性蛋白质)提供了可能性;另外,通过观察靶标在其完整生物学背景下的结构以及与其他蛋白质结合伴侣、DNA、RNA 或配体辅因子的复合体,可以更深入地了解新靶标,团队相信这种新的药物靶点寻找方式,能够转化为临床上更有效的药物。
DeepMind举了AlphaFold 3三个应用案例。
比如,整合膜蛋白层面,AlphaFold 3正确预测了 PORCN 与 LGK974 和 WNT3A 肽的复合物,为该临床阶段分子 (PDB ID 7URD) 的抑制功能提供了结构原理;变构位点领域,PI5P4Kγ 是一种脂质激酶,与癌症和免疫性疾病有关,而AlphaFold 3正确预测新型抑制剂 (PDB ID 7QIE) 的新型变构结合模式;具有独特折叠的蛋白质领域,AlphaFold 3能正确预测与底物结合的蛋白质复合物的新折叠模式。
3、评测结果。
据PoseBusters 基准集显示,对于蛋白质与小分子的相互作用,即使不使用任何结构输入,AlphaFold 3在76%的情况下成功了,而下一个最好的工具只有52%,大大优于Vina38、39等经典对接工具,并且大大优于 RoseTTAFold All-Atom 等所有其他真正的盲对接工具;同时,对于蛋白质与DNA结合的准确性,AlphaFold 3有65%的成功率,而目前的技术水平只有28%。甚至AlphaFold 3还改进了蛋白质相互作用能力,当蛋白质与抗体复杂结合时,AlphaFold 3的准确成功率达62%,而其他系统只有30%,比AlphaFold 2有约两倍的性能提升。
此外,对于蛋白质与其他分子的重要相互作用领域,AlphaFold 3预测准确度提高一倍(100%)。
4、商业化和生态。
AlphaFold 3可以模拟这些分子(蛋白质)物质,这些分子控制着细胞的健康功能,如果受到破坏,就会导致疾病,因此,AlphaFold 3可以应用于从生物学、可再生材料、粮食作物、理解癌症、开发治疗、金融等多个场景领域。
Demis Hassabis坦言,DeepMind更多是做基础研究,以便将AlphaFold提供给所有学术机构、非商业用途等;而延误发现子公司Isomorphic Labs更多是做商业化,与化学方面的药物发现有关,以及与大型药企合作开发世纪的药物发现项目。
“未来,我们将通过Isomorphic Labs和内部研究计划,并与我们在Isomorphic Labs上的制药合作伙伴合作,进一步提高这些能力。”Demis Hassabis表示。
构建免费学术生态的同时,
DeepMind将解决AI药物发现的局限性
另外,作为此次发布的一部分,DeepMind还推出AlphaFold 3免费 AI 工具AFServer,可供学术界免费使用,以构建AlphaFold生态。
DeepMind高级研究科学家John Jumper表示,理解生物结构以及它们如何相互作用是一个非常困难的问题。此前实验室需要花费数十万美元、更多科学家也很难通过实验模拟解决,但 AI 能够解决此类问题,这是令人难以置信的进步,从而将“开启”许多新的科学发现。
Demis Hassabis强调,AlphaFold 3模型和数据库技术已经开始有一些应用场景,对于药物和化合物发现有巨大的推动作用。相对于传统过程,AlphaFold至少快2、3倍,且系统足够准确。
然而目前,AlphaFold 3模型在立体化学、幻觉、动力学和某些目标的准确性等方面仍存在一定局限性。
美国科学院外籍院士、美国艺术与科学院外籍院士、中国科学院院士,中国医学科学院学部委员、深圳医学科学院创始院长、深圳湾实验室主任、清华大学讲席教授颜宁曾表示,AlphaFold无法预测新的分子机构,预测出的结构其实只是达到其2017年的水平,缺乏专业训练新的数据库(database),无法像人一样实现不同构想和新工作机理,从而不能获得新的药物靶点。
颜宁强调,尽管看好 AI 技术的未来,但 AI 本身还是非常有局限性的,需要有更大的数据库、更强的算力、更新的算法,才能够让 AI 变成结构生物学的重要工具。
“对于小分子药物的相互作用,目前AlphaFold2的预测研究无能为力,短期内不看好AI取代实验,结构生物学的未来也不会是AI。”颜宁称。
DeepMind团队则在论文中指出,分子生物学的核心挑战是理解并最终调节生物系统复杂的原子相互作用。而AlphaFold 3模型朝这个方向迈出了一大步,证明可以在统一的框架中准确预测各种生物分子系统的结构。
“尽管在所有交互类型中实现高度准确的预测仍然存在重大挑战,但团队证明,可以构建一个深度学习系统,对所有这些交互显示出强大的覆盖范围和泛化能力;同时还证明,缺乏跨实体进化信息并不是预测这些相互作用取得进展的重大障碍;此外,AlphaFold衍生方法能够对分子相互作用类别的化学和物理进行建模,而无需对 MSA 的依赖,而且蛋白质-配体结构预测的巨大改进表明,可以在通用深度学习框架内处理化学空间的广泛多样性,而无需人工分离蛋白质结构预测和配体对接。”DeepMind团队称,开发正确的深度学习框架可以大幅减少获取生物学数据所需的数据量。
展望未来,DeepMind研究人员在交流中表示,团队将继续埋头研究,从第一性原理出发,用 AI 解决化学、生物学中前沿技术问题,从而有助于改变人类设计下一代生物疗法方式,让科学家更多了解细胞系统的复杂性、结构、相互作用等,推动药物作用和研发等。
“虽然这是 AI 驱动生物学研究的重要时刻,但 AI 加速生物学的潜力是无限的。AlphaFold AI 模型的进一步发展,将加深人类对生物学和生命构建模块的理解,以实现我们最终目标——利用 AI 重构整个药物发现过程。”论文研究团队表示。
免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。