
Let’s Make AGI Real
DeepMind报告:科学发现的大航海时代

当前,一场由人工智能(AI)驱动的“安静革命”正在全球各地的顶尖实验室发生,科学发现正在迎来一个新的“大航海时代”。Google DeepMind发布的一份名为《新黄金时代:人工智能助力科学的机会》的报告(原报告叫新黄金时代),深入阐述了AI如何成为科学家们强大的工具,以前所未有的方式开疆拓土。
AI为何成为科学的必然选择?
传统科学方法虽然在过去几个世纪中发挥了巨大作用,但面对海量和复杂的数据时,其分析能力已显得力不从心。基因组学、天文学和粒子物理学等领域正以空前的速度产生数据,例如基因组学涉及数十亿个数据点,天文望远镜每晚收集PB级数据。手动筛选这些数据将耗费科学家们毕生精力。此外,尽管科研人员数量显著增长,但近年来社会进步的速度却有所放缓,生产力增长持续停滞,2030年可持续发展目标进展缓慢,这使得科学家们更加迫切地拥抱AI。
AI算法,特别是基于机器学习的算法,擅长处理海量数据集,识别模式并提取有意义的洞察。它们能够分析巨大数据,发现人类研究人员可能遗漏的相关性或异常。AI并非要取代科学家,而是作为一种工具,增强人类能力,使我们能够提出更复杂的科学问题。
AI带来科学研究五大机遇
DeepMind的报告指出了AI在科学中发挥作用的五个核心领域,这些领域正在改变科学的实践方式。
- 知识:重塑知识的获取与传播
科学家需要掌握不断指数增长的现有知识体系。大型语言模型(LLMs)在这方面表现出色,它们能够理解和生成人类语言,通过学习数百万篇科学论文,快速总结当前知识状态,识别看似无关研究之间的联系,从而大大加速研究进程。AI还有助于使科学知识更易于获取,通过创建带有富媒体注释、实时模拟和简化解释的互动式科学论文,让学生、政策制定者和公众更容易理解复杂概念。
- 数据:生成、提取和标注大规模科学数据集
许多科学领域都面临数据匮乏的挑战。AI可以通过多种方式帮助解决这一问题:提高现有数据收集的准确性,例如减少DNA测序中的误差;利用LLM从科学出版物、档案和视频中提取非结构化数据并转化为结构化数据集。AI还可以帮助标注科学数据,如预测微生物蛋白质的功能。此外,经过验证的AI模型可以作为合成数据的新来源,例如AlphaFold 2模型生成了超过1亿个蛋白质结构数据,用于训练AlphaProteo蛋白质设计模型。DeepMind的GNoME工具就发现了220万个新晶体,相当于近800年的知识积累。
- 实验:模拟、加速和指导复杂实验
许多科学实验成本高昂、复杂且耗时,甚至有些因条件限制无法进行。AI算法可以分析现有数据,识别最有前景的实验设置,帮助科学家专注于最可行的假设。AI还可以自动化实验,使研究人员能够同时进行数千次实验,以前所未有的规模收集数据和测试假设。例如,DeepMind与瑞士联邦理工学院洛桑分校合作,使用强化学习来控制核聚变反应堆中等离子体的形状,大大提高实验效率。AlphaMissense模型能预测7100万个潜在人类错义变异的致病性,使科学家能更精准地进行物理实验。
- 模型:建模复杂系统及其组分交互
传统的数学和物理模型在捕捉生物学、经济学、气象学等领域复杂系统的完整性方面面临挑战。AI能够通过摄取更多数据并学习强大的模式,更准确地建模这些复杂系统。例如,DeepMind的深度学习系统能够提前10天预测天气状况,在准确性和预测速度上超越了传统模型。AI还可以帮助科学家创建更灵活的“生成式智能体”来进行复杂系统模拟,从而更好地理解和预测系统行为。
- 解决方案:识别巨大搜索空间中的新颖解决方案
许多重要的科学问题涉及天文数字般的潜在解决方案。例如,设计一个小分子药物可能面临10^60种选择。传统方法在探索这些巨大搜索空间时效率低下。AI能够开辟新的搜索空间,并更快地找到最可行和有用的解决方案。AlphaFold通过预测蛋白质三维结构,为药物发现、疾病理解和材料设计提供了巨大帮助。DeepMind的AlphaProof和AlphaGeometry系统在国际数学奥林匹克竞赛中展现了解决数学问题的能力。
如何实现AI驱动科学发现?
要充分发挥AI在科学发现中的潜力,需要深思熟虑且负责任地将其融入科学过程。DeepMind的报告提出了一个AI驱动发现的框架,强调以下关键要素:
- 战略性问题选择:AI并非万能,应选择AI能发挥关键作用的“根节点问题”,即解决后能推动多个学科进步的基础性问题,如蛋白质结构预测。
- 高质量数据:即使算法再复杂,如果训练数据存在偏见、不完整或不准确,结果也将毫无意义甚至产生误导。确保数据高质量、多样化并具有代表性至关重要。
- 模型选择与可解释性:选择合适的AI模型,并重视其可解释性。科学家需要理解AI预测背后的推理,才能信任并将其成果整合到对世界的理解中。
- 严格评估与验证:AI模型产生的结果必须经过科学意义、可靠性和可重复性的评估和验证。这包括与真实世界数据进行比较、敏感性分析以及同行评审。
- 计算资源:计算能力是AI进步的关键基础设施。需要关注计算需求如何演变、效率提升以及与非AI方法的比较。
- 组织设计与跨学科合作:在自下而上的创新和自上而下的协调之间取得平衡。促进跨学科团队合作,培养研究工程师等被忽视的角色,并鼓励批判性思维的文化。
- 模型采纳:让科学家易于使用AI模型并将其整合到工作流程中。通过开放代码、提供数据库和培训模块,以及主动告知模型的不确定性来建立信任。
- 伙伴关系:公共和私人机构之间建立正式和非正式的伙伴关系至关重要,以汇集多方面的专业知识,例如在数据创建、模型评估和成果分享方面。
- 安全与责任:在开发AI模型之前进行伦理和安全评估,识别潜在风险和效益,并制定相应政策。
潜在风险与挑战
当然,人类一切新工具一开始总是伴随一系列难以驾驭的风险,AI的大规模应用就带来许多的伦理与社会挑战。
- 算法偏见:AI算法从训练数据中学习,如果数据反映了社会中存在的偏见,算法本身也会嵌入这些偏见,可能导致不公平或歧视性结果,尤其是在医疗保健等领域。
- 隐私与人类自主权:AI系统预测疾病风险等能力引发了基因歧视和侵犯个人权利的担忧,需要制定明确的道德准则和法规。
- 就业替代:AI自动化任务可能导致部分领域(如数据分析、实验操作、科学写作)的失业,需要积极进行劳动力再培训和教育。
- 科学创造力:有人担心AI会抑制人类科学家直觉、非正统和偶然的发现。然而,AI也可以通过“插值”、“外推”甚至未来的“发明”等方式,激发新的科学创造力。
- 科学可靠性:AI可能加剧科学研究中的不良实践,例如“幻觉”虚假引用,或产生低质量论文。但AI也能提高数据标注和实验设计的标准化,并帮助检测错误或欺诈。
- 科学理解:AI模型可能提供有用的预测,但缺乏对深层科学原理的解释,成为“黑箱”。然而,AI也可以通过可解释性技术揭示模型如何运作,甚至通过学习人类无法理解的高维空间来推动科学理解。
- 公平性:AI的普及可能加剧科学界的不平等,因为AI和计算机科学领域的劳动力代表性较低,且数据可能带有偏见。但AI也有机会通过降低成本、提供更普适的模式来减少不平等。
- 环境影响:训练大型AI模型所需的计算能力和数据中心冷却需要大量能源,产生温室气体排放。但AI也能通过优化可再生能源系统、改进气候模型和设计更高效的芯片,间接帮助实现净零排放目标。
政策回应与未来展望
为抓住AI在科学领域的机遇,各国政府应制定全面的战略。这包括:
- 定义“希尔伯特问题”:确定最重要的AI赋能科学问题,并设立全球基金以推动其解决。
- 让世界对科学家“可读”:建立AI科学数据观测站网络,改善数据收集、管理、存储和访问,鼓励开放获取政策。
- 将AI作为下一代科学工具进行教学:提供面向现有科学家和未来科学家的AI培训项目和跨学科AI科学学位。
- 建立证据并尝试新的科学组织方式:投资“元科学”研究,评估AI在科学中的影响,并探索新的机构类型来优化科学研究。
AI正在深刻改变科学研究的范式,并有望帮助人类应对最严峻的全球挑战。这是一个充满希望的领域,但也需要我们带着责任感去探索,确保AI的发展符合人类的最佳利益。正如Google DeepMind的创始人兼首席执行官德米斯·哈萨比斯所说,“这些算法现在已经足够成熟强大,足以应用于真正具有挑战性的科学问题”。我们正迈向一个AI将科学发现提升到前所未有水平的时代。
A wonderer in the forest of knowledge.


Leave a comment