鄂维南院士:AI for Science,一场发生在当下的科技革命

简介: 鄂维南院士:AI for Science,一场发生在当下的科技革命
作为柯朗学派出身的应用数学家,鄂维南院士并没有纠结是数据的力量还是算法的力量,也没有囿于公式或定理,他一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量,以及由此开拓的新的科学疆域。


对学者而言,受邀在学术顶会上发表报告,通常是比论文获奖来得更高的荣誉。就像奥运会一样,取得参赛资格也即接到邀请本身就是实力的证明,而在强者云集的舞台上发表主旨演讲(Keynote Speech)、特邀报告(Invited Talk)乃至全体特邀报告(Plenary Talk),更是充分表明了受邀人的学术地位和影响力,以及同行对其工作和成果的普遍关注与认可。


2022 年 7 月,北京大学国际机器学习研究中心主任、数学科学学院教授、中国科学院院士鄂维南,在四年一度的国际数学家大会(ICM)上发表了一小时的大会全体特邀报告《从数学视角看机器学习》(A Mathematical Perspective on Machine Learning),在随后召开的国际机器学习大会(ICML 2022)上,又作了开场的特邀报告《迈向机器学习的数学理论》(Towards a Mathematical Theory of Machine Learning),阐明了应用数学和机器学习发展的时代背景与共同主线。


鄂维南,中国科学院院士,北京科学智能研究院(AI for Science Institute,Beijing)院长,北京大学国际机器学习研究中心主任,美国数学学会、美国工业与应用数学学会 Fellow,北京大数据研究院院长。研究领域为应用数学。多次受邀在数学、应用数学、物理、化学、力学等领域的国际顶会上发表报告。2003 年获国际工业与应用数学协会 Collatz 奖。2009 年获美国工业与应用数学学会 Kleinman 奖。2014 年获美国工业与应用数学学会 Theodore von Karman 奖。2019 年获得美国工业与应用数学学会和 ETH 共同颁发的 Henrici奖。2020 年获 ACM Gordon Bell 奖。


同时引发国际数学界和机器学习领域高度重视的,不仅仅是机器学习和计算数学能够如何相互促进,还有鄂维南教授提供的更本质的见解:


机器学习特别是深度神经网络,是一种适用于求解高维问题的数学工具;机器学习的成熟,让很多以前难以甚至是无法计算的复杂问题能够被很好地建模,并且得出足以指导现实世界中工程实践的有效预测,从而前所未有地促进科学发现和技术创新。简单说就是:AI for Science



让人又爱又恨的深度学习


从 ResNet 到 Transformer,深度神经网络在展示强大的表示能力的同时,也令人为其黑盒性质苦恼不已。


2020 年 5 月,OpenAI 发布了拥有 1750 亿参数的 GPT-3,同时抛出一个诱人的问题:如果通过大算力和大数据构建一个足够精确的语言模型,这个模型是否能在不经过额外训练的情况下,仅靠简单的自然语言提示完成各种不同的任务?


由此,业界对 AI 大模型军备竞赛式的探索正式开启。


两年后,这个问题有了初步的结论。2022 年 5 月,DeepMind 发布了单一架构的序列大模型 Gato,参数不到 12 亿,基于此前语言大模型相关研究,融合了 CV、NLP 和 RL 三种模态,能够完成 600 多种任务,除了写作、画图、聊天、玩各种雅达利游戏,还能简单地操控机械臂。Gato 似乎对输入的数据类型没有固有观念,其灵活的架构甚至能让系统去探索如何理解输入的各种数据。


更重要的突破出现在 2021 年 7 月。DeepMind 团队和华盛顿大学 David Baker 团队在同一天,分别发布了蛋白质三维结构预测模型 AlphaFold 2 和 RoseTTAFold,很大程度上解决了困扰科学家半个世纪的蛋白质折叠问题,将计算模拟的精度提升到可供实验使用的水平,让干湿实验能够结合。


AlphaFold 2 和 RoseTTAFold 采用不同的架构,但都是基于深度学习,它们更大的意义在于证明了,通过基于纯数据驱动的计算能够取得重大的科学发现。


然而,深度学习大厦没有牢固地基的事实并没有改变——至少目前,网络不能解释它的行为,导致我们无法验证从而真正「理解」其发现。


与此同时,不少实验科学家体会到了失落感,因为自己辛苦研究的成果正越来越快地沦为 AI 的训练数据,「端到端」更像是一种讽刺,不断挑战着既有的科学世界观。



把握机理与数据融合的机遇


2021 年 4 月,鄂维南教授在《美国数学会通讯》(Notices of the American Mathematical Society)发表了观点性文章,以《应用数学新时代的曙光》(The Dawning of a New Era in Applied Mathematics)为题,指出机器学习的成熟,使应用数学终于具备了成为一门成熟学科的条件,并将在科技创新中发挥至关重要的作用。


文章总结了基于机理的计算和以机器学习为代表的数据驱动方法各自的特点:基于第一性原理的研究方法深刻而优雅,但在实践中没有多大的指导意义,尤其是解决复杂系统问题;相比之下,数据驱动的研究方法虽能有效地发现规律,却难以揭示规律形成的原因。


鄂维南教授回忆道,他还在 UCLA 读研究生的时候,应用数学领域也有类似数据与机理之争。他求学的「柯朗风格应用数学」(Courant-style applied math)阵营,推崇数值计算和严格的数学理论。柯朗学派也被称为「证明定理的人」。


和科学史上的许多争论一样,重要的不是结果,而是争论这一过程本身所推动的学科发展,包括由此催生的新的学科分支。


与 20 世纪不同,现代科学已经开始全面拥抱「复杂」。现实世界中复杂系统无处不在。举例来说,药物在人体内的代谢过程,可能涉及上万的生化和物理反应,而准确评估一款药物的疗效,需要考虑其在基因、细胞、器官、免疫系统乃至整个人体这些不同尺度的系统中所发挥的作用,以及这些作用彼此之间的相互作用。


要刻画复杂系统的机理,就必须理解高维空间。如果我们想通过微分方程理解细胞生物学,就需要用公式解开这些方程,但既有的计算做不到这一点。因此,对于 21 世纪的科学家而言,无论身处哪个领域,想要取得如前人般卓绝的成就,仅凭人类的洞见与灵感,虽不是绝无可能,但势必困难重重。


上世纪 80 年代起,鄂维南教授便开始发展多尺度模型框架,尝试解决多体问题、湍流和非牛顿流体力学等难题。2017 年,他带领团队提出深度势能(Deep Potential)分子动力学方法,用深度学习方法计算上亿个原子之间相互作用的势能函数。


2017 年圣诞节前,在普林斯顿高等研究院,鄂维南教授将所有组员召集到一起,犹如找到最后一块拼图般,敦促学生不要错过眼下这个历史性的机遇。他当时大致是这样说的


我做研究 30 多年了,看起来也小有成就。但我可以告诉大家,过去 30 年的研究生涯里,我从来没有遇到过像现在一样的机会。我一直苦苦思考科学计算的未来。2011 年写完多尺度建模这本书我觉得我的老本行里能做的东西差不多了。那会儿我成为大数据最早的推动者。我很早呼吁数据科学的重要性,但推的还是不够好,于是我只能逼自己边学边上,也踩了不少坑。 现在,机器学习、人工智能这些领域的发展和物理建模、科学计算彻彻底底地交织在了一起,我过去 30 年的经验第一次组合到了一起。在这个方向上,咱们组是独一无二的,已经做了不少奠基性的工作,下一步需要努力的地方也很多。


没有纠结是数据的力量还是算法的力量,也没有陷入计算机科学家可能会陷入的可计算性理论困境,鄂维南教授一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量。


机器学习也催生了一个新的分支——高维分析,这里有大量尚待解决的问题,也意味着大量机遇。



AI for Science


2020 年,鄂维南和学生组成的深度势能团队,利用机器学习与物理建模相结合的方法(DeePMD)成功模拟了包含 1 亿个原子的量子分子动力学系统,并获得了当年的国际高性能计算应用领域的最高奖戈登贝尔奖。


不同于经典分子动力学,量子分子动力学采用含时薛定谔方程为理论框架,每一步都需要使用考虑电子作用的量子力学方法计算能量和力,对每个原子都实现精确的测量和描述,因此需要极其巨大的计算量,一般只能模拟几个到几十个原子。


深度势能分子动力学的开源项目 DeePMD-kit,通过将第一性原理建模、以机器学习为代表的数据驱动方法和高性能计算紧密结合,能够以第一性原理的精度处理超大规模的分子动力学问题。也就是说,DeePMD-kit 能够在全新的尺度上建立精确的分子动力学模型,帮助研究人员更好地理解制药、材料、能源、环境等领域的核心问题。


尽管实验是检验科学假说最重要的判据,但很多时候很难或根本无法进行实验。20 世纪最重要的一些科学突破,比如狄拉克的电子方程,爱因斯坦的广义相对论,都已经实质性地推动了人类对宇宙的理解,但至今依然缺乏相关的实验数据,甚至无法确定实验的可行性。这也是「计算」成为继「实验」和「理论」之后,又一公认的科研范式的重要原因。


如今「数据」作为第四种科研范式的观点得到越来越多人的认可,但鄂维南教授对此持保留意见。在他看来,什么是新的科研范式,是第几种范式,其实没那么重要,重要的是如何利用更强大的计算能力和数据处理能力,解决更多实际问题。


人工智能正在协助突破人类固有的认知局限。人脑无法想象在 5 维、10 维、100 维的高维空间里会发生什么,人脑甚至无法想象出四维空间。但从应用数学的角度看,基于机理的计算和基于数据的计算正在发展成为一种新的融合计算,这种融合计算能够让我们更好地处理更多不同类型的数据,更好地求解更高维度的问题。


随着计算的发展,我们能够对基本定律和复杂方程进行更好的计算,加深对自然现象的理解,而这种理解将促进我们设计出更好的计算机,然后进行更好的计算,如此循环,实现螺旋式的上升。


鄂维南教授正在带领团队构建下一代机器学习算法,通过新的融合计算的方式,并且结合物理模型,将来在解决物理问题时,或许只需要几个噪声数据点就可以得到对一个现象的完美描述,因为输入的是已知的物理原理。



在火热的领域保持冷静


足够强大的通用学习算法能够解决算法设计者本人所不知道的问题。随着世界上各种问题变得更加极端和复杂,我们应该利用所有能够解决这些问题的有效工具。


或许可以参考 DeepMind 的思路:现阶段的机器学习更多是工程,先把解决特定问题的系统做出来,然后看其中哪些部分对于解决问题真正有效,再把有效的部分拿出来,在此基础上构建更通用的模型。这也是他们如何从 AlphaGo 走到 AlphaZero。


在构建模型的过程当中,如何将领域知识有效融入模型,并且确保这样做不会对模型的学习造成影响,这方面的实践则有助于深度神经网络的理论研究。


在 AI 领域之外,机器学习或将拥有更广阔的天地,作为一种被证明可靠的数学工具,在基础学科和不断涌现的新的交叉领域,求解各种复杂问题。一个新的科学发现和技术创新的时代已经来临。


2021 年 9 月,鄂维南教授推动成立了北京科学智能研究院(AI for Science Institute, Beijing,简称 AISI),积极倡导 AI for Science 的同时,也强调要理性看待和支持,在一个火热的领域保持冷静。


2022 年 8 月 8 日至 11 日,由北京科学智能研究院主办、深势科技承办的 2022 中关村论坛系列活动——科学智能峰会将于线上召开,鄂维南院士将在峰会首日的主论坛发表报告《发生在当下的科技革命》,欢迎关注。


相关文章
|
6天前
|
存储 人工智能 运维
AI导购革命:揭秘主动式智能导购AI助手的构建之道
本文基于《主动式智能导购AI助手构建》解决方案的实际部署体验,从引导与文档帮助、解决方案原理与架构理解、百炼大模型及函数计算应用明晰度、生产环境步骤指导四个方面进行了详细评估。指出尽管该方案具有创新性和实用性,但在文档详尽性、技术细节解释及生产环境适应性等方面仍有待提升。通过进一步优化,可增强解决方案的可用性和用户满意度。
69 31
|
2天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
4天前
|
人工智能 自然语言处理 搜索推荐
AI 赋能:开启内容生产效率革命的密钥》
在数字化时代,AI技术正成为提高内容生产效率的关键工具。本文探讨了AI在文章写作、文案创作、翻译、图像识别与生成及数据分析等方面的应用,分析了其提高效率的方式、带来的优势与挑战,并通过新闻媒体、营销、教育等行业案例,展望了AI在内容生产领域的未来。
|
16天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI芯片驱动智能革命
本课程深入解析AI模型设计演进,探讨AI算法如何影响AI芯片设计,涵盖CPU、GPU、FPGA、ASIC等主流AI芯片,旨在全面理解AI系统体系,适应后摩尔定律时代的技术挑战。
32 5
|
19天前
|
机器学习/深度学习 人工智能 运维
智能运维:AI驱动的IT运维革命###
【10月更文挑战第21天】 随着数字化转型的深入,智能运维(AIOps)正逐步成为企业IT管理的核心。本文将探讨AI技术如何赋能运维领域,通过自动化、智能化手段提升系统稳定性和效率,降低运营成本,并分享实施智能运维的最佳实践与挑战应对策略。 ###
41 1
|
23天前
|
人工智能 Cloud Native 算法
|
28天前
|
人工智能 算法 新制造
走进北京科技大学,通义灵码与企业高校共筑 AI 创意课堂
近日,通义灵码有幸参与到一场由伊利集团主办的 AIGC 生态创新大赛路演舞台,与高校专家、企业代表、青年学子共同探讨 AIGC 创意应用,交流企业在数智领域转型、青年开发者科技创新的思路和落地实践。
|
1月前
|
机器学习/深度学习 人工智能 测试技术
革命来临:AI如何彻底颠覆传统软件开发的每一个环节
【10月更文挑战第32天】本文探讨了AI技术如何重塑软件开发行业,从需求分析、设计、编码、测试到项目管理,AI的应用不仅提高了开发效率,还提升了软件质量和用户体验。通过对比传统方法与AI驱动的新方法,展示了AI在各个阶段的具体应用和优势。
50 3
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
探索AI在医疗诊断中的革命性应用
【10月更文挑战第29天】 随着人工智能技术的飞速发展,其在医疗领域的应用已成为推动现代医疗服务创新的重要力量。本文旨在探讨AI技术如何在医疗诊断中发挥其独特优势,通过分析AI在影像诊断、疾病预测和个性化治疗计划制定等方面的应用案例,揭示AI技术如何提高诊断的准确性和效率,以及面临的挑战和未来发展趋势。
52 1
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###