鄂维南院士:AI for Science,一场发生在当下的科技革命

简介: 鄂维南院士:AI for Science,一场发生在当下的科技革命
作为柯朗学派出身的应用数学家,鄂维南院士并没有纠结是数据的力量还是算法的力量,也没有囿于公式或定理,他一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量,以及由此开拓的新的科学疆域。


对学者而言,受邀在学术顶会上发表报告,通常是比论文获奖来得更高的荣誉。就像奥运会一样,取得参赛资格也即接到邀请本身就是实力的证明,而在强者云集的舞台上发表主旨演讲(Keynote Speech)、特邀报告(Invited Talk)乃至全体特邀报告(Plenary Talk),更是充分表明了受邀人的学术地位和影响力,以及同行对其工作和成果的普遍关注与认可。


2022 年 7 月,北京大学国际机器学习研究中心主任、数学科学学院教授、中国科学院院士鄂维南,在四年一度的国际数学家大会(ICM)上发表了一小时的大会全体特邀报告《从数学视角看机器学习》(A Mathematical Perspective on Machine Learning),在随后召开的国际机器学习大会(ICML 2022)上,又作了开场的特邀报告《迈向机器学习的数学理论》(Towards a Mathematical Theory of Machine Learning),阐明了应用数学和机器学习发展的时代背景与共同主线。


鄂维南,中国科学院院士,北京科学智能研究院(AI for Science Institute,Beijing)院长,北京大学国际机器学习研究中心主任,美国数学学会、美国工业与应用数学学会 Fellow,北京大数据研究院院长。研究领域为应用数学。多次受邀在数学、应用数学、物理、化学、力学等领域的国际顶会上发表报告。2003 年获国际工业与应用数学协会 Collatz 奖。2009 年获美国工业与应用数学学会 Kleinman 奖。2014 年获美国工业与应用数学学会 Theodore von Karman 奖。2019 年获得美国工业与应用数学学会和 ETH 共同颁发的 Henrici奖。2020 年获 ACM Gordon Bell 奖。


同时引发国际数学界和机器学习领域高度重视的,不仅仅是机器学习和计算数学能够如何相互促进,还有鄂维南教授提供的更本质的见解:


机器学习特别是深度神经网络,是一种适用于求解高维问题的数学工具;机器学习的成熟,让很多以前难以甚至是无法计算的复杂问题能够被很好地建模,并且得出足以指导现实世界中工程实践的有效预测,从而前所未有地促进科学发现和技术创新。简单说就是:AI for Science



让人又爱又恨的深度学习


从 ResNet 到 Transformer,深度神经网络在展示强大的表示能力的同时,也令人为其黑盒性质苦恼不已。


2020 年 5 月,OpenAI 发布了拥有 1750 亿参数的 GPT-3,同时抛出一个诱人的问题:如果通过大算力和大数据构建一个足够精确的语言模型,这个模型是否能在不经过额外训练的情况下,仅靠简单的自然语言提示完成各种不同的任务?


由此,业界对 AI 大模型军备竞赛式的探索正式开启。


两年后,这个问题有了初步的结论。2022 年 5 月,DeepMind 发布了单一架构的序列大模型 Gato,参数不到 12 亿,基于此前语言大模型相关研究,融合了 CV、NLP 和 RL 三种模态,能够完成 600 多种任务,除了写作、画图、聊天、玩各种雅达利游戏,还能简单地操控机械臂。Gato 似乎对输入的数据类型没有固有观念,其灵活的架构甚至能让系统去探索如何理解输入的各种数据。


更重要的突破出现在 2021 年 7 月。DeepMind 团队和华盛顿大学 David Baker 团队在同一天,分别发布了蛋白质三维结构预测模型 AlphaFold 2 和 RoseTTAFold,很大程度上解决了困扰科学家半个世纪的蛋白质折叠问题,将计算模拟的精度提升到可供实验使用的水平,让干湿实验能够结合。


AlphaFold 2 和 RoseTTAFold 采用不同的架构,但都是基于深度学习,它们更大的意义在于证明了,通过基于纯数据驱动的计算能够取得重大的科学发现。


然而,深度学习大厦没有牢固地基的事实并没有改变——至少目前,网络不能解释它的行为,导致我们无法验证从而真正「理解」其发现。


与此同时,不少实验科学家体会到了失落感,因为自己辛苦研究的成果正越来越快地沦为 AI 的训练数据,「端到端」更像是一种讽刺,不断挑战着既有的科学世界观。



把握机理与数据融合的机遇


2021 年 4 月,鄂维南教授在《美国数学会通讯》(Notices of the American Mathematical Society)发表了观点性文章,以《应用数学新时代的曙光》(The Dawning of a New Era in Applied Mathematics)为题,指出机器学习的成熟,使应用数学终于具备了成为一门成熟学科的条件,并将在科技创新中发挥至关重要的作用。


文章总结了基于机理的计算和以机器学习为代表的数据驱动方法各自的特点:基于第一性原理的研究方法深刻而优雅,但在实践中没有多大的指导意义,尤其是解决复杂系统问题;相比之下,数据驱动的研究方法虽能有效地发现规律,却难以揭示规律形成的原因。


鄂维南教授回忆道,他还在 UCLA 读研究生的时候,应用数学领域也有类似数据与机理之争。他求学的「柯朗风格应用数学」(Courant-style applied math)阵营,推崇数值计算和严格的数学理论。柯朗学派也被称为「证明定理的人」。


和科学史上的许多争论一样,重要的不是结果,而是争论这一过程本身所推动的学科发展,包括由此催生的新的学科分支。


与 20 世纪不同,现代科学已经开始全面拥抱「复杂」。现实世界中复杂系统无处不在。举例来说,药物在人体内的代谢过程,可能涉及上万的生化和物理反应,而准确评估一款药物的疗效,需要考虑其在基因、细胞、器官、免疫系统乃至整个人体这些不同尺度的系统中所发挥的作用,以及这些作用彼此之间的相互作用。


要刻画复杂系统的机理,就必须理解高维空间。如果我们想通过微分方程理解细胞生物学,就需要用公式解开这些方程,但既有的计算做不到这一点。因此,对于 21 世纪的科学家而言,无论身处哪个领域,想要取得如前人般卓绝的成就,仅凭人类的洞见与灵感,虽不是绝无可能,但势必困难重重。


上世纪 80 年代起,鄂维南教授便开始发展多尺度模型框架,尝试解决多体问题、湍流和非牛顿流体力学等难题。2017 年,他带领团队提出深度势能(Deep Potential)分子动力学方法,用深度学习方法计算上亿个原子之间相互作用的势能函数。


2017 年圣诞节前,在普林斯顿高等研究院,鄂维南教授将所有组员召集到一起,犹如找到最后一块拼图般,敦促学生不要错过眼下这个历史性的机遇。他当时大致是这样说的


我做研究 30 多年了,看起来也小有成就。但我可以告诉大家,过去 30 年的研究生涯里,我从来没有遇到过像现在一样的机会。我一直苦苦思考科学计算的未来。2011 年写完多尺度建模这本书我觉得我的老本行里能做的东西差不多了。那会儿我成为大数据最早的推动者。我很早呼吁数据科学的重要性,但推的还是不够好,于是我只能逼自己边学边上,也踩了不少坑。 现在,机器学习、人工智能这些领域的发展和物理建模、科学计算彻彻底底地交织在了一起,我过去 30 年的经验第一次组合到了一起。在这个方向上,咱们组是独一无二的,已经做了不少奠基性的工作,下一步需要努力的地方也很多。


没有纠结是数据的力量还是算法的力量,也没有陷入计算机科学家可能会陷入的可计算性理论困境,鄂维南教授一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量。


机器学习也催生了一个新的分支——高维分析,这里有大量尚待解决的问题,也意味着大量机遇。



AI for Science


2020 年,鄂维南和学生组成的深度势能团队,利用机器学习与物理建模相结合的方法(DeePMD)成功模拟了包含 1 亿个原子的量子分子动力学系统,并获得了当年的国际高性能计算应用领域的最高奖戈登贝尔奖。


不同于经典分子动力学,量子分子动力学采用含时薛定谔方程为理论框架,每一步都需要使用考虑电子作用的量子力学方法计算能量和力,对每个原子都实现精确的测量和描述,因此需要极其巨大的计算量,一般只能模拟几个到几十个原子。


深度势能分子动力学的开源项目 DeePMD-kit,通过将第一性原理建模、以机器学习为代表的数据驱动方法和高性能计算紧密结合,能够以第一性原理的精度处理超大规模的分子动力学问题。也就是说,DeePMD-kit 能够在全新的尺度上建立精确的分子动力学模型,帮助研究人员更好地理解制药、材料、能源、环境等领域的核心问题。


尽管实验是检验科学假说最重要的判据,但很多时候很难或根本无法进行实验。20 世纪最重要的一些科学突破,比如狄拉克的电子方程,爱因斯坦的广义相对论,都已经实质性地推动了人类对宇宙的理解,但至今依然缺乏相关的实验数据,甚至无法确定实验的可行性。这也是「计算」成为继「实验」和「理论」之后,又一公认的科研范式的重要原因。


如今「数据」作为第四种科研范式的观点得到越来越多人的认可,但鄂维南教授对此持保留意见。在他看来,什么是新的科研范式,是第几种范式,其实没那么重要,重要的是如何利用更强大的计算能力和数据处理能力,解决更多实际问题。


人工智能正在协助突破人类固有的认知局限。人脑无法想象在 5 维、10 维、100 维的高维空间里会发生什么,人脑甚至无法想象出四维空间。但从应用数学的角度看,基于机理的计算和基于数据的计算正在发展成为一种新的融合计算,这种融合计算能够让我们更好地处理更多不同类型的数据,更好地求解更高维度的问题。


随着计算的发展,我们能够对基本定律和复杂方程进行更好的计算,加深对自然现象的理解,而这种理解将促进我们设计出更好的计算机,然后进行更好的计算,如此循环,实现螺旋式的上升。


鄂维南教授正在带领团队构建下一代机器学习算法,通过新的融合计算的方式,并且结合物理模型,将来在解决物理问题时,或许只需要几个噪声数据点就可以得到对一个现象的完美描述,因为输入的是已知的物理原理。



在火热的领域保持冷静


足够强大的通用学习算法能够解决算法设计者本人所不知道的问题。随着世界上各种问题变得更加极端和复杂,我们应该利用所有能够解决这些问题的有效工具。


或许可以参考 DeepMind 的思路:现阶段的机器学习更多是工程,先把解决特定问题的系统做出来,然后看其中哪些部分对于解决问题真正有效,再把有效的部分拿出来,在此基础上构建更通用的模型。这也是他们如何从 AlphaGo 走到 AlphaZero。


在构建模型的过程当中,如何将领域知识有效融入模型,并且确保这样做不会对模型的学习造成影响,这方面的实践则有助于深度神经网络的理论研究。


在 AI 领域之外,机器学习或将拥有更广阔的天地,作为一种被证明可靠的数学工具,在基础学科和不断涌现的新的交叉领域,求解各种复杂问题。一个新的科学发现和技术创新的时代已经来临。


2021 年 9 月,鄂维南教授推动成立了北京科学智能研究院(AI for Science Institute, Beijing,简称 AISI),积极倡导 AI for Science 的同时,也强调要理性看待和支持,在一个火热的领域保持冷静。


2022 年 8 月 8 日至 11 日,由北京科学智能研究院主办、深势科技承办的 2022 中关村论坛系列活动——科学智能峰会将于线上召开,鄂维南院士将在峰会首日的主论坛发表报告《发生在当下的科技革命》,欢迎关注。


相关文章
|
30天前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
57 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI与未来医疗:革命性的诊断与治疗
本文探讨了人工智能在医疗领域的应用及其对未来医疗保健的潜在影响。通过分析当前AI技术的发展,特别是在疾病诊断、个性化治疗和患者护理方面的应用,揭示了AI如何提高医疗服务效率、准确性和可及性。同时,讨论了AI技术面临的伦理和隐私挑战,为未来医疗保健的发展方向提供了思考。
|
2天前
|
机器学习/深度学习 人工智能 测试技术
革命来临:AI如何彻底颠覆传统软件开发的每一个环节
【10月更文挑战第32天】本文探讨了AI技术如何重塑软件开发行业,从需求分析、设计、编码、测试到项目管理,AI的应用不仅提高了开发效率,还提升了软件质量和用户体验。通过对比传统方法与AI驱动的新方法,展示了AI在各个阶段的具体应用和优势。
13 3
|
1天前
|
机器学习/深度学习 人工智能 搜索推荐
探索AI在医疗诊断中的革命性应用
【10月更文挑战第29天】 随着人工智能技术的飞速发展,其在医疗领域的应用已成为推动现代医疗服务创新的重要力量。本文旨在探讨AI技术如何在医疗诊断中发挥其独特优势,通过分析AI在影像诊断、疾病预测和个性化治疗计划制定等方面的应用案例,揭示AI技术如何提高诊断的准确性和效率,以及面临的挑战和未来发展趋势。
17 1
|
9天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命:智能诊断系统的未来
在科技日新月异的今天,人工智能(AI)技术正逐渐渗透到我们生活的每一个角落,其中医疗领域尤为显著。本文将探讨AI在医疗诊断中的应用及其带来的变革,重点介绍智能诊断系统的发展现状与未来趋势。通过深入浅出的方式,我们将揭示AI如何改变传统医疗模式,提高诊断效率和准确性,最终造福广大患者。
|
11天前
|
机器学习/深度学习 人工智能 算法
AI与未来教育:一场革命性融合
在这个信息爆炸的时代,人工智能(AI)正逐步渗透到我们生活的每一个角落,教育领域也不例外。本文旨在探讨AI技术如何革新传统教育模式,以及这一变革可能带来的深远影响。通过分析AI在个性化学习、智能辅导系统、教育资源优化分配等方面的应用案例,揭示其对未来教育生态的重塑潜力。同时,文章也将讨论伴随技术进步而来的挑战,如数据隐私保护、教师角色转变等问题,并提出相应的解决思路和建议,为构建更加公平、高效、人性化的教育体系提供参考。
|
13天前
|
人工智能 搜索推荐 安全
人工智能与未来社会:探索AI在教育领域的革命性影响
本文深入探讨了人工智能(AI)技术在教育领域的潜在影响和变革。通过分析AI如何个性化学习路径、提高教学效率以及促进教育资源的公平分配,我们揭示了AI技术对教育模式的重塑力量。文章还讨论了实施AI教育所面临的挑战,包括数据隐私、伦理问题及技术普及障碍,并提出了相应的解决策略。通过具体案例分析,本文旨在启发读者思考AI如何助力构建更加智能、高效和包容的教育生态系统。
|
19天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命性应用
【10月更文挑战第14天】 本文探讨了人工智能(AI)在医疗行业中的多种应用,包括疾病诊断、个性化治疗、药物研发等。通过具体案例分析,展示了AI技术如何提高医疗服务效率和准确性,同时指出了当前面临的挑战与未来发展趋势。
39 2
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,重塑健康产业
在21世纪的科技浪潮中,人工智能(AI)正迅速成为医疗领域的关键力量。本文探讨了AI在未来医疗中的潜力和应用前景,从智能诊断、个性化治疗到药物研发和患者护理,详细阐述了AI如何通过提升效率、准确性和个性化医疗服务来重塑健康产业。通过案例分析和专家观点,本文展示了AI在医疗领域的多重影响,并讨论了其面临的伦理和隐私挑战。