阿里灵杰融合智能算力,全栈AI服务为探索者铺路

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。

image.png

8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为各类科研和智能企业机构提供高效、开放、绿色的智能计算服务。


其中,在AI开发层,阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。


本文基于阿里云智能AI产品总监黄博远在阿里云飞天智算平台发布会上《AI Power · 智能新前沿》的演讲梳理成文,将围绕大模型应用趋势、AI工程化、软硬件结合的智能计算应用案例等话题作详细介绍。

演讲嘉宾|黄博远

本文来源阿里云飞天智算平台发布会演讲


如今,人工智能(AI)在各行各业里得到非常多的应用,并且开始探索生物学、化学、物理学等基础科学的知识,一如此前AI学习理解图像、声音和语言。


AI依赖于计算,同时今天AI也反过来去提升传统意义上的科学计算的效率。无论是新药物研发、新材料生成、还是自动驾驶,我们相信都将迎来新的革命,这些都是十多年前认为遥不可及的。


两股新动力将人工智能应用推到新高度

我们认为有两股新动力将把人工智能的应用推向新的高度:具备泛化能力的预训练模型和数据中心级的智能算力。

image.png

1.  具备泛化能力的预训练模型

相信在座各位经常听到一些相关报道,比如“哪项AI能力超越了人类的认知水平”之类。其实这仅仅揭示了AI和预训练大模型能力的冰山一角。预训练大模型,尤其是多模态大模型,有三个核心优势。


它们具备非常好的“泛化能力”,因为训练过程使用到大量模态数据,因此具备通用性。与人类感受和认识世界的过程类似,今天在座的各位耳朵里听着我们演讲的内容,眼睛在看着屏幕,有时还会用手机或电脑查询相关资料,这个过程就是多模态认知理解的过程。一旦具备多模态的学习能力,模型认知水平就会变强,能在更多行业得到高效利用。


其次,从参与者视角来看,预训练大模型能大幅降低制造高质量模型的门槛。回想一下,从零开始制造一个生产级的大模型需要怎样的投入?海量数据采集、数据工程、神经网络、模型训练……整套流程走完,出来的模型效果可能并不好,还需要无数次调整。而今天预训练大模型给我们提供了一个巨人的肩膀。


大家可以站在这个巨人肩膀上,依托大模型,引入特定领域的“小数据”,就能获得一个具备领域知识且效果非常好的模型。这就好比,如果我们找一个数学家帮忙算账,他只需要了解基本的算账规则,很快就能算完。但如果找一个没学过数学的人来算,可能就遥遥无期了。


第三个特点,从整个产业的角度讲,基于大模型的AI研发范式是更加经济环保的。当我们集中力量训练出一系列大模型,让产业内的从业者基于大模型在自己的领域做更精细化的训练,这样一些通用的计算就不需要被反反复复执行,我们就能节省非常多资源。这就像热能厂出现以后,大家都不需要自己在家生炉子了,在家可以直接吹到暖气,如果温度不合适就自己控制阀门获得喜欢的温度。所以我们说,大模型的模式是面向未来的AI研发范式。


2.  数据中心级的智能算力


不仅仅是预训练大模型,当下很多人工智能模型的生成过程是非常复杂的。算力依然是决定AI能力上限的关键因素。数据中心级的智能算力,通过软硬一体的联合优化,能把我们从最底层硬件,到网络、系统、框架、再到最上边的算法,层层联合优化,形成极致的算力优化效果,使得计算速度得到接近百万倍的提升。可以说,超级的智能算力是人工智能越来越强大的基础设施,是推动各行各业走向智能化的驱动引擎。


如何让每个AI创新者拥有这些能力?

刚才介绍了两种驱动力,可是我们每一位开发者能够拥有这样的驱动力吗?其实横亘在开发者、创新者和刚才的两种驱动力之间的,还有很多的障碍。


首先是算力消耗。以我们耳熟能详的语言类大模型GPT-3为例,高达1750亿个参数,训练这样的模型消耗的资源,相当于开一辆汽车,从地球开到月球往返一次的能耗费用。这个例子还只计算了资源的部分,其实这辆“车”本身也造价不菲,大家都知道异构计算的底层硬件非常昂贵,一般的开发者创新者,很难用得起这样的资源。


人才和工具链也是挑战。在AI整个创新过程当中,人才也是非常非常重要的一种资源。在这个领域,我们既需要具备一定的领域知识,还要懂AI、还要懂数据技术,这类人才现在无疑是非常宝贵的。此外,我们曾经针对AI开发做过一个调研,如果完整走一遍AI研发端到端的流程,大概需要使用到多少工具或者产品?结果非常惊人,至少12种。可想而知,整个工作链有多复杂。


AI 工程化最佳实践:基于阿里云训练出全球最大预训练模型M6

刚才讲到达摩院的预训练大模型M6。其实M6的生产过程本身就是解决上述挑战的典型例子。M6的参数规模达到了10万亿,是全球最大的预训练模型。与传统AI模型相比,大模型拥有成百上千倍的神经原数量,经常表现出像人类一样的举一反三的学习能力。因此,大模型普遍被认为是未来的基础模型,会成为下一代AI基础设施。下面我们看看这个大模型到底怎么来的?

image.png

首先来看资源问题。M6基于阿里云高效的云原生机器学习平台PAI进行训练。PAI依托丰富的场景,包括服务阿里巴巴内部和阿里云上客户的诸多场景,锤炼了超大规模分布式训练的最佳实践,并通过PAI-EPL分布式训练框架对外提供训练加速能力。PAI-EPL框架具备丰富的分布式训练架构,包括数据并行,模型并行,流水并行等。最关键的,AI模型训练是一个反复迭代的计算过程,PAI-EPL框架可以在迭代过程当中,自动地帮助使用者寻找合适的并行方式,在不同阶段对症下药。这样能够带来接近线性的分布式加速能力,大幅降低超大规模模型的训练成本。

image.png

如果说训练是一次性的或者周期性的,那么推理可能每时每刻都在发生,当模型真正投入到日常应用中去,就离不开推理。PAI-Blade可以提供一站式通用推理优化工具。简单讲,它通过模型压缩算法,把模型变小再变小之后,模型的承载效率会变高。但是这个变小的过程,也非常有技术含量。模型在变小的过程中,效果不能变差,准确度不能有损耗。


此外我们结合阿里巴巴自研的AI编译器,自动针对目标环境去进行优化。目标环境可能是各种各样的异构硬件资源,AI编译器可以把整个效率推升到极致,底层支持CPU、GPU、以及含光、海光等硬件。作为通用的推理优化工具,除了性能上有提升,更关键的是易用性,我们希望通过PAI-Blade工具,能将优化过程对用户透明,尽量避免用户修改模型代码,提升便利性。


大数据AI一体化平台:支撑AI研发全生命周期

这里我们解决了机器资源的问题、训练性能和推理性能问题,下一个问题是如何提升数据科学家的工作效率。阿里云建立了大数据AI一体化平台,一站式支撑整个AI研发的生命周期。


今天,随着AI技术的增强,AI研发效率的问题变得越来越复杂和严峻。放在很多年前,我们用AI解决哪些问题?最典型的就是文字识别,解决这类问题只涉及几种数据,一堆照片、拍下来的手写文字、以及两者间的对应关系,齐了。可以说在那个时代,大家很难感受到对大数据+AI一体化的平台的需求。现在呢,我们在用AI解决智能搜索、智能推荐、自动驾驶、科学计算、智能交互等等问题,而这些场景需要这样哪些数据呢?需要把数据仓库当中代表着认知智能的结构化数据和数据湖里边代表着这些感知智能的(例如视觉、语音等等)数据,两类数据综合在一起使用,才能解决最终的业务问题,整个过程十分复杂。

image.png

我们通过阿里灵杰大数据AI平台,支撑了从数据标注、数据开发、到模型设计、训练、推理、部署整套的工作流。AI研发本身是一个持续迭代的过程,所以用户还需要对效果进行监控,一旦发现效果不理想,还要回来重新再训练这个模型。这一整套流程都可以用阿里灵杰大数据AI一体化平台解决,最大程度降低了从开发到生产,到运维的复杂度和成本。


链接庞大的AI开放生态,持续创造价值

在强大的PaaS平台的有力支撑下,阿里云构建了丰富的AI开放生态。基于我们最基础的语音、视觉、NLP等基础技术,提供了上百种SaaS化AI服务,这些服务非常简单易用。我们在云上的AI服务,每天调用次数超过一万亿次,我们为广大用户提供了稳定和可靠的AI服务体系。


此外,阿里云整体服务了超过100万AI开发者。AI开发者可以在我们的平台上获得开箱即用的技术服务、最佳实践和学习资源。


最后,阿里云作为中国云计算的领导者,我们深入到各行各业,积累了大量的客户以及应用需求,为我们的开放生态中的所有参与者,提供了最直接的业务支持,形成了生态与企业需求之间的良性互动。


AI for Science 是近期非常火的领域,而 AI和智能计算在生物医药等领域正在发挥它的作用,而且有非常喜人的成果。深势科技通过多尺度建模结合机器学习的创新方法,在确保模拟精度的同时,引入深度学习算法处理大规模数据计算问题。


在这个过程中阿里云通过PAI平台自研AI编译器利用协同优化、编排优化等手段,将深势的机器学习训练效率提升5倍以上,帮助加速了新材料和新药物研发的进程。

image.png

我们将持续通过全栈AI服务、高效的机器学习平台、以及门槛更低更易用的模型服务,助力广大开发者。驱动AI理想落进现实,为创新者加速,为开拓者铺路。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
28天前
|
存储 人工智能 运维
|
27天前
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
129 15
|
26天前
|
人工智能 运维 数据挖掘
跨界融合:AI与5G技术如何共同推动数字化转型
【10月更文挑战第29天】本文探讨了人工智能(AI)与第五代移动通信技术(5G)的结合如何推动数字化转型。通过高速、低延迟的5G网络和AI的数据分析能力,两者相辅相成,实现了智能化网络运维、增强网络功能和多行业的实际应用。文中提供了网络流量预测和故障预测的示例代码,展示了技术的实际应用潜力。
43 1
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
88 10
|
29天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
50 3
|
1月前
|
机器学习/深度学习 人工智能 算法
AI与未来教育:一场革命性融合
在这个信息爆炸的时代,人工智能(AI)正逐步渗透到我们生活的每一个角落,教育领域也不例外。本文旨在探讨AI技术如何革新传统教育模式,以及这一变革可能带来的深远影响。通过分析AI在个性化学习、智能辅导系统、教育资源优化分配等方面的应用案例,揭示其对未来教育生态的重塑潜力。同时,文章也将讨论伴随技术进步而来的挑战,如数据隐私保护、教师角色转变等问题,并提出相应的解决思路和建议,为构建更加公平、高效、人性化的教育体系提供参考。
|
2月前
|
人工智能 自然语言处理 数据可视化
阿里云AI大模型助力客户对话分析——全方位提升服务与体验
随着数字化转型的推进,企业愈发重视客户互动数据的价值。阿里云推出了一套基于AI大模型的客户对话分析解决方案,通过自动化手段分析大量客户对话数据,提取有价值信息,优化服务流程,提升客户体验。本文将结合技术文档和实际体验,全面评测这一解决方案。
75 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。
|
2月前
|
机器学习/深度学习 人工智能 算法
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第15天】在数字化时代的浪潮中,软件测试作为保障软件质量的重要手段,正经历着前所未有的变革。随着人工智能(AI)技术的快速发展和自动化测试工具的不断完善,传统的测试方法正在被重新塑造。本文将深入探讨AI如何赋能软件测试,提升测试效率和准确性,以及自动化测试的未来趋势。我们将通过实际案例,揭示AI与自动化测试相结合的强大潜力,为读者描绘一幅软件测试领域的未来蓝图。
|
2月前
|
人工智能 算法 数据挖掘
AI心语:智能代码与人为艺术的融合
在这个数字时代,人工智能似乎无所不能。它下棋能赢过世界冠军,写文章可骗过编辑,甚至画画能展览于画廊。但AI真的懂得创作吗?还是它仅仅是高级的模仿者?本文将深入探讨AI在艺术创作中的角色,以及它对人类创造力的影响。

热门文章

最新文章