2018 年,双十一之后不久,阿里巴巴集团 CEO 张勇对阿里架构进行了重大调整:阿里云升级为阿里云智能,集团首席技术官(CTO)张建锋兼任阿里云智能事业群总裁。
3 月 21 日,2019 阿里云峰会·北京在国家会议中心召开,这是「阿里云」升级为「阿里云智能」后的首场开发布会,也是张建锋上任后首次公开亮相。
阿里云「十年再出发」
会上,张建锋首先阐述了阿里云的战略思考。通过十年,阿里云的市场份额达到 2-8 名总和。阿里云组织架构的升级意味着「阿里云」将变成「云上的阿里巴巴」,成为「阿里巴巴经济体的技术底座」和「阿里巴巴所有技术和产品的输出平台」。
阿里云前 logo(左)、阿里云现 logo(右)
升级后的「阿里云」具备以下四个优势:
1. 技术:达摩院加持的云。整个阿里巴巴的技术变成阿里云的一部分,达摩院的先进技术作为云智能的一个基础部分。
2. 产品,数据智能的云。产品一定是基于数据智能的、非常稳定可靠的云。
3. 商业,最佳实践的云。「我们和绝大多数云服务商不一样,我们是自带最佳实践的云。我们运营了最大的电子商务平台,也运营了最大的支付平台。我们有非常多的技术实践、产品实践和商业实践,阿里云是一个最佳实践的云。」
4. 生态,被集成的云。「我们会跟合作伙伴建立更紧密的关系,我们的合作伙伴成功了,我们的客户成功了,才说明阿里云这个云智能模式、这个系统、这个产品、这个技术是成功的。今天是阿里云第一次明确说我们是一个被集成的、生态化的云。」
张建锋指出,未来一到两年,阿里巴巴 100% 的业务要跑在公共云上,自己用的技术会跟阿里云上的产品保持一致,将来阿里巴巴经济体内的 To B 服务都会通过阿里云平台对外输出。阿里云将加大科研投入,持续扩大云的技术代差;将加大行业战略性投入,聚焦新零售、新金融、数字政府。
他还表示,阿里云将练好内功「被集成」,把阿里云变成合作伙伴行业解决方案的一部分。「阿里云自己不做 SaaS,让大家来做更好的 SaaS。」
自研的第一款阿里巴巴 NPU 将在下半年正式发布
「三年前成立了达摩院,我们在持续加大投入。在量子计算、机器智能、嵌入式芯片、数据库进行了广泛投入。在芯片端我们在 IoT 端嵌入式芯片发展非常快,去年销售约 2 亿片芯片。」张建锋在会上透露。
很快,网上便出现了「阿里达摩院去年芯片卖出 2 亿片」、「阿里云张剑锋:去年阿里云 IOT 芯片卖出 2 亿元」等相关报道。机器之心记者就「阿里 IoT 端嵌入式芯片发现非常快,去年销售约 2 亿片芯片」一事向阿里云、达摩院多位公关求证后获悉,这约 2 亿片 IoT 端嵌入式芯片是「中天微」的。
去年 4 月 20 日,阿里巴巴宣布全资收购中天微。当时,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。
宣布收购中天微的前一天(2018 年 4 月 19 日),阿里宣布,达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。
张建锋透露,自研的第一款阿里巴巴 NPU 将在今年下半年正式发布,并且,这个芯片的性能「在这个同等芯片里面都是非常非常领先的,它不是领先一倍两倍的问题,是领先十倍以上的。」
与 AI 相关的几款产品
2019 阿里云峰会·北京主论坛上,共发布了数十款产品,第一个被推出的是神龙异构超算集群 SCC-GN6。
这款产品采用了英特尔定制的 96 核 CPU,采用英伟达 V100、单机 8 卡、可提供 1000T-TFLOPS 性能,支持 1Tb/s 的高性能 CPFS 并行文件系统,50Gbps 的 RDMA 高速网络、时延小于 2us(微秒)。
据介绍,SCC-GN6 是首个基于弹性裸金属服务器神龙 X-Dragon 架构的超算异构产品,能将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。
在媒体群访环节,针对「SCC-GN6 能将深度学习训练时间缩短至分钟级」这个点,阿里云智能创新产品线负责人张献涛、阿里云异构计算研发负责人龙欣、阿里云高级产品专家王志坤做了如下拓展:
「在 AI 的深度学习的场景中,特别是训练场景下,单机的计算力已经没有办法满足在绝大部分场景下训练诉求,需要天甚至上月的时间才能达到比较好的模型的收敛。在很多场景下,大家希望把多台机器去互联起来做集群性运算,去加速模型的训练。但是这种背景下,传统虚拟化网络,其实是没有办法满足在多机训练场景下的诉求。
在超算场景下,一直有它的一些解决方案,类似于 IB 或者 RDMA 这样的网络协议,这种协议天然地和数据中心是不兼容的,因为它有安全上的一些问题。
神龙的出现解决了一个什么样的问题?不仅解决了计算的物理机交互,还解决了网络上和虚拟网络不兼容的这样一个物理网络的交付,通过 RDMA 把我们多台训练的机器进行互联。一是,高带宽的互联,同时保证了在多机互联的情况下,我们的线性伸缩比会非常好,这是我们要用一个物理的网络去把它接起来,把它称做超级计算集群很重要的点。这项技术最重要,其实就是我们的神龙技术。」
「单机情况下,我们现在交付的是单节点 1000 TFLOPS 的性能,根据客户需求,可以选择 8 个节点或者 16 个节点,这个数字就可以做一个简单的倍加,就得到一个算力。」他们还透露,「最多我们现在单集群可以支持 512 个节点,就是 4000 个 GPU 的计算力,近似于线性的形式做。人工智能的客户,比如在一些大模型训练上面,效率提升是非常高的。」
阿里云表示,以 ImageNet 竞赛的 128 万张图片的数据集为例,用普通计算资源训练 ResNet50 模型,如要达到 75% 的精度需要数天甚至一周的时间,而使用该神龙异构超算集群产品,模型训练可以缩短到几分钟,大大提升 AI 算法研发效率,加速业务创新。
此外,阿里云还发布了国内首个公共云上的轻量级 GPU 异构计算产品——vGN5i,打破传统直通模式局限,提供比单颗物理 GPU 更细粒度的服务,从而让用户以更低成本、更高弹性开展业务。
会上还推出了机器学习和深度学习平台 PAI v3.0。
据悉,PAI 3.0 推出了全新的算法模型市场,涵盖电商、社交、广告、金融等多个行业,数十种场景的算法模型;新增流式算法组件、图神经网络、增强学习组件等平台工具。
据「AI 前线」报道,作为机器学习平台的内核,PAI 的智能计算引擎也进行了全面升级,通过编译技术优化通用计算引擎,训练性能提升 400%;深度学习优化分布式引擎,单任务支持上千 worker 并发训练,支持 5k+ 超大规模异构计算集群;发布大规模图神经网络,缓存机制效率提升 40%,算子速度提升 12 倍,系统端建图时间从数小时降至 5 分钟。
「大家可能知道,人工智能今天还不能做到去通用解决任何问题,但是它可以很好地解决在某一个专业领域、专业点的问题。我们也是有这样一个算法平台开放出来,让丰富的算法放到这个平台当中,同时提供和过去相比高达 4 倍的计算效率。」阿里云智能产品管理部经理马劲在现场介绍道。
通州区引入城市大脑,防控环境污染
主论坛上,北京市通州区宣布与阿里云在生态环境综合治理方面达成合作。
据了解,通州副中心规划面积 155 平方公里。预计在「十二五」期间,新城将初具规模。
由于当前处于施工建设期,如何保障城市环境不受影响成为当地最为关注的问题之一,通州区决定引入城市大脑技术。全区接入了 1437 路城市环境监测视频、1100 个大气监测及扬尘预警传感设备;打通融合城管委、住建局、环保局等多部门的信息平台;平均每 10 分钟就可以完成一次全区域视频扫描。
通州区副区长苏国斌介绍,「城市大脑·生态环境」平台在通州上岗以来,实现了通州核心区的环境污染事件从人工发现到实时自动感知,从多部门多头处置到一网通办的本质提升。
苏国斌副区长还表示,未来水源监测、建筑施工、垃圾清理、排污降噪等等也将引入城市大脑相关技术。
本文为机器之心原创,转载请联系本公众号获得授权。