9 月 2 日,德国柏林 IFA 2017 电子展上,华为消费者业务 CEO 余承东推出全球第一款手机端 AI 芯片麒麟 970(Kirin 970),以芯、端、云协同发展战略积极部署移动端 AI 生态,在演讲中,描绘了一幅浩瀚未知而又令人芯驰神往的未来图景。
25 日,华为在北京召开媒体沟通会,华为 Fellow 艾伟对 Kirin 970 作了进一步的深度解读;十年来,从 K3V1 到 Kirin 970,华为芯片一路走来,坚守 SoC 策略,持续集成,异构创新;坚持用户体验优先,奋力实现从智能到智慧的转变。下文是机器之心对 Kirin 970 媒体沟通会的报道,希望读者对这颗「中国芯」有更多了解。
Mobile AI
如果说移动端 AI 革命已经兴起,那么华为 Kirin 970 无疑是打响了第一枪。华为把 Kirin 970 比做智能手机的「新大脑」,它是实现最终智能体验「Mobile AI=On-Device AI+Cloud-AI」的关键;有了 Kirin 970,华为的芯、端、云战略才能免于空谈,并为后来的移动端 AI 生态布局打下坚实基础,形成商业闭环。
Kirin 970 CPU 采用 big.LITTLE 架构,内置 4 个用于处理重负载任务的 Cortex A73 核心,4 个 Cortex A53 核心,GPU 则为全新一代具有 12 个核心的 Mali-G72 MP12,所有参数都达到了旗舰产品级别;采用台积电(TSMC)10nm 制程工艺,晶体管总数达 55 亿;支持全球最高的通信规格 LTE Cat.18/Cat.13,实现了业界最高的 1.2Gbps 峰值下载速率;同时升级了自行研制的 ISP,并且在前一代双摄 ISP 的基础上进行了全面升级,其针对特定场景进行了性能和效果优化,可帮助使用者拍出更自然、更美的照片。在硬件参数的升级之外,Kirin 970 最引人关注的新特性就是全新设计的 HiAI 移动计算平台了。
训练与推断
想象一下,如果 AI 是《疯狂动物城》里的树懒「闪电」,这个世界会怎么样?答案是 AI 将销声匿迹。自 1956 年 AI 诞生以来,三起两落也罢,百家争鸣也罢,人类始终最希望的是 AI 能够快速地「学以所用」:不仅要快速地学习知识(训练),还能快速地应用知识(推断),让知识在瞬间爆发出来,这样 AI 才能为人所用。所以,对知识的及时处理是 Mobile AI 应用的关键。
这意味着 Kirin 970 作为手机端 AI 芯片要在知识处理,即推断上猛抓,且做足功夫,因为全球人工智能的基本趋势是企业级市场依然是一门「云生意」,毫无变革念头;消费级市场则正在从云端下沉到终端,华为以及苹果、三星等抢占的正是这块高地。令人欣慰的是 Kirin 970 在 Mobile AI 方面确实是先声夺人、先人一步。
那么,华为如何提供一套兼顾完备性、个性化和隐私保护的知识模型方案呢?
在日常生活中,人类需要个体智慧和集体智慧相互协同产生更巨大的力量;而未来的智慧终端想要不断地发展,相应的 AI 体系除了要充分发挥终端自身的能力和价值,也要结合大数据和云技术带来的海量信息、服务和超强计算力,如此才能整合通用知识模型与个人知识模型,激发出移动端 AI 在训练与推断方面的双料潜力。所以不会存在纯粹终端的 On-Device AI,否则知识模型的完备性将会丧失。
全球化时代背景下,个性化显得越发珍贵;在手机中,个性化更是提升用户体验的重头戏。一般来讲,云端多以训练为主,终端多以 Inference 推断为主,华为的当前这代 NPU 作为一款 AI 加速器则侧重加速端侧推断能力。接下来后面如果 NPU 或者 GPU 可以通过个人数据自我训练,那么手机就具备了学习能力,它吸取的个人数据越多就越智能,越个性化,越懂我。并真正做到学以所用,而最重要的是这一切发生在本地终端,省去了隐私泄漏的担忧。
性能与功耗
今年 5 月份谷歌推出 TPU 2.0。TPU 是谷歌研发的一款深度学习加速 ASIC 芯片,第一代 TPU 仅支持推断(即不可用于训练模型),并在 AlphaGo 人机大战中提供了致胜的算力支撑。目前 TPU 2.0 除推断以外,还能高效支持训练环节的深度学习加速。据谷歌披露,32 块 GPU 并行训练一整天而完成的深度学习翻译模型训练任务,只需在 TPU2.0 上通过 1/8 TPU Pod(TPU 集群,每 64 个 TPU 组成一个 Pod)就能在 6 小时内完成。
同样在今年 5 月,英伟达在 2017 GPU 技术大会(GTC 2017)上正式发布新一代处理器架构 Volta V100,「Volta 并不是 Pascal 的升级,而是一个全新的架构!」英伟达应用深度学习研究副总裁 Bryan Catanzaro 如是说。英伟达通过该架构耗资 30 亿美元打造了一款深度学习加速器 Tesla V100,其采用台积电(TSMC)12nm FFN 专属工艺,包含 211 亿个晶体管,速度超越 100TFlops,英伟达号称这是全球最先进的数据中心 GPU,主打企业级超大规模深度神经网络加速。
以上是 2017 年业界对 AI 处理性能探索的两个典型代表,Tesla V100 与 TPU2 作为服务器端的 AI 芯片性能无可挑剔,但前提是它们没有尺寸的考虑和功耗方面的明显限制,可以一直插着电,并配有先进的降温系统,这些要求手机端的 AI 芯片显然无法满足。大家知道 Kirin 970 含有 55 亿个晶体管,那么它们是如何封装进指甲那么小的空间呢?并且需要同时保证性能与能耗甚至还有所提升,这一切不能超出手机电池的承受范围,其难度可想而知。除此之外,Kirin 970(CPU、GPU、NPU、ISP、DSP)还需要考虑实际 APP 的各种需求,难度就更大了。
面对这一问题,华为如何实现从服务器端到手机端的跨越呢?答案是华为在传统解决方案 SoC 的深厚积淀之上,创造性地提出了「HiAI 异构架构」,非常好地异构融合了 CPU、GPU、NPU、ISP 与 DSP,在处理同样 AI 应用任务时,拥有大约 25 倍性能和 50 倍能效优势,使 Kirin 970 成为了名副其实的全球首款手机端 AI 芯片和 AI 计算平台。
挑战
Kirin 970 之后,苹果随后也推出了手机端 AI 芯片 A11,以及搭载该芯片的 iPhone X、iPhone 8、iPhone 8 Plus,后来居上。华为与苹果在移动端 AI 方面抢占了其他手机厂商如三星、小米的先机,那么两家之间孰优孰劣呢?苹果无疑是 Kirin 970 目前面临的最大挑战。
安卓与 iOS
安卓与 iOS 之间的拉锯战迎来了新的范式转换——手机端 AI 芯片。这一次的变革天然有利于苹果 iOS。一个完整的手机生态需要算力+开发+硬件,三者缺一不可。苹果软硬件高度一体化的封闭生态很适合把 A11 芯片的强大算力顺利导给开发者,而开发者借助强大算力把想法通过硬件实现出来,从而形成一个良性循环、上下游多赢的局面,最终带来收获口碑的不二王道——绝佳的用户体验。
而安卓系统的开放性所带来的天然缺陷恰恰是无法把 AI 芯片的强大算力从底层顺利导向开发和硬件,从而使得算力打折扣。庆幸的是采用安卓系统的华为手机(以及其他国内手机如小米)通过去 GMS 在相当程度上克服了安卓系统的缺陷,这样华为在手机系统上并未失利,苹果华为几乎在同一起跑线上,两家真正的共同挑战在于应用场景与共同体验。从过往的手机体验以及 iPhone X、iPhone 8、iPhone 8 Plus 的最新表现来看,华为 Mate 10 似乎承受着不小的压力。
这次的沟通会上,华为给出了一个不正常的对标。通过多张拍照效果对比,华为证明 Kirin 970 在拍照上完爆 iPhone 8 Plus。注意,华为给出的对标是自家的芯片与别家的手机,这显然不对。其实华为真正想说的是 Kirin 970 要比苹果 A11 牛,不仅是在拍照效果上,在相同网络模型下每分钟识别的图像数量上也是如此(Kirin 970 为 2005 张,iPhone 8 Plus 为 889 张)。Kirin 970 的 AI 性能优于 A11 是可信的,但这并不意味着华为 Mate 10 的最终性能和用户体验同样优于 iPhone 8 Plus,这才是问题的关键。
HiAI 移动计算平台
华为 Mate 10 未出,目前一切皆是「云测评」。或许只有等到 Mate 10 出来,答案才能揭晓。但这显然不是手机端 AI 的最后答卷,两家都有着先发红利,把握先机、吸引开发者打造爆款应用才是当务之急。Kirin 970 完爆 A11,固然不错,但 HiAI 移动计算平台才是当下华为手机的真正利器。
HiAI 移动计算平台推出的最终目的在于把 Kirin 970 的 AI Computing 的能力开放出来,期望更多的 AI 合作伙伴与开发者探索更好的应用。可以说这是大势所趋,华为别无二择。Kirin 970 的推出使得华为在移动端 AI 芯片上先发制人,堪称惊艳,但后续的应用场景同样关键,华为如何做到继续领先呢?唯有走场景生态的路子,迅速培育出利用 NPU 计算力的杀手级应用,形成商业闭环。HiAI 移动计算平台可谓这次 Kirin 970 沟通会的唯一重头戏。