地平线CTO黄畅:别让硬件「被锁死」

简介: 地平线CTO黄畅:别让硬件「被锁死」

2019年初,地平线开始立项研发第三代车规级芯片,也就是征程5在研发期间,一度有传言称其项目停滞难以落地,这也从侧面反映出这颗芯片的挑战之高。

不过,2021年2月,征程5还是在台积电顺利流片,并在5月一次性流片成功,在15小时内完成了全部的核心功能测试。这意味着,征程5或将是国内首款实现前装量产的百TOPS级大算力AI芯片。

果然,地平线已宣布,最快在今年Q4,搭载征程5的首个项目即将实现量产。如今,比亚迪、一汽红旗和自游家汽车都已是其定点合作车企,另外还有更多合作车企将陆续公布。

除此之外,还有一个「小彩蛋」:自去年7月正式发布征程5至今,其帧率从当时宣布的1283FPS,又提升到了如今的1500+FPS,性能提升近20%。

(地平线联合创始人兼CTO黄畅)

为什么一颗芯片,在硬件架构和算法都没有任何变化的情况下,发布不到一年,反而帧率还提高了?在一场地平线技术开放日上,地平线联合创始人兼CTO黄畅为我们详细解释了征程5背后的开发逻辑,以及车规级芯片面临的问题和趋势。

「请大家忽略TOPS峰值」

帧率(Frames Per Second)的提升,体现的是真实计算性能的提升。这也是地平线一直以来所推崇的,评估芯片的重要指标。

「请大家忽略TOPS峰值,我们在乎的是真正能够用于算法有效计算的算力。」黄畅认为,对于峰值算力值,大家不会做出太大的差异,但是在FPS上可以有巨大的差异。

他解释称,当硬件架构和算法锁定后,软件架构还可以持续改善,编译器也还可以持续地将同一个算法在同一个芯片上通过编译、拆解、重组,部署和运行调度。

通过编译器的高效分析,对算法网络结构进行解构,将尽可能多的存储和计算都利用起来,使它能够在更短的时间内完成AI推理任务。这就是软件的架构要去解决的问题,也是地平线BPU要达成的任务之一。

「如果在硬件设计阶段,就预先设定好数据通路的话,好处是硬件设计会容易一些,坏处是软件没有改变Data path,相当于被硬件锁死了,没有软件空间。」黄畅认为,地平线的理念是「能让软件做的事,尽可能让软件做」,而硬件则承担着简单、极致、高效且容易被软件灵活调用的功能。

「算法是一个客观大趋势,不随计算平台公司的意志而转移。」黄畅表示,算法只能预判和识别,很难去改变,而真正能改变和掌握的,就是硬件架构和软件。

因此,在芯片代码冻结之前,重心应在于如何让算法和软件更好地指导硬件;而当硬件锁定之后,重心则在于如何靠编译去优化软件,实现更强的计算性能。也正是依靠对软件的持续优化,征程5的帧率才能继发布后还能有进一步的提升。

广义感知将实现100%数据驱动

随着自动驾驶技术逐步由数据驱动替代传统的规则计算,在面向未来的自动驾驶算法中,支持数据驱动、神经网络模型推理计算的专用芯片占比也会显著增加。

黄畅介绍称,目前主流的自动驾驶方案大致可以分为四个阶段,分别是广义感知、地图融合、规划和控制。

在软件1.0时代,这四个阶段的任务都是将主观认知变成以规则描述的计算,并在不同程度上过渡到数据驱动,也就是软件2.0:用深度学习、神经网络这样的方式去训练。

「很有趣的一点是,从软件1.0到软件2.0的过渡速度来看,广义感知是最快的,其次是地图融合、规控;而对控制来说,目前来说仍是基于传统的规则方式计算。」由此,黄畅认为,感知,尤其是基于视觉的感知是真正未来自动驾驶智能化,也就是软件2.0数据驱动智能化的先锋。

广义感知其实包含了传统意义上的传感器,同时高精地图和导航信息也可以认为是一种感知输入。所以在新的自动驾驶算法框架下,通常会将更多的信息融合在一个可以端到端、完全数据驱动自动化学习和训练的环节当中,以此大幅提升自动驾驶系统的精度、鲁棒性、适用度,也可以大幅地改进算法迭代的速度。

因为在整个过程进行融合了之后,更多的数据驱动将不再依赖人工规则,自动化程度极高,导致其本身的技术迭代也变得更好。

依照黄畅的预判,在未来,广义感知几乎100%都将靠数据驱动;而在规划和控制阶段,除了需要类似交规这样的极少量规则,80%~90%也都靠数据驱动完成的。

「我内心始终相信,范式级的智能算法和支持这种算法的硬件体系相结合,也就是我们经常说『软硬结合』,这样的思路是加速高等级自动驾驶落地的根本途径。」黄畅表示。

计算架构面临的挑战,

以及「大一统」趋势

随着传感器的增加以及分辨率的增长,芯片在单位时间内需要处理的数据也变得越来越多。在此背景下,算法工程师需要尽可能用更多的有效算力去处理这些数据。

「随着自动驾驶级别的提升,它所需要的算力几乎是指数级的爆炸式的增长。从L2到L5,每往上走一级至少有10倍以上算力需求的提升,大规模并行化的AI计算,这使得大算力的计算平台变成一个行业的必须。」

不过,从目前的计算架构来看,不管是寡合路线、众合路线还是通用路线,都普遍受制于数据带宽。黄畅认为,因为和传统的科学计算、游戏加密的计算不同,AI计算是数据量和计算次数都非常庞大,这使得其核心挑战并非在数据本身,而是「在合适的时间把数据送到计算器件去」,这也是所有AI计算架构面临的统一的问题。

至于解决的方法,黄畅表示,基于不同的设计思路,侧重点也不一样,但无外乎都是运用更好的存储、更好的数据走线,以及硬件仲裁和软件的编译调度。

「这些解法大道至简,在数字电路领域的方法论就那么几条,但要结合具体的架构选择:是寡合还是众合,是微观同构、宏观异构,还是微观异构、宏观同构……这都是不同的设计理念,暴露出来的数据带宽的问题形态是不太一样的,所以没有一招鲜吃遍天的解决方案。」黄畅称,工程问题到了深处全是细节,只能结合具体场景展开分析。

同时黄畅也认为,计算架构「大一统时代」的来临并不遥远,而且比他预判的「5年」还会更快:「近两年的发展,让我强烈地感受到神经计算架构的到来,它将是大一统的,而且能满足广泛的应用场景需求。」

统一的神经计算架构能够出现的本质原因,是神经网络算法在大规模地解决更加多样化的问题,并在更广的场景解决各种过去难以想象它能够解决的问题。

「它以更多的功能、更好的方式以及更快的速度去解决AI任务,所以神经计算架构将成为一个统一,并在芯片上呈现越来越大的规模。」黄畅说道。

从保守到激进

在2-3年前,当黄畅开始深入研究车规电子领域时,发现该大家普遍风格保守,采用的车规半导体都是经过多年反复验证的产品,同时软件开发能力也较弱,这导致前几年的汽车娱乐系统被手机甩出好几条街。

而现在大算力平台的自动驾驶芯片,又恰恰是传统车规芯片。「以各种各样MCU为代表的传统车规芯片,同时具备了高可靠度、高质量,以及落后的工艺制程、保守的设计要求的优缺点。」

黄畅认为,自动驾驶就是要在「保守追求稳定」和「极致追求性能」之间找一个平衡点,但这样的尺度显然不易拿捏。因为自动驾驶芯片是个新品类,没有太多标杆。要想在两个极端中找到一个中间点,就得在满足需求的前提下,进而兼顾两边的特点。

「地平线也经历过初期保守的阶段,继而又变得激进一点。然后又会觉得可能激进过头了,会导致某些性能,比如DDR不能完全跑到最高的频率。」黄畅介绍称,地平线持续以各种各样的方式进行摸索,包括设计路线、相应的技术以及各种标准,这就是芯片不断权衡的过程。

征程5即将量产之际,征程6也已经在路上。地平线为每个系列的BPU架构命名时,都采用了数学家的名字:第一代叫高斯,第二代叫伯努利,第三代叫做贝叶斯。而征程6的BPU架构,则采用了那位《美丽心灵》男主角原型的名字——「纳什」。


相关文章
|
并行计算 开发工具 C++
无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B
目前流行的开源大语言模型大抵都会有内容审查机制,这并非是新鲜事,因为之前chat-gpt就曾经被“玩”坏过,如果没有内容审查,恶意用户可能通过精心设计的输入(prompt)来操纵LLM执行不当行为。内容审查可以帮助识别和过滤这些潜在的攻击,确保LLM按照既定的安全策略和道德标准运行。 但我们今天讨论的是无内容审查机制的大模型,在中文领域公开的模型中,能力相对比较强的有阿里的 Qwen-14B 和清华的 ChatGLM3-6B。 而今天的主角,CausalLM-14B则是在Qwen-14B基础上使用了 Qwen-14B 的部分权重,并且加入一些其他的中文数据集,最终炼制了一个无内容审核的
无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B
|
存储 监控 安全
智慧工地管理平台的技术架构和工作原理
智慧工地管理平台是将互联网+的理念和技术引入建筑工地,从施工现场源头抓起,最大程度的收集人员、安全、环境、材料等关键业务数据,依托物联网、互联网,建立云端大数据管理平台,形成“端+云+大数据”的业务体系和新的管理模式,打通从一线操作与远程监管的数据链条,实现劳务、安全、环境、材料各业务环节的智能化、互联网化管理,提升建筑工地的精益生产管理水平。实现“互联网+”与建筑工地的跨界融合,促进行业转型升级。
924 1
|
6月前
|
JSON 安全 API
Python处理JSON数据的最佳实践:从基础到进阶的实用指南
JSON作为数据交换通用格式,广泛应用于Web开发与API交互。本文详解Python处理JSON的10个关键实践,涵盖序列化、复杂结构处理、性能优化与安全编程,助开发者高效应对各类JSON数据挑战。
399 1
|
安全 网络协议 网络安全
如何免费使用锐安盾实现网站CDN加速与安全防护(2025版)
锐安盾是专为中小型网站设计的高性价比高防CDN,提供CDN加速、DDoS/CC防护及常见WEB攻击防护,适合个人站长、中小企业、国企和政府官网。基础版可免费使用一年,配置简单快捷,支持一键开启。基于天翼云平台,拥有2000+节点,确保稳定加速。国内运营需ICP备案,超流量可升级套餐,无额外费用。
如何免费使用锐安盾实现网站CDN加速与安全防护(2025版)
|
定位技术 开发工具 数据安全/隐私保护
GIS数据格式坐标转换(地球坐标WGS84、GCJ-02、火星坐标、百度坐标BD-09、国家大地坐标系CGCS2000)
GIS数据格式坐标转换(地球坐标WGS84、GCJ-02、火星坐标、百度坐标BD-09、国家大地坐标系CGCS2000)
4913 1
|
人工智能 开发框架 前端开发
移动应用开发的未来趋势:跨平台框架与AI的融合
在数字化时代的浪潮中,移动应用已成为人们日常生活和工作中不可或缺的一部分。随着技术的不断进步,移动应用开发领域也迎来了新的变革。本文将探讨移动应用开发的未来趋势,重点关注跨平台框架的发展以及人工智能(AI)技术在其中的应用。通过分析当前市场上流行的跨平台开发框架,如React Native、Flutter等,以及AI技术如何改变移动应用的开发方式,我们将揭示这些技术如何共同推动移动应用开发进入一个新的时代。
358 27
|
存储 JSON API
Python编程:解析HTTP请求返回的JSON数据
使用Python处理HTTP请求和解析JSON数据既直接又高效。`requests`库的简洁性和强大功能使得发送请求、接收和解析响应变得异常简单。以上步骤和示例提供了一个基础的框架,可以根据你的具体需求进行调整和扩展。通过合适的异常处理,你的代码将更加健壮和可靠,为用户提供更加流畅的体验。
913 0
|
缓存 Linux
百度搜索:蓝易云【yum源安装OpenStackclient教程。】
至此,你已经成功使用yum源安装了OpenStackClient。你可以使用OpenStackClient来管理和操作OpenStack云环境。请注意,上述步骤适用于基于CentOS 7的系统。
586 8
|
存储 算法 安全
web3:区块链常见的几大共识机制及优缺点(上)
web3:区块链常见的几大共识机制及优缺点
780 0
web3:区块链常见的几大共识机制及优缺点(上)

热门文章

最新文章