Waymo首次公开自动驾驶技术:让AI学会「危机想象力」

简介: Waymo 的自动驾驶出租车「Waymo One」已经上线了,现在美国亚利桑那州凤凰城的居民可以像叫个滴滴一样用手机 app 打来一辆自动驾驶汽车。这些高度智能化的无人车使用的是哪些技术?最近这家谷歌旗下的公司终于公开了自己的第一篇论文,介绍了 Waymo 自动驾驶算法的细节。

今年,自动驾驶公司 Waymo 取得了一些里程碑式的进展。8 月份,Waymo 的实地自动驾驶里程突破 1000 万英里,上周,Waymo 又推出了一款商用自动驾驶车——Waymo One。但该公司的研究人员始终着眼于未来。


Medium 上今天出现了一篇博文,Mayank Bansal、Abhijit Ogale 两位研究人员详细介绍了利用标注数据(即来自专业驾驶演示的 Waymo 数百万英里的已标注数据)通过监督学习训练 AI 驾驶员的方法。

学习人类经验


「近年来,深度神经网络中的监督训练使用大量标注数据在许多领域迅速提高了当前最佳水准,尤其是在目标检测及预测领域。这些技术在 Waymo 得到了广泛应用,」研究人员写道。「随着感知神经网络取得成功,我们自然而然地会问自己:我们可以利用纯监督深度学习方法训练出一个熟练的自动驾驶员吗?」


微信图片_20211130162513.gif

模拟环境中,Waymo 的智能体绕过一辆停泊的车。青色路径描绘了输入路径,绿色框是智能体,蓝色点是智能体的过去位置,绿色点是预测的未来位置。

微信图片_20211130162508.gif

image.gif

模拟环境中,Waymo 的 AI 系统根据前方车辆位置减速停车。带有褪色尾部的黄色方块是场景中过去一秒内的动态目标(其它车辆)的位置。


为了创建一个能够模拟专业驾驶的系统,他们精心设计了一个神经网络——ChauffeurNet,该网络通过观察真实和模拟数据(包括地图、周围目标、交通灯状态和汽车过去的运动)学会了生成驾驶轨迹。一个低级的控制器将十点轨迹转化为转向和加速指令,允许 AI 模型驾驶真实和模拟汽车。


该模型从「相当于专业驾驶 60 天的驾驶数据」中得到样本,其使用的技术确保了它不会根据过去的运动推断下一步动作,而是根据环境中的变化做出反应。在测试中,它会对交通控制标识做出反应,如停车标识和交通灯。但遇到以前从未见过的情况时,它的表现不佳。


模拟异常情况


研究人员指出,造成这种问题的原因在于其从现实驾驶中获得的驾驶 demo 是有偏差的——它们只包含正常情况(无事故)下的驾驶案例。为了教网络从边缘案例中恢复,该团队合成了接近事故和与物体发生碰撞的情况,后者鼓励 AI 模型避开这些物体。


微信图片_20211130162503.gif

Waymo 的模型在转弯时的表现。图源:Waymo


ChauffeurNet 在模拟环境中表现较好,它将损失和合成的示例都考虑在内,甚至还能绕过停泊的车辆,在信号灯由黄变红时停下以及在其轨道上修复些微的偏差。在现实世界的私人试车跑道驾驶 Waymo 的克莱斯勒 Pacifica 小型货车时,ChauffeurNet 成功地驶过了弯道,并正确判别了停止信号和转弯。


「全自动驾驶系统需要具备处理现实世界种种状况的能力,」研究人员写道。「在 Waymo 车辆上运行的现有规划器将机器学习与外显推理相结合,连续不断地评估大量概率变量并在多种不同的情境下做出最佳驾驶决策……因此,用完全的机器学习系统替代 Waymo 规划器的门槛很高,尽管这一系统的组成也可以用在 Waymo 规划器内,或者用于在规划器的模拟测试期间创造更加实用的『智慧智能体』」。


模型在真实世界驾驶的情况

微信图片_20211130162458.gifimage.gif

红色轨迹表示场景中动态目标的过去轨迹,绿色轨迹表示每个目标未来 2 秒之内的预测轨迹。

1638260675(1).png

点击查看原视频

模型结构


微信图片_20211130162415.gif


ChauffeurNet 内部由两个部分组成——FeatureNet 和 AgentRNN。AgentRNN 的输入包括一张展示过去智能体姿态的图像、一组由卷积网络FeatureNet 从展示的输入中计算的特征、一张展示过去智能体框的图像、展示预测未来智能体姿态以预测智能体下一个姿态的外显记忆,以及俯视视角下的下一个智能体框。这些预测用于更新 AgentRNN 的输入,从而预测下一个时间步。


最后,让我们看看这篇介绍 ChauffeurNet 的论文:《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》。

微信图片_20211130162411.jpg


论文链接:https://sites.google.com/view/waymo-learn-to-drive


摘要:我们的目标是通过模仿学习来为自动驾驶训练可用于驾驶真实汽车的鲁棒策略。我们发现通常的行为复制不足以适应复杂的驾驶环境,即使已经使用了感知系统来预处理输入,以及使用控制器来将输出执行到汽车上:3 千万个案例仍然是不够的。我们在本研究中提出,应该以专业驾驶数据的扰动形式向学习器展示合成数据,这会产生有趣的情况,例如碰撞和/或离开道路。我们不是纯粹模仿所有数据,而是通过额外的损失补充模仿损失,以惩罚不良事件并鼓励进步,扰动为这些损失函数提供了重要信号,并实现了学习模型的鲁棒性。结果表明,ChauffeurNet 模型可以处理模拟中的复杂情况,我们还提供了控制变量实验,强调我们提出的每个变化的重要性,并表明模型可以对适当的因果因素进行响应。最后,我们展示了在现实世界中驾驶汽车的模型。


参考内容:


相关文章
|
6天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
64 28
|
20天前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
53 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek逆天,核心是 知识蒸馏(Knowledge Distillation, KD),一项 AI 领域的关键技术
尼恩架构团队推出《LLM大模型学习圣经》系列,涵盖从Python开发环境搭建到精通Transformer、LangChain、RAG架构等核心技术,帮助读者掌握大模型应用开发。该系列由资深架构师尼恩指导,曾助力多位学员获得一线互联网企业的高薪offer,如网易的年薪80W大模型架构师职位。配套视频将于2025年5月前发布,助你成为多栖超级架构师。此外,尼恩还提供了NIO、Docker、K8S等多个技术领域的学习圣经PDF,欢迎领取完整版资源。
|
16天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
48 16
|
17天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
54 5
|
21天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
21天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
|
23天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
20天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
161 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
6天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
68 23
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章