George Hotz:请收下我的智驾系统代码(附论文)

简介:
桀骜不逊的自动驾驶破局者


智驾深谈的第一期,就是关于这位老兄George Hotz,江湖人称GeoHot,“声名狼藉的”iPhone和PlayStation破解者,做过多家IT帝国的被告。几个月前研究上了自动驾驶技术,紧接着就公然挑战Tesla、Google和Mobileye,自嘲是个“智痴(I'm an Idiot.)”,而其他家的水平,只能算是智障。Musk发邮件邀请他去Tesla,被他拒了,声称自己年底就要出不到一万人民币的产品,而且效果绝对秒杀。四月初拿到了310万美元融资,并在拉斯维加斯正常车流中,GeoHot演示了目前的技术进展,完成度颇高,只用了一个前置摄像头,以及一个草草贴在前保险杠上的毫米波雷达。


深度学习端到端:开源概况


此前我提过,目前的自动驾驶技术可以划分为两类,一种是感知-决策-控制然后不断闭环,每个模块用不同的方法力争最好,很多情况下需要专家提供基于经验的规则。另一种则是GeoHot正在采用的办法,叫做End-to-End,端到端方法,指以摄像头的原始图像作为输入,直接输出车辆的速度和方向,中间用某种数学模型来拟合逼近最优驾驶策略,目前常用的就是深度学习模型。


本次GeoHot开源的东西非常丰富,包括下面几个内容:


  • 七小时十五分的高速公路图像数据

  • 两种使用该数据的机器学习实验方法

  • 一篇利用深度学习RNN网络进行自动驾驶的论文(在新智元公众平台回复0806下载)

  • 整套试验代码包括tensorflow,anaconda,keras等常用工具的用法


这些材料,足够读者复现GeoHot为Bloomberg演示的效果,比起此前Mobileye或者Nvidia光发布论文前进了一大步。

 

深度学习端到端:数据准备

                       

驾驶数据是本次开源的重要组成部分,不但包括前视摄像头裁剪的数据,共计7.25小时,分为11个视频,160*320大小,并且还包括了GeoHot那辆讴歌采集的转向、制动、速度以及惯导数据,以及图像输入和控制输出的同步时间戳数据。本次发布的论文主要聚焦在通过图像输入来学习控制转向和速度,GeoHot将图像缩小为80*160并将像素值归一化。


深度学习端到端:模型介绍



目前深度学习用于自动驾驶可以大概分为两类,一类是收集驾驶数据,离线训练模型,不断逼近人类驾驶员;另一类是在模拟器中,利用Q函数,不断自我决策和试错来提高驾驶技术。由于真正图片的复杂以及输出命令的连续性,使得现实世界中能够得到好结果比较困难,所以我们目前见到的很多都是在模拟器中尝试。



本次GeoHot开源的是第一种方法,且是在真实道路上经过实测的。其基本原理是,将摄像头获得的图像数据,利用Autoencoder编码(如上图锁匙,期间还用到最近很火的GAN),然后用一个RNN深度网络来从人类驾驶数据中学习,最终预测下一步操作。


深度学习端到端:代码概要



从代码结构上来看,大概可以分为数据、模型和训练框架三部分,其中模型部分包括了autoencoder和RNN,训练框架则以server.py文件作为入口。


结语


我非常惊讶于GeoHot做出这次开源的决定,看过论文和代码之后,相信复现他们演示结果并不是一件很难的事情,算是让大部分想要尝试深度智驾模型而又无从下手的人得到了福利。那么开源是否会对整个智驾产业带来影响呢?如果你觉得GeoHot还不够强的话,Google未来开源了会不会有影响呢?谁也很难说智驾不会像智能手机一样,成为下一个兵家必争之地。


文章转自新智元公众号,原文链接

相关文章
|
存储 Kubernetes 容器
第十章 集群安装NFS以及NFS卸载客户端和服务端
第十章 集群安装NFS以及NFS卸载客户端和服务端
406 1
|
关系型数据库 Serverless 分布式数据库
1.4亿人都在用|伊对APP x 阿里云PolarDB:这一对,天生配
PolarDB以其出色的性能和稳定性为伊对APP提供了强大的支持
1.4亿人都在用|伊对APP x 阿里云PolarDB:这一对,天生配
|
JSON 小程序 JavaScript
【微信小程序】-- 自定义组件 - 组件所在页面的生命周期 & 插槽(三十七)
【微信小程序】-- 自定义组件 - 组件所在页面的生命周期 & 插槽(三十七)
|
存储 安全 算法
使用jotp实现双因子验证
扫盲使用totp增强身份安全性指南,原理看懂也不用自己造轮子呀,最讨厌哪些啥也不懂的搬运工,我这里给大家解惑吧
1436 0
|
11月前
|
JavaScript 前端开发 物联网
全面解析鸿蒙相关概念:鸿蒙、开源鸿蒙、鸿蒙 Next 有何区别
程序员晚枫近期研究了鸿蒙系统相关概念,主要包括 OpenHarmony、HarmonyOS 和 HarmonyOS NEXT。OpenHarmony 是开源项目,适用于物联网设备;HarmonyOS 由华为开发,兼容安卓应用,用于手机和平板等;HarmonyOS NEXT 剔除安卓生态,采用纯鸿蒙技术,专注原生应用开发。三者在技术架构、应用场景和开发工具上各有特点,共同推动鸿蒙生态系统的发展。
2610 5
全面解析鸿蒙相关概念:鸿蒙、开源鸿蒙、鸿蒙 Next 有何区别
|
10月前
|
Oracle 关系型数据库 Linux
MyEMS开源系统安装之CentOS/RHEL/Rocky/AlmaLinux/Oracle Linux
本指南介绍如何在CentOS/RHEL/Rocky/AlmaLinux/Oracle Linux服务器上部署MyEMS开源能源管理系统。内容涵盖系统准备、数据库配置、多个MyEMS服务(如myems-api、myems-admin、myems-modbus-tcp等)的安装与配置,以及Nginx服务器设置和防火墙规则调整。通过完成所有步骤,您将能够访问MyEMS Admin UI和Web UI,默认端口分别为8001和80,初始登录凭据已提供。
650 0
|
12月前
|
人工智能 Java 开发者
通义灵码:当AI成为你的编程搭档,效率革命已经到来
本文介绍了通义灵码作为AI编程伙伴的革命性意义及其技术特点。基于阿里云通义代码大模型CodeQwen1.5,它具备多模态代码理解、意图推理和跨语言知识融合能力,可重构开发者工作流,从智能编码到Debug预警再到文档自动化全面提升效率。数据显示,其能将常规开发时间缩短60%,错误率下降43%,新技术上手速度提升2倍。未来,通义灵码将推动需求-代码双向翻译、架构自演进等全新编程形态,助力开发者聚焦更高价值领域,开启人机共生的编程新时代。
903 10
|
存储 人工智能 Serverless
一键构建智能导购 AI 助手,轻松重塑购物体验
在数字化时代,线上购物已成为消费者生活中不可或缺的消费方式,而消费者的购物习惯和需求逐渐呈现多样化的趋势,为了帮助商家全天候、自动化地满足顾客的购物需求,本方案将详细介绍如何基于商品内容构建一个智能商品导购助手。
|
消息中间件 缓存 架构师
关于 Kafka 高性能架构,这篇说得最全面,建议收藏!
Kafka 是一个高吞吐量、高性能的消息中间件,关于 Kafka 高性能背后的实现,是大厂面试高频问题。本篇全面详解 Kafka 高性能背后的实现。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
关于 Kafka 高性能架构,这篇说得最全面,建议收藏!
|
人工智能 Serverless 视频直播
活动实践 | AI智能体实时语音互动
AI智能体实时语音互动方案提供端到端的实时音频交互,用户通过终端SDK与云端AI智能体进行音频通话。AI智能体接收音频输入,依据预定义工作流处理并生成响应,通过ARTC网络推送结果。该方案支持灵活编排AI组件如语音转文字、大语言模型等,确保高可用、低延迟的通信体验。用户可轻松创建和管理智能体及实时工作流,实现高效对话,并可通过示例网站体验功能。