3月30日,百度发布了DuerOS智慧芯片,百度官方称,这将“完善智能物联网生态,开启‘可对话’智慧设备时代”。
发布会上,百度宣布与紫光展锐、ARM、上海汉枫达成战略合作。具体讲:百度的DuerOS智慧芯片与紫光展锐RDA5981集成,“低功耗、低成本”,提供丰富的IO接口,支持Wi-Fi/蓝牙多种连接模式;同时,采用ARM公司mbed OS内核及其安全网络协议栈,实现云端连接,“降低了设备开放商应用门槛”;在此基础上,作为物联网方案服务商的汉枫科技,则基于该芯片推出WiFi模组HF-LPB200U,集成了DuerOS智能语音交互功能,已经处于量产阶段。
这一招除了对做智能语音及相关产品的公司构成威胁,百度让“度秘大脑”成为智能时代无处不在的“大脑”的布局也全面铺开。
吴恩达的离开并没有让中国的人工智能“冷”下来,不仅没有冷,BAT 在这之后紧锣密鼓的出招让“AI三国杀”全面升级。在吴恩达宣布计划离开百度的第二天,腾讯就高调迎来了张潼。很快,阿里云栖大会揭幕了阿里经由云计算通往智能之路的一系列重大产品和布局。
昨天百度发布的这款DuerOS智慧芯片及合作计划,将构建包括度秘大脑、语音解决方案、芯片/模组在内的三层结构。其中,前两层由百度度秘提供,芯片模组板块则由紫光展锐、ARM、汉枫共同支持。
除了DuerOS智慧芯片,百度还将推出了DuerOS开放平台,让客户可以在云端完成对DuerOS的个性化定制,同时提供设备与云端、APP端互联的能力。
DuerOS是由度秘研发的对话式人工智能操作系统,强调使用自然语言进行语音对话的交互方式,同时通过云端大脑时刻进行自动学习。DuerOS今年1月在拉斯维加斯CES大会上首次对外发布。当时,百度度秘总经理景鲲在CES现场接受了新智元的专访,景鲲表示DuerOS是百度重点推出的战略性产品,是“人工智能时代的操作系统”。
景鲲说:“我们一直在提一个新的概念,叫Conversational Computer(对话式计算机)。我认为的趋势是将来人们会越来越多地跟设备对话,而且我们从百度搜索、百度语音搜索上已经看到了这样的趋势,用户会越来越接受跟设备进行对话,用自然语言的方式进行交流。用户获取信息服务的门槛在降低,我们希望将来的入口是无处不在的,用户在有需要的时候就跟设备进行对话。这次我们重点推出的战略性产品就是——DuerOS,我们把它叫做 Conversational AI OS(对话式的人工智能操作系统)。”
有话说得好,“得操作系统者得天下”,在各家都号称要做万物智能、万物互联的现在,连接上下游的操作系统才是真正的核心。从第一代的Wintel、第二代iOS和安卓,到如今的第三代人工智能操作系统,这无疑是一个巨大的机会,从中完全可能诞生世界级的公司。
百度的DuerOS定位于嵌入式操作系统,虽然并不构成“中央集权”,但无疑将自己融入了更广泛的场景之中。而为了应对这些不同场景里的交互,百度将赌注押在了对话式OS上面。虽有亚马逊 Alexa/Echo 的光辉例子,但还是有很多人不看好语音交互,认为语音是一个“伪入口”。但百度显然不这样认为,同时百度在开拓生态方面也全力以赴。在DuerOS智慧芯片发布现场,百度公司首席架构师、度秘事业部首席技术官朱凯华说,“我们永远免费授权”,“百度在这里不是希望赚钱,我们也不是为了商业化而开始,是希望能够和所有的合作伙伴一起把这个事情做大”。
3月27日,2017新智元开源·生态AI技术峰会上,百度度秘事业部总经理景鲲发表了演讲《对话式人工智能的应用与未来》。景鲲不仅全面解读百度对话式的人工智能操作系统 DuerOS,还坦承分享了很多经验教训,以及百度在人工智能方面的储备和战略。
抓住了产业链上的核心环节,All in 对话式人工智能操作系统,能让百度成为世界级企业吗?
演讲内容很多,在这里首先提炼一些重点金句:
1. 我们看一个公司在人工智能上是否真的投入,应该看组织架构,组织架构是最影响人工智能执行效率的。如果是一家大公司,一定要判断它是不是把人工智能作为一项业务来发展。只有作为一项业务发展,而且是一个独立事业部时,组织效率才会最高。
2. 人工智能人才现在非常昂贵,同时现在的人才也不是很多。我们需要抓住最top的人才,这些人主要分布在中国和美国。从百度的角度,人工智能相对top的人才都已经聚集在百度,从中国到美国。
3. 除了懂算法、懂数据,会机器学习的顶尖人才,还有一种人才非常稀缺,就是AI的产品经理。
4. 我们如果想要切入一个好的场景,要储备很长时间才能把这个场景抢过来。这是培育期,就是获得足够的数据,让系统足够聪明。
5. 把一个通用对话能力放到一个小场景里能解决什么问题?能做到什么效果?做通用的人工智能太难了,但如果放到一个具体的场景里就很简单。
6. 在对话式人工智能推进的过程中最关键的是端到端的用户需求满足。很多人并不需要语音识别,他们需要端到端的需求满足,比如是否能够播音乐,查天气,查股票价格,这才是用户真正关心的。
以下为度秘事业部总经理景鲲的演讲。
景鲲:我会在分享中介绍我们在研发过程中遇到了什么困难,如何一步步走到未来。同时,也与大家交流一下我们的储备和战略。
大家可能看过这个叫《HER》的电影,“Her”是一个人工智能,主人公通过一个耳机和一个手机,就能跟Her进行沟通。我今天演讲的主题是“对话式人工智能”。如何定义对话式人工智能?在很多科幻片里我们会看到这样一些对话式人工智能,有时候是机器人,有时候是计算机、耳机,甚至是无处不在的虚拟物质。这是老百姓心目当中的对话式人工智能,我们的愿景也正是研发出这样的对话式人工智能。
那么,我们距离愿景是不是已经很近了?
以前,我们学习计算机语言,学习拼音、五笔,那时我们以机器的语言与计算机交流。现在,我们用语音的方式与计算机交互,计算机解决的问题就是让机器学会人的语言,让机器用人的语言与人沟通。对话式人工智能就是希望让机器学会人的语言,用最自然的方式与人进行沟通。
我们看整个科技的发展,每一个时代,从PC时代到无线时代到AI时代,人类都在用不同的方式与机器进行沟通。例如第一代我们用鼠标、键盘产生的机器语言与计算机进行沟通,代表的操作系统是 Windows;第二代我们用手指与机器进行互动,代表的操作系统是iOS和安卓;第三代是人工智能操作系统,我们希望用户以对话的方式与设备进行沟通。
每一代操作系统都是用户交互方式的变革,它们都有趋同性,也即交互方式变得越来越自然,从原来的机器语言到半机器语言,最后到机器学人的语言,使用的门槛越来越低。
我们希望降低第三代系统的门槛。百度的使命是让人平等便捷地获取信息,找到所求。什么是平等?平等就是让每个人用最自然的方式,随时随地能够获得信息,找到所求。
为什么我们要做对话式人工智能?这里有数据可以跟大家分享一下。大家如果打开今天的手机百度,在手机百度最下面我们放了一个很长的大按钮,可以按着说话。我们发现人类运用自然语言跟设备进行沟通的需求越来越强,过去一年百度语音的日活增长率为100%,而且这种增长已经持续几年。
事实证明,用户已经可以用语音与设备进行对话,这个浪潮正在到来。那么,对话式人工智能如何来落地?下面我想分享一些看法。
若想真正推进人工智能,有几件事情一定要做对,而且这些事情如果不提出来可能很多人会忽略。今天在座的有创业者,有大公司,也有很多投资人。从我们百度人的角度来看,有哪几件事情才能推进人工智能落地呢?
一是定战略。这个事情很容易被忽略,我们看一个公司在人工智能上是否真的投入,应该看组织架构,组织架构是最影响人工智能执行效率的。你看百度的组织架构,再看其他人工智能公司的组织架构。如果是一家创业公司,创业公司的组织架构很清晰,all in AI;如果是一家大公司,一定要判断它是不是把人工智能作为一项业务来发展。只有作为一项业务发展,而且是一个独立事业部时,组织效率才会最高。随着陆奇加入百度,我们成立了独立的度秘事业部来开展人工智能。
二是聚人才。人工智能人才现在非常昂贵,同时现在的人才也不是很多。我们需要抓住最top的人才,这些人主要分布在中国和美国。从百度的角度,人工智能相对top的人才都已经聚集在百度,从中国到美国。除了懂算法、懂数据,会机器学习的顶尖人才,还有一种人才非常稀缺,就是AI的产品经理,我觉得这种人才必须要有分裂式人格。一方面他非常坚信未来就是这样;另一方面他一定知道现在落地有多困难,AI的落地多困难,AI的现状与用户的期望差异有多大。只有这种对愿景满怀期待且有技术能力的人才,才能推进AI的业务。
三是技术。其实AI相关技术真的没那么容易。整个百度AI技术从最基础的机器学习的平台到PaddlePaddle,到语音技术,自然语言处理,图像技术,用户画像,每一项技术都需要储备五六年以上,所以如果想把对话式人工智能做好,必须要把相关的技术储备好。
例如我们的语音,在2016年麻省理工科技评论评出的10大突破型技术中排名第二,我们的OCR技术获得了很多荣誉,我们的PaddlePaddle是国内首个开源机器学习平台,所以百度在技术方面储备深厚。
四是找场景。这是最关键的,很多企业都死在找场景,AI要做好一定要找一个能落地的场景。通用的对话式AI很难做,因此需要分场景突破。
好的场景有几个特点:第一、它是要符合用户交互习惯——如果用户在这个场景上已经养成键盘或触摸式的交互习惯,其实很难改变用户场景;第二、场景需要适合当下技术的应用,只有技术成熟,才能做出比较好的产品;第三、对话式人工智能要满足用户对话式的需求。
今年1月份,我们在美国拉斯维加斯正式推出了DuerOS对话式人工智能操作系统。对话式操作系统的演进是一个漫长的过程,需要储备比较长的时间。我们大概在2014年7月份正式推出了对话式人工智能助理,到2015年首次发布,这是我定义的第一个时期,初创期。
其次,如果对话式人工智能团队说想攻克难关,都要要打一个问号,看这个团队在这一领域是否有足够的储备。例如,我们如果想要切入一个好的场景,要储备很长时间才能把这个场景抢过来。这是培育期,就是获得足够的数据,让系统足够聪明。
原来在搜索上我们得到的绝大部分与关键词有关的数据,和平时沟通说话的数据不一样,我们沟通的时候用的是口语交互。当你加了语音搜索时,用户会倾向用自然语言的方式与设备进行交互,这些都是以前搜索引擎没有见到的数据。只有找到这些数据,把机器大脑培育好之后,才进入第三个阶段——在一个场景里加速突破。
所以,DuerOS战略的过程很简单,当我们的能力足够强大之后,要分场景突破,把能力和具体设备、场景相结合,赋予这些设备和场景以能力。很多设备和场景已经有对话式需求,只是我们之前没有想到。我举个具体例子。我们最近做了很多的活动,发布了很多产品。我爸眼睛不太好,说你做了这么多设备和产品,为什么不做空调?空调可以语音交互多好。他给我讲了具体需求,他每次出差去宾馆,由于眼花根本看不清楚空调上冷热除尘这些小的图标,所以每次都打电话让服务员来调整。这就是场景里面用户的实际需求。所以每一个小场景,每一个设备都有对话式需求,把这个对话式需求找出来就能解决用户的痛点。
如果我们把一个通用对话能力放到一个小场景里能解决什么问题?能做到什么效果?刚才我已经说过,做通用的人工智能太难了,但如果放到一个具体的场景里就很简单。这是用对话的方式找饭店,是我们一年前做到的效果。
还有一个观点是,在对话式人工智能推进的过程中技术是基础,最关键的是端到端的用户需求满足。很多人并不需要语音识别,他们需要端到端的需求满足,比如是否能够播音乐,查天气,查股票价格,这才是用户真正关心的。所以,就对话式人工智能产品而言,功能性、性能、体验都是用户端到端一体的需求。
就百度而言,我们也希望把这种优势提供给合作伙伴,把我们丰富的信息和服务生态开放给合作伙伴,让所有人都在这一基础之上做比较好的、通用的、场景化的对话式人工智能。百度本来就是以搜索起家的公司,我们在信息生态,服务生态方面的能力很强。这些能力都会分场景地提供给不同设备。同时,海量的数据非常重要,用户要的是端到端的满足。百度对数据的整合能力,接下来也会开放提供给所有的合作伙伴。
最后一点是用户认知,什么时候让老百姓觉得这个产品好用,甚至没有把它当成一个人工智能产品,我们才算是真正跨过了这个坎。希望大家能够一起推动市场,推动 to C端,让用户认知到人工智能产品的体验很好。不同的合作伙伴,比如芯片和模组方、开发者、企业应用,内容资源方等,都要一起推动产业的发展。
3月30日,我们会与ARM和RDA一起发布DuerOS智能芯片,我们会把基础的语音能力集成到很多设备里面,搭建一个平台让合作伙伴在这上面做相应的对话式人工智能工作。同样,我们也希望能赋予更多合作伙伴更多的可能。
总结而言,对话式人工智能的挑战非常大,除了技术、数据、人才之外,是否能够推动用户的认知也非常重要。在这个过程中,我们愿意分享所有的经验给大家,也希望把百度的能力开放给大家,让大家把对话式人工智能做得更好。
我们会对产品进行全免费授权,大家可以免费地用百度的能力,我们会提供端到端的满足能力,大家可以直接拿到百度所有的信息和服务内容。我们也会提供商业化变现的方式。我们会将第三代操作系统推荐给大家,以推动对话式人工智能的发展。
文章转自新智元公众号,原文链接