演讲实录丨黄伟 AI已来,未来已来

简介:

AI已来,未来已来

黄伟

云知声董事长、语音识别技术应用专家


黄伟:大家下午好!非常感谢邀请。我觉得前面山世光对公司有一个非常好的定位,介于学术和产业之间。我可能是唯一一个做云技术,第二我们可能长期在工业界。今天人工智能热潮十多年比较冷的一个方向,这样我更多从工业界角度来看,我们可能对AI的看法和认知。今天题目是云知声的成长之路。

    其实AI在过去60年里面,我们经历过高潮和低谷,在过去两次相对比较失败低谷里面,确实是当时一个技术条件,产业条件可能没有达到那个需求。要么是运算能力不足,要么是没有大数据,当然不可能有新的理论算法所支撑。今天第三次高潮,这三个要素相对比较具备。今天我们学习方法有相对比较成功的算法,深度学习。另外这个PC互联网和移动互联网,人和人之间,设备和设备之间,设备和人之间产生大量的海量数据。


    同时,今天有更的强运算单元,不光有CPU,还有GPU,使得我们可以用一些具备运算资源。我们一方面不能忽视用户习惯的养成。在中国10多年互联网发展过程当中,用户养成非常好的用户习惯,这个技术成熟用户之间形成一个非常好的集合点,某些领域里面今天这个AI技术使得更加成熟,做成产品化和商业化。在家具、医疗等很多领域,今天AI已经产品化和商业化。


    简单介绍一下机器学习算法的演进。上一代基于统一学习,我读书的时候进实验室开始学,用统计学方式进行描述,使得这个模型对于未来产品数据进行比较准的预测。在云方面2011年的时候,微软研究员最先把深度学习用在云识别系统里面。C2C这些技术使得我们在过去4年前,我们的技术水平得到进一步的提高。4年前语音识别已经进入领域,4年前不光算法本身还是迭代从当时90%提高到今天97%,今天在日常对话,说100个字不再需要修改什么内容,这就是算法和数据提升的巨大的进步。


    今天看到深度学习几乎我们可以说学习领域里面颠覆了,包括像语音合成,包括翻译等等,为什么取得这些突破?我们之前所谓深度学习,人类、科学家一些知识,事先设定一些结构,使得模型结构对这个数据进行的描述,面对一些真实的产品的时候,依然具有非常好的能力。人最归有限,面对海量数据的时候,顶级科学家实验室的知识都是不够的。深度学习从数据终学习特征,我们可以看到横坐标是数据规模,纵坐标是数据精度。


    基于统计学习数据规模到一定程度以后,这个性能不再增加了,相对比较平坦,说明统计模型对大数据模型是有上限的。其实这个数据本身对这个性能影响非常大的,刚参加工作的时候,摩托摩拉在手机做语音识别系统,当时做一国语言所用数据大概100小时左右,但是今天做一个国家语言是以10万为单位,数据增长可以完成很多不可能完成的任务。


    这个是我们在过去几年里面,云知声在技术上的演进,2012年云知声成立,发布了免费的开放的语音指标,当时是做到了85%,今天我们说你说100个字里面有15个字错,基本上觉得这个系统是不可用。4年前85%的指标已经是业内最高水准,超过很多上市公司水准,这个是当时我们用统计模型做到了极限。三个月之后,在2012年年底时候把深度学习同样用800小时数据做了深度学习系统,从25%提升到90%,比同行业高了10个点。


    一个算法层面突破会在系统上带到质的超越,带到产业落地。当然后面随着一方面算法不断优化,一方面数据不断迭代,2016年7月份之前我们准确率已经达到97%,中间还有一些其他的特点出来,包括2014年的时候推出了双麦克一个降噪,这些过去在四年里面应用和技术方面做的不断突破。


    这里讲双麦克(音译),因为我代表工学界。我们知道10月份的时候,谷歌发布双麦克,我们看到亚马逊推出的7+1麦克风。他们做到降噪等等,很重要一个点,双麦克风只有一个麦克风,间距不到5公分,这样很便捷应用在各种产品下面。不管这个产品是电视剧还是冰箱等等都可以用。双麦克风再一个低成本下面满足了大部分使用场景,我们有可能以双麦克风为载体,使我们技术尽快走到千家万户,使用户能够使到AI技术,一方面养成用户使用习惯,第二使得更多数据,使得系统更多进一步的优化空间。


    另外,我们对于云理解什么?云不光是声音和文字,还是文字之后我们对它的意思理解,这个够了吗?语言是一个非常博大精深,字面意思不能表示正式意图。还有另外一个进展,提供了云计算,我们有时候从语音到文字,或者从文字不一定看到最准确的意图。举个例子,我对着机器人,我说今天天气真冷,这个字面意思大家知道温度比较低。比如汽车里面能不能把空调调高一度,但是户外说可能需要加外套,这个实际上把字面意思和物理环境,甚至和人的知识汇集在一起,应该是一种综合计算。让机器变的更加智能,对用户需求有一种更加精确的把握。


    这个今天在很多产品里面已经用到了。第二个前面山世光老师说到了,运算能力。我们今天有两种做法,我们以人的大脑做对比,我们今天AI系统一方面缺少很多数据,在语音也好图片也好,跟我们人的大脑无论遗传还是后天是完全不能成比例。我们运算能力,人的大脑是非常复杂一个运算单元,可以用数以亿计的神经元,一个庞大的处理器,每个神经元不一定能够计算。计算服务器搭建成一个计算集群,每个运算单元并不是很强,但是规模很大,把很多运算单元有机结合一起,使得它能完成非常复杂的任务。


    这个图,传统做法我们先构建一个专用训练集群,然后训练出非常好系统之后,把这个系统部署到外网为用户提供智能服务云。这个系统运行一段时间以后,肯定会存储很多数据,把这个数据弄回来做内网和数据开发,是这样一个过程。这个数据不是时时的,也不能及时对很多进行计算。上层是把智能服务和智能学习结合在一起,这样使得集群白天可以服务,晚上可以工作,类似于AlphaGo和李世石下棋的时候,白天下完棋了,李世石非常累回去睡觉了,但是AlphaGo还再不断迭代这样就使我们后台和用户之间实施用户交互。


    通过我们产品服务体系,搭建了一个基于云端新的服务体系,所以需要我们很多场景里面选择一些垂直行业切入,做好这个服务,智能化不断提高。当然这种服务通过云,通过终端,通过芯片方式选择一些行业切入。到今天为止,我们每天平台量已经接近两个亿,这个数据不是特别新,有超过一个亿的终端机服务。12年相比服务增长量在18%以上,前两天看了一个数据,其中一块业务从过去的每天的大概几十万次调用,增长到今天一亿次调用。一方面我们确实今天用户对使用语音习惯变的越来越强烈,第二个方面技术水平越来越高,使得用户愿意用,经常用。在用户和服务之间数据是流动,使得服务变的越来越好,使得数据能够帮助我们开发出更好的水平,只有这样我们所谓人工智能服务真正进入我们的家庭。


    这个是我们大概发展历程,云知声四年公司了,因为我们一直用比较新的思路做一个企业。可能说在中国公司比较深的感触,我们不光在工业界、学术界,跟国外还有一个差距,中国和国外环境不太一样。首先,在座很多朋友我们一般虽然我们受过高等教育,我们不愿意为技术买单,当然这个环境在改变。第二个,技术离商业化比较远,可能商业公司只愿意做后面事情,但是我们一些学术团体只能做前面,中间学术没有往前走,但是商业这一块不愿意往后来,这是中国的现实。


    我们用比较新的做法,比如我们在12年6月份成立,三个月之后发布国内第一个免费语音平台,当时环境下面语音算是一个门槛非常高的技术,当然也有比较不错的议价能力。我们认为人工智能其实它的生存与发展不依赖于收多少费用,而是多少用户,和多少数据。正是因为我们认识到这个数据对技术驱动重要意义,我们三个月以后发布国内第一个免费开放平台,付出代价是成本。我们团队管这个平台,我们获得了用户的口碑,用户数据,这些能够帮助我们引擎不断提升和迭代。


    这是我们再一个模式上的创新,在技术方面我们算国内比较早的把深度学习应用到工业界里面。在12年12月底把深度引擎服务给厂商。最最值得我们创业公司去分享一点,在四年里面通过我们努力,探索怎么把技术变成产品,而且这个产品能够给用户创造价值,而且还能在夹缝中求生存。我们看到人工智能领域不光说国内巨头,都在做。我们做创业公司,无论语音还是图象还是文本,这里面哪里是你的优势,让你飞的更高。我们认为选择比较适合我们的路,今天选择一些方面,我们恰恰形成我们先发优势。


    第一,通过商业探索塑造了时间壁垒和技术壁垒。第二,大家谈概念的时候,云知声芯片产品已经在市场上开卖。人工智能非常高大上,但是人工智能需要落地,需要我们在座企业界朋友们,不光追求技术的鼎天,我们还要做好商业的落地。这个是我们的智力方案,基本上是云端芯,可以灵活的组合,某些手机APP厂商可能只需要一个AX(音译)不够,还需要本地化的服务,就是云加端。我是一个机器人离的很远的时候,可以通过声音打断他,唤醒他,就需要把芯片组合到里面。


    这个今天完全不是概念,这个已经产品化一些东西。比如说左边像一个球一样,美的发布第一款壁挂式空调,可以全程远距离交互。格力空调是亲自给苗部长亲自演示,获得今年产业最高奖。右边是孩儿空调,去年开卖的乐视电视。这里面现象比较容易,但是还是比较难的,大家体验过的在手机端上的云识别之外,很多问题距离比较远的时候,声波在衰竭怎么办?我距离比较远不可能让人按纽,能不能通过声音唤醒他。还要考虑是不是符合低成本标准,低功耗标准。


    我们大家知道,我们能够看到用这种技术做交互的公司和厂商少之又少。我们大家看到只有亚马逊那个AlphaGo,我们一方面看到未来,我们一方面看到这个技术难度非常大。这个车里面,后视镜、导航仪等等,在车里面做到全程语音交互,手不用参与,眼睛不用参与。这个也是大概做的非常不错,这个是我们去年和中国的最好医院,北京协和医院合作,把云技术做进了大家都认为很封闭的医疗系统,而且这个今年在协和医院推广。今天医生不再需要用手用病例,这个可以提高效率。好医生在中国是非常稀缺的资源,医生每天平均节约3.8个小时,增加商业价值。


    这个我们在商业方面取得的成绩,我们除了讯飞百度之外,我们是国内第三大语音服务提供商。今天我们国内很多非常Topo医院已经开始使用云知声服务。云知声通过我们的技术,通过我们的努力,使得我们一起智享未来。我们非常看重人工智能技术,我相信人工智能会在未来像水电跟我们一起无处不在。最好的技术能够成功,离不开这个过程当中每一点每一滴,云知声成为水电煤之前,通过我们努力改变我们的生活,改变我们的车、医疗,让我们相信人工智能就在我们身边。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
数据采集 机器学习/深度学习 人工智能
云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进
本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场
|
5月前
|
存储 机器学习/深度学习 人工智能
未来已来:AI技术的最新趋势与前沿探索
【7月更文第20天】在这个日新月异的时代,人工智能(AI)已经从科幻概念逐渐深入到我们日常生活的方方面面,其发展速度之快超乎想象。从基础的语音识别、图像分析到复杂的决策制定、自动驾驶,AI技术正以前所未有的力量推动着社会进步。本文将带您一同展望AI技术的未来发展方向,深入探讨量子计算、生物计算等新兴领域的前沿探索,以及它们如何重新定义AI的边界。
312 0
|
机器学习/深度学习 人工智能 Cloud Native
软件开发的未来已来:大数据、AI和云原生的终极融合如何引爆市场
大数据、人工智能(AI)和云原生技术的终极融合正在软件开发领域引发巨大的变革和市场机遇。这个融合的未来已经来临,并将引爆市场的原因如下
222 0
|
存储 人工智能 BI
倒计时1天!《AI模型时代的多模态数据存储、管理和应用》特邀主题演讲邀你共同收看!(文末送好礼)
QCon 全球软件开发大会·北京站将于 9 月 3 - 5 日正式开幕,评论区留言免费送大会3日联票(包3天午餐);另外还有定制充电宝和限量款奥运云小宝盲盒等你拿!
466 0
|
人工智能
AI时代已来,吴恩达呼吁向每个孩子教授人工智能知识
AI时代已来,吴恩达呼吁向每个孩子教授人工智能知识
107 0
AI时代已来,吴恩达呼吁向每个孩子教授人工智能知识
|
机器学习/深度学习 人工智能 自然语言处理
AI教父Hinton最新采访万字实录:ChatGPT和AI的过去现在与未来
AI教父Hinton最新采访万字实录:ChatGPT和AI的过去现在与未来
171 0
|
机器学习/深度学习 人工智能 供应链
AI:《人工智能+制造(智能制造)产业发展的现状、影响、+互联网、未来展望》演讲听课笔记
AI:《人工智能+制造(智能制造)产业发展的现状、影响、+互联网、未来展望》演讲听课笔记
AI:《人工智能+制造(智能制造)产业发展的现状、影响、+互联网、未来展望》演讲听课笔记
|
人工智能 新能源
AI:陆奇博士(原微软全球执行副总裁/百度COO/现奇绩创坛创始人兼CEO)演讲之《正视挑战,把握创业创新机会》
AI:陆奇博士(原微软全球执行副总裁/百度COO/现奇绩创坛创始人兼CEO)演讲之《正视挑战,把握创业创新机会》
AI:陆奇博士(原微软全球执行副总裁/百度COO/现奇绩创坛创始人兼CEO)演讲之《正视挑战,把握创业创新机会》
|
人工智能 视频直播
AI:2020年WAIC世界人工智能大会2020年7月9日9:30-12:00开幕式《李彦宏、Elon Musk、马云等大佬演讲》
AI:2020年WAIC世界人工智能大会2020年7月9日9:30-12:00开幕式《李彦宏、Elon Musk、马云等大佬演讲》
AI:2020年WAIC世界人工智能大会2020年7月9日9:30-12:00开幕式《李彦宏、Elon Musk、马云等大佬演讲》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——12:30-13:10Jure《Recent Advancements in Graph Neural Networks》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——12:30-13:10Jure《Recent Advancements in Graph Neural Networks》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——12:30-13:10Jure《Recent Advancements in Graph Neural Networks》