智能语音交互平台决战在即,创业者们的机会在哪儿?

简介: 第三种是行业市场。这里包含了教育、医疗、金融等市场,这个领域需要和行业深度结合,巨头很难做,其实是创业公司的机会。

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事)。

平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性)、非线性增长性等。这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战。

注意力过剩的语音交互赛道

很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤。最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小米虽然没有正式发布自己的平台,但从之前的某些采访来看,产品取得进展后,小米也是会把后端开放出来的,如果再加上老牌的科大讯飞、云知声,也在加上创业公司里的 Rokid 等,我们至少已经拥有 10 家以上的平台提供商。

而实际情形是这个赛道非常狭窄,易观和京东联合发布的数据显示直到眼下这个季度,智能音箱一个季度也只有 7 万左右的销量。两相参照,我们唯一能说的就是这个赛道注意力过剩了。

注意力过剩的原因其实很简单:AI 的影响太大了,而语音交互看起来是 AI 里面第一个靠谱的落地点。这里面有一条非常清晰的递进线,就和我们常说的:上不了好的幼儿园就上不了好的小学,上不了好的小学很可能就上不了好的中学,然后一路影响到大学乃至一生。

在人工智能这里这条递进线是这样:做不好智能音箱很可能就会失去语音交互,而失去语音交互很可能就失去人工智能。失去人工智能则比错过互联网还可怕,自己很可能会变成 Sun 或者钢铁企业这种传统公司。于是创业公司谋求颠覆巨头,巨头谋求延续其优势地位,最终我们就有了很多的平台。

大家为什么争的是平台而不是单独的某个产品?毕竟很多时候公司的发展轨迹更可能是起于产品而终于平台。这点在巨头身上其实比较好理解,产品的意义太小,平台是终极目的。但在创业公司身上挑战就显的太大了一些,如果是现有一款销量极大的产品,然后再做平台,那压力可能就比现在的双线作战会轻些,毕竟做产品和做平台其实是两件调性差异很大的事,这么选择也许有我们并不了解的理由吧。

克制不可能阻止必然发生的战争

平台有一些很有意思的特性,可以叫寡头性也可以叫不相容性。只要是同赛道,那不管是上下游能错位开的平台,还是同等层面定位稍有偏差的平台,那骨子里一定是竞争关系。比如都是电商平台,那就不管怎么去定义,C2C,B2C 等等,只要还没在一家手里,那战争就不可避免。微软本来做的是操作系统,Google 做的是搜索引擎,似乎能错开赛道,但还是不行,在 PC 时代两家也是直接竞争关系。

2016 年 9 月,彭博社做了一份按市值来的公司排名,从中我们可以发现市值最高的五家公司已经全都变成了 IT 公司:苹果以 5,710 亿美元的市值高居榜首,之后依次是 Alphabet(谷歌)和微软,市值分别为 5,400 亿美元和 4,410 亿美元。亚马逊(Amazon)以 3,640 亿美元的市值紧随其后,第五位为 Facebook,市值为 3,570 亿美元。然后只要稍微一延伸,就可以得出互联网时代唯一稳固的商业模式是平台模式(苹果虽然封闭但其实也是平台)这结论。这也可以同国内的商业实践相参照,BAT、京东、美团、滴滴等全是平台。这在数字世界里似乎已是定论。

那多种智能语音交互平台之间是否有共存的可能性?很遗憾,估计是没有。如果是非通用型平台,那彼此间竞争不大,比如你做金融,我做医疗,他做生活服务,这还有共存的可能,但当前各大平台都是同内容绑定在一起的,而绑定的内容则是高度同质化的,这样一来竞争就只可能是直接且尖锐的。

各大平台当前之所以还相安无事,核心原因主要是市场还没启动。下面预计各大平台还是会潜伏一段时间,努力增加自己手里的筹码。一旦市场真的启动,那战争估计会立刻爆发,所有在打车、外卖上发生过的事情,比如补贴、广告、对骂等都会在语音交互平台上来一遍。回想当初,3Q 大战是发生在 2012 这个 PC 互联网最顶峰的时候,而不是 2000 年互联网刚刚启动的时候,背后的道理是一样的。

真到那时候,这个市场就真的会洗牌,在这种大兵团作战的时候,创业公司如果没成长起来估计机会很小,即使是科大讯飞估计也很难顶住这么残酷的竞争。科大讯飞反倒是可能变成最大的受害者,因为科大讯飞的商业模式骨子里是要靠技术赚钱的,而互联网巨头几乎一定会把讯飞想赚钱的部分打成免费。

这时候讯飞如果想持续推进自己的平台,那就只能跟着免费,而显然讯飞的体量不足以支撑这样一场残酷的竞争。所以虽然语音交互对讯飞是绝大的机遇,但风险一样很大,因为他必须直面 BAT 这样的巨头,还有小米这种有着生态链瞬间能落地千万设备的产品公司。

很热闹的战争其实早已注定,唯一不知道的就是到底什么时候开咯!

创业者的机会在那儿?

看起来创业者似乎没有机会了,但其实不是。没有机会的是和巨头同赛道、同模式进行竞争,但只要一天还不能实现彻底的通用智能,那创业者就总是还有机会。只要获得安身立命的基础,那就有可能等到巨头犯错的机会。如果单纯的看谁人多、谁钱多,那现在的巨头其实也不会成为巨头,更成功的应该是沃尔玛、联想等。

具体来讲,我们可以这样对后端智能平台进行区隔:

第一种是和通用内容相结合的领域。这里就包含了音乐、视频、百科等,这个领域属于重资产的领域,如果直接和巨头进行竞争,则机会不大。

第二种是和线下服务相结合的领域。这里包含了客服、服务整合、家居控制等,这个领域需要一定的人机结合,并且具有相当的非标成分。巨头也会做,但不可能占据所有市场,甚至也可能不太适应,创业公司其实是有机会的。

第三种是行业市场。这里包含了教育、医疗、金融等市场,这个领域需要和行业深度结合,巨头很难做,其实是创业公司的机会。

这里面还有最大的一种变数:提供服务的公司最终会选择被整合还是会希望自己直接提供服务?

小结

前阵有篇文章叫《人民想念周鸿祎》,老周则回复说人民其实想念的是炮火声和说真话的人。实际上从各大平台的蓄势来看,火药桶已经在那里了,并且都还在各自积蓄能量,需要的只是一个引子。如果智能音箱起量,那就真的离决战不远了。



本文作者:王金许
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
机器学习/深度学习 自然语言处理 前端开发
智能语音交互自学习平台培训 | 学习笔记
简介:快速学习智能语音交互自学习平台培训
336 0
智能语音交互自学习平台培训 | 学习笔记
|
人工智能 自然语言处理 算法
从算法平台到机器视觉和语音识别,优必选全面布局人工智能
从 2008 年到 2012 年,周剑用了第一个五年时间,研发出满意的舵机。这成为周剑在 2012 年创立优必选科技(下简称优必选)的底气,也成就了优必选的第一个五年————舵机是优必选的核心技术,覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品。
484 0
从算法平台到机器视觉和语音识别,优必选全面布局人工智能
|
8月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
240 4
|
6月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12485 116
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
187 0
|
2月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
134 0
|
5月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
106 4

热门文章

最新文章

  • 1
    实时语音识别 使用websockt传输二进制数组 onSentenceEnd不返回结果
    43
  • 2
    在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
    155
  • 3
    Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
    265
  • 4
    深度学习在语音识别中的进展
    80
  • 5
    语音识别------ffmpeg的使用01,ffmpeg的安装,会做PPT很好,ffmpeg不具备直接使用,只可以操作解码数据,ffmpeg用C语言写的,得学C语言,ffmpeg的安装
    75
  • 6
    语音识别-----列表的常用操作课后练习讲解,用变量追加,取出第一个,取出最后一个,下标位置,列表的循环遍历,下标+1的写法,len下标可以小于这个值,while循环对index循环的遍历
    44
  • 7
    语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
    266
  • 8
    语音识别,列表的定义语法,列表[],列表的下标索引,从列表中取出来特定的数据,name[0]就是索引,反向索引,头部是-1,my[1][1],嵌套列表使用, 列表常用操作, 函数一样,需引入
    51
  • 9
    语音识别,函数综合案例,黑马ATM,/t/t一个对不齐,用两个/t,数据容器入门,数据容器可以分为列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)
    51
  • 10
    语音识别----函数基础定义联系案例,函数的参数,函数的参数练习案例,函数的返回值定义语法,函数返回值之None,函数的说明文档,函数的嵌套调用,变量在函数中的作用域,内部变量变全局变量用global
    60