听写服务升级为录音笔OS,搜狗AI如何行业改造?

简介: 老瓶换新酒,搜狗如何推动录音笔市场升级?

存在于 20 多年的录音笔市场,几乎和 MP3 同岁,但后者已经销声匿迹。仅限于扩容、续航、外观改造的传统录音笔,在智能手机日益普及后逐渐进入了增长瓶颈期,产品同质化也越发严重。


据新思界产业研究中心发布的《2019-2023 年录音笔行业深度市场调研及投资策略建议报告》显示,从 2015 年到 2017 年,全国录音笔销量以龟速从 425 万台增至 432 万台。


录音笔如何避免步入 MP3 后尘,在市场中博得生机,成了眼下急需解决的问题。


作为一家语音技术服务商,搜狗试图充当搅动市场的鲶鱼。继今年春天搜狗推出 AI 录音笔 C1,半年后,搜狗用具体行动进一步深挖录音笔市场潜力。近日,搜狗宣布开放其核心技术能力「搜狗听写」服务,并牵头爱国者、万城集团、索尼录音笔、纽曼四家录音笔行业头部企业成立 AI 创新联盟。


搜狗 AI 交互技术中心总经理王砚峰对「听写服务」的角色进行了定位——录音笔 OS,它不同于市场上众多同类服务的原因,主要是它既提供转写、云端、智能编辑等强大的中台服务,还凭借搜狗输入法提供快速接入和硬件匹配的便利。正如 Google 的安卓系统对于手机,微软 Windows 对于电脑,搜狗希望将开放的听写服务打造成录音笔的「操作系统」,这是 AI 技术实现更大商业化的生态打法。


系统服务如何赋能?


AI 加持或将会为行业迎来新的转折点,这是近几年来录音笔行业内的普遍共识。但传统数码录音笔厂商在 AI 技术的研发上较为欠缺,且语音识别和转写技术壁垒较高。


基于搜狗转写技术的搜狗 AI 录音笔 CI 已经得到了市场的检验和认可,其具备实时互译、云端分享、中英同传等多种 AI 功能,以及高达 95% 以上的转写准确率都备受用户青睐,上市后极短时间内就在多个电商平台取得了单品销量第一的成绩等。


搜狗决定将听写服务体系开放出来,进而推动整个录音笔行业的 AI 化变革,这也是搜狗践行其 AI 战略的一次有效尝试,或将让传统录音笔行业从单纯依靠硬件销售的模式转向硬件+软件双服务的商业模式。


在开放「听写服务」的策略上,搜狗避开了做开放性平台向厂商提供 API 接口的传统模式,而是瞄准「录音笔的 OS」——通过蓝牙开放协议,让合作厂商零成本接入,让用户通过 PC 和移动端享用搜狗听写增值服务。


目前搜狗输入法语音请求峰值已超 7 亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,此外开放的转写技术方案包括:


1、完善和高准确度的转写技术。实时语音转写运用了搜狗自研的延迟可控的 Adaptive Attention-based 端到端建模技术,非实时语音转写功能使用业界领先的深层 Transformer-based 端到端语音识别技术,语音转写准确率可达 95% 以上。


2、接入搜狗输入法。由于用户一般会使用同一个输入法账号,基于用户长期使用的数据积累,系统可以为用户会建立起个人的输入词库,使用户常用的专业词汇、人名地名会被轻松识别。


3、多端同步编辑无论在 PC、安卓还是 iOS 上,用户都可以同步对录音转写的文字,进行编辑。未来输入法可以提供录音文件的导入,导入完了以后进行闭环的管理和编辑等一系列功能,即使用户没有带录音笔,换一个电脑登录自己的输入法,也可以把录音文件同步过来,进行跨电脑的编辑。同时由于配备了声纹识别能力,转写的文字可自动区分出说话人的角色,进行分段整理文字。


4、智能编辑搜狗转写服务可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。


5、云存储服务用户的录音和文字都能作为一种资产,长期保存在云端。


此外,在语音增强方面,搜狗自研的 Smart Voice 麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。


值得一提的是,本次搜狗听写服务实现了与搜狗输入法的打通,这不仅为听写服务带来了流量和数据上的巨大优势,同时更是搜狗输入法「表达信息更简单」使命的延伸,也是搜狗听写服务相比其他语音转写平台的优势所在。


目前,搜狗输入法在 PC 端占有 99% 的市场份额,在手机端用户日活超 4.5 亿,搜狗听写服务基于搜狗输入法的用户使用习惯,能够自动构建个性化识别网络,使用户常用语错误率下降 40%。


搜狗开放听写服务后,可以为市场上 90% 以上的录音笔产品提供接入服务,让所有有需求的用户享受「录音 1 小时,出稿 5 分钟」的极致体验。


搜狗公司 AI 交互技术中心总经理王砚峰坦言,未来 AI 赋能一定会越来越重,搜狗开放服务是做了一件很重的事儿。


一直以来,传统录音行业的研发重点都在于人声保真和场景降噪,录音音频的后续生产力转化一直被行业所忽略。


基于搜狗听写服务,搜狗创新性地开拓出一个专业化的录音文件后期智能处理平台,帮助用户轻松实现录音音频向文字的转化,有效节省人力和时间成本,使音频不仅「可听」而且「可看」,也推动着多年来进度滞缓的录音笔行业实现创新跃迁式发展。


联盟意味着什么?


发布会现场,搜狗联合爱国者、纽曼、索尼录音笔、万城集团成立了 AI 创新联盟。现在购买合作厂商录音笔的用户可以通过两条路径享用搜狗听写服务:对于市面上的现有产品,用户将录音笔 USB 接口插入电脑,搜狗输入法就能探测到录音笔的插入,开始按需执行语音转写服务;对于 AI 创新联盟内企业未来研发的新品,在移动端开放蓝牙协议后,用户通过蓝牙与搜狗录音助手相连,就可以实时完成语音转写服务。


可以预见的是,这四大录音笔生产厂商的加盟将为 AI 录音笔市场带来一股软硬融合的推动力量。从以硬件为主的单一收益模式向硬件+服务的多种收益模式转变,促进录音笔行业实现全面智能升级,与 AI 创新深度融合。


而在软件端,通过听写服务接入的输入法,还将为录音笔市场带来庞大的流量池。目前搜狗输入法 APP 端拥有超过 4.5 亿的日活用户,PC 端更是占据 99% 的市场份额。目前该流量池已经与搜狗的智能转写服务打通,未来应用这一服务的用户将会越来越多。


由于打开输入法时使用具体的账号,像特定领域和行业以及个性化词汇都存储在自己的账号里,因此转录的时候,转录结果也会贴近你的词库。


这也意味着搜狗开放给录音笔在语音识别、智能纠错等等方面的能力会在反复应用中不断锤炼提升,层出不断的新俚语、新术语也能通过云端同步其中,录音笔产品技术能力的成长体系得到了保障,长远来看其工具价值呈现出了一种稳步上升的状态。


会上,搜狗 CEO 王小川重申了公司的 AI 战略。他表示,搜狗很少自称 AI 公司,但作为一家底色是技术型公司的互联网公司,AI 是我们的技术之一。搜狗的使命是让表达和获取信息更简单,输入法是帮用户表达信息,搜索是帮用户获取信息。


坚持「自然交互」与「知识计算」双驱动是搜狗的 AI 发展路径。落实到具体产品上,主要为语音交互系统知音 OS 和知识计算平台深智引擎。换句话说,落实在信息表达和信息获取两个层面。


目前,搜狗输入法语音请求峰值超过 7 亿次。在从文字走向语音的道路上,搜狗一挥手获得了巨大的市场份额。同时,搜狗的 AI 语音合成功能、搜狗分身都在今年成为 AI 界的重要新闻。


通过 AI 录音笔创新、开放搜狗语音转写服务、建立 AI 创新联盟,搜狗打通了录音笔的产品、技术与产业三个层面的链条,有望推动录音笔行业进入 AI 时代。


随着 AI 落地进入深水期,互联网公司不再满足于通过单点技术来实现应用功能,而是融合数据、技术和流量池优势,通过联合产业、平台开放来打造持续成长的生态以创造更大的价值。


作为录音笔行业的新势力与破壁者,搜狗凭借自己的 AI 技术优势与硬件能力,率先打破僵局的勇气可嘉。进一步,通过开放听写服务并与多家企业达成联盟,不仅能给录音笔市场注入新的增长动力,更能够通过 AI 赋能更多合作伙伴为产品注入 AI 灵魂,同时也使得录音笔行业的商业模式从硬件收费模式向硬件+服务模式转变,推动整个行业的 AI 化转型。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
人工智能 自然语言处理 安全
用AI重构人机关系,OPPO智慧服务带来了更“懂你”的体验
OPPO在2025开发者大会上展现智慧服务新范式:通过大模型与意图识别技术,构建全场景入口矩阵,实现“服务找人”。打通负一屏、小布助手等系统级入口,让服务主动触达用户;为开发者提供统一意图标准、一站式平台与安全准则,降低适配成本,共建开放生态。
635 31
|
7月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
575 1
|
存储 人工智能 安全
智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力
一文总览阿里云存储产品创新与进展!
1456 0
|
8月前
|
人工智能 运维 安全
|
8月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
1094 14
|
8月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
8月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
2140 3
|
7月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
775 0

热门文章

最新文章

推荐镜像

更多