投喂4万种噪声，20种语言方言实时转录，搜狗「开挂」录音笔这样炼成-阿里云开发者社区

投喂4万种噪声，20种语言方言实时转录，搜狗「开挂」录音笔这样炼成

2021-12-03 202

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

文档翻译，文档翻译 1千页

文本翻译，文本翻译 100万字符

图片翻译，图片翻译 100张

简介： 一款「开挂」的录音笔，你会喜欢吗？

一款「开挂」的录音笔，你会喜欢吗？

在 AI 的加持下，录音笔仿佛有了开挂的「人生」：

最高支持 10 米远距离拾音，可过滤 4 万余种真实噪音；可根据用户语言习惯个性化转写，语音转写准确率达 98%；还能区分不同人声，做重点标记，自动提炼摘要。

它还能充当你的翻译官，支持 63 种语言的对话翻译，以及同声传译。

你可以用它做会议录音、听课记录、采访，也可以用它与不同国家的游客交流，甚至可以拿着它刷美剧。

没错，这正是搜狗新推出的新款 AI 录音笔 S1。它的背后，不单单是一款硬件，更是搜狗 AI 能力的集合。

微信图片_20211203135830.jpg

搜狗公司 CEO 王小川道出了他们做 AI 硬件的目的，「随着 AI 技术的进步，我们希望用户能更自由的表达，用你的声音、表情或肢体来表达，机器就可以理解，这些我们能做到的时候，就算达到了一个技术高度。」

01、搜狗 AI 录音笔是如何炼成的？

从搜狗输入法到语音交互、机器翻译，再到 AI 硬件，这背后有着深刻的搜狗 AI 发展逻辑。

早在 2016 年，当时搜狗没有做 AI 硬件，而是做了语音开放平台「知音引擎」，尝试技术输出。

但当时各路语音平台纷纷涌现，方案上没有谁真正不可替代，客户往往在多家间来回切换。另一方面，通用技术平台体验并不理想，加上 AI 行业处于早期，软件免费的思路还停留在很多人心中。

因此从 2017 年下半年开始，搜狗开启 AI 硬件的探索，沉淀技术，打磨硬件与场景。

2018 年上半年，搜狗推出探索之作——AI 翻译机和 AI 录音笔。如今 AI 硬件，已和输入法、搜索一样，是搜狗的几大重要战略之一。

接着 2019 年 3 月，搜狗又推出一款小巧的 AI 录音笔 C1，它具备了最新产品的雏形，支持语音转写、云端分享、中英同传等多种 AI 功能。

更重要的是，C1 的出现让略显疲态的录音笔行业鲜活了起来。经过用户一段时间的使用，搜狗对用户行为数据深入分析后，第一次呈现了用户的真实画像。

搜狗发现，使用录音笔的第一大场景并非大家预想的媒体采访，而是企业内部的商务场景，比如会议记录，占比高达 44%；其次是学习培训占比 24%，媒体采访占比 21%，这三大场景占总使用场景的近九成。

正是基于对三大场景的思考，在 C1 的基础上，搜狗推出全新的 S1 和 E1 两款 AI 录音笔，还与故宫宫廷文化合作推出两款联名产品。

对比这两代产品，搜狗 CTO 杨洪涛解释，C1 系列解决的是随身便携的录音需求，可以像领件一样夹在衣领上，它的使用空间相对近场，一般不要超过 3 米。而最新发布的 S1 和 E1 产品，主要解决复杂场景的录音需求，能在多人会议、课堂听讲、嘈杂背景采访中使用，可将使用范围扩大到 5~10 米。

为了满足更为复杂专业的需求，搜狗在远距离拾音、降噪上投入颇多。AI 录音笔 S1 搭配 2 颗哈曼指向性麦克风和 6 颗全向麦克风，在麦克风阵列算法的加持下，可有效过滤噪音，实现最高 10 米远距离拾音。

更重要的是，它还采用 AI 降噪，能够过滤 4 万余种真实噪音，让人声收录更清晰。

搜狗 AI 交互技术部总经理陈伟解释道，在硬件降噪基础上，搜狗首次将基于深度学习的降噪能力完全产品化。「我们使用了 4 万多种噪声，让模型学习到人声与噪声的区别，从而达到超出麦克风阵列以及行业其他降噪方案的更好降噪效果。」

在现场的测试环节，AI 录音笔 S1 面对键盘敲打、吹风机等的考验下，依然能够过滤噪音，提取清晰的人声。

可以看出，在硬件之路上摸爬滚打近 3 年后，搜狗对于 AI 硬件的理解也更为深刻。

只有面向用户体验，深入场景打磨技术，将技术、硬件、场景融合才能构建 AI 的竞争力。

02、AI 要转化为服务能力

搜狗内部有一句话叫，只做技术是不够的，技术要转化为服务能力。因为没有面向场景的深度优化，技术往往是一种鸡肋。

搜狗 AI 录音笔 S1

围绕多人会议、学习培训、媒体采访等核心场景，搜狗 AI 录音笔 S1 除了做到「超强拾音」外，还具备「准确转写」、「高效整理」、「全能翻译」的能力，也呈现出搜狗将技术转化为服务能力的思考。

如果放在一个工作流中，录完音后，如何准确快速地语音转写至关重要。如果交给人来做是个繁重的体力活，而语音转写软件多不准确。

搜狗称，AI 录音笔 S1 及 E1 目前已能达到 98% 的转写准确率。这一数字背后搜狗做了大量的优化工作。

首先，搜狗输入法每天 8.3 亿次的语音请求，为听写服务提供了绝佳的「练兵场」，结合远场语音数据和真实场景的优化，已能将准确率达到不错的效果。

在此基础上，搜狗又打通用户输入法账号，根据用户的语言习惯，进行个性化转写。此外，搜狗语音团队还专门围绕财经贸易、医疗卫生、IT 科技、政法、文化体育等 5 个领域，构建专用语言模型，进一步提升行业词汇的识别，做到了 98% 的准确率。

S1 及 E1 这两款产品也十分高效，均可做到录音 1 小时，出稿 5 分钟，并且支持 10 种语言和 10 种方言的录音与转写。

搜狗 AI 录音笔 E1

接下来是高效整理。结合使用场景，搜狗做了一些非常实用的功能点，让人印象深刻的是「敲重点」和智能摘要技术。

当你在听课或者参加会议时，突然听到一句神来之笔或者金句，「敲重点」就派上用场了。S1 有一个专用「M」键，按一下，它就会将这句话标记为重点。

面对一篇万字长文，如何能快速获取其关键信息。正是出于这种考虑，搜狗推出智能摘要功能，但其效果如何呢？

陈伟坦言，在 AI 录音笔中提取摘要，远大于学术研究中的摘要生成问题，因为录音笔是在噪声环境下，语音识别难以保证 100% 的准确率，从噪音文本中整理出符合文章语意的摘要是相当困难的。

因此在技术路线上，搜狗没有使用生成模型，而是采用抽取式的摘要能力，基于原文找到关键词，再通过排序算法，从文章中抽取关键句，形成摘要，保证足够的精度。

此外，AI 录音笔 S1 还能支持 5 人内的人声分离，从而在文稿中自动分段呈现。考虑到掌声、笑声、点赞等节点可能会出现一些重点或金句，它还会自动识别并重点标记。

除了录音笔所需要的服务外，搜狗还将 AI 翻译能力内嵌其中。

目前搜狗 AI 录音笔 S1 支持 63 个语种的在线翻译，9 种离线翻译。在对话过程中，S1 还具备自由对话功能，能够自动识别说话人是否讲完，进而呈现翻译结果，无需手动操作。

此外，它还具备同声传译功能，你可以带着它听英文演讲、报告，屏幕上就会同步翻译中文字幕。

种种服务背后，正如搜狗 CTO 杨洪涛所言，AI 录音笔是为了让人们更自由的表达，而这背后所用到的技术，相当多是对搜狗原有技术体系的复用，并针对硬件做更好的 AI 优化。

03、AI 加持，行业呈现「新蓝海」

与搜狗 AI 录音笔迭代一同上演的是，录音笔行业的洗牌与变革。

录音笔是一个相对狭小的传统市场，过去 20 年间没有太多变化，随着智能手机集成功能的持续丰富，它面临被手机替代的风险。

因此我国录音笔每年销量在 400 多万台徘徊，增长基本停滞，市场多被索尼、爱国者、纽曼等硬件厂商占据。

随着搜狗 AI 录音笔 C1 推出，市场格局开始出现变化。2019 年 6 月，它便成为京东录音笔类目单品销量冠军、天猫录音笔类目单品销售额冠军，随后 11 月又拿下天猫京东双平台单品总销量冠军。

更为重要的是，AI 录音笔的出现，在主流电商平台上，让原本趋于平缓甚至下滑的录音笔品类访客数据明显上升，既有的市场天花板正在被打破，行业呈现「新蓝海」。

到 2020 年一季度，AI 录音笔的销量已占据整个录音笔市场的 35%，行业变革正在上演。

与此同时，行业逐渐意识到 AI 优质服务的重要性，不少公司主动找到搜狗，甚至包括一些硬件上的竞争对手，询问能否购买搜狗的 AI 能力。

对于搜狗而言，尽管在硬件上取得一定成绩，但很难一家独大。因为在 C 端硬件市场，即使是最大的玩家，也很难占据 50% 以上的市场份额。但软件不同，后者可以发挥网络效应，一家独大。

内外部因素碰撞下，搜狗决定再往前迈一步，开放 AI 录音笔背后的听写服务。去年 8 月，搜狗联合爱国者、纽曼、索尼录音笔、万城集团等录音笔行业头部企业，成立 AI 创新联盟，将搜狗 AI 能力开放给业界。

传统录音笔以硬件为主的商业模式也正在被打破，「硬件+服务」的新型收益模式正在形成。

搜狗 CTO 杨洪涛称，「过去传统硬件主要是卖毛利，未来我们希望探索一种服务化模式，通过 AI 能力向用户提供更多增值服务，扩展传统商业模式的空间。」

在 AI 录音笔身上，我们看到两条不断交织的线，一条是搜狗 AI 的演进线，在「自然交互+知识计算」的指引下，从最初的语音识别发展到机器翻译、搜狗分身，再到如今的多模态交互。

另一条是 AI 硬件变革线，将 AI 能力不断注入硬件中，升级一个行业，而录音笔只是第一个。