投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成

本文涉及的产品
文档翻译,文档翻译 1千页
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
简介: 一款「开挂」的录音笔,你会喜欢吗?

一款「开挂」的录音笔,你会喜欢吗?

在 AI 的加持下,录音笔仿佛有了开挂的「人生」:


最高支持 10 米远距离拾音,可过滤 4 万余种真实噪音;可根据用户语言习惯个性化转写,语音转写准确率达 98%;还能区分不同人声,做重点标记,自动提炼摘要。

它还能充当你的翻译官,支持 63 种语言的对话翻译,以及同声传译。

你可以用它做会议录音、听课记录、采访,也可以用它与不同国家的游客交流,甚至可以拿着它刷美剧。

没错,这正是搜狗新推出的新款 AI 录音笔 S1。它的背后,不单单是一款硬件,更是搜狗 AI 能力的集合。


微信图片_20211203135830.jpg


搜狗公司 CEO 王小川道出了他们做 AI 硬件的目的,「随着 AI 技术的进步,我们希望用户能更自由的表达,用你的声音、表情或肢体来表达,机器就可以理解,这些我们能做到的时候,就算达到了一个技术高度。」


01、搜狗 AI 录音笔是如何炼成的?


从搜狗输入法到语音交互、机器翻译,再到 AI 硬件,这背后有着深刻的搜狗 AI 发展逻辑。

早在 2016 年,当时搜狗没有做 AI 硬件,而是做了语音开放平台「知音引擎」,尝试技术输出。

但当时各路语音平台纷纷涌现,方案上没有谁真正不可替代,客户往往在多家间来回切换。另一方面,通用技术平台体验并不理想,加上 AI 行业处于早期,软件免费的思路还停留在很多人心中。

因此从 2017 年下半年开始,搜狗开启 AI 硬件的探索,沉淀技术,打磨硬件与场景。

2018 年上半年,搜狗推出探索之作——AI 翻译机和 AI 录音笔。如今 AI 硬件,已和输入法、搜索一样,是搜狗的几大重要战略之一。

接着 2019 年 3 月,搜狗又推出一款小巧的 AI 录音笔 C1,它具备了最新产品的雏形,支持语音转写、云端分享、中英同传等多种 AI 功能。

更重要的是,C1 的出现让略显疲态的录音笔行业鲜活了起来。经过用户一段时间的使用,搜狗对用户行为数据深入分析后,第一次呈现了用户的真实画像。


image.jpeg


搜狗发现,使用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达 44%;其次是学习培训占比 24%,媒体采访占比 21%,这三大场景占总使用场景的近九成。

正是基于对三大场景的思考,在 C1 的基础上,搜狗推出全新的 S1 和 E1 两款 AI 录音笔,还与故宫宫廷文化合作推出两款联名产品。

对比这两代产品,搜狗 CTO 杨洪涛解释,C1 系列解决的是随身便携的录音需求,可以像领件一样夹在衣领上,它的使用空间相对近场,一般不要超过 3 米。而最新发布的 S1 和 E1 产品,主要解决复杂场景的录音需求,能在多人会议、课堂听讲、嘈杂背景采访中使用,可将使用范围扩大到 5~10 米。


image.jpeg


为了满足更为复杂专业的需求,搜狗在远距离拾音、降噪上投入颇多。AI 录音笔 S1 搭配 2 颗哈曼指向性麦克风和 6 颗全向麦克风,在麦克风阵列算法的加持下,可有效过滤噪音,实现最高 10 米远距离拾音。

更重要的是,它还采用 AI 降噪,能够过滤 4 万余种真实噪音,让人声收录更清晰。

搜狗 AI 交互技术部总经理陈伟解释道,在硬件降噪基础上,搜狗首次将基于深度学习的降噪能力完全产品化。「我们使用了 4 万多种噪声,让模型学习到人声与噪声的区别,从而达到超出麦克风阵列以及行业其他降噪方案的更好降噪效果。」

在现场的测试环节,AI 录音笔 S1 面对键盘敲打、吹风机等的考验下,依然能够过滤噪音,提取清晰的人声。

可以看出,在硬件之路上摸爬滚打近 3 年后,搜狗对于 AI 硬件的理解也更为深刻。

只有面向用户体验,深入场景打磨技术,将技术、硬件、场景融合才能构建 AI 的竞争力。


02、AI 要转化为服务能力


搜狗内部有一句话叫,只做技术是不够的,技术要转化为服务能力。因为没有面向场景的深度优化,技术往往是一种鸡肋。


image.jpeg

搜狗 AI 录音笔 S1


围绕多人会议、学习培训、媒体采访等核心场景,搜狗 AI 录音笔 S1 除了做到「超强拾音」外,还具备「准确转写」「高效整理」「全能翻译」的能力,也呈现出搜狗将技术转化为服务能力的思考。

如果放在一个工作流中,录完音后,如何准确快速地语音转写至关重要。如果交给人来做是个繁重的体力活,而语音转写软件多不准确。

搜狗称,AI 录音笔 S1 及 E1 目前已能达到 98% 的转写准确率。这一数字背后搜狗做了大量的优化工作。

首先,搜狗输入法每天 8.3 亿次的语音请求,为听写服务提供了绝佳的「练兵场」,结合远场语音数据和真实场景的优化,已能将准确率达到不错的效果。

在此基础上,搜狗又打通用户输入法账号,根据用户的语言习惯,进行个性化转写。此外,搜狗语音团队还专门围绕财经贸易、医疗卫生、IT 科技、政法、文化体育等 5 个领域,构建专用语言模型,进一步提升行业词汇的识别,做到了 98% 的准确率。

S1 及 E1 这两款产品也十分高效,均可做到录音 1 小时,出稿 5 分钟,并且支持 10 种语言和 10 种方言的录音与转写。 


image.jpeg

搜狗 AI 录音笔 E1


接下来是高效整理。结合使用场景,搜狗做了一些非常实用的功能点,让人印象深刻的是「敲重点」和智能摘要技术。

当你在听课或者参加会议时,突然听到一句神来之笔或者金句,「敲重点」就派上用场了。S1 有一个专用「M」键,按一下,它就会将这句话标记为重点。

面对一篇万字长文,如何能快速获取其关键信息。正是出于这种考虑,搜狗推出智能摘要功能,但其效果如何呢?

陈伟坦言,在 AI 录音笔中提取摘要,远大于学术研究中的摘要生成问题,因为录音笔是在噪声环境下,语音识别难以保证 100% 的准确率,从噪音文本中整理出符合文章语意的摘要是相当困难的。

因此在技术路线上,搜狗没有使用生成模型,而是采用抽取式的摘要能力,基于原文找到关键词,再通过排序算法,从文章中抽取关键句,形成摘要,保证足够的精度。

此外,AI 录音笔 S1 还能支持 5 人内的人声分离,从而在文稿中自动分段呈现。考虑到掌声、笑声、点赞等节点可能会出现一些重点或金句,它还会自动识别并重点标记。

除了录音笔所需要的服务外,搜狗还将 AI 翻译能力内嵌其中。

目前搜狗 AI 录音笔 S1 支持 63 个语种的在线翻译,9 种离线翻译。在对话过程中,S1 还具备自由对话功能,能够自动识别说话人是否讲完,进而呈现翻译结果,无需手动操作。

此外,它还具备同声传译功能,你可以带着它听英文演讲、报告,屏幕上就会同步翻译中文字幕。

种种服务背后,正如搜狗 CTO 杨洪涛所言,AI 录音笔是为了让人们更自由的表达,而这背后所用到的技术,相当多是对搜狗原有技术体系的复用,并针对硬件做更好的 AI 优化。


03、AI 加持,行业呈现「新蓝海」


与搜狗 AI 录音笔迭代一同上演的是,录音笔行业的洗牌与变革。

录音笔是一个相对狭小的传统市场,过去 20 年间没有太多变化,随着智能手机集成功能的持续丰富,它面临被手机替代的风险。

因此我国录音笔每年销量在 400 多万台徘徊,增长基本停滞,市场多被索尼、爱国者、纽曼等硬件厂商占据。

随着搜狗 AI 录音笔 C1 推出,市场格局开始出现变化。2019 年 6 月,它便成为京东录音笔类目单品销量冠军、天猫录音笔类目单品销售额冠军,随后 11 月又拿下天猫京东双平台单品总销量冠军。

更为重要的是,AI 录音笔的出现,在主流电商平台上,让原本趋于平缓甚至下滑的录音笔品类访客数据明显上升,既有的市场天花板正在被打破,行业呈现「新蓝海」。


image.jpeg


到 2020 年一季度,AI 录音笔的销量已占据整个录音笔市场的 35%,行业变革正在上演。

与此同时,行业逐渐意识到 AI 优质服务的重要性,不少公司主动找到搜狗,甚至包括一些硬件上的竞争对手,询问能否购买搜狗的 AI 能力。

对于搜狗而言,尽管在硬件上取得一定成绩,但很难一家独大。因为在 C 端硬件市场,即使是最大的玩家,也很难占据 50% 以上的市场份额。但软件不同,后者可以发挥网络效应,一家独大。

内外部因素碰撞下,搜狗决定再往前迈一步,开放 AI 录音笔背后的听写服务。去年 8 月,搜狗联合爱国者、纽曼、索尼录音笔、万城集团等录音笔行业头部企业,成立 AI 创新联盟,将搜狗 AI 能力开放给业界。

传统录音笔以硬件为主的商业模式也正在被打破,「硬件+服务」的新型收益模式正在形成。

搜狗 CTO 杨洪涛称,「过去传统硬件主要是卖毛利,未来我们希望探索一种服务化模式,通过 AI 能力向用户提供更多增值服务,扩展传统商业模式的空间。」

在 AI 录音笔身上,我们看到两条不断交织的线,一条是搜狗 AI 的演进线,在「自然交互+知识计算」的指引下,从最初的语音识别发展到机器翻译、搜狗分身,再到如今的多模态交互。

另一条是 AI 硬件变革线,将 AI 能力不断注入硬件中,升级一个行业,而录音笔只是第一个。

相关文章
|
机器学习/深度学习 算法 数据挖掘
阿里音乐流行趋势预测—冠军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—冠军答辩(一)
797 0
|
数据采集 机器学习/深度学习 算法
阿里音乐流行趋势预测—冠军答辩(二)|学习笔记
快速学习阿里音乐流行趋势预测—冠军答辩(二)
454 0
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
62 2
|
5月前
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)
108 4
|
数据采集 SQL 算法
阿里音乐流行趋势预测—亚军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(一)
421 0
|
人工智能 小程序 机器人
AI配音 | 接近真人发音的机器人,小程序上线了!
而这一次,给大家带来的是小程序和更多播讲人的上线,合成更加方便,直接手机就能完成。
360 0
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
334 0
|
机器学习/深度学习 算法 机器人
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
122 0
|
机器人 人机交互
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
191 0
|
算法 大数据 开发者
阿里音乐流行趋势预测—亚军答辩(二)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(二)
250 0
下一篇
无影云桌面