搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升40%!

简介: 手握搜索引擎和输入法两张王牌,搜狗在AI同传领域又放出大招——搜狗同传3.0惊艳亮相。基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让AI同传不仅会听,还首次具备了会看、能理解会推理的能力。搜狗一小步,同传一大步。

微信图片_20220107215031.jpg


“全球95%的信息是用英文所写的,100%的国际商贸活动是用英文的,因此如何帮助中国人跟外国人进行更好的交流,这变成了一个重大的技术课题。”

 

搜狗公司CEO王小川的这席话道出了多少中国人的心声?

 

微信图片_20220107215027.jpg


近日,王小川在某科技大会的演讲中谈到了“语言AI的未来构想”:我们作为做输入法、搜索以语言为核心的公司,投了很多的力量来做相关的积累。

 

这里说的积累包含搜狗的OCR技术、NLP技术、知识图谱技术等等,而这个积累的成果终于重磅亮相,它就是“搜狗同传3.0”。搜狗同传3.0在这场大会上的首秀惊艳四座,快速准确的同步翻译王小川的演讲内容,感受下:

 

微信图片_20220107215024.gif


业内首创多模态同传,PPT翻译正确率提升40.3%,搜狗同传3.0如何实现“能听会看会思考”?


在与搜狗AI交互技术部总经理陈伟和项目负责人赵超沟通后我们得知,在2016年“互联网大会”上,搜狗同传1.0首次亮相时语音识别准确率已经达到97%,机器翻译准确率达到90%。

 

而3年后的今天,搜狗同传3.0再次进化,PPT识别准确率提升21.7%,翻译正确率提升40.3%,靠的就是秘密武器——“语境引擎”。

 

微信图片_20220107215021.jpg


基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让机器同传不仅能听,还首次具备了会看、会思考、会推理的能力,引领AI同传进入了多模态认知时代。

 

  • 能听:准确识别讲述内容
  • 会看:通过OCR、NLP等技术,实时捕捉并分析PPT核心词
  • 会思考:基于知识图谱技术,广泛扩展专业领域词汇

 

其中,搜狗同传3.0业内首创利用视觉技术加持AI同传,成功破解了大会同传场景下,专业术语的识别和翻译这个难题。

 

搜狗同传产品总监张晶晶介绍道:“用摄像头或者数据线插在视频上实时通过OCR捕捉演讲人正在演讲的PPT内容,实时分析PPT核心关键词,就增强了视觉的能力。”

 

紧接着,在捕捉到核心关键词后,利用搜狗的知识图谱技术进行广泛的拓展,把相关的词语以及这个专业领域相关的词语都拓展出来来加强语音识别和翻译。这就是“能理解”。


微信图片_20220107215019.jpg


在这样一套系统下,搜狗同传3.0可以更像一个专家和内行一样的去解读和翻译大会。具体来说,使现有AI同传技术从3方面进行了提升:

 

  • 更自然,从以往单纯的语音识别,到现在去模拟人工同传的工作方式,增加视觉和大脑扩散知识点的功能,形成一套全方位的感知系统。
  • 更专业,以往的AI同传模型是通用的,现在通过这套系统形成了实时专属的定制加强的能力,能够实时捕捉PPT的内容,补充演讲专业领域的知识,并且针对每一个演讲的模型定制,提升同传效果。
  • 更智能,以往模型训练需要一个被动学习的过程,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。

 

在专业术语多的大会上,搜狗同传3.0的优势更加明显,具体效果见下图:

 

微信图片_20220107215016.jpg


搜狗同传2.0将围棋专业术语“投子”识别为“投资”,而通过捕捉PPT内容和知识图谱的扩展,搜狗同传3.0可以准确识别出来。

 

除了大会演讲的同传外,搜狗同传3.0作为一套完整的技术体系正在更多的场景应用,比如记者采访、跨国办公会议、视频直播、旅游出行、法院庭审等。

 

大厂纷纷押注AI同传,为什么以搜索起家的搜狗更具优势?


这两年,AI同传市场很热闹,以百度、腾讯、讯飞为代表的大厂纷纷推出自家的AI同传,也有一些被用在了世界级大会上。那么,作为最早一批入局AI同传的搜狗优势在哪?又有什么不同的理念呢?

 

搜狗同传一直代表着 AI 同传领域顶级的水平,早在2018年的IWSLT国际口语机器翻译评测大赛上,搜狗就击败讯飞、阿里、APPTEK、AFRL及KIT等国内外顶尖对手,夺得冠军,实力可见一斑。


在搜狗看来,未来面向人机交互一定是多模态的。其他公司的同传主要以“语音识别+翻译”为主,搜狗则步入了下一代,从语音跨到了多模态,同时加入对于语音和知识的理解,让AI同传具备一定的认知能力。

 

其实,AI同传面临的挑战主要有两个:一是准确性,二是低延时

 

越多的感官参与,理解就会越准确,对于AI同传来说也是如此。今天的搜狗同传把识别PPT加入其中,明天可能会调动更多“感官”,甚至把唇语识别也加入其中,提升翻译的准确性。

 

此外,搜狗的两大利器——搜索引擎和输入法在提升准确性方面也派上了大用场。

 

“每天在搜狗输入法上的语音识别总的次数在8亿次以上,8亿次以上语音请求数代表着每天差不多有30多万小时的有效数据,基于这样的数据再进一步去学习,本身就使得我们的机器一直在不断成长。”陈伟介绍到。

 

说话人开口讲了半句话,同声传译就要开始翻译了。为了降低延时,搜狗同传3.0做了一个基于上下流的解码,通过一个信息模块来实时检测说话人什么时候断句,再借助搜狗强大的知识图谱迅速整理翻译,这样就可以大大降低延时。

 

微信图片_20220107215013.jpg


搜狗同传领先的不仅是技术,还有眼光。当前,搜狗AI的技术布局聚焦在自然交互知识计算上。在语言之上提取出跟语言的关联关系,让机器产生人的“认知”能力,王小川称之为知识计算。怎么更好的把从大量数据中抽取出的知识用在同传中、怎么计算出更多的知识给同传用,这正是搜狗同传努力的方向。

 

搜狗同传3.0的发布,是搜狗又一次在同传领域的技术创新,让AI同传首次具备了视觉能力和思考能力,开启了AI同传行业全新的“多模态认知”时代。AI同传替代人工同传还会远吗?


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
5月前
|
人工智能 供应链 数据可视化
一文读懂AI引擎与Together规则引擎重塑智能决策
从1950年图灵提出人工智能设想到如今AI引擎实现自主决策,Together规则引擎正成为智能决策核心。它通过动态规划、多工具调用与持续学习机制,赋能供应链、财务、定价等场景,提升决策透明度与效率。Together助力AI引擎突破落地瓶颈,推动企业管理迈向“决策即服务”新时代。
|
5月前
|
传感器 人工智能 自然语言处理
通过AI编程工具,实现沉浸式翻译 Light Translate
通过AI编程工具,实现Light Translate 是一款智能沉浸式翻译插件,鼠标悬停0.1秒即可精准翻译单词,无需点击或选择,助力流畅阅读英文网页,专为英语工作者设计,提升阅读效率与语言能力。
268 1
|
人工智能 关系型数据库 MySQL
AI战略丨开源开放,构建 AI 时代的创新引擎
技术开源和产业开放彼此衔接、相互支撑,构建全产业链合作模式和无边界产业生态圈,日益成为数字时代全球分工体系的主流模式。
|
4月前
|
人工智能 API 开发工具
AskTable:可嵌入任何系统的 AI 数据智能体引擎
AskTable 是一款以 Table 为核心的数据 AI 基础设施。它通过标准化 API、SDK、iFrame 与智能体协议(MCP),让 AI 能直接理解、查询和分析表格数据,轻松嵌入企业现有系统。 AskTable 提供从数据接入、语义分析到可视化生成的完整能力,可无缝集成至网页、移动端、钉钉、企业微信或 Dify/HiAgent 等智能体平台。
645 157
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
606 98
|
7月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
354 1
|
5月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
698 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
4月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
832 23
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
390 0