搜狗首创语境引擎：AI同传最强进化，PPT翻译正确率猛升40%！-阿里云开发者社区

搜狗首创语境引擎：AI同传最强进化，PPT翻译正确率猛升40%！

2022-01-07 938

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 手握搜索引擎和输入法两张王牌，搜狗在AI同传领域又放出大招——搜狗同传3.0惊艳亮相。基于搜狗独创的“语境引擎”，搜狗同传3.0以“多模态”和“自主学习“为核心，加入视觉和思维能力，让AI同传不仅会听，还首次具备了会看、能理解会推理的能力。搜狗一小步，同传一大步。

微信图片_20220107215031.jpg

“全球95%的信息是用英文所写的，100%的国际商贸活动是用英文的，因此如何帮助中国人跟外国人进行更好的交流，这变成了一个重大的技术课题。”

搜狗公司CEO王小川的这席话道出了多少中国人的心声？

微信图片_20220107215027.jpg

近日，王小川在某科技大会的演讲中谈到了“语言AI的未来构想”：我们作为做输入法、搜索以语言为核心的公司，投了很多的力量来做相关的积累。

这里说的积累包含搜狗的OCR技术、NLP技术、知识图谱技术等等，而这个积累的成果终于重磅亮相，它就是“搜狗同传3.0”。搜狗同传3.0在这场大会上的首秀惊艳四座，快速准确的同步翻译王小川的演讲内容，感受下：

微信图片_20220107215024.gif

业内首创多模态同传，PPT翻译正确率提升40.3%，搜狗同传3.0如何实现“能听会看会思考”？

在与搜狗AI交互技术部总经理陈伟和项目负责人赵超沟通后我们得知，在2016年“互联网大会”上，搜狗同传1.0首次亮相时语音识别准确率已经达到97%，机器翻译准确率达到90%。

而3年后的今天，搜狗同传3.0再次进化，PPT识别准确率提升21.7%，翻译正确率提升40.3%，靠的就是秘密武器——“语境引擎”。

微信图片_20220107215021.jpg

基于搜狗独创的“语境引擎”，搜狗同传3.0以“多模态”和“自主学习“为核心，加入视觉和思维能力，让机器同传不仅能听，还首次具备了会看、会思考、会推理的能力，引领AI同传进入了多模态认知时代。

能听：准确识别讲述内容
会看：通过OCR、NLP等技术，实时捕捉并分析PPT核心词
会思考：基于知识图谱技术，广泛扩展专业领域词汇

其中，搜狗同传3.0业内首创利用视觉技术加持AI同传，成功破解了大会同传场景下，专业术语的识别和翻译这个难题。

搜狗同传产品总监张晶晶介绍道：“用摄像头或者数据线插在视频上实时通过OCR捕捉演讲人正在演讲的PPT内容，实时分析PPT核心关键词，就增强了视觉的能力。”

紧接着，在捕捉到核心关键词后，利用搜狗的知识图谱技术进行广泛的拓展，把相关的词语以及这个专业领域相关的词语都拓展出来来加强语音识别和翻译。这就是“能理解”。

微信图片_20220107215019.jpg

在这样一套系统下，搜狗同传3.0可以更像一个专家和内行一样的去解读和翻译大会。具体来说，使现有AI同传技术从3方面进行了提升：

更自然，从以往单纯的语音识别，到现在去模拟人工同传的工作方式，增加视觉和大脑扩散知识点的功能，形成一套全方位的感知系统。
更专业，以往的AI同传模型是通用的，现在通过这套系统形成了实时专属的定制加强的能力，能够实时捕捉PPT的内容，补充演讲专业领域的知识，并且针对每一个演讲的模型定制，提升同传效果。
更智能，以往模型训练需要一个被动学习的过程，现在自动学习PPT的内容，自动捕捉海量词汇，确保同传品质非常优秀。

在专业术语多的大会上，搜狗同传3.0的优势更加明显，具体效果见下图：

微信图片_20220107215016.jpg

搜狗同传2.0将围棋专业术语“投子”识别为“投资”，而通过捕捉PPT内容和知识图谱的扩展，搜狗同传3.0可以准确识别出来。

除了大会演讲的同传外，搜狗同传3.0作为一套完整的技术体系正在更多的场景应用，比如记者采访、跨国办公会议、视频直播、旅游出行、法院庭审等。

大厂纷纷押注AI同传，为什么以搜索起家的搜狗更具优势？

这两年，AI同传市场很热闹，以百度、腾讯、讯飞为代表的大厂纷纷推出自家的AI同传，也有一些被用在了世界级大会上。那么，作为最早一批入局AI同传的搜狗优势在哪？又有什么不同的理念呢？

搜狗同传一直代表着 AI 同传领域顶级的水平，早在2018年的IWSLT国际口语机器翻译评测大赛上，搜狗就击败讯飞、阿里、APPTEK、AFRL及KIT等国内外顶尖对手，夺得冠军，实力可见一斑。

在搜狗看来，未来面向人机交互一定是多模态的。其他公司的同传主要以“语音识别+翻译”为主，搜狗则步入了下一代，从语音跨到了多模态，同时加入对于语音和知识的理解，让AI同传具备一定的认知能力。

其实，AI同传面临的挑战主要有两个：一是准确性，二是低延时。

越多的感官参与，理解就会越准确，对于AI同传来说也是如此。今天的搜狗同传把识别PPT加入其中，明天可能会调动更多“感官”，甚至把唇语识别也加入其中，提升翻译的准确性。

此外，搜狗的两大利器——搜索引擎和输入法在提升准确性方面也派上了大用场。

“每天在搜狗输入法上的语音识别总的次数在8亿次以上，8亿次以上语音请求数代表着每天差不多有30多万小时的有效数据，基于这样的数据再进一步去学习，本身就使得我们的机器一直在不断成长。”陈伟介绍到。

说话人开口讲了半句话，同声传译就要开始翻译了。为了降低延时，搜狗同传3.0做了一个基于上下流的解码，通过一个信息模块来实时检测说话人什么时候断句，再借助搜狗强大的知识图谱迅速整理翻译，这样就可以大大降低延时。

微信图片_20220107215013.jpg

搜狗同传领先的不仅是技术，还有眼光。当前，搜狗AI的技术布局聚焦在自然交互和知识计算上。在语言之上提取出跟语言的关联关系，让机器产生人的“认知”能力，王小川称之为知识计算。怎么更好的把从大量数据中抽取出的知识用在同传中、怎么计算出更多的知识给同传用，这正是搜狗同传努力的方向。

搜狗同传3.0的发布，是搜狗又一次在同传领域的技术创新，让AI同传首次具备了视觉能力和思考能力，开启了AI同传行业全新的“多模态认知”时代。AI同传替代人工同传还会远吗？

搜狗首创语境引擎：AI同传最强进化，PPT翻译正确率猛升40%！

搜狗公司CEO王小川的这席话道出了多少中国人的心声？

业内首创多模态同传，PPT翻译正确率提升40.3%，搜狗同传3.0如何实现“能听会看会思考”？

大厂纷纷押注AI同传，为什么以搜索起家的搜狗更具优势？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

搜狗首创语境引擎：AI同传最强进化，PPT翻译正确率猛升40%！

搜狗公司CEO王小川的这席话道出了多少中国人的心声？

业内首创多模态同传，PPT翻译正确率提升40.3%，搜狗同传3.0如何实现“能听会看会思考”？

大厂纷纷押注AI同传，为什么以搜索起家的搜狗更具优势？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景