搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升40%!

简介: 手握搜索引擎和输入法两张王牌,搜狗在AI同传领域又放出大招——搜狗同传3.0惊艳亮相。基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让AI同传不仅会听,还首次具备了会看、能理解会推理的能力。搜狗一小步,同传一大步。

微信图片_20220107215031.jpg


“全球95%的信息是用英文所写的,100%的国际商贸活动是用英文的,因此如何帮助中国人跟外国人进行更好的交流,这变成了一个重大的技术课题。”

 

搜狗公司CEO王小川的这席话道出了多少中国人的心声?

 

微信图片_20220107215027.jpg


近日,王小川在某科技大会的演讲中谈到了“语言AI的未来构想”:我们作为做输入法、搜索以语言为核心的公司,投了很多的力量来做相关的积累。

 

这里说的积累包含搜狗的OCR技术、NLP技术、知识图谱技术等等,而这个积累的成果终于重磅亮相,它就是“搜狗同传3.0”。搜狗同传3.0在这场大会上的首秀惊艳四座,快速准确的同步翻译王小川的演讲内容,感受下:

 

微信图片_20220107215024.gif


业内首创多模态同传,PPT翻译正确率提升40.3%,搜狗同传3.0如何实现“能听会看会思考”?


在与搜狗AI交互技术部总经理陈伟和项目负责人赵超沟通后我们得知,在2016年“互联网大会”上,搜狗同传1.0首次亮相时语音识别准确率已经达到97%,机器翻译准确率达到90%。

 

而3年后的今天,搜狗同传3.0再次进化,PPT识别准确率提升21.7%,翻译正确率提升40.3%,靠的就是秘密武器——“语境引擎”。

 

微信图片_20220107215021.jpg


基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让机器同传不仅能听,还首次具备了会看、会思考、会推理的能力,引领AI同传进入了多模态认知时代。

 

  • 能听:准确识别讲述内容
  • 会看:通过OCR、NLP等技术,实时捕捉并分析PPT核心词
  • 会思考:基于知识图谱技术,广泛扩展专业领域词汇

 

其中,搜狗同传3.0业内首创利用视觉技术加持AI同传,成功破解了大会同传场景下,专业术语的识别和翻译这个难题。

 

搜狗同传产品总监张晶晶介绍道:“用摄像头或者数据线插在视频上实时通过OCR捕捉演讲人正在演讲的PPT内容,实时分析PPT核心关键词,就增强了视觉的能力。”

 

紧接着,在捕捉到核心关键词后,利用搜狗的知识图谱技术进行广泛的拓展,把相关的词语以及这个专业领域相关的词语都拓展出来来加强语音识别和翻译。这就是“能理解”。


微信图片_20220107215019.jpg


在这样一套系统下,搜狗同传3.0可以更像一个专家和内行一样的去解读和翻译大会。具体来说,使现有AI同传技术从3方面进行了提升:

 

  • 更自然,从以往单纯的语音识别,到现在去模拟人工同传的工作方式,增加视觉和大脑扩散知识点的功能,形成一套全方位的感知系统。
  • 更专业,以往的AI同传模型是通用的,现在通过这套系统形成了实时专属的定制加强的能力,能够实时捕捉PPT的内容,补充演讲专业领域的知识,并且针对每一个演讲的模型定制,提升同传效果。
  • 更智能,以往模型训练需要一个被动学习的过程,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。

 

在专业术语多的大会上,搜狗同传3.0的优势更加明显,具体效果见下图:

 

微信图片_20220107215016.jpg


搜狗同传2.0将围棋专业术语“投子”识别为“投资”,而通过捕捉PPT内容和知识图谱的扩展,搜狗同传3.0可以准确识别出来。

 

除了大会演讲的同传外,搜狗同传3.0作为一套完整的技术体系正在更多的场景应用,比如记者采访、跨国办公会议、视频直播、旅游出行、法院庭审等。

 

大厂纷纷押注AI同传,为什么以搜索起家的搜狗更具优势?


这两年,AI同传市场很热闹,以百度、腾讯、讯飞为代表的大厂纷纷推出自家的AI同传,也有一些被用在了世界级大会上。那么,作为最早一批入局AI同传的搜狗优势在哪?又有什么不同的理念呢?

 

搜狗同传一直代表着 AI 同传领域顶级的水平,早在2018年的IWSLT国际口语机器翻译评测大赛上,搜狗就击败讯飞、阿里、APPTEK、AFRL及KIT等国内外顶尖对手,夺得冠军,实力可见一斑。


在搜狗看来,未来面向人机交互一定是多模态的。其他公司的同传主要以“语音识别+翻译”为主,搜狗则步入了下一代,从语音跨到了多模态,同时加入对于语音和知识的理解,让AI同传具备一定的认知能力。

 

其实,AI同传面临的挑战主要有两个:一是准确性,二是低延时

 

越多的感官参与,理解就会越准确,对于AI同传来说也是如此。今天的搜狗同传把识别PPT加入其中,明天可能会调动更多“感官”,甚至把唇语识别也加入其中,提升翻译的准确性。

 

此外,搜狗的两大利器——搜索引擎和输入法在提升准确性方面也派上了大用场。

 

“每天在搜狗输入法上的语音识别总的次数在8亿次以上,8亿次以上语音请求数代表着每天差不多有30多万小时的有效数据,基于这样的数据再进一步去学习,本身就使得我们的机器一直在不断成长。”陈伟介绍到。

 

说话人开口讲了半句话,同声传译就要开始翻译了。为了降低延时,搜狗同传3.0做了一个基于上下流的解码,通过一个信息模块来实时检测说话人什么时候断句,再借助搜狗强大的知识图谱迅速整理翻译,这样就可以大大降低延时。

 

微信图片_20220107215013.jpg


搜狗同传领先的不仅是技术,还有眼光。当前,搜狗AI的技术布局聚焦在自然交互知识计算上。在语言之上提取出跟语言的关联关系,让机器产生人的“认知”能力,王小川称之为知识计算。怎么更好的把从大量数据中抽取出的知识用在同传中、怎么计算出更多的知识给同传用,这正是搜狗同传努力的方向。

 

搜狗同传3.0的发布,是搜狗又一次在同传领域的技术创新,让AI同传首次具备了视觉能力和思考能力,开启了AI同传行业全新的“多模态认知”时代。AI同传替代人工同传还会远吗?


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
人工智能 Cloud Native Serverless
2024云栖大会资料精选,《云原生+AI核心技术&最佳实践》PPT全量放送!
关注阿里云云原生公众号,后台回复:2024 云栖大会,即可免费下载云原生云栖大会核心资料合集。
1094 35
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云百炼大模型:引领企业智能化升级的下一代 AI 驱动引擎
随着人工智能技术的快速发展,大规模预训练模型正在改变各行各业的智能化进程。阿里云百炼大模型(Ba-Lian Large Model)作为阿里云推出的企业级 AI 解决方案,通过深度学习、自然语言处理、计算机视觉等前沿技术,帮助企业实现智能化升级,提升业务效率和创新能力。本文将详细介绍阿里云百炼大模型的核心技术、应用场景及其优势,帮助企业更好地理解和利用这一革命性工具。
180 1
|
3月前
|
人工智能 数据可视化 定位技术
DataV AI助手小技巧-如何制作PPT数据地图
“数据地图”是PPT汇报地区业务数据的最佳形式之一;以往制作数据地图需要用户有一定的编程和数据处理基础,制作门槛较高;随着DataV整合通义千问大模型能力之后,不懂编程和设计的用户也可以借助AI助手“零代码”制作数据地图,真正实现了人人可用的地图数据可视化。 进入大模型AI时代,人人可以变成职场跨界多面手!
11176 2
DataV AI助手小技巧-如何制作PPT数据地图
|
3月前
|
人工智能 数据库
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
本文提供了关于如何判断期刊类别、影响因子,识别顶级会议,以及在期刊内部进行检索的科研技巧,并探讨了AI技术在撰写综述和制作PPT方面的应用。
154 6
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
3D智能导诊系统源码,基于AI引擎,针对患者的病情及症状,结合性别年龄特征,智能推荐医院科室
智能导诊系统是一款基于AI技术的医疗辅助工具,利用自然语言处理和机器学习分析患者病情,精准推荐科室和医生。系统支持按性别分类导诊,设有3D人体模型辅助定位症状,界面简洁易操作。采用B/S架构,可无缝对接HIS数据库,支持多种接入形式,包括公众号、小程序和App,有效提升就诊效率并减轻医护人员负担。
|
3月前
|
人工智能 数据可视化 API
Dify-生成式 AI 应用创新引擎,本地搭建以及使用
Dify-生成式 AI 应用创新引擎,本地搭建以及使用
1162 1
|
5月前
|
人工智能 容器 运维
活动回顾丨AI 原生应用架构专场·北京站 PPT 下载
5 月 24 日,飞天技术沙龙首个 AI 原生应用架构专场在北京举办。
459 14
|
5月前
|
人工智能 运维 Cloud Native
活动回顾丨云原生技术实践营 Serverless + AI 专场 (深圳站) 回顾 & PPT 下载
云原生技术实践营 Serverless + AI 专场 (深圳站) 回顾。
|
4月前
|
分布式计算 Apache Spark
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
下一篇
无影云桌面