搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升40%!

简介: 手握搜索引擎和输入法两张王牌,搜狗在AI同传领域又放出大招——搜狗同传3.0惊艳亮相。基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让AI同传不仅会听,还首次具备了会看、能理解会推理的能力。搜狗一小步,同传一大步。

微信图片_20220107215031.jpg


“全球95%的信息是用英文所写的,100%的国际商贸活动是用英文的,因此如何帮助中国人跟外国人进行更好的交流,这变成了一个重大的技术课题。”

 

搜狗公司CEO王小川的这席话道出了多少中国人的心声?

 

微信图片_20220107215027.jpg


近日,王小川在某科技大会的演讲中谈到了“语言AI的未来构想”:我们作为做输入法、搜索以语言为核心的公司,投了很多的力量来做相关的积累。

 

这里说的积累包含搜狗的OCR技术、NLP技术、知识图谱技术等等,而这个积累的成果终于重磅亮相,它就是“搜狗同传3.0”。搜狗同传3.0在这场大会上的首秀惊艳四座,快速准确的同步翻译王小川的演讲内容,感受下:

 

微信图片_20220107215024.gif


业内首创多模态同传,PPT翻译正确率提升40.3%,搜狗同传3.0如何实现“能听会看会思考”?


在与搜狗AI交互技术部总经理陈伟和项目负责人赵超沟通后我们得知,在2016年“互联网大会”上,搜狗同传1.0首次亮相时语音识别准确率已经达到97%,机器翻译准确率达到90%。

 

而3年后的今天,搜狗同传3.0再次进化,PPT识别准确率提升21.7%,翻译正确率提升40.3%,靠的就是秘密武器——“语境引擎”。

 

微信图片_20220107215021.jpg


基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让机器同传不仅能听,还首次具备了会看、会思考、会推理的能力,引领AI同传进入了多模态认知时代。

 

  • 能听:准确识别讲述内容
  • 会看:通过OCR、NLP等技术,实时捕捉并分析PPT核心词
  • 会思考:基于知识图谱技术,广泛扩展专业领域词汇

 

其中,搜狗同传3.0业内首创利用视觉技术加持AI同传,成功破解了大会同传场景下,专业术语的识别和翻译这个难题。

 

搜狗同传产品总监张晶晶介绍道:“用摄像头或者数据线插在视频上实时通过OCR捕捉演讲人正在演讲的PPT内容,实时分析PPT核心关键词,就增强了视觉的能力。”

 

紧接着,在捕捉到核心关键词后,利用搜狗的知识图谱技术进行广泛的拓展,把相关的词语以及这个专业领域相关的词语都拓展出来来加强语音识别和翻译。这就是“能理解”。


微信图片_20220107215019.jpg


在这样一套系统下,搜狗同传3.0可以更像一个专家和内行一样的去解读和翻译大会。具体来说,使现有AI同传技术从3方面进行了提升:

 

  • 更自然,从以往单纯的语音识别,到现在去模拟人工同传的工作方式,增加视觉和大脑扩散知识点的功能,形成一套全方位的感知系统。
  • 更专业,以往的AI同传模型是通用的,现在通过这套系统形成了实时专属的定制加强的能力,能够实时捕捉PPT的内容,补充演讲专业领域的知识,并且针对每一个演讲的模型定制,提升同传效果。
  • 更智能,以往模型训练需要一个被动学习的过程,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。

 

在专业术语多的大会上,搜狗同传3.0的优势更加明显,具体效果见下图:

 

微信图片_20220107215016.jpg


搜狗同传2.0将围棋专业术语“投子”识别为“投资”,而通过捕捉PPT内容和知识图谱的扩展,搜狗同传3.0可以准确识别出来。

 

除了大会演讲的同传外,搜狗同传3.0作为一套完整的技术体系正在更多的场景应用,比如记者采访、跨国办公会议、视频直播、旅游出行、法院庭审等。

 

大厂纷纷押注AI同传,为什么以搜索起家的搜狗更具优势?


这两年,AI同传市场很热闹,以百度、腾讯、讯飞为代表的大厂纷纷推出自家的AI同传,也有一些被用在了世界级大会上。那么,作为最早一批入局AI同传的搜狗优势在哪?又有什么不同的理念呢?

 

搜狗同传一直代表着 AI 同传领域顶级的水平,早在2018年的IWSLT国际口语机器翻译评测大赛上,搜狗就击败讯飞、阿里、APPTEK、AFRL及KIT等国内外顶尖对手,夺得冠军,实力可见一斑。


在搜狗看来,未来面向人机交互一定是多模态的。其他公司的同传主要以“语音识别+翻译”为主,搜狗则步入了下一代,从语音跨到了多模态,同时加入对于语音和知识的理解,让AI同传具备一定的认知能力。

 

其实,AI同传面临的挑战主要有两个:一是准确性,二是低延时

 

越多的感官参与,理解就会越准确,对于AI同传来说也是如此。今天的搜狗同传把识别PPT加入其中,明天可能会调动更多“感官”,甚至把唇语识别也加入其中,提升翻译的准确性。

 

此外,搜狗的两大利器——搜索引擎和输入法在提升准确性方面也派上了大用场。

 

“每天在搜狗输入法上的语音识别总的次数在8亿次以上,8亿次以上语音请求数代表着每天差不多有30多万小时的有效数据,基于这样的数据再进一步去学习,本身就使得我们的机器一直在不断成长。”陈伟介绍到。

 

说话人开口讲了半句话,同声传译就要开始翻译了。为了降低延时,搜狗同传3.0做了一个基于上下流的解码,通过一个信息模块来实时检测说话人什么时候断句,再借助搜狗强大的知识图谱迅速整理翻译,这样就可以大大降低延时。

 

微信图片_20220107215013.jpg


搜狗同传领先的不仅是技术,还有眼光。当前,搜狗AI的技术布局聚焦在自然交互知识计算上。在语言之上提取出跟语言的关联关系,让机器产生人的“认知”能力,王小川称之为知识计算。怎么更好的把从大量数据中抽取出的知识用在同传中、怎么计算出更多的知识给同传用,这正是搜狗同传努力的方向。

 

搜狗同传3.0的发布,是搜狗又一次在同传领域的技术创新,让AI同传首次具备了视觉能力和思考能力,开启了AI同传行业全新的“多模态认知”时代。AI同传替代人工同传还会远吗?


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
3月前
|
传感器 人工智能 自然语言处理
通过AI编程工具,实现沉浸式翻译 Light Translate
通过AI编程工具,实现Light Translate 是一款智能沉浸式翻译插件,鼠标悬停0.1秒即可精准翻译单词,无需点击或选择,助力流畅阅读英文网页,专为英语工作者设计,提升阅读效率与语言能力。
183 1
|
8月前
|
人工智能 Cloud Native Serverless
从理论到落地:MCP 实战解锁 AI 应用架构新范式
本文旨在从 MCP 的技术原理、降低 MCP Server 构建复杂度、提升 Server 运行稳定性等方面出发,分享我们的一些实践心得。
3323 102
|
8月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
2380 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
|
6月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
2015 1
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
1807 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
9月前
|
人工智能 数据可视化 定位技术
AI 小技巧 | PPT 也能用数据地图?
AI 小技巧 | PPT 也能用数据地图?
453 4
|
9月前
|
传感器 数据采集 人工智能
翻译、调酒、下象棋?AI眼镜成了年货“新宠”
翻译、调酒、下象棋?AI眼镜成了年货“新宠”
|
9月前
|
人工智能 搜索推荐 算法
当AI代做PPT时,教师如何完成自我迭代?——从生成式人工智能(GAI)认证看教育者的未来突围
本文探讨了AI在教育领域的广泛应用及其对教师角色的挑战,强调知识观与教育观的转变。生成式人工智能(GAI)认证为教师提供了提升AI应用能力、促进教育创新的机会。文章建议教师通过转变观念、加强情感交流及参与创新实践完成自我迭代,并呼吁政府、学校和社会共同支持AI时代教育的发展,以培养适应未来的高素质人才。