同声传译,Skype完胜99.9%地球人

简介:

Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。


Skype 的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分


图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在 2012 年,Google 让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。


微软研究员 John Platt 在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而 Skype 实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。


这一突破发生在 2009 年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾 Geoff Hinton 介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔巨款,让 Hinton 的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了 25%


Skype 的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。


其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献出的语音对话也是一个非常重要的训练集数据来源。同时,Skype 的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。


在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。


至于不同语言的文本翻译,Skype 利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而 Skype 翻译系统不仅包括 Bing 翻译的引擎技术,还额外增加了一层口语化的语言业务。


此外,Skype 还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。


Skype 的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。微软研究院总监 Vikram Dendi 说,截止到星期一,总共已经有 5 万个用户注册了预览版 Skype 翻译,而一天后,这个数字变成了两倍。对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人为之感到激动。


原文发布时间为:2015-01-21

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
25天前
|
人工智能 测试技术 持续交付
GPT-Image 2 + Seedance 2,普通人做短视频的门槛又被打穿了
近期AI影像领域两大突破性工具引发关注:OpenAI的GPT-Image 2.0强化文字渲染与视觉推理,专注高质量静态图生成;字节Seedance 2.0则基于统一多模态架构,支持图文音视频输入,实现可控动态视频生成。二者协同,正将短视频创作从“团队协作”降维为“单人闭环”,大幅降低普通人做自媒体副业的内容生产门槛。
|
1月前
|
人工智能 机器人 Shell
在公司蒸馏我之前,我先赛博飞升
OpenClaw(龙虾)是一款开源AI数字分身框架,可本地或云端部署,支持多模型接入(Claude、Qwen、Ollama等)及钉钉/飞书/Telegram等10+聊天平台。它不止聊天,还能操作浏览器、读写文件、执行命令,并通过插件实现“蒸馏人物”、自动化办公等高级能力,主打隐私可控、真能干活。
400 10
|
1月前
|
缓存 算法 关系型数据库
【分布式】分布式核心组件——分布式ID生成:雪花算法、号段模式、美团Leaf、百度UidGenerator、时钟回拨解决方案
本文系统梳理分布式ID生成核心知识体系,涵盖设计准则(唯一性、有序性、高性能等)、两大技术路线(雪花算法与号段模式)原理及优劣、主流工业方案(美团Leaf、百度UidGenerator)深度解析、时钟回拨全维度应对策略,并提供选型对比与落地避坑指南,助力高可用分布式系统建设。
|
2月前
|
存储 运维 监控
什么是批处理?一文搞清批处理和流处理的区别
本文深入浅出解析批处理与流处理的本质区别:批处理面向静态、有界数据,延迟高但稳定高效;流处理处理持续、无界数据流,毫秒级响应但架构复杂。涵盖核心特征、典型场景、技术难点及批流一体实践方案,助你一文厘清关键概念。
|
4月前
|
人工智能 缓存 自然语言处理
AI网关可能是当下降低推理成本最经济的工程手段
网关成大模型降本关键:无需修改代码,即可节省达 70% 推理开销。
350 3
|
10月前
|
人工智能 监控
小众赛道新机会----反向海淘
反向海淘是指海外消费者通过跨境电商或代购平台购买中国商品并寄回本地的消费模式。因其价格低、品类多、文化情感需求及社交电商推动,日益受到海外华人、留学生及追求性价比的本土消费者青睐。主要方式包括代购平台、直邮、集运转运和社交代购,代表平台有Pandabuy、AliExpress等。盈利模式涵盖商品差价、平台佣金、物流增值、广告及数据服务等。未来趋势包括AI选品、本地仓储和社交电商崛起。
|
数据采集 数据可视化 数据处理
数据清洗——可视化背后的脏活累活,你真的懂吗?
数据清洗——可视化背后的脏活累活,你真的懂吗?
304 8
|
6月前
|
人工智能 搜索推荐 语音技术
基于多模态交互的智能面试训练系统设计与实现
基于多模态大模型,我们打造了革命性智能面试系统“模拟面试”,融合语音识别、情感计算与知识图谱,实现全维度能力评估与个性化成长路径规划,推动人才发展进入AI新纪元。
|
5月前
|
安全 搜索推荐 API
巧用拼多多API,精准定位下沉市场,销量一路狂飙!
本文探讨如何利用拼多多开放平台API,精准洞察下沉市场用户需求与行为,通过数据驱动实现选品优化、精准营销与个性化运营,助力商家提升销量。涵盖热销分析、用户画像、定向优惠等场景,强调合规与技术落地要点,打造高效增长闭环。(238字)
330 0
|
8月前
|
安全 程序员 数据库连接
web渗透-CSRF漏洞
CSRF(跨站请求伪造)是一种常见的Web安全漏洞,攻击者通过伪造用户请求,诱使其在已登录状态下执行非意愿操作。本文介绍CSRF原理、分类(站外与站内)、DVWA靶场搭建及防御措施,如同源策略与Token验证,提升安全防护意识。
668 0
web渗透-CSRF漏洞

热门文章

最新文章