同声传译,Skype完胜99.9%地球人

简介:

Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。


Skype 的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分


图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在 2012 年,Google 让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。


微软研究员 John Platt 在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而 Skype 实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。


这一突破发生在 2009 年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾 Geoff Hinton 介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔巨款,让 Hinton 的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了 25%


Skype 的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。


其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献出的语音对话也是一个非常重要的训练集数据来源。同时,Skype 的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。


在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。


至于不同语言的文本翻译,Skype 利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而 Skype 翻译系统不仅包括 Bing 翻译的引擎技术,还额外增加了一层口语化的语言业务。


此外,Skype 还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。


Skype 的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。微软研究院总监 Vikram Dendi 说,截止到星期一,总共已经有 5 万个用户注册了预览版 Skype 翻译,而一天后,这个数字变成了两倍。对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人为之感到激动。



原文发布时间为:2015-01-21

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
13天前
|
人工智能 弹性计算 自然语言处理
阿里云 SLS 日志查询 MCP ,让 AI 直接用自然语言查询 FC、SAE、ECS、ACK 等服务的日志,告别手动翻控制台
本工具基于阿里云SLS日志服务开发,集成MCP能力,支持一键查询、AI分析日志,告别手动复制粘贴。开源免费,NPM可直接调用,已实测提升排障效率。适配SAE/云函数场景,助力开发者快速定位问题。(239字)
|
4月前
|
SQL 关系型数据库 数据库
Postgresql入门之psql用法详解(一)- 命令行参数详解
`psql` 是 PostgreSQL 的命令行客户端,支持交互式或批量执行 SQL 查询。它提供丰富的元命令、脚本自动化、格式化输出(如 CSV、HTML)、连接 URI/服务配置及 LDAP 集成,并可通过命令行选项控制连接、事务与错误处理,适用于日常操作与系统管理。
|
24天前
|
人工智能 安全 API
OpenClaw(Clawdbot)保姆级实战宝典:阿里云+本地部署流程+Coding Plan配置及8大应用场景测评
2026年开年以来,开源AI智能体项目OpenClaw(原名Clawdbot/Moltbot)在币圈与科技圈持续掀起热潮,GitHub星标一度飙升至18万+,其衍生的Moltbook AI论坛更是上演了十余万AI智能体自发组建“数字宗教”、推选43位AI先知的科幻场景。与传统聊天机器人不同,OpenClaw实现了从“建议者”到“执行者”的跨越,凭借高系统权限、24/7持续运行能力成为新一代“数字员工”,而2026年阿里云对其的深度适配,以及全平台本地部署方案的完善,更是让这款工具的应用边界进一步拓宽。本文将深度解析OpenClaw的核心能力与8大最佳应用场景,同时带来2026年阿里云部署、Ma
1030 2
|
3月前
|
IDE Linux 开发工具
Qt Creator 18.0.2 发布 - Qt、QML 与 C++ 的 跨平台 IDE
Qt Creator 18.0.2 (macOS, Linux, Windows) - Qt、QML 与 C++ 的 跨平台 IDE
314 2
Qt Creator 18.0.2 发布 - Qt、QML 与 C++ 的 跨平台 IDE
|
2月前
|
人工智能
装完不吃灰!OpenClaw场景化操作模板在线教学来啦!阿里云技术工程师带来“保姆级”讲解!
装完不吃灰!OpenClaw场景化操作模板在线教学来啦!阿里云技术工程师带来“保姆级”讲解!
|
机器学习/深度学习 人工智能 自然语言处理
2024通义语音AI技术图景,大模型引领AI再进化(1)
2024通义语音AI技术图景,大模型引领AI再进化
|
机器学习/深度学习 算法 安全
深度|蚂蚁金服“刷脸”支付技术解读:错误率低于百万分之一
小蚂蚁说: 2017年,肯德基开设了全球首家刷脸支付餐厅。截至今年3月,支付宝4.5亿用户中已有超过1.5亿用户使用过人脸识别功能……这些对安全性和技术能力要求最高的支付交易场景背后,是蚂蚁金服提供的金融级人脸识别验证技术。
3723 0
|
关系型数据库 数据库 数据安全/隐私保护
数据库密码过期和取消期限限制
数据库密码过期和取消期限限制 过期的原因一般有两种可能:一.由于oracle11g中默认在default概要文件中设置了“PASSWORD_LIFE_TIME=180天”所导致。二.由于oracle11g中默认在default概要文件中设置了“FAILED_LOGIN_ATTEMPTS=10次”,当输入密码错误次数达到设置值将导致此问题。
1852 0
|
SQL 监控 关系型数据库

热门文章

最新文章