在深度学习快速发展的今天,机器翻译系统的能力究竟达到了什么样的水平?机器翻译是否已经可以代替人类翻译?3 月 17 日,机器之心与搜狗共同举办的 INTERFACE 线下分享中,搜狗语音交互技术中心研发总监陈伟、搜狗 IOT 事业部产品负责人李健涛,从技术和产品两个方面为我们回答了这些令人感兴趣的问题,解读了搜狗,以及业内目前机器翻译技术的现状。
在活动结束之后,我们对本次分享内容进行了整理:
搜狗语音翻译技术
分享者:搜狗语音交互技术中心研发总监陈伟
陈伟:语音这块分语音识别、语音合成和机器翻译的积累。我将重点介绍搜狗如何把复杂的在线语音翻译技术放到离线上面的,我相信这件事大家会很感兴趣。
搜狗语音翻译技术架构
在移动时代,我们更多地通过输入法表达信息,搜索获取信息。而到了智能时代,知音 OS 是怎么获取信息呢?通过深智引擎获得,因此搜狗的人工智能战略是两块,一块是自然交互,一块是知识计算。我们团队目前是在自然交互,人和机器之间,人更好的在机器输入信息,同时机器有很好的反馈。速记翻译笔设备不是拍脑袋想出来的,本身的产品思考已经非常成熟,技术上我们一直没有落下,紧跟产品思维在做。
搜狗这段时间在人工智能上面的能力持续提升,一个是在语音识别方面,处于行业领先,准确率 97% 的水平;另外,我们在 2016 年 11 月份首发机器同传技术,另外是 2017 年 5 月份我们参加了国际顶级机器翻译评测 WMT,获得了中英机器翻译全球第一。我们也一直在推动机器翻译技术的进步,因为去年我们跟今日头条和创新工场一起推动人工智能挑战赛,当时参与的人群比较多,当时我们在业内开放出 1000 万条精标口语翻译数据集,目前很多学术机构和公司使用的都是目前我们开放出来的数据集,这也是业内开放出来最大的高质量评测语料机器翻译数据集。除此之外,搜狗在知识问答上过去几年也取得了很大成绩。
把这些单点技术拿出来看我们会形成好的产品,2016 年开始我们一直在推搜狗机器同传,往技术层面来看,它其实就是语音翻译技术,把搜狗语音识别和搜狗机器翻译、语音合成打通。这是一个简单的机器框图,同传整个口译技术里面最难的技术层面,相当于人不断讲话过程中,屏幕和耳机要实时听到机器翻译的声音,语音不会停,我们做的过程中要不断去判断语音断点,找到语音之前断句的位置,然后做语音识别。语音识别之后拿到的句子非常多,不同语句混合在一起,需要有文本断句的能力,我们判断出这句话是完整的句子送到机器翻译,把结果通过语音合成方式,最后构成机器同传的完整能力。
我们需要加强的单点能力是把语音识别、机器翻译、语音合成的能力提升。连接语音识别和机器翻译之间文本断句能力是我们过去一直在加强的功能,有三个方面:内容顺滑、句子划分、输出判断。举一个例子,这个例子比较简单,他说「呃,我想去找你吃饭,不知道你有有没有空」。我们要把语气词去掉,否则会影响用户观感,做了顺滑以后会把语气词删掉,还有重复词去掉,这样的东西带到翻译里会极大降低翻译体验。
此外,我们经常讲的关于口头禅的事情,比如有人经常说「在这里、在那里、那就是说」等等。做了顺滑之后我们会得到相对来说语义完整,没有太多冗杂的句子。多个句子连在一起,如何找到断句的位置,需要在文本上做断句,通过神经网络模型,把句子划分开,上一个句子就变成了:我想去找你吃饭,不知道你有没有空。
在我想去找你吃饭后面加上标点符号。是不是把整个句子送过去就可以?这样是不合理的,为什么?我们做的过程中在实时做语音翻译处理,用户可能想说我想去找你吃饭,不知道你有没有空,我们一般来说会判断一下到底哪些句子需要送到后台做翻译,哪些需要等一等,等来了之后拼凑成完整语句再进行翻译。输出判断的时候,优先把我想去找你吃饭进行翻译,后面会有句子加进来。因此同传的时候会做很多容错以及判断,同传这件事情是很强的单点技术融合在一起,把更多单点技术串连起来非常大的系统工程。
搜狗语音产品发展历程
简单回顾一下搜狗在语音产品上面的进展,2016 年 11 月 24 号,第三届乌镇世界互联网大会上同传,在屏幕上投屏,这个系统有什么特点呢?第一,它是同传的,真正对于人工口译行业,他们一般叫同传和交传,同传概念是讲话过程中,人工同传把听到的语音翻译成对应的目标端语言,还有交传,说完了翻译才会做翻译,比如新闻发布会上,总理讲完了,翻译针对总理讲的东西做翻译,那是交传。我们首发的时候是同传模式,整个服务基于在线,使用两项技术:语音识别和机器翻译。2017 年我们逐渐把产品放到搜狗产品上面,目前搜狗翻译产品日均请求量已达 720 万次,随着技术成熟逐渐上线,产品带来了大量数据积累,这方便了我们不断进行技术迭代。2017 年第四届乌镇互联网大会上,我们发布了机器同传 2.0,把语音合成能力加进去。因为现场有人工同传箱,我们把机器合成的声音连到人工同传箱,人们戴上耳机以后可以选择 3-4 个频道。
整个 2017 年,机器同传支持了 200 多场同传服务,极客公园创新大会上我们发布了英译中机器同传,之前很多是中译英,但台下如果很多是中国观众的话不是刚需,反过来英译中对于国内大会来说非常重要,大家可以实时的看到英译中的效果。
搜狗的翻译硬件布局
搜狗在语音翻译硬件上的布局,在于今年 1 月 24 号发布的搜狗旅行翻译宝和搜狗速记翻译笔。技术特点拆解来看,搜狗旅行翻译宝主要是搜狗离线语音翻译,交传模式,我讲完以后你会看到我的播报声音,并不是同传的,用到的技术有搜狗的语音识别、机器翻译和语音合成。搜狗速记翻译笔是同传模式,语音识别和机器翻译。所以这两个产品略有区别。
现有技术进步肯定会提到深度学习对我们这个行业,对 AI 技术带来极大的提升,怎么来看带来的提升呢?或者从哪些因素分析呢?一般来说分三个特点:1)数据的变迁;2)算法的变迁;3)运算的变化。
从数据角度来看,其实现在数据对于工业界而言是非常大的护城河,工业界因为有自己的产品,因为有更多人力财力支持,我们可以获得更多的数据。现在已经达到数十万的量级,真正工业级商业机器翻译系统都是过亿语料规模,以前做语音合成语料库大概需要 10 个小时,从录音室出来的精标数据,现在这个量已经扩展到几百小时,甚至上千小时,数据规模逐渐变迁。
为什么说数据有用呢?上图是搜狗语音识别从 2012 年上线到现在的数据变化情况,早期上线之前,我们通过 Google 接口,收取大量用户数据,我们没有完全做语音识别系统,而是做了热启动,最早期的语音识别系统。当时上线用到的数据量也就 500 小时左右,随着数据级变化,从早期接近 40% 的错误率一直到 2016 年是 4.8%,现在已经是 3% 以内了。现在搜狗输入法上面每天请求数 PV 是 3 亿次左右,差不多总体语音总时长是 26 万小时,虽然这个数据并不代表搜狗马上可以拿 26 万小时的内容做训练,但是它的确会给我们带来更多的可能性,当你有大量数据的时候要不要做更多数据挖掘,我们可以通过机器半自动方式挑选数据,让我们的技术获得不断提升。
我们有一个自己的平台,叫 EVA,来自日本动漫的名字(新世纪福音战士),这个平台更多研究如何去做训练,因为当你的数据越来越多的时候,算法越来越复杂的时候,怎么样在短时间内获得更好的模型就成为需要优先考虑的问题了。底层基础设施有不同硬件,RDMA 是高速率的路由器。再上面,我们怎么能够更好的做自动配置,以及更灵活的调度,所以我们用了分布式系统,更好的调度各种各样训练服务。再上层,基于目前已有的系统上面的设计,把很多算法放上去,比如现在常用的 CNN、RNN、CTC、LSTM/GRU。再往上就是应用,图像识别、语音识别、机器翻译这样的技术。
现在的大多数其他开源平台在服务器端还是比较成熟的,但在终端——手机端和硬件端的运算能力,如何拿到好的模型来做推断?我们团队内部意识到,针对特定业务,做推断这件事情一定是强定制的,不可能有通用运算库,针对所有模型和任务都可以算得非常快。因此,搜狗团队在自己的深度学习平台内部孵化出一个工具,试图解决在已有 ARM 的 CPU 等计算硬件的条件下,如何进行更高效的运算的问题。
这一挑战分两个部分:任务调度的事情和高性能计算,针对目前我的逻辑和业务做更多的运算定制,这些东西支持了目前我们在语音识别、机器翻译、语音合成上各种运算任务,这些任务会逐渐放到搜狗对内对外很多产品上,比如今天看到的搜狗旅行翻译宝,包括之前手机端的很多业务,另外车机,搜狗在家,主要依赖于目前在云端基于我们的平台,以及在手机终端上比较强的运算定制能力,保证这件事情是打通的。
我们把自己的库与 ARM 的 ACL 对比,目前我们已有的库平均性能加速比 1.62 倍,在搜狗自有任务下加速比将近 4 倍。自有硬件可以保证你基于已有架构做更好的定制。如果你想在手机上跑起来,首先要对模型做更大的裁剪,在相对容忍的时间内跑起来,如果在自有硬件上,由于有很强的运算能力,我们可以把高品质模型和能力放入设备。
自 2010 年以后,深度学习技术变革了整个语音识别性能,2010 年之前,我当时学的语音专业,找工作非常难,2010 年之后忽然发现深度学习技术使用起来之后,错误率急速下降 30%,从实验室-可商用中间摇摆的状态到快速使用的状态。我们发现深度学习技术不只变革了语音识别,也变革了 AI 行业。比如现在做语音做图像,它用到的底层结构基本类似。
语音为例,2010 年之后,搜狗团队做过 DNN,做过 CNN,做过 LSTM 和简单的 RNN,我们也尝试把 CNN 做的很深,比如我们团队做 50 多层 CNN 结构,尝试了 seq2seq 等结构。我们也尝试做一些变化,比如用 CTC 结构代替之前的 cost funtion,保证它能够更多的端到端,而不要把很多东西做的太复杂了。我们尝试在 LSTM 经典的基于序列建模方式上,把它简化,因此就会有 SRU 和 QRNN 的尝试,所以在算法方面有很多的变化。
如何把多个模型结构融合在一起,形成多模型融合在一起的复合结构?比如我们现在做的是 LS-BLSTM,不同的特点,提升整体在语音识别上的效果。
语音合成的合成前端,包括分词也使用了神经网络结构,合成后端是端到端神经网络系统。这里给大家分享一些小的差异点。语音合成现在已经比较成熟了,得到的参数合成效果现在较之前有很大的提升,我们能不能做更多的事情,能不能使用少量语音做更大的合成?我们拿林志玲 6 分钟训练数据合成,或者做迁移学习,变到其他风格上面,比如她只是讲话,能不能让她去讲贯口,或者唱首歌?
我们可以实现个性化定制,也可以称之为情感迁移、风格迁移。6 分钟林志玲的声音,合成了让机器像她一样讲话,怎么针对已有风格让它迁移到这个风格上面,我们团队在做这样一些事情。
搜狗的机器翻译技术
聊聊搜狗在机器翻译上的工作,目前的框架是去年我们获得 WMT 冠军时的框架,采用 encoder attention 加 decoder 技术,采用 layer norm 加速收敛。当时我们做了比较多的深层 RNN-NMT 模型,另外做了很多融合,在后面结果的筛选上,提升候选重排序,还有神经网络语言模型。RNN-NMT 已经是 2017 年的技术,甚至 2017 年上半年的技术,现在技术变化非常快。
2017 年,Facebook 提出了基于卷积神经网络(CNN)的 NMT,之后 Google 的论文《Attention is all you need》则提出了更先进的机器翻译技术。我们在 2017 年 7 月份上线了基于 transformer 的机器翻译系统,这个系统最大的问题在于它的解码器很慢,搜狗很快解决了解码器的问题,形成了自有的 Transformer 框架,新系统较原生系统提升了 8 倍,机器评分好了 3 个 BLEU 以上。在人工评测上,和竞品对比,我们发现目前这个框架比其他系统都要好很多。
为什么搜狗能这么快上线?主要原因是我们把解码器这件事情做好了,我们找一个小的测验级测试,TensorFlow 版本解码器是 691 毫秒,我们自己的解码器是 78 毫秒,加速比是 9 倍。目前有一些基于 transformer 的竞品开始上线,他们在做在线的时候,我们在今年 1 月份发布的旅行翻译宝用到的框架已经是离线的 transformer 了,我们认为我们的翻译产品是领先其他竞品一个代差的。
在离线产品上,我们的语音识别、语音合成、机器翻译效果媲美在线水平。
我们的提升有三个维度:翻译模型压缩至原模型的 1/35,现在大家拿到最新版本搜狗旅行翻译宝已经压缩到了 1/48。再是实时响应,最后是模型精度接近无损,基本上中英一致。这里引用了一句话,是我比较喜欢的科学家 Alex Graves,说「what is possible in principle is not always what is simple in practice」。做的过程中踩了很多坑,碰到很多问题,真正想把东西做到离线设备上,并且有好的体验,其实是很难的事情。首先从硬件设计上,最早期我们设计旅行翻译宝的时候我们就在做麦克风双阵列设置,这块描述图比双麦用到的算法多很多,这是完整麦克风阵列算法图,实际上对于我们旅行翻译宝上面用到的技术主要是三块:
1)波束形成,我首先知道你在哪,麦克风阵列一定角度指向你,在角度内的声音会做到语音增强,角度外的做到语音抑制;
2)环境降噪,我们做噪声抑制,我们叫 NS;
3)自动增益,这块主要针对远场拾音,当我和对方距离不是特别远,几十公分还好,进到麦克风里的声音很小,我怎么把它进一步放大。所以主要做了这三方面。
围绕着这三个维度给大家讲一下我们当时在开发产品时的心得。
模型压缩,我们发布的时候压缩到 1/35,现在到了 1/48,怎么做的呢?目标是怎么降低离线模型存储大小,我们毕竟希望推出一款离线设备——这就存在一定的硬件限制,我们希望把硬件需求降下来。大家能想到的就是精细的模型结构设计,减少模型的参数数量,另外是针对特别大的矩阵试图做一些 SVD 的分解。另外是量化存储和运算,现在的大部分神经网络是 32 位的,但实际上我们可以做一些量化,尝试做半精度,甚至到 8 位存储。这样的话,只要你做一次量化比特降低,就会使得你实际存储降低。这里只是模型存储降低了,我能不能把内存降低?需要做完量化运算,比如针对 16 位做运算,针对 8 位做运算,这样的话运算需求的内存也会降低。
还有参数矩阵共享,之前云端一个模型各有各的参数,没有内存和存储上的限制。但在移动设备上,因为有很多硬件上存储和内存限制,对于翻译而言,我们希望在嵌入向量(embedding)、识别语言模型和翻译之间进行参数共享,通过这种方式把存储进一步降低。还有模型裁剪,2017 年上半年我们和 MIT 助理教授,深鉴科技联合创始人韩松合作,他们致力于开发压缩后模型在 FPGA 上的运算,我们和他们共同研究了语音识别模型的深度压缩。我们在 FPGA 行业最顶级会议上发布了一篇论文,对语音识别模型压缩的工作做了总结。我们已经做到把语音模型在无损情况下压缩到原来的 20% 以下,再小就不太行了。怎么裁剪?一般剪两种,对于模型来说是凸处,即剪权重;再是剪神经元,剪完之后需要做在训练,要保证精度拉回来,所以有很多这样的工作。
运算的加速,目标是能够压缩语音翻译的延迟。我讲完话以后,马上听到翻译的合成声音控制在百毫秒级,我们的目标是 1 秒以内。为了让模型处理速度变快,我们希望在输入输出上做批量运算和批处理,另外是运算策略优化,我们希望能每个时刻都在做测算,或者跳帧处理,低帧率操作,保证运算速度提上去。在工程上,针对任务的运算定制,基于 EVA 平台的定向优化,还有任务调度,我们有很多任务。旅行翻译宝有识别翻译和合成三个大任务,里面还有很多小任务,比如在逻辑上,做路径搜索,做前端文本还是做后面的参数预测,有很多任务,我们把它拆解成小的任务,每个子任务评估目前的任务难度以及目前运算瓶颈在哪,把它分别调度到不同的运算器件上。旅行翻译宝上面有一个小的 ARM GPU 和一个大的 ARM A72 CPU 核心,及一个小的 ARM A53 CPU 核心,它们分别算哪个任务是需要提前做好调度的,我们做了一些优化策略。
我们还对很多任务进行了强定制,如一些循环、向量化的并行,以及针对内存、缓存、寄存器的优化等等。在定向优化之后,设备的运行内存快了 3 倍,解码速度快了 5 倍,这是非常重要的。这就是我们为什么要做硬件的原因——很多事情只有在可控的硬件以及有更多自由度的硬件上才可以做更多优化策略。
我有了好的速度,有了好的压缩,但仍然要保证离线翻译的效果。我们的目标是能够媲美在线的效果,在这种情况下,我需要明确设备的使用场景到底是什么,比如旅行翻译宝面向出行,场景数据要做更多优化和定制。另外是知识提纯,所有的方法都有一个老师,有一个学生。老师干什么?不用考虑运算速度和硬件限制,只要有好的性能就可以了,学生做什么?能不能从老师那里学到更多知识,让自己和老师一样有学问,大致的思路是这样。因此,有老师和学生以后,他们俩共同维护一个目标函数,让他们输出概率分布尽可能保持一致,这是整个知识提纯非常基础的想法。
我列出来的只是一篇论文,截了一张图,给大家一个主观感觉,基于不同层级的机器翻译层级,在词一级就可以做提纯了,有完全针对句一级的,也有混合在一起的,这个方法不仅限于机器翻译。另外,在语音识别上我们也在使用,比如这张图是我们在语音识别上声音的,我们用 50 层 CNN 的结构,得到语音识别模型,基于这个模型我用它做老师,训练离线语音识别模型。这是非常大的 transformer 在线翻译模型,用这个老师教离线的小学生去学知识。
最后我们做到了在线和离线模型效果保持一致。
今天的时间有限,我们只与大家分享了一些感兴趣的技术内容,感谢大家能够来到现场学习,也欢迎大家对我们的技术多提意见,也希望大家能够随时来我们团队参观访问和加入,谢谢!
搜狗旅行翻译宝背后的思考
分享者:搜狗 IOT 事业部首席产品经理李健涛
李健涛:欢迎大家来到搜狗,今天我们给大家做一些分享。我们刚刚发布了翻译的硬件产品,可能很多人会好奇:你们做这款产品是出于什么目的,背后怎么思考的,今天就这个话题展开,我们要进行一场答疑解惑。
本次的分享内容有关我们做这个产品背后的思考,包含几方面的问题:
1)搜狗为什么发力翻译?现在业内出现了一些翻译类的产品,按理说,手机上的翻译 APP 很早以前就已经出现了,为什么现在几家公司都会做翻译机这样的产品,为什么大家发力翻译产品,包括 Google 也在大力推动自己的翻译产品。
2)为什么做硬件?人们普遍认为,手机上已经有很好的翻译 APP,我们应该不需要一款硬件产品。
3)除了能够语音对话翻译之外,为什么费劲拍照翻译?
4)为什么要有屏幕,简简单单成本还低一点,便宜一点,为什么要有屏?
5)翻译这件事情的未来会是什么样的,再往前演进会怎么样?
今天围绕着这几个话题,我们来讲讲自己对这些事情的思考。
搜狗为什么发力翻译
搜狗作为一家互联网公司,在用户规模上和可利用的用户数据上规模非常大,我们的数据主要在于两个方面:搜索和输入法,这也是搜狗两个核心引擎。它们都是围绕语言做处理的——搜索也是帮助人们搜索互联网世界各种语言,输入法帮助人们输入语言,让表达和获取信息更简单。作为人工智能的重要组成部分,我们必须考虑未来 AI 技术发展的时候,怎么让人工智能能力对语言进行处理,人类区别于动物最重要的地方就在于人类有语言,从有语言和文字开始,人和动物就有了巨大的不同,人工智能如果能够类比人的话,它也具备对语言的处理能力。
在这里又分为两个方面:在听觉上——包括能不能听得清、听得懂,包括说得出,这里涉及语音识别、语音合成等等,相应技术稍后陈伟会介绍其中细节;在视觉上——能不能看得清、看得懂,包括把你想表达的东西合成出来,因为涉及到 OCR 等等技术。
这些技术最后会应用在三个核心方面,分别是:对话、问答、翻译。问答可以理解,是搜索再往前演进的必然发展方向,搜索现在是输入一个你想查询的词,获得 10 万条结果,算法会对结构进行排序,你可以在这些结果里找到自己想要的。问答做到的是你给计算机一个问题,它会给你一个答案,而这个答案就是你想要的,这是搜索必然要发展的方向——问答。对话是让人和机器之间、人与人之间能够顺畅无阻地进行交流,理解彼此背后的意思,包括上下文等等。
最后就是翻译。为什么翻译是目前大家都在发力的事情?因为随着神经网络技术发展,现在的机器翻译技术已经到了技术成熟的临界点,我们已经真正可以将这些技术应用在生活中了。在以前,各种翻译类产品使用更多的是统计学翻译:只是简单地按照语法结构、单词拆分做字面上的翻译。现在,我们能够做到通过神经网络来进行翻译,它可以翻译的更准,真正能够达到人们日常生活中翻译的诉求。相对来说,AI 问答和对话技术的发展程度还差那么一点点,目前离真正的应用可能还有一定的距离,所以翻译是搜狗首先选择去发力的方向。
如果大家对圣经中的故事有些了解的话,有个巴别塔的故事:上帝造人,人们希望造通天之塔找到上帝,就开始建造巴别塔,上帝不想人类干成这样的事情,就创造了语言,让不同人群无法协作,最终只好放弃了巴别塔的建造。如果通过机器技术,真正打消人们彼此之间跨语言的障碍,这会是一件非常伟大的事情,不亚于人类学会使用电能。它能够真正解决人们之间协作的问题,包括信息沟通获取的问题,这也是为什么搜狗愿意在翻译这件事情上持续投入,包括技术和产品方面,甚至做硬件产品的原因。
翻译的本质是解决人们之间跨语言交流问题,跨语言问题有三种典型场景:1)外文检索,可以看到外文世界的内容。目前国内所有搜索引擎能够接触到的中文信息只占全世界信息的 10%,这意味着 90% 的信息因为语言障碍是无法使用的。2)在线交流,当你和外国人交流的时候也会存在语言障碍。3)境外旅游场景,现在中国人境外游的频次和市场规模每年都在扩大。
外文检索,可以让你输入中文,收到外文世界的搜索结果,前段时间搜狗跨语言搜索上了英文,最近上了日文、韩文的,那些喜欢海淘的、网购的,愿意追星的,想在 Twitter 上交流的等等都可以。输入法方面,输入中文,发给对方的可以是英文、日文、韩文,这意味着你可以和外国朋友去聊天。我们也推出了 toB 产品,机器同传,现在很多大会上也都有应用,台上嘉宾演讲,屏幕上实时把演讲的中文内容英文内容识别出来,形成会议纪要。
搜狗为什么要做硬件
另外,境外旅游,为什么不做一个 APP 就 OK 呢?境外旅游有两个很重要的痛点:
第一,网络连接问题,很多国家和地区的网络是不如中国发达的,你想找个 wifi,尤其美国 wifi 不免费,即使有网络,租个当地的卡,或者连个当地的 wifi,进行翻译的话,数据通信链路依然要跑到国内的机器,消耗时间很长,这个体验会非常糟糕。所以国外翻译本身网络带来的速度感觉会非常差。
第二,翻译准确度问题,很多用户用各种翻译 APP 时候经常会吐嘈的点,大部分是翻译不准,关键在于它的识别不靠谱,有很多噪音,识别能力就会受到影响。这些都是目前手机 APP 难以解决,但又必须解决的问题。问题的一方面原因是翻译能力需要是离线的,不在云端,把这么一个复杂神经网络模型想办法放进小小的机器里,是一件非常有挑战的事情。
另一方面则是需要 MIC 阵列,需要让这样的设备具备把噪音降掉的能力,需要这样一些独有的设备去解决人们在嘈杂环境里面识音的问题,而这个是手机也做不到的。有人可能会问,你为什么不在手机 APP 上做离线神经翻译?因为离线本身对机器计算性能要求非常高,目前主流手机达不到离线计算要求,可能高端手机,新的旗舰手机勉强可以,但主流手机很难达到这样的计算能力要求。
我们今天需要这样一种特别的设备:它具备很强的离线计算能力,以及识音的能力,让我们可以做到离线语音翻译,可以即说即翻。它需要能够处理 18 种语言,毕竟现在国人出游不只是去英语世界,包括日韩,也是国人出游典型的目的地。
除了语言翻译之外,为什么会有拍照翻译?其实语言的处理两方面:声音的、图像的。尤其对于中国人来说,我们有着含蓄的文化,往往很多时候不太愿意去说,而更愿意自己解决问题,能够看,解决看不懂这个问题,这个往往更有意义。这个频次甚至更高,包括你点菜的时候,走路的时候,看路牌等等,其实很多时候你是看不懂的。这也是我们为什么在机器里面加入拍照翻译,真正解决人们看不懂的问题,加入实景 OCR,同样也是离线,让这样小小的机器可以离线识别你看到的问题,并且把它翻译成你懂的语言。
这里也有很多挑战,包括复杂的背景,复杂的版式,因为和平常 OCR 拍普通文章不一样,面对实景有很多复杂情况,包括复杂字体,刚才我看后面摆的菜单,里面有一些花体字,这个挑战非常大。另外,实景拍照光线的问题,角度的问题,包括你拍的菜单可能是扭曲的等等,这里也有很大的技术挑战。这条路我们依然在往前推进摸索,目前还没有到完美的程度。
作为一个独有的产品,只是翻译的话还是不够,我们在翻译宝中还加入了如汇率的计算、多国的时间、当地紧急联系电话等等实用小工具,让你真的在出国的时候可以拿这么一个设备,就可以解决你在出游中面对的绝大部分问题。后面我们也会考虑在里面加入导航的一些能力,目的地的景点推荐能力,包括到了某一个景区里面,某一些景物的介绍能力等等,因为很多国外你去参观博物馆,看到《蒙娜丽莎》,却看不懂英语法语的介绍,不知道它的背景故事,我们希望针对旅游场景的能力也结合进来。
对于屏幕的问题,我们也回访过很多用户,人们总是担心你识别的准不准,在对话过程中,你不必要等对方说完了机器给你读出来,因为读的速度慢,如果翻译完给你文字看这个效率更高,所以这都让有屏幕这件事情变得非常有意义。待机的时间基本上也够一周出游时间,3.1 寸的触摸屏体积也很小,随便揣在口袋里就可以走,很方便。
翻译的未来
面向未来,翻译再往前演进,未来会是什么样子?我们把这件事情拆解一下,上面是软的,下面是硬的。软的两条路径,上面是语音这条路径,下面是图像路径。通过语音识别翻译,然后合成,播放出来。图像进行图像识别、翻译,再把图像合成,给人去看,这是从软的层面。从硬的层面相对应的需要具备拾音能力,计算能力,播放能力,图像方面需要采集的能力,计算处理能力,显示的能力。
面向未来我们需要考虑的是:手机处理能力会随着时间的发展越来越强,虽然现在手机计算能力没那么强,没办法做到离线快速实时的翻译,未来随着时间的发展,也许两三年后的主流手机就可以支持这样的计算。本身播放和显示方面也是手机的优势,但你会发现,在前两件事情上,不管是从手机能力上还是使用体验上,都不是最佳的解决方案,包括拾音,本身手机就不是面向远场拾音的设备,从技术上讲,半米就算远场,识别就已经非常有挑战了,手机天然不具备优势,现在 iPhone 有三个麦克风,只能针对近场识别,有意消掉远场噪音,很长一段时间手机面对远场拾音都不会作为重要的发力点,这是手机所缺失的。
另外,手机实时性速度体验很重要。让我们去思考一下,最极致的体验是什么,我们希望能够立即听到翻译好的语言,让看不懂的文字随时变成我看得懂的文字,实时的感觉很需要,这种实时感觉也是作为手机形态产品所不适合的,你不可能一直举着手机到处看到处听。所以未来演进的形态分别是耳机、眼镜这些产品,戴着耳机和眼镜可以实时的听、看,这本身对计算能力和硬件的拾音采集等等都会带来极大的挑战。
搜狗的使命是让表达和获取信息更简单,在翻译这件事情我们希望能够让跨国表达和获取信息更简单,我们也会在这条路上持续走下去,而且会保持行业的领先,不管是技术层面的,产品层面的,持续在这条领域里面去发力。
今天大体是这些,谢谢大家!