英语学习利器:一款词典笔的模型创新与工程实践

本文涉及的产品
小语种识别,小语种识别 200次/月
语种识别,语种识别 100万字符
个人证照识别,个人证照识别 200次/月
简介: 机器学习怎样帮助英语学习?查词、翻译、标准发音都少不了:OCR(光学字符识别)实时识别单词与句子,NMT(神经网络翻译)自动翻译语句,TTS(语音合成)合成最真实的标准读音。那么这些是不是能集成到一个硬件中,成为智能的英语学习利器,这就是网易有道词典笔 2.0。

8 月 6 日,网易有道发布了一款全新的智能学习硬件:网易有道词典笔 2.0。该词典笔只要扫一扫就能自动识别生词、句子,并提供对应的释义、翻译与读音。重要的是,所有这些功能都可以在离线的情况下完成,包括 NMT 实现的整句翻译。当然,这支笔背后的技术不止这些,ASR(语音识别)和 NLU(自然语言理解)等技术也帮助其实现了在线的语音助手问答功能。


这样集成了视觉、语言、语音系统的词典笔,才是机器学习帮助英语学习的优秀范例。那么小小的设备上,怎样才能集成图像识别和翻译的离线模型,怎样才能在准确和速度间做权衡以提供最好的使用体验?在这篇文章中,网易有道技术研发团队向机器之心介绍了词典笔 2.0 背后的核心技术。


微信图片_20211201202435.jpg


在网易有道产品负责人吴迎晖的现场演示中,我们可以看到词典笔 2.0 在查词、翻译和发音等功能上的不凡效果。它的核心操作就是「扫一扫」,不论是纸质书籍、儿童绘本,还是产品包装盒,扫一扫就能识别陌生单词与句子。


网易有道词典笔 2.0 的使用体验


机器之心也试用了这支词典笔,我们在联网/不联网的情况下分别测试了划词识别的情况,基本上单词识别和发音体验上都是非常准确的,短句的翻译也没什么问题。此外,词典笔的使用非常方便,用笔头划一下词就能看到识别结果,划动的角度和速度也有很大的自由空间。


如果我们读文献看到不了解的词也可以用词典笔查,如下展示了离线情况下翻译论文句子的效果,从这里可以看出词典笔内置的离线翻译模型还是很厉害的。


微信图片_20211201202432.jpg


既然识别和翻译效果都这么好,那么词典笔背后的技术到底是什么样的。它为什么扫一下就能识别单词字母,为什么能将视觉模型与翻译模型都压缩到小小的设备中,并离线实时运行?


网易有道词典笔 2.0 的技术路线


如果我们要实现扫一扫就能查词,那么 OCR、NMT 和 TTS 三大模块是不可缺少的。而且如果要将它们都嵌入到小小的端设备上,那么还需要大量的模型压缩与工程实践等工作。在后文中,我们将从 OCR、NMT 与工程实践三部分介绍有道词典笔 2.0 的技术路线。


直观而言,为了实现划一划查词查句,笔头的高速相机每秒大约会拍摄一百多张图像,这些图像要拼接在一起才能展现完整的单词或句子图像。随后 OCR 可以将拼接的图像识别为文字,并使用内置的词典与 NMT 模型进行处理。最后,词典笔再使用 TTS 生成词或句子的读音就行了。


整体上,词典笔系统从数据、算法到效果都比较有优势。借助有道词典等产品的 8 亿+用户,有道可以获得大规模文本、OCR 图像和语音的真实数据,累积的亿级高质量训练数据也能输出更加贴近学习场景的机器学习模型。下面就让我们看看词典笔最核心的技术与方法都是什么吧。


扫一扫识别单词句子


作为网易有道词典笔 2.0 最为核心的技术之一,OCR 负责「看懂」图片中文字都有什么。先简单介绍下,网易有道整体的 OCR 的情况,他们的 OCR 引擎使用了主流的卷积神经网络+循环神经网络的方法,现已支持 26 种语言文字,支持语种自动判别和混合识别,是目前国内识别语言最多的 OCR 识别引擎。整体上识别准确率最高能达到 99.6%。


如上展示了有道 OCR 的一个应用,一般识别公式要比文字更复杂一些,因为表达式的结构是多种多样的,上标、下标、分式等各种形式都存在。除了用 OCR 转换为 LaTex 表达式,后续的解题步骤生成就更复杂了。除此之外,有道 OCR 还能实现手写、模糊文字、拼音等识别,据有道 AI 团队介绍准确率能达到 93%-95% 以上。此外在模型方面,有道也在探索更加前沿的解决方案,例如尝试将 Transformer 嵌入到 OCR 任务中。


据了解,通过实验室测试数据得出,在词典笔 2.0 中,它识别字符的准确率平均达到了 95.5%,领先行业 82% 的平均水平。


上文介绍了,有道的标准 OCR 模型已经非常强了,但是将其应用到词典笔 2.0 中还会存在很多挑战,其中最大的问题即它只能看到字符片段,滑动的过程是看不到完整的词或句的图片。这就要求模型先要把图像拼接起来,再来做 OCR 识别。

微信图片_20211201202422.jpg

自适应全景拼接


简单而言,图像拼接是将存在重叠的图像序列进行图像配准(Image registration)和图像融合(Image blending),并生成完整图像的过程。其中图像配准是建立图像之间的对齐关系,以确定一张图像与另一张图像的空间投影关系,它是图像拼接的核心问题。


常见的图像配准方法很多都基于特征的方法,这类方法会使用图像的轮廓特征、角点检测和尺度不变特征来确定图与图间的相似部分。例如基于尺度不变特征的拼接方法,其过程分为特征提取、特征匹配、投影估计和图像融合,它对光照、视角、噪声和多种图像变换具有较高的鲁棒性。


但是标准方法在词典笔的应用场景中还有很多不足,首先是特征提取太过耗时。考虑一下,如果每秒需要提取一百多张图片的特征信息,而且还只能在移动端完成,那标准 SIFT 方法延迟会有多大啊。这种延迟是不可接受的,词典笔需要一种能在移动端处理高帧率图像的能力。


其次,相比通用的图像拼接,文字图像的轮廓特征明显但纹理特征非常少,因此不同文字中很可能存在相同的特征描述子。例如「三」和「十」都可能包含「一」这个特征描述子,因此很可能导致错误的匹配与对齐。

网易有道根据实际应用场景自行设计了一套特征,解决了这两大问题,从而用自定义的方式快速提取特征。相比传统 SIFT 花 1 毫秒提取单张图像的特征,有道定制化的提取方法要高效很多。总体而言,词典笔 2.0 所采用的图像拼接方法可以分为图像配准、图像融合与文本切行三大步骤。


1. 图像配准


有道词典笔将扫描图像分成若干图像块,对于每一个选取的图像块,模型会同时提取特征匹配计算多对图像块的投影估计实现图像对齐。


2. 图像融合


根据图像对齐关系,有道设计了自适应的图像加权融合算法,从而自然地融合对齐后的图像。因为实际使用中手抖或滑动速度等因素,一般方法拼接出来的效果都不会太好。但有道的图像融合能得到无重影、无接缝的完整拼图结果,并且在多角度(与桌面夹角成 90 度至 60 度)扫描输入下表现如一。


微信图片_20211201202418.jpg

一般方法不稳定的拼接效果。


微信图片_20211201202416.jpg

克服抖动、角度和滑动速度等因素得到的拼接结果。


3. 文本切行 最后,在实际使用中笔头经常会跨越多行文本,得到的拼接图像如上所示也不是干净的。为此,有道使用一个模型来将所有字符的候选位置信息关联组行,即使在密集文本、抖动的情况下也能将目标行样本分割出来。


微信图片_20211201202414.jpg


扫一扫翻译句子


这一次词典笔 2.0 还有一个非常强力的功能,即离线地实现整句神经网络翻译。目前有道的 NMT(简称 YNMT)可以实现中文到 12 种语言互译,英文到 9 种语言互译。翻译效果 BLEU 值高出同行一些,尤其在特定测试集领域,比如新闻领域的中英文互译上效果甚至优于谷歌和微软。之前机器之心曾了解到 YNMT 模型主要也采用 Transformer 架构,并从单语数据的利用、模型结构的调整、训练方法的改进等方面加强翻译效果。


之前 YNMT 也会采用回译、对偶学习和对抗训练等策略加强翻译结果的鲁棒性,而最近随着预训练技术在 NLP 领域的大力发展,有道也将预训练技术引入到了 NMT 训练中。在最近发布的 ACL 2019 最佳长论文中,研究者非常关注训练与推断间的不匹配性,有道表示他们在这方面也一直有尝试。有道表示这篇最佳论文比较突出的贡献体现在挑选 Sentence-level Oracle Word,因此研发团队也在进一步尝试它的效果。


有道表示,通过加入 BERT 等预训练语言模型后,模型有改善。此外在模型训练时可以结合一些基础任务,例如命名实体识别等,这种多任务学习机制对 NMT 的质量还是很有帮助的。有道同时也在探索怎样在强化学习的过程中设置合适的奖励,从而提升翻译结果的流畅度与忠实度。


当然加入 BERT 等大模型的 NMT 系统是无法嵌入到词典笔的,有道会采用更加精简的离线端模型,在不显著降低效果的同时极大压缩模型。


扫一扫需要的算力支持


尽管模型的效果非常好,但如果不能嵌入到小小的词典笔中,那么使用体验会差很多。但如果要嵌入端设备,那么如何在有限的算力下实时运行这些系统就非常重要了。有道在词典笔 2.0 中部署了 OCR、NMT 和 TTS 模型,而离线部署的最大问题是准确率和速度之间的权衡,为此有道做了很多优化。


其实词典笔中的离线模型都是从线上模型演化而来的,且为了在给定算力的情况下实时运行,它们的结构和参数量都更为精简。此外,通过网易有道自研的离线预测框架,开发者在保证准确率的同时能更方便地部署到嵌入式芯片上。因此对于端侧模型部署,我们可以从模型压缩和离线推断工具两方面探讨。
1. 模型压缩


模型压缩渗透在训练和预测各个阶段。在训练过程中,有道在紧凑设计的离线网络模型上通过网络剪枝进一步精简模型,模型大小可以压缩近百倍;在预测阶段,有道使用了网络融合(network fusion)、低秩近似(low-rank Approximation)等技术减少计算参数量。重要的是,有道在支持定点计算的芯片上(如高通 DSP)实现了 int8 模型量化,能在少量损失下得到 4 倍压缩比的定点模型。


除了采用各种模型压缩算法外,裁减词表(NMT)、共享参数等方法也能降低模型大小。


因此从各个层面与角度出发,机器学习模型才能在不显著影响性能的情况下大幅度降低对运算资源的需求。


2. 离线推断框架


如果每一个模型都要一点点做优化,那么整个模型部署过程是非常繁杂的,这就需要一种能自动高质量完成这个过程的工具,这也就是有道自研预测框架的重要原因。


有道的离线预测框架能够根据模型的特点做一些优化处理,包括模型压缩、层间合并,使用芯片支持的向量操作指令集,调整指令执行顺序和逻辑结构,提高 cache 命中率、提高内存使用效率等。有道在这方面做了很多工作,目前离线框架已经比较成熟了,能够支持 cpu、gpu、dsp、npu 等各种硬件平台,而且有道在端侧的工程化都基于这个框架完成。


有道自研的离线预测框架支持 Caffe、TensorFlow、PyTorch 等主流 DL 框架训练的模型,同时有道重点完成以下优化:


  • 模型多框架的自动转换、一键部署
  • 模型异构芯片的自动压缩、定点量化
  • 模型跨平台的多线程并行计算加速


有道词典笔 2.0 也会继续添加新功能,例如据说 8 月底,词典笔 2.0 就会通过 OTA 升级的方式支持整段翻译,这对离线端 NMT 模型又提出新的挑战。最后,不论是模型方法的创新,还是工程实践的探索,将机器学习应用到英语学习场景都是非常值得探讨的方向,网易有道词典笔 2.0 就是很好的范例。

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
348 10
【中文竞技场】大模型深度体验与测评
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
62 2
|
3月前
|
自然语言处理 语音技术
|
3月前
|
自然语言处理 算法 Python
【语言的力量!】NLP揭秘:从零开始,如何将「文字海洋」转化为「智慧宝藏」——探索文本分析的奇妙之旅!
【8月更文挑战第12天】随着互联网的爆炸式增长,每日产生的海量文本信息成为企业和研究者挖掘价值的金矿。本文通过具体代码示例,展示了如何运用Python中的自然语言处理(NLP)工具,完成从文本数据收集到分析的全过程。首先介绍了文本预处理,包括分词、去除停用词和词干提取;接着说明了如何利用TF-IDF等方法提取文本特征;然后演示了情感分析技术,可判定文本情感倾向;最后探讨了主题建模方法,如LDA算法,用于发现文本集中的潜在主题。这些步骤共同构成了一个强大的框架,使我们能够更有效地理解和利用文本数据。
37 1
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
86 0
|
6月前
|
人工智能 自然语言处理 搜索推荐
微调工程师岗位可能并不存在,但使用 AI 编码工具已经成为刚需
阿里云通义灵码,作为智能编码助手,下载量超130万,引领国内AI编码工具市场。
115845 87
|
6月前
|
编解码 人工智能 自然语言处理
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
【4月更文挑战第15天】贾佳亚团队推出Mini-Gemini模型,旨在缩小与GPT-4和Gemini的性能差距。该模型采用双视觉编码器处理高分辨率图像,提升视觉对话和推理准确性。搭配高质量数据集,增强图像理解和推理能力。Mini-Gemini在零样本基准测试中表现出色,尤其在高分辨率图像处理上。不过,模型在复杂视觉推理和计数能力上仍有改进空间。
35 1
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
|
自然语言处理
|
6月前
|
人工智能 算法 数据挖掘
ChatGPT 调教日记(二):程序员转量化的背景知识
ChatGPT 调教日记(二):程序员转量化的背景知识
62 0
下一篇
无影云桌面