重新认识AI落地,从小小词典笔看技术从0到1的工程实践

本文涉及的产品
车辆物流识别,车辆物流识别 200次/月
个人证照识别,个人证照识别 200次/月
企业资质识别,企业资质识别 200次/月
简介: 小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。



微信图片_20211204205829.jpg


距离有道词典笔 2 代发布的 1 年 3 个月之后,网易有道又推出了一款全新的有道词典 3,区别在于,将查词体验从扫描的交互方式直接简化到点一下就一秒钟完成查词。


网易有道产品负责人吴迎晖拿着全新的词典笔在现场做演示,无论是当天刊发的中国日报英文版、纸质书籍,还是护手霜、药盒,都可以快速点查陌生单词。“‘快速点查’是让你上瘾的一个功能。”他说。


当天发布会的产品体验区,这款词典笔很快引起了参会者的注意,人群熙熙攘攘地聚在体验区周围,迫不及待想要一睹词典笔究竟是什么样。


微信图片_20211204205845.png


当我拿起词典笔想要找单词点读时,下意识直接将笔头指向单词的偏中间位置,很多未使用过有道词典笔的参会者几乎都犯了同样的操作错误,导致识别出来的单词大部分是不全的。


后来这种操作被现场工作人员指正,并被告知需要将笔头垂直放在所要识别单词的首个字母前面,才可以顺利完成点查。屡试体验碰壁,在掌握合适方法之后,我很快产生了上瘾查词的感觉。


微信图片_20211204205848.gif


在英语学习场景当中,辅助查词的产品就有电子词典、点读笔、点读机等。与这些传统产品不同的是,有道词典笔更依赖于人工智能,用技术解决场景需求。只不过,关于这款小小词典笔背后的技术与工程实践很少认真被讨论。


作为一家技术驱动产品的教育科技公司,借助有道词典等产品的 8 亿 + 用户,有道词典笔可以获得大规模文本、OCR 图像和语言的真实数据。自词典笔自 2017 年推出开始,与之相应的工程也在不断更新与迭代。


小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。


01 一件冒险的事情


“‘超快点查’是吴迎晖的个人主意。”网易有道 CEO 周枫说。“他想到这个主意的时候,整个团队都很兴奋。”


超快点查是有道词典笔 3 的一大亮点,这将查词体验从扫描的交互方式直接简化到点一下就完成查词。


吴迎晖表示这个创新功能来自于对用户的洞察。实际上,从有道词典笔 1 代推出至今,产品团队几乎每天都能收到各种各样用户的反馈,这些反馈都指向一个核心问题,究竟如何更有效率。


他的点子立即点拨了团队的所有人,于是可视化互动点读也出来了。有道词典笔 3 的互动点读功能面向低年龄段儿童,将日常绘本实现动画效果,绘本还设有互动答题,可实现一句一跟读,AI 打分。尤其对于有孩子的用户而言,既要买词典,又要给孩子买点读产品,因此有道想做一款覆盖所有点读场景的智能化产品,用速度换取效率,给用户提供价值。


微信图片_20211204205852.gif


功能非常吸引人,但如何就需求和场景改设计、验证,挑战很大。“这个挺冒险的,万一不成功,坑的是整个团队。”有道词典笔的解决办法是加入超感光学系统,用视觉办法解决点读。


关于超感光学系统,有道官方的解释是:它兼容了 OCR(光学字符识别)与 OID(光学辨识码)两大 AI 技术的自动判断与识别,可同时识别红外光与可见光。

超感光学系统有非常大的广角,使其能够识别文字的区域更大,这构成了 “超快点查” 的基础条件。


“虽然这个功能非常实用且吸引人,但对算法挑战非常大。”网易有道首席科学家段亦涛说。广角镜头成像会产生畸变,另外,超感光学系统笔头也会导致光照不均。两者都会造成识别困难。


“在此条件下做 AI 模型是很难的事,业界没有现成的参考方案。”

实际上,无论是点查还是可视化点读,所采用的 OCR、OID 技术并不稀奇,难点在于,需要用算法挑战不可控环境下的识别;在有限的硬件条件下,集成不同产品和模块组合。


02 一年零三个月的改变:从模型到框架


为了解决畸变、光照不均等问题,有道开发了新的方案与模型,优化从图像采集、检测及识别的全过程。


直观而言,笔头的广角镜头会在短时间内采集图像,而图像是畸变的,在识别之前需要将畸变图像转换成无畸变图像。


为此,有道预设了理想条件图像到实际采集图像的变换关系,包括广角镜头的径向畸变和倾斜角度的投影畸变。


在点查功能触发后,有道使用预设的变化参数,修正图像的畸变;然后使用阈值化图像技术对阴影进行补偿。


微信图片_20211204205855.pngimage.gif


所采集图像经去畸变、去阴影后,再进行图像增强,得到完整且可识别的图像。随后 OCR 负责 “看懂” 图像识别文字,TTS 负责词和句子的读音。整个过程在抬笔间就能完成,实现“超快点查”。


用户可以用词典笔在不同的场景识别不同的文字,比如化妆品的说明书、医药物品曲面等等。词典笔二代推出后,有道意识到用户对密集、弯曲、背景干扰等扫描场景下对模型准确率有更高的期待,因此,部署了更为精细的像素级别检测模型。


微信图片_20211204205858.png


有道将图像上的每个像素位置进行前景文字和背景的分类,使用局部特征回归行高等位置信息,将所扫描的中心文字连接并组合成行,切分成用于识别的文本行。新的检测网络模型可将密集、弯曲的文字从各类复杂背景中检测出来。

在 “检测与识别” 的框架上,有道还增加了纠正模块,用于将特殊字体、形近字、背景干扰造成的误识别进行纠正。


微信图片_20211204205901.png


基于有道海量的语言数据积累,有道针对词典笔学习场景构建了 N-gram 语言模型。


在训练阶段,有道使用语料库及对应图像数据同时训练识别模型和语言模型;在推理阶段,识别模型的解码能力易受字体和背景干扰,输出 “错误” 的识别结果。


微信图片_20211204205905.png


例如图中所示的 “bredkfast”,原是错误拼写。但在语言模型的加持下,“错误” 的预测概率将会被抑制,由语言模型输出的转移概率作用在解码阶段,将更加符合语言规范的结果 “breakfast” 输出。


03 离线侧端的底层工程


相较于词典笔 2 代,词典笔 3 代在不联网的情况下,翻译引擎速度提升了 20%,平均的识别准确率达到了 98.3%,最高的准确率能达到 99%。

这些数据的体现,都要归功于词典笔内置的离线 OCR 和翻译模型。词典笔中的离线模型都是从线上模型演化而来,为了保证用户体验效果,都需要在端上进行推断。


点读笔的运行流程是先要扫描文字,再进行翻译、查词,离线模型当中就包含视觉模型和翻译模型。段亦涛表示,这些模型跟词典笔 2 代相比都有了升级。

笔头广角镜头的设计,给图像识别带来视觉畸变上的麻烦,因此,在视觉模型方面,有道做了检测和识别的模型的升级,并将 NLP 也融合到视觉模型中,可以帮助识别纠错。


图像识别后是翻译环节。翻译模型方面,有道做了语言的适配和优化,让翻译更加智能。由于翻译模型的输入是视觉识别模型的输出,不可避免会出现类似标点符号、形近字等错误。为此,在识别模型本身具备一定纠错能力的情况下,有道还为翻译模型做了一些容错的处理。


这些针对离线模型所做的优化,对词典笔底层的算力及内存提出了挑战。为了保证在给定算力的情况下实时运行,有道在模型上做了大量的优化。这些方法跟机器之心了解到的,针对词典笔 2 代离线模型的做法大致相同,将模型压缩渗透在训练、预测各个阶段。


有道还采用了模型裁剪、参数共享、知识蒸馏等办法降低模型大小。通过这些方面的优化,保证在不影响性能的情况下降低对运算资源的依赖,并对结果做更加精准地预测。


除了针对模型的优化与精简外,有道自研了离线推理框架,从以下几个方面优化推理性能: 

  • 底层计算:手写 ARM NEON 汇编级优化,运行 Winograd 卷积算法,网络层合并;
  • 数据管理:重新设计数据排布,高效向量化,支持 FP32/FP16/INT8;
  • 异构平台:多核并行计算,支持 CPU/GPU,模型可以一键转换,自动裁剪;


在新计算引擎的支持下,整个链路的计算速度提升 20%。


“整个优化是从模型、框架、工程等各个层面全方位的升级。”段亦涛认为。

04 智能硬件的新变量


在升级词典笔视觉点读业务的同时,有道也在给其他业务提供视觉技术的支持。段亦涛向机器之心表示,有道有面向 B 端学校的项目,当中有一款硬件产品叫做有道智能学习终端,可以用于识别和收集错题。对视觉技术的要求极大。


随着人工智能技术对学习、教学场景的重塑日趋成熟,有道在技术方面也逐渐深入。网易有道在智能硬件相关的技术研发投入了很大的力量,在包括计算机视觉、自然语言处理、语音技术、高性能计算和异构计算,以及硬件研发方面都有深厚的积累。


目前重技术的智能硬件产品成为网易有道最为重要的业务版图。在第三季度财报中,智能硬件为有道贡献 1.631 亿元,同比增长 289.3%,首次超过广告业务。有道的学习型智能硬件正在爆发其巨大的商业变现潜力。


与此同时,诸如字节跳动、科大讯飞、搜狗等公司也在教育智能硬件市场展现其巨大的野心。对用户及教育企业而言,教育智能硬件能够有效弥补 PC 或 APP 端的交互体验、数据采集的不足,并有利于缓解获客成本,提高用户留存率。

究其各家的智能硬件产品,因切入的场景不同,教育硬件产品形态各异。无论是基于怎样的技术细节及基础,关键在于都需要结合用户需求,将场景做透,在此基础上,AI 能力、产品能力及内容缺一不可。


当下,有道词典笔凭借在技术、产品及内容上的优势已经成为万众瞩目的硬件产品。以后,有道词典笔会成为可复制的硬件吗?面对机器之心的提问,段亦涛表示,“好的东西肯定会有人模仿,至少我们的先发优势强。如果别人没有做过这个东西,一定会付出时间的代价。我们只要做到跑得比别人快。”


网易 CEO 丁磊曾在网易有道上市,及网易在港二次上市之时,向全国英语老师免费赠送有道词典笔,至少在这个环节,有道词典笔已经先抢下用户认知,让用户体验小小词典笔背后神奇的 AI 力量。


对于现在市场上推出的智能硬件产品,段亦涛有自己的理解,他拒绝从工具功能性角度解读,而是有更长远的认知。


“在真实学习场景中,学生需要在物理世界里留痕,因此任何智能工具,包括软硬件,都无法颠覆原有的学习过程。我们可以做到的是,通过智能硬件介入学生学习的物理世界中,让学习行为更加高效。同时通过获得学习过程中的数字化数据,逐步建立趋于成熟的数字化教学体系。”


从数字化角度看,网易有道是一家重算法的以技术驱动的教育科技公司。即使是百分之一的算法和框架优化,都能转化为巨大的商业与教育价值。每一小步突破,就是重构教育的一大步。


© THE END


转载请联系本公众号获得授权


投稿或寻求报道:content@jiqizhixin.com

相关文章
|
3天前
|
人工智能 搜索推荐 安全
AI技术在医疗领域的应用与挑战
【10月更文挑战第27天】 本文探讨了人工智能(AI)在医疗领域的应用,包括疾病诊断、药物研发和患者管理等方面。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题和技术局限性等。通过对这些方面的深入分析,我们可以更好地理解AI在医疗领域的潜力和发展方向。
93 59
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
27 11
|
1天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2天前
|
人工智能 运维 数据挖掘
跨界融合:AI与5G技术如何共同推动数字化转型
【10月更文挑战第29天】本文探讨了人工智能(AI)与第五代移动通信技术(5G)的结合如何推动数字化转型。通过高速、低延迟的5G网络和AI的数据分析能力,两者相辅相成,实现了智能化网络运维、增强网络功能和多行业的实际应用。文中提供了网络流量预测和故障预测的示例代码,展示了技术的实际应用潜力。
11 1
|
6天前
|
人工智能 JavaScript 前端开发
利用 AI 进行代码生成:GitHub Copilot 的实践与反思
【10月更文挑战第23天】本文探讨了GitHub Copilot,一个由微软和OpenAI合作推出的AI代码生成工具,其核心功能包括智能代码补全、多语言支持、上下文感知和持续学习。文章介绍了Copilot在加速开发流程、学习新语言、提高代码质量和减少重复工作等方面的应用,并反思了AI在代码生成中的代码所有权、安全性和技能发展等问题。最后,文章提供了实施Copilot的最佳实践,强调了在使用AI工具时保持对代码的控制和理解的重要性。
|
2天前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
2天前
|
人工智能 自然语言处理 安全
AI技术在智能客服系统中的应用与挑战
【10月更文挑战第28天】本文将深入探讨人工智能(AI)技术在智能客服系统中的应用及其面临的挑战。我们将通过实例分析,了解AI如何改善客户服务体验,提高效率和降低成本。同时,我们也将关注AI在实际应用中可能遇到的问题,如语义理解、情感识别和数据安全等,并提出相应的解决方案。
|
3天前
|
人工智能 安全 Cloud Native
|
3天前
|
人工智能 Anolis 开发者

热门文章

最新文章