模拟儿童学习多语言,Deepmind让DL看视频就学会翻译

简介: 小孩儿是怎么学多种语言的?只通过观察,就同时掌握了不同语言。如何让DL也做到这一点?Deepmind团队开发出了一个无监督的单词翻译多模态模型,只通过视觉就学习语言翻译!

微信图片_20220108191223.png


儿童是如何同时学习多种语言的?


儿童可以通过观察自己的环境并与他人互动来学习多种语言,而无需任何明确的监督或指导。他们在观察相同情况时不会同时听到一个句子及其翻译;

 

相反,他们通过视觉上的相似性来沟通多种语言:星期一听到“狗在吃东西”、与星期五听到“dog is eating”时看到的东西相似,那么小孩就知道,这两句话是同一个意思。

 

微信图片_20220108191226.png


虽然世界范围内对“狗”的称呼有成百上千种语言,但是在视觉领域,它们所指代的是同样的一只狗。


这就启发了我们可以如何训练深度学习:直接让算法“听”和“看”,从相似的场景中学习不同语言之间是如何翻译的。


学名叫做:“无成对语料库的、基于视觉的无监督多模态翻译系统”


近日,来自DeepMind、牛津大学以及卡内基梅隆的研究者合作发表了论文《Visual Grounding in Video for Unsupervised Word Translation》,用视觉基础改善无监督的单词映射。


已有工作的不足:基于文本,成对语料库不普适


已有的各种无监督的基于文本的单词对齐方法,有自身的问题。他们使用相同的视频或图像与多种语言的字幕相关联,也就是说,他们利用了成对的语料库


这种思路有两个问题:一是制作大量的成对语料库成本高昂二是当语言(或其训练语料库)区别更大时,比如说在对越南语和德语、而不是英语和德语进行词意配对时,它们就不够鲁棒


怎么模仿儿童学语言?我们给算法看视频


视频里,来自不同国家/地区的人们在做某种工作,同时用母语解释自己在干什么。比如,我们可以让算法在Youtube上观看韩语或英语的榨橙汁的视频。

 

教学视频在视觉上往往看起来相似,并且所讲的基本概念通常是相同的。我们对这类视频使用自动语音识别,获得了大量的相应字幕。

 

微信图片_20220108191229.png

如上图所示,我们提出了一个模型,该模型通过视频映射两种语言。对于英语和法语,该模型仅通过观看视频即可正确翻译28.0%的常见单词和45.3%的视觉单词。与此相比,基于检索的基线(不共享视觉表示)对于普通单词和视觉单词只有12.5%和18.6%。也就是说,新模型把翻译成功率提高了两倍以上


这种方法的困难:Up主经常在视频里瞎聊


通过教学视频映射语言的方法也面临挑战:YouTube博主经常谈论与当前图像没有关联的随机主题,比如用户数量,还有和观众的互动。


此,视频中的语音与场景只有松散的联系。两种语言的视频都是这样,这使得错误更加复杂。


此外,视觉上相似的视频在语义上可能并不相似。


通过使用视频的相似性来构建平行文本语料库无法解决这一挑战。视频检索基准的两种常见故障示例如下:


微信图片_20220108191231.png


在第一行中,两个视频在视觉上相关,都是在编织,但他们正在说的话并不匹配,左边在说“针脚有色彩的顺序”,右边在说“我们把小绒球加进去”,所以没法做词意匹配。


在下面两幅图中,视频都是关于食物的,但左边字幕与视觉内容无关,在说“谢谢观看,再见”。


实验结果:新模型受数据量影响小,更鲁棒


新模型翻译质量如何?Random ChanceVideo Retrieval这两个基线相比有极大提升,且比基础模型也有很大提升


微信图片_20220108191233.png

表1:在英法词典和简单词汇(Simple Words)上,该模型(MUVE)和基准的性能(如Recall @ 1)。


那基于文本的单词翻译方法,新模型能否提升呢?使用了在HowToW-Text上训练的单词嵌入方法作者实验了三种无监督方法和一种有监督方法。对比英语和法语、韩语和日语之间的翻译结果,本文提出的MUVE方法最优


微信图片_20220108191235.png

表2:MUVE和基于文本的方法在不同语言对中的性能。MUVE在词典数据集上报告Recall @ 1。所有方法都使用在HowToW-Text上针对其各自语言训练的词嵌入。


这些结果证实了先前的研究结果,即基于文本的方法更适合于类似的语言(如英语和法语),并表明在这种情况下,在视觉域中的逐字翻译是特别有效的


微信图片_20220108191237.png


表3:不同方法对训练语料库的相似性的鲁棒性。


结果显示,当语料库相似时(比如英语和法语),所有的方法都表现良好。当语料库不相似时,MUVE明显优于其他方法,也更加鲁棒


微信图片_20220108191239.png

表4:在给出英语查询的情况下,Human Queries数据集上法语排名前2的检索结果。


研究人员测试了不同训练数据量模型的表现,分别为100%、10%、1%数据训练

训练语料不足时,MUVE表现更好


微信图片_20220108191241.png


图5:MUSE、VecMap和MUVE不同数量数据在英法字典中的Recall@10。


当单词量变化时,MUVE性能没有明显下降,其他方法受影响较大:


微信图片_20220108191243.png


图6:测试英语和法语预先训练的单词嵌入,单词量急剧减少时,MUVE仍然更鲁棒。


微信图片_20220108191245.png


图7:左:视频中的一帧,模型选择与英语查询最相关。右:以视频为条件的法语排名前2位的预测。视觉基础为翻译提供了一个微弱但有用的信号。


结论:基于视觉比基于文本的方法更优


新模型对以下三个方面比较敏感


1.两种语言不同的程度(例如,相比于朝鲜语,英语更像法语),

2.两种语言的训练语料库的差异(例如,英语和法语的维基百科非常相似),

3.训练量数据

 

本研究贡献有三个方面:


1.提出了一种新方法:仅使用未配对的教学视频在视觉域中映射语言


2.证明了新方法可有效地以无监督的方式通过视觉将不同语言的单词连接起来


3.它可以作为现有单词映射技术的良好初始化,解决了基于文本的方法的许多缺点


论文地址:

https://arxiv.org/pdf/2003.05078.pdf


相关文章
|
JavaScript
Vue引入字节跳动图标库
Vue引入字节跳动图标库
493 0
Vue引入字节跳动图标库
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
100246 84
|
并行计算 PyTorch Linux
幸福的烦恼:显卡算力太高而pytorch版本太低不支持
幸福的烦恼:显卡算力太高而pytorch版本太低不支持
3163 0
|
编解码 JavaScript iOS开发
如何生成HLS协议的M3U8文件
什么是HLS协议:   HLS(Http Live Streaming)是由Apple公司定义的用于实时流传输的协议,HLS基于HTTP协议实现,传输内容包括两部分,一是M3U8描述文件,二是TS媒体文件。
4410 0
|
9月前
|
自然语言处理 搜索推荐 关系型数据库
MySQL实现文档全文搜索,分词匹配多段落重排展示,知识库搜索原理分享
本文介绍了在文档管理系统中实现高效全文搜索的方案。为解决原有ES搜索引擎私有化部署复杂、运维成本高的问题,我们转而使用MySQL实现搜索功能。通过对用户输入预处理、数据库模糊匹配、结果分段与关键字标红等步骤,实现了精准且高效的搜索效果。目前方案适用于中小企业,未来将根据需求优化并可能重新引入专业搜索引擎以提升性能。
430 5
|
6月前
|
存储 JSON Java
你会不会5种牛犇的yml文件读取方式?
我是小假 期待与你的下一次相遇 ~
165 5
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
师资研修|AI技术赋能教材建设和课程开发——乌鲁木齐某教育部门
近日,TsingtaoAI派出AI专家为乌鲁木齐中职院校的教师团队,举办“AI技术赋能教材建设与课程开发”的师资研修。此次培训由TsingtaoAI的AI专家高寒和教育专家刘建老师亲自授课,面对的是来自乌鲁木齐的教育工作者,特别是中职院校的教学骨干。整个活动不仅涉及人工智能技术本身的深度解析,还深入探讨了如何将这些前沿技术高效应用于教材和课程体系的创新。
431 0
|
存储 关系型数据库 MySQL
mysql 查看数据库及表大小以及数据库扩容评估
mysql 查看数据库及表大小以及数据库扩容评估
390 4
|
存储 SQL 分布式计算
基于Hadoop豆瓣电影数据分析(综合实验)
基于Hadoop豆瓣电影数据分析(综合实验)
1935 1
基于Hadoop豆瓣电影数据分析(综合实验)