5亿个句子,188种语言,Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」!

本文涉及的产品
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
简介: 赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。

微信图片_20220113003051.png


 新智元报道  

来源:Reddit

编辑:PY,LRS


【新智元导读】赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。


孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!


                                         微信图片_20220113003058.jpg


赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。


这是一个自动翻译数据集,可用于数据增强翻译。 


微信图片_20220113003100.png


机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。

 

研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。

 

反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。

这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。

在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。

 

当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。

反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。

 

反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化。

 

                                    微信图片_20220113003103.png


目前,Tiedemann的论文和数据集已经发布在了GitHub上。

微信图片_20220113003105.png 


这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。


微信图片_20220113003107.png



这个语言模型取得了不错的效果,这位德国在读博士就对这个模型给予了肯定。


            微信图片_20220113003110.png


Tatoeba 是一个庞大的句子和翻译数据库。Tatoeba 提供了一个工具,可以让你看到你所需要的单词在句子上下文中是如何使用的。

在2020年10月关于Tatoeba翻译挑战的相关论文中,Tiedemann写道,“我们的主要目标是促进开放翻译工具和模型的开发,从而更广泛地覆盖世界各种语言。”

 

有多宽泛?训练和测试数据涵盖500种语言和语言变体,以及大约3000种语言对。忍不住唱一句「你看这个数据集它又大又宽」。

 

根据 Tiedemann 的说法,还有很多工作要做。他在推特上写道: “无论如何,这不会是我将要发布的最后一套翻译版本”。“很快还会有更多语言从英语转向其它语言... ...”


微信图片_20220113003113.png


参考资料:https://www.reddit.com/r/programming/comments/mao82o/university_of_helsinki_language_technology/

相关文章
|
6月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
164 1
|
4月前
|
人工智能 程序员
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【7月更文挑战第20天】IEEE 35页论文揭示ChatGPT在复杂编码任务上的正确率仅0.66%,表明大型语言模型虽能生成语法正确代码,但在逻辑和可读性上不及人类程序员。研究强调AI在深度领域知识与推理上的局限性,提示AI辅助而非替代的角色。[链接:https://ieeexplore.ieee.org/document/10507163]
45 2
|
6月前
|
机器学习/深度学习 算法
论文介绍:超越语言模型:字节模型成为数字世界模拟器
【5月更文挑战第17天】bGPT模型突破传统深度学习界限,通过预测字节模拟数字世界运作。在文本、音频、图像等领域表现优异,音乐转换误差低至0.0011比特/字节,CPU行为模拟准确率超99.99%。模型结构包含线性投影层等,高效处理长序列数据。预训练和微调后,bGPT能处理数字媒体文件、模拟算法和硬件,展示跨模态适应性及知识整合潜力。虽在图像任务上有待提升,但其创新意义和未来潜力显著。[论文链接](https://arxiv.org/abs/2402.19155)
52 3
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
245 0
|
6月前
|
算法 测试技术 计算机视觉
【论文速递】ICLR2022 - 语言驱动的语义分割
【论文速递】ICLR2022 - 语言驱动的语义分割
69 0
|
人工智能 数据可视化 人机交互
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
259 0
|
机器学习/深度学习 自然语言处理 搜索推荐
SIGIR 2023 | 30万真实查询、200万互联网段落,中文段落排序基准数据集发布
SIGIR 2023 | 30万真实查询、200万互联网段落,中文段落排序基准数据集发布
161 0
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
171 0
|
机器学习/深度学习 自然语言处理 安全
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
179 0
|
机器学习/深度学习 人工智能 自然语言处理
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(1)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
124 0