5亿个句子,188种语言,Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」!

简介: 赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。

微信图片_20220113003051.png


 新智元报道  

来源:Reddit

编辑:PY,LRS


【新智元导读】赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。


孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!


                                         微信图片_20220113003058.jpg


赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。


这是一个自动翻译数据集,可用于数据增强翻译。 


微信图片_20220113003100.png


机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。

 

研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。

 

反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。

这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。

在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。

 

当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。

反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。

 

反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化。

 

                                    微信图片_20220113003103.png


目前,Tiedemann的论文和数据集已经发布在了GitHub上。

微信图片_20220113003105.png 


这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。


微信图片_20220113003107.png



这个语言模型取得了不错的效果,这位德国在读博士就对这个模型给予了肯定。


            微信图片_20220113003110.png


Tatoeba 是一个庞大的句子和翻译数据库。Tatoeba 提供了一个工具,可以让你看到你所需要的单词在句子上下文中是如何使用的。

在2020年10月关于Tatoeba翻译挑战的相关论文中,Tiedemann写道,“我们的主要目标是促进开放翻译工具和模型的开发,从而更广泛地覆盖世界各种语言。”

 

有多宽泛?训练和测试数据涵盖500种语言和语言变体,以及大约3000种语言对。忍不住唱一句「你看这个数据集它又大又宽」。

 

根据 Tiedemann 的说法,还有很多工作要做。他在推特上写道: “无论如何,这不会是我将要发布的最后一套翻译版本”。“很快还会有更多语言从英语转向其它语言... ...”


微信图片_20220113003113.png


参考资料:https://www.reddit.com/r/programming/comments/mao82o/university_of_helsinki_language_technology/

相关文章
|
Android开发 Windows
windows下用qemu搭建android
1.下载Qemu for windows 版本为qemu-0.9.0-windows 2.下载qemuwith-kqemu-support 安装kqemu的目的就是为了加快qemu的子系统运行速度.在X86的硬件平台上模拟x86的操作系统可以飙到真实机器速度. 直接用QEMU来安装或者运行系统的话,速度会很慢.用kqemu会改善很多.右键点击kqemu.inf,选择“安装”,然后在CMD窗口下输入命令:net start kqemu。
4674 0
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means、DBSCAN、GMM三种聚类的对比演示(附源码)
【Python机器学习】K-Means、DBSCAN、GMM三种聚类的对比演示(附源码)
932 0
|
安全 Linux 数据安全/隐私保护
国内外四款强大的远控使用体验:ToDesk、向日葵、AnyDesk、Microsoft 远程桌面横向比较
国内外四款强大的远控使用体验:ToDesk、向日葵、AnyDesk、Microsoft 远程桌面横向比较
2907 0
|
安全 测试技术 数据库
达梦 DM8 数据库安装详细手册(Windows+Linux+Docker)(二)
达梦 DM8 数据库安装详细手册(Windows+Linux+Docker)(二)
达梦 DM8 数据库安装详细手册(Windows+Linux+Docker)(二)
|
4月前
|
存储 NoSQL 安全
如何保存并分析Linux内核转储(coredump)文件
在Linux中,生成coredump需配置系统参数并满足程序条件。通过ulimit或limits.conf设置核心文件大小,修改core_pattern定义存储路径与命名格式,确保程序无信号屏蔽、权限限制,并留足磁盘空间,最后用gdb分析崩溃堆栈,便于调试定位问题。
|
人工智能 监控 安全
Go通道机制与应用详解
本文全面解析了Go语言中的通道(Channel),从基础概念到高级应用,涵盖创建、操作、垃圾回收及实际场景使用。通道作为Go并发模型的核心,支持协程间安全高效的数据通信与同步。文章介绍了无缓冲和有缓冲通道的特性,以及发送、接收、关闭等操作,并探讨了`select`语句、超时处理、遍历通道等高级用法。此外,还深入分析了通道的垃圾回收机制,包括引用计数、生命周期管理和循环引用问题。最后通过数据流处理、任务调度和状态监控等实例,展示了通道在实际开发中的广泛应用。理解通道不仅有助于构建高并发系统,还能优化资源管理,提升程序性能。
423 31
|
6月前
|
编解码 API UED
淘宝商品视频 API 视频预处理指南:格式转换、压缩与清晰度优化
通过遵循这套视频预处理指南,可以有效地提升淘宝商品视频的质量和加载效率,从而提升用户体验和商品转化率。
|
9月前
|
人工智能 API 开发者
别再等Manus邀请码了,6.1k star的开源OpenManus了解一下
OpenManus 是开源社区推出的 AI 代理项目,旨在提供一个无需邀请码、人人可自由访问的通用任务处理工具。该项目由 MetaGPT 社区开发者共同维护,核心依赖大型语言模型(LLM),用户可通过配置 API 调用 GPT-4o 等模型执行任务。相比 Manus,OpenManus 具备开源透明、无门槛访问和社区驱动等特点,尽管目前功能尚处初级阶段,但其开放性为未来优化提供了广阔空间。项目安装简便,适合 AI 爱好者快速上手并参与共建。
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
1430 1
【AI系统】谷歌 TPU 历史发展
|
人工智能 Java 程序员
一文彻底搞定C语言中的条件语句if
本文介绍了C语言中的条件语句,如if、if-else和switch,帮助读者理解如何根据不同的条件执行相应的代码块。通过实例讲解了if语句的基本用法及其复杂形式,并提供了编写条件语句的最佳实践建议。君志所向,一往无前!
584 0
一文彻底搞定C语言中的条件语句if

热门文章

最新文章