用《圣经》做训练数据集,达特茅斯学院完美打造语言风格转换工具

简介:

为了寻找改进计算机文本翻译质量的灵感,达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现,使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具,即文本的语种相同,但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲,由于难以获得所需的大量训练数据,开发这类转换工具的研究遭遇了困难。因此,研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现,《圣经》除了为遍布全球的许多人提供精神上的指引之外,还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文,研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science 期刊上。文中表示,这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本,比如莎士比亚作品、维基百科条目之类,所能提供的数据集要么比现在小得多,要么不适合学习风格转换的任务。

英文版《圣经》有许多不同的行文风格,使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化,对不同版本的《圣经》文本的组织是可预测的,消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集,可以用来研究这项任务,”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来,人类一直在执行组织圣经文本的任务,我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”,研究人员参考了句子长度、被动或主动语音的使用,以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果:“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度,显示关于作者的不同文化信息,使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本,其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入,一种是名为“摩西”的统计机器翻译系统,另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码,但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语,并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说,我们开发的系统旨在生成与原文具有相同含义的文本,但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。 “人工智能”(AI)一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计,这是第一个通用和可访问的编程语言,以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。


原文发布时间为:2018-10-31

本文作者:大明

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:用《圣经》做训练数据集,达特茅斯学院完美打造语言风格转换工具

相关文章
|
安全 Linux 数据安全/隐私保护
linux设置用户密码
在Linux中更改用户密码,使用`passwd`命令。要改当前用户密码,键入`passwd`;若要为其他用户(如`john`)更改密码,需有足够权限,输入`passwd 用户名`。按提示输入新密码并确认,终端不会显示输入内容。确保密码复杂且安全。作为root或有相应权限才能更改他人密码。忘记密码时,可能需通过恢复模式或引导加载器重置。具体步骤依Linux发行版不同。
620 4
|
存储 数据处理
什么是迭代,什么是可迭代对象
什么是迭代,什么是可迭代对象
851 1
|
5月前
|
机器学习/深度学习 编解码 并行计算
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
307 8
|
数据采集 监控 Oracle
ERP系统的实施与变更管理:确保成功的数字化转型
【7月更文挑战第29天】 ERP系统的实施与变更管理:确保成功的数字化转型
853 0
|
11月前
|
监控 Java 应用服务中间件
微服务——SpringBoot使用归纳——为什么学习Spring Boot
本文主要探讨为什么学习Spring Boot。从Spring官方定位来看,Spring Boot旨在快速启动和运行项目,简化配置与编码。其优点包括:1) 良好的基因,继承了Spring框架的优点;2) 简化编码,通过starter依赖减少手动配置;3) 简化配置,采用Java Config方式替代繁琐的XML配置;4) 简化部署,内嵌Tomcat支持一键式启动;5) 简化监控,提供运行期性能参数获取功能。此外,从未来发展趋势看,微服务架构逐渐成为主流,而Spring Boot作为官方推荐技术,与Spring Cloud配合使用,将成为未来发展的重要方向。
430 0
微服务——SpringBoot使用归纳——为什么学习Spring Boot
|
7月前
|
JSON API 数据库
产品详情查询API接口
产品详情查询API是现代电商与软件开发中的关键工具,基于RESTful架构,通过HTTP协议获取产品信息如名称、价格、库存等。本文详解其概念、原理、实现方法与应用示例,助力开发者快速掌握。
314 0
HarmonyOS Next开发教程:详解贝塞尔曲线
在鸿蒙开发中,提供了两种绘制贝塞尔曲线的方式,一种是二次贝塞尔曲线
|
12月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
260 1
|
网络协议 网络架构
IP地址划分知识点总结
IP地址划分知识点总结
1259 1
【51单片机】一个简单的例子TMOD&TCON带你永远理解【(不)可位寻址】
【51单片机】一个简单的例子TMOD&TCON带你永远理解【(不)可位寻址】

热门文章

最新文章