Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言

简介: Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言

在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。


近日,Meta 的一项研究向这个方面迈出了重要一步,他们将新提出的方法称为 Massively Multilingual Speech(超多语言语音 / MMS),其以《圣经》作为训练数据的一部分,得到了以下成果:


在 1107 种语言上用 wave2vec 2.0 训练得到了一个有 10 亿参数的多语言语音识别模型,相比于 OpenAI 的 Whisper 模型,其错误率降低了 50% 以上。

单个音频合成模型就支持这 1107 种语言的文本转语音(TTS)。

开发了一个能够辨别 4017 种语言的语言辨识分类器。


对于很多罕见语言的数据稀少问题,Meta 是如何解决的呢?他们采用的方法很有意思,即采用宗教的语料库,因为像是《圣经》这样的语料具有最「对齐的」语音数据。尽管这个数据集偏向宗教内容并且主要是男性声音,但其论文表明这个模型在其它领域以及使用女声时也表现优良。这是基础模型的涌现行为,着实让人惊叹。而更让人惊叹的是,Meta 将新开发的模型(语音识别、TTS 和语言辨识)都免费发布出来了!


模型下载:https://github.com/facebookresearch/fairseq/tree/main/examples/mms

论文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/


新提出的方法


为了打造出一个能识别千言万语的语音模型,首要的挑战是收集各种语言的音频数据,因为现目前已有的最大语音数据集也只有至多 100 种语言。为了克服这个问题,Meta 的研究者使用了宗教文本,比如《圣经》,这些文本已被翻译成了许多不同语言,并且那些译本都已被广泛研究过。这些译本都有人们用不同语言阅读的录音,并且这些音频也是公开可用的。使用这些音频,研究者创建了一个数据集,其中包含人们用 1100 种语言阅读《新约》的音频,其中每种语言的平均音频长度为 32 小时。


然后他们又纳入了基督教的其它许多读物的无标注录音,从而将可用语言数量增加到了 4000 以上。尽管这个数据集领域单一,并且大都是男声,但分析结果表明 Meta 新开发的模型在女声上表现也同样优良,并且该模型也不会格外偏向于产生更宗教式的语言。研究者在博客中表示,这主要是得益于他们使用的 Connectionist Temporal Classification(连接主义时间分类)方法,相比于大型语言模型(LLM)或序列到序列语音识别模型,这种方法要远远更为受限。


潜在的性别偏见情况分析。在 FLEURS 基准上,这个在超多语言语音(MMS)数据集上训练的自动语音识别模型在男声和女声上的错误率是差不多的。


为了提升数据质量,使之能被机器学习算法使用,他们还采用了一些预处理方法。首先,他们在现有的 100 多种语言的数据上训练了一个对齐模型,然后再搭配使用了一个高效的强制对齐算法,该算法可处理 20 分钟以上的超长录音。之后,经过多轮对齐过程,最终再执行一步交叉验证过滤,基于模型准确度移除可能未对齐的数据。为了方便其他研究者创建新的语音数据集,Meta 将该对齐算法添加到了 PyTorch 并放出了该对齐模型。


要训练出普遍可用的监督式语音识别模型,每种语言仅有 32 小时的数据可不够。因此,他们的模型是基于 wav2vec 2.0 开发的,这是他们之前在自监督语音表征学习上的研究成果,能极大减少训练所需的有标注数据量。具体来说,研究者使用 1400 多种语言的大约 50 万小时语音数据训练了一个自监督模型 —— 这个语言数量已经超过之前任何研究的五倍以上了。然后,基于具体的语音任务(比如多语言语音识别或语言辨识),研究者再对所得模型进行微调。


结果


研究者在一些已有基准上评估了新开发的模型。


其多语言语音识别模型的训练使用了含 10 亿参数的 wav2vec 2.0 模型,训练数据集包含 1100 多种语言。随着语言数量增加,模型性能确实会下降,但下降幅度非常小:当语言数量从 61 种增加到 1107 种时,字符错误率仅上升了 0.4%,但语言覆盖范围却增加了 18 倍以上。


在 61 种 FLEURS 语言的基准测试上,随语言数量增长的字符错误率变化情况,错误率越高,模型越差。


通过对比 OpenAI 的 Whisper 模型,研究者发现他们的模型的词错误率仅有 Whisper 的一半,而同时新模型支持的语言数量还多 11 倍。这个结果足以表明新方法的卓越能力。


在可直接比较的 54 种 FLEURS 语言的基准测试上,OpenAI Whisper 与 MMS 的词错误率对比。


接下来,使用之前已有的数据集(如 FLEURS 和 CommonVoice)和新数据集,Meta 的研究者还训练了一个语言辨识(LID)模型,并在 FLEURS LID 任务上进行了评估。结果表明,新模型不仅表现很棒,而且支持的语言数量也增加了 40 倍。


之前的研究在 VoxLingua-107 基准上也仅支持 100 多种语言,而 MMS 支持超过 4000 种语言。


另外 Meta 还构建了一个支持 1100 种语言的文本转语音系统。当前文本转语音模型的训练数据通常是来自单个说话人的语音语料。MMS 数据的一个局限性是许多语言都只有少量说话人,甚至往往只有一个说话人。但是,在构建文本转语音系统时,这却成了一个优势,于是 Meta 就顺便造了一个支持 1100 多种语言的 TTS 系统。研究者表示,这些系统生成的语音质量其实相当好,下面给出了几个例子。


约鲁巴语、伊洛科语和迈蒂利语的 MMS 文本转语音模型演示。


尽管如此,研究者表示 AI 技术都仍不完美,MMS 也是如此。举个例子,MMS 在语音转文本时可能错误转录选定的词或短语。这可能导致输出结果中出现冒犯性和 / 或不准确的语言。研究者强调了与 AI 社区合作共同进行负责任开发的重要性。


用单个模型支持千言万语的价值


世界上有许多语言濒临灭绝,而当前的语音识别和语音生成技术的局限性只会进一步加速这一趋势。研究者在博客中设想:也许技术能鼓励人们留存自己的语言,因为有了好的技术后,他们完全可以使用自己喜欢的语言来获取信息和使用技术。


他们相信 MMS 项目是朝这个方向迈出的重要一步。他们还表示这个项目还将继续开发,未来还将支持更多语言,甚至还会解决方言和口音的难题。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
人工智能 前端开发 Devops
.NET技术在现代开发中的作用:.NET技术的核心价值、在现代应用开发中的实际应用、以及面临的挑战与未来趋势。
.NET技术是软件开发领域的核心力量,本文从其核心价值、实际应用及未来挑战三方面进行探讨。它支持多种语言,提供强大的开发工具和丰富的类库,并具备跨平台能力。在现代应用开发中,.NET广泛应用于企业级系统、Web应用、移动应用、云服务和游戏开发等领域。面对性能优化、容器化、AI集成等挑战,.NET持续创新以适应不断发展变化的技术环境。
400 4
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
605 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
3263 5
|
10月前
|
人工智能 缓存 安全
分享5款让电脑更方便更有趣的软件
这篇文章介绍了五款实用且有趣的Win10软件,提升电脑使用体验。包括:1) Win10 Widgets,桌面组件工具;2) Latermark for Pocket,稍后阅读与知识管理插件;3) 燃精灵,微信空号检测软件;4) Riot,安全通讯软件;5) QuickLook,快速文件预览工具。每款软件都针对不同需求设计,用户可根据个人喜好选择试用,并分享反馈。
297 0
|
10月前
|
存储 监控 网络协议
AnaTraf全流量分析系统基本功能
全流量分析系统是一种强大的网络监控与分析工具,可捕获、分析并存储网络中的所有流量。AnaTraf系统支持多种部署方式(桥接、镜像、TAP),确保不干扰现有网络架构,同时提供SSL加密保障数据安全传输。系统具备虚拟链路分析、循环存储、过滤捕获等功能,支持数据包回放和协议解码识别,助力深入分析。丰富的统计功能涵盖TOP N仪表板、MAC/ARP/VLAN分析等,同时集成威胁情报检测和溯源能力,强化网络安全防护。通过用户管理和访问控制,系统实现精细化管理,为网络性能优化与安全保障提供关键支持。
|
人工智能 分布式计算 供应链
官宣!哈根达斯、湾仔码头、蓝挚搬上阿里云
官宣!哈根达斯、湾仔码头、蓝挚搬上阿里云
303 5
|
开发工具
Vim如何清空文件
这样,你就清空了你的文件。
1203 1
|
物联网 数据处理
LLM-05 大模型 15分钟 FineTuning 微调 ChatGLM3-6B(微调实战1) 官方案例 3090 24GB实战 需22GB显存 LoRA微调 P-TuningV2微调
LLM-05 大模型 15分钟 FineTuning 微调 ChatGLM3-6B(微调实战1) 官方案例 3090 24GB实战 需22GB显存 LoRA微调 P-TuningV2微调
570 0
|
前端开发 开发者 Python
从零到一:Python Web框架中的模板引擎入门与进阶
在Web开发的广阔世界里,模板引擎是连接后端逻辑与前端展示的重要桥梁。对于Python Web开发者而言,掌握模板引擎的使用是从零到一构建动态网站或应用不可或缺的一步。本文将带你从基础入门到进阶应用,深入了解Python Web框架中的模板引擎。
359 3