NeurIPS 2022 | 词嵌入表示参数占比太大?MorphTE方法20倍压缩效果不减

简介: NeurIPS 2022 | 词嵌入表示参数占比太大?MorphTE方法20倍压缩效果不减

天津大学量子智能与语言理解团队联合香港中文大学(深圳)共同发表论文《MorphTE: Injecting Morphology in Tensorized Embeddings》,该论文已被 NeurIPS 2022 接收。


引言


词嵌入表示作为机器翻译、问答、文本分类等各种自然语言处理任务的基础,它通常会占到模型参数总量的 20%~90%。存储和访问这些嵌入需要大量的空间,这不利于模型在资源有限的设备上部署和应用。针对这一问题,本文提出了 MorphTE 词嵌入压缩方法。MorphTE 结合了张量积操作强大的压缩能力以及语言形态学的先验知识,能够实现词嵌入参数的高倍压缩(超过 20 倍),同时保持模型的性能。


论文链接:https://arxiv.org/abs/2210.15379

开源代码:https://github.com/bigganbing/Fairseq_MorphTE


模型


本文提出的 MorphTE 词嵌入压缩方法,首先将单词划分成具有语义含义的最小单位——语素,并为每个语素训练低维的向量表示,然后利用张量积实现低维语素向量的量子纠缠态数学表示,从而得到高维的单词表示。


01 单词的语素构成


语言学中,语素是具有特定语义或语法功能的最小单位。对于英语等语言来说,一个单词可以拆分成词根、词缀等更小单位的语素。例如,“unkindly”可以拆分成表示否定的 “un”、具有“友好的” 等含义的 “kind”,以及表示副词的“ly”。对于汉语来说,一个汉字同样可以拆分成偏旁部首等更小单位,如“沐” 可拆分成表示水的 “氵” 和“木”。


       

语素在蕴含语义的同时,也可以在词之间进行共享,从而联系不同的词。此外,有限数量的语素可以组合出更多的词。


02 纠缠张量形式的词嵌入压缩表示


相关工作 Word2ket 通过张量积,表示单个词嵌入为若干低维向量的纠缠张量形式,其公式如下:



其中、r 为秩、n 为阶,表示张量积。Word2ket 只需要存储和使用这些低维的向量来构建高维的词向量,从而实现参数有效降低。例如,r =2、n=3时,一个维度为 512 的词向量,可以通过两组,每组三个维度为 8 低维向量张量积得到,此时所需参数量从 512 降低至 48。


03 形态学增强的张量化词嵌入压缩表示


通过张量积,Word2ket 能够实现明显的参数压缩,然而其在高倍压缩以及机器翻译等较复杂任务上,通常难以达到压缩前的效果。既然低维向量是组成纠缠张量的基本单位,同时语素是构成单词的基本单位。该研究考虑引入语言学知识,提出了 MorphTE,其训练低维的语素向量,并利用单词所包含的语素向量的张量积来构建相应的词嵌入表示。



具体而言,先利用语素分割工具对词表 V 中的词进行语素分割,所有词的语素将构成一个语素表 M,语素的数量会明显低于词的数量()。


对于每个词,构建其语素索引向量,该向量指向每个词包含的语素在语素表中的位置。所有词的语素索引向量构成一个的语素索引矩阵,其中 n 是 MorphTE 的阶数。


对于词表中的第 j 个词,利用其语素索引向量从 r 组参数化的语素嵌入矩阵中索引出相应的语素向量,并通过张量积进行纠缠张量表示得到相应的词嵌入,该过程形式化如下:


通过以上方式,MophTE 可以在词嵌入表示中注入以语素为基础的语言学先验知识,同时语素向量在不同词之间的共享可以显式地构建词间联系。此外,语素的数量和向量维度都远低于词表的大小和维度,MophTE 从这两个角度都实现了词嵌入参数的压缩。因此,MophTE 能够实现词嵌入表示的高质量压缩。


实验


本文主要在不同语言的翻译、问答等任务上进行了实验,并且和相关的基于分解的词嵌入压缩方法进行了比较。



从表格中可以看到,MorphTE 可以适应英语、德语、意大利语等不同语言。在超过 20 倍压缩比的条件下,MorphTE 能够保持原始模型的效果,而其他压缩方法几乎都出现了效果的下降。此外,在超过 40 倍压缩比的条件下,MorphTE 在不同数据集上的效果都要好于其他压缩方法。



同样地,在 WikiQA 的问答任务、SNLI 的自然语言推理任务上,MorphTE 分别实现了 81 倍和 38 倍的压缩比,同时保持了模型的效果。


结论


MorphTE 结合了先验的形态学语言知识以及张量积强大的压缩能力实现了词嵌入的高质量压缩。在不同语言和任务上的实验表明,MorphTE 能够实现词嵌入参数 20~80 倍的压缩,且不会损害模型的效果。这验证了引入基于语素的语言学知识能够提升词嵌入压缩表示的学习。尽管 MorphTE 当前只建模了语素,它实际上可以被扩展为一个通用的词嵌入压缩增强框架,显式建模原形、词性、大小写等更多先验的语言学知识,进一步提升词嵌入压缩表示。

相关文章
|
前端开发 JavaScript 关系型数据库
基于Python+Vue开发的旅游景区管理系统
该项目是为大学生课程设计开发的旅游景区管理系统,采用Python+Vue技术栈,实现前后端分离。主要功能涵盖景区、类型、用户管理等,并支持统计分析、消息发布、订单处理及个性化推荐。开发环境基于Python 3.8 + Django 3.2、Vue + JavaScript及MySQL 5.7。通过该项目,学生可深入学习相关技术,增强实践能力,为职业发展奠定基础。[在线演示](https://travel2.gitapp.cn) | [源码](https://github.com/net936/python_travel2) | 管理员默认账号: admin123 / admin123.
435 2
|
10月前
|
机器学习/深度学习 PyTorch TensorFlow
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
602 11
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
|
9月前
|
人工智能 大数据 云计算
销售易与腾讯合作,给纷享销客带来的挑战是什么?
销售易与腾讯的战略合作升级,整合了双方在CRM、社交网络、云计算和AI等领域的优势资源,形成强大协同效应。这一联盟不仅提升了销售易的产品技术和服务能力,还通过腾讯的生态体系扩大了市场覆盖和品牌影响力。对于主要竞争对手纷享销客而言,这带来了生态资源差距、产品差异化和技术赶超等多方面的严峻挑战。面对竞争加剧,纷享销客需寻求战略联盟、深耕垂直领域并进行差异化创新,以保持竞争力。此次合作或将加速CRM行业的整合与创新,推动市场格局的深刻变革。
|
机器学习/深度学习 人工智能 程序员
程序员裁员潮:技术变革下的职业危机
技术变革下程序员面临的裁员潮及其影响,并提供了应对策略。
341 0
|
消息中间件 监控 JavaScript
Node.js中的微服务架构:构建与实践
【4月更文挑战第30天】本文探讨了在Node.js中构建微服务的实践,包括定义服务边界、选择框架(如Express、Koa或NestJS)、设计RESTful API、实现服务间通信(HTTP、gRPC、消息队列)、错误处理、服务发现与负载均衡,以及监控和日志记录。微服务架构能提升应用的可伸缩性、灵活性和可维护性。
|
前端开发 容器
使用 object-fit 属性完美过渡图片
这篇文章介绍了CSS属性object-fit的用法。object-fit属性用于指定元素的内容如何适应指定容器的高度和宽度。该属性一般适用于img和video标签,可以进行剪切、缩放或拉伸操作。文章中展示了通过object-fit属性来统一设置多张图片的样式,保持原始比例并改变显示位置的示例,以及使用object-position属性实现简单的过渡效果。
291 0
使用 object-fit 属性完美过渡图片
|
SQL 关系型数据库 MySQL
binlog2sql的安装及使用
binlog2sql的安装及使用
342 2
|
供应链 安全 Shell
|
开发框架 前端开发 开发者
超实用的开源图标库推荐
超实用的开源图标库推荐
1413 0