【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors

简介: 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors

·阅读摘要:

 本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题。

 [1] Large Scale Multi-label Text Classification with Semantic Word Vectors

[0] 摘要


  已有的多标签文本分类算法不考虑词序,选择使用词袋模型或TFIDF加权来创建文档向量。

  论文提出使用词嵌入和词序来提高多标签学习能力。使用卷积神经网络(CNN)和带有门控循环单元(GRU)的循环网络独立地用于预训练的word2vec嵌入,解决大规模的多标签文本分类问题。

【注一】:读到这里能发现论文发布地比较早。目前预训练的embedding已经很成熟了。

[1] 介绍


  语义词向量还没有被用于多标签文本分类领域。相反,多标签学习算法对模型文本使用单词袋表示或TF-IDF加权,它不考虑词序,会限制训练中使用的词汇量。

  为了克服这些缺点,论文提出在卷积神经网络(CNN)和带有门控循环单元(GRU)的循环神经网络模型中使用单词嵌入。

  CNN模型和GRU模型的性能都超过了流行的 二进制相关性方法

【注二】:二进制相关性方法在下面有介绍。

[2] 相关工作


[2.1] 多标签文本分类概述⭐

  解决多标签学习的算法可以大致分为三种:

  1、多标签分类;

  2、标签排序;

  3、多标签排序;

  多标签分类算法接受一个输入X,然后生成两部分的集合Y和¯Y,其中Y是相关标签的集合,而¯Y是Y的补码。

  标签排名并不决定一个分区,而是将标签从相关到不相关排序,索引越低表明相关性越高。

  多标签排序被看作是两者的结合,因为它产生标签的排序,以及一个双分区。也就是说,算法的目标是让Y中的标签比¯Y中的所有标签都要高。然后学习或手动设置阈值函数,以确定排序后的数组中有多少标签是相关的。

[2.2] 二进制关联(BR)方法

  该方法将多标签问题转化为一组多个二分类问题,其中每个问题对应一个特定的标签。

  该方法有下列缺点:

  1、首先,二元关联假设标签是独立的,这通常是一个错误的假设;

  2、由于丢弃标签相关性,BR常常无法预测不同的组合或标签,从而导致性能下降;

  3、数据集的不平衡也会对分类器产生更大的影响,因为负面例子的数量往往超过正面例子;

  4、BR可能会训练不必要数量的分类器。

[2.3] 前馈网络

  论文介绍了2种损失函数地计算方法:

  1、Zhang提出的

image.png

  2、Nam提出的使用标准的交叉熵误差函数代替Zhang提出的误差函数。

【注三】:交叉熵误差函数很重要,实现方法参考:https://blog.csdn.net/qq_43592352/article/details/122784389

[3] 卷积神经网络


  与Kim在2014年发布的TextCNN网络模型基本一致。

image.png

[4] 门控循环神经网络


  其实就是LSTM。

相关文章
|
机器学习/深度学习 数据挖掘
【提示学习】Label prompt for multi-label text classification
  标签文本分类的关键问题之一是提取和利用标签之间的相关性,但直接建模标签之间的相关性很难。   LP-MTC设计了多标签文本分类模板,将标签整合到预训练语言模型的输入中,可以捕获标签之间的相关性以及标签与文本之间的语义信息,从而有效地提高模型的性能。
107 0
|
6月前
|
人工智能 自然语言处理 PyTorch
CLIP(Contrastive Language-Image Pre-training)
CLIP(Contrastive Language-Image Pre-training)
316 0
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
机器学习/深度学习 数据挖掘
【论文解读】Co-attention network with label embedding for text classification
华南理工出了一篇有意思的文章,将标签和文本进行深度融合,最终形成带标签信息的文本表示和带文本信息的标签表示。
250 1
|
机器学习/深度学习 人工智能 自然语言处理
【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
CORA 在目标检测任务中提出了一种新的 CLIP 预训练模型适配方法,主要包括 Region Prompting 和 Anchor Pre-Matching 两部分。 这种方法能够让 CLIP 模型适应目标检测的任务,能够识别出图像中的对象,并提供准确的分类和定位信息。
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
431 0
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
163 0
【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
|
算法 数据挖掘
【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification
【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification
116 0
【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification
|
机器学习/深度学习 数据挖掘
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
217 0
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization