摘要
近年来,机器学习方法,特别是图学习方法,在自然语言处理领域,特别是文本分类任务中取得了巨大的成果。然而,许多这样的模型在不同语言的数据集上显示出有限的泛化能力。在本研究中,我们在非英语数据集(如波斯语Digikala数据集)上研究并阐述了图形机器学习方法,该方法由用户对文本分类任务的意见组成。更具体地说,我们研究了(Pars)BERT与各种图神经网络(GNN)架构(如GCN、GAT和GIN)的不同组合,并使用集成学习方法来处理某些知名的非英语数据集上的文本分类任务。我们的分析和结果表明,应用GNN模型可以更好地捕捉文本数据之间的拓扑信息,从而有助于在文本分类任务中获得高分。此外,我们的实验表明,使用特定语言的预训练模型(如Pars-BERT,而不是BERT)的模型如何捕获有关数据的更好信息,从而获得更好的准确性。
关键词:非英语文本分类;图形机器学习;集成学习方法;(Pars)BERT
1.简介
在过去的十年里,数字文档和复杂文本数据的数量有了巨大的增长。文本分类是许多自然语言处理(NLP)应用程序中的一项经典的重要任务,如情感分析、主题标记和问答。情绪分析在商业和销售领域尤为重要,因为它使组织能够获得有价值的见解并做出明智的决策。在信息爆炸的时代,手动处理和分类大量文本数据既耗时又具有挑战性。此外,手动文本分类的准确性很容易受到人为因素的影响,如疲劳和领域知识不足。希望使用更可靠的机器学习技术来自动化分类方法。此外,通过有效定位所需信息,这有助于提高信息检索的效率,并减轻信息过载的负担[1]。请参阅[2,3,4,5]中关于文本分类的一些工作及其在现实世界中的大量应用。
另一方面,图提供了一种重要的数据表示,用于广泛的现实世界问题。有效的图分析使用户能够更深入地了解数据中的底层信息,并可应用于各种有用的应用程序,如节点分类、社区检测、链接预测等。图表示是解决图分析任务的一种高效方法。它将图数据压缩到较低维空间中,同时试图最大限度地保留图的结构信息和特征。
图神经网络(GNN)代表了当今机器学习领域的核心概念和工具,因为它们能够利用图和神经网络的力量来处理数据并执行机器学习任务,如文本分类。在这项工作中,我们通常旨在寻求一些关于GNN文本分类的研究路线,特别是,为文本分类任务提供结合集成学习、GNN结构、语言模型和图划分技术的方法。
现在,我们简要介绍我们的方法、结果、提出的方法和实验。在本文中,我们将研究并仔细研究不同语言模型的各种组合,以及集成学习方法和几种图神经网络结构(GNN)。特别是,我们采用了图神经网络(如GCN、GAT、GIN)与预训练模型(如BERT[6]和Pars-BERT[7])的集成方法,以及用于非英语数据集,特别是波斯语数据集的文本分类的图划分方法。该过程包括首先以图的形式组织数据,然后使用多语言BERT或Pars-BERT生成初始节点特征。然后,我们利用图神经网络算法(如GCN)进行学习和预测。
根据获得的结果,在平衡和不平衡数据的两种情况下,Pars-BERT的性能都优于BERT,例如,在平衡数据中的两类数据集的情况下,当使用BERT时,我们达到了81%的准确率,当使用Pars-BERT时,我们达到了87%的准确率。此外,使用BERT或Pars-BERT,在平衡和不平衡数据场景中,当使用图神经网络(如GCN)时,模型的性能会提高。例如,使用BERT和GCN,我们的准确率达到91%,这表明了使用图神经网络的重要性。此外,通过使用集成学习方法,在不平衡数据和两类数据集的情况下,模型的准确性提高到93%。
2.相关工程
本节简要回顾了文本分类任务领域的一些早期工作,以及一些通过图神经网络及其各种类型进行文本分类的工作。一般来说,文本分类任务可以分为三大类:一是传统的文本分类方法;二是深度学习方法;第三,图神经网络。在以下各段中,我们对每一段都进行了总结性审查。
首先,文本分类可以追溯到20世纪60年代初,由领域专家进行。它需要关于如何将文本数据分类到预定义类别的专业知识。从20世纪80年代末到90年代初,机器学习方法一直很流行。在这段时间里,自动文本分类的主流方法是知识工程,它依赖于手动定义的文本分类逻辑规则,并最终成为主导方法。这些方法主要集中在特征工程和用于分类的算法上。一种常用的特征工程技术是单词袋[8]方法,其中为数据中的每个单词分配一个向量表示。这些向量充当诸如逻辑回归之类的机器学习算法的输入。
文本分类的深度学习方法作为深度学习的重要应用领域之一,在各种NLP问题中获得了令人难以置信的普及。该框架主要涉及应用递归神经网络(RNN)[9,10,11,12]、长短期记忆(LSTM)网络[13,14]和转换器架构来分析和分类文本。RNN能够保留内部状态或内存,以保留来自先前输入的信息。这一功能使他们能够理解和发现长序列中单词之间的关系。话虽如此,RNN有一定的弱点(例如长期依赖性较弱)。LSTM被认为是解决这些弱点的解决方案,通常用于情感分析、语言翻译和许多其他自然语言处理任务,因为它能够处理文本的顺序数据并捕获其中的长期依赖关系。与RNN和LSTM相反,一种更新更强的架构,即transformer,利用了允许数据元素之间的双向和非局部关系的注意力机制。转换器产生了对单词和序列元素之间的长程依赖关系进行建模的高能力。
用于文本分类的图神经网络是我们在引言中综述的第三种也是最重要的方法,也是我们在本文其余部分中主要关注的问题。事实上,神经网络理论的一个主要进步是利用可以捕获图结构数据的神经网络。用于文本分类的最重要的图神经网络之一是图卷积网络(GCN)[15]。GCN将卷积神经网络[16]的概念推广到图;它对图中每个节点的邻居执行局部聚合操作。另一种算法是Graph SAGE[17],它使用节点采样和聚合来创建表示。这在涉及大型图生成的问题中是非常有益的。图注意力网络(GAT)[18]算法确实使用了注意力机制,这意味着,在消息传递过程中,它学习如何将不同的权重应用于每个节点的邻居,意味着它为每个邻居分配不同的重要性。这有助于GAT捕获图中复杂的关系和依赖关系,从而提高各种基于图的任务的性能。
图同构网络(GIN)[19]建立在Weisfeiler–Lehman(WL)图同构测试的基础上,这是一种广泛使用的基于图的结构性质来区分图的算法。WL测试迭代地聚合和散列节点标签,以决定图是否同构。通过将GNN连接到WL测试,同构网络旨在区分各种图结构。该理论框架深入了解了GNN变体的局限性和优势,并对其在图表示学习中的作用有了更深入的了解。
在一些论文中,图卷积网络(GCN)已被用于文本分类,例如梁等人的研究。[20],这是最早讨论GCN用于文本分类的研究之一。Yuxiao等人[21]在[20]的基础上,引入了一种略有不同的图构造,并测试了各种文本分类基准。Yuxiao等人对图中节点嵌入的作用和文本分类的GCN学习技术进行了全面的分析。作者还在他们的
值得注意的是,这些测量(TF-IDF和PMI)是标准化的,因为我们实际上考虑并使用标准化的对称邻接矩阵而不是原始矩阵A。这种方法已在其他早期工作中使用,并且在实验中也被证明是有用的。
每个文档都被馈送到预先训练的模型多语言BERT或Pars-BERT模型,从而产生数字矢量表示。对于每个单词,对包含该单词的文档的BERT或Pars-BERT表示应用最小池操作。更准确地说,以与参考文献[21]相同的方式,给定一个单词,包含该单词的所有文档的BERT表示的最小池化产生该单词的表示。现在,定义了与每个节点关联的特征向量。
我们现在讨论预训练模型BERT和Pars-BERT。这些模型在文本处理和自然语言处理(NLP)中得到了广泛的应用。它们提供高质量的嵌入,作为下游任务的功能。它们消除了手动特征工程的需要。BERT向量,也称为BERT嵌入,实际上是表示文本的高维向量。这种嵌入是通过使用在大型文本数据集上训练的预训练BERT模型对句子中的单词进行编码来创建的。编码过程为句子中的每个单词生成一个固定长度的向量,然后可以作为其他自然语言处理模型的输入。类似地,Pars-BERT模型是从不同来源的波斯文本数据中预先训练的。
值得注意的是,除了BERT框架之外,还有许多其他流行的用于寻找文本表示的框架,如“单词移动器嵌入”、“Word2vec”等。BERT是一种广泛用于各种自然语言处理任务的语言模型,特别是需要理解上下文的任务,而其他一些框架,诸如所提到的单词移动器的嵌入之类的方法专注于单词对齐并且对于涉及语义相似性或语义距离的任务是有用的。如前所述,在这项工作中,我们使用BERT和Pars-BERT框架来获得文档/单词的初始表示;然后,正如我们将在下面解释的那样,我们使用GNN结构,通过捕获与数据相关的底层图结构,将这些表示转化为更丰富的表示。
一旦构建了文本图,它就被馈送到一个两层的GCN。每个GCN层基于它们的邻域关系在节点之间执行消息传递;这允许整合来自较大社区的信息。我们将更详细地回顾信息传递步骤。如前所述,由BERT和Pars-BERT生成的初始表示向量被作为节点的初始特征提供给图卷积神经网络(GCN)的输入。这些节点的信息通过消息通过图神经网络的过程来传递,使得图中的每个节点为其每个邻居计算一条消息。消息实际上是节点、邻居和它们之间的边缘的函数。发送消息,每个节点使用sum或average等函数聚合接收到的消息。在接收到消息后,每个节点根据其当前属性和聚合消息更新其属性。GNN消息传递的基本公式定义如下:
哪里𝑊(𝑘)𝑠𝑒𝑙𝑓,𝑊(𝑘)𝑛𝑒𝑖𝑔ℎ𝜖𝑅𝑑(𝑘)*𝑑(𝑘−1) 是可训练的参数矩阵,并且𝜎 表示元素非线性(例如Re-LU)。偏差项b𝜖𝑅𝑑(𝑘) 也是偏项。为每个文本数据节点获得的最终特征向量被视为GCN的输出,其通过Soft Max分类器进行最终预测。通过联合训练BERT和GCN模块,我们利用了预训练模型和图模型的优势。
我们现在讨论GCN背后的想法,以及它们如何帮助我们进行文本分类。GCN旨在有效地捕获图的节点之间的语义关系和丰富的依赖关系,从而更好地理解和表示文本内容。文本分类通常需要考虑与单词或短语相邻的文本信息以进行准确预测。GCN可以从图中的相邻节点收集信息,有效地收集和传播上下文信息。这种能力使GCN能够利用每个节点的本地上下文,并就文本分类问题做出明智的决定。另一方面,文本分类的挑战之一是处理不同长度的输入,例如单词数量不同的句子和短语。GCN可以使用图结构自然地处理可变长度的输入。通过利用图结构,GCN可以描述单词或句子之间的关系和依赖关系,这为文本分类提供了一种更稳健和灵活的方法。此外,GCN擅长在图中建模全局依赖关系。在文本分类中,全局依赖关系是指包含整个数据集和文本的依赖关系。通过在整个图中传播信息,GCN可以捕获这些全局依赖关系,从而能够全面理解文本数据及其分类。根据我们获得的结果,当使用图神经网络,特别是GCN时,我们的大多数模型组合的性能都有所提高,无论是对于平衡数据还是不平衡数据。这种改进可以归因于使用上述图神经网络的优点,因为它们提高了表示的质量和文本分类模型的鲁棒性。
3.3图形划分
我们现在讨论我们的技术组合的另一个组成部分,它在我们的结果中具有概念和技术意义。图神经网络的一个基本挑战是需要一个大空间来存储图和为每个节点创建的表示向量。为了解决这个问题,我们的贡献之一是应用聚类GCN算法[23],该算法将图划分为更小的聚类,如下所述。聚类GCN算法利用图聚类结构来解决大规模图神经网络带来的挑战。为了克服对图及其节点表示向量的大量内存和存储的需求,该算法通过使用METIS[24]等图聚类算法将图划分为更小的子集。METIS旨在将图划分为大小大致相等的子图,同时最小化它们之间的边连接。该过程涉及图粗化,其中原始图中的顶点被合并,以创建一个更小但具有代表性的图,用于有效的分区。在使用图划分算法生成初始子图之后,该算法通过应用非砷化算法以递归方式细化划分。这个递归过程将分区信息从较小的级别传播到较大的级别,同时保持子图的平衡和大小。通过将图划分为更小的簇,模型在计算空间和时间方面的性能得到了提高。采用图聚类方法的决定是由创建分区的目标驱动的,其中每个组内的连接都很强,从而有效地捕捉图的聚类和社区结构。这种方法在节点嵌入中特别有益,因为节点及其邻居通常属于同一集群;它实现了高效的批处理。
3.4.合奏学习
我们的技术组合的另一个组成部分是使用集成学习理论中的思想。装袋和堆叠是神经网络中的重要技术。作为本文的另一个贡献,使用了集成学习类型的技术。事实上,我们的集成学习方法使用GNN和(Pars)BERT的不同组合来在特定语言的文本分类任务中获得良好的结果。接下来,我们将对此进行更详细的解释。
在数据集中的预处理阶段之后,我们按照上面描述的方式构建图。然后,使用聚类GCN算法,我们将输入图划分为四个不相交的诱导子图。然后将这些子图中的每一个子图馈送到单独的图神经网络。根据我们的经验,在我们的许多尝试中,图卷积网络在文本分类处理方面表现出了更好的性能。因此,我们强调在我们的组合中使用GCN。除了GCN,我们还利用图同构网络(GINs)框架以及图注意力网络(GATs)作为组合学习的另外两个部分。值得注意的是,我们组合中的GIN部分旨在捕捉图的全局结构。所使用的算法概述如图1所示。一旦对分离的个体模型进行了训练,之后我们获得了四个不同的训练GNN模型。在测试阶段,测试样本通过所有这些模型,每个模型都创建自己的分类输出向量。然后,通过取这些输出向量的平均值来组合所有这些模型的结果。通过这个过程,集成方法可以通过合并多个模型的强度来帮助提高预测精度。
https://www.mdpi.com/1999-4893/16/10/470
作为我们组合的另一部分,我们在我们的方法中寻址波斯或阿拉伯语数据集时使用了Pars-BERT(而不是BERT)的框架,以获得单词和文档的初始表示作为我们图的节点,如前所述。BERT是一种已知的语言模型,它将向量与文本相关联。Pars BERT是BERT的一个特定版本,它针对波斯语中的文本分类进行了微调。BERT和Pars-BERT都创建了学习任务中节点的初始特征向量。我们在不同的实验中使用了这两种方法,但重点是Pars-BERT,稍后我们将提供一份结果报告,并解释强调使用Pars-BERT背后的想法。在从Pars-BERT获得初始表示后,所提到的不同GNN方法开始对其进行操作,最终,对结果进行平均产生了我们的最终分类结果。
通过这个分类过程,我们进行了一些观察。首先,我们观察了应用GNN模型如何通过更好地捕捉用户及其意见之间的拓扑信息,在文本分类任务中获得更好的分数。其次,我们观察到,在平衡和不平衡数据场景中,Pars-BERT的性能都优于BERT。这可以归因于我们的数据是波斯语(甚至类似的非英语语言,如阿拉伯语)的性质。由于Pars BERT是在大量波斯文本上训练的,因此与原始BERT相比,它可以让Pars BERT学习更好的波斯文本的文本表示向量。这导致在生成表示的过程开始时显著更高的编码能力,这最终导致在经过GNN的几个层和操作步骤之后获得更好的最终表示。最终,这会带来更好的最终表现。这一观察结果建议并强调在非英语语言分类问题的背景下,使用特定语言的预训练语言模型(如Pars-BERT,而不是BERT)来获得更好的初始和最终表示。
在下一节中,我们将详细介绍基于组合上述四种主要技术的各种方法进行的不同实验,即集成方法、预先训练的语言模型、GNN架构和图划分。例如,在一个实验中,我们测试了一个模型,该模型结合了集成技术和三种不同的GCN、GIN和GAT架构,以及BERT。在另一个实验中,我们省略了系综技术,只使用了GCN和Pars-BERT的组合。我们将研究几种这样的组合,并对结果进行比较。这为不同技术的组合如何影响最终分类结果提供了令人信服的见解。
4.数据集
Digikala:(https://github.com/AIuniversejourney/Enhance文本分类/bob/main/DATASET/digikala data.csv于2023年8月2日访问)。该数据集包含用户对一家名为Digikala的商店网站上各种产品的波斯语评论,该网站是波斯语最大的在线商店之一。该网站提供种类繁多(数十万)的产品,包括电子产品、书籍、衣服等。用户有机会表达他们对所购买产品的看法。该数据集由100000行和12个不同的列组成,包含各种形式的信息,如用户意见、产品优缺点、好恶数量、产品ID等。该数据集的特征如表1所示。该数据集中的每一行都与用户对产品的看法有关。在这里,我们删除了缺少标签的评论,最终,大约有63000条评论保留了标签。
阿拉伯语推特语料库AJGT:(https://github.com/komari6/Arabic-twitter-corpus-AJGT2023年8月2日)。该数据集是一个阿拉伯-约旦通用推文(AJGT)数据集,包含1800条阿拉伯语推文,分为积极和消极两类。数据集是平衡的;900条推文被分类在正类中,900条推特被分类在负类中。
Deep Senti Pers:(https://github.com/JoyeBright/Deep Senti Pers,2023年8月2日)。这是一个波斯的、平衡的数据集,包括用户对数字产品的看法,分为五类。该数据集的详细信息如表2所示。
MR:(http://www.cs.cornell.edu/people/pabo/movie-review-data/2023年8月2日)。该数据集用于二元情感分析,其中包括用户对不同电影的英语评论。这些评论分为两类:积极的和消极的;在正类中找到5331个数据,在负类中找到了5331个。
5.实验结果
我们进行了一系列不同的实验,探索了四种主要技术的组合:集成方法、预先训练的语言模型、图神经网络架构和图划分。我们的目标是研究如何将这些技术协同结合,以提高分类任务的性能。一组实验涉及创建集成模型,其中我们集成了三种不同的图神经网络架构(GCN、GIN和GAT),并利用BERT作为预训练的语言模型。通过这些集成模型,我们旨在展示通过结合这些互补技术实现的潜在改进。除了集成方法外,我们还进行了另一项实验,其中我们专注于特定的组合,特别是在没有集成技术的情况下将GCN和Pars-BERT一起使用。这使我们能够分析这种简化配对的性能,并评估其对分类结果的影响。在整个调查过程中,我们探索了几种这样的组合,彻底评估了它们各自的结果。最终,通过比较这些不同技术和组合的结果,我们对各种方法的混合如何影响最终分类结果获得了有价值的见解。这些发现使我们对如何有效利用每种技术的优势有了更深入的了解,为现实世界应用中更明智的决策铺平了道路。
5.1.实验1:在我们的数据集上应用Pars-BERT、BERT和GCN
在两种情况下,我们检查了我们提出的模型的性能。第一个场景涉及一个具有两个标签的两类数据集:“推荐”和“不推荐”。第二个场景处理一个三类数据集,该数据集有三个标签:“推荐”、“不推荐”和“不知道”。对于这两种情况,我们在两种设置中评估了模型的性能和准确性:一种是不平衡数据,另一种是平衡数据。这些实验的结果如表3所示。对于每一个数据集不平衡的情况,我们还计算了𝐹1、准确度高,查全率高。在三类数据集中,51961个数据点被分配用于训练,而5774个数据点则被指定用于测试。提取的单词数为44758,因此节点数为102493。对于两类数据集,43149个数据点被分配用于训练,4795个数据点保留用于测试。提取的单词数为40304,因此节点数为88248。
表3。所提出的模型在Digikala数据集上的准确度(%)(Pars-BERT+GCN和BERT+GCN实验的平均值±标准差)。
从表3中的结果可以明显看出,在平衡和不平衡数据场景中,Pars-BERT的性能都优于BERT。这里的关键见解是,这种增强可以归因于我们的数据是波斯语的性质。由于Pars BERT是在大量波斯文本上进行训练的,因此与BERT相比,Pars BERT能够更好地学习波斯文本的文本表示向量,从而获得更高的准确性。在使用BERT和Pars-BERT的两种情况下,以及在平衡和不平衡数据场景中,当使用图神经网络(如GCN)时,模型的性能都会提高;这是由于利用图神经网络的优点。
关于上述模型的统计数据,我们多次重复上述实验,每次都有不同的模型权重初始化。例如,如表3所述,上表中最强模型(即Pars BERT+GCN)的结果(精度)的平均值为91.1(在2类上),标准偏差小于0.06。对于BERT+GCN模型(2类),标准差仅略高(0.08),平均值也略低(约0.5%),这也可能是由于波斯语中Pars BERT的表示略好于BERT。
5.2.实验2:通过组合不同GNN结构的集合学习
如表4所示,在使用集成学习技术的所有情况下,模型的准确性和性能都会提高。根据表3和表4,我们强调了以下内容:在Digikala-2Class数据集中,通过使用集成学习技术,我们在不平衡数据中使用Pars(Bert)+GCN达到了91%的准确率,并且由于集成学习,该准确率提高到93%。在Digikala-3Class数据集中,我们使用Pars-Bert+GCN和集成学习技术达到了约64%的准确率,由于集成学习,该准确率达到了约68%。
表4。集成学习技术的准确性(%)(最后一行的平均值±标准差)。
值得注意的是,在三类数据集中,50331个数据点被分配用于训练,而12583个数据点则被指定用于测试。提取的单词数为7448,因此节点数为70362。对于两类数据集,42446个数据点被分配用于训练,而10612个数据点保留用于测试。提取的单词数为4129,因此节点数为57187。
值得一提的是,在这个实验中,与行相关的训练集的大小𝐺1,…,𝐺表中的4小于表3中的Pars-BERT+GCN实验的训练集的大小,因为在这些情况下,训练是在提到的子图上进行的。
我们现在简要介绍一下我们上面提到的系综模型的统计数据。为了更好地理解模型,我们重复了上述实验,并运行了我们的模型几次,每次都进行了不同的模型权重初始化,并获得了每次重复实验的精度和其他参数,以查看结果的稳健性。如表4所示,2类数据集的结果平均值(准确度)为93.2,标准偏差小于0.02。值得一提的是,在集成学习领域,集成学习方法和模型具有较强的鲁棒性。
与使用单个模型相比,集成学习可以显著提高预测精度。这种技术通过组合不同的模型,有效地捕捉数据的不同方面,旨在减少模型的偏差和误差。此外,由于该技术涉及在数据的不同子集上训练的多个模型,并使用不同的算法,因此它较少受到数据中异常值或噪声的影响,从而能够创建更准确和稳健的预测。需要注意的是,集成学习也有潜在的缺点,例如计算复杂性增加、训练时间延长以及需要更多资源。此外,所采用的方法的有效性取决于每个模型的多样性和质量。然而,集成学习的优势使其成为在各种机器学习场景中提高预测精度和泛化能力的强大技术。
将表4中提出的集成方法的结果与表3(最后两行)的结果进行比较表明,该方法比仅应用BERT或BERT+GCN给出更好的结果,[21,22]中也考虑了这一点(在英语环境中)。值得一提的是,在[25,26]等论文中,基于依赖语法的规则、LSTM和CNN等其他框架已被考虑用于波斯数据集的情感分析。然而,据我们所知,在本文发表之前,还没有其他关于使用集成学习方法与GNN结构相结合的波斯文本情感分析的工作。
5.3.一些附加实验的简要报告
在这里,我们在与以前相同的线上对多个额外的数据集进行了额外的实验,以更好地理解使用BERT+GCN时英语和非英语数据集的准确性之间的差异。在阿拉伯推特语料库AJGT数据集上,我们对BERT和GCN进行了实验。我们相信,在预处理阶段采取一些进一步的步骤可以提高该数据集的准确性。然而,这不在本文的范围内,我们将对此进行进一步的调查,以供将来的工作使用。我们报告说,通过使用BERT和GCN,我们在训练数据中的准确率达到98%,在测试数据中的正确率达到83%。
类似地,MR数据集(英语数据集)中的数据实例数量远小于Digikala数据集(波斯语)中的实例数量,但与Digikalla数据集相比,取得了明显更好的结果。事实上,与MR数据集相比,在Digikala-2Class上操作时,BERT+GCN的准确性较差。尽管有更多的数据实例,但在Digikala数据集上获得的精度低于在MR数据集上实现的精度(这里值得一提的是,在使用Pars-BERT的Deep Senti Pers数据集上的有限实验中,与使用BERT时相比,结果有所改善)。英语和波斯语数据集上结果的这些差异现象可归因于我们用于获得图中节点特征的英语数据中BERT的强度。如前所述,BERT模型是在较大的数据集上训练的,包括整个英文维基百科和大量英文书籍,而波斯语的BERT模型,例如Pars-BERT,可能是在较小规模的数据集中训练的。这种广泛的预训练使英语BERT能够捕捉广泛的语言模式和语义关系,使其成为英语文本处理的强大模型。另一方面,标记化
6.结论和进一步工作
在本文中,我们研究了将机器学习和图论中的一些基本思想和技术相结合和应用的各种方法,即集成方法、预先训练的语言模型、GNN架构和图划分,在文本分类问题的背景下(特别是对于非英语数据集),以解决预测任务并增强结果。我们在具体问题上测试了我们的想法,比如波斯语(以及其他一些语言)用户评论的情感分类。
作为未来的工作,人们可以详细阐述方法组合的想法,并考虑更广泛的组合技术。此外,作为另一个方向,我们可以通过结合其他复杂的GNN架构来丰富我们的集成技术。作为另一个方向,可以利用更广泛的预先训练的语言模型,因为在本研究中,我们的重点主要集中在BERT和Pars-BERT上。还有许多其他有利的候选人可以考虑在内。
我们现在讨论我们工作中的一些局限性,并就此提出一些建议。集成学习方法的局限性之一是训练数据集需要相对较大的计算能力。此外,许多主要的机器学习方法,如转导方法,除了具有许多优点外,还具有一个共同的特点,即它们不能容易地适应新的样本外测试数据。然而,对于这种方法的基本局限性,也有一些想法(例如参见[27])。进一步工作的一个想法是考虑将这些想法与我们在本文中使用的方法相结合,以便在构建的图结构中添加新节点后,使模型更容易适应。
作者贡献
方法论,F.G.、Z.R.、A.M.和M.A。;软件,F.G.、Z.R.和A.M。;验证,Z.R.和A.M。;调查学硕士。;写作——初稿、F.G.、Z.R.和A.M。;写作——审查和编辑,Z.R.、A.M.和M.A.所有作者都已阅读并同意手稿的出版版本。
基金
这项研究没有得到外部资助。
数据可用性声明
我们的代码可在以下链接中获得:https://github.com/AIuniversejourney/Enhance文本分类于2023年8月2日访问。
鸣谢
作者Alireza Mofidi感谢IPM基础科学研究所的支持。他在这篇论文中的研究部分得到了IPM的资助(No.1400003017)。
利益冲突
提交人声明没有利益冲突。
参考文献
李,Q。;彭H。;李,J。;夏。;杨。;孙。;余,P.S。;何:文本分类研究综述:从传统到深度学习。ACM Trans。Intell。系统。Technol。2022,13,1-41。[谷歌学者][交叉参考]
张。;王,S。;刘,B.情绪分析的深度学习:一项调查。Wiley Interdiscip。最小已知版本数据。Dis。2018年8月8日,第1253页。[谷歌学者][交叉参考]
Aggarwal,C.C。;翟。;Aggarwal,C.C。;翟,C.文本分类算法综述。在挖掘文本数据中;施普林格:柏林/海德堡,德国,2012年;第163–222页。[谷歌学者]
曾。;邓Y。;李,X。;Naumann,T。;罗,Y.基于ehr的计算表型的自然语言处理。IEEE/ACM Trans。Comput。生物信息。2018年,16139-153。[谷歌学者][交叉参考][Pub Med]
戴。;刘。;任。;徐,Z.基于对抗性训练的多源无监督领域情绪分析自适应。2020年2月7日至12日,美国纽约,2020年AAAI人工智能会议记录;第7618-7625页。[谷歌学者]
Devlin,J。;张,M.W。;李。;Toutanova,K.BERT:语言理解深度双向转换器的预训练。2019年6月3日至5日,美国明尼苏达州明尼阿波利斯市,NAACL-HLT会议记录;第4171-4186页。[谷歌学者]
Farahani,M。;Gharachorloo,M。;Farahani,M。;Manthouri,M.Parsbert:基于Transformer的波斯语言理解模型。神经过程。Lett。2021年,538831–3847。[谷歌学者][交叉参考]
Salton,G。;Buckley,C.自动文本检索中的术语加权方法。Inf.流程。马纳格。1988年,24513-523。[谷歌学者][交叉参考]
Medsker,L.R。;Jain,L.C.递归神经网络:设计与应用;CRC出版社:美国佛罗里达州博卡拉顿,1999年。[谷歌学者]
刘。;邱,X。;黄,X.基于多任务学习的递归神经网络文本分类。《第二十五届国际人工智能联合会议论文集》,2016年7月9日至15日,美国纽约;AAAI出版社:美国华盛顿,DO,2016;第2873–2879页。[谷歌学者]
罗,Y.用于临床笔记中关系分类的递归神经网络。J.Biomed。知会2017年,72,85-95。[谷歌学者][交叉参考]
赖,S。;徐。;刘,K。;赵,J.用于文本分类的递归卷积神经网络。2015年1月25日至30日,美国得克萨斯州奥斯汀,第二十九届AAAI人工智能会议论文集。[谷歌学者]
Hochreiter,S。;Schmidhuber,《长短期记忆》。神经计算机。1997年,91735-1780年。[谷歌学者][交叉参考]
戴。;Socher,R。;Manning,C.D.改进了树结构长短期记忆网络的语义表示。2015年7月26日至31日,中国北京,计算语言学协会第五十三届年会和第七届国际自然语言处理联合会议论文集。[谷歌学者]
张,S。;Tong,H。;徐。;Maciejewski,R.Graph卷积网络:综述。Comput。Soc.净值。2019年6月11日。[谷歌学者][交叉参考]
Kim,Y.用于句子分类的卷积神经网络。2014年10月25日至29日,卡塔尔多哈,2014年自然语言处理实证方法会议记录。[谷歌学者]
汉密尔顿,W。;Ying,Z。;Leskovec,J.大型图的归纳表示学习。高级神经信息处理。系统。2017年,30日,1-11。[谷歌学者]
Velickovic,P。;Cucurull,G。;A.卡萨诺瓦。;罗梅罗A。;Lio,P。;Bengio,Y.图形注意力网络。Stat 2018,1050,4。[谷歌学者]
徐,K。;胡。;Leskovec,J。;Jegelka,S.图神经网络有多强大?2019年5月6日至9日,美国洛杉矶新奥尔良,《国际学习代表大会论文集》。
姚。;毛。;罗,Y.用于文本分类的图卷积网络。2019年1月27-28日,美国夏威夷火奴鲁鲁,AAAI人工智能会议记录;第33卷,第7370-7377页。[谷歌学者]
韩。;袁。;王。;Long,S。;Poon,J.理解用于文本分类的图卷积网络。ar Xiv 2022,ar Xiv:2203.16060。[谷歌学者]
林。;孟。;孙,X。;韩,Q。;邝。;李,J。;Wu,F.Bert-GCN:基于GNN和Bert的转导文本分类。《计算语言学协会研究结果汇编:ACL-JCNLP 2021》,在线,2021年8月1日至6日;第1456-1462页。[谷歌学者]
蒋。;刘,X。;Si、S。;李。;Bengio,S。;Hsieh,C.Cluster GCN:一种用于训练深度和大型图卷积网络的有效算法。2019年8月4日至8日,在美国AK州安克雷奇举行的第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集上;第257–266页。[谷歌学者]
Karypis,G。;Kumar,V.一种快速、高质量的不规则图划分多级方案。SIAM J.Sci。Comput。1998年,20359–392。[谷歌学者][交叉参考]
Dashtipour,K。;Gogateb