基于属性补全的异质图神经网络

简介: 基于属性补全的异质图神经网络

论文标题:Heterogeneous Graph Neural Network via Attribute Completion


论文链接:https://dl.acm.org/doi/abs/10.1145/3442381.3449914


论文来源:WWW 2021


一、概述


异质图对比同质图能够包含更加全面的信息,能够更加有效地描述现实系统。最近的一些研究已经使用GNN来处理异质图,比如HAN、MAGNN等方法。这些模型可以被解释为由图结构指导来平滑化邻域节点属性。为了学习节点表示,需要有所有节点的属性。然而,这并不总是能够满足。


有些节点没有属性,因为成本太高,甚至不可能获得(比如敏感的个人信息)。特别是在异构图中,我们通常不能得到所有类型节点的属性,这将影响GNN-based模型的性能。我们将异质图中的属性缺失分为两类:


①需要被分析的节点属性缺失,比如下图中DBLP数据集的author类型节点;


②不需要被分析的节点属性缺失,比如下图中IMDB数据集的actor类型节点。


GEUX[V}6RNT(A_EK`AM0JZF.png

                                               schema


上图中只有DBLP的paper类型节点以及IMDB数据集的movie类型节点有属性,其余节点属性缺失,我们需要这些节点的属性来对所分析的节点做预测。虽然有些类型的节点没有属性,但在大多数情况下,这些没有属性的节点会直接连接到有属性的节点,所以以往的研究都采用了一些手工的方法来处理异构图中属性缺失的问题。以MAGNN和HAN为例,对于DBLP数据集而言,paper节点采用文章keyword的bag-of-words表示,而补全author节点属性的方式是采用author发表论文的keyword的bag-of-words表示,具体操作是平均与author节点相连接的paper的属性,另外他们没有使用计算机科学专门预训练过的词向量而是一个one-hot表示作为term和venue节点的属性,这可能提供无效的信息。


本文提出Heterogeneous Graph Neural Network via Attribute Completion (HGNN-AC)来应对异质图属性缺失的问题。我们以节点间的拓扑关系为指导,通过对有属性节点的属性进行加权聚合来补全无属性节点的属性。HGNN-AC首先使用HIN-Embedding方法来获取节点embedding,然后在进行加权聚合时通过计算节点embedding的attention权重来区分不同节点的不同贡献。这种补全机制可以轻松地与任意HIN模型组合,使整个系统端到端。补全机制的监督损失与模型的预测损失相结合来优化整个学习过程。


二、概念


  1. 定义1:异质图


5V$D049U`5RE@H03[Z[R)[9.png


  1. 定义2:异构图中的不完全属性


D`X9ON94DD7E9{KSVFR~)45.png


  1. 定义3:异质图embedding


~{Q0P}]FQW)$DF7H2{39)VV.png


下表总结了本文使用的符号表示:


N)]T@J]O${I7IZ]5X%5JI[4.png

                                                    符号表示


三、方法


3YPD}G~OPFI[4NXJJW`4$JM.png


                                                 补全过程


  1. 拓扑embedding的预学习


在异质图中,每个节点都有拓扑信息,但不一定有属性信息。同质性是指相似实体之间的联系比不同实体之间的要强。由于网络同质性的存在,拓扑和属性信息总是表达相似或相同的语义。考虑到这一点,我们假设节点的拓扑信息之间的关系能够很好地反映节点的属性信息之间的关系。在本文中,HGNN-AC采用现有的异构图embedding方法,如metapath2vec或HHNE,得到基于网络拓扑的节点embedding。然而这些基于skip-gram的方法总是使用单个meta-path,可能会忽略一些有用的信息。为了得到更好的embedding,HGNN-AC首先根据常用的多个meta-path通过随机游走获得更全面的节点序列,然后将这些序列输入到skip-gram模型中学习节点嵌入Q1%H~[75VGJ3Z2ICZW[T9JB.png


  1. 使用attention机制进行属性补全


之前的一些方法补全缺失属性的方法是平均聚合直接相邻邻居节点的属性,但我们注意到每个节点的直连邻居节点在属性聚合中扮演着不同的角色,具有不同的重要性,这可能是因为:


①这些节点的类型不同;


②它们的局部拓扑结构不同,也就是说,一个节点的邻居越多,它对每个邻居的重要性就越低。


6[V1Z33$`]XB~SHXIOD462E.png


$63AGL[FOYA_M{3O1LCM1VU.png


这意味着把TN9}HMM75BS`8[}2I(V_ZUE.png个head的结果平均起来。


  1. 属性的drop


4Z2SIR}XZXS`WHIVPNO[P9U.png


  1. 与HIN模型相结合


HRY2$L`$LN{OM}I$LW{KGD2.png


四、实验


  1. 数据集


采用三个数据集DBLP,ACM和IMDB。数据集统计信息如下:


8A9Z`G5XW~75NLA@[EOV3[D.png

                                        数据集统计信息


  1. 实验


实验分为两组:


①要分类的节点属性缺失,采用DBLP数据集;


②要分类的节点有属性,其余类型节点属性缺失,采用ACM和IMDB数据集。

实验结果如下:


(]]T]Y)EZ6XJNP_7OZRMJY2.png

                                                  DBLP


T}0F]N]N03~UTI(~P)8}ZLM.png

                                             ACM,IMDB


另外在GTN上对比了使用属性补全与不使用的效果:


1HAY(@][}[AU5SGQG@MO%9O.png

                                               对比


  1. 结果可视化


使用t-SNE对学习到的节点embedding做了可视化:


9GT)AV4{O$%[GD1WJF{P4SJ.png

                                              t-SNE


  1. 个案研究


为了证明补全机制的有效性,采用下列五种配置进行实验对比:


{]M(GIG$N[BUOAA_FQO`QWO.png

                                                    配置


实验结果如下:


_59IO0K0%6[W_VM1~XZUK7C.png

                                                       结果


  1. 超参数影响


对比不同超参数的影响:


X3Z$UE)W59AJ~IJGXFS`X1I.png

                                               超参数


相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
【2月更文挑战第17天】ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
187 2
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer 能代替图神经网络吗?
Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
91 5
|
4月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
78 5
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
4月前
|
机器学习/深度学习 编解码 数据可视化
图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
180 0
|
5月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:图神经网络(GNN)
使用Python实现深度学习模型:图神经网络(GNN)
253 1
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【传知代码】图神经网络长对话理解-论文复现
在ACL2023会议上发表的论文《使用带有辅助跨模态交互的关系时态图神经网络进行对话理解》提出了一种新方法,名为correct,用于多模态情感识别。correct框架通过全局和局部上下文信息捕捉对话情感,同时有效处理跨模态交互和时间依赖。模型利用图神经网络结构,通过构建图来表示对话中的交互和时间关系,提高了情感预测的准确性。在IEMOCAP和CMU-MOSEI数据集上的实验结果证明了correct的有效性。源码和更多细节可在文章链接提供的附件中获取。
【传知代码】图神经网络长对话理解-论文复现
|
5月前
|
机器学习/深度学习 搜索推荐 PyTorch
【机器学习】图神经网络:深度解析图神经网络的基本构成和原理以及关键技术
【机器学习】图神经网络:深度解析图神经网络的基本构成和原理以及关键技术
1086 2
|
6月前
|
机器学习/深度学习 JSON PyTorch
图神经网络入门示例:使用PyTorch Geometric 进行节点分类
本文介绍了如何使用PyTorch处理同构图数据进行节点分类。首先,数据集来自Facebook Large Page-Page Network,包含22,470个页面,分为四类,具有不同大小的特征向量。为训练神经网络,需创建PyTorch Data对象,涉及读取CSV和JSON文件,处理不一致的特征向量大小并进行归一化。接着,加载边数据以构建图。通过`Data`对象创建同构图,之后数据被分为70%训练集和30%测试集。训练了两种模型:MLP和GCN。GCN在测试集上实现了80%的准确率,优于MLP的46%,展示了利用图信息的优势。
86 1
|
6月前
|
机器学习/深度学习 数据挖掘 算法框架/工具
想要了解图或图神经网络?没有比看论文更好的方式,面试阿里国际站运营一般会问什么
想要了解图或图神经网络?没有比看论文更好的方式,面试阿里国际站运营一般会问什么