论文标题:Heterogeneous Graph Neural Network via Attribute Completion
论文链接:https://dl.acm.org/doi/abs/10.1145/3442381.3449914
论文来源:WWW 2021
一、概述
异质图对比同质图能够包含更加全面的信息,能够更加有效地描述现实系统。最近的一些研究已经使用GNN来处理异质图,比如HAN、MAGNN等方法。这些模型可以被解释为由图结构指导来平滑化邻域节点属性。为了学习节点表示,需要有所有节点的属性。然而,这并不总是能够满足。
有些节点没有属性,因为成本太高,甚至不可能获得(比如敏感的个人信息)。特别是在异构图中,我们通常不能得到所有类型节点的属性,这将影响GNN-based模型的性能。我们将异质图中的属性缺失分为两类:
①需要被分析的节点属性缺失,比如下图中DBLP数据集的author类型节点;
②不需要被分析的节点属性缺失,比如下图中IMDB数据集的actor类型节点。
schema
上图中只有DBLP的paper类型节点以及IMDB数据集的movie类型节点有属性,其余节点属性缺失,我们需要这些节点的属性来对所分析的节点做预测。虽然有些类型的节点没有属性,但在大多数情况下,这些没有属性的节点会直接连接到有属性的节点,所以以往的研究都采用了一些手工的方法来处理异构图中属性缺失的问题。以MAGNN和HAN为例,对于DBLP数据集而言,paper节点采用文章keyword的bag-of-words表示,而补全author节点属性的方式是采用author发表论文的keyword的bag-of-words表示,具体操作是平均与author节点相连接的paper的属性,另外他们没有使用计算机科学专门预训练过的词向量而是一个one-hot表示作为term和venue节点的属性,这可能提供无效的信息。
本文提出Heterogeneous Graph Neural Network via Attribute Completion (HGNN-AC)来应对异质图属性缺失的问题。我们以节点间的拓扑关系为指导,通过对有属性节点的属性进行加权聚合来补全无属性节点的属性。HGNN-AC首先使用HIN-Embedding方法来获取节点embedding,然后在进行加权聚合时通过计算节点embedding的attention权重来区分不同节点的不同贡献。这种补全机制可以轻松地与任意HIN模型组合,使整个系统端到端。补全机制的监督损失与模型的预测损失相结合来优化整个学习过程。
二、概念
- 定义1:异质图
- 定义2:异构图中的不完全属性
- 定义3:异质图embedding
下表总结了本文使用的符号表示:
符号表示
三、方法
补全过程
- 拓扑embedding的预学习
在异质图中,每个节点都有拓扑信息,但不一定有属性信息。同质性是指相似实体之间的联系比不同实体之间的要强。由于网络同质性的存在,拓扑和属性信息总是表达相似或相同的语义。考虑到这一点,我们假设节点的拓扑信息之间的关系能够很好地反映节点的属性信息之间的关系。在本文中,HGNN-AC采用现有的异构图embedding方法,如metapath2vec或HHNE,得到基于网络拓扑的节点embedding。然而这些基于skip-gram的方法总是使用单个meta-path,可能会忽略一些有用的信息。为了得到更好的embedding,HGNN-AC首先根据常用的多个meta-path通过随机游走获得更全面的节点序列,然后将这些序列输入到skip-gram模型中学习节点嵌入。
- 使用attention机制进行属性补全
之前的一些方法补全缺失属性的方法是平均聚合直接相邻邻居节点的属性,但我们注意到每个节点的直连邻居节点在属性聚合中扮演着不同的角色,具有不同的重要性,这可能是因为:
①这些节点的类型不同;
②它们的局部拓扑结构不同,也就是说,一个节点的邻居越多,它对每个邻居的重要性就越低。
这意味着把个head的结果平均起来。
- 属性的drop
- 与HIN模型相结合
四、实验
- 数据集
采用三个数据集DBLP,ACM和IMDB。数据集统计信息如下:
数据集统计信息
- 实验
实验分为两组:
①要分类的节点属性缺失,采用DBLP数据集;
②要分类的节点有属性,其余类型节点属性缺失,采用ACM和IMDB数据集。
实验结果如下:
DBLP
ACM,IMDB
另外在GTN上对比了使用属性补全与不使用的效果:
对比
- 结果可视化
使用t-SNE对学习到的节点embedding做了可视化:
t-SNE
- 个案研究
为了证明补全机制的有效性,采用下列五种配置进行实验对比:
配置
实验结果如下:
结果
- 超参数影响
对比不同超参数的影响:
超参数