备案控制台

开发者社区人工智能文章正文

DeepWalk：图表示的在线学习

2022-06-11 193

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DeepWalk：图表示的在线学习

论文标题：DeepWalk: Online Learning of Social Representations

论文链接：https://arxiv.org/abs/1403.6652

论文来源：KDD 2014

一、概述

本文提出DeepWalk方法，来学习图节点的社会表示（social representation），学习到的表示处于较低维度的连续空间中。DeepWalk采用自然语言处理中的语言模型来建模一系列图上的随机游走节点序列，这些随机游走序列可以看做一种特殊的语言。模型的输入是一张图，输出是节点的隐表示，下图展示了一个例子，可以看到表示空间中线性可分的部分对应于原图根据模块最大化（modularity maximization）得到的划分：

QQ截图20220612094213.png

example

二、社会表示的学习

问题陈述

QQ截图20220611202714.png

本文提出的方法用来捕获网络的拓扑信息。DeepWalk没有混合标签空间作为特征空间的一部分，而是采用无监督的方法来捕捉图的结构信息，忽略标签的分布。DeepWalk的目标是学习隐表示， QQ截图20220611202818.png 是隐表示的维度，学习到的特征向量可以与任何分类算法相结合，即使是简单算法也可以得到好的性能。

我们希望算法学习到的节点表示能够具备以下特性：

①可适应性（adaptability）：真实的网络是一直在变化的，新的社会关系（social relation）的出现不应该要求重复算法的学习过程；

②社区感知（community aware）：隐表示之间的距离应该代表一种度量，用来评估网络相应成员节点之间的相似性，这允许在具有同质性（homophily）的网络中进行泛化；

③低维（low dimensional）：当标注数据稀缺时，低维模型泛化地更好（可能是因为高维具有维度灾难），并且能够加速收敛和推断；

④连续（continuous）：除了提供社区成员的细致入微的视图外，连续表示在社区之间有平滑的决策边界，这允许更具鲁棒性的分类。

随机游走

QQ截图20220611203023.png

幂律分布

如下图，节点在随机游走序列中出现的频率与自然语言中的词频同样满足幂律分布（power law）：

QQ截图20220612094246.png

幂律分布

而语言建模技术解释了这种分布。我们的一个核心想法是应用于语言建模的技术（语言中的符合频率满足幂律分布，而随机游走序列中节点出现的频率也满足）也能够用来建模网络中的社区结构。

语言模型

语言建模的目的是估计特定的词序列出现在语料库中的似然。具体的，给定一个词序列：

QQ截图20220611203126.png

QQ截图20220611203247.png

然而，随着随机游走序列长度的增加，该目标函数的计算变得不可行。语言模型对于这个问题的解决方案是将这个概率的预测反过来（其实就是指 SkipGram），其实是一种对原有问题的松弛。具体的做法是：

①使用一个词来预测其上下文；

②上下文既包含这个词左边的词也包含右边的词；

③移除了词的顺序限制，也就是说模型需要最大化任何在上下文中出现的词的似然，忽略这些词与该词的偏移。

将上述方法应用到节点表示学习上，要优化的问题就变成了：

QQ截图20220611203318.png

解决上述问题能够捕获图结构中节点之间的相似性，具有相似邻域的节点会获得相似的表示。通过结合截断的随机游走与语言模型，可以满足前面提到的需要满足的表示的特性。

三、方法

QQ截图20220611203351.png

QQ截图20220612094318.png

DeepWalk

第3行代表整个过程迭代 QQ截图20220611203608.png 次，每次为每个节点采样一个随机游走。第4行代表对节点进行随机排列，这不是必须的，但是可以加速随机梯度下降的收敛。对于每个随机游走，使用第7行的SkipGram进行参数的更新。

SkipGram

SkipGram是一种语言模型，它最大化句子中 QQ截图20220611203632.png 大小的窗口内出现的词的共现概率。下面的算法展示了SkipGram在DeepWalk中的应用：

QQ截图20220612094342.png

SkipGram

QQ截图20220611203734.png

QQ截图20220612094424.png

下图展示了DeepWalk的大致过程，其中(c)表示Hierarchical Softmax的过程：

QQ截图20220612094442.png

DeepWalk

我们也可以通过统计随机游走中节点出现的频率来构建哈弗曼树，从而进一步加速训练过程，降低复杂度。

优化

QQ截图20220611203827.png

QQ截图20220612094534.png

多个worker的影响

四、实验

数据集

在BlogCatalog,Flickr和YouTube三个数据集上进行实验，进行节点的分类任务，数据集统计情况如下：

QQ截图20220612094704.png

数据集统计

实验结果

下面展示了三个数据集上对比不同baseline的效果：

QQ截图20220612094956.png

BlogCatalog

QQ截图20220612095020.png

Flickr

QQ截图20220612095042.png

YouTube

超参数敏感性

以下实验探究了不同超参数的敏感性：

QQ截图20220612095118.png

超参数敏感性

文章标签：

自然语言处理

算法

酷酷的群

目录

相关文章

酷酷的群

|

机器学习/深度学习算法数据挖掘

GraphSAGE：大型图的归纳式表示学习

GraphSAGE：大型图的归纳式表示学习

酷酷的群

295 0 1

GraphSAGE：大型图的归纳式表示学习

被纵养的懒猫

|

自然语言处理搜索推荐算法

M2GRL:一种用于全网规模推荐系统的多任务多视角图表示学习框架

由阿里云开发者社区联合新零售智能引擎事业群共同打造的《KDD 论文精华解读》电子书重磅发布！覆盖推荐系统、图神经网络预训练、买家秀视频标题生成、在线电视剧的受众竞争力预测和分析等 10+ 内容，免费下载电子书感受科技的震撼！

被纵养的懒猫

3105 0 0

M2GRL:一种用于全网规模推荐系统的多任务多视角图表示学习框架

楠竹11

|

9月前

|

机器学习/深度学习算法

论文介绍：OpenGraph——迈向开放图基础模型

【5月更文挑战第11天】OpenGraph，由香港大学研发，是一个新型图学习框架，旨在提升模型对不同图数据的泛化能力，特别是零样本图学习。它通过统一图标记器、可扩展的图变换器和LLM增强的数据增强机制应对技术挑战。在零样本和少样本学习任务中，OpenGraph表现出色，优于基线方法。论文深入探讨了其组件的有效性和影响因素，并在多个真实世界数据集上验证了优越的泛化性能。这一创新为图学习研究开辟新路径，但也提出了效率、鲁棒性和应用探索等未来挑战。[链接](https://arxiv.org/pdf/2403.01121.pdf)

楠竹11

107 2 3

拓端数据部落

|

9月前

|

算法搜索推荐

R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例

R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例

拓端数据部落

99 2 2

老板这功能得加钱

|

9月前

|

机器学习/深度学习数据挖掘算法框架/工具

想要了解图或图神经网络？没有比看论文更好的方式，面试阿里国际站运营一般会问什么

想要了解图或图神经网络？没有比看论文更好的方式，面试阿里国际站运营一般会问什么

老板这功能得加钱

66 0 0

研发咨询顾问

|

9月前

|

机器学习/深度学习自然语言处理搜索推荐

推荐系统的算法分类和操作流程介绍

推荐系统的算法分类和操作流程介绍

研发咨询顾问

197 0 0

-开发达人-

|

机器学习/深度学习网络架构

「拖拽」就能实现精准P图的DragGAN，论文作者亲自揭秘技术了

「拖拽」就能实现精准P图的DragGAN，论文作者亲自揭秘技术了

-开发达人-

157 0 0

玩机器学习的章北海-13621

|

机器学习/深度学习计算机视觉

牛啊，几乎涵盖了图神经网络所有操作

牛啊，几乎涵盖了图神经网络所有操作

玩机器学习的章北海-13621

133 0 0

汀丶人工智能

|

机器学习/深度学习算法数据库

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

本项目对PGL图学习系列项目进行整合方便大家后续学习，同时对图学习相关技术和业务落地侧进行归纳总结，以及对图网络开放数据集很多学者和机构发布了许多与图相关的任务。

汀丶人工智能

513 0 0

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

诸神缄默不语

|

机器学习/深度学习数据可视化算法

cs224w（图机器学习）2021冬季课程学习笔记18 Colab 4：异质图

本colab主要实现：对异质图heterogeneous graphs（有不同类的节点和边）的处理，实现heterogenous message passing，即在不同种类的节点和边之间实现不同种类的信息传递。本colab主要使用DeepSNAP类对异质图进行操作。1 DeepSNAP官方文档：DeepSNAP Documentation — DeepSNAP 0.2.0 documentation DeepSNAP官方GitHub项目：snap-stanford/deepsnap: Python library assists deep learning on graphs

诸神缄默不语

527 0 0

cs224w（图机器学习）2021冬季课程学习笔记18 Colab 4：异质图

热门文章

最新文章

选择DDOS防御的几个关键因素

对象存储 OSS图片高级压缩的功能使用及示例

阿里云RPA（机器人流程自动化）干货系列之二：认识RPA（下）

表格存储最佳实践：一种用于存储时间序列数据的表结构设计

有监督学习和无监督学习两者的区别

九爷带你了解 Memcache工作原理总结

设计模式（十一）：享元模式

软件革命所带来的挑战与风险

Sonnedix收购意大利11.2MW光伏电站产品组合

一次SSIS Package的调试经历

《深度剖析：Q-learning为何被归为无模型强化学习算法》

《深度剖析：Q-learning与策略梯度方法的本质区别》

《探秘Q-learning：解锁其背后的基本假设》

《一文读懂！Q-learning状态-动作值函数的直观理解》

《深度剖析Q-learning中的Q值：解锁智能决策的密码》

基于强化学习的专家优化系统

十大主流联邦学习框架：技术特性、架构分析与对比研究

deepseek部署的详细步骤和方法，基于Ollama获取顶级推理能力！

菜鸟之路Day10一一集合进阶（三）

GEE数据集：高分辨率真彩色影像 Red-Green-Blue (RGB) ，0.1m

相关课程

更多

AIGC文生图训练营（从理论到实践）

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

创空间应用训练个性化模型

【七月在线】机器学习项目班

南瓜书《机器学习公式推导》

【机器学习入门】台大李宏毅老师经典机器学习课程视频

相关电子书

更多

图计算专场大规模分布式图计算、学习和推理技术及创新应用论坛

典型模型-卷积神经网络入门

图计算专场—大规模分布式图计算、学习和推理技术及创新应用论

相关实验场景

更多

以电商场景为例搭建AI语义搜索应用

【图生图】一键部署3D卡通风格模型

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

一键创建和部署高分电影推荐语音技能

推荐系统入门之使用协同过滤实现商品推荐

推荐系统入门之使用ALS算法实现打分预测

下一篇

DataWorks售前咨询