打击黑灰产的利器 —— 图神经网络(GNN)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗,保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产,我们研究出了一系列算法武器,图神经网络(GNN)是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn(https://github.com/alibaba/graph-learn)进行介绍。

引言

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗,保障用户在淘宝、天猫、闲鱼等阿里巴巴相关平台上的使用体验和切身利益。面对狡猾的黑灰产,我们也研究出了一系列的算法武器,图神经网络(GNN)是其中重要的防控技术之一。GNN作为近年来新兴的技术,不仅能考虑节点本身的属性,还能同时考虑到网络结构特征,进而刻画黑灰产的关系、团伙以及产业链信息,在风控场景中取得了广泛的应用和效果增益。

将各种GNN模型应用到阿里巴巴风控场景中复杂且巨大的图结构上,是一件十分有挑战的事情,我们面临的图结构往往有着以下两个特点:
• 高度异构:节点和边都丰富多样
• 数据规模巨大:很多图结构都是亿级节点、数十亿甚至上百亿的边

业务场景

为了应对复杂且超大规模的图数据结构,我们和计算平台PAI团队以及搜索推荐事业部合作,共同开发了超大规模分布式图神经网络框架 graph-learn(原AliGraph),并将graph-learn应用在安全防控的各个环节之中,取得了良好的效果,下面重点介绍几个GNN的风控落地场景。

垃圾注册识别

淘宝每天新注册的用户中,正常用户占绝大多数,但也有许多黑灰产用户伪装成正常用户,企图获取一个账号从而进行刷单、垃圾评论等等活动,我们称这些账户为“垃圾账户”。“垃圾账户”如果注册通过,就可能从事各种危害活动,因此在注册时将其识别并删除非常有必要。我们通过手机号,设备信息,ip地址等多种关系构建账户与账户之间的连接关系,基于 graph-learn 构建账户和账户之间的同构图以刻画账户的新表征,垃圾注册图模型目前线上已稳定运行近1年,相比于单纯使用账户的特征,每日额外识别10-15%的垃圾账号,保持着相当高的识别准确率。

淘系假货识别

阿里巴巴对于知识产权的保护一直都在进行大量的努力,也取得了十分显著的成果。但是仍然有极少部分卖家在淘宝上售卖假货商品,这一直是我们深恶痛绝的。为此,除了应用假货商品本身的特征以外,我们仔细甄别了假货商品和售假卖家之间的多种关系,比如售假卖家之间的团伙关系,物流等产业链关系,并且通过这些关系构建商家-商品之间的异构图,基于graph-learn开发的淘宝假货图模型目前已在服饰类、鞋类、首饰等诸多大类中落地,相比于直接使用商品、商家的特征信息,图模型能够额外识别10%以上的假货商品。

闲鱼垃圾评论识别

闲鱼是目前国内最大的二手商品交易平台,买卖家可以在商品下面评论进行沟通和询问,但其中也有黑灰产会在商品下面留下一些涉嫌广告、欺诈、假货甚至违禁的评论,影响了用户的使用体验,也给用户带来了风险。为了识别闲鱼上的垃圾评论,我们结合业务特点,自主设计了基于异构图卷积网络的反垃圾系统-GAS,相对于单节点的深度模型,能够在同样准确率情况下获得16%的覆盖率提升,同时我们将该项目中的方法进行总结,所著文章《Spam Review Detection with Graph Convolutional Networks》发表在信息检索领域顶级会议CIKM2019上,并斩获最佳应用论文奖。

11

恶意评价识别

恶意评价包括评价要挟,同行攻击和虚假评价等多种类型,在淘宝平台上一直是困扰商家的主要问题之一。和传统图模型相比,异构图神经网络通过聚合不同子图的方式消除主观上对强弱边的判断,能够通过图间融合的方式融合不同强度的边信息。在淘系恶意评价的场景上,基于graph-learn 开发的恶意评价图模型优化了整体数据准备流程,提高训练效率,上线后已稳定运行近半年,日均额外识别7%以上的恶意评价,优化了商家的营商体验。

“职业吃货”行为识别

淘宝平台上还有一部分“职业吃货”存在,他们在淘宝、饿了吗等平台疯狂下单,收货后却立即申请“仅退款”而拒不退货,继而以职业投诉等方式威逼商家妥协,这就是典型的“职业吃货”行为。对这种滥用淘宝会员权利,损害平台正常运营秩序的人,我们通过各种媒介关系基于graph-learn构建“职业吃货”图模型,相对于GBDT的传统模型,“职业吃货”图模型在相同准确率的情况下,额外识别了15%的恶意买家,保障了商家在平台上的权益。

风控领域的应用很广阔,阿里也希望有更多关注图神经网络、自监督学习或其他算法方向的人才能共同探索这些技术在风控场景中的应用。如果你有至少一篇高质量机器学习算法一作论文,在图卷积网络和自监督深度学习有深入研究或非常感兴趣,阿里现在也招聘实习生和正式研究者(三年以上 ML 经验),感兴趣的读者可联系 shiping@alibaba-inc.com。

开源项目地址: https://github.com/alibaba/graph-learn
本文作者:秦州

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
【2月更文挑战第17天】ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
206 2
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer 能代替图神经网络吗?
Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
119 5
|
5月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
85 5
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
5月前
|
机器学习/深度学习 编解码 数据可视化
图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
198 0
|
6月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:图神经网络(GNN)
使用Python实现深度学习模型:图神经网络(GNN)
333 1
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【传知代码】图神经网络长对话理解-论文复现
在ACL2023会议上发表的论文《使用带有辅助跨模态交互的关系时态图神经网络进行对话理解》提出了一种新方法,名为correct,用于多模态情感识别。correct框架通过全局和局部上下文信息捕捉对话情感,同时有效处理跨模态交互和时间依赖。模型利用图神经网络结构,通过构建图来表示对话中的交互和时间关系,提高了情感预测的准确性。在IEMOCAP和CMU-MOSEI数据集上的实验结果证明了correct的有效性。源码和更多细节可在文章链接提供的附件中获取。
【传知代码】图神经网络长对话理解-论文复现
|
6月前
|
机器学习/深度学习 搜索推荐 PyTorch
【机器学习】图神经网络:深度解析图神经网络的基本构成和原理以及关键技术
【机器学习】图神经网络:深度解析图神经网络的基本构成和原理以及关键技术
1271 2
|
7月前
|
机器学习/深度学习 JSON PyTorch
图神经网络入门示例:使用PyTorch Geometric 进行节点分类
本文介绍了如何使用PyTorch处理同构图数据进行节点分类。首先,数据集来自Facebook Large Page-Page Network,包含22,470个页面,分为四类,具有不同大小的特征向量。为训练神经网络,需创建PyTorch Data对象,涉及读取CSV和JSON文件,处理不一致的特征向量大小并进行归一化。接着,加载边数据以构建图。通过`Data`对象创建同构图,之后数据被分为70%训练集和30%测试集。训练了两种模型:MLP和GCN。GCN在测试集上实现了80%的准确率,优于MLP的46%,展示了利用图信息的优势。
101 1
|
7月前
|
机器学习/深度学习 数据挖掘 算法框架/工具
想要了解图或图神经网络?没有比看论文更好的方式,面试阿里国际站运营一般会问什么
想要了解图或图神经网络?没有比看论文更好的方式,面试阿里国际站运营一般会问什么