HGAT:假新闻检测的分层图注意力网络

简介: HGAT:假新闻检测的分层图注意力网络

论文标题:HGAT: Hierarchical Graph Attention Network for Fake News Detection


论文链接:https://arxiv.org/abs/2002.04397


论文来源:arXiv


一、概述


为了更有效地检测假新闻,有必要从不同的角度挖掘有意义的信息,而不是仅仅关注新闻内容。事实上,假新闻并不是以文章的形式独立存在的,网络社交媒体与新闻文章相关的新闻创作者(creators)和新闻主题(subjects)与文章共存。这些新闻创作者和新闻主题能够以一个更全面的视角描述新闻,以帮助我们能够更彻底地剔除假新闻。具体来说,对于新闻创作者,我们可以收集个人资料等补充知识。对于新闻主题,可以收集背景知识等相关信息来支持新闻检测。


新闻文章和其他相关部分可以建模为异构信息网络(heterogeneous information network,HIN)。HIN具有较强的表达丰富信息的能力,本文将假新闻检测问题描述为HIN中的节点分类问题。下图给出了一个面向新闻的异构信息网络(News-HIN)的示例:


5_5Z121~Q]58{281PY)RC}8.png

                                          News-HIN


基于HIN的假新闻检测问题的主要挑战在于以下3点:


①Hierarchy,异构网络中的表示学习是一个多层次的工作,因为节点内容的信息和模式(schema)的信息包含在不同的层次上;


②Heterogeneity,存在与新闻文章相关的各种类型的异构信息,统一学习HIN中的有效节点表示并不是一件容易的事情;


③Generalizability,为了保证所提出的模型对不同类型HIN的适用性,我们需要提出一个可扩展到各种学习设置的通用学习模型。


为了解决上述挑战,本文提出了HGAT来检测假新闻。HGAT包含两层attention机制,首先进行节点level的attention,将节点邻域内同一种类型的节点聚合成schema节点,然后进行schema-level的attention来聚合schema节点表示,最终使用学习到的表示进行假新闻检测。


二、概念


  1. 术语定义


C~[D1IH7IRE_LZKRDO7_{~M.png

  1. 问题定义


TYN(ZJ4O(6%N7U`G4M59HRP.png


三、方法


图注意力网络GAT参考链接:图注意力网络


HGAT包括node-level和scheme-level两层attention,架构图如下:


NPQ~DQ5_C73(O[1%$}HC7J4.png

                                                     HGAT


  1. Node-level attention


Node-level attention能够学习每个News Article的邻域内同一类型的节点的重要性并且聚合这些邻域节点表示成一个集成表示作为一个schema节点。Node-level attention的输入为节点的初始特征向量(文本采用TF-IDF编码)。因为News-HIN中存在多种类型的节点,因而初始节点特征向量属于不同维度的特征空间,因此需要使用对特征向量进行维度转换,这里对不同类型的节点的特征向量进行维度转换采用的是不同的转换矩阵。具体过程如下:


IG}612B7D%7(726%4EHIDNN.png

B8`U1X(W]8H4GDU2@)A@G39.png


  1. Schema-level attention


通过node-level attention,我们将News Article节点的邻域聚合为几个schema节点。从本质上讲,它相当于将来自相同类型的邻域节点的信息融合到schema节点的表示中。接下来要做的是通过schema节点的表示来学习News Article节点的表示。不同的schema节点包含类型信息,这要求我们区分节点类型的重要性。这里我们采用schema-level attention来自动学习schema node的重要性,最终使用学习到的重要性权重来融合schema节点表示。


${)F2F2GJ5Z51@59NWW]EW7.png

下图展示了两层attention的过程:


P@@POFXY51RX@~{I}UO8N9E.png

                                  两层attention


  1. 损失函数


最后就是采用一个分类器来对每个News Article节点表示8{VX7SDAZK~AW_KZW5AZR[Y.png进行分类。损失函数采用交叉熵损失函数,二分类就是用binary的交叉熵损失。


整个HGAT的算法如下:


{BHF_~873G[1VNS%_I8_F$3.png

                                          HGAT


四、实验


数据集采用PolitiFact数据集。对于新闻报道,PolitiFact在网站上提供了原始内容、事实核查结果和全面的事实核查报告。平台根据内容将它们分类为不同的主题和话题(也就是本文中的subject)。每篇文章的标注为{True, Mostly True, Half True, Mostly False, False, Pants on Fire!}之一,可以用来进行多分类以及二分类,本文进行了多分类和二分类实验。二分类时{True, Mostly True, Half True}作为一类,{Mostly False, False, Pants on Fire!}作为一类。数据集统计情况如下:


8AKXP%QTI6VHKTYRN6GY_~U.png

                                                数据集


二分类实验结果:


UO(}8S13DH0~CYUDWNCC$%K.png

                                                      二分类实验结果


多分类实验结果:


FDZ9`JSUO{~2@%)QUPXVQ8E.png

                                           多分类实验结果


对比是否去除schema-level attention的结果(去除的方式是将schema-level attention的权重设置为{`RFWXZ3J40ACX8]}1LG6Q1.png):


A3`ZA`)IF2_9R03X(9H2~6Y.png

                                                  消融实验

相关文章
|
2月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
558 0
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
23天前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
94 5
|
1月前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
61 7
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
3月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。
|
3月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
269 5
|
2月前
|
运维 安全 网络协议
Python 网络编程:端口检测与IP解析
本文介绍了使用Python进行网络编程的两个重要技能:检查端口状态和根据IP地址解析主机名。通过`socket`库实现端口扫描和主机名解析的功能,并提供了详细的示例代码。文章最后还展示了如何整合这两部分代码,实现一个简单的命令行端口扫描器,适用于网络故障排查和安全审计。
48 0
|
4月前
|
机器学习/深度学习 运维 监控
|
4月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
103 0