Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case

简介: Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case

1. Background & Motivation


有监督学习方法不适用于法律文书相似性任务,因为没有足够的标记数据。

法律文书相似性没有严格定义,主要靠专家。法律文书相似性问题需要可解释性。

法律文档相似性任务常用基于文本和基于网络的两种方法。

基于文本:Measuring Similarity among Legal Court Case Documents

基于网络:4和5

hybrid:Finding Similar Legal Judgements under Common Law System

模型原理:引用相同法条或先例,或引用不同法条或先例、但在网络结构上相似的文档相似。

普通法系的法律知识来源有两部分:成文法和先例。

image.png

image.png


以前的基于网络的相似度计算方法仅考虑案例文书之间援引关系形成的 precedent citation network (PCNet),这会导致一个重要的法律知识来源丢失:法条的层级关系。

以前的PCNet用以衡量法律文档相似性的指标:

  1. Bibliographic Coupling4:precedent citations (out-citations)集合的Jaccard similarity index
  2. Co-citation4: 类似Bibliographic Coupling,但是用in-citations
  3. Dispersion5:衡量文档的out-neighbours (out-citation documents)的相似性,即是否存在于同一社区/簇中。NetworkX最新版的实现函数:https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.centrality.dispersion.html(我没看懂,如果需要的话我再仔细了解吧)


2. Hier-SPCNet 图的构建


全称:Hierarchical Statute and Precedent Citation Network

image.png

节点:

案例

法条(5种)

关系:

文书引用法条(可以引用任一级别的法条)

文书互引

法条互引

法条之间存在层级关系(这个类似LeSICiN的,但是有点区别):Act → Part → Chapter → Topic → Section/Article(不一定每个都有所有级别)


3. 节点的表征


node2vec1:通过随机游走(BFS或DFS)生成节点表征。

实现工具是aditya-grover/node2vec,128维,其他超参都是默认值。

由于node2vec假设网络同质,因此Hier-SPCNet也被视作同质图来处理。

metapath2vec2:基于user-defined metapaths

本文定义了14个以文书为起始的metapath,与法系相关。metapath邻居关系暗示某种相似性。

实现工具是stellargraph · PyPI

跟LeSICiN类似,Hier-SPCNet中的metapath也是起始都是同一类节点。但是本文就是只需要做文书表征来着

然后最离谱的是这里省略了10种metapath的定义,我真是无语了!


4. 实验


4.1 数据集

数据收集自印度最高法院,爬取自Thomson Reuters Westlaw India,仅使用了公开数据。

从文本中抽取引用关系:基于正则表达式的模式,如 < [section or article number] of the [Act] >

共有1806个案例文书,128个acts(及其层级结构,至少被一个文书引用)。Hier-SPCNet中共有22566个节点,31309条边。PCNet中有同样的1806个案例文书节点和542条引用边。

文书相似性标签是专家标注的100对文书,细节略。


4.2 主实验结果

评估指标是皮尔逊相关系数。

image.png

co-citation的值相同是因为in-citations相同(因为法条不会引用文书)。

其他分析略。

image.png

average和max分别是对两种相似性得分求平均或最大值


5. 代码复现


等我服务器好了再说。

相关文章
|
5月前
|
移动开发 算法 数据挖掘
【博士每天一篇文献-算法】Extending stability through hierarchical clusters in Echo State Networks
本文研究了在回声状态网络(ESN)中引入分层聚类结构对网络稳定性的影响,发现通过调整簇内和簇间的连接性及每个簇的主干单元数量,可以扩展谱半径的稳定范围,从而提高网络的稳定性和性能。
45 2
|
3月前
|
算法 数据挖掘 数据处理
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。
35 2
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
|
5月前
|
机器学习/深度学习 编解码 算法
【文献学习】Model-Driven Channel Estimation for OFDM Systems Based on Image SuperResolution Network
本文介绍了一种基于图像超分辨率网络的OFDM系统模型驱动信道估计算法,通过结合最小二乘法和深度学习技术来提高信道估计的准确性。
49 6
|
机器学习/深度学习 自然语言处理 算法
Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读
先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。
109 0
|
机器学习/深度学习 编解码 文字识别
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images(一)
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images
162 0
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images(一)
|
机器学习/深度学习 编解码 文字识别
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images(二)
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images
219 0
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images(二)
《Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition》电子版地址
Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition
111 0
《Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition》电子版地址
|
搜索推荐 PyTorch 算法框架/工具
Re30:读论文 LegalGNN: Legal Information Enhanced Graph Neural Network for Recommendation
Re30:读论文 LegalGNN: Legal Information Enhanced Graph Neural Network for Recommendation
Re30:读论文 LegalGNN: Legal Information Enhanced Graph Neural Network for Recommendation
|
机器学习/深度学习 自然语言处理 PyTorch
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
|
机器学习/深度学习 计算机视觉
Re14:读论文 ILLSI Interpretable Low-Resource Legal Decision Making
Re14:读论文 ILLSI Interpretable Low-Resource Legal Decision Making
Re14:读论文 ILLSI Interpretable Low-Resource Legal Decision Making