服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

简介: 瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。


研究表明金融市场对于新闻事件的反应具有滞后性,并且相同事件对不同股票在不同时间段内的影响程度都是有差异的。如何将富含信息量的新闻事件融合进量化投资模型中是工业界与学术界面临的共同挑战。针对上述问题,瞰点科技与上海交大研究团队共同研发了基于知识图谱的事件表征框架来服务于量化投资模型策略。该成果发表于 ACM SIGIR 中,由于在表征中嵌入了金融领域知识图谱,所以使用上述表征构建的投资策略在真实股票市场中获得了良好的收益表现。

微信图片_20211206105543.jpg

简介


金融市场的价格波动是对新闻和事件的一种反应。通常来说,从海量新闻中获取有效的事件表征能辅助投资者采取更合理的决策。近年来,一些研究开始应用自然语言处理(NLP)技术来学习新闻事件的分布式表征并基于此构建事件驱动的交易策略。

经典方法(例如 bags-of-words、命名实体)可以捕获事件元组中的基础特征,但是这些特征并没有反应事件之间的内在关系。随着表征学习和 NLP 技术的发展,研究者开始利用深度学习等技术来表征结构化事件,这样相似的事件即可以在特征空间中更加接近。然而股票的价格波动不仅取决于其自身的情况,与其关联的企业所涉及的事件也高度相关。因此,如何从这种彼此关联的事件信息中学习有效表征是量化投资领域的重要课题。

微信图片_20211206105601.jpg


论文地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,我们称之为 Knowledge Graph-based Event Embedding Framework(KGEEF)。该框架首先从原始新闻文本中提取结构关系和事件元组,将关系知识和属性知识存储在金融知识图谱(FinKG)中,其中节点表示实体,边对应实体之间的关系。随后,KGEEF 将知识图谱与事件一起学习联合表征,用于后续量化投资预测模型。最后,通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

模型和方法

微信图片_20211206105605.jpg

图 KGEEF 框架


本文提出的方法主要包含三层:

1)多源输入层:将原始文本转换为事件元组(Event Tuple)、关系元组(Relation Tuple)和知识图谱(FinKG)。本文使用序列学习模型来检测新闻文本中的实体关系,然后将检测出的实体关系存储在知识图谱中。

2)事件表征学习层:将预训练的事件元组、关系元组和节点在知识图谱中的表征作为输入,得到事件层(Event Layer)、图谱层(Graph Layer)、关系层(Relation Layer)的中间特征。随后使用 Multi-source Attention 网络学习多个来源的共同特征作为输出。

3)检测与优化层:以实体、事件和图谱特征为输入,学习其是一个真实事件或关系的可能性,并且采用事件损失和关系损失联合优化的方法对模型进行训练。

微信图片_20211206105609.jpg

图 量化投资事件表征工作流


上图展示了量化投资事件表征的工作流程,主要包含四个模块:

  • 历史语料库图谱建设模块(KG Construction):通过关系检测模型从原始新闻语料库生成实体关系。如果检测到关系,则在知识图谱中储存下来。
  • 事件表征学习模块(Event Presentation Learning):该模块以事件和知识图谱作为输入,生成训练好的模型以及相应的表征词典。
  • 新事件处理模块(New Event Process):从新闻数据中提取事件元组,然后利用构建的知识图谱和表征词典获得相应事件和实体的特征。
  • 量化投资模块(Quantitative Investment):以事件和图谱的联合特征作为输入,输出用于量化投资的预测推断。


实验
最后,该研究通过实验来评估 KGEEF 的有效性,下表中展示了事件相似度评价和量化投资任务中事件表征的有效性实验结果。

微信图片_20211206105613.jpg

表 事件表征相似度任务结果


KGEEF 框架同时也部署到了新闻资讯平台的微信小程序中,下图展示了其运行的效果。

微信图片_20211206105616.jpg

图 模型在移动程序的部署


图 (a) 显示了聚合之后的热点新闻事件。图 (b) 展示了中国石油天然气集团公司 (CBPC: 601857) 的价格以及模型抽取出的相应事件。在相关事件视图(c)中,该研究的模型同时抽取出了关于塔里木油田 (上游工厂)、中国海洋石油总公司(竞争对手) 和熔喷布 (石化工业下游产品) 需求增加的消息。该例子展示了本文提出的模型在事件自动抽取和表征方面的有效性。

结论


金融事件的高质量表征对于事件驱动的量化投资具有重要价值。在本文中,瞰点科技研究团队提出了基于知识图谱的事件表征框架,用于学习金融领域中的事件和实体间的内在关系,例如产业链上下游关系。并且通过实验验证了所提出的方法在金融事件检测、量化投资策略构建等方面的有效性。

微信图片_20211206105620.jpg


参考文献[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

相关文章
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
52 4
|
机器学习/深度学习 人工智能 自然语言处理
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链(1)
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链
133 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链(2)
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链
117 0
|
机器学习/深度学习 存储 达摩院
达摩院创新三维算法,论文成果入选顶会CVPR 2022
达摩院创新三维算法,论文成果入选顶会CVPR 2022
167 0
|
机器学习/深度学习 存储 人工智能
NeurIPS 2022 | 中山大学HCP实验室在AIGC领域的新突破:有效表示多样化衣物的3D神经表示模型
NeurIPS 2022 | 中山大学HCP实验室在AIGC领域的新突破:有效表示多样化衣物的3D神经表示模型
123 0
|
机器学习/深度学习 算法 数据可视化
上海交大团队使用联合深度学习优化代谢组学研究
上海交大团队使用联合深度学习优化代谢组学研究
217 0
|
编解码 人工智能 监控
CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架
CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架
157 0
|
存储 机器学习/深度学习 编解码
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
430 0
|
机器学习/深度学习 人工智能 安全
不满复工政策,苹果机器学习总监辞职,疯狂的 AI 天才 29 岁提出 GAN 模型
美国当地时间 5 月 7 日,有消息称苹果机器学习总监 Ian Goodfellow 宣布辞职,离开了加入三年的苹果公司,而后 Goodfellow 在一封发给员工的电子邮件中确认这一消息。虽然并不清楚 Goodfellow 的主要离职原因,但他在邮件中提到了自己对复工计划的一些不满看法。
167 0
|
机器学习/深度学习 人工智能 编解码
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒
走进今年 CVPR 的工业展区,映入眼帘的是熟悉的 MEGVII 字眼和以蓝色为主基调的展位,蓝白相间的 booth roof 甚是亮眼,这多少让记者有些惊讶。旷视,这家来自中国的计算机视觉独角兽公司,竟然「霸占」了全世界顶尖学术会议的 C 位。
239 0
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒
下一篇
无影云桌面