服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

简介: 瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。


研究表明金融市场对于新闻事件的反应具有滞后性,并且相同事件对不同股票在不同时间段内的影响程度都是有差异的。如何将富含信息量的新闻事件融合进量化投资模型中是工业界与学术界面临的共同挑战。针对上述问题,瞰点科技与上海交大研究团队共同研发了基于知识图谱的事件表征框架来服务于量化投资模型策略。该成果发表于 ACM SIGIR 中,由于在表征中嵌入了金融领域知识图谱,所以使用上述表征构建的投资策略在真实股票市场中获得了良好的收益表现。

微信图片_20211206105543.jpg

简介


金融市场的价格波动是对新闻和事件的一种反应。通常来说,从海量新闻中获取有效的事件表征能辅助投资者采取更合理的决策。近年来,一些研究开始应用自然语言处理(NLP)技术来学习新闻事件的分布式表征并基于此构建事件驱动的交易策略。

经典方法(例如 bags-of-words、命名实体)可以捕获事件元组中的基础特征,但是这些特征并没有反应事件之间的内在关系。随着表征学习和 NLP 技术的发展,研究者开始利用深度学习等技术来表征结构化事件,这样相似的事件即可以在特征空间中更加接近。然而股票的价格波动不仅取决于其自身的情况,与其关联的企业所涉及的事件也高度相关。因此,如何从这种彼此关联的事件信息中学习有效表征是量化投资领域的重要课题。

微信图片_20211206105601.jpg


论文地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,我们称之为 Knowledge Graph-based Event Embedding Framework(KGEEF)。该框架首先从原始新闻文本中提取结构关系和事件元组,将关系知识和属性知识存储在金融知识图谱(FinKG)中,其中节点表示实体,边对应实体之间的关系。随后,KGEEF 将知识图谱与事件一起学习联合表征,用于后续量化投资预测模型。最后,通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

模型和方法

微信图片_20211206105605.jpg

图 KGEEF 框架


本文提出的方法主要包含三层:

1)多源输入层:将原始文本转换为事件元组(Event Tuple)、关系元组(Relation Tuple)和知识图谱(FinKG)。本文使用序列学习模型来检测新闻文本中的实体关系,然后将检测出的实体关系存储在知识图谱中。

2)事件表征学习层:将预训练的事件元组、关系元组和节点在知识图谱中的表征作为输入,得到事件层(Event Layer)、图谱层(Graph Layer)、关系层(Relation Layer)的中间特征。随后使用 Multi-source Attention 网络学习多个来源的共同特征作为输出。

3)检测与优化层:以实体、事件和图谱特征为输入,学习其是一个真实事件或关系的可能性,并且采用事件损失和关系损失联合优化的方法对模型进行训练。

微信图片_20211206105609.jpg

图 量化投资事件表征工作流


上图展示了量化投资事件表征的工作流程,主要包含四个模块:

  • 历史语料库图谱建设模块(KG Construction):通过关系检测模型从原始新闻语料库生成实体关系。如果检测到关系,则在知识图谱中储存下来。
  • 事件表征学习模块(Event Presentation Learning):该模块以事件和知识图谱作为输入,生成训练好的模型以及相应的表征词典。
  • 新事件处理模块(New Event Process):从新闻数据中提取事件元组,然后利用构建的知识图谱和表征词典获得相应事件和实体的特征。
  • 量化投资模块(Quantitative Investment):以事件和图谱的联合特征作为输入,输出用于量化投资的预测推断。


实验
最后,该研究通过实验来评估 KGEEF 的有效性,下表中展示了事件相似度评价和量化投资任务中事件表征的有效性实验结果。

微信图片_20211206105613.jpg

表 事件表征相似度任务结果


KGEEF 框架同时也部署到了新闻资讯平台的微信小程序中,下图展示了其运行的效果。

微信图片_20211206105616.jpg

图 模型在移动程序的部署


图 (a) 显示了聚合之后的热点新闻事件。图 (b) 展示了中国石油天然气集团公司 (CBPC: 601857) 的价格以及模型抽取出的相应事件。在相关事件视图(c)中,该研究的模型同时抽取出了关于塔里木油田 (上游工厂)、中国海洋石油总公司(竞争对手) 和熔喷布 (石化工业下游产品) 需求增加的消息。该例子展示了本文提出的模型在事件自动抽取和表征方面的有效性。

结论


金融事件的高质量表征对于事件驱动的量化投资具有重要价值。在本文中,瞰点科技研究团队提出了基于知识图谱的事件表征框架,用于学习金融领域中的事件和实体间的内在关系,例如产业链上下游关系。并且通过实验验证了所提出的方法在金融事件检测、量化投资策略构建等方面的有效性。

微信图片_20211206105620.jpg


参考文献[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

相关文章
|
JavaScript Java 关系型数据库
Springboot+vue的开放性实验室管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。
Springboot+vue的开放性实验室管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。
|
2月前
|
人工智能 自然语言处理 机器人
2025年度最具影响力AI副业变现榜单:十大达人深度解析
2025年AI深度赋能商业,十位标杆人物引领副业变现新潮。武彬以AIGC+电商降本90%居首,王兴兴、姜大昕等聚焦机器人与大模型,龍新远、数字人博主等则掘金情感与教育赛道,揭示技术普惠与场景融合的爆发潜力。(238字)
887 2
|
数据采集 前端开发 API
基于Qwen2大模型实现的中药智能化筛选助手
本文介绍了利用大语言模型微调技术在中药方剂智能化筛选与优化中的应用。项目涵盖微调环境搭建、数据预处理、智能体构建及效果评估等环节,展示了模型在生成新中药方剂上的创新能力和实用性。
基于Qwen2大模型实现的中药智能化筛选助手
|
10月前
|
Web App开发 存储 人工智能
3D/XR线上展厅实时云渲染平台搭建方案
在数字化浪潮下,传统3D展厅面临高成本、维护难、兼容性差等问题。实时云渲染技术革新展览展示行业,通过云端渲染和超低延迟视频流推送,用户可使用XR设备沉浸式体验云展厅。结合VR/AR/AI技术,提供智能导览、展品推荐等功能,分析观众行为数据优化展览内容。该方案支持多平台访问,已在杭州亚运会等大型活动应用,极大降低参会门槛,提升传播和营销效果。平行云的实时云渲染技术支持低成本搭建在线展览平台,助力实现一机逛遍博物馆的美好愿景。
|
12月前
|
数据采集 自然语言处理 NoSQL
Qwen for Tugraph:自然语言至图查询语言翻译大模型微调最佳实践
在图数据库的应用场景中,自然语言至图查询语言的高效转换一直是行业中的重要挑战。本次实践基于阿里云 Qwen 大模型,围绕 TuGraph 图数据库的需求,探索并验证了一套高效的大模型微调方案,显著提升了模型生成 Cypher 查询语句的能力。通过数据清洗、两阶段微调方法以及两模型推理框架等一系列创新策略,我们成功解决了图查询语言翻译任务中的核心问题。本文将从背景与目标、数据准备与清洗、微调框架设计、Prompt设计与优化、模型推理、最佳实践效果以及前景展望等六个部分出发,向读者逐步介绍我们的方案。
|
设计模式 数据可视化 Java
如何在 IDEA 中设置类路径
在 IntelliJ IDEA 中设置类路径,可以通过项目结构配置或模块设置来添加所需的库和依赖。具体步骤包括打开项目结构对话框、选择模块、添加类路径等。
2157 18
为您的网站添加通用网站底部美化代码
为您的网站添加通用网站底部美化代码
429 1
为您的网站添加通用网站底部美化代码
ly~
|
监控 安全 生物认证
针对身份验证错误和漏洞,有哪些应急响应措施 发消息、输入 @ 或 / 选择技能
针对身份验证错误和漏洞,应立即停止相关服务,锁定受攻击账户,排查问题,修复漏洞,加强密码安全,完善身份验证流程,强化会话管理,建立安全监控和预警机制,通知用户并进行沟通,最后进行事后评估和总结。
ly~
551 2
|
Java Maven
Mac安装Maven(图文解说详细版)
Mac安装Maven(图文解说详细版)
Mac安装Maven(图文解说详细版)
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
1158 2