❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:CHRONOS 支持开放域与封闭域的时间线摘要生成,适用于新闻、金融、教育等多个领域。
- 技术:基于迭代自问自答机制,结合大型语言模型(LLMs)和问题重写技术,生成连贯的时间线摘要。
- 应用:广泛应用于新闻报道整理、金融事件追踪、政策分析等场景,帮助用户快速理解事件发展脉络。
正文(附运行示例)
CHRONOS 是什么
CHRONOS 是由上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的时间线摘要生成框架。该框架基于迭代自问自答的方式,利用大型语言模型(LLMs)构建开放域和封闭域的时间线。CHRONOS 通过生成与新闻主题相关的 5W1H 问题,检索相关信息,逐步扩展新闻数据库,最终生成连贯的事件摘要。
CHRONOS 在实验中表现出色,能够有效处理信息过载和数据噪声问题,适用于大规模新闻数据的时间线生成任务。其核心优势在于能够通过问题重写机制提高搜索精度,并采用分而治之的策略生成并合并时间线。
CHRONOS 的主要功能
- 新闻时间线生成:从大量新闻文档中提取关键事件,按照时间顺序生成连贯的时间线摘要。
- 开放域和封闭域支持:支持从互联网直接检索新闻生成时间线,也支持在预定义的新闻集中构建时间线。
- 迭代自问自答:通过不断提出与新闻主题相关的问题,逐步扩展和丰富时间线内容,确保信息的全面性和准确性。
- 问题重写与优化:将复杂问题分解为更具体的查询,提高搜索的精确性和效率,获取更相关的信息。
- 数据集支持:引入 Open-TLS 数据集,提供丰富的新闻时间线样本,用于训练和评估模型性能。
CHRONOS 的技术原理
- 基于检索的生成:通过检索外部知识源(如互联网或预定义的新闻集)增强语言模型的生成能力,解决信息过载和数据噪声问题。
- 迭代自问自答机制:模拟人类信息检索过程,生成 5W1H 问题,逐步深入挖掘与新闻主题相关的事件信息,构建事件之间的因果关系图。
- 问题重写技术:利用 LLMs 对复杂问题进行分解和重写,生成更具体、更易于检索的查询,提高检索结果的相关性和准确性。
- 分而治之的策略:将时间线生成任务分解为多个子任务,分别从每一轮检索中生成单独的时间线,通过合并和冲突解决等步骤,生成最终的连贯时间线摘要。
- 大型语言模型(LLMs):作为核心工具,用于理解文本、生成高质量的摘要和问题,并进行有效的信息检索和整合。
如何运行 CHRONOS
1. 安装依赖
首先,确保你已经安装了所有必要的依赖项。可以通过以下命令安装:
pip install -r requirements.txt
2. 生成示例问题
接下来,生成与主题相关的问题示例。运行以下命令:
python question_exampler.py
你也可以使用我们提供的 data/question_examples.json
文件,其中包含了针对 crisis, T17 和 Open-TLS 数据集的示例问题。
3. 运行 CHRONOS
运行 CHRONOS 框架,生成时间线摘要。具体命令如下:
python chronos.py
资源
- GitHub 仓库:https://github.com/Alibaba-NLP/CHRONOS
- arXiv 技术论文:https://arxiv.org/pdf/2501.00888
- 中文 Web Demo:https://modelscope.cn/studios/vickywu1022/CHRONOS
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦