❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:PaSa 能够自动调用搜索引擎、阅读论文并追踪引文网络,提供精准的学术文献检索。
- 技术:基于强化学习和大语言模型,PaSa 通过 Crawler 和 Selector 两个核心组件实现高效文献检索。
- 性能:在 Recall@20 和 Recall@50 指标上,PaSa 比 Google Scholar 分别提升了 37.78% 和 39.90%。
正文(附运行示例)
PaSa 是什么
PaSa 是字节跳动研究团队推出的基于强化学习的学术论文检索智能体。它能够模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提供精准、全面的学术论文检索结果。
PaSa 的核心在于其能够处理复杂的学术查询,并通过强化学习优化检索效率。它能够在两分钟内完成一次详尽的学术调研,显著提升了文献检索的速度和准确性。
PaSa 的主要功能
- 自主调用搜索工具:PaSa 能自动调用搜索引擎,根据用户输入的学术问题生成多样化的搜索关键词,并执行多次搜索,确保全面覆盖相关文献。
- 阅读和分析论文内容:通过 Crawler 和 Selector 两个核心组件,PaSa 能够高效地收集和筛选相关论文,确保检索结果的精确性。
- 选择相关参考文献:PaSa 能从海量文献中筛选出与用户查询最相关的参考文献,提供全面且准确的搜索结果。
- 支持复杂学术查询:PaSa 专为处理复杂的学术问题设计,能够理解并处理细粒度的学术查询,例如涉及特定算法或研究方法的问题。
PaSa 的技术原理
- 核心组件:PaSa 的核心包括两个主要的 LLM 智能体:Crawler 和 Selector。Crawler 负责通过搜索引擎收集与用户查询相关的学术论文,而 Selector 则负责精读每一篇论文,评估其是否符合用户需求。
- 强化学习优化:PaSa 使用强化学习(RL)和近端策略优化(PPO)算法进行训练,通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。
如何运行 PaSa
在线使用
您可以准备一份详细的学术搜索需求描述,并在 https://pasa-agent.ai 上搜索论文。
本地部署
1. 数据准备
首先,从 pasa-dataset 下载数据集并保存到 data
文件夹中。
pasa/data
├── AutoScholarQuery
│ ├── dev.jsonl
│ ├── test.jsonl
│ └── train.jsonl
├── paper_database
│ ├── cs_paper_2nd.zip
│ └── id2paper.json
├── RealScholarQuery
│ └── test.jsonl
├── sft_crawler
│ └── train.jsonl
└── sft_selector
├── test.jsonl
└── train.jsonl
2. 模型准备
从 pasa-7b-crawler 和 pasa-7b-selector 下载模型检查点并保存到 checkpoints
文件夹中。
- pasa-7b-crawler:https://huggingface.co/bytedance-research/pasa-7b-crawler
- pasa-7b-selector:https://huggingface.co/bytedance-research/pasa-7b-selector
pasa/checkpoints
├── pasa-7b-crawler
└── pasa-7b-selector
3. 运行 PaSa
克隆并安装必要的依赖项,然后运行 PaSa。
git clone git@github.com:hyc2026/transformers.git
cd transformers
pip3 install -e .
cd ..
pip install -r requirements.txt
在 utils.py
中替换 Google Search API 密钥,然后运行以下命令:
python run_paper_agent.py
资源
- 在线使用:https://pasa-agent.ai/
- GitHub 仓库:https://github.com/bytedance/pasa
- HuggingFace 仓库:https://huggingface.co/bytedance-research/pasa-7b-crawler
- arXiv 技术论文:https://arxiv.org/pdf/2501.10120
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦