PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

2025-01-23 45

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体，能够自动调用搜索引擎、阅读论文并追踪引文网络，帮助用户快速获取精准的学术文献。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：PaSa 能够自动调用搜索引擎、阅读论文并追踪引文网络，提供精准的学术文献检索。
技术：基于强化学习和大语言模型，PaSa 通过 Crawler 和 Selector 两个核心组件实现高效文献检索。
性能：在 Recall@20 和 Recall@50 指标上，PaSa 比 Google Scholar 分别提升了 37.78% 和 39.90%。

正文（附运行示例）

PaSa 是什么

pasa

PaSa 是字节跳动研究团队推出的基于强化学习的学术论文检索智能体。它能够模仿人类研究者的行为，自动调用搜索引擎、浏览相关论文并追踪引文网络，为用户提供精准、全面的学术论文检索结果。

PaSa 的核心在于其能够处理复杂的学术查询，并通过强化学习优化检索效率。它能够在两分钟内完成一次详尽的学术调研，显著提升了文献检索的速度和准确性。

PaSa 的主要功能

自主调用搜索工具：PaSa 能自动调用搜索引擎，根据用户输入的学术问题生成多样化的搜索关键词，并执行多次搜索，确保全面覆盖相关文献。
阅读和分析论文内容：通过 Crawler 和 Selector 两个核心组件，PaSa 能够高效地收集和筛选相关论文，确保检索结果的精确性。
选择相关参考文献：PaSa 能从海量文献中筛选出与用户查询最相关的参考文献，提供全面且准确的搜索结果。
支持复杂学术查询：PaSa 专为处理复杂的学术问题设计，能够理解并处理细粒度的学术查询，例如涉及特定算法或研究方法的问题。

PaSa 的技术原理

核心组件：PaSa 的核心包括两个主要的 LLM 智能体：Crawler 和 Selector。Crawler 负责通过搜索引擎收集与用户查询相关的学术论文，而 Selector 则负责精读每一篇论文，评估其是否符合用户需求。
强化学习优化：PaSa 使用强化学习（RL）和近端策略优化（PPO）算法进行训练，通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。

如何运行 PaSa

在线使用

您可以准备一份详细的学术搜索需求描述，并在 https://pasa-agent.ai 上搜索论文。

本地部署

1. 数据准备

首先，从 pasa-dataset 下载数据集并保存到 data 文件夹中。

pasa-dataset：https://huggingface.co/datasets/CarlanLark/pasa-dataset

pasa/data
├── AutoScholarQuery
│   ├── dev.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── paper_database
│   ├── cs_paper_2nd.zip
│   └── id2paper.json
├── RealScholarQuery
│   └── test.jsonl
├── sft_crawler
│   └── train.jsonl
└── sft_selector
    ├── test.jsonl
    └── train.jsonl

2. 模型准备

从 pasa-7b-crawler 和 pasa-7b-selector 下载模型检查点并保存到 checkpoints 文件夹中。

pasa-7b-crawler：https://huggingface.co/bytedance-research/pasa-7b-crawler
pasa-7b-selector：https://huggingface.co/bytedance-research/pasa-7b-selector

pasa/checkpoints
├── pasa-7b-crawler
└── pasa-7b-selector

3. 运行 PaSa

克隆并安装必要的依赖项，然后运行 PaSa。

git clone git@github.com:hyc2026/transformers.git
cd transformers
pip3 install -e .
cd ..
pip install -r requirements.txt

在 utils.py 中替换 Google Search API 密钥，然后运行以下命令：

python run_paper_agent.py

资源

在线使用：https://pasa-agent.ai/
GitHub 仓库：https://github.com/bytedance/pasa
HuggingFace 仓库：https://huggingface.co/bytedance-research/pasa-7b-crawler
arXiv 技术论文：https://arxiv.org/pdf/2501.10120

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

🚀 快速阅读

正文（附运行示例）

PaSa 是什么

PaSa 的主要功能

PaSa 的技术原理

如何运行 PaSa

在线使用

本地部署

1. 数据准备

2. 模型准备

3. 运行 PaSa

资源

自然语言处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景