WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具

简介: WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:WebWalker通过多智能体框架和垂直探索策略,帮助模型处理长上下文信息。
  2. 数据集:提供WebWalkerQA数据集,包含680个多语言、多领域的查询,用于测试模型性能。
  3. 应用:适用于智能信息检索、多源信息整合、数据收集与分析等场景。

正文(附运行示例)

WebWalker 是什么

webwalker-overall

WebWalker是阿里巴巴自然语言处理团队开发的工具,旨在评估和提升大型语言模型(LLMs)在网页浏览任务中的性能。通过模拟网页导航任务,WebWalker帮助模型更好地处理长上下文信息,提升其在复杂网页浏览任务中的表现。

WebWalker的核心功能包括多智能体框架、垂直探索策略以及WebWalkerQA数据集。这些功能使得WebWalker能够有效管理内存、深入探索网页内容,并通过数据集测试模型的性能。

WebWalker 的主要功能

  • 多智能体框架:支持模型在浏览网页时保持对之前交互的记忆,更好地处理需要长上下文信息的任务。
  • 垂直探索:深入探索单个页面或相关页面链,寻找和回答问题所需的信息。
  • WebWalkerQA 数据集:包含680个具有挑战性的查询,覆盖多语言和多领域的网页内容,用于测试模型的性能。
  • 性能评估:通过HuggingFace的Leaderboard提交和比较不同方法的性能。

如何运行 WebWalker

1. 环境配置

首先,确保你已经安装了Python 3.10,并创建了一个虚拟环境:

conda create -n webwalker python=3.10
git clone https://github.com/alibaba-nlp/WebWalker.git
cd WebWalker
pip install -e .
pip install -r requirements.txt
crawl4ai-setup
crawl4ai-doctor

2. 运行本地演示

在运行之前,请设置你的API密钥:

export OPEN_AI_API_KEY=YOUR_API_KEY
export OPEN_AI_API_BASE_URL=YOUR_API_BASE_URL

或者使用Dashscope API密钥:

export DASHSCOPE_API_KEY=YOUR_API_KEY

然后,运行app.py文件:

cd src
streamlit run app.py

3. 运行RAG系统

你可以通过以下命令运行RAG系统:

cd src
python rag_system.py --api_name [API_NAME] --output_file [OUTPUT_PATH]

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 数据采集 人工智能
WebDancer:从零训练一个 DeepResearch 类智能体
WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。
1497 27
|
7月前
|
机器学习/深度学习 人工智能 算法
通义WebSailor开源,检索性能登顶开源榜单!
通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。
800 0
通义WebSailor开源,检索性能登顶开源榜单!
|
10月前
|
存储 弹性计算 资源调度
阿里云服务器收费模式对比:包年包月与按量付费的适用场景与选择参考
在我们购买阿里云服务器的时候,云服务器的收费模式主要有多种收费模式,其中包年包月和按量付费两种主流模式。对于准备在阿里云上部署应用的用户来说,选择合适的收费模式至关重要,因为它直接关系到成本控制和资源使用的灵活性。本文将对这两种收费模式做一个对比,以供参考和选择。
1370 14
|
11月前
|
人工智能 自然语言处理 算法
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架,通过个性化PageRank算法和知识图谱技术,显著提升了RAG系统在复杂问答任务中的表现。
1578 2
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
|
11月前
|
人工智能 监控 前端开发
主流多智能体框架设计原理
本文描述了关于智能体(Agents)和多智能体系统(Multi-Agent Systems, MAS)的详尽介绍,涵盖了从定义、分类到具体实现框架的多个方面。
主流多智能体框架设计原理
|
12月前
|
机器学习/深度学习 人工智能 JSON
魔搭社区模型速递(1.19-2.15)
魔搭社区模型速递(1.19-2.15)
380 2

热门文章

最新文章