千问开源P-MMEval数据集,面向大模型的多语言平行评测集

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自8个不同语族的10种语言(英、中、阿、西、日、韩、泰、法、葡、越)。因此,P-MMEval 有助于全面评估多语言能力,并进行跨语言迁移能力的比较分析。

image.png

司南评测体系OpenCompass面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。P-MMEval也在第一时间接入了OpenCompass的评测体系,可使用司南OpenCompass开源工具完成评测任务。

数据集链接:

https://www.modelscope.cn/datasets/modelscope/P-MMEval

01.引言

在开发和迭代大语言模型 (LLM) 时,提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上,例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准,统一了多个有代表性的的独立基准任务,如 XTREME、XTREME-R、XGLUE、MEGA 和 BUFFET。然而,这些大规模基准测试集 1) 主要针对基础自然语言处理任务,2) 所选择的数据集覆盖的多语言种类不一致。

本文的目标是提出一个全面的多语言多任务基准测试开发框架,为此:

  1. 提出了一种基于显著性检验来挑选可用且合理的基准测试集的方法。
  2. 在上一步的基础上,提出了一个大规模多语言基准测试集,包括基础任务和专项能力任务。该基准集不仅确保选择的各种数据集有一致的多语言覆盖,并提供跨多种语言的平行样本。
  3. 对各种 LLM 的多语言能力进行了全面分析,不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性,并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。

02.数据集选择流程

语言模型的评估任务种类繁多,每种类别都积累了大量的多语言数据集。因此,选择有效的数据集至关重要,因为它可以减少冗余测试并提高评估效率。为此,研究团队提出了一种基于大量配对样本 T 检验的方法来优化选择过程,过滤掉不能够有效区分不同模型系列和大小之间性能的数据集。研究团队认为,如果这些基准测试集在模型尺寸差距较大时仍无法保持显著的性能差异,则其评估结果可以被视为无效。

P-MMEval

基于设计的数据集选择方法,研究团队提出了 P-MMEval。它整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。

对于任务多样性,涵盖了两个关键的基础 NLP 任务(生成和理解)以及当前 LLM 的五种核心能力。对于语言多样性,P-MMEval统一了涵盖八个语系的十种不同语言,包括英语 (en)、中文 (zh)、阿拉伯语 (ar)、西班牙语 (es)、日语 (ja)、韩语 (ko)、泰语 (th)、法语 (fr)、葡萄牙语 (pt) 和越南语 (vi)。

基础自然语言处理数据集整理

鉴于基础 NLP 数据集的多样性,P-MMEval精心选择了11 个使用比较广泛的数据集,涵盖了理解和生成两个大类。接下来,在每个数据集上,我们使用配对样本 T 检验来识别挑选的成对模型性能的显著差异。显著性水平被设为 0.01。如果所有选定的模型对都显示出显著的性能差异,则保留该数据集。根据这一标准,XNLI、MHellaSwag 和 Flores-200 被保留用于进一步处理和扩展。

image.png

专项能力数据集整理

进一步,研究团队对每个专项能力选择了一个代表性的数据集。对于每个专项能力,通常没有太多选择(大多只有一个基准测试集可用)。因此,代码生成,数学推理,知识理解,逻辑推理,指令跟随分别选择了HumanEval-XL,MGSM,MMMLU,LogiQA 和 IFEval。

多语言测试数据扩展

为了补充每个数据集中缺失的多语言部分,我们采用了一种机器翻译结合专业人工校验的策略。每个数据集被机器翻译到目标语言后,再被专业翻译人员后检验的具体比例如下:

image.png

03.实验

设置

研究人员评估了几种代表性的指令调优模型的性能:(i) 闭源模型 GPT-4o、Claude-3.5;(ii) 开源模型 LLaMA3.1、LLaMA3.2、Qwen2.5、Mistral-Nemo、Mistral-Large 和 Gemma2 系列。每个数据集的得分为每种语言得分的 Macro 平均值。我们分别计算理解、生成和专项能力任务的平均得分。

主要结果

首先,除了 LLaMA3.2 系列外,所有模型的多语言能力随着模型规模的增加而提高。主要原因是 LLaMA3.2-1B 和 LLaMA3.2-3B 表现出较差的指令跟随能力,导致答案提取的失败率较高。此外,Qwen2.5 在理解和专项能力任务上表现出强大的多语言性能,而 Gemma2 在生成任务上表现出色。闭源模型总体上优于开源模型。

image.png

英语与非英语基准测试的表现

在五个数据集上,测试模型的非英语表现似乎都受到其英语表现的限制。然而,在代码生成任务HumanEval-XL的三个主要编程语言上(python、javascript和java),模型在英语和非英语测试集上的表现相当。

image.png

04.最佳实践

PMMEval数据集已经集成到OpenCompass和EvalScope评测框架中。使用下面两个框架,均可以执行评测任务。

   OpenCompass:https://github.com/open-compass/opencompass

   EvalScope:https://github.com/modelscope/evalscope

  1. 使用原生的OpenCompass框架执行PMMEval评测任务

环境安装:

pip install git+https://github.com/open-compass/opencompass.git
pip install vllm
pip install modelscope[framework]

执行命令:

opencompass --models vllm_qwen2_5_1_5b_instruct --datasets pmmeval_gen --accelerator vllm

执行结果示例:

image.png

备注:HumanEval-XL子数据集,因为涉及到代码执行沙箱环境,需要依赖Docker镜像环境,具体可参考文档:https://opencompass.readthedocs.io/en/latest/advanced_guides/code_eval_service.html

  1. 使用EvalScope框架执行PMMEval评测任务

EvalScope支持选择不同的eval_backend来实现特定领域的评测任务,如OpenCompass、VLMEval、RAGEval等。这里我们使用vLLM拉起模型服务,通过OpenAI格式的接口实现评测任务调用流程。

环境安装:

pip install evalscope[opencompass] -U
pip install vllm

使用vLLM拉起模型服务:

python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2-0.5B-Instruct --port 8000

评测脚本:

from evalscope.run import run_task
from evalscope.summarizer import Summarizer
task_cfg_dict = dict(
    eval_backend='OpenCompass',
    eval_config={
'datasets': ['PMMEval'],
'models': [
            {'path': 'Qwen/Qwen2-0.5B-Instruct', 
'openai_api_base': 'http://127.0.0.1:8000/v1/chat/completions', 
'is_chat': True,
'batch_size': 16},
        ],
'work_dir': 'outputs/qwen2_eval_result',
'limit': 5,    # 限制每个子数据集最大样本量为5
        },
    )
def run_eval():
    run_task(task_cfg=task_cfg_dict)
    print('>> Start to get the report with summarizer ...')
    report_list = Summarizer.get_report_from_cfg(task_cfg_dict)
    print(f'\n>> The report list: {report_list}')
run_eval()

点击阅读原文,直达数据集

https://www.modelscope.cn/datasets/modelscope/P-MMEval

相关文章
|
7月前
|
文字识别 前端开发
CodeFuse-VLM 开源,支持多模态多任务预训练/微调
随着huggingface开源社区的不断更新,会有更多的vision encoder 和 LLM 底座发布,这些vision encoder 和 LLM底座都有各自的强项,例如 code-llama 适合生成代码类任务,但是不适合生成中文类的任务,因此用户常常需要根据vision encoder和LLM的特长来搭建自己的多模态大语言模型。针对多模态大语言模型种类繁多的落地场景,我们搭建了CodeFuse-VLM 框架,支持多种视觉模型和语言大模型,使得MFT-VLM可以适应不同种类的任务。
728 0
|
7月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
9天前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
50 11
FlagEvalMM:智源开源的多模态模型评测框架
|
12天前
|
机器学习/深度学习 人工智能 安全
千问团队开源会思考的QwQ模型,这模型成精了!
QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)
|
2月前
|
人工智能 算法 测试技术
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
268 0
|
6月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
6月前
|
数据采集 自然语言处理 测试技术
CodeFuse-13B: 预训练多语言代码大模型
该论文针对蚂蚁集团的现实应用场景,详细介绍了CodeFuse-13B预训练模型的数据准备和训练过程,揭秘了CodeFuse是如何成为一款能够同时处理英文和中文提示的高效预训练代码大型语言模型(LLM)。论文还对CodeFuse在代码生成、翻译、注释和测试用例生成等应用场景中的性能进行了评估。CodeFuse-13B在蚂蚁集团内广
194 2
|
7月前
|
数据可视化 物联网 关系型数据库
幻方开源第二代MoE模型 DeepSeek-V2,魔搭社区推理、微调最佳实践教程
5月6日,幻方继1月份推出首个国产MoE模型,历时4个月,带来第二代MoE模型DeepSeek-V2,并开源了技术报告和模型权重,魔搭社区可下载体验。
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。