Compass Arena: 司南x魔搭携手推出大模型竞技场

简介: 从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

或许你曾对 LLM 心生好奇,但却因为缺乏计算资源而无法深入探索?又或者,你对当前的评估方法存有疑虑,感觉它们缺乏客观性和标准化?

为了解决这些问题,上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 推出了大语言模型竞技场 Compass Arena,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。

Compass Arena支持众多前沿的商业和社区模型,其中代表性的包括Meta的Llama-3系列模型、阿里巴巴的Qwen 1.5系列、百度的文心一言ERNIE-4.0-8K、月之暗面的moonshot-v1-32k,以及智谱AI的GLM-4等。模型的开源组织高达15家,其中代表性的组织有MixtralDeepSeek零一万物百川智能等。

Compass Arena简介

Compass Arena 司南大模型竞技场是司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的一个大语言模型 (LLM) 的评测平台,收集了近期最流行的大语言模型对用户免费开放使用。该平台不仅为用户提供了免费使用这些先进模型的机会,更通过创新的竞技模式,让用户能够直观体验并比较不同模型的性能。

在Compass Arena平台上,用户可以非常便捷地体验大模型的效果,并选出自己认为更好的模型。选择对战模式后,输入问题,两个大语言模型会同时根据输入内容进行对话生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的生成效果更为出色。

Compass Arena体验链接

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

Compass Arena汇集了众多顶尖流行的大模型,包括但不限于Qwen-Max、ERNIE-4.0-8K、GLM-4、abab6.5以及Llama 3系列。同时,提供了两种对战模式供用户选择:匿名对战和自选对战

在匿名对战模式下,用户可以在不知道模型真实名称的情况下,让两个大语言模型进行回复。这种设置消除了先入为主的观念,让用户能够基于对话内容本身,来做出公正的判断。

自选对战模式则赋予了用户更大的选择权。用户可以根据自己的喜好或需求,从提供的模型库中选择两个模型进行对战。该模式下,用户可以根据自己的标准,来比较不同模型在特定任务或场景下的表现。

通过魔搭 ModelScope 导航栏中的 “司南评测” 即可访问 CompassArena 司南大模型竞技场

image.png

Compass Arena愿景

通过Compass Arena,司南OpenCompass与魔搭ModelScope紧密合作,旨在携手构建一个开放、公平、透明的大语言模型评估体系。我们共同致力于推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,以促进大语言模型技术的健康发展和持续创新。

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

相关文章
|
7月前
|
人工智能 编解码
国内原汁原味的免费sd训练工具--哩布哩布AI
国内原汁原味的免费sd训练工具--哩布哩布AI
1223 0
|
7月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
13天前
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
61 4
TÜLU 3:Ai2推出的系列开源指令遵循模型
|
20天前
|
SQL 机器学习/深度学习 人工智能
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
本文介绍了四个最新的 AI 开源项目,涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域,为 AI 应用开发提供了丰富的资源和工具。
94 0
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
5月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
340 1
|
6月前
|
人工智能 自然语言处理 测试技术
社区供稿 | OpenVINO™ 助力 Qwen 2 —— 开启大语言模型新时代
就在刚刚,阿里魔搭社区发布了全新的 Qwen 2 系列模型 ,作为 Qwen 及魔搭社区的重要合作伙伴,OpenVINO™ 一直致力于赋能开发者高效搭建人工智能解决方案,助力大规模语言模型的性能提升和应用扩展。
|
7月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
7月前
|
人工智能 开发者
Kimi Chat:国内AI新星,20万字超长文本处理的突破者
【2月更文挑战第12天】Kimi Chat:国内AI新星,20万字超长文本处理的突破者
2808 2
Kimi Chat:国内AI新星,20万字超长文本处理的突破者