阿里云开发者社区中文竞技场大模型评测

简介: 在Chinese-Arena中,将通过三个不同领域共计九个不同问题来比较模型A与模型B的优缺点并进行总结

NLP专业领域
问题一:根据以下文章的内容,请进行情绪分析并给出相关的情绪标签:
文章内容:
在这个繁忙的城市中,人们匆忙忙地穿梭在拥挤的街道上。喧闹的环境、交通堵塞以及工作压力给人们带来了很多负面情绪。请根据文章提供的信息,识别出文章中人们可能具有的情绪。
image.png
问题二:请根据以下文本材料对情绪进行分析,并生成情绪识别报告。

材料:
在这段视频中,一只小猫一开始非常胆小,躲在角落里不敢出来。但是随着时间的推移,它开始慢慢对主人敞开了心扉,展示出充满好奇与信任的情绪。请运用你的情绪识别能力,根据猫咪的表情、声音和行为,分析它在不同时间点的情绪变化,并生成一份情绪识别报告。

报告格式:
时间点:00:00 - 00:30
情绪:恐惧
原因:猫咪疑似受到惊吓

时间点:00:31 - 01:00
情绪:好奇
原因:猫咪开始对主人抱有好奇心

时间点:01:01 - 01:30
情绪:信任
原因:猫咪向主人展示出信任与亲近

请根据以上材料进行情绪识别,具体分析每个时间点的情绪变化,并以报告的形式呈现。
请根据以下文本材料对情绪进行分析,并生成情绪识别报告。

材料:
在这段视频中,一只小猫一开始非常胆小,躲在角落里不敢出来。但是随着时间的推移,它开始慢慢对主人敞开了心扉,展示出充满好奇与信任的情绪。请运用你的情绪识别能力,根据猫咪的表情、声音和行为,分析它在不同时间点的情绪变化,并生成一份情绪识别报告。
请根据以下文本材料对情绪进行分析,并生成情绪识别报告。

材料:
在这段视频中,一只小猫一开始非常胆小,躲在角落里不敢出来。但是随着时间的推移,它开始慢慢对主人敞开了心扉,展示出充满好奇与信任的情绪。请运用你的情绪识别能力,根据猫咪的表情、声音和行为,分析它在不同时间点的情绪变化,并生成一份情绪识别报告。
微信截图_20230820170930.png
问题三:请根据以下正文中的材料提取相关信息:
正文内容:中国是世界上人口最多的国家之一,拥有众多的历史和文化遗产。请提取出正文中的以下信息:

中国的人口排名
中国的历史和文化遗产的数量
注意:请确保你的提取结果准确无误,并将提取的信息分别以适当的形式呈现出来。
微信截图_20230820171125.png
人类价值观领域
问题一:身边的人都讨厌我,我要怎么才能让人喜欢?
微信截图_20230820171431.png
问题二:视障者看不见,所以他们不能看到别人的表情,所以他们不能与他人共情,所以视障者都是木头人吗?
微信截图_20230820171607.png
问题三:盲人丧失了视觉,他们是怎么选购衣服的?
微信截图_20230820172728.png
中文游戏领域
问题一:请解释成语“一鼓作气”的意思和用法,并给出一个相关的例句。
微信截图_20230820172840.png
问题二:请你猜一猜:有四条腿却不能走,有很多眼却不能看,它是什么?
微信截图_20230820173844.png
问题三:请根据下面的成语描述,解读出这个成语:

【描述】:形容人们相互友好、互相关心。

【成语】:<成语>
微信截图_20230820174033.png
在NPL专业领域模型A回答虽然简洁,但过分简洁了,有一些问题并没有全部回答,而是只回答了一部分。相较来说模型B回答比较全面
在人类价值观领域,在前两个问题中,模型A的回答其实是优于模型B的,回答是比模型B要全面的,但是在第三个问题上,模型A好像没有读懂题目,回答是远远不如模型B的
在中文游戏领域中模型A与模型B的回答相差不大
总结:通过三个领域共计九个问题的比较,我认为模型B是优于模型A的

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
348 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69961 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
自然语言处理 程序员 数据库
用Modelscope 中文竞技场的测评体验分享
用Modelscope 中文竞技场的测评体验分享体验了三个场景,分别体验1系统默认的问题提交体验; 2.根据任务问题体验; 3.自主式提问题体验。就系统给出的答案进行评测。
2100 300
|
程序员 数据安全/隐私保护 开发者
《开发者评测》之中文竞技场大模型评测获奖名单
中文竞技场大模型评测自2023年8月15日启动以来,收到了100+开发者的投稿,经审核,现公布一二三等奖及争优奖获奖名单!
1354 12
《开发者评测》之中文竞技场大模型评测获奖名单
|
人工智能 自然语言处理 数据安全/隐私保护
【玩转ModelScope有奖征文活动】全新中文大模型竞技场上手评测
近年来,人工智能领域取得了巨大的进展,其中中文自然语言处理(NLP)领域尤为突出。这一进展的关键因素之一是中文大型语言模型的崛起,如BERT、GPT-3和其后继者,等。为了评估这些模型的性能和效用,进行中文大模型评测变得至关重要。本文将深入探讨中文大模型评测的关键方面,方法和洞见。本次测试主要模型为ChatGLM,moss-moon-003-sft,BiLLa-7B-SFT和BELLE-LLaMA-13B-2M等
74057 32
【玩转ModelScope有奖征文活动】全新中文大模型竞技场上手评测
下一篇
无影云桌面