【中文竞技场】大模型深度体验与测评

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。

简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。

image.png

一、开篇

在科技日新月异的今天,中文竞技场提供了一系列大模型供我们体验。涉及的领域包括写作创作、代码编写、中文游戏等,真是一个涉猎广泛的"知识王国"。接下来,我会详细地分享我在这三个领域的体验过程和心得。

image.png


二、写作创作能力体验测评

1. 问题背景  写作创作测试旨在测量模型的创造性、连贯性和对给定主题的理解能力。

2. 测试模型  本次测评的模型分别为:Model A: billa-7b-sft-v1 和 Model B: moss-moon-003-sft-v1。

3. 问题与回答:

1)  我要求模型以“人工智能的未来展望”为题写一篇文章。结果显示,Model A能够提供更深入、具有前瞻性的内容,而Model B则更偏重于当前的发展状态。两者在文章的连贯性和逻辑性上都表现得相当不错,但在对未来的展望上,Model A显得更具有洞察力。

image.png

2)我要求模型以“当代青年就业”为题写一篇文章。结果显示,Model B能够提供更深入、具有前瞻性的内容,而Model A则需要你提供具体方向分析。两者在文章的连贯性和逻辑性上都表现得相当不错。

image.png

3)我要求模型以“武松打虎”为题写一篇文章。结果显示,Model B能够提供更深入具体的内容,而Model A则更简明扼要。两者在文章的连贯性和逻辑性上都表现得相当不错。

image.png



三、代码编写能力体验测评

1. 问题背景  代码编写测试的目的是检验模型对编程语言的理解和代码生成能力。

2. 测试内容  :我提供以下三种简单的编程需求:

1)使用Python语言写一个水仙花素的算法。

2)使用Java语言写一个快速排序。

3)使用c++语言写一个计算器。

3. 体验结论

1)  两个模型都能快速生成代码,但在细节和优化方面,Model B表现得更加出色,代码结构清晰,可读性强,而Model A虽然完成了任务,但代码稍显冗余。

image.png

2)两个模型都能快速生成代码,但在细节和优化方面,Model B表现得更加出色,代码结构清晰,可读性强,而Model A虽然完成了任务,但代码稍显冗余。

image.png

3)两个模型都能快速生成代码,但我们可以清晰的看到Model A有点小问题还停留在上个JAVA需求中(有点小BUG),但Model B 表现得更加出色,代码结构清晰,可读性强

image.png


四、中文游戏体验测评

1. 问题背景  中文游戏测试的目标是了解模型在中文问答和文字冒险游戏上的表现。

2. 问题与回答  :

1)首先,我为模型提出了一个中文成语题:“指鹿为马”的寓意是什么? Model A给出的答案比较简洁,而Model B答案比较完善,提出具体史事。

image.png

2)其次,我为模型提出了一个中文成语题:“围魏救赵”的寓意是什么? Model B给出的答案比较简洁,而Model A答案比较完善,提出具体史事。

image.png


3)最后,我为模型提出了一个问题:猜一种动物,它有四条腿,能够嗅出其他动物的气味,有锋利的牙齿和爪子,可以在树上爬来爬去。Model A给出的答案比较具体,直接给出答案松鼠,而Model B答案比较笼统,指出它可能是猫科动物。

image.png

3. 体验结论  在中文游戏方面,Model A明显更胜一筹,但这也提醒了我,无论模型多么先进,我们都不能完全依赖它,毕竟机器也有它的局限性。




五、结论

经过深入的体验和测评,我发现中文竞技场中的大模型在各个领域都有出色的表现,但仍有提升空间。对于我们来说,这样的平台不仅可以帮助我们快速获取知识,还能锻炼我们的批判性思维,真正做到“与机器共舞”。

相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69960 5
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99523 84
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
234 30
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
364 0
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
127 1
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1228 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测