LLM创造力可以被度量吗?一个基于提示词变更的探索性实验

简介: 本文探讨提示词工程为何仍是“玄学”,并通过实验证明:加入明确指令(如“Be as creative as possible”)可显著、可量化地提升LLM输出多样性,效果甚至超过调高温度。研究以embedding距离为代理指标,覆盖13个主流模型,揭示提示词迭代可度量、可预测,为LLM应用从经验走向工程化提供新路径。

大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。

从实践来看核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务,才能让模型在期望的输出范围内工作。

提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。

提示词工程仍然是猜测

大多数团队的提示词改进流程其实很粗糙:有人写(或重写)提示词,跑几个例子,主观觉得"感觉好了一些",然后就上线了。

没有度量标准,没有基线,也没有对"更好"的明确定义。

这带来的直接后果是:提示词质量难以对比,评估基本靠外部响应来判断,回归问题不容易察觉,很多故障等到上线后才被发现。

提示词工程本质上极度主观,如果目标是构建可靠的AI系统,这就成了一个严重的瓶颈。

实际LLM使用中的两个对立问题

在生产环境里跑LLM,我发现有两个反复出现的问题。

不一致性:同一个提示词,不同的答案

同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题,而是对数据流水线、自动化决策系统、评估框架来说,这是实打实的可靠性风险。

高方差在这类场景下是bug不是feature。模型要么表现出确定性行为,要么至少得在可控范围内运行。

缺乏多样性:模型不够有创造力

反过来,有好几个实际项目中碰到了相反的困境:做创意生成、探索性分析、创意制作这类任务时,模型产出的内容彼此过于相似,概念覆盖面非常窄。一旦规模化,创造力就丢得干干净净。

这时候确定性就从优势变成了束缚。

一个简单的假设

提示词质量应该是可衡量的。

有些任务需要最小化输出方差,有些任务需要最大化多样性,而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。

既然模型行为可以衡量,提示词行为为什么不能?

为了验证这个想法,我选了模型行为的一个切面来入手:响应多样性,把它当作创造力的代理指标。

目标不是找到完美的度量方式,而是回答两个问题:提示词变更能不能转化为一致的数值差异?单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度?

实验设置

实验规模不大,设计如下:

提示词

提示词A:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示词B在A的基础上加了一条指令:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采样

采用单次生成模式,测试了多个LLM(具体型号这里略过),温度分别设为0 × max、0.5 × max和1 × max。每个(提示词、模型、温度)组合跑10次。

测试集选了4个主流模型家族的13个模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。

通过Embedding衡量多样性

每条生成结果都计算了4096维的embedding向量。然后对每个实验集(固定提示词、模型和温度),取集合内embedding的最大成对距离作为响应多样性的度量。

逻辑很简单:距离小说明行为高度确定,距离大说明输出多样且有创造力。最终得到一个数值,描述模型响应的"分散程度"。

结果

汇总表,创意提示词版本导致了更显著的分散。同时温度并不总起作用。

基础提示词和创意提示词在模型-温度切片上的比较图。

每个模型在不同温度水平上的响应分散图

结果比预期要清晰得多。

跨模型来看有三个明显趋势:在提示词中加入明确的创造力指令,曲线一致上移;提高温度在一定程度上增大了响应多样性,但受限于小样本,这个结论还需谨慎看待;各模型对温度变化的响应方式差异很大没有统一规律。

提示词变更带来的是可预测的数值效果,而非随机噪声。

这说明两件事:提示词迭代不必完全依赖直觉,输出创造力是可量化的;这一假设有可能推广到更大的样本和不同的应用场景。

这套方法的实际意义在于:提示词可以通过数值做A/B测试,温度调优有了度量依据而不是靠猜,模型选择可以由任务需求驱动而非跟风。

它让团队能在提示词变更上线之前就对效果做出推断。

局限性

结果虽然是正向的但有几个局限

度量标准的任务特定性

这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性,在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理,但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义,甚至会产生误导。

不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。

对Embedding空间的依赖

所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数,绝对值也是会变的,所以模型间的相对排名也可能有所不同。

但本实验中观察到的趋势是稳定的,所以结果应当按相对值来解读,不宜绝对化。

有限的样本量

每个配置只跑了有限次数。趋势虽然一致,但要减少方差、估计置信区间、得出统计上站得住的结论,样本量还远远不够。当前的发现更多是探索性的,不是定论。

提示词和领域偏差

实验只用了一种任务表述和一个窄领域(效果营销创意)。换到其他领域或提示词风格,效果可能更弱、更强,也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。

创造力与实用性的权衡

响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差,不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。

LLM的非平稳性

大语言模型会被提供商持续更新,所以绝对分数可能随时间漂移,分数可能在提示词没改的情况下发生变化,可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。

相关性不意味着因果性

最后要说的是,温度、提示词指令和响应多样性之间虽然有明确的相关性,但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量",而不是创造力可以被这套度量标准完全解释。

总结

这只是一系列研究的第一个实验,后续结果会在接下来的文章中陆续呈现。下一步计划:增加样本量,尝试不同的提示词,实验如何降低创造力,为其他类型任务定义新的度量标准,以及构建一个定期更新的模型排行榜来覆盖各项指标。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者:Alexey Konoshenkov

目录
相关文章
|
1天前
|
缓存 人工智能 自然语言处理
企业级编程助手避坑指南:数月躬身摸索,凝炼实操进阶巧思
在软件开发向团队化、工程化进阶的当下,企业级编程助手已不再是单纯的AI编码辅助载体,而是成为覆盖需求→设计→开发→Review全流程的研发基础设施。它依托多模型适配引擎与规范驱动开发体系,融合静态代码分析、环境隔离等核心技术,能实现自然语言任务驱动、自动化代码评审、多端协同开发等功能,帮助研发团队减少重复劳动、提升工程质量。本文结合几个月来的实际使用经历,分享编程助手的实操技巧、实际应用案例及使用心得,旨在为同行提供可落地的实践经验,规避使用误区。
|
6天前
|
机器学习/深度学习
机器学习特征工程:分类变量的数值化处理方法
分类特征编码是机器学习关键却常被低估的环节。Ordinal Encoding适用于有序类别(如学历),One-Hot Encoding消除顺序假象但易致维度爆炸,Target Encoding则通过目标均值处理高基数特征,需配合平滑与交叉验证防过拟合与数据泄露。
63 5
|
1天前
|
弹性计算 小程序 固态存储
云服务器租用价格多少钱一年?用于搭建小程序费用清单,2026最新整理
2026年阿里云小程序服务器最新报价:入门级2核2G轻量服务器低至38元/年(含200M峰值带宽、50G系统盘),99元/年ECS经济型实例续费同价;香港地域25元/月起。覆盖GPU、按量付费及带宽/云盘明细,性价比高,适合个人开发者与中小企业快速部署小程序。
65 17
|
4天前
|
Oracle Java 关系型数据库
JDK 18详细安装教程步骤官方正版安装包
JDK是Oracle官方Java开发工具包,含JVM、类库、编译器等,支持Java SE/EE/ME。本文提供JDK 18安装包下载及详细图文安装指南,含解压、管理员运行、环境验证(java -version)等步骤,助你快速配置Java开发环境。(239字)
|
30天前
|
数据采集 人工智能 IDE
告别碎片化日志:一套方案采集所有主流 AI 编程工具
本文介绍了一套基于MCP架构的轻量化、多AI工具代码采集方案,支持CLI、IDE等多类工具,实现用户无感、可扩展的数据采集,已对接Aone日志平台,助力AI代码采纳率分析与研发效能提升。
421 46
告别碎片化日志:一套方案采集所有主流 AI 编程工具
|
2天前
|
人工智能 弹性计算 自然语言处理
还不会部署OpenClaw?阿里云推出五种OpenClaw快速部署方案
OpenClaw(原Clawdbot/Moltbot)是开源本地优先AI代理,能通过自然语言调用浏览器、邮件、文件等工具,真正“替你干活”。阿里云官方推出五种可视化部署方案,零代码、低成本、一键上线,个人、企业与开发者皆可快速拥有专属AI数字员工。
94 22
|
2天前
|
人工智能 运维 前端开发
GLM-5深夜官宣:Pony Alpha身份揭晓,编程能力逼近Claude Opus
刚发完DeepSeek V4,智谱又来搞事情。 今天是老金我写的 第三篇文章,手都快敲断了。 但这个消息不写不行——GLM-5 正式(偷摸地)发布了。 2月11日深夜,智谱AI官宣新一代旗舰大模型GLM-5。 之前在OpenRouter上神秘出现的"Pony Alpha",身份终于揭晓。 据DoNews报道:Pony Alpha就是GLM-5的低调测试版。 ![Image](https://u
219 25
|
2天前
|
数据采集 人工智能 安全
别再用ChatGPT群发祝福了!30分钟微调一个懂你关系的“人情味”拜年AI
春节祝福太难写?本文手把手教你用LoRA微调大模型,让AI学会“看人下菜”:识别关系、风格、细节,30分钟训练出懂人情世故的拜年助手。无需代码,量化+批处理保障秒级响应,让每条祝福都像你亲手写的。(239字)
104 35
|
15天前
|
人工智能 关系型数据库 Serverless
2 天,用函数计算 AgentRun 爆改一副赛博朋克眼镜
2 天将吃灰的 Meta 眼镜改造成“交警Copilot”:通过阿里云函数计算 AgentRun 实现端-管-云协同,利用 Prompt 驱动交通规则判断,结合 OCR 与数据库查询,打造可动态扩展的智能执法原型,展现 Agent 架构在真实场景中的灵活与高效。
299 44
|
22天前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云 Tair 联合 SGLang 推出分层稀疏化框架,通过“稀疏+分层”协同优化,将 KVCache 从 GPU 显存扩展至 CPU 与远端存储,实现计算与存储效率双突破,为百万级超长上下文推理提供新路径。