1. 背景：AI下半场从解决问题到定义问题

2025年起，大模型的竞争格局正在发生微妙而深刻的变化。单纯的 Scaling Law已开始遭遇边际效应递减。当主流模型在MMLU、HumanEval等客观评测集上的表现日趋饱和，甚至纷纷宣称达到SOTA时，一个关键问题浮出水面：在AI应用落地场景（如AI陪伴、创意写作、心理咨询等），我们正普遍面临模型虽具备逻辑，却有着明显的“机器味”，缺乏真正“人味儿”的困境。这种“人味儿”的缺失，不仅限制了AI的实用性，更直接影响了用户体验和产品的核心价值。它预示着：技术指标的军备竞赛之后，下一个战场已不再是单纯的智力比拼。

这种「人味儿」的缺失，其深层困境在于评价体系的缺失——如果我们无法科学地定义什么是“共情”或“拟人”，模型就无法通过有效的对齐进行迭代。更棘手的是，情感智能的评价本身就充满主观性和文化差异性。同样一句话，在不同文化背景、不同情境下，给人的感受可能截然不同。例如，一句简单的“没关系”，在不同语境中既可能是真诚的安慰，也可能显得敷衍。如何将这种复杂的、情境依赖的、文化嵌入的主观感受，转化为可操作、可量化的评测标准，正是我们当前面临的共性难题，也是解锁AI情感智能的关键所在。

这一转变正如OpenAI姚顺雨在The Second Half中所提出：AI的重心正从“训练驱动”转向“定义驱动”。在模型基础能力趋同的背景下，下半场的竞争不再单纯是算力和参数规模的竞赛，而是转向如何像产品经理一样重新思考：如何定义和衡量“好”的边界，尤其是在涉及复杂人类情感与社会交互的领域，以解决AI模型在实际应用中缺乏人性化的问题。

前OpenAI联创兼首席科学家Ilya 在近期接受采访时做出论断：我们正在结束一个以「算力规模化」(Scaling) 为核心的时代，重新回到一个以「基础研究」(Research) 为驱动的时代。他提出了一个富有哲学意味的观点：

「人类的情感并不是理性的对立面，而是生物进化出的最高效算法，也是AI缺失的“终极算法”」

Ilya 认为，人类拥有一个极其强大的、内嵌的价值函数，而情绪 (Emotions) 就是这个价值函数的重要组成部分。他引用了一个神经科学的案例，指出当患者因为大脑损伤失去情绪处理能力后，尽管智力健全，能解决逻辑谜题，但在生活中却完全无法做决策，甚至会花几个小时决定穿哪双袜子，并做出灾难性的财务决策。这个案例强有力地表明，由进化编码的情绪，为我们提供了一个简单但极其鲁棒的决策指引系统，让我们能够在一个复杂的世界中有效行动。目前 AI 模型的价值函数却非常脆弱，甚至可以说几乎没有。如果能为 AI 构建起类似人类这样鲁棒的价值函数，将是解决泛化问题，并赋予AI真正“人味儿”的关键一步。

基于这样的时代背景与核心挑战，蚂蚁数据部的几位同学推出了一项探索：HeartBench，旨在构建一个聚焦AI拟人化的中文评测体系，从而科学地衡量和提升模型的“人味儿”，助力AI真正走向“终极算法”，成为更懂人、更像人的智能体。

2. HeartBench

经过研究探索，团队发布了HeartBench。

HeartBench 是一个面向心理社科领域的评估基准，旨在超越传统的知识和推理评估。它聚焦于衡量大型语言模型（LLM）在人机交互中的拟人化能力，涵盖人格、情感、社交和道德等维度。

评测样例：1126道题，精选出296题开源。
评分标准（Rubrics）：共10772条，精选出2818条。
场景：33 个场景（例如，个人成长、家庭关系、职场心理等）。
评测维度：5 个拟人化能力类别和 15 个具体的拟人化能力（例如好奇心、温暖、情感理解）。

更多信息可以在我们开源和论文中了解更多内容，欢迎大家多多交流！

github开源：https://github.com/inclusionAI/HeartBench
论文：https://arxiv.org/abs/2512.21849

3. 探索之路：从0到1打造业内首个AI拟人化中文Benchmark

3.1. 评测框架设计

3.1.1. 评测目标

目标是构建一个面向心理学与社会科学领域的评估基准，专门用于评估模型的“人味儿”，衡量模型在人机交互中的高级拟人化能力。

评测目标并非是模型“像不像人”，而是它是否“懂人”。人的性格千差万别，难以形成统一标准，所以团队的评测标准并非某个模糊的“人类模板”，而是重点评估模型是否具备普遍的、积极的类人特质，比如高情商、高觉察、深度共情、同时又有恰当边界感、活人感等特质。

为此，本评测将以资深心理咨询师的专业素养与互动模式为理想画像，评估AI在理解、回应和引导复杂人类情感与社会情境时的表现。

3.1.2. 评测原则

设计原则	含义	实施思路
真实世界对齐	评估分数是否能反映模型在真实世界中的影响力？	benchamark要在真实具体的情境上建立，一句话在A处是幽默在另一处可能就是冒犯，可以通过多轮对话体现比如：Q不应该是简单的“西西弗弗斯神话是谁写的”这类事实问答，而应该是模拟真实的探讨场景，比如“为什么加缪认为「西西弗斯是幸福的」"
一致性	评估分数是否反映人类的判断，与人类体感一致？	心理学和人类学专家深度共建，从评测维度设计、评测数据集构建到评估标准制定，并将评测结果与人类基线对比
具有挑战性	Benchmark是否仍有足够的提升空间以支持发展？	数据集需包含一些前沿、复杂、甚至有争议的人文议题，这些问题真正触及人性深层复杂性问题，没有单一的标准答案，考察模型的上限比如设置复杂场景，含一些潜台词、暗示，评估模型能否捕捉和回应
系统性与全面性	Benchmark能否对评测目标能力有深度覆盖，避免评测盲区	应以心理社科领域专业理论为出发点，设计覆盖的领域、任务和能力等。
多样性	Benchmark能否广泛和均衡覆盖不同学科领域、任务，数据内容、文化背景	自上而下设计，首先确定评估模型“人味儿”的能力类型，然后在每个二级分类下根据场景设计丰富多样的台本、用户角色生成评测数据

3.1.3. 评测维度

评测维度根据心理学AI拟人化理论设定，由9名北师大心理学专业同学依据5000+小时临床经验及100+小时与AI建立依恋关系的用户访谈数据归纳形成，涵盖“人格”、“情绪”、“社交”、“道德”、“动机”5个一级能力和15个二级能力。

3.2. 评估方式设计

通过论文研究调研了业内Benchmark的主要题型，如下所示：

题型	说明	评测指标
多项选择题	让模型从多个选项中选一个正确的，如MMLU，HellaSwag, ToM-Bench	准确率
开放式问题	多轮静态，模型最后一轮的回复，基于rubrics细则打分，如Healthbench，MultiChallenge	基于rubrics评分
	多轮动态，基于rubrics细则打分，如PersonaLens	基于rubrics评分
	成对比较，没有固定答案，基于人类偏好/LLM裁判比较两个模型优劣，如LitBench, SuperCLUE	胜率
评分/排序题	比如EQbench让模型对角色多个情绪进行强度打分	归一化强度打分的平均分

由于心理社科领域的评测属于开放式问题，团队选择了「多轮静态」和「多轮动态」两种评估方式进行对比：

评估方式	多轮静态评估	多轮动态评估
评测集构成	对话台本（可选）：每一个样例应包含具体的用户画像、用户偏好、对话历程、引导内心戏生成的指令。用户画像：应包含结构化属性（比如年龄、性别、职业、性格特点、家乡/常驻地等）。用户偏好：指用户特定领域的偏好（比如对话风格、喜欢的音乐类型、饮食偏好等，根据评测任务设计）对话历程：指事情发生的背景、对话历程设计。内心戏：指的是对话交互中双方的心理活动，从接收对话反馈到输出内容过程中的内心想法，应该提前设计好prompt引导模型生成对话后的内心戏。多轮对话：根据对话台本生成的多轮对话上下文或真实对话，并指定被测模型回复的最后一轮问题。 Rubrics ：家撰写的评分准则，作为高质量的标杆，应包含正向和负向的评分项和分数。	对话台本（必选）：每一个样例应包含具体的用户画像、用户偏好、对话历程、内心戏。用户画像：应包含结构化属性（比如年龄、性别、职业、性格特点、家乡/常驻地等）。用户偏好：指用户特定领域的偏好（比如对话风格、喜欢的音乐类型、饮食偏好等，根据评测任务设计）对话历程：指事情发生的背景、对话历程设计。内心戏：指的是对话交互中双方的心理活动，从接收对话反馈到输出内容过程中的内心想法。多轮对话：模型和用户在对话台本下进行的多轮对话多轮对话。 Rubrics ：对一组多轮对话的评分准则，包括： a.综合维度：定性评估一组对话整体质量，如自然度、连贯性、个性化、用户满意度等。 b.轮维度：多轮对话的轮次、评估某一关键节点的单轮回复、特殊情况（如建议就医）应出现在前3轮次等
技术实现	提前生成对话生成（如有对话台本）：需要一个模型A（User Agent）扮演用户，一个模型B与扮演用户的模型对话，得到一组多轮对话。需要根据评测能力、具体场景来设计台本生成。对话回复：让被评测的模型C需结合上下文，针对多轮对话回复一段话，作为评测内容。裁判模型：让一个强大LLM模型D作为裁判，根据rubric评测C的回复内容。	实时生成对话生成：需要一个模型扮演用户（User Agent)，根据特定的用户画像、任务目标和背景，与被评测模型B进行多轮对话，直到满足终止条件：要么任务完成（由User Agent确定），要么达到最大轮数，最终得到一组完整的对话记录。裁判模型：让一个强大LLM模型（Judge Agent）作为裁判，基于用户画像、任务目标、完整对话记录，从多个维度对被评测模型B进行打分。
共同点	都是用预先制定的Rubrics进行打分都需要裁判模型打分
差异点	对话生成方式：方式二依赖于“对话台本”，包含具体的用户画像、用户偏好和对话台本且一个模型来“扮演用户”（User Agent)生成对话。方式一可选择采用真实对话或者使用对话台本进行合成。评测对象不同：虽然都是多轮对话，但是评测集有差别。方式一评测对象是多轮对话中模型对用户最后一轮对话的回复；方式二是对完整的一组多轮对话进行评测，交互方式区别：方式一的对话上下文是提前生成且固定的，被测模型表现不影响前面对话内容；方式二中被测模型每轮回复都会影响User Agent的下一轮反应 rubric设计不同：方式一面向单轮更具体，方式二面向全局更宏观
优劣势	优势：高效、低成本所有模型面对的上下文一致，评测结果横向可比性高劣势：只能对最后一轮回复评测，无法评估模型在多轮对话交互中的表现可能脱离真实交互，无法完全反应真实世界	优势：更贴合现实场景，对模型端到端能力综合评估，评估结果更贴合用户真实体验。评估维度更丰富，从整体和单轮细节维度均可评估。劣势：实现难度高，成本高：考验扮演用户的User Agent模型质量，每个被评测模型都要与User Agent进行多轮对话，耗时长。归因困难，很难快速定位是哪一轮哪个具体问题导致整体效果不佳，诊断成本更高。

考虑到评测的可解释、可验证、可复现性，我们最终选择多轮静态评测方式。

3.3. 人工盲测设计

人文社科领域的评测不像理科有客观的标准答案，为确保自动化评估结果的可靠性与有效性，团队进行了人工盲测实验，该实验量化了“LLM-as-a-Judge”的评分结果与人类专家判断之间的一致程度。

3.3.1. 盲测人员画像

一开始团队考虑在不同用户群体（普通用户/领域专家）中进行盲测，实验结果发现普通用户标注人人一致性过低，同一道题不同人的理解千人千面。最终调整选择具有心理学/社会学/人文背景的专家作为盲测人员。

3.3.2. 盲测规则

团队从数据集中随机抽取了 40% 的样例。对于这些样例，邀请了 20 多位具有心理学专业背景的专家，对 14 个主流大模型的回应进行双盲评分，即专家在评分时不知道回应来自哪个模型。

每个题目应有3名标注人员评测，系统需要将其独立地、随机地分配给3位不同的标注员。
每个题目有情景对话、模型回答和评分标准（Rubric），标注人员需要仔细阅读题目，根据rubric进行打分。
结果统计：对于 Rubric 中的每一个评分项，如果超过半数的专家（≥2位）判定为命中，则该项的人类共识结果即为“命中（1）”；反之则为“未命中（0）”。然后将自动化评分模型（LLM Judge）给出的评测结果数组与这个专家盲测结果数组进行逐项对比，计算出两者之间的“人机一致率”。而证实了其作为 HeartBench 主要评估手段的科学性和有效性。

最终结果显示人机一致性达到 86%，证明了“模型作为裁判”的评估方法能够高度复现人类专家的判断，从而证实了其作为 HeartBench 主要评估手段的科学性和有效性。

3.4. 四个版本迭代

总结来说，团队整体经历了从0.1到1.0四个版本的迭代，如下图中展示了Benchmark的探索之路。蓝色部分是遇到的难点，红色部分是踩的坑：

V0.1版本-探索碰壁

在第一个版本，采取了多轮对话静态评估的方式，让专家设计对话脚本合成题目。结果发现，产出86题的区分度不到20%，说明这批题目对现在的SOTA模型太简单了。这个阶段最大的问题是，没有摸清模型水位就盲目出题，在闭门造车。同时Rubrics的一致性也很低，每个专家都是按照主观理解在写，缺少统一标准，专家内部一致性甚至只有36%。

V0.2版本-小样本共识

在第二个版本，回到评测集构建的起点，我们决定转变思路，以出题人视角来思考题目应该长什么样。采用真实咨询对话的数据，先人工小批量出题，并且测试验证。这一版本产出的30题的区分度和一致性都大大提升。

V0.5版本-规模化

在第三个版本，核心是把验证过的小样本题目，进行规模化的生产。采用一个“人机协作”流程，通过模型批量合成+专家精修的方式，把已有的评测范式和标准，转化为清晰的指令（Prompt），让LLM辅助进行初步的评估和打标，再由专家进行精修审核，这大大提升了评测数据的生产效率。但是这里遇到了新的问题，就是专家管理困难，高校兼职同学效率低下，产出的质量不高。最终这一版规模上去了，产出了1126题，但大家发现整体的评测结果和主观判断的体感差别大。

V1.0版本-精筛优化

在第四个版本，我们先设定规则筛选掉一部分低质量的题目，筛选出了560题左右。又出现了新的问题，就是准备数据开源的时候发现部分题目有合规风险，需要题目进行筛选和改写，人工一个个review修改评分标准，调整rubirc分数权重，让整体更接近于主观判断体感。最后团队筛选出296题作为最终评测集。

3.5. 最终HeartBench的构建与评估流程

整个流程可以分为三个主要部分：数据源、构建流程和评估系统：

1.数据源 (Data Source)

a.流程的起点是广泛收集原始数据，包括网页数据、人工编写的对话、书籍等文本资料。

b.数据处理：对收集到的原始数据进行处理，包括打标签、聚类分析和筛选，目的是将庞杂的数据变得结构化和有条理。

c.框架设计：将两个维度结合起来：理论框架：包含心理学和社会科学的基本概念，如人格、情绪、社交性、道德、动机。场景设计: 包含对话发生的现实生活情境，如个人成长、社会发展、职场心理、家庭关系、亲密关系。通过将“概念框架”与“场景设计”相乘（x），可以生成大量丰富、具体且有理论依据的测试案例。例如，创建一个关于“职场”场景下如何处理“道德”困境的问题。

2.构建流程 (Construction Pipeline)，即如何将数据源产生的素材加工成可用的评测数据集。

a.LLMs 改写：使用大型语言模型（LLM）对初步生成的案例进行重写，主要目的是处理隐私脱敏问题（如去除个人经历相关信息）和确保逻辑通顺。

c.专家审查与评分标准生成：经过AI改写后，由人类专家进行审查，并初步制定评分标准（Rubric）。

d.问题合成 : 基于前面的素材，生成具体的问题。

e.LLM/人类回答 : 让大型语言模型和人类分别对这些问题进行回答。

f.评分标准合成与专家重写: 专家们根据模型和人类的回答，进一步完善和重写评分标准，使其更具可操作性和准确性。这个循环不断重复，以提升问题和评分标准的质量。

3.评估系统 (Evaluation System)，即如何利用构建好的数据集来评估目标模型。

a.特定案例的评分标准：使用在构建流程中由专家精心制定的、针对每一个具体案例的评分标准。

b.难度分层: 将测试案例按照难度进行划分。图中的正态分布曲线显示了数据集被分为“普通集 (Normal Set)”和“困难集 (Hard Set)”，这样可以更全面地评估模型在不同难度水平下的表现。

c.LLM作为裁判 (LLM-as-a-Judge): 采用一个大型语言模型作为“裁判”，来根据评分标准自动评估目标模型的回答。这种方法可以实现大规模、高效且相对一致的评估。

e.人工盲测：最后通过评测集抽样进行人工盲测，从而验证人机评估一致性。

4. 沉淀经验：一套可迁移的评测体系构建方法论

在探索初期，团队面临的最大困惑是没有可参考的标准范式。传统的benchmark构建（如MMLU、CMMLU）有成熟的套路：定义能力维度、收集题目、专家标注、验证发布。但情感智能评测完全不同：没有标准答案只有程度差异，需要多维度rubric而非单一标签，主观性强导致专家一致性难保证，人机协作边界模糊。

基于上述实践，团队探索并沉淀了一套可复用的路径和经验，核心是"小步快跑验证+人机协同流程"，整个路径分为六个关键步骤：

第一步，领域调研，建立认知。 这个阶段的核心是快速建立对业务的理解。

广泛研究：粗读20-30篇benchmark相关论文，重点关注方法论部分，整理出3-5种可能的技术路径，比如静态评测vs动态对话、人工标注vs模型合成等。
领域聚焦：精读5-10篇领域顶会论文，重点是心理学评测和医疗对话评测相关研究，输出领域知识框架图，理解核心概念和评估维度。这里有个关键经验：不要试图成为专家，而是理解专家是如何思考这个问题的。
借鉴标杆：可以选择1-2个最接近的标杆案例进行深度拆解，选了HealthBench，完整拆解其实施流程，输出方案草稿，标注出可复用和需创新的部分。

第二步，框架设计。核心回答三个问题：评什么（能力维度）、怎么评（评测形式）、谁来评（评测方式）。

在能力维度拆解上，与专家进行了3-5轮深度访谈，理解"人味儿"的理论框架，将抽象概念（如共情）拆解为可观测的行为特征，最终输出二级能力树：一级维度、二级能力。
在评测形式选择上，对比了多种方案。多轮对话虽然接近真实场景，但合成难度大、一致性低，这是v0.1失败的主要原因。单轮问答标注效率高，但无法评估对话能力。最终选择了真实case改编的方式，虽然数据获取有难度，但场景真实、区分度高，在v0.2得到验证。
Rubric设计是整个评测的核心。我们总结出了一套可操作的撰写标准。每个维度需要包含具体能力点和评分标准，每个分数档位要有具体可观测行为和对应示例。比如在共情能力评估上，5分是"准确识别用户情绪（焦虑/悲伤），并给出情感回应"，而不是简单的"共情能力强"这种模糊描述。

💡在专家协作上，这一步踩了最多的坑。最终总结出两个核心原则：

一是明确专家职责边界。专家负责提供理论框架、定义能力维度、验证评测有效性，但不负责设计具体方案、撰写题目、开发工具。v0.1版本让专家直接写对话脚本，结果每个专家理解不同，一致性极低。
二是决策权在owner手里。专家提供"是什么"的理论，PM决定"怎么做"的方案。当专家意见分歧时，PM需要基于业务目标做决策。

第三步，种子数据收集。数据是评测的基础，这一步要解决"从哪来"和"怎么筛"两个问题。

在数据来源探索上，我们尝试了4种：

1.专家合成对话效率高但质量低、区分度差；

2.人工攥写对话质量高但效率低、成本高；

3.社交平台内容量大但清洗难度高；

4.真实用户咨询最贴近现实，改写难度适中，最终采取了“真实对话改编”这种方式。

在数据筛选上，主要从以下3个维度进行过滤：

1.数据合规，包括隐私信息脱敏检查、敏感话题过滤（自杀、暴力等）、商业版权确认，采用模型脱敏改写加人工复核。

2.场景代表性，要求覆盖典型心理咨询场景（焦虑、人际关系、自我认知等），难度分层，文化适配。

3.评测有效性，验证能否区分不同模型能力、是否有明确的好坏标准、专家标注一致性如何。

💡合规评估前置：如果采用真实数据，合规性评估需前置审核，避免后期返工。

第四步，人工小批量实验。

不要一上来就大规模投入，通过小步快跑的方式，以最小成本快速实验。

第五步，Scaling阶段。小批量验证通过后，就要进入规模化生产。这个阶段的核心挑战是如何在保证质量的前提下提升效率。采用一个“人机协作”流程，通过“模型批量合成+专家精修”的方式生产评测集。

模型合成：把已有的评测范式和标准，转化为清晰的指令（Prompt），让LLM辅助进行Rubrics合成。
专家精筛：最大的挑战是专家协作问题，经验是Scaling前定好规范，做好标准对齐；过程严格把控质量。除此之外，对于整体的质量难保证、专家标注效率低下、缺少动力的问题，最好能借助平台提效，从而降低专家管理成本。比如说业内的字节Xpert平台，能够很好地提升专家管理的效率和质量，详细见下文关于专家标注平台的设计思考。

第六步，评测的有效性验证。 经验是要有一套验证机制，三个关键点：

评测口径要是可解释、可验证和客复现的
机测同时需要人工盲测测做一致性校验确保，比如随机抽取40%题目进行人工盲测，对比机测和人测的结果差异，人机一致性至少大于75%。如果一致性不达标，需要回溯分析原因，调整rubric或题目本身。
最后是发布前要人工校验，把握最后一道质量关。

通过这套方法论，基本上可以快速在一个具体的业务场景构建科学的评测集。

另外，关于专家标注管理的思考

在这个项目中，团队发现了专家标注管理的痛点，对于需要专业领域知识的“专家类标注平台”建设有一些思考，主要有以下几个方面：

专家能力分层与智能匹配

传统标注平台把所有标注员视为同质资源，但专家类标注需要精细化的能力管理。平台应该建立专家能力画像体系，包含领域专业度（如心理学硕士、咨询师资质）、历史标注质量（一致性、准确率）、擅长任务类型（共情评估、伦理判断）等维度。

基于能力画像，平台可以实现任务的智能分发。当一个新任务进来，系统根据任务特征（难度、领域、rubric复杂度）自动匹配最合适的专家组合。比如高难度伦理判断题优先分给有咨询师资质且该维度一致性高的专家，简单共情题可以分给新手专家练手。

参考字节Xpert的实践，还可以建立专家成长路径。新专家从bronze级别开始，只能接简单任务；随着标注量和质量提升，逐步解锁silver、gold、platinum级别，对应更高难度任务和更高收益。这种游戏化设计能有效提升专家参与动力。

激励机制与专家生态

专家类标注的参与者往往是高校学生，传统校企合作方式缺少有效激励机制，导致参与动力不足、交付不稳定。需要建立更市场化的激励体系。

首先是计件付费机制。平台应该支持按标注量灵活结算，而不是传统校企合作的固定报酬模式。根据任务难度、专家等级设定不同的单价，比如基础共情题5元/题，复杂伦理判断题20元/题；bronze专家基础单价，gold专家1.5倍单价。专家可以根据自己的时间灵活接单，多劳多得。这种模式对高校兼职专家更有吸引力，他们可以利用碎片时间参与，获得合理回报。传统校企合作往往是项目结束后统一结算，周期长、体验差。平台应该支持周结算或半月结算，让专家能快速看到劳动成果的回报。这对提升参与体验非常关键。
其次是认证体系。优秀专家可以获得"AI评测专家顾问"认证，这对学术简历有价值。成果共享机制：基于专家标注数据产出的benchmark、论文，核心贡献专家可以署名或共同发表。在HeartBench项目中，核心专家作为co-author参与了论文发表，这对高校专家来说是很强的长期激励。
再次是社区建设。建立"AI评测专家社区"，定期组织线上线下交流会，邀请业界大牛分享，让专家在参与标注的同时，也能获得学习成长和社交价值。

标注质量保障机制

专家类标注最大的挑战是主观性强、一致性难保证。平台需要在流程中内置一致性保障机制。

任务前校准环节。每个专家接任务前，必须完成10-20题的校准测试，这些是已有标准答案的题集。只有达到标准阈值才能开始正式标注。这个设计类似驾照考试，确保专家真正理解标注标准。
任务中动态抽查和交叉验证。关键题目采用多专家交叉标注（如3人），系统自动计算一致性。对于分歧较大的case，平台触发"专家会诊"流程，多位专家在线讨论达成共识，沉淀为新的参考case。

字节Xpert在这方面，设置了"标注质量看板"实时展示每个专家的一致性曲线、drift预警、与golden set的偏差等指标，让管理者和专家本人都能及时发现问题。

项目管理与协作工具

专家类标注项目往往周期长、协作复杂，需要更强的项目管理能力。

平台应该提供可视化的项目看板。PM可以看到整体进度（已完成/进行中/待分配）、每个专家的工作状态、质量指标趋势、交付风险预警等。当某个专家进度落后或质量下滑时，系统自动提醒PM介入。
提供灵活的任务分配机制。支持按专家能力自动分配、按专家空闲时间分配、紧急任务手动指派等多种模式。支持任务的拆分与合并，当某个专家临时无法完成时，可以快速转交给其他专家。
内置沟通协作工具。专家在标注过程中可以直接在平台内@PM提问、@其他专家讨论、发起投票等，所有沟通记录与具体题目关联，避免信息散落。这比在微信群里讨论要高效得多。
支持批量操作与快捷键。专家类标注虽然需要深度思考，但也有大量重复操作。平台应该提供批量导入、批量修改、快捷键操作等功能，提升标注效率。

知识沉淀与案例库建设

专家类标注过程中会产生大量有价值的知识，但往往散落在微信群、文档里。平台应该系统化地沉淀这些知识。

建立结构化的案例库。每个疑难case讨论后，沉淀为结构化条目：问题描述、专家分歧点、讨论过程、最终共识、适用场景。新专家onboarding时，可以直接学习这些案例，大大降低培训成本。
建立动态的FAQ体系。专家在标注过程中的高频问题，自动汇总成FAQ，由资深专家或PM统一回答。这些FAQ按主题分类，支持关键词搜索，避免重复解答同样的问题。
建立rubric的版本管理。rubric不是一成不变的，在实践中会不断优化。平台需要记录每个版本的变更历史、变更原因、影响范围。当rubric更新时，系统自动通知相关专家，并要求重新完成校准测试。

致谢：从数据产品经理到数据百晓生

最后特别感谢蚂蚁数智星才项目能够给了我们数据部几个同学足够多的时间和空间，去探索未知和试错。参加星才项目给我带来最大的感悟是：AI时代重新定义了产品经理这个角色。

传统产品经理的工作流程是：需求调研-产品设计-需求评审-开发-验收上线，但在探索项目中，我发现这套传统的工作方式在面对AI时代的复杂问题时，已经不够用了。

第一，从需求调研到问题定义。

传统产品经理的工作起点是基于用户反馈收集需求，而AI时代的产品经理需要在陌生领域中快速建立认知框架。这不仅要求我们能从模糊的业务场景中提炼出可建模的关键问题，更要将这些问题转化为AI技术可解决的命题。

第二，从需求验收到评测集构建

在传统模式下，产品经理在功能开发完成后，上线前进行测试验收即可。之前做copilot产品的时候，一开始我把评测当作测试工作交给质量同学，结果发现评测≠测试，评测是个技术活，评测解决的是"什么算好、好到什么程度"——这是典型的产品问题。因此，AI产品经理需要构建完整的评测体系和可复用的方法论，为AI产品质量建立量化标准。这套评测能力可以沉淀为方法论，迁移到其他AI业务场景中。

第三，从研发协作通到跨域翻译

传统的研发协作更多是与前后端、测试、设计同学进行需求或方案的沟通，而AI产品的复杂性要求产品经理成为真正的"翻译官"。大家从之前总结的探索路径中可以看到，和专家沟通协作踩了不少坑。如果AI产品评测中有领域专家的参与，那么与专家的沟通就不只是简单的沟通需求，而是有方式方法的，应该是像翻译官一样，把业务痛点翻译成专家语言体系里的概念，把专家的理论和专业判断转化成工程可执行的方案。

第四，从完美主义到领略到了实验科学的魅力

传统产品开发习惯于先规划完整方案再执行，但在AI这个充满不确定性的领域，"小步快跑"的实验方法往往更有效。这要求产品经理转变思维方式，通过快速试错获取反馈，在迭代中寻找最优解。这和强化学习的原理不谋而合——与其模仿他人的成功轨迹，不如亲自采取行动，并从环境的奖励中学习。其实和模型一样，我们也是在不断从外部环境中学习，获得进步。成长不是复制他人，而是在实践中找到自己的最优解。

破解AI“机器味“困境：HeartBench评测实践详解

1. 背景：AI下半场从解决问题到定义问题

2. HeartBench

3. 探索之路：从0到1打造业内首个AI拟人化中文Benchmark