近期,一项发表在《自然》杂志上的研究表明,当面对一个关于人类亲吻的难题时,所有的大型语言模型(LLM)都遭遇了失败。这一发现引发了关于LLM在理解和推理复杂人类行为方面的能力的讨论。
这个难题是关于两个人之间的亲吻行为。问题要求LLM解释为什么在特定情境下,一个人会亲吻另一个人。这个情境包括两个人的关系、他们的情感状态以及他们所处的环境。
研究中测试了多个知名的LLM,包括GPT-4、Bard和Claude等。然而,这些模型都无法给出令人满意的答案。它们要么给出了错误的解释,要么无法提供任何有意义的回答。
这一发现表明,尽管LLM在处理语言和生成文本方面表现出色,但它们在理解和推理复杂人类行为方面仍存在显著限制。这可能是因为LLM缺乏对人类情感、社会和文化背景的深入理解。
一些专家认为,LLM更像是工具而非智能体。它们可以执行特定的任务,如回答问题或生成文本,但它们缺乏真正的理解和推理能力。这意味着LLM可能无法在需要复杂推理和理解的领域中发挥重要作用。
然而,这并不意味着LLM没有价值。它们在许多领域中已经取得了显著的成功,如客户服务、内容创作和教育等。LLM可以帮助人们更高效地完成任务,并提供有用的信息和建议。