计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13（上）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13

1. OneEdit: A Neural-Symbolic Collaboratively Knowledge Editing System

Authors: Ningyu Zhang, Zekun Xi, Yujie Luo, Peng Wang, Bozhong Tian, Yunzhi

Yao, Jintian Zhang, Shumin Deng, Mengshu Sun, Lei Liang, Zhiqiang Zhang,

Xiaowei Zhu, Jun Zhou, Huajun Chen

摘要

文章介绍了一个名为OneEdit的神经符号协作知识编辑系统。该系统结合了符号知识图谱（KGs）和大型语言模型（LLMs）来表示知识。OneEdit通过自然语言促进了对KG和LLM的轻松管理，包括三个主要模块：解释器（Interpreter）、控制器（Controller）和编辑器（Editor）。解释器负责理解用户意图，控制器管理来自不同用户的编辑请求并使用KG解决知识冲突，编辑器则利用控制器提供的知识来编辑KG和LLM。实验结果表明，OneEdit在处理知识冲突方面表现优异。

算法模型

OneEdit系统设计包括三个主要组件：

解释器（Interpreter）：作为用户与控制器之间的接口，负责识别用户用自然语言表达的意图。
控制器（Controller）：管理来自不同用户的编辑请求，使用KG解决冲突并增强知识。
编辑器（Editor）：主要使用控制器增强的知识三元组来编辑KG和LLM。

系统通过存储每次知识编辑后的编辑参数，采用空间换时间的策略，显著减少了VRAM和时间开销。

实验效果

实验在两个新的数据集上进行，一个关注美国政治人物，另一个关注学术人物，两者都包含KG。结果表明，OneEdit在使用Qwen2-7B和GPT-J-6B模型时，能够实现神经符号协作知识编辑，并在处理知识冲突问题上超越了基线方法。

2. NSP: A Neuro-Symbolic Natural Language Navigational Planner

Authors: William English, Dominic Simon, Rickard Ewetz and Sumit Jha

摘要

本文提出了一个名为NSP的神经符号自然语言导航规划框架，该框架利用大型语言模型（LLMs）的神经推理能力来解析自然语言输入，并将其转换为符号表示的环境和路径规划算法。通过在符号执行环境和神经生成过程之间建立反馈循环，NSP能够自我修正语法错误并满足执行时间约束。在1500个路径规划问题的基准测试套件上的实验评估表明，NSP方法产生的有效路径比例为90.1%，且这些路径平均比最先进的神经方法短19-77%。

创新点

提出了一种神经符号方法来解决自由形式自然语言中的路径规划问题，该方法利用了符号方法的优势，同时避免了预定义符号表示的需要。
引入了从执行环境到神经生成过程的神经符号反馈循环，能够解决由LLM生成的幻觉和语法错误，显著提高了自然语言到符号翻译的鲁棒性。
使用1500个自然语言路径规划场景数据集评估了所提出的方法，与基于最新LLM的方法相比，NSP框架将有效路径成功率提高了最多76%。

算法模型

NSP框架包括以下主要组件：

神经符号翻译：使用LLM将自然语言输入转换为符号表示，包括环境的图表示和路径规划算法。
神经符号规划与反馈：执行算法以产生解决方案路径，如果遇到编译错误或执行超时，则通过反馈循环进行自我修正。

实验效果

在包含5至25个房间的路径规划场景中，NSP在成功率、最优路径率和路径效率方面均优于基线方法。
NSP在最少反馈循环迭代次数下实现了高成功率，平均每次输入仅需执行1.82次反馈循环。
在处理更复杂的路径规划问题时，NSP保持了高效率，即使在房间数量增加时，其性能下降幅度也远小于其他方法。

综上所述，NSP通过结合神经推理和符号验证，有效地解决了自然语言路径规划问题，并在多个评估指标上展现了其优越性。

3. Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization

Authors: Mehrdad Zakershahrak, Samira Ghodratnama

解释、辩论、对齐：一种用于语言模型泛化的弱到强框架

摘要

这篇文章探讨了人工智能系统快速发展带来的AI对齐挑战，特别是在复杂决策和任务执行中。随着这些系统在复杂问题上超越人类水平的表现，确保它们与人类价值观、意图和道德准则的对齐变得至关重要。文章基于先前在解释生成方面的工作，提出了一种新的方法，通过弱到强的泛化来实现模型对齐。该方法通过一个促进函数Φ，允许从高级模型向能力较弱的模型转移能力，而无需直接访问大量的训练数据。研究结果表明，这种基于促进的方法不仅提高了模型性能，还为模型对齐的本质和对高级AI系统的可扩展监督提供了洞见。

创新点

弱到强泛化框架：提出了一种新的模型对齐方法，通过弱模型促进强模型的提升，弥合了解释生成和模型对齐之间的差距。
促进函数Φ：定义了一个形式化的促进函数，用于实现从强模型到弱模型的知识转移。
辩论式对齐：引入了辩论机制来增强模型对齐和能力，通过评估不同模型提供的解释来改进模型对齐。
可扩展的监督：该方法提供了一种机制，可以在人类专家难以提供准确反馈的领域中实现对齐，同时保持与人类价值观的一致性。

算法模型

弱模型（MW）：在给定任务和性能指标下，得分低于人类水平的模型。
强模型（MS）：在相同任务和性能指标下，得分高于人类水平的模型。
促进函数Φ：通过优化问题实现，将强模型的能力转移到弱模型。
辩论函数D：评估强模型和弱模型提供的解释的质量，并由裁判（可以是另一个弱模型、人类或其他评估机制）评定。
对齐函数Ψ：通过优化问题实现，调整强模型以最小化决策差异并改进解释。

实验效果

性能提升：通过促进方法在多个复杂任务领域实现了模型性能和对齐的显著提升。
可扩展性：展示了该方法在不同任务和模型规模上的可扩展性和局限性。
统计显著性：通过配对t检验验证了不同方法的性能，证明了改进方法相对于基线方法的统计显著性。
错误分析：通过详细分析强学生模型的错误案例，识别了常见的错误类型，并提出了改进方向。

这篇文章通过实验验证了弱到强泛化在语言模型对齐中的有效性，并展示了如何通过促进和辩论式学习来提高模型性能和对齐度。尽管存在挑战，但这项工作为未来在AI对齐和安全方面的研究提供了坚实的基础。

4. SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research

Authors: Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom,

Peter Clark, Ashish Sabharwal, Tushar Khot

SUPER：评估智能体在设置和执行研究库中任务的能力

摘要

文章介绍了SUPER，这是首个旨在评估大型语言模型（LLMs）在设置和执行研究库中任务的能力的基准测试。SUPER旨在捕捉研究人员在机器学习和自然语言处理研究库中所面临的现实挑战。基准测试包括三个不同的问题集：45个端到端问题配有专家解决方案，152个从专家集中派生的子问题，专注于特定挑战（例如配置训练器），以及604个自动生成的问题用于更大规模的开发。研究者引入了各种评估措施来评估任务的成功和进展，并展示了现有最先进方法在解决这些问题上的挑战，最好的模型（GPT-4o）仅解决了16.3%的端到端问题集，以及46.1%的场景。这表明了任务的挑战性，并暗示SUPER可以作为社区衡量进展的有价值资源。

创新点

首个基准测试：SUPER是首个评估LLMs在设置和执行研究库任务中的能力的基准测试。
问题集设计：包括端到端问题、专注于特定挑战的子问题，以及自动生成的问题，全面覆盖了研究任务的不同方面。
评估措施：引入了多种评估措施，包括任务成功和进展的评估，利用专家解决方案或近似值进行评估。
实际应用导向：基准测试的设计紧密贴合研究人员在实际工作中可能遇到的挑战，强调了模型在实际应用中的有效性和可行性。

算法模型

问题集构成：包括专家手动编写的问题集、通过“代码掩蔽”机制从专家集中提取的子问题集，以及自动生成的问题集。
评估方法：对于有专家解决方案的问题集，通过比较智能体的答案与专家答案进行评估；对于自动生成的问题集，使用脚本执行成功与否作为代理评估指标。
环境设置：构建了一个允许运行系统shell命令和有状态Python命令的环境，以Jupyter笔记本为引擎。

实验效果

性能数据：在端到端问题集上，最好的模型（GPT-4o）仅解决了16.3%的问题，而在所有场景中解决了46.1%的问题。
子问题解决率：在子问题集上，SWE-Agent模型正确解决了46.1%的挑战，但大多数子问题仍未解决。
自动生成问题集：在自动生成的问题集上，模型和智能体的排名与在子问题集上的排名大体一致，表明该集可能对未来发展有用。
错误分析：智能体在解决具体错误消息的子问题（如CPU支持错误、不兼容依赖或异常）方面表现更好，而在更开放的问题（如为自定义数据集配置数据加载）方面表现较差。

结论

SUPER基准测试证明了即使是当前最好的商业LLMs，如GPT4，在执行研究库任务方面也面临挑战。基准测试揭示了构建自主LLMs执行代理的核心挑战，如仓库推理和代码编辑，希望这些发现能帮助社区在这一重要问题上取得可衡量的进展。

5. “My Grade is Wrong!”: A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays

Authors: Shengxin Hong, Chang Cai, Sixuan Du, Haiyue Feng, Siyuan Liu, Xiuyi

文章标题翻译

文章标题：“My Grade is Wrong!”: A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays

“我的分数错了！”：一个用于评估学生论文的可争议的人工智能框架，用于交互式反馈

摘要

文章介绍了CAELF（Contestable AI Empowered LLM Framework），这是一个用于自动化交互式反馈的框架，通过整合多智能体系统和计算论证来允许学生查询、挑战和澄清他们的反馈。论文首先由多个助教智能体（TA Agents）评估，然后教师智能体通过形式化推理生成反馈和成绩。学生可以进一步与反馈互动以完善他们的理解。通过对500篇批判性思维论文的案例研究和用户研究，证明了CAELF显著改善了交互式反馈，增强了LLMs的推理和交互能力。这种方法为克服在教育环境中限制交互式反馈采用的时间和资源障碍提供了有希望的解决方案。

创新点

交互式反馈：提出了一个允许学生对反馈进行查询和挑战的框架，增加了反馈的互动性。
多智能体系统：通过多智能体之间的讨论和辩论来提高评估的准确性和全面性。
计算论证：利用计算论证的形式化推理来生成反馈，提高了评估的透明度和可解释性。
可争议的AI：框架支持用户对AI的评估结果提出质疑和讨论，使AI的决策过程更加透明和可验证。

算法模型

LLM讨论：多个TA智能体根据评估标准对论文进行讨论，形成论证。
形式化推理：教师智能体通过计算论证分析TA智能体的论证，使用完整的语义学来确定论文的评分和生成总结反馈。
用户交互：学生可以对教师智能体生成的反馈提出挑战，启动新一轮的讨论和反馈生成。

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13（下）+

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13（上）