腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法(2)

简介: 腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法

五、实验结果
在实验过程中,我们试图理解以下两点:1)与其他估值方法相比,提出的变分估值方法是否具有更低的解耦误差?2)与经典估值标准相比,我们提出的变分指数能否获得好处?

1. 数据估值实验
我们按照 Ghorbani & Zou (2019)的设置,复用 https://github.com/amiratag/DataShapley 的代码。我们进行数据去除:根据不同标准返回的估值对训练样本进行排序,然后按顺序去除样本,以检查测试准确率下降了多少。直观地说,最好的估值算法会导致性能下降最快。

图 2 中结果显示:在某些情况下,变分指数达到最快的下降率。它总是达到最低的解耦误差(如每个图中的图例所示)。有时变分指数和 Banzhaf 表现出相似的性能, 我们估计这是因为 Banzhaf 值是变分指数的一步近似值,并且对于所考虑的具体问题,在一步不动点迭代之后,解的排名不会改变。


2. 特征估值 / 归因(feature attribution)实验
我们沿用 Lundberg & Lee ( 2017)的设置,并使用 MIT 许可证重用 https://github.com/slundberg/shap 的代码。我们在 Adult 数据集 上训练分类器,该数据集根据人口普查数据预测成人的年收入是否超过 5 万美元。

Feature removal results: 该实验遵循与数据去除实验类似的方式:我们根据返回标准定义的顺序逐一去除特征,然后观察预测概率的变化。Figure 3 报告了三种方法的行为。第一行显示来自 xgboost 分类器的结果(准确度:0.893),第二行显示逻辑回归分类器(准确度:0.842),第三行是多层感知器(准确度:0.861)。对于概率下降的结果,变分指数通常引起最快的下降,它总能达到最小的解耦误差,正如其平均场性质所预期的那样。
从瀑布图可以看出这三个标准确实产生了不同的特征排名。以第一行为例:所有标准都将 “Capital Loss” 和“Relationship”作为前两个特征。然而,剩下的特征有不同的排名:变分指数和 Banzhaf 表示 “Marital Status” 应该排在第三位,而 Shapley 则排在第四位。很难说哪个排名是最好的, 因为:1)没有确定特征真实排名的黄金标准;2) 即使存在一些 “完美模型” 的基本事实排名,这里训练的 xgboost 模型可能无法复制它,因为它可能与 “完美模型” 不一致。


六、结论和未来工作
本文介绍了一种基于能量学习的合作博弈方法,以解决机器学习中的若干估值问题。未来在以下方向非常值得去探索:  1)选择温度 T。温度控制公平性水平,因为当时,所有参与者具有同等重要性,当时,参与者具有 0 或 1 重要性。2)给定概率合作博弈的设定,自然可以在玩家之上添加先验,以便编码更多领域知识。3)在基于能量学习的合作博弈框架中探索一群玩家的互动非常有意义,这有助于研究导致多个玩家联盟之间的 “互动” 指数。

部分参考文献 [Ghorbani & Zou, 2019 ] A. Ghorbani and J. Zou. Data shapley: Equitable valuation of data for machine learning. In International Conference on Machine Learning, pages 2242–2251. PMLR, 2019.[Shapley, 1953] L. S. Shapley. A value for n-person games. Contributions to the Theory of Games, 2(28):307–317, 1953.[Penrose, 1946] L. S. Penrose. The elementary statistics of majority voting. Journal of the Royal Statistical Society, 109(1):53–57, 1946.[Banzhaf III, 1964] J. F. Banzhaf III. Weighted voting doesn’t work: A mathematical analysis. Rutgers L. Rev., 19:317, 1964.[Gutmann and Hyvärinen, 2010] M. Gutmann and A. Hyvärinen. Noise-contrastive estimation: A new estimation principle forunnormalized statistical models. In Proceedings of the Thirteenth International Conference onArtificial Intelligence and Statistics, pages 297–304. JMLRWorkshop and Conference Proceedings, 2010.[Hyvärinen, 2005] A. Hyvärinen. Estimation of non-normalized statistical models by score matching. Journal ofMachine Learning Research, 6(4), 2005.[Minka, 2001] T. P. Minka. Expectation propagation for approximate bayesian inference. In Proceedings of the Seventeenth conference on Uncertainty in artificial intelligence, pages 362–369, 2001.

相关文章
|
5月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1032 125
|
5月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
546 42
|
4月前
|
人工智能 自然语言处理 物联网
GEO优化方法有哪些?2025企业抢占AI流量必看指南
AI的不断重塑传统的信息入口之际,用户的搜索行为也从单一的百度、抖音的简单的查找答案的模式,逐渐转向了对DeepSeek、豆包、文心一言等一系列的AI对话平台的更加深入的探索和体验。DeepSeek的不断迭代优化同时,目前其月活跃的用户已破1.6亿,全网的AI用户规模也已超过6亿,这无疑为其下一阶段的迅猛发展提供了坚实的基础和广泛的市场空间。
|
4月前
|
SQL 人工智能 机器人
AI Agent新范式:FastGPT+MCP协议实现工具增强型智能体构建
FastGPT 与 MCP 协议结合,打造工具增强型智能体新范式。MCP 如同 AI 领域的“USB-C 接口”,实现数据与工具的标准化接入。FastGPT 可调用 MCP 工具集,动态执行复杂任务,亦可作为 MCP 服务器共享能力。二者融合推动 AI 应用向协作式、高复用、易集成的下一代智能体演进。
644 0
|
人工智能 Cloud Native 搜索推荐
【2025云栖大会】阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式
2025云栖大会阿里云AI搜索专场上,发布了年度AI搜索技术与产品升级成果,推出Agentic Search架构创新与云原生引擎技术突破,实现从“信息匹配”到“智能问题解决”的跨越,支持多模态检索、百亿向量处理,助力企业降本增效,推动搜索迈向主动服务新时代。
600 0
|
5月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
716 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
5月前
|
云安全 人工智能 自然语言处理

热门文章

最新文章