神经网络决策过程可视化:AI眼中马云、马化腾、李彦宏谁最有吸引力?

简介: 神经网络在进行图像分类时如何做决策?The Hive的机器学习工程师利用开源的grad-cam项目,预测神经网络决策和图像分析时的焦点,发现神经网络关注的部分实际上与人十分类似。但是,也是有意外的地方。

神经网络所学会的“吸引力”是什么?

在判断一张图片是否安全时,神经网络看的是哪些部分?

使用grad-cam,我们探索了模型的预测过程,对于不同类型的图片,包括动作/静态、暴力、吸引力、年龄、种族等等。

30ee523cd9534609d9f8b90cab3b66c72c5adc7d

很显然,在上面展示的图片中,吸引力模型关注的是身体而非面部。有趣的是,模型在训练过程中没有接触任何明确定义的边界框,但即使如此,仍然学会了定位人体

487fe62813cd5bf2b12a67a04786cb0b0e382030

这个模型使用200k图像做训练,标记由Hive团队完成,一共分为3个类别:有吸引力(hot)、中立(neutral)、没有吸引力。

然后,所有得分会综合在一起,创建一个从0到10的评分等级。分类器地址:https://thehive.ai/demo/attractiveness

举个例子,如果让模型来判断BAT各家掌门人的吸引力得分,将会是这个样子:

cec9dd79c1a4966f12d0598a1d833d7759670e4c

关键的想法是,在全局池化前将logit层应用到最后一个卷积层。这会创建一个map,显示网络决策过程中每个像素的重要性。

fd36177a220b65e8f0e30f398cd47e5ea6d5cb1f

一个穿西装的人位于图片正中(上图右),表明这是电视节目,而不是商业广告。电视节目/商业广告模型,很好地展示了grad-CAM发现的模型决策背后的意外原因。另一方面,模型也能证实了我们的预期,比如左边那幅单板滑雪的例子(上图左)。

a60dce52c1169027ea2202679890afde2abaf20e

上面是动画节目分类器的结果。很有意思的是,在Bart & Morty中,最重要的部分是边缘(上图左)和背景(上图右),令人颇为意外。

e4a93881e99175dde94445f15edb903e5411a1b7

CAM & GradCam:分类时,神经网络正在看什么

类别激活地图(CAM)由Zhou[2]首先开发,能够显示网络正在看什么。对于每个类别,CAM能表明这个类别中最重要的部分。

后来,Ramprasaath对CAM做了扩展,让它在不需要做任何更改的情况下,能够适用于更广泛的架构。具体说,grad-CAM可以处理全连接层和更复杂的问题,如问题回答。幸运的是,我们完全不需要修改网络来计算grad-CAM。


最近,grad-CAM++ Chattopadhyay[4]进一步扩展了这种方法,提高输出热图的精度。Grad-CAM++能够更好地处理类别的多个实例,并突出显示整个类别,而不仅仅是最显著的部分。Grad-CAM++使用正偏导数的加权组合来实现这一点。

TensorFlow实现及代码

22eb4cc9cafbfb3eeef568e35ed433771d177401

这只返回一个num_classes元素的数组,其中只有预测类别的logit非零。这定义了损失。

62dc589857f397a9f8da78f2ccf15df3326b224a

然后,计算相对于网络的最后一个卷积层的损失的导数,并对这些梯度进行正则化。

c91626831c52fc6f4965a0afc5ba37c8cd967b5e

运行图,计算我们输入的最后一个卷积层。

16efbded827c006a34ad30914464407deead770e

计算权重作为每个10x10网格的梯度值的均值(假设输入大小为299x299)。有2048个权重,因为我们使用的网络在10x10的最终卷积层上有2048个输出通道。

8256cc10004b993191cd638767a4f7c48267dfd0

创建cam 10x10粗略输出,作为平均梯度值和最终卷积层的加权和。

054f7b4a580c23e3500778d61a8a15665fcad21c

将cam输入一个RELU,只接收这个类别的正向建议。然后,将粗略cam输出调整为输入大小并混合显示。

最后,主要函数获取TensorFlow Slim模型的定义和预处理函数。用这些算法计算grad-CAM输出,并将其与输入照片混合。在下面的代码中,我们使用softmax概率最大的类别作为grad_cam的输入。例如:

48fe15dbe324633373aa200fab8cdea401b65a1a

该模型首选预测酒精为99%,赌博只有0.4%。不过,通过将预测类别从酒类转为赌博,我们可以看到,尽管类别概率很低,但模型仍然可以清楚地指出图像中的赌博元素(见右图)。


原文发布时间为:2018-01-12

本文作者:费欣欣

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:神经网络决策过程可视化:AI眼中马云、马化腾、李彦宏谁最有吸引力?

相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
902 56
|
3月前
|
人工智能 供应链 数据可视化
一文读懂AI引擎与Together规则引擎重塑智能决策
从1950年图灵提出人工智能设想到如今AI引擎实现自主决策,Together规则引擎正成为智能决策核心。它通过动态规划、多工具调用与持续学习机制,赋能供应链、财务、定价等场景,提升决策透明度与效率。Together助力AI引擎突破落地瓶颈,推动企业管理迈向“决策即服务”新时代。
|
4月前
|
机器学习/深度学习 人工智能 算法
从人工决策到AI自主规划:2025物流配送管理工具的智能化升级
物流配送管理工具正经历技术革新,从手工调度1.0迈向数字孪生与AI驱动的4.0时代。新一代系统融合IoT、强化学习与路径优化算法,实现智能调度、实时执行与资源优化。多模态感知、自适应路由与弹性网络设计推动物流数字化转型。未来,量子计算、自主物流网络与认知型AI将重塑行业格局,助力物流向高效、绿色、韧性发展。
750 0
|
5月前
|
人工智能 NoSQL Redis
企业级Agent系统中AI决策错误带来损失,如何通过HITL机制解决?
本文AI专家三桥君探讨了企业级Agent系统中Human-in-the-Loop(HITL)机制的关键作用,旨在解决AI在复杂业务场景中“聪明但错误”的决策问题。通过单机模式(LangGraph中断恢复)、工具调用管控(集中看守/自我管理)及分布式架构(FastAPI+Redis)三种方案,实现人类专家在关键节点的精准干预。三桥君还提出故障恢复策略与异步优化等企业级实践,强调HITL能有效降低AI决策风险,提升系统可靠性,为AI产品经理提供技术落地方向。
238 0
|
3月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
308 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
2月前
|
存储 人工智能 前端开发
超越问答:深入理解并构建自主决策的AI智能体(Agent)
如果说RAG让LLM学会了“开卷考试”,那么AI智能体(Agent)则赋予了LLM“手和脚”,使其能够思考、规划并与真实世界互动。本文将深入剖析Agent的核心架构,讲解ReAct等关键工作机制,并带你一步步构建一个能够调用外部工具(API)的自定义Agent,开启LLM自主解决复杂任务的新篇章。
471 6
|
2月前
|
人工智能 监控 Java
Java与AI智能体:构建自主决策与工具调用的智能系统
随着AI智能体技术的快速发展,构建能够自主理解任务、制定计划并执行复杂操作的智能系统已成为新的技术前沿。本文深入探讨如何在Java生态中构建具备工具调用、记忆管理和自主决策能力的AI智能体系统。我们将完整展示从智能体架构设计、工具生态系统、记忆机制到多智能体协作的全流程,为Java开发者提供构建下一代自主智能系统的完整技术方案。
455 4
|
3月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
254 10
|
3月前
|
存储 人工智能 达摩院
|
2月前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)