图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分

简介: 图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分


机器之心编译编辑:袁铭怿

本文提出注意力中心模型,用于预测人眼在图像上首先注意到的位置,从而提高用户体验。

当观察一副图像时,你会先注意图像的哪些内容,或者说图像中的哪些区域会首先吸引你的注意力,机器能否学会人类的这种注意力形式。在来自谷歌的一项研究中,他们开源的注意力中心模型(attention center model)可以做到这一点。并且该模型可用于 JPEG XL 图像格式上。


举例来说,下图是注意力中心模型的一些预测示例,其中绿点为预测的图像的注意力中心点。


图像来自 Kodak 图像数据集:http://r0k.us/graphics/kodak/


注意力中心模型大小为 2MB,格式为 TensorFlow Lite。它以 RGB 图像作为输入,并输出一个 2D 点,该点是图像上的预测注意力中心点。


为了训练模型来预测注意力中心,首先需要一些来自注意力中心的真实数据。给定一张图像,一些注意力点可以通过眼动仪收集,或者通过鼠标点击图像来接近。该研究首先对这些注意点进行时间滤波,只保留最初的注意力点,然后应用空间滤波去除噪声。最后,计算剩余注意力点的中心作为真值注意力中心。下面显示了获取真值过程的示例说明图。


项目地址:https://github.com/google/attention-center


注意力中心模型架构


注意力中心模型是一个深度神经网络,以一张图像为输入,使用预训练分类网络如 ResNet、MobileNet 等作为骨干。从骨干网络输出的几个中间层被用作注意力中心预测模块的输入。这些不同的中间层包含不同的信息,例如,浅层通常包含较低层次的信息,如强度 / 颜色 / 纹理,而更深层次通常包含更高、更语义的信息,如形状 / 目标。


注意中心预测采用卷积、反卷积调整算子,并结合聚合和 sigmoid 函数,生成注意力中心的权重图。然后一个算子(在例子中是爱因斯坦求和算子)可用于从加权图中计算中心。预测注意力中心和真实注意力中心之间的 L2 范数作为训练损失。



此外 JPEG XL 是一种新的图像格式,允许用户在对图像编码时,确保有趣的部分率先显示。这样做的好处是,当用户在网上浏览图像时,图像中吸引人的部分可以率先显示出来,也就是用户首先看到的部分,在理想情况下,一旦用户看向图片其余地方时,图像的其他部分也已经就位并已解码。


在 JPEG XL 中,图像通常被划分为大小为 256 x 256 的矩阵, JPEG XL 编码器将在图像中选择一个起始组,然后围绕该组生成同心正方形。Chrome 浏览器从 107 版增加了对 JPEG XL 图像的渐进解码功能。目前,JPEG XL 还是一个实验性的产物,在 chrome://flags 中通过搜索 jxl 即可启用。


要想了解渐进式加载 JPEG XL 图像的效果,可以访问网址进行查看:https://google.github.io/attention-center/


原文链接:

https://opensource.googleblog.com/2022/12/open-sourcing-attention-center-model.html


相关文章
|
XML 安全 C++
DBus类型系统以及在Qt和C++ 中的使用(二)
DBus类型系统以及在Qt和C++ 中的使用
800 0
|
机器学习/深度学习 算法 数据挖掘
Python 图像处理实用指南:6~10
Python 图像处理实用指南:6~10
711 0
|
7月前
|
算法 数据可视化 Java
三维基因组:Loop结构 差异分析(1)
三维基因组:Loop结构 差异分析(1)
三维基因组:Loop结构 差异分析(1)
|
安全 数据库 数据安全/隐私保护
Sql-lab全解_sqllab,给后辈的一点建议
Sql-lab全解_sqllab,给后辈的一点建议
|
编译器 API C#
技术心得记录:深入分析C#键盘勾子(Hook)拦截器,屏蔽键盘活动的详解
技术心得记录:深入分析C#键盘勾子(Hook)拦截器,屏蔽键盘活动的详解
|
人工智能 自然语言处理 网络协议
ps beta ai显示高峰需求进不去怎么办? psai高峰期需求用不了解决办法
PSBetaAI2023加入了AI的功能,在使用过程中,有时会遇到一个令人烦恼的问题,那就是PhotoshopBetaAI提示我们正在面临高峰需求,请稍候再试,针对这个问题,本文为大家整理了几个可行的解决方法,可以根据自己的实际情况来尝试解决
347 12
|
Linux 网络安全 Windows
[linux]frp内网穿透
[linux]frp内网穿透
317 2
|
机器学习/深度学习 数据可视化 搜索推荐
用Python进行社交媒体分析:挖掘用户行为和趋势
【4月更文挑战第12天】本文介绍了Python在社交媒体分析中的应用,包括数据处理、可视化、机器学习等方面的优势。基本流程涉及数据获取、预处理、探索、模型选择与训练、评估优化以及结果可视化。文中给出了用户行为分析、话题趋势分析和用户画像分析的Python代码示例,展示了Python在这一领域的实用性。通过学习和实践,读者可以掌握Python进行社交媒体分析的技能。
1375 4
|
NoSQL Linux Redis
Windows系统下安装Redis详细步骤
本文介绍Windows系统下安装Redis详细步骤
6330 1
Windows系统下安装Redis详细步骤