达摩院视觉算法黑科技之透明抠图

简介: 透明抠图问题作为抠图问题的一种,其采用的方法和模型构建与通常的模型有所不同,透明抠图需要将环境光,折射率的影响纳入计算,而一般的折射光图又很难获得,因此透明抠图的模型在过去一直难以建立,或者说很难达到令人满意的效果,达摩院视觉算法团队通过双分支解码器(Object Mask获取,Opacity预测),颜色纠正模块,对图像实现高精度透明抠图。

透明抠图 vs 非透明抠图
物体的抠图问题可以定义为求解以下的公式,即给定图像I,求解前景颜色F、背景颜色B和Alpha matte的线性组合:
1.png
对于透明物体而言,它展现在观察者眼中的颜色是由其前景颜色,背景颜色以及环境光线经过前景物体自我反射折射混合而成的,因此,它的公式会更加复杂一些:
2.png
3.png

4.png表示的是环境光的影响 它是所有光线E(w)与反射率方程R乘积在所有点上的二重积分,求解很复杂[1],导致实现精确的透明抠图是一个非常困难的问题。因此,现有透明抠图研究的目标也是实现视觉感受“真实”的抠图而已,并非追求完全真实的抠图结果。

现有研究
SOTA的Matting算法在同时提供原图和对应trimap的情况下,可以的实现对半透物体的处理(如下图为GCA-Matting[2]的效果),但tripmap在实际的图像的处理中难以获取,限制了这类算法其在业务中的使用。
5.png
TOM-Net[3]将透明抠图问题视为折射流的估计问题,网络支持对单图输入,经过三分支的编解码器网络,分别预测图像的Object Mask,attenuative mask,flow mask(折射流图),并可以通过折射流信息进一步在新的背景进行合成。该方法的局限性在于其假设物体必须全部为无色透明物体,并且在训练过程中需要折射流图作为label, 而折射流图在真实世界是非常难以获取的,因此该方法的训练数只能依赖于图形学合成,与真实透明图像的分布无法一致(图像的语义合理性存疑,例如玻璃杯在山前悬浮)。经过我们在实际数据上的测试,该方法在实际图像的表现并不理想。
6.png
[4]提出了基于语义分支和边缘分支结构的真实世界透明物体分割网络,通过边界注意力模块(Boundary Attention Modeule)增强对透明物体的分割精度,并发布了目前数量最大的透明物体分割标注数据集Trans10K。然而,文章提出的算法和发布的数据集都是处理到语义分割层面,并没有对物体的透明度做进一步处理。
7.png

问题简化
考虑到透明抠图问题本身难以求解,而且数据构建也非常困难,在实际的应用场景中,为保证同时保证算法的泛化能力和抠图效果,我们对问题进行了简化, 我们假设所需处理的物体的透明部分是无色的,且所在环境的背景颜色分布相对均匀。在这样的条件下,背景的自发光或反射光的颜色可以认为是全局一致的颜色,不会出现多种颜色叠加的情况,4.png的估计就只是和背景颜色相关了。特别的,如果预知背景的颜色,可以通过将其作为先验引入4.png中,对结果进行背景杂色的抑制及去除。

模型设计
我们的模型输入为单张图像,首先提取其深层特征。然后进行语义级别的分割和提取,力求完整准确地获得物体所在图像区域(Mask)。同步进行对图像物体不透明度(Opacity)的预测。而不透明度(Opacity)的预测由于在训练的时候没有进行语义的约束,容易存在非主体区域的噪声影响,因此,将两者进行融合可以将透明信息约束在主体范围内。
最后,对于已知背景颜色先验的场景(如已知是绿幕),我们可以引入颜色纠正模块,实现对背景透出的杂色进行去除。对于背景颜色未知,但饱和度低的场景,抠图结果也依然可用。

结果与应用
在已知背景颜色先验的情况下,可以通过颜色纠正模块对背景透出的杂色进行去除(左到右:实拍图,Opacity, 直接抠图结果,色偏纠正结果)
8.png
9.png

对于背景颜色未知,但饱和度低的场景,抠图结果也依然可用。
10.png

更多结果
11.png
12.png
目前在车辆分割算法上,我们已经实现了基于透明抠图的思路用于改善半透车窗区域的效果,使得车辆经过抠图,能够更加自然和谐与新背景进行融合。目前车辆分割已经上线阿里云视觉智能开放平台(https://vision.aliyun.com/),欢迎大家体验试用。
13.png

总结与展望
目前的透明抠图算法,面对更为多样的真实场景下物体,仍然具有以下不足,需要进一步探索解决:
1.真实透明物体图像数据量严重不足,且标注困难;
2.主体不透明度图(Opacity)的预测容易受到图像中噪声的影响;
3.在得到Opacity图后,在未知背景先验,且背景颜色饱和度高的情况下,如何实现将背景色的去除(如下图的杯子整体泛蓝);
后续我们会考虑进一步提取背景的特征,将背景先验知识引入到透明度的估计上,增加RGB偏移输出信息,尝试对前景物体的颜色进行纠正

[1] Environment matting and compositing
[2] Natural Image Matting via Guided Contextual Attention
[3] Learning Transparent Object Matting
[4] Segmenting Transparent Objects in the Wild

目录
相关文章
|
机器学习/深度学习 编解码 算法
基于深度学习的图像抠图算法
数字图像抠图是当前计算机视觉的热门研究问题之一,其广泛应用于电脑特效制作、电影电视作品创作等领域。图像抠图的本质是图像的软分割,旨在提取图片、视频流中创作者感兴趣的前景物体,并将其同背景剥离和目标背景进行融合,从而获得新的具有视觉冲击力的图片或视频流。电影工业上常用绿幕来辅助抠图,但在自然图像中,如何精确地提取前景物体成为了当前研究的重难点。目标物体边缘的细节信息,包括动物的毛发、半透明的物件、颜色相近的物体、模糊的轮廓都会不同程度地影响图像抠图精度。
881 0
|
算法 计算机视觉 数据可视化
揭秘阿里妈妈智能抠图算法:简单几笔,精准抠图
阿里妈妈智能抠图编辑器旨在为设计领域提供简单、易用的在线抠图工具。用户只需要简单几笔甚至不需要任何操作即可以将目标从图片中高精度提取出来,包括头发丝,婚纱,玻璃瓶、烟雾等半透明区域。
6298 0
|
7天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
13天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
9天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
6天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
|
10天前
|
算法
通过matlab分别对比PSO,反向学习PSO,多策略改进反向学习PSO三种优化算法
本项目使用MATLAB2022A版本,对比分析了PSO、反向学习PSO及多策略改进反向学习PSO三种优化算法的性能,主要通过优化收敛曲线进行直观展示。核心代码实现了标准PSO算法流程,加入反向学习机制及多种改进策略,以提升算法跳出局部最优的能力,增强全局搜索效率。
|
3天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
9天前
|
算法 5G 数据安全/隐私保护
基于MIMO系统的PE-AltMin混合预编码算法matlab性能仿真
本文介绍了基于交替最小化(AltMin)算法的混合预编码技术在MIMO系统中的应用。通过Matlab 2022a仿真,展示了该算法在不同信噪比下的性能表现。核心程序实现了对预编码器和组合器的优化,有效降低了硬件复杂度,同时保持了接近全数字预编码的性能。仿真结果表明,该方法具有良好的鲁棒性和收敛性。
23 8