达摩院视觉 AI 技术应用探索（一）|学习笔记-阿里云开发者社区

达摩院视觉 AI 技术应用探索（一）|学习笔记

2022-11-19 189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习达摩院视觉 AI 技术应用探索（一）

开发者学堂课程【视觉 AI 应用开发教程：达摩院视觉 AI 技术应用探索（一）】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/289/detail/3410

达摩院视觉 AI 技术应用探索（一）

内容介绍:

一、定义和分类

二、精细理解

三、视觉生成

四、视觉编辑

五、视觉增强

六、视觉迁移

七、视觉制造

一、定义和分类

1. 视觉生产定义

通过一个或者一系列视觉过程，产生新的视觉表达。

产出：人或机器能够感知的图像视频，而不是标签或特征

要求：新的，和输入不一样的。

2. 视觉生产分类

生成：从0到1

拓展：从1到 N

摘要：从 N 到1

升维：从 An 到 An+1

增强/变换：从 A 到 B

插入/合成：A+B=C

擦除：A-B=C

1. 生成指的是从无到有的这样一个过程，即从0—1。

2. 扩展是指从已有的图像或视频，扩展到更多的方面

3. 摘要是指从很多的图像或视频中摘取出需要的。

4. 升维的过程指的是增加一个新的维度，例如一个静态图像，加入时间轴之后，就变成了视频。或者是从一个2D 图像变成3D 图像。

3.视觉生产的通用基础框架

输入包括参数，素材，草案，成品，案例等。生产类型有通用生成，素材合成，照图生图，视频摘要，编辑变换和视觉扩展。

生产类型：

1. 通用生成：参数素材

2. 素材合成: 参数素材

3. 照图生图：参数素材成品

4. 视频摘要：参数素材成品

5. 编辑变换：参数素材/案例

6. 视觉扩展：参数素材/案例

4.视觉生产-五个关键维度

1. 可看——满足视觉/美学表达

2. 合理——合呼语义/内容逻辑

3. 多样——保证结果的丰富性

4. 可控——提供用户预期的抓手

5. 可用——带来用户/商业价值

二、精细理解

1.精细理解—分割抠图

1.识别：知道是什么

人的识剧物的识别

2.检测：识别·知道在哪儿

缺陷检测多目标检测

3. 分割+检测+知道每个像素是什么

全景切割病灶切割

视觉分割是生产的必要前置步骤。唯能理解，方能生成。

2.分割抠图——难点

复杂背景遮挡

发丝精抠边缘反色

透明材质多尺度/目标

数据严重不足，标注成本高

在特定的情况下的要求会不一样，目标尺度也会有大有小等问题。

3.分割抠图——解题思路

1. 复杂问题拆解：粗 mask 估计+精准 matting

2. 丰富数据样本：设计图像 mask 统一模型

思路:

1. 复杂问题拆解：粗 mask 估计+精准 matting

2. 丰富数据样本：设计图像 mask 统一模型

4.分割抠图——模型框架

步骤一：mask 粗分割

步骤二：mask 质量统一

步骤三：设计精确 alpha

5.分割抠图——效果展示

6. 分割抠图——人像抠图拓展

7. 分割抠图——物体抠图拓展

8. 分割抠图——场景抠图扩展