开发者学堂课程【视觉 AI 应用开发教程: 达摩院视觉 AI 技术应用探索(一)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/289/detail/3410
达摩院视觉 AI 技术应用探索(一)
内容介绍:
一、定义和分类
二、精细理解
三、视觉生成
四、视觉编辑
五、视觉增强
六、视觉迁移
七、视觉制造
一、定义和分类
1. 视觉生产定义
通过一个或者一系列视觉过程,产生新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征
要求:新的,和输入不一样的。
2. 视觉生产分类
生成:从0到1
拓展:从1到 N
摘要:从 N 到1
升维:从 An 到 An+1
增强/变换:从 A 到 B
插入/合成:A+B=C
擦除:A-B=C
1. 生成指的是从无到有的这样一个过程,即从0—1。
2. 扩展是指从已有的图像或视频,扩展到更多的方面
3. 摘要是指从很多的图像或视频中摘取出需要的。
4. 升维的过程指的是增加一个新的维度,例如一个静态图像,加入时间轴之后,就变成了视频。或者是从一个2D 图像变成3D 图像。
3.视觉生产的通用基础框架
输入包括参数,素材,草案,成品,案例等。生产类型有通用生成,素材合成,照图生图,视频摘要,编辑变换和视觉扩展。
生产类型:
1. 通用生成:参数 素材
2. 素材合成: 参数 素材
3. 照图生图:参数 素材 成品
4. 视频摘要:参数 素材 成品
5. 编辑变换:参数 素材/案例
6. 视觉扩展:参数 素材/案例
4.视觉生产-五个关键维度
1. 可看——满足视觉/美学表达
2. 合理——合呼语义/内容逻辑
3. 多样——保证结果的丰富性
4. 可控——提供用户预期的抓手
5. 可用——带来用户/商业价值
二、精细理解
1.精细理解—分割抠图
1.识别:知道是什么
人的识剧 物的识别
2.检测:识别·知道在哪儿
缺陷检测 多目标检测
3. 分割+检测+知道每个像素是什么
全景切割 病灶切割
视觉分割是生产的必要前置步骤。唯能理解,方能生成。
2.分割抠图——难点
复杂背景 遮挡
发丝精抠 边缘反色
透明材质 多尺度/目标
数据严重不足,标注成本高
在特定的情况下的要求会不一样,目标尺度也会有大有小等问题。
3.分割抠图——解题思路
1. 复杂问题拆解:粗 mask 估计+精准 matting
2. 丰富数据样本:设计图像 mask 统一模型
思路:
1. 复杂问题拆解:粗 mask 估计+精准 matting
2. 丰富数据样本:设计图像 mask 统一模型
4.分割抠图——模型框架
步骤一:mask 粗分割
步骤二:mask 质量统一
步骤三:设计精确 alpha
5.分割抠图——效果展示
6. 分割抠图——人像抠图拓展
7. 分割抠图——物体抠图拓展
8. 分割抠图——场景抠图扩展











