达摩院视觉 AI 技术应用探索(一)|学习笔记

简介: 快速学习达摩院视觉 AI 技术应用探索(一)

开发者学堂课程【视觉 AI 应用开发教程 达摩院视觉 AI 技术应用探索(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/289/detail/3410


达摩院视觉 AI 技术应用探索(一)


 内容介绍:

一、定义和分类

二、精细理解

三、视觉生成

四、视觉编辑

五、视觉增强

六、视觉迁移

七、视觉制造

 

一、定义和分类

1. 视觉生产定义

通过一个或者一系列视觉过程,产生新的视觉表达。

产出:人或机器能够感知的图像视频,而不是标签或特征

要求:新的,和输入不一样的。

image.png

2. 视觉生产分类

生成:从0到1

拓展:从1到 N

摘要:从 N 到1

升维:从 An 到 An+1

增强/变换:从 A 到 B

插入/合成:A+B=C

擦除:A-B=C

image.png

1. 生成指的是从无到有的这样一个过程,即从0—1。

2. 扩展是指从已有的图像或视频,扩展到更多的方面

3. 摘要是指从很多的图像或视频中摘取出需要的。

4. 升维的过程指的是增加一个新的维度,例如一个静态图像,加入时间轴之后,就变成了视频。或者是从一个2D 图像变成3D 图像。

3.视觉生产的通用基础框架

输入包括参数,素材,草案,成品,案例等。生产类型有通用生成,素材合成,照图生图,视频摘要,编辑变换和视觉扩展。

生产类型:

1. 通用生成:参数 素材

2. 素材合成: 参数 素材

3. 照图生图:参数 素材 成品

4. 视频摘要:参数 素材 成品

5. 编辑变换:参数 素材/案例

6. 视觉扩展:参数 素材/案例

image.png

4.视觉生产-五个关键维度

1. 可看——满足视觉/美学表达

2. 合理——合呼语义/内容逻辑

3. 多样——保证结果的丰富性

4. 可控——提供用户预期的抓手

5. 可用——带来用户/商业价值

image.png


二、精细理解

1.精细理解—分割抠图

1.识别:知道是什么

人的识剧 物的识别

2.检测:识别·知道在哪儿

缺陷检测 多目标检测

3. 分割+检测+知道每个像素是什么

全景切割 病灶切割

image.png

视觉分割是生产的必要前置步骤。唯能理解,方能生成。

2.分割抠图——难点

复杂背景 遮挡

发丝精抠 边缘反色

透明材质 多尺度/目标

数据严重不足,标注成本高

image.png

在特定的情况下的要求会不一样,目标尺度也会有大有小等问题。

3.分割抠图——解题思路

1. 复杂问题拆解:粗 mask 估计+精准 matting

2. 丰富数据样本:设计图像 mask 统一模型

思路:

1. 复杂问题拆解:粗 mask 估计+精准 matting

2. 丰富数据样本:设计图像 mask 统一模型

image.png

4.分割抠图——模型框架

步骤一:mask 粗分割

步骤二:mask 质量统一

步骤三:设计精确 alpha

image.png

5.分割抠图——效果展示

image.png

6. 分割抠图——人像抠图拓展

image.png

7. 分割抠图——物体抠图拓展 

image.png

8. 分割抠图——场景抠图扩展

image.png

相关文章
|
编解码 Ubuntu 虚拟化
【问题解决】VMware安装ubuntu操作系统出现分辨率的问题
【问题解决】VMware安装ubuntu操作系统出现分辨率的问题
2415 0
【问题解决】VMware安装ubuntu操作系统出现分辨率的问题
|
开发工具 git
如何在vscode编辑器中实时查看代码git记录(被谁修改、自己什么时候修改)
如何在vscode编辑器中实时查看代码git记录(被谁修改、自己什么时候修改)
6910 0
如何在vscode编辑器中实时查看代码git记录(被谁修改、自己什么时候修改)
|
5月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
8月前
|
人工智能 安全 虚拟化
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
Cua是一个结合高性能虚拟化与AI代理能力的开源框架,能在Apple Silicon上以接近原生性能运行虚拟机,并让AI直接操作系统应用。
1214 17
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
|
消息中间件 存储 监控
RocketMQ Tag 详解!
本文详细介绍了 RocketMQ 中 Tag 的原理及其应用场景。Tag 是一种消息过滤机制,允许生产者在发送消息时指定标签,消费者据此选择性消费。文章通过源码分析展示了 Tag 在消息发送、存储及消费阶段的作用,并提供了完整的示例代码。尽管 Tag 功能简单高效,但也存在单一维度过滤等局限性。适合需要高效、低延迟消息传递的场景,如日志监控、电商系统等。
1632 2
|
缓存 监控 API
apigateway中api管理
apigateway中api管理
177 7
|
存储 数据可视化 数据挖掘
R语言绘制圈图、环形热图可视化基因组实战:展示基因数据比较
R语言绘制圈图、环形热图可视化基因组实战:展示基因数据比较
|
SQL 分布式计算 Oracle
大数据数据采集的数据迁移(同步/传输)的Sqoop之概念
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将会对Sqoop进行详细介绍。
941 1
|
SQL 存储 Ubuntu
SQL Server On Linux 安装详解
SQL Server On Linux 安装详解
|
存储 弹性计算 分布式计算
阿里云服务器机型这么多怎么选择?各规格族应用场景解析
云服务器具有广泛的应用场景,既可以作为Web服务器或者应用服务器单独使用,又可以与其他阿里云服务集成提供丰富的解决方案。
656 0