11月视觉训练营第一课笔记

2020-11-27 491

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 视觉生产技术探索与应用听课笔记

11月训练营第一课：视觉生产技术探索与应用——谢老师

一、视觉生产技术

视觉分两类视觉理解、视觉生产。

1.所谓视觉生产

定义：所谓视觉生产，即通过一个、一系列视觉过程，产出新的视觉表达。
产出：人或机器能够感知的图像视频，而不是标签或特征
要求：新的，和输入不一样的。要通过技术来实现。
图解：

2.分类

生成：从0到1，从无到有。
拓展：从1到N。
摘要：从N到1，留下最重要的东西。
升维：从An到An+1，2D到3D。
增强/变换：从A到B，编辑。
插入/合成：A+B=C，编辑。
擦除：A-B=C，编辑。

3.通用基础框架（图解）

视觉生产引擎：分为生成、搜索两大类。

4.五个关键维度

自底向上：可看（满足视觉、符合美学）——合理（符合逻辑）——多样（保证结果的丰富性）——可控（可个性化）——可用（产生价值）

二、精细理解—寻微入里

1.分割抠图

逻辑上的步骤为依次递增：先识别——再检测——最后分割

2.难点

举例来说，难点包括复杂背景、遮挡、发丝、边缘反色、透明材质、多维度/目标等，且由于数据不足导致标注高成本。

3.解题思路

迭代：语义分割（全景是什么）、实例分割、image matting。
思路：先粗mask，再精确matting。在数据上寻求解决方案。

4.框架模型

步骤：mask粗分割——mask质量统一——估计精确alpha。

5.效果展示

精度、镂空细节、复杂相似背景。

6.人像/物体/场景抠图拓展

透明处的处理等细节处理。

三、视觉生成——从无到有

1.鹿班（图像）

电商设计、智能美工、行业设计

2.视觉框架流程

3.视频生成——wood

4.视频框架流程

素材准备——基础特效——智能特效——智能编排

5.视频摘要

依次为：镜头分割（语音识别）——动作识别（音画匹配）——镜头筛选（边界优化）——排序优化（音频剪辑）——视频合成

6.视频封面

图像增强——内容分析——视频输入——质量审核

四、视觉编辑—移花接木

1.视频植入

广告的植入，要求内容的匹配度高（广告位检测）。

2.动态检测分割

3.视频内容擦除

文字，logo擦除

4.画幅变化、图像尺寸变化

五、视觉增强—修旧如新

1.视频增强

分辨率、帧率、色彩的增强。

2.人脸修复增强

3.渲染超分图

4.视频超分

5.视频插帧

6.HDR色彩扩展

7.风格迁移

8.颜色拓展

满足多样性和合理性。

六、视觉增强—修旧如新

1.现阶段实体设计制造

效率低、协同差、定制难。

2.核心逻辑

3.包装/服装几何生成

4.材质纹理

5.视觉迁移与融合

6.多样性拓展

7.2D3D融合

七、视觉智能开放平台—万剑归宗

1.定位

2.官网

vision.aliyun.com

3.能力分布

4.特点

专业、实用、全面、易用。

5.一站式能力选择

规模化、多样化、细粒度、场景化。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料