11月训练营第一课:视觉生产技术 探索与应用——谢老师
一、视觉生产技术
视觉分两类视觉理解、视觉生产。
1.所谓视觉生产
定义:所谓视觉生产,即通过一个、一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征
要求:新的,和输入不一样的。要通过技术来实现。
图解:
2.分类
生成:从0到1,从无到有。
拓展:从1到N。
摘要:从N到1,留下最重要的东西。
升维:从An到An+1,2D到3D。
增强/变换:从A到B,编辑。
插入/合成:A+B=C,编辑。
擦除:A-B=C,编辑。
3.通用基础框架(图解)
视觉生产引擎:分为生成、搜索两大类。
4.五个关键维度
自底向上:可看(满足视觉、符合美学)——合理(符合逻辑)——多样(保证结果的丰富性)——可控(可个性化)——可用(产生价值)
二、精细理解—寻微入里
1.分割抠图
逻辑上的步骤为依次递增:先识别——再检测——最后分割
2.难点
举例来说,难点包括复杂背景、遮挡、发丝、边缘反色、透明材质、多维度/目标等,且由于数据不足导致标注高成本。
3.解题思路
迭代:语义分割(全景是什么)、实例分割、image matting。
思路:先粗mask,再精确matting。在数据上寻求解决方案。
4.框架模型
步骤:mask粗分割——mask质量统一——估计精确alpha。
5.效果展示
精度、镂空细节、复杂相似背景。
6.人像/物体/场景抠图拓展
透明处的处理等细节处理。
三、视觉生成——从无到有
1.鹿班(图像)
电商设计、智能美工、行业设计
2.视觉框架流程
3.视频生成——wood
4.视频框架流程
素材准备——基础特效——智能特效——智能编排
5.视频摘要
依次为:镜头分割(语音识别)——动作识别(音画匹配)——镜头筛选(边界优化)——排序优化(音频剪辑)——视频合成
6.视频封面
图像增强——内容分析——视频输入——质量审核
四、视觉编辑—移花接木
1.视频植入
广告的植入,要求内容的匹配度高(广告位检测)。
2.动态检测分割
3.视频内容擦除
文字,logo擦除
4.画幅变化、图像尺寸变化
五、视觉增强—修旧如新
1.视频增强
分辨率、帧率、色彩的增强。
2.人脸修复增强
3.渲染超分图
4.视频超分
5.视频插帧
6.HDR色彩扩展
7.风格迁移
8.颜色拓展
满足多样性和合理性。
六、视觉增强—修旧如新
1.现阶段实体设计制造
效率低、协同差、定制难。
2.核心逻辑
3.包装/服装几何生成
4.材质纹理
5.视觉迁移与融合
6.多样性拓展
7.2D3D融合
七、视觉智能开放平台—万剑归宗
1.定位
2.官网
vision.aliyun.com
3.能力分布
4.特点
专业、实用、全面、易用。
5.一站式能力选择
规模化、多样化、细粒度、场景化。
6.省心省力的普惠服务
7.解决方式实例
结束
附图
今日份打卡图
视觉智能开放平台初体验图: