视觉生产技术入门篇

简介: 视觉生产技术入门学习,什么是视觉生产?视觉生产分割抠图、视觉生成、视觉编辑、视觉增强、视觉制造等。

视觉生产技术

1. 定义和分类

1.1 视觉生产——定义

  • 视觉一般分为两大类

    • 视觉理解:检测、识别、分割等等
    • 视觉生产:怎么产生视觉【通过一个/一系列视觉过程,产出新的视觉表达】

      • 产出:人或机器能够感知的图像视频,而不是标签或特征
      • 要求:新的,和输入不一样的

在这里插入图片描述

1.2 视觉生产——分类

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

1.3 视觉生产——通用基础框架

在这里插入图片描述

1.4 视觉生产——五个关键维度

  1. 满足视觉/美学表现
  2. 合乎语义/内容逻辑
  3. 保证结果的丰富性
  4. 提供用户预期的抓手【可控】
  5. 带来用户/商业价值【可用】

在这里插入图片描述

2. 精细理解——寻微入里

人要先认知世界才能再改造世界

2.1 精细理解——分割抠图

  1. 识别:知道是什么

在这里插入图片描述

  1. 检测:识别 + 知道在哪儿

在这里插入图片描述

  1. 分割:识别 + 检测 + 知道每一个像素是什么

视觉分割是生产的必要前提步骤
唯能理解,方能生成

在这里插入图片描述

2.2 分割抠图——难点

  • 复杂背景
  • 遮挡
  • 发丝精抠、
  • 边缘反色
  • 透明材质、
  • 多尺度/目标

数据严重不足,标注成本高

2.3 分割抠图——解题思路

在这里插入图片描述

  1. 复杂问题拆解:粗mask设计 + 精准matting
  2. 丰富数据样本:设计图像mask统一模型

2.4 分割抠图——模型框架

在这里插入图片描述

2.5 分割抠图——人像抠图

在这里插入图片描述

2.6 分割抠图——物体抠图

在这里插入图片描述

由于每个图的细节等有所不同,所以想用一个model实现分割所有的图是不太可能的

2.7 分割抠图——场景抠图

在这里插入图片描述

3. 视觉生成——从无到有

3.1 视觉生成——框架流程

在这里插入图片描述
在这里插入图片描述

3.2 视觉生成——电商设计

  • 照图生图

    • 参考原图,将风格、布局等信息学习并迁移到目标数据上

在这里插入图片描述

  • 个性化设计

    • 多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计

在这里插入图片描述

3.3 视觉生成——场景智能美工

  • IN:营销场景 + 原始素材
  • OUT:营销图片
  • 调用方式:API

在这里插入图片描述

3.4 视觉生成——AlibabaWood

在这里插入图片描述

3.5 视觉生成——框架流程

在这里插入图片描述

4. 视觉编辑——移花接木

4.1 视频植入

  • 目前大部分广告都是与内容无关的,对用户不太友好,视频植入手段可将广告植入到视频中,提升用户体验
    在这里插入图片描述

在这里插入图片描述

4.2 视觉编辑——植入位检测与定位

在这里插入图片描述

4.3 视觉编辑——动态检测分割

  • 单独分割
  • 遮挡关系等

4.4 视觉编辑——视频内容擦除

在这里插入图片描述

4.5 视觉编辑——文字擦除

在这里插入图片描述

4.6 视觉编辑——画幅变化

在这里插入图片描述
在这里插入图片描述

4.7 视觉编辑——图像尺寸变化

  • 在不同场合图像尺寸可以自动变化

在这里插入图片描述

5. 视觉增强——修旧如新

5.1 视觉增强——视频增强

在这里插入图片描述

5.2 视觉增强——人脸修复增强

  • 人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值
  • eg:老照片修复

在这里插入图片描述

5.3 视觉增强——渲染图超分

  • CG渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要30分钟才能产生一张图像
  • 针对CG渲染流水线研发的超高分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度
    在这里插入图片描述

5.4 视觉增强——HDR色彩扩展

在这里插入图片描述

5.5 视觉增强——风格迁移

在这里插入图片描述

5.5 视觉增强——颜色拓展

在这里插入图片描述
在这里插入图片描述

6. 视觉制造——由虚入实

6.1 实体设计制造

  • 效率低:多次打样,多次沟通
  • 协同差:设计、营销、生成脱节、倒置
  • 定制难:无法实现柔性生产

在这里插入图片描述

6.2 视觉制造——核心逻辑

在这里插入图片描述

6.3 视觉制造——几何生成

  • 包装几何生成

在这里插入图片描述

  • 服装几何生成

在这里插入图片描述

6.4 视觉增强——材质工艺

在这里插入图片描述

6.5 视觉增强——视觉迁移及融合

在这里插入图片描述

6.6 视觉制造——多样性拓展

在这里插入图片描述

6.7 视觉制造——2D 3D融合

在这里插入图片描述

7. 视觉开放平台——万剑归宗

  • 官网:vision.aliyun.com

在这里插入图片描述

目录
相关文章
|
前端开发 JavaScript
Jupyter Notebook自动补全代码配置
Jupyter Notebook自动补全代码配置
2409 0
Jupyter Notebook自动补全代码配置
|
AI芯片
AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。
1977 3
AIGC视频生成/编辑技术调研报告
数据投毒攻击和模型投毒攻击
数据投毒攻击通过污染恶意客户端的训练数据,模型投毒攻击则修改全局模型嵌入后门。前者依赖固定模式触发器或优化触发器模式,但存在异常修改易被检测和异质性导致效果不佳的问题。后者需大量系统先验信息,现实中难以获取,且面对新兴防御策略,成功发动后门攻击愈发困难。
|
关系型数据库 MySQL 容器
docker-compose安装mysql并指定忽略表名大小写以及挂载配置文件
docker-compose安装mysql并指定忽略表名大小写以及挂载配置文件
1074 0
docker-compose安装mysql并指定忽略表名大小写以及挂载配置文件
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
463 2
|
弹性计算 安全 关系型数据库
rds安全组规则
云数据库RDS的安全组规则是虚拟防火墙,用于控制网络访问权限,确保数据库安全。配置要点包括:指定RDS实例的安全组,设定入方向规则(如源IP、协议和端口),考虑默认规则的开放程度。根据场景,同组内外的ECS实例需不同配置。管理员应合理规划规则,确保业务需求与安全性平衡,并定期审计更新。
369 3
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
656 2
|
人工智能 算法 安全
智能时代的伦理困境
随着人工智能技术的迅猛发展,人类社会正面临着前所未有的伦理挑战。本文将深入探讨AI技术所带来的隐私泄露、数据安全、偏见与歧视以及失业问题等四大伦理困境,并从法律、政策和个人隐私保护等方面提出应对策略。同时,通过分析具体的AI应用案例,揭示伦理问题的复杂性和紧迫性,以期在技术与道德之间找到平衡点,确保AI技术的发展造福于全人类。
|
人工智能 安全 网络协议
如何防御DDoS攻击?教你由被动安全转变为主动安全
如何防御DDoS攻击?教你由被动安全转变为主动安全
766 0