阿里视觉AI训练营-day01

简介: 从视觉生产技术的定义和分类、精细理解、视觉生产等方面讲解

视觉生产技术

一.定义和分类:

1.1.定义:通过一个/一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征;
要求:新的,和输入不一样的

在这里插入图片描述

1.2.分类:

在这里插入图片描述

1.3.通用基础框架

在这里插入图片描述

1.4.五个关键维度
  • 满足视觉/美学表现
  • 合乎语义/内容逻辑
  • 保证结果的丰富性
  • 提供用户预期的抓手【可控】
  • 带来用户/商业价值【可用】
    在这里插入图片描述

二.精细理解

2.1.分割抠图
  • 识别:知道是什么?
    在这里插入图片描述
  • 检测:识别 + 知道在哪儿
    在这里插入图片描述
  • 分割:识别 + 检测 + 知道每一个像素是什么
    在这里插入图片描述
2.2.分割抠图---难点
  • 复杂背景
  • 发丝精扣
  • 透明材质
  • 遮挡
  • 边缘反色
  • 多尺度/目标

数据严重不足,标注成本高

在这里插入图片描述

2.3.分割抠图--解题思路

在这里插入图片描述

  1. 复杂问题拆解:粗mask设计 + 精准matting
  2. 丰富数据样本:设计图像mask统一模型
2.4.分割抠图--模型框架

在这里插入图片描述

2.5.分割抠图--人像抠图

在这里插入图片描述

2.6.分割抠图--物体抠图拓展

在这里插入图片描述

2.7.分割抠图——场景抠图

在这里插入图片描述

三.视觉生成

3.1视觉生成--框架流程

在这里插入图片描述

3.2.视觉生成--电商设计
  • 照图生图
    在这里插入图片描述
  • 个性化设计
    在这里插入图片描述
3.3.视觉生成--鹿班场景智能美工
  • IN:营销场景+原始素材
  • OUT:营销图片
  • 调用方式:API
    在这里插入图片描述

##### 3.4.视觉生成--AlibabaWood
一键生成短视频:AlibabaWood
在这里插入图片描述

3.5.视觉生成--框架流程

在这里插入图片描述

四.视觉编辑--移花接木

4.1.视频植入
  • 目前大部分广告都是与内容无关的,对用户不太友好,视频植入手段可将广告植入到视频中,提升用户体验
    在这里插入图片描述

在这里插入图片描述

4.2.视觉编辑——植入位检测与定位

在这里插入图片描述

4.3.视觉编辑——动态检测分割
  • 单独分割
  • 遮挡关系等
    在这里插入图片描述

##### 4.4.视觉编辑——视频内容擦除
在这里插入图片描述
##### 4.5.视觉编辑——文字擦除
在这里插入图片描述
##### 4.6.视觉编辑——图像尺寸变化
在这里插入图片描述
## 五.视觉增强——修旧如新
##### 5.1.视觉增强——视频增强
在这里插入图片描述

5.2.视觉增强——人脸修复增强

在这里插入图片描述

5.3.视觉增强——风格迁移

在这里插入图片描述

5.4.视觉增强——颜色拓展

在这里插入图片描述

六.智能开放平台

在这里插入图片描述在这里插入图片描述在这里插入图片描述

目录
相关文章
|
27天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
10天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
49 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
6天前
|
人工智能 缓存 Ubuntu
AI+树莓派=阿里P8技术专家。模拟面试、学技术真的太香了 | 手把手教学
本课程由阿里P8技术专家分享,介绍如何使用树莓派和阿里云服务构建AI面试助手。通过模拟面试场景,讲解了Java中`==`与`equals`的区别,并演示了从硬件搭建、语音识别、AI Agent配置到代码实现的完整流程。项目利用树莓派作为核心,结合阿里云的实时语音识别、AI Agent和文字转语音服务,实现了一个能够回答面试问题的智能玩偶。课程展示了AI应用的简易构建过程,适合初学者学习和实践。
55 22
|
18天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
38 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
20天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
284 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
10天前
|
人工智能 API 开发者
阿里CEO吴泳铭-2024互联网大会发言:AI的最大价值是推动生产力变革
11月21日,2024年世界互联网大会“互联网企业家论坛”在乌镇召开。阿里巴巴CEO吴泳铭表示,AI的最大价值在于推动各行各业的生产力变革,而非仅限于开发超级APP。他强调,发展AI需建设繁荣的技术、产品和市场生态。目前,30多万家企业已接入阿里“通义”大模型,应用于代码开发、药物研发等场景。阿里巴巴坚持开源路线,全球开发者基于“通义千问”开发的衍生模型已突破7.8万个。吴泳铭认为,AI的发展需要行业共同努力,建设繁荣生态以实现高质量持续发展。
|
30天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
24天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
305 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
2月前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
|
27天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
38 0

热门文章

最新文章