阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

1.视觉生产定义和分类

视觉生产的定义:通过一个/一系列视觉过程,产生新的视觉表达。

截屏2020-10-30 下午3.24.03.png

视觉生产的分类:

  • 生产: 从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1 (比如从二维到三维,从图片到视频)
  • 增强/变换: 从A到B
  • 插入/合成:A+B=C
  • 擦除:C-A=B

视觉生产通用基础框架:

截屏2020-10-30 下午5.11.23.png

视觉生产的五个关键维度:

  1. 可看 满足视觉/美学表现
  2. 合理 合乎语义/内容逻辑
  3. 多样 保证结果的丰富性
  4. 可控 提供用户预期的抓手
  5. 可用 带来用户/商业的价值

2.精细理解

精细理解——分割抠图

1.识别:通过AI人工智能识别画面中所描述的是什么。是人?是物?

2.检测:识别画面中的场景在哪?

3.分割:识别+检测,精准的分别物和场景,知道每一个像素是什么。

分割抠图——难点

  • 复杂背景
  • 遮挡
  • 发丝精扣
  • 边缘反色
  • 透明材质
  • 多尺度/目标

主要难点:数据严重不足,标注成本高

分割抠图——模型框架

截屏2020-10-30 下午5.28.34.png

3.视觉生成——从无到有

鹿班的框架流程(平面图片生产)

截屏2020-10-30 下午5.34.51.png

alibabawood框架流程(视频生成)

截屏2020-10-30 下午5.38.27.png

4.视频编辑——移花接木

视频内容植入

截屏2020-10-30 下午5.40.06.png

技术难点:在不干扰原本所表达内容的情况下合理的插入广告。

视频内容的擦除

截屏2020-10-30 下午5.48.28.png

视频画幅的变换

截屏2020-10-30 下午6.02.01.png

视觉增强——视频增强

截屏2020-10-30 下午6.02.58.png

视觉增强——人脸修复增强

精细化的修复人像,还原面部细节

截屏2020-10-30 下午6.16.32.png

5.视觉制造——由虚入实

目前实体制造产业所面临的问题:

1.效率低下:多次打样,多次沟通

2.协同差:设计,营销,产生脱节

3.定制难:无法实现柔性生产

核心逻辑

截屏2020-10-30 下午6.24.42.png

6.视觉智能开放平台

截屏2020-10-30 下午6.27.29.png

7.总结心得

第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

目录
相关文章
|
8天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
30 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
20天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
14天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
180 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
17天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
30 0
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
阿里云云工开物助力高校的高校计划有什么用
阿里云“云工开物”高校计划旨在推动云计算技术在高校的普及与应用,通过提供云计算资源、算力支持、在线学习平台、开发者社区及数据科学竞赛等,帮助大学生提升实践能力和创新思维,培养更多创新型人才,促进校企合作。
359 2
|
3月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
78 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
4月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
12天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
148 97
|
2天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
49 31
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
55 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
下一篇
开通oss服务