AI视觉 DAY1学习笔记

简介: 初步学习

视觉产生

一、定义

通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器能够感知的图像视频,而不是标签火特征;
要求:新的,和输入的不一样的
22.png
在过去我们使用一些视频图像软件来生成他们,但是现在我们希望通过AI来自动生成这些。

视觉生产分类

生成:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1

增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C

视觉生产通用框架

23.png

视觉生产五个关键维度

1.(可看)满足视觉/没学表现
2.(合理)合乎语义/内容逻辑
3.(多样)保证结果的多样性
4.(可控)提供用户预期的抓手
5.(可用)带来用户/商业价值

二、精细理解

分割抠图

1. 识别:知道是什么
例:人的识别、物的识别
2. 检测:识别+知道在哪
例:缺陷检测、多目标检测
3. 分割:识别+检测+知道每一个像素是什么
视觉分割是生产的必要前置步骤
例:全景分割、病灶分割

分割抠图难点

复杂背景
遮挡
边缘反色
透明材质
多尺度目标
精细抠图
主要问题:数据严重不足,标注成本高

解题思路:

**1. 复杂问题拆解:粗mask估计+精准matting

  1. 丰富数据样本:设计图像mask统一模型**

分割抠图模型框架

24.png

3.视觉生成—从无到有

视觉生产—框架流程

25.png

下面是一些例子:

鹿班场景智能美工
26.png

鹿班行业设计
27.png

视觉生产—AlibabaWood(短视频生成)
28.png
视频生成—框架流程
29.png

4.视觉编辑—移花接木

例1. 视频植入

30.png
31.png

视觉编辑—视频内容擦除

32.png

5.视觉增强—修旧如新

33.png
**例1. 人脸修复增强
例2. 渲染超分
例3. 视频超分
例4. 视频插帧
例5. HDR色彩拓展
例6. 风格迁移**

34.png

例7. 颜色拓展

35.png

6.视觉制造—由虚入实

实体设计制造缺点:

**效率低:多次打样,多次沟通(平均升级时间长)
协同差:设计、有效、生成脱节
定制难:无法实现柔性生产**

AI视觉核心逻辑:

36.png
解决方案示例:神荼

打卡

37.png

相关文章
|
4月前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
4月前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
56 2
|
1月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
42 2
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
31 0
|
1月前
|
机器学习/深度学习 人工智能 算法
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
85 0
|
4月前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
71 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
173 1
|
4月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
50 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
4月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
306 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
90 1