11月视觉训练营第一课笔记

简介: 视觉生产技术探索与应用听课笔记

11月训练营第一课:视觉生产技术 探索与应用——谢老师

一、视觉生产技术

视觉分两类视觉理解、视觉生产。

1.所谓视觉生产

定义:所谓视觉生产,即通过一个、一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征
要求:新的,和输入不一样的。要通过技术来实现。
图解:
 0D5AB5AB-96F6-4127-8C4E-8F8512940EE5.png

2.分类

生成:从0到1,从无到有。
拓展:从1到N。
摘要:从N到1,留下最重要的东西。
升维:从An到An+1,2D到3D。
增强/变换:从A到B,编辑。
插入/合成:A+B=C,编辑。
擦除:A-B=C,编辑。

3.通用基础框架(图解)

E7D232F1-A5FA-4826-A5D8-083400F1790F.png
视觉生产引擎:分为生成、搜索两大类。

4.五个关键维度

自底向上:可看(满足视觉、符合美学)——合理(符合逻辑)——多样(保证结果的丰富性)——可控(可个性化)——可用(产生价值)

二、精细理解—寻微入里

1.分割抠图

逻辑上的步骤为依次递增:先识别——再检测——最后分割

2.难点

举例来说,难点包括复杂背景、遮挡、发丝、边缘反色、透明材质、多维度/目标等,且由于数据不足导致标注高成本。

3.解题思路

迭代:语义分割(全景是什么)、实例分割、image matting。
思路:先粗mask,再精确matting。在数据上寻求解决方案。

4.框架模型

步骤:mask粗分割——mask质量统一——估计精确alpha。

5.效果展示

精度、镂空细节、复杂相似背景。

6.人像/物体/场景抠图拓展

透明处的处理等细节处理。

三、视觉生成——从无到有

1.鹿班(图像)

电商设计、智能美工、行业设计

2.视觉框架流程

 136CE168-2804-4DCA-8839-1C32A8FF3D1E.png

3.视频生成——wood

4.视频框架流程

素材准备——基础特效——智能特效——智能编排

5.视频摘要

依次为:镜头分割(语音识别)——动作识别(音画匹配)——镜头筛选(边界优化)——排序优化(音频剪辑)——视频合成

6.视频封面

图像增强——内容分析——视频输入——质量审核

四、视觉编辑—移花接木

1.视频植入

广告的植入,要求内容的匹配度高(广告位检测)。

2.动态检测分割

3.视频内容擦除

文字,logo擦除

4.画幅变化、图像尺寸变化

五、视觉增强—修旧如新

1.视频增强

分辨率、帧率、色彩的增强。

2.人脸修复增强

3.渲染超分图

4.视频超分

5.视频插帧

6.HDR色彩扩展

7.风格迁移

8.颜色拓展

满足多样性和合理性。

六、视觉增强—修旧如新

1.现阶段实体设计制造

效率低、协同差、定制难。

2.核心逻辑

3.包装/服装几何生成

4.材质纹理

5.视觉迁移与融合

6.多样性拓展

7.2D3D融合

七、视觉智能开放平台—万剑归宗

1.定位

2.官网

vision.aliyun.com

3.能力分布

4.特点

专业、实用、全面、易用。

5.一站式能力选择

规模化、多样化、细粒度、场景化。

6.省心省力的普惠服务

7.解决方式实例

908A06E8-A767-4857-AC08-A1D38CEC8980.png

结束

附图

今日份打卡图

64E04E96-4E8C-4E22-A284-1D051AFA1974.png

视觉智能开放平台初体验图:

FC022E16-02FB-473F-B2A6-CA52C27C2837.png

目录
相关文章
|
4天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
3902 8
|
15天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11581 131
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
3天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1396 5
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
14天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
7857 139
|
5天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
4天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2275 9
|
4天前
|
云安全 供应链 安全
Axios投毒事件:阿里云安全复盘分析与关键防护建议
阿里云云安全中心和云防火墙第一时间响应
1174 0