视觉ai

简介: 视觉ai介绍

视觉生产技术

  • 定义和分类

    • 视觉生产-定义:通过一个/一系列视觉过程,产出新的视觉表达
    • 视觉生产-分类

      • 生成:从0到1
      • 扩展:从1到N
      • 摘要:从N到1
      • 升维:从An到An+1
    • 视觉生产-通用基础框架
    • 视觉生成-五个关键维度

      1. 可看:满足视觉/美学表现
      2. 合理:合乎语义/内容逻辑
      3. 多样:保证结果的丰富性
      4. 可控:提供用户预期的抓手
      5. 可用:带来用户/商业价值
  • 精细理解

    1. 识别:知道是什么

      1. 人的识别
      2. 物的识别
    2. 检测:识别+知道在哪

    缺陷检测

    多目标检测

    1. 分割:识别+检测+知道没有一个像素是什么

    思路:

    1. 复杂问题拆解:粗mask估计+精准matting
    2. 丰富数据样本:设计图像mask统一模型
  • 视觉生成

    • 鹿班-平面图像生成
    • 鹿班是视觉生成领域在业界落地的先行者,对外提供在线的ai设计服务
    • AlibabaWood 短视频设计生成 alibabawood.aliyun.com
  • 视觉编辑

    • 增加内容
    • logo擦除
    • 画幅变化
  • 视觉增强

    • 人脸修复增强
    • 渲染图超分
    • 视频超分
    • 视频插针
    • HDR色彩扩展
    • 风格迁移
    • 颜色拓展
  • 视觉制造

    • 包装几何生成
    • 服装几何生成
    • 材质工艺
    • 视觉迁移及融合
    • 多样性拓展
    • 2D3D融合
  • 视觉开放平台

    • vision.aliyun.com
目录
相关文章
|
8天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
30 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
20天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
14天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
186 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
17天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
31 0
|
3月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
79 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
4月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
5月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
80 2
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
69 0
|
5月前
|
机器学习/深度学习 人工智能 算法
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
244 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
412 1