达摩院视觉 AI 技术应用探索(二)|学习笔记

简介: 快速学习达摩院视觉 AI 技术应用探索(二)

开发者学堂课程【视觉 AI 应用开发教程 达摩院视觉 AI 技术应用探索(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/289/detail/3410


达摩院视觉 AI 技术应用探索(二)


三、视觉生成

1.视觉生成——鹿班

最开始使用的是鹿班,是视觉生成领域在业界落地的先行者,对外提供大规模在线的 AI 设计服务,累计设计平面图像20亿。

image.png

2.视觉生成——框架流程

首先理解所需要达到的要求,把需求提出来,达到一个可控的状态,再生成一个处理结果,然后再生成一个细腻度结果,然后调整这个细节,跟上述的分割是有一点反向,先进行细理解再结合起来做。

image.png

3.视觉生成——鹿班电商设计

多种设计模式

支持照图生图等指定类型的设计,将原图的风格、布局等信息学习并迁移到目标数据上。

多元风格

多元化设计风格,结合商品品类、投放场景、目标客群的差异进行订制化设计。

image.png

4.视觉生成——鹿班场景智能美工

AI实现场景设计能力:

1. 人工还原机器学习  JPG->PSD

2. 模板创作机器人   1PSD->100PSD

3. 图片合成机器人   PSD->PNG

image.png

5、视觉生成——鹿班行业设计

image.png

image.png

6.视觉生成——Alibaba Wood

AlibabaWOOD 短视频设计生成

累计生成:2000万+个

一键批量生成全店商品短视频:alibabawood.aliyun.com

剧本生成 智能文案生成 自动剪辑 智能音乐推荐

image.png

7.视频生成——框架流程

素材准备:镜头检测 场景识别 去重 去噪→美化 过滤 智能裁切 镜头分割

基础特效:主体检测 朝向检测 主色识别 显著性→ 缩放 平移 镜头裁切拼图效果

智能特效:节奏检测 图像分割 动作识别 特效推荐→ 静转动 氛围贴图 音画联动

image.png

8.视频生成——视频摘要

image.png

可以对视频内容全自动完成质量审核,内容分析和图像增强,输出多帧静止或动图

网络异常,图片无法展示
|

对一整段视频摘取其中一部分,例如15s,30s 等。或者摘取其中的一个画面,也即视频封面。


四、视觉编辑

1. 视觉编辑——视频植入

image.png

挖掘视频 扩大植入 提升植入

核心价值 留盖范围 效果效率

扩展广告曝光渠道,创新广告形式 提升用户体验。

自动化批量处理视频内容,挖规海量短视频 UGC 内容等的广告价值,扩大植入内容的覆盖面

取代手工后期,缴短德入周期,降低人力成本,广告招商留出充足时间,且不需要修改与流出媒强。

电视剧植入 电影植入 综艺植入

例如需要将视频分析清楚,搞清楚哪里可以投放广告,投放多长的广告。广告是一个视频,物体不断运动,需要进行跟踪。

2. 视觉编辑——视频内容擦除

image.png

实用技术包括字母擦除,台标擦除,广告擦除,场景文字擦除和人体

擦除

核心挑战与亮点:粗定位→精分割→像素填充→在线训练

一大类是将视频中的字幕给去除,比如将陈旧的视频字幕去除,换成高清的字幕,优化用户体验。一大类是去除一些不想要的字幕。另一大类是擦除 logo。

 

五、视觉增强

1. 视觉增强——视频增强

单点核心技术:人脸增强,去噪音,通用场景部分,LDR 升 HDR,倍频,去划痕。

复合应用技术:人脸修复,标清转高清,LDR-HDR 互转,4K 重生,(磁带)老片修复,端上实时增强。

核心挑战:分辨率,帧率和色彩

核心网络模型持续创新

生成对抗技术和图像翻译技术相融合

大规模虚拟数据生成与真实数据交叉训练

隐式光流计算与多帧特征融合提升时域稳定性

image.png

2. 视觉增强——人脸修复增强

人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值。从低分辨率到高分辨率,还原信息。

image.png

3. 视觉增强——渲染图部分

image.png

CG 渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要需要30分钟才能生产一张图像

针对 CG 渲染流水线研发的超分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度

用于动画渲染或者 cg 渲染的使用。

4. 视觉增强——视频部分

image.png

在刚开始看的时候,视频可能会比较模糊,通过此项技术,清晰度和视觉表现力得到大的提升。提高帧率,可以给用户更好的观感体验,如果帧率太低,在高速运动的场景下,卡顿感会很明显。这时就需要用到此技术,进行帧率增强,来优化视觉效果。

5. 视觉增强——HDR 色彩扩展

image.png

从上图中,可以看到通透感以及清晰度的增强。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 达摩院
阿里巴巴达摩院“绿色能源AI”解决方案
阿里巴巴达摩院决策智能实验室致力于研究决策智能系统需要的国际前沿技术,提升业务运营效率和收益、降低成本。在电力能源行业构建出“绿色能源AI”方案,与国家电网、南方电网等企业合作落地多个项目。代表作软件是行业领先的MindOpt优化求解器、智能电力预测eForecaster、MindOpt Studio决策开发云平台。研究方向包含机器学习、数学建模、优化求解、 时序预测、因果分析、决策方案可解释性、决策推理大模型等。本篇是达摩院“绿色能源AI"方案的介绍幻灯片图,供大家了解方案的能力。
1297 1
阿里巴巴达摩院“绿色能源AI”解决方案
|
机器学习/深度学习 人工智能 自然语言处理
“魔搭”来了!一文深度解读达摩院推出的AI模型社区
一文详解ModelScope魔搭社区,模型即服务开启AI开发使用新范式
“魔搭”来了!一文深度解读达摩院推出的AI模型社区
|
人工智能 算法 开发工具
【视觉智能AI场景解决方案——AI智慧运动】
  随着全民健身热潮的提升,智慧健身运动随着数字化新技术的进步,以及在运动健身领域的应用逐渐趋于成熟,智能运动健身将为传统运动健身提供更多新的方向和玩法,满足不同项目爱好者的健身需求。随着AI运动健身技术的进一步普及与应用,基于ai的智慧健身运动技术未来可打造的场景化空间会越来越多,体育运动与科技娱乐,智慧健身运动在线上体育行业未来会创新运动场景,丰富运动体验,提升竞技娱乐性,推动全民健身走向新的高度。
1015 3
【视觉智能AI场景解决方案——AI智慧运动】
|
人工智能 vr&ar
【视觉智能AI场景解决方案——AI视频互动娱乐】
如今我们正逐渐进入一个智能化时代,AI视频互动娱乐在娱乐场景中被广泛应用。它利用先进的人工智能技术和互动性强的视频娱乐形式,为用户带来全新的娱乐体验。无论是与虚拟角色互动竞技,还是参与丰富多样的虚拟现实体验,AI视频互动娱乐都能让用户沉浸其中。现如今我们可以在电子游戏、电影、电视节目等传统娱乐形式中见到视觉AI的影子。 那么,AI和我们的生活娱乐中能撞出什么火花?来看看当下最火爆的视频互娱新玩法吧~
985 3
|
人工智能 算法 安全
【视觉智能AI场景解决方案——智慧考勤】
随着科技和经济的发展,考勤管理制度无论是对于企业还是学习,都是相对重要的管理制度。在传统考勤制度中,员工的出勤和工时需要依靠人工记录,并需要相应的人力来处理和审批。这种方式在浪费了时间和人力成本的基础上,还极易出现数据记录错误,造成一系列严重的后果。现如今,随着视觉智能AI的发展,智慧考勤可以实现。除了可以解决传统的考勤制度中的劣势之外, 还具备完善的数据传输和保存系统,管理者可以更好地利用考勤数据和实时通知系统,更好地规划资源和调整工作安排。
608 2
|
人工智能 达摩院 算法
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
|
机器学习/深度学习 云安全 人工智能
《达摩院2023十大科技趋势》——场景变换——生成式 AI
《达摩院2023十大科技趋势》——场景变换——生成式 AI
885 1
|
人工智能 监控 算法
【视觉智能AI场景解决方案——智慧物流车牌识别】
随着AI技术的问世,物流行业迎来了速度、准确率、系统化的全方位提升 。通过使用AI识别车牌与车辆功能,物流企业可以实现对车辆的快速、准确的识别,提高物流车辆的管理效率。此外,AI还可以帮助物流企业实现对车辆功能的识别,如车辆类型、载重等,为物流调度提供更加科学的指导。AI识别车牌与车辆功能的应用正日益普及,为智慧物流行业带来了新的发展机遇。
553 0
|
人工智能 边缘计算 达摩院
让 AI 更简单 人工智能平台 SEAL 携手龙蜥落地达摩院算法能力 | 龙蜥案例
轻量、高效、易扩展,龙蜥操作系统可以满足 AI 业务私有化部署的高要求。
|
人工智能 开发框架 达摩院
HaaS Python + 达摩院AI能力 实现云端一体物体识别
HaaS Python + 达摩院AI能力 实现云端一体物体识别
222 0