面向视频的全新AI架构 —— 阿里云智能视觉技术全解

简介: 我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型。如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题。

我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型。如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题。

市场上的AI服务非常多,但是在视觉领域,通用的AI服务主要是基于图像的架构来做的,视频时代已经到来,基于图像的AI架构是否还能被广泛应用?阿里云视频云团队专注于视频领域,所以在针对视频的AI处理方面也有独特的思考和实践。3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,阿里云高级计算专场周源针对图像和视频的AI处理有什么不同?团队是如何基于视频构建全新的AI架构?针对AI大量的数据、训练效果不够好、时间与成本消耗大等痛点,他们如何解决等以上问题做了悉数解答。

一、市场上通用的图像架构是怎样的?

市场上大部分AI的服务,输入的都是图像,也就是图片文件,是基于图片进行处理。在业界,图像的算法比较成熟,数量也较多,从大类来看有图像分类、检测、识别、分割等等。大部分AI服务的架构也是基本类似,一般包含图像算法层、引擎框架层、资源管理层、硬件基础层,之后基于各自的业务领域知识,构建一个面向特定领域的AI推理服务,然后通过API提供对外的访问。

image

二、挑战:视频与图像的不同

随着现在视频(直播、点播、短视频)的越来越广泛应用,内容从原先的图像分析升级到视频分析。因为复用已有的技术以及架构的改造成本等等因素,一般的AI服务一般会保持现有的框架,不同是把视频转换成图像来进行处理。一般做法是按照固定的时间间隔采样截取视频的图像信息,这样整个服务架构不需要做任何改动,只是在最上面一层增加了视频帧截取和结果汇聚的服务。

image

当然,这个架构在视频时代就会存在很多问题:

1. 时效性差

因为增加了视频截帧和结果汇聚这样的中间操作,所以处理时间长;视频下载下来,处理后图片再上传,网络传输也会导致时效性变差;举个例子,在相同画质下,使用一张张图片组成的视频,和H.264编码的视频,大小的比是10:1,图片是10倍于视频的存储量。

2. 稳定性

视频截帧一般会采用开源的FFmpeg,如果遇到问题需要解决,比较依赖于开源社区。比如格式和编码的兼容性、直播、点播中遇到数据异常、时间戳不准、定制协议、分辨率切换、卡死等。

3. 复杂性高

把视频转换成批量的图片,就需要对这些临时的图片进行管理,另外还涉及顺序处理、异步操作、网络抖动等问题,需要关注的非核心业务功能就要求非常多,导致业务系统整体的复杂性变高。

4. 信息丢失

截帧是一种采样,会引起信息丢失,丢失的信息中很有可能包含了关键图像。另外,截帧的处理是对没有时间信息的图像结果的简单累加,效果也不理想。

既然有这么多问题,基于视频的AI计算该怎么做呢?

三、阿里云解决方案:面向视频的新架构

周源所在的阿里云视频云团队,具有多年音视频编解码、媒体处理相关技术经验,他们推出的面向视频的新架构是:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

image

新架构具有以下几个特点:

1. 时效性高

相较于之前多余的截帧、上传等一系列操作,新方案不产生临时图片,同时能减轻存储的带宽和空间需求。能充分利用视频的并行分片机制,大幅度缩短整体处理时间。

2. 复杂性低

面向视频的架构,视频处理和AI计算集成在一起,简化了对图片的处理过程,进而简化整个处理逻辑,降低复杂度。

3. 稳定性高

阿里云视频云团队是具有10多年丰富视频处理经验的专业团队,兼容性、运维各种问题都不需要用户考虑。

4. 效果更佳

对离散的图像结果按照时间的关系进行更合理的汇聚,获得更优的效果。

四、AI应用的痛点和解法

周源团队自研的新架构很好的解决了图像AI架构时效性差、稳定性差、复杂度高、效果不佳的问题。然而在AI的应用上,开发者也会关注到一些其他问题,比如:

  1. 目前,分类算法有ResNet、Inception、VGG等等,识别算法有FasterRCNN、SSD、YOLO等等,物体检测、人脸识别算法也有很多,那么如何选择最适合自己的呢?
  2. 针对自身业务标注数据,需要大量人力投入,同时真实数据少,采集十分困难,通常需要花费非常多的视觉才能够收集足够多的数据,怎么办?
  3. 每次模型训练时间长、反馈慢,训练好的模型更是需要复杂的上线流程,整体业务反馈太慢,怎么办?

智能视觉产品针对关键的数据和时间问题,给出了如下解法:

1. 选择最合适的算法

基于阿里巴巴在视频和AI领域的长期积累,已经帮大家选择好了算法,现在推出的是分类和识别,之后将推出更多算法。

2. 迁移学习——少量数据快速训练

迁移学习的基本原理是,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果,使业务迭代更快。

image

3. 数据增广——少量数据更优效果

在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。

智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量的同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。

image

智能视觉可以帮助零算法基础的用户,快速训练自己领域的定制化模型,仅需要少量标注数据,完成快速的模型生成、增强的场景效果,并将训练模型转换成高可用、弹性可扩展的视频AI服务,让用户能够以最低的成本实现AI技术的落地。

image

目前智能视觉已经支持图像分类、物体检测、直播识别等AI能力,可应用在视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检、农业养殖、医疗诊断等场景。欢迎大家扫码加入业务咨询钉钉群,与阿里云专家面对面交流。
image

回顾直播发布会
产品详情
申请测试
参与聚能聊话题,赢取奖品

目录
相关文章
|
1天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
44 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
1天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
5天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
54 32
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
19 5
【AI系统】离线图优化技术
|
5天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
29 4
【AI系统】计算图优化架构
|
2天前
|
机器学习/深度学习 人工智能 边缘计算
24/7全时守护:AI视频监控技术的深度实现与应用分享
本文深入解析了AI视频监控系统在车间安全领域的技术实现与应用,涵盖多源数据接入、边缘计算、深度学习驱动的智能分析及高效预警机制,通过具体案例展示了系统的实时性、高精度和易部署特性,为工业安全管理提供了新路径。
|
20小时前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
22 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
存储 人工智能 自然语言处理
37 6
|
7天前
|
机器学习/深度学习 人工智能 安全
AI技术在医疗领域的应用与挑战
本文将探讨AI技术在医疗领域的应用及其带来的挑战。我们将介绍AI技术如何改变医疗行业的面貌,包括提高诊断准确性、个性化治疗方案和预测疾病风险等方面。同时,我们也将讨论AI技术在医疗领域面临的挑战,如数据隐私和安全问题、缺乏标准化和监管框架以及医生和患者对AI技术的接受程度等。最后,我们将通过一个代码示例来展示如何使用AI技术进行疾病预测。
18 2
|
7天前
|
机器学习/深度学习 人工智能 调度
【AI系统】推理引擎架构
本文详细介绍了推理引擎的基本概念、特点、技术挑战及架构设计。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,实现智能决策和自动化处理。文章首先概述了推理引擎的四大特点:轻量、通用、易用和高效,接着探讨了其面临的三大技术挑战:需求复杂性与程序大小的权衡、算力需求与资源碎片化的矛盾、执行效率与模型精度的双重要求。随后,文章深入分析了推理引擎的整体架构,包括优化阶段的模型转换工具、模型压缩、端侧学习等关键技术,以及运行阶段的调度层、执行层等核心组件。最后,通过具体的开发流程示例,展示了如何使用推理引擎进行模型的加载、配置、数据预处理、推理执行及结果后处理。
27 0