浅谈AI深度学习的模型训练和推理

简介: 本文主要是为介绍openvino框架实现模型库的训练和推理引擎技术,实现我司在智能超市等领域的场景应用。
在 2021 年,我们开始部署“EdgeX 智慧超市”解决方案,目的在于实现超市的全智能化运营,和连锁超市内用户数据实时同步。数据同步就是后台管理中心和接入的各个超市的 EdgeX 微服务平台,数据共享,不言而喻,分布式思维,我们是云边协同的新形态框架思维。超市的运营管理是这个解决方案的技术核心,也是业界一直在探索的焦点。目前的超市能称得上智能化的只有结算台,但通常也需要有客服在旁边指引监管,也没省下人力成本,所以我们把结算和管理流程紧密的结合在一起。那么运营就剩下秩序管理这一块了,也是全智能化的技术核心,用投资人的角度来说:“怎么去监管顾客在超市内行为,比如插队、破坏、攀爬、咋骗、争吵等行为”,其实就是 AI 深度学习的目标检测,行为分析和识别,这就是本文要介绍的地方。在音视频领域,AI 深度学习主要是做模型训练和推理引擎。不论是早期的人脸识别,还是后来的图像声音检测,都需要与模型做对比,所以模型训练至关重要,可以说是 AI 深度学习的基础。市面上各种运营 AI 深度学习框架的平台首先玩的就是他们训练的模型库,推理引擎则是实现目标的动作。目前全世界最流行的 AI 深度学习框架有 Google 的 TensorFlow 和 Keras、Microsoft 的 CNTK 和 ONNX、百度的 PaddlePaddle、FaceBook 的 PyTorch、BVLC 的 Caffe 等。

我不精通所有的框架,而国内市场目前的口号是“内容为王、数据为王...”,很难见到技术的精髓,也就是用几行 python 命令行就实现 AI 深度学习的完整过程,事实上只会在这个平台上跑这个流程,所有的技术都不会。甚至很多云平台开发上,日志都看不到,我就想,现在开发靠猜来判断吗?!声明下:这不能算喷,只是感慨下,与君共勉。这种虚有其表的技术显然没有前途的,根本不能满足我这种技术追求极致的人,所以我就选了另外一个从底层框架到场景应用完全开源的框架套件 openVINO,在中国主要是由 Intel 在运营,我选这个套件是还有商业目的,这里就不跑题了,openVINO 的框架如图 1 所示:从流程图上来看,左边支持大多数主流的其它 AI 深度学习框架,右边兼容各种算力插件,这很表面,就是装一堆的插件,然后几行代码跑全程的那种,这也是 Intel 的一种运营模式。

这个框架的开源里,直接明了的把模型训练 openCV 和推理引擎框架完整开放,开发者能基于 openCV 库写模型库和模型训练过程代码,也能基于 Inference Engine 库写推理过程代码,而其它的库用于写场景应用过程代码,也就是说这种情况下,想怎么发挥就怎么发挥,不受命令行或框架的约束。我在采用之前调研了下行业形势,各 AI 深度学习框架的短板除了客观的网络带宽的外部因素限制外,主要集中在模型训练精度低及识别和推理时间过长。造成这个问题的主要因素就是各套件广泛的去集成了各种插件,然后再用一个甚至是多个令行插件去把这些插件集成起来,达到低代码及 0 代码的目的,这里不发表评论,大家自己想。大家都知道每个插件和库文件,编译器都要去编译一遍才能识别出来,因此,时长就是这么增加的,性能损耗就是这样升高的,当然,这样同时也能提升通货膨胀,带动经济发展,计划经济的主要思想...。

至贸易战后,全球经济呈现衰退趋势...,各种坑也越演越烈,这里主要描述下开源的坑,华为曾旗帜鲜明的喊出了“不再使用开源”的口号。就拿这里来说吧,openCV 从此没有了 CV::face 的 namespace,官方说是因为不稳定,因此推出了另一个开源 contrib,然后 2 个开源源码重新编译成新的库文件,我以轻量级的方式重新编译了下,生成了 1G 多的新库文件。10 年技术我都没有调用过这么大内存的库文件,而目的只是为了去集成一个 namespace,一直以来的开源我们都是在维护 issue 后升级。再来说说代码,首先做模型库训练,openCV 是通过 csv 文件来读取模型库中的文件,模型库里存放的就是训练好的目标图片。有必要解释下训练好的概念,就是标记分类并处理好,用作对比的库存图片,比如人脸、物体和文字等,opencv 会把从摄像头采集来的图片转灰度化 cvtColor(fe, fe_gray, COLOR_BGR2GRAY),以减少运算,然后用一个循环来设定目标物体拍照的数量 for (int i = 0; i < faces.size(); i++),将其处理标记好。在 csv 中是用 2 个容器分别存储图像和标签 vector label,至此模型库就做好了,对目标识别时,摄像头采集到目标数据,通过读取 csv 文件的记录,就能找到训练库中的数据做对比,所以,识别的精度和时长就看图像数据和 csv 文件中的标签做的好不好。这个时候要注意,采集的图片也必须转化为灰度图做对比。对比的结果可以直接显示在测试图像界面中 putText(fm, str, text_lb, FONT_HERSHEY_COMPLEX, 1, Scalar(0, 0, 255)),如图 2 所示,图像上显示的结果就是标签中的标记。openCV 的整个过程只需要一个 xml 的分类器 CascadeClassifier,就能实现各个流程,至此,模型训练的库文件和 csv 文件就全完成了。openVINO 的推理引擎需要调用一对 xml 和 bin 模型文件,读取测试数据,读取网络权重和配置输入输出参数后,就可以启动 AI 推理计算设备进行推理了,openVINO 能实现同步推理和异步推理,通常采用异步推理 sync_infer_request->Infer()。推理就是对目标数据做分析或预测,比如通过人脸的特征来分析 zhe'g 这个人的年龄、健康、情绪等等。就目前的技术而言,AI 还是通过读取记忆来模仿人的思维的,是无自主意识行为,不会像大脑一样,在没有记忆的情况下能自主进行分析和判断。在代码中,我们会抛异常和出错终止程序的运行,如果没有,也不会像业外人士预测那样,产生新的意识,最后替代人类或毁灭世界。不论什么情况下,机器语言的最基本是不能有一点错误的,有错运行就会结束,甚至没有回光返照,机器终究是没有生命的。
最后,以介绍下我们公司结尾:绿视(上海)信息技术有限公司是音视频解决方案供应商,致力于流媒体和 AI 深度学习领域,助力从底层框架到场景应用的完整技术开发。欢迎关注下面公众号,持续关注关注我们的动态。

目录
相关文章
|
14天前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
5天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
73 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
8天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
118 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
10天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
49 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
14天前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
68 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
11天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
62 37
|
10天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
65 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
15天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
65 8
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
3天前
|
SQL 人工智能 关系型数据库
AI时代下的PolarDB:In-DB一体化模型训练与推理服务
本次分享主题为“AI时代下的PolarDB:In-DB一体化模型训练与推理服务”,由阿里云资深专家贾新华和合思信息刘桐炯主讲。内容涵盖PolarDB的关键能力、AI硬件与软件结构支持、典型应用场景(MLops、ChatBI、智能搜索),以及合思实践案例——AI对话机器人提升客户响应效率。通过简化流程、SQL统一管理及内置算法,PolarDB显著降低了AI应用门槛,并在多个行业实现最佳实践。
|
3天前
|
存储 人工智能 数据可视化
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
欢迎学习《基于 DANet 和 Deeplabv3 模型的遥感图像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的遥感地图区域分割系统,并利用开源数据集和昇腾 AI 芯片对模型效果加以验证。
9 0
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割