魔搭中文开源模型社区：模型即服务-视觉AI能力的开放现状及ModelScope实战（中）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-视觉AI能力的开放现状及ModelScope实战（中）

2023-05-23 1665

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭中文开源模型社区：模型即服务-视觉AI能力的开放现状及ModelScope实战

除此之外，阿里巴巴通过“模型+服务”或者“模型+数据”的方式，完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架，坚持学术研究与产业应用的双轮驱动。

接下来，介绍一些在ModelScope社区开源的视觉模型。如上图所示，视觉理解，开放能力主要分为图像分类，目标检测，图像分别三个环节。

其中，图像分类模型主要有VIT图像分类，动物识别，万物识别等等；目标检测模型主要有通用实时检测模型，VitDet图像目标检测，StreamYOLO实时视频目标检测等等。

在图像分割模型方面，主要有CascadeMaskRCNN-SwinB图像实例分割，BSHM人像抠图，Mask2Former-SwinL全景分割等等。

如上图所示，达摩院开放的生物识别能力主要包含三个模型，即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

其中，生物识别系统Pipeline包含三个模块：人脸检测，人脸关键点和人脸识别模型。目前可体验MogFace人脸检测，Mtcnn人脸检测关键点模型，1M人脸检测模型ULFD，RetinaFace人脸检测关键点模型，CurricularFace人脸识别模型和人脸表情识别模型FER。

RetinaFace检测关键点模型的优势在于，人脸检测关键点二合一模型；单阶段&e2e，使用MobileNet Backbone可以在端上实时inference。

CurricularFace识别模型的优势在于，它提出一种自适应的课程学习损失函数，解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

如上图所示，ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

其中，MogFace检测模型的优势在于，提出一种解决误检的方法，解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型，并已持续一年以上。

1M检测模型ULFD的优势在于，无特殊算子，支持onnx导出，便于移植推理。在FP32精度下，模型大小为1.1MB，推理框架int8量化后大小为300KB左右。

FRE表情识别模型的优势在于，backbone是VGG19，后面接一个fc层，在性能和速度实现了较好的trade-off。目前，Fer为人脸表情识别领域的明星项目，网络结构比较简单。

除此之外，阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力，让AI画质管理品类成为视频业务的基础设施。

如上图所示，视频增强能力主要有四个方面，即色彩增强、画质评估、时域增强、清晰度。

如上图所示，在ModelScope社区，以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

在视觉编辑能力方面，达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

其中，风格迁移可以将给定图像和参考图像作为输入，风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现，端到端全图卡通化转换，生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理，实现匀肤（处理痘印、肤色不均等）、去瑕疵（脂肪粒、斑点、痣等）以及美白等功能。

魔搭中文开源模型社区：模型即服务-视觉AI能力的开放现状及ModelScope实战（中）