“魔搭”来了!一文深度解读达摩院推出的AI模型社区

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 一文详解ModelScope魔搭社区,模型即服务开启AI开发使用新范式

“魔搭”来了!一文深度解读达摩院推出的AI模型社区
作者:应答
来源:阿里开发者

11月3日,2022云栖大会杭州现场,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。首批合作方还包括澜舟科技、智谱AI、深势科技、哈工大讯飞联合实验室、中国科学技术大学等多家科研机构。达摩院等率先向社区贡献300多个经过验证的优质AI模型,超过三分之一为中文模型,全面开源开放。

image.png

魔搭社区重点关注AI的应用难题。为什么AI应用难?

首先是开发门槛高,模型开发往往需要大量数据的准备,以及匹配的海量GPU算力。通常只有大公司才有这方面的投入,对于中小企业则存在一定的难度。

其二是模型的定制化需求高,在具体的问题上面,通用的模型效果不是特别好,还得做相应的定制化微调,这对开发人员提出了很高的要求。

第三是今天模型众多,调用方式不同,AI开发者需要查看很多的资料,来修改这个那个参数,使用不同模型的难度比较大。

最后,目前在国内没有通用的模型交流平台,缺乏系统化的模型分享渠道。这也导致了查找模型、比较不同模型效果的门槛较高,最终导致模型交流分享的困难。

什么是模型即服务?

为了解决这些实际的AI应用困难,达摩院提出了模型即服务Model as a Service的理念,魔搭社区就是践行这种理念的产品。过去,我们通常会把硬件资源、通用的软件能力、底层框架等来提供服务,现在,模型也上升到底层框架服务的维度,开始成为第一生产力。

与此同时,魔搭社区将模型、数据和算法有机结合起来,来降低模型体验的门槛,让模型能够被快速的被使用,并且能快速的被微调,最终让适合具体业务场景的微调后的模型,能快速云端部署。

达摩院希望通过模型即服务的理念,实现 AI for Everyone。无论是AI兴趣者,使用者,开发者还是研究人员,都能够在魔搭社区,很好的使用模型解决实际的问题。

模型丰富 中文特色

魔搭社区首批上架模型超过300个,覆盖了视觉、语音、自然语言处理、多模态等AI主要领域,覆盖任务超过60个。上架模型均经过专家筛选和效果验证,包括150+SOTA(业界领先)模型和十多个大模型,均已开源代码或开放使用。

社区鼓励中文模型的开发和使用,希望实现中文模型的丰富供给,并更好满足本土需求。目前已上架的中文模型超过100个,总量占比超过三分之一,其中包括一批探索人工智能前沿的中文大模型,如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱AI的多语言预训练大模型。

image.png

展开来说:

在计算机视觉领域,社区开源了多种视觉任务近百个模型,覆盖多模态图文表征大模型、图像/视频生成大模型,以及各类下游迁移应用模型,既有SOTA的技术热门模型,也有久经考验的应用模型,包括最基本的视觉理解,如识别分类、目标检测、分割抠图等,也包括视觉生产中的画质增强、图像编辑、内容生成等大类,初步构建了以多模态生成和表征大模型为基础的开源模型体系。为AI开发者提供丰富的、一站式的视觉AI模型选择。

在自然语言处理领域,社区提供了包括 structBert, PALM, mPLUG, 中文GPT3等预训练模型为底座,共计100+ NLP 应用模型,涵盖了分词,词性, 命名实体识别等基础技术,文本分类,情感分类,对话问答,OCR, 机器翻译等应用技术。既有基于预训练模型finetune的多种任务模型(作诗,小说续写),又有取得了VQA首次超人类,机器翻译最佳论文等的业界领先技术,还涵盖了包括通用,新闻,电商,医疗等多领域,中,英,法,西等10+语言的多语言模型。从模型深度,广度,学术界数据集到应用场景,都提供了丰富易用,性能领先的模型库。

在智能语音领域,社区覆盖语音识别、语音合成、语音信号处理、语音唤醒等语音领域最主流的能力,首批上线逾40个模型。其中,“UniASR语音识别通用领域模型”阿里云语音识别API背后的模型,这次通过魔搭社区免费开放,这种开放公共云背后的算法模型的做法在业界尚属首例。开发者可基于该模型,通过领域数据finetune进一步增强垂直领域语音识别准确率。“SAMBERT高表现力多情感语音合成模型”同样是阿里云语音合成API背后的算法模型。达摩院还同步开源了SAMBERT模型训练代码和流程。通过魔搭社区开放,任何有高品质录音数据的模型开发者均可制作出与达摩院同样品质的语音合成音色。“Paraformer语音识别模型”是达摩院下一代非自回归端到端语音识别模型,刚刚于InterSpeech-2022发表,即已通过魔搭分享给业界。Paraformer是当前学术界在非自回归技术路线上研究探索的SOTA模型之一。模型结构先进,相比自回归模型在保持精度的同时,在推理效率上最高能达到10倍提升,将有效降低语音识别线上服务的成本。

在多模态领域(所谓多模态模型,就是跨越文本、图像、声音等多种数据类型之间的理解和生成问题,人处理任务通常也是以多模态的方式进行。),魔搭社区这次也提供了丰富的多模态模型矩阵。它不仅包含了不同类型的图文多模态预训练模型,比如我们提供了一个原生CLIP模型的中文版,以及像OFA/Team/mPLUG这样自研的多模态预训练模型;同时魔搭也包含了使用这类模型创建的包括图像描述、视觉定位、视觉问答、图文检索等各类多模态典型任务。(另外,为了满足不同部署条件的开发者,我们很多模型都有不同规模的版本可供选择。社区同样也可以很方便的在这些预训练模型,或者他们的下游模型上进行二次开发。)

此外,社区还在AI for Science等新领域积极拓展,深势科技在社区开源了蛋白质折叠预测模型和3D分子模型。

魔搭社区的使用优势

魔搭社区提供模型的索引和发现功能,AI模型都有自己的标签和相应的索引,让不同的模型使用者,能够根据自己的需求,快速的找到相应的模型。每个模型都配套一个详细的模型的卡片来描述模型背后的机理,以及相关的一些文献。

魔搭社区也提供在线体验的能力,能够让众多使用者能够快速的在不开发代码的情况下,去体验各种模型的效果。社区还提供相关的模型开发的代码,引导社区的开发者以编程的方式,结合社区的python library,快速使用模型。除了模型以外,社区同时还提供了丰富的数据集。帮助模型进行训练和调优。而社区分享频道,方便模型的使用者和开发者能够方便的交流心得和体会,推动模型的应用。

image.png

ModelScope魔搭社区覆盖全频谱的使用/开发者

为了构建这些完整的平台体验,魔搭提供了一个功能强大的开源Python package,package提供了不同模型接入魔搭生态的接口和实现,底层能够兼容各种机器学习框架,无缝衔接模型应用与开发。只需要import对应的python package,通过简单的一行代码,就可以完成模型的发现,模型的自动下载,以及模型的加载和使用。在体验过模型后,还可以方便的一站式的部署到云端,供APP使用。

image.png

技术架构图

模型的开发离不开算力,魔搭社区的生态和云的生态实现了无缝的集成。阿里云为魔搭社区提供了一定的免费的算力,来促进社区的快速发展。同时魔搭社区和多种云产品结合,如阿里云弹性加速计算EAIS和机器学习平台PAI,覆盖了模型的开发的方方面面。从魔搭社区,用户们可以进行开发,并能够快速的连接到云生态。能够完善今天整个模型的开发的链路。

image.png

值得注意的是,魔搭社区坚持开源开放,框架兼容各种机器学习的框架,通过这样的方式,不仅阿里巴巴各个团队的模型都可以轻松的接入社区,同时外部的科技公司和高校也可以通过这样的方式,快速接入各种模型。

欢迎大家来使用魔搭社区! modelscope.cn

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
26 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
3天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
37 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
3天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
34 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
7天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
66 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
5天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
17 5
【AI系统】模型转换流程
|
8天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
27 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
18 4
【AI系统】模型转换基本介绍
|
5天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
28 4
【AI系统】模型压缩基本介绍
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
17 2
【AI系统】模型剪枝
|
15天前
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
66 4
TÜLU 3:Ai2推出的系列开源指令遵循模型

热门文章

最新文章