NexaAI, 一行命令运行魔搭社区模型,首次在设备上运行 Qwen2-Audio

简介: Qwen2-Audio是一个 70亿参数量 SOTA 多模态模型,可处理音频和文本输入。

音频语言模型正在获得显著的关注,但边缘部署选项仍然非常有限。虽然 llama.cpp 和 Ollama 支持文本和视觉模型,但它们目前不支持音频模型。

Qwen2-Audio是一个 70亿参数量 SOTA 多模态模型,可处理音频和文本输入。它无需 ASR 模块即可实现语音交互,提供音频分析功能,并支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

魔搭社区和Nexa SDK合作,一键运行魔搭社区GGUF模型,包括本次发布的Qwen2-Audio的GGUF格式。

Github repo:

https://github.com/NexaAI/nexa-sdk

NexaAI 魔搭模型repo:

https://modelscope.cn/organization/NexaAIDev

01.Nexa SDK:一句话运行魔搭社区模型

使用魔搭社区免费CPU算力使用Nexa一键运行魔搭社区GGUF模型。

首先,安装Nexa SDK

pip install nexaai

一句话运行魔搭社区模型

nexa run -ms Qwen/Qwen2.5-3B-Instruct-GGUF

image.png

02.Nexa SDK:将Qwen2-Audio引入边缘设备

image.png

在魔搭社区的免费Notebook算力上运行Qwen-Audio-7B-GGUF

首先,安装Nexa SDK(更多安装方式参考:https://github.com/NexaAI/nexa-sdk?tab=readme-ov-file#install-option-1-executable-installer

curl -fsSL https://public-storage.nexa4ai.com/install.sh | sh

然后,运行Qwen2-Audio模型

nexa run qwen2audio

或者运行的同时支持Streamlit 本地WebUI

nexa run qwen2audio -st

也可以直接在ModelScope上运行Qwen-Audio-7B-GGUF

nexa run -ms NexaAIDev/Qwen2-Audio-7B-GGUF

将音频文件存储在终端中(或在 Linux 上输入文件路径)。将文本提示以及语音文件地址直接输入模型。

01.快速说明

💻  默认的 q4_K_M 版本需要 4.2GB 的 RAM。

下图列出了在您的设备上运行 Qwen2-Audio 需要多少 RAM

Qwen2-Audio量化版本

模型权重文件

所需RAM

gguf-fp16

14.50 GB

16.80 GB

gguf-q4_0

4.20 GB

4.20 GB

gguf-q8_0

7.70 GB

8.40 GB

gguf-q2_K

2.90 GB

2.10 GB

gguf-q3_K_L

3.90 GB

3.15 GB

gguf-q3_K_M

3.70 GB

3.15 GB

gguf-q3_K_S

3.30 GB

3.15 GB

gguf-q4_1

4.60 GB

4.20 GB

gguf-q4_K_M

4.50 GB

4.20 GB

gguf-q4_K_S

4.30 GB

4.20 GB

gguf-q5_0

5.10 GB

5.25 GB

gguf-q5_1

5.50 GB

5.25 GB

gguf-q5_K_M

5.20 GB

5.28 GB

gguf-q5_K_S

5.10 GB

5.28 GB

gguf-q6_K

5.90 GB

6.30 GB

🎵 为了获得最佳性能,请使用 16kHz.wav音频格式。支持其他音频格式和采样率,并将自动转换为所需格式。

02.使用案例

语音处理与理解

会议录音

image.png

多模式聊天

why do you think cat sleep so much?

image.png

音频分析与识别

键盘打字的声音

image.png

音乐分析和识别

Punk music (loud sound warning)

image.png

翻译

Chinese

image.png

要了解更多用例和模型功能,请查看Qwen的博客和Github:

博客:

https://qwenlm.github.io

Github:

https://github.com/QwenLM/Qwen2-Audio

对于开发人员来说,下一步将是服务器部署和 Python 接口。请关注Nexa SDK以获取更新,并提交您的任何需求。

感谢 Nexa AI 团队。

点击链接阅读原文:https://modelscope.cn/organization/NexaAIDev

相关文章
|
7月前
|
人工智能 缓存 API
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
【2月更文挑战第24天】谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
280 3
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
|
7月前
|
人工智能 JSON 搜索推荐
社区供稿 | GLM-4适配ModelScope-Agent最佳实践
GLM-4是由智谱 AI 发布的新一代基座大模型。
|
人工智能 并行计算 openCL
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
随着 Llama2 的开源,以及通义千问、百川、智谱等国内大模型的问世,很多用户有了本地部署去尝试大模型的需求,然而硬件的需求阻碍了很多人的尝试,并不是所有人都拥有一块英伟达显卡的,所以 Llama2 问世不久,大神 Andrej Karpathy 的一个 weekend project 爆火——llama2.c。
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
|
1月前
|
开发者 异构计算
现在,一行命令使用Ollama运行任意魔搭GGUF模型
为了让开发者更方便地把这些模型用起来,社区最近支持了Ollama框架和ModelScope平台的链接,通过简单的 ollama run命令,就能直接加载运行ModelScope模型库上的GGUF模型。
|
4月前
|
Linux 测试技术 API
Ollama+Qwen2,轻松搭建支持函数调用的聊天系统
本文介绍如何通过Ollama结合Qwen2,搭建OpenAI格式的聊天API,并与外部函数结合来拓展模型的更多功能。
|
4月前
|
机器学习/深度学习 人工智能 安全
同等参数中最强,在苹果15Pro上也能运行!谷歌又“卷”出了端侧小模型 Gemma 2 2B...
在AI技术快速演进的背景下,谷歌推出的Gemma 2 2B模型以其小巧体积和卓越性能引起关注。这款仅20亿参数的轻量级语言模型通过知识蒸馏技术,展现出超越大型模型的能力,在Chatbot Arena测试中获得1130分,超过了GPT-3.5-Turbo等竞争对手。Gemma 2 2B不仅性能出众,还能在多种硬件上高效运行,特别适合本地设备。此外,它的开源特性及易于使用的特性降低了AI应用门槛。伴随Gemma 2 2B发布的还有ShieldGemma和Gemma Scope,前者用于过滤有害内容,后者则提高了模型的透明度和可解释性,共同推动AI技术的负责任发展。
118 2
|
7月前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。
|
7月前
|
人工智能 PyTorch 算法框架/工具
AI 容器镜像部署 Qwen-Audio-Chat
本文将基于阿里云 AMD 服务器和龙蜥 AI 容器服务,快速搭建出语音 AI 助手服务
|
机器学习/深度学习 人工智能 安全
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
193 0
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
|
人工智能 物联网
AI绘画——本地配置webui启动器教程,支持一键启动/修复/更新/模型下载管理+Lora模型推荐(三)
AI绘画——本地配置webui启动器教程,支持一键启动/修复/更新/模型下载管理+Lora模型推荐(三)
351 0