魔搭社区每周速递(10.13-10.19)

简介: 503个模型、189个数据集、82个创新应用、9篇应用文章

image.png

🙋魔搭ModelScope本期社区进展:

📟255个模型:F5-TTS系列FLUX.1-Turbo-Alpha、TeleChat2-115B等;

📁37个数据集:SafeMTData、浮动体结构分析数据集等;

🎨57个创新应用E2-F5-TTS、表格识别多模型集成、AI_Gen_Novel等;

📄8篇文章:

  • 开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
  • TeleAI 开源星辰语义大模型-TeleChat2!
  • 院士力荐!《赢在AI+》路演征集中
  • ModelScope魔搭10月版本发布月报
  • 【深圳见!】AI+硬件新机遇期!快来与通义大模型核心作者、投资人和AI硬件从业者聊一聊
  • 阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
  • 交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
  • 如何利用 OpenVINO™ 部署 Qwen2 多模态模型

01

精选模型

F5-TTS系列

上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。

F5-TTS不需要复杂的模型设计,如持续时间模型、文本编码器和音素对齐等,只需要将输入文本填充为与输入语音相同的长度,并进行去噪以生成语音。F5-TTS还提出了一种在推理时采样的策略,显著提高了模型性能和效率。在公共的多语言100万小时数据集上训练后,F5-TTS生成的语音具有高度自然和表达性的零样本能力、无缝代码切换能力和速度控制效率。

模型链接:

https://modelscope.cn/models/SWivid/F5-TTS_Emilia-ZH-EN

代码示例:

  • 下载repo
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS

安装其他依赖:

pip install -r requirements.txt
  • 模型下载

下载vocos-mel-24khz模型:

modelscope download --model=pengzhendong/vocos-mel-24khz --local_dir ../checkpoints/charactr/vocos-mel-24khz

下载模型文件:

modelscope download --model=SWivid/F5-TTS_Emilia-ZH-EN  --local_dir ./ckpts/ F5TTS_Base/model_1200000.bin
modelscope download --model=SWivid/E2-TTS_Emilia-ZH-EN  --local_dir ./ckpts/ E2TTS_Base/model_1200000.bin
  • 模型推理

使用inference-cli推理

python inference-cli.py \
--model "F5-TTS" \
--ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \
--load_vocoder_from_local \
--ref_text "Some call me nature, others call me mother nature." \
--gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences."
python inference-cli.py \
--model "E2-TTS" \
--ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \
--load_vocoder_from_local \
--ref_text "对,这就是我,万人敬仰的太乙真人。" \
--gen_text "突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道,我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?"

alimama-creative-FLUX图像修复&蒸馏加速模型

阿里妈妈智能创作与AI应用团队近期开源了两项FLUX 文生图模型的的实用配套模型。研究团队针对这一行业需求进行了相关探索,开源了基于 FLUX(FLUX.1-dev) 的Controlnet 修复模型以及8步加速 Turbo 模型两个配套模型,更进一步,两个模型可互相兼容配合实用,达到更快的修复生图。

模型链接:

  • FLUX修复Controlnet模型:

https://www.modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta

  • FLUX 8步加速Lora模型:

https://www.modelscope.cn/models/alimama-creative/FLUX.1-Turbo-Alpha

示例代码:

diffusers推理示例代码(A100):

import torch
from diffusers.pipelines import FluxPipeline
from modelscope import snapshot_download
model_id = snapshot_download("AI-ModelScope/FLUX.1-dev")
adapter_id = snapshot_download("alimama-creative/FLUX.1-Turbo-Alpha")
pipe = FluxPipeline.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()
prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book."
image = pipe(
            prompt=prompt,
            guidance_scale=3.5,
            height=1024,
            width=1024,
            num_inference_steps=8,
            max_sequence_length=512).images[0]

更多玩法教程详见:

阿里妈妈技术开源FLUX图像修复&蒸馏加速模型

02

数据集推荐

SafeMTData

SafeMTData由上海人工智能实验室推出,专注于大型语言模型在多轮交互中的安全对齐,包含1680个安全的多轮对话。该数据集基于断路器训练数据集策划而成,已经过过滤以避免与Harmbench的数据污染。它包含了由ActorAttack创建的有害多轮查询以及拒绝有害查询的拒绝响应。

数据集链接:

https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/SafeMTData

03

精选应用

E2-F5-TTS

一款基于流匹配的全非自回归文本到语音转换系统,零样本语音复刻,生成流畅,情感丰富。

体验直达:

https://www.modelscope.cn/studios/modelscope/E2-F5-TTS

image.png

表格识别多模型集成

一个由多个模型集成的表格内容识别、提取工具

体验直达:

https://www.modelscope.cn/studios/jockerK/TableRec

image.png

04

社区精选文章

相关文章
|
运维 监控 JavaScript
SaaS模式Java全套云HIS源码包含EMR、LIS
满足基层医院各类业务需求的云HIS系统。它能帮助基层医院完成日常各类业务,提供病患挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生站和护士站等一系列常规功能,实现多层机构之间的融合管理。
319 0
|
Docker 容器
|
数据采集 关系型数据库 MySQL
python-协程(async、await关键字与asyncio)
python-协程(async、await关键字与asyncio)
1621 0
|
3月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
1530 11
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
GANs、VAEs与Transformer的融合
本文深入解析了AIGC视频生成模型的技术原理,包括GAN、VAE、RNN和LSTM等关键技术的应用,并探讨了其在虚拟角色生成、广告内容创作和游戏剧情设计等领域的创新实践,同时提供了基于GAN的视频生成代码示例。
|
5月前
|
供应链 Python
如何开发ERP系统中的采购管理板块(附架构图+流程图+代码参考)
本文介绍如何在ERP系统中开发高效采购管理模块,涵盖采购申请、订单处理、入库与退货等关键流程,解析核心功能与业务逻辑,并提供代码参考及开发技巧,助力企业优化采购管理效率。
|
NoSQL MongoDB Docker
Docker Compose安装MongoDB,并向宿主机映射数据文件/配置文件/日志文件
本文为博主实践Docker Compose方式安装MongoDB记录,希望对大家有所帮助。
4006 0
|
前端开发 测试技术 对象存储
Grafana Loki查询加速:如何在不添加资源的前提下提升查询速度
Grafana Loki查询加速:如何在不添加资源的前提下提升查询速度
492 59
|
API 数据安全/隐私保护 开发者
实时获取小红书详情 API 数据
小红书详情API数据获取指南:注册开发者账号,创建应用并申请接口权限,构建请求获取笔记详情,使用Python等语言处理响应数据。需遵守使用规则,注意调用频率和数据安全。
|
机器学习/深度学习 自然语言处理 PyTorch
大语言模型工作原理和工作流程
大语言模型(Large Language Models,简称LLMs)是一类具有大量参数的深度学习模型,它们在自然语言处理(NLP)领域中,通过处理大量的文本数据来学习语言模式、语法和语义,从而理解和生成人类语言。
3238 2