🙋魔搭ModelScope本期社区进展:
📟4221个模型:Meissonic、stable-diffusion-3.5-medium、TeleChat2-7B、InstantIR、MaskGCT、OmniGen-v1、bce-reranker-base_v1-GGUF等;
📁112个数据集:Infinity-MM、SafeMTData、MMBench-Video、animeJP、Debatts-Data、CV-Starter-main等;
🎨95个创新应用:maskgct语音复刻、AI对话播客、RapidOCRDemo、
wd-tagger等;
📄 14篇文章:
- 让你的Notebook飞起来!开发体验再上新台阶
- 智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
- 上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
- NeurIPS D&B 2024 | 突破短视频局限!MMBench-Video全面解读MLLM视频理解能力
- AI+硬件最新资讯合集(2024-11-05第2期)
- 打破文本边界:如何进行多模态RAG评估
- 现在,一行命令使用Ollama运行任意魔搭GGUF模型
- Meissonic:高效高分辨率文生图重大革新
- 社区供稿 | 创作《哈利波特与异界魔书》的过程和心得
- 社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
- 实战 | 猫猫、少女、FLUX、ControlNet
- MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
- AI+硬件最新资讯合集(2024-10-28第1期)
- Stable Diffusion 3.5来了!更真实,更可控,更开放!魔搭社区推理最佳实践
01精选模型
Meissonic
由阿里巴巴集团、Skywork AI和香港科技大学及其广州校区、浙江大学、加州大学伯克利分校联合的研究团队提出了一种名为Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。
Meissonic旨在通过融合先进的技术和方法来提升非自回归图像生成器(MIM)在文本到图像(T2I)合成任务中的性能和效率。Meissonic主要通过引入改进的Transformer架构、高级位置编码策略以及动态采样条件,实现了对MIM技术的重大革新。
模型链接:
https://modelscope.cn/models/AI-ModelScope/Monetico
运行webui:
clone代码并安装依赖
git clone https://www.modelscope.cn/studios/MeissonFlow/meissonic.git cd meissonic pip install -r requirements.txt
运行app.py
# 魔搭社区运行gradio,需要指定域名处dsw路径 export GRADIO_ROOT_PATH=/dsw-xxx/proxy/7860/ python app.py
MaskGCT
MaskGCT是香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型。该模型在包含10万小时多语言数据的Emilia数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。MaskGCT利用全非自回归掩码生成编解码器Transformer,无需文本与语音的对齐监督和音素级持续时间预测。MaskGCT通过文本预测从语音自监督学习(SSL)模型中提取的语义标记,然后基于这些语义标记预测声学标记,实现了高质量的文本到语音合成。
模型链接:
https://modelscope.cn/models/amphion/MaskGCT
OmniGen-v1
智源推出的扩散模型架构OmniGen,一种新的用于统一图像生成的多模态模型。模型能够从视频帧中识别和生成场景、动作和对象,适用于视频分析、内容审核、自动标注等多种应用场景。通过使用OmniGen,开发者可以在视频处理领域实现更高效和准确的AI解决方案。
模型链接:
https://modelscope.cn/models/BAAI/OmniGen-v1
快速入门:
通过 Github 安装(推荐):
git clone https://github.com/staoxiao/OmniGen.git cd OmniGen pip install -e .
或者通过 pypi:
pip install OmniGen
一些示例:
from OmniGen import OmniGenPipeline from modelscope import snapshot_download model_dir = snapshot_download("BAAI/OmniGen-v1") pipe = OmniGenPipeline.from_pretrained(model_dir) # Text to Image images = pipe( prompt="A curly-haired man in a red shirt is drinking tea.", height=1024, width=1024, guidance_scale=2.5, seed=0, ) images[0].save("example_t2i.png") # save output PIL Image # Multi-modal to Image # In prompt, we use the placeholder to represent the image. The image placeholder should be in the format of <img><|image_*|></img> # You can add multiple images in the input_images. Please ensure that each image has its placeholder. For example, for the list input_images [img1_path, img2_path], the prompt needs to have two placeholders: <img><|image_1|></img>, <img><|image_2|></img>. images = pipe( prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>." input_images=["./imgs/test_cases/two_man.jpg"] height=1024, width=1024, separate_cfg_infer=False, # if OOM, you can set separate_cfg_infer=True guidance_scale=3, img_guidance_scale=1.6 ) images[0].save("example_ti2i.png") # save output PIL image
02数据集推荐
Infinity-MM
Infinity-MM是由智源研究院开源的千万级多模态指令数据集,包含数千万个样本,数据规模达4300万条,数据量达10TB,通过质量过滤和去重,确保了其数据的高质量和多样性。
Infinity-MM基于智源提出的一种基于开源模型和标签体系的合成数据生成方法,能够生成高质量的指令数据并有效地扩大指令数据集的规模。基于 Infinity-MM成功训练了一个 20 亿参数的多模态模型 Aquila-VL-2B,在同规模模型中取得了最先进的性能。
数据集链接:
https://www.modelscope.cn/datasets/BAAI/Infinity-MM
SafeMTData
由上海交通大学,上海人工智能实验室和北京航空航天大学学者联合推出的首个多轮安全对齐数据集,该数据集包含两个主要部分:Attack_600和SafeMTData_1K。
Attack_600是一个包含600个有害多轮查询的数据集,用于检测大型语言模型(LLMs)在多轮对话中的安全漏洞,基于Harmbench扩展,每个查询有3种攻击路径。SafeMTData_1K包含1680个安全对话,旨在训练LLMs识别和拒绝有害查询,避免数据污染。这两个数据集对于评估和提升LLMs的安全性至关重要。
数据集链接:
https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/SafeMTData
MMBench-Video
MMBench-Video 是由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的一个针对视频理解任务设计的全新长视频、多镜头基准评测数据集,涵盖了广泛的视频内容和细粒度能力评估。基准测试包含从YouTube收集的600多个长视频,涵盖新闻、体育等16个主要类别,旨在评估MLLMs的时空推理能力。与传统的视频问答基准不同,MMBench-Video通过引入长视频和高质量的人工标注问答对,弥补了现有基准在时序理解和复杂任务处理方面的不足。
数据集链接:
https://www.modelscope.cn/datasets/BAAI/Infinity-MM
Debatts-Data
Debatts-Data 数据集是第一个用于富有表现力的文本转语音合成的汉语反驳语音数据集。它由来自互联网上各种视频平台和播客的大量专业汉语语音数据构成。野外收集方法确保了反驳语音的真实自然。此外,该数据集还包含转录、持续时间和风格嵌入的注释。
数据集链接:
https://modelscope.cn/datasets/amphion/Debatts-Data
03精选应用
maskgct语音复刻
MaskGCT支持文本到语音的转换任务,支持生成高质量的语音输出,适用于语音合成和语音识别等多种应用场景。
体验直达:
https://modelscope.cn/studios/amphion/maskgct
AI对话播客(输入网页或PDF即可生成一档对话播客节目)
结合不同的开源模型,例如Qwen2.5-72B-Instruct, CosyVoice-300M)等,将PDF文件(比如论文paper),或者网页URL内容,转换成为有趣的播客
体验直达:
https://www.modelscope.cn/studios/modelscope/open-notebooklm-demo
04社区精选文章
- 智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
- 让你的Notebook飞起来!开发体验再上新台阶
- 上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
- NeurIPS D&B 2024 | 突破短视频局限!MMBench-Video全面解读MLLM视频理解能力
- 打破文本边界:如何进行多模态RAG评估
- 现在,一行命令使用Ollama运行任意魔搭GGUF模型
- AI+硬件最新资讯合集(2024-11-05第2期)
- Meissonic:高效高分辨率文生图重大革新
- 社区供稿 | 创作《哈利波特与异界魔书》的过程和心得
- 社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
- 实战 | 猫猫、少女、FLUX、ControlNet
- MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
- AI+硬件最新资讯合集(2024-10-28第1期)
- Stable Diffusion 3.5来了!更真实,更可控,更开放!魔搭社区推理最佳实践