魔搭社区每周速递(11.10-11.16)

简介: 1435个模型、43个数据集、39个创新应用、7篇应用文章

🙋魔搭ModelScope本期社区进展:

📟1435个模型:Qwen2.5-Coder系列、In-Context-LoRA、RMBG-2.0等;

📁43个数据集:LaTeX_OCR、test_latex_ocr等;

🎨39个创新应用:通义千问2.5-代码系列、OmniGen等;

📄 7 篇文章:

  • ModelScope魔搭11月版本发布月报
  • 基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
  • 智源行业应用大模型挑战赛开启报名!挖掘数据潜能,共创行业新篇
  • Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
  • Open NotebookLM,一键PDF/URL转播客!
  • AI+硬件最新资讯合集(2024-11-11第3期)
  • 魔搭社区创空间全新支持 Gradio 5

01精选模型

Qwen2.5-Coder

通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。

  • 强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o。在展现出强大且全面的代码能力的同时,具备良好的通用和数学能力;
  • 多样:在之前开源的两个尺寸 1.5B/7B 的基础上,本次开源共带来四个尺寸的模型,包括 0.5B/3B/14B/32B。截止目前 Qwen2.5-Coder 已经覆盖了主流的六个模型尺寸,以满足不同开发者的需要;
  • 实用:在两种场景下探索 Qwen2.5-Coder 的实用性,包括代码助手和 Artifacts,一些样例展示出 Qwen2.5-Coder 在实际场景中应用的潜力;

合集模型链接:

https://modelscope.cn/collections/Qwen25-Coder-9d375446e8f5814a

推理代码:

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-Coder-32B-Instruct-GPTQ-Int4"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "write a quick sort algorithm."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

更多信息请看最佳实践:

Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!

RMBG-2.0

RMBG v2.0 是一个优秀的背景移除模型,可有效分离各种类别和图像类型的前景和背景。该模型在精心挑选的数据集上进行了训练,包括:通用库存图片、电子商务、游戏和广告内容,使其适合商业用途,支持大规模企业内容创作。目前的准确性、效率和多功能性可与领先的开源模型相媲美。它非常适合重视内容安全、合法授权数据集和偏见缓解的场景。

模型链接:

https://modelscope.cn/models/AI-ModelScope/RMBG-2.0

使用方法:


from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation
from modelscope import snapshot_download
model_dir = snapshot_download('AI-ModelScope/RMBG-2.0')
model = AutoModelForImageSegmentation.from_pretrained(model_dir, trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()
# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
    transforms.Resize(image_size),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])
image = Image.open('cat.png')
input_images = transform_image(image).unsqueeze(0).to('cuda')
# Prediction
with torch.no_grad():
    preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)
image.save("no_bg_image.png")

02数据集推荐

LaTeX_OCR

一个专注于LaTeX文档的光学字符识别数据集,旨在支持和改进OCR技术在学术和科学文档数字化领域的应用。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR

test_latex_ocr

test_latex_ocr是一个LaTeX文档光学字符识别测试数据集。

5个数据集

  1. small 是小数据集,样本数 110 条,用于测试
  2. full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。
  3. synthetic_handwrite 是手写体 100k 的完整数据集,基于 full 的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。
  4. human_handwrite 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 CROHME。我们用 LaTeX 的抽象语法树校验过了。
  5. human_handwrite_print 是来自 human_handwrite 的印刷体数据集,公式部分和 human_handwrite 相同,图片部分由公式用 LaTeX 渲染而来。

数据集链接:

https://modelscope.cn/datasets/wangxingjun778/test_latex_ocr

03精选应用

通义千问2.5-代码

通义千问团队开源了功能强大、多样化、实用的 Qwen2.5-Coder 系列,支持在线体验,推动 Open Code LLMs 发展。

模型集合demo体验:

https://www.modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo

Artifacts体验:

https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-Artifacts

OmniGen

OmniGen 是一个多功能图像生成模型,支持文本到图像、主题驱动、身份保持和条件图像生成等多种任务,使用时需传入字符串提示和图像路径列表,支持多模态到图像生成,建议图像编辑任务时输出尺寸与输入一致,可自动设置,且提供内存和时间优化选项,能够调整图像饱和度和风格,编辑时需更换种子以避免重复。

体验直达:

https://modelscope.cn/studios/chuanSir/OmniGen

04社区精选文章

相关文章
|
JavaScript 前端开发 API
uniapp的优势与劣势
uniapp的优势与劣势
600 1
|
UED
element el-cascader动态加载数据 (多级联动,落地方案)
最近需要用到element ui的这个插件做地区的四级联动,但是碰了一些问题: 官网的说明太泛泛然,不易看懂 网上的教程乱七八糟,代码一堆一堆的 看这篇就对了!!!
2423 0
element el-cascader动态加载数据 (多级联动,落地方案)
|
3月前
|
人工智能 前端开发 小程序
 《CodePen AI + Tabnine:前端组件库升级的智能协作指南》
本文记录前端组件库升级项目中,AI工具(CodePen AI、Tabnine)助力团队突破“旧组件拆解难、三端兼容开发紧、团队能力断层”三重困局。面对60天需求40天交付的压力,团队以“AI解析+人工校验”模式,借CodePen AI 10分钟完成旧组件逻辑拆解与兼容性标注,10天完成原20天梳理任务;靠Tabnine“人工定骨架、AI填细节”,4小时解决自定义主题配置难题,40天项目38天交付。AI不仅压缩60%重复性工作时间,更构建“AI初解+人工优化”协作模式,新人成长提速3倍,组件复用率从40%升至85%,加载速度降75%,印证其“效率加速器、知识桥梁、质量管家”的核心价值。
324 4
|
7月前
|
人工智能 安全 Linux
Burp Suite Professional 2025.5 发布,新增功能简介
Burp Suite Professional 2025.5 (macOS, Linux, Windows) - Web 应用安全、测试和扫描
354 4
|
安全 Linux 数据安全/隐私保护
国内外四款强大的远控使用体验:ToDesk、向日葵、AnyDesk、Microsoft 远程桌面横向比较
国内外四款强大的远控使用体验:ToDesk、向日葵、AnyDesk、Microsoft 远程桌面横向比较
2302 0
|
3月前
|
人工智能 缓存 算法
《人机协同的边界与价值:开放世界游戏系统重构中的AI工具实战指南》
本文复盘了开放世界游戏“动态实体调度系统”重构项目中,借助Cursor与CodeBuddy实现人机协同开发的30天实践。项目初期因代码耦合、性能不达标陷入技术死锁,团队通过“CodeBuddy全局架构拆解+Cursor局部编码优化”的组合模式,完成模块拆分、算法重构、资源泄漏排查与兼容性测试四大核心任务。AI工具在全局逻辑拆解、隐性问题定位、测试用例生成等方面效率提升显著,而人类聚焦业务规则定义、方案决策与细节优化,形成“AI搭框架、人类填细节”的协作模式。
178 12
|
3月前
|
人工智能 运维 监控
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
219 8
|
机器学习/深度学习 数据采集 人工智能
YOLOv8手势识别项目实战-石头剪刀布实时检测系统
本项目结合了 YOLOv8 检测模型 和 PyQt5 图形界面工具,成功实现了石头剪刀布手势的实时识别。支持摄像头、图片、视频等多种输入方式,能够快速识别并显示实时结果。配套完整的源码和训练流程说明,帮助你快速部署并定制自己的手势识别系统
YOLOv8手势识别项目实战-石头剪刀布实时检测系统
|
机器学习/深度学习 编解码 算法
了解与对比主流背景去除工具
本文对比了几款主流的背景去除工具,包括Remove.bg、Removal.ai、RMBG 2.0、Imagga和Wondershare Pixcut,重点介绍了RMBG 2.0这款开源工具的性能、优势及挑战,适用于不同需求的用户选择。
|
7月前
|
物联网
“一丹一世界”三等奖 | 木刻时光·细密风 经验分享
“一丹一世界”三等奖 | 木刻时光·细密风 经验分享
176 7