魔搭社区每周速递(12.29-1.4)

简介: 魔搭ModelScope本期社区进展:828个模型,72个数据集,61个创新应用,9篇内容

image.png

🙋魔搭ModelScope本期社区进展:

📟828个模型:Cogagent-9b、SmallThinker-3B-Preview、HuatuoGPT-o1系列等;

📁72个数据集:lmsys_chat_1m_clean、reasoning-1-1k、LaTeX公式OCR识别数据集等;

🎨61个创新应用mirau-14b-demo、GPT-SoVITS V2 Taffy语音在线生成、集体照人脸识别与查询分割(复旦MSE)等;

📄 9篇内容:

  • AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉,快来围观风格化地标!
  • 智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景
  • 人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
  • 新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用
  • 2025的第一节启发课:从想法到实践(基于Gradio的AI应用搭建实践课①)
  • 魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
  • 社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
  • 极致的显存管理!6G显存运行混元Video模型
  • 2025年啦!0代码,做一本给足情绪价值的夸夸日历

01.精选模型

Cogagent-9b-20241220

CogAgent-9B是智谱AI基于GLM-4V-9B训练的专用Agent任务模型,专注于通过屏幕截图预测下一步GUI操作,无需HTML等文本表征。它能够结合历史操作执行用户指定的任务,适用于个人电脑、手机和车机设备等多种GUI交互场景。相较于2023年12月的第一版,CogAgent-9B-20241220在GUI感知、推理准确性、动作空间、任务普适性和泛化性上显著提升,并支持中英文双语交互。

模型链接:

https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

运行模型

代码下载

git clone https://github.com/THUDM/CogAgent.git
cd CogAgent

模型下载

modelscope download --model ZhipuAI/cogagent-9b-20241220 --local_dir ./cogagent

CLI模型推理

python inference/cli_demo.py --model_dir ./cogagent --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

更多详情请见:

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

HuatuoGPT-o1系列

HuatuoGPT-o1 是一款为高级医学推理而设计的医学大型语言模型。它在提供最终回答之前,会生成一个复杂的思维过程,进行反思和提炼推理。

模型链接:

  • HuatuoGPT-o1-7B:

   https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-7B

  • HuatuoGPT-o1-8B:

   https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-8B

  • HuatuoGPT-o1-70B:

   https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-70B

  • HuatuoGPT-o1-72B:

   https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-72B

示例代码:

以 HuatuoGPT-o1-7B 推理为例

from modelscope import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B",torch_dtype="auto",device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B")
input_text = "How to stop a cough?"
messages = [{"role": "user", "content": input_text}]
inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False,add_generation_prompt=True
), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

SmallThinker-3B-Preview

SmallThinker-3B-Preview是一个基于Qwen2.5-3b-Instruct模型微调的针对边缘部署进行优化的新推理模型,为资源受限设备上的人工智能任务提供了显著的加速。它作为更大的QwQ-32B-Preview的草稿模型,在 llama.cpp 中可以获得 70% 的速度提升(从每秒 40 个 token 提升到每秒 70 个 token)。

模型链接:

https://www.modelscope.cn/models/PowerInfer/SmallThinker-3B-Preview

02.数据集推荐

lmsys_chat_1m_clean

包含100万条清洁的中文聊天对话记录,用于支持自然语言处理和对话系统的研究与开发。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/lmsys_chat_1m_clean

reasoning-1-1k

包含1000个问题,旨在提升模型的逻辑推理能力。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/reasoning-1-1k

LaTeX公式OCR识别数据集

旨在支持和提升OCR技术在识别和处理LaTeX格式的数学公式和科学文档方面的表现。该数据集对于自然语言处理和文档分析领域的研究与应用具有重要价值。

数据集链接:

https://modelscope.cn/datasets/xmatrix/OCR_Synthetic_LaTeX

03.精选应用

mirau-14b-demo

沉浸式体验剧本,支持文字输入,共有三个角色选择体验。

体验直达:

https://modelscope.cn/studios/mouseEliauk/mirau-14b-demo

GPT-SoVITS V2 Taffy语音在线生成

提供文本到语音的转换服务,用户可以在这个创空间中体验先进的语音合成技术。

体验直达:

https://modelscope.cn/studios/cynika/GPT-SoVITS-v2-taffy

集体照人脸识别与查询分割

支持在集体照片中进行人脸检测和识别。

体验直达:

https://modelscope.cn/studios/funcity159/GroupPhotoFaceRecognition

04.社区精选文章

目录
相关文章
|
人工智能 安全 API
OpenHands:能自主检索外部知识的 AI 编程工具,自动执行命令、网页浏览和生成代码等操作
OpenHands 是一款基于 AI 的编程工具,支持多智能体协作,能够自动生成代码、执行命令、浏览网页等,显著提升开发效率。
2365 26
OpenHands:能自主检索外部知识的 AI 编程工具,自动执行命令、网页浏览和生成代码等操作
|
监控 前端开发 API
实战指南:使用Python Flask与WebSocket实现高效的前后端分离实时系统
【7月更文挑战第18天】构建实时Web应用,如聊天室,可借助Python的Flask和WebSocket。安装Flask及Flask-SocketIO库,创建Flask应用,处理WebSocket事件。前端模板通过Socket.IO库连接服务器,发送和接收消息。运行应用,实现实时通信。此示例展现了Flask结合WebSocket实现前后端实时交互的能力。
1716 3
|
机器学习/深度学习 数据可视化 算法
YOLOv9改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
YOLOv9改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
1018 5
YOLOv9改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
|
XML JSON 算法
智能冰箱食材识别
本案例设计了一个囤菜系统原型,主要方法是利用冰箱内安装的摄像头,通过目标检测算法识别食材类别,判断存取动作,增加或者减少相应的食材的数量,并记录存取时间等相关数据,设计出了具备提示清理和补货等功能的智能化囤菜系统原型。
820 8
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
813 4
|
数据采集 人工智能 Serverless
AI 克隆声音,只需 3 分钟(附最全教程)
文章介绍了GPT-Sovits,一个开源的生成式语音模型,因其在声音克隆上的高质量和简易性而受到关注。阿里云函数计算(Function Compute)提供了一个快速托管GPT-Sovits的方法,让用户无需管理服务器即可体验和部署该模型。通过函数计算,用户可以便捷地搭建基于GPT-Sovits的文本到语音服务,并享受到按需付费和弹性扩展的云服务优势。此外,文章还列举了GPT-Sovits在教育、游戏、新能源等多个领域的应用场景,并提供了详细的步骤指导,帮助用户在阿里云上部署和体验GPT-Sovits模型。
36982 8
|
Ubuntu 网络安全 数据安全/隐私保护
使用SSH隧道将Ubuntu云服务器Jupyter Notebook端口映射到本地
这样,你就成功地将Ubuntu云服务器上的Jupyter Notebook端口映射到本地,使你能够通过本地浏览器访问并使用Jupyter Notebook。
1228 1
|
安全 Linux 数据安全/隐私保护
Linux特殊权限解析:SUID、SGID和Sticky Bit
Linux特殊权限解析:SUID、SGID和Sticky Bit
878 0

热门文章

最新文章