160亿参数,新增多项能力,复旦MOSS开源了

简介: 160亿参数,新增多项能力,复旦MOSS开源了


编辑:蛋酱


今年 2 月份,机器之心报道了复旦大学推出中国版 ChatGPT 的消息(参见《复旦发布中国版 ChatGPT:MOSS 开启测试冲上热搜,服务器挤爆》),引起了广泛关注。当时,邱锡鹏教授就曾表示将于四月份开源 Moss。


昨天,开源版的 Moss 真的来了。


项目地址:https://github.com/OpenLMLab/MOSS

MOSS 是一个支持中英双语和多种插件的开源对话语言模型,但参数数量比 ChatGPT 少得多。在 v0.0.2 之后,团队持续对其进行调整,推出了 MOSS v0.0.3,也就是目前开源的版本。相比于早期版本,功能也实现了多项更新。


最初的测试中,MOSS 的基础功能与 ChatGPT 类似,可以按照用户输入的指令完成各类自然语言处理任务,包括文本生成、文本摘要、翻译、代码生成、闲聊等等。


开放内测后,团队继续加大中文语料的预训练:「截止目前,MOSS 003 的基座语言模型已经在 100B 中文 token 上进行了训练,总训练 token 数量达到 700B,其中还包含约 300B 代码。」


在开放内测后,我们也收集了一些用户数据,我们发现真实中文世界的用户意图和 OpenAI InstructGPT 论文中披露的 user prompt 分布有较大差异(这不仅与用户来自的国家差异有关,也跟产品上线时间有关,早期产品采集的数据中存在大量对抗性和测试性输入),于是我们以这部分真实数据作为 seed 重新生成了约 110 万常规对话数据,涵盖更细粒度的 helpfulness 数据和更广泛的 harmlessness 数据。

内容来源:https://www.zhihu.com/question/596908242/answer/2994534005

目前,团队已将 moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin 三个模型上传到 HuggingFace。后续,还有三个模型将会开源。


根据项目主页介绍,moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。


团队同时表示,由于模型参数量较小和自回归生成范式,MOSS 仍然可能生成包含事实性错误的误导性回复或包含偏见 / 歧视的有害内容,请谨慎鉴别和使用 MOSS 生成的内容,请勿将 MOSS 生成的有害内容传播至互联网。


新增能力


在 MOSS v0.0.3 中,团队加入了多项新能力。


团队构造了约 30 万插件增强的对话数据,包含搜索引擎、文生图、计算器、方程求解等。关于插件版 MOSS 如何使用,后续团队将在 GitHub 公布。


MOSS v0.0.3 现已引入使用多种插件的能力。


下图展示了调用搜索引擎的能力:



下图展示了调用方程求解器的能力:



下图展示了从文本生成图片的能力:


项目作者孙天祥补充说,MOSS 003 支持启用插件的能力是通过 meta instruction 来控制,类似 gpt-3.5-turbo 里的 system prompt。「因为是模型控制的,所以并不能保证 100% 控制率,以及还存在一些多选插件时调用不准、插件互相打架的缺陷,我们正在尽快开发新的模型来缓解这些问题。」


下载安装


下载本仓库内容至本地 / 远程服务器:


git clone https://github.com/OpenLMLab/MOSS.gitcd MOSS

创建 conda 环境:




conda create --name moss python=3.8conda activate moss

安装依赖:



pip install -r requirements.txt


其中 torch 和 transformers 版本不建议低于推荐版本。


根据协议,开源的 MOSS 可用于商业用途:



此外,开发者也可通过 API 调用 MOSS 服务,团队将根据当前服务压力考虑通过 API 接口形式提供服务,接口格式可参考:https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf


目前,已有开发者根据开源内容进行而创,比如通过 VideoChat 进行视频问答。


VideoChat 是一款多功能视频问答工具,结合了动作识别、视觉字幕和 StableLM 的功能。该工具可为视频中的任何对象和动作生成密集的描述性字幕,提供一系列语言风格以满足不同的用户偏好。它支持用户进行不同长度、情绪、语言真实性的对话。


项目地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS

相关文章
|
缓存 边缘计算 监控
2024年前端性能优化的新策略
【10月更文挑战第3天】本文分享了一些2024年前端性能优化的新策略,希望能够为前端开发者提供实用的参考和指导。在实际开发中,应根据应用的具体需求和场景选择合适的优化方法。
|
安全 程序员 编译器
Python有多少个版本?不同Python版本之间有什么区别?我应该选择哪一个?
Python有多少个版本?不同Python版本之间有什么区别?我应该选择哪一个?
5481 0
Python有多少个版本?不同Python版本之间有什么区别?我应该选择哪一个?
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。
703 5
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
|
9月前
|
域名解析 存储 人工智能
Manus的技术实现原理浅析与简单复刻
作者参考网络相关信息并加上个人理解,对Manus的技术实现原理进行深入分析,并做了一个简单版本的复刻,欢迎大家在评论区互相交流探讨~
Manus的技术实现原理浅析与简单复刻
|
人工智能 安全 搜索推荐
AI与能源管理:智能电网的未来
本文探讨了AI与智能电网的融合及其对能源管理的深远影响。智能电网利用先进的信息、通信和AI技术,实现电力的自主、智能化、高效管理。AI在精准预测电力需求、实时监测与故障诊断、智能能源调度、个性化能源服务和优化可再生能源利用等方面发挥关键作用,推动能源管理的高效、智能和可持续发展。
|
存储 NoSQL 网络协议
PG内核解读-第1节PostgreSQL系统概述
本文整理自阿里云数据库开源社区Maintainer于巍(花名漠雪),在PostgreSQL数据库内核解读系列的分享。本篇内容主要分为四个部分: 1. 本系列教程介绍 2. PostgreSQL概述(历史、架构) 3. PostgreSQL安装启动 4. PostgreSQL常用命令、调试
PG内核解读-第1节PostgreSQL系统概述
|
安全 Ubuntu 搜索推荐
|
人工智能 自然语言处理
论文介绍:大型语言模型作为优化器
【2月更文挑战第29天】OPRO研究利用大型语言模型(LLMs)作为优化器解决各种问题,将复杂优化转化为自然语言描述,通过设计元提示引导LLMs生成解决方案。在数学优化和自然语言处理任务中展现出潜力,尤其在旅行商问题上优于其他模型。然而,LLMs可能陷入局部最优解且存在数学计算错误。尽管有挑战,OPRO仍优于传统优化方法,为LLMs应用开辟新方向。论文链接:https://arxiv.org/abs/2309.03409
237 1
论文介绍:大型语言模型作为优化器
|
Java 数据安全/隐私保护
Java 封装详解
在 Java 中,封装是面向对象编程的关键特性,通过将对象的状态(数据)和行为(方法)结合并利用访问控制保护数据,防止外部随意访问和修改。主要特点包括访问控制(如 `private` 和 `protected`)、数据隐藏及方法暴露(如 getter 和 setter)。封装的优点在于保护数据、隐藏实现细节、易于维护以及提高代码可读性。下面是一个简单的 `Person` 类封装示例,展示了如何通过 getter 和 setter 控制对类内部状态的访问,并进行合法性检查。总结而言,封装有助于构建清晰、易用且可维护的代码结构,是编写高质量 Java 程序的重要原则。
408 7
|
前端开发
vue3 【提效】使用 CSS 框架 UnoCSS 实用教程
vue3 【提效】使用 CSS 框架 UnoCSS 实用教程
971 1