Qwen 2.5:阿里巴巴集团的新一代大型语言模型

简介: Qwen 2.5:阿里巴巴集团的新一代大型语言模型

Qwen 2.5:阿里巴巴集团的新一代大型语言模型

摘要:

       在人工智能领域,大型语言模型(LLMs)的发展日新月异,它们在自然语言处理(NLP)和多模态任务中扮演着越来越重要的角色。阿里巴巴集团的Qwen团队最近推出了Qwen 2.5,这是其大语言模型系列的最新升级。本文将综述Qwen 2.5的主要特点、技术进步以及它在多模态交互和语言理解方面的应用潜力。

  1. 引言 随着人工智能技术的不断进步,大型语言模型已经成为推动自然语言处理领域发展的关键力量。Qwen 2.5的发布标志着阿里巴巴集团在这一领域的最新进展,它不仅在语言理解方面取得了显著提升,还在文本生成、视觉理解、音频理解等多个方面展现了卓越的能力。
  2. Qwen 2.5的主要特点 Qwen 2.5是阿里巴巴集团Qwen团队研发的新一代大型语言模型,它在以下方面展现了显著的特点和进步:
  • 参数规模:Qwen 2.5提供了从0.5B到72B不同参数规模的模型,以满足不同应用场景的需求。
  • 预训练数据:模型在包含18万亿tokens的大规模多语言和多模态数据集上进行预训练,确保了其在多样化数据上的强大表现。
  • 指令遵循与文本生成:Qwen 2.5在遵循指令和生成长文本方面的能力得到了显著提升,能够理解和生成结构化数据,如表格和JSON格式的输出。
  • 角色扮演与聊天机器人:模型增强了角色扮演的实现和聊天机器人的背景设置,使其在交互式应用中更加自然和适应性强。
  • 上下文长度:支持长达128K tokens的上下文长度,并能生成最多8K tokens的文本,这为处理长文本提供了可能。
  • 多语言支持:Qwen 2.5支持超过29种语言,包括中文、英文、法文、西班牙文等,使其具有广泛的国际适用性。
  1. 技术进步 Qwen 2.5的技术进步体现在以下几个方面:
  • 仅解码器稠密语言模型:Qwen 2.5采用了易于使用的仅解码器架构,提供了基模型和指令微调模型两种变体。
  • 预训练与微调:模型在高质量数据上进行后期微调,以贴近人类偏好,这在提升模型性能方面起到了关键作用。
  • 结构化数据理解:Qwen 2.5在理解结构化数据方面取得了显著进步,这对于处理表格、数据库和其他结构化信息尤为重要。
  1. 应用潜力 Qwen 2.5的多模态能力和语言理解能力使其在以下领域具有广泛的应用潜力:
  • 客户服务:作为聊天机器人,Qwen 2.5能够提供更加自然和准确的客户服务体验。
  • 内容创作:在文本生成方面,Qwen 2.5能够帮助用户快速生成高质量的内容。
  • 数据分析:Qwen 2.5的理解结构化数据的能力使其在数据分析和信息提取方面具有巨大潜力。
  • 教育和研究:Qwen 2.5的多语言支持为教育和研究提供了强大的工具,尤其是在语言学习和跨文化交流方面。

2. 代码使用

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

参考文献:

目录
相关文章
|
机器学习/深度学习 人工智能 达摩院
10万亿!达摩院发布全球最大AI预训练模型M6
今天,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。
7516 0
10万亿!达摩院发布全球最大AI预训练模型M6
|
12月前
|
人工智能 API 云计算
飞天技术观|ModelScope:共建模型生态,以模型自由加速AI应用创新
基于「模型即服务」,即MaaS(ModelasaService)的理念,ModelScope通过不断降低模型应用门槛,让AI更普惠,帮助开发者在ModelScope上能够低成本、高效地使用模型,并建立起良好的模型生态和开发者生态。
747 0
|
人工智能 NoSQL 安全
MongoDB推出“AI创新者计划”,帮助企业利用生成式AI实现创新
全新的“MongoDB AI创新者计划”将有助于企业快速获取相关技术,构建合作伙伴关系,利用MongoDB平台加速产品走向市场
MongoDB推出“AI创新者计划”,帮助企业利用生成式AI实现创新
|
人工智能 达摩院 自然语言处理
首批开源超300个顶尖模型:这几家中国「AI主力军」,合力打造了一个AI模型社区「魔搭」
首批开源超300个顶尖模型:这几家中国「AI主力军」,合力打造了一个AI模型社区「魔搭」
278 0
|
机器学习/深度学习 存储 分布式计算
阿里开源首个DL框架,新型XDL帮你搞定大规模稀疏数据
12 月 21 日,阿里巴巴旗下的大数据营销平台阿里妈妈开源了其应用于自身广告业务的算法框架 X-Deep Learning(XDL)。该框架非常擅长处理高维稀疏数据,对构建推荐、搜索和广告系统非常有优势。此外,阿里还配套发布了一系列官方模型,它们都是阿里在实际业务或产品中采用的高效模型。
1004 0
阿里开源首个DL框架,新型XDL帮你搞定大规模稀疏数据
|
达摩院 自然语言处理 测试技术
直接开源!达摩院公布下一代工业级语音识别模型
直接开源!达摩院公布下一代工业级语音识别模型
725 0
|
机器学习/深度学习 人工智能 城市大脑
全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟
全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟
|
人工智能 达摩院 自然语言处理
阿里达摩院五年磨一剑,重磅推出AI模型社区,直击“AI应用难”
11月3日,2022云栖大会杭州现场,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。达摩院率先向魔搭社区贡献300多个经过验证的优质AI模型,超过1/3为中文模型,全面开源开放,并且把模型变为直接可用的服务。
507 0
|
机器学习/深度学习 人工智能 弹性计算
五年磨一剑:阿里达摩院重磅推出AI模型社区「魔搭」,300+模型全面开源
五年磨一剑:阿里达摩院重磅推出AI模型社区「魔搭」,300+模型全面开源
1105 0
|
人工智能 测试技术 数据中心
下一篇
无影云桌面