Pangea:卡内基梅隆大学开源的多语言多模态大语言模型

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多语言支持:能理解和生成39种不同语言的文本。
多模态理解:除文本外,能处理和理解图像。
跨文化覆盖:在训练中包含与文化相关的多模态任务。

正文(附运行示例)

Pangea 是什么

Pangea是由卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),旨在提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。

Pangea基于包含14个数据集、覆盖47种语言的PangeaABench评估套件进行性能评估。Pangea在多语言和文化背景下的性能超越现有开源模型(如Llava-1.5-7B、Llava-Next-7B)。研究发现英语数据比例、语言流行度和多模态训练样本数量对性能有显著影响。

公众号: 蚝油菜花 - Pangea

Pangea 的主要功能

  • 多语言支持:能理解和生成39种不同语言的文本,在多语言交流和处理中非常有用。
  • 多模态理解:除文本外,能处理和理解图像,在图像描述、视觉问答等任务中表现出色。
  • 跨文化覆盖:在训练中包含与文化相关的多模态任务,有助于模型更好地理解和适应不同文化背景。
  • 高质量指令遵循:Pangea在训练中使用高质量的英文指令,及经过精心机器翻译的指令,确保模型在不同语言中的准确性和一致性。

Pangea 的技术原理

  • 数据集构建:基于Pangea数据集,一个包含600万条指令的多语言数据集,覆盖39种语言。
  • 机器翻译:为解决多语言数据的稀缺问题,用机器翻译技术将高质量英文指令翻译成其他语言。
  • 文化相关任务:在训练中包含与文化相关的多模态任务,提高模型对文化差异的理解和适应性。
  • 评估套件:PangeaABench是包含14个数据集、覆盖47种语言的评估套件,用在全面评估模型在多语言和多模态任务中的表现。
  • 模型架构:基于LLaVA-Next架构,用Qwen2-7B-Instruct作为语言模型的骨干,为模型提供强大的语言理解和生成能力。

如何运行 Pangea

设置环境

  1. 克隆仓库:使用Git克隆仓库到本地环境。
    git clone https://github.com/neulab/Pangea.git
    
  2. 安装依赖:确保安装了所需的依赖。
    cd Pangea/train/LLaVA-NeXT
    pip install -e ".[train]"
    

运行示例

在安装了所需包后,可以运行示例Python代码来使用Pangea-7B。

cd Pangea/predict
python predict_all.py # 可以评估多模态输入和纯文本输入
python predict_multimodal.py # 可以评估多模态输入
python predict_text_only.py # 可以评估纯文本输入

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
210 0
|
6月前
|
人工智能 自然语言处理 API
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
|
5月前
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
111 1
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
49 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
|
机器学习/深度学习 人工智能 自然语言处理
少儿编程领域-基于GPT-3 & 大语言模型的AI助教研究
在少儿编程领域,GPT-3 可以辅助教学,帮助学生更好地理解编程概念和实践技能。下面是一个可能的落地解决方案,结合本地知识库和大语言模型:
357 0
|
机器学习/深度学习 人工智能 自然语言处理
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
142 0
|
人工智能 编解码 自然语言处理
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
182 0
|
机器学习/深度学习 人工智能 编解码
PAI-Diffusion 模型来了!阿里云机器学习团队带您徜徉中文艺术海洋
PAI-Diffusion系列模型,包括一系列通用场景和特定场景的文图生成模型,本⽂简要介绍PAI-Diffusion模型及其体验方式。
|
Web App开发 人工智能 自然语言处理
ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源
ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源
207 0

热门文章

最新文章