Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态理解与推理:Lyra能处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。
  2. 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。
  3. 高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。

正文(附运行示例)

Lyra 是什么

公众号: 蚝油菜花 - Lyra

Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。Lyra构建大规模的多模态数据集,包括长语音样本,处理复杂的长语音输入,实现强大的全模态认知能力。

Lyra在多种模态理解和推理任务中,达到最先进的性能,同时在计算资源和训练数据的使用上更为高效。它支持多种模态的输入和输出,包括图像、视频、音频和文本,能够在复杂的交互场景中表现出色。

Lyra 的主要功能

  • 多模态理解与推理:Lyra能理解和处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。
  • 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。
  • 高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。
  • 流式生成:支持同时生成文本和语音输出,在对话和交互中实时响应。
  • 跨模态交互:基于潜在的多模态正则化器和提取器,加强不同模态之间的信息交互,提升模型性能。

Lyra 的技术原理

  • 多模态LoRA(Low-Rank Adaptation):基于LoRA技术适配多模态输入,模型在保留原有视觉能力的同时,发展在语音模态中的能力,减少训练数据的需求。
  • 潜在跨模态正则化器:基于动态时间弯曲(Dynamic Time Warping, DTW)算法,将语音令牌与对应的文本令牌对齐,让语音模态的输入在语义上与文本模态保持一致。
  • 潜在多模态提取器:基于评估不同模态令牌与文本查询的相关性,动态选择和保留与任务最相关的令牌,提高训练和推理的效率。
  • 长语音能力集成:构建专门的长语音SFT数据集,基于压缩技术处理长语音令牌,让模型处理长达数小时的音频输入。
  • 流式文本-语音生成:集成流式生成机制,支持模型在生成文本的同时输出对应的语音,实现无缝的多模态交互体验。

如何运行 Lyra

Lyra的运行需要一定的环境配置和数据准备。以下是运行Lyra的基本步骤:

安装依赖

  1. 克隆仓库:

    git clone https://github.com/dvlab-research/Lyra.git
    
  2. 创建并激活虚拟环境:

    conda create -n lyra python=3.10 -y
    conda activate lyra
    cd Lyra
    pip install --upgrade pip
    pip install -e .
    
  3. 安装可选包以支持同时生成文本和语音:

    pip install pip==24.0
    pip install fairseq==0.12.2
    pip install --upgrade pip
    

数据准备

Lyra的训练和评估数据需要从指定的链接下载并组织。具体步骤请参考Lyra的项目文档

运行示例

以下是一个简单的运行示例,展示如何使用Lyra进行多模态交互:

from lyra.serve.cli import LyraCLI

# 初始化Lyra模型
lyra_cli = LyraCLI(model_path="work_dirs/Lyra_Base_9B")

# 加载图像和音频文件
image_file = "examples/Chinese_painting.jpg"
audio_file = "examples/Chinese_painting.mp3"

# 生成文本和语音输出
lyra_cli.generate_response(image_file=image_file, audio_file=audio_file, generate_speech=True)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12525 116
|
2月前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
190 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
2月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
110 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
11天前
|
人工智能 自然语言处理 达摩院
VideoLLaMA3:阿里达摩院开源专注于视觉理解的多模态基础模型,具备多语言视频理解能力
VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。
97 6
|
2月前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
135 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
6月前
|
存储 自然语言处理 监控
FunAudioLLM在性能、功能、技术先进性等方面与国际知名语音大模型的比较
FunAudioLLM在性能、功能、技术先进性等方面与国际知名语音大模型的比较
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
哈佛、麻省推出面向医学多模态助手—PathChat
【7月更文挑战第18天】哈佛+麻省理工推出PathChat,多模态AI助手革新医学病理学。融合Vision-Language模型,PathChat能处理自然语言和医学图像,提供高准确性的诊断支持与文本描述。在实验中,其性能超越同类产品,但面临数据偏见、可解释性及临床应用验证的挑战。[ Nature article: https://www.nature.com/articles/s41586-024-07618-3 ]**
227 3
|
8月前
|
机器人
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
【6月更文挑战第29天】北京大学研发的RoboMamba是新型机器人多模态大模型,融合Mamba SSM的高效推理与视觉编码器,提升复杂任务处理能力。通过微调策略,仅用少量参数即可快速习得操作技能,实现在通用及机器人场景的高效运行,推理速度提升7倍。尽管面临泛化和可解释性挑战,RoboMamba展示了多模态模型的新潜力。[论文链接:](https://arxiv.org/abs/2406.04339)
142 1
|
9月前
|
机器学习/深度学习 文字识别 自然语言处理
【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变
通过对GPT-4V和文档识别领域的深入分析和思考,为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下,提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下,出现了: 素级OCR统一模型、OCR大一统模型、文档识别分析+LLM(LanguageModel)等应用的新方向。下面来详细看一下。
738 0

热门文章

最新文章