LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

模型设计:LEOPARD专为处理文本丰富的多图像任务设计,具备自适应高分辨率多图像编码能力。
技术特点:整合多模态大型语言模型架构,利用大规模多模态指令调优数据集进行训练。
应用场景:适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个领域。

正文

LEOPARD 是什么

公众号: 蚝油菜花 - Leopard

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。该模型通过两个主要技术创新来实现其功能:一是策划约一百万条专门针对文本丰富、多图像场景的高质量多模态指令调优数据集;二是开发自适应高分辨率多图像编码模块,动态优化视觉序列长度分配。

LEOPARD在多个基准测试中展现卓越的性能,特别是在需要理解单个图像内容及跨多个视觉输入进行推理的复杂任务中表现出色。

LEOPARD 的主要功能

  • 处理文本丰富的多图像任务:用于理解和处理包含大量文本信息的多图像场景,如幻灯片、扫描文档和网页截图等。
  • 跨图像推理:模型能理解单个图像的内容,在多个图像间进行逻辑推理和关系建立。
  • 高分辨率图像处理:基于自适应高分辨率多图像编码模块,能有效处理高分辨率图像,保持文本和细节的清晰度。
  • 动态视觉序列长度优化:根据输入图像的原始纵横比和分辨率动态优化视觉序列长度,平衡图像细节和模型处理能力。
  • 多模态指令调优:用大规模多模态指令调优数据集,能针对复杂的视觉语言任务进行优化。

LEOPARD 的技术原理

  • 多模态大型语言模型(MLLM):基于MLLM架构,整合视觉编码器、视觉语言连接器和语言模型,处理视觉和文本信息。
  • 数据集构建:构建LEOPARD-INSTRUCT数据集,包含约一百万条针对文本丰富、多图像场景的指令,用在模型训练和优化。
  • 自适应高分辨率编码:基于自适应策略,根据输入图像的特性动态调整视觉特征序列,适应模型的序列长度限制。
  • 像素洗牌技术:应用像素洗牌操作,将长视觉特征序列无损压缩成更短的序列,便于模型处理更多的高分辨率图像。
  • 图像分割:将高分辨率图像分割成多个子图像,以便独立处理并保留细节,然后将视觉特征与文本信息一起输入到语言模型中。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 编解码 自然语言处理
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
231 0
|
3月前
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
80 6
|
12天前
|
SQL 机器学习/深度学习 人工智能
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
本文介绍了四个最新的 AI 开源项目,涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域,为 AI 应用开发提供了丰富的资源和工具。
79 0
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
|
2月前
|
人工智能 自然语言处理 安全
Gemini 人工智能:谷歌AI重磅来袭!好消息,国内可用
Gemini 是 Google 🧠 开发的革命性人工智能模型,旨在打造一个功能强大的多模态 AI 系统。
|
3月前
|
人工智能 自然语言处理 vr&ar
【通义】AI视界|“AI教母”李飞飞创业公司World Labs获2.3亿美元融资!
本文介绍了最新的科技动态,包括谷歌推出的DataGemma模型,通过真实世界统计数据减少模型幻觉;美国科技巨头与拜登团队会面讨论AI基础设施需求;Midjourney 7.0版本即将发布,引入3D系统提供沉浸式体验;李飞飞的World Labs获2.3亿美元融资,开发大型世界模型;苹果iPhone 16全系配备8GB内存,支持AI功能。更多内容请访问通义官网体验。
|
7月前
|
人工智能 边缘计算 机器人
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
|
机器学习/深度学习 Web App开发 人工智能
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文(2)
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文
322 0
|
人工智能 自然语言处理 自动驾驶
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文(1)
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文
217 0
|
Web App开发 人工智能 测试技术
中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」
中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」
179 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
907 0

热门文章

最新文章