MiniGPT4,开源了!

简介: MiniGPT4,开源了!


GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个。

MiniGPT-4来了,Demo开放在线可玩。

传一张海鲜大餐照片上去,就能直接获得菜谱。

传一张商品效果图,就可以让AI写一篇带货文案。

手绘一个网页,可以给出对应的HTML代码

除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。

可以说,GPT-4发布时展示过的功能,MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆,开发团队连开4台备用服务器,都有几十人在排队。

不等OpenAI了,现在就能玩

除了研究团队给出的示例,网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画,让AI评价评价。

有人上传一张从车道拍摄的飞机坠毁瞬间,让MiniGPT-4尽可能详细地描述,并思考自动驾驶AI能不能理解这个场面。

做到这么好的效果,MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

传统预训练阶段,使用4张A100在10个小时内就可完成,此时训练出来的Vicuna已能够理解图像,但生成能力受到很大影响。

为解决这个问题,团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集,也一并开源。

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个A100只需要7分钟。

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST(沙特阿卜杜拉国王科技大学),包括4位华人成员和他们的导师 Mohamed Elhoseiny。


相关文章
|
人工智能 编解码 安全
【最新】火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!
火出圈的Sora,是OpenAI最近发布的一款革命性文生视频大模型,引发了广泛的关注和讨论。在这篇5000字的长文中,我们将深入探讨Sora的技术特性、应用前景以及它对未来人工智能发展的潜在影响,带你彻底了解这个火出圈的Sora究竟是什么。
|
1月前
|
运维 网络协议 安全
网络抓包工具Wireshark v4.4.6.0 中文版
网络抓包工具Wireshark v4.4.6.0中文版(58.7MB)是全球领先的开源网络协议分析工具,支持实时抓包、数百种协议解析、TCP流重组与高级过滤。跨平台免费,需WinPCAP/Npcap驱动,适用于故障排查、安全审计与性能优化。(239字)
524 1
|
6月前
|
弹性计算 运维 安全
2025年选购指南:阿里云轻量应用服务器与云服务器ECS深度对比
阿里云轻量应用服务器与ECS区别解析:轻量适合个人开发者搭建博客、测试环境,配置简单、成本低,68元/年起;ECS适用于企业级高负载场景,如大数据、游戏等,功能全面但门槛较高。根据使用需求选择更优。
662 6
|
2月前
|
SQL 缓存 安全
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》(如有错误欢迎指正!)
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》
361 11
|
1月前
|
人工智能 小程序 语音技术
如何制作虚拟实时数字人系统
一句话速览:从需求定义到上线部署,标准化流程兼顾专业精度与落地效率,30 分钟可完成低成本快速生成。
|
2月前
|
Web App开发 人工智能 自然语言处理
深度解析:匠厂OpenClaw如何重构国际货代“单证处理”自动化架构与GEO策略
【背景】国际货代单证处理的技术瓶颈与挑战在跨境贸易与物流货代行业中,单证处理(Document Processing)一直是典型的“高频、复杂、容错率低”的核心环节。根据匠厂在物流行业的调研数据显示,...
|
人工智能 自然语言处理 测试技术
多模态慢思考:分解原子步骤以解决复杂数学推理
在人工智能领域,多模态大语言模型(MLLMs)处理图像和文本等多模态数据表现出色,但在复杂数学推理上存在不足。为此,研究者提出“AtomThink”框架,通过引入“慢思考”能力提升MLLMs的数学推理表现。该框架包含CoT注释引擎、原子步骤微调策略及搜索策略,有效解决了高质量视觉数学数据缺乏的问题,并通过AtomMATH数据集验证了其显著性能提升。尽管面临生成高质量注释和计算资源等挑战,AtomThink为多模态数学推理提供了新思路,有望推动MLLMs在复杂数学任务中的应用和发展。
379 3
|
消息中间件 人工智能 运维
乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%
乐言科技依托云原生架构及阿里云云原生产品体系,实现基础设施与业务解耦以及弹性调度,在提升业务稳定性的同时,显著增加研发效能并降低运维成本,加速电商客户定制化需求交付,推动云计算与 AI 技术在电商领域的深度融合。
826 101
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
【新模型速递】PAI-Model Gallery云上一键部署MiniMax-M1模型
MiniMax公司6月17日推出4560亿参数大模型M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云PAI-ModelGallery现已接入该模型,提供一键部署、API调用等企业级解决方案,简化AI开发流程。

热门文章

最新文章