OpenAI GPT-4震撼发布:多模态大模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: OpenAI GPT-4震撼发布:多模态大模型

3 月 14 日晚间,OpenAI 宣布发布 GPT-4。

8.1.png

“我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平”,OpenAI 表示。


发布要点

GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 “人类水平”。例如,它通过了模拟的律师考试,分数约为应试者的前10%。

OpenAI花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了

“史上最佳结果”。

在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning

Cable适配器(下文有图片)。

图像理解能力还没有向所有OpenAI的客户开发,OpenAI正在与合作伙伴Be My Eyes进行测试。

OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。

开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。

OpenAI 联合创始人 Sam Altman 表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。


GPT4的新功能

GPT-4:我能玩梗图

8.2.png

首先,看图能力可以用来解释表情包、梗图。

提问这张图哪里好笑?GPT-4可以按顺序描述出每一格的内容,并总结出笑点:


为什么这张图片很可笑?GPT-4 回答道,VGA 线充 iPhone。


GPT4:理解图片

当你给 GPT-4 发送下面这张图片,并询问它,该图片有哪些不寻常的地方?


8.3.png

GPT-4 回答:这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。8.4.png

(看图)手套掉下去会怎样?

GPT-4 回答道,它会掉到木板上,并且球会被弹飞

.5.gif


拍一张照片上传给GPT-4,它就可以立马生成网站的HTML代码!

image.gif

GPT4:识别与解析图片内容

在性能表现上,OpenAI直接甩出一句话:


在各种专业和学术基准上和人类相当!


最近这几个月,ChatGPT 的爆火,让人们惊叹于人工智能强大的聊天能力。GPT4 出来后,可以看到,在聊天之外,人工智能的能力已不断扩展其外延。


ChatGPT 用的语言模型是 GPT-3.5。在谈到 GPT-4 比前一个版本强大在哪里时,OpenAI

称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4

更可靠、更有创意,并且能够处理更细微的指令。该公司表示,GPT-4 响应禁止内容请求的可能性比其前一个版本低 82%。OpenAI

表示,在内部评估中,GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。


而且 GPT-4 是多模态的,同时支持文本和图像输入功能。此外,GPT-4 比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行成本更高。

OpenAI 称它使用了微软 Azure 来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。


史上最强大模型


正如之前传言,GPT-4确实拥有多模态能力,可以接受图像输入并理解图像内容。

并且可接受的文字输入长度也增加到3.2万个token(约2.4万单词)。

升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。

比如模拟律师考试,GPT-4取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。

做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800)。


怎样面对GPT4

GPT-4 再次给我们敲响了警钟:拥有如此强大的编程能力,AI 真的会取代程序员?


前段时间,前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 还曾对此发出断言,表示“生成式 AI 将在 3 年内终结编程”,放在当下来看,也许 Welsh 所言非虚。


Welsh 认为,由于 ChatGPT 和 Copilot

等技术的出现,编程正处于从人类工作转变为机器人工作的转折点。在他看来,程序员需要演变成 AI

程序的“老师”——或者产品经理,或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去,因为机器正在取代这个角色。”Welsh说道。


也许我们正处于一个动荡的周期之中,现在的问题不是会不会被取代,而是 AI 将在多大程度上改变软件行业,而我们也需要为未来做好准备:现在就必须习惯人工智能,毕竟让 AI 帮助我们编程就在不远的未来。

8.8.png

申请 GPT-4 API

目前,OpenAI 已面向开发者开放 GPT-4 API 的申请通道,大家想提前使用的话,可以先提交申请,进入 waitlist 中等待通过。

8.7.png

申请通道:https://openai.com/waitlist/gpt-4-api

获得访问权限后,用户当前还是只能向 GPT-4 模型发出纯文本请求,图像请求可能得等稍晚一些时间才对外开放。

相关文章
|
2月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
253 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
|
20天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
163 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
10天前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
217 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
8天前
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
91 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
16天前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
264 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
2月前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
90 13
|
2月前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
2月前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
61 3
|
2月前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
356 0

热门文章

最新文章