OpenAI GPT-4震撼发布：多模态大模型-阿里云开发者社区

OpenAI GPT-4震撼发布：多模态大模型

2023-04-18 747

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OpenAI GPT-4震撼发布：多模态大模型

3 月 14 日晚间，OpenAI 宣布发布 GPT-4。

“我们创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平”，OpenAI 表示。

发布要点

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 “人类水平”。例如，它通过了模拟的律师考试，分数约为应试者的前10%。

OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了

“史上最佳结果”。

在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning

Cable适配器（下文有图片）。

图像理解能力还没有向所有OpenAI的客户开发，OpenAI正在与合作伙伴Be My Eyes进行测试。

OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。

开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

OpenAI 联合创始人 Sam Altman 表示，它是“迄今为止功能最强大、最一致的模型”，能够使用图像和文本。

GPT4的新功能

GPT-4:我能玩梗图

8.2.png

首先，看图能力可以用来解释表情包、梗图。

提问这张图哪里好笑？GPT-4可以按顺序描述出每一格的内容，并总结出笑点：

为什么这张图片很可笑？GPT-4 回答道，VGA 线充 iPhone。

GPT4:理解图片

当你给 GPT-4 发送下面这张图片，并询问它，该图片有哪些不寻常的地方？

8.3.png

GPT-4 回答：这张照片的不同寻常之处在于，一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。 8.4.png

(看图）手套掉下去会怎样?

GPT-4 回答道,它会掉到木板上，并且球会被弹飞

.5.gif

拍一张照片上传给GPT-4，它就可以立马生成网站的HTML代码！

GPT4:识别与解析图片内容

在性能表现上，OpenAI直接甩出一句话：

在各种专业和学术基准上和人类相当！

最近这几个月，ChatGPT 的爆火，让人们惊叹于人工智能强大的聊天能力。GPT4 出来后，可以看到，在聊天之外，人工智能的能力已不断扩展其外延。

ChatGPT 用的语言模型是 GPT-3.5。在谈到 GPT-4 比前一个版本强大在哪里时，OpenAI

称，虽然这两个版本在随意的谈话中看起来很相似，但“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4

更可靠、更有创意，并且能够处理更细微的指令。该公司表示，GPT-4 响应禁止内容请求的可能性比其前一个版本低 82%。OpenAI

表示，在内部评估中，GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。

OpenAI 称它使用了微软 Azure 来训练模型，但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

史上最强大模型

正如之前传言，GPT-4确实拥有多模态能力，可以接受图像输入并理解图像内容。

并且可接受的文字输入长度也增加到3.2万个token（约2.4万单词）。

升级之后，GPT-4在各种职业和学术考试上表现和人类水平相当。

比如模拟律师考试，GPT-4取得了前10%的好成绩，相比之下GPT-3.5是倒数10%。

做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800）。

怎样面对GPT4

GPT-4 再次给我们敲响了警钟：拥有如此强大的编程能力，AI 真的会取代程序员？

前段时间，前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 还曾对此发出断言，表示“生成式 AI 将在 3 年内终结编程”，放在当下来看，也许 Welsh 所言非虚。

Welsh 认为，由于 ChatGPT 和 Copilot

等技术的出现，编程正处于从人类工作转变为机器人工作的转折点。在他看来，程序员需要演变成 AI

程序的“老师”——或者产品经理，或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去，因为机器正在取代这个角色。”Welsh说道。

也许我们正处于一个动荡的周期之中，现在的问题不是会不会被取代，而是 AI 将在多大程度上改变软件行业，而我们也需要为未来做好准备：现在就必须习惯人工智能，毕竟让 AI 帮助我们编程就在不远的未来。

8.8.png

申请 GPT-4 API

目前，OpenAI 已面向开发者开放 GPT-4 API 的申请通道，大家想提前使用的话，可以先提交申请，进入 waitlist 中等待通过。

8.7.png

申请通道：https://openai.com/waitlist/gpt-4-api

获得访问权限后，用户当前还是只能向 GPT-4 模型发出纯文本请求，图像请求可能得等稍晚一些时间才对外开放。

OpenAI GPT-4震撼发布：多模态大模型

发布要点

GPT4的新功能

GPT-4:我能玩梗图

GPT4:理解图片

GPT4:识别与解析图片内容

史上最强大模型

怎样面对GPT4

GPT-4 再次给我们敲响了警钟：拥有如此强大的编程能力，AI 真的会取代程序员？

申请 GPT-4 API

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书