超越GPT4!Cluade 3重磅发布!国外最新大模型!

简介: 超越GPT4!Cluade 3重磅发布!国外最新大模型!

体验Claude3,官网地址:claude.ai

省流

2024/3/4 日,Anthropic公司发布了新一代的Claude 3模型家族,这些模型在多种认知任务上设定了新的行业标准。以下是Claude 3模型家族的主要特点和亮点:

模型家族构成:包括三个模型,按能力递增排序为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。用户可以根据特定应用选择智能、速度和成本的最佳平衡。

  1. Opus 和 Sonnet 现在可以在 claude.ai 和 Claude API 中使用,后者现已在 159 个国家/地区正式发布。Haiku即将推出。

  1. 性能提升:Opus模型在多个AI系统评估基准上超越同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等,展现出接近人类的理解和流利度。
  2. 即时响应能力:Claude 3模型能够支持实时客户聊天、自动补全和数据提取任务,其中Haiku模型在读取信息密集型的研究论文时速度最快,成本效益最高。
  3. 视觉能力:Claude 3模型具有先进的视觉处理能力,能够处理照片、图表、图形和技术图表等多种视觉格式。
  4. 减少拒绝回答:与前代模型相比,Opus、Sonnet和Haiku在处理接近系统边界的提示时,拒绝回答的可能性显著降低。
  1. 提高准确性:Claude 3模型在处理复杂、事实性问题时的准确性有所提高,Opus模型在挑战性开放式问题上的准确率是Claude 2.1的两倍。
  2. 长文本处理和记忆:Claude 3模型初始提供200K的上下文窗口,但能够处理超过100万个标记的输入,并可能为需要增强处理能力的客户开放这一功能。
  3. 负责任的设计:Claude 3模型家族在设计上注重可信赖性,包括跟踪和减轻各种风险,如错误信息、CSAM、生物滥用、选举干预和自主复制技能。
  4. 减少偏见:Claude 3模型在减少偏见方面取得了进步,根据问题回答偏见基准(BBQ)显示,其偏见比前代模型少。
  5. 易用性:Claude 3模型更擅长遵循复杂、多步骤的指令,能够更好地适应品牌声音和响应指南,以及开发用户可信赖的客户体验。
  6. 模型可用性:Opus和Sonnet现已在API中可用,Haiku模型即将推出。Sonnet在claude.ai上提供免费体验,Opus则为Claude Pro订阅者提供。
  1. 未来计划:Anthropic计划在未来几个月内频繁更新Claude 3模型家族,并推出一系列新功能,以增强模型的能力,特别是针对企业用例和大规模部署。
  1. 安全承诺:Anthropic致力于确保模型的安全性与性能提升保持同步,以引导AI发展朝着积极的社会结果前进。

这些新模型的发布标志着AI技术在智能、速度和成本效益方面的进步,同时也强调了在发展过程中对安全性和负责任设计的承诺。

发布细节

智能新标准

我们的最智能模型Opus在大多数常见的AI系统评估基准上都超过同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上展现出接近人类的理解和流畅度,引领着通用智能的前沿。

所有Claude 3模型在分析和预测、细致入微的内容创建、代码生成以及使用西班牙语、日语和法语等非英语语言进行交谈方面都显示出增强的能力。

以下是Claude 3模型与我们同行在多个性能基准上的比较:

近乎即时的结果

Claude 3模型可以实现实时客户聊天、自动完成和数据提取任务,这些任务的响应必须是即时和实时的。

Haiku是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内阅读arXiv上的信息和数据密集型研究论文,其中包括图表和图形。发布后,我们希望进一步提高性能。

对于绝大多数工作负载,Sonnet的速度是Claude 2和Claude 2.1的2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平要高得多。

强大的视觉能力

Claude 3模型具有与其他领先模型相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达50%的知识库以各种格式编码,例如PDF、流程图或演示幻灯片。


减少拒绝

以前的Claude模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答系统护栏提示的可能性要小得多。如下图所示,Claude 3模型对请求表现出更细致的理解,识别真正的伤害,并且拒绝回答无害提示的频率要低得多。

提高准确性

各种规模的企业都依赖我们的模型来为他们的客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题的准确性(或正确答案)上提高了两倍,同时也减少了错误答案的水平。

除了产生更可信的回答外,我们还将很快在我们的Claude 3模型中启用引用,以便他们可以指向参考资料中的精确句子来验证他们的答案。

长上下文和近乎完美的回忆

Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,所有三种模型都能够接受超过1百万个代币的输入,我们可能会将其提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示,模型需要强大的召回功能。“大海捞针”(NIAH)评估衡量模型从大量数据语料库中准确调用信息的能力。我们通过对每个提示使用30个随机针/问题对之一,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句似乎是人类人为地插入原始文本来识别评估本身的局限性。

负责任的设计

我们开发了Claude 3系列型号,使其既值得信赖又强大。我们有几个专门的团队来跟踪和缓解广泛的风险,从错误信息和CSAM到生物滥用、选举干扰和自主复制技能。我们继续开发诸如宪法人工智能之类的方法,以提高我们模型的安全性和透明度,并调整了我们的模型,以减轻新模式可能引发的隐私问题。

处理越来越复杂的模型中的偏见是一项持续的工作,我们在这次新版本中取得了进步。如模型卡片所示,根据问答偏见基准(BBQ),Claude 3的偏见比我们以前的模型少。我们始终致力于推进减少偏见和提高模型中性的技术,确保它们不会偏向任何特定的党派立场。

尽管Claude 3模型系列在生物学知识、与网络相关的知识和自主性等关键度量上比以前的模型有所进步,但根据我们的负责任扩展政策,它仍然处于AI安全级别2(ASL-2)。我们的红队评估(按照我们对白宫的承诺和2023年美国行政命令进行)已经得出结论,目前这些模型对灾难性风险的潜在可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估它们距离ASL-3阈值的接近程度。更多安全细节可在Claude 3模型卡片中查看。

更易于使用

Claude 3模型更擅长遵循复杂的多步指示。它们特别擅长坚持品牌语音和回应指南,并开发我们的用户可以信赖的面向客户的体验。此外,Claude 3模型更擅长以像JSON这样的流行结构化输出格式产生输出,使得指导Claude用于自然语言分类和情感分析等用例更简单。

模型详情

Claude 3 Opus是我们最智能的模型,具有最高的市场表现在高度复杂的任务上。它可以在开放式提示和未见过的场景中以惊人的流畅度和类人的理解导航。Opus向我们展示了生成型人工智能的可能性的外限。

Cost 成本* [输入$/百万代币 |输出 $/million 代币]* $15 | $75
上下文窗口 200K
潜在用途 任务自动化:跨 API 和数据库规划和执行复杂操作,交互式编码研发:研究回顾、头脑风暴和假设生成、药物发现策略:对图表和图形、财务和市场趋势的高级分析、预测
介绍 比任何其他可用型号都具有更高的智能性。

*1M tokens available for specific use cases, please inquire.

Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其适用于企业工作负载。与同行相比,它以更低的成本提供了强大的性能,并专为大规模AI部署的高耐力而设计。

Cost 成本* [输入$/百万代币 |输出 $/million 代币]* $3 | $15
上下文窗口 200K
潜在用途 数据处理:RAG或搜索和检索大量知识销售:产品推荐、预测、有针对性的营销节省时间的任务:代码生成、质量控制、从图像中解析文本
介绍 比其他具有类似智能的型号更实惠;更适合规模。

Claude 3 Haiku是我们最快、最紧凑的模型,可提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的AI体验,模仿人类的互动。

*Cost 成本 *** [输入$/百万代币 |输出 $/million 代币] $0.25 | $1.25
Context window 上下文窗口 200K
潜在用途 客户互动:在现场互动、翻译方面提供快速准确的支持内容审核:捕获有风险的行为或客户请求节省成本的任务:优化物流、库存管理、从非结构化数据中提取知识
介绍 比其智能类别中的其他型号更智能、更快、更实惠。

模型可用性

Opus和Sonnet现在可以在我们的API中使用,现已普遍可用,使开发者可以立即注册并开始使用这些模型。Haiku即将推出。Sonnet正在为claude.ai的免费体验提供支持,Opus可供Claude Pro订阅者使用。

Sonnet也可以通过Amazon Bedrock今天就使用,并在Google Cloud的Vertex AI Model Garden中进行私人预览,Opus和Haiku将很快在两者中推出。

更聪明、更快、更安全

我们不认为模型智能已经接近极限,我们计划在接下来的几个月里频繁更新Claude 3模型系列。我们也很高兴推出一系列功能,以增强我们模型的能力,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)以及更高级的代理能力。

在推动AI能力的边界的同时,我们同样致力于确保我们的安全护栏能够跟上这些性能的飞跃。我们的假设是,处于AI开发前沿是将其轨迹引向积极社会结果的最有效方式。要开始使用Claude,请访问anthropic.com/claude。


相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
92 1
|
3月前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
33 0
|
3月前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
38 0
|
16天前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
130 6
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
44 6
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
52 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
53 0
|
3月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
45 1
|
3月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
118 2
|
4月前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。

热门文章

最新文章

下一篇
无影云桌面