ChatGPT is not all you need,一文综述6大公司9类生成式AI模型

简介: ChatGPT is not all you need,一文综述6大公司9类生成式AI模型


生成模型领域里,ChatGPT 并不是一切。

过去两年,AI 领域里已经出现大量大型生成模型,如 ChatGPT 或 Stable Diffusion。具体而言,这些模型能够执行像通用问答系统或自动创建艺术图像等任务,这些任务正在彻底改变很多领域。


从目前的发展来看,这些生成模型对行业和社会的影响是巨大的,因为一些工作岗位可能会发生改变。例如,Generative AI 能够有效且创造性地将文本转换为图像,如 DALLE-2 模型;把文本转成 3D 图像,如 Dreamfusion 模型;把图像转成文本,如 Flamingo 模型;把文本转成视频,如 Phenaki 模型;把文本转成音频,如 AudioLM 模型;把文本转成代码,如 Codex 模型;把文本转成科学论文,如 Galactica 模型;甚至创建算法的模型,如 AlphaTensor。

 

在近日由西班牙 Comillas Pontifical University 研究人员提交的综述论文中,作者试图以简洁的方式描述生成式 AI 对当前很多模型的影响,并对最近发布的主要生成式 AI 模型进行分类。


论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》:



链接:https://arxiv.org/abs/2301.04655

 

为向可能因使用这些模型而受益的专业人士提供有效信息,作者按如下结构组织文章。首先,作者提供行业中出现的主要生成式模型的分类。接着对每个类别进行分析。最后,本文会给出相关结论和未来要做的工作。文章中作者没有详细介绍每个模型的技术细节,如 Transformer,因为文章的目的是研究模型的应用,而不是研究它们的工作原理。  

生成式 AI 模型的分类


在详细分析每个模型之前,首先将当前的生成式 AI 进行分类,类别代表输入数据和输出数据类型之间的映射。如图 1 所示。作者总共总结 9 个类别,其中每个出现在图 1 中的模型将在之后详细描述。由于文章主要关注点是描述生成式 AI 模型的最新进展,为让读者能有整体认识,在图 2 中给出了所有已发布的模型。




有趣的是,所有这些模型仅由 6 个公司发布,如图 3 所示。背后的主要原因是为能够估计这些模型的参数,必须拥有巨大的计算能力以及在数据科学和数据工程方面技术精湛、经验丰富的团队。因此,只有图 3 所示的公司,在收购的初创公司的努力下以及与学术界的合作,才能够成功发布生成式 AI 模型。



到此已经介绍了最新的生成式 AI 模型,接下来的部分将详细介绍图 1 中所示每个类别。


随着技术的进步,我们已经在文本到图像或文本到音频等任务中看到了大量的创造力和个性化。它们在文本到科学或文本到代码的任务中也很准确。这可以在很大程度上提升我们的自动化水平,因为它可以帮助优化创造性和非创造性任务。


然而,由于目前构建它们的方式,这些模型面临着许多限制。在数据集方面,找到一些模型的数据,如文本到科学或文本到音频非常困难,使得训练模型非常耗时。特别需要提到的是,数据集和参数必须非常庞大,这使得训练变得更加困难。模型最大的问题之一是从数据集中的问题中尝试获得解决方案,而模型在解决这些问题时遇到了更多麻烦。同样,在计算方面,运行它们需要大量的时间和算力。


我们应该意识到这些模型的局限性,以便在接下来的几年中尝试和改进它们。


更多细节请参见原论文。


相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1773 120
|
2月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
377 9
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1642 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
309 120
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
340 37
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
679 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
数据采集 人工智能 程序员
PHP 程序员如何为 AI 浏览器(如 ChatGPT Atlas)优化网站
OpenAI推出ChatGPT Atlas,标志AI浏览器新方向。虽未颠覆现有格局,但为开发者带来新机遇。PHP建站者需关注AI爬虫抓取特性,优化技术结构(如SSR、Schema标记)、提升内容可读性与语义清晰度,并考虑未来agent调用能力。通过robots.txt授权、结构化数据、内容集群与性能优化,提升网站在AI搜索中的可见性与引用机会,提前布局AI驱动的流量新格局。
147 8
|
3月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
421 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
5月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
213 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?