一文看尽SOTA生成式模型:9大类别21个模型全回顾!(2)

简介: 一文看尽SOTA生成式模型:9大类别21个模型全回顾!

Text-to-Text模型


问答任务常用。


ChatGPT


广受欢迎的ChatGPT由OpenAI开发,以对话的方式与用户进行互动。


用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出不正确的输入前提并拒绝不恰当的请求。


具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。



最初的模型是使用监督学习下的微调来训练的,然后由人类来提供对话,在对话中他们互相扮演用户和人工智能助理,然后由人修正模型返回的回复,并用正确的答案帮助模型改进。


将制作的数据集与InstructGPT的数据集混合在一起,转换为对话格式。


其他相关模型包括LaMDA和PEER


Text-to-Code模型


和text-to-text类似,只不过生成的是特殊类型的文本,即代码。


Codex


该模型由OpenAI开发,可以将文本翻译成代码。


Codex是一种通用的编程模型,基本上可以应用于任何编程任务。


人类在编程时的活动可以分为两部分:1)将一个问题分解成更简单的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。


其中第二部分是对程序员来说最浪费时间的部分,也是Codex最擅长的地方。



训练数据于2020年5月从GitHub上托管的公共软件库中进行收集,包含179GB的Python文件,并在GPT-3的基础上进行微调,其中已经包含了强大的自然语言表征。


相关模型还包括Alphacode


Text-to-Science模型


科研文字也是AI文本生成的目标之一,但要取得成果仍然有很长的路要走。


Galactica

该模型是由Meta AI和Papers with Code联合开发的,可用于自动组织科学文本的大型模型。


Galactica的主要优势在于即便进行多个episode的训练后,模型仍然不会过拟合,并且上游和下游的性能会随着token的重复使用而提高。


并且数据集的设计对该方法至关重要,因为所有的数据都是以通用的markdown格式处理的,从而能够混合不同来源的知识。



引文(citations)通过一个特定的token来处理,使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。


此外,该模型在仅有解码器的设置中使用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务,


Minerva


Minerva的主要目的就是解决决数学和科学问题,为此收集了大量的训练数据,并解决了定量推理问题,大规模模型开发问题,还采用了一流的推理技术。


Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题,即输入是需要包含计算和符号操作,而不用引入外部工具。


其他模型


还有一些模型不属于前面提到的类别。


AlphaTensor


由Deepmind公司开发,因其发现新算法的能力,在业界是一个完全革命性的模型。


在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要,从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。



该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解。


在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性。


GATO


该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用。


具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等。



在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性。


这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功。


目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模。



其他已发表的生成性人工智能模型包括生成human motion等。

参考资料:https://arxiv.org/abs/2301.04655

相关文章
|
数据采集 机器学习/深度学习 数据挖掘
python数据分析——数据预处理
数据预处理是数据分析过程中不可或缺的一环,它的目的是为了使原始数据更加规整、清晰,以便于后续的数据分析和建模工作。在Python数据分析中,数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。
656 0
域名注册流程和费用:2025最新阿里云域名购买、信息模板实名认证教程
本文详细介绍2025年最新阿里云域名注册流程、费用、实名认证及优惠口令使用方法,涵盖域名查询、信息模板创建、价格说明与注册步骤,适合新手快速掌握域名注册全流程。
|
4月前
|
人工智能 自然语言处理 物联网
 团队效率翻倍秘诀:SOP自动生效的智能方法与SOP标准化工具
SOP工具历经四代技术演进,从纸质文档发展到融合知识图谱与自适应引擎的智能系统。在数字化转型背景下,智能SOP具备情境感知、增强现实指引、自优化流程与联邦合规检查等新能力。系统功能涵盖智能流程构建、动态执行控制与持续优化分析,支持NLP解析、多模态交互与实时合规检查。实施采用四阶段框架,应对跨部门标准不统一、遵循率低等挑战。未来将融合LLM、神经符号系统、量子优化等前沿技术,推动SOP向自我演进与人机协同方向发展。
557 0
|
自然语言处理 网络架构 索引
Elasticsearch7.1之cerebro使用(一)
Elasticsearch7.1之cerebro使用(一)
240 1
|
9月前
|
传感器 算法 Java
基于 pyflink 的算法工作流设计和改造
本文分享了硕橙科技大数据工程师程兴源在Flink Forward Asia 2024上的演讲内容,围绕工业互联网场景下的Flink应用展开。主要内容包括:为何选择Flink、算法工作流设计、性能优化实践、上下游链路协作思考及未来展望。团队通过Flink处理工业设备数据(如温度、振动等),实现故障预测与分析。文章详细探讨了性能优化路径(如批处理、并行度提升)、KeyBy均衡化、内存管理等技术细节,并介绍了数据补全方法和告警规则的设计。最后,对未来基于Flink的编码强化、CEP模式改进及工业数据归因目标进行了展望。
378 7
基于 pyflink 的算法工作流设计和改造
|
11月前
|
存储 人工智能 安全
阿里云 Confidential Al 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践 ,由阿里云乾越分享。 1. 需求背景介绍 2. 大规模场景下面临的系统及安全风险 3. 计算栈的共享职责模型与用户信任边界的冲突 4. 传统计算、存储和网络安全技术中存在用户信任成本较高的问题 5. Confidential AI 方案实施模式 6. 基于CAI技术的阿里云Confidential Cloud Computing架构 7. Confidential AI on EGS DEMO 8. 阿里云全面应用Confidential AI 9. 完备的机密计算远程证明过程 10.发布《机密计算保障人工智能系统安全研究报告
546 1
|
数据可视化 Docker 容器
隐语实训营-第4讲:SecretFlow和SecretNote的安装
介绍secretflow及其可视化工具secretfNote的安装,课程链接:https://www.bilibili.com/video/BV161421S7xY/?spm_id_from=333.999.0.0 下:https://www.bilibili.com/video/BV12r421t77V/?spm_id_from=333.999.0.0
448 1
|
SQL 分布式计算 并行计算
PostgreSQL 并行计算解说 之1 - parallel seq scan
标签 PostgreSQL , cpu 并行 , smp 并行 , 并行计算 , gpu 并行 , 并行过程支持 背景 PostgreSQL 11 优化器已经支持了非常多场合的并行。简单估计,已支持27余种场景的并行计算。 parallel seq scan parallel index scan parallel index only scan
5277 0
|
网络安全 Python
使用代理ip后访问网站仍然被拒该怎么办
使用代理ip后访问网站仍然被拒该怎么办
469 6