从BERT到ChatGPT，百页综述梳理预训练大模型演变史（1）-阿里云开发者社区

从BERT到ChatGPT，百页综述梳理预训练大模型演变史（1）

2023-05-24 526

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从BERT到ChatGPT，百页综述梳理预训练大模型演变史

这篇近百页的综述梳理了预训练基础模型的演变史，让我们看到 ChatGPT 是怎么一步一步走向成功的。

所有的成功都有迹可循，ChatGPT 也不例外。

前不久，因为对 ChatGPT 的评价过于苛刻，图灵奖得主 Yann LeCun 被送上了热搜。

在他看来，「就底层技术而言，ChatGPT 并没有什么特别的创新，」也不是「什么革命性的东西」。许多研究实验室正在使用同样的技术，开展同样的工作。更重要的是，ChatGPT 及其背后的 GPT-3 在很多方面都是由多方多年来开发的多种技术组成的，是不同的人数十年贡献的结果。因此，LeCun 认为，与其说 ChatGPT 是一个科学突破，不如说它是一个像样的工程实例。

「ChatGPT 是否具有革命性」是个充满争议的话题。但毋庸置疑，它确实是在此前积累的多项技术的基础上构建起来的，比如核心的 Transformer 是谷歌在几年前提出来的，而 Transformer 又受到了 Bengio 关于注意力概念的工作的启发。如果再往前追溯，我们还能链接到更古早的几十年前的研究。

当然，公众可能体会不到这种循序渐进的感觉，毕竟不是谁都会一篇一篇去看论文。但对于技术人员来说，了解这些技术的演进过程还是非常有帮助的。

在最近的一篇综述文章中，来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文，主要聚焦文本、图像和图学习领域的预训练基础模型，非常值得一读。杜克大学教授、加拿大工程院院士裴健，伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶（Philip S. Yu），Salesforce AI Research副总裁熊蔡明都是该论文作者之一。

论文链接：https://arxiv.org/pdf/2302.09419.pdf

论文目录如下：

在海外社交平台上，DAIR.AI 联合创始人Elvis S.推荐了这篇综述并获得了一千多的点赞量。

从BERT到ChatGPT，百页综述梳理预训练大模型演变史（1）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从BERT到ChatGPT，百页综述梳理预训练大模型演变史（1）

热门文章

最新文章

相关课程

相关电子书

相关实验场景