李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(1)

简介: 李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜



 新智元报道  

编辑:Aeneas 昕朋

【新智元导读】2022年有哪些人工智能的突破?今天,李飞飞高徒Jim Fan盘点了年度十大AI亮点。


人工智能的爆炸正在扭曲我们的时间感。

你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗?

打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。

2022年的AI领域,大规模的生成模型像雨后春笋一样地冒出,改变了整个AI界的格局。

而且,这些模型正在迅速走出实验室,在现实中被应用。

比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和 AI4Science。

李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转,看看2022年都有哪些令人惊叹的AI突破。

一、文字-图像生成


DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。

但 DALLE-2被保护在OpenAI的围墙后面,并没有开源。在OpenAI之后,LMU的StabilityAI和runwayml迈出了英勇的一步,基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」,并开源了代码和权值(weighs)。

事实证明,Stable Diffusion的开放性,让它给游戏带来了巨变。现在,许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序,Stable Diffusion本身也被开源社区不断改进。最近,Stable Diffusion已经达到了v2.1版本,可以在单个GPU上运行了。另外,今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API,但从论文中,我们仍然可以看到不少有趣的见解。

Imagen

https://imagen.research.google

Parti

https://parti.research.google。它是一个没有diffusion的Transformer模型。

二、文字-文字生成


大家都知道,我说的是ChatGPT!


这是历史上唯一一个在5天内就获得了100万用户的应用程序。ChatGPT也大大启发了我们人类的创造力。在这个列表中,可以看到所有有用的和有想象力的关于ChatGPT想法:https://github.com/f/awesome-chatChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。这也就意味着,提示工程或许很快就会消失了。ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!

三、文本- 机器人模型


如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?


与NLP不同,机器人模型需要与物理世界互动。在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

10月,我和同事创建了一个 「机器人GPT 」——名为VIMA的tranformer。它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。我们的模型被称为VIMA(「VisuoMotor Attention」),已经完全开源了。现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。

RT-1

沿着与VIMA类似的路径,来自GoogleAI的研究人员发布了RT-1,这是一种在700项任务和130K的人类演示上训练的机器人transformer。这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!

四、文本 - 视频


本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。


如果我们可以做text2image,那为什么不在里面加上时间轴,来获得额外的乐趣呢?目前,文本 - 视频领域有3个重大的工作,但没有一个是开源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。您可以在此处注册试用访问权限:https://makeavevideo.studio

论文链接:https://arxiv.org/abs/2209.14792


相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
394 9
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
351 37
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
|
2月前
|
数据采集 人工智能 程序员
PHP 程序员如何为 AI 浏览器(如 ChatGPT Atlas)优化网站
OpenAI推出ChatGPT Atlas,标志AI浏览器新方向。虽未颠覆现有格局,但为开发者带来新机遇。PHP建站者需关注AI爬虫抓取特性,优化技术结构(如SSR、Schema标记)、提升内容可读性与语义清晰度,并考虑未来agent调用能力。通过robots.txt授权、结构化数据、内容集群与性能优化,提升网站在AI搜索中的可见性与引用机会,提前布局AI驱动的流量新格局。
152 8
|
5月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
216 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
10月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1109 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
5月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
426 8
|
6月前
|
SQL 人工智能 关系型数据库
GitHub 热门!MindsDB 破解 AI + 数据库瓶颈,究竟有什么惊艳亮点?只需 SQL 即可实现智能预测
MindsDB 是一款将 AI 能力直接注入数据库的开源工具,支持 MySQL、PostgreSQL 等多种数据库连接,通过 SQL 即可完成模型训练与预测。它提供 AutoML 引擎、LLM 集成、联邦查询等功能,简化 MLOps 流程,实现数据到智能的无缝衔接。项目在 GitHub 上已获 32.4k 星,社区活跃,适用于客户流失预警、推荐系统、情感分析等场景。开发者无需深入模型细节,即可快速构建智能解决方案。项目地址:https://github.com/mindsdb/mindsdb。
1089 0
|
9月前
|
人工智能 编解码 运维
当ChatGPT能写情书、Sora会造电影:我们必须掌握的AI内容识别技能
随着AI技术迅猛发展,AI生成内容在文学、新闻、绘画等领域广泛应用,但其真假难辨、质量参差不齐,可能带来信息误导、知识产权侵犯及安全风险等问题。学会识别AI生成内容至关重要,包括通过逻辑漏洞排查、语言风格分析、生物特征异常检测等手段审核文本、图片和视频。人工审核在面对高隐蔽性内容时仍不可替代,需结合工具与上下文理解共同筑起防护屏障。守护真实信息、规避风险,是每个人在AI时代应尽的责任。
283 7