Point-E
继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。
论文链接:https://arxiv.org/pdf/2212.08751.pdf相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。根据测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。
六、会玩《我的世界》的AI
《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。
其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。那么,AI能否和人类一样尽情挥洒想象力呢?Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」,它可以在自然语言提示下解决许多任务。
论文链接:https://arxiv.org/pdf/2206.08853.pdfFan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。与此同时,Jeff Clune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。
论文链接:https://arxiv.org/pdf/2206.11795.pdf
VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。
七、AI外交官
Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。
论文链接:https://www.science.org/doi/10.1126/science.ade9097《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?
八、音频-文本模型
Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。
论文链接:https://arxiv.org/pdf/2212.04356.pdfWhisper经过了来自网络的680,000小时音频数据的训练。Open AI强调,Whisper的语音识别能力已达到人类水准。Open AI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?
九、核聚变
DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。
论文链接:https://www.nature.com/articles/s41586-021-04301-9同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!
十、应用于生物学的Transformer
2021年,AlphaFold开启了语言模型预测蛋白质3D结构的序幕。
7月,DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构!此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。
视频讲解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s以上便是Jim Fan对2022年十大AI亮点的盘点。当然,Fan也表示,还有无数令人兴奋的作品为人工智能的进步做出了贡献。每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。无论是通过仔细的培训设计、适当的监督还是全新的保障方法,人工智能的安全与伦理成为越来越的AI专家所讨论的议程。毫无疑问,2022年是充满奇迹的一年,也是令人惊叹的一年。未来一年又会有什么震惊世界的突破?我们与你一起关注。参考资料:https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw