GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了

简介: GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了

从前几年出尽风头的 GAN 到今年独占鳌头的 Stable Diffusion,预训练生成模型一直风头不减,相关论文、模型也是层出不穷。这就带来了一些问题:如何在众多模型中找到自己想要的那一个?如何找到对应模型的学习资料(比如代码库)?自己做了个新模型如何与更多的人分享(除了发推特)?


近日,卡内基梅隆大学助理教授朱俊彦等人开发了一个名为「Modelverse」的在线分享和搜索平台来解决这些问题。



Modelverse 是一个包含多种深度生成模型的模型共享和搜索平台,例如 GAN、扩散模型和自回归模型,题材包括动物、风景、肖像和艺术品等。你可以在这个平台上查找或者共享深度生成模型。



平台链接:https://modelverse.cs.cmu.edu/


平台提供的搜索方式是多样化的,你可以输入文字检索,也可以输入图像、简笔画或多模态信息检索。



比如,以一张飞机的简笔画作为输入,我们可以得到以下结果:



以大象的图片为输入,我们也能找到可以生成大象图像的 GAN 模型:




,时长00:42

那么,这些功能具体是怎么实现的呢?


在最新公布的论文中,作者进行了详细的介绍。



论文链接:https://arxiv.org/pdf/2210.03116.pdf

该搜索系统由预缓存阶段(a,b)和推理阶段(c)组成。给定一组模型,(a)首先为每个模型生成 50K 的样本。(b)然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据被缓存在系统中,以提高效率。(c)在推理时,系统支持不同模式(文本、图像或草图)的查询。系统将查询编码为特征向量,并评估查询特征与每个模型的统计数据之间的相似性,由此检索具有最佳相似性度量的模型。



搜索结果

模型检索的定性结果。下面展示了三种不同模态的模型检索结果,分别是图像、草图、文本。


该系统还支持多模态查询 (下图左) ,并支持使用模型作为查询来查找相似的模型 (下图右)。



图像重建与编辑。随着生成模型数量的爆发式增长,用户越来越不可能了解每一个有趣的模型,但是为自己的特定用途选择正确的模型可能是至关重要的。下图显示,选择正确的生成模型进行图像查询可以得到更好的转换结果,从而更好地进行潜在空间插值和图像编辑。



但我们可以发现,这个搜索系统还存在一些局限性。如下图(左)所示,有时侯草图查询(例如,鸟的草图)会匹配具有抽象风格的模型。CLIP 特征是否与草图的形状、样式、纹理相匹配是不明确的。如下图(右)所示,对于彼此冲突的多模态查询(大象文本 + 狗图像),系统就难以检索具有这两个概念的模型——排名靠前的模型中没有大象模型。


随着平台上共享的模型越来越多,平台的搜索体验有望逐步改善。

相关文章
|
存储 关系型数据库 MySQL
轻松入门MySQL:揭秘MySQL游标,数据处理的神秘利器(16)
轻松入门MySQL:揭秘MySQL游标,数据处理的神秘利器(16)
381 0
|
1月前
|
人工智能 自然语言处理 安全
程序员都在偷偷用的AI编程神器!2025高效自动写代码工具全解析
AI编程革命正悄然兴起。李响团队调研显示,AI助手大幅提升开发效率,GitHub Copilot、CodeWhisperer、Tabnine各具优势,而新兴的Lynx AI更以自然语言生成全栈应用,零门槛、多端适配,助力开发者从重复劳动中解放,专注创新。
程序员都在偷偷用的AI编程神器!2025高效自动写代码工具全解析
|
人工智能 机器人 测试技术
【python】python小游戏——开心消消乐(源码)【独一无二】
【python】python小游戏——开心消消乐(源码)【独一无二】
|
Linux Anolis
性能优化特性之:EXT4 Fast Commit
本文介绍了倚天实例上进行IO优化的特性:Fast Commit,并对其优化原理、使用方法进行了详细阐述
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1447 1
|
8月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
876 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
8月前
|
人工智能 JSON 自然语言处理
我终于成为了全栈开发,各种AI工具加持的全过程记录
本文从一个需求出发,全程记录如何进行全栈开发。
1572 51
我终于成为了全栈开发,各种AI工具加持的全过程记录
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
关于LLM-as-a-judge范式,终于有综述讲明白了
《From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge》探讨了大型语言模型(LLM)在评估和判断任务中的应用。传统方法存在不足,而LLM凭借强大的语言理解和生成能力,展现了广阔的应用前景。论文从输入输出角度定义LLM-as-a-judge,提出三维度分类体系,并汇编评估基准,指出关键挑战如偏见、可解释性和对抗性攻击,展望未来改进方向,强调其潜力与价值。论文链接:https://arxiv.org/abs/2411.16594
628 1
|
5月前
|
网络协议 Linux C++
Window 部署 coze-stdio(coze 开发平台)
本指南介绍了如何在本地环境部署 Coze Studio,包括环境配置、镜像源设置、模型配置及服务启动步骤。内容涵盖 Docker 配置、模型添加方法及常见问题解决方案,适用于 Windows 11 系统,需最低 2 核 CPU 和 4GB 内存。
1827 8
Window 部署 coze-stdio(coze 开发平台)
|
5月前
|
机器学习/深度学习 安全 前端开发
阿里云服务器2核4G、4核8G、8核16G配置解析:实例规格、价格及选择参考
2核4G、8核16G、4核8G配置的云服务器处理器与内存比为1:2,这种配比的云服务器一般适用于中小型网站、企业网站应用、批量计算、Web前端服务器、机器学习推理等场景,因此,多为个人和普通企业级用户比较喜欢购买这种配置。本文将详细解析这三种阿里云服务器配置的实例规格、收费标准、活动价格及选购策略,以供参考。