南洋理工大学 MMLab 团队分享 | 元宇宙基石:文本驱动的数字内容生成

简介: 南洋理工大学 MMLab 团队分享 | 元宇宙基石:文本驱动的数字内容生成

10 月 18 日,最新一期「机器之心走近全球顶尖实验室」邀请到南洋理工大学 MMLab 团队带来分享。前,元宇宙产业处于高速发展期,技术体系逐渐成熟,应用场景愈发丰富。其中,基于直觉的数字内容生成是元宇宙的基石,它实现了每一位参与者都能无需专家知识来创建属于自己的虚拟现实。而文本驱动的数字内容生成是最具潜力的一个方向,如目前最具影响力的文本驱动图片生成模型 DALLE2 和 Stable-diffusion,都一次次印证了这样的趋势。本次直播将由来自南洋理工大学 MMLab 实验室的刘子纬老师领衔四位博士生,来为我们分享实验室四篇文本驱动生成的工作。多媒体实验室(MMLab)于 2001 年 7 月所建立,现于香港中文大学、新加坡南洋理工大学、悉尼大学皆有实验室。MMLab 是最早应用深度学习进行计算机视觉研究的华人团队,被誉为“计算机视觉界的黄埔军校”,人工智能企业商汤科技便初创于该实验室。2016 年与麻省理工、斯坦福等著名大学一道,入选世界十大人工智能先锋实验室。多媒体实验室曾获得 CVPR 2009 最佳论文奖,此项殊荣 30 年以来第一次颁发给亚洲研究机构。实验室成员曾获的最佳论文奖包括 NeurIPS 2010, CVPR 2010, COLT 2012, ICME 2010,ACM MM 2013,AAAI 2015,CVPR 2016 和 ICCV 2017。

相关文章
通义万相2.5-图生视频-Preview,模型使用指南
该表格展示了多个设计场景,包括模型选择、复制粘贴提示词与图片、一键生成视频等步骤。每个步骤配有详细描述及示意图,呈现了不同主题和风格的设计构思与实现方式。
|
2月前
|
搜索推荐 物联网 异构计算
一张图秒生 LoRA ? Qwen-Image-i2L 诞生记
我们发布了Qwen-Image的“图生LoRA”模型,输入一张图即可端到端生成LoRA权重。通过多阶段迭代,构建了具备细节与风格保持能力的Image-to-LoRA系统,可用于高效LoRA训练初始化,推动个性化生成技术发展。
343 0
|
10月前
|
数据采集 人工智能 数据处理
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。
1303 5
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
|
8月前
|
Linux iOS开发 Python
解决安装flash-attn时的错误报告
记住,程序包安装问题就像个顽皮的谜题,得一步步解开,耐心是解决问题的钥匙,没有什么问题是一顿猛敲键盘解决不了的,如果有,那就两顿。
1854 8
|
数据采集 Web App开发 存储
基于Python的51job(前程无忧)招聘网站数据采集,通过selenium绕过网站反爬,可以采集全国各地数十万条招聘信息
本文介绍了一个使用Python和Selenium库实现的51job(前程无忧)招聘网站数据采集工具,该工具能够绕过网站的反爬机制,自动化登录、搜索并采集全国各地的招聘信息,将数据保存至CSV文件中。
830 1
|
数据可视化 数据处理 Python
使用Pandas实现Excel中的数据透视表功能
本文介绍了如何使用Python的Pandas库实现Excel中的数据透视表功能,包括环境准备、创建模拟销售数据、代码实现及输出等步骤。通过具体示例展示了按地区和销售员汇总销售额的不同方法,如求和、平均值、最大值等,帮助读者掌握Pandas在数据处理上的强大能力。
514 12
|
XML 开发框架 前端开发
利用代码生成工具Database2Sharp生成ABP VNext框架项目代码
利用代码生成工具Database2Sharp生成ABP VNext框架项目代码
|
机器学习/深度学习 计算机视觉
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
【7月更文挑战第1天】新方法将图像转为1D token序列,减少计算复杂度,提高生成效率。在保持高画质(如gFID: 1.97 on ImageNet 256x256)的同时,TiTok比现有模型快410倍。虽有资源需求及token限制问题,但展示了图像处理的新方向。[论文链接](https://arxiv.org/abs/2406.07550)
785 7
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
506 1

热门文章

最新文章