计算机视觉-推荐-第3页-阿里云开发者社区-阿里云

蚝油菜花

|

10月前

|

人工智能监控自动驾驶

|

博文

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型，支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

316 3 3

蚝油菜花

|

10月前

|

人工智能数据可视化 UED

|

博文

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法，支持多实体独立运动控制、高质量视频生成，并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

429 10 10

蚝油菜花

|

11月前

|

传感器人工智能

|

博文

X-Dyna：一张图片就能实现动画化！字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架，基于扩散模型实现单张图像动画化，支持面部表情和身体动作控制，生成高质量动态细节。

273 6 6

蚝油菜花

|

11月前

|

人工智能搜索推荐网络架构

|

博文

TryOffAnyone：快速将模特服装图还原为平铺商品图，生成标准化的服装展示效果

TryOffAnyone 是一款基于 AI 技术的工具，能够将模特穿着服装的图像快速还原为平铺商品图，支持智能识别、自动优化等功能，适用于电商平台和虚拟试衣场景。

574 12 12

蚝油菜花

|

11月前

|

人工智能索引

|

博文

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

Infinity 是字节跳动推出的高分辨率图像生成模型，通过位级自回归建模和无限词汇量标记器，显著提升了图像生成的细节和质量。

574 19 19

蚝油菜花

|

12月前

|

人工智能异构计算

|

博文

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，显著提升了人物图像动画的质量和一致性。

317 14 14

蚝油菜花

|

12月前

|

人工智能数据挖掘 vr&ar

|

博文

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术，通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。

336 4 4

蚝油菜花

|

8月前

|

人工智能语音技术

|

博文

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

365 0 0

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能图形学

|

博文

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架，支持将静态图像转换为动态视频，基于3D几何引导实现精确的动画控制，适用于动画制作、视频编辑和内容创作等领域。

267 3 3

蚝油菜花

|

11月前

|

机器学习/深度学习数据采集人工智能

|

博文

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术，支持生成包含透明背景的 RGBA 视频，适用于娱乐、广告、教育等多个领域。

455 22 22

游客2d4cqs7amspr6

|

8月前

|

编解码测试技术计算机视觉

|

问答

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

151 0 0

蚝油菜花

|

9月前

|

人工智能图形学

|

博文

PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架，通过单张图像重建3D场景并模拟物理行为，实现从静态图像到动态交互的突破性转换。

291 15 15

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能测试技术

|

博文

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架，解决了传统方法在姿态引导的人物图像生成中的局限性，支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

219 0 0

1452750375310896

|

10月前

|

算法框架/工具 PyTorch 开发工具

|

问答

VidTok 是微软开源的一款先进的视频分词器，支持连续和离散分词化，能够高效地将视频内容转换为视觉 Token，适用于多种应用场景。

239 15 15

蚝油菜花

|

9月前

|

人工智能自然语言处理自动驾驶

|

博文

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

AVD2 是由清华大学联合多所高校推出的自动驾驶事故视频理解与生成框架，结合视频生成与事故分析，生成高质量的事故描述、原因分析和预防措施，显著提升自动驾驶系统的安全性和可靠性。

205 6 6

蚝油菜花

|

10月前

|

机器学习/深度学习人工智能编解码

|

博文

FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架，通过两阶段方法显著降低计算成本，快速生成高质量视频。

409 5 5

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法，基于扩散模型，支持即插即用，无需额外训练，适用于多种图像编辑任务。

251 8 8

蚝油菜花

|

11月前

|

人工智能搜索推荐

|

博文

PersonaMagic：人像与风格融合！快速生成个性化的头像

PersonaMagic 是一种创新的高保真人脸定制技术，通过阶段调节的文本条件策略和动态嵌入学习，能够根据单张图像生成个性化角色，广泛应用于娱乐、游戏、影视等领域。

250 25 25

游客ckeqlms2owmig

|

10月前

|

问答

香港大学与Adobe联合研发的ObjectMover模型，通过视频生成先验迁移技术，实现图像中物体的自然移动、删除和插入，自动保持光影一致性。

242 21 21

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术，支持后期自由调整视频的相机位置和角度，生成高质量的新型轨迹视频，广泛应用于沉浸式娱乐、创意视频制作等领域。

272 12 12

蚝油菜花

|

11月前

|

人工智能达摩院计算机视觉

|

博文

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术，支持高效妆容迁移与动态对齐，适用于图像处理、虚拟试妆等多个领域。

483 9 9

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能

|

博文

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架，通过最小化积分Kullback-Leibler散度，指导其他生成模型的训练，提升生成性能。

311 11 11

蚝油菜花

|

11月前

|

人工智能测试技术

|

博文

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试，旨在衡量模型生成的视频是否遵循现实世界的物理规则。

279 9 9

bododpzahjhcw

|

12月前

|

API

|

问答

No module named 'modelscope_agent.retrieve'

233 1 0

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能编解码

|

博文

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制，通过局部注意力窗口设计，显著提升了预训练扩散变换器生成高分辨率图像的效率，生成8K图像时提速6.3倍。

274 18 18

蚝油菜花

|

12月前

|

人工智能自然语言处理 PyTorch

|

博文

BrushEdit：腾讯和北京大学联合推出的图像编辑框架，通过自然语言指令实现对图像的编辑和修复

BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架，结合多模态大型语言模型和双分支图像修复模型，支持基于指令引导的图像编辑和修复。

266 12 12

游客5dbqqnkbzrtgi

|

6月前

|

SQL

|

问答

在部署 SQL Server Express MCP 远程连接不通，求解

104 0 0

哈达2

|

11月前

|

计算机视觉 Python 异构计算

|

问答

希望通过damo-YOLO训练检查自己提供的logo

101 2 0

蚝油菜花

|

11月前

|

人工智能并行计算 PyTorch

|

博文

SPRIGHT：提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集，通过重新描述600万张图像，显著提升文本到图像模型的空间一致性。

230 18 18

计算机视觉

最新

文章

视频

问答

推荐

精华

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

X-Dyna：一张图片就能实现动画化！字节联合斯坦福推出动画生成框架

TryOffAnyone：快速将模特服装图还原为平铺商品图，生成标准化的服装展示效果

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

RetinaFace下载下来的模型验证失败

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

RLCM：康奈尔大学推出文本到图像一致性模型优化框架，支持快速生成与任务特定奖励优化

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务

VersaGen：生成式 AI 代理，基于 Stable Diffusion 生成图像，专注于控制一至多个视觉主体等生成细节

VidTok：微软开源的视频分词器，能够将视频内容转换为视觉 Token

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

PersonaMagic：人像与风格融合！快速生成个性化的头像

关于魔塔社区里面有UI-TARS模型一件部署在阿里云的几个相关问题

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

ObjectMover：港大联合Adobe打造图像编辑黑科技，移动物体光影自动匹配

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

No module named 'modelscope_agent.retrieve'

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

BrushEdit：腾讯和北京大学联合推出的图像编辑框架，通过自然语言指令实现对图像的编辑和修复

在部署 SQL Server Express MCP 远程连接不通，求解

希望通过damo-YOLO训练检查自己提供的logo

SPRIGHT：提升文本到图像模型空间一致性的数据集

活跃用户

相关产品