图像识别的搜索结果_文章_第2页-阿里云开发者社区

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

快速生成商业级高清图！SimpleAR：复旦联合字节推出图像生成黑科技，5亿参数秒出高清大图

SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型，仅用5亿参数即可生成1024×1024分辨率的高质量图像，在GenEval等基准测试中表现优异。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 测试技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

斯坦福黑科技让笔记本GPU也能玩转AI视频生成！FramePack：压缩输入帧上下文长度！仅需6GB显存即可生成高清动画

斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度，解决视频生成中的"遗忘"和"漂移"问题，仅需6GB显存即可在普通笔记本上实时生成高清视频。

# GPU云服务器 # 图像识别 # 人工智能 # 并行计算 # Linux # 调度 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

AI视频生成也能自动补全！Wan2.1 FLF2V：阿里通义开源14B视频生成模型，用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型，基于DiT架构和高效视频压缩VAE，能够根据首尾帧图像自动生成5秒720p高清视频，支持多种风格变换和细节复刻。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # Apache # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

多模态交互3D建模革命！Neural4D 2o：文本+图像一键生成高精度3D内容

Neural4D 2o是DreamTech推出的突破性3D大模型，通过文本、图像、3D和运动数据的联合训练，实现高精度3D生成与智能编辑，为创作者提供全新的多模态交互体验。

# 图像识别 # 人工智能 # 自然语言处理 # 图形学

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

多模态模型卷王诞生！InternVL3：上海AI Lab开源78B多模态大模型，支持图文视频全解析！

上海人工智能实验室开源的InternVL3系列多模态大语言模型，通过原生多模态预训练方法实现文本、图像、视频的统一处理，支持从1B到78B共7种参数规模。

# 云解析DNS # 图像识别 # 人工智能 # 算法 # API

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

AI对话像真人！交交：上海交大推出全球首个口语对话情感大模型，支持多语言与实时音色克隆

上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型，具备多语言交流、方言理解、角色扮演和情感互动等能力，通过创新技术实现端到端语音对话和实时音色克隆。

# 图像识别 # 人工智能 # 自然语言处理 # 搜索推荐 # 机器人

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

导演失业预警！Seaweed-7B：字节7B参数模型让剧本自动变电影！20秒长镜头丝滑生成

Seaweed-7B是字节跳动推出的70亿参数视频生成模型，支持从文本、图像或音频生成高质量视频内容，具备长镜头生成、实时渲染等先进特性，通过优化架构显著降低计算成本。

# 图像识别 # 人工智能 # 编解码

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # PyTorch # 算法框架/工具 # C++

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

告别潜在空间的黑箱操作，直接在原始像素空间建模！PixelFlow：港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型，通过流匹配和多尺度生成技术实现像素级图像生成，在256×256分辨率任务中取得1.98的FID分数，支持端到端训练并突破传统模型对预训练VAE的依赖。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 算法框架/工具 # 计算机视觉

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别