图像识别的搜索结果_第3页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # PyTorch # 算法框架/工具 # C++

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

告别潜在空间的黑箱操作，直接在原始像素空间建模！PixelFlow：港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型，通过流匹配和多尺度生成技术实现像素级图像生成，在256×256分辨率任务中取得1.98的FID分数，支持端到端训练并突破传统模型对预训练VAE的依赖。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 算法框架/工具 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

开源学习神器把2小时网课压成5分钟脑图！BiliNote：一键转录哔哩哔哩视频，生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote，其整合多模态AI技术实现视频内容结构化解析，支持跨平台视频源处理与本地化部署方案，提供从语音转写到智能摘要的全流程自动化能力。

# 图像识别 # 人工智能 # 前端开发 # 语音技术 # Docker # 容器

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

快速切换多种画风！FlexIP：腾讯开源双适配器图像生成框架，精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架，其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡，在CLIP-I指标上取得0.873的高分验证了技术突破。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 搜索推荐 # 算法

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

设计师集体破防！UNO：字节跳动创新AI图像生成框架，多个参考主体同框生成，位置/材质/光影完美对齐

UNO是字节跳动开发的AI图像生成框架，通过渐进式跨模态对齐和通用旋转位置嵌入技术，解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成，在虚拟试穿、产品设计等领域展现强大泛化能力。

# 图像识别 # 人工智能 # 编解码 # 物联网 # 计算机视觉 # 索引

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

傅利叶开源人形机器人，提供完整的开源套件！Fourier N1：具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块，具备23个自由度和3.5米/秒运动能力，提供完整开源套件助力开发者验证算法。

# 图像识别 # 传感器 # 人工智能 # 算法 # 机器人 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。

# 云解析DNS # 图像识别 # 存储 # 人工智能 # JSON # 文字识别 # 自然语言处理

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 网络架构 # 异构计算

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AI图像质感还原堪比专业摄影！Miracle F1：美图WHEE全新AI图像生成模型，支持超写实与多风格生成

美图WHEE推出的Miracle F1采用扩散模型技术，通过精准语义理解和多风格生成能力，可产出具有真实光影质感的专业级图像作品。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别