图像识别的搜索结果_热门_第15页-阿里云开发者社区

蚝油菜花

|

博文

|

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型，以Agent技术为核心，支持多种数据类型的输入与输出，具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

# 图像识别 # 自然语言处理 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 测试技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色控制和精确布局控制，适用于漫画创作、个性化内容生成等多个领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐 # 计算机视觉

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 安全 # vr&ar

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及多种环境，能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

# 图像识别 # 数据采集 # 人工智能 # 自动驾驶 # 机器人 # 测试技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

MeteoRA：多任务AI框架革新！动态切换+MoE架构，推理效率提升200%

MeteoRA 是南京大学推出的多任务嵌入框架，基于 LoRA 和 MoE 架构，支持动态任务切换与高效推理。

# 图像识别 # 人工智能 # 自然语言处理 # 并行计算 # 物联网 # 异构计算

大刚测试开发实战

|

博文

|

来自：视觉智能

基于Sikuli GUI图像识别框架的PC客户端自动化测试实践

Sikuli是一款基于GUI图像识别框架的自动化测试工具，它以图像检索技术为基础，提供了一套基于 Jython 的脚本语言以及集成开发环境。使用者可利用屏幕截图直接引用 GUI 元素进行编程，完成交互操作。Sikuli 一词取自墨西哥的土著语，意为“上帝之眼”，寓意—— Sikuli 让电脑能像人一样”看”这个”真实世界”。

# 图像识别 # 视觉智能开放平台 # 编解码 # Java # 测试技术 # Linux # 开发工具 # iOS开发 # MacOS # Ruby # Python # Windows

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

Cosmos 是英伟达推出的生成式世界基础模型平台，旨在加速物理人工智能系统的发展，特别是在自动驾驶和机器人领域。

# 图像识别 # 人工智能 # 自动驾驶 # 安全 # 机器人 # 开发者

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型，融合音频、视觉和文本输入，通过特定情绪编码器整合信息，广泛应用于人机交互、教育、心理健康等领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 人机交互

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

# 图像识别 # 人工智能 # 编解码 # 文字识别 # iOS开发 # MacOS

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

MedRAX：专注于胸部X光检查的AI医学推理智能体，帮助医生快速解读胸部X光片

MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体，整合了多种最先进的分析工具，支持多模态推理和动态任务分解。

# 图像识别 # 人工智能 # 安全 # 数据挖掘 # 测试技术 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别