图像识别的搜索结果_热门_第11页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

StarVector：图像秒变矢量代码！开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型，能够将图像和文本转换为可编辑的SVG矢量图形，支持1B和8B两种规模，在SVG生成任务中表现出色。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉

hahah116

|

问答

|

来自： ModelScope模型即服务

怎么修改model scope的默认存储位置

# 图像识别 # 存储 # 开发工具

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

Browser Use：开源 AI 浏览器助手，自动完成网页交互任务，支持多标签页管理、视觉识别和内容提取等功能

Browser Use 是一款专为大语言模型设计的智能浏览器工具，支持多标签页管理、视觉识别、内容提取等功能，并能记录和重复执行特定动作，适用于多种应用场景。

# 图像识别 # 人工智能 # API # 数据库 # 开发者

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉 # 开发者 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Hunyuan3D 2.0：腾讯混元开源3D生成大模型！图生/文生秒建高精度模型，细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统，专注于从文本和图像生成高分辨率的 3D 模型，支持几何生成和纹理合成。

# 图像识别 # 人工智能 # PyTorch # API # 算法框架/工具 # 图形学

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架，专注于构建语音和多模态对话代理，支持与多种 AI 服务集成，提供实时处理能力，适用于语音助手、企业服务等场景。

# 图像识别 # 智能语音交互 # 人工智能 # 数据处理 # 语音技术 # 开发者 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

# 图像识别 # 人工智能 # 并行计算 # 测试技术 # 网络架构 # 内存技术

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

多模态模型卷王诞生！InternVL3：上海AI Lab开源78B多模态大模型，支持图文视频全解析！

上海人工智能实验室开源的InternVL3系列多模态大语言模型，通过原生多模态预训练方法实现文本、图像、视频的统一处理，支持从1B到78B共7种参数规模。

# 云解析DNS # 图像识别 # 人工智能 # 算法 # API

aliyun8832924060

|

博文

|

来自：大数据与机器学习

神经网络：模拟人脑以实现智能决策

神经网络作为模拟人脑神经元工作原理的模型，在人工智能领域发挥了重要作用。从图像识别到自然语言处理，神经网络在多个领域展现出强大的能力。随着技术的不断进步，神经网络有望在未来实现更高级别的智能决策，为人工智能的发展带来新的机遇和挑战。

# 图像识别 # 自然语言处理 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具，能够将电子书转换为有声书，支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换，并提供命令行、Web 界面和 Docker 容器等多种使用方式。

# 图像识别 # 人工智能 # Ubuntu # 语音技术 # Docker # 容器

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别