多模态-文章-第5页-阿里云开发者社区-阿里云

开发者社区> ModelScope模型即服务> 多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

今日

311

内容

活动

256

关注

来自： ModelScope模型即服务

精华

蚝油菜花

机器学习/深度学习人工智能自然语言处理

博文

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具，支持灵活的本地或云端部署。

864 8 8

蚝油菜花

人工智能 API

博文

OmniSearch：阿里巴巴通义推出的多模态检索增强生成框架

本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch，该框架具备自适应规划能力，能够动态拆解复杂问题，根据检索结果和问题情境调整检索策略，从而提升检索效率和准确性。

1413 5 5

DreamSpark

人工智能

博文

多模态AI单词助记模型体验

一文带你了解多模态AI单词助记模型的优与劣

645 1 1

AI小怪兽

机器学习/深度学习算法算法框架/工具

博文

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

YOLOv5原创自研，助力创新

600 1 1

AI小怪兽

机器学习/深度学习编解码人工智能

博文

一种基于YOLOv8改进的高精度表面缺陷检测网络， NEU-DET和GC10-DET涨点明显（原创自研）

【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测，在NEU-DET和GC10-DET任务中涨点明显；

916 1 1

mutonix

测试技术

博文

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集，包含12K个高分辨率视频和400k+片段，以视频脚本形式进行密集注释，每个场景平均有145个单词的标题。除了视觉信息，还转录了画外音，提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务：Vript-CAP（详细视频描述）、Vript-RR（视频推理）和Vript-ERO（事件时序推理），旨在推动视频理解的发展。

716 1 1

快乐期盼

人工智能

博文