视觉智能开放平台的搜索结果_热门_第5页-阿里云开发者社区

游客6mpq4uc7irdxi

|

1月前

|

博文

|

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

AI编程革命正悄然兴起。李响团队调研显示，AI助手大幅提升开发效率，GitHub Copilot、CodeWhisperer、Tabnine各具优势，而新兴的Lynx AI更以自然语言生成全栈应用，零门槛、多端适配，助力开发者从重复劳动中解放，专注创新。

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 安全 # 程序员 # 开发者

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

video-analyzer 是一款开源视频分析工具，结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型，能够提取视频关键帧、转录音频并生成详细描述，支持本地运行和多种应用场景

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 监控 # API # 计算机视觉

嘟嘟嘟嘟嘟嘟

|

问答

|

来自：视觉智能

文字识别OCR目前有哪些情况会导致识别失败？

# 文字识别 # 视觉智能开放平台 # 文字识别

深圳快瞳科技有限公司

|

10月前

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

老乡别走

|

10月前

|

博文

|

来自：视觉智能

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

# 视觉智能开放平台 # 文字识别 # Serverless # 开发工具 # 对象存储 # Python

阿里云OpenVI

|

博文

|

来自：视觉智能

FaceChain：1周3K star，3张照片打造专属形象！人人AIGC!

FaceChain团队推出了开源人物写真项目，希望结合开源社区开发者的力量，可以让图片应用更有趣、更好玩、也有更多应用场景。

# 视觉智能开放平台 # 人工智能 # 算法 # 搜索推荐 # 物联网 # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型，结合Transformer架构与DINOv2主干网络，支持多分辨率灵活切换，为安防、自动驾驶等场景提供高精度实时检测方案。

# 视觉智能开放平台 # 人工智能 # 编解码 # 自动驾驶 # 计算机视觉 # 异构计算

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具，支持图像和视频的多样化标注样式，适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 算法 # 计算机视觉 # 数据格式

11593

|

问答

|

来自： ModelScope模型即服务

com/action/joingroup?code=v1是什么意思

# 视觉智能开放平台

羽林小王子

|

博文

|

来自：视觉智能

图像识别算法汇总

# 图像识别 # 视觉智能开放平台 # 机器学习/深度学习 # 传感器 # 人工智能 # 监控 # 算法 # 安全 # 固态存储 # 数据库 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台