虚拟偶像诞生记 - 数字人行业和技术探究
为你讲述当前业界的现状,包括不同行业中的showcase和优秀的技术/创作平台,引出近几年比较火热的元宇宙概念,包含多个核心技术点,同时畅想数字人在未来的技术增长和业务价值,以及当下我们该如何布局。
阿里云文字识别(OCR)服务 Quick Start
阿里云文字识别(Optical Character Recognition,OCR)可以将图片中的文字信息转换为可编辑文本,是一款由阿里巴巴达摩院权威AI团队打造的全栈全场景OCR文本识别类产品。根据客户的业务场景和需求,将产品分为了通用文字识别、个人证照识别、票据凭证识别、教育场景识别、车辆物流识别、企业资质识别、小语种文字识别等,满足各种客户的图片识别需求。
由于阿里云视觉智能开放平台和云市场这两个渠道下也具备阿里文字识别服务,一些不熟悉的客户很容易将三者搞混淆,这边简单做下对比。然后再针对个人证照识别下常见的服务-身份证识别功能简单介绍下产品的开通及使用。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。
FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。