达摩院的搜索结果_热门_第13页-阿里云开发者社区

技术小达人

|

博文

|

EMNLP 2022论文解读 | SOND：基于显式语音重叠建模的说话人日志模型

Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会（Association for Computational Linguistics, ACL）举办的自然语言处理和人工智能方面的重量级国际会议，历届会议都会受到全球各地人工智能领域人士的广泛关注。

# 日志服务 # 机器学习/深度学习 # 人工智能 # 达摩院 # 自然语言处理 # 算法 # Oracle # 数据挖掘 # 关系型数据库 # 语音技术

阿里云大数据Al技术

|

博文

|

来自：大数据与机器学习

SREWorks数智运维平台开源一周年 | 智能运维aiops的回顾与展望

开源的这一年，我们聊一聊。

# 云原生大数据计算服务 MaxCompute # 容器服务Kubernetes版 # 运维 # 达摩院 # Kubernetes # 前端开发 # Cloud Native # 算法 # 数据可视化 # 云计算 # 开发者 # 容器

taro_秋刀鱼

|

博文

|

来自： ModelScope模型即服务

阿里云灵积模型服务Quick Start

DashScope灵积模型服务以模型为中心，致力于面向AI应用开发者提供品类丰富、数量众多的模型选择，并为其提供开箱即用、能力卓越、成本经济的模型服务API。DashScope灵积模型服务依托达摩院等机构的优质模型，在阿里云基础设施之上构建。灵积服务4.11号刚刚开通公测，目前提供Paraformer语音识别API能力，后续通义千问也将通过该服务对外提供API能力。本文演示如何快速通过Python SDK接入服务。

# 人工智能 # 达摩院 # API # 语音技术 # 开发工具 # 开发者 # Python

技术小达人

|

博文

Speaker Diarization 中的无监督聚类算法

# 日志服务 # 机器学习/深度学习 # 人工智能 # 达摩院 # 算法 # 数据可视化 # 数据挖掘 # 语音技术 # UED

技术小达人

|

博文

如何用一套语音识别系统实现多语种混合自由说？

语音识别技术，也被称为自动语音识别 (Automatic Speech Recognition，ASR)，其目标是将语音转成文字。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 达摩院 # 搜索推荐 # 大数据 # 语音技术 # iOS开发

技术小达人

|

博文

INTERSPEECH 2022论文解读｜针对多方会议场景下说话人相关语音识别的对比研究

INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法，通过对说话人日志、语音分离和语音识别模块的耦合，在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验，有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。

# 智能语音交互 # 日志服务 # 智能语音交互 # 机器学习/深度学习 # 达摩院 # 前端开发 # Oracle # 关系型数据库 # 语音技术

技术小达人

|

博文

|

来自： ModelScope模型即服务

WeNet入驻魔搭Modelscope，助推开源语音社区协同创新

继杭州云栖大会，阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来，达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型，进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型，包括视觉、语音、自然语言处理、多模态等 AI 主要方向，并向 AI for Science 等新领域积极探索，覆盖的主流任务超过 60 个。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 达摩院 # 自然语言处理 # 算法 # 数据管理 # 语音技术 # 云栖大会 # 开发工具 # 开发者

技术小达人

|

博文

|

来自： ModelScope模型即服务

开源｜业界首个应用落地的非自回归端到端语音识别模型，推理效率可提升10倍

近期，阿里巴巴达摩院发布新一代语音识别模型Paraformer，这是业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升10倍，且识别准确率在多个权威数据集上名列第一。目前，该模型于魔搭社区面向全社会开源，适用语音输入法、智能客服、车载导航、会议纪要等众多场景。

# 智能语音交互 # 智能语音交互 # 达摩院 # 自然语言处理 # 测试技术 # 人机交互 # 语音技术 # 开发者 # 异构计算

gs3dua33ejtbc

|

博文

|

来自： ModelScope模型即服务

达摩院开源工业级说话人识别模型CAM++

近日，达摩院正式向公众开源工业级说话人识别通用模型CAM++，兼顾准确率和计算效率，训练labels类别达20万，每类含20～200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区，后续将陆续开源针对各场景优化的工业级模型。模型下载地址：https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/s

# 机器学习/深度学习 # 达摩院 # 前端开发 # 语音技术 # 开发者

-开发达人-

|

博文

|

来自： ModelScope模型即服务

魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（上）

魔搭中文开源模型社区：模型即服务-

# 机器学习/深度学习 # 人工智能 # 达摩院 # 自动驾驶 # 算法 # 计算机视觉

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

达摩院