达摩院开源工业级说话人识别模型CAM++
近日,达摩院正式向公众开源工业级说话人识别通用模型CAM++,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工业级模型。模型下载地址:https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/s
AI+求解器双决策引擎MindOpt Studio助力参赛队伍赢得电力调度大赛
于12月27日结束的第五届电力调度AI大赛以“基于人工智能的电力现货市场快速出清”为主题。达摩院决策智能实验室MindOpt Studio团队第二次协办该赛事,向参赛队伍提供比赛封闭环境的算法开发环境与测试平台。在与友商比拼下,阿里云产研团队与达摩院MindOpt团队的紧密协作,赋予了比赛以多项新技能Buff,使用MindOpt Studio平台的参赛队伍在评测中占据了前10名中的8席。决赛冠军清华大学团队对阿里云点赞。
企业数字化咨询服务
本文全面性、系统性、体系化地介绍了阿里云为企业客户提供的数字化咨询服务。核心内容包括: ● 咨询服务市场及阿里云咨询定位 ● 阿里云数字化咨询服务特点 ● 阿里云企业数字化咨询价值主张 ● 阿里云数字化咨询服务体系 ● 阿里云数字化咨询方法论体系 ● 阿里云数字化咨询保障体系 ● 典型成功案例介绍
INTERSPEECH 2022论文解读|针对多方会议场景下说话人相关语音识别的对比研究
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。
本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。