带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(7)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(7)

带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(6) https://developer.aliyun.com/article/1243278?groupCode=taobaotech



噪声抑制ANS


噪声抑制评估主要包括以下几个方面:1)噪声的收敛情况,即噪声是否收敛以及收敛的速度。2)降噪后的音质是否损伤,即音质情况。3)降噪算法的性能消耗情况(如cpu、内存)。


降噪效果评估采用真实噪声场景、稳态噪声(如白噪声、粉红噪声等)、非平稳噪声、噪声变化等不同场景的噪声素材,以尽量覆盖各种噪声场景和分析算法的自适应能力。由于淘宝直播主要的使用场景是人声类场景(主播卖货),我们主要关注降噪后的语音质量。在此,我们使用不同信噪比的音频素材作为测试集,并采用主观评测和客观评测两种方式来评测降噪后音频的质量。客观评测主要采用PESQ(Perceptual evaluation of speech quality)和STOI(Short-Time Objective Intelligibility)两种方式来对比推流前和ANS处理后的音频质量。主观评测主要参考音质增强算法的评估标准(ITU-T P.835,ITU-R BS.1284-2, EBU subjective assessment),采用有源多元算法(不同App)对比,制定打分规则并进行打分。主观评测可以看不同算法的降噪后的效果。


回声消除AEC


在音视频会议或连麦场景中,远端传过来的语音信号经会议设备的扬声器或者音响设备放出后,经房间墙壁等一系列的反射,最后又被麦克风采集并传到远端。这样,远端用户就不仅听到了本地用户讲话的声音,也听到了自己讲话的声音回传,也就是“回声”。


image.png

回声消除算法效果评测主要是模拟单讲和双讲的场景下是否有回声,以及回声的收敛效果。将带有特征脉冲序列音频语音作为输入数据集,再利用Audition分析录制的单讲(或双讲)场景下的音频,来判断回声是否收敛和收敛时长。


自动增益AGC


现实场景中,因主播采集设备差异、距离麦克风的距离不同等因素,导致采集到的声音忽大忽小。AGC的主要作用就是平滑这些差异,当输入语音音量过小时,将其适当放大;当输入语音信号音量过大时,则将适当降低幅度,避免削波失真和较差的音频体验。


AGC算法评测主要包括:

1. 增益的大小和增益的平滑度;

2. 噪声场景下,AGC是否将噪声放大。AGC测试素材包括大音量音频、小音量音频、噪声音频、以及音量变化音

频。将输入和输出的音频做时域对齐,然后分段对比AGC前后幅度计算出平均增益幅度及平滑度。




带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(8) https://developer.aliyun.com/article/1243276?groupCode=taobaotech

相关文章
|
存储 缓存 安全
Nacos 安全零信任实践
本文将介绍如何基于安全零信任的理念来保证 Nacos 的数据安全。
13525 99
|
10月前
|
缓存 PyTorch 算法框架/工具
离线推理精度问题分析
传统模型迁移到昇腾设备上出现了精度问题,介绍精度问题的定位方法和解决方案,重点介绍了精度问题的定位定界方法。
离线推理精度问题分析
|
设计模式 存储 安全
【设计模式——学习笔记】23种设计模式——单例模式Singleton(原理讲解+应用场景介绍+案例介绍+Java代码实现)
【设计模式——学习笔记】23种设计模式——单例模式Singleton(原理讲解+应用场景介绍+案例介绍+Java代码实现)
236 0
|
Android开发 开发工具 IDE
Android gradle问题解决: This app has been built with an incorrect configuration. Please configure your build for VectorDrawableCompat
1. 问题描述: Android Studio在运行模拟器某些机型或者真机某些机型的时候发生闪退。 错误如下: Java.lang.RuntimeException: Unable to start activity ComponentInfo{com.
2725 0
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
1695 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
Android开发
Flutter控件的显示与隐藏
Flutter控件的显示与隐藏
629 3
|
SQL 弹性计算 安全
【上云基础系列04】基于标准架构的数据库升级
本文回顾了业务上云从基础到进阶的理念,涵盖基础版和全栈版架构。在“入门级:上云标准弹性架构基础版”的基础上,本文针对数据库升级,重点介绍了高可用数据库架构的升级方案,确保数据安全和业务连续性。最后,附有详细的“上云标准弹性架构”演进说明,帮助用户选择合适的架构方案。
|
NoSQL 安全 PHP
hyperf-wise-locksmith,一个高效的PHP分布式锁方案
`hyperf-wise-locksmith` 是 Hyperf 框架下的互斥锁库,支持文件锁、分布式锁、红锁及协程锁,有效防止分布式环境下的竞争条件。本文介绍了其安装、特性和应用场景,如在线支付系统的余额扣减,确保操作的原子性。
276 4
|
监控 Java 数据库连接
使用线程池时,如何避免内存泄漏的问题?
使用线程池时,如何避免内存泄漏的问题?
|
JavaScript 数据管理 编译器
揭秘 ArkTS 的五大优势:如何让鸿蒙系统开发更高效、更简单?
【10月更文挑战第18天】ArkTS是专为鸿蒙系统设计的开发语言,结合了TypeScript的类型系统,并在分布式开发、UI开发、性能优化和API支持等方面进行了优化。它提供了一系列专门的API和语法糖,简化多设备协同开发,支持高效能和低功耗,助力开发者充分利用鸿蒙系统的分布式架构和强大功能。
1097 5

热门文章

最新文章