音频监控，如何让”好声音”从听得见到听得懂？-阿里云开发者社区

音频监控，如何让”好声音”从听得见到听得懂？

2017-07-03 2176

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

10月，在东半球最好的相声晚会——“锤子手机”发布会上，科大讯飞的语音识别技术意外火了。罗永浩花了二十分钟来讲锤子手机采用的这项技术。

而在安防领域，音频系统早已是安全防范系统的重要组成部分。虽然超过70%的网络摄像机拥有单向或多向的音频功能，但真正实际应用音频功能的监控摄像机却很少。对未来音频监控市场的分析认为，会保持稳步增长的趋势，增幅会在10%左右。IHS预测未来音频功能将在视频监控系统中得到更多的重视。

在很多事件中，我们调取录像资料，发现只有画面没有声音，一切只靠当事人的口供，无疑给公安机关侦破案件带来障碍，公众的质疑很难避免。加装音频监控无疑将会解决质疑的问题并且增加证据的说服力。

因此，现在很多的智慧安防系统，已经要求增加音频采集，例如在平安城市、公检法办案区、金融机构、公共交通、教育监考、行政服务、执法取证等领域，越来越多的优质项目需要高清晰、高保真的音视频同步监控系统，在优质安防工程中已凸显出音频监控的重要性。

如何从“听得见”到“听得懂”？

声纹识别

音频监控经过多年的发展，已经可以做到通过声音的识别来判断说话人的情绪、所处的环境等问题。而在音频监控环节中，声纹识别提供了重要的技术支撑。

声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。这里需要强调的是，和语音识别不同，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性，而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。

同时，与其他生物识别相比，声纹识别的应用有一些特殊的优势：

(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；

(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；

(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；

(4)声纹辨认和确认的算法复杂度低；

(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；

这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率15.8%，仅次于指纹和掌纹的生物特征识别，并有不断上升的趋势。

声音定位

人们经常借助听觉来判断发音物体的位置。例如，当你独自行走时，突然听到一个响声，你会立刻判断出这个声音是什么声音、对你有无威胁、它来自何方等等。确定声音的方向和距离需要比较来自两耳信息，虽然你会很快做判断和反应，但声音定位过程是听觉系统复杂综合的功能。

而声音定位则是通过强度差、时间差、因色差、相位差等来实现。

音频场景分析

作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充。相比于图像数据,音频信号往往可使用相对简单的设备进行采集并且占用更少的存储空间和处理时间。随着当前移动平台计算能力的不断提高,出现了越来越多基于音频的各类应用,所涉及的音频处理算法一直是相关研究领域的重点。

其中，提取、分析和有效利用音频数据所携带的语义信息,对基于内容的多媒体检索、摘要以及开发上下文自适应的应用等具有重要意义。

音频场景分析主要是为了分析、决策、预警所监听环境下发生的异常行为。其核心技术是基于各类异常声音在时域、频域的特征，结合模式识别的分类方法对异常事件报警。

语音识别

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术经过几十年的发展，基于深度学习的人工智能语音将得到大范围的应用。

音频监控在安防领域大有可为

由于传统视频监控系统，受摄像机镜头和安装角度限制，监控区域很难做到无死角覆盖，即使通过多角度安装摄像机，也无法保证全覆盖，由于摄像机图像采集受诸多环境因素(例如：现场照明、强光源干扰等)影响而无法有效采集现场图像。而音频监控技术由于音频本身的技术特性，基本上不存监控死角，能更有效的掌控现场的实时情况。所以音频监控技术越来可以更好的弥补视频监控技术的不足。

同时，声音具有一系列独有的特征，如不受白天和黑夜的影响，不容易遮挡，具有方向性等等。在球机上安置拾音器，对声音的方向进行定位，当检测到异常声音时控制球机到相应位置，这样一来，在一定程度上就可以第一时间看到异常声音所处位置的实时视频，为判定事态提供了多种信息。（本文部分技术支持来源于快鱼电子）

人工智能时代，语音技术以及和语音技术相关的应用、图像技术以及相关应用在今天变得格外重要。而围绕着语音、图像以及其他传感器所产生的数据，以及这些数据的生产、分析、组织和消费，在之后的很长的时间里，注定会成为智能领域中最重要的发展方向。我们期待智能音频带给安防的巨大变化。

本文转自d1net（转载）

音频监控，如何让”好声音”从听得见到听得懂？

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

音频监控，如何让”好声音”从听得见到听得懂？

热门文章

最新文章

相关电子书

相关实验场景