异常声音检测总结
http://blog.csdn.net/YJJat1989/article/details/44961279
异常声音检测,顾名思义,就是检测现实生活中的异常声音,如枪声、爆炸声、哭声、尖叫声等,属于公共安全监控的范畴。
传统的公共安全监控是用摄像头,但是摄像头只能监控某个固定的场景,而且受光线影响很大,因而在电影中,罪犯只要知道摄像头的位置,就可以很容易地避开摄像头或用布将摄像头遮住。
随着移动互联网的发展,各种可穿戴式的安全产品相继出现,但都是主打定位牌,360儿童手表倒是可以录音,但是需要家长主动拨打手表来录音,这种应用场景是在家长想知道孩子在哪时拨打孩子的手表使其录音10秒,这10秒录音能不能让家长知道孩子所处的环境暂且不说,单家长主动去拨打手表就有个何时拨打的问题,家长只在想起来的时候才拨打,也许孩子早已经处于危险之中。360儿童手表还可以让孩子在遇到危险的时候紧急呼救,这里所谓的危险必须是儿童意识清醒而且有呼救意识。所以这种家长主动拨或孩子主动求救的方法都是被动的。
如果用异常声音来判断孩子是否安全呢?因为声音是全向传播的,不受光线影响,所以检测异常声音理论上是可以的。但是异常声音的种类是在太多太复杂了,姑且不说有哭声、尖叫声、枪声等不同异常声音,即使是枪声这一种异常声音也有手枪、步枪等;而且现实生活中的干扰实在太多,所以准确判断出异常声音还是很困难。
目前这一领域有两种方案,一种叫异常声音检测,另一种叫异常声音分类。所谓异常声音检测,就是检测是否有异常声音,但不能确定是何种异常声音;而异常声音分类,就是将异常声音分类,从而知道检测到的是何种异常声音,很明显,这种方法能检测出的异常声音种类有限。
异常声音检测的一般方法是对背景环境声建模,所有和模型不匹配的都是异常声音;而异常声音分类则是对异常声音建模,所有和模型匹配的就是某种异常声音。这两种方法的原理其实都来自语音识别,本质上是要训练出一个分类器。而语音识别的关键是分类器的区分度,也就是模型的准确性,而这又是由所选的声学特征和声音模型确定的。
常用的声学特征就是MFCC,此外还有MPEG-7等。我们听到的声音包含太多无用的信息,MFCC就是用24维特征系数来代表一帧的声音。常用的声音模型当然是HMM,此外还有GMM等。所以运用这类方法的难点和语音识别的难点是相同的。
而在实时检测中,准确检测出异常声音的起点和终点也是很重要的。因为如果起点和终点不准确,势必会影响模型准确性,从而影响识别率。
'via Blog this'
No comments:
Post a Comment