黃楠欣 楊盈昀
面向智慧家居的音頻事件識別及應用
黃楠欣 楊盈昀
(中國傳媒大學 信息與通信工程學院,北京 100024)
音頻事件識別在人工智能中有重要的應用,例如智慧家居系統(tǒng)中的安全監(jiān)護。音頻監(jiān)控相對視頻監(jiān)控有不受光線、遮擋物等因素影響優(yōu)勢,但開放環(huán)境中的音頻事件復雜、相互混疊且只有較少的事件能提供有用的信息。音頻場景分析是一件困難的工作。傳統(tǒng)單一種類的音頻特征很難提高音頻事件的識別準確率,在此基礎上,提取音頻事件的時域、頻域和灰度紋理圖像特征進行組合及實驗方法研究。實驗數據采用自創(chuàng)建的音頻數據庫,實驗結果顯示組合特征相對傳統(tǒng)的單一特征的平均識別率提高了18%。
音頻事件識別;音頻場景分析;智慧家居
近幾年,音頻場景和事件識別引起了廣泛科研工作者的關注[1]。機器識別環(huán)境聲音的應用已經深入到人們的日常生活,例如安全監(jiān)控、生物音頻分析和環(huán)境保護等[2-4]。最近十年,隨著IP網絡技術的發(fā)展和網絡芯片的微型化,幾乎可以將世界上任何物體連接到互聯網上,從而實現新的服務和創(chuàng)造價值。從而產生了著名的“the Internet of things (IoT)”,與眾不同的新興行業(yè)出現,例如智慧城市、智慧交通、智慧家居和智慧穿戴等[5-6],其中音頻事件識別在這些新興行業(yè)中占有一席之地。音頻事件識別在智慧家居系統(tǒng)中有非常重要的應用,例如針對獨居老人的安全監(jiān)護。在我國,很快將進入老齡化的高峰期。隨著社會老齡化日益加劇,獨居老人也在持續(xù)增長,解決獨居老人的養(yǎng)老問題是社區(qū)重要的工作。智慧家庭中的音頻監(jiān)控在針對獨居老人上有非常廣的應用前景。音頻場景分析,即通過音頻場景和異常音頻事件的識別來分析獨居老人的安全和行為,例如識別盥洗室的跌倒、客廳中的痛哭、起居室里的呼吸困難等音頻事件。
音頻事件不同于語音,語音有準平穩(wěn)性的特點,而音頻事件之間的特性相差大,例如有短時的碰撞聲音或尖脈沖聲音,也有長時間的持續(xù)聲音。音頻場景是由多種音頻事件相互混疊而成,采用傳統(tǒng)單一特征識別不同類型的音頻事件是非常困難的。本文采用組合特征(特征+特征)方法來識別異常音頻事件。通常,區(qū)分性好的音頻特征可以去除原始信號中的冗余信息,實現數據降維。對音頻信號的波形進行一系列的轉換后提取不同的時域、頻域、灰度紋理圖像特征進行組合。時域特征主要是提取能反映出音頻信號的能量變換、波形相似程度和波形正負改變的頻次等內容的特性,主要有時域包絡、過零率(ZCR)和短時能量(STE)等。相對時域特征,音頻特征中的頻域特征更能體現出音頻信號的固有特性。音頻場景或音頻事件識別主要采用音頻信號的頻域特征,頻域特征最常用的梅爾倒譜系數(MFCCs),其他的頻譜特征有譜質心(SC)、譜通量(SF)和譜亮度(SB)等。近幾年,計算機視覺技術中的紋理圖像特征是用來識別音頻場景或音頻事件的有效方法之一。
視頻監(jiān)控受光線、遮擋物等因素的影響,音頻監(jiān)控可以克服視頻監(jiān)控的不足。音頻場景分析的主要任務就是音頻事件識別或音頻事件上下文關系識別,音頻場景一般指有一定物理意義的一系列音頻事件的組合,例如說話聲、鐵軌摩擦聲等構成地鐵場景。家居環(huán)境的音頻場景有盥洗室、客廳、起居室、廚房等。異常音頻事件是音頻場景分析或音頻監(jiān)控重點關注的對象,例如火車站的槍炮聲,火車站屬于音頻場景,而槍炮聲屬于異常音頻事件[7]。文獻[8]定義5類異常音頻事件和音頻場景:尖叫、劇烈咳嗽、哭聲、痛苦呻吟、跌倒和家居環(huán)境的背景(即音頻場景)。在識別任務中,本文將這5類異常音頻事件注入到背景聲中。
音頻事件的識別類似于語音或說話人識別,有效音頻特征的提取是識別任務中最重要的步驟之一。工程上,音頻特征的提取依賴于特征工程(feature engineering),即為區(qū)分音頻事件從數據的低階表示(low-level representations)方式中制作特定的特征,如圖1所示。
圖1音頻事件識別框圖
家居環(huán)境的音頻事件類型多且相互混疊。以目前的技術,識別相互混疊的音頻事件是一件不容易實現的事情,且識別率不高。為了提高識別率,研究不同特征的組合或融合方法是行之有效的手段之一。特征組合的具體步驟是首先對音頻信號進行分割等預處理,然后提取時域、頻域和灰度紋理圖像特征,根據實際場景和事件的先驗知識進行特征組合,如圖2所示。
圖2 特征提取及組合
采用計算機視覺技術的灰度紋理圖像特征,相對于傳統(tǒng)的梅爾頻率倒譜系數(MFCC)特征對音頻事件識別有較好的性能。局部紋理模式的二進制模式(local binary pattern,LBP)特征在灰度紋理特征中具有代表性,它的提取方式是音頻信號轉換成頻譜圖,然后從頻譜圖轉變成灰度紋理圖像,再提取LBP特征,該特征特點是能對不同灰度的像數值大小進行統(tǒng)計計算為特征?;舅悸肥窃诿總€胞腔(cell)根據灰度的中心像素點和它周圍8個點值大小進行比較并進行統(tǒng)計,能較好地描述音頻信號頻域特性的變化。LBP特征計算方式是采用每個區(qū)域的中心像素點與它鄰近的像素點的值進行比較,如圖3所示。LBP特征的計算公式為
其中:c是頻譜圖一個胞腔(cell)的中心,胞腔的劃分通常是采用3×3或5×5的方式;g是與中心點c相鄰的點;表示與其相鄰點且均勻分布在半徑為的圓周上的像素點的數量;本文=8。通過式(1)計算可得到256維的統(tǒng)計值[8]。
實驗研究音頻特征的不同組合及有效性是本文的重點。介紹數據集,實驗數據從Freesound網站下載了一部分異常音頻事件數據和錄制一些音頻場景數據。數據集包括5種類型的異常音頻事件和真實家居場景,其中異常音頻事件的錄音數據包含至少一個有完整的音頻事件,如劇烈咳嗽,真實家居場景即背景有盥洗室、廚房、起居室等,數據列于表1。
表1 數據集
所有的實驗采用交叉驗證方法,即從總樣本數中隨機抽取80%作為訓練集,再隨機抽取20%作為測試集,共迭代20次,求出平均值,其數學表達式為
第一個實驗是提取數據集中音頻事件的LBP灰度紋理圖像特征并進行驗證,其識別結果列于表2。
表2 異常事件識別結果 單位:%
從表2可以看出,真實家居環(huán)境的異常音頻事件識別,我們把異常音頻事件和背景聲音串接在一起,從實驗檢測結果可以看出,灰度紋理圖像特征對有類似語音的音頻事件,如“劇烈咳嗽”和“尖叫”有較高的識別率,分析原因是這類型音頻事件通常在通帶內含有較高的基音且有較高的能量。從聽覺上來判斷,“哭喊”和“痛苦呻吟”有可能判為同一事件,而且這類音頻事件通常含有相同的文本內容。
實驗對5類音頻事件分別采用不同的特征進行識別,然后求出每一個特征的平均識別結果,結果如圖4所示。7種單一類型的特征對混雜在家居真實場景的5類異常音頻事件識別如圖4(a)所示,其平均識別準確率為61%,其中紋理圖像特征LBP識別準確率為89%。顯然除了LBP特征以外,其他類型的單一特征對音頻事件的識別精度不高,也就是說單一種類型的特征對真實環(huán)境的音頻事件識別率不高。LBP算子是在音頻信號的頻譜圖中的每個像素點得到一個“LBP”編碼,對一個記錄頻率信息的每個像素點的灰度值的灰度紋理頻譜圖提取原始的LBP算子之后,得到的原始LBP特征依然是一副反映出頻率及位置信息的頻譜圖。LBP相對其他的特征有較高的準確率可能是因為該特征跟音頻信號的頻率位置信息緊密聯系,將一個頻譜圖劃分若干子區(qū)域,對每個子區(qū)域內的像素點提取LBP特征,然后,在每個區(qū)域內建立LBP特征的子區(qū)域,對每個子區(qū)域的每個像素點提取LBP特征,然后在每個子區(qū)域內建立LBP特征的統(tǒng)計直方圖。這種特征能較好地統(tǒng)計出每個音頻信號的位置頻率,從而提高音頻場景和音頻事件的識別準確率。利用時域和頻域的組合特征融合方法對上述5類異常音頻事件的識別結果如圖4(b)所示,平均準確率為79%,比單一種類的特征提高了18個百分點,顯然,特征組合的方法能有效提高真實環(huán)境中的音頻事件識別率。
圖4 單一和組合特征識別準確率
其中,LBP+RQA(recursive quantitative analyzing)兩種特征的準確率最高,為93%。原因可能是這類型的特征融合,可以導致較高維度的特征向量,并達到較好的泛化能力。另外,特征在音頻特性的描述上互補從而提高音頻事件的識別率,例如頻譜亮度特性是反映出聲音從沉悶到尖銳的變化過程。頻譜亮度能粗略指示出頻率譜的能量分布情況等,這種特性能很好地體現尖叫、大聲哭喊等音頻事件的特征。
人工智能時代,智慧家居系統(tǒng)飛速發(fā)展,基于音頻場景分析在智能安全監(jiān)控中有重要的應用前景。但真實家居環(huán)境中的音頻事件種類多且相互混疊,以目前的技術識別混疊的多源音頻事件是復雜和困難的任務,采用傳統(tǒng)單一類型的音頻特征很難達到高的識別準確率。本文研究了音頻特征組合和融合的方法,通過實驗來證明某一特征組合對音頻事件的這些組合特征可以對不同類型的音頻事件特征互補。實驗證明:這種方法對真實家居環(huán)境的音頻事件的平均識別精度達到了79%左右,比單一類型的特征提高了18%,其中LBP+RQA特征達到93%的準確識別率。
[1]陳愛武.家居音頻場景識別關鍵技術研究[D].廣州:華南理工大學,2020.
[2]BARDELI R, WOLFF D, KURTH F, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.
[3]MARIN-CUDRAZ T, MUFFAT-JOLY B, NOVOA C, et al. Acoustic monitoring of rock ptarmigan: A multi-year comparison with point-count protocol[J]. Ecological indicators, 2019, 101: 710-719.
[4]AIDE T M, CORRADA-BRAVO C, CAMPOS-CERQUEIRA M, et al. Real-time bioacoustics monitoring and automated species identification[J]. PeerJ, 2013, 1: e103.
[5]CHAMOSO P, GONZáLEZ-BRIONES A, RODRíGUEZ S, et al. Tendencies of Technologies and Platforms in Smart Cities: A State-of-the-Art Review[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-17.
[6]SHEN Y, HE K, ZHANG W Q. SHome Activity Monitoring Based on Gated Convolutional Neural Networks and System Fusion[C]. DCASE2018 Challenge, 2018.
[7]CHEN A W, HE Q H, WANG X, et al. Home security surveillance based on acoustic scenes analysis[C]. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017: 1-5.
[8]ABIDIN S, TOGNERI R, SOHEL F. Spectrotemporal analysis using local binary pattern variants for acoustic scene classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2112-2121.
TN912.34
A
1673-2219(2021)05-0033-03
2021-08-15
黃楠欣(2000-),女,湖南永州人,中國傳媒大學2018級廣播電視工程專業(yè)學生,研究方向為數字電視制播。
楊盈昀(1969-),女,四川安岳人,博士,教授,研究方向為智能視音頻處理。
(責任編校:宮彥軍)