文開(kāi)妍,郭芷妍,彭業(yè)誠(chéng),周小茜,蘇辰昊
(天津理工大學(xué) 天津 300384)
哭是嬰兒特殊的語(yǔ)言表達(dá)方式,在嬰兒的哭聲中可以傳達(dá)出其心理和生理上不同的需求,研究其哭聲能夠幫助人們更好地理解嬰兒想要傳達(dá)的意思,在一定程度上實(shí)現(xiàn)了對(duì)嬰兒更好看護(hù)的目的。本文首先收集大量的嬰兒在不同情況和時(shí)間的哭聲數(shù)據(jù),分析嬰兒哭聲。但是在采集嬰兒哭聲的時(shí)候會(huì)伴隨著成人的說(shuō)話(huà)聲,所以就啟動(dòng)基于LSTM網(wǎng)絡(luò)、GMM模型和基于LSTM-GMM-RNN模型的語(yǔ)音檢測(cè)研究,該研究分別基于LSTM網(wǎng)絡(luò)、GMM模型和LSTM-GMMRNN模型從音頻流中識(shí)別出成人語(yǔ)音,能夠有效剔除成人的部分,進(jìn)而消除研究阻礙[1]。
鼻咽部、口咽部、喉咽部、肺部組成了人類(lèi)基本的發(fā)聲系統(tǒng)。發(fā)聲系統(tǒng)中肺部可以為發(fā)聲提供氣流動(dòng)力,通過(guò)肺的擴(kuò)張和壓縮來(lái)產(chǎn)生氣流,并將這些氣流和外界的氧氣進(jìn)行交換,就此產(chǎn)生動(dòng)力。發(fā)聲的最主要部位是喉咽部,喉咽部包括咽喉、聲帶。聲帶有兩片韌帶褶,兩片聲帶之間會(huì)有一個(gè)很小的空隙,稱(chēng)之為聲門(mén)。口咽部與鼻咽部在人類(lèi)整個(gè)發(fā)聲系統(tǒng)中所起的作用就是共鳴腔體,聲道就是聲門(mén)到嘴唇的整個(gè)呼吸通道。說(shuō)話(huà)或者發(fā)出聲音的時(shí)候,聲門(mén)處交換的氣流會(huì)導(dǎo)致聲帶發(fā)生振動(dòng),最后這種振動(dòng)通過(guò)聲道產(chǎn)生共鳴進(jìn)而發(fā)出聲音。在人模仿不同聲音的同時(shí),是因?yàn)槁暤罆?huì)隨之產(chǎn)生形狀上的變化??谘什坑帜軌蚩刂坡暤赖男螤钍欠癜l(fā)生變化,鼻子等其他器官組成了鼻咽部,能否發(fā)出鼻音的關(guān)鍵就在于鼻咽部。在嬰兒出生的時(shí)候,與發(fā)聲相關(guān)的系統(tǒng)都已經(jīng)發(fā)育完全,但相比較于成年人,還是不夠成熟,所以,嬰兒與成年人的發(fā)聲系統(tǒng)會(huì)有一定的差異。也就是結(jié)構(gòu)的差異導(dǎo)致了嬰兒相較于成年人的發(fā)出的聲音不一樣[2]。相對(duì)于成年人連續(xù)的發(fā)聲來(lái)講,嬰兒的發(fā)聲是不連貫的,而且一般突發(fā)性比較大,在嬰兒的哭聲中的信息量不是持續(xù)不斷的,而是開(kāi)始最強(qiáng)而后隨著時(shí)間的延長(zhǎng)慢慢減少的。當(dāng)成年人想要發(fā)出聲音的時(shí)候,會(huì)先由大腦將發(fā)聲信號(hào)傳輸?shù)较鄬?duì)應(yīng)的發(fā)聲部位,隨后發(fā)聲。嬰兒的發(fā)聲的原理也是一樣的,只是相較于成年人來(lái)說(shuō),具有不穩(wěn)定性。
韻律特征以及譜相關(guān)特征,這兩者都是把時(shí)域和頻域分開(kāi)提取特征。但是語(yǔ)譜圖的相關(guān)特征不同于韻律特征,語(yǔ)譜圖就可以把時(shí)域和頻域關(guān)聯(lián)在一起,語(yǔ)譜圖的紋理、方向等其他表現(xiàn)方式,能夠表示用語(yǔ)音表達(dá)情感的方式。聲學(xué)特征包含在語(yǔ)譜圖中,這些聲學(xué)特征可以用靜音段以及濁音橫杠等,音頻率、第一共振峰、第二共振峰以及第三共振峰都可以通過(guò)語(yǔ)譜圖估計(jì)出來(lái)。語(yǔ)譜圖中包含了豐富的語(yǔ)音聲學(xué)特性,所以可以用語(yǔ)譜圖中的聲學(xué)特征作為語(yǔ)音識(shí)別的最基本條件,手機(jī)上的語(yǔ)音鎖的原理也是如此。圖1是嬰兒在不同情況、不同情緒以及不同需求下所產(chǎn)生的聲波圖像。
圖1 嬰兒在不同情況、不同情緒以及不同需求下所產(chǎn)生的聲波圖像
根據(jù)上述的圖片,不難發(fā)現(xiàn)嬰兒在表達(dá)不同需求、不同情緒時(shí),聲波特征表現(xiàn)出的形式有很大的差異,根據(jù)這種方式計(jì)算出嬰兒在不同時(shí)刻所出現(xiàn)的聲波的不同,就可以在一定程度上幫助新手媽媽更好地了解嬰兒的需求,為家長(zhǎng)及嬰兒帶來(lái)更好的感受體驗(yàn)[3]。
嬰兒所處的環(huán)境并不是絕對(duì)安靜的,所以在數(shù)據(jù)上也會(huì)出現(xiàn)一些偏差,也會(huì)影響聲音的識(shí)別率,利用SVM算法進(jìn)行計(jì)算,將原本采集到的聲音材料中添加高斯白噪聲、空調(diào)噪聲與下雨噪聲所計(jì)算出來(lái)的識(shí)別率都會(huì)有下降的幅度,但是這三種噪聲添加后,識(shí)別率的下降幅度大致相同。所以,在不同信噪比下,利用 SVM算法算出的嬰兒在不同需求、不同情緒所計(jì)算出來(lái)的魯棒性較好,但是利用SVM算法算出的在噪聲條件下的識(shí)別率都在62%左右,識(shí)別率不高,需要進(jìn)一步的研究計(jì)算?;诙喑叨染矸e核與多池化方法的改進(jìn)CNN網(wǎng)絡(luò)嬰兒哭聲中不同情感需求信息識(shí)別算法的魯棒性。表1是根據(jù)不同噪聲、不同分貝條件下的測(cè)試結(jié)果,嬰兒的房間一般都比較安靜,所以本次實(shí)驗(yàn)只采用了高斯白噪音、嬰兒哭鬧時(shí)成年人哄孩子的聲音以及外面的下雨聲音,以實(shí)驗(yàn)的形式為計(jì)算提供相應(yīng)的數(shù)據(jù)。利用Softmax回歸算法,高斯白噪音、哼唱噪音以及雨天噪音在25 db、20 Xdb、10 db,平均的識(shí)別率分別為63.1%、59.2%、57.3%。這種算法雖然有一定的魯棒性,但是其性能還有待提高。
表1 不同噪聲和不同分貝條件下嬰兒哭聲測(cè)試結(jié)果
由實(shí)驗(yàn)可知,相對(duì)于傳統(tǒng)CNN網(wǎng)絡(luò),Softmax 回歸算法、ANN 算法與SVM算法所呈現(xiàn)的嬰兒哭聲在各種噪音里的抗噪音能力是截然不同的,改進(jìn)CNN網(wǎng)絡(luò)算法,嬰兒在不同情緒、不同需求時(shí)的哭聲的識(shí)別能力會(huì)變的更強(qiáng)。這四種計(jì)算方式在同樣的噪音環(huán)境中進(jìn)行對(duì)比,其中改進(jìn)過(guò)后的CNN網(wǎng)絡(luò)計(jì)算出來(lái)的嬰兒哭聲識(shí)別率仍然有待提高。SVM模型可以通過(guò)聲學(xué)特征MB-LBP反復(fù)練習(xí)得到,利用在主音頻中添加不同的噪音,就能通過(guò)計(jì)算方式來(lái)提高嬰兒哭在其中的識(shí)別率,通過(guò)添加不同的噪音類(lèi)型,對(duì)嬰兒哭聲的識(shí)別能力也在不斷增加。利用SVM算法作為分類(lèi)型算法,就MB-LBP特征來(lái)講,其中嬰兒哭聲在不同情緒、不同需求的情況下的魯棒性更強(qiáng),這就代表這種方式的抗噪能力變得更強(qiáng)[4]。
也可以利用LBP特征的原理計(jì)算嬰兒在不同需求、不同情感的時(shí)候所計(jì)算出來(lái)結(jié)果。通常生物醫(yī)學(xué)會(huì)利用到LBP特征,它屬于遙感圖像等圖像的相關(guān)領(lǐng)域,LBP的原理及LBP的等價(jià)模式主要可以運(yùn)用局部二值模式進(jìn)行主要解釋?zhuān)渲蠫abor小波原理將二維Gabor小波的相關(guān)理論知識(shí)做出了基本解釋。收集到的嬰兒哭聲大多伴隨著成年人說(shuō)話(huà)的聲音,由于嬰兒哭聲和成人語(yǔ)音的持續(xù)時(shí)間都會(huì)超過(guò)100 ms,所以需要在計(jì)算后再進(jìn)行處理將神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行后續(xù)處理,用這種方式能夠消除計(jì)算結(jié)果中短暫的嬰兒哭聲以及成人語(yǔ)音,用這種方法可以最大可能減少因?yàn)檎`差產(chǎn)生的錯(cuò)誤判斷,由此提高檢測(cè)的準(zhǔn)確性。其中后續(xù)處理所采用的就是中值濾波,利用中值濾波器處理神經(jīng)網(wǎng)絡(luò)的輸出序列,由此就能夠得到新的序列。利用序列準(zhǔn)確區(qū)分出來(lái)成年人語(yǔ)音的部分,就可以將成年人的語(yǔ)音片段準(zhǔn)確剔除,這樣就能夠提取出純凈的嬰兒哭聲,可以將嬰兒哭聲的片段進(jìn)行保存,用于后續(xù)數(shù)據(jù)計(jì)算,不僅可以使得計(jì)算出來(lái)的數(shù)據(jù)更加準(zhǔn)確,還可以保護(hù)成年人的隱私。這些研究主要進(jìn)行了提取嬰兒在不同情緒下的哭聲、嬰兒在不同情緒時(shí)的行為表現(xiàn),利用這些基本信息研究嬰兒在不同情緒下的主要聲波變動(dòng)情況。這些研究主要針對(duì)嬰兒在家庭中的需求得不到及時(shí)滿(mǎn)足,而要求成年人用“猜”的方式進(jìn)行對(duì)嬰兒的照顧,研究結(jié)果就可以利用一定的技術(shù)造出某種儀器進(jìn)行探測(cè),從而省去了很大的麻煩。雖然以上的方式能在一定程度上判斷到嬰兒在大部分情況下的需求,但是由于技術(shù)的不完善,會(huì)產(chǎn)生一些偏差,還有待研究[5]。
綜上所述,嬰兒的哭聲對(duì)每一個(gè)家庭都非常重要,嬰兒的哭聲代表著許多不同的情緒,比如饑餓、困倦、不舒服以及疾病,家長(zhǎng)們能夠及時(shí)了解這些哭聲的意義尤為重要,通過(guò)一些專(zhuān)業(yè)的渠道計(jì)算出大致的聲音波動(dòng),雖然不能很準(zhǔn)確判斷嬰兒哭聲的情緒,但還是有一定參考價(jià)值,結(jié)果所得在噪聲環(huán)境下判斷嬰兒準(zhǔn)確性高達(dá)75%,絕對(duì)安靜的環(huán)境下準(zhǔn)確性則達(dá)到了86%左右[6]。