• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的可變長(zhǎng)度語(yǔ)音片段情感識(shí)別

      2021-11-12 17:18:49
      散文百家 2021年3期
      關(guān)鍵詞:頻譜語(yǔ)音卷積

      王 振

      河南林業(yè)職業(yè)學(xué)院

      語(yǔ)音作為人類之間交流的主要傳播媒體,已經(jīng)引起研究者的廣泛關(guān)注。在日益普遍的人機(jī)交互系統(tǒng)中,情感識(shí)別起著重要的作用。語(yǔ)音包含豐富的情緒信息,如何從語(yǔ)音信號(hào)中提取這些信息,對(duì)于自動(dòng)語(yǔ)音情感識(shí)別具有重要意義。

      聲學(xué)特征作為語(yǔ)音情感識(shí)別的重要組成部分,對(duì)其提取引起了很多研究興趣。這些研究都致力于設(shè)計(jì)一些手勢(shì)特征,對(duì)于情感識(shí)別來(lái)說(shuō)這些特征是最有特色的。最近,機(jī)器學(xué)習(xí)社區(qū)直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號(hào),背后的原因是網(wǎng)絡(luò)可以對(duì)原始輸入信號(hào)的中間表示自動(dòng)學(xué)習(xí),因此可以提高性能。因此,我們通過專門設(shè)計(jì)的可直接從輸入語(yǔ)音頻譜圖中導(dǎo)出情緒類別的可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識(shí)別系統(tǒng)。

      頻譜圖是信號(hào)的時(shí)頻分解。在我們的工作中,卷積神經(jīng)網(wǎng)絡(luò)首先被構(gòu)造為空間譜圖模式,它有效地學(xué)習(xí)代表情緒信息,然后使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)模擬句子上的時(shí)間結(jié)構(gòu),它由譜圖表示,最后由全連接層導(dǎo)出情緒類別。

      這類似于以前的Satt的工作。然而,與將語(yǔ)音輸入分成較小的固定長(zhǎng)度的段相比,我們這里的神經(jīng)網(wǎng)絡(luò)能夠處理可變長(zhǎng)度語(yǔ)音段,這是它的優(yōu)點(diǎn),它可以解決在語(yǔ)音分割過程中引起的精度損失。

      一、相關(guān)工作

      近年來(lái),深度學(xué)習(xí)方法已經(jīng)應(yīng)用到語(yǔ)音處理領(lǐng)域,用于特征提取與分類/回歸。在語(yǔ)音識(shí)別中,直接使用語(yǔ)音波形的自動(dòng)語(yǔ)音識(shí)別特征的是Hinton和Jaitly。他們通過直接在語(yǔ)音時(shí)間信號(hào)上訓(xùn)練受限玻爾茲曼機(jī)器來(lái)學(xué)習(xí)中間表示,沒有以端到端的方式對(duì)系統(tǒng)進(jìn)行訓(xùn)練。Bhargava和Rose使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練窗口化語(yǔ)音波形,在相同體系結(jié)構(gòu)上獲得的結(jié)果比相應(yīng)的MFCC略差。

      在語(yǔ)音情感識(shí)別領(lǐng)域,已經(jīng)使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了一些特征學(xué)習(xí)的研究。喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò),其對(duì)原始信號(hào)進(jìn)行操作,在語(yǔ)音數(shù)據(jù)中執(zhí)行端到端的情緒預(yù)測(cè)任務(wù)。Satt等人將CNN和LSTM結(jié)合,分類線性間隔頻譜圖中的情緒。然而,這些方法都是將語(yǔ)音輸入分為較小的固定長(zhǎng)度的部分,這會(huì)在訓(xùn)練和預(yù)測(cè)階段損失準(zhǔn)確性,我們使用可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò)的方法來(lái)解決這個(gè)問題。

      二、可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)的情感識(shí)別

      1.定長(zhǎng)方法的問題。

      每個(gè)長(zhǎng)于3秒的句子被Satt等人分割成長(zhǎng)度相等的短子句,在提取光譜圖后,將不夠3秒的部分用零填充到3秒。在整個(gè)提議的系統(tǒng)中,這些較短的子句都用于訓(xùn)練和測(cè)試階段,每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽。在測(cè)試短語(yǔ)期間,整個(gè)句子的情感類別的預(yù)測(cè)通過平均各個(gè)子句的后驗(yàn)概率來(lái)實(shí)現(xiàn)。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度(確保輸入長(zhǎng)度相等),但會(huì)引入一些錯(cuò)誤。實(shí)際上,為每個(gè)子句分配相應(yīng)整句的情感標(biāo)簽并不是一個(gè)好的處理方法。觀察表明,只有一部分語(yǔ)音在非中性情緒句子中包含明顯的非中性情緒信息。

      2.可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)。

      以上問題表明,使用整句作為輸入比分成幾段更合理。但是句子的長(zhǎng)度一般是不同的,所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)處理可變長(zhǎng)度的輸入序列。

      眾所周知,卷積神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型,同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。

      遞歸神經(jīng)網(wǎng)絡(luò)是流行的模型,在許多序列建模任務(wù)中顯示出很大的希望。它們對(duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),輸出依賴于以前的計(jì)算。為了計(jì)算效率,輸入序列通常是固定長(zhǎng)度的。可變長(zhǎng)度序列通常被填充到相同的長(zhǎng)度,但是我們可以忽略無(wú)效填充時(shí)間步的輸出,以便可以正確處理可變長(zhǎng)度的序列。

      三、提出的方法

      可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖,輸出是句子情感類別的分類結(jié)果。為了比較,我們使用與Satt使用的相似的頻譜圖提取設(shè)置神經(jīng)網(wǎng)絡(luò)。

      1.頻譜圖的提取。

      每個(gè)句子都標(biāo)有一種情感,采用一系列重疊的漢明窗口,幀步長(zhǎng)為10毫秒,幀長(zhǎng)度為40毫秒。對(duì)于每一幀,我們計(jì)算一個(gè)長(zhǎng)度為1600的DFT(對(duì)于10Hz的網(wǎng)格分辨率)。我們使用0-4KHz的頻率范圍,忽略其余部分。在短時(shí)間譜聚合之后,我們得到一個(gè)大小為N×M的矩陣,其中N對(duì)于不同的句子是可變的,代表所選擇的時(shí)間網(wǎng)格分辨率,并且M=400等于所選擇的頻率網(wǎng)格分辨率。然后將DFT數(shù)據(jù)轉(zhuǎn)換為對(duì)數(shù)功率譜,然后使用訓(xùn)練數(shù)據(jù)集的平均值和標(biāo)準(zhǔn)差對(duì)z歸一化進(jìn)行歸一化。

      2.深度神經(jīng)網(wǎng)絡(luò)。

      在我們的工作中,輸入序列在訓(xùn)練階段在同一批次中被填充到相同長(zhǎng)度且為零,但不同批次之間的長(zhǎng)度不同。預(yù)測(cè)階段不使用填充,所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對(duì)輸出干擾的能力。令S=[x1,x2,...,xV,...,xT]為輸入序列,其中S1=[x1,x2,...,xV]為有效部分,S2=[xV+1,xV+2,...,xT]是填充部分。

      首先,對(duì)于卷積神經(jīng)網(wǎng)絡(luò),我們可以使用掩碼來(lái)保留來(lái)自S1的輸出并忽略來(lái)自S2的輸出,其可以表示如下:

      Sconv=Conv(S)·Mask(S)(1)

      其中Conv(S)是S的卷積層的輸出,Mask(S)是一個(gè)掩蔽矩陣,Sconv=[y1,y2,...,yV,...,yT]是與S相同長(zhǎng)度的輸出序列,其中[y1,y2,...,yV]是掩碼矩陣有效部分的值,[yV+1,...,yT]是填充部分的零值。有效輸出可以通過Conv(S)和Mask(S)之間的元素乘法實(shí)現(xiàn)。此外,卷積層通常與匯集層交織在一起。我們需要注意有效部分和填充部分之間的邊界值,這會(huì)引入無(wú)效信息。例如,假設(shè)Sconv是最大池化層的輸入。如果池化內(nèi)核大小為2,并且輸入路徑包含yV和yV+1,則當(dāng)yV<0且yV+1=0時(shí),輸出將為yV+1。但預(yù)期值應(yīng)為yV,因?yàn)閥V+1是填充值。在我們的實(shí)驗(yàn)中,這個(gè)問題會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)不會(huì)收斂的問題。因此,在我們的設(shè)計(jì)中輸入到最大池層之前,yV將被屏蔽為零。這樣,填充或不填充,相同的輸入將在卷積層和合并層之后產(chǎn)生相同的輸出,它確保了訓(xùn)練階段和預(yù)測(cè)階段的一致性,因?yàn)樵陬A(yù)測(cè)階段沒有填充。

      其次,對(duì)于遞歸神經(jīng)網(wǎng)絡(luò),因?yàn)檎Z(yǔ)音情感識(shí)別是一個(gè)序列分類問題,所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S是遞歸神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)期結(jié)果應(yīng)該是t=V時(shí)的輸出。此外,在雙向遞歸神經(jīng)網(wǎng)絡(luò)中,反向遞歸神經(jīng)網(wǎng)絡(luò)的輸出應(yīng)該在t=0處。最終輸出是正向和反向遞歸神經(jīng)網(wǎng)絡(luò)輸出的串聯(lián)。

      四、結(jié)論

      在本文中,我們提出了一個(gè)可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò),在頻譜圖上運(yùn)行,從可變長(zhǎng)度的語(yǔ)音片段中執(zhí)行情感分類任務(wù)。通過將全句輸入到模型中,我們的方法可以有效地緩解傳統(tǒng)定長(zhǎng)方法將句子拆分為更小的固定長(zhǎng)度段時(shí)所引入的中性情緒和其他情緒之間的混淆。與以前的固定長(zhǎng)度神經(jīng)網(wǎng)絡(luò)相比,加權(quán)精度(WA)和不加權(quán)精度(UA)達(dá)到了普通基準(zhǔn)數(shù)據(jù)集IEMOCAP的最新技術(shù)水平。

      猜你喜歡
      頻譜語(yǔ)音卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      一種用于深空探測(cè)的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
      對(duì)方正在輸入……
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      認(rèn)知無(wú)線電頻譜感知技術(shù)綜述
      南部县| 香港| 同仁县| 龙南县| 布拖县| 香港| 磴口县| 永定县| 富顺县| 错那县| 门源| 巩留县| 西城区| 襄垣县| 三河市| 甘南县| 安丘市| 余干县| 大余县| 广德县| 德惠市| 扎兰屯市| 手机| 马尔康县| 红原县| 汝城县| 浪卡子县| 开平市| 孟连| 南宁市| 盐源县| 新竹市| 大埔县| 永修县| 唐海县| 花垣县| 通许县| 万年县| 光山县| 闵行区| 贵定县|