• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種語音情感深度遷移識別算法

    2022-03-07 06:57:56王繼東李慧琪
    軟件導刊 2022年2期
    關鍵詞:源域語音卷積

    王繼東,李慧琪

    (湖州師范學院教師教育學院,浙江湖州 313000)

    0 引言

    近年來,人工智能技術飛速發(fā)展,在眾多領域中應用廣泛。其中,情感計算作為計算機科學、心理學、神經(jīng)科學等多學科交叉的新興研究領域,已成為人工智能發(fā)展的重要方向。而語音情感識別作為情感計算的重要分支是當前人工智能應用研究的熱點。

    語音情感識別是指利用計算機分析情感,提取其表達情感的聲學特征,利用該特征進行建模并識別,尋找情感與特征之間的映射關系,實現(xiàn)情感分類。早在21 世紀初,Nwe 等使用隱馬爾科夫鏈模型對語音進行情感分類,實驗表明在語音情感分類上LFPC(Log Frequency Power Coefficients)特征優(yōu)于MFCC(Mel Frequency Cepstrum Coefficient)特征,但隱馬爾科夫鏈未能考慮音頻特征的前后關系,導致可參考數(shù)據(jù)較少,預測準確率較低。Jain 等使用支持向量機劃分語音情感,降低無關維度的影響,提高了情感識別率,然而該方法無法大規(guī)模處理訓練樣本,對核函數(shù)及相關參數(shù)的敏感性使得劃分結果隨機性較大。Mirsamadi 等構建了基于注意力機制的雙向長短時記憶網(wǎng)絡(Bidirectional Long Short-Term Memory,BLSTM)模型用于語音情感分類,該模型通過分析音頻特征的前后關系以提高準確率,但模型較為復雜,訓練時間較長。

    由于人類在語音情感表現(xiàn)及主觀判斷上的個體差異性較大,傳統(tǒng)識別分類算法通常需要足夠量級的數(shù)據(jù)才能較為準確提取語音情感的共同特征。目前,缺少大型語音情感訓練數(shù)據(jù)集是語音情感識別的瓶頸。鑒于此,文獻[7-9]嘗試將遷移學習技術與神經(jīng)網(wǎng)絡相結合以解決該問題。其中,利用遷移學習將源域資源作為先驗信息遷移至目標域任務中,以提高資源利用率,解決資源不足的問題。當前,遷移學習方法在計算機科學領域引起了廣泛的研究和探討。在語音情感識別方面,Badshah 等使用CNN 卷積神經(jīng)網(wǎng)絡對語音進行情感分類,先將語音轉(zhuǎn)化為語譜圖的二維形式,然后使用預訓練的Alexnet 網(wǎng)絡對自身進行遷移學習,以避免發(fā)生過擬合。Liu 等將FaceNet 模型改進后用于語音情感識別,先將語音信號轉(zhuǎn)化為波形圖和頻譜圖,隨后將其分別送入FaceNet 模型進行端到端訓練,以獲得較高的識別準確率。宋鵬等提出一種結合最大均值差異法與半監(jiān)督判別法算法。文獻[16-17]則使用了遷移學習技術對前人提出的語音情感識別算法進行改進,取得了一定的效果。然而,以上遷移學習算法大多只在測試集上表現(xiàn)良好,在具體實踐中泛化能力較低。

    針對上述問題,本文提出了一種語音情感深度遷移識別算法。首先利用手工提取特征的CNN 模型在源域中較大的語音情感數(shù)據(jù)集上進行訓練擬合,得到預訓練模型;然后,基于遷移學習技術凍結預訓練模型的卷積層,同時動態(tài)增減輸出層語音情感分類數(shù)量以形成新的分類模型;最后,將新模型在目標域中較小的語音情感數(shù)據(jù)集上進行測試,以實現(xiàn)低資源數(shù)據(jù)集條件下的語音情感識別。

    1 本文算法

    本文基于卷積層特征相關性提取功能和遷移學習方法,以下將按照算法運行步驟詳細介紹其中的關鍵處理環(huán)節(jié)。

    算法主要包括確定源域數(shù)據(jù)集和構建語音情感分類模型兩步,如圖1 所示。首先,確定源域數(shù)據(jù)集,以目標域

    D

    中的語音情感數(shù)據(jù)集

    C

    為參考,通過分析數(shù)據(jù)集屬性,選擇備選數(shù)據(jù)集

    C

    。之后,計算

    C

    C

    的相關性,若相關性較高則令

    C

    為源域

    D

    中的數(shù)據(jù)集

    C

    ,否則重新選擇

    C

    。在確定源域數(shù)據(jù)集

    C

    后,進行語音情感分類模型構建。接下來,建立一個卷積神經(jīng)網(wǎng)絡訓練擬合

    C

    中提取的特征,以獲取預訓練模型

    N

    。最后,在目標域

    D

    中修改

    N

    形成最終的遷移學習模型

    N

    。

    1.1 確定源域數(shù)據(jù)集

    通過選擇源域數(shù)據(jù)集、特征提取及相關性計算確定合適的源域數(shù)據(jù)集

    C

    ,具體如下:

    1.1.1 構建屬性分析表

    構建屬性分析表是確定源域數(shù)據(jù)集的前提。本文基于語音情感分類的群體特異性、表現(xiàn)特異性和環(huán)境特異性,構建數(shù)據(jù)集屬性集

    Attr

    ,如式(1)所示。

    Fig.1 Algorithm steps圖1 算法步驟

    At

    tr={語言,語音長度,錄制環(huán)境,性別比例,

    基于提取特征和相關性計算兩步操作以分析目標域

    D

    中語音情感數(shù)據(jù)集

    C

    與備選數(shù)據(jù)集

    C

    的屬性,并最終確定源域

    D

    中語音情感數(shù)據(jù)集

    C

    。

    1.1.2 特征提取

    為了多角度提取語音情感特征,借鑒文獻[18]的語音情感特征歸納方法,分別從數(shù)據(jù)集

    C

    C

    中提取每條語音的1 582個情感特征形成特征集,如表1 所示。其中,“基頻個數(shù)”和“持續(xù)時長”為全局基本特征描述,直接作為新特征;局部基本特征描述則通過特征統(tǒng)計函數(shù)處理而成。為了保證源域

    D

    和目標域

    D

    中提取特征的相關性,使用式(2)將語音情感的特征向量

    v

    進行歸一化處理。

    Table 1 Speech emotion feature set表1 語音情感特征集

    1.1.3 相關性計算

    1.2 語音情感分類模型構建

    在確定源域數(shù)據(jù)集

    C

    后,利用遷移學習和CNN 構建語音情感分類模型,具體包括構建預訓練模型和遷移學習訓練兩部分。

    1.2.1 構建預訓練模型

    參照LeNet5設計一個深度可滿足數(shù)據(jù)集擬合且便于遷移的CNN,如圖2 所示。先通過卷積層處理輸入特征,然后經(jīng)過全連接層進行特征擬合。由于語音情感信息較稀疏,在卷積層之間使用了Maxpool 層以突顯優(yōu)勢特征,并且在全連接層間加入Dropout 層,通過隨機丟棄一半特征以避免發(fā)生過擬合現(xiàn)象,增強網(wǎng)絡的泛化能力。在網(wǎng)絡末端插入6 分類的Softmax 層,通過式(4)交叉熵損失函數(shù)的計算結果進行反向傳播訓練。

    其中,

    C

    為損失值、

    n

    為樣本數(shù)量、

    y

    為樣本標簽、

    a

    為樣本正確的概率。在訓練網(wǎng)絡構建完成后,使用

    C

    提取的特征向量進行擬合訓練。當訓練準確率開始震蕩且與測試準確率相接近時,將分類層Softmax 之外的擬合參數(shù)和訓練網(wǎng)絡以文件形式分開保存,形成預訓練模型

    N

    。

    Fig.2 Training network and hyperparameters圖2 訓練網(wǎng)絡與超參數(shù)

    1.2.2 遷移學習訓練

    將預訓練模型用于遷移學習訓練時,若源域與目標域相關性較高,則預訓練模型中卷積層的特征相關性提取可在不改變該層擬合參數(shù)的條件下,將卷積層直接應用于目標域。為此,構建了遷移學習訓練模型

    N

    ,如圖3 所示。其中,預訓練模型

    N

    的具體組成見圖2;遷移學習模型

    N

    基于

    N

    改造而成。具體修改操作包括:①凍結

    N

    中卷積層Conv_1 和Conv_2 的擬合參數(shù),使其在遷移學習訓練過程中始終保持不變;②動態(tài)增減分類層Softmax 的超參數(shù),以滿足語音情感分類要求。在遷移學習訓練模型

    N

    構建完成后,使用目標域數(shù)據(jù)集

    C

    提取的特征進行訓練,以實現(xiàn)語音情感分類。

    1.2.3 復雜度分析

    卷積神經(jīng)網(wǎng)絡包含多個隱藏層,其計算主要是矩陣乘法,時間復雜度為

    O

    (

    d

    d

    ),其中

    d

    表示第l 層的維度。因此,CNN 的時間復雜度可表示為:

    其中,

    t

    為模型訓練的迭代次數(shù),

    L

    為卷積層數(shù)。本文語音情感分類識別算法中預訓練和遷移訓練都基于CNN,因此時間復雜度可表示為:

    其中,

    n

    n

    分別為預訓練和遷移訓練的迭代次數(shù)。

    Fig.3 Construction of transfer learning training network圖3 遷移學習訓練網(wǎng)絡構建

    2 實驗與分析

    實驗環(huán)境為Intel Core i3-8145U 2.3GHz,4GB RAM,Window 10 操作系統(tǒng),基于Pytorch 框架實現(xiàn)本文算法,并進行相關實驗和分析。由于語音情感在自然狀態(tài)和表演狀態(tài)下的表現(xiàn)存在差異,因此選擇2個表演數(shù)據(jù)集CASIA和EMO-DB作為研究對象。其中,CASIA 庫是普通話語音情感數(shù)據(jù)庫,包括4 名演員憤怒、驚訝、恐懼、快樂、嫉妒和悲傷6 種情緒,共1 200 條數(shù)據(jù);EMO-DB 庫為德語語音情感數(shù)據(jù)庫,包括10 名演員生氣、高興、害怕、悲傷、厭惡、無聊和中性7 種情緒,共535 條數(shù)據(jù),但由于厭惡語句過少無法進行訓練,本文予以剔除,僅使用剩下的6 種情感,共489條數(shù)據(jù)進行訓練。

    2.1 測試遷移學習

    選擇CASIA 庫1 200 條數(shù)據(jù)作為源域數(shù)據(jù)集,選擇EMO-DB 庫106 條數(shù)據(jù)作為目標域數(shù)據(jù)集。根據(jù)式(3),從源域數(shù)據(jù)集中隨機抽取兩批106 條數(shù)據(jù),計算的距離值為0.458 3;從源域數(shù)據(jù)集中隨機抽取106 條數(shù)據(jù),計算其與目標域數(shù)據(jù)集的距離值為0.480 3;從源域數(shù)據(jù)集中隨機抽取106 條數(shù)據(jù),計算其與同等規(guī)模的全1 分布距離為1.508 1??勺C明源域與目標域之間的距離較短,適合語音情感遷移學習。

    本文從CASIA 庫中隨機抽取的方法是將數(shù)據(jù)按大小升序排列后進行編號,以系統(tǒng)時間為隨機種子,使用隨機函數(shù)從[1,1 200]范圍內(nèi)產(chǎn)生所需數(shù)量的數(shù)據(jù)。為取得預訓練模型,本文將CASIA 中抽取的1 200 條數(shù)據(jù),隨機選擇1 080 條數(shù)據(jù)作為訓練集,其余數(shù)據(jù)作為測試集。采用Adam 優(yōu)化器,學習率設置為0.001,批尺寸為50。

    圖4 是預訓練模型混淆矩陣,可見模型在預判“生氣”情緒時效果較好,在預判“驚訝”情緒時效果一般,模型的總體效果較好。

    Fig.4 Pre training model confusion matrix圖4 預訓練模型混淆矩陣

    在遷移學習訓練時,選擇EMO-DB 庫中106 條數(shù)據(jù)模擬日??墒占臄?shù)據(jù)量進行訓練,從中隨機選擇74 條數(shù)據(jù)作為訓練集,剩余32 條作為測試集。采用Adam 優(yōu)化器,學習率設置為0.001,批尺寸為20。訓練混淆矩陣如圖5 所示,可見當改變情感位置與種類時,預訓練對遷移學習訓練會造成較大影響,例如在本次預訓練過程中,預判正確率較高的傷心情感準確率為100%,而其中不存在的無聊情感,則大部分被模型誤判為中性情感。

    由圖4-圖5 可見,當源域與目標域較接近時,遷移學習對提高語音情感識別訓練準確率存在較大的正向影響。

    Fig.5 Transfer learning model confusion matrix圖5 遷移學習模型混淆矩陣

    2.2 算法比較

    為了檢驗遷移學習提升準確率的效果,在設置相同優(yōu)化器、學習率等參數(shù)條件下,使用BLSTM 和CNN 模型與本文算法進行了比較實驗。實驗輸入數(shù)據(jù)分別為EMO-DB中1 男1 女共106 條數(shù)據(jù)與CASIA 中120 條數(shù)據(jù),以模擬低資源數(shù)據(jù)集。如圖6 所示,當BLSTM 和CNN 僅訓練EMODB 的106 條和CASIA 的120 條數(shù)據(jù)時,容易發(fā)生過擬合現(xiàn)象。而本文算法可有效提升低資源數(shù)據(jù)集的泛化能力,以獲取更高準確率。

    Fig.6 Comparison of recognition rate圖6 識別率比較

    3 結語

    本文基于CNN 和遷移學習提出了一種語音情感識別算法。該算法在目標域數(shù)據(jù)集不足的限制條件下,通過確定源域數(shù)據(jù)集和構建語音情感分類模型兩個步驟實現(xiàn)了對低資源數(shù)據(jù)集的語音情感分類。對比現(xiàn)有傳統(tǒng)算法,本文算法識別率達到60%以上。未來工作中,將尋找適用于語音情感識別的預訓練模型對其進行遷移學習,以進一步提升語音情感識別的精度。

    猜你喜歡
    源域語音卷積
    多源域適應方法綜述
    基于卷積神經(jīng)網(wǎng)絡與對抗訓練的通信調(diào)制識別方法
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    基于參數(shù)字典的多源域自適應學習算法
    魔力語音
    基于MATLAB的語音信號處理
    電子制作(2019年14期)2019-08-20 05:43:38
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于MQ3與MP3的價廉物美的酒駕語音提醒器
    電子制作(2019年9期)2019-05-30 09:42:10
    對方正在輸入……
    小說界(2018年5期)2018-11-26 12:43:42
    可遷移測度準則下的協(xié)變量偏移修正多源集成方法
    山阴县| 新郑市| 灵璧县| 正阳县| 兴义市| 红河县| 额济纳旗| 泰顺县| 永州市| 同仁县| 休宁县| 乳山市| 织金县| 盐山县| 通河县| 鹤山市| 屏山县| 仁化县| 綦江县| 安岳县| 九龙坡区| 清新县| 潢川县| 芦溪县| 滦平县| 工布江达县| 白水县| 波密县| 即墨市| 扶余县| 佛教| 贵港市| 新余市| 盐源县| 集贤县| 阿克陶县| 大方县| 宽城| 邵东县| 鄂温| 肇州县|