丁文博 許玥
摘? 要:為了解決計算機深度學(xué)習(xí)時標(biāo)注數(shù)據(jù)工作量大、準(zhǔn)確度不高、耗時耗力等問題,需要將預(yù)先訓(xùn)練好的模型中的數(shù)據(jù)進(jìn)行跨領(lǐng)域跨任務(wù)遷移學(xué)習(xí)?;趯Σ煌瑪?shù)據(jù)集的遷移效果的研究,試驗時將視覺領(lǐng)域中表現(xiàn)良好的ImageNet預(yù)訓(xùn)練模型遷移到音頻分類任務(wù),通過剔除無聲部分、統(tǒng)一音頻長度、數(shù)據(jù)轉(zhuǎn)換和正則化處理這4個步驟,采用經(jīng)典圖像增強和樣本混淆兩種數(shù)據(jù)增強方法,以5種不同的方式訓(xùn)練數(shù)據(jù)集,實驗證明:ImageNET目標(biāo)訓(xùn)練模型的跨領(lǐng)域遷移學(xué)習(xí)效果顯著,但源領(lǐng)域的模型效果和目標(biāo)領(lǐng)域的最終效果并沒有必然聯(lián)系,且使用同領(lǐng)域相似數(shù)據(jù)分布的數(shù)據(jù)集的預(yù)訓(xùn)練效果比ImageNet上的預(yù)訓(xùn)練效果更差。
關(guān)鍵詞:遷移學(xué)習(xí)? 預(yù)訓(xùn)練? 數(shù)據(jù)集? 數(shù)據(jù)預(yù)處理? 數(shù)據(jù)增強
中圖分類號:TP391.4 ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2020)01(b)-0107-04
Abstract: In order to solve the problems of? large workloads, low accuracy and time-consuming in data-labeling in deep learning, it is necessary to transfer the data from the pre-trained model to cross-domain/cross-task learning. Based on the study of the migration effect of different dat sets, the ImageNet pre-training model, which is good in the visual field, is migrated to the audio classification task. By eliminating the silent part, unifying the audio length, data conversion and regularization processing, classical image enhancement and sample confusion are used to enhance the data, five different training methods to train datasets. Experiments show that ImageNET target training model has significant effect on cross-domain migration learning, but the effect of source domain model is not necessarily related to the final effect of target domain,and the pre-training effect of datasets with similar data distribution in the same field is worse than that on ImageNet.
Key Words: Transfer learning; Pre-train; Dataset; Data preprocessing; Data augmentation
近年來,深度學(xué)習(xí)算法在諸多應(yīng)用領(lǐng)域取得了突破性進(jìn)展,模型復(fù)雜度和訓(xùn)練數(shù)據(jù)量持續(xù)增長,大量的訓(xùn)練數(shù)據(jù)成為了解決復(fù)雜問題的必需。如計算機視覺領(lǐng)域的ImageNet數(shù)據(jù)集[1]就具有千萬級別的圖像數(shù)據(jù)和標(biāo)注。而在實際應(yīng)用中,獲取大量標(biāo)注數(shù)據(jù)并從頭開始訓(xùn)練是十分困難的。
為了解決實際應(yīng)用場景中標(biāo)注數(shù)據(jù)獲取難度大、成本高等問題,可通過遷移學(xué)習(xí)方法將某一領(lǐng)域?qū)W習(xí)到的知識或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問題中,這樣不僅能避免昂貴且費時的數(shù)據(jù)標(biāo)注工作,還能提升目標(biāo)領(lǐng)域或任務(wù)中學(xué)習(xí)效果。
1? 相關(guān)工作
通常遷移學(xué)習(xí)分為兩大類:一類是全網(wǎng)絡(luò)微調(diào),即將預(yù)訓(xùn)練模型用于新模型參數(shù)的初始化,而后在新任務(wù)數(shù)據(jù)上訓(xùn)練新模型參數(shù);另一類是用預(yù)訓(xùn)練模型作為特征提取器,無需更新無論是預(yù)訓(xùn)練模型還是新任務(wù)模型的參數(shù)。但所有遷移學(xué)習(xí)的成功運用都基于一個假設(shè):訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)位于同一特征空間,并且具有相同的分布特性。一個常見的假設(shè)就是在ImageNet上表現(xiàn)良好的模型也能在其他視覺任務(wù)上表現(xiàn)良好。如在計算機視覺領(lǐng)域中,當(dāng)面臨一個新的視覺分類、識別和分割任務(wù)時,通常會使用ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的1000類分類模型進(jìn)行遷移。
已有案例證明,采用遷移學(xué)習(xí)方法,將現(xiàn)成數(shù)據(jù)集(如ImageNet)預(yù)訓(xùn)練好的模型作為新任務(wù)模型的基礎(chǔ),能夠減少新任務(wù)訓(xùn)練數(shù)據(jù)的規(guī)模,還可以有效避免過擬合等情況的發(fā)生。文獻(xiàn)[2]中系統(tǒng)地分析了16種卷積神經(jīng)網(wǎng)絡(luò)在12個圖像分類數(shù)據(jù)集上的效果,分別以3種方式展開實驗:ImageNet預(yù)訓(xùn)練模型用于特征提取,預(yù)訓(xùn)練模型作為新模型參數(shù)的初始化,使用與預(yù)訓(xùn)練模型相同的網(wǎng)絡(luò)結(jié)構(gòu)但隨機初始化參數(shù)。得出了兩個結(jié)論:好的預(yù)訓(xùn)練模型能夠提供好的遷移學(xué)習(xí)效果;好的網(wǎng)絡(luò)結(jié)構(gòu)也能提供好的遷移學(xué)習(xí)效果。
盡管文獻(xiàn)[2]系統(tǒng)地驗證了遷移學(xué)習(xí)的效果,但仍局限在計算機視覺領(lǐng)域。在部分音頻分類任務(wù)中,使用預(yù)訓(xùn)練的視覺模型進(jìn)行遷移學(xué)習(xí)也曾取得成功,如文獻(xiàn)[3]在聲音事件檢測時將ImageNet預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型融入整體的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)模型框架中;又如在文獻(xiàn)[4]中使用6種視覺領(lǐng)域表現(xiàn)優(yōu)異的不同結(jié)構(gòu)的模型,分別以從頭訓(xùn)練和使用預(yù)訓(xùn)練模型作為初始模型這兩種方式訓(xùn)練。在文獻(xiàn)[4]的兩項工作中,雖然音頻標(biāo)注質(zhì)量參差不齊,且音頻任務(wù)進(jìn)展遠(yuǎn)遠(yuǎn)落后于計算機視覺領(lǐng)域的相似任務(wù),但將ImageNet預(yù)訓(xùn)練模型用于音頻分類任務(wù)依然取得了不錯的效果,其再一次證明,預(yù)訓(xùn)練模型能進(jìn)行一定程度上的跨領(lǐng)域遷移。
該文正是基于這些跨領(lǐng)域遷移學(xué)習(xí)的成功案例,以聲學(xué)場景識別與事件檢測DCASE2019挑戰(zhàn)賽[5]中的音頻標(biāo)簽分類為目標(biāo)領(lǐng)域任務(wù),以ImageNet圖像分類為源領(lǐng)域任務(wù),從音頻分類問題入手,分析(在ImageNet 上訓(xùn)練好的)視覺模型能否遷移到語音領(lǐng)域中,并通過系統(tǒng)實驗驗證了跨領(lǐng)域遷移學(xué)習(xí)的效果。
2? 實驗方法
2.1 數(shù)據(jù)集
該次實驗共采用了3種數(shù)據(jù)集:一是ImageNet數(shù)據(jù)集,該數(shù)據(jù)集為模型的預(yù)訓(xùn)練數(shù)據(jù)集,并遷移學(xué)習(xí)到了語音領(lǐng)域;二是Freesound 數(shù)據(jù)集,用于實驗中的無噪聲訓(xùn)練和測試;三是Yahoo Flickr Creative Commons 100M (YFCC100M)數(shù)據(jù)集,其為實驗中的噪聲數(shù)據(jù)集。
ImageNet[1]:ImageNet數(shù)據(jù)集建立在WordNet[6]提供的層次結(jié)構(gòu)之上,是視覺研究界可用的最大的清潔圖像數(shù)據(jù)集。目前,此數(shù)據(jù)集的12個子集共有320萬個清晰注釋的圖像,分為5247類,并且平均每個同義詞集合收集了600多個圖像。
Freesound Dataset(FSD)[7]:FSD是一個基于AudioSet Ontology[8]中自由聲音內(nèi)容開發(fā)出來的新的音頻數(shù)據(jù)集。由于經(jīng)過了人工標(biāo)注,F(xiàn)SD數(shù)據(jù)較為準(zhǔn)確。數(shù)據(jù)集中的音頻數(shù)據(jù)共80類,涵蓋了不同的主題:如吉他和其他樂器、呼吸聲、人類聲音、機動車輛(道路)和各種家庭聲音等。它包括共4970條約10.5h的音頻,每個音頻時長從0.3~30s不等。
Yahoo Flickr Creative Commons 100M (YFCC100M)[8]:YFCC100M數(shù)據(jù)集是迄今為止發(fā)布的最大的公共多媒體集合,包括1億個媒體對象,其中約9920萬個對象是照片,80萬個是視頻。此數(shù)據(jù)集同時提供一系列相關(guān)的元數(shù)據(jù),如標(biāo)注、時間跨度和位置等。YFCC的音頻使用自動啟發(fā)式標(biāo)注,會帶來大量的標(biāo)注噪聲,這也是其在實驗中作為帶噪聲訓(xùn)練的原因。視頻中共有19815條長約80h的音頻,每個音頻時長從1~15s不等。
2.2 數(shù)據(jù)預(yù)處理
在進(jìn)行數(shù)據(jù)預(yù)處理時,輸入的是采樣率為44.1kHz的音頻文件。由于每個音頻文件的時長不一,且可能包含部分無意義無聲(或低分貝噪聲)時間,因此分四步進(jìn)行數(shù)據(jù)預(yù)處理:剔除無聲部分、統(tǒng)一音頻長度、數(shù)據(jù)轉(zhuǎn)換和正則化處理。
2.2.1 剔除無聲部分
根據(jù)分貝情況剔除音頻中的無聲數(shù)據(jù),閾值設(shè)為60dB。
2.2.2 統(tǒng)一音頻長度
統(tǒng)一所有音頻數(shù)據(jù)的長度。在該文中設(shè)置為5s,對于大于5s的音頻,截取其中一段;對于小于5s的音頻,重復(fù)堆疊該段音頻直到長度為5s。
2.2.3 數(shù)據(jù)轉(zhuǎn)換
將一維音頻數(shù)據(jù)轉(zhuǎn)為二維的梅爾頻譜圖數(shù)據(jù)。視覺領(lǐng)域的預(yù)訓(xùn)練模型,由于處理對象是二維的圖像或三維的視頻數(shù)據(jù),往往使用二維或三維卷積神經(jīng)網(wǎng)絡(luò)。而原始音頻信息是一維的連續(xù)變化信號,不能直接作為在視覺領(lǐng)域預(yù)訓(xùn)練模型的輸入。通常的做法是將一維的音頻信息轉(zhuǎn)為二維的梅爾頻譜,即通過短時傅里葉變換將時域信號轉(zhuǎn)為頻域信號,取平方值得到能量譜,經(jīng)過梅爾濾波后獲得一段一維音頻數(shù)據(jù)對應(yīng)的一張二維梅爾頻譜圖像。通過這種方法將音頻分類問題轉(zhuǎn)化為圖像分類問題。
2.2.4 正則化處理
將第三步中得到的128波段的梅爾頻譜圖進(jìn)行均值為0、方差為1的正則化處理,并復(fù)制到3個通道中。
圖1描述了音頻數(shù)據(jù)從輸入到模型輸出的整體流程。
2.3 數(shù)據(jù)增強
數(shù)據(jù)增強是一種在數(shù)據(jù)集量級較小的情況下防止訓(xùn)練過擬合的有效方法,在計算機視覺領(lǐng)域中常用隨機旋轉(zhuǎn)/裁剪、水平/豎直翻轉(zhuǎn)、加入隨機噪聲、圖像亮度/色彩變化等方式。由于數(shù)據(jù)預(yù)處理轉(zhuǎn)換完的頻譜圖像的特殊性,不能完全照搬視覺中的數(shù)據(jù)增強方法,本次實驗采用了以下兩大類數(shù)據(jù)增強方法。
2.3.1 經(jīng)典圖像類增強方法
水平翻轉(zhuǎn)、隨機裁剪、隨機背景噪聲、高斯模糊、隨機水平(時間維度上)平移和拉伸、隨機圖像掩碼。
2.3.2 樣本混淆
訓(xùn)練時,在一個批次樣本中隨機選取兩個屬于不同類別的樣本數(shù)據(jù),按一定概率進(jìn)行數(shù)據(jù)和標(biāo)簽的混淆,如公式(1)和(2)所示。
2.4 模型
此次實驗選取了VGG16[9]、VGG19[9]、Xception[10]、DenseNet121[11]、DenseNet169[11]、DenseNet201[11]、InceptionV3[12]和NASNetLarge[13]作為訓(xùn)練模型,分別按照以下5種方式訓(xùn)練。為了保證實驗結(jié)果的可重復(fù)和可對比,均使用FSD的20%數(shù)據(jù)作為驗證集,并固定劃分?jǐn)?shù)據(jù)的隨機種子。
遷移YFCC100M預(yù)訓(xùn)練模型,在YFCC100M數(shù)據(jù)上訓(xùn)練出一個最優(yōu)模型作為預(yù)訓(xùn)練模型,并使用該模型的結(jié)構(gòu)和參數(shù)作為80%的FSD數(shù)據(jù)上訓(xùn)練的初始化參數(shù)。
2.5 實驗結(jié)果
每個模型采用Adam優(yōu)化器,初始學(xué)習(xí)率為1e-4,損失函數(shù)為交叉熵。每一次完成所有樣本的迭代后,模型在驗證集上進(jìn)行損失函數(shù)評估,當(dāng)損失在連續(xù)5次沒有下降時,將學(xué)習(xí)率降為初始的0.5倍。此外,為了保障模型得到充分訓(xùn)練并避免過擬合,訓(xùn)練過程使用早停策略,當(dāng)驗證集上的損失在連續(xù)15次完整數(shù)據(jù)集迭代均沒有下降時,模型訓(xùn)練過程自動停止。
評價指標(biāo)與DCASE2019挑戰(zhàn)賽一致,采用類別加權(quán)的類別排序平均精度(label-weighted label-ranking average precision,lwlrap)。lwlrap測量了對每個測試片段,模型給出的標(biāo)簽排序列表的平均精度。類別排序平均精度(lrap)的計算公式如公式(3)所示[14],lwlrap是每類標(biāo)簽的lrap的平均值。
章節(jié)2.4中每個模型和實驗方法對應(yīng)的結(jié)果如表1所示。由于模型訓(xùn)練和數(shù)據(jù)增強部分會有一定的隨機性,每個模型都以多次訓(xùn)練取最好評估結(jié)果的方式進(jìn)行。
2.6 結(jié)果分析
通過分析表1數(shù)據(jù)可以得到以下結(jié)論。
(1)使用在ImageNet上預(yù)訓(xùn)練的模型作為初始化能取得更好的效果(FSD_no對比FSD_pre,F(xiàn)SD_YFCC_no對比FSD_YFCC_pre),盡管肉眼看來,梅爾頻譜圖和ImageNet圖像的特征差別很大,但實驗依然證明了跨領(lǐng)域的遷移學(xué)習(xí)效果顯著。
(2)目標(biāo)領(lǐng)域由于其問題、數(shù)據(jù)和源領(lǐng)域存在一定差異,源領(lǐng)域的模型效果和目標(biāo)領(lǐng)域的最終效果并沒有必然聯(lián)系(ImageNet上準(zhǔn)確率對比FSD_no/FSD_pre/FSD_YFCC_no/FSD_YFCC_pre),在ImageNet上表現(xiàn)好的NASNetLarge和Xception模型,無論是遷移網(wǎng)絡(luò)結(jié)構(gòu),或者是遷移結(jié)構(gòu)和模型參數(shù),均不能保證目標(biāo)領(lǐng)域的效果。
(3)對比FSD_pre和FSD_YFCC可發(fā)現(xiàn),使用同領(lǐng)域相似數(shù)據(jù)分布的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,其效果比ImageNet上的預(yù)訓(xùn)練效果更差,原因有兩個:一是YFCC數(shù)據(jù)量較ImageNet小得多;二是YFCC中存在標(biāo)注噪聲會影響預(yù)訓(xùn)練效果。
3? 結(jié)語
該實驗系統(tǒng)驗證了從圖像分類到音頻分類的跨領(lǐng)域遷移的學(xué)習(xí)效果。分析實驗結(jié)果可知,通過大量正確運用視覺任務(wù)數(shù)據(jù)預(yù)訓(xùn)練模型,不僅能解決計算機視覺領(lǐng)域本身的問題,還能夠在很大程度上輔助解決語音領(lǐng)域的問題,特別是在任務(wù)標(biāo)注數(shù)據(jù)有限的情況下。
當(dāng)然,遷移學(xué)習(xí)也有前提,即遷移學(xué)習(xí)的兩個領(lǐng)域要有共通點(語音的波形圖需經(jīng)過傅里葉變換轉(zhuǎn)換為頻譜圖,從而與圖像領(lǐng)域相連),因為如果源域和目標(biāo)域的相似度不夠,便無法遷移;另外,目標(biāo)域也需一定量的標(biāo)注數(shù)據(jù),并且標(biāo)注數(shù)據(jù)必須清潔準(zhǔn)確。
總之,該文的實驗結(jié)論能夠為跨領(lǐng)域遷移學(xué)習(xí)的方法提供啟發(fā),也證明了跨領(lǐng)域遷移學(xué)習(xí)方法能夠為更多領(lǐng)域的成功應(yīng)用提供幫助。
參考文獻(xiàn)
[1] Jia Deng,Wei Dong,Richard Socher,et al.Imagenet: A large-scale hierarchical image database[A].2009 IEEE Computer Society conference on computer vision and pattern recognition[C].2009.
[2] Kornblith,Simon, Jonathon Shlens,Quoc V.Le.Do better imagenet models transfer better?[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019.
[3] De ZhiWang,Lilun Zhang,Changchun Bao,et al.Weakly supervised CRNN system for sound event detection with large-scale unlabeled in-domain data[EB/OL].https://www.arxiv.org/abs/1811.00301?context=cs.
[4] Xu,K,Zhu,B,Wang,D,et al.Nudt Solution for Audio Tagging Task of Dcase 2018 Challenge. DCASE2018 Challenge,1-3[Z].2019-08-01.
[5] DCASE2019 Challenge[EB/OL].https://www.dcase.community/challenge2019/.
[6] Miller,George A.WordNet:An electronic lexical database[M].MIT press,1998.
[7] Jort F.Gemmeke,Paniel P.W,Ellis,Dyian Freedman,et al. "Audio set: An ontology and human-labeled dataset for audio events[A].2017 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C].2017.
[8] Bart Thomee,Benjamin Elizalde,David Ayman Shamma,et al.YFCC100M: The new data in multimedia research[J].Communications of the ACM,2016,59(2):64-73.
[9] Simonyan, Karen, Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[Z].2014.
[10] Chollet, Fran?ois.Xception: Deep learning with depthwise separable convolutions[A].Proceedings in IEEE conference on computer vision and pattern recognition(CVPR)[C].2017.
[11] Gao Huang,Zhuang Liu,Kilian Weinberger.Densely connected convolutional networks[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2017.
[12] C.Szegedy,V.Vanhoucke,S.Ioffe,et al.Rethinking the inception architecture for computer vision.[Z].2015.
[13] Zoph, Barret.Learning transferable architectures for scalable image recognition[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2018.
[14] 3.3.Metrics and Scoring:quantifying the quality of predictions[EB/OL].ttps://www.scikit-learn.org/stable/modules/model_evaluation.html#label-ranking-average-precision.
[15] 部分模型ImageNet分類準(zhǔn)確率[EB/OL].https://www.keras.io/applications/.