石運來,崔運鵬*,杜志鋼
(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.淄博市數(shù)字農(nóng)業(yè)農(nóng)村發(fā)展中心,淄博 255000)
隨著互聯(lián)網(wǎng)和農(nóng)業(yè)信息化的快速發(fā)展,網(wǎng)絡(luò)上的包括農(nóng)業(yè)主題在內(nèi)的各類新聞內(nèi)容數(shù)量呈現(xiàn)井噴式上升,并且新聞報道的作者也開始呈現(xiàn)多樣化,除傳統(tǒng)的政府媒外還有許多個人或社會組織,新聞在傳播過程中產(chǎn)生了不容忽視的社會影響,而新聞的內(nèi)容也覆蓋了生活的方方面面。因此為了在農(nóng)業(yè)領(lǐng)域進行輿情監(jiān)測,災(zāi)害預(yù)警,產(chǎn)品營銷等研究,需要對大量的新聞文本進行挖掘分析,找出有價值的信息。而這些研究的前提都是要先對新聞按照主題或者領(lǐng)域進行分類和篩選,所以產(chǎn)生了對新聞按主題進行分類的需求。因此新聞主題分類任務(wù)是農(nóng)業(yè)文本挖掘領(lǐng)域的一項基本研究。
基本的新聞分類方式是使用機器學(xué)習(xí)或者深度學(xué)習(xí)模型去進行有監(jiān)督的分類模型訓(xùn)練和預(yù)測。許麗在TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)文本表示的基礎(chǔ)上使用加權(quán)樸素貝葉斯模型構(gòu)建了新聞文本分類算法[1],提升了新聞文本分類效果。但是樸素貝葉斯分類算法由于其數(shù)據(jù)必須滿足貝葉斯樸素假設(shè),因此面對超大規(guī)模文本數(shù)據(jù)時候模型性能會出現(xiàn)較明顯的下降。郭文強基于SVM實現(xiàn)了新冠疫情虛假新聞檢測[2],比較了對虛假新聞檢測中4 種核函數(shù)的精準度,發(fā)現(xiàn)線性核函數(shù)分類器作為信息檢測模型成果最優(yōu)。田沛霖使用了CNN-BiGRU神經(jīng)網(wǎng)絡(luò)模型進行了新聞分類[3],進一步提高了算法的準確率和泛化性。可見隨著更復(fù)雜的模型的不斷應(yīng)用,新聞文本分類的效果也在不斷提高。
由于新聞數(shù)量龐大且在不斷增長,故訓(xùn)練主題分類模型需要人工標注,耗費了大量人力和時間。而主動學(xué)習(xí)(Active Learning,AL)技術(shù)是一種通過自動選擇數(shù)據(jù)的標注和訓(xùn)練順序可高效準確完成機器學(xué)習(xí)任務(wù)的一項技術(shù)。它假設(shè)數(shù)據(jù)的收集相對容易,但標記成本高,這符合許多文本、視覺和語音識別任務(wù)中的實際情況。它解決了在迭代式訓(xùn)練流程中的一個重要問題,即如果因為標注成本和項目時間等多方面的限制條件,在整個訓(xùn)練流程中只能在所有未標注數(shù)據(jù)中選擇有限的樣本子集經(jīng)過人工標注后作為訓(xùn)練集進行模型訓(xùn)練,那么選擇哪些樣本能使得本輪模型迭代中測試準確率的最大提升?對應(yīng)地在主動學(xué)習(xí)方法中有各種采樣函數(shù)負責(zé)實現(xiàn)不同場景下最有價值數(shù)據(jù)的篩選。最流行的主動學(xué)習(xí)方式是基于池的采樣[4],它假設(shè)有一個小的標記數(shù)據(jù)集L,并訪問一個大的未標記數(shù)據(jù)集U,每次需要從U 中選擇下一批要標記的樣本。在迭代過程的每一步,主動學(xué)習(xí)算法使用L 和U 中的信息來從U 中選擇要標記的最佳樣本x。然后將x 標注后添加到L 中,這個過程重復(fù)直到我們達到所需的樣本數(shù)量或分類精度。
利用主動學(xué)習(xí)方法應(yīng)用到文本分類領(lǐng)域獲得了學(xué)者們的廣泛關(guān)注。黃永毅將主動學(xué)習(xí)方法應(yīng)用到SVM支持向量機模型[5],把新聞文本進行了財經(jīng)、軍事、體育、歷史、科技5 個主題的分類訓(xùn)練,有效地減少了樣本分布不均衡對模型性能的影響。邱寧佳[6]利用密度采樣的核心集主動學(xué)習(xí)算法對SVD-CNN 深度模型進行訓(xùn)練,利用樣本間的相似度將樣本進行聚類,并在每一個聚類簇中,按照設(shè)定的規(guī)則選擇最具有價值的樣本進行人工標注,減少人工標注的工作量,出色完成了彈幕文本分類任務(wù)。這些在文本分類任務(wù)中和主動學(xué)習(xí)方法配合的是淺層機器學(xué)習(xí)模型或者輕量級神經(jīng)網(wǎng)絡(luò)模型。
自然語言處理(NLP)領(lǐng)域最新的一個重大發(fā)展是引入了預(yù)先訓(xùn)練過的深度文本模型,顯著提高了許多NLP 任務(wù)的最優(yōu)表現(xiàn)。一個突出的例子是BERT 模型[7],它自出現(xiàn)以來就受到了NLP 研究界的廣泛關(guān)注。BERT 預(yù)訓(xùn)練模型是谷歌公司在2018 年提出的。在BERT 模型中使用了雙向Transformer 編碼器,使得模型能夠充分獲取輸入文本中的語義信息。然而,使用主動學(xué)習(xí)與深度預(yù)訓(xùn)練模型(特別是BERT 模型)相結(jié)合的文本分類方法,迄今為止都少有相關(guān)研究。
首先,考慮到預(yù)訓(xùn)模型的特性,盡管預(yù)期這些模型即使使用少量的訓(xùn)練數(shù)據(jù)也能產(chǎn)生足夠的性能,但目前尚不清楚已有的主動學(xué)習(xí)方法是否有效以及能在多大程度上進一步提高其分類性能。此外,最近的深度主動學(xué)習(xí)策略,如核心集[8]和深度貝葉斯方法[9],都是在視覺領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)任務(wù)模型上開發(fā)的。這些策略在BERT 等基于Transformer 架構(gòu)的深度網(wǎng)絡(luò)模型上的適用性尚不可知。
為了探究使用主動學(xué)習(xí)方法應(yīng)用訓(xùn)練BERT 模型進行新聞文本分類的方案可行性,本研究使用了自制爬蟲數(shù)據(jù)集測試主動學(xué)習(xí)方法的效果,對比了對BERT 使用深度主動學(xué)習(xí)方法和對多種機器學(xué)習(xí)模型使用主動學(xué)習(xí)方法進行訓(xùn)練的效果。通過多輪實驗,驗證了BERT 模型的優(yōu)越性并找到了和它最搭配的采樣策略,發(fā)現(xiàn)了一種將深度主動學(xué)習(xí)技術(shù)應(yīng)用在新聞文本主題分類任務(wù)中對預(yù)訓(xùn)練大型網(wǎng)絡(luò)進行高效訓(xùn)練的可行方案。
本研究的方法設(shè)計包括了主動學(xué)習(xí)流程設(shè)計,主動學(xué)習(xí)采樣策略,主動學(xué)習(xí)任務(wù)模型,文本數(shù)據(jù)集構(gòu)建,實驗環(huán)境和評價指標等部分。其中任務(wù)模型和主動學(xué)習(xí)采樣策略相互配合共同組成了完整的主動學(xué)習(xí)方法。
主動學(xué)習(xí)的工作原理是使用已有的采樣策略從未標記樣本集中選擇最有價值的樣本子集,通過人工標記后再對分類器進行訓(xùn)練[10]。這種方式中只需標記和迭代訓(xùn)練小部分的無標記樣本就能改善任務(wù)模型質(zhì)量,提升分類效果。而基于池的方法是主動學(xué)習(xí)方法中常見的一類流程,本研究也使用了這種方法。
維護一個未標注數(shù)據(jù)的集合,由選擇策略在該集合中選擇當前要標注和訓(xùn)練的數(shù)據(jù),經(jīng)過標注后再加入有標簽集合作為新的訓(xùn)練集。其中選擇策略又叫采樣函數(shù),其作用是根據(jù)預(yù)測的標簽概率等信息來選擇出該選擇策略認為最有標注和訓(xùn)練價值的、對模型的預(yù)期提升最大的一批數(shù)據(jù),詳細流程如圖1 所示。
圖1 主動學(xué)習(xí)流程圖Fig.1 Flow chart of the active learning
另外,借鑒其他經(jīng)驗[11]直接在每輪模型的迭代訓(xùn)練中使用了全量訓(xùn)練而不是迭代訓(xùn)練。這種方法得到的模型精度更高,尤其是當訓(xùn)練深度網(wǎng)絡(luò)的時候。
2.2.1 最小置信度方法(Least Confidence)
該方法[12]原理是將模型在對每個數(shù)據(jù)進行預(yù)測時產(chǎn)生的置信度(通常是最終輸出層前激活函數(shù)所獲得的浮點值)作為對數(shù)據(jù)不確定性的度量。置信度越小說明模型對于這種數(shù)據(jù)越陌生,也就認為該數(shù)據(jù)越可能為模型帶來更大的提升。根據(jù)置信度對未標記的樣本進行升序排序,并根據(jù)每輪選取量的設(shè)置選出一個數(shù)據(jù)子集經(jīng)標注后作為新的訓(xùn)練數(shù)據(jù),該采樣策略表示為:
2.2.2 深度貝葉斯采樣(Deep Bayesian Active Learning,DBAL)
深度貝葉斯采樣策略專用于處理超大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),具體方法是對模型多個激活層之前加入dropout 層,這樣訓(xùn)練以及測試時就能夠通過對dropout層權(quán)重的后驗分布進行蒙特卡洛采樣(Monte-Carlo Sampling)獲得類別概率的后驗分布[13]。在分類問題中,通過使用蒙特卡洛積分對近似后驗概率進行求解,該采樣策略表示為:
其中T 是蒙特卡洛采樣次數(shù)(在測試時深度學(xué)習(xí)模型中對給定的測試集進行重復(fù)T 次預(yù)測),其權(quán)值為qθ(w) 為dropout 的分布結(jié)果[10]。這樣即可利用最低不確定度等采樣方法在每輪迭代中根據(jù)預(yù)測概率從數(shù)據(jù)中選擇出數(shù)據(jù)進行訓(xùn)練,形成改進的主動學(xué)習(xí)方法。
2.2.3 判別性主動學(xué)習(xí)(Discriminative Active Learning,DAL)
判別性主動學(xué)習(xí)(DAL)[14]的思路為將主動學(xué)習(xí)轉(zhuǎn)換為一個二元分類任務(wù),通過選擇特定樣本進行標記,使標記池和未標記池的差別最小,從而選出最能代表樣本整體的訓(xùn)練集樣本。具體地說,Ψ:X→X 是從原始輸入空間到一些學(xué)習(xí)表示的映射。該方法定義了一個二值分類問題,X 作為我們的輸入空間,y 作為我們的標簽空間,其中l(wèi) 是在標記集中的一個樣本的標簽,u 是未標記集的標簽,再由算法1 即可得到選擇結(jié)果。
2.2.4 隨機選擇采樣(Random Sampling)
隨機選擇采樣[15]是指采樣函數(shù)從未標記數(shù)據(jù)池中隨機選出一批數(shù)據(jù)作為本輪新增的訓(xùn)練數(shù)據(jù)。在主動學(xué)習(xí)研究中,一般將其作為基線方法與其他主動學(xué)習(xí)采樣策略進行比較,驗證主動學(xué)習(xí)方法的有效性。
任務(wù)模型是主動學(xué)習(xí)方法的重要組成部分,和采樣策略共同構(gòu)成了完整的主動學(xué)習(xí)方法。不同的采樣策略對所搭配的任務(wù)模型的也有不同要求,例如本文中的最低置信度方法只需要模型能夠在預(yù)測時輸出置信度即可,而DAL 方法和DBAL 方法則需要配合含有文本嵌入表示的深度神經(jīng)網(wǎng)絡(luò)模型。
2.3.1 機器學(xué)習(xí)模型
本研究使用幾種機器學(xué)習(xí)模型與BERT 模型進行對比,包括隨機森林分類器[16](Random Forest,RF)、多項式模型樸素貝葉斯分類器[17](Multinomial Naive Bayesian,MNB)、邏輯回歸分類器[18](Logistic Regression,LR)、梯度提升樹分類器[19](Gradient Boosting Tree,GB)、支持向量機分類器[20](Support Vector Machine,SVM)等。這些機器學(xué)習(xí)模型的輸入數(shù)據(jù)必須是數(shù)值型數(shù)據(jù),所以先將文本數(shù)據(jù)經(jīng)過分詞、TF-IDF[21]向量化等操作(取語料庫中頻率排名前1 000的詞語作為TF-IDF 特征),這樣每個文本樣本就表示為1 000 維的浮點型數(shù)據(jù)。
2.3.2 BERT 模型
BERT[7]模型對于文本的表示,使用了基于Transformer[22]架構(gòu)的雙向嵌入表示法,并在詞嵌入之外增加了句嵌入和位置嵌入,能夠很好地把握全局信息以及詞與所在句子的關(guān)系,很大程度上改進了原有模型,在各項NLP 任務(wù)中均表現(xiàn)突出。Transformer 層是BERT 的主要框架,由多個編碼器(Encoder)和解碼器(Decoder)組成[23]。Encoder 包括4 層:第一層為多頭注意力機制(Multi-Head Attention)[24];第二層為殘差網(wǎng)絡(luò);第三層為前饋神經(jīng)網(wǎng)絡(luò);第四層在最后實現(xiàn)了歸一化操作。Decoder 在Encoder 的基礎(chǔ)上加入Encoder-Decoder Attention 層,實現(xiàn)了信息的解碼和重新序列化。其中,多頭注意力層是Transformer 層的核心,其主要思想是通過計算詞與詞之間的關(guān)聯(lián)度來調(diào)整詞的權(quán)重,反映了該詞與同一句話中其他詞之間的聯(lián)系強弱,進而反應(yīng)了每個詞對于所在句子的語義表達的重要程度。首先,輸入序列進入Encoder,通過線性變換得到表示目標字的矩陣、表示上下文各個字的矩陣以及表示目標字與上下文各個字的原始矩陣。然后,通過放縮點積操作得到自注意值,該值體現(xiàn)了當模型對一個詞進行編碼時,該詞與輸入句子的其他詞的關(guān)聯(lián)程度。最后,將自注意值進行拼接和線性變換,得到與模型輸入的文本長度相同的輸出向量,該向量含有增強語義能夠提升算法整體效果。
2.3.3 BERT 模型參數(shù)
實驗參數(shù)的合理設(shè)置直接影響實驗結(jié)果。模型訓(xùn)練過程的各項初始設(shè)置與訓(xùn)練參數(shù)經(jīng)調(diào)整后實現(xiàn)了較優(yōu)效果,具體參數(shù)的數(shù)值設(shè)置如表1 所示。
表1 BERT 模型參數(shù)Table 1 Model parameters
在對BERT 模型或者機器學(xué)習(xí)模型進行主動學(xué)習(xí)訓(xùn)練時候,保持了相同的每輪新增標注數(shù)據(jù)批次大小30,從而能對比其在每次迭代的性能差異,以及在多個迭代間的性能提升速度。
在每次模型訓(xùn)練過程中還使用了“提前停止(Early Stopping)[25]” 的技巧。當在驗證集上的準確率不再上升時及時停止訓(xùn)練,以此來避免過擬合、不收斂等問題,并提高模型訓(xùn)練效率。
2.4.1 語料獲取
新聞爬蟲語料。通過爬蟲技術(shù),在新浪財經(jīng)、新華網(wǎng)等中文新聞網(wǎng)站上分別以 “農(nóng)業(yè)” “農(nóng)產(chǎn)品”“水果” “蔬菜” 等關(guān)鍵詞爬取近6 年的新聞文本數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗后共獲得19 847 條新聞數(shù)據(jù)。其中含有農(nóng)業(yè)領(lǐng)域新聞9 442 條,非農(nóng)業(yè)領(lǐng)域新聞10 405條。農(nóng)業(yè)領(lǐng)域新聞中包括了農(nóng)產(chǎn)品市場、農(nóng)產(chǎn)品價格、農(nóng)業(yè)政策發(fā)布等內(nèi)容。將整個數(shù)據(jù)集按照8:1:1 的比例劃分訓(xùn)練集、驗證集和測試集。
2.4.2 數(shù)據(jù)標注
通過人工標注的方法標記每條新聞是否為農(nóng)產(chǎn)品相關(guān)新聞。因為主動學(xué)習(xí)的過程中需要多輪查詢和數(shù)據(jù)標注,所以構(gòu)建了簡單的自動化標注訓(xùn)練系統(tǒng),能夠方便快速地將主動學(xué)習(xí)工作流中采樣策略選擇的未標記數(shù)據(jù)送往標注系統(tǒng),經(jīng)過四位農(nóng)業(yè)領(lǐng)域的研究生分工標注后對模型進行訓(xùn)練。
實驗硬件為專業(yè)深度推理服務(wù)器,配有8 核CPU E5-2678 V3,ECC 內(nèi)存128G,以及4 塊NVIDIA V100 GPU,運行Linux 操作系統(tǒng)。在Python3.6 的環(huán)境下,安裝了TensorFlow、Pytorch、Keras 等深度學(xué)習(xí)庫。
精準率是預(yù)測結(jié)果中正確預(yù)測的占比,召回率則表示樣本中的正例被正確預(yù)測的占比。F1分數(shù)綜合了精準率和召回率兩個評價指標,因此更加全面,在本文中作為主要參考指標,其計算公式為兩者的調(diào)和平均:F1=2*(精準率*查全率)/(精準率+查全率)。
對比BERT 模型和不同機器學(xué)習(xí)模型在完整訓(xùn)練集上訓(xùn)練后的測試集性能。各模型的訓(xùn)練效果如表2所示。
表2 在整個訓(xùn)練集上訓(xùn)練各個模型的效果Table 2 The effect of training each model on the whole training set
對比BERT 模型和其他模型,BERT 模型的分類效果最優(yōu),F(xiàn)1分數(shù)達到0.918。而在其他模型中梯度提升樹分類器(GB)方法最優(yōu),F(xiàn)1分數(shù)0.854;隨機森林分類器(RF)方法最差,F(xiàn)1分數(shù)0.784;其他3 種方法表現(xiàn)接近,F(xiàn)1分數(shù)在0.824 到0.837 之間。
但在主動學(xué)習(xí)過程中,模型的選擇不只由模型的精度決定,模型的運行效率也是重要因素。在深度主動學(xué)習(xí)或者主動學(xué)習(xí)的實際應(yīng)用場景的人工標注和模型訓(xùn)練交替進行的過程中,模型響應(yīng)時間(包括了模型訓(xùn)練和樣本選擇兩個過程)過長會使標注工作在每個輪次間歇等待,浪費標注人力,降低主動學(xué)習(xí)過程的效率。重復(fù)5 次統(tǒng)計在主動學(xué)習(xí)過程0~20 輪次中各個模型響應(yīng)時間并平均,結(jié)果如表3 所示。
表3 各個模型響應(yīng)時間Table 3 Response time of each model
梯度提升樹(GB)和支持向量機分類器(SVM)有著遠超其他方法的時間消耗(分別為2 分鐘以上和11 分鐘以上),不適合作為主動學(xué)習(xí)過程中的任務(wù)模型。分析效率低的原因,支持向量機由于使用數(shù)據(jù)集的核矩陣(Kernel Matrix)描述樣本之間的相似性,矩陣元素的個數(shù)隨著數(shù)據(jù)規(guī)模增大成平方增長。當處理TF-IDF 文本表示的1 000 個維度的數(shù)據(jù)表示且訓(xùn)練樣本量達到一定規(guī)模時,模型訓(xùn)練速度就會明顯變慢。而梯度提升樹分類器的弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù),同樣難以處理大規(guī)模數(shù)據(jù)。
BERT 模型與深度主動學(xué)習(xí)方法因為能夠利用GPU 計算加速計算過程,所以速度雖然次于隨機森林等模型在5 秒內(nèi)的響應(yīng)時間,但其10 秒左右的響應(yīng)時間也不會讓標注進入等待,符合深度主動學(xué)習(xí)過程對模型的響應(yīng)速度要求。
對比主動學(xué)習(xí)和非主動學(xué)習(xí)過程的模型響應(yīng)時間,發(fā)現(xiàn)深度主動學(xué)習(xí)或者主動學(xué)習(xí)方法的模型處理耗時一般略高于隨機采樣,這是因為主動學(xué)習(xí)的采樣策略相比非主動學(xué)習(xí)的隨機采樣需要更多計算步驟,如不確定性采樣需要計算未標記池中每個樣本的預(yù)測概率。
綜合考慮模型精度和模型響應(yīng)時間,最終在機器學(xué)習(xí)模型中選擇了隨機森林分類器(RF),樸素貝葉斯分類器(MNB)和邏輯回歸分類器(LR)作為主動學(xué)習(xí)的任務(wù)模型,和BERT 模型的深度主動學(xué)習(xí)方法進行對比。
本實驗測試深度主動學(xué)習(xí)算法(DAL、DBAL 和最低置信度3 種方法)搭配BERT 模型在實際新聞分類篩選任務(wù)中的表現(xiàn)。為了對比BERT 模型的效果,還使用了幾種經(jīng)典的機器學(xué)習(xí)模型的主動學(xué)習(xí)過程作為對比。根據(jù)上一節(jié)的預(yù)實驗的模型選擇結(jié)果選擇了隨機森林分類器(RF),樸素貝葉斯分類器(MNB)和邏輯回歸分類器(LR)。對于每種機器學(xué)習(xí)模型,都使用了最低置信度的主動學(xué)習(xí)方法,并使用隨機采樣作為對照。
實驗進行了20 次迭代,共30 次重復(fù)實驗。在主動學(xué)習(xí)迭代中各模型的F1分數(shù)提升情況如圖2 和表4所示??梢钥闯稣w而言,訓(xùn)練相同模型的主動學(xué)習(xí)方法相較于非主動學(xué)習(xí),能夠?qū)崿F(xiàn)更快的精度提升,這對于BERT 模型和3 種機器學(xué)習(xí)模型是一致的。
圖2 主動學(xué)習(xí)過程各模型F1 分數(shù)Fig.2 F1 score of each model in the process of active learning
表4 主動學(xué)習(xí)過程各模型F1 分數(shù)Table 4 F1 score of each model in the process of active learning
將BERT 模型的深度主動學(xué)習(xí)和機器學(xué)習(xí)模型的主動學(xué)習(xí)過程對比??梢钥闯鯞ERT 模型的F1分數(shù)上升速度更快,都在6 次迭代內(nèi)就達到了最高值。而機器學(xué)習(xí)模型F1分數(shù)上升速度較慢,而且一直落后于BERT 模型。
對于BERT 模型,表現(xiàn)最優(yōu)的深度主動學(xué)習(xí)方法是DAL 方法,而作為對比基線的隨機采樣方法則稍微低于DAL 和DBAL 兩種方法。3 種方法在前3 次迭代中F1分數(shù)快速上升,而在4~6 次迭代中已經(jīng)非常平穩(wěn),總體呈現(xiàn)對數(shù)型增長。對于BERT 模型表現(xiàn)最差的為最低置信度方法,其通過6 次迭代才最終達到了其他方法在第3 次迭代的性能,整體呈現(xiàn)均勻上升趨勢。可能是最低置信度方法中BERT 模型最后部分softmax 層的輸出值并不適合作為模型的不確定性度量。這導(dǎo)致其性能提升不僅慢于其他兩種主動學(xué)習(xí)方法,還慢于隨機采樣方法。所以在后續(xù)新聞文本分類的實踐場景中,應(yīng)避免采用最低置信度方法對BERT模型就行主動學(xué)習(xí)訓(xùn)練。
總體來說,實驗驗證了在實際的農(nóng)業(yè)新聞文本篩選任務(wù)中BERT 模型配合深度主動學(xué)習(xí)方法的可用性和高效性,具體推薦使用BERT 任務(wù)模型搭配DAL(其次是DBAL)采樣函數(shù)作為深度主動學(xué)習(xí)方法。
對不同的AL 采樣策略所獲得的樣本使用多樣性指標和代表性指標進行比較,從而了解每種策略的特點為以后AL 策略的選擇與改進提供啟發(fā)。
多樣性:每次AL 選擇中,一批彼此之間較為不同的樣本通常比選擇一批相互相似甚至重復(fù)的例子更有效果。根據(jù)ZHDANOV 的研究[26],集合B 的多樣性可定義為:
其中,xi表示用L 訓(xùn)練的模型得到的示例i 的[CLS]標記的表示,d(xi,xj)表示xi和xj之間的歐氏距離。
代表性:AL 策略(尤其是是基于不確定性的策略)的一個已知問題是它們傾向于選擇不能正確代表總體數(shù)據(jù)分布的離群例子。因此,檢查樣本代表性能夠檢查是否存在該問題。本文使用ZHU 等提出的KNN-密度度量[27]。其中一個樣本的密度通過所討論的樣本集合中和它的最相似的K 個例子的[CLS]表示在U內(nèi)之間的平均距離來量化,而根據(jù)經(jīng)驗一般樣本密度越高則越具有代表性。
圖3 描述了不同采樣策略在對BERT 模型的每輪訓(xùn)練中選擇出的樣本的多樣性和代表性評估結(jié)果。我們對多次重復(fù)實驗的結(jié)果取平均值,然后統(tǒng)計每步迭代上的指標均值和方差分布,從而得到指標值分布的箱線圖。
圖3 訓(xùn)練BERT 時采樣策略多樣性和代表性評估Fig.3 Evaluation of diversity and representativeness of sampling strategies
在多樣性指標上,旨在增加多樣性的DAL 方法和核心集方法具有最多樣化的數(shù)據(jù)批次,并且DAL 達到最高的多樣性值。相比之下,其他策略傾向于選擇選擇較少多樣性的數(shù)據(jù)。因此,將這些方法與強調(diào)多樣性的方法相結(jié)合[26,28]可能會進一步提高其預(yù)測性能的結(jié)果。最低置信度方法的多樣性又低于DBAL 方法,這部分解釋了對BERT 模型訓(xùn)練時最低置信度方法性能提升過慢的原因。
在代表性方面,DAL 作為一種代表性驅(qū)動的方法,同樣在整個場景中始終領(lǐng)先。再考慮到DAL 方法在3個實驗中都表現(xiàn)除了穩(wěn)定且優(yōu)秀的性能,所以推薦在以后的新聞文本分類的BERT 模型或者類似的Transformer 架構(gòu)模型的主動學(xué)習(xí)訓(xùn)練上首選該方法。其他兩種主動方法的代表性分數(shù)則相互差別不明顯。
最低置信度方法具有最低的多樣性值,并且其代表性值也很低,這表明最低置信度這種簡單的不確定性度量并不適合于深度網(wǎng)絡(luò)。所以在實際應(yīng)用時應(yīng)避免使用該方法,或者將其作為深度模型主動學(xué)習(xí)實驗中的一個基線對照組。
對比試驗中同一個模型的主動學(xué)習(xí)方法和非主動學(xué)習(xí)方法下達到相同F(xiàn)1分數(shù)所需要的迭代次數(shù)(也就是數(shù)據(jù)標注數(shù)量),就可以分析深度主動學(xué)習(xí)或者主動學(xué)習(xí)方法所節(jié)約的數(shù)據(jù)標注的數(shù)量和比例。以非主動學(xué)習(xí)方法最終輪次的F1分數(shù)的不同百分比劃定不同的F1分數(shù)標準,標注成本節(jié)約比例如表5 和圖4 所示。
圖4 各模型在不同標準下節(jié)約標注比例Fig.4 Each model saves annotation proportion under different standards
表5 各模型在不同標準下節(jié)約標注比例Table 5 Each model saves annotation proportion under different standards
標注成本節(jié)約比例結(jié)果中最顯著的特點是:以越高的F1分數(shù)為標準對比主動學(xué)習(xí)與非主動學(xué)習(xí)的標注成本,主動學(xué)習(xí)方法的標注節(jié)約比例越高。所以代表3個模型不同標準下標注節(jié)約比例的3 組柱狀圖內(nèi)都在組內(nèi)是從左到右逐漸增高的。分析原因是模型性能在隨機采樣中的提升過程是越來越慢的,當前模型F1分數(shù)越高,進一步提升所花費的時間也越高。而主動學(xué)習(xí)過程在模型F1分數(shù)越高時,對于訓(xùn)練過程的優(yōu)化就越明顯,能夠更顯著地提高訓(xùn)練效率。
橫向分析相對于各性能需求下不同模型的主動學(xué)習(xí)方法標注節(jié)約比例,可以看出在99%和100%被動學(xué)習(xí)最終F1分數(shù)兩個標準下,節(jié)約比例最高的模型是隨機森林分類器(RF),分別節(jié)約非主動學(xué)習(xí)所需標注數(shù)據(jù)的0.75 倍和0.94 倍,其次是多項式樸素貝葉斯分類器(MNB)節(jié)約0.74 倍和0.82 倍,最后是邏輯回歸分類器(LR)節(jié)約0.71 倍和0.78 倍。但是在97%和98%最終F1分數(shù)兩個標準下,隨機森林分類器的標注節(jié)約比例相較于其他兩個模型不再有優(yōu)勢。
因為BERT 模型的提升迭代主要集中在前5 次,采樣點不夠密集所以無法精確計算標注節(jié)約比例。但BERT 模型的F1分數(shù)提升過程同樣是先快后慢的,推測也會有模型精度要求越高,標注成本節(jié)約比例越高的規(guī)律。例如DAL 方法在第3 個輪次達到隨機采樣在第5 個輪次的F1分數(shù)0.902,但在第6 次就達到了隨機采樣在第16 個輪次的F1分數(shù)0.917。
本研究在BERT 深度學(xué)習(xí)模型以及多種機器學(xué)習(xí)文本分類模型上,以爬蟲收集的中文新聞數(shù)據(jù)為材料,以篩選出農(nóng)業(yè)領(lǐng)域新聞為實驗?zāi)繕?,驗證了3 種針對BERT 深度網(wǎng)絡(luò)的采樣策略與任務(wù)模型配合后的主動學(xué)習(xí)效果,為新聞文本分類的深度主動學(xué)習(xí)提供了一種可操作可借鑒的實踐經(jīng)驗。并將文本分類常用的機器學(xué)習(xí)模型,如隨機森林分類器、多項式樸素貝葉斯分類器、邏輯回歸分類器等結(jié)合最低置信度的主動學(xué)習(xí)方法分析與BERT 模型對比分析。
實驗證明,主動學(xué)習(xí)方法加快了深度模型的訓(xùn)練過程,并顯著提高了其分類效果[29]。尤其是BERT 模型配合DAL 采樣函數(shù),是新聞文本主題分類與篩選場景下最佳的主動學(xué)習(xí)方案。其次可以選擇BERT 模型配合DBAL 采樣函數(shù)作為備選方案。在實驗時還可設(shè)置隨機采樣作為基線對照方案。如果計算資源不足無法順利訓(xùn)練BERT 模型或者標注數(shù)據(jù)和標注資源較為充裕,則可以選擇隨機森林分類器等機器學(xué)習(xí)模型搭配最低置信度采樣的主動學(xué)習(xí)方法作為替代方案。
通過記錄每輪主動查詢獲取數(shù)據(jù)的多樣性和代表性度量,嘗試解釋了不同采樣策略的差異來源。發(fā)現(xiàn)DAL 的多樣性和代表性不僅強于隨機采樣(也即沒有使用主動學(xué)習(xí)的情況),也強于其他兩種主動學(xué)習(xí)方法,這部分解釋了DAL 搭配BERT 模型在實驗中為何表現(xiàn)最優(yōu)。
在現(xiàn)有的爬蟲數(shù)據(jù)集上,BERT 模型訓(xùn)練的主動學(xué)習(xí)方法和隨機采樣方法都在經(jīng)過幾次主動學(xué)習(xí)迭代后很快就達到了很高的分類性能,說明該數(shù)據(jù)雖然數(shù)量大但多樣性卻稍有不足,后續(xù)可考慮繼續(xù)豐富新聞文本爬蟲數(shù)據(jù),進一步驗證本研究方案可行性。