曾慧玲,李 琳,呂思洋,何 錚
1.武漢理工大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,武漢 430070
2.武漢理工大學(xué) 經(jīng)濟(jì)學(xué)院,武漢 430070
3.德勤咨詢(上海)有限公司,上海 510623
近年來,資本市場違約事件頻發(fā),企業(yè)風(fēng)險(xiǎn)呈多樣化,債務(wù)逾期、安全事故、信息披露違規(guī)等負(fù)面事件屢屢出現(xiàn)。而在大數(shù)據(jù)和人工智能技術(shù)加持下,各種新興的金融風(fēng)險(xiǎn)控制手段也正在高速發(fā)展,其中通過采集互聯(lián)網(wǎng)上的企業(yè)輿情信息來挖掘潛在風(fēng)險(xiǎn)是一種較為有效的方式。但這些風(fēng)險(xiǎn)信息散落在互聯(lián)網(wǎng)上的海量資訊中[1],若能從中及時(shí)識(shí)別出企業(yè)所涉及的風(fēng)險(xiǎn),并挖掘出潛在的風(fēng)險(xiǎn)特征,將使得銀行、證券等金融機(jī)構(gòu)在風(fēng)險(xiǎn)監(jiān)控領(lǐng)域中更及時(shí)、全面和直觀地掌握客戶風(fēng)險(xiǎn)情況,大幅度提升識(shí)別和揭示風(fēng)險(xiǎn)的能力。而風(fēng)險(xiǎn)以文本的形式存在,需要采用人工智能方法進(jìn)行自然語言理解,實(shí)現(xiàn)風(fēng)險(xiǎn)標(biāo)簽的高精度智能識(shí)別。
對(duì)新聞?shì)浨榈娘L(fēng)險(xiǎn)識(shí)別可以看作是一個(gè)風(fēng)險(xiǎn)標(biāo)簽的多分類問題?,F(xiàn)在主要是通過深度學(xué)習(xí)方法學(xué)習(xí)詞的分布式向量表示來實(shí)現(xiàn)文本分類。2018 年預(yù)訓(xùn)練微調(diào)方法的研究和實(shí)踐應(yīng)用在自然語言處理領(lǐng)域掀起一股熱潮,目前主流的文本分類方法是預(yù)訓(xùn)練+微調(diào)模式。張宇豪[2]研究了BERT 預(yù)訓(xùn)練模型,通過微調(diào)實(shí)現(xiàn)新聞文本分類;李心雨[3]在細(xì)粒度的新聞文本分類方面提出基于BERT 預(yù)訓(xùn)練語言模型構(gòu)建層次化的長文本建模框架并進(jìn)行目標(biāo)任務(wù)的微調(diào)實(shí)驗(yàn);楊杰等人[4]提出使用預(yù)訓(xùn)練好的BERT 模型進(jìn)行微調(diào)來進(jìn)行文本評(píng)論情感分析。微調(diào)實(shí)際上是利用大型預(yù)訓(xùn)練過的語言模型來執(zhí)行下游任務(wù)的一種方法,針對(duì)具體的任務(wù),將預(yù)訓(xùn)練模型應(yīng)用在特定任務(wù)數(shù)據(jù)集上,使得參數(shù)適應(yīng)數(shù)據(jù)集并執(zhí)行特定的有監(jiān)督的訓(xùn)練[5]。
隨著預(yù)訓(xùn)練語言模型體量的不斷增大,微調(diào)訓(xùn)練模式對(duì)硬件要求和數(shù)據(jù)量的需求在不斷上漲,此外豐富多樣的下游任務(wù)使得預(yù)訓(xùn)練和微調(diào)階段的設(shè)計(jì)變得繁瑣復(fù)雜,在大多數(shù)下游任務(wù)微調(diào)時(shí),下游任務(wù)的目標(biāo)與預(yù)訓(xùn)練的目標(biāo)差距過大導(dǎo)致提升效果不明顯。因此有研究者提出以GPT-3[6]、PET[7]為首的一種基于預(yù)訓(xùn)練語言模型的新范式——提示學(xué)習(xí)(prompt learning)[8],旨在通過添加模板的方法來避免引入額外參數(shù),讓語言模型可以在小樣本場景下達(dá)到理想效果。目前提示學(xué)習(xí)已經(jīng)運(yùn)用到了分類、信息抽取、問答、文本生成、多模態(tài)學(xué)習(xí)等多個(gè)NLP領(lǐng)域[8]。
總的來說,預(yù)訓(xùn)練+微調(diào)的方法是讓預(yù)訓(xùn)練語言模型“遷就”各種下游任務(wù),具體體現(xiàn)就是通過引入各種任務(wù)的損失函數(shù),將其添加到預(yù)訓(xùn)練模型中然后繼續(xù)預(yù)訓(xùn)練,使模型更加適配下游任務(wù),在這個(gè)過程中,預(yù)訓(xùn)練語言模型做出了一定性能上的損耗。提示學(xué)習(xí)是讓各種下游任務(wù)“遷就”預(yù)訓(xùn)練語言模型,需要對(duì)下游任務(wù)進(jìn)行重構(gòu),使得它達(dá)到適配預(yù)訓(xùn)練語言模型的效果,此時(shí)是下游任務(wù)做出了更多的改變。例如在文本情感分類任務(wù)中,輸入“我喜歡這部電影”,希望輸出的是“正面/負(fù)面”中的一個(gè)標(biāo)簽,可以設(shè)置一個(gè)提示模板形如“這部電影是___”,然后讓模型用表示情感狀態(tài)的標(biāo)簽,將空白部分補(bǔ)全預(yù)測(cè)進(jìn)行輸出。所以給定合適的提示模板,可以以無監(jiān)督的方式訓(xùn)練單個(gè)的語言模型,完成下游的訓(xùn)練任務(wù)。
已有研究將提示學(xué)習(xí)用于軟件需求的精確分類[9],受現(xiàn)有研究工作的啟發(fā),將提示學(xué)習(xí)用于風(fēng)險(xiǎn)識(shí)別是一種新的嘗試和途徑,所以本文提出了基于提示學(xué)習(xí)的新聞?shì)浨轱L(fēng)險(xiǎn)識(shí)別方法,在BERT的遮蔽語言模型(masked language model,MLM)基礎(chǔ)之上運(yùn)用提示學(xué)習(xí)的思想設(shè)計(jì)新聞?shì)浨樯婕帮L(fēng)險(xiǎn)的提示模板,并在不同規(guī)模的新聞?shì)浨閿?shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)設(shè)計(jì)了訓(xùn)練集為500、1 000、1 500、2 000、所有數(shù)據(jù)樣本實(shí)驗(yàn),結(jié)果表明:在不同大小的新聞?shì)浨閿?shù)據(jù)集上,基于BERT的提示學(xué)習(xí)方法的Acc和Mairo-F1均高于微調(diào)的效果,尤其在小樣本數(shù)據(jù)集上提升較為明顯,數(shù)據(jù)集越小提升越明顯。
新聞文本分類是當(dāng)前NLP 文本分類的重要研究方向之一,互聯(lián)網(wǎng)發(fā)展至今,每天都有各種各樣的新聞產(chǎn)生,海量非結(jié)構(gòu)化數(shù)據(jù)沖擊著人們的眼球,人們需要尋找一種有效的途徑從大量新聞中獲取關(guān)鍵信息,因此對(duì)新聞主題或者內(nèi)容進(jìn)行分類具有重要的研究意義。新聞文本分類的一般步驟是對(duì)新聞文本進(jìn)行特征處理、模型訓(xùn)練、輸出分類,所以新聞文本分類的兩大基礎(chǔ)結(jié)構(gòu)是特征表示和分類模型。分類模型又分為傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型,深度學(xué)習(xí)模型結(jié)構(gòu)相對(duì)復(fù)雜,可以不依賴于人工獲取新聞文本特征,直接對(duì)新聞文本內(nèi)容進(jìn)行特征學(xué)習(xí)和預(yù)測(cè)建模,基于Transformer 的預(yù)訓(xùn)練語言模型就屬于其中的一種。預(yù)訓(xùn)練語言模型可以動(dòng)態(tài)表示詞向量,能夠解決自然語言中經(jīng)常出現(xiàn)的一詞多義問題,從而有效學(xué)習(xí)全局語義表征并顯著提升新聞文本分類效果。目前主流的預(yù)訓(xùn)練模型包含ELMo、GPT、BERT等,BERT模型性能強(qiáng)大,許多優(yōu)秀的新聞文本分類模型都是在BERT模型基礎(chǔ)上進(jìn)行改進(jìn)的,并取得了不錯(cuò)的效果。范昊等人[10]提出了一種融合BERT、TEXTCNN、BILSTM的新聞標(biāo)題文本分類模型,將使用BERT生成的新聞標(biāo)題文本向量輸入到TEXTCNN提取特征,將TEXTCNN的結(jié)果輸入到BILSTM捕獲新聞標(biāo)題上下文信息,利用softmax 判斷分類結(jié)果,其在準(zhǔn)確率、精確率、召回率和F1 值均達(dá)到了0.92 以上,而且具有良好的泛化能力,優(yōu)于傳統(tǒng)的文本分類模型。張海豐等人[11]提出了結(jié)合BERT和特征投影網(wǎng)絡(luò)的新聞主題文本分類方法,在今日頭條、搜狐新聞、THUCNews-L、THUCNews-S 數(shù)據(jù)集上相較于基線BERT 方法在準(zhǔn)確率、宏平均F1值上均具有更好的表現(xiàn)。楊文浩等人[12]在BERT預(yù)訓(xùn)練語言模型的基礎(chǔ)上提出一種融合多層等長卷積和殘差連接的新聞標(biāo)簽分類模型,將新聞文本中的每個(gè)字轉(zhuǎn)換為向量輸入到BERT 模型中以獲取文本的全文上下文關(guān)系,通過初始語義提取層和深層等長卷積來獲取文本中的局部上下文關(guān)系,最后通過單層全連接神經(jīng)網(wǎng)絡(luò)獲得整個(gè)新聞文本的預(yù)測(cè)標(biāo)簽。與卷積神經(jīng)網(wǎng)絡(luò)分類模型(Text CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)分類模型(TextRNN)等模型進(jìn)行對(duì)比,模型的預(yù)測(cè)準(zhǔn)確率達(dá)到94.68%,F(xiàn)1值達(dá)到94.67%,優(yōu)于對(duì)比模型。
2020年,引領(lǐng)NLP社區(qū)的GPT-3在眾多自然語言理解任務(wù)中展現(xiàn)了驚人能力,GPT-3僅僅通過一個(gè)自然語言提示和少量的任務(wù)示例就可以做出正確的預(yù)測(cè)。隨著GPT-3 的誕生打破了傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)模式,越來越多的學(xué)者開始研究提示學(xué)習(xí),現(xiàn)在提示學(xué)習(xí)已成為NLP研究的第四范式[8],是NLP領(lǐng)域的一大熱點(diǎn)。提示學(xué)習(xí)不需要對(duì)預(yù)訓(xùn)練模型改動(dòng)太多,而是利用合適的提示模板重新定義下游任務(wù)。提示學(xué)習(xí)已經(jīng)在很多NLP任務(wù)上達(dá)到了較好的效果,比如自然語言推理、情感分類和知識(shí)檢索等。Schick等人[7]介紹了一種基于模版和詞遮蓋將文本分類任務(wù)轉(zhuǎn)換為完形填空任務(wù)的半監(jiān)督訓(xùn)練方法,這種訓(xùn)練模式被稱為pattern-exploiting training(PET),僅使用RoBERTa-base 模型就在多個(gè)半監(jiān)督場景下取得了當(dāng)時(shí)最先進(jìn)的結(jié)果。在上述半監(jiān)督場景工作的基礎(chǔ)上,通過將ALBERT 和GPT-3 在SuperGLUE基準(zhǔn)數(shù)據(jù)集上進(jìn)行對(duì)比,進(jìn)一步挖掘了PET訓(xùn)練在小樣本場景下的潛力。同時(shí)作者也指出通過適當(dāng)?shù)臉?gòu)造,用BERT 的MLM 模型也可以做小樣本學(xué)習(xí)[13]。陳丹琦等人[14]借鑒GPT-3 思想,將提示思想運(yùn)用在語言模型上,通過少量樣本進(jìn)行微調(diào),在SST-2等16個(gè)任務(wù)上表現(xiàn)突出,比普通的標(biāo)準(zhǔn)微調(diào)方法最高提升30%,平均提升11%。清華大學(xué)將提示學(xué)習(xí)用于細(xì)粒度實(shí)體分類,提出一種基于掩碼語言模型的提示學(xué)習(xí)管道方法,并在三個(gè)公開數(shù)據(jù)集的大量實(shí)驗(yàn)中發(fā)現(xiàn)全監(jiān)督、小樣本和零樣本取得的效果遠(yuǎn)高于基于微調(diào)的方法[15]。目前已有研究將提示學(xué)習(xí)與BERT 模型結(jié)合用于軟件需求的精確分類,并在PROMISE 數(shù)據(jù)集上的F1 分?jǐn)?shù)遠(yuǎn)勝過SVM 分類算法和NoRBERT,而且提示學(xué)習(xí)針對(duì)少樣本類的提升效果遠(yuǎn)大于多樣本類的提升效果[9]。由此可見提示學(xué)習(xí)在小樣本學(xué)習(xí)上借助中等大小的語言模型(如BERT)能實(shí)現(xiàn)較好的效果。因此本文提出將提示學(xué)習(xí)的思想用于新聞?shì)浨榈娘L(fēng)險(xiǎn)識(shí)別方面,并探究其跟普通微調(diào)方法效果的對(duì)比,以及在小樣本數(shù)據(jù)集上的表現(xiàn)。
基于提示學(xué)習(xí)的新聞?shì)浨轱L(fēng)險(xiǎn)識(shí)別方法將提示思想用于BERT模型上,將風(fēng)險(xiǎn)識(shí)別轉(zhuǎn)化為MLM任務(wù),通過[MASK]位置的輸出來判斷類別。提示學(xué)習(xí)包括提示工程的構(gòu)造、預(yù)訓(xùn)練模型的選擇、答案工程的構(gòu)造三部分。本文中選用的預(yù)訓(xùn)練模型是BERT,構(gòu)建好的提示工程作為BERT 模型的輸入,設(shè)計(jì)好的答案工程將BERT模型的輸出映射到具體風(fēng)險(xiǎn)標(biāo)簽。新聞?shì)浨轱L(fēng)險(xiǎn)識(shí)別的總體框架如圖1所示,包括新聞文本的提示工程層、新聞文本的模型訓(xùn)練層、新聞文本的答案工程層,下面將對(duì)每一層進(jìn)行詳細(xì)介紹。
圖1 風(fēng)險(xiǎn)識(shí)別框架圖Fig.1 Overview diagram of risk identification
由于本文運(yùn)用了提示學(xué)習(xí)的思想,所以首先需要構(gòu)造一個(gè)提示工程。提示模板可以有多種方式設(shè)定,手寫模板、自動(dòng)離散模板、自動(dòng)連續(xù)模板等,本文采用手寫模板的形式進(jìn)行設(shè)計(jì),本實(shí)驗(yàn)中的提示模板設(shè)計(jì)為:“新聞涉及[MASK][MASK][MASK][MASK]風(fēng)險(xiǎn)。+新聞分類文本”。這種方式相當(dāng)于在新聞分類文本前添加提示語,進(jìn)一步明確了分類任務(wù),使模型可利用更多的信息,充分發(fā)揮預(yù)訓(xùn)練模型的潛能。在本文中風(fēng)險(xiǎn)標(biāo)簽長度不一樣,但是MASK 風(fēng)險(xiǎn)標(biāo)簽時(shí)有相對(duì)的位置固定,而且MLM 模型無法預(yù)測(cè)不定長的答案,所以為了模型方便處理需將風(fēng)險(xiǎn)標(biāo)簽處理成相同長度的字符??紤]到MLM所使用的獨(dú)立假設(shè)限制了它對(duì)長文本的預(yù)測(cè)能力(空位處的文字不能太長),所以本文將風(fēng)險(xiǎn)標(biāo)簽歸納成四個(gè)字。
將“新聞涉及實(shí)控變更風(fēng)險(xiǎn)。+新聞分類文本”(以“實(shí)控變更”風(fēng)險(xiǎn)標(biāo)簽為例)輸入模型,如圖2 所示。模型在接收和讀取輸入序列之后,首先會(huì)對(duì)輸入序列進(jìn)行處理,在風(fēng)險(xiǎn)標(biāo)簽對(duì)應(yīng)的位置采用[MASK]替換掉,在輸入序列中插入[CLS]、[SEP]、[MASK]標(biāo)簽。[CLS]會(huì)被插到句子頭部,同時(shí)也作為句子開始的標(biāo)志,[SEP]會(huì)被插到句子尾部。[MASK]是遮蔽標(biāo)簽,處于該位置的詞將會(huì)被隱藏。模型通過查詢字向量表將輸入序列的每個(gè)字轉(zhuǎn)化成一維向量,然后融合塊向量和位置向量作為模型的總輸入向量。
圖2 提示學(xué)習(xí)預(yù)測(cè)風(fēng)險(xiǎn)標(biāo)簽Fig.2 Risk identification based on prompt
模型訓(xùn)練層主要由堆疊在一起的Transformer 編碼器組成,每個(gè)編碼器包含多頭自注意力層(multi-head attention)和前饋神經(jīng)網(wǎng)絡(luò)層(feedforward)兩個(gè)子層。多頭自注意力機(jī)制相當(dāng)于多個(gè)不同的自注意力模型的集成,類似于卷積神經(jīng)網(wǎng)絡(luò)中的多個(gè)卷積核,不同的自注意力頭可以抽取不同的特征。Transformer 架構(gòu)實(shí)現(xiàn)了重要的并行處理,可以縮短模型的訓(xùn)練時(shí)間。
MLM 預(yù)訓(xùn)練模型對(duì)文本采用先遮蔽后預(yù)測(cè)的方法,先完全遮蔽輸入文本中的部分詞,然后通過Transformer 中的注意力機(jī)制使用上下全文來預(yù)測(cè)被遮住的詞,以一種更符合人類語言習(xí)慣的過程來學(xué)習(xí)表達(dá)詞向量,這也體現(xiàn)了BERT模型的雙向性。在遮蔽語言模型中,本文中選擇的遮蔽區(qū)域就是要預(yù)測(cè)的風(fēng)險(xiǎn)標(biāo)簽部分,在該步驟中,被選擇的特殊標(biāo)記會(huì)被[MASK]代替,以此來完全遮蔽某一個(gè)字符在層次編碼中的全部信息。如:“新聞涉及實(shí)控變更風(fēng)險(xiǎn)”,這句話遮蔽之后就會(huì)變成“新聞涉及[MASK][MASK][MASK][MASK]風(fēng)險(xiǎn)”。輸入向量經(jīng)過Transformer編碼器訓(xùn)練之后,連接兩個(gè)全連接層并對(duì)第一個(gè)全連接層進(jìn)行歸一化處理,通過最后一個(gè)全連接層的輸出在[MASK]的位置上得到模型認(rèn)為正確的預(yù)測(cè)詞。
由于MLM 生成文本的結(jié)果沒有范圍限制,所以最后預(yù)測(cè)結(jié)果不僅局限于“罰款查處”“實(shí)控變更”等目標(biāo)詞,這時(shí)需要建立答案工程即構(gòu)建一個(gè)詞庫與標(biāo)簽的映射詞表,用來映射預(yù)測(cè)詞語與標(biāo)簽,將預(yù)測(cè)結(jié)果映射回下游任務(wù)需要的輸出形式[16]。具體做法是遍歷所有風(fēng)險(xiǎn)標(biāo)簽,尋找預(yù)測(cè)結(jié)果與風(fēng)險(xiǎn)標(biāo)簽中編輯距離(edit distance)最小的一個(gè),并返回其名字,若有多個(gè)相同,則優(yōu)先返回靠前面的風(fēng)險(xiǎn)標(biāo)簽,具體事例如圖2所示。其中編輯距離是對(duì)兩個(gè)字符串的差異程度的量化量測(cè),量測(cè)方式是看至少需要多少次的處理(包括刪除、加入、取代字符串中的任何一個(gè)字元)才能將一個(gè)字符串變成另一個(gè)字符串。以計(jì)算字符串str1 和str2 的編輯距離為例,其計(jì)算公式為:
disstr1,str2(i,j)表示str1 的前i個(gè)字符和str2 的前j個(gè)字符之間的距離,i和j分別表示字符串str1 和str2 的下標(biāo),都從1 開始。是一個(gè)指示函數(shù),當(dāng)str1i≠str2j時(shí)的值為1,其余值是0。
總之,基于BERT的提示學(xué)習(xí)旨在添加一個(gè)額外的模板,復(fù)用預(yù)訓(xùn)練好的MLM分類器(BertForMaskedLM)即可直接得到[MASK]預(yù)測(cè)的各個(gè)詞的概率分布,但是不同于MLM 傳統(tǒng)的訓(xùn)練目標(biāo),傳統(tǒng)的MLM 訓(xùn)練目標(biāo)是預(yù)測(cè)隨機(jī)遮蔽的輸入文本中的詞,而添加了提示模板的MLM的訓(xùn)練目標(biāo)是預(yù)測(cè)特定的遮蔽詞。微調(diào)在進(jìn)行文本分類任務(wù)時(shí)需要在預(yù)訓(xùn)練語言模型的基礎(chǔ)上再增加一個(gè)分類器,這需要引入新的參數(shù)。
實(shí)際上提示可以看作是對(duì)預(yù)訓(xùn)練模型中已經(jīng)記憶知識(shí)的一種檢索方式,由于提示任務(wù)形式和預(yù)訓(xùn)練任務(wù)一致,和微調(diào)相比,當(dāng)使用提示形式向模型輸入樣本時(shí),預(yù)測(cè)得到了“提示”,因此所需要使用到的信息量更多,這也是提示學(xué)習(xí)在小樣本上效果顯著的原因。
本次實(shí)驗(yàn)用到的數(shù)據(jù)集是從AIWIN 比賽(世界人工智能創(chuàng)新大賽)獲取的數(shù)據(jù)集(其網(wǎng)址為http://ailab.aiwin.org.cn/competitions/48#learn_the_details),數(shù)據(jù)從新聞、博客、長微博等文章類型中提取,來自今日頭條、搜狐新聞、證券日?qǐng)?bào)等網(wǎng)站。由于提供的測(cè)試集中無標(biāo)簽故使用了該比賽的訓(xùn)練集進(jìn)行實(shí)驗(yàn)。訓(xùn)練集中共有11 685 條數(shù)據(jù),13 個(gè)風(fēng)險(xiǎn)標(biāo)簽,在數(shù)據(jù)集中風(fēng)險(xiǎn)標(biāo)簽的對(duì)應(yīng)的關(guān)系如表1所示。
表1 風(fēng)險(xiǎn)標(biāo)簽對(duì)應(yīng)labelTable 1 Risk labels corresponding to label index
標(biāo)簽為“無”表明該條數(shù)據(jù)不包含需要識(shí)別的風(fēng)險(xiǎn)標(biāo)簽,由于風(fēng)險(xiǎn)標(biāo)簽為“無”占比過高且無實(shí)際意義故去除標(biāo)簽為“無”的數(shù)據(jù),去除重復(fù)數(shù)據(jù),最終剩下7 274條數(shù)據(jù)。這些數(shù)據(jù)對(duì)應(yīng)的12個(gè)風(fēng)險(xiǎn)標(biāo)簽的具體分布如圖3所示。從統(tǒng)計(jì)結(jié)果可以看出新聞風(fēng)險(xiǎn)標(biāo)簽的數(shù)據(jù)集類別分布相對(duì)較為均勻。
圖3 各風(fēng)險(xiǎn)標(biāo)簽分布Fig.3 Risk labels
本文要實(shí)現(xiàn)新聞?shì)浨轱L(fēng)險(xiǎn)標(biāo)簽的識(shí)別,故保留新聞和對(duì)應(yīng)的風(fēng)險(xiǎn)標(biāo)簽兩列數(shù)據(jù)。將這些數(shù)據(jù)按照8∶2 的比例劃分為訓(xùn)練集和測(cè)試集,再從劃分出來的訓(xùn)練集中按照9∶1的比例劃分為訓(xùn)練集和驗(yàn)證集,具體數(shù)據(jù)如表2所示。
表2 數(shù)據(jù)集分布Table 2 Dataset distribution
構(gòu)造提示工程需要將數(shù)據(jù)集處理成對(duì)應(yīng)的數(shù)據(jù)模板類型,具體做法是在每一條新聞前面加上“該新聞涉及XXXX風(fēng)險(xiǎn)?!逼渲蠿XXX是由實(shí)際的風(fēng)險(xiǎn)標(biāo)簽簡要概括的四個(gè)字,字?jǐn)?shù)要求根據(jù)實(shí)驗(yàn)要求來確定,若提取的字?jǐn)?shù)未達(dá)到規(guī)定長度則用[PAD]補(bǔ)齊。同時(shí)新聞對(duì)應(yīng)的風(fēng)險(xiǎn)標(biāo)簽這一列也按照相同規(guī)則進(jìn)行修改。
為了進(jìn)一步探究提示學(xué)習(xí)在小樣本數(shù)據(jù)集上的效果,本文設(shè)計(jì)了小樣本數(shù)據(jù)實(shí)驗(yàn)并將訓(xùn)練集分別設(shè)計(jì)為500、1 000、1 500、2 000條新聞,驗(yàn)證集和測(cè)試集則保持不變。具體取樣規(guī)則:根據(jù)每類風(fēng)險(xiǎn)標(biāo)簽在訓(xùn)練集中的占比情況等比例地從訓(xùn)練集中抽取每類風(fēng)險(xiǎn)標(biāo)簽的數(shù)目。
本文采用準(zhǔn)確率Acc(Accuracy)、精確率P(Precision)與召回率R(Recall)的宏平均F1(Mairo-F1)值對(duì)模型進(jìn)行評(píng)價(jià)。Acc 和Mairo-F1 都是目前新聞文本分類研究常用的多類別分類任務(wù)評(píng)價(jià)指標(biāo)[11]。
本文的實(shí)驗(yàn)采用hfl/chinese-roberta-wwm-ext 預(yù)訓(xùn)練模型進(jìn)行初始化,使用Huggingface-Transformers加載模型。該模型有12個(gè)子層,其隱藏維度為768,注意力模型頭數(shù)為12,總計(jì)1.1億參數(shù)量。訓(xùn)練時(shí)學(xué)習(xí)率(learning rate)固定為1E-5,權(quán)值衰減(weight decay)為1E-2,時(shí)期(epoch)設(shè)置為10,數(shù)據(jù)批量(batch size)大小為16,序列最大長度為300 子詞,優(yōu)化器選擇Adam。本實(shí)驗(yàn)的軟硬件實(shí)驗(yàn)環(huán)境如表3所示。
表3 軟硬件實(shí)驗(yàn)環(huán)境Table 3 Hardware and software experiment environment
微調(diào)實(shí)驗(yàn)訓(xùn)練時(shí)的學(xué)習(xí)率、權(quán)重衰減、時(shí)期、數(shù)據(jù)批量、序列最大長度、優(yōu)化器以及軟硬件實(shí)驗(yàn)環(huán)境與本文方法保持一致。
4.3.1 綜合性能分析
本小節(jié)通過對(duì)風(fēng)險(xiǎn)標(biāo)簽的分類實(shí)驗(yàn)論證提示學(xué)習(xí)相比微調(diào)基準(zhǔn)模型的優(yōu)越性。從每一條新聞中識(shí)別出不同的風(fēng)險(xiǎn)標(biāo)簽對(duì)于輿情分析具有重大意義,可以幫助企業(yè)更快地掌握目前所面臨的問題,從而更好地提高企業(yè)面對(duì)風(fēng)險(xiǎn)時(shí)的處理能力。因此本實(shí)驗(yàn)將對(duì)AIWIN比賽數(shù)據(jù)集風(fēng)險(xiǎn)標(biāo)簽進(jìn)行預(yù)測(cè),選取了12 個(gè)風(fēng)險(xiǎn)標(biāo)簽作為新聞?shì)浨榈姆诸悓?duì)象,同時(shí)在新聞中添加了提示模板,根據(jù)模板的設(shè)計(jì)可將風(fēng)險(xiǎn)標(biāo)簽改成4 個(gè)字,并在不同大小的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后觀察模型的預(yù)測(cè)能力。實(shí)驗(yàn)選擇的基準(zhǔn)為BERT 模型,分別使用hfl/chinese-bert-wwm和hfl/chinese-roberta-wwm-ext預(yù)訓(xùn)練模型對(duì)其進(jìn)行初始化。如表4所示,運(yùn)用提示學(xué)習(xí)方法在新聞?shì)浨樗袠颖緮?shù)據(jù)上取得的風(fēng)險(xiǎn)標(biāo)簽分類準(zhǔn)確度、精確率、召回率以及Mairo-F1均略高于微調(diào)。
表4 風(fēng)險(xiǎn)標(biāo)簽分類性能Table 4 Risk identification performance
同時(shí)為了驗(yàn)證模型在小數(shù)據(jù)樣本上的表現(xiàn)能力,本文通過設(shè)置了樣本數(shù)據(jù)為500、1 000、1 500、2 000 的實(shí)驗(yàn),如表5所示,在這些不同樣本數(shù)據(jù)情況下,基于提示學(xué)習(xí)的預(yù)訓(xùn)練模型的Acc 和Mairo-F1 均高于微調(diào)的效果,且樣本數(shù)據(jù)越少提升效果越明顯。
表5 不同樣本數(shù)據(jù)實(shí)驗(yàn)結(jié)果Table 5 Experimental results under different samples
4.3.2 樣例分析
對(duì)于同一條新聞,用提示學(xué)習(xí)方法和用微調(diào)的方法預(yù)測(cè)得到的標(biāo)簽可能不一樣,所以給出了兩個(gè)樣例分析,如圖4 所示。提示學(xué)習(xí)是一個(gè)生成式任務(wù),生成的答案和標(biāo)簽不能一一匹配,需要一個(gè)映射過程將生成的答案映射到已有的標(biāo)簽。在樣例1 中提示學(xué)習(xí)生成了環(huán)境污染標(biāo)簽,映射到數(shù)據(jù)集中的標(biāo)簽也是環(huán)境污染。提示學(xué)習(xí)的誤差來自映射階段,但在本實(shí)驗(yàn)數(shù)據(jù)集上由于標(biāo)簽之間語義信息差別較大,在進(jìn)行映射時(shí)出錯(cuò)率較低,不會(huì)將環(huán)境污染映射到實(shí)控人變更或安全事故等標(biāo)簽上。在樣例2中提示學(xué)習(xí)生成了罰款查處的標(biāo)簽,但映射到數(shù)據(jù)集中的標(biāo)簽卻是被政府機(jī)構(gòu)罰款查處,此時(shí)提示學(xué)習(xí)的生成沒有接近正確的標(biāo)簽,所以映射到了跟生成語義接近的標(biāo)簽。提示學(xué)習(xí)的缺點(diǎn)在于映射,把已經(jīng)生成的標(biāo)簽映射到正確的標(biāo)簽上有一定的難度,現(xiàn)在主要是通過人工設(shè)置規(guī)則來構(gòu)造映射器,后期的研究可以考慮一些其他的方法,比如說連續(xù)提示學(xué)習(xí)。微調(diào)加分類的傳統(tǒng)模式把標(biāo)簽當(dāng)成0,1,…,11等數(shù)值,沒有考慮標(biāo)簽的語義,所以總體上還是提示學(xué)習(xí)預(yù)測(cè)對(duì)的比例較高。
圖4 提示學(xué)習(xí)與微調(diào)預(yù)測(cè)樣例對(duì)比Fig.4 Prompt learning vs fine-tuning
本文將提示學(xué)習(xí)的思想用于BERT模型上,將新聞?shì)浨榈娘L(fēng)險(xiǎn)標(biāo)簽分類任務(wù)轉(zhuǎn)化成MLM任務(wù),在AIWIN比賽數(shù)據(jù)集的不同數(shù)量的樣本上進(jìn)行了實(shí)驗(yàn),并跟微調(diào)的方法進(jìn)行了對(duì)比。實(shí)驗(yàn)有力地證明了提示學(xué)習(xí)對(duì)比微調(diào)方法的優(yōu)越性,使用提示學(xué)習(xí)去調(diào)節(jié)預(yù)訓(xùn)練模型在處理風(fēng)險(xiǎn)標(biāo)簽分類任務(wù)上的效果比直接微調(diào)模型的效果更好,且在小樣本數(shù)據(jù)上的改善尤為突出。運(yùn)用提示學(xué)習(xí)思想直接讓下游風(fēng)險(xiǎn)標(biāo)簽分類任務(wù)適應(yīng)提示學(xué)習(xí)模板,通過[MASK]位置預(yù)測(cè)風(fēng)險(xiǎn)標(biāo)簽,更加突出預(yù)訓(xùn)練模型的真實(shí)能力。
新聞?shì)浨轱L(fēng)險(xiǎn)識(shí)別一直以來是各個(gè)企業(yè)關(guān)注的重點(diǎn),此次將提示學(xué)習(xí)的思想用于新聞?shì)浨轱L(fēng)險(xiǎn)識(shí)別方面也是一次新的嘗試。實(shí)驗(yàn)中的提示模板是人工設(shè)計(jì)的并不唯一,不同的提示模板會(huì)有不同的實(shí)驗(yàn)效果,而且人工設(shè)計(jì)的模板遷移有局限,后期可以嘗試自動(dòng)設(shè)計(jì)的模板。本文是將提示思想用于BERT 的MLM 任務(wù)上,將提示思想用于BERT 的NSP 任務(wù)也是一個(gè)可以嘗試的方向。除了BERT預(yù)訓(xùn)練模型外,還可以將提示學(xué)習(xí)的思想用于ELECTRA 等預(yù)訓(xùn)練模型上。當(dāng)前關(guān)于提示學(xué)習(xí)的研究還在如火如荼地進(jìn)行,研究的方向越來越多,提示學(xué)習(xí)的一些限制、框架的完善都是未來可以繼續(xù)探索的地方。