呂政偉,楊 雷,石智中,梁 霄,雷 濤,劉多星
(汽車(chē)之家, 北京 100080)
隨著近幾年智能問(wèn)答的高速發(fā)展,閱讀理解問(wèn)答作為其重要發(fā)展方向之一,也逐漸成為各領(lǐng)域的研究和應(yīng)用熱點(diǎn)。不同于傳統(tǒng)問(wèn)答系統(tǒng)中利用知識(shí)表示和檢索方式獲取答案[1-2],基于閱讀理解的問(wèn)答利用模型直接對(duì)非結(jié)構(gòu)化文檔進(jìn)行認(rèn)知,從而獲取給定問(wèn)題的答案[3-5]。這種方式減少了知識(shí)的收集和表示過(guò)程,具有重要的研究和應(yīng)用價(jià)值。
閱讀理解問(wèn)答根據(jù)答案的產(chǎn)生方式,分為選擇式、抽取式、生成式等類型,其中,抽取式閱讀理解根據(jù)問(wèn)題從文檔中抽取一個(gè)連續(xù)片段作為答案,不用考慮答案的序列生成問(wèn)題,答案獲取方式直接,標(biāo)注相對(duì)方便,難度適中,因此對(duì)抽取式閱讀理解的研究相對(duì)較多。一系列大規(guī)模、高質(zhì)量評(píng)測(cè)數(shù)據(jù)集的發(fā)布,如SQuAD數(shù)據(jù)集[6-7]、DuReader數(shù)據(jù)集[8]、CMRC 2018數(shù)據(jù)集[9]等,促進(jìn)了對(duì)閱讀理解問(wèn)答的研究。但是這些數(shù)據(jù)集偏向于通用領(lǐng)域或百科知識(shí),內(nèi)容廣而泛,針對(duì)垂直領(lǐng)域?qū)I(yè)性的知識(shí)少,因此,面向垂直領(lǐng)域的抽取式閱讀理解的數(shù)據(jù)標(biāo)注和應(yīng)用研究十分必要。
在抽取式閱讀理解數(shù)據(jù)集的標(biāo)注過(guò)程中,標(biāo)注人員提出的問(wèn)題容易出現(xiàn)標(biāo)注數(shù)據(jù)模式化、表達(dá)方式單一、多樣性不足的問(wèn)題,從而導(dǎo)致在應(yīng)用中造成模型的準(zhǔn)確性和魯棒性較差。數(shù)據(jù)增強(qiáng)通常被用來(lái)解決這一問(wèn)題,其原理是通過(guò)無(wú)監(jiān)督、半監(jiān)督或者有監(jiān)督的方法構(gòu)造新的訓(xùn)練樣本,對(duì)原始的訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,增加訓(xùn)練數(shù)據(jù)的量級(jí)和多樣性,從而提升模型的準(zhǔn)確性和魯棒性。在機(jī)器閱讀理解中,常見(jiàn)的數(shù)據(jù)增強(qiáng)方法有以下幾種。
遠(yuǎn)程監(jiān)督方法: 為利用外部知識(shí)庫(kù)自動(dòng)對(duì)語(yǔ)料進(jìn)行標(biāo)注[10],構(gòu)造訓(xùn)練數(shù)據(jù),增加數(shù)據(jù)的量級(jí)。然而,這種方法會(huì)引入很大的噪聲,影響模型的語(yǔ)義理解,如圖1所示,當(dāng)問(wèn)題的答案“日本”在一篇文檔中多次重復(fù)出現(xiàn),答案的標(biāo)注位置不能很好地確定時(shí),將會(huì)影響模型整體的語(yǔ)義理解。
圖1 遠(yuǎn)程監(jiān)督方法構(gòu)造訓(xùn)練數(shù)據(jù)
問(wèn)題生成方法: 該方法利用模型生成標(biāo)注數(shù)據(jù)中問(wèn)題的同義復(fù)述[11-12],實(shí)現(xiàn)增加問(wèn)題表達(dá)的多樣性。但是,目前序列生成技術(shù)不夠成熟,且缺乏適當(dāng)?shù)脑u(píng)測(cè)指標(biāo),生成數(shù)據(jù)的質(zhì)量難以控制,最終會(huì)導(dǎo)致構(gòu)造數(shù)據(jù)的誤差大、閱讀理解模型效果差。
完全生成方法: 該方法給定未標(biāo)注文檔,首先利用模型從文檔中獲取適合作為答案的片段,再根據(jù)文檔內(nèi)容和該片段生成相關(guān)問(wèn)題。這種方法不需要已有閱讀理解標(biāo)注數(shù)據(jù)即可構(gòu)造數(shù)據(jù),能極大地提升構(gòu)造數(shù)據(jù)的量級(jí)和覆蓋范圍。但該方法引入的誤差較大,除了問(wèn)題生成環(huán)節(jié)的誤差,在答案片段選取環(huán)節(jié)、問(wèn)題和答案相關(guān)性等方面也會(huì)引入誤差,形成誤差的累積,最終影響構(gòu)造數(shù)據(jù)的質(zhì)量。
上述方法都是針對(duì)通用領(lǐng)域的研究,忽略了數(shù)據(jù)增強(qiáng)與實(shí)際應(yīng)用數(shù)據(jù)的結(jié)合,造成構(gòu)造數(shù)據(jù)與應(yīng)用數(shù)據(jù)之間的語(yǔ)義偏差,影響模型的應(yīng)用效果。另外,在垂直領(lǐng)域中,領(lǐng)域術(shù)語(yǔ)多,問(wèn)題更為專業(yè),衍生出的表達(dá)方式更多樣化,用遠(yuǎn)程監(jiān)督或模型生成方式構(gòu)造的數(shù)據(jù),很難滿足專業(yè)性和多樣性,容易造成模型應(yīng)用中準(zhǔn)確率低、魯棒性差。
針對(duì)以上問(wèn)題,本文提出了一種垂直領(lǐng)域中基于真實(shí)用戶問(wèn)題的數(shù)據(jù)增強(qiáng)方法,該方法也是對(duì)訓(xùn)練數(shù)據(jù)中的問(wèn)題產(chǎn)生復(fù)述,以增加數(shù)據(jù)的多樣性,但不采用序列生成的方式,而是基于用戶問(wèn)題的表達(dá)形式進(jìn)行構(gòu)造,避免了序列生成模型的訓(xùn)練,增加數(shù)據(jù)的可控性。同時(shí),構(gòu)造數(shù)據(jù)是基于真實(shí)數(shù)據(jù)產(chǎn)生的,增加了數(shù)據(jù)的一致性。該方法首先通過(guò)實(shí)體識(shí)別構(gòu)建問(wèn)題的語(yǔ)義原型庫(kù),并利用相似度計(jì)算獲取當(dāng)前問(wèn)題的相似原型,然后對(duì)相似原型進(jìn)行語(yǔ)義泛化,構(gòu)造出包含真實(shí)語(yǔ)義結(jié)構(gòu)的同義問(wèn)句,增加問(wèn)題的多樣性,從而增加整個(gè)訓(xùn)練數(shù)據(jù)的量級(jí)和多樣性。我們將本文提出的方法在真實(shí)汽車(chē)領(lǐng)域數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本方法能有效提升問(wèn)答模型的準(zhǔn)確率和魯棒性。
綜上所述,本文的主要貢獻(xiàn)包括: ①提出了一種垂直領(lǐng)域中基于真實(shí)問(wèn)題的數(shù)據(jù)增強(qiáng)方法,提升了模型的準(zhǔn)確率和魯棒性; ②在汽車(chē)領(lǐng)域數(shù)據(jù)上對(duì)多個(gè)模型和數(shù)據(jù)增強(qiáng)方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
SQuAD等大規(guī)模評(píng)測(cè)數(shù)據(jù)的出現(xiàn),引起學(xué)術(shù)界和工業(yè)界對(duì)抽取式閱讀理解的深入研究,R-Net[3]、DrQA[4]、QANet[5]等一大批深度學(xué)習(xí)模型被相繼提出。隨著B(niǎo)ERT[13]、RoBERTA[14]、AlBERT[15]等預(yù)訓(xùn)練模型的提出,抽取式閱讀理解取得了突破性進(jìn)展,多種基于預(yù)訓(xùn)練模型的方法,在SQuAD 2.0數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)超過(guò)了人類水平。本文根據(jù)各種深度學(xué)習(xí)模型和預(yù)訓(xùn)練模型,對(duì)垂直領(lǐng)域抽取式閱讀理解的數(shù)據(jù)增強(qiáng)方法進(jìn)行研究,以提升各種模型在垂直領(lǐng)域中的準(zhǔn)確率和魯棒性。在機(jī)器閱讀理解任務(wù)中,常用的數(shù)據(jù)增強(qiáng)方法有遠(yuǎn)程監(jiān)督方法、問(wèn)題生成方法和完全生成方法三種。
遠(yuǎn)程監(jiān)督方法: 利用外部知識(shí)庫(kù)自動(dòng)對(duì)語(yǔ)料進(jìn)行標(biāo)注,構(gòu)造訓(xùn)練數(shù)據(jù),如Chen等[4]利用QA問(wèn)答對(duì)作為知識(shí)庫(kù),通過(guò)檢索得到相關(guān)文檔片段,構(gòu)造訓(xùn)練數(shù)據(jù)。Zhang等[16]通過(guò)知識(shí)三元組(E1,R,E2),用實(shí)體E1和關(guān)系R構(gòu)造問(wèn)題,實(shí)體E2作為答案,用問(wèn)題和答案檢索無(wú)標(biāo)注文檔,構(gòu)造訓(xùn)練數(shù)據(jù),從而增加數(shù)據(jù)量級(jí),提升模型性能。
問(wèn)題生成方法: 利用模型生成新的問(wèn)題,構(gòu)建訓(xùn)練數(shù)據(jù),包括生成相關(guān)問(wèn)題和生成同義復(fù)述問(wèn)題兩種。Zhu等[17]通過(guò)生成相關(guān)但不可回答的問(wèn)題,提升模型的語(yǔ)義理解能力,在SQuAD 2.0數(shù)據(jù)集上取得1.9個(gè)F1點(diǎn)的提升。Gan等[18]提出引導(dǎo)式的生成方法,利用Seq2Seq模型生成同義問(wèn)題,增加問(wèn)題的多樣性,提升模型的準(zhǔn)確性和魯棒性。
完全生成方法: 給定文檔,直接利用模型根據(jù)文檔內(nèi)容生成相關(guān)問(wèn)題和答案,構(gòu)造訓(xùn)練數(shù)據(jù)。如Subramanian等[19]利用模型先從文檔中提取關(guān)鍵短語(yǔ),并以該短語(yǔ)為參考答案生成相關(guān)的問(wèn)題,從而構(gòu)造訓(xùn)練數(shù)據(jù)。Puri等[20]先用BERT從文檔中提取答案片段,再將答案和文檔進(jìn)行拼接,利用GPT2[21]模型生成相關(guān)問(wèn)題,構(gòu)造訓(xùn)練數(shù)據(jù)。
以上幾種數(shù)據(jù)增強(qiáng)方法都是針對(duì)通用領(lǐng)域的研究,忽略了數(shù)據(jù)增強(qiáng)與實(shí)際應(yīng)用數(shù)據(jù)的結(jié)合,會(huì)造成在垂直領(lǐng)域應(yīng)用中構(gòu)造數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的語(yǔ)義偏差,從而影響模型應(yīng)用效果。另外,遠(yuǎn)程監(jiān)督的方法容易引入數(shù)據(jù)噪聲,問(wèn)題生成方法的數(shù)據(jù)質(zhì)量難以控制,并且需要訓(xùn)練序列生成模型,同時(shí)垂直領(lǐng)域中數(shù)據(jù)專業(yè)性程度高,領(lǐng)域?qū)嶓w數(shù)量多,表達(dá)多樣化,因此以上方法在垂直領(lǐng)域中并不適用。借鑒其他自然語(yǔ)言處理任務(wù)中利用替換的方式進(jìn)行數(shù)據(jù)增強(qiáng)的思想[22-23],本文提出了一種垂直領(lǐng)域中基于真實(shí)用戶問(wèn)題的數(shù)據(jù)增強(qiáng)方法。利用真實(shí)用戶數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)中的問(wèn)題進(jìn)行復(fù)述,以增加數(shù)據(jù)多樣性,避免了序列模型的訓(xùn)練,提升數(shù)據(jù)的可控性。同時(shí),構(gòu)造數(shù)據(jù)是基于真實(shí)數(shù)據(jù)產(chǎn)生的,增加了數(shù)據(jù)的一致性。最后在汽車(chē)領(lǐng)域數(shù)據(jù)集上,本文通過(guò)實(shí)驗(yàn)證明,該方法對(duì)模型的準(zhǔn)確率和魯棒性均能有效提升。
本文提出的數(shù)據(jù)增強(qiáng)方法是基于真實(shí)用戶問(wèn)題,該數(shù)據(jù)來(lái)源于問(wèn)答系統(tǒng)的日志記錄。首先通過(guò)實(shí)體識(shí)別對(duì)用戶問(wèn)題進(jìn)行處理,構(gòu)建語(yǔ)義原型庫(kù);然后利用相似度計(jì)算方法,從原型庫(kù)中獲取當(dāng)前問(wèn)題的若干相似原型;最后對(duì)相似原型進(jìn)行語(yǔ)義原型泛化,構(gòu)造出包含真實(shí)用戶問(wèn)題語(yǔ)義結(jié)構(gòu)的同義問(wèn)題。
問(wèn)題預(yù)處理,是將用戶問(wèn)題進(jìn)行實(shí)體識(shí)別,從而獲取問(wèn)題語(yǔ)義原型的過(guò)程。將問(wèn)句抽象為字符序列Q=(c1,c2,c3,c4,…,cn-1,cn),對(duì)序列Q進(jìn)行實(shí)體識(shí)別,得到序列如式(1)所示。
QT=[c1,…,E1(ci,ci+1),…,E2(ci+k),…,cn]
(1)
其中,Ei為識(shí)別出的實(shí)體,ci為問(wèn)句中的字符,QT稱為問(wèn)句的語(yǔ)義原型。將真實(shí)用戶數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建問(wèn)句的語(yǔ)義原型庫(kù),從而可以獲取大量的表達(dá)多樣的語(yǔ)義原型數(shù)據(jù)來(lái)構(gòu)造訓(xùn)練數(shù)據(jù)的同義問(wèn)題。
問(wèn)句預(yù)處理過(guò)程中的實(shí)體識(shí)別是指將文本中具有特定含義的文字片段作為一個(gè)整體識(shí)別出來(lái)。在通用領(lǐng)域,實(shí)體的類型主要有人名、地名、機(jī)構(gòu)名稱、專用名詞等;在汽車(chē)垂直領(lǐng)域,實(shí)體的類型有車(chē)系、車(chē)型、品牌、車(chē)身參數(shù)、配置等。
(2)
其中,ω1、ω2、ω3為權(quán)重參數(shù);R1為實(shí)體類型相關(guān)因子,代表兩個(gè)原型實(shí)體類型的相關(guān)性;R2為實(shí)體順序相關(guān)因子,代表兩個(gè)原型實(shí)體類型的先后順序一致性;R3為語(yǔ)義相關(guān)因子,代表兩個(gè)原型的語(yǔ)義相關(guān)性。
(3)
R2為實(shí)體順序相關(guān)因子,實(shí)體先后順序一致時(shí)R2=1,否則R2=0。R3為兩個(gè)原型的語(yǔ)義相似度值,本文語(yǔ)義相似度的計(jì)算采用SBERT[24]模型,首先將原型中的實(shí)體詞替換為實(shí)體名稱,得到新的問(wèn)題表示,利用孿生網(wǎng)絡(luò)對(duì)問(wèn)題中的字符進(jìn)行向量化表示,通過(guò)計(jì)算向量的余弦值得到問(wèn)題的相似度。網(wǎng)絡(luò)的訓(xùn)練和推理如圖2所示。訓(xùn)練階段,問(wèn)題1和問(wèn)題2輸入到BERT模型,經(jīng)過(guò)平均池化,輸出得到向量u和v。向量u、v及兩個(gè)向量?jī)?nèi)部元素的差值|u-v|進(jìn)行拼接,輸入到Softmax分類器中進(jìn)行訓(xùn)練。在推理階段,直接計(jì)算u和v的余弦值,得到R3值。
圖2 語(yǔ)義相似度計(jì)算網(wǎng)絡(luò)
語(yǔ)義原型泛化是對(duì)相似原型進(jìn)行處理獲取同義問(wèn)題的過(guò)程,利用問(wèn)題原型中的實(shí)體內(nèi)容,替換相似原型對(duì)應(yīng)的實(shí)體內(nèi)容,改變了相似原型問(wèn)句表達(dá)的內(nèi)容主體,但是相似原型的語(yǔ)義結(jié)構(gòu)保持不變,從而構(gòu)造出主體內(nèi)容一致、但表達(dá)形式多樣的同義問(wèn)題,能有效增強(qiáng)構(gòu)造數(shù)據(jù)中問(wèn)題的多樣性表達(dá)。
語(yǔ)義原型的泛化過(guò)程如圖3所示,通過(guò)對(duì)當(dāng)前問(wèn)題進(jìn)行處理,從原型庫(kù)選取與當(dāng)前問(wèn)題語(yǔ)義原型相似的若干原型,用當(dāng)前原型的實(shí)體,替換相似原型中同類別實(shí)體。例如,用“寶馬X3”替換“奧迪Q3”,用“價(jià)格”替換“錢(qián)”等,保留相似原型中的其他字符不變,從而得到當(dāng)前問(wèn)題的同義問(wèn)題。
圖3 基于語(yǔ)義原型的同義問(wèn)題構(gòu)造
本文對(duì)提出的數(shù)據(jù)增強(qiáng)方法在汽車(chē)領(lǐng)域數(shù)據(jù)集上進(jìn)行驗(yàn)證,該數(shù)據(jù)集通過(guò)人工標(biāo)注獲取,對(duì)給定的每篇資訊文章提出3~5個(gè)相關(guān)問(wèn)題并標(biāo)出答案位置。該數(shù)據(jù)集共包含905篇汽車(chē)類資訊文章和2 746個(gè)相關(guān)的問(wèn)題,分為訓(xùn)練集和測(cè)試集兩部分。為了驗(yàn)證魯棒性,對(duì)測(cè)試集中的問(wèn)題進(jìn)行人工復(fù)述,每個(gè)問(wèn)題生成若干個(gè)同義表達(dá),產(chǎn)生魯棒性測(cè)試集,共包含2 312個(gè)同義表達(dá)的問(wèn)題,數(shù)據(jù)樣例見(jiàn)表1,具體細(xì)節(jié)見(jiàn)表2。
表1 標(biāo)注數(shù)據(jù)樣例
表2 實(shí)驗(yàn)數(shù)據(jù)
本文在2.1節(jié)問(wèn)題預(yù)處理部分,實(shí)體識(shí)別是用汽車(chē)領(lǐng)域?qū)S玫膶?shí)體識(shí)別算法,能夠識(shí)別出車(chē)系、車(chē)型、品牌、車(chē)身參數(shù)、配置等領(lǐng)域?qū)嶓w。2.1節(jié)中語(yǔ)義原型相似度計(jì)算部分,SBERT語(yǔ)義相似度模型需要數(shù)據(jù)進(jìn)行訓(xùn)練。為了避免人工標(biāo)注,在網(wǎng)絡(luò)上搜集百度知道中的提問(wèn)和相關(guān)提問(wèn)數(shù)據(jù),用汽車(chē)領(lǐng)域的關(guān)鍵詞進(jìn)行篩選,最終得到約20萬(wàn)組相關(guān)問(wèn)題,約100萬(wàn)條數(shù)據(jù)。同組問(wèn)題組合標(biāo)記為正樣本,不同組數(shù)據(jù)組合標(biāo)記為負(fù)樣本,構(gòu)造模型的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),訓(xùn)練SBERT語(yǔ)義相似度模型。
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)方法的有效性,本文用BERT_base模型作為基準(zhǔn)模型進(jìn)行實(shí)驗(yàn),其中,Batch_size為6,Epoch為4,其他超參數(shù)保持不變,對(duì)比以下各種數(shù)據(jù)增強(qiáng)方法。
簡(jiǎn)單數(shù)據(jù)增強(qiáng)方法EDA[22]: 對(duì)原始訓(xùn)練數(shù)據(jù)集中的問(wèn)題進(jìn)行處理(同義詞替換、插入、刪除、交換位置)得到新問(wèn)題,隨機(jī)抽出新問(wèn)題與原始訓(xùn)練數(shù)據(jù)中的文檔進(jìn)行組合,構(gòu)造訓(xùn)練數(shù)據(jù)。
遠(yuǎn)程監(jiān)督增強(qiáng)方法DS[16]: 將汽車(chē)領(lǐng)域新聞資訊文章按段落進(jìn)行切分,構(gòu)建Elasticsearch索引,用汽車(chē)領(lǐng)域知識(shí)圖譜中3萬(wàn)個(gè)知識(shí)三元組數(shù)據(jù)進(jìn)行搜索,將檢索到的段落作為文檔D,用知識(shí)三元組(E1,R,E2)中的實(shí)體E1和關(guān)系R構(gòu)建問(wèn)題Q,實(shí)體E2作為答案A,構(gòu)建訓(xùn)練數(shù)據(jù)(Q,D,A)。
語(yǔ)義原型泛化增強(qiáng)方法PG: 本文所提數(shù)據(jù)增強(qiáng)方法。
以上三種方法在測(cè)試集和魯棒性測(cè)試集上的實(shí)驗(yàn)結(jié)果如圖4和圖5所示。橫坐標(biāo)Naug表示添加構(gòu)造數(shù)據(jù)的數(shù)量,Naug=0表示沒(méi)有添加構(gòu)造數(shù)據(jù),Naug=1表示添加了原始訓(xùn)練數(shù)據(jù)1倍數(shù)量的構(gòu)造數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,在汽車(chē)領(lǐng)域數(shù)據(jù)測(cè)試集和魯棒性測(cè)試集中PG方法效果要優(yōu)于其他兩種方法。
圖4 在測(cè)試集上三種方法對(duì)比實(shí)驗(yàn)PG方法提升效果明顯優(yōu)于EDA和DS方法;PG方法在EM和F1指標(biāo)上均有兩個(gè)點(diǎn)以上的提升;當(dāng)Naug大于16時(shí),三種方法效果均有下降趨勢(shì)。
圖5 在魯棒性測(cè)試集上三種方法對(duì)比實(shí)驗(yàn)三種方法對(duì)F1值均有提升效果,PG的提升效果明顯高于EDA和DS;對(duì)于EM指標(biāo),PG和EDA方法要優(yōu)于DS方法,并且DS方法隨著數(shù)據(jù)量的增加EM指標(biāo)呈明顯下降趨勢(shì)。
從圖4可以看出,在測(cè)試集中,PG方法構(gòu)造的數(shù)據(jù)對(duì)測(cè)試集的EM和F1值均有兩個(gè)點(diǎn)以上的提升。當(dāng)Naug為2~8時(shí),效果最好;當(dāng)Naug超過(guò)16時(shí),提升效果有所下降。其他兩種方法效果相當(dāng),對(duì)測(cè)試集幾乎沒(méi)有提升效果。對(duì)于遠(yuǎn)程監(jiān)督方法,汽車(chē)領(lǐng)域知識(shí)三元組數(shù)據(jù)量大,但是種類相對(duì)較少,構(gòu)造出來(lái)的數(shù)據(jù)形式相對(duì)單一。另外,數(shù)據(jù)構(gòu)造過(guò)程中也會(huì)引入較多的噪聲,這些噪聲可能對(duì)構(gòu)造數(shù)據(jù)質(zhì)量產(chǎn)生影響,從而影響實(shí)驗(yàn)結(jié)果;對(duì)于EDA構(gòu)造方法,形式上相對(duì)簡(jiǎn)單,在分類任務(wù)中有效果,在閱讀理解任務(wù)中表現(xiàn)不明顯。
從圖5可以看出,在魯棒性測(cè)試集中,三種方法對(duì)F1指標(biāo)均有提升效果,PG的提升效果明顯優(yōu)于其他兩種方法,EDA的方法略高于DS的方法。對(duì)于EM指標(biāo),PG和EDA方法優(yōu)于DS方法,并且DS方法隨著數(shù)據(jù)量的增加,EM指標(biāo)呈下降趨勢(shì)。由此可以看出,DS方法構(gòu)造的數(shù)據(jù)引入的噪聲相對(duì)較大,對(duì)原始訓(xùn)練數(shù)據(jù)造成了干擾。
為進(jìn)一步分析各種方法構(gòu)造出的訓(xùn)練數(shù)據(jù)的區(qū)別,本文使用原始數(shù)據(jù)量4倍的構(gòu)造數(shù)據(jù),分別按比例(0,0.2,0.4,0.6,0.8,1)加入原始訓(xùn)練數(shù)據(jù),進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖6所示,在測(cè)試集和魯棒性測(cè)試集中,PG和EDA效果相當(dāng),僅使用構(gòu)造數(shù)據(jù)就能達(dá)到與訓(xùn)練數(shù)據(jù)接近的效果。DS方法隨著原始訓(xùn)練數(shù)據(jù)的增加,效果逐步提升。DS方法構(gòu)造的數(shù)據(jù)完全沒(méi)有使用原始訓(xùn)練數(shù)據(jù),PG和EDA方法構(gòu)造的數(shù)據(jù)是在對(duì)原始訓(xùn)練數(shù)據(jù)微調(diào)的基礎(chǔ)上獲取的,因此在僅使用構(gòu)造數(shù)據(jù)時(shí),DS方法的效果明顯低于PG和EDA。
圖6 訓(xùn)練數(shù)據(jù)占比變化圖圖(a)、圖(b)是在測(cè)試集上隨著訓(xùn)練數(shù)據(jù)比例增加F1和EM指標(biāo)的變化,圖(c)、圖(d)是在魯棒性測(cè)試集上隨著訓(xùn)練數(shù)據(jù)比例增加F1和EM指標(biāo)的變化。在測(cè)試集和魯棒性測(cè)試集中,PG和EDA效果相當(dāng),僅使用構(gòu)造數(shù)據(jù)就能達(dá)到與訓(xùn)練數(shù)據(jù)接近的效果。DS方法隨著原始訓(xùn)練數(shù)據(jù)的增加,效果逐步提升;在僅使用構(gòu)造數(shù)據(jù)時(shí),DS方法的效果明顯低于PG和EDA。
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)方法在各種模型上的通用性,本文選擇近期在閱讀理解任務(wù)中表現(xiàn)突出的多個(gè)模型進(jìn)行實(shí)驗(yàn)。
BERT模型BERT模型在閱讀理解任務(wù)上取得了突破性的成績(jī),它采用多層Transformer結(jié)構(gòu)堆疊而成,層數(shù)不同,模型大小也不同,本文采用層數(shù)為12的BERT_base模型進(jìn)行微調(diào),驗(yàn)證方法的有效性,其中,Batch_size為6,Epoch為4,其他參數(shù)不變。
AlBERT模型AlBERT模型在BERT模型的基礎(chǔ)上進(jìn)行了改進(jìn),通過(guò)詞嵌入矩陣的分解和隱藏層參數(shù)共享,減少模型的參數(shù),提升模型的性能。本文選擇與BERT_base模型參數(shù)量相當(dāng)?shù)腁lBERT_xlarge模型進(jìn)行實(shí)驗(yàn),其中Batch_size為6,Epoch為4,其他參數(shù)不變。
DrQA模型DrQA模型是一個(gè)完整的端到端的閱讀理解問(wèn)答系統(tǒng),包含文檔檢索和文檔閱讀兩個(gè)模塊,本文僅使用文檔閱讀模塊驗(yàn)證方法的有效性。在實(shí)驗(yàn)中,數(shù)據(jù)預(yù)處理采用CoreNLP[25]進(jìn)行分詞和實(shí)體識(shí)別,使用騰訊中文詞向量[26]進(jìn)行詞嵌入,訓(xùn)練參數(shù)與原模型一致。
實(shí)驗(yàn)結(jié)果如表3所示,可以看出本文提出的數(shù)據(jù)增強(qiáng)方法在三個(gè)模型上均有效果,測(cè)試集和魯棒性測(cè)試集的F1和EM指標(biāo)都有兩個(gè)點(diǎn)以上的提升。從模型之間的對(duì)比可以看到: BERT、AlBERT預(yù)訓(xùn)練語(yǔ)言模型在閱讀理解任務(wù)中表現(xiàn)突出,DrQA是非預(yù)訓(xùn)練模型,沒(méi)有經(jīng)過(guò)大量無(wú)監(jiān)督數(shù)據(jù)的預(yù)訓(xùn)練,因此效果較差;在參數(shù)量相當(dāng)?shù)臅r(shí)候,經(jīng)過(guò)改進(jìn)的AlBERT模型效果比BERT更好。
表3 數(shù)據(jù)增強(qiáng)方法在多個(gè)模型上的實(shí)驗(yàn)結(jié)果
本文提出了一種垂直領(lǐng)域中基于真實(shí)用戶問(wèn)題的數(shù)據(jù)增強(qiáng)方法,該方法對(duì)真實(shí)用戶問(wèn)題的語(yǔ)義原型進(jìn)行泛化,構(gòu)造同義表達(dá)問(wèn)題,從而增強(qiáng)問(wèn)題的多樣性,同時(shí)提升構(gòu)造數(shù)據(jù)和應(yīng)用場(chǎng)景中數(shù)據(jù)的一致性,從而提升模型的準(zhǔn)確率和魯棒性。該方法結(jié)合了垂直領(lǐng)域的數(shù)據(jù)特點(diǎn)和相關(guān)技術(shù)方法,如領(lǐng)域?qū)嶓w識(shí)別技術(shù),在汽車(chē)領(lǐng)域數(shù)據(jù)集上,驗(yàn)證多種模型,F(xiàn)1和EM指標(biāo)均能取得2~5個(gè)百分點(diǎn)的提升。本文面向垂直領(lǐng)域的數(shù)據(jù)增強(qiáng)方法對(duì)其他各垂直領(lǐng)域均有借鑒作用,普適性強(qiáng),下一步將結(jié)合本方法,在通用領(lǐng)域數(shù)據(jù)上進(jìn)行分析和研究。