• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多模型融合的民航領(lǐng)域?qū)嶓w抽取方法

      2023-09-13 03:14:46馬曉寧趙東閣
      計算機工程與設(shè)計 2023年8期
      關(guān)鍵詞:語料實體標(biāo)簽

      馬曉寧,趙東閣

      (中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)

      0 引 言

      近年來,隨著各行各業(yè)的信息化,單純的地名、時間、機構(gòu)名等通用性的命名實體識別(named entity recognition,NER)已經(jīng)不能滿足不同領(lǐng)域的信息應(yīng)用,比如民航信息領(lǐng)域需要識別航空公司、證件、地名、機型等等。隨著出行量的增加以及“智慧民航”等口號的提出,民航信息化程度越來越高,需要建立高效的NER方法以滿足更下游的任務(wù),比如構(gòu)建智能問答[1]、知識圖譜[2]、語義搜索[3]等。

      早期,大部分NER方法是基于規(guī)則的,需要人工手寫足夠多的規(guī)則,花費大量的人力物力。其后基于概率或統(tǒng)計學(xué)的方法快速發(fā)展,比如支持向量機(support vector machine,SVM)[4]、條件隨機場(conditional random field,CRF)[5]等,而不同領(lǐng)域的特征也不同,所以統(tǒng)計學(xué)方法亦需要繁雜的特征工程。

      更加復(fù)雜的網(wǎng)絡(luò)得益于硬件的發(fā)展,有了計算環(huán)境,NER任務(wù)進(jìn)入深度學(xué)習(xí)時代,其中主要包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[6]與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及其變種如長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[7]、循環(huán)門單元(gate recurrent unit,GRU)等[8]?;谝陨仙疃染W(wǎng)絡(luò)去做實體預(yù)測,許多學(xué)者在生物醫(yī)學(xué)[9]、網(wǎng)絡(luò)推文[10]等領(lǐng)域分別提出了合適的NER模型,近幾年來注意力機制域蓬勃發(fā)展,也有學(xué)者將其應(yīng)用于實體預(yù)測,比如Y Zhu等[11]融合RNN和注意力機制提出了一個字符級別的卷積注意網(wǎng)絡(luò),以捕捉來自相鄰字符和句子上下文的信息。

      隨著計算機算力的進(jìn)一步提升,一些預(yù)訓(xùn)練語言模型(pre-trained models,PTMs)涌現(xiàn)出來,它們通過預(yù)先在大規(guī)模語料庫上訓(xùn)練進(jìn)而應(yīng)用于一些NLP的下游任務(wù),實驗顯示均得到了很好的效果,比如自回歸語言模型[12](generative pre-training,GPT)的應(yīng)用和基于注意力的自編碼語言模型[13](bidirectional encoder representation from transformers,BERT),而后也在NER中得到應(yīng)用。

      綜上,本文使用了預(yù)訓(xùn)練語言模型BERT進(jìn)行語義編碼,微調(diào)后結(jié)合解碼模塊提出兩個基礎(chǔ)模型,在此基礎(chǔ)上,采用集成學(xué)習(xí)(ensemble learning)的思想,提出了一種混合了預(yù)訓(xùn)練與多模型加權(quán)融合的NER方法,為在海量民航信息中抽取有效實體提供了切實可行的解決方案。

      1 數(shù)據(jù)處理和標(biāo)注

      1.1 數(shù)據(jù)獲取與清洗

      民航信息領(lǐng)域目前未有公開的中文語料集,故本文使用Python采集161 580出票網(wǎng)站的民航問答部分,首先使用Requests模塊獲取網(wǎng)站HTML數(shù)據(jù)部分,然后使用Beautifulsoup庫得到相應(yīng)的文本數(shù)據(jù)。

      此時得到的文本數(shù)據(jù)還比較粗糙,使用多種方式對語料進(jìn)行預(yù)處理清洗,包括:①語料中存在大量停用詞,所以使用百度開源的停用詞庫進(jìn)行過濾,以達(dá)到提升文本質(zhì)量,降低文本維度的作用;②針對采集到的語料信息,刪除包含鏈接、圖片、表格等無用內(nèi)容保存原有的語句順序;③對數(shù)據(jù)進(jìn)行抽樣發(fā)現(xiàn),網(wǎng)站回復(fù)系統(tǒng)可能提供了一些自動性回復(fù)內(nèi)容,比如“您好!”、“祝您生活愉快”、“關(guān)注微信公眾號【民航微出行】”等,所以對語料中包含大量重復(fù)無用信息進(jìn)行清洗。

      1.2 實體標(biāo)注與分析

      針對經(jīng)過預(yù)處理的語料進(jìn)行瀏覽并結(jié)合民航信息實際情況,本文一共定義7種實體,包括航司、文件、地點、時間、航班號、行李物品、機型等。

      在標(biāo)注方面,采取BIO(B-begin,I-inside,O-outside)標(biāo)注法,將每個元素標(biāo)注為“B-X”、“I-X”或者“O”。其中,B和I分別表示實體的開頭和中間,X表示這個實體所屬的類別,O表示不屬于任何類型,標(biāo)注示例見表1。

      表1 民航信息語料標(biāo)注示例

      將預(yù)處理清洗過的數(shù)據(jù)使用BIO-sequence-label進(jìn)行標(biāo)注,得到人工標(biāo)注的7類實體數(shù)量以及示例見表2。

      表2 民航信息語料標(biāo)注統(tǒng)計

      對標(biāo)注好的語料集進(jìn)行抽樣分析,不難發(fā)現(xiàn):①存在一些長實體,比如“中國東方航空公司”、“2021年12月30日”等;②存在大量需要上下文信息才能得到結(jié)果的實體,比如“南航持學(xué)生證能打折”、“南航是一所好學(xué)?!钡?。所以本文提出第一個基礎(chǔ)模型使用雙向的長短期記憶網(wǎng)絡(luò)進(jìn)行特征提取,以達(dá)到同時捕捉輸入語料序列上下文特征信息的目的。

      2 基礎(chǔ)模型與融合

      本文采取預(yù)訓(xùn)練語言模型BERT做語義編碼,微調(diào)后,與LSTM以及CRF進(jìn)行組合得到兩個基礎(chǔ)模型,而后進(jìn)行加權(quán)融合,最后經(jīng)過后處理矯正進(jìn)行實體抽取的整個預(yù)測過程如圖1所示。

      圖1 實體預(yù)測總體流程

      2.1 基礎(chǔ)模型

      2.1.1 BERT+BiLSTM+CRF

      引入BERT模型做輸出深層特征向量表示,也可以稱之為編碼層,輸出的特征向量表示融合了BERT預(yù)訓(xùn)練中包含的語言學(xué)知識和收集到的民航語料知識,使用一個雙向的LSTM網(wǎng)絡(luò)提取上下文特征,接下來通過CRF層可以捕捉到不同標(biāo)簽之間的條件轉(zhuǎn)移概率,構(gòu)成BERT+BiLSTM+CRF組合模型,下文簡稱BLC模型,具體模型結(jié)構(gòu)如圖2所示。

      圖2 BERT+BiLSTM+CRF模型

      2.1.2 BERT+CRF

      起源于上下文表示學(xué)習(xí)的BERT模型本身就能夠在一定程度上解決上下文依賴問題,所以在某些情況下,使用BERT做語義編碼后直接通過一層概率統(tǒng)計模型得到實體標(biāo)簽,亦能達(dá)到很好的效果,國內(nèi)外的不同的學(xué)者也印證了這一點[14,15]。所以本文選取的第二個基礎(chǔ)模型即為BERT做語義編碼后直接通過一層CRF得到標(biāo)簽結(jié)果,下文簡稱BC模型,模型結(jié)構(gòu)如圖3所示。

      圖3 BERT+CRF模型

      2.2 加權(quán)融合

      引入預(yù)訓(xùn)練語言模型能夠很好的學(xué)習(xí)到先驗知識,但是由于BERT模型參數(shù)量巨大,以及標(biāo)注人力成本受限,本文數(shù)據(jù)集在規(guī)模方面比起通用性的大型語料庫遠(yuǎn)遠(yuǎn)不及,易出現(xiàn)過擬合、泛化能力差的情況,同時有學(xué)者[16]在研究中也提到了這個問題。所以在樣本規(guī)模一定的情況下,除采取調(diào)整學(xué)習(xí)率、模型微調(diào)的方法之外,本文引入集成學(xué)習(xí)方法,通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。近年來一些如天池賽、Kaggle、DataCastle等數(shù)據(jù)競賽也頻繁出現(xiàn)使用此種方法進(jìn)而得到很好效果的現(xiàn)象。具體選取了一種多模型加權(quán)融合的方法,提高泛化能力,在兩個基礎(chǔ)模型之上,綜合預(yù)測結(jié)果如下式所示

      H(x)=∑Ti=1wihi

      (1)

      其中,wi是個體模型hi的相應(yīng)權(quán)重,通常我們要求wi≥0,∑Ti=1wi=1。

      從實際角度來看,本文的預(yù)測模型輸入測試樣本后其基礎(chǔ)模型輸出矩陣M,維度為輸入句子長度·標(biāo)簽數(shù)量。此處假設(shè)BLC模型輸出矩陣M1,BC模型輸出矩陣為M2,在此基礎(chǔ)上對兩個模型的輸出矩陣進(jìn)行加權(quán)融合,所以最后的結(jié)果為

      M=aM1+bM2

      (2)

      其中,a和b是實數(shù),意為分別表示賦予BLC與BC兩個基礎(chǔ)模型的加權(quán)權(quán)重,對于單個模型在測試集上表現(xiàn)更好的基礎(chǔ)模型賦予更高的加權(quán)權(quán)重,比如對于本文選取的兩個基礎(chǔ)模型來講,平均情況下BLC是優(yōu)于BC模型的,所以權(quán)重a會更大一些。

      2.3 預(yù)訓(xùn)練BERT層

      2018年谷歌公司提出BERT模型[13],很快在NLP領(lǐng)域的11個方向大幅度提高了精度,作為一個編碼模塊,BERT本質(zhì)上是通過在海量語料上運行的一種預(yù)訓(xùn)練語言模型,在特定的NLP任務(wù)當(dāng)中,可以使用BERT的特征表示作為該任務(wù)的詞(字)嵌入特征,以替代Word2Vec。

      BERT有兩大核心的任務(wù)需要完成:掩碼語言模型(masked language model,MLM)和下一句預(yù)測模型(next sentence prediction)。其中前者是指BERT在預(yù)訓(xùn)練階段隨機屏蔽掉 15%的標(biāo)記,根據(jù)上下文信息計算得出這些掩蓋的標(biāo)記,并且以一定概率保留詞的語義信息,使得信息不至于百分百的被掩蓋,從而有效解決了一些專用領(lǐng)域?qū)嶓w邊界不明顯以及語義復(fù)雜的問題。下一句預(yù)測模型指的是為每個訓(xùn)練前的樣例選擇句子A和句子B,而后50%的情況使得B是真的在A后面的下一個句子,50%情況是來自語料庫的隨機句子,這樣一來對于句子級別的任務(wù)是非常有益的。

      從結(jié)構(gòu)上講,BERT的核心結(jié)構(gòu)是基于2017年Google[17]提出的Transformer自注意力機制。它拋棄了傳統(tǒng)RNN或者說CNN結(jié)構(gòu),將輸入序列中任意位置的距離縮小為一個常量,從計算硬件的角度來講,它不再是類似RNN這種深度網(wǎng)絡(luò)的順序結(jié)構(gòu),因此具有更好的并行性,符合現(xiàn)有的GPU框架,計算速度會更加的快。具體的,注意力機制首先會計算輸入序列中每個詞和其它詞語的相似度,下一步會對得到的相似度做一個歸一化處理,最后得到注意力權(quán)重,再把得到的注意力權(quán)重進(jìn)行加權(quán)組合,這樣會讓輸入序列中的每個字向量都含有當(dāng)前句子的其它字向量的信息,計算公式如下

      Attention(Q,K,V)=softmax(QKTdk)V

      (3)

      其中,Q(Query)、K(Key)、V(Value) 這3個矩陣來自同一個輸入,首先計算的是Q與K之間的點乘,然后為了防止內(nèi)積過大,在結(jié)果上除以一個尺度標(biāo)度dk, 其中,dk表示Query和Key的向量維度。最后再利用Softmax操作將其歸一化,然后乘矩陣V得到權(quán)重求和結(jié)果。

      為了確保模型關(guān)注到更多不同的信息,BERT采用了一種多頭自注意力機制,將輸入序列中詞的多種維度表示為多個頭(head),每個頭可以從不同的角度進(jìn)行子空間表征學(xué)習(xí),公式如下所示

      headi=Attention(QWQi,KWKi,VWVi)

      (4)

      MutiHead(Q,K,V)=Concati(headi)WO

      (5)

      其中,WQi、WKi、WVi是3個線性變換的矩陣,隨訓(xùn)練不斷調(diào)整相關(guān)參數(shù),i代表head的編號。所以BERT通過完成掩碼和下一句預(yù)測任務(wù)同時使用多頭注意力機制,這樣不但能夠?qū)W習(xí)到上下文信息,而且能夠提取到足夠的信息,本文使用BERT進(jìn)行語義編碼,得到字向量,具體結(jié)構(gòu)如圖4所示。

      圖4 BERT模型結(jié)構(gòu)

      CLS(special classification embedding)是用于分類的向量,SEP是一個句子的結(jié)尾,整個向量轉(zhuǎn)換過程可以寫為下式

      X=BERT(E,θbert)

      (6)

      其中,E為模型輸入序列的向量矩陣集合,X為BERT輸出的字向量矩陣集合,θbert為BERT模型相關(guān)參數(shù)。

      2.4 BiLSTM層

      實驗采集的文本中常出現(xiàn)長距離依賴關(guān)系,僅使用詞匯級別的信息識別實體存在一定困難,如“適航關(guān)系到航空器的安全性,是飛機服役的必要流程”中,“適航”是一種飛機服役過程中檢驗安全性的活動,但“適航”單獨出現(xiàn)時,存在特征“航”,易被判斷為航司,因此,除采用BERT做字向量表示意外,還需要捕捉文本中存在的上下文信息。而作為RNN變形的LSTM,能夠捕捉句子級別的信息,它主要包含4個類邏輯門,單個LSTM結(jié)構(gòu)如圖5所示。

      圖5 LSTM結(jié)構(gòu)

      其計算過程如下

      ft=σ(Wf·[ht-1,xt]+bf)it=σ(Wi·[ht-1,xt]+bi)t=tanh(Wc·[ht-1,xt]+bc)Ct=Ct-1·ft+it·Ctot=σ(Wo·[ht-1,xt]+bo)ht=ot·tanh(Ct)

      (7)

      其中,it代表輸入門,ft代表遺忘門,Ct代表細(xì)胞狀態(tài),ot代表輸出門,使用這3個類邏輯門來保護(hù)和控制細(xì)胞狀態(tài)。Wf、Wi、Wc、Wo為不同狀態(tài)的權(quán)重矩陣,bf、bi、bc、bo是不同門的偏置,xt和ht分別為輸入和輸出,Ct是計算過程中的臨時細(xì)胞狀態(tài),σ為sigmiod激活函數(shù)。

      由于單向的LSTM網(wǎng)絡(luò)中信息只能從前往后傳,當(dāng)前節(jié)點并不能夠訪問上文,但在實體識別的過程中,有時候我們需要依賴上文的內(nèi)容,所以本文采取了一種雙向傳播的LSTM網(wǎng)絡(luò)。

      2.5 CRF解碼層

      考慮到LSTM的輸出存在獨立性,各個標(biāo)簽之間沒有互相約束,會帶來的一個缺點就是出現(xiàn)非法標(biāo)簽,比如標(biāo)簽 {B,I,I,O,I,I} 中,標(biāo)簽I理論上只能在標(biāo)簽B之后出現(xiàn),一種有效的方案就是在BiLSTM層后面接入一個概率統(tǒng)計模型。所以本文中CRF模型起到了兩個作用:①在提出的BLC模型中,CRF建模提取句子級別的損失,以彌補LSTM輸出標(biāo)簽之間的弱約束性;②在本文提出的BC模型中,作為BERT模型的解碼層。

      CRF是一種給定輸入的隨機變量x,求解條件概率P(y|x) 的無向圖模型,它可以將序列標(biāo)注問題看成是一個kn分類問題,用于序列標(biāo)注時,可以特例化成 Linear-CRF來計算每個時刻的詞語類別概率信息,給定句子詞語輸入序列,為了計算條件概率P我們使用CRF假設(shè),該分布為指數(shù)分布,輸入之間的關(guān)聯(lián)僅僅發(fā)生在了相鄰位置,且關(guān)聯(lián)具有指數(shù)相加性,由此可得概率結(jié)果為

      p(y|x)=1Z(x)epx{∑Tt=1w·φ(yt-1,yt,xt)}

      (8)

      其中,x為輸入序列,y為預(yù)測標(biāo)簽,w為權(quán)重,Z(x) 為歸一化函數(shù)有

      Z(x)=∑y∏Tt=1exp{∑Kk=1wkfk(yt-1,yt,xt)}

      (9)

      其中,fk為特征函數(shù),那么對于本文的NER任務(wù),給定語料句子x作為輸入序列,y為標(biāo)簽變量序列,那么隨機變量y的條件概率分布滿足馬爾科夫性,即構(gòu)成條件隨機場。

      3 實驗與結(jié)果

      3.1 實驗評價指標(biāo)

      為了驗證本文提出模型對民航信息語料實體抽取的有效性,本文將召回率(Recall,R)、正確率(Precision,P)以及F1值作為評價指標(biāo),其表達(dá)公式表達(dá)如下

      p=識別正確的實體數(shù)識別出的所有實體數(shù)×100%

      (10)

      R=識別正確的實體數(shù)樣本實體總數(shù)×100%

      (11)

      F1=2×P×RP+R×100%

      (12)

      其中,F(xiàn)1值是準(zhǔn)確率P以及召回率R的加權(quán)平均結(jié)果,使用其衡量模型計算結(jié)果能夠有效避免準(zhǔn)確率與召回率出現(xiàn)矛盾的情況。

      3.2 參數(shù)設(shè)置

      在pytorch 1.5的環(huán)境下,實驗選用了Google開源的中文Base版本的BERT模型,該網(wǎng)絡(luò)共有12個Block層,12個多頭注意力,一共會輸出768維的特征向量。由于BERT經(jīng)過預(yù)訓(xùn)練后對下游任務(wù)微調(diào)時少量學(xué)習(xí)批次即可收斂到最優(yōu),所以將BERT層設(shè)置為很小的學(xué)習(xí)率,另外根據(jù)經(jīng)驗,學(xué)習(xí)率的設(shè)置采取動態(tài)調(diào)整的方法,具體的,從5e-5到5e-6動態(tài)調(diào)整,每6個批次調(diào)整一次,相對BERT來講,CRF層收斂速度較慢,所以設(shè)置較高的學(xué)習(xí)率,本文中統(tǒng)一設(shè)置為BERT層的100倍。為了預(yù)防過擬合,本文采取dropout策略。模型融合時選擇權(quán)重(0.6,0.4),更詳細(xì)的最佳模型參數(shù)設(shè)置見表3。

      表3 模型最優(yōu)參數(shù)

      3.3 實驗結(jié)果與分析

      由于本文數(shù)據(jù)量較小,故按照小規(guī)模數(shù)據(jù)集劃分法,60%數(shù)據(jù)作為訓(xùn)練集,20%數(shù)據(jù)作為驗證集,20%數(shù)據(jù)作為測試集。一共設(shè)置4個模型。

      (1)傳統(tǒng)意義上的基線模型BiLSTM+CRF,它是NER領(lǐng)域的經(jīng)典模型,采取了靜態(tài)詞向量進(jìn)行訓(xùn)練。

      (2)在基線模型上引入的BERT預(yù)訓(xùn)練生成詞向量輸入得到BLC模型。

      (3)在BERT預(yù)訓(xùn)練模型后加一層概率統(tǒng)計模型解碼得到BC模型。

      (4)BLC與BC模型進(jìn)行加權(quán)融合后得到的集成模型。

      采取準(zhǔn)確率、召回率、以及F1值進(jìn)行評估,實驗結(jié)果見表4。

      表4 各模型識別結(jié)果

      分析表4結(jié)果不難發(fā)現(xiàn),從整體上來講引入BERT預(yù)訓(xùn)練語言模型后,BLC與BC模型均有小幅度提升,比如在傳統(tǒng)的BiLSTM+CRF模型之前引入BERT對輸入文本進(jìn)行語義編碼,生成字向量,相比僅僅使用BiLSTM+CRF的F1值提升了3.45%,另外僅僅使用BERT作為編碼層,后加概率模型CRF層進(jìn)行解碼輸出,F(xiàn)1值也相對BiLSTM+CRF提高了1.77%。從召回率角度來看,由于預(yù)訓(xùn)練模型在大量語料上進(jìn)行預(yù)先訓(xùn)練,能夠?qū)W到較多的先驗知識,所以相比沒有預(yù)訓(xùn)練層的模型召回率普遍會高很多。

      最后BLC+BC模型進(jìn)行加權(quán)融合后的集成模型,相較于BiLSTM+CRF模型F1值提升了7.1%,相對于本文使用的BC模型提升了3.2%,相對于BLC模型提升了1.43%。

      3.4 后處理與修正

      對上述模型不同實體的識別結(jié)果進(jìn)行分析,見表5。

      表5 不同實體的F1值結(jié)果/%

      分析表5不難得出,引入BERT的模型在文件、地點、行李物品等方面都得到了比較好的識別效果,分析原因可能兩點,其一是BERT在大規(guī)模語料集上預(yù)先訓(xùn)練,包含了足夠的先驗知識;其二是BERT被設(shè)計成一個雙向的深度模型,加之它的掩碼和預(yù)測下一句任務(wù)使之充分提取了上下文句意,所以在通用性的詞語和大部分專用詞語上能夠得到比較好的效果。但也恰恰是這些原因,對于少部分專用領(lǐng)域詞語識別效果存在一定誤差。對效果不好的實體識別結(jié)果,本文對輸入句子和識別結(jié)果進(jìn)行了抽樣分析,發(fā)現(xiàn)主要存在以下問題:①特殊識別錯誤的實體,比如句子“從南航南門出發(fā),經(jīng)過校門口乘坐S1號線能夠到到機場”中南航是表示學(xué)校,在模型中即可能識別成航司。②存在嵌套實體,比如“廈航紀(jì)念品737-8型100架紀(jì)念版飛機模型”整個句子是一個長實體,同時內(nèi)含多個實體。③特殊情況識別錯誤,比如航班號的書寫是有嚴(yán)格規(guī)定的,國內(nèi)航班規(guī)則為航司兩字加4位數(shù)字,國際航班為航司代碼加3位數(shù)字。④預(yù)測結(jié)果存在明顯錯誤的實體,比如實體中包含標(biāo)點符號。

      所以針對發(fā)現(xiàn)的這些問題做出一些處理校正,主要是通過是否接受結(jié)果以及根據(jù)詞語邊界、特性、專用領(lǐng)域特點,使用正則對部分識別錯誤或者識別不準(zhǔn)確的實體加以糾正,具體得做出以下幾條糾正策略。

      (2)針對嵌套實體,丟棄被嵌套的實體,僅僅保存最長的實體。

      (4)針對明顯錯誤的實體直接丟棄。

      在測試集上使用上述處理方法進(jìn)行校正,最終得到預(yù)測結(jié)果與未修正對比見表6。

      表6 處理校正后的預(yù)測結(jié)果對比/%

      結(jié)果對比發(fā)現(xiàn),經(jīng)過對不同錯誤或者嵌套實體的處理,各個模型識別結(jié)果均有小幅度提升,其中本文提出的BLC與BC融合模型的實體預(yù)測F1值較未處理矯正之前提升了0.64%。

      4 結(jié)束語

      本文通過引入自編碼語言模型BERT生成文本字向量,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)、概率模型組合生成兩個基礎(chǔ)學(xué)習(xí)器,將兩個學(xué)習(xí)器采用一種集成學(xué)習(xí)方法加權(quán)融合后預(yù)測實體,汲取了基礎(chǔ)學(xué)習(xí)器的優(yōu)點,最后達(dá)到了較高的識別效果,一定程度上改善了BERT在小樣本下存在的過擬合問題。最后,針對民航信息領(lǐng)域的文本特征,本文結(jié)尾提出一系列輔助修正方法使結(jié)果達(dá)到更優(yōu)。在下一步的工作中,將結(jié)合擴展不同實體的規(guī)則,擴充不同來源的數(shù)據(jù)集,增加標(biāo)注文本的數(shù)量,以便更好開展下一步知識圖譜構(gòu)建的任務(wù)。

      猜你喜歡
      語料實體標(biāo)簽
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      標(biāo)簽化傷害了誰
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      巴林右旗| 浙江省| 扶绥县| 锡林郭勒盟| 宁强县| 会同县| 旬邑县| 通渭县| 浮梁县| 友谊县| 上杭县| 永安市| 罗田县| 望城县| 平江县| 怀化市| 肇州县| 东港市| 屯留县| 榆林市| 乐清市| 满洲里市| 昌都县| 北流市| 濉溪县| 巍山| 皋兰县| 通城县| 陈巴尔虎旗| 兰坪| 讷河市| 泸西县| 彭泽县| 吉隆县| 永安市| 舞钢市| 奇台县| 金溪县| 甘德县| 河曲县| 明光市|