• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融入詞集合信息的跨境民族文化實(shí)體識(shí)別方法

    2022-01-01 13:20:10楊振平毛存禮雷雄麗高盛祥張勇丙
    中文信息學(xué)報(bào) 2022年10期
    關(guān)鍵詞:字符詞典跨境

    楊振平,毛存禮,雷雄麗,高盛祥,陸 杉,張勇丙

    (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3. 昆明冶金高等??茖W(xué)校,云南 昆明 650500)

    0 引言

    跨境民族[1]是指擁有共同的族源關(guān)系,后因遷徙或國(guó)界變動(dòng)等原因分別居住在兩個(gè)或兩個(gè)國(guó)家以上的民族,跨境民族之間語(yǔ)言、習(xí)俗、文化等方面基本相同。實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域的重要任務(wù),需要確定實(shí)體邊界并將其分類為預(yù)定義的實(shí)體類型。利用實(shí)體識(shí)別技術(shù)從互聯(lián)網(wǎng)中自動(dòng)識(shí)別跨境民族文化實(shí)體,有助于擴(kuò)充領(lǐng)域知識(shí)圖譜和為信息檢索提供支撐。因此,研究如何利用深度學(xué)習(xí)的方法對(duì)跨境民族文化文本進(jìn)行實(shí)體識(shí)別成為了亟待解決的問(wèn)題。

    目前,序列標(biāo)注方法在實(shí)體識(shí)別任務(wù)中得到了廣泛的應(yīng)用[2-3],最新的實(shí)體識(shí)別模型引入了詞匯信息。Zhang等[4]提出了Lattice-LSTM模型,首次將中文詞匯信息整合到基于字符的神經(jīng)網(wǎng)絡(luò)模型中,利用多粒度信息進(jìn)行實(shí)體識(shí)別。Gui等[5]提出了LR-CNN模型,利用句子中平行匹配的所有字符和潛在外部詞匯信息進(jìn)行建模,Ma等[6]提出SoftLexicon方法在字符編碼層引入了詞信息,所匹配的詞來(lái)源于上下文句子中詞粒度的序列信息,現(xiàn)有的實(shí)體識(shí)別研究大多集中在通用領(lǐng)域?qū)嶓w識(shí)別。由于領(lǐng)域數(shù)據(jù)集中存在大量的領(lǐng)域?qū)嶓w,在缺少領(lǐng)域知識(shí)的輔助下,以上方法不適用于跨境民族文化領(lǐng)域?qū)嶓w識(shí)別任務(wù)。

    跨境民族文化文本中存在大量詞邊界模糊的領(lǐng)域?qū)嶓w,示例如表1所示。例如,飲食文化中的“毫糯索”詞邊界為“索”,但是在實(shí)體識(shí)別中以“糯”為詞邊界,使得現(xiàn)有方法將“毫糯索”錯(cuò)誤識(shí)別為“毫糯”。不同詞語(yǔ)組合構(gòu)成的實(shí)體存在不同的詞邊界,例如“芒勐町佛塔”由“芒勐町”和“佛塔”組合構(gòu)成,在沒(méi)有領(lǐng)域知識(shí)的輔助下,模型無(wú)法精準(zhǔn)識(shí)別出組合實(shí)體邊界。

    表1 跨境民族文化文本示例

    續(xù)表

    針對(duì)以上問(wèn)題,本文在Ma等[6]所提出的SoftLexicon方法基礎(chǔ)上,提出融入詞集合信息的跨境民族文化實(shí)體識(shí)別方法,本文方法與Ma等[6]方法不同的是: 為了使模型更好地結(jié)合領(lǐng)域知識(shí),本文構(gòu)建了跨境民族文化領(lǐng)域詞典,通過(guò)字符與領(lǐng)域詞典匹配獲取詞集合,利用詞集合注意力機(jī)制和位置編碼增強(qiáng)詞集合信息,將其融入字符表征中,解決了基于字符表征中存在實(shí)體邊界模糊和語(yǔ)義缺失問(wèn)題。

    本文的貢獻(xiàn)具體如下:

    (1) 構(gòu)建了15.47萬(wàn)的跨境民族文化領(lǐng)域詞典,利用詞集合匹配方法從領(lǐng)域詞典中獲取詞集合信息,將其融入到實(shí)體識(shí)別模型中,緩解跨境民族文化領(lǐng)域?qū)嶓w邊界模糊問(wèn)題。

    (2) 基于詞集合注意力機(jī)制獲取詞集合向量之間的重要程度,利用位置編碼增強(qiáng)詞集合的位置信息,通過(guò)以上方法有效增強(qiáng)詞集合信息。

    1 相關(guān)工作

    傳統(tǒng)的實(shí)體識(shí)別方法分為無(wú)監(jiān)督學(xué)習(xí)方法和基于特征模板的方法。無(wú)監(jiān)督學(xué)習(xí)方法從語(yǔ)料庫(kù)上獲得詞匯資源、詞匯模型和統(tǒng)計(jì)信息,使用聚類[7]推斷命名實(shí)體類型。在醫(yī)學(xué)領(lǐng)域中,Wang[8]等利用模板增強(qiáng)的方法并依賴于語(yǔ)料庫(kù)對(duì)生物醫(yī)學(xué)領(lǐng)域進(jìn)行實(shí)體識(shí)別。傳統(tǒng)的實(shí)體識(shí)別方法過(guò)度依賴人工構(gòu)建匹配規(guī)則并且耗費(fèi)大量時(shí)間篩選有效特征。

    隨著深度學(xué)習(xí)方法的興起,端到端的神經(jīng)網(wǎng)絡(luò)模型成為了實(shí)體識(shí)別的主流方法。Lample等[9]將Bi-LSTM與條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)[10]相結(jié)合,彌補(bǔ)了LSTM未能考慮樣本輸出之間關(guān)系的缺陷。Hovy等[11]利用字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)表示字符特征并構(gòu)建了字符級(jí)CNN-CRF模型。李明揚(yáng)等[12]利用自注意力機(jī)制捕獲上下文相關(guān)信息,更好地理解句子結(jié)構(gòu)。然而這些方法以字符為單位作為輸入特征,未結(jié)合詞信息導(dǎo)致模型很難獲取詞邊界信息和文本深層語(yǔ)義信息。

    將詞匯信息融入圖神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別模型[13]能夠打破字符級(jí)表示中難以獲取詞信息的問(wèn)題,Sui等[14]提出的LGN模型采用協(xié)作圖網(wǎng)絡(luò)來(lái)直接有效地整合中文詞匯知識(shí),解決整合自匹配詞匯詞和最近的上下文詞匯詞的問(wèn)題,使字符和詞匯之間有更充分的聯(lián)系。Li等[15]提出FLAT模型,將柵格結(jié)構(gòu)轉(zhuǎn)換成平滑結(jié)構(gòu),可以直接建模字符與所有匹配的詞匯信息之間交互。

    以上方法在通用領(lǐng)域的實(shí)體識(shí)別上取得了不錯(cuò)的效果,給跨境民族文化實(shí)體識(shí)別任務(wù)提供了較好的思路,但在跨境民族文化實(shí)體識(shí)別中仍然存在領(lǐng)域?qū)嶓w邊界模糊問(wèn)題以及領(lǐng)域知識(shí)如何有效地融入實(shí)體識(shí)別模型的問(wèn)題。

    2 構(gòu)建領(lǐng)域詞典和詞集合匹配方法

    2.1 領(lǐng)域詞典構(gòu)建

    本文從跨境民族網(wǎng)站和社交媒體上收集了大量的跨境民族文化語(yǔ)料用于抽取領(lǐng)域詞語(yǔ),具體抽取方法如下:

    (1)統(tǒng)計(jì)方法首先對(duì)每一份語(yǔ)料進(jìn)行預(yù)處理,然后統(tǒng)計(jì)每一份語(yǔ)料中TF-IDF[16]值靠前的50個(gè)詞W={Wi|1≤i≤50},Wi表示50個(gè)詞中第i個(gè)詞,最后計(jì)算詞Wi的歸一化詞頻tfi,當(dāng)滿足tfi≤n時(shí)(n為預(yù)先設(shè)置的閾值),將詞Wi提取到領(lǐng)域詞典中。

    (2)人工方法利用百度百科收集關(guān)于跨境民族文化的詞條,通過(guò)人工方式對(duì)語(yǔ)料中存在邊界模糊的專業(yè)詞語(yǔ)進(jìn)行提取。

    本文一共收集了5 136個(gè)關(guān)于跨境民族文化的專業(yè)詞語(yǔ),詞匯的平均長(zhǎng)度為4,詞語(yǔ)示例如表2所示。

    表2 跨境民族文化領(lǐng)域詞語(yǔ)示例

    如表2中領(lǐng)域詞語(yǔ)由不同的詞組合構(gòu)成,組合詞語(yǔ)在實(shí)體識(shí)別中的邊界模糊,如“嘎灑寨緬寺”由“嘎灑寨”和“緬寺”組合構(gòu)成,在常規(guī)實(shí)體識(shí)別中就會(huì)將其錯(cuò)誤地識(shí)別為位置和建筑的實(shí)體類型,實(shí)際上卻為建筑類型。將提取的領(lǐng)域詞語(yǔ)添加到分詞工具中,避免對(duì)語(yǔ)料中的詞語(yǔ)錯(cuò)誤切分,選用開(kāi)源庫(kù)gensim(1)radimrehurek.com/gensim/models/coherencemodel.html中的Word2Vec[17]詞向量模型訓(xùn)練跨境民族文化語(yǔ)料,獲取由15.47萬(wàn)個(gè)詞向量組成的領(lǐng)域詞典,詞向量維度為50維。

    2.2 詞集合定義

    詞集合是將輸入文本中的每個(gè)字符通過(guò)領(lǐng)域詞典匹配得到所有匹配的詞所組成的集合,根據(jù)字符在所匹配詞中的位置不同分為四種詞集合類型: 字符位于詞的頭部(B)、字符位于詞的內(nèi)部(M)、字符位于詞的尾部(E)和單個(gè)字符(S)四個(gè)詞集合標(biāo)簽。

    2.3 詞集合匹配方法

    如圖1所示,“傣族的菠蘿紫米飯”中的字符“米”通過(guò)式(1)匹配到的詞集合為“B={米飯}”“M={紫米飯,菠蘿紫米飯}”“E={紫米}”和“S={米}”,如果字符在領(lǐng)域詞典中沒(méi)有匹配詞,就將該類型的詞集合定義為“None”。

    跨境民族文化文本s={c1,c2,…,cn}∈Vc中的字符ci所匹配的四種詞集合由式(1)所示。

    (1)

    其中,Vw表示預(yù)先構(gòu)建好的領(lǐng)域詞典,w表示在領(lǐng)域詞典中存在的詞語(yǔ),i表示字符的位置,j、k表示字符開(kāi)始和結(jié)束位置。

    3 融入詞集合信息的跨境民族文化實(shí)體識(shí)別方法

    本文提出了融入詞集合信息的跨境民族文化實(shí)體識(shí)別方法,其模型框架如圖1所示,包含了以下六個(gè)部分。

    圖1 融入詞集合信息的跨境民族文化實(shí)體識(shí)別模型圖

    (1)輸入層該層對(duì)輸入的文本進(jìn)行分字表示,作為后續(xù)字符與領(lǐng)域詞典匹配的數(shù)據(jù)。

    (2)字符編碼層該層對(duì)輸入模型的跨境民族文化句子序列使用BERT[18]語(yǔ)言模型來(lái)獲得句子中字符向量表示。

    (3)詞集合向量編碼層該層將詞集合向量融入到BERT編碼后的字符向量中。

    (4)雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)[19]編碼層該層通過(guò)BiGRU門結(jié)構(gòu)對(duì)特征向量進(jìn)行信息篩選,獲取特征向量之間長(zhǎng)距離依賴信息。

    (5)自注意力機(jī)制層該層采用自注意力機(jī)制區(qū)分BiGRU編碼輸出的特征向量之間的重要程度。

    (6)標(biāo)簽預(yù)測(cè)層該層通過(guò)CRF預(yù)測(cè)跨境民族文化文本中每個(gè)字符對(duì)應(yīng)的實(shí)體標(biāo)簽。

    3.1 基于BERT的字符向量表示

    圖1在字符編碼層采用BERT預(yù)訓(xùn)練模型對(duì)輸入的文本進(jìn)行字符向量表示。文本被視為一個(gè)字符序列s={c1,c2,…,cn}∈Vc,其中,Vc是構(gòu)建的字典,ci是長(zhǎng)度為n的句子s中第i個(gè)字,ci通過(guò)BERT訓(xùn)練得到字符向量表示,由式(2)所示。

    gi=BERT(ci)

    (2)

    其中,gi表示文本中第i個(gè)字符的字符向量表示,BERT(·)為預(yù)訓(xùn)練模型。

    3.2 融入詞集合信息的跨境民族文化文本表示方法

    如圖1所示,通過(guò)字符與詞典匹配獲取詞集合,利用詞集合注意力機(jī)制獲取詞集合向量之間的重要程度,通過(guò)位置編碼增強(qiáng)不同詞集合類型之間的區(qū)分度,將得到的詞集合向量與字符向量進(jìn)行融合。

    3.2.1 詞集合向量表示

    本文通過(guò)構(gòu)建的領(lǐng)域詞典對(duì)數(shù)據(jù)集進(jìn)行分詞后統(tǒng)計(jì)每個(gè)詞的詞頻。首先對(duì)所匹配詞的詞頻加權(quán)求和得到四種類型的詞頻Z,然后將詞頻融入詞向量中,最后將每種類型中的詞向量進(jìn)行拼接得到詞集合向量,由式(3)所示。

    (3)

    其中,z(wi)為詞wi在數(shù)據(jù)集中統(tǒng)計(jì)的詞頻,e(wi)表示詞wi對(duì)應(yīng)的詞向量。L表示{B,M,E,S}四種類型中的一種,vi(L)為最終得到的詞集合向量。

    3.2.2 位置編碼

    文本中的字符位置包含詞邊界信息,字符的位置不同,所匹配到的詞也有所不同,當(dāng)詞集合向量距離非常近時(shí),這些集合向量就不能明顯地區(qū)分詞集合類型,導(dǎo)致后續(xù)無(wú)法充分利用詞集合信息。因此本文在詞集合向量中添加了位置編碼,如圖2所示。

    圖2 詞集合位置嵌入層

    本文采用one-hot向量對(duì)位置信息向量化表示,添加了訓(xùn)練權(quán)重矩陣,以更好地區(qū)分詞集合向量,位置編碼如式(4)所示。

    (4)

    其中,WL為4×dw的訓(xùn)練權(quán)重矩陣,pi(B)=[1,0,0,0],pi(M)=[0,1,0,0],pi(E)=[0,0,1,0],pi(S)=[0,0,0,1]。

    3.2.3 詞集合信息融入

    得到的四種詞集合向量之間重要程度有所不同,如在詞集合“B={米飯}”“M={紫米飯,菠蘿紫米飯}”“E={紫米}”和“S={米}”中,M標(biāo)簽的詞集合中含有領(lǐng)域?qū)嶓w,因此M的重要程度比其它三種詞集合更重。為了充分考慮四種詞集合向量之間的重要程度,采用詞集合注意力機(jī)制(圖3)計(jì)算詞集合向量之間的權(quán)重。

    圖3 詞集合注意力機(jī)制

    如圖3所示,本文通過(guò)詞集合注意力得到參數(shù)矩陣Wv,然后通過(guò)歸一化函數(shù)輸出最終的權(quán)重向量,如式(5)所示。

    (5)

    其中,Wv為參數(shù)矩陣,dw=50,bv為偏移量,softmax為歸一化操作。最后得到維度為1×4且取值范圍為(0,1)的權(quán)重向量αi。

    將每個(gè)字符向量與該字符所對(duì)應(yīng)的四種詞集合向量組合成最終的向量表示,如式(6)所示。

    (6)

    其中,αi為式(5)計(jì)算的權(quán)重向量,e(B,M,E,S)表示四種詞集合拼接的特征向量,xi表示融入詞集合信息的特征向量,gi為式(2)中的字符向量。

    3.3 跨境民族文化文本特征抽取方法

    針對(duì)文本上下文依賴的問(wèn)題,本文選用BiGRU對(duì)文本進(jìn)行特征提取。將xi輸入到BiGRU中的重置門與更新門中,重置門控制信息丟失,由式(7)計(jì)算;更新門決定傳遞多少信息量到下一次的狀態(tài),由式(8)計(jì)算。在BiGRU中,新的隱藏狀態(tài)hi是由上一次的隱藏狀態(tài)hi-1和當(dāng)前輸入xi通過(guò)式(9)計(jì)算得到。

    通過(guò)自注意力機(jī)制得到特征向量之間的關(guān)聯(lián)性和重要程度,特征向量hi通過(guò)自注意力機(jī)制計(jì)算相應(yīng)的權(quán)值得到輸出向量,如式(10)所示。

    其中,WQ,WK,WV表示權(quán)重參數(shù),dk=50為輸入特征向量的維度,softmax為歸一化操作。

    3.4 實(shí)體標(biāo)簽預(yù)測(cè)層

    如圖1所示,通過(guò)文本s={c1,c2,…,cn}∈Vc對(duì)應(yīng)預(yù)測(cè)標(biāo)簽序列y={y1,y2,…,yn}的概率計(jì)算如式(11)所示。

    (11)

    其中,Wp,bp是計(jì)算得分矩陣P的參數(shù),T是一個(gè)轉(zhuǎn)移矩陣,headi為自注意力機(jī)制層的輸出向量。

    4 實(shí)驗(yàn)分析

    4.1 跨境民族文化實(shí)體標(biāo)注數(shù)據(jù)集

    跨境民族文化文本中包含有特定領(lǐng)域獨(dú)特的命名實(shí)體,本文將跨境民族文化實(shí)體定義為6種類型: 位置、節(jié)日、飲食、習(xí)俗、文藝和建筑,標(biāo)注數(shù)據(jù)的平均長(zhǎng)度為57個(gè)字符。

    由于本文是跨境民族文化領(lǐng)域?qū)嶓w識(shí)別任務(wù),在沒(méi)有公共數(shù)據(jù)集的情況下,通過(guò)民族網(wǎng)站收集了大量的跨境民族文化語(yǔ)料,人工標(biāo)注了15 717條數(shù)據(jù)。本文將數(shù)據(jù)集劃分為訓(xùn)練集10 717條、驗(yàn)證集3 000條,測(cè)試集2 000條,所劃分?jǐn)?shù)據(jù)集中的實(shí)體分布數(shù)量如圖4所示。

    圖4 數(shù)據(jù)集實(shí)體數(shù)量統(tǒng)計(jì)

    4.2 實(shí)驗(yàn)參數(shù)設(shè)置

    實(shí)驗(yàn)使用Adamax優(yōu)化器來(lái)優(yōu)化所有可訓(xùn)練的參數(shù),實(shí)驗(yàn)具體參數(shù)設(shè)置如表3所示。

    表3 模型參數(shù)的設(shè)置

    4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

    本文的評(píng)價(jià)指標(biāo)是通過(guò)精確率(Precision)、召回率(Recall)和F1值來(lái)對(duì)模型進(jìn)行評(píng)估,如式(12)~式(14)所示。

    其中,A為正確識(shí)別實(shí)體標(biāo)簽的數(shù)量,B為錯(cuò)誤識(shí)別實(shí)體標(biāo)簽的數(shù)量,C為未被識(shí)別到的正確實(shí)體標(biāo)簽的數(shù)量。

    4.4 實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證方法的有效性,本文與現(xiàn)有的實(shí)體識(shí)別方法做了對(duì)比實(shí)驗(yàn),設(shè)置了消融實(shí)驗(yàn),驗(yàn)證領(lǐng)域詞典、詞集合向量編碼層以及參數(shù)對(duì)模型性能的影響,以及驗(yàn)證參數(shù)對(duì)模型的影響。

    實(shí)驗(yàn)一: 不同方法實(shí)驗(yàn)結(jié)果對(duì)比

    與近年來(lái)發(fā)表的5種方法做了對(duì)比實(shí)驗(yàn),F(xiàn)LAT和SoftLexicon(LSTM)所使用的預(yù)訓(xùn)練模型為BERT。5種對(duì)比方法如下:

    (1) Lample等[9]在2016年提出基于字符級(jí)的LSTM作為循環(huán)神經(jīng)網(wǎng)絡(luò)的經(jīng)典命名實(shí)體識(shí)別模型;(2) Zhang等[4]在2018年提出的Lattice-LSTM神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型;(3) Gui等[5]在2019年提出的LR-CNN實(shí)體識(shí)別模型;(4) Li等[15]在2020年提出的FLAT模型進(jìn)行實(shí)體識(shí)別;(5) Ma等[6]在2020年提出的SoftLexicon(LSTM)方法,本文以該方法作為基線模型。

    對(duì)比實(shí)驗(yàn)結(jié)果如表4所示,本文方法在不使用預(yù)訓(xùn)練模型BERT情況下與Bi-LSTM+CRF、Lattice-LSTM和LR-CNN模型進(jìn)行了對(duì)比。與Bi-LSTM+CRF相比,本文方法有效地利用詞集合信息增強(qiáng)文本上下文語(yǔ)義信息,F(xiàn)1值提升了6.09%。與Lattice-LSTM和LR-CNN模型相比,本文F1的方法值分別提升了2.71%、2.01%。因?yàn)楸疚睦米宰⒁饬C(jī)制對(duì)融入詞集合信息的特征向量進(jìn)行選擇,有效地獲取到重要的特征向量。

    表4 對(duì)比實(shí)驗(yàn)結(jié)果 (單位: %)

    本文方法與BERT+Bi-LSTM+CRF和FLAT+BERT模型相比,F(xiàn)1值分別提升了5.18%和1.13%。本文方法利用詞集合信息增強(qiáng)文本上下文語(yǔ)義信息,使實(shí)體識(shí)別效果得到顯著改善。FLAT模型的召回率略高于本文方法,因?yàn)镕LAT模型通過(guò)多層位置編碼將外部詞匯信息進(jìn)行編碼,其編碼結(jié)構(gòu)能夠更好地融入Transformer模型中??紤]到BiGRU只有兩個(gè)門控機(jī)制,能夠有效減少訓(xùn)練參數(shù),提高模型的訓(xùn)練效率。因此在綜合考慮訓(xùn)練效率和實(shí)驗(yàn)結(jié)果的F1值情況下,本文選擇BiGRU作為特征提取層。

    本文方法較基線模型的F1值提升了2.71%,本文方法增加了詞集合注意力機(jī)制和位置編碼,能夠有效地獲取四種類型詞集合向量重要程度并且增強(qiáng)了詞集合向量之間的位置信息。

    本文方法在使用預(yù)訓(xùn)練模型(BERT)的實(shí)驗(yàn)中F1值比不使用預(yù)訓(xùn)練模型(BERT)情況下F1值提升了1.25%,因?yàn)锽ERT能夠更好地表示文本語(yǔ)義性。

    實(shí)驗(yàn)二: 融入領(lǐng)域詞典對(duì)實(shí)驗(yàn)結(jié)果的影響

    本文設(shè)置融入Zhang等[4]構(gòu)建的通用詞典(2)https://github.com/jiesutd/LatticeLSTM、融入跨境民族文化領(lǐng)域詞典以及未融入詞典三個(gè)實(shí)驗(yàn)證明融入領(lǐng)域詞典的有效性。

    實(shí)驗(yàn)結(jié)果如圖5所示??梢钥闯觯S著迭代次數(shù)的增加,三組實(shí)驗(yàn)的F1值都在明顯提升,因?yàn)殡S著迭代次數(shù)的增加,模型可以學(xué)習(xí)到更多的特征信息。

    圖5 融入領(lǐng)域詞典對(duì)實(shí)驗(yàn)結(jié)果的影響

    本文對(duì)最終迭代次數(shù)的F1值進(jìn)行了比較,在融入通用詞典實(shí)驗(yàn)中,F(xiàn)1值比未融入詞典實(shí)驗(yàn)提升了3.3%,因?yàn)橥ㄓ迷~典中包含了詞語(yǔ)義信息,本實(shí)驗(yàn)證明融入詞典對(duì)文本語(yǔ)義信息表示的重要性。在融入領(lǐng)域詞典的實(shí)驗(yàn)中F1值比融入Zhang的通用詞典信息實(shí)驗(yàn)提升了1.2%,因?yàn)轭I(lǐng)域詞典中包含跨境民族文化領(lǐng)域詞語(yǔ)義信息和實(shí)體邊界信息。

    實(shí)驗(yàn)三: 位置編碼和詞集合注意力機(jī)制對(duì)實(shí)驗(yàn)結(jié)果的影響

    實(shí)驗(yàn)三驗(yàn)證位置編碼和詞集合注意力機(jī)制對(duì)模型的影響,設(shè)計(jì)保留位置編碼或者詞集合注意力機(jī)制的消融實(shí)驗(yàn)。

    如表5所示,當(dāng)模型只保留位置編碼時(shí)F1值降低了1.46%,說(shuō)明詞集合注意力對(duì)模型效果影響較大,因?yàn)榛谠~集合注意力機(jī)制有助于區(qū)分四種詞集合向量之間的重要程度,進(jìn)而提升了跨境民族文化實(shí)體識(shí)別的精度。當(dāng)模型中只保留詞集合注意力機(jī)制時(shí),F(xiàn)1值降低了0.74%,說(shuō)明位置編碼可以增強(qiáng)詞集合向量之間的位置區(qū)分度,模型同時(shí)添加位置編碼和詞集合注意力機(jī)制能更充分地獲取詞集合信息。

    表5 位置編碼和詞集合注意力對(duì)實(shí)驗(yàn)的影響 (單位: %)

    實(shí)驗(yàn)四: 不同的Dropout_rate對(duì)實(shí)驗(yàn)結(jié)果的影響

    實(shí)驗(yàn)四設(shè)計(jì)了Dropout_rate參數(shù)分別為0.3、0.4、0.5、0.6、0.7的對(duì)比實(shí)驗(yàn)進(jìn)行參數(shù)的選擇。

    如表6所示,Dropout_rate=0.3與0.4的精確率都比Dropout_rate=0.5的精確率高,當(dāng)Dropout_rate值較低時(shí)模型所學(xué)習(xí)的參數(shù)較多,模型學(xué)習(xí)能力更強(qiáng),會(huì)造成過(guò)擬合現(xiàn)象。當(dāng)Dropout_rate=0.6與0.7時(shí),造成過(guò)多的參數(shù)丟失導(dǎo)致模型精確率降低,當(dāng)Dropout_rate=0.5時(shí),模型泛化能力更強(qiáng)。

    表6 不同Dropout_rate對(duì)實(shí)驗(yàn)的影響 (單位: %)

    5 實(shí)例分析

    為了驗(yàn)證本文方法在跨境民族文化實(shí)體識(shí)別上的效果,我們?cè)跍y(cè)試數(shù)據(jù)集中選擇了實(shí)例進(jìn)行分析,將Bi-LSTM+CRF方法、SoftLexicon(LSTM)方法和本文方法進(jìn)行了對(duì)比。

    如表7所示,基于字符級(jí)的Bi-LSTM+CRF方法將實(shí)體“勐永土鍋”錯(cuò)誤識(shí)別為位置和文藝類型,將“傣家竹編”實(shí)體中的“竹編”識(shí)別為文藝類型,該方法未融入詞集合信息導(dǎo)致模型對(duì)邊界模糊的詞識(shí)別效果差。SoftLexicon(LSTM)方法在沒(méi)有融入領(lǐng)域知識(shí)的情況下將“勐永土鍋”實(shí)體錯(cuò)誤識(shí)別為位置和文藝類型,本文方法在融入詞集合信息后能夠準(zhǔn)確地識(shí)別“勐永土鍋”和“傣家竹編”實(shí)體。

    表7 實(shí)例分析

    通過(guò)對(duì)預(yù)測(cè)結(jié)果分析,如在句子“撣族風(fēng)味飲食較為有名的是闊伯,又稱紅糯米糕?!敝校伴煵钡膶?shí)體類型未被正確識(shí)別,因?yàn)樵搶?shí)體未出現(xiàn)在詞集合中。

    6 結(jié)論

    針對(duì)跨境民族文化實(shí)體結(jié)構(gòu)特征,本文提出了融入詞集合信息的跨境民族文化實(shí)體識(shí)別方法,構(gòu)建了15.47萬(wàn)詞的領(lǐng)域詞典,涵蓋了文藝、飲食、節(jié)日、建筑以及習(xí)俗文化等詞。在詞集合向量特征提取層中,基于詞集合注意力機(jī)制方法,增強(qiáng)四種詞集合向量之間的重要程度,利用位置編碼提升詞集合位置信息,使得領(lǐng)域詞典更好地融入到字符向量表示中。實(shí)驗(yàn)表明,本文方法在跨境民族文化實(shí)體識(shí)別上有一定提升。下一步將研究跨境民族文化之間存在實(shí)體鏈接的關(guān)系,將抽取更多的領(lǐng)域詞語(yǔ),構(gòu)建更大的專業(yè)詞匯表,解決未出現(xiàn)在領(lǐng)域詞典的詞語(yǔ)導(dǎo)致實(shí)體識(shí)別效果差的問(wèn)題。

    猜你喜歡
    字符詞典跨境
    尋找更強(qiáng)的字符映射管理器
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    字符代表幾
    跨境支付兩大主流渠道對(duì)比談
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    在跨境支付中打造銀企直聯(lián)
    關(guān)于促進(jìn)跨境投融資便利化的幾點(diǎn)思考
    消失的殖民村莊和神秘字符
    評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    伊川县| 偃师市| 循化| 盖州市| 临清市| 肇庆市| 石泉县| 鲁甸县| 海原县| 广灵县| 平遥县| 徐汇区| 林西县| 原平市| 绥中县| 沈阳市| 延寿县| 化德县| 辽阳市| 房产| 类乌齐县| 剑阁县| 日照市| 新沂市| 洛浦县| 新宁县| 扬州市| 石柱| 铜梁县| 二连浩特市| 广平县| 文昌市| 宁武县| 华坪县| 武邑县| 剑阁县| 谢通门县| 云梦县| 墨竹工卡县| 滦南县| 三明市|