依力達(dá)爾·依明
摘要:特定領(lǐng)域的命名實(shí)體識(shí)別方法在不同的領(lǐng)域中都會(huì)存在很大的差別。不同領(lǐng)域的文本具有其自身的不同的特性,這致使目前已有領(lǐng)域的識(shí)別方法很難滿足識(shí)別新的特定領(lǐng)域的發(fā)展需求。針對(duì)在特定新領(lǐng)域中所存在的問題,提出了以隨機(jī)場、半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的方法為基礎(chǔ)對(duì)特定領(lǐng)域的命名實(shí)體的識(shí)別方法進(jìn)行研究,從而形成一個(gè)特定的領(lǐng)域命名實(shí)體框架,進(jìn)而能夠滿足各個(gè)不同領(lǐng)域的命名實(shí)體識(shí)別方法的需求。這篇文章選用了幾乎在所有特定領(lǐng)域中都能夠通用的方法構(gòu)建特征,從而實(shí)現(xiàn)了對(duì)特定領(lǐng)域的命名實(shí)體識(shí)別方法的研究。
關(guān)鍵詞:特定領(lǐng)域;命名實(shí)體;識(shí)別方法;研究
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)08-0208-03
特定領(lǐng)域中最基本的信息單位是命名實(shí)體,命名實(shí)體不僅是文本原有名稱的縮寫,也是文本的唯一標(biāo)識(shí),它往往能夠涵蓋文章的主要內(nèi)容。命名實(shí)體的識(shí)別是現(xiàn)代自動(dòng)化識(shí)別技術(shù)中的一門最基礎(chǔ)又極其重要的技術(shù)。最近幾年,對(duì)特定領(lǐng)域的命名實(shí)體進(jìn)行現(xiàn)代化自動(dòng)識(shí)別時(shí)已經(jīng)非常的普遍了。在生物領(lǐng)域的命名實(shí)體識(shí)別,文獻(xiàn)針對(duì)不同的事物領(lǐng)域采用了不同的生物向量機(jī),并且以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實(shí)體識(shí)別為基礎(chǔ)開展了生物領(lǐng)域的命名實(shí)體識(shí)別;文獻(xiàn)并且以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實(shí)體為基礎(chǔ)提出了一種產(chǎn)品命名的實(shí)體識(shí)別方法,從而實(shí)現(xiàn)漢語文本命名的識(shí)別;文獻(xiàn)在軍事領(lǐng)域方面,將機(jī)場的隨機(jī)條件和規(guī)則相結(jié)合的方式實(shí)現(xiàn)了對(duì)軍事領(lǐng)域的實(shí)體命名識(shí)別;文獻(xiàn)在音樂領(lǐng)域方面,以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實(shí)體為基礎(chǔ)提出了歌手名和歌曲名等進(jìn)行了實(shí)體識(shí)別;文獻(xiàn)在醫(yī)學(xué)領(lǐng)域方面,使用了將條件隨機(jī)任何規(guī)則相結(jié)合的方式從而實(shí)現(xiàn)了醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別。
為了能夠驗(yàn)證這篇文章所采用方法的科學(xué)性與正確性,實(shí)驗(yàn)部分做了反復(fù)多次的實(shí)驗(yàn),從而確保準(zhǔn)確率達(dá)到相應(yīng)的標(biāo)準(zhǔn)。經(jīng)過一系列的實(shí)驗(yàn)研究發(fā)現(xiàn)該方法在交通領(lǐng)域中得到了實(shí)現(xiàn)了的命名實(shí)體識(shí)別效果,從而驗(yàn)證了該實(shí)驗(yàn)方法可以在實(shí)驗(yàn)的過程中應(yīng)用。
1 特定領(lǐng)域命名實(shí)體識(shí)別方法的相關(guān)知識(shí)
由于各個(gè)文本在不同的領(lǐng)域中都有其不同的特點(diǎn)[1],所以文章所闡述的命名實(shí)體方法只能適用于特定領(lǐng)域的命名實(shí)體識(shí)別。如果將這些領(lǐng)域的命名實(shí)例方法應(yīng)用于其他領(lǐng)域的命名實(shí)體識(shí)別,識(shí)別的效果將會(huì)意想不到的下降。所以這篇文章針對(duì)在命名實(shí)體中存在的問題進(jìn)行了分析.從而提出了一種將條件隨機(jī)場監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的計(jì)算方法,既然形成了一個(gè)可以適用于特定領(lǐng)域的命名實(shí)體識(shí)別的技術(shù)框架[2]。這個(gè)實(shí)驗(yàn)在開展的過程中所采用的是將各領(lǐng)域的文本的基本特征和基本構(gòu)建進(jìn)行結(jié)合的方法,然后在隨意的條件下對(duì)特定領(lǐng)域的命名實(shí)體進(jìn)行識(shí)別,然后再使用人工對(duì)低于閾值的文本進(jìn)行標(biāo)注。
1.1 條件隨機(jī)場
條件隨機(jī)場指的是一些研究人員以隱馬爾可夫?qū)嶒?yàn)和最大熵模型實(shí)驗(yàn)為基礎(chǔ)提出的一種概率判別模型。概率判別模型可以很快地判別出眾多序列中的特征,從而可以用來克服隱馬爾可夫模型中嚴(yán)格的強(qiáng)獨(dú)立性假設(shè)問題。與此同時(shí)[3],條件隨機(jī)場通過對(duì)全局統(tǒng)一規(guī)劃可以得出最優(yōu)輸出點(diǎn)的條件概率,從而可以有效地克服隱馬爾可夫模型中出現(xiàn)問題標(biāo)記的現(xiàn)象。
組合參考頻率系統(tǒng)也被稱為馬爾可夫條件隨機(jī)場,它可以用來定義:在一組特定的觀察序列中,可以將該觀察序列記為X,給一個(gè)標(biāo)記序列的連接記為Y。然后使用馬爾可夫條件隨機(jī)場將該條件區(qū)別看作為沒有條件的無向圖模型[4]。雖然條件無向圖的模型結(jié)構(gòu)非常隨意,但是因?yàn)橐浑A鏈結(jié)構(gòu)在計(jì)算的過程中非常的簡單,所以在建立條件無向圖的模型結(jié)構(gòu)時(shí)一般會(huì)采用一階鏈結(jié)構(gòu)。組合參考頻率系統(tǒng)可以看為一階鏈狀無向圖模型的各輸出點(diǎn)之間的分隔,并且都存在一階鏈狀無向圖模型可以體現(xiàn)出馬爾科夫獨(dú)立性,如圖1所示:
通過圖1的一階鏈狀無向圖模型我們可以計(jì)算出Y的條件概率。
1.2 半監(jiān)督學(xué)習(xí)算法和主動(dòng)學(xué)習(xí)算法
半監(jiān)督學(xué)習(xí)算法又被稱為自訓(xùn)練算法。半監(jiān)督學(xué)習(xí)算法是指將有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)算法進(jìn)行結(jié)合的一種統(tǒng)計(jì)計(jì)算學(xué)方法。可以通過將大量的標(biāo)注和未標(biāo)注的語料進(jìn)行分類和自主練習(xí),并且整個(gè)計(jì)算過程都是自動(dòng)化不需要人力的參與。關(guān)于城市城軌交通領(lǐng)域方面的文本,如果采用人工的方法對(duì)語料進(jìn)行標(biāo)注[5],不僅會(huì)嚴(yán)重地降低城市城軌交通的運(yùn)行效率,反而會(huì)浪費(fèi)大量的時(shí)間。因此為了能夠減少用人工對(duì)語料進(jìn)行標(biāo)注的方法使用,就需要多采用組合參考頻率系統(tǒng)進(jìn)行反復(fù)的訓(xùn)練,必要時(shí)還可以結(jié)合半監(jiān)督學(xué)習(xí)算法,從而組建一個(gè)具有較強(qiáng)泛化能力的模型。
這篇文章采用半監(jiān)督學(xué)習(xí)算法,基本流程如下所示:
輸入:已經(jīng)標(biāo)注的訓(xùn)練集標(biāo)記為L特征集合標(biāo)記為V.沒有被標(biāo)注的訓(xùn)練集標(biāo)記為U。
(1)利用已經(jīng)標(biāo)記的訓(xùn)練集L在特征集合v上可以現(xiàn)在出模型Cl。
(2)再利用模型C1對(duì)沒有標(biāo)記的訓(xùn)練集U進(jìn)行命名實(shí)體的識(shí)別,并計(jì)算沒有標(biāo)記的訓(xùn)練集U的置信度。
(3)從沒有標(biāo)記的訓(xùn)練集U中選擇出高于閾值的一個(gè)樣本u加入已經(jīng)被標(biāo)記的訓(xùn)練集L中,最后從沒有標(biāo)記的訓(xùn)練集U中刪除高于閾值的樣本u。
(4)之后的計(jì)算就需要依照以上三個(gè)步驟反復(fù)地進(jìn)行,最后得出最簡化的計(jì)算模型。
如果想要在計(jì)算的過程中采用半監(jiān)督學(xué)習(xí)算法的方式[6],就需要選擇初始分類器具有高的分類精準(zhǔn)性。如果計(jì)算人員不能夠保證初始分類器具有高度的分類精準(zhǔn)性,并且在計(jì)算的過程中沒有人工的干預(yù),那么就會(huì)導(dǎo)致在反復(fù)計(jì)算的過程中出現(xiàn)錯(cuò)誤積累的現(xiàn)象,從而導(dǎo)致分類器的訓(xùn)練實(shí)驗(yàn)失效。
與半監(jiān)督學(xué)習(xí)算法相比較,主動(dòng)學(xué)習(xí)算法的優(yōu)勢(shì)在于它能夠自動(dòng)的選擇有利的訓(xùn)練模型將沒有標(biāo)注的樣本進(jìn)行標(biāo)注,從而在反復(fù)計(jì)算的過程中盡量減小標(biāo)注成本和分類學(xué)習(xí)的計(jì)算規(guī)模。研究人員已經(jīng)將主動(dòng)學(xué)習(xí)算法應(yīng)用到語言處理領(lǐng)域中[7],比如將文本語言進(jìn)行分類、構(gòu)建沒有標(biāo)記的語料庫、語言實(shí)體的命名與識(shí)別等。再次與半監(jiān)督學(xué)習(xí)算法相比較,半監(jiān)督學(xué)習(xí)算法與主動(dòng)學(xué)習(xí)算法兩者最大的區(qū)別在于:半監(jiān)督學(xué)習(xí)算法不需要人工的干預(yù),通過自身所選定的訓(xùn)練模型來選擇置信度高并且沒有被標(biāo)注的數(shù)據(jù)進(jìn)行利用;而主動(dòng)學(xué)習(xí)算法在計(jì)算的過程中,能夠自動(dòng)化的選取最有價(jià)值的標(biāo)注樣本加入已經(jīng)標(biāo)注過的樣本中。
2 以條件隨機(jī)場為基礎(chǔ)的命名實(shí)體識(shí)別
2.1 分詞和標(biāo)注
這篇文章采用的是我們國家最具有權(quán)威性的分詞系統(tǒng)ICT_CLAS[8]。應(yīng)用中國權(quán)威的中文分詞系統(tǒng)ICT-CLAS對(duì)城軌交通進(jìn)行分詞處理,并且其詞性的標(biāo)注結(jié)果將作為條件隨機(jī)場學(xué)習(xí)的重要特點(diǎn)。這篇文章使用字母符號(hào)為(A.B.C.D)集合對(duì)特定的領(lǐng)域文本實(shí)體的第一字符、中間字符和最后一個(gè)字符的集合中部分進(jìn)行標(biāo)注,還需要確保集合中的每一個(gè)字符都是{A.B.C.D)字母符號(hào)集合中的一種。
2.2 建立特征模板和函數(shù)
在條件隨機(jī)場訓(xùn)練模型中,選擇和建立合適的特征模板將對(duì)模板的性能產(chǎn)生十分重要的影響[9]。特定領(lǐng)域中的文本將有其文本自身的特定性,為了使得所建立的模板適用于各個(gè)特定的領(lǐng)域中,這篇文章將使用以下四種基本特征建立特征模板和函數(shù)。
(1)選擇合適的詞特征。分詞后的每一個(gè)詞都可以作為模板的特征,因?yàn)樵~特征本身的特征就可以很好的反映出該文本獨(dú)有的特性,所以選擇合適的詞特征就能夠代表已經(jīng)選擇了選擇合理的模板特征[10]。
(2)詞性特征。這篇文章在對(duì)詞特征進(jìn)行分類的過程中也對(duì)詞特征進(jìn)行了標(biāo)注。經(jīng)過一系列列的實(shí)驗(yàn)研究表明,用詞性特征來建立條件隨機(jī)機(jī)場可以很好地提高模板的計(jì)算性能。
(3)英文字母以及數(shù)字的特征。在很多特定的領(lǐng)域進(jìn)行實(shí)體命名的過程中都會(huì)有一些數(shù)字[9]。比如:在醫(yī)學(xué)領(lǐng)域中的“化學(xué)藥物1.2”、城軌交通領(lǐng)域中的“飛馳號(hào)CRH381B”等。因?yàn)樵趯?shí)體命名的過程中加上一些數(shù)字可以有利于區(qū)分同一領(lǐng)域中的不同事物,所以使很多特定領(lǐng)域在進(jìn)行實(shí)體命名的過程中,都會(huì)加入英文字母和一些數(shù)字。
(4)上下文特征。通過觀察序列的數(shù)值來看清序列本質(zhì),序列本身可以包含很多語言和文本信息。通過大量的實(shí)驗(yàn)研究表明,在實(shí)驗(yàn)范圍大的條件下,只運(yùn)用訓(xùn)練的上下文特征也能夠訓(xùn)練出性能比較好的模型。
本文將上面所提到的四種文本普遍含有的特征融合在一起構(gòu)成了還有特殊性能的特征模板。建立特征模板的目的就是為了獲得所需要的可以普遍使用的函數(shù),而獲得特征函數(shù)的性能在一定程度上也將取決于本篇文章對(duì)城軌交通文本的識(shí)別效果。
3 將半監(jiān)督學(xué)習(xí)和自動(dòng)學(xué)習(xí)相融合所獲得的命名實(shí)體的識(shí)別辦法
在現(xiàn)有的命名實(shí)體識(shí)別的范圍中,以條件隨機(jī)場和半監(jiān)督算法相結(jié)合的命名實(shí)體方式非常的多見[11-13]。正如這篇文章所提及的半監(jiān)督算法會(huì)從沒有標(biāo)記的本集U中選出一個(gè)置信度高于閾值一個(gè)的u來加入沒有被標(biāo)注的樣本L中。正在計(jì)算的理論角度來看,當(dāng)所選中集合中的數(shù)量擴(kuò)大之后,就需要建立新的數(shù)據(jù)模型Dn。但是在新添加的訓(xùn)練樣本中有一部分的數(shù)據(jù)對(duì)提高新建的數(shù)據(jù)模型Dn性能沒有起到任何作用。因?yàn)檫@些數(shù)據(jù)是在原有的樣本中被標(biāo)記出來的,所以所添加的數(shù)據(jù)在原有的數(shù)據(jù)模型中屬于多余部分。除此之外,因?yàn)橐呀?jīng)有了特定領(lǐng)域缺乏豐富的分詞標(biāo)注,所以使得現(xiàn)有的分詞領(lǐng)域系統(tǒng)不在適用于特定領(lǐng)域系統(tǒng),進(jìn)而導(dǎo)致特定領(lǐng)域系統(tǒng)的分詞出現(xiàn)準(zhǔn)確性低的現(xiàn)象[14]。根據(jù)上面講述的兩點(diǎn)來看,若在命名實(shí)體識(shí)別的過程中僅應(yīng)用半監(jiān)督學(xué)習(xí)和自動(dòng)學(xué)習(xí)相融合的方法,模型在反復(fù)循環(huán)計(jì)算的過程中不僅會(huì)降低計(jì)算的速度,而且會(huì)使計(jì)算的錯(cuò)誤反復(fù)的積累。然而,如果將半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)算法進(jìn)行結(jié)合,可以很好地克服在計(jì)算過程中出現(xiàn)的這種不良現(xiàn)象[15]。因?yàn)橹鲃?dòng)學(xué)習(xí)算法可以將不能被原模型進(jìn)行標(biāo)注的數(shù)據(jù)進(jìn)行人工標(biāo)記,然后再將標(biāo)記好的數(shù)據(jù)重新放入到新的訓(xùn)練模型中。這樣不僅能夠減少分類器在分類過程中出現(xiàn)的錯(cuò)誤,而且也能夠?qū)崿F(xiàn)原有的模型在特定領(lǐng)域中的使用。
3.1 在置信度基礎(chǔ)上的主動(dòng)學(xué)習(xí)
這篇文章將不能被原有模型進(jìn)行標(biāo)記的數(shù)據(jù)稱為有效數(shù)據(jù),并且這些樣本存在于沒有被標(biāo)記的數(shù)據(jù)中。在這里我們可以使用置信度將這些數(shù)據(jù)選擇出來作為有效數(shù)據(jù)。通過一系列的就算得到圖2所示的計(jì)算結(jié)構(gòu)模型。
該結(jié)構(gòu)模型的算法流程圖如下所示:
輸入已獲得標(biāo)記的樣本集為L;沒有被標(biāo)記的樣本集稱為U。
(1)獲取少量已經(jīng)被標(biāo)注的語料看作為l。
(2)使用條件隨機(jī)場對(duì)L進(jìn)行訓(xùn)練練習(xí),產(chǎn)生條件隨機(jī)場模型Dn。
(3)使用條件隨機(jī)場模型Dn對(duì)U命名實(shí)體進(jìn)行命名識(shí)別,并對(duì)U命名實(shí)體進(jìn)行標(biāo)注結(jié)果的置信度估算,即獲得一個(gè)條件概率為P(YIU)。
(4)選擇由U本集中置信度低于閾值的數(shù)據(jù)作為有效數(shù)據(jù),并將這些有效數(shù)據(jù)標(biāo)記為useful。
(5)然后再對(duì)有效數(shù)據(jù)useful進(jìn)行標(biāo)記,標(biāo)記好的數(shù)據(jù)稱為u。
(6)再把這些標(biāo)記好的數(shù)據(jù)又加入樣本集中L,并從沒有被標(biāo)記的樣本集U中刪除。
(7)將上面所闡述的六個(gè)過程進(jìn)行反復(fù)的計(jì)算,直至所計(jì)算的模型Dn處于收斂狀態(tài)。
最后輸出的數(shù)據(jù)模型為Dn。
4 該實(shí)驗(yàn)的結(jié)果以及實(shí)驗(yàn)結(jié)果分析
為了能夠有效地驗(yàn)證該實(shí)驗(yàn)結(jié)果是科學(xué)和準(zhǔn)確的,這篇文章采用了城軌交通的方式來進(jìn)行了驗(yàn)證。相對(duì)交通的方式包括地鐵、高鐵和磁懸浮列車等。并且因?yàn)槟壳皣鴥?nèi)沒有統(tǒng)一的城軌交通語料庫,所以就需要通過人工進(jìn)行語料庫的收集。這篇文章所需要的數(shù)據(jù)來源于很多的新聞報(bào)道和報(bào)紙以及網(wǎng)絡(luò)信息,一共設(shè)計(jì)了200片科學(xué)性的文章。并且本次實(shí)驗(yàn)所采用了非常著名的條件隨機(jī)場開源工具和實(shí)驗(yàn)方法,而且還使用了半監(jiān)督學(xué)習(xí)計(jì)算方法和主動(dòng)學(xué)習(xí)計(jì)算方法,雖然實(shí)現(xiàn)了對(duì)城市交通軌道的命名實(shí)體識(shí)別。
這次實(shí)驗(yàn)采用了四組實(shí)驗(yàn)對(duì)比,分別使用了半監(jiān)督學(xué)習(xí)計(jì)算方法和主動(dòng)學(xué)習(xí)方法以及三種學(xué)習(xí)計(jì)算方法相結(jié)合的方式進(jìn)行反復(fù)重復(fù)的計(jì)算。
5 結(jié)束語
本文提出的是在條件隨機(jī)場的條件下,將半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)計(jì)算方法相結(jié)合的方法對(duì)特定的領(lǐng)域進(jìn)行命名識(shí)別。這種方法使用半監(jiān)督學(xué)習(xí)中的半監(jiān)督算法的條件隨意機(jī)場進(jìn)行反復(fù)的運(yùn)算,并且在其反復(fù)運(yùn)算的過程中選擇出置信度低于閾值的有效數(shù)據(jù),并將這些有效數(shù)據(jù)加入已經(jīng)被標(biāo)注的樣本中。這種計(jì)算方法結(jié)合了主動(dòng)學(xué)習(xí)算法的理論。并且該計(jì)算方法在城軌交通命名方面得到了很好的命名實(shí)體識(shí)別結(jié)果。這篇文章不僅使用了最基本的技術(shù)文本特征和基礎(chǔ)構(gòu)建對(duì)特定的領(lǐng)域我們進(jìn)行隨機(jī)訓(xùn)練,而且選擇和增加不同領(lǐng)域的多種特征是下一次實(shí)驗(yàn)的研究重點(diǎn)。為了使特定領(lǐng)域的命名實(shí)體識(shí)別方法研究得更加深層入,這需要研究人員結(jié)合不同領(lǐng)域的多種特點(diǎn)進(jìn)行研究??偠灾瑢⑻囟I(lǐng)域的命名實(shí)體識(shí)別方法不斷地進(jìn)行突破與創(chuàng)新是推動(dòng)特定領(lǐng)域命名實(shí)體識(shí)別方法的快速進(jìn)步的基礎(chǔ)。
參考文獻(xiàn):
[1]張磊,特定領(lǐng)域的命名實(shí)體識(shí)別方法的研究[J].計(jì)算機(jī)與現(xiàn)代化,2018(3):60-64.
[2]張寧.面向特定領(lǐng)域的命名實(shí)體識(shí)別技術(shù)研究[D].杭州:浙江大學(xué),2018.
[3]張磊.特定領(lǐng)域命名實(shí)體識(shí)別通用方法的研究[D].北京:北京交通大學(xué),2018.
[4]何曉藝.面向領(lǐng)域文本知識(shí)實(shí)體識(shí)別及關(guān)系抽取的關(guān)鍵技術(shù)研究[D].石家莊:河北科技大學(xué),2018.
[5]劉璟.中文命名實(shí)體識(shí)別方法研究[J].電腦知識(shí)與技術(shù),2019,15(9):179-180.
[6]張曉海,操新文,高源.基于深度學(xué)習(xí)的作戰(zhàn)文書命名實(shí)體識(shí) 別[J].指揮控制與仿真,2019,41(4):22-26.
[7]王路路,艾山·吾買爾,吐爾根·依布拉音,等.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào),2019,33(3):64-70.
[8]趙鴻陽.基于深度學(xué)習(xí)的電子病歷命名實(shí)體識(shí)別的研究與實(shí)現(xiàn)[J].軟件,2019,40(8):208-211.
[9]張祥偉,李智.基于多特征融合的中文電子病歷命名實(shí)體識(shí)別[J].軟件導(dǎo)刊,2017,16(2):128-131.
[10]高甦,金佩,張德政.基于深度學(xué)習(xí)的中醫(yī)典籍命名實(shí)體識(shí)別研究[J].情報(bào)工程,2019,5(1):113-123.
[11]宋希良,韓先培,孫樂.面向新類型人名識(shí)別的數(shù)據(jù)增強(qiáng)方法[J].中文信息學(xué)報(bào),2019,33(6):72-79.
[12]原旎,盧克治,袁玉虎,等.基于深度表示的中醫(yī)病歷癥狀表型命名實(shí)體抽取研究[J].世界科學(xué)技術(shù)一中醫(yī)藥現(xiàn)代化,2018,20(3):355-362.
[13]張海楠,伍大勇,劉悅,等.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2017,31(4):28-35.
[14]祖木然提古麗·庫爾班,艾山·吾買爾,中文命名實(shí)體識(shí)別模型對(duì)比分析[J].現(xiàn)代計(jì)算機(jī),2019(14):3-7.
[15]徐梓豪.基于統(tǒng)計(jì)模型的中文命名實(shí)體識(shí)別方法研究及應(yīng)用[D].北京:北京化工大學(xué),2017.
【通聯(lián)編輯:唐一東】