艾孜海爾江·玉素甫,姬東鴻,李 霏,滕 沖,艾孜爾古麗
(1. 武漢大學 國家網絡安全學院 空天信息安全與可信計算教育部重點實驗室,湖北 武漢430072;2. 新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054)
命名實體識別(Named Entity Recognition,NER)是自然語言處理中的一項重要任務,其發(fā)展經歷了從早期基于詞典和規(guī)則的方法,到傳統機器學習方法,再到目前采用基于深度學習的方法,如注意力機制、圖神經網絡等。盡管現在已經出現了許多命名實體識別方法,但由于命名實體本身的隨意性、復雜性和多變性等特點,仍存在許多問題需要解決。其中,缺乏高質量數據集是當前實體命名識別技術發(fā)展的一個主要障礙。高質量標注的數據集對于模型的訓練和評估具有至關重要的作用。目前,監(jiān)督學習仍然是最有效的模型訓練方法,從Word2Vec到BERT等基于深度學習的命名實體識別方法的性能提升,得益于大規(guī)模語料庫的預訓練模型的發(fā)展。然而,數據集的缺乏將直接導致模型的訓練和部署效果受到限制。數據標注仍然是一項耗時昂貴的任務,特別是在某些特定領域,需要領域專家進行數據標注,這是一個巨大的挑戰(zhàn)。因此,如何快速、準確、經濟地構建高質量的數據集,是當前命名實體識別技術需要解決的一個重要問題。
本文構建了一個規(guī)模較大、標注質量較高的烏語命名實體數據集,數據集來源于新聞語料。文章詳細介紹了數據集的準備、標注體系、構建方法及過程。本文采用了雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM)-條件隨機場(CRF)算法、迭代擴張卷積神經網絡(Iterated Dilated Convolutional Neural Networks, IDCNN)-CRF算法和雙向門控循環(huán)單元網絡(Bidirectional Gating Recurrent Unit,BiGRU) -CRF算法對該數據集進行了實驗評估和分析。該數據集可為后續(xù)相關研究提供數據基礎和評測依據,為烏語命名實體識別領域的研究提供了有力的數據支撐和有效的評測基礎。
烏語自然語言處理在國內外都處于初始階段。國外學者Baisa[1]等構建了包括烏語在內的六種語言的網絡語料庫。King[2]等在使用弱監(jiān)督方法標記混合語言文檔中單詞的語言時構建文本語料庫。Li[3]等構建了烏茲別克語-英語和土耳其語-英語語素對齊語料庫。Tsai[4]等通過對維吾爾語和烏茲別克語進行跨語言遷移實體命名識別并獲得60.4的F1值。Sharipov[5]等訓練了基于 BERT 架構的預訓練烏茲別克語語言模型。Salaev[6]等填補了烏茲別克語語義相似性和相關性數據集的空白。Matlatipov[7]等通過烏茲別克斯坦當地餐廳評論進行情緒分析,最終在性能最佳的模型中達到了91% 的準確率。Sharipov[8]等為烏茲別克語創(chuàng)建詞法和句法標記語料庫。
國內學者帕提古麗·艾合買提[9]等研究了基于信息處理的烏茲別克語語音變化現象自動還原技術。阿西穆·托合提[10]等人構建烏茲別克語-維吾爾語雙語語料庫。胡創(chuàng)業(yè)[11]等研究了基于翻譯API的HSK漢-烏平行詞庫構建方法。吐拉克孜·吐爾遜[12]等研究了烏孜別克語動詞的基本特征。艾孜海爾江[13]等研究了基于多策略的烏孜別克語名詞詞干識別。玉素甫·艾白都拉[14]等研究了面向自然語言處理的現代烏茲別克語名詞詞綴。吾買爾江·買買提明[15]等研究了烏茲別克語詞干提取算法的比較。原偉[16]研究了基于情感詞典和標注語料庫的烏茲別克語短文本情感分析。這些研究對該領域的發(fā)展均做出了積極貢獻,但目前尚沒有學者開展專門針對烏語命名實體識別問題的研究。
相對而言,維吾爾語實體命名識別有著較多的成果。維吾爾語命名實體數據集構建,學者艾斯卡爾·肉孜[17]等根據維吾爾人名特點構建人名數據集。塔什甫拉提·尼扎木丁[18]等在人名、地名、機構名的一體化識別任務中所構建的數據集。阿迪來·艾合買提[19]等在對維吾爾語音樂實體識別研究的任務中,構建含有音樂實體的數據集。買買提阿依甫[20]等對天山網新聞數據進行人工標注詞性和命名實體標記作為實驗語料庫。王路路[21]等在使用深度神經網絡對維吾爾文命名實體識別研究的任務中,使用新疆多語種信息技術實驗室標注的命名實體數據集。孔祥鵬[22]等使用遷移學習對維吾爾語命名實體識別中構建新聞語料標注數據集。
綜上所述,烏語實體命名識別在國內外是一個未被開發(fā)的領域,而在機器學習方面研究命名實體識別需要依賴規(guī)范的數據資源。因此,建立符合規(guī)范的命名實體相關數據資源是十分關鍵的工作,是不可忽視的任務。針對上述問題,本文主要貢獻為以下三點:
(1) 構建了一個包含25 966個標注實體的烏茲別克語新聞實體命名識別數據集。該數據集涵蓋了三種類型的命名實體: 人名、地名和組織機構名,具有很高的質量和覆蓋范圍。
(2) 在該數據集上進行了實驗和分析,使用了三種不同的深度學習模型: BiLSTM-CRF、BiGRU-CRF和IDCNN-CRF。實驗結果表明,這些模型均可顯著提高NER任務的準確性和F1值,其中BiGRU-CRF模型表現最好。
(3) 對模型的預測結果進行了可視化分析,并進一步分析了模型在不同類型的命名實體上的性能。
實驗結果表明,模型能準確地識別大多數命名實體,并將它們正確分類為人名、地名或組織機構名。但仍然存在一些問題。其中之一是識別未登錄詞,即在訓練數據中從未出現過的單詞或詞組,因為模型可能無法正確理解這些詞的含義。此外,模型存在將組織機構名稱錯誤地分類為地名的問題,這也是需要改進的問題。
目前,尚未見關于烏語實體命名識別研究的公開數據集,因此,本文從https://dunyo.info/uz新聞媒體平臺收集500篇新聞文章,并對這些文本進行了預處理。預處理包括去除HTML標簽、分詞、去除重復數據等。烏語是一種黏著語言,具有豐富的形態(tài)變化。單詞可以通過添加前綴、后綴、中綴和變音來表示不同的語法和語義信息。因此,單詞本身往往比較長,且可以有很多不同的變體。這使得對烏語的分詞自然語言處理任務具有一定的挑戰(zhàn)性。烏語因歷史原因,存在西里爾文和拉丁文兩種文字體系共用的情況。本文為了更好地處理烏語語料,對文本中西里爾文的書寫統一轉換成了拉丁文,由此得到兩萬條烏語拉丁文文本數據集。
為了保證數據的質量和準確性,由一名語言學專家?guī)ьI三名精通烏語的語言學專業(yè)碩士生擔任標注員,三名學生先進行一輪試標注與討論,在此基礎上總結出具體的烏語實體命名數據的標注規(guī)范,然后依據標注規(guī)范由標注員獨立進行標注。對于不一致性標注,由語言學專家進行統一仲裁。同時我們也進行了反復的自查和審核。
數據格式由于每一個實體類句子可能由兩個或兩個以上的詞組成,因此在生成實驗數據時,本文采用 BIO[23](Begin-in-Out)標記模式,通過對每個詞進行標記,來確定該詞是否為某一類實體的一部分。每類實體內部又分為開始位置(B-)、非開始位置(I-),非實體類詞統一標記為 O。最終定義的完整的標記集 TagSet={O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG},共包含 7 種標簽。這些標簽用于確定每個詞所屬的實體類別,以便進行命名實體識別。定義的標注集如表1所示。
表1 烏語命名實體標注集
標注規(guī)范(1) 實體類型: 烏語實體類型在人工標注語料的過程當中,對所有語料本文使用人名、地名和機構名三類實體標記,不是命名實體的詞語不需要標記。實體樣例如表2所示。
表2 語料標記實例
(2) 標注單位: 參照其他實體命名識別數據集,以單條語句為單位進行標注。
本文選取了500篇新聞文章,通過以上步驟,最終構建了一個包含兩萬條新聞文本、25 966個實體和274 730個詞匯的烏茲別克語新聞實體命名識別數據集。其中,最長的句子由38個詞組組成,新聞文本中包含的實體數量最多為7個詞組,最少為1個詞組。在數據集的構建過程中,我們對這些實體詞的長度和詞頻分布進行了統計,并將統計結果詳細呈現于圖1中。在標注過程中,本文采用了統一的標注體系,保證了數據集的一致性和可比性。為了確保標注的一致性,本文從數據集中隨機抽取了1 000條數據,并由三名標注員進行一致性實驗,標注一致性達到了84.3%。
圖1 實體詞頻統計及實體類型長度表
烏語是多音節(jié)語言,與其他語言相比,烏語中的地名和機構名數量龐大,同時音譯地名較多,這些名詞的長度也沒有限制。因此,在處理烏語句子時,將其分成短語或詞組更為符合其語言形態(tài)特征。本文針對烏語的特性,選擇了基于詞組進行處理的詞級模型。這種模型可以將句子分成不同的詞組,每個詞組表示一個完整的語言單位,包括名詞、動詞、形容詞和副詞等。同時,這種模型可以考慮烏語的黏著性和形態(tài)豐富性等特點,能夠更好地處理復雜的語法和語義信息。例如,在識別機構名或地名時,考慮到這些名稱常常由多個詞組成,可以通過識別這些詞組來提高準確率。因此,基于詞組的詞級模型在處理烏語這種黏著性強、形態(tài)豐富的語言方面具有一定的優(yōu)勢,特別是在處理地名、機構名等長詞匯時更具有效性。
為了進一步探索和分析烏語實體命名識別在本文構建數據集上的表現,本文參考了維吾爾語實體命名識別研究[21]的方法,最終本文選擇了三組具有代表性神經網絡模型BiLSTM-CRF、BiGRU-CRF和IDCNN-CRF進行實驗。
BiLSTM-CRF[24]是一種序列標注模型,結合了雙向長短時記憶網絡(BiLSTM)和條件隨機場(CRF)兩種方法。BiLSTM用于從輸入序列中提取特征并捕捉上下文信息;然后CRF用于對標簽序列進行全局優(yōu)化,以提高模型的準確性和魯棒性。該模型的結構如圖2所示。首先將文本序列輸入到嵌入層中,每個單詞通過嵌入層轉換為固定維度的向量表示。接著,采用雙向長短時記憶網絡(BiLSTM)從輸入序列中提取特征。BiLSTM由兩個長短時記憶網絡(Long Short Term Memory Network, LSTM)層組成,一個從左到右(Forward),一個從右到左(Backward),分別捕捉到輸入序列的前向和后向信息。BiLSTM層輸出的特征序列輸入到條件隨機場(CRF)中,對標簽序列進行全局優(yōu)化。 CRF層可以考慮上下文和相鄰標簽之間的關系,使得標簽序列的預測更加準確和連貫。最終,將CRF層輸出的標簽序列作為模型的最終輸出,即對輸入序列中每個單詞進行標注。
圖2 BiLSTM-CRF模型圖
BiGRU-CRF[25]是一種序列標注模型,結合了雙向門控循環(huán)單元(BiGRU)和條件隨機場(CRF)兩種方法。 BiGRU用于從輸入序列中提取特征并捕捉上下文信息,然后用CRF對標簽序列進行全局優(yōu)化,以提高模型的準確性和魯棒性。 門循環(huán)單元(Gate Recurrent Unit, GRU)是LSTM的一種變體,其單元結構如圖3所示。
圖3 GRU單元結構
與LSTM相比,GRU的結構更加簡單,將遺忘門和輸入門合成為一個單一的更新門,同時將細胞狀態(tài)和隱藏狀態(tài)結合起來。BiGRU是在GRU的基礎上進行改進,通過雙向傳遞聯系上下文語義,提高了模型的特征提取能力和上下文建模能力。
BiGRU模型的結構如圖4所示。首先將文本序列輸入模型中,單詞通過嵌入層轉換為固定維度的向量表示。隨后使用雙向門控循環(huán)單元(BiGRU)從輸入序列中提取特征。BiGRU由兩個GRU層組成,一個從左到右(Forward),一個從右到左(Backward),分別捕捉輸入序列的前向信息和后向信息。將BiGRU層輸出的特征序列輸入到條件隨機場(CRF)中,對標簽序列進行全局優(yōu)化。CRF層可以考慮上下文和相鄰標簽之間的關系,使得標簽序列的預測更加準確和連貫。最后將CRF層輸出的標簽序列作為模型的最終輸出,即對輸入序列中的單詞進行標注。
圖4 BIGRU模型圖
IDCNN-CRF[26]結合了迭代擴張卷積神經網絡(IDCNN)和條件隨機場(CRF)兩種方法,其主要目的是在不增加模型參數和保持模型速度的前提下,增大模型的感受野。IDCNN用于從輸入序列中提取特征,然后CRF對標簽序列進行全局優(yōu)化,以提高模型的準確性和魯棒性。模型結構如圖5所示,它先將文本序列輸入模型中,每個單詞通過嵌入層轉換為固定維度的向量表示。使用卷積神經網絡(CNN)變種IDCNN,從輸入序列中提取特征。這些特征可以是局部的或全局的,可以捕捉到不同層次的信息,如詞匯、句法、語義等。將特征序列輸入到條件隨機場(CRF)中,對標簽序列進行全局優(yōu)化。CRF層可以考慮上下文和相鄰標簽之間的關系,使得標簽序列的預測更加準確和連貫。最終將CRF層輸出的標簽序列作為模型的最終輸出,即對輸入序列中的每個單詞進行標注。
圖5 IDCNN-CRF模型圖
目前,針對烏茲別克語命名實體識別的公開語料庫未見報道,實驗采用本文建立的烏語實體命名數據集(UZNERD),本文建立的數據集囊括了500篇新聞文章語料總共兩萬條文本數據,包含10 910個人名、10 116個地名、4 940個機構名。按照8: 1: 1的比例將數據集劃分為訓練集、驗證集和測試集。數據集的詳細信息如表3所示。
表3 烏語實體命名數據集的統計信息
本次實驗使用準確率(Precision,P)、召回率(Recall,R)和綜合評價指標(F1-Measure,F1)作為實驗結果的評價指標。計算如式(1)~式(3)所示。
本文的實驗部分旨在評估三種不同的模型在命名實體識別任務上的表現。我們選擇了BiLSTM-CRF,IDCNN-CRF和BiGRU-CRF這三種模型進行比較。
為了保證結果的可靠性,實驗將最大序列長度設置為100,將訓練Epoch設置為50,Hidden_dim設置為200,Batch size設置為32,Dropout率設置為0.5,學習率設置為0.001,優(yōu)化器使用Adam。IDCNN模型中Nums設置為2,Filter_nums設置為64。
本實驗程序部署于配置為Intel Core (TM) i7-1170F、@2.50GHz 處理器、16 GB RAM、Nvidia GeForce GTX 3090上運行。使用Nvidia GeForce GTX 3090的GPU進行加速;基礎程序和訓練使用Python 3.8.8和Transformers 4.6.1。
為了評估本文提供的烏語命名實體識別數據集的效果,本文使用了三種不同的模型,分別是BiGRU-CRF、BiLSTM-CRF和IDCNN-CRF。實驗結果如表4所示。可以看出,三種模型在該數據集上的性能表現差異不大。其中,BiGRU-CRF模型在該數據集上的性能最佳,其F1值達到了90.30%。這是因為BiGRU-CRF模型能更好地捕捉句子中的上下文信息,并且具有更快的訓練速度。與此相比,BiLSTM-CRF模型的表現仍然很好,但訓練速度稍慢一些。值得注意的是,BiLSTM-CRF模型和BiGRU-CRF模型在準確率、F1值和召回率等性能指標上表現相似,僅存在微小的差距。相比之下,IDCNN-CRF模型在處理該數據集時表現不佳,這是因為該模型沒有充分捕捉到句子中的上下文信息。
表4 烏語命名實體識別數據集在不同模型上的表現 (單位: %)
本文使用的模型在三類實體詞上的實驗結果如表5所示??梢钥闯?人名識別的性能最好,這可能是因為人名通常有著明確的上下文信息,因此與其他非實體詞的歧義可能性較小。由于一些地名是由人名等其他實體詞構成的,并且存在一詞多義的現象,因此其識別性能略低于人名。機構名的識別準確率最低,這主要是因為機構名通常由多個其他實體類詞構成,如地名等,其邊界比較難確定。
表5 各模型不同類別命名實體識別實驗的F1值對比 (單位: %)
為了更好地了解模型和數據集的優(yōu)缺點,錯誤分析是一項非常有用的工具。本文對表現最佳的模型BiGRU-CRF在測試集中抽取了50個錯誤實例,并進行了手動檢查。實體類型錯誤識別占比最大(60%)。接下來是實體邊界錯誤識別(40%)。還有其他錯誤原因,例如,缺乏訓練樣本等。本文還列出了一些占比較大的錯誤分類的典型示例,以便更好地理解這些錯誤。
(1)實體類型錯誤識別: 這種類型的錯誤是因為模型遇到了未登錄詞。由于沒有經過訓練,未登錄詞就會被當成非實體或它們的關系被錯誤地預測。以bangi markaziy afrika reslublikasi poytaxti mamlakat eng yirik shahri.(班吉是中非共和國的首都,也是該國最大的城市。)為例,模型預測中bangi(班吉)被預測成非實體,而中非共和國被正確預測。本文查看了本文標注的數據是標注正確的。訓練集中較少出現的、比較生僻的地名或未登錄詞,由于模型未能充分訓練,從而錯誤地識別該實體類型。
(2)實體邊界錯誤識別: 當多個詞匯組成的地名或者組織名在實體中出現時,多個詞匯組合會對判斷邊界造成困難。以misr raketa hujumi uyushtirilgani davo qilmoq iordaniya xavfsizlik xizmati rasmiy bugun grad rusumi raketa mamlakat aqaba port shahri kocha biri kelib tushgani va besh kishi jarohatlangani malum qildi.(約旦安全部門官方報告稱,今天埃及發(fā)生火箭彈襲擊,其中一枚火箭彈落在港口城市亞喀巴,造成5人受傷。)為例,模型把iordaniya(約旦)標記成地名,但在iordaniya xavfsizlik xizmati(約旦安全部門)這類由多個詞匯組合地名和機構名混合出現的機構名中無法正確識別邊界的情況。
綜合標注數據集特性和初步實驗結果等各方面因素可以看出,針對烏語實體命名識別中的不均衡性、實體嵌套性、實體詞組較多、未登錄地名影響等特點,需要采用多種策略和方法來提高算法的準確性。這是未來值得深入研究的工作。相比之下,漢語和英語在實體命名識別任務上表現較好的原因主要包括: 數據資源的豐富、語言結構的規(guī)則明確以及自然語言處理技術的成熟。然而,在面對烏語時,這些優(yōu)勢可能會被削弱,因此需要采用不同的策略和方法來提高實體命名識別的準確率。
本文針對烏語實體命名識別領域中缺乏高質量標注語料的問題,構建了一個面向烏語的實體命名數據集,用三種基于神經網絡的命名實體識別方法驗證數據集的有效性、可用性,并對識別錯誤的原因進行了較深入的分析,該數據集可為烏語的命名實體識別工作提供數據支撐。該數據集是從網絡新聞媒體中真實數據采集而來,包含了烏語文本中的三類實體及實體詞組等多種特點。該數據集為烏語實體命名識別算法的研究提供了重要的數據支持,可以用于模型訓練、測試和評估,為該領域的進一步研究提供了良好的數據支撐。通過實驗,證明了該數據集的有效性和實用性,有望為烏語自然語言處理領域的發(fā)展提供重要的參考價值。
本文尚有幾點不足之處,首先,由于使用 BIO 標注方式存在實體邊界模糊、無法表示實體結束、與實體類型耦合等缺陷和在烏語實體命名識別中的不均衡性、實體嵌套性、實體詞組較多、未登錄地名影響等特點,下一階段研究將使用更精確標注來提高烏語實體命名識別數據集的標注質量。其次,由于烏語的語言結構和詞匯特征與其他語言存在差異, 下一階段的算法設計將重點關注烏語語言的特點,以針對烏語的實體命名識別進行優(yōu)化和改進。此外,后續(xù)工作會繼續(xù)嘗試使用深度學習模型來進行命名實體識別,以挖掘烏語語言中的更深層次的句法特征和更豐富的語義信息。