鐘昕妤,李 燕
(甘肅中醫(yī)藥大學(xué) 信息工程學(xué)院,甘肅 蘭州 730101)
隨著人工智能的發(fā)展,自然語言處理(Natural Language Processing,NLP)任務(wù)在實(shí)現(xiàn)人機(jī)交互、個(gè)性推薦、智能搜索、風(fēng)險(xiǎn)調(diào)控等場景中發(fā)揮著巨大作用。相較于英文,中文存在字詞邊界模糊且語法結(jié)構(gòu)復(fù)雜的問題,影響了計(jì)算機(jī)的直接處理性能。中文分詞(Chinese Word Segmentation,CWS)則通過各類方法實(shí)現(xiàn)文本字詞的明確劃分及詞性標(biāo)注等功能,一直以來是NLP 任務(wù)的基礎(chǔ)步驟之一。
而近期,學(xué)者們對CWS 研究的必要性產(chǎn)生了一些爭議。2019 年,Li 等[1]經(jīng)四項(xiàng)NLP 基準(zhǔn)任務(wù)對比實(shí)驗(yàn)發(fā)現(xiàn),由于未登錄詞、數(shù)據(jù)稀疏和跨領(lǐng)域等問題的存在,使得深度學(xué)習(xí)的詞級模型因更容易出現(xiàn)過擬合現(xiàn)象而表現(xiàn)不如字級模型。但這不能否認(rèn)分詞研究的意義。2020 年,Chen等[2]表示字級模型中缺乏的詞信息對于文本匹配任務(wù)是潛在有益的。此外,在實(shí)體識別等涉及術(shù)語的NLP 任務(wù)中,其效果直接受中文分詞基礎(chǔ)任務(wù)結(jié)果影響[3]。而楊佳鑫等[4]將分詞后詞性結(jié)果引入模型中更是實(shí)現(xiàn)了實(shí)體識別性能的有效提高。由此可見,中文分詞仍具有其重要研究意義。
回顧中文分詞方法(Methods of Chinese Word Segmentation,MCWS)發(fā)展的整個(gè)歷程,可將其大致劃分為匹配、統(tǒng)計(jì)、深度學(xué)習(xí)三大類。如圖1所示,基于CNKI平臺,通過對“中文分詞方法”主題詞檢索獲得的所有文獻(xiàn)進(jìn)行計(jì)量可視化分析,在其次要主題中對“分詞方法”“字符串匹配”“基于統(tǒng)計(jì)”“神經(jīng)網(wǎng)絡(luò)”進(jìn)行文獻(xiàn)趨勢對比發(fā)現(xiàn),自2017 年以來,深度學(xué)習(xí)方法逐步代替匹配與統(tǒng)計(jì)兩類方法成為分詞方法研究的主流。本文主要基于近5年國內(nèi)外CWS技術(shù)研究文獻(xiàn),介紹并總結(jié)分析其傳統(tǒng)方法與深度學(xué)習(xí)方法的研究現(xiàn)狀以及其面臨的相關(guān)難題,探討CWS技術(shù)研究的熱點(diǎn)以及未來發(fā)展趨勢,以期為后續(xù)研究提供思路和方向。
Fig.1 Word segmentation method,string matching,statistics based,neural network sub theme publishing trend圖1 “分詞方法”“字符串匹配”“基于統(tǒng)計(jì)”“神經(jīng)網(wǎng)絡(luò)”次要主題發(fā)文趨勢
傳統(tǒng)的中文分詞方法主要為匹配與統(tǒng)計(jì)兩大類,其現(xiàn)有研究已形成較為穩(wěn)定的算法模型。
匹配方法主要通過各種算法將文本與詞典進(jìn)行匹配劃分。匹配算法與詞典構(gòu)建皆是該方法的核心,直接影響了分詞的效能與性能。經(jīng)過研究發(fā)展,匹配算法主要形成了正向、逆向、雙向等流派,詞典構(gòu)建則以二分、哈希表、TRIE 樹等機(jī)制為主。其中,基于詞長與語義大致呈正相關(guān)且主干成分常被后置的漢語規(guī)律,如楊文珍等[5]、張樂[6]等在進(jìn)行中文分詞時(shí),大都采用逆向最大匹配算法。匹配算法的使用便捷高效,但此類方法的性能對詞典的依賴程度極高,無法很好地處理詞典中未出現(xiàn)的詞以及多種可能的分詞的情況,而這種情況在進(jìn)行面向領(lǐng)域的中文分詞任務(wù)時(shí)格外突出。由此,純粹的匹配方法已不能滿足目前的分詞需求。在近期研究中,學(xué)者們大都將詞典作為一種輔助手段,結(jié)合統(tǒng)計(jì)或深度學(xué)習(xí)的方法優(yōu)化模型。其使用方法主要包括:通過構(gòu)建領(lǐng)域詞典[7-10]來提升模型在專業(yè)領(lǐng)域的分詞性能,再通過動(dòng)態(tài)更新詞典[7]進(jìn)行完善;利用詞典構(gòu)建偽標(biāo)記數(shù)據(jù)[11]用于模型訓(xùn)練提高準(zhǔn)確率。目前,詞典的構(gòu)建多是人工與統(tǒng)計(jì)方法的結(jié)合,而在初期,詞典的構(gòu)建主要源自專家們的手工構(gòu)建,需耗費(fèi)大量人力和時(shí)間。由此,隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者們開始嘗試將數(shù)學(xué)的統(tǒng)計(jì)法應(yīng)用于分詞中實(shí)現(xiàn)機(jī)器自主分詞。
統(tǒng)計(jì)方法的基本思想是根據(jù)詞組合出現(xiàn)的概率判斷是否劃分為詞邊界。該類方法能在一定程度上較好地解決分詞歧義,且能識別出未登錄詞。當(dāng)前CWS 研究中,常見的統(tǒng)計(jì)方法有N-gram 模型、隱馬爾科夫模型和條件隨機(jī)場模型等。
1.2.1 N-gram模型
N-gram 模型基于第n 詞只依賴于前n-1 詞的假設(shè),攘括了詞前所能獲得的全部信息。鳳麗洲等[12]利用標(biāo)準(zhǔn)詞典和訓(xùn)練語料,通過組合詞迭代切分,并基于N-gram 選擇獲取最優(yōu)分詞序列,在提升效率的同時(shí)實(shí)現(xiàn)了分詞性能的提升。但在實(shí)際訓(xùn)練中,此類方法會因信息缺乏產(chǎn)生平滑問題,需要基于一定規(guī)模的語料進(jìn)行訓(xùn)練。此外,因其參數(shù)空間隨著n 值的增大呈指數(shù)增長,n 值在應(yīng)用中大多取為1或2。
1.2.2 隱馬爾科夫模型
隱馬爾科夫理論(Hidden Markov Model,HMM)起源于馬爾可夫過程(Markov Process,MP),描述將來狀態(tài)僅依托當(dāng)前狀態(tài),而無關(guān)于過去狀態(tài)。但由于MP 限制條件在實(shí)際問題中難以滿足,學(xué)者們在此基礎(chǔ)上提出了雙重隨機(jī)過程的HMM。HMM 設(shè)立在齊次和獨(dú)立兩大假設(shè)前提上,主要涉及了隱藏的狀態(tài)和序列觀測兩個(gè)隨機(jī)過程,即任一點(diǎn)狀態(tài)僅與前一點(diǎn)狀態(tài)有關(guān),而獨(dú)立于其他點(diǎn),且任一點(diǎn)觀測只依賴于該點(diǎn)狀態(tài),而獨(dú)立于其它點(diǎn)觀測與狀態(tài)。基于HMM,宮法明等[13]依據(jù)術(shù)語集判斷并選擇模型對應(yīng)階層,從而實(shí)現(xiàn)了領(lǐng)域下子學(xué)科的自適應(yīng)分詞。Yan 等[14]則利用HMM 對經(jīng)詞典匹配后的剩余文本進(jìn)行二次分詞,從而實(shí)現(xiàn)對未登錄詞的識別,并由此進(jìn)一步完善詞典。而基于獨(dú)立假設(shè)的前提條件,HMM 無法很好地融合語境信息,存在效能不高的問題。對此,學(xué)者們進(jìn)一步研究提出了條件隨機(jī)場模型。
1.2.3 條件隨機(jī)場
條件隨機(jī)場(Conditional Random Fields,CRF)是一種無向圖模型,在歸一化時(shí)考慮數(shù)據(jù)的全局分布,從而克服了HMM 的不足,利用語境實(shí)現(xiàn)全局最優(yōu)分詞,成為統(tǒng)計(jì)方法中應(yīng)用最為廣泛的模型?;贑RF 模型,Lin 等[15]利用BIO 編碼捕獲數(shù)據(jù)隱藏變量和潛在結(jié)構(gòu),為每個(gè)輸入序列選擇最佳編碼結(jié)果,并經(jīng)實(shí)驗(yàn)驗(yàn)證了優(yōu)越性。正是由于CRF 模型在序列標(biāo)注問題上的良好表現(xiàn),如Zhang 等[16]、Jun 等[17]、車金立等[18]眾多學(xué)者們在近期研究中,將其與各類深度模型結(jié)合,以經(jīng)深度模型輸出的特征作為輸入,進(jìn)而獲得最優(yōu)序列標(biāo)注結(jié)果。但由于其特征自定義且性能受特征限制的問題,當(dāng)特征過多時(shí)CRF 模型更易傾向于過擬合和較低效率。
雖然統(tǒng)計(jì)方法能從一定程度上緩解歧義和未登錄詞問題,但此類方法構(gòu)建的模型復(fù)雜度較高,且需要人工提取特征。隨著人工智能的發(fā)展,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型經(jīng)過實(shí)驗(yàn)研究獲得了更為精準(zhǔn)高效的性能框架,學(xué)者們嘗試將此類方法引入CWS任務(wù)中進(jìn)行研究。
隨著人工智能技術(shù)的飛速發(fā)展,中文分詞的深度學(xué)習(xí)方法逐漸替代傳統(tǒng)方法成為主流。該類方法主要通過各類神經(jīng)網(wǎng)絡(luò)模型使計(jì)算機(jī)能夠模擬人的學(xué)習(xí)及分詞過程。因此,模型大都基于已標(biāo)注好的語料庫進(jìn)行訓(xùn)練,通過不斷調(diào)整各參數(shù)實(shí)現(xiàn)模型的最優(yōu)性能。相對于概率統(tǒng)計(jì)的分詞方法,此類方法無需人工特征選擇,更好地填補(bǔ)了統(tǒng)計(jì)方法的不足。目前的深度學(xué)習(xí)方法大多建立在卷積和循環(huán)等基礎(chǔ)神經(jīng)網(wǎng)絡(luò)模型的變體之上。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是基于卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),包括卷積、池化、全連接等結(jié)構(gòu),在圖像識別處理領(lǐng)域被廣泛使用。近幾年,學(xué)者們嘗試將CNN 應(yīng)用于NLP 任務(wù)中,并取得了不錯(cuò)的效果。傳統(tǒng)CNN 的池化處理主要作用是精簡特征,從大量特征中提取獲得最具意義的,而這操作在進(jìn)行NLP 任務(wù)時(shí)卻會造成文本信息的遺失。因此,如Guan 等[19]、涂文博等[20]、王星等[21]大都使用無池化層的CNN 模型進(jìn)行分詞處理,在提高模型準(zhǔn)確率的同時(shí)也加快了訓(xùn)練速度。深度學(xué)習(xí)的分詞方法依賴于一定深度的網(wǎng)絡(luò)模型,而隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,會出現(xiàn)過擬合、梯度消失、網(wǎng)絡(luò)退化等各種問題,這也是當(dāng)前學(xué)者們重點(diǎn)研究的問題。王星等[22]先是通過跳躍膨脹寬度的卷積方式減少卷積層數(shù)提高效率,之后加深網(wǎng)絡(luò)獲得更豐富特征,采用殘差連接[21]的方法來避免上述問題,并在小樣本數(shù)據(jù)集上獲得了更優(yōu)效果。
雙向長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)是從循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)發(fā)展而來的,可以很好地獲取文本語境實(shí)現(xiàn)分詞且對間隔較遠(yuǎn)或延遲較長的信息也有很好的學(xué)習(xí)能力,被廣泛應(yīng)用于CWS 任務(wù)的深度模型研究中。RNN可以通過傳遞序列獲取上下文信息,但存在長期依賴的問題,即當(dāng)詞間距離過遠(yuǎn)時(shí)RNN 將學(xué)習(xí)不到詞間信息。對此,學(xué)者們通過添加遺忘和記憶機(jī)制,在RNN 的基礎(chǔ)上提出LSTM 模型,成功實(shí)現(xiàn)對長期信息的學(xué)習(xí)。但單層的LSTM 只能獲取文本的前向信息,遺漏了下文中能對分詞提供幫助的信息。于是,學(xué)者們通過疊加雙向的LSTM 進(jìn)行結(jié)合上下文信息的分詞學(xué)習(xí),形成了Bi-LSTM 模型。在此基礎(chǔ)上,學(xué)者們通過信息融合、強(qiáng)化逆向等方法獲得更多的上下文信息,實(shí)現(xiàn)模型優(yōu)化。李雅昆等[23]利用加法器實(shí)現(xiàn)每層雙向LSTM 網(wǎng)絡(luò)的信息融合,從而獲得更加充分的上下文信息。郭正斌等[24]依據(jù)詞典逆向匹配具備更優(yōu)效果和下文對分詞具有更大影響兩點(diǎn),提出強(qiáng)化逆向序列的Bi-LSTM 模型,通過多加一層逆向的LSTM 獲得了更多的下文信息。此外,針對RNN 的長依賴問題,學(xué)者們在LSTM 模型基礎(chǔ)上,提出了一種兼具簡單和高效的循環(huán)門單元(Gated Recurrent Unit,GRU)模型。
相較于LSTM 模型中的輸入、遺忘和輸出三個(gè)門函數(shù),GRU 模型僅用更新和重置兩個(gè)門函數(shù)來保留重要特征。因此,GRU 模型相較于LSTM 所需參數(shù)更少,具有更優(yōu)的分詞效率,成為當(dāng)前主流的深度模型之一。Che 等[25]基于GRU 提出了一種改進(jìn)的雙向GRU-CRF 模型,無需掛載分詞字典和堆疊神經(jīng)網(wǎng)絡(luò)的層數(shù)就可達(dá)到與疊加三層的BiLSTM 模型分詞性能相似的分詞結(jié)果。Zhang 等[26]進(jìn)行了Bi-GRU 和Bi-LSTM 的CWS 性能對比實(shí)驗(yàn),驗(yàn)證了雙向門限循環(huán)單元模型(Bidirectional Gated Recurrent Unit,Bi-GRU)在具備更簡單結(jié)構(gòu)的同時(shí),兼具更快的分詞效率,且不損失分詞精度。但當(dāng)訓(xùn)練規(guī)模達(dá)到一定程度后,Bi-LSTM 相較于Bi-GRU 模型具備更好的分詞準(zhǔn)確率。
隨著各類神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練研究,不乏有分詞結(jié)果表現(xiàn)優(yōu)異的模型,若在進(jìn)行新任務(wù)將其作為初始模型,再根據(jù)新任務(wù)特性做些許精調(diào),便能實(shí)現(xiàn)任務(wù)目標(biāo),使模型無需從零開始,這便是預(yù)訓(xùn)練模型的意義。2019 年,Ma等[27]在深度模型的基礎(chǔ)上,通過預(yù)訓(xùn)練實(shí)驗(yàn)對比驗(yàn)證了其對提升分詞性能的有效性。在當(dāng)前CWS 研究領(lǐng)域中,先通過預(yù)訓(xùn)練模型獲得通用特征再用于MCWS 中進(jìn)行模型訓(xùn)練已成為研究熱點(diǎn)之一。其中,最常見的便是BERT 預(yù)訓(xùn)練模型。BERT 基于雙向Transformer,實(shí)現(xiàn)了對字兩側(cè)文本信息的充分利用且能動(dòng)態(tài)生成字向量和詞向量,為下游應(yīng)用提供了更高效率。Yan 等[28]在其聯(lián)合模型中對比是否引入BERT 模型的分詞性能,驗(yàn)證了其對性能的提升。此外,BERT 模型只需通過添加一層輸出的微調(diào)就能實(shí)現(xiàn)在不同領(lǐng)域任務(wù)中的應(yīng)用,具有很好的普適性。俞敬松等[29]基于BERT 模型,根據(jù)語句分割少的特性,實(shí)現(xiàn)了適用于語料匱乏的古漢語文本的MCWS。而經(jīng)實(shí)際應(yīng)用發(fā)現(xiàn),BERT 模型尚存優(yōu)化空間。在其改進(jìn)研究中,針對不同方向主要衍生出了兩種模型:一方面,對于BERT 模型復(fù)雜參數(shù)、運(yùn)行效率的優(yōu)化,產(chǎn)生了更為輕便和快捷的ALBERT 模型;另一方面,對于BERT 模型處理性能的優(yōu)化,產(chǎn)生了更為準(zhǔn)確的ROBERTA 模型。胡昊天等[30]在非遺文本的分詞模型對比實(shí)驗(yàn)中更是進(jìn)一步驗(yàn)證了上述兩種模型的特點(diǎn)。此外,由于訓(xùn)練樣本生成策略的改變,即mask 標(biāo)簽替換從字變?yōu)槿~,產(chǎn)生了如BERT-WWM、ROBERTA-WWM 等基于全詞掩碼的預(yù)訓(xùn)練模型。之后,哈工大訊飛聯(lián)合實(shí)驗(yàn)室通過不引入掩碼標(biāo)記的自監(jiān)督學(xué)習(xí)方法提出了PERT 預(yù)訓(xùn)練模型。眾多預(yù)訓(xùn)練模型的產(chǎn)生為模型訓(xùn)練提供了更多選擇。由于各類預(yù)訓(xùn)練模型在不同任務(wù)和環(huán)境中的性能表現(xiàn)不同,在分詞應(yīng)用中,需根據(jù)實(shí)際需求做進(jìn)一步抉擇。
CWS 研究過程中的各類方法都有其優(yōu)缺點(diǎn),單一的方法已無法充分滿足目前CWS 高效、高準(zhǔn)確率的需求,需融合各類方法,取長補(bǔ)短,形成更優(yōu)的分詞模型。目前的融合模型研究大多基于以神經(jīng)網(wǎng)絡(luò)模型為核心的特征提取層,先由預(yù)處理模型將句子轉(zhuǎn)為字、詞向量作為其輸入序列,后經(jīng)統(tǒng)計(jì)模型作為解碼層進(jìn)行概率最大化的序列標(biāo)注,實(shí)現(xiàn)三類方法的充分融合。
中文分詞發(fā)展以來一直面臨著兩大難題,即歧義和未登錄詞,極大地影響了分詞模型的性能和普適性。
3.1.1 歧義
歧義包括交集型與組合型:交集型即兩詞相連且存在重疊部分;組合型即一詞可再細(xì)分為多個(gè)詞構(gòu)成。解決此類問題的關(guān)鍵在于找到導(dǎo)致歧義的歧義點(diǎn)。Li 等[31]通過在初始分詞結(jié)果的基礎(chǔ)上提取歧義點(diǎn)來構(gòu)造新的分詞,之后采用最大熵模型訓(xùn)練新的分詞,通過選擇每個(gè)歧義點(diǎn)對應(yīng)概率最高的新分詞作為有效分詞,實(shí)現(xiàn)歧義消除,進(jìn)一步提高分詞性能。
3.1.2 未登錄詞
未登錄詞(Out-Of-Vocabulary,OOV)包括已有詞表中未錄入的詞和訓(xùn)練語料中未出現(xiàn)的詞,而由一般語料庫訓(xùn)練的分詞模型在特定領(lǐng)域任務(wù)應(yīng)用下更為突出。目前,學(xué)者們大多基于新詞發(fā)現(xiàn)的方法來緩解OOV 問題。Wang等[32]采用Bi-gram 算法和左右信息熵先后進(jìn)行新詞提取,構(gòu)成新詞詞典,取得了更優(yōu)的分詞效果。Jun 等[17]提出將術(shù)語詞典、新詞檢測和BILSTM-CRF 模型結(jié)合的MCWS,實(shí)現(xiàn)在特定領(lǐng)域下提高術(shù)語詞的識別性能。由此可見,新詞發(fā)現(xiàn)的方法能進(jìn)一步完善詞典,從而提高分詞的準(zhǔn)確率。但目前的新詞發(fā)現(xiàn)方法對原有詞典依賴較高[33],且其性能存在著一定提升空間,有待進(jìn)一步優(yōu)化研究。
隨著深度學(xué)習(xí)方法的流行和分詞技術(shù)在更多領(lǐng)域和場景中的廣泛應(yīng)用,一些影響其性能的新難題隨之產(chǎn)生。
3.2.1 語料依賴
深度學(xué)習(xí)方法大多基于語料訓(xùn)練調(diào)整網(wǎng)絡(luò)模型,從而獲得更優(yōu)性能。這從一定程度上決定了其對語料規(guī)模和質(zhì)量的依賴性。其中,針對語料質(zhì)量問題,由于詞間沒有明確的劃分標(biāo)準(zhǔn),且受到各種語言學(xué)理論影響,現(xiàn)存的幾大語料庫在注釋上也有著不同的差異,由此訓(xùn)練獲得的模型性能評估亦存在著一些不確定性。因而,如何統(tǒng)一分詞標(biāo)準(zhǔn),用更高質(zhì)量的語料進(jìn)行模型訓(xùn)練成為值得學(xué)者們研究的方向之一。其中,劉偉等[34]利用語義信息對語料中的不一致字串進(jìn)行分類,實(shí)現(xiàn)了語料庫的修正,提升了語料質(zhì)量。針對語料規(guī)模問題,學(xué)者們主要通過充分利用大量未標(biāo)記數(shù)據(jù)和局部標(biāo)注數(shù)據(jù)的方法來緩解模型對語料規(guī)模的依賴問題。在利用未標(biāo)記數(shù)據(jù)方面,Zhang 等[35]基于語義相似度抽樣策略,從未標(biāo)記數(shù)據(jù)中提取有用樣本句子應(yīng)用于模型訓(xùn)練,從而改進(jìn)模型性能,Liu 等[36]基于后驗(yàn)正則化變體算法,利用詞典和未標(biāo)記數(shù)據(jù)作為間接監(jiān)督納入模型訓(xùn)練,在跨域場景下驗(yàn)證了該方法在訓(xùn)練數(shù)據(jù)不足時(shí)的有效性;在利用局部標(biāo)注數(shù)據(jù)方面,Yan 等[37]通過不確定性和重復(fù)測量兩種樣本選擇策略獲得信息特征,并經(jīng)上下文選擇在每個(gè)信息字符周圍選取子串進(jìn)行局部標(biāo)注,從而實(shí)現(xiàn)在少量標(biāo)注數(shù)據(jù)的情況下有效地提升CWS 性能。此兩類方法均基于一定的概率抽樣方法從未標(biāo)記或局部標(biāo)記數(shù)據(jù)中獲得有效特征,從一定層度上緩解了模型對語料規(guī)模的依賴問題。
3.2.2 多領(lǐng)域分詞
隨著CWS的廣泛應(yīng)用,文本處理過程中會出現(xiàn)同時(shí)涉及到多領(lǐng)域?qū)S兄R的情況。如在法律類文本中,分詞可能同時(shí)面向法律、金融、科技等領(lǐng)域的專有術(shù)語,而這種現(xiàn)象在內(nèi)容種類繁雜的社交類文本中將更為突出。在通用領(lǐng)域和專有領(lǐng)域的現(xiàn)有分詞方法研究中,由于訓(xùn)練語料領(lǐng)域限制而造成分詞模型適用性差和性能低等問題,現(xiàn)有方法往往無法充分滿足新的分詞需求。學(xué)者們通過使用涵蓋多領(lǐng)域內(nèi)容的語料、字典以及實(shí)現(xiàn)領(lǐng)域敏感等方法來提高分詞模型的多領(lǐng)域適應(yīng)性。張琪等[38]采用涵蓋史政、典制、詩歌等多種題材的標(biāo)注語料進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)對多領(lǐng)域先秦典籍的實(shí)用分詞。Yuan[39]在經(jīng)通用語料訓(xùn)練的CRF 模型基礎(chǔ)上,采用多領(lǐng)域高質(zhì)量字典和主動(dòng)學(xué)習(xí)方法調(diào)整模型,降低了跨領(lǐng)域?qū)ζ浞衷~性能的影響。多領(lǐng)域語料和字典能從一定程度上提升分詞模型的多領(lǐng)域適應(yīng)性,但當(dāng)涉及不同領(lǐng)域切分歧義等情況時(shí),無法很好地準(zhǔn)確分詞。因此,及時(shí)準(zhǔn)確地確定目標(biāo)領(lǐng)域能有效緩解上述情況,進(jìn)一步提升分詞性能。Liu 等[40]基于NER 模塊,根據(jù)模塊優(yōu)勢對處理語料,實(shí)現(xiàn)領(lǐng)域敏感。Gong 等[41]通過采用切換器在多標(biāo)準(zhǔn)間進(jìn)行自動(dòng)切換,實(shí)現(xiàn)多種語料庫的重復(fù)利用。上述方法均對字典或語料具有較高依賴,而同時(shí)涉及多個(gè)領(lǐng)域的語料和字典的構(gòu)建更是需要相應(yīng)領(lǐng)域?qū)<业膮⑴c,構(gòu)建需求頗高。因此,在面向多領(lǐng)域分詞研究中,亟待學(xué)者們對相關(guān)機(jī)制做進(jìn)一步優(yōu)化,在降低其對字典和語料依賴的同時(shí),進(jìn)一步提升分詞模型的多領(lǐng)域適應(yīng)性。
從近幾年MCWS 研究中可以看出,各類方法有其自身的優(yōu)缺點(diǎn),而單一類的方法已無法充分滿足實(shí)際需求,且在此發(fā)展過程中產(chǎn)生的語料依賴和多領(lǐng)域難題是目前乃至未來亟需解決的重點(diǎn)問題。由此本文總結(jié)CWS 未來研究趨勢如下:
(1)推進(jìn)以神經(jīng)網(wǎng)絡(luò)為核心的融合方法研究,實(shí)現(xiàn)更精簡、更快速、更精準(zhǔn)的CWS。
(2)通過統(tǒng)一標(biāo)準(zhǔn)或評估方法提升語料質(zhì)量,確保模型研究的有效性。
(3)降低對語料的依賴性,充分利用未標(biāo)注數(shù)據(jù)和局部標(biāo)注數(shù)據(jù),獲得語料未增的分詞性能提升。
(4)通過領(lǐng)域敏感機(jī)制優(yōu)化等方法進(jìn)一步獲得兼具多領(lǐng)域信息文本的高效分詞能力。