蘭海波,宋瑛瑛,曹之玉,朱小祥,沈晨笛,王 然
(中國(guó)氣象局公共氣象服務(wù)中心,北京 100081)
氣象災(zāi)害是自然災(zāi)害中最為常見且影響十分嚴(yán)重的災(zāi)害。我國(guó)氣象災(zāi)害造成的損失已占自然災(zāi)害造成損失的70%以上。為防御和減輕氣象災(zāi)害帶來的危害,保護(hù)國(guó)家和人員生命財(cái)產(chǎn)安全,氣象部門所屬氣象臺(tái)向政府部門和社會(huì)公眾發(fā)布?xì)庀鬄?zāi)害預(yù)警信息[1]。氣象災(zāi)害預(yù)警信息在農(nóng)牧業(yè)[2]、海洋[3]、地質(zhì)災(zāi)害[4]等都發(fā)揮了重要的作用,傳播效能在一定程度上決定了氣象災(zāi)害防御水平[5]。
氣象災(zāi)害預(yù)警信息,通過計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)了信息的制作、錄入、審核、發(fā)布等環(huán)節(jié),制定了23類質(zhì)量控制策略,采用自動(dòng)化規(guī)則性對(duì)照檢查和人工復(fù)核的方式,保障了對(duì)公眾發(fā)布預(yù)警的準(zhǔn)確性[6]。自動(dòng)化規(guī)則性對(duì)照檢查并不能有效地核驗(yàn)識(shí)別預(yù)警文本存在的錯(cuò)別字、冗余字、缺失字、字序顛倒等文本錯(cuò)誤,而人工檢查存在審核效率低下的問題。預(yù)警信息正文包含大概100多字,仔細(xì)完整檢查需要1分鐘的時(shí)間,嚴(yán)重影響了預(yù)警信息發(fā)布的時(shí)效性。2018年唐山市氣象臺(tái)發(fā)布雷電黃色預(yù)警信號(hào),預(yù)警描述文本中錯(cuò)將“強(qiáng)降水”拼寫為“強(qiáng)僵尸”,引發(fā)眾多媒體熱議。
文本質(zhì)量控制檢測(cè)模型,一般是先對(duì)文本進(jìn)行分詞,再用語言模型對(duì)分割的部分進(jìn)行錯(cuò)誤檢測(cè),主要的不足之處在于沒有考慮氣象災(zāi)害文本的專業(yè)特性。筆者在統(tǒng)計(jì)了2017—2020年全國(guó)氣象歷史災(zāi)害預(yù)警信息的基礎(chǔ)上,對(duì)預(yù)警信息的特征進(jìn)行分析,基于多模式融合分詞方法,建立了一種以預(yù)警專業(yè)語料庫(kù)為基礎(chǔ)的氣象預(yù)警文本分詞方法。利用該方法研發(fā)了預(yù)警信息文本質(zhì)量控制檢測(cè)模型,識(shí)別預(yù)警文本中存在的文本錯(cuò)誤,輔助提高人工預(yù)警審核效率。
氣象預(yù)警信息是按照國(guó)際通用警報(bào)協(xié)議CAP (common alerting protocol)進(jìn)行數(shù)據(jù)格式編碼[7]。其中,預(yù)警描述文本是直接對(duì)政府部門和公眾進(jìn)行發(fā)布的內(nèi)容,包含了發(fā)布單位、發(fā)布時(shí)間、預(yù)警信息類型、預(yù)警信息等級(jí)、災(zāi)害因素、影響時(shí)間、影響區(qū)域、災(zāi)害影響、防御指南等內(nèi)容的描述信息?;靖袷綖椤癤氣象臺(tái)X年X月X時(shí)X分發(fā)布X類型X級(jí)別預(yù)警信號(hào):預(yù)計(jì),X日X時(shí)至X日X時(shí),將會(huì)對(duì)A地區(qū)、B地區(qū)、C地區(qū)等造成XXX影響,請(qǐng)注意防范”。預(yù)警文本示例為“北京市氣象臺(tái)2021年10月29日16時(shí)45分發(fā)布大霧黃色預(yù)警信號(hào):預(yù)計(jì),29日20時(shí)至30日09時(shí),本市通州、大興、平谷、順義、朝陽(yáng)、豐臺(tái)、東城、西城、石景山、密云大部、海淀大部、懷柔東南部、房山東部、門頭溝東部和昌平東部有霧,能見度小于1 000 m,部分地區(qū)小于500 m,請(qǐng)注意防范。”
通過文本示例和格式要求,可以看出氣象預(yù)警信息文本有一定的領(lǐng)域?qū)I(yè)特性,以地名、組織機(jī)構(gòu)名稱、時(shí)間、災(zāi)害類型、災(zāi)害級(jí)別、影響描述、防御常見措施、計(jì)量單位和專有名詞等為主要文本構(gòu)成,而且具有特定的格式框架。這些專業(yè)特性成為氣象預(yù)警信息文本質(zhì)量檢測(cè)的關(guān)鍵點(diǎn)。
文本質(zhì)量檢測(cè)主要是精準(zhǔn)確定出文本中出現(xiàn)的錯(cuò)誤類型和錯(cuò)誤位置,及時(shí)發(fā)現(xiàn)得到預(yù)防性處理。氣象預(yù)警信息文本質(zhì)量檢測(cè)的關(guān)鍵和難點(diǎn),是對(duì)專業(yè)特性名詞的準(zhǔn)確分詞。統(tǒng)計(jì)總結(jié)2017—2020年全國(guó)氣象歷史災(zāi)害預(yù)警信息發(fā)現(xiàn),預(yù)警描述文本中的錯(cuò)誤類型涉及錯(cuò)別字、冗余字、缺失字、多詞四大類。
近年來,隨著互聯(lián)網(wǎng)和高性能計(jì)算機(jī)的發(fā)展,自然語言處理領(lǐng)域在情感分析[8]、信息抽取[9]、機(jī)器翻譯[10]等文本處理方面有了新的進(jìn)展和應(yīng)用。漢語與英語不同,不是以詞出現(xiàn),而是通過字與字的組合呈現(xiàn)出不同的含義。中文分詞是進(jìn)行自然語言處理的基礎(chǔ)。
目前中文分詞算法和工具應(yīng)用都比較成熟,這些自然語言處理工具為預(yù)警描述文本檢查提供了技術(shù)基礎(chǔ)。場(chǎng)景不同,目標(biāo)不同[11],工具的選擇也不同。根據(jù)氣象預(yù)警信息文本特征和質(zhì)量檢測(cè)應(yīng)用場(chǎng)景,綜合考慮處理速度、準(zhǔn)確率、社區(qū)活躍度、適應(yīng)范圍、更新頻率和語料結(jié)果,JIEBA、北京大學(xué)PKUSEG分詞可供選擇使用[12]。JIEBA分詞處理速度最快,應(yīng)用最廣泛。在預(yù)警文本分詞領(lǐng)域,北京大學(xué)PKUSEG分詞在準(zhǔn)確率、召回率、F評(píng)分測(cè)試指標(biāo)上評(píng)價(jià)最高,筆者使用單一分詞工具PKUSEG分詞作為多模式融合分詞方法的參照對(duì)象。氣象預(yù)警信息文本的中文分詞,直接應(yīng)用單一通用分詞工具存在兩方面的問題:①由于氣象預(yù)警信息文本的專業(yè)特性及分詞工具對(duì)地名、組織機(jī)構(gòu)名稱、時(shí)間、災(zāi)害類型、災(zāi)害級(jí)別、影響描述、防御常見措施、計(jì)量單位和專有名詞等新詞識(shí)別的準(zhǔn)確率、召回率和F評(píng)分會(huì)降低,對(duì)整體句子的語義理解將產(chǎn)生負(fù)貢獻(xiàn)。在預(yù)警文本特征分析中,地名是用來描述預(yù)警影響范圍的重要實(shí)體。使用單一分詞工具對(duì)31個(gè)省名稱、3 185個(gè)市縣名稱、40 446個(gè)鄉(xiāng)鎮(zhèn)名稱進(jìn)行切分,得到的地名識(shí)別準(zhǔn)確率、召回率、F評(píng)分指標(biāo)的平均評(píng)分,如表1所示。從表1可以看出,地名隨行政級(jí)別的降低,分詞的評(píng)價(jià)指標(biāo)得分下降得很明顯。②分詞工具在解決歧義問題的方案中,索引時(shí)使用細(xì)粒度的分詞以保證召回,查詢時(shí)使用粗粒度的分詞以保證精度。分詞結(jié)果的多個(gè)短詞對(duì)整體句子的語義理解比一個(gè)長(zhǎng)詞的貢獻(xiàn)低。例如,使用分詞工具切分詞“森林火險(xiǎn)氣象等級(jí)”,會(huì)被切分為“森林/火險(xiǎn)/氣象/等級(jí)”。一個(gè)長(zhǎng)詞對(duì)整體句子理解的貢獻(xiàn)比多個(gè)短詞的貢獻(xiàn)要高[13]。因此,我們期望“森林火險(xiǎn)氣象等級(jí)”是作為一個(gè)詞被切分出來。
表1 利用單一分詞工具拆分地名的準(zhǔn)確率、召回率、F評(píng)分
為了解決上述問題,筆者設(shè)計(jì)了一種多模式融合分詞方法。首先通過雙向最大匹配[14]的方法,根據(jù)自建命名實(shí)體庫(kù)將命名實(shí)體切分出來,只有正向最大匹配和逆向最大匹配切分出來的實(shí)體一致時(shí)才進(jìn)行切分。命名實(shí)體庫(kù)主要包括地名、組織機(jī)構(gòu)名稱、時(shí)間、計(jì)量單位、專業(yè)名稱,如表2所示。其次,同時(shí)使用JIEBA分詞和PKUSEG分詞兩種分詞工具將句子進(jìn)行切分,并將分詞結(jié)果進(jìn)行對(duì)比,如果兩個(gè)分詞結(jié)果相同,則返回;否則判定為較少單字或較多長(zhǎng)字的分詞結(jié)果。
表2 命名實(shí)體庫(kù)示例
分詞的準(zhǔn)確率Pre、召回率Recall、F評(píng)分是評(píng)價(jià)分詞方法的幾種檢驗(yàn)方法,如式(1)~式(3)所示。
(1)
(2)
(3)
式中:Nr為提取出的正確信息條數(shù);NS為提取出的信息條數(shù);Np為樣本中的信息條數(shù)。
以某省2020年發(fā)布預(yù)警信息中隨機(jī)采樣50條省級(jí)預(yù)警、50條市級(jí)預(yù)警、50條縣級(jí)預(yù)警作為中文分詞性能測(cè)試數(shù)據(jù)來源,選擇PKUSEG分詞作為單一分詞工具為對(duì)比對(duì)象,分別計(jì)算分詞的準(zhǔn)確率、召回率、F評(píng)分。對(duì)比測(cè)試結(jié)果顯示,使用多模式分詞方法的準(zhǔn)確率、召回率和F評(píng)分在省級(jí)發(fā)布單位的預(yù)警文本、市級(jí)發(fā)布單位的預(yù)警文本、縣級(jí)發(fā)布單位的預(yù)警文本中均有提升。省級(jí)預(yù)警文本的分詞準(zhǔn)確率由80.66%提升至94.94%,市級(jí)預(yù)警文本的分詞準(zhǔn)確率由82.08%提升至95.41%,縣級(jí)文本的分詞準(zhǔn)確率由82.77%提升至95.14%,平均準(zhǔn)確率提升了13.33%。同樣,計(jì)算分詞的平均召回率和平均F評(píng)分,在省、市、縣三級(jí)預(yù)警文本中也均有提升,分別為6.76%和10.24%,如圖1所示。
圖1 多模式融合分詞方法與單一分詞方法評(píng)分對(duì)比
氣象災(zāi)害預(yù)警文本具有較高的相似度,甚至很多文本除日期、發(fā)布單位、影響范圍(地名)外,其他信息是100%一致的?;诖?設(shè)計(jì)了字序列組合預(yù)警文本庫(kù),字序列組合按以下步驟對(duì)歷史預(yù)警文本進(jìn)行抽取、清洗:①對(duì)句子按分隔符切分成多個(gè)子句;②將每個(gè)子句中每個(gè)單字wi依次作為組合首字,向右順序按照預(yù)設(shè)組合長(zhǎng)度n進(jìn)行切字,組合為wiwi+1wi+n-1;③組合長(zhǎng)度依次設(shè)為n-m(m=1,n=2),重復(fù)步驟②;④單字由停頓詞組成,包括物理單位(米、級(jí)),連接副詞(和、將),助詞(的),動(dòng)詞(對(duì)、有)等;⑤清洗過濾重復(fù)詞。待檢驗(yàn)預(yù)警文本按字序列組合方法切字,字序列組合預(yù)警文本庫(kù),如圖2所示。按圖中流程進(jìn)行全匹配,考慮到模型運(yùn)行性能適宜性,以及歷史預(yù)警文本庫(kù)中非專業(yè)特性名詞大都為2個(gè)字組成,故設(shè)置n=3。
圖2 字序列組合模型處理流程
以國(guó)家預(yù)警信息發(fā)布中心2021年全國(guó)預(yù)警庫(kù)作為檢驗(yàn)樣本,從中隨機(jī)抽取正確樣本400條,人工制作錯(cuò)誤樣本400條。對(duì)字序列組合檢驗(yàn)?zāi)P妥鰷?zhǔn)確性檢驗(yàn)分析,結(jié)果如表3所示。由表3可知,正確樣本判斷為正確、錯(cuò)誤樣本判斷為錯(cuò)誤的準(zhǔn)確率=(393+82)/(400+400)=59.38%。
表3 字序列組合檢驗(yàn)?zāi)P蜋z驗(yàn)結(jié)果
其中,正確樣本判斷為正確的檢驗(yàn)準(zhǔn)確率=393/400=98.25%;錯(cuò)誤樣本被誤判斷為正確的漏警率=318/400=79.5%。盡管字序列組合模型的準(zhǔn)確率(59.38%)并不高,但對(duì)正確樣本的檢驗(yàn)準(zhǔn)確率卻非常高,達(dá)98.25%。這主要是因?yàn)轭A(yù)警文本制作具有一定的模板式和規(guī)律性,大量的預(yù)警描述文本是由“制作單位+發(fā)布(解除)時(shí)間+預(yù)警類型+預(yù)警級(jí)別+影響范圍+提示(指導(dǎo))信息”組成,這些信息都有標(biāo)準(zhǔn)或規(guī)范可以遵循,排除日期、字符后,有大量的重復(fù)信息,通過切分排列組合達(dá)到完全一致的可能性非常高。同時(shí),樣本檢驗(yàn)的漏警率較高,主要是因?yàn)樾蛄薪M合的方法對(duì)缺失字、字序顛倒的檢出率非常低。隨預(yù)警文本內(nèi)容的日益豐富,提示(指導(dǎo))性的內(nèi)容越來越多元化,字序列組合檢驗(yàn)?zāi)P偷穆┚室矔?huì)越來越高。
N-gram在自然語言處理中是一種簡(jiǎn)單易理解的概率統(tǒng)計(jì)模型,根據(jù)前N-1個(gè)對(duì)象來預(yù)測(cè)第N個(gè)對(duì)象,即句子中的前N-1個(gè)單詞和該單詞之間有一個(gè)概率,可以用來判斷句子是否正確。N-gram模型基于馬爾可夫假設(shè),假設(shè)每次出現(xiàn)的概率僅與前面的N-1個(gè)字符相關(guān)。假設(shè)一個(gè)句子s由i個(gè)詞構(gòu)成,則其出現(xiàn)的概率可表示為:
p(s)=p(w1w2…wi)=
p(w1)p(w2∣w1)p(w3∣w1,w2)…
p(wi∣w1,w2,…,wi-1)
(4)
式中:p(s)為句子s在語料庫(kù)中出現(xiàn)的概率;p(wi|w1,w2,…,wi-1)為句子s在前i-1個(gè)詞為w1,w2,…,wi-1的情況下,第i個(gè)詞為wi的概率。N-gram在惡意信息檢測(cè)[15]、主題識(shí)別[16]等方面有很多示范應(yīng)用。N-gram語料庫(kù)規(guī)模越大,做出的模型結(jié)果才更有用[17]。對(duì)于N的選擇,考慮到氣象預(yù)警信息文本是短文本,并且短句之間的聯(lián)系并不深,因此構(gòu)建Bi-gram模型足夠解決需要,這意味著當(dāng)前字詞的條件概率取決于從前1個(gè)字詞到該字詞的轉(zhuǎn)換概率,則式(4)可以近似表示為:
(5)
筆者依據(jù)氣象預(yù)警信息文本特征分析和多模式融合分詞方法,結(jié)合自建命名實(shí)體庫(kù),創(chuàng)建了預(yù)警專業(yè)語料庫(kù)。預(yù)警專業(yè)語料庫(kù)是按照N-gram模型運(yùn)行默認(rèn)語料庫(kù)格式進(jìn)行擴(kuò)充增加中文分詞。再利用多模式融合分詞方法對(duì)檢驗(yàn)預(yù)警描述文本分詞,得到詞序列,將多個(gè)連續(xù)地面標(biāo)記為“AD”,將數(shù)字定義為“D”,經(jīng)歸一處理后得到詞序列,將前文中預(yù)警描述處理得到如下詞序列:“北京市氣象臺(tái)D年D月D日D時(shí)D分發(fā)布大霧黃色預(yù)警信號(hào)預(yù)計(jì)D日D時(shí)至D日D時(shí)AD有霧能見度小于D米AD小于D米請(qǐng)注意防范”。計(jì)算“AD有霧能見度小于D米”句子評(píng)分,部分選擇計(jì)算過程如圖3所示,句子評(píng)分結(jié)果為-21.408 8,比原值-52.861 2提升了59.5%??梢娞幚砗蟮脑~序列對(duì)計(jì)算機(jī)來說更易理解的。
圖3 Bi-gram選擇計(jì)算過程
歷史氣象預(yù)警信息文本2個(gè)詞之間的平均評(píng)分值為-4,使用并列歸一方法的N-gram檢驗(yàn)?zāi)P偷臋z驗(yàn)規(guī)則為:判斷每個(gè)詞與詞之間的評(píng)分值,如果值小于-4,則認(rèn)為句子理解存疑。唐山市氣象臺(tái)2018年08月11日14時(shí)53分發(fā)布雷電黃色預(yù)警信號(hào):目前我市北部地區(qū)已經(jīng)出現(xiàn)雷電,預(yù)計(jì)未來六小時(shí)中北部大部分地區(qū)仍有雷電活動(dòng),雷雨時(shí)可能伴有短時(shí)強(qiáng)僵尸,大風(fēng)等強(qiáng)對(duì)流天氣,請(qǐng)有關(guān)單位和人員做好防范準(zhǔn)備。使用N-gram模型對(duì)該雷電黃色預(yù)警信號(hào)文本進(jìn)行檢驗(yàn),發(fā)現(xiàn)“強(qiáng)”和“僵尸”兩個(gè)詞之間的評(píng)分值為-100。
同樣以2021年全國(guó)預(yù)警庫(kù)為本樣,對(duì)N-gram模型做準(zhǔn)確性檢驗(yàn)分析,檢驗(yàn)結(jié)果如表4所示。
表4 N-gram檢驗(yàn)?zāi)P蜋z驗(yàn)結(jié)果
根據(jù)表4可以得到模型檢驗(yàn)的準(zhǔn)確率=(296+366)/(400+400)=82.75%,漏警率=34/400=8.5%。對(duì)比分析表3和表4的結(jié)果,可見N-gram模型檢驗(yàn)錯(cuò)誤句子的檢出率更高,對(duì)詞與詞之間的邏輯關(guān)聯(lián)關(guān)系要求更嚴(yán)格,在錯(cuò)別字詞、缺失字、冗余字、詞序顛倒的檢出上均有較好的表現(xiàn)。與字序列組合模型相比,漏警率由79.5%減少至8.5%。但由于2017—2020年預(yù)警描述文本范圍較小,重復(fù)詞語較多,當(dāng)出現(xiàn)未出現(xiàn)詞時(shí),即便是正確樣本也會(huì)被認(rèn)為是錯(cuò)誤。
為解決上述問題,提出了多級(jí)檢驗(yàn)的方式,除將2017—2020年歷史預(yù)警描述文本整理成預(yù)警專業(yè)語料庫(kù)外,引入了人民日?qǐng)?bào)語料庫(kù),擴(kuò)大了詞庫(kù)的范圍。預(yù)警信息描述文本來自國(guó)家預(yù)警信息發(fā)布中心2017—2020年歷史預(yù)警庫(kù)。地名信息來自民政部網(wǎng)“2012年中華人民共和國(guó)縣以下行政區(qū)劃代碼及統(tǒng)計(jì)代碼”。正確檢驗(yàn)預(yù)警信息描述文本來自國(guó)家預(yù)警信息發(fā)布中心2021年預(yù)警庫(kù)。多級(jí)檢驗(yàn)?zāi)P鸵灶A(yù)警專業(yè)語料庫(kù)為主,輔以人民日?qǐng)?bào)語料庫(kù),以歸一化N-gram檢驗(yàn)?zāi)P蜑橹?輔以字序列組合檢驗(yàn)?zāi)P?其檢驗(yàn)邏輯關(guān)系如圖4所示。
圖4 多級(jí)檢驗(yàn)?zāi)P土鞒虉D
多級(jí)檢驗(yàn)?zāi)P蜋z驗(yàn)結(jié)果如表5所示。
表5 多級(jí)檢驗(yàn)?zāi)P蜋z驗(yàn)結(jié)果
由表5結(jié)果可以得到模型檢驗(yàn)的準(zhǔn)確率=(379+366)/(400+400)=93.13%,漏警率=34/400=8.5%。多級(jí)檢驗(yàn)?zāi)P驼狭俗中蛄薪M合檢驗(yàn)?zāi)P秃蜌w一化N-gram檢驗(yàn)?zāi)P偷膬?yōu)勢(shì),大大提高了樣本整體的準(zhǔn)確率,降低了漏警率。
使用JAVA語言將多級(jí)檢驗(yàn)?zāi)P头庋b成API服務(wù)接口,嵌入國(guó)家突發(fā)事件預(yù)警信息監(jiān)控系統(tǒng)中應(yīng)用。接口示例:輸入為預(yù)警描述文本;接口為http://127.0.0.1:5896/sentcheck?sentence=預(yù)警描述文本;返回值為正確(0);錯(cuò)誤為質(zhì)疑詞的首字。
截止到2021年12月,共檢測(cè)了34條語義錯(cuò)誤類預(yù)警內(nèi)容錯(cuò)誤,占錯(cuò)誤攔截總數(shù)的85.2%,大大提高了錯(cuò)誤檢出率,并減少了人為審核的工作量。當(dāng)前模型所不能識(shí)別的錯(cuò)誤類型,也在系統(tǒng)應(yīng)用工作過程中做了積累和通過其他方式解決了業(yè)務(wù)應(yīng)用中的實(shí)際問題。雖然多級(jí)檢驗(yàn)?zāi)P偷腻e(cuò)誤樣本被誤判斷為正確的漏警率為8.5%,但在實(shí)際應(yīng)用中暫未出現(xiàn)錯(cuò)誤未被檢測(cè)出來的情況。由于漏警率是在特定的人為制作的錯(cuò)誤樣本測(cè)試數(shù)據(jù)樣本上的結(jié)果,模型應(yīng)用的過程中,會(huì)進(jìn)行自學(xué)習(xí)訓(xùn)練樣本,進(jìn)而改變模型精準(zhǔn)度。多級(jí)檢驗(yàn)?zāi)P驮跇I(yè)務(wù)應(yīng)用系統(tǒng)中,主要實(shí)現(xiàn)文本錯(cuò)誤的定位和錯(cuò)誤類型的提示,示例如圖5所示。
圖5 國(guó)家突發(fā)事件預(yù)警信息監(jiān)控系統(tǒng)提示錯(cuò)誤信息
(1)結(jié)合氣象預(yù)警描述文本的特征分析,提出了一種多模式融合分詞方法,并創(chuàng)建了預(yù)警專業(yè)語料庫(kù),建立了以歸一化N-gram檢驗(yàn)?zāi)P蜑橹?以字序列組合檢驗(yàn)?zāi)P蜑檩o的多級(jí)檢驗(yàn)?zāi)P汀?/p>
(2)對(duì)比試驗(yàn)顯示,多級(jí)檢驗(yàn)?zāi)P偷臏?zhǔn)確率有所提升,漏警率有所下降,在實(shí)際應(yīng)用中取得了較好的效果。
(3)在應(yīng)用中發(fā)現(xiàn)分詞對(duì)預(yù)警專有語料庫(kù)的依賴性高,當(dāng)?shù)孛辉谡Z料詞庫(kù)表中,如縮寫詞、分詞會(huì)產(chǎn)生錯(cuò)誤,從而導(dǎo)致檢驗(yàn)失敗。針對(duì)這個(gè)問題,未來將通過建立地名和縮寫詞之間的標(biāo)簽關(guān)系圖譜的方式,繼續(xù)優(yōu)化分詞方法的研究。