陳焯堅 廖鎮(zhèn)強 吳志純 何小玲 譚日明
摘? ?要:中文分詞任務(wù),是自然語言處理中一項非?;镜娜蝿?wù)。但由于統(tǒng)計中文分詞方法所需要的訓練樣本規(guī)模比較大,中文分詞任務(wù)存有比較差的領(lǐng)域適應(yīng)性。針對此種問題,文章提出了一種中文分詞方法,可以聯(lián)合學習跨領(lǐng)域,此方法聯(lián)合學習用大量的源領(lǐng)域樣本幫助目標領(lǐng)域的分詞,在一定程度上提升了分詞的性能。有試驗研究表明,在目標領(lǐng)域標注樣本比較少的時候,文章提出的中文分詞性能方法在很大程度上高于傳統(tǒng)分詞方法的中文分詞性能。
關(guān)鍵詞:中文分詞;預(yù)警短信;審核
1? ? 中文分詞概述
中文分詞是中文信息處理中的一項基礎(chǔ)任務(wù),它的準確性可以直接影響中文信息在處理任務(wù)中的性能。機器學習的方法能在中文分詞領(lǐng)域上發(fā)揮重大的作用,例如,條件隨機場(Conditional Random Field,CRF)模型、最大熵(Maximum Entropy,MaxEnt)模型以及長短期記憶(Long-Short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)。但是,傳統(tǒng)方法中需要大規(guī)模的分詞語料來訓練各方面性能優(yōu)異的分詞器,分詞語料的得取要依靠大量人工,可以看出,耗費的成本也會特別高。
近年來發(fā)生在中國的自然災(zāi)害大多數(shù)是局部性和突發(fā)性的,因此,人們對氣象服務(wù)行業(yè)更加關(guān)注。傳統(tǒng)的氣象發(fā)布方式相對單一、效率也不高,氣象預(yù)警信息不能及時地發(fā)布,需要加強對氣象預(yù)警信息的建設(shè)。學者們利用數(shù)據(jù)庫、GIS等技術(shù)手段在預(yù)警信息的發(fā)布方面做了大量的研究,配合這些手段的運用,可以實現(xiàn)預(yù)警信息的發(fā)布,但是費用較高,而且使用起來也比較復(fù)雜。整個預(yù)警系統(tǒng)使用Windows對界面進行編輯,只要一些簡單的操控和同步信息的發(fā)送,就可以把信息發(fā)送給用戶。此系統(tǒng)有不同用戶的管理、安全的處理、統(tǒng)計的分析等功能。
移動短信服務(wù)通過手機短信的方式來發(fā)送和接收信息。利用計算機和短信服務(wù)平臺的結(jié)合,構(gòu)建預(yù)警信號的服務(wù)平臺,準確及時地將災(zāi)害情況發(fā)送到公眾,有效地加強了災(zāi)害防御力度以及對財產(chǎn)的保護,有非常重大的意義。
從不同邏輯結(jié)構(gòu)的角度進行劃分,主要有數(shù)據(jù)層、接口層、實際應(yīng)用層、不同數(shù)據(jù)的支撐層等。其中,接口層的功能是實現(xiàn)電信商與用戶的對接;數(shù)據(jù)層對應(yīng)的主要是預(yù)警平臺信息的核心內(nèi)容;數(shù)據(jù)支撐層的功能主要是實現(xiàn)預(yù)警內(nèi)容的發(fā)布;應(yīng)用層具體指的是預(yù)警短信到達客戶終端后的一系列服務(wù)。
2? ? 基于中文分詞的預(yù)警短信審核平臺
考慮到中文分詞規(guī)范有一定的彈性,在評價分詞結(jié)果是否正確時需要采用以下準則。
首先,域內(nèi)使用結(jié)合緊密或穩(wěn)定的二字詞,或者切分后意義是否發(fā)生變化,如果被切開,則認為分詞錯誤,例如“防火”“冷拔”“根系”“舉例”等。
其次,三字復(fù)合詞名詞的切分彈性相較于二字更大,若切分后意義沒有發(fā)生變化,則切分與不切分都可以認為正確,若切分后改變了意義,則切分被認為是錯誤的,其余三字復(fù)合詞遵守切分準則,例如“中標價”被切分為“中標/價”或不切分,都認為正確,若被切分為“中標價”,則切分錯誤。
考慮到專業(yè)領(lǐng)域分詞性能持續(xù)下降的問題,提出了如何深度認真學習中文分詞模型,與此同時,運用學習原理,與大規(guī)模通用領(lǐng)域分詞語料、小規(guī)模專業(yè)領(lǐng)域訓練語料以及領(lǐng)域詞典相結(jié)合,從而達到提高領(lǐng)域分詞性能的效果,實現(xiàn)領(lǐng)域自適應(yīng)分詞的目的。以工程法律領(lǐng)域分詞任務(wù)的情況為例,提出了對領(lǐng)域?qū)I(yè)術(shù)語的分詞準則,通過小規(guī)模的人工標注,同時設(shè)計分詞實驗,比較各分詞模型的性能,最后的結(jié)果表明,此文提出的分詞模型對跨領(lǐng)域分詞系統(tǒng)性能有所改善。但是本文所提出的方法還需要不斷改進。領(lǐng)域文本中經(jīng)常出現(xiàn)較長的字母、數(shù)字以及符號的組合,領(lǐng)域術(shù)語中也會出現(xiàn)字母和漢字的組合,極大程度影響了分詞正確率,解決的方法是可以考慮做多層分詞?,F(xiàn)有的文本特征只是從詞語信息以及字和周圍字方面考慮,所以,在以后的工作中,可以把加入字的邊界特征考慮進去。
3? ? 相關(guān)運用分析
為了讓平臺可以提供更好的信息服務(wù),在系統(tǒng)的硬件方面進行更新配置。依據(jù)預(yù)警平臺的層次,整個系統(tǒng)被分為數(shù)據(jù)支撐系統(tǒng)、接入電腦系統(tǒng)、界面管理系統(tǒng)。信息平臺也為用戶提供多種服務(wù),如日志查詢、信息的訂購、訂閱信息等。操作人員會盡快依據(jù)客戶所反饋的問題進行處理,并對所發(fā)送的信息進行瀏覽以及改正。整個系統(tǒng)在任務(wù)管理方面主要包括當前的任務(wù)、暫停以及待發(fā)任務(wù)。當前的任務(wù)指信息的不定期發(fā)送,在相應(yīng)的信息填寫完之后,選擇所需要的城市情況來發(fā)送相關(guān)內(nèi)容。暫停和待發(fā)業(yè)務(wù)可以根據(jù)實際的情況來維護不同狀態(tài)的報告機制。系統(tǒng)也可以根據(jù)文章對各個模塊的設(shè)計要求,對各類不同業(yè)務(wù)的用戶進行統(tǒng)計分析,包括不同時期的發(fā)展對比、用戶統(tǒng)計等。
通過信息進行報錄和審核,在進行發(fā)布時還要求建立預(yù)報的網(wǎng)絡(luò)系統(tǒng)。以江西氣象信息發(fā)布為對象,氣象的預(yù)報一定要經(jīng)過嚴格的考核才能正式發(fā)布。當信息確認無誤后,整個狀態(tài)即確定。當定制信息情況時,首先發(fā)布預(yù)報的錄入、審核以及信息,預(yù)警信息的錄入在平臺登錄,進入管理界面進行編輯。管理者也需要選擇不同的運營商和地區(qū)來提取自己想要得到的信息,完成上述要求后,點擊提交并完成錄入。
審核信息沒有錯誤后,可以進行預(yù)發(fā)布。預(yù)警的信息發(fā)送對時間也有要求,在特定時間點之前可以進行修改,其后不能再改。
后臺的處理也就是對數(shù)據(jù)的后臺處理,只要到達指定發(fā)布時間,模板信息的內(nèi)容會馬上根據(jù)合成的內(nèi)容發(fā)送信息。用戶接收到信息后,會及時采取措施。
[參考文獻]
[1]劉秀娟,陳華輝,王延通,等.基于移動短信的氣象預(yù)警信息綜合發(fā)布平臺設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2016(21):29-31.
[2]范華.基于VSM技術(shù)的社區(qū)服務(wù)信息系統(tǒng)的設(shè)計與實現(xiàn)[D].上海:復(fù)旦大學,2013.
[3]廖桉樺.基于GIS的氣象預(yù)警短信自動發(fā)送系統(tǒng)[J].浙江農(nóng)業(yè)科學,2011(6):1425-1427.