張廣慶,朱登峰,岳琪佳
(1.青島市標(biāo)準(zhǔn)化研究院,山東 青島 266071;2.核工業(yè)計(jì)算機(jī)應(yīng)用研究所,北京 100037;3.山東省青島第五十八中學(xué), 山東 青島 266100)
中文分詞在標(biāo)準(zhǔn)信息檢索中的應(yīng)用
張廣慶1,朱登峰2,岳琪佳3
(1.青島市標(biāo)準(zhǔn)化研究院,山東 青島 266071;2.核工業(yè)計(jì)算機(jī)應(yīng)用研究所,北京 100037;3.山東省青島第五十八中學(xué), 山東 青島 266100)
本文介紹如何通過(guò)建立簡(jiǎn)易標(biāo)準(zhǔn)分詞詞典庫(kù),然后運(yùn)用基于該標(biāo)準(zhǔn)詞典庫(kù)的正向最大匹配法、逆向最大匹配法和雙向最大匹配法對(duì)輸入的檢索語(yǔ)句進(jìn)行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱(chēng)。
信息檢索;標(biāo)準(zhǔn)題錄;中文分詞
近年來(lái),隨著“三證合一、一照一碼”、“企業(yè)標(biāo)準(zhǔn)自我聲明公開(kāi)”等政策的逐步落實(shí),標(biāo)準(zhǔn)專(zhuān)業(yè)機(jī)構(gòu)紛紛打破原有的工作模式,加大了對(duì)標(biāo)準(zhǔn)在人員、資金、科研等方面的投入,帶來(lái)了全新的標(biāo)準(zhǔn)服務(wù)模式,如浙江標(biāo)準(zhǔn)化院推出綜合性標(biāo)準(zhǔn)服務(wù)平臺(tái)和企業(yè)版標(biāo)準(zhǔn)信息管理系統(tǒng),極大地方便了標(biāo)準(zhǔn)人員的工作。在這些標(biāo)準(zhǔn)服務(wù)平臺(tái)和信息管理系統(tǒng)中,使用最多的功能是標(biāo)準(zhǔn)題錄信息的檢索,涉及中文檢索的內(nèi)容主要有標(biāo)準(zhǔn)中文名稱(chēng)、摘要和全文。
中文中的詞語(yǔ)是由漢字組成的最小的有意義的語(yǔ)句單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,而英文單詞之間是以空格作為自然分界符?,F(xiàn)代中文里,雙音節(jié)詞語(yǔ)占的比重最大,也有單音節(jié)詞語(yǔ),如口、廠(chǎng)、洗、染。中文分詞是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞語(yǔ)序列的過(guò)程[1],主要應(yīng)用于智能搜索領(lǐng)域,如百度、搜狗等網(wǎng)站的搜索功能。本文介紹如何通過(guò)建立簡(jiǎn)易標(biāo)準(zhǔn)分詞詞典庫(kù),然后運(yùn)用基于該標(biāo)準(zhǔn)詞典庫(kù)的三種分詞方法對(duì)輸入的檢索語(yǔ)句進(jìn)行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱(chēng)。
本文選取國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)網(wǎng)站公布的4.88萬(wàn)條國(guó)家標(biāo)準(zhǔn)(含廢止)構(gòu)建標(biāo)準(zhǔn)檢索庫(kù),選取環(huán)境保護(hù)類(lèi)的國(guó)家強(qiáng)制性標(biāo)準(zhǔn)166條,構(gòu)建簡(jiǎn)易標(biāo)準(zhǔn)分詞詞典庫(kù)(以下簡(jiǎn)稱(chēng)標(biāo)準(zhǔn)詞典庫(kù))。分詞原則主要選取雙音節(jié)詞語(yǔ),如果截取一個(gè)詞語(yǔ)影響語(yǔ)義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個(gè)詞雖然有獨(dú)立語(yǔ)義,但合在一起表達(dá)的意思更完整,類(lèi)似詞語(yǔ)還有“發(fā)動(dòng)機(jī)”、“固體廢物”、“汽車(chē)壓件”等。這些國(guó)家標(biāo)準(zhǔn)中文名稱(chēng)進(jìn)行人工分詞后的全部詞語(yǔ)有323個(gè),出現(xiàn)次數(shù)較多的前30個(gè)詞語(yǔ)參見(jiàn)表1。
表1 標(biāo)準(zhǔn)詞典庫(kù)部分詞語(yǔ)及在166個(gè)國(guó)家標(biāo)準(zhǔn)中出現(xiàn)的次數(shù)
中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法[2]和雙向最大匹配法三種。最大匹配法是指假設(shè)分詞詞典庫(kù)中的最長(zhǎng)詞有i個(gè)漢字,取待處理檢索語(yǔ)句的前i個(gè)漢字作為匹配詞語(yǔ),在分詞詞典庫(kù)中檢索。如果能檢索到,將該i個(gè)漢字截取出來(lái),剩余漢字開(kāi)始匹配。如果不能檢索到,將該匹配詞語(yǔ)的最后一個(gè)漢字去掉,對(duì)其余i-1個(gè)漢字重新在分詞詞典庫(kù)中檢索。重復(fù)以上步驟,直到該匹配詞語(yǔ)能檢索到或者只剩一個(gè)漢字。以此類(lèi)推,待處理檢索語(yǔ)句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語(yǔ)或漢字。正向匹配法是指從前向后匹配詞語(yǔ),逆向匹配法是指從后向前匹配詞語(yǔ),雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語(yǔ)。如果匹配結(jié)果相同,采用這些分詞詞語(yǔ);如果匹配結(jié)果不相同,采用總詞語(yǔ)數(shù)最少或者優(yōu)化后的詞語(yǔ)最少的分詞詞語(yǔ)。
下面,以輸入國(guó)家標(biāo)準(zhǔn)GB/T 1.1-2009的中文名稱(chēng)“標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫(xiě)”為例,說(shuō)明上述三種匹配方法的實(shí)現(xiàn)過(guò)程。標(biāo)準(zhǔn)詞典庫(kù)中的最長(zhǎng)詞是“混裝制劑類(lèi)”5個(gè)漢字,最大匹配字?jǐn)?shù)就是5個(gè)漢字,每次檢索相應(yīng)減少1個(gè)漢字,直到檢索完成。如果待處理中文語(yǔ)句中有空格、數(shù)字、標(biāo)點(diǎn)符號(hào)等自然分隔符,優(yōu)先截取這些符號(hào)之前的語(yǔ)句作為檢索詞語(yǔ),進(jìn)行匹配。
2.1 正向最大匹配法的分詞過(guò)程
從前向后截取5個(gè)漢字是“標(biāo)準(zhǔn)化工作”,在標(biāo)準(zhǔn)詞典庫(kù)中檢索。能檢索到,再?gòu)牡?個(gè)漢字截取5個(gè)漢字;不能檢索到,則把“標(biāo)準(zhǔn)化工作”每次從后面減少1個(gè)漢字。
第1次檢索詞:“標(biāo)準(zhǔn)化工作”,5字,詞典不能檢索到;第2次檢索詞:“標(biāo)準(zhǔn)化工”,4字,詞典不能檢索到;第3次檢索詞:“標(biāo)準(zhǔn)化”,3字,詞典不能檢索到;第4次檢索詞:“標(biāo)準(zhǔn)”,2字,詞典中能檢索到。
第1次分詞完成,找到詞語(yǔ)“標(biāo)準(zhǔn)”,剩余檢索語(yǔ)句“化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫(xiě)”。以此類(lèi)推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫(xiě)”。其中,“標(biāo)準(zhǔn)/第1/部分/標(biāo)準(zhǔn)”詞語(yǔ)屬于詞典詞。因?yàn)闃?biāo)準(zhǔn)詞典庫(kù)的不完善,導(dǎo)致“工作/導(dǎo)則/結(jié)構(gòu)/編寫(xiě)”詞語(yǔ)沒(méi)有被截取,這類(lèi)詞語(yǔ)屬于非詞典詞。
2.2 逆向最大匹配法的分詞過(guò)程
從后向前截取5個(gè)漢字是“結(jié)構(gòu)和編寫(xiě)”,在標(biāo)準(zhǔn)詞典庫(kù)中檢索。能檢索到,再?gòu)牡箶?shù)第6個(gè)漢字向前截取5個(gè)漢字;不能檢索到,則把“結(jié)構(gòu)和編寫(xiě)”每次從前面減少1個(gè)漢字。
第1次檢索詞:“結(jié)構(gòu)和編寫(xiě)”,5字,詞典不能檢索到;第2次檢索詞:“構(gòu)和編寫(xiě)”,4字,詞典不能檢索到;第3次檢索詞:“和編寫(xiě)”,3字,詞典不能檢索到;第4次檢索詞:“編寫(xiě)”,2字,詞典不能檢索到;第5次檢索詞:“寫(xiě)”,1字,詞典不能檢索到。
第1次分詞完成,沒(méi)有找到詞語(yǔ)。第2次分詞截取5個(gè)字符為“的結(jié)構(gòu)和編”,以此類(lèi)推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫(xiě)”。
2.3 雙向最大匹配法的分詞過(guò)程
在上面例子中,正向最大匹配法和逆向最大匹配法的分詞結(jié)果都是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫(xiě)”,則雙向最大匹配法直接采用該分詞結(jié)果。在標(biāo)準(zhǔn)詞典庫(kù)中增加2個(gè)分詞“化工”、“工作”,正向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/化工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫(xiě)”,逆向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫(xiě)”,兩者的分詞區(qū)別是“化工/作”和“化/工作”,可以看出后者是正確的結(jié)果。這里引入另一個(gè)原則,如果分詞結(jié)果不同而總分詞數(shù)相同,采用逆向最大匹配法的分詞結(jié)果。
雙向最大匹配法的另一個(gè)原則是采用單字詞語(yǔ)最少的分詞結(jié)果。例如“標(biāo)準(zhǔn)研究院士”在大數(shù)據(jù)分詞詞典庫(kù)中,正向最大匹配法的結(jié)果是“標(biāo)準(zhǔn)研究院/士”,逆向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/研究/院士”,前者有1個(gè)單字詞語(yǔ),后者沒(méi)有,因此選擇后者的分詞結(jié)果。
在標(biāo)準(zhǔn)詞典庫(kù)中添加“標(biāo)準(zhǔn)化工作”、“結(jié)構(gòu)”、“編寫(xiě)”詞語(yǔ),雙向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)化工作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)構(gòu)/和/編寫(xiě)”。分別輸入標(biāo)準(zhǔn)詞典庫(kù)中的詞語(yǔ)“標(biāo)準(zhǔn)化工作”、“第1”、“部分”、“標(biāo)準(zhǔn)”、“結(jié)構(gòu)”、“編寫(xiě)”,在標(biāo)準(zhǔn)檢索庫(kù)中檢索的結(jié)果參見(jiàn)表2。
表2 利用分詞詞語(yǔ)檢索國(guó)家標(biāo)準(zhǔn)的結(jié)果
從表2中可以看出,使用5字詞語(yǔ)“標(biāo)準(zhǔn)化工作”檢索出來(lái)的結(jié)果也能符合檢索要求,因此,除直接檢索輸入的語(yǔ)句外,使用分詞后的多字詞語(yǔ)檢索也能滿(mǎn)足人們的檢索需求,這就是智能搜索引擎利用分詞技術(shù)實(shí)現(xiàn)的檢索語(yǔ)句的搜索功能。
以上方法同樣適用于標(biāo)準(zhǔn)的摘要和全文檢索。大多數(shù)標(biāo)準(zhǔn)搜索引擎檢索摘要和全文時(shí)基于關(guān)鍵詞匹配,在區(qū)分同形異義和關(guān)聯(lián)同義詞時(shí)存在較大局限。借助中文分詞技術(shù),標(biāo)準(zhǔn)搜索引擎可以預(yù)處理輸入的檢索語(yǔ)句,建立以關(guān)鍵詞為基礎(chǔ)的查詢(xún)分詞庫(kù),通過(guò)“模糊化咨詢(xún),智能化回答”,滿(mǎn)足標(biāo)準(zhǔn)工作者的檢索要求,提高查詢(xún)效率,幫助他們?cè)谧疃痰臅r(shí)間里獲取更多更優(yōu)的答案。
[1] 劉開(kāi)瑛.中文文本自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書(shū)館.2000.
[2] 付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實(shí)現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.
Application of Chinese Word Segmentation in Standard Information Retrieval
ZHANG Guang-qing1, ZHU Deng-feng2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Computer Application Institute of Nuclear Industry, Beijing 100048, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)
This paper introduces how to establish a simple standard dictionary database, and then use the standard dictionary based on maximum matching method, reverse maximum matching method and bidirectional maximum matching method of the input query word, finally on the basis of the segmentation criteria Chinese name.
information retrieval; standard title; Chinese word segmentation
TP391.1
A
1672-6286(2017)01-0079-04
張廣慶(1971-),男,山東巨野人。質(zhì)量高級(jí)工程師,本科,主要從事組織機(jī)構(gòu)代碼、軟件、信息化、標(biāo)準(zhǔn)等領(lǐng)域研究。