周寅 龍廣富
摘要:現(xiàn)如今,常用的中文分詞算法為IKAnalyzer(簡稱為:IK)和ICTCLAS(簡稱為:IC)兩種,這兩種算法也可以說是如今的主流中文分詞算法,為了能夠更好的研究兩種算法的性能,本文首先利用理論對兩種算法在單機(jī)環(huán)境下的性能進(jìn)行分析,而后通過Hadoop分布式文件管理系統(tǒng)(簡稱為:HDFS)、Hadoop集群和并行處理大數(shù)據(jù)集的MapReduce所共同組成的系統(tǒng)框架,并將算法優(yōu)化后,通過開展大量的實(shí)踐性實(shí)驗(yàn)對兩種不同算法在分布式環(huán)境下對大數(shù)據(jù)集進(jìn)行處理后的表現(xiàn)進(jìn)行比較,而后得出具體的分析結(jié)果,希望能夠?yàn)橄嚓P(guān)人士帶來幫助。
關(guān)鍵詞:云計(jì)算;IKAnalyzer;ICTCLAS;Hadoop;比較
中圖分類號:TP3? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)09-0191-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
對于中文分詞法來說,該方法最初被北京航空航天大學(xué)的梁南元教授所提出,屬于一種在查字典分析方法基礎(chǔ)上的分詞方法,近些年來,由于我國經(jīng)濟(jì)水平和社會(huì)發(fā)展的速度越來越快,中文在整個(gè)世界舞臺中所占據(jù)的地位也越來越重要,并且吸引了更多學(xué)者加入中文分詞法的研究中,現(xiàn)如今已經(jīng)實(shí)現(xiàn)了基于多種詞典和概率統(tǒng)計(jì)的中文分詞算法,而在面對這些大量的中文信息時(shí),必須要確保文本分詞結(jié)果,在滿足本身詞義的基礎(chǔ)上,盡可能延長詞組長度,而現(xiàn)如今的中文分詞算法種類非常多,但是可以將其大致分為三種,分別為基于字符串匹配的分詞、基于理解的分詞以及基于統(tǒng)計(jì)的分詞,在這種情況下也出現(xiàn)了多種分詞算法產(chǎn)品,比如SCWS、HTTPCWS. IKAnalyzer 2012、FudanNLP、ICTCLAS等,而這些分詞算法均不能算作為開源,而考慮到雖然IKAnalyzer 2012、ICTCLAS等算法屬于開源,但是這些算法卻大多應(yīng)用在單機(jī)環(huán)境下,考慮這一前提條件,可以將這兩種算法引入到云計(jì)算平臺上,進(jìn)而使其能夠與更多應(yīng)用進(jìn)行結(jié)合。
1背景
近些年來,隨著科學(xué)技術(shù)水平的提升,互聯(lián)網(wǎng)技術(shù)也得到了大范圍的推廣與普及,今天,人們已經(jīng)步入了Web2. 0時(shí)代。由于互聯(lián)網(wǎng)規(guī)模的擴(kuò)大,互聯(lián)網(wǎng)技術(shù)在各大平臺、領(lǐng)域和行業(yè)中均得到了非常廣泛的應(yīng)用,并成為人們獲取信息、交流思想的主要平臺之一,同時(shí)也形成了新的“共享”互聯(lián)網(wǎng)理念,但是,這種理念也有一定的弊端,每一個(gè)使用互聯(lián)網(wǎng)的用戶都可以利用互聯(lián)網(wǎng)隨意發(fā)布信息、傳播信息,而這些信息有一部分信息是無序的、結(jié)構(gòu)不完善的,從而被隨意散發(fā)在互聯(lián)網(wǎng)的每一個(gè)角落中,這些信息不僅無作用和意義,而且也非常混亂。
在如今的Internet中,大多數(shù)信息都是以文本的形式存在,這種情況下,為了可以進(jìn)一步提高互聯(lián)網(wǎng)的應(yīng)用價(jià)值,則必須要在雜亂無章的文本信息中快速提取人們所需的資源。為此,本文特對如何解決這一問題進(jìn)行深入研究。與此同時(shí),大量的網(wǎng)絡(luò)信息的井噴現(xiàn)象也提高了對信息處理的要求,因?yàn)閭鹘y(tǒng)信息處理方法無法大量處理數(shù)據(jù),而且大多數(shù)情況下均是在單機(jī)中進(jìn)行處理,所以,非常容易受到存儲介質(zhì)、處理器等多種客觀因素的制約,在進(jìn)行處理時(shí),可能會(huì)出現(xiàn)信息貧乏、數(shù)據(jù)豐富這一困窘的局面。
本次研究的重點(diǎn)目的就是在云計(jì)算的平臺下,充分分析中文分詞法的利與弊,從而根據(jù)二者的優(yōu)勢進(jìn)行權(quán)衡選擇。
2分詞技術(shù)的相關(guān)綜述
2.1 全文搜索技術(shù)
全文檢索具體指的就是利用計(jì)算機(jī)索引程序?qū)ξ恼聝?nèi)的詞語進(jìn)行搜索,根據(jù)不同的詞語,建立對應(yīng)的索引,而后直接找到該詞語在文章中出現(xiàn)的具體次數(shù)與位置,在用戶進(jìn)行查詢時(shí),可以直接使用事先建立好的檢索程序進(jìn)行查找,完成查找后,直接將結(jié)果反饋給用戶。在中文文檔中,索引既可以文字,也可以是詞語或詞組。
分別對二者進(jìn)行分析,以字為基礎(chǔ)的傳聞所言具體指的就是針對文章中的每一個(gè)字進(jìn)行搜索,而后所建立的一種索引,在檢索時(shí),可以直接將詞分解成為字。每一種不同的語言,字的含義也不同,比如在英文中字與詞是統(tǒng)一的,而在中文中字和詞則有很大的區(qū)別,雖然采用此方法查卷率比較高,但是準(zhǔn)確率卻無法得到保障。對于以此為基礎(chǔ)的全文索引,具體指的就是對文章中含有的詞語進(jìn)行搜索,也就是以語義單位建立的一種索引,在進(jìn)行檢索時(shí),需要按照詞語進(jìn)行檢索,而且也能夠直接對同一項(xiàng)進(jìn)行處理。 然而西方文字等是按照空白簽分支,所以在進(jìn)行索引時(shí),與暗字處理相似。
2.2 中文分詞技術(shù)
對于中文和英文的分詞方法來說,二者之間有很大的差異,在英文分詞法中,一個(gè)單詞指的是一個(gè)詞兒,中文分詞法則是以漢字作為書寫單位,詞語之間也沒有明確的區(qū)分標(biāo)記,需要采用人工方法對其進(jìn)行切分?,F(xiàn)如今,國內(nèi)外有關(guān)于中文分詞法的研究。主要分為以下幾種,分別為正向最大匹配法、反向最大匹配方法、分詞與詞性標(biāo)注一體化方法等。
查閱多種文獻(xiàn)后,可以發(fā)現(xiàn)在如今的中文分詞法中,依然存在著兩個(gè)需要迫切解決的問題,第一是奇異問題,在漢語中依然存在著非常多的奇異現(xiàn)象,具體指的就是對幾個(gè)字分詞,會(huì)出現(xiàn)多種不同的結(jié)果。第二則是未登錄詞識別問題,系統(tǒng)應(yīng)該可以對尚未登錄的詞語進(jìn)行識別與記錄,在而后再經(jīng)過不斷的整理后,進(jìn)一步加強(qiáng)對未登錄詞語的識別能力。
3兩種中文分詞算法的相關(guān)概述
在漢語語言的自然處理中,一個(gè)詞具有一定的原子性,而且詞語也是整個(gè)漢語語言體系中最能夠表達(dá)具有實(shí)際意義的最小化語素。英語語句的表達(dá)中,單詞屬于一種天然的分界符,與英文相比,中文自身的構(gòu)詞特點(diǎn)具有非常明顯的獨(dú)特性,一般情況下,中文語句的構(gòu)成以字為基礎(chǔ),字也可以將其稱為中文的基本書寫單位,在句子與句子之間、段落與段落之間,通常需要采用非常規(guī)范的分界符進(jìn)行分界,但是詞語與詞語之間卻缺少規(guī)范化的分界符進(jìn)行分界[1]。
1)IKAnalyzer
對于IKAnalyzer中文分詞算法來說,其是在JAVA語言開源中的輕量級的中文分詞第三方工具包,而后采用分析核算法中的源碼,充分的說明IKJQuery Parser是對整個(gè)算法發(fā)揮支撐作用的核心類分詞工具。具體而言,該算法可以利用由最大詞語到最小詞語層層遞進(jìn)的檢索方式,對關(guān)鍵詞進(jìn)行搜索,經(jīng)過相關(guān)的實(shí)驗(yàn)研究結(jié)果表明,該方法的最大驗(yàn)證速度可以達(dá)到8w字每秒,但是因?yàn)樵撍惴ㄊ窃贘AVA語言編寫的基礎(chǔ)上而形成的,所以說,該方法也具有非常良好的移植性特點(diǎn)。
2)ICTCLAS
我國科學(xué)院計(jì)算技術(shù)研究所,針對自然語言處理研究的基礎(chǔ)上,提出了新的漢語詞法分析系統(tǒng),并將其稱作為ICTCLAS[2],在這其中主要包括中文分詞、新詞識別、詞性標(biāo)注、命名實(shí)體識別以及用戶詞典等多種功能。
4 實(shí)驗(yàn)研究
4.1 不同大小文本
早在Map階段時(shí)期,splits決定Maptask的數(shù)量。如果利用MapReduce處理大量小型文件的過程中,因?yàn)槊恳粋€(gè)處理的小文件都需要單獨(dú)占用一個(gè)任務(wù)模塊,所以就會(huì)產(chǎn)生比較多的Maptask[3],但是一旦任務(wù)啟動(dòng)則會(huì)消耗大量的時(shí)間,從而導(dǎo)致大量的時(shí)間均耗費(fèi)在任務(wù)的啟動(dòng)與釋放工作中??傮w而言,因?yàn)榫€程管理開銷不斷上升,所以也導(dǎo)致整個(gè)處理作業(yè)的時(shí)間在不斷增加。
總體而言,兩種不同的中文分詞算法在對小文本數(shù)據(jù)進(jìn)行處理時(shí),會(huì)由于啟動(dòng)Map任務(wù)因素的影響而占用大量的時(shí)間,這樣一來就會(huì)降低一定時(shí)間內(nèi)分詞算法的效率,因此,在云計(jì)算平臺的基礎(chǔ)上,不適合將分詞算法應(yīng)用于小文本數(shù)據(jù)集的處理工作中。
4.2 不同數(shù)量的文本
如果總本容量比較固定,比如數(shù)值在100M情況下,在不同時(shí)間節(jié)點(diǎn)下,具體分別為1、10、100、1000各個(gè)節(jié)點(diǎn),將此作為前提條件進(jìn)行對比,從而對比不同數(shù)量文本對IKAnalyzer和ICTCLAS在云計(jì)算平臺下的運(yùn)行速度,經(jīng)實(shí)驗(yàn)后,可以得到相對應(yīng)的100M、10M、1M和100K的文本。
對于HDFS來說,該系統(tǒng)屬于一種提供高吐量的分布式文件系統(tǒng),最初,該系統(tǒng)被應(yīng)用于大文件的訪問工作中,但是新聞數(shù)據(jù)大部分均為大小為KB的小型文件,而這些小型文件但數(shù)量過度的文件所產(chǎn)生的元數(shù)據(jù)會(huì)向主節(jié)點(diǎn)連續(xù)發(fā)送讀寫請求,這樣一來就會(huì)增加網(wǎng)絡(luò)中數(shù)據(jù)傳輸和請求響應(yīng)的時(shí)間,最終對整個(gè)平臺的運(yùn)行速度和性能造成影響。
4.3 不用領(lǐng)域的文本
在不同領(lǐng)域的文本中,應(yīng)對分詞效果進(jìn)行約定,首先,必須要確保分詞能夠與詞語本身的意義相符合,其次,應(yīng)盡可能地加長詞組(最小切分?jǐn)?shù)),在這種約定下,IKAnalyzer在招聘、軍事、IT和體育等領(lǐng)域中應(yīng)用的正確率明顯高于ICTCLAS,但是,這兩種中文分詞方法在體育領(lǐng)域中應(yīng)用的正確率卻達(dá)不到80%,而在教育界的領(lǐng)域中則可以達(dá)到95%以上,這也就充分的說明,文本內(nèi)容會(huì)直接對兩種不同中文分詞法的正確率帶來影響。此外,兩種不同中文分詞法在五大領(lǐng)域中均具有比較高的召回率,但是其中IKAnalyzer中文分詞法的召回率高于ICTCLAS中文分詞法。在體育領(lǐng)域中,ICTCLAS中文分詞法的召回率遠(yuǎn)低于IKAnalyzer分詞法,百分比可達(dá)到18%,同時(shí),不同的文本內(nèi)容,對兩種中文分詞法的召回率也會(huì)產(chǎn)生 一定程度的影響。IKAnalyzer中文分詞法在軍事、體育、IT和招聘領(lǐng)域中的F值明顯高于ICTCLAS中文分詞法,綜上,在軍事、體育、IT和招聘四個(gè)領(lǐng)域中,IKAnalyzer中文分詞法的應(yīng)用優(yōu)勢明顯優(yōu)于ICTCLAS中文分詞法,而ICTCLAS中文分詞法在教育領(lǐng)域要高于體育領(lǐng)域21%,而在體育領(lǐng)域和教育領(lǐng)域中,IKAnalyzer中文分詞法的懸殊達(dá)到12%,從而表明,IKAnalyzer中文分詞法的魯棒性更優(yōu)于ICTCLAS中文分詞法,而且文本內(nèi)容也會(huì)對兩種不同中文分詞算法的綜合性能造成影響。
5結(jié)束語
綜上所述,與傳統(tǒng)環(huán)境下的中文分詞算法相比,在云計(jì)算平臺基礎(chǔ)上的中文分詞算法能夠有效地提高漢字分割的效率,而且也能夠有效解決分詞算法速度快而精準(zhǔn)度不足等問題,從而進(jìn)一步提高中文分詞效率。經(jīng)實(shí)驗(yàn)研究結(jié)果表明,在云計(jì)算平臺基礎(chǔ)上IKAnalyzer中文分詞算法和ICTCLAS中文分詞算法中,ICTCLAS中文分詞算法的速度明顯優(yōu)于IKAnalyzer中文分詞算法,而在分詞正確率和召回率方面,IKAnalyzer中文分詞算法則明顯優(yōu)于ICTCLAS中文分詞算法。
參考文獻(xiàn):
[1] 熊健,翟紫姹.基于詞性標(biāo)注與分詞消歧的中文分詞方法[J].廣州大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,18(5):27-33.
[2] 朱咸軍,洪宇,黃雅琳,等.基于HMM的算法優(yōu)化在中文分詞中的應(yīng)用[J].金陵科技學(xué)院學(xué)報(bào),2019,35(3):1-7.
[3] 劉桂梅.應(yīng)用中文分詞技術(shù)的網(wǎng)絡(luò)推廣管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子商務(wù),2019(9):56-58.
【通聯(lián)編輯:代影】