文/洛松求培 安見才讓
信息技術(shù)發(fā)展進(jìn)步迅速,不斷出現(xiàn)新技術(shù)的現(xiàn)在,藏文信息處理技術(shù)水平也在不斷地發(fā)展,互聯(lián)網(wǎng)作為傳輸、存儲(chǔ)、共享的介質(zhì),涌現(xiàn)了大量的藏文網(wǎng)站并且其數(shù)量呈現(xiàn)日漸增多的趨勢(shì)?;ヂ?lián)網(wǎng)上存在著大量的藏文信息資源,如果這些信息加工處理可用于語(yǔ)料庫(kù)建設(shè)、信息檢索、機(jī)器翻譯、自動(dòng)摘要等眾多領(lǐng)域,有著舉足輕重的應(yīng)用價(jià)值。通用網(wǎng)絡(luò)爬蟲獲取的信息幾乎涵蓋了互聯(lián)網(wǎng)上的所有資源,它是面向整個(gè)互聯(lián)網(wǎng)的,目標(biāo)是盡可能多地采集網(wǎng)頁(yè)信息,存在著時(shí)間效率不佳、占據(jù)很大空間的缺點(diǎn),還有重復(fù)搜集所帶來(lái)的額外帶寬的消耗。主題網(wǎng)路爬蟲與通用網(wǎng)絡(luò)爬蟲不同,它是具有主題相關(guān)判斷功能的爬蟲,這使得有助于提高抓取信息資源的質(zhì)量和網(wǎng)絡(luò)資源的利用率,節(jié)省軟硬件資源。實(shí)現(xiàn)藏文網(wǎng)頁(yè)的快速采集,并對(duì)主要信息內(nèi)容進(jìn)行篩選,可以建立內(nèi)容全面的藏文網(wǎng)絡(luò)信息資源數(shù)據(jù)庫(kù)。
從前面的介紹可知,使用貝葉斯公式來(lái)估計(jì)后驗(yàn)概率最大的困難是難以從現(xiàn)有的訓(xùn)練樣本中準(zhǔn)確的估計(jì)出條件概率P(x|c)的概率分布。樸素貝葉斯分類器為了避開這個(gè)障礙,樸素貝葉斯方法對(duì)條件概率分布作了條件獨(dú)立性的假設(shè)。具體地,條件獨(dú)立性假設(shè)是
有了條件概率的簡(jiǎn)化條件之后,我們很容易將公式3-13的貝葉斯準(zhǔn)則改寫為:
公式(2)就是著名的樸素貝葉斯的表達(dá)式。
樸素貝葉斯分類算法主要分成如下三步:
通過(guò)以上樸素貝葉斯分類算法原理可以總結(jié)出構(gòu)造藏文網(wǎng)頁(yè)主題分類器的方法,從而構(gòu)造 本文所 需 的教育()、政 治()、宗教()三個(gè)主題分類器??傮w的構(gòu)思是先計(jì)算樣本訓(xùn)練集中三個(gè)主題特征向量的先驗(yàn)概率和藏文網(wǎng)頁(yè)文檔的條件概率,再計(jì)算待分類藏文網(wǎng)頁(yè)文檔的后驗(yàn)概率,最后利用貝葉斯分類算法確定實(shí)例的所屬分類。本文提出的主題識(shí)別是基于樸素貝葉斯算法進(jìn)行的,使用訓(xùn)練出的分類器對(duì)主題進(jìn)行篩選操作,判斷藏文網(wǎng)頁(yè)的主題相關(guān)度。網(wǎng)頁(yè)文檔向量高的特征維數(shù)是文本分類中的困難所在,特征中存在一些與分類無(wú)關(guān)的噪音數(shù)據(jù),高維特征反而會(huì)降低分類效率,甚至導(dǎo)致分類器無(wú)法運(yùn)行。首先要克服的問(wèn)題是,通過(guò)TD-IDF算法對(duì)特征提取降低特征維數(shù),以提高分類器的準(zhǔn)確性和時(shí)效性。本文中的樸素貝葉斯分類器的構(gòu)造過(guò)程大體分為兩個(gè)步驟,用訓(xùn)練集建立模型和使用測(cè)試數(shù)據(jù)集對(duì)未知類別的數(shù)據(jù)進(jìn)行分類。
圖1:系統(tǒng)工作流程圖
2.2.1通過(guò)訓(xùn)練集建立模型
2.2.2使用創(chuàng)建的模型將未知類別歸入到某個(gè)類中
根據(jù)貝葉斯分類算法,將待分類藏文網(wǎng)頁(yè)進(jìn)行主題分類判斷。先對(duì)待分類網(wǎng)頁(yè)進(jìn)行藏文分詞等預(yù)處理操作,通過(guò)統(tǒng)計(jì)出該網(wǎng)頁(yè)中所有可以作為特征的不同關(guān)鍵詞。再利用貝葉斯分類算法計(jì)算該網(wǎng)頁(yè)文檔的后驗(yàn)概率,這里需要得到的結(jié)果是在預(yù)設(shè)主題類別下的最大后驗(yàn)概率,以此判斷該網(wǎng)頁(yè)是否屬于預(yù)設(shè)主題類網(wǎng)頁(yè),如果是則將該網(wǎng)頁(yè)進(jìn)行下載,反之放棄該網(wǎng)頁(yè)。
如圖1所示,系統(tǒng)的總體工作流程,描述主要的工作步驟。
(1)首先系統(tǒng)選擇主題類別,輸入一個(gè)種子URL并對(duì)其進(jìn)行初始化;
(2)將新URL添加到待爬取隊(duì)列;
(3)判斷待爬取隊(duì)列是否為空,如果為則等待狀態(tài),否則從待爬取隊(duì)列中出隊(duì),并向該URL對(duì)應(yīng)的Web服務(wù)器發(fā)出請(qǐng)求,下載該網(wǎng)頁(yè);
(4)如果Web服務(wù)器未在時(shí)間內(nèi)響應(yīng)轉(zhuǎn)到步驟3,否則將對(duì)該頁(yè)面進(jìn)行分析,包括鏈接提取、主題分析預(yù)處理(正文提取、藏文分詞、特征選擇)。
(5)將該URL添加到已爬取隊(duì)列以防止重復(fù)下載。與預(yù)設(shè)主題相似則將存儲(chǔ)該網(wǎng)頁(yè),否則放棄存儲(chǔ)。再轉(zhuǎn)到步驟2。
根據(jù)以上介紹的主題爬蟲工作原理,確定構(gòu)成主題爬蟲的功能結(jié)構(gòu),主題爬蟲系統(tǒng)主要分成了網(wǎng)絡(luò)爬蟲、網(wǎng)頁(yè)分析、主題判斷這三個(gè)模塊。網(wǎng)絡(luò)爬蟲模塊的任務(wù)是為采集網(wǎng)頁(yè)做好鋪墊,為后續(xù)工作做準(zhǔn)備;網(wǎng)頁(yè)分析模塊是計(jì)算主題相似度的預(yù)處理階段,對(duì)新網(wǎng)頁(yè)進(jìn)行分析處理,從網(wǎng)頁(yè)中獲取正文、URL鏈接等;主題判斷模塊是在之前的工作基礎(chǔ)上,負(fù)責(zé)為系統(tǒng)進(jìn)行主題相似度計(jì)算,是本系統(tǒng)的核心模塊,它是基于貝葉斯分類算法實(shí)現(xiàn)其過(guò)程,主要包含訓(xùn)練模型和預(yù)測(cè)主題兩部分。
伴隨著互聯(lián)網(wǎng)中藏文信息的迅速發(fā)展,藏文搜索引擎技術(shù)也被很多學(xué)者和學(xué)術(shù)團(tuán)體研究,對(duì)其關(guān)鍵技術(shù)網(wǎng)絡(luò)爬蟲的研究引起廣泛關(guān)注。網(wǎng)絡(luò)爬蟲作為搜索引擎的關(guān)鍵性技術(shù)之一,國(guó)內(nèi)外諸多企業(yè)、學(xué)術(shù)團(tuán)體、學(xué)者不斷在研究其技術(shù)。中文、英文等方面已經(jīng)達(dá)到了非常成熟的階段,出現(xiàn)了很多商業(yè)性的搜索引擎門戶網(wǎng)站,其背后提供的技術(shù)支持由于商業(yè)盈利等原因,無(wú)從可知。藏文搜索引擎的研究?jī)H是初步階段,雖然出現(xiàn)了開始運(yùn)營(yíng)的搜索引擎,但其中的存在的問(wèn)題是顯而易見的。本文對(duì)垂直搜索引擎中的關(guān)鍵技術(shù)主題爬蟲進(jìn)行研究,選擇適合于主題爬蟲的爬行策略,從樣本訓(xùn)練集中訓(xùn)練藏文主題網(wǎng)絡(luò)爬蟲相似度計(jì)算模型,運(yùn)用樸素貝葉斯分類算法構(gòu)造了基于教育、 政 治(、宗教(的分類器,并設(shè)計(jì)了基于貝葉斯的藏文網(wǎng)頁(yè)主題爬蟲系統(tǒng),結(jié)合多線程技術(shù)以提升網(wǎng)頁(yè)采集的速度,用C#語(yǔ)言編寫,經(jīng)過(guò)試驗(yàn)測(cè)試其結(jié)果及效率都達(dá)到了不錯(cuò)的效果。