• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    垂直搜索引擎在節(jié)能減排領(lǐng)域中的設(shè)計(jì)與實(shí)現(xiàn)

    2017-03-10 06:35:22
    關(guān)鍵詞:詞庫(kù)主題詞搜索引擎

    卜 天 然

    (安徽商貿(mào)職業(yè)技術(shù)學(xué)院, 安徽 蕪湖 241002)

    垂直搜索引擎在節(jié)能減排領(lǐng)域中的設(shè)計(jì)與實(shí)現(xiàn)

    卜 天 然

    (安徽商貿(mào)職業(yè)技術(shù)學(xué)院, 安徽 蕪湖 241002)

    在研究垂直搜索引擎的設(shè)計(jì)思想、相關(guān)技術(shù)的基礎(chǔ)上,利用Nutch開源框架設(shè)計(jì)實(shí)現(xiàn)了節(jié)能減排垂直搜索引擎的設(shè)計(jì),支持了對(duì)節(jié)能減排相關(guān)信息的檢索服務(wù)。系統(tǒng)采用網(wǎng)頁(yè)模板技術(shù)對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,采用改進(jìn)的 TF-IDF算法提取特征詞,利用基于特征詞的向量空間模型進(jìn)行主題相關(guān)性判定,利用樸素貝葉斯算法對(duì)網(wǎng)頁(yè)信息進(jìn)行分類。

    節(jié)能減排; 搜索引擎; 網(wǎng)頁(yè)模板; 向量空間; 樸素貝葉斯

    搜索引擎的誕生,為人們快速查找互聯(lián)網(wǎng)信息提供了一種快捷的途徑,滿足了人們搜索網(wǎng)絡(luò)信息的日益迫切的需求。但使用傳統(tǒng)搜索引擎搜索相關(guān)信息,不可避免地會(huì)包含許多廣告以及與主題不相關(guān)的信息,影響了用戶對(duì)某個(gè)特定領(lǐng)域信息的獲取。

    由于傳統(tǒng)搜索引擎檢索信息普遍存在信息量大、信息雜糅不全、結(jié)果不準(zhǔn)確等問(wèn)題,使得越來(lái)越多學(xué)者開始研究垂直搜索引擎[1]。如今市場(chǎng)上也出現(xiàn)了大量的CiteSeerx、去哪網(wǎng)等面向各個(gè)領(lǐng)域的垂直搜索引擎產(chǎn)品。

    但目前市場(chǎng)上沒有一款成形的面向節(jié)能減排領(lǐng)域的垂直搜索引擎,該類搜索引擎仍處于發(fā)展探索時(shí)期?;陂_源框架Nutch設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)面向節(jié)能減排領(lǐng)域的垂直搜索引擎。為了提高Nutch搜索引擎的效果,引入以下技術(shù):(1) 網(wǎng)頁(yè)模板技術(shù),該技術(shù)提高了網(wǎng)頁(yè)信息獲取的準(zhǔn)確性,模板中關(guān)于網(wǎng)頁(yè)關(guān)鍵信息的提取,也為部分網(wǎng)頁(yè)的信息歸類提供了便利;(2) 特征詞提取技術(shù),使用改進(jìn)的TF-IDF算法計(jì)算權(quán)重提取主題詞庫(kù)和分類特征詞庫(kù);(3) 向量空間模型,該模型用于對(duì)節(jié)能減排領(lǐng)域進(jìn)行主題相關(guān)性判斷;(4) 樸素貝葉斯算法,該算法針對(duì)網(wǎng)頁(yè)通過(guò)模板中提取的關(guān)鍵信息無(wú)法分類的情況,提供分類依據(jù)。

    1 垂直搜索引擎設(shè)計(jì)及工作流程

    垂直搜索引擎是針對(duì)某一個(gè)特定領(lǐng)域、行業(yè)或?qū)W科內(nèi)的網(wǎng)絡(luò)信息資源,制定一些特定的搜索策略,讓網(wǎng)絡(luò)爬蟲智能在互聯(lián)網(wǎng)上抓取相關(guān)的信息資源,為領(lǐng)域內(nèi)或行業(yè)內(nèi)的專家、學(xué)者和需要這方面信息的用戶提供一整套網(wǎng)絡(luò)信息資源的專業(yè)化搜索引擎[2]。它對(duì)信息庫(kù)中某一類信息進(jìn)行整合,將網(wǎng)頁(yè)的非結(jié)構(gòu)化信息抽取成特定的結(jié)構(gòu)化信息,最后以某種形式返回給用戶。

    本次研究選用開源框架Nutch作為爬取數(shù)據(jù)、分析數(shù)據(jù)、建立索引的工具。選用Nutch的原因是其能非??焖俚嘏廊【W(wǎng)頁(yè),能對(duì)這些網(wǎng)頁(yè)建立索引并提供維護(hù)工作,還能提供對(duì)索引文件每秒上千次的搜索,并盡可能地以最小的運(yùn)作成本提供最高質(zhì)量的搜索服務(wù)。其效率可以和一些商業(yè)搜索引擎相媲美。此外,Nutch和Solr的源代碼是開放的,其提供的強(qiáng)大的插件機(jī)制為開發(fā)者定制自己的搜索引擎提供了便利。

    針對(duì)節(jié)能減排領(lǐng)域,利用Nutch框架完成了垂直搜索引擎設(shè)計(jì),并將節(jié)能減排信息分成政策資訊、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)等3類。其思路主要有4步:

    (1) 選擇爬取節(jié)能減排信息的網(wǎng)站。

    (2) 利用Nutch工具開始爬取網(wǎng)頁(yè)。

    (3) 利用Nutch插件機(jī)制對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,建立索引。步驟如下:

    ① 建立模版,模版包括提取網(wǎng)頁(yè)標(biāo)題、正文內(nèi)容、關(guān)鍵信息(導(dǎo)航信息等)、標(biāo)準(zhǔn)號(hào)以及技術(shù)文獻(xiàn)來(lái)源。若爬取的URL為一個(gè)網(wǎng)頁(yè),則根據(jù)模板提取內(nèi)容,不符合模板提取規(guī)則的網(wǎng)頁(yè)不需要建立索引,符合模板提取的網(wǎng)頁(yè)則進(jìn)入下一步;若爬取的URL不是一個(gè)網(wǎng)頁(yè),則直接進(jìn)入下一步。

    ② 節(jié)能減排主題詞庫(kù)的建立以及向量空間模型的建立。利用向量空間模型,計(jì)算網(wǎng)頁(yè)內(nèi)容與節(jié)能減排主題的相關(guān)度。若相關(guān)度大于設(shè)定的閾值,認(rèn)為該網(wǎng)頁(yè)屬于節(jié)能減排領(lǐng)域,則進(jìn)行下一步工作;否則,舍棄該網(wǎng)頁(yè)。

    ③ 建立樸素貝葉斯模型,完成對(duì)政策咨詢、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)以及相關(guān)行業(yè)信息特征詞庫(kù)和關(guān)鍵詞庫(kù)的建立,完成信息分類和行業(yè)分類。若爬取的URL為一個(gè)網(wǎng)頁(yè),且根據(jù)模板提取的關(guān)鍵信息和關(guān)鍵詞庫(kù)信息可以直接歸類,則直接分類;若不可以直接歸類,則利用樸素貝葉斯模型,計(jì)算得出網(wǎng)頁(yè)屬于哪個(gè)分類;若爬取的URL不是一個(gè)網(wǎng)頁(yè),則直接根據(jù)樸素貝葉斯模型計(jì)算分類。

    (4) 利用SolrJ以及servlet+jsp技術(shù)搭建垂直搜索引擎的用戶檢索平臺(tái)。平臺(tái)提供信息分類檢索、檢索關(guān)鍵詞提示等功能。用戶通過(guò)輸入檢索關(guān)鍵詞,利用SolrJ從索引數(shù)據(jù)庫(kù)中取得相關(guān)信息,并按照相關(guān)度的大小呈現(xiàn)給用戶。

    2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    2.1 模板的建立

    互聯(lián)網(wǎng)網(wǎng)頁(yè)中的元素節(jié)點(diǎn)存在父子關(guān)系。根據(jù)網(wǎng)頁(yè)元素節(jié)點(diǎn)之間的父子關(guān)系,以及元素節(jié)點(diǎn)上的屬性節(jié)點(diǎn)內(nèi)容,則可以獲取包含在元素節(jié)點(diǎn)的文本節(jié)點(diǎn)內(nèi)容。研究發(fā)現(xiàn),在一個(gè)域名下的網(wǎng)站,其網(wǎng)頁(yè)很多都擁有相同或相近的網(wǎng)頁(yè)樹形結(jié)構(gòu)。這說(shuō)明搜索引擎對(duì)一個(gè)網(wǎng)頁(yè)特定信息進(jìn)行提取時(shí),該內(nèi)容在網(wǎng)頁(yè)中所處的位置可能與其他很多頁(yè)面相同。利用相同站點(diǎn)下頁(yè)面結(jié)構(gòu)存在的相似性,對(duì)站點(diǎn)下的網(wǎng)頁(yè)建立基于DOM的網(wǎng)頁(yè)模板。通常對(duì)一個(gè)站點(diǎn)下需要采集的網(wǎng)頁(yè)用幾個(gè)模板就可以表示[3]。

    (1) 為了提高網(wǎng)頁(yè)模板的加載速度,縮小程序獲取網(wǎng)站模板的范圍,首先為網(wǎng)頁(yè)模板提供了配置文件config.xml。該文件提供了URL的正則匹配式。一個(gè)網(wǎng)頁(yè)可以根據(jù)它的URL確定該網(wǎng)頁(yè)所處站點(diǎn)的模板存放位置。config.xml文件格式如下所示。

    中華人民共和國(guó)環(huán)境保護(hù)部

    其中,WebName表示該站點(diǎn)的名稱;WebDomain表示該站點(diǎn)下任意網(wǎng)頁(yè)需要滿足的URL的正則表達(dá)式,符合該正則表達(dá)式的網(wǎng)頁(yè)則是來(lái)自該站點(diǎn)的網(wǎng)頁(yè);WebTemplate表示該站點(diǎn)下模板庫(kù)的存放位置。

    (2) 在指定位置文件夾下建立某一站點(diǎn)的模板template_xxx_xx.xml。模板包含對(duì)頁(yè)面標(biāo)題、正文內(nèi)容、關(guān)鍵信息、標(biāo)準(zhǔn)號(hào)以及技術(shù)文獻(xiàn)來(lái)源的提取規(guī)則,同時(shí)這些提取規(guī)則符合jsoup工具提取網(wǎng)頁(yè)信息的語(yǔ)法要求。模板文件格式如下所示。

    tbody>tr>td[align=left][style][height]]]>

    其中,WebTitle表示網(wǎng)頁(yè)標(biāo)題;WebNavigation表示網(wǎng)頁(yè)關(guān)鍵信息;WebContent表示網(wǎng)頁(yè)正文內(nèi)容。

    網(wǎng)頁(yè)先通過(guò)config.xml文件確定所屬的模板庫(kù),再在相應(yīng)的模板庫(kù)中匹配相應(yīng)的模板。若匹配到相應(yīng)模板,則可利用模板分析網(wǎng)頁(yè),提取內(nèi)容。

    2.2 特征詞庫(kù)的確定

    本次搭建的垂直搜索引擎在2個(gè)地方需要用到特征詞庫(kù):一是在主題相關(guān)性判斷時(shí)需要配合向量空間模型使用的主題詞庫(kù);二是對(duì)網(wǎng)頁(yè)信息分類時(shí)配合樸素貝葉斯算法使用的分類特征詞庫(kù)。無(wú)論是主題詞庫(kù)還是分類特征詞庫(kù)都需要對(duì)某一類樣本文檔集合的詞或短語(yǔ)的權(quán)重進(jìn)行計(jì)算,設(shè)定閾值,然后選取能夠代表該類特征的詞或短語(yǔ)作為該類的特征詞,構(gòu)成特征詞庫(kù)。

    特征詞的權(quán)重計(jì)算有許多方法,常見的可以作為詞的權(quán)重的有文檔頻率、詞頻以及TF-IDF算法。本次選取TF-IDF算法作為特征詞權(quán)重的計(jì)算方法。TF-IDF算法的主要思想是如果某個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)對(duì)于該文檔具有高的價(jià)值[4]。

    確定本系統(tǒng)特征詞庫(kù)的具體工作步驟如下:

    (1) 選取不同類別的文檔作為樣本文檔。對(duì)于特征詞庫(kù),分別選取了與節(jié)能減排領(lǐng)域相關(guān)的和不相關(guān)的文檔各400篇作為樣本文檔;對(duì)于分類特征詞庫(kù),每個(gè)類別選取150篇文檔作為樣本文檔。

    (2) 利用IK分詞器分別對(duì)2類文本進(jìn)行中文分詞,并去除停用詞。

    (3) 利用Lucene技術(shù)對(duì)各類文本建立索引,并把結(jié)果保存在索引庫(kù)中。

    (4) 利用Lucene提供的相關(guān)方法,首先在各類別中統(tǒng)計(jì)每一個(gè)詞或短語(yǔ)在集合中每一篇文檔中出現(xiàn)的次數(shù)以及計(jì)算該篇文檔出現(xiàn)該詞的總次數(shù);然后統(tǒng)計(jì)該詞或短語(yǔ)在該類文檔集合中出現(xiàn)的文檔頻率以及該類文檔集合中的文檔總數(shù);最后統(tǒng)計(jì)該詞或短語(yǔ)出現(xiàn)的類別以及總類別數(shù)。

    (5) 利用上一步獲取的相關(guān)數(shù)據(jù),計(jì)算在每一類別樣本文檔集合中每一個(gè)詞或短語(yǔ)的權(quán)重,并將這些詞或短語(yǔ)按照權(quán)重的大小排序。

    (6) 通過(guò)設(shè)定閾值去除權(quán)重低的詞或短語(yǔ),確定最終的特征詞庫(kù)。

    特征詞庫(kù)訓(xùn)練流程如圖1所示。

    圖1 特征詞庫(kù)訓(xùn)練流程圖

    2.3 主題相關(guān)性判別的實(shí)現(xiàn)

    垂直搜索引擎與通用搜索引擎最本質(zhì)的不同在于垂直搜索引擎會(huì)進(jìn)行主題相關(guān)性判別,過(guò)濾掉與主題相關(guān)度不大的信息。垂直搜索引擎最后用于建立索引庫(kù)的信息都是主題相關(guān)的。向量空間模型可以將文檔表示成向量,可以使用向量之間的余弦距離表示文檔之間的相似度。垂直搜索引擎中的主題相關(guān)性判斷,可以看成主題領(lǐng)域和網(wǎng)頁(yè)之間相似度的計(jì)算,所以可以利用向量空間模型進(jìn)行主題相關(guān)性判定。

    若將文檔D1表示成(W11,W12,W13,…,W1n),D2表示成(W21,W22,W23,…,W2n),向量空間模型的計(jì)算公式為:

    (1)

    利用向量空間模型進(jìn)行主題相關(guān)性判定的具體算法如下:

    (1) 根據(jù)特征詞庫(kù)的確定方法,得到節(jié)能減排領(lǐng)域的主題特征向量D1=(W11,W12,…,W1n)。其中,W1k是利用公式計(jì)算的權(quán)重,n表示主題詞庫(kù)中特征詞的個(gè)數(shù)。

    (2) 對(duì)網(wǎng)絡(luò)爬蟲下載的網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)模板提取內(nèi)容。利用IK分詞器對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞,得到該網(wǎng)頁(yè)的分詞集合(t1,t2,…,tm)。其中,m為該網(wǎng)頁(yè)中分詞的總數(shù)。

    (3) 以主題詞庫(kù)特征向量的維度為標(biāo)準(zhǔn),按照主題詞庫(kù)中的特征詞對(duì)分詞后得到的網(wǎng)頁(yè)分詞集合進(jìn)行操作。在分詞集合中,去除主題詞庫(kù)中不存在的詞,添加在主題詞庫(kù)中存在的詞,將其權(quán)重設(shè)為0,保留主題詞庫(kù)已經(jīng)存在的詞,將其權(quán)重設(shè)為1,最終得到與主題詞庫(kù)特征向量同樣維度的網(wǎng)頁(yè)特征向量D2=(W21,W22,…,W2n)。表1為主題特征向量的權(quán)重,表2為網(wǎng)頁(yè)詞庫(kù)根據(jù)主題特征向量建立的網(wǎng)頁(yè)特征向量的權(quán)重。

    表1 主題特征向量的權(quán)重

    表2 網(wǎng)頁(yè)特征向量的權(quán)重

    (4) 利用式(1)計(jì)算主題特征向量D1=(W11,W12,…,W1n)和網(wǎng)頁(yè)特征向量D2=(W21,W22,…,W2n)之間的余弦距離,并將得到的值作為判定該網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域的相關(guān)度的判定值。

    (5) 設(shè)定閾值。若網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域的相關(guān)度大于設(shè)定的閾值,則認(rèn)為網(wǎng)頁(yè)所包含的信息屬于節(jié)能減排主題領(lǐng)域,并在建立索引時(shí),將網(wǎng)頁(yè)相關(guān)信息保存在索引數(shù)據(jù)庫(kù)中;反之,則認(rèn)為該網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域無(wú)關(guān),舍棄該網(wǎng)頁(yè)。

    2.4 網(wǎng)頁(yè)信息分類的實(shí)現(xiàn)

    互聯(lián)網(wǎng)信息種類繁多,就節(jié)能減排領(lǐng)域而言,就包含新聞、法律、標(biāo)準(zhǔn)、技術(shù)等各種各樣的信息。如果不對(duì)網(wǎng)頁(yè)信息進(jìn)行歸類,用戶通過(guò)搜索引擎獲取的信息則比較雜亂,從而加大了用戶篩選需要信息的難度。為了提高搜索引擎獲取信息的效率,本次研究利用網(wǎng)頁(yè)關(guān)鍵信息比對(duì)與樸素貝葉斯分類算法相結(jié)合的方式,對(duì)互聯(lián)網(wǎng)信息進(jìn)行信息分類。

    樸素貝葉斯分類算法的基本思想是[5]:對(duì)于給定的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)條件下的各個(gè)類別出現(xiàn)的概率。某類別下出現(xiàn)的概率最大,就認(rèn)為此待分類項(xiàng)屬于該類別。

    設(shè)待分類項(xiàng)為x,其向量表示為x={a1,a2,a3,…,an},其中每一個(gè)a表示待分類項(xiàng)x中的一個(gè)屬性;設(shè)類別集合C={y1,y2,y3,…,ym},則貝葉斯公式一般形式為[6]:

    (2)

    樸素貝葉斯分類是求解待分類項(xiàng)在類別集合下各個(gè)概率的最大值。由于P(x)對(duì)于每一個(gè)類別的求解是一個(gè)固定的值,所以該項(xiàng)可以忽略,則式(2)可以寫成:

    l=max{P(x|y1)P(y1),…,P(x|ym)P(ym)}

    (3)

    將待分類項(xiàng)x中每一個(gè)屬性帶入,則:

    P(x|yi)P(yi) =P(a1|yi)P(a2|yi)…P(an|yi)P(yi)

    (4)

    進(jìn)行網(wǎng)頁(yè)信息分類的具體實(shí)現(xiàn)思路如下:

    (1) 先將根據(jù)網(wǎng)頁(yè)模板獲取到的關(guān)鍵信息與類別關(guān)鍵詞庫(kù)進(jìn)行比對(duì)。若比對(duì)成功,則確定分類;不成功則使用樸素貝葉斯分類算法進(jìn)行分類。類別關(guān)鍵詞庫(kù)通過(guò)人工方式整理,是類別特有的詞或短語(yǔ)的集合。

    (2) 根據(jù)特征詞庫(kù)的確定提供的方式,建立政策資訊、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)等3類特征詞庫(kù);同時(shí)建立xml文件,文件中記錄每一個(gè)分類及分類的樣本數(shù),以便計(jì)算每個(gè)類別的先驗(yàn)概率。如果類別集合為C={y1,y2,y3,…,ym},則類別yi的先驗(yàn)概率求解公式為:

    (5)

    式中:ni—— 類別yi下的樣本數(shù)量;

    N—— 所有類別下的樣本數(shù)的總和。

    (3) 利用IK分詞器將待分類網(wǎng)頁(yè)文本進(jìn)行分詞,并去除停用詞,得到網(wǎng)頁(yè)的分詞集合x={a1,a2,a3,…,an},該集合可以看成一個(gè)待分類項(xiàng)。

    (4) 按照式(4)計(jì)算待分類網(wǎng)頁(yè)文本(待分類項(xiàng))在3個(gè)分類中的概率大小,公式為:

    (6)

    式中:ni,j—— 在類別yi下包含特征詞屬性aj的樣本數(shù)量,ni,j+1是為了防止分子為零的情況出現(xiàn);

    ni—— 類別yi下的樣本數(shù)量;

    L—— 總類別數(shù);

    M—— 為防止ni過(guò)小而引入的常數(shù)。

    (5) 利用式(3)計(jì)算待分類網(wǎng)頁(yè)文本(待分類項(xiàng))在某類別下的概率值最大,則將該網(wǎng)頁(yè)分到該類別下,并將結(jié)果保存在索引庫(kù)中。

    3 系統(tǒng)運(yùn)行和測(cè)試

    針對(duì)節(jié)能減排領(lǐng)域?qū)崿F(xiàn)的垂直搜索引擎是通過(guò)提供用戶接口與網(wǎng)絡(luò)用戶進(jìn)行交互。用戶通過(guò)輸入檢索關(guān)鍵字從搜索引擎的索引庫(kù)中獲取相關(guān)信息[7]。

    選取節(jié)能減排領(lǐng)域和非節(jié)能減排領(lǐng)域相關(guān)的文檔各400篇作為主題詞庫(kù)的測(cè)試文檔,選取政策資訊和技術(shù)文獻(xiàn)各200篇作為類別特征詞庫(kù)的測(cè)試文檔,分別對(duì)以文檔頻率DF、詞頻TF、TF-IDF值以及改進(jìn)的TF-IDF值作為詞的權(quán)重提取的特征詞庫(kù)進(jìn)行測(cè)試。主題詞庫(kù)的測(cè)試算法選擇主題判別算法向量空間模型,測(cè)試結(jié)果見表3。分類特征詞庫(kù)的測(cè)試算法選擇樸素貝葉斯算法,測(cè)試結(jié)果見表4。

    表3 主題詞庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果

    表4 分類特征詞庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果

    通過(guò)實(shí)驗(yàn)可以看出,選擇改進(jìn)的TF-IDF算法計(jì)算詞的權(quán)重,經(jīng)過(guò)篩選構(gòu)成的特征詞庫(kù)在主題相關(guān)性判別中能最有效地選擇節(jié)能減排領(lǐng)域相關(guān)的文檔以及去除非節(jié)能減排領(lǐng)域相關(guān)的文檔。在信息分類中,該方法得到的特征詞庫(kù)也能夠最有效地將文檔進(jìn)行歸類。

    4 結(jié) 語(yǔ)

    以搭建節(jié)能減排領(lǐng)域的垂直搜索引擎為需求背景,利用Nutch開源框架,結(jié)合網(wǎng)頁(yè)模板、向量空間模型以及樸素貝葉斯算法等技術(shù),實(shí)現(xiàn)了垂直搜索引擎的開發(fā)。實(shí)驗(yàn)證明,完成的搜索引擎初步實(shí)現(xiàn)了對(duì)節(jié)能減排相關(guān)的信息檢索,降低了工作人員獲取該領(lǐng)域信息的難度。

    [1] 卜天然.基于Nutch技術(shù)的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].通化師范學(xué)院學(xué)報(bào),2016,37(4):4-8.

    [2] 劉策.垂直搜索引擎發(fā)展前景分析[J].中國(guó)科技成果,2006(13):46-47.

    [3] 張玉芳,彭時(shí)名,呂佳.基于文本分類TF-IDF方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程,2006,32(19):76-78.

    [4] 包金龍.基于向量空間模型的信息檢索系統(tǒng)的設(shè)計(jì)[J].情報(bào)檢索,2005,24(7):44-49.

    [5] SALTON G, WONG A. On the specification of term value in automatic indexing[J]. Journal of Documentation, 1973,29(4):351-372.

    [6] DOMINGOS P, PAZZANI M. On the optimality of the simple bayesian classifier under zero-one loss[J].Machine Learning,1997,29(2):103-130.

    [7] 施聰鶯,徐朝軍,楊曉江.TF-IDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(6):167-170.

    Design and Implementation of a Vertical Search Engine in the Field of Energy-Saving and Emission-Reduction

    BUTianran

    (Anhui Business College, Wuhu Anhui 241002, China)

    Based on the research on design concept and related technologies of vertical search engines, the vertical search engine used for energy-saving and emission-reduction is designed, with the help of Nutch open source framework design, in order to support for information retrieval services related to energy-saving and emission-reduction. This system uses a Web page template technology to extract Web information, and the improved TF-IDF algorithm is adopted to extract key words; vector space model based on the key words is utilized to test subject correlation, and finally the naive bayesian classifier algorithm can help to classify Web information.

    energy-saving and emission-reduction; search engine; Web template; vector space; naive bayes

    2016-09-26

    安徽省省級(jí)自然科研重點(diǎn)項(xiàng)目“大中型企業(yè)員工績(jī)效評(píng)價(jià)理論模型信息化研究與實(shí)現(xiàn)”(KJ2016A134);安徽省省級(jí)自然科研一般項(xiàng)目“基于Nutch的節(jié)能減排垂直搜索引擎設(shè)計(jì)與應(yīng)用研究”(KJSM201601)

    卜天然(1981 — ),男,安徽蕪湖人,碩士,講師,研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)及數(shù)據(jù)挖掘。

    TP393

    A

    1673-1980(2017)01-0092-05

    猜你喜歡
    詞庫(kù)主題詞搜索引擎
    詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    環(huán)境變了,詞庫(kù)別變
    電腦迷(2014年14期)2014-04-29 00:44:03
    《疑難病雜志》2014年第13卷主題詞索引
    廣告主與搜索引擎的雙向博弈分析
    QQ手機(jī)輸入法如何導(dǎo)入分類詞庫(kù)
    電腦迷(2012年15期)2012-04-29 17:09:47
    国产毛片a区久久久久| 亚洲人成网站在线观看播放| 亚洲欧美成人综合另类久久久| 久久精品国产亚洲网站| 国产男女超爽视频在线观看| 亚洲欧美日韩卡通动漫| 亚洲一区高清亚洲精品| 国产精品一区二区在线观看99 | 高清欧美精品videossex| 久久久久久伊人网av| 97人妻精品一区二区三区麻豆| 国产伦精品一区二区三区视频9| 久久久久久伊人网av| 嫩草影院精品99| 最近中文字幕2019免费版| 午夜精品国产一区二区电影 | 久久韩国三级中文字幕| 99热全是精品| 99久久人妻综合| 久热久热在线精品观看| 国产片特级美女逼逼视频| 精品久久国产蜜桃| 少妇人妻精品综合一区二区| 美女xxoo啪啪120秒动态图| 亚洲乱码一区二区免费版| 又黄又爽又刺激的免费视频.| 日韩中字成人| 黄色一级大片看看| 日本一二三区视频观看| 欧美性猛交╳xxx乱大交人| 成人亚洲精品av一区二区| 久久久久免费精品人妻一区二区| 在线免费观看的www视频| 日日摸夜夜添夜夜添av毛片| 日韩中字成人| 最近2019中文字幕mv第一页| 日韩制服骚丝袜av| 男女那种视频在线观看| 麻豆av噜噜一区二区三区| 国精品久久久久久国模美| 精华霜和精华液先用哪个| 国产高清国产精品国产三级 | 久热久热在线精品观看| 国产一级毛片在线| 联通29元200g的流量卡| 熟女电影av网| av在线天堂中文字幕| 人妻夜夜爽99麻豆av| 精品99又大又爽又粗少妇毛片| 日本黄色片子视频| 女的被弄到高潮叫床怎么办| 久久这里有精品视频免费| 在线播放无遮挡| av专区在线播放| 白带黄色成豆腐渣| 肉色欧美久久久久久久蜜桃 | 97超视频在线观看视频| 美女脱内裤让男人舔精品视频| 久久综合国产亚洲精品| 国内精品美女久久久久久| 亚洲成人久久爱视频| 国产探花极品一区二区| 三级国产精品欧美在线观看| 丰满少妇做爰视频| 又大又黄又爽视频免费| ponron亚洲| 亚洲精品aⅴ在线观看| 亚洲精品乱码久久久久久按摩| 两个人的视频大全免费| 精品久久久久久电影网| 久久久亚洲精品成人影院| 久久这里只有精品中国| 午夜视频国产福利| 亚洲成人av在线免费| 免费黄色在线免费观看| 国产精品熟女久久久久浪| 欧美精品国产亚洲| 亚洲精品,欧美精品| 一区二区三区高清视频在线| av福利片在线观看| 国产淫语在线视频| 亚洲精品一二三| 久久久久久久久久人人人人人人| 三级男女做爰猛烈吃奶摸视频| 精品一区二区三区人妻视频| 精品久久久久久久末码| 久久精品久久久久久久性| 日本午夜av视频| 人人妻人人澡人人爽人人夜夜 | 97超碰精品成人国产| 高清视频免费观看一区二区 | 女人十人毛片免费观看3o分钟| 超碰97精品在线观看| 国产精品av视频在线免费观看| 日韩在线高清观看一区二区三区| 精品久久久精品久久久| www.av在线官网国产| 99热全是精品| 亚洲av福利一区| 亚洲成色77777| 激情五月婷婷亚洲| 亚洲无线观看免费| 精品欧美国产一区二区三| 伦理电影大哥的女人| 女人被狂操c到高潮| 听说在线观看完整版免费高清| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | av.在线天堂| 色视频www国产| 午夜日本视频在线| 建设人人有责人人尽责人人享有的 | h日本视频在线播放| 日本熟妇午夜| 女人被狂操c到高潮| 午夜福利在线在线| 五月玫瑰六月丁香| 久久精品国产自在天天线| 校园人妻丝袜中文字幕| a级一级毛片免费在线观看| 欧美日韩亚洲高清精品| av网站免费在线观看视频 | 97热精品久久久久久| 国语对白做爰xxxⅹ性视频网站| 国产中年淑女户外野战色| 青春草视频在线免费观看| 建设人人有责人人尽责人人享有的 | 简卡轻食公司| 汤姆久久久久久久影院中文字幕 | 18禁裸乳无遮挡免费网站照片| videossex国产| 纵有疾风起免费观看全集完整版 | 大香蕉97超碰在线| 校园人妻丝袜中文字幕| 国产探花在线观看一区二区| 国内精品宾馆在线| 久久99热这里只频精品6学生| 亚洲美女视频黄频| 中文字幕人妻熟人妻熟丝袜美| 亚洲自拍偷在线| 亚洲成色77777| 在线观看人妻少妇| 老女人水多毛片| 97人妻精品一区二区三区麻豆| 国产精品一区二区性色av| 婷婷色av中文字幕| 日本av手机在线免费观看| 美女主播在线视频| 搡老乐熟女国产| 亚洲精品乱码久久久v下载方式| 草草在线视频免费看| 日韩中字成人| 啦啦啦韩国在线观看视频| 性色avwww在线观看| 热99在线观看视频| 一个人看的www免费观看视频| 亚洲最大成人av| 午夜福利网站1000一区二区三区| 国产男女超爽视频在线观看| 精品人妻熟女av久视频| 狂野欧美激情性xxxx在线观看| 秋霞伦理黄片| 夫妻午夜视频| 亚洲精品日韩av片在线观看| 久久久久久久大尺度免费视频| 非洲黑人性xxxx精品又粗又长| 国产探花极品一区二区| 日韩制服骚丝袜av| 免费无遮挡裸体视频| av一本久久久久| 夜夜爽夜夜爽视频| www.av在线官网国产| 我要看日韩黄色一级片| kizo精华| 久久这里只有精品中国| 午夜精品一区二区三区免费看| 久久99蜜桃精品久久| 九草在线视频观看| 国内精品宾馆在线| 少妇高潮的动态图| 国产亚洲91精品色在线| 赤兔流量卡办理| 久久99热6这里只有精品| 亚洲av成人精品一区久久| 日本wwww免费看| 最近最新中文字幕大全电影3| 建设人人有责人人尽责人人享有的 | 26uuu在线亚洲综合色| 白带黄色成豆腐渣| 成年女人看的毛片在线观看| 熟女电影av网| 在线天堂最新版资源| 少妇熟女aⅴ在线视频| 女人被狂操c到高潮| 亚洲人成网站高清观看| 最近最新中文字幕大全电影3| 国产伦在线观看视频一区| 中文精品一卡2卡3卡4更新| 成人亚洲精品一区在线观看 | 身体一侧抽搐| 国产v大片淫在线免费观看| 久久精品久久久久久噜噜老黄| 国产免费一级a男人的天堂| 99久久人妻综合| 丝袜美腿在线中文| 国产精品av视频在线免费观看| 欧美极品一区二区三区四区| 一级毛片久久久久久久久女| 精品国产一区二区三区久久久樱花 | 黄色欧美视频在线观看| 波多野结衣巨乳人妻| 汤姆久久久久久久影院中文字幕 | 一级毛片我不卡| 欧美区成人在线视频| 国产国拍精品亚洲av在线观看| 色吧在线观看| 老司机影院成人| 不卡视频在线观看欧美| 成人毛片60女人毛片免费| 国产亚洲91精品色在线| 日本一二三区视频观看| 天天一区二区日本电影三级| 91午夜精品亚洲一区二区三区| 免费人成在线观看视频色| 好男人在线观看高清免费视频| 日日啪夜夜爽| 免费观看av网站的网址| 韩国高清视频一区二区三区| 视频中文字幕在线观看| 国产在视频线精品| 91狼人影院| 亚洲精品国产av成人精品| 特大巨黑吊av在线直播| 色综合色国产| 久久精品综合一区二区三区| 超碰97精品在线观看| 亚洲欧美成人综合另类久久久| 熟女电影av网| 超碰97精品在线观看| 国产精品三级大全| 1000部很黄的大片| 亚洲成人av在线免费| 深夜a级毛片| 久久久久免费精品人妻一区二区| 少妇人妻精品综合一区二区| 好男人视频免费观看在线| 高清日韩中文字幕在线| 国产伦在线观看视频一区| 国产91av在线免费观看| 日本三级黄在线观看| 日本欧美国产在线视频| 日韩成人av中文字幕在线观看| 91精品一卡2卡3卡4卡| 亚洲一级一片aⅴ在线观看| 日韩强制内射视频| 欧美一级a爱片免费观看看| 性色avwww在线观看| 观看美女的网站| 欧美xxⅹ黑人| 久久久久久久亚洲中文字幕| 最近2019中文字幕mv第一页| 在线观看人妻少妇| 久久精品综合一区二区三区| 最近中文字幕2019免费版| 亚洲最大成人手机在线| 日韩av免费高清视频| 亚洲欧洲国产日韩| 97人妻精品一区二区三区麻豆| 免费观看a级毛片全部| 秋霞在线观看毛片| ponron亚洲| 最新中文字幕久久久久| 亚洲人成网站在线播| 国产成人精品久久久久久| 秋霞在线观看毛片| 只有这里有精品99| 日韩制服骚丝袜av| 国产高清三级在线| 成人亚洲精品av一区二区| 99久久精品热视频| 日日啪夜夜撸| 日韩亚洲欧美综合| 熟女电影av网| 激情五月婷婷亚洲| 成年人午夜在线观看视频 | 日韩成人av中文字幕在线观看| 精品国产三级普通话版| 免费观看a级毛片全部| 一级av片app| 午夜精品一区二区三区免费看| 少妇被粗大猛烈的视频| 精品久久久久久久人妻蜜臀av| 免费观看性生交大片5| 在线观看一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 亚洲国产日韩欧美精品在线观看| 建设人人有责人人尽责人人享有的 | 亚洲av中文字字幕乱码综合| 极品教师在线视频| 欧美bdsm另类| 日韩国内少妇激情av| 亚洲色图av天堂| av女优亚洲男人天堂| 久久综合国产亚洲精品| 色哟哟·www| av网站免费在线观看视频 | 成人漫画全彩无遮挡| av国产免费在线观看| 午夜免费观看性视频| 七月丁香在线播放| 永久免费av网站大全| 亚洲国产欧美人成| 国产一级毛片七仙女欲春2| 久热久热在线精品观看| 精品久久国产蜜桃| 久久久久久久久久久免费av| 又黄又爽又刺激的免费视频.| 日本wwww免费看| 国产精品一二三区在线看| 色综合站精品国产| 一区二区三区免费毛片| 1000部很黄的大片| 成年免费大片在线观看| 两个人视频免费观看高清| 秋霞伦理黄片| 成人二区视频| 黄片无遮挡物在线观看| 中文在线观看免费www的网站| 亚洲精品国产成人久久av| 国产精品综合久久久久久久免费| 午夜久久久久精精品| 久久久精品免费免费高清| 亚洲av国产av综合av卡| 在线观看一区二区三区| 日韩视频在线欧美| 亚洲精品中文字幕在线视频 | 亚洲人成网站高清观看| 18禁裸乳无遮挡免费网站照片| 久久亚洲国产成人精品v| 国产欧美另类精品又又久久亚洲欧美| 精品不卡国产一区二区三区| 男人狂女人下面高潮的视频| 午夜激情久久久久久久| 久久久久国产网址| 亚洲图色成人| 一级毛片 在线播放| 国产精品一区二区三区四区免费观看| 在线观看一区二区三区| 精品久久久久久成人av| 精品久久国产蜜桃| 99视频精品全部免费 在线| 日本爱情动作片www.在线观看| 亚洲欧美日韩东京热| 欧美成人精品欧美一级黄| 国精品久久久久久国模美| 亚洲国产高清在线一区二区三| av免费观看日本| 中文资源天堂在线| 天堂俺去俺来也www色官网 | 亚洲四区av| 国产欧美另类精品又又久久亚洲欧美| 国产白丝娇喘喷水9色精品| 久久99热6这里只有精品| 国产男女超爽视频在线观看| 三级毛片av免费| 婷婷色麻豆天堂久久| 日韩成人伦理影院| 禁无遮挡网站| 我的女老师完整版在线观看| 国产免费又黄又爽又色| 91在线精品国自产拍蜜月| 国产永久视频网站| 啦啦啦啦在线视频资源| 免费在线观看成人毛片| 最后的刺客免费高清国语| 亚洲欧洲日产国产| 一级二级三级毛片免费看| 日韩成人av中文字幕在线观看| 国产国拍精品亚洲av在线观看| 亚洲精品自拍成人| 晚上一个人看的免费电影| 少妇裸体淫交视频免费看高清| 国产一区二区三区av在线| 一个人看的www免费观看视频| 别揉我奶头 嗯啊视频| 欧美日韩国产mv在线观看视频 | 亚洲无线观看免费| 日韩av免费高清视频| 亚洲成人久久爱视频| 亚洲精品久久久久久婷婷小说| 亚洲av成人精品一区久久| 最近的中文字幕免费完整| 亚洲一级一片aⅴ在线观看| 亚洲最大成人中文| 欧美区成人在线视频| 欧美zozozo另类| 国产高清三级在线| 身体一侧抽搐| 91久久精品国产一区二区成人| 国产黄色视频一区二区在线观看| 国产女主播在线喷水免费视频网站 | 麻豆成人av视频| 亚洲美女视频黄频| 久久久久久久午夜电影| 精品久久久精品久久久| 80岁老熟妇乱子伦牲交| 日本与韩国留学比较| 成年人午夜在线观看视频 | 一级毛片黄色毛片免费观看视频| 日韩一区二区视频免费看| 国产黄色视频一区二区在线观看| 人妻少妇偷人精品九色| 久久精品久久精品一区二区三区| 美女高潮的动态| 亚洲三级黄色毛片| 免费观看无遮挡的男女| 免费高清在线观看视频在线观看| 黄色日韩在线| 中文字幕亚洲精品专区| 欧美3d第一页| 亚洲欧洲国产日韩| 永久免费av网站大全| 免费看日本二区| 一级毛片我不卡| 日本免费在线观看一区| 欧美极品一区二区三区四区| 色视频www国产| 黑人高潮一二区| 国产一级毛片七仙女欲春2| 国产探花在线观看一区二区| 一级爰片在线观看| 97热精品久久久久久| 最近中文字幕高清免费大全6| 国产精品一及| av在线观看视频网站免费| 日韩在线高清观看一区二区三区| 一级毛片 在线播放| 狠狠精品人妻久久久久久综合| 国产精品无大码| 别揉我奶头 嗯啊视频| 麻豆精品久久久久久蜜桃| 亚洲人成网站在线观看播放| 一个人免费在线观看电影| 欧美日韩一区二区视频在线观看视频在线 | 天堂网av新在线| 国产乱来视频区| 女人十人毛片免费观看3o分钟| 国产精品嫩草影院av在线观看| 久久99热这里只有精品18| 亚洲欧美日韩无卡精品| 成人毛片a级毛片在线播放| 肉色欧美久久久久久久蜜桃 | 国产精品精品国产色婷婷| 免费电影在线观看免费观看| 天堂网av新在线| 午夜日本视频在线| 亚洲精品亚洲一区二区| 国产成人福利小说| 波多野结衣巨乳人妻| 久久精品久久久久久噜噜老黄| 国产精品一区二区三区四区久久| av专区在线播放| 午夜福利成人在线免费观看| 国产视频内射| 水蜜桃什么品种好| 青青草视频在线视频观看| av女优亚洲男人天堂| 久久久午夜欧美精品| 国产美女午夜福利| 国产乱人偷精品视频| 观看美女的网站| 91狼人影院| 午夜精品一区二区三区免费看| 国产麻豆成人av免费视频| 成人特级av手机在线观看| 蜜臀久久99精品久久宅男| 噜噜噜噜噜久久久久久91| 亚洲经典国产精华液单| 久久亚洲国产成人精品v| 日本黄色片子视频| 精品一区二区三区视频在线| 亚洲精品久久久久久婷婷小说| 日韩欧美一区视频在线观看 | 青春草视频在线免费观看| 一本久久精品| 日韩av在线大香蕉| 亚洲精品日韩在线中文字幕| 国产黄片美女视频| 国产v大片淫在线免费观看| 永久免费av网站大全| 51国产日韩欧美| 亚洲美女视频黄频| 欧美区成人在线视频| 91精品伊人久久大香线蕉| 精品酒店卫生间| 美女xxoo啪啪120秒动态图| 成人高潮视频无遮挡免费网站| 在线免费十八禁| 美女内射精品一级片tv| 亚洲真实伦在线观看| 国产毛片a区久久久久| 午夜免费观看性视频| 美女cb高潮喷水在线观看| 高清av免费在线| 欧美精品一区二区大全| 亚洲在线观看片| 国产老妇伦熟女老妇高清| 水蜜桃什么品种好| 国产高清有码在线观看视频| 毛片一级片免费看久久久久| 激情 狠狠 欧美| 免费观看a级毛片全部| ponron亚洲| 久久鲁丝午夜福利片| 久久久欧美国产精品| 午夜视频国产福利| 午夜福利成人在线免费观看| 色综合色国产| 全区人妻精品视频| 久久久成人免费电影| 99久久九九国产精品国产免费| 国产午夜精品一二区理论片| 中文字幕av在线有码专区| 日韩国内少妇激情av| 国产精品国产三级国产专区5o| 一个人免费在线观看电影| 日韩欧美三级三区| 国产av国产精品国产| 精品久久久久久久人妻蜜臀av| 国产精品嫩草影院av在线观看| 69人妻影院| 精品一区二区三区视频在线| 一个人免费在线观看电影| 乱人视频在线观看| 一级毛片电影观看| 乱人视频在线观看| 久久99热这里只有精品18| 伦精品一区二区三区| 熟女电影av网| 久久久欧美国产精品| 久久久a久久爽久久v久久| 国产精品久久久久久久久免| 亚洲欧美一区二区三区黑人 | 九色成人免费人妻av| 在线免费观看的www视频| 不卡视频在线观看欧美| 国产黄片美女视频| 日韩伦理黄色片| 成人毛片a级毛片在线播放| 三级国产精品欧美在线观看| 午夜福利高清视频| 久久韩国三级中文字幕| 最近视频中文字幕2019在线8| 亚洲av二区三区四区| av福利片在线观看| 精品不卡国产一区二区三区| 成人性生交大片免费视频hd| 国产精品女同一区二区软件| 日本猛色少妇xxxxx猛交久久| 性色avwww在线观看| 狠狠精品人妻久久久久久综合| 亚洲图色成人| 搡女人真爽免费视频火全软件| 尤物成人国产欧美一区二区三区| 精品久久久噜噜| 国产片特级美女逼逼视频| 69人妻影院| 一本一本综合久久| 亚洲一级一片aⅴ在线观看| 日本黄大片高清| 日本黄色片子视频| 亚洲av免费高清在线观看| 男女国产视频网站| 日本爱情动作片www.在线观看| 国产探花极品一区二区| 夜夜爽夜夜爽视频| 亚洲三级黄色毛片| 日韩伦理黄色片| 欧美成人午夜免费资源| av黄色大香蕉| 美女内射精品一级片tv| 国产伦精品一区二区三区四那| 日本三级黄在线观看| 精品国内亚洲2022精品成人| 国产精品一区二区在线观看99 | 有码 亚洲区| 免费大片18禁| 国产精品一及| 色网站视频免费| 午夜精品一区二区三区免费看| 国产精品久久久久久久久免| 97热精品久久久久久| 日本色播在线视频| 中文资源天堂在线| 亚洲精品日本国产第一区| 国产亚洲一区二区精品| 久久久久久久久久成人| 欧美不卡视频在线免费观看| 免费av观看视频| 一级毛片黄色毛片免费观看视频| 亚洲成人av在线免费| 免费看a级黄色片| 97超碰精品成人国产| 国产欧美日韩精品一区二区| 伊人久久国产一区二区| 午夜免费观看性视频| 成年av动漫网址| 日本熟妇午夜| 两个人的视频大全免费| 免费观看av网站的网址| 国产免费又黄又爽又色| 国产黄色免费在线视频| 夫妻性生交免费视频一级片| 九九爱精品视频在线观看| 欧美丝袜亚洲另类| 三级毛片av免费|