• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于NB和CHI值的農(nóng)業(yè)文本分類方法

    2018-10-11 06:31:04周云成許童羽鄧寒冰
    江蘇農(nóng)業(yè)科學(xué) 2018年17期
    關(guān)鍵詞:特征詞詞條分詞

    周云成, 許童羽, 鄧寒冰

    (沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,遼寧沈陽 100866

    我國在農(nóng)業(yè)信息化發(fā)展過程中建設(shè)了大量的農(nóng)業(yè)信息網(wǎng)站,這些網(wǎng)站能夠?yàn)橛脩籼峁┺r(nóng)業(yè)資訊、技術(shù)等多種類型的信息服務(wù)。但是,由于“最后一公里”和“信息不對稱”等問題[1],嚴(yán)重影響了這些實(shí)際服務(wù)的效果。隨著移動互聯(lián)網(wǎng)的發(fā)展,通過從網(wǎng)站自動抓取農(nóng)業(yè)信息,再個性化地推送到移動用戶端可能成為未來農(nóng)業(yè)信息服務(wù)的主要模式之一。其中,對農(nóng)業(yè)文本信息進(jìn)行良好的分類組織是重要的環(huán)節(jié)。

    樸素貝葉斯(naive Bayes,簡稱NB)是一種常用于分類決策的機(jī)器學(xué)習(xí)方法。NB算法簡單且性能優(yōu)異[2],是文本分類的主要方法之一。袁方等通過人工方式,從標(biāo)題、摘要及關(guān)鍵詞中提取出類別核心詞,采用NB方法對中文文本進(jìn)行分類,并融合類別核心詞的重要程度,提高了分類效果[3]。萬狄飛等結(jié)合NB和遺傳算法,對2類文本進(jìn)行分類,以期提高不可靠區(qū)間的分類效果[4]。金展等采用樸素貝葉斯方法,結(jié)合支持向量機(jī)實(shí)現(xiàn)垃圾短信的過濾[5]。周國強(qiáng)等采用基于類別選擇的方法選取特征詞,研究了NB分類器分類朝鮮語文本的可行性[6]。王晶晶等使用NB方法,在用戶名和微博文本的基礎(chǔ)上對用戶性別進(jìn)行判斷,取得了較高的識別率[7]。王青松等用短語而非詞條作為貝葉斯分類的特征項(xiàng),用于中文垃圾郵件的過濾,結(jié)果表明,以短語為特征項(xiàng)的過濾效果優(yōu)于以詞條為單位的過濾效果[8]?;ヂ?lián)網(wǎng)數(shù)據(jù)正呈幾何級數(shù)增長,針對大數(shù)據(jù)文本的訓(xùn)練和分類,張琳等探討了在Hadoop云計算環(huán)境下基于樸素貝葉斯算法的文本分類器并行化的方法[9-10]。

    文本分類的高維特征會影響分類器的訓(xùn)練和識別性能,通過特征降維可解決該問題,特征篩選是常用的降維方法[2]。特征篩選借助于評價函數(shù)對候選特征進(jìn)行排序,然后選擇若干個評分高的項(xiàng)組成特征向量?;バ畔11]、χ2(Chi-square,簡稱CHI)統(tǒng)計量、信息增益[12]、文檔頻率等都可以作為評價函數(shù)使用。χ2統(tǒng)計方法時間復(fù)雜度低、易于理解,常用于作為特征選取的評價函數(shù)[13~15]。

    目前,針對農(nóng)業(yè)文本進(jìn)行分類的研究相對較少,標(biāo)準(zhǔn)的農(nóng)業(yè)語料庫相對缺乏。本研究從經(jīng)過良好分類的農(nóng)業(yè)信息網(wǎng)站獲取文檔,通過凈化、分詞等預(yù)處理構(gòu)建農(nóng)業(yè)語料庫,提出1種結(jié)合樸素貝葉斯和CHI值特征詞選取的農(nóng)業(yè)文本分類方法,重點(diǎn)研究特征詞數(shù)量、訓(xùn)練樣本數(shù)等對分類識別率的影響,并探討用標(biāo)題進(jìn)行網(wǎng)頁文本分類的可行性。

    1 樸素貝葉斯文本分類方法

    1.1 樣本訓(xùn)練

    對于樣本空間D中的任意文本Di,它屬于類型集合C中的某個類型Cj的概率為P(Cj|Di),則將文本Di劃分為某種類型的問題可轉(zhuǎn)變?yōu)閷ふ易畲蟾怕蕟栴}max[P(Cj|Di)]。尋找max[P(Cj|Di)]的關(guān)鍵是針對每種類型分別計算出P(Cj|Di)。根據(jù)貝葉斯準(zhǔn)則,P(Cj|Di)可通過下式進(jìn)行計算:

    (1)

    式中:P(Di|Cj)表示類型Cj中出現(xiàn)文本Di的先驗(yàn)概率;P(Cj)表示類型Cj的先驗(yàn)概率;P(Di)表示文本Di的先驗(yàn)概率。

    對于給定樣本空間,P(Di)為常數(shù),因此可以通過尋找max[P(Di|Cj)P(Cj)]來代替尋找最大后驗(yàn)概率P(Cj|Di)。只要分別計算出先驗(yàn)概率P(Di|Cj)和P(Cj),問題即可得到求解。在樣本空間D中,每個文本Di的類型為已知。設(shè)樣本數(shù)量為N、類型為Cj的文本數(shù)量為rj,則有P(Cj)=rj/N。

    文本的分類可由文本中出現(xiàn)的關(guān)鍵詞條決定,稱為特征詞。設(shè)由w1,w2,…,wn構(gòu)成樣本空間D的特征詞表,則農(nóng)業(yè)文本Di可用1個n維特征詞向量Di=[w1,w2,…,wn]表示,此時P(Di|Cj)的計算可表示為P(w1,w2,…,wn|Cj)。假設(shè)所有特征詞都互相獨(dú)立,則有:

    (2)

    式中:P(wk|Cj)表示特征詞wk在類型Cj中出現(xiàn)的先驗(yàn)概率,也表示特征詞wk通過類型Cj產(chǎn)生的概率。

    P(wk|Cj)的計算可通過P(wk|Cj)=q/a完成,其中:q表示樣本空間D包含的Cj類型的文本中特征詞wk出現(xiàn)的次數(shù);a表示Cj類型的文本中所有特征詞出現(xiàn)的總次數(shù)。針對每種類型Cj和特征詞wk都可計算出P(wk|Cj)。

    當(dāng)特征詞項(xiàng)和樣本數(shù)量很大時,P(wk|Cj)通常為很小的浮點(diǎn)數(shù),則在計算P(w1|Cj)P(w2|Cj)…P(wn|Cj)乘積時可能由于舍入誤差得到數(shù)字0。對于函數(shù)f(x),與其自然對數(shù)ln[f(x)]有相似的變化規(guī)律。因此,可通過如下公式避免該問題:

    (3)

    式(3)可轉(zhuǎn)換為式(4):

    (4)

    式中:ln[P(Di)]為常數(shù)項(xiàng)。

    只要訓(xùn)練樣本和特征詞選擇合理,通過基于樸素貝葉斯的學(xué)習(xí)方法可從訓(xùn)練樣本中學(xué)習(xí)到足夠的知識,用于對未知類型的文本進(jìn)行分類,P(Cj)和P(wk|Cj)即這種知識的表示形式。

    1.2 文本分類

    對于任何未知類型的文本dx,首先將其表示為n維向量dx=[wck],k=1,2,…,n。其中:wck表示特征詞wk在文檔dx中出現(xiàn)的次數(shù),然后根據(jù)機(jī)器學(xué)習(xí)所獲知識P(Cj)和P(wk|Cj)來計算P(Cj|dx),計算方法可表示為下式:

    (5)

    由于ln[P(dx)]為常數(shù)項(xiàng),對計算結(jié)果的比較不產(chǎn)生作用,因此從式(5)中移除了該項(xiàng)的計算。分別對每種類型的Cj計算ln[P(Cj|dx)],其中計算結(jié)果最大的max[ln(P(Cj|dx)]對應(yīng)的類型即為文本dx可能的分類。

    2 基于CHI值的特征詞提取

    農(nóng)業(yè)文本樣本D中包含大量詞條(稱為候選詞條),但部分詞條對分類貢獻(xiàn)很小,因此需要從大量候選詞條中選擇特征詞,構(gòu)成分類所用的特征詞表。通過選擇特征詞,可大大降低特征詞向量的維數(shù),提高計算速度[13]。本研究采用基于CHI值統(tǒng)計量的特征詞提取方法。

    (6)

    式中:f1表示訓(xùn)練樣本中包含特征詞wk且屬于類型Cj的文本數(shù);f2表示包含wk但不屬于Cj的文本數(shù);f3表示屬于Cj但不包含wk的文本數(shù);f4表示既不是Cj類型又不包含wk的文本數(shù);f=f1+f2+f3+f4,表示訓(xùn)練樣本的文本數(shù)。

    可以針對每種文本類型Cj計算各個候選詞條的CHI,然后按照CHI值的大小排序,并選擇CHI值大的若干詞條作為類型Cj的特征詞集。再合并每種文本類型的特征詞集構(gòu)成并集,并將該并集作為農(nóng)業(yè)文本分類的特征詞表。

    3 語料庫樣本獲取及預(yù)處理

    3.1 樣本獲取

    大部分農(nóng)業(yè)信息網(wǎng)站都按照板塊對網(wǎng)頁進(jìn)行了較好的手工分類。本研究的訓(xùn)練樣本采集自互聯(lián)網(wǎng)上的農(nóng)業(yè)信息網(wǎng)站,選取農(nóng)業(yè)信息網(wǎng)站中常見的4種網(wǎng)頁類型作為分類的目標(biāo)類型,分別是農(nóng)業(yè)資訊、農(nóng)業(yè)技術(shù)、農(nóng)產(chǎn)品市場行情和農(nóng)產(chǎn)品供求信息。利用開源組織Apache的爬蟲工具Nutch對農(nóng)業(yè)信息網(wǎng)站的不同類型網(wǎng)頁進(jìn)行定向抓取。Nutch在網(wǎng)頁抓取過程中能夠?qū)⒕W(wǎng)頁中的HTML標(biāo)記及相關(guān)成分脫去,留下純文本的文檔數(shù)據(jù)。為方便對被抓取文檔的進(jìn)一步處理,通過Nutch的solrindex命令將所抓取的不同類型文檔在Apache的開源搜索引擎Solr的不同核(core)中重建全文索引。每個網(wǎng)頁在Solr中對應(yīng)1個結(jié)構(gòu)化文檔(document),該文檔的結(jié)構(gòu)通??捎萌缡?7)所示的多元組進(jìn)行描述:

    document=(domain,host,url,id,title,content,…)。

    (7)

    式中:domain、host、url分別表示網(wǎng)頁的域名、主機(jī)名、統(tǒng)一資源定位符(URL);id為文檔在Solr中的標(biāo)志,通常與url相同;title為網(wǎng)頁的標(biāo)題;content為脫去HTML相關(guān)標(biāo)記的純文本數(shù)據(jù)。

    通過瀏覽器構(gòu)造查詢條件與Solr交互,可以從Solr中查詢指定類型的文檔集合,并將其導(dǎo)出為XML格式的文件,導(dǎo)出時只保留每個文檔(document)的標(biāo)題(title)和內(nèi)容(content)。通過編寫程序代碼將導(dǎo)出的各個類型的XML文件導(dǎo)入SQL Server數(shù)據(jù)庫表(pagedocs)中,其表結(jié)構(gòu)可用式(8)的三元組描述:

    pagedocs=(title,content,type)。

    (8)

    式中:type表示文檔的類型。

    3.2 手動文本凈化

    每個網(wǎng)頁除了包含其所要表達(dá)的主旨內(nèi)容之外,還有一些附加信息,如廣告、網(wǎng)站導(dǎo)航、描述、腳注等。由于網(wǎng)頁文檔結(jié)構(gòu)設(shè)計具有非常大的隨意性,通過直接分析網(wǎng)頁結(jié)構(gòu)解析出網(wǎng)頁主旨內(nèi)容是非常困難的。本研究采用手動凈化的方式對pagedocs的content進(jìn)行文本凈化,以去除content中除主旨內(nèi)容之外的附加信息。

    3.3 文本分詞

    分詞是實(shí)現(xiàn)文本段落到詞條的轉(zhuǎn)換過程。本研究選用Lucene中的中文分詞工具包smartcn對文本進(jìn)行分詞。Lucene是Apache管理下的重要全文索引項(xiàng)目,該項(xiàng)目采用Java實(shí)現(xiàn)。smartcn工具包能夠?qū)χ形幕蛑杏⒒炫盼谋具M(jìn)行分詞。在將文本轉(zhuǎn)換成詞條集合的過程中,需要完成分詞、去除附加詞等一系列處理過程。Lucene是通過類模塊Analyzer來組織這一過程的。本研究在Analyzer的基礎(chǔ)上派生了1個新的分析類CustomSmartCnAnalyzer,該類按照圖1所示的處理流程實(shí)現(xiàn)文本到詞條集合的轉(zhuǎn)換。

    HMMChineseTokenizer是smartcn包中的分詞器,該分詞器在詞典基礎(chǔ)上使用隱馬爾科夫模型對文本進(jìn)行分詞。經(jīng)HMMChineseTokenizer分詞后形成的詞條集合是一種初始集合,該集合中可能會存在對文本分類不起作用甚至是干擾分類的元素。因此該初始集合還需要進(jìn)行過濾。LowerCaseFilter及接下來的多個過濾器是Lucene分析包中提供的過濾工具。LowerCaseFilter將初始集合中的英文詞條全部轉(zhuǎn)換成小寫格式,避免農(nóng)業(yè)文本中可能出現(xiàn)的英文詞條因大小寫不同而被看作不同的詞條。中英文都存在著修飾句子結(jié)構(gòu)的輔助詞,如中文的“了”和英文的“a”,這些輔助詞對農(nóng)業(yè)文本的分類沒有作用,同時如果輔助詞是文本中的高頻詞,還會干擾分類。因此需要從詞條集合中移除這些輔助詞,這些輔助詞稱為停用詞。StopFilter過濾器可根據(jù)為其配置的停用詞表從輸入詞條集合中過濾掉出現(xiàn)在停用詞表中的詞條。本研究為StopFilter配置的停用詞表參考了ranks.nl發(fā)布的中英文停用詞表[16],并包含中文標(biāo)點(diǎn)符號和常見特殊符號。農(nóng)業(yè)文本中還可能會出現(xiàn)各種數(shù)字,這些數(shù)字多變,含義也各有不同,不能簡單地將其歸為一類。如果在詞條集合中包含數(shù)字,會增加統(tǒng)計樣本的數(shù)量,從而增加計算復(fù)雜度。通常伴隨著數(shù)字的詞條反映了數(shù)字的基本含義,因此詞條集合中的數(shù)字詞條可以移除。首先用DecimalDigitFilter過濾器將任意的Unicode數(shù)字轉(zhuǎn)換成拉丁數(shù)字,然后過濾器PatternReplaceFilter通過使用正則表達(dá)式“^(-?\d+)(\.\d+)?$”,濾掉詞條集合中的數(shù)字。

    利用該分詞方法對pagedocs中的每個文檔的content和title分別進(jìn)行分詞,形成2個詞條集,詞條之間用空白符分隔,并分別存入2個文本文件,每個文檔對應(yīng)1行,每行最后添加該文檔對應(yīng)的分類。將分詞后形成的2個文本文件作為本研究后續(xù)試驗(yàn)的語料庫。

    4 農(nóng)業(yè)文本分類試驗(yàn)與結(jié)果分析

    4.1 試驗(yàn)方法

    采用Python實(shí)現(xiàn)了基于樸素貝葉斯的文本分類器和基于CHI值的特征詞選擇程序。在Lucene基礎(chǔ)上,采用Java語言實(shí)現(xiàn)了中文文本分詞和預(yù)處理程序。按照前文所述的樣本獲取方法分別從中國農(nóng)業(yè)信息網(wǎng)、三農(nóng)信息網(wǎng)和中國惠農(nóng)網(wǎng)等抓取網(wǎng)頁4 002份,其中農(nóng)業(yè)資訊類(設(shè)為C1)1 046份、農(nóng)業(yè)技術(shù)類(設(shè)為C2)1 068份、市場行情類(設(shè)為C3)849份、供求信息類(設(shè)為C4)1 039份。采用手動方式對網(wǎng)頁進(jìn)行了必要的凈化。用中文文本分詞和預(yù)處理工具對凈化后的網(wǎng)頁文本進(jìn)行分詞、過濾停用詞和數(shù)字,生成了content和title 2個語料庫。按照如下步驟進(jìn)行多個農(nóng)業(yè)文本分類試驗(yàn):

    步驟1:從語料庫中隨機(jī)選擇一定比例的樣本作為試驗(yàn)材料;

    步驟2:從試驗(yàn)材料中隨機(jī)選擇80%的文本作為訓(xùn)練集,余下的文本作為測試集,即采用留存交叉驗(yàn)證方法來計算文本分類器的識別準(zhǔn)確率;

    步驟3:使用特征詞選擇程序從訓(xùn)練集中為每類文本類型選擇一定比例(設(shè)為L)的詞條作為特征詞集,各個特征詞集求并,構(gòu)成分類用特征詞表;

    步驟4:以特征詞表、訓(xùn)練集、測試集作為文本分類器的輸入,分類器通過特征詞表和訓(xùn)練集獲取知識,并對測試集進(jìn)行類型識別,然后輸出對測試集的識別結(jié)果和識別的準(zhǔn)確率(測試集中被正確識別的文本數(shù)占測試集文本數(shù)的比例);

    步驟5:采用留存交叉驗(yàn)證的方法重復(fù)步驟2~4若干次(設(shè)為TC),求平均識別準(zhǔn)確率p。

    4.2 結(jié)果與分析

    4.2.1 特征詞分析 以content語料庫中的全部文本為試驗(yàn)材料,由其構(gòu)成的詞集包括22 858個非重復(fù)候選詞條。用特征詞選擇程序分別為content語料庫中的每種類型文本(C1~C4)計算每個候選詞條的CHI值,并按其降序排序。表1是文本類型C1~C4的前10個特征詞。

    表1 每種類型文本的前10個特征詞

    從表1可以看出,針對語料庫中每種類型的農(nóng)業(yè)文本,其CHI值排在前10的特征詞沒有出現(xiàn)交集。設(shè)CWj為文本類型Cj的按CHI值大小排序的候選詞集,CWj=[wjk],j=1,2,3,4;k=1,2,…,n,n為候選詞條數(shù),Ujl為CWj的前l(fā)個元素構(gòu)成的子集,即類型Cj的特征詞集。根據(jù)U1l∩U2l∩U3l∩U4l=?,可求出表示無交集的特征詞集的最大元素數(shù)量l,經(jīng)計算本次試驗(yàn)對應(yīng)的l=167,此處稱Uj167=>Ujm為Cj的無交集特征詞集。設(shè)dj為試驗(yàn)材料中Cj類型的1個文本對應(yīng)的詞向量,do為其他類型的1個文本詞向量,若Ujm∩dj≠?或Ujm∩do≠?,則稱Ujm覆蓋文檔dj或do,覆蓋dj文本的數(shù)量占Cj文本數(shù)量的比例稱為覆蓋率。分別為每個Ujm計算其對該類型文本的覆蓋率和其他類型文本的覆蓋率,計算結(jié)果見表2。

    表2 Ujm對文本的覆蓋率

    從表2可以看出,每個無交集特征詞集Ujm對Cj類型文本的覆蓋率都要明顯高于對其他類型文本的覆蓋率,說明Ujm在Cj類型的文本中出現(xiàn)的概率更高。因此,content語料庫中這4種類型的文本是可分的。

    4.2.2 特征詞數(shù)量對識別率的影響 按照前文試驗(yàn)方法,在步驟1中將content語料庫中的全部文本作為試驗(yàn)材料,在步驟3中分別為每種文本類型Cj從CWj中選取不同比例的詞條作為其特征詞集Ujl(L分別取0.1%、0.2%、0.5%、1%、2%、5%、10%、20%、30%、40%、50%、100%),將各個Ujl求并的結(jié)果作為特征詞表,通過10次(TC=10)留存交叉驗(yàn)證求平均識別準(zhǔn)確率p。按特征詞選擇比例L進(jìn)行多次文本分類識別試驗(yàn)。表3是對測試集和測試集中各類型文本的識別結(jié)果。

    表3 特征詞選擇數(shù)量對識別率的影響

    由表3可以看出,通過結(jié)合樸素貝葉斯和基于CHI值的特征詞選取方法,能夠很好地對語料庫中的4種農(nóng)業(yè)文本進(jìn)行分類識別。從4種類型文本的按CHI值大小排序的候選詞集CWj中選擇較小比例的詞條構(gòu)成特征詞表,就能達(dá)到很高的測試集分類識別率,測試集中各文本類型C1~C4的識別率也都在93%以上。表3數(shù)據(jù)表明,隨著候選詞集選擇比例的增加,特征詞表的元素數(shù)增加,但測試集及各類型文本識別率的變化并不明顯,這說明文本的分類主要由其高CHI值的少量特征詞條決定。另一方面從表3也可以看出,隨著候選詞集選擇比例的增加,文本識別率略有升高,說明按CHI值增加特征詞表元素的數(shù)量并不會對文本識別率造成負(fù)面影響。

    4.2.3 訓(xùn)練樣本數(shù)量對識別率的影響 以content語料庫為分析對象,在步驟1中,從語料庫中分別隨機(jī)選擇5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的文本作為試驗(yàn)材料,在步驟3中,將訓(xùn)練集對應(yīng)的全部候選詞條作為特征詞表(即L=100%),步驟4同樣采用10次留存交叉驗(yàn)證計算平均識別率。按照從語料庫中選擇試驗(yàn)材料的不同比例進(jìn)行多次學(xué)習(xí)和文本分類識別試驗(yàn)。圖2是對測試集中的文本進(jìn)行識別的結(jié)果。

    圖2的試驗(yàn)結(jié)果表明,訓(xùn)練樣本數(shù)量對文本的識別率具有一定影響。當(dāng)訓(xùn)練集樣本數(shù)量達(dá)到600篇以上時,測試集中的文本被正確分類的概率達(dá)到95%以上,當(dāng)再持續(xù)增加訓(xùn)練集樣本數(shù)量時,測試集的識別率沒有明顯變化。訓(xùn)練樣本數(shù)量對測試集中農(nóng)業(yè)資訊類(圖2中C1)文本的識別率具有較大影響,隨著訓(xùn)練樣本數(shù)量的增加,農(nóng)業(yè)資訊類文本被正確分類的概率也逐漸提高,當(dāng)訓(xùn)練集中農(nóng)業(yè)資訊類文本超過500個時,它們被正確分類的概率可達(dá)到95%。這是因?yàn)檗r(nóng)業(yè)資訊類文本通常涉及較多領(lǐng)域,分類器需要從更多的訓(xùn)練樣本中獲取知識。市場行情類(C3)和供求信息類(C4)在不同的訓(xùn)練樣本數(shù)下均具有較高的識別率。因?yàn)镃3或C4類型的文本,其文體通常比較相似,所用詞條相對比較集中。

    4.2.4 利用網(wǎng)頁標(biāo)題識別文本類型 從網(wǎng)頁中提取出文本只需要對html文檔的元素標(biāo)記進(jìn)行解析即可,但直接提取出的文本會包含一些除網(wǎng)頁主題之外的附加信息,這些附加信息會對文本類型的識別產(chǎn)生干擾,甚至完全改變網(wǎng)頁的主題。因此,在對網(wǎng)頁文本進(jìn)行分類之前需要對其進(jìn)行必要的凈化。然而,自動化的凈化方法很難實(shí)現(xiàn),這影響了對網(wǎng)頁文本的分類。通常網(wǎng)頁的title標(biāo)記會描述一個網(wǎng)頁的標(biāo)題,該標(biāo)題通常是網(wǎng)頁主題的高度凝練。網(wǎng)頁的標(biāo)題相對于網(wǎng)頁的主旨文本來說,更易于提取。如果利用網(wǎng)頁標(biāo)題進(jìn)行網(wǎng)頁分類是可行的,將更利于網(wǎng)頁分類。

    按前文試驗(yàn)方法,以title語料庫為分析對象。在步驟1中,分別隨機(jī)選擇語料庫中5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的文本作為試驗(yàn)材料。網(wǎng)頁的標(biāo)題文本相對較短,由其構(gòu)成的title語料庫包含5 248個非重復(fù)候選詞條,數(shù)量較少,因此在步驟3中,將訓(xùn)練集的全部候選詞條作為特征詞表,即L=100%。采用10次留存交叉驗(yàn)證計算平均識別率。

    從試驗(yàn)結(jié)果可以看出,當(dāng)訓(xùn)練樣本數(shù)超過600個時,對測試集進(jìn)行分類的識別率可以達(dá)到95%左右(圖3),這說明采用網(wǎng)頁標(biāo)題對采集自網(wǎng)絡(luò)的文本進(jìn)行分類是可行的。其中,農(nóng)業(yè)資訊類(C1)的識別率較低,但當(dāng)訓(xùn)練樣本中農(nóng)業(yè)資訊類文本達(dá)到150個以上時,C1被正確識別的概率仍在85%以上。另外,利用網(wǎng)頁標(biāo)題,農(nóng)業(yè)技術(shù)類(C2)、市場行情類(C3)和供求信息類(C4)都有非常高的識別率。

    5 結(jié)語

    本研究采用樸素貝葉斯方法對農(nóng)業(yè)文本進(jìn)行分類,同時通過詞條的CHI值計算來選擇分類過程中所使用的特征詞表,并用Python實(shí)現(xiàn)了文本分類器和特征詞選擇程序。利用Nutch從多個農(nóng)業(yè)信息網(wǎng)站采集了已被良好分類的4種網(wǎng)頁,通過對網(wǎng)頁進(jìn)行重建索引、手動文本凈化等預(yù)處理形成純凈農(nóng)業(yè)文檔,在Lucene的中文分詞工具包smartcn基礎(chǔ)上,通過Java實(shí)現(xiàn)了分詞工具,對農(nóng)業(yè)文本進(jìn)行分詞處理,創(chuàng)建了涵蓋農(nóng)業(yè)咨詢、農(nóng)業(yè)技術(shù)、市場行情、供求信息的農(nóng)業(yè)文本語料庫。在該語料庫的基礎(chǔ)上,利用文本分類器和特征詞選擇程序進(jìn)行了多種文本分類試驗(yàn)。

    結(jié)果表明,通過結(jié)合樸素貝葉斯和基于CHI值的特征詞選取方法能夠很好地對農(nóng)業(yè)文本進(jìn)行分類,識別率較高;文本分類的正確率主要由CHI值較高的少量特征詞條決定,但按CHI值降序增加特征詞條的數(shù)量不會對文本識別率造成負(fù)面影響;訓(xùn)練樣本數(shù)量對文本分類的正確率具有一定影響,為了達(dá)到較高的識別率,訓(xùn)練樣本需要達(dá)到一定數(shù)量,然后持續(xù)增加樣本量,對識別率沒有明顯貢獻(xiàn);利用網(wǎng)頁標(biāo)題對采集自網(wǎng)絡(luò)的農(nóng)業(yè)文本進(jìn)行分類是可行的。

    猜你喜歡
    特征詞詞條分詞
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    值得重視的分詞的特殊用法
    2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
    2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
    2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
    面向文本分類的特征詞選取方法研究與改進(jìn)
    大數(shù)據(jù)相關(guān)詞條
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    男人舔女人下体高潮全视频| 香蕉丝袜av| 一区二区三区激情视频| 一边摸一边做爽爽视频免费| 老汉色∧v一级毛片| 97碰自拍视频| 国产亚洲精品第一综合不卡| 久久精品91蜜桃| 成人av一区二区三区在线看| 自线自在国产av| 日韩欧美国产一区二区入口| 免费看a级黄色片| 亚洲美女黄片视频| 久久久久久免费高清国产稀缺| 欧美日韩国产mv在线观看视频| 国产激情久久老熟女| 午夜久久久在线观看| 两性夫妻黄色片| 熟女少妇亚洲综合色aaa.| 韩国av一区二区三区四区| 一进一出抽搐gif免费好疼 | 桃色一区二区三区在线观看| 人人妻人人添人人爽欧美一区卜| 99久久99久久久精品蜜桃| 国产精品一区二区精品视频观看| 免费在线观看影片大全网站| 日韩精品青青久久久久久| 午夜福利影视在线免费观看| 一进一出抽搐gif免费好疼 | av有码第一页| 久久亚洲精品不卡| 亚洲精品一二三| 天天躁夜夜躁狠狠躁躁| 黄色 视频免费看| 美女 人体艺术 gogo| 免费观看人在逋| 在线看a的网站| 在线av久久热| 国产伦一二天堂av在线观看| 男女午夜视频在线观看| 18禁美女被吸乳视频| 99久久精品国产亚洲精品| 国产成人免费无遮挡视频| 黄色 视频免费看| 天堂√8在线中文| 这个男人来自地球电影免费观看| 亚洲情色 制服丝袜| 黄色成人免费大全| 欧美午夜高清在线| 国产av又大| 久久久久久久久免费视频了| 日韩免费av在线播放| 国产一区二区三区综合在线观看| 久久久精品国产亚洲av高清涩受| 国产成人精品久久二区二区免费| 午夜免费成人在线视频| 精品一品国产午夜福利视频| 亚洲狠狠婷婷综合久久图片| 97超级碰碰碰精品色视频在线观看| 91在线观看av| 神马国产精品三级电影在线观看 | 国产aⅴ精品一区二区三区波| 一夜夜www| 制服人妻中文乱码| 亚洲精品国产一区二区精华液| 成人18禁在线播放| 午夜老司机福利片| 成人亚洲精品一区在线观看| 亚洲男人天堂网一区| 黑丝袜美女国产一区| 69精品国产乱码久久久| 好看av亚洲va欧美ⅴa在| 大型黄色视频在线免费观看| 国产精品日韩av在线免费观看 | 亚洲一区高清亚洲精品| 老熟妇乱子伦视频在线观看| av欧美777| 欧美在线一区亚洲| 欧美久久黑人一区二区| 超碰97精品在线观看| 欧美黑人欧美精品刺激| 超碰成人久久| 欧美在线黄色| av超薄肉色丝袜交足视频| 国产片内射在线| 成人影院久久| 日日摸夜夜添夜夜添小说| 69精品国产乱码久久久| 一区二区三区精品91| 一边摸一边抽搐一进一小说| 少妇被粗大的猛进出69影院| 免费搜索国产男女视频| 人人澡人人妻人| 亚洲成人免费电影在线观看| 成人免费观看视频高清| 老司机午夜福利在线观看视频| 欧美精品啪啪一区二区三区| 久久精品国产亚洲av香蕉五月| 91av网站免费观看| 久久久久精品国产欧美久久久| 97人妻天天添夜夜摸| 午夜福利欧美成人| 久久久久久久精品吃奶| 夫妻午夜视频| 纯流量卡能插随身wifi吗| 亚洲av日韩精品久久久久久密| 别揉我奶头~嗯~啊~动态视频| 人人妻人人添人人爽欧美一区卜| 人人妻,人人澡人人爽秒播| 国内毛片毛片毛片毛片毛片| 国内久久婷婷六月综合欲色啪| 久久香蕉精品热| 亚洲精品美女久久久久99蜜臀| 午夜福利在线观看吧| 国产精品 欧美亚洲| 精品少妇一区二区三区视频日本电影| 长腿黑丝高跟| av片东京热男人的天堂| 女性被躁到高潮视频| 亚洲精品久久成人aⅴ小说| 老鸭窝网址在线观看| 国产高清videossex| 欧美成人午夜精品| 视频区欧美日本亚洲| 久久久精品国产亚洲av高清涩受| 亚洲av五月六月丁香网| 亚洲久久久国产精品| 一区在线观看完整版| 黄色毛片三级朝国网站| 国产又色又爽无遮挡免费看| 一区二区三区精品91| 黄色毛片三级朝国网站| 日韩欧美一区视频在线观看| 无人区码免费观看不卡| 中文字幕精品免费在线观看视频| 久久国产精品男人的天堂亚洲| 涩涩av久久男人的天堂| 国产无遮挡羞羞视频在线观看| 日本黄色视频三级网站网址| 国产不卡一卡二| 国产精品自产拍在线观看55亚洲| 欧美日韩视频精品一区| 久久伊人香网站| 色婷婷久久久亚洲欧美| 精品人妻1区二区| 亚洲精品粉嫩美女一区| 午夜免费激情av| 校园春色视频在线观看| 免费在线观看黄色视频的| 久久国产精品男人的天堂亚洲| 99精国产麻豆久久婷婷| 亚洲一卡2卡3卡4卡5卡精品中文| 黄色丝袜av网址大全| 亚洲一区中文字幕在线| 亚洲精品在线观看二区| 亚洲精品美女久久av网站| 又大又爽又粗| 大码成人一级视频| 91精品国产国语对白视频| 在线观看www视频免费| 日韩成人在线观看一区二区三区| 亚洲视频免费观看视频| 国产伦人伦偷精品视频| 99热国产这里只有精品6| 成人18禁在线播放| 9191精品国产免费久久| 老司机在亚洲福利影院| 日本黄色视频三级网站网址| 国产一区在线观看成人免费| 久久久精品欧美日韩精品| 亚洲第一欧美日韩一区二区三区| 久久精品亚洲熟妇少妇任你| 一级黄色大片毛片| 午夜福利在线免费观看网站| 久久久久精品国产欧美久久久| 三上悠亚av全集在线观看| 日日干狠狠操夜夜爽| 国产高清国产精品国产三级| 日本五十路高清| 人成视频在线观看免费观看| 久久国产亚洲av麻豆专区| 成人三级黄色视频| 亚洲色图 男人天堂 中文字幕| 色播在线永久视频| 美女高潮喷水抽搐中文字幕| 女人被狂操c到高潮| 一级a爱视频在线免费观看| 国产一区二区三区综合在线观看| 久久伊人香网站| 国产高清视频在线播放一区| 欧美成人性av电影在线观看| 精品久久久久久久久久免费视频 | 亚洲精华国产精华精| 亚洲精品av麻豆狂野| 亚洲国产毛片av蜜桃av| 日韩有码中文字幕| 一级黄色大片毛片| 51午夜福利影视在线观看| 制服人妻中文乱码| 色在线成人网| 操出白浆在线播放| 亚洲专区国产一区二区| 性色av乱码一区二区三区2| 亚洲欧洲精品一区二区精品久久久| 女人被躁到高潮嗷嗷叫费观| 国产精品 国内视频| 国产精品电影一区二区三区| 激情在线观看视频在线高清| 午夜免费观看网址| 国产成人精品无人区| 国产在线精品亚洲第一网站| 国产真人三级小视频在线观看| 国产黄色免费在线视频| 国产97色在线日韩免费| 国产欧美日韩一区二区精品| 日韩高清综合在线| 后天国语完整版免费观看| 亚洲第一欧美日韩一区二区三区| 亚洲欧美激情综合另类| 国产精品一区二区免费欧美| 亚洲色图av天堂| 黄色 视频免费看| 免费av毛片视频| 电影成人av| 国产单亲对白刺激| 久久久久久久久中文| 91成人精品电影| 国产黄色免费在线视频| 亚洲一区二区三区不卡视频| 深夜精品福利| 老司机午夜福利在线观看视频| 久久婷婷成人综合色麻豆| 国产亚洲精品久久久久5区| 丰满迷人的少妇在线观看| 最好的美女福利视频网| 99热国产这里只有精品6| 国产精品98久久久久久宅男小说| 18禁美女被吸乳视频| 日日夜夜操网爽| 国产又色又爽无遮挡免费看| 亚洲一区高清亚洲精品| 12—13女人毛片做爰片一| 国产精品久久久久久人妻精品电影| 正在播放国产对白刺激| 国产一区在线观看成人免费| 国产区一区二久久| 少妇粗大呻吟视频| 久久久久九九精品影院| 岛国在线观看网站| 免费女性裸体啪啪无遮挡网站| 脱女人内裤的视频| 黄色女人牲交| 精品午夜福利视频在线观看一区| 神马国产精品三级电影在线观看 | 999久久久精品免费观看国产| 精品久久久久久久毛片微露脸| 最新美女视频免费是黄的| 久久人人精品亚洲av| 制服诱惑二区| 久久国产精品影院| 精品国产乱码久久久久久男人| 久久青草综合色| 亚洲国产看品久久| 成年女人毛片免费观看观看9| 欧美一区二区精品小视频在线| 电影成人av| av电影中文网址| 中文字幕人妻丝袜一区二区| 久久久久精品国产欧美久久久| 日韩成人在线观看一区二区三区| 性少妇av在线| 精品电影一区二区在线| 亚洲人成电影观看| 色老头精品视频在线观看| 国产黄a三级三级三级人| 亚洲av美国av| 久久狼人影院| 可以免费在线观看a视频的电影网站| 亚洲国产欧美日韩在线播放| 久久九九热精品免费| 欧美日韩精品网址| 黄频高清免费视频| 人妻丰满熟妇av一区二区三区| 一区福利在线观看| 免费在线观看亚洲国产| 韩国精品一区二区三区| 99riav亚洲国产免费| 女性被躁到高潮视频| 嫩草影院精品99| 国产成人av激情在线播放| 午夜福利欧美成人| 老司机福利观看| 国产男靠女视频免费网站| 亚洲色图 男人天堂 中文字幕| av免费在线观看网站| 丝袜美腿诱惑在线| 香蕉久久夜色| 免费高清在线观看日韩| 国产激情欧美一区二区| 午夜福利一区二区在线看| 国产精品亚洲av一区麻豆| 国产高清视频在线播放一区| 一级作爱视频免费观看| 国产无遮挡羞羞视频在线观看| 1024视频免费在线观看| 一级a爱视频在线免费观看| 18禁美女被吸乳视频| 亚洲午夜理论影院| videosex国产| 久久 成人 亚洲| 18禁国产床啪视频网站| 在线播放国产精品三级| 精品人妻在线不人妻| 国产单亲对白刺激| 丁香欧美五月| 欧美中文日本在线观看视频| 亚洲少妇的诱惑av| av片东京热男人的天堂| 国产野战对白在线观看| 日本撒尿小便嘘嘘汇集6| 免费在线观看影片大全网站| 久久香蕉激情| 丰满饥渴人妻一区二区三| 国产精品久久视频播放| 麻豆成人av在线观看| 久久99一区二区三区| 久久精品亚洲精品国产色婷小说| 黑丝袜美女国产一区| 91精品国产国语对白视频| 国产欧美日韩精品亚洲av| 级片在线观看| 国产欧美日韩一区二区三| 欧洲精品卡2卡3卡4卡5卡区| 日韩精品免费视频一区二区三区| 18禁黄网站禁片午夜丰满| 超碰成人久久| 婷婷丁香在线五月| 国产精品一区二区免费欧美| 午夜精品国产一区二区电影| 97碰自拍视频| 深夜精品福利| 高清毛片免费观看视频网站 | 91精品国产国语对白视频| 久久欧美精品欧美久久欧美| av在线天堂中文字幕 | 新久久久久国产一级毛片| 操出白浆在线播放| 国产深夜福利视频在线观看| 精品国产一区二区久久| 亚洲精品在线观看二区| 国产精品亚洲av一区麻豆| 新久久久久国产一级毛片| 很黄的视频免费| 日韩精品青青久久久久久| 99热国产这里只有精品6| 女人被躁到高潮嗷嗷叫费观| 国产成人av教育| 天天躁夜夜躁狠狠躁躁| 老司机午夜十八禁免费视频| 波多野结衣高清无吗| 美女 人体艺术 gogo| 欧美+亚洲+日韩+国产| 别揉我奶头~嗯~啊~动态视频| 黄色 视频免费看| 国产xxxxx性猛交| 国产亚洲精品久久久久5区| 黑人猛操日本美女一级片| 身体一侧抽搐| 欧美激情高清一区二区三区| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲熟女毛片儿| 欧美国产精品va在线观看不卡| 午夜久久久在线观看| 水蜜桃什么品种好| 村上凉子中文字幕在线| 欧美成狂野欧美在线观看| 午夜91福利影院| 久久中文看片网| 精品日产1卡2卡| 人人妻,人人澡人人爽秒播| 麻豆国产av国片精品| 国产精品一区二区精品视频观看| 亚洲av电影在线进入| 亚洲在线自拍视频| 国产xxxxx性猛交| 热99re8久久精品国产| www日本在线高清视频| 国产成人精品在线电影| 国产aⅴ精品一区二区三区波| 国产av在哪里看| 日韩有码中文字幕| 国产伦人伦偷精品视频| 50天的宝宝边吃奶边哭怎么回事| 搡老岳熟女国产| 99香蕉大伊视频| 搡老熟女国产l中国老女人| 在线观看免费视频网站a站| 两性夫妻黄色片| 亚洲av片天天在线观看| 美女大奶头视频| 99riav亚洲国产免费| 黑人操中国人逼视频| 他把我摸到了高潮在线观看| 老司机午夜十八禁免费视频| 国产成人系列免费观看| 校园春色视频在线观看| 欧美老熟妇乱子伦牲交| 人人妻人人添人人爽欧美一区卜| 视频区欧美日本亚洲| 搡老熟女国产l中国老女人| 精品免费久久久久久久清纯| 一二三四在线观看免费中文在| 高清毛片免费观看视频网站 | www.999成人在线观看| 日日爽夜夜爽网站| 久久中文字幕一级| 欧美日韩瑟瑟在线播放| 日韩人妻精品一区2区三区| 国产亚洲精品久久久久久毛片| 免费看十八禁软件| 亚洲国产欧美日韩在线播放| 日本vs欧美在线观看视频| 亚洲少妇的诱惑av| 美女扒开内裤让男人捅视频| 久久精品国产清高在天天线| 夜夜躁狠狠躁天天躁| 国产亚洲欧美在线一区二区| 亚洲av片天天在线观看| 大型av网站在线播放| 黑人巨大精品欧美一区二区mp4| 久久久久九九精品影院| 亚洲av五月六月丁香网| 亚洲国产精品一区二区三区在线| 可以在线观看毛片的网站| 国产在线观看jvid| tocl精华| 国产精品免费视频内射| 久久久精品欧美日韩精品| 亚洲欧洲精品一区二区精品久久久| 欧美黑人精品巨大| 成人三级做爰电影| 在线观看一区二区三区| 久久草成人影院| 国产精品98久久久久久宅男小说| 嫁个100分男人电影在线观看| 成人永久免费在线观看视频| 久久香蕉国产精品| 久久午夜综合久久蜜桃| 美女大奶头视频| 久久草成人影院| 亚洲国产毛片av蜜桃av| 国产精品亚洲av一区麻豆| 久久久久国产精品人妻aⅴ院| 成人亚洲精品一区在线观看| 黄片播放在线免费| 国产av一区二区精品久久| 欧美黄色淫秽网站| 伊人久久大香线蕉亚洲五| 欧美日韩福利视频一区二区| 男人舔女人的私密视频| 久久九九热精品免费| 久久久久久免费高清国产稀缺| 成年人黄色毛片网站| 亚洲精品中文字幕在线视频| 欧美精品一区二区免费开放| 侵犯人妻中文字幕一二三四区| 日日干狠狠操夜夜爽| 又黄又粗又硬又大视频| 午夜福利在线免费观看网站| 精品久久蜜臀av无| 成人国产一区最新在线观看| 大香蕉久久成人网| 水蜜桃什么品种好| 免费人成视频x8x8入口观看| 热99re8久久精品国产| 精品一区二区三区av网在线观看| 男女下面进入的视频免费午夜 | 欧美日韩瑟瑟在线播放| 中文字幕人妻丝袜制服| 色播在线永久视频| 视频区欧美日本亚洲| 国产亚洲精品综合一区在线观看 | 精品久久蜜臀av无| 亚洲av第一区精品v没综合| 免费观看精品视频网站| 一二三四社区在线视频社区8| 最新美女视频免费是黄的| 成人国产一区最新在线观看| 国产不卡一卡二| 夜夜夜夜夜久久久久| 国产成人欧美| 国产精品偷伦视频观看了| bbb黄色大片| 精品一区二区三区视频在线观看免费 | 色综合婷婷激情| 美女大奶头视频| 亚洲avbb在线观看| 精品人妻在线不人妻| 最近最新中文字幕大全电影3 | 午夜免费鲁丝| 日本精品一区二区三区蜜桃| 在线播放国产精品三级| 80岁老熟妇乱子伦牲交| 天堂影院成人在线观看| 午夜福利,免费看| 最新美女视频免费是黄的| 亚洲熟妇中文字幕五十中出 | 美女高潮喷水抽搐中文字幕| 老司机靠b影院| 大型av网站在线播放| 国产精品国产高清国产av| 中文字幕人妻丝袜制服| 久久精品国产综合久久久| av欧美777| av网站在线播放免费| 国产不卡一卡二| 亚洲男人的天堂狠狠| 一a级毛片在线观看| 精品久久久久久成人av| 99re在线观看精品视频| 大码成人一级视频| 巨乳人妻的诱惑在线观看| svipshipincom国产片| 亚洲熟妇熟女久久| 不卡av一区二区三区| 香蕉国产在线看| 天天躁狠狠躁夜夜躁狠狠躁| 制服人妻中文乱码| 亚洲九九香蕉| 一级a爱视频在线免费观看| 99久久国产精品久久久| 少妇被粗大的猛进出69影院| 99久久99久久久精品蜜桃| 1024视频免费在线观看| 午夜免费成人在线视频| 国产aⅴ精品一区二区三区波| 黄色视频,在线免费观看| 欧美成人午夜精品| 美女 人体艺术 gogo| 国产免费av片在线观看野外av| 看黄色毛片网站| 亚洲七黄色美女视频| 999久久久精品免费观看国产| 少妇的丰满在线观看| 91精品三级在线观看| 国产精品久久久久成人av| 欧美日韩视频精品一区| 午夜福利欧美成人| 看片在线看免费视频| 交换朋友夫妻互换小说| 丰满饥渴人妻一区二区三| 中文字幕色久视频| 天堂动漫精品| 激情在线观看视频在线高清| 真人一进一出gif抽搐免费| 久久久国产欧美日韩av| 高潮久久久久久久久久久不卡| 久久99一区二区三区| 国产欧美日韩一区二区三区在线| 久久久国产一区二区| 五月开心婷婷网| 曰老女人黄片| 国产欧美日韩综合在线一区二区| 在线观看免费视频网站a站| 日韩大尺度精品在线看网址 | 欧美日韩视频精品一区| 一a级毛片在线观看| 一级毛片高清免费大全| 日韩高清综合在线| 日韩成人在线观看一区二区三区| xxxhd国产人妻xxx| 免费搜索国产男女视频| 亚洲精品在线观看二区| 久久久久久久久免费视频了| 高清黄色对白视频在线免费看| 999久久久国产精品视频| 人妻久久中文字幕网| 黄色视频不卡| 老司机在亚洲福利影院| 性少妇av在线| 99国产精品免费福利视频| 久久精品亚洲熟妇少妇任你| 一进一出抽搐动态| a级片在线免费高清观看视频| 亚洲国产欧美网| 18禁裸乳无遮挡免费网站照片 | 十八禁网站免费在线| 午夜91福利影院| 两性夫妻黄色片| 午夜福利欧美成人| 精品卡一卡二卡四卡免费| 日本免费a在线| 纯流量卡能插随身wifi吗| www.精华液| 久久中文字幕人妻熟女| 999精品在线视频| 精品午夜福利视频在线观看一区| 色综合站精品国产| 欧美不卡视频在线免费观看 | 巨乳人妻的诱惑在线观看| 欧美成人免费av一区二区三区| 亚洲第一青青草原| 搡老乐熟女国产| 在线天堂中文资源库| 色播在线永久视频| 99国产精品一区二区蜜桃av| 无限看片的www在线观看| 国产精品 国内视频| 亚洲精品国产区一区二| 无人区码免费观看不卡| 国产xxxxx性猛交| 黑人欧美特级aaaaaa片| 亚洲精品粉嫩美女一区| 亚洲自偷自拍图片 自拍| 久久久久久久久久久久大奶|