• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞向量及術(shù)語(yǔ)關(guān)系抽取方法的文本分類方法

    2018-07-30 08:47:28侯慶霖
    移動(dòng)通信 2018年7期
    關(guān)鍵詞:特征詞卡方術(shù)語(yǔ)

    侯慶霖

    (廣州杰賽科技股份有限公司,廣東 廣州 510310)

    1 引言

    文本分類經(jīng)歷了基于知識(shí)工程向機(jī)器學(xué)習(xí)方法轉(zhuǎn)變的歷程[1]。以知識(shí)工程為主的文本分類算法由于其可移植性和通用性較差,逐漸被機(jī)器學(xué)習(xí)方法所取代。用于文本分類的機(jī)器學(xué)習(xí)方法有:向量機(jī)[2]、神經(jīng)網(wǎng)絡(luò)[3]、貝葉斯[4]及K近鄰[5]等算法,這些算法都在文本分類的領(lǐng)域具有較好的性能。機(jī)器學(xué)習(xí)方法的文本分類研究主要由3方面構(gòu)成:文本表示、空間維度約減以及文本分類器[6]。作為文本分類基礎(chǔ)的文本表示(也稱為特征表示或者特征選擇)是文本分類好壞的基礎(chǔ),成為了當(dāng)前最熱門的研究課題。文本的特征學(xué)習(xí)技術(shù)在21世紀(jì)以來得到廣泛的關(guān)注,詞的分布表示最早由Hinton提出,實(shí)質(zhì)上是將每一個(gè)詞映射成k維實(shí)數(shù)向量[7]。在2013年,谷歌將連續(xù)詞袋的Skip——Gram模型進(jìn)行擴(kuò)展,開源了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的Woed2vec詞向量學(xué)習(xí)工具,這是自然語(yǔ)言處理歷史上一次重大的變革。但是由于中文文本本身具有近義詞和同義詞數(shù)量眾多的特點(diǎn),單純的詞向量模型已經(jīng)無法滿足文檔的特征表示,因此文本將神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的向量空間模型與卡方檢驗(yàn)算法結(jié)合,形成基于詞向量的文本特征選擇方法,彌補(bǔ)了使用卡方檢驗(yàn)中存在的特征詞“不完備”的特點(diǎn)。考慮到選取的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,本文對(duì)擴(kuò)充后特征詞集合構(gòu)建候選術(shù)語(yǔ)網(wǎng)絡(luò);然后根據(jù)特征詞向量的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度;最后,采用詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的特征詞抽取方法。

    2 相關(guān)研究

    2.1 特征表示

    特征表示是基于某種評(píng)價(jià)標(biāo)準(zhǔn),對(duì)文本中的特征項(xiàng)進(jìn)行評(píng)估,并對(duì)每一個(gè)特征進(jìn)行評(píng)分,按照分?jǐn)?shù)進(jìn)行排序,選擇Top N特征項(xiàng)作為文本表示的特征集合。因此,針對(duì)中文的特征表示分為3步:

    (1)采用中文分詞工具對(duì)文本進(jìn)行分詞,分詞后的結(jié)果作為原始特征集合;

    (2)通過某種評(píng)估方法計(jì)算每一個(gè)詞語(yǔ)的特征值(權(quán)值),并按照特征值進(jìn)行排序;

    (3)選取若干個(gè)最能代表文本內(nèi)容的特征詞,形成文本的最優(yōu)特征集合。

    顯然,不同的特征表示函數(shù)決定了文本分類效果的好壞,下面對(duì)常見的幾種特征函數(shù)進(jìn)行介紹。

    (1)卡方檢驗(yàn)

    卡方檢驗(yàn)(CHI)是數(shù)理統(tǒng)計(jì)中用來檢查兩個(gè)變量之間獨(dú)立性的一種假設(shè)檢驗(yàn)方法[8]。卡方檢驗(yàn)的假設(shè)是樣本具有獨(dú)立性,樣本的分布遵循卡方分布,通過樣本的實(shí)際觀察值與理論推斷值的偏差來決定卡方檢驗(yàn)之的大小,如果χ2值越大,說明兩者之間的偏差程度越大,待分類文本類別越不可能與語(yǔ)料庫(kù)的分類一致;同理,χ2值越小,說明兩者越趨于相同,待分類文本類別越有可能與語(yǔ)料庫(kù)的類別一致??ǚ綑z驗(yàn)用于文本特征表示方法時(shí),假設(shè)特征詞t與類別ci之間符合卡方(χ2)分布,則特征詞t對(duì)于類別ci的卡方值為:

    其中,A表示某一個(gè)類別包含該特征詞t的文檔總數(shù)量;B表示在某一個(gè)類別中,排除該類別后其他類別包含該特征詞t的文檔的數(shù)量;C表示某一個(gè)類別不包含該特征詞t的文檔總數(shù)量;D表示在某一個(gè)類別中,排除該類別后其他類別也不包含該特征詞t的文檔的數(shù)量。從上述公式可知,χ2(t,c)=0時(shí),表示該特征詞t不包含與文本類別相關(guān)的鑒別信息,反之亦然。本文的方法是借助卡方檢驗(yàn)選出若干個(gè)與文本類別有最強(qiáng)相關(guān)性的特征項(xiàng)即可,因此不需要設(shè)置任何閾值。

    (2)互信息

    互信息(MI, Mutual Information)用來度量?jī)蓚€(gè)對(duì)象之間的相互性,也即一個(gè)隨機(jī)變量包含的另一個(gè)隨機(jī)變量的信息量?;バ畔⑼ǔS脕碜鳛樘卣髟~和類別之間的相關(guān)性度量的標(biāo)準(zhǔn),如果某個(gè)特征詞t屬于某一個(gè)類別的話,那么特征詞t和類別ci的互信息量會(huì)最大。則特征詞t對(duì)于類別ci的互信息計(jì)算公式為:

    p(t, ci)表示訓(xùn)練集中包含特征詞t又屬類別ci的概率,P(t)表示包含特征詞t的文本在訓(xùn)練集中出現(xiàn)的概率,p(ci)表示類別ci在訓(xùn)練集中出現(xiàn)的概率。根據(jù)上述的公式,如果該特征詞t在類別ci中出現(xiàn)的頻率越高,而在其他類別中出現(xiàn)的頻率越低,那么特征詞t與類別ci的相關(guān)性越大,特征詞t越有可能屬于類別ci。由于互信息僅僅考慮特征詞在每一個(gè)文本中是否出現(xiàn),而沒有考慮其在文本中出現(xiàn)的次數(shù),因此,在同等條件概率下,稀有詞將高于常用詞的MI值,因此其在文本分類中效果不佳。

    (3)文檔頻率法

    文檔頻率法(TF-IDF, Term Frequency–Inverse Document Frequency)用來評(píng)估特征詞t對(duì)于某一個(gè)類別ci的重要程度。TF-IDF的主要思想是:如果某個(gè)特征詞ti在某一類別cj出現(xiàn)的頻率TF高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來做類別分類。其公式為:

    tfij表示特征詞的詞頻,nij表示特征詞ti在類別cj中出現(xiàn)的次數(shù),而分母是該類別中所有詞語(yǔ)的出現(xiàn)次數(shù)總和。

    idfi表示逆文檔頻率, |{j: ti∈ cj}|表示包含該特征詞ti的文件總數(shù),|D|表示語(yǔ)料庫(kù)中的文件總數(shù)。

    TF-IDF實(shí)際上是tf × idf,tf表示特征詞在類別cj中出現(xiàn)的頻率。idf的主要思想是:如果包含特征詞t的文檔越少,idf越大,則說明特征詞t具有很好的類別區(qū)分能力。

    相關(guān)研究證明,卡方檢驗(yàn)算法在存在類別交叉現(xiàn)象明顯的文本分類中表現(xiàn)出高于其他算法的分類性能,但是由于卡方分類算法不考慮詞頻信息,因此過于倚重低頻詞,不利于文本特征的真實(shí)表示。同理,互信息也是由于沒有考慮特征項(xiàng)的詞頻信息,出現(xiàn)傾向于選擇低頻詞的特點(diǎn)。而文檔頻率法則過于關(guān)注詞頻信息,容易誤刪稀有詞。

    2.2 詞向量

    詞向量的思想是將一個(gè)詞語(yǔ)采用低維的實(shí)數(shù)向量來表示。詞向量與語(yǔ)言模型有著密不可分的關(guān)系,目前常見的語(yǔ)言模型包括統(tǒng)計(jì)語(yǔ)言模型、n-gram模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型等。2013年谷歌公司開源出來的詞向量工具是基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行訓(xùn)練的,其詞向量具有優(yōu)良的特性:包含詞語(yǔ)的語(yǔ)義信息可用于同義詞、聚類或者詞性的分析;向量的組合運(yùn)算能夠發(fā)現(xiàn)向量的共同特征。

    2.3 基于詞向量和卡方檢驗(yàn)相結(jié)合的特征詞選取方法

    開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示,考慮了詞語(yǔ)之間的語(yǔ)義關(guān)系的特點(diǎn),而卡方檢驗(yàn)方法則具備分類的穩(wěn)定性能特點(diǎn)。因此,本文考慮了訓(xùn)練數(shù)據(jù)集所包含的具有類別表征能力的詞語(yǔ)具有局限性的特點(diǎn),以及其他文本特征表示算法具有獨(dú)立性的假設(shè)的缺陷,采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的特征詞。具體的步驟為:

    (1)計(jì)算每一個(gè)類別所有詞語(yǔ)的CHI值,并對(duì)其進(jìn)行排序,選取Top N的詞語(yǔ)作為特征詞,得到每一個(gè)類別的特征詞集合。假設(shè)類別編號(hào)為i,wij表示類別i的第j個(gè)特征詞,將所有類別的特征詞進(jìn)行合并,假設(shè)類別總數(shù)為D。即{w11, w12, …, w1N}∪{w21, w22, …,w2N}∪…∪{wD1, wD2, …, wDN},得到合并后的特征詞集合w={w1, w2, …, wd},其中d是合并后的維數(shù),根據(jù)實(shí)際的情況決定。

    (2)利用word2vec訓(xùn)練所有類別詞語(yǔ)的詞向量,利用余弦相似性計(jì)算特征詞集合w中每一個(gè)詞語(yǔ)與其相似的前M個(gè)詞語(yǔ),并將最相似的詞語(yǔ)加進(jìn)原有的特征詞集合中。

    getnearest(wi, M)是利用余弦相似度計(jì)算的與特征詞集合最相似的M個(gè)詞。

    2.4 術(shù)語(yǔ)關(guān)系抽取方法

    以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取相關(guān)領(lǐng)域候選的術(shù)語(yǔ),則有:

    其中,b∈w,w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合;R(a,b)表示在某一個(gè)類別內(nèi),詞語(yǔ)a與特征詞語(yǔ)集合中任意一個(gè)特征詞的相關(guān)性;a表示詞語(yǔ)a的向量,b表示詞語(yǔ)b的向量。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合。如果特征詞a的相關(guān)性與特征詞b的相關(guān)性越高,那么兩者越有可能是某領(lǐng)域中的術(shù)語(yǔ)。

    其中,PMI(a, b)表示特征詞a與特征詞語(yǔ)集合中任意一個(gè)特征詞的點(diǎn)間互信息,P(a&b)表示兩個(gè)特征詞語(yǔ)a與b在某類別共同出現(xiàn)的概率,即a與b共同出現(xiàn)在某類別中的文檔數(shù),P(a)與P(b)分別表示兩個(gè)特征詞單獨(dú)出現(xiàn)的概率,即詞語(yǔ)出現(xiàn)在某一類別的的文檔數(shù)。若兩個(gè)詞語(yǔ)在某類別中共現(xiàn)概率越大,表明其關(guān)聯(lián)度越大;反之,關(guān)聯(lián)度越小。P(a&b)與P(a)P(b)的比值是詞語(yǔ)a與詞語(yǔ)b兩個(gè)詞語(yǔ)的統(tǒng)計(jì)獨(dú)立性度量。

    其中,EL(a, b)表示詞語(yǔ)a的左熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。

    同理,ER(a, b)表示詞語(yǔ)a的右熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。

    那么,結(jié)合公式(6)和(7),得出擴(kuò)充后的特征集合的每一個(gè)特征詞在每一個(gè)類別中與其他特征詞的內(nèi)部結(jié)合緊密度:

    其中,α值根據(jù)實(shí)際決定。本文的α取值采用加權(quán)平均的方式,也就是α1=α2=0.25。術(shù)語(yǔ)抽取的閾值可參考Farkas的派系強(qiáng)度函數(shù)公式計(jì)算得出:

    其中,d表示與擴(kuò)充后特征詞的數(shù)量,如果特征詞a與特征詞b之間的內(nèi)部結(jié)合緊密度小于設(shè)定的閾值,那么認(rèn)為特征詞a和特征詞b不能合并成特定領(lǐng)域的術(shù)語(yǔ);反之,特征詞a和特征詞b有可能合成術(shù)語(yǔ)。

    經(jīng)過詞語(yǔ)之間的內(nèi)部緊密度篩選后,滿足條件的詞語(yǔ)將會(huì)形成候選術(shù)語(yǔ)集合,本文根據(jù)左熵(公式(8))和右熵(公式(9))的定義,確定術(shù)語(yǔ)的組合。

    3 實(shí)驗(yàn)分析及結(jié)果

    3.1 實(shí)驗(yàn)環(huán)境和語(yǔ)料的介紹

    實(shí)驗(yàn)環(huán)境:windows server 2008 R2 64bit,Inter Xeon 2.50 GHz CPU,16.0 GB 內(nèi)存。仿真環(huán)境:Python 2.7。

    在本實(shí)驗(yàn)中,本文通過選取中國(guó)科學(xué)院語(yǔ)言資料研究室提供的文本庫(kù)作為實(shí)驗(yàn)語(yǔ)料,通過人工選取了640篇文章并將其歸為8類,這樣每個(gè)類別包含80篇文章。由于該語(yǔ)料庫(kù)的語(yǔ)料來源多樣、文章體裁多樣,因此該語(yǔ)料庫(kù)能夠在一定程度上代表中文文本分類的準(zhǔn)確性。

    3.2 實(shí)驗(yàn)設(shè)計(jì)

    (1)分詞系統(tǒng)的選取

    本文的實(shí)驗(yàn)過程以結(jié)巴工具作為中文分詞工具,其主要功能包括中文分詞、詞性標(biāo)注以及關(guān)鍵詞抽取。該分詞系統(tǒng)具有3種模式:精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來,速度非常快,但是不能解決歧義問題;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞,本文的預(yù)處理數(shù)據(jù)階段采用精確模型進(jìn)行中文文本的詞語(yǔ)切分。

    (2)文本表示

    本文采用谷歌開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示方法來獲取詞語(yǔ)信息。采用word2vec方法對(duì)詞信息本身進(jìn)行信息分析并建立索引,借助索引來表示文本的內(nèi)容。

    (3)特征選擇與提取

    本文采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的、擴(kuò)展性特征詞集合后;以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以特征詞間詞匯信息特征、特征詞的相關(guān)性,評(píng)價(jià)特征詞之間結(jié)合的緊密度,結(jié)合特征詞的位置關(guān)系(左熵或右熵)進(jìn)行特征詞合并,抽取相關(guān)領(lǐng)域候選術(shù)語(yǔ)。而術(shù)語(yǔ)的向量表示可通過兩個(gè)特征詞向量的組合運(yùn)算得出。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合,s表示在各個(gè)領(lǐng)域的術(shù)語(yǔ)集合,那么最終的特征詞語(yǔ)集合為W=w∪s。計(jì)算特征語(yǔ)集合中每個(gè)特征詞的TF-IDF值,并將其作為分類器輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到分類器模型。

    (4)分類器的選擇

    在眾多的文本分類算法中,比較經(jīng)典的就是Rocchio分類器、樸素貝葉斯分類器、基于支持向量機(jī)分類器、基于神經(jīng)網(wǎng)絡(luò)分類器、基于k-最近鄰算法分類器。本文考慮了術(shù)語(yǔ)形成原理以及術(shù)語(yǔ)的詞向量特征,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類的算法[9],卷積神經(jīng)網(wǎng)絡(luò)中卷積層包括三個(gè)部分:卷積、池化、非線性激活函數(shù)層(tanh或者sigmoid)。卷積層通常來說是用來提取特征詞向量的空間特征,然后使用平均池化進(jìn)行下采樣,最后通過多層神經(jīng)網(wǎng)絡(luò)(MLP, Multilayer Perceptron)作為最后的分類器對(duì)本文的特征詞向量進(jìn)行分類。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是層與層之間采用稀疏連接矩陣來保證神經(jīng)網(wǎng)絡(luò)的運(yùn)算速度。其實(shí)卷積神經(jīng)網(wǎng)絡(luò)的系屬性特點(diǎn)主要是用于激活層,它一般取max(0, x),在神經(jīng)網(wǎng)絡(luò)迭代計(jì)算的過程中,實(shí)際上變成它在不斷試探如何用一個(gè)大多數(shù)為0的矩陣來表達(dá)輸入數(shù)據(jù)特征,結(jié)果因?yàn)橄∈杼匦缘拇嬖?,使得?jì)算效果又快又好。除此之外,卷積神經(jīng)網(wǎng)絡(luò)引入“權(quán)值”共享原則,這樣大大減少了神經(jīng)網(wǎng)絡(luò)運(yùn)算的參數(shù),降低了復(fù)雜度。

    3.3 實(shí)驗(yàn)過程

    (1)訓(xùn)練過程

    文本自動(dòng)分類之前需要對(duì)文本進(jìn)行訓(xùn)練構(gòu)建分類模型。本文隨機(jī)選取實(shí)驗(yàn)語(yǔ)料的30%作為訓(xùn)練數(shù)據(jù)集,采用卷積神經(jīng)網(wǎng)絡(luò)分類算法訓(xùn)練文本,借助上述提出的方法構(gòu)造文本分類器。按照上面提到的文本分類步驟對(duì)文本進(jìn)行預(yù)處理、詞向量空間構(gòu)建、特征詞提取、分類器構(gòu)造四個(gè)階段,在挖掘特征詞之后把特征詞或者術(shù)語(yǔ)的詞向量輸入到卷積網(wǎng)絡(luò),并按照其對(duì)應(yīng)的人工分類的主題進(jìn)行輸出,訓(xùn)練出一個(gè)特征詞向量與分類主題進(jìn)行非線性映射的模型,形成文本分類模型。

    (2)分類過程

    分類過程是對(duì)剩下的實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類的過程,值得注意的是,在分類過程中,文本的詞向量空間構(gòu)建、特征詞提取等步驟與訓(xùn)練過程是相似的,在獲取文本的特征詞向量空間后,把該向量空間輸入已經(jīng)訓(xùn)練好的文本分類模型,最終判別出文本的專題分類。

    3.4 評(píng)估指標(biāo)

    在文本分類的評(píng)估指標(biāo)中,最常被用來衡量分詞性能的指標(biāo)是召回率和準(zhǔn)確率。

    召回率是正確劃分到某一個(gè)主題文檔數(shù)量與文檔庫(kù)中某個(gè)主題所有的相關(guān)文檔的比率,是衡量中文文本分類系統(tǒng)的查全率;正確率是正確劃分到某一個(gè)主題的文檔數(shù)量與被系統(tǒng)劃分到某一個(gè)主題的文檔總數(shù)的比率,是衡量文本分類系統(tǒng)的查準(zhǔn)率。

    3.5 實(shí)驗(yàn)結(jié)果分析

    在本實(shí)驗(yàn)中,首先選取了常見幾種文本分類算法,其中包括CHI算法、MI算法和TFIDF算法,將上述集中幾種分類算法與本文提出的算法對(duì)同一實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類實(shí)驗(yàn),最后根據(jù)實(shí)驗(yàn)結(jié)果對(duì)各分類算法做性能比對(duì)。詳細(xì)的對(duì)比結(jié)果如圖1至圖4所示:

    圖1 CHI分類算法的實(shí)驗(yàn)結(jié)果

    圖2 MI分類算法的實(shí)驗(yàn)結(jié)果

    圖3 TF-IDF分類算法的實(shí)驗(yàn)結(jié)果

    圖4 本文分類算法的實(shí)驗(yàn)結(jié)果

    上述實(shí)驗(yàn)所選用的實(shí)驗(yàn)語(yǔ)料庫(kù)均為中科院語(yǔ)言資料研究室提供的實(shí)驗(yàn)語(yǔ)料,在采用中文結(jié)巴分詞以及詞語(yǔ)向量模型構(gòu)建詞語(yǔ)向量空間的基礎(chǔ)上,采用多種文本分類的方法進(jìn)行實(shí)驗(yàn)對(duì)比。由上圖可知,本文采取的算法準(zhǔn)確率最高,其次,CHI和MI的算法準(zhǔn)確率較高,而TF-IDF的算法準(zhǔn)確率略低。

    CHI算法雖然能夠選取具有表征類別能力的特征詞集合,但是其所選的特征詞沒有考慮到特征詞和特征類別的相關(guān)性。除此之外,該方法獲取的特征詞不能“完備”表達(dá)特定學(xué)科領(lǐng)域的概念,因此,CHI算法的文本分類準(zhǔn)確率有待提高。

    MI算法雖然考慮了特征詞和特征類別的相關(guān)性,但由于不同學(xué)科領(lǐng)域擁有相似的關(guān)鍵詞,而MI算法僅僅對(duì)該領(lǐng)域的特征詞進(jìn)行抽取而沒有將相關(guān)領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,MI的文本分類算法準(zhǔn)確率相對(duì)CHI較低。

    TF-IDF算法能夠體現(xiàn)特征詞在語(yǔ)料庫(kù)中的重要程度,但是該方法不僅沒有考慮特征詞相關(guān)性和“完備性”的特點(diǎn),也沒有對(duì)特定領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,采用該方法提取的特征詞不能很好體現(xiàn)不同的學(xué)科領(lǐng)域特征。

    由此看來,不同分類算法的準(zhǔn)確率有明顯的區(qū)別,說明特征詞的選擇至關(guān)重要,本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷。除此之外,本文考慮到擴(kuò)充的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,采用特征詞集合之間的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度,結(jié)合詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的詞語(yǔ)抽取方法,這種方法所抽取的特征詞更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,因此具有更好的分類效果。

    4 結(jié)束語(yǔ)

    本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷,形成更加具有表征類別能力的特征詞集合。在此基礎(chǔ)上,構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取該領(lǐng)域的術(shù)語(yǔ)。最后以特征詞和術(shù)語(yǔ)作為文本的特征表示,放入卷積神經(jīng)網(wǎng)絡(luò)分類器中進(jìn)行訓(xùn)練并實(shí)現(xiàn)文本的自動(dòng)分類。實(shí)驗(yàn)表明,本文所采用的方法抽取的特征詞集合更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,具有更好的分類效果。

    猜你喜歡
    特征詞卡方術(shù)語(yǔ)
    卡方檢驗(yàn)的應(yīng)用條件
    卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
    卡方檢驗(yàn)的應(yīng)用條件
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    面向文本分類的特征詞選取方法研究與改進(jìn)
    基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法
    有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
    從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
    關(guān)于“方言特征詞”理論的回顧及思考
    国产精品久久久久久亚洲av鲁大| 国语自产精品视频在线第100页| 一级黄片播放器| 色噜噜av男人的天堂激情| 中国美白少妇内射xxxbb| 在现免费观看毛片| 亚洲美女黄片视频| 中文资源天堂在线| 亚洲图色成人| 国内毛片毛片毛片毛片毛片| 久久久久久九九精品二区国产| 久久人妻av系列| 最近最新免费中文字幕在线| 少妇丰满av| av福利片在线观看| 日韩大尺度精品在线看网址| 欧美丝袜亚洲另类 | 久久国内精品自在自线图片| 亚洲熟妇熟女久久| 又粗又爽又猛毛片免费看| 午夜久久久久精精品| 美女cb高潮喷水在线观看| 丰满人妻一区二区三区视频av| 国产一级毛片七仙女欲春2| 国产aⅴ精品一区二区三区波| 最近在线观看免费完整版| 亚洲精品粉嫩美女一区| 亚洲真实伦在线观看| 国产精品不卡视频一区二区| 亚洲精品亚洲一区二区| 色av中文字幕| 国产蜜桃级精品一区二区三区| 日本 av在线| a在线观看视频网站| netflix在线观看网站| 丰满人妻一区二区三区视频av| 欧美人与善性xxx| 免费观看的影片在线观看| 久久久午夜欧美精品| 美女被艹到高潮喷水动态| 日本欧美国产在线视频| 免费不卡的大黄色大毛片视频在线观看 | 中文字幕熟女人妻在线| 久久香蕉精品热| 日本在线视频免费播放| 69人妻影院| 国产不卡一卡二| 亚洲av二区三区四区| 国产av一区在线观看免费| 69人妻影院| 3wmmmm亚洲av在线观看| 欧美不卡视频在线免费观看| 美女高潮的动态| 久久久久九九精品影院| 变态另类丝袜制服| 此物有八面人人有两片| 人人妻人人看人人澡| 欧美成人免费av一区二区三区| 国产精品久久久久久av不卡| 我要看日韩黄色一级片| 亚洲自拍偷在线| 精品福利观看| 天堂av国产一区二区熟女人妻| 性欧美人与动物交配| 日韩av在线大香蕉| 十八禁网站免费在线| 国产真实伦视频高清在线观看 | 日韩欧美三级三区| 亚洲美女黄片视频| 国产高清视频在线播放一区| 婷婷亚洲欧美| 成人综合一区亚洲| 精品午夜福利视频在线观看一区| 欧美xxxx黑人xx丫x性爽| 久久这里只有精品中国| 国产精品不卡视频一区二区| 国产亚洲欧美98| 在线观看午夜福利视频| 免费看a级黄色片| 亚洲人成网站高清观看| 日韩欧美精品免费久久| 国产亚洲91精品色在线| 中文字幕av成人在线电影| 日本熟妇午夜| 乱码一卡2卡4卡精品| 桃红色精品国产亚洲av| av国产免费在线观看| 神马国产精品三级电影在线观看| 亚洲av中文字字幕乱码综合| a在线观看视频网站| 亚洲精品色激情综合| 国产精品综合久久久久久久免费| 成人美女网站在线观看视频| 久久久国产成人免费| 97人妻精品一区二区三区麻豆| 麻豆一二三区av精品| 婷婷丁香在线五月| 精品久久久久久久末码| 国内揄拍国产精品人妻在线| 91久久精品电影网| 熟妇人妻久久中文字幕3abv| 国产成人a区在线观看| 亚洲无线观看免费| 噜噜噜噜噜久久久久久91| 五月伊人婷婷丁香| 国内少妇人妻偷人精品xxx网站| 免费无遮挡裸体视频| 成人一区二区视频在线观看| 亚洲五月天丁香| 91久久精品国产一区二区三区| 国产精品免费一区二区三区在线| 国产一区二区三区av在线 | 亚洲一级一片aⅴ在线观看| 久久精品人妻少妇| 国产白丝娇喘喷水9色精品| 日日摸夜夜添夜夜添小说| 国产大屁股一区二区在线视频| 99热这里只有是精品在线观看| 午夜福利在线观看吧| 国产精品免费一区二区三区在线| 欧美三级亚洲精品| 中文字幕久久专区| 亚洲人成网站在线播| 欧美色欧美亚洲另类二区| 久久久久久久精品吃奶| 91久久精品国产一区二区三区| 免费av毛片视频| 国产女主播在线喷水免费视频网站 | 无人区码免费观看不卡| 天美传媒精品一区二区| 国产精品av视频在线免费观看| 麻豆成人av在线观看| 日韩欧美在线乱码| 亚洲不卡免费看| 午夜免费激情av| 午夜亚洲福利在线播放| 中文字幕熟女人妻在线| 国产伦精品一区二区三区视频9| 中文亚洲av片在线观看爽| 精品久久久久久久人妻蜜臀av| 成人美女网站在线观看视频| 久久精品国产亚洲av天美| 久99久视频精品免费| 久久国内精品自在自线图片| 少妇裸体淫交视频免费看高清| 少妇的逼好多水| 国产精品,欧美在线| 精华霜和精华液先用哪个| 日韩在线高清观看一区二区三区 | 久久久精品欧美日韩精品| 国产色婷婷99| 欧美zozozo另类| 国产高清有码在线观看视频| 在现免费观看毛片| 两人在一起打扑克的视频| 亚洲欧美激情综合另类| 欧美极品一区二区三区四区| 在线免费十八禁| 一级毛片久久久久久久久女| 97超视频在线观看视频| 色综合亚洲欧美另类图片| 村上凉子中文字幕在线| 国产女主播在线喷水免费视频网站 | 国产日本99.免费观看| 成人无遮挡网站| 免费大片18禁| 中文字幕熟女人妻在线| 成人特级av手机在线观看| 美女被艹到高潮喷水动态| 成熟少妇高潮喷水视频| 国产成人aa在线观看| 久久久久国内视频| 在线观看午夜福利视频| 免费观看的影片在线观看| 亚洲欧美日韩高清专用| 一区二区三区免费毛片| 午夜老司机福利剧场| 俺也久久电影网| 热99re8久久精品国产| 18禁黄网站禁片午夜丰满| 日韩 亚洲 欧美在线| 人妻少妇偷人精品九色| 午夜精品久久久久久毛片777| 给我免费播放毛片高清在线观看| 男插女下体视频免费在线播放| 嫁个100分男人电影在线观看| videossex国产| 最后的刺客免费高清国语| 亚洲va在线va天堂va国产| 色精品久久人妻99蜜桃| 岛国在线免费视频观看| 69人妻影院| 色播亚洲综合网| 啪啪无遮挡十八禁网站| 日韩欧美免费精品| 免费观看人在逋| 亚洲av一区综合| av视频在线观看入口| 亚洲五月天丁香| 69av精品久久久久久| 男女视频在线观看网站免费| 男女视频在线观看网站免费| 精品久久久久久久末码| 午夜福利视频1000在线观看| 啪啪无遮挡十八禁网站| 男女边吃奶边做爰视频| 88av欧美| 亚洲中文字幕日韩| 真实男女啪啪啪动态图| 亚洲黑人精品在线| 一级毛片久久久久久久久女| 性插视频无遮挡在线免费观看| 春色校园在线视频观看| av女优亚洲男人天堂| 午夜爱爱视频在线播放| 日本撒尿小便嘘嘘汇集6| 99热6这里只有精品| 国产亚洲精品久久久com| 热99re8久久精品国产| 狂野欧美白嫩少妇大欣赏| 91麻豆av在线| 最近最新中文字幕大全电影3| a级一级毛片免费在线观看| 欧美激情国产日韩精品一区| 国产毛片a区久久久久| 白带黄色成豆腐渣| 一区二区三区激情视频| 国内少妇人妻偷人精品xxx网站| 午夜免费成人在线视频| 亚洲乱码一区二区免费版| 少妇人妻一区二区三区视频| www.色视频.com| 日日撸夜夜添| 国产精品三级大全| 一级毛片久久久久久久久女| 中亚洲国语对白在线视频| 国产淫片久久久久久久久| 亚洲美女搞黄在线观看 | 有码 亚洲区| 免费av毛片视频| 色综合亚洲欧美另类图片| 高清日韩中文字幕在线| 97超视频在线观看视频| 变态另类丝袜制服| 超碰av人人做人人爽久久| 亚洲精品影视一区二区三区av| 中出人妻视频一区二区| 免费黄网站久久成人精品| 成熟少妇高潮喷水视频| 免费看日本二区| 在线播放国产精品三级| 国产 一区 欧美 日韩| 高清在线国产一区| 乱码一卡2卡4卡精品| 欧美一级a爱片免费观看看| 国产激情偷乱视频一区二区| 亚洲在线自拍视频| 免费一级毛片在线播放高清视频| 亚洲va日本ⅴa欧美va伊人久久| 色综合色国产| 又紧又爽又黄一区二区| 国产免费一级a男人的天堂| 国产乱人视频| 一a级毛片在线观看| 波多野结衣高清作品| 亚洲人成网站高清观看| 久久午夜亚洲精品久久| 亚洲人与动物交配视频| 精品午夜福利视频在线观看一区| 九色国产91popny在线| 波多野结衣巨乳人妻| av天堂中文字幕网| 波多野结衣高清无吗| 久久亚洲精品不卡| 国国产精品蜜臀av免费| 女人十人毛片免费观看3o分钟| 精品一区二区三区视频在线| 特大巨黑吊av在线直播| 免费在线观看日本一区| 欧美激情国产日韩精品一区| 日本-黄色视频高清免费观看| 深夜a级毛片| 国产一区二区在线av高清观看| 日日干狠狠操夜夜爽| 成人无遮挡网站| 欧美色视频一区免费| 91麻豆av在线| 99热精品在线国产| 国产白丝娇喘喷水9色精品| 成人国产一区最新在线观看| 国产 一区精品| 久久中文看片网| 日本a在线网址| x7x7x7水蜜桃| 最近最新中文字幕大全电影3| 尾随美女入室| 搞女人的毛片| 麻豆久久精品国产亚洲av| 精品国产三级普通话版| 国产成人福利小说| 最后的刺客免费高清国语| 干丝袜人妻中文字幕| 大又大粗又爽又黄少妇毛片口| 亚洲国产精品合色在线| 成人国产一区最新在线观看| 深夜精品福利| 男女视频在线观看网站免费| 亚洲欧美激情综合另类| 日本一本二区三区精品| 老熟妇乱子伦视频在线观看| 99国产极品粉嫩在线观看| 久久国产乱子免费精品| 国产精品日韩av在线免费观看| 成人无遮挡网站| 成人亚洲精品av一区二区| 国产精品不卡视频一区二区| 国产一区二区三区视频了| 欧美bdsm另类| 午夜亚洲福利在线播放| 亚洲人与动物交配视频| 国产精品一区二区免费欧美| 国产毛片a区久久久久| 2021天堂中文幕一二区在线观| 国产欧美日韩精品亚洲av| 在线观看午夜福利视频| 极品教师在线视频| 老司机深夜福利视频在线观看| 国产极品精品免费视频能看的| 最好的美女福利视频网| 日韩欧美精品v在线| 午夜免费成人在线视频| 又粗又爽又猛毛片免费看| 老熟妇仑乱视频hdxx| 人妻夜夜爽99麻豆av| 午夜福利在线观看免费完整高清在 | 男女做爰动态图高潮gif福利片| 成人国产综合亚洲| 日韩在线高清观看一区二区三区 | 亚洲欧美激情综合另类| 久9热在线精品视频| 久久久久九九精品影院| 欧美日韩乱码在线| 我要搜黄色片| 美女xxoo啪啪120秒动态图| 99在线人妻在线中文字幕| 99久久精品热视频| 3wmmmm亚洲av在线观看| 日韩欧美精品v在线| 国产伦精品一区二区三区视频9| 一本一本综合久久| 九色国产91popny在线| 免费观看在线日韩| 亚洲美女黄片视频| 精品久久久久久久久av| 欧美xxxx黑人xx丫x性爽| 久久精品国产亚洲网站| 国产成人a区在线观看| 亚洲经典国产精华液单| 国产精品福利在线免费观看| 琪琪午夜伦伦电影理论片6080| 亚洲va在线va天堂va国产| 麻豆av噜噜一区二区三区| 中文字幕av在线有码专区| 动漫黄色视频在线观看| 久久婷婷人人爽人人干人人爱| 91在线精品国自产拍蜜月| 一级av片app| 色5月婷婷丁香| 男人舔奶头视频| 有码 亚洲区| 欧美色视频一区免费| 国产又黄又爽又无遮挡在线| 两性午夜刺激爽爽歪歪视频在线观看| 成年版毛片免费区| 午夜福利18| 噜噜噜噜噜久久久久久91| 中文字幕精品亚洲无线码一区| 啦啦啦韩国在线观看视频| 在线天堂最新版资源| 成人国产麻豆网| 国模一区二区三区四区视频| 99久国产av精品| 成人永久免费在线观看视频| 自拍偷自拍亚洲精品老妇| 久久久精品欧美日韩精品| 无人区码免费观看不卡| 看片在线看免费视频| av天堂在线播放| av在线天堂中文字幕| 亚洲人成伊人成综合网2020| 国产精品不卡视频一区二区| 午夜福利18| 日本a在线网址| 99久国产av精品| 看免费成人av毛片| 日韩精品有码人妻一区| 国产精品久久视频播放| 日本在线视频免费播放| 国产视频一区二区在线看| 久久这里只有精品中国| 成人无遮挡网站| 国产 一区 欧美 日韩| 三级男女做爰猛烈吃奶摸视频| 午夜a级毛片| 91久久精品国产一区二区成人| 久久精品国产亚洲av天美| av天堂中文字幕网| 亚州av有码| 真人一进一出gif抽搐免费| 国内精品久久久久精免费| 999久久久精品免费观看国产| 天堂动漫精品| 少妇人妻精品综合一区二区 | 99久久九九国产精品国产免费| 久久国产乱子免费精品| 国产黄色小视频在线观看| 99热这里只有精品一区| 在线观看免费视频日本深夜| 我的女老师完整版在线观看| 久久久国产成人免费| 亚洲成av人片在线播放无| av国产免费在线观看| 一个人观看的视频www高清免费观看| 九九爱精品视频在线观看| 成人av一区二区三区在线看| 国产黄a三级三级三级人| 国产精品美女特级片免费视频播放器| 少妇的逼水好多| 国产 一区精品| 久久亚洲真实| 性色avwww在线观看| 中文字幕久久专区| 日韩精品青青久久久久久| 免费观看人在逋| 亚洲美女搞黄在线观看 | 国产探花极品一区二区| 搡女人真爽免费视频火全软件 | 国内揄拍国产精品人妻在线| 欧美激情在线99| 老女人水多毛片| 日韩一本色道免费dvd| 一夜夜www| 日本三级黄在线观看| 999久久久精品免费观看国产| 九九热线精品视视频播放| 91麻豆av在线| 日韩中文字幕欧美一区二区| 黄色欧美视频在线观看| 国产高清三级在线| 12—13女人毛片做爰片一| 18禁在线播放成人免费| 成年女人毛片免费观看观看9| 亚洲色图av天堂| 国产精品人妻久久久影院| 午夜激情福利司机影院| 国产探花极品一区二区| 99久久精品热视频| 国产人妻一区二区三区在| 亚洲专区国产一区二区| 国产成年人精品一区二区| 欧美另类亚洲清纯唯美| 欧美最新免费一区二区三区| 色哟哟·www| 久久草成人影院| 夜夜看夜夜爽夜夜摸| a级毛片免费高清观看在线播放| 91麻豆av在线| 亚洲中文字幕日韩| 淫秽高清视频在线观看| 国产精品伦人一区二区| 一区二区三区激情视频| 综合色av麻豆| 亚洲不卡免费看| 91久久精品电影网| 亚洲七黄色美女视频| 国产精品一区二区免费欧美| 久久久久久九九精品二区国产| 精品福利观看| 草草在线视频免费看| 成人av在线播放网站| 国产精品爽爽va在线观看网站| 亚洲第一电影网av| 日韩一本色道免费dvd| 久久亚洲真实| 亚洲av中文字字幕乱码综合| 草草在线视频免费看| 简卡轻食公司| 欧美激情久久久久久爽电影| 亚洲熟妇熟女久久| 亚洲精品456在线播放app | 一夜夜www| 精品一区二区三区av网在线观看| 久久国产乱子免费精品| 在线免费十八禁| 亚洲av二区三区四区| 精品久久久久久久久av| 欧美日韩亚洲国产一区二区在线观看| 老熟妇仑乱视频hdxx| 亚洲欧美日韩卡通动漫| 女的被弄到高潮叫床怎么办 | 大型黄色视频在线免费观看| 亚洲av免费在线观看| 男女视频在线观看网站免费| 精品午夜福利视频在线观看一区| 国产午夜精品论理片| 又粗又爽又猛毛片免费看| 丰满乱子伦码专区| 亚洲欧美激情综合另类| 国产精品不卡视频一区二区| ponron亚洲| 国国产精品蜜臀av免费| 国产人妻一区二区三区在| 国产色婷婷99| 国产爱豆传媒在线观看| 亚洲熟妇中文字幕五十中出| 别揉我奶头~嗯~啊~动态视频| 精品久久久噜噜| 日本免费一区二区三区高清不卡| 亚洲精品粉嫩美女一区| 简卡轻食公司| 一个人看的www免费观看视频| 美女xxoo啪啪120秒动态图| 欧美最黄视频在线播放免费| 日韩精品有码人妻一区| 欧美中文日本在线观看视频| 久久久久久九九精品二区国产| 国产成人影院久久av| 欧美激情久久久久久爽电影| 我要看日韩黄色一级片| 久久久精品大字幕| 日日撸夜夜添| 亚洲avbb在线观看| 国产三级在线视频| 人妻少妇偷人精品九色| 精品一区二区三区视频在线观看免费| 男女视频在线观看网站免费| 老司机深夜福利视频在线观看| 九色成人免费人妻av| av黄色大香蕉| 色噜噜av男人的天堂激情| 非洲黑人性xxxx精品又粗又长| 日本-黄色视频高清免费观看| 欧美成人a在线观看| 在线观看舔阴道视频| 亚洲国产欧美人成| 成人综合一区亚洲| 在线免费观看的www视频| 亚洲av电影不卡..在线观看| 精品人妻视频免费看| 欧美xxxx性猛交bbbb| 三级国产精品欧美在线观看| 高清毛片免费观看视频网站| 欧美人与善性xxx| 听说在线观看完整版免费高清| 天堂av国产一区二区熟女人妻| 亚洲18禁久久av| 又黄又爽又刺激的免费视频.| 黄色女人牲交| 亚洲av电影不卡..在线观看| 国产 一区精品| 麻豆av噜噜一区二区三区| 神马国产精品三级电影在线观看| 亚洲成人久久爱视频| 国产免费一级a男人的天堂| 99久久精品国产国产毛片| 精品不卡国产一区二区三区| 亚洲黑人精品在线| 日韩,欧美,国产一区二区三区 | 一级毛片久久久久久久久女| 在线国产一区二区在线| 天堂√8在线中文| 亚洲在线观看片| 亚洲国产欧洲综合997久久,| 国产又黄又爽又无遮挡在线| www.色视频.com| 日本三级黄在线观看| 国产高清激情床上av| 欧美日韩亚洲国产一区二区在线观看| 亚洲自拍偷在线| 国产单亲对白刺激| 村上凉子中文字幕在线| 成年免费大片在线观看| 婷婷精品国产亚洲av在线| 国产精品一区www在线观看 | 亚洲黑人精品在线| 国产精品国产高清国产av| 国产黄色小视频在线观看| 欧美+日韩+精品| 我的女老师完整版在线观看| 很黄的视频免费| 精品不卡国产一区二区三区| 亚洲av日韩精品久久久久久密| 亚洲男人的天堂狠狠| 欧美三级亚洲精品| av在线天堂中文字幕| 男女那种视频在线观看| 久久欧美精品欧美久久欧美| 一区二区三区免费毛片| 亚洲午夜理论影院| 国产精品免费一区二区三区在线| 干丝袜人妻中文字幕| 国产午夜福利久久久久久| 欧美日韩乱码在线| 联通29元200g的流量卡| 一级a爱片免费观看的视频| 午夜精品在线福利| 少妇熟女aⅴ在线视频| 亚洲自偷自拍三级| 久久久国产成人精品二区| 欧美三级亚洲精品| 中亚洲国语对白在线视频| 国产av麻豆久久久久久久| 久久久久久久久大av| 欧美色欧美亚洲另类二区| 麻豆成人av在线观看|