• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    LDA模型在專(zhuān)利文本分類(lèi)中的應(yīng)用

    2017-04-07 16:18廖列法勒孚剛朱亞蘭
    現(xiàn)代情報(bào) 2017年3期

    廖列法+勒孚剛+朱亞蘭

    〔摘要〕對(duì)傳統(tǒng)專(zhuān)利文本自動(dòng)分類(lèi)方法中,使用向量空間模型文本表示方法存在的問(wèn)題,提出一種基于LDA模型專(zhuān)利文本分類(lèi)方法。該方法利用LDA主題模型對(duì)專(zhuān)利文本語(yǔ)料庫(kù)建模,提取專(zhuān)利文本的文檔-主題和主題-特征詞矩陣,達(dá)到降維目的和提取文檔間的語(yǔ)義聯(lián)系,引入類(lèi)的類(lèi)-主題矩陣,為類(lèi)進(jìn)行主題語(yǔ)義拓展,使用主題相似度構(gòu)造層次分類(lèi),小類(lèi)采用KNN分類(lèi)方法。實(shí)驗(yàn)結(jié)果:與基于向量空間文本表示模型的KNN專(zhuān)利文本分類(lèi)方法對(duì)比,此方法能夠獲得更高的分類(lèi)評(píng)估指數(shù)。

    〔關(guān)鍵詞〕LDA;主題模型;專(zhuān)利文本分類(lèi);主題相似度

    DOI:10.3969/j.issn.1008-0821.2017.03.007

    〔中圖分類(lèi)號(hào)〕G25553;G2541〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)03-0035-05

    〔Abstract〕A new text classification method based on LDA model is proposed to solve the problem of traditional VSM text categorization.The LDA topic model was used to model the patent text corpus,and the document-topic and topic-feature word matrix of the patent text was extracted to achieve the purpose of dimension reduction and to extract semantic links between documents.The class-topic matrix was introduced,Topic semantic extension,hierarchical classification using theme similarity,and KNN classification by subclass.Experimental results:Compared with the KNN patent text classification method based on vector space text representation model,this method can obtain higher classification evaluation index.

    〔Key words〕LDA;topic model;patent text classification;topic similarity

    根據(jù)2016年世界知識(shí)產(chǎn)權(quán)組織(WIPO)在日內(nèi)瓦總部發(fā)布的《世界知識(shí)產(chǎn)權(quán)指標(biāo)》年度報(bào)告顯示,2015年中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局受理的專(zhuān)利申請(qǐng)數(shù)量超過(guò)110萬(wàn)件,相當(dāng)于美國(guó)、日本和韓國(guó)的專(zhuān)利申請(qǐng)數(shù)量總和。從全球排名來(lái)看,中國(guó)位居首位;美國(guó)居于第二,數(shù)量為589萬(wàn)件;日本第三,數(shù)量為318萬(wàn)件。我們國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,對(duì)于科研人員的科技成果轉(zhuǎn)化方面的激勵(lì)和科技創(chuàng)新企業(yè)的納稅政策優(yōu)惠等都有效地推動(dòng)了專(zhuān)利申請(qǐng)數(shù)量的提升。面對(duì)如此海量的專(zhuān)利文獻(xiàn)數(shù)據(jù),僅僅依靠工作人員采用傳統(tǒng)的手工分類(lèi)不僅效率低下,而且人力和物力資源耗費(fèi)量巨大。因此,專(zhuān)利文獻(xiàn)的自動(dòng)分類(lèi)方法研究顯得極為重要和迫不及待,它已成為科研人員現(xiàn)階段一個(gè)研究熱點(diǎn)和重點(diǎn)[1]。與一般的文本相對(duì),專(zhuān)利文本具有結(jié)構(gòu)特殊、專(zhuān)業(yè)性強(qiáng)、領(lǐng)域詞匯較多等特點(diǎn),因此相對(duì)傳統(tǒng)的文本分類(lèi)而言,專(zhuān)利文本需要采用更加針對(duì)的分類(lèi)方法[2]。

    在文本分類(lèi)中,文本的表示直接影響到特征值的選取,好的特征值選取方法可以有效提高分類(lèi)方法的效率,目前的專(zhuān)利文本分類(lèi)方法的文本表示都是基于向量空間模型(Vector Space Model,VSM)算法[3],并沒(méi)有涉及概率主題模型。例如:李程雄、丁月華和文貴華[4]提出并分析結(jié)合SVM算法和KNN算法的組合改進(jìn)算法SVM-KNN,當(dāng)樣本和SVM最優(yōu)超平面的距離大于給定的闕值,即樣本離分界面較遠(yuǎn),則用SVM分類(lèi),反之用KNN算法對(duì)測(cè)試樣本分類(lèi),比單一的算法取得了更優(yōu)的分類(lèi)效果。蔣健安、陸介平、倪巍偉等[5]設(shè)計(jì)的層次分類(lèi)算法先采用Rocchio算法進(jìn)行專(zhuān)利大類(lèi)的區(qū)分,再對(duì)各個(gè)大類(lèi)之間的文本采用KNN方法進(jìn)行小類(lèi)的細(xì)分,由于大類(lèi)之間的區(qū)分度較大,故可以使用Rocchio算法,而相同大類(lèi)之間的小類(lèi)分別較小,采用KNN算法更能區(qū)分。郭煒強(qiáng)、戴天、文貴華[6]根據(jù)改進(jìn)的詞語(yǔ)權(quán)重計(jì)算方法構(gòu)造給定文本的特征向量,從分類(lèi)表IPC中直接提取類(lèi)別的概念向量和待分類(lèi)專(zhuān)利文本的特征向量,然后采用向量空間模型實(shí)現(xiàn)專(zhuān)利的自動(dòng)分類(lèi)。

    結(jié)合計(jì)算機(jī)語(yǔ)言學(xué),概率空間模型在文本表示上具有更加優(yōu)異的效果,能夠提取變現(xiàn)力更強(qiáng)的特征詞匯,能使文本的分類(lèi)效果更好。則概率空間模型代替詞向量模型運(yùn)用在文本表示中是一種趨勢(shì),故本文提出一種基于LDA(Latent Dirichlet Allocation)模型[7]的專(zhuān)利文本分類(lèi)方法,LDA模型是符合文本生成規(guī)律的全概率生成模型,具有好的文本表示能力,提取具有語(yǔ)義信息的主題,運(yùn)用在專(zhuān)利文本分類(lèi)中,能夠有效提升分類(lèi)效率。

    31向量空間模型用于專(zhuān)利文本分類(lèi)的不足分析[8]

    在對(duì)專(zhuān)利文本進(jìn)行分類(lèi)時(shí),文本表示一般采用向量空間模型算法,該算法把對(duì)文本內(nèi)容處理簡(jiǎn)化為向量空間中的向量運(yùn)算。在向量空間模型中,文檔被映射成由向量組成的多維向量空間,其中每個(gè)詞表示1個(gè)維度。假設(shè)向量的空間維數(shù)為n,則每篇文檔d映射為由二元組組成的特征向量V(d)=(t1,w1(d);…tn,wn(d)),其中ti(i=1,2,…,n)為一列互不相同的特征詞,wi(d)為特征詞ti在文檔d中的權(quán)重。傳統(tǒng)的特征詞權(quán)重計(jì)算普遍采用TF-IDF算法[9],TF-IDF算法考慮了特征詞的詞頻、逆文本頻、歸一化等因素,這些都是文本權(quán)重計(jì)算中很重要的概念。

    但是,在專(zhuān)利文本自動(dòng)分類(lèi)中,該算法在處理專(zhuān)利數(shù)據(jù)時(shí)有二個(gè)明顯的不足:

    1)向量空間模型是依據(jù)語(yǔ)料庫(kù)中的特征詞,使用TF-IDF算法計(jì)算它們的權(quán)重,構(gòu)造文檔-特征詞向量,并將整個(gè)文檔集構(gòu)造為一個(gè)高維、稀疏的特征值-文檔矩陣。其中模型的對(duì)向量的維數(shù)難以控制,語(yǔ)料庫(kù)特征詞越多則矩陣維數(shù)越高、越稀疏,矩陣的高維稀疏使得實(shí)際用來(lái)計(jì)算的數(shù)值很少,大部分?jǐn)?shù)值都為0,增加了算法的計(jì)算開(kāi)銷(xiāo),降低了算法的效率。維數(shù)過(guò)大對(duì)于算法的產(chǎn)生巨大的計(jì)算量,時(shí)間和空間復(fù)雜度會(huì)提高。

    2)對(duì)于專(zhuān)利的分類(lèi),不僅要考慮專(zhuān)利詞匯上的相似性,還要考慮專(zhuān)利的語(yǔ)義內(nèi)容上的相似性。由于專(zhuān)利文本中使用的詞匯都比較專(zhuān)業(yè)化,因此產(chǎn)生的詞匯集相對(duì)比較狹窄,產(chǎn)生的專(zhuān)利文本在詞集上會(huì)有很多的相似,而VSM模型是根據(jù)詞的頻率及逆文本頻來(lái)計(jì)算特征詞的權(quán)重,并不能很好的對(duì)文本進(jìn)行區(qū)分,所以基于VSM模型的專(zhuān)利文本分類(lèi)方法的效果很差。應(yīng)該考慮特征詞間的語(yǔ)義聯(lián)系,及特征詞與類(lèi)的關(guān)聯(lián),從專(zhuān)利文本所表達(dá)的語(yǔ)義層面上去理解文本,在語(yǔ)義層面上對(duì)專(zhuān)利文本進(jìn)行分類(lèi),這樣才能取得更好的分類(lèi)效果。

    基于上面的兩種問(wèn)題,傳統(tǒng)的基于VSM模型的專(zhuān)利文本分類(lèi)方法已經(jīng)不能很好地應(yīng)用在專(zhuān)利文本分類(lèi)中了。

    2LDA主題模型

    LDA模型是一種對(duì)文本數(shù)據(jù)進(jìn)行有效降維和發(fā)掘潛藏主題信息的方法[10]。它是一個(gè)三層貝葉斯概率生成模型,把文檔表示成隱含主題的概率分布,主題表示成詞匯的概率分布,其中主題是對(duì)文檔內(nèi)容的匯集,因此模型可以很好地模擬大規(guī)模語(yǔ)料的語(yǔ)義信息。模型的把文檔由主題構(gòu)成,而主題的數(shù)量是一定的,對(duì)文檔具有良好的降維能力。LDA的概率模型圖如圖1所示:

    LDA模型的生成過(guò)程較好地模擬了在生成實(shí)際文本的大體思維過(guò)程,其具體的數(shù)學(xué)化描述如下:

    1)對(duì)每一篇文檔dm,根據(jù)N~Poisson(ξ)生成文檔dm中詞的數(shù)目Nm;

    2)對(duì)于每一篇文檔dm,根據(jù)θm~Dir(α)生成文檔dm關(guān)于主題多項(xiàng)式分布的參數(shù)θm;

    3)對(duì)于每一個(gè)主題z,根據(jù)φz~Dir(β)生成主題z關(guān)于語(yǔ)料庫(kù)中詞多項(xiàng)式分布的參數(shù)φz;

    4)對(duì)于文檔dm的第n個(gè)詞wm,n:

    a)根據(jù)多項(xiàng)式分布zm,n~Multi(θd),抽樣得到詞wm,n所屬的主題zm,n;

    b)根據(jù)多項(xiàng)式分布wm,n~Multi(φz),抽樣得到具體的詞wm,n。

    參數(shù)估計(jì)是LDA模型的關(guān)鍵步驟,假如要直接計(jì)算LDA模型的參數(shù)是不能實(shí)現(xiàn)的,需要使用間接推理算法來(lái)估算模型的參數(shù)值,LDA模型常用的算法有Gibbs抽樣、EM算法、Expectation-Propagation方法、變分推理算法等。其中因?yàn)镚ibbs抽樣算法具有快速、高效等優(yōu)點(diǎn),故常被用于LDA模型的參數(shù)估算。

    Gibbs抽樣算法詳述如下:

    1)初始化。zi被初始化為1到K之間的某個(gè)隨機(jī)整數(shù)。i從1循環(huán)到N,N是語(yǔ)料庫(kù)中所有出現(xiàn)于文本中的詞匯記號(hào)個(gè)數(shù)。

    2)迭代。i從1循環(huán)到N,根據(jù)公式(1)將詞匯分配給主題,獲取Markov鏈的下一個(gè)狀態(tài)。

    3)估算φ和θ的值。迭代第(2)步足夠次數(shù)以后,認(rèn)為Markov鏈已經(jīng)接近目標(biāo)分布,遂取zi(i從1循環(huán)到N)的當(dāng)前值作為樣本記錄下來(lái)。為了保證自相關(guān)較小,每迭代一定次數(shù),記錄其他的樣本。舍棄詞匯記號(hào),以w表示惟一性詞,對(duì)于每一個(gè)單一樣本,可以按下式估算φ和θ:

    3基于LDA模型的專(zhuān)利文本分類(lèi)算法

    31確定語(yǔ)義主題數(shù)

    LDA模型要進(jìn)行Gibbs抽樣就要先確認(rèn)所有的參數(shù),但是主題參數(shù)事先無(wú)法確定的,而主題數(shù)的多少對(duì)模型的影響非常大,主題數(shù)目過(guò)多,將會(huì)產(chǎn)生很多不具有明顯語(yǔ)義信息的主題,反之?dāng)?shù)目過(guò)少將會(huì)出現(xiàn)一個(gè)主題包含多層語(yǔ)義信息的狀況,兩種狀況都很糟糕,所以科學(xué)的確定主題的個(gè)數(shù)非常重要。本文采用LDA標(biāo)準(zhǔn)的評(píng)價(jià)函數(shù)Perplexity(困惑度)來(lái)確定最優(yōu)主題數(shù)。

    困惑度衡量主題模型對(duì)于未觀測(cè)數(shù)據(jù)的預(yù)測(cè)能力,困惑度越小,模型預(yù)測(cè)能力越強(qiáng),模型的推廣性越高。其中:Dtest為測(cè)試集;wd為文檔d中的可觀測(cè)單詞序列;Nd為文檔d的單詞數(shù)目。困惑度公式如下:

    32文檔的主題向量提取

    對(duì)于專(zhuān)利文本數(shù)據(jù),有意義的文本內(nèi)容是標(biāo)題、摘要、主權(quán)項(xiàng),而標(biāo)題中出現(xiàn)的特征詞往往更具有代表性,其次是摘要。在不同位置的特征詞對(duì)文檔的貢獻(xiàn)程度是不同的,假如直接利用LDA模型對(duì)語(yǔ)料庫(kù)建模,不考慮特診詞匯在文檔中的位置信息對(duì)該文本的區(qū)分度影響,將嚴(yán)重影響文本的分類(lèi)效果。故結(jié)合專(zhuān)利文本數(shù)據(jù)的結(jié)構(gòu)特殊性,體現(xiàn)特征詞匯的位置信息因素,使用一種位置加權(quán)來(lái)計(jì)算文本的主題向量。將標(biāo)題、摘要和主權(quán)項(xiàng)分為3篇文檔,即一篇專(zhuān)利文獻(xiàn)包含3個(gè)子文檔,定義為一個(gè)三元組D=D(P1,P2,P3),其中P1表示標(biāo)題,P2表示摘要,P3表示主權(quán)項(xiàng),將3篇子文檔中的主題向量按位置權(quán)重計(jì)算,從而得到該專(zhuān)利文檔的主題向量,其中θP1表示標(biāo)題文檔的主題向量,θP2表示摘要文檔的主題向量,θP3表示主權(quán)項(xiàng)的主題向量,計(jì)算公式如下:

    33類(lèi)-主題矩陣

    LDA模型將文檔表示成三層模型,即文檔層、主題層和詞匯層,文檔由主題向量構(gòu)成,主題由詞匯向量構(gòu)成,從而對(duì)文檔進(jìn)行降維表示。根據(jù)已有的LDA模型討論:文檔集是由各種類(lèi)別的文檔組成,文檔集和類(lèi)別之間存在一對(duì)多映射關(guān)系,類(lèi)別和文檔之間也存在一對(duì)多映射關(guān)系,可理解為類(lèi)別就是一個(gè)子文檔集,由主題和文檔的關(guān)系,用主題向量對(duì)子文檔集降維,即類(lèi)和隱含主題之間存在著一定的概率分布,向標(biāo)準(zhǔn)的LDA模型中添加一層即文檔類(lèi)別層。類(lèi)的隱含主題信息拓?fù)浣Y(jié)構(gòu)如圖2所示:

    從帶類(lèi)別標(biāo)簽訓(xùn)練文檔的文檔-主題矩陣中提取類(lèi)-主題矩陣。把帶相同類(lèi)別標(biāo)簽的文檔建立成一個(gè)文檔-主題矩陣,計(jì)算這個(gè)矩陣每列的平均值,得到該類(lèi)的類(lèi)-主題向量,所有的類(lèi)-主題向量構(gòu)成類(lèi)-主題矩陣。其中γci表示類(lèi)別c關(guān)于主題i的概率,M表示關(guān)于類(lèi)別c的文檔數(shù),θmi是類(lèi)別c中第m篇文檔關(guān)于主題i的概率,計(jì)算公式如下:

    在上面的公式中,若主題i在c類(lèi)文檔中出現(xiàn)的概率高,則表示這一隱含主題對(duì)于類(lèi)別i具有強(qiáng)表現(xiàn)性,在類(lèi)間具有較強(qiáng)的類(lèi)別區(qū)分能力,概率較小的主題,則表示與該類(lèi)具有弱變現(xiàn)性,與該類(lèi)的關(guān)聯(lián)程度較低。

    34基于LDA模型的專(zhuān)利文本分類(lèi)算法

    專(zhuān)利分類(lèi)擁有一套國(guó)際專(zhuān)利分類(lèi)體系(簡(jiǎn)稱IPC分類(lèi)),它是我國(guó)常用的分類(lèi)體系,IPC分類(lèi)[11]號(hào)包括了與發(fā)明創(chuàng)造有關(guān)的全部知識(shí)領(lǐng)域。IPC分類(lèi)號(hào)采用層級(jí)的形式,將技術(shù)內(nèi)容注明:部-分部-大類(lèi)-小類(lèi)-大組-小組,逐級(jí)形成完整的類(lèi)別體系。故需要對(duì)專(zhuān)利文本進(jìn)行層次分類(lèi),部屬于專(zhuān)利分類(lèi)的最高級(jí),屬于不同學(xué)科領(lǐng)域,較好分類(lèi),大類(lèi)屬于同一學(xué)科里的不同方面,類(lèi)別區(qū)分難度一般,故部和大類(lèi)的分類(lèi)都采用類(lèi)間相似度構(gòu)造分類(lèi)器進(jìn)行分類(lèi);而小類(lèi)屬于同一技術(shù)的不同研究方向,較難區(qū)分,故采用普遍認(rèn)為具有高分類(lèi)性能的KNN方法。

    具體的算法步驟描述如下:

    輸入:帶類(lèi)別標(biāo)記的訓(xùn)練文本集,測(cè)試文本

    輸出:測(cè)試文本的所屬類(lèi)別

    步驟1:獲取專(zhuān)利文本數(shù)據(jù),并將文本分為訓(xùn)練文本集和測(cè)試文本集。

    步驟2:對(duì)訓(xùn)練文本和測(cè)試文本進(jìn)行預(yù)處理,包括:分詞、去停頓詞,及使用TF-IDF算法對(duì)詞匯過(guò)濾,將權(quán)重小于01的詞除去,建立訓(xùn)練文本的語(yǔ)料庫(kù)。

    步驟3:利用LDA模型對(duì)語(yǔ)料庫(kù)建模,提取語(yǔ)料庫(kù)的文檔-主題和主題-詞匯矩陣。

    步驟4:根據(jù)帶標(biāo)簽的文檔-主題矩陣提取部-主題矩陣和大類(lèi)-主題矩陣。計(jì)算每一篇待測(cè)試專(zhuān)利文本的主題與各個(gè)部和類(lèi)別主題間的相似度,相似度度量采用余弦相似度算法來(lái)計(jì)算。其中Cz為類(lèi)別的主題向量,θz為測(cè)試文檔的主題向量。計(jì)算公式如下:

    步驟5:部。將待分類(lèi)文檔與各部的部-主題向量計(jì)算相似度,相似度最大的為文本所屬部號(hào)。

    步驟6:大類(lèi)。將具有部號(hào)的待分類(lèi)文本與本部的各大類(lèi)計(jì)算主題相似度,其中相似度值最大的為文本所屬大類(lèi)。

    步驟7:小類(lèi)。對(duì)確定大類(lèi)的文本與屬于該大類(lèi)的訓(xùn)練文本計(jì)算主題相似度,KNN分類(lèi)方法確定該專(zhuān)利所屬小類(lèi)。

    步驟8:實(shí)驗(yàn)結(jié)果評(píng)價(jià)。

    具體專(zhuān)利文本分類(lèi)算法基本框架如圖3所示:

    4實(shí)驗(yàn)及結(jié)果分析

    41實(shí)驗(yàn)數(shù)據(jù)集

    為驗(yàn)證此方法的有效性,本文利用從專(zhuān)利局獲取的稀土專(zhuān)利數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集包含2007-2015年共31 000篇稀土專(zhuān)利文本,每個(gè)部選取大類(lèi)和小類(lèi)數(shù)量較均勻的1 000篇專(zhuān)利文檔進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)將數(shù)據(jù)集的80%用來(lái)訓(xùn)練模型,20%用來(lái)驗(yàn)證分類(lèi)算法性能。數(shù)據(jù)具體分布情況見(jiàn)表2。

    42評(píng)估指標(biāo)

    文本分類(lèi)性能結(jié)果的評(píng)估指標(biāo)采用F值。F度量值是信息檢索中的一種組合P(準(zhǔn)-確率)和R(召回率)指標(biāo)的平衡指標(biāo)。計(jì)算公式如下:

    F的值越與1靠近說(shuō)明P和R的平衡性越好。相反F的值與0越靠近,則兩個(gè)參數(shù)的平衡性越差。

    43參數(shù)設(shè)定

    在LDA建模過(guò)程中,確定最優(yōu)主題數(shù)采用Perplexity函數(shù),參數(shù)估計(jì)采用MCMC方法中的Gibbs抽樣算法,在LDA建模過(guò)程中,根據(jù)經(jīng)驗(yàn)設(shè)置α=50/K、β=001,Gibbs抽樣的迭代次數(shù)參數(shù)Iteration為2000,保存迭代參數(shù)Save Step為1000。其中主題數(shù)K的取值依次為5、10、25、50、100直到200,利用不同的主題數(shù)進(jìn)行Perplexity函數(shù)分析,獲得最小困惑度得到最優(yōu)主題數(shù)K。

    從圖4看出,隨著主題數(shù)目的增加,模型的困惑度值慢慢收斂到一個(gè)較小較穩(wěn)定的值,在圖中可以發(fā)現(xiàn)當(dāng)主題數(shù)K=100時(shí)模型的困惑度值開(kāi)始最小且平穩(wěn),則此時(shí)模型的性能最好,所以本實(shí)驗(yàn)的主題數(shù)目取值為100。

    44實(shí)驗(yàn)結(jié)果分析

    實(shí)驗(yàn)分兩組進(jìn)行,第一組采用基于向量空間模型的專(zhuān)利文本分類(lèi)方法,首先采用向量空間模型表示文本,然后運(yùn)用TF-IDF計(jì)算特征值的權(quán)重,最后采用KNN方法分類(lèi);第二組采用本文提出的基于LDA模型的專(zhuān)利文本分類(lèi)方法,首先運(yùn)用LDA方法對(duì)語(yǔ)料庫(kù)建模,提取各文檔、部和類(lèi)的主題分布,然后部和大類(lèi)的分類(lèi)采用相似度構(gòu)造分類(lèi)器,計(jì)算主題相似度,最后小類(lèi)的分類(lèi)采用KNN分類(lèi)方法。實(shí)驗(yàn)分詞采用的是基于R軟件Rwordseg包segmentCN分詞方法。實(shí)驗(yàn)結(jié)果見(jiàn)表3、表4和圖5。

    由實(shí)驗(yàn)結(jié)果可以得知,基于LDA模型的分類(lèi)方法在正確率、召回率和F值方面均優(yōu)于基于VSM模型的分類(lèi)方法,故基于LDA模型的專(zhuān)利文本分類(lèi)方法是有效的,大大提高了專(zhuān)利文本的分類(lèi)效率。

    5結(jié)語(yǔ)

    本文主要從文本表示方向?qū)?zhuān)利文本分類(lèi)進(jìn)行改善。

    將LDA主題模型應(yīng)用到專(zhuān)利文本分類(lèi)中,使得文檔和類(lèi)由低維具有語(yǔ)義匯集的主題向量表示,達(dá)到了較好的降維效果,并引入類(lèi)-主題矩陣用于文本分類(lèi),有效提高分類(lèi)準(zhǔn)確性,使模型的分類(lèi)性能更加優(yōu)越。本文運(yùn)用LDA模型專(zhuān)利文本分類(lèi)時(shí),存在專(zhuān)利文本的標(biāo)題文本過(guò)短的問(wèn)題,本文并沒(méi)有考慮到,下一步工作將結(jié)合短文本的特性設(shè)計(jì)更優(yōu)的分類(lèi)方法,進(jìn)一步提高專(zhuān)利文本分類(lèi)效率和分類(lèi)精度。

    參考文獻(xiàn)

    [1]屈鵬,王惠臨.專(zhuān)利文本分類(lèi)的基礎(chǔ)問(wèn)題研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,(3):38-44.

    [2]劉紅光,馬雙剛,劉桂鋒.基于機(jī)器學(xué)習(xí)的專(zhuān)利文本分類(lèi)算法研究綜述[J].圖書(shū)情報(bào)技術(shù),2016,(3):79-86.

    [3]龐劍鋒,卜東波.基于向量空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2001,18(9):23-26.

    [4]李程雄,丁月華,文貴華.SVM-KNN組合改進(jìn)算法在專(zhuān)利文本分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(20):193-195.

    [5]蔣健安,陸介平,倪巍偉,等.一種面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2008,28(1):159-161.

    [6]郭煒強(qiáng),戴天,文貴華.基于領(lǐng)域知識(shí)的專(zhuān)利自動(dòng)分類(lèi)[J].計(jì)算機(jī)工程,2005,31(23):52-54.

    [7]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning research,2003,3(1):993-1022.

    [8]胡冰,張建立.基于統(tǒng)計(jì)分布的中文專(zhuān)利自動(dòng)分類(lèi)方法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,(Z1):101-106.

    [9]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(s1):167-170.

    [10]姚全珠,宋志理,彭程.基于LDA模型的文本分類(lèi)研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.

    [11]繆建明,賈廣威,張運(yùn)良.基于摘要文本的專(zhuān)利快速自動(dòng)分類(lèi)方法[J].情報(bào)理論與實(shí)踐,2016,(8):103-105.

    (本文責(zé)任編輯:孫國(guó)雷)

    午夜福利视频在线观看免费| 少妇人妻精品综合一区二区| 国产乱来视频区| 国产日韩欧美亚洲二区| 母亲3免费完整高清在线观看 | 久久精品久久久久久噜噜老黄| 一级片'在线观看视频| 久久午夜福利片| a级毛色黄片| 亚洲第一av免费看| 男女免费视频国产| 国产精品国产三级国产av玫瑰| 激情五月婷婷亚洲| 久久人人爽人人片av| 亚洲国产看品久久| 寂寞人妻少妇视频99o| 亚洲国产精品专区欧美| 美国免费a级毛片| 黑人巨大精品欧美一区二区蜜桃 | 国产精品久久久久久av不卡| 久久久久久人妻| 精品人妻熟女毛片av久久网站| 国产成人精品无人区| 一本—道久久a久久精品蜜桃钙片| 久久韩国三级中文字幕| 日日啪夜夜爽| 天堂中文最新版在线下载| 日韩中字成人| 99九九在线精品视频| 亚洲精品456在线播放app| 国产精品国产av在线观看| 午夜福利网站1000一区二区三区| 一级a做视频免费观看| 热99国产精品久久久久久7| 乱码一卡2卡4卡精品| 久久女婷五月综合色啪小说| 一级毛片 在线播放| 99久久综合免费| 狠狠精品人妻久久久久久综合| 亚洲在久久综合| 久久99精品国语久久久| 日本爱情动作片www.在线观看| 性色av一级| 国产精品不卡视频一区二区| 一区二区三区精品91| 欧美精品av麻豆av| 国产无遮挡羞羞视频在线观看| 少妇的逼水好多| 伊人亚洲综合成人网| 久久久国产一区二区| 2021少妇久久久久久久久久久| 丁香六月天网| 天天操日日干夜夜撸| 自拍欧美九色日韩亚洲蝌蚪91| 高清欧美精品videossex| 国产在线一区二区三区精| 女性生殖器流出的白浆| 精品国产乱码久久久久久小说| xxxhd国产人妻xxx| 国产精品久久久久久久久免| 日韩在线高清观看一区二区三区| 国产熟女午夜一区二区三区| 丝袜美足系列| 午夜影院在线不卡| 午夜日本视频在线| 国产高清国产精品国产三级| 香蕉精品网在线| 国产在线视频一区二区| 精品久久久久久电影网| 丝袜美足系列| 免费人成在线观看视频色| 永久免费av网站大全| 亚洲国产欧美在线一区| 久久精品夜色国产| 久久精品国产亚洲av涩爱| 日本av免费视频播放| 看免费av毛片| 久久久久久久亚洲中文字幕| 天天躁夜夜躁狠狠久久av| 国产精品欧美亚洲77777| 最近2019中文字幕mv第一页| 欧美激情 高清一区二区三区| 国产精品偷伦视频观看了| 久久人人爽av亚洲精品天堂| 伊人久久国产一区二区| 免费女性裸体啪啪无遮挡网站| 各种免费的搞黄视频| 国产精品熟女久久久久浪| 国产成人精品一,二区| 亚洲欧美一区二区三区黑人 | av女优亚洲男人天堂| 日韩一区二区视频免费看| av又黄又爽大尺度在线免费看| av国产久精品久网站免费入址| 亚洲伊人色综图| 亚洲成人av在线免费| 久久久久久伊人网av| 最近手机中文字幕大全| 亚洲人成网站在线观看播放| 又大又黄又爽视频免费| 日韩免费高清中文字幕av| 国产一区有黄有色的免费视频| 日本黄大片高清| 国产亚洲欧美精品永久| 免费看av在线观看网站| 国产有黄有色有爽视频| 午夜久久久在线观看| 一二三四在线观看免费中文在 | 一级片'在线观看视频| 久久精品夜色国产| 色94色欧美一区二区| 亚洲伊人久久精品综合| 99久久综合免费| 国产精品麻豆人妻色哟哟久久| 久久人妻熟女aⅴ| 九色成人免费人妻av| 久久久久国产精品人妻一区二区| 18禁国产床啪视频网站| 亚洲av男天堂| 在现免费观看毛片| 两个人免费观看高清视频| 国产极品天堂在线| 日本av手机在线免费观看| 午夜精品国产一区二区电影| 国产熟女欧美一区二区| 欧美国产精品一级二级三级| 999精品在线视频| 精品人妻熟女毛片av久久网站| 国产国语露脸激情在线看| 一区二区三区乱码不卡18| 夜夜爽夜夜爽视频| 男人操女人黄网站| 99久国产av精品国产电影| 日韩精品免费视频一区二区三区 | 春色校园在线视频观看| 尾随美女入室| 人人妻人人澡人人看| 亚洲综合精品二区| 少妇被粗大的猛进出69影院 | 九色亚洲精品在线播放| av有码第一页| 夫妻午夜视频| 欧美成人精品欧美一级黄| 夫妻性生交免费视频一级片| 多毛熟女@视频| 欧美3d第一页| 天堂中文最新版在线下载| 国产视频首页在线观看| 天天躁夜夜躁狠狠躁躁| 久久免费观看电影| 少妇猛男粗大的猛烈进出视频| 男女午夜视频在线观看 | 国产成人欧美| 日本免费在线观看一区| 黑人欧美特级aaaaaa片| 久久人人97超碰香蕉20202| 免费观看av网站的网址| 精品一区在线观看国产| 欧美 日韩 精品 国产| 人体艺术视频欧美日本| av天堂久久9| 中文字幕亚洲精品专区| 男女免费视频国产| 免费观看无遮挡的男女| 精品人妻在线不人妻| 国产 一区精品| 国产免费一区二区三区四区乱码| 亚洲欧美成人精品一区二区| 一本色道久久久久久精品综合| 午夜激情av网站| 久久精品国产亚洲av涩爱| 国产成人免费观看mmmm| 在线观看www视频免费| 国产男女超爽视频在线观看| 亚洲欧洲精品一区二区精品久久久 | 黄色配什么色好看| 国产激情久久老熟女| 飞空精品影院首页| 天天躁夜夜躁狠狠久久av| 亚洲色图综合在线观看| 久久久精品免费免费高清| 哪个播放器可以免费观看大片| 一本大道久久a久久精品| 赤兔流量卡办理| 少妇人妻 视频| 黄色视频在线播放观看不卡| 国产精品一区二区在线观看99| 精品久久国产蜜桃| 亚洲av在线观看美女高潮| 国产成人精品无人区| 精品少妇久久久久久888优播| 免费黄频网站在线观看国产| 亚洲天堂av无毛| 我要看黄色一级片免费的| 国产成人午夜福利电影在线观看| 色吧在线观看| 在线亚洲精品国产二区图片欧美| 亚洲av中文av极速乱| 少妇猛男粗大的猛烈进出视频| 国产淫语在线视频| 亚洲欧美成人综合另类久久久| 国产精品一区www在线观看| 国产在线视频一区二区| 国产激情久久老熟女| 午夜精品国产一区二区电影| av网站免费在线观看视频| 国产av国产精品国产| 天天影视国产精品| 亚洲欧洲国产日韩| 韩国高清视频一区二区三区| 日本免费在线观看一区| 国产精品久久久久久av不卡| 日韩电影二区| 国产高清不卡午夜福利| 亚洲成国产人片在线观看| 精品卡一卡二卡四卡免费| 久久99热6这里只有精品| 久久久精品免费免费高清| 亚洲激情五月婷婷啪啪| 国产视频首页在线观看| 99热全是精品| 色5月婷婷丁香| 国产黄频视频在线观看| 国产高清国产精品国产三级| 人妻系列 视频| 亚洲精品一二三| 日本与韩国留学比较| 黑人欧美特级aaaaaa片| 国产精品久久久久久精品古装| 亚洲在久久综合| 亚洲美女视频黄频| 婷婷色综合www| 免费少妇av软件| 男女边摸边吃奶| 国精品久久久久久国模美| 午夜激情久久久久久久| 黑人巨大精品欧美一区二区蜜桃 | 国产精品蜜桃在线观看| 日本与韩国留学比较| 99久国产av精品国产电影| 免费大片黄手机在线观看| 久久久国产一区二区| 高清毛片免费看| 国产极品天堂在线| 国产精品99久久99久久久不卡 | 亚洲精品美女久久久久99蜜臀 | 欧美日本中文国产一区发布| 亚洲欧洲精品一区二区精品久久久 | 美女国产视频在线观看| 欧美成人精品欧美一级黄| 国产精品 国内视频| videossex国产| 亚洲,欧美,日韩| 国产精品人妻久久久影院| 美女视频免费永久观看网站| 婷婷色麻豆天堂久久| 国产1区2区3区精品| 两个人免费观看高清视频| 女人精品久久久久毛片| 久久精品国产a三级三级三级| 国产极品天堂在线| 久久久久国产精品人妻一区二区| 天天操日日干夜夜撸| a级毛片在线看网站| 美女福利国产在线| 精品少妇黑人巨大在线播放| 搡老乐熟女国产| 国产高清三级在线| 桃花免费在线播放| 韩国精品一区二区三区 | 十八禁高潮呻吟视频| 两性夫妻黄色片 | 亚洲成人av在线免费| 日本爱情动作片www.在线观看| 久久精品aⅴ一区二区三区四区 | 精品第一国产精品| 考比视频在线观看| 国产精品欧美亚洲77777| 老女人水多毛片| 午夜av观看不卡| 国产 精品1| 人体艺术视频欧美日本| 久久精品国产综合久久久 | 亚洲精品国产av成人精品| 精品人妻熟女毛片av久久网站| 一级毛片电影观看| 国产av一区二区精品久久| 七月丁香在线播放| 国产在线一区二区三区精| 亚洲熟女精品中文字幕| 亚洲av综合色区一区| 22中文网久久字幕| 水蜜桃什么品种好| 男的添女的下面高潮视频| 国语对白做爰xxxⅹ性视频网站| 黄色一级大片看看| 久久青草综合色| 国产午夜精品一二区理论片| 在线观看三级黄色| 久久国产精品男人的天堂亚洲 | 80岁老熟妇乱子伦牲交| 国产亚洲午夜精品一区二区久久| 欧美精品高潮呻吟av久久| 日韩制服骚丝袜av| av线在线观看网站| 日本wwww免费看| 久久久久久人人人人人| 看非洲黑人一级黄片| 麻豆乱淫一区二区| 视频在线观看一区二区三区| 亚洲精品成人av观看孕妇| 天天操日日干夜夜撸| 高清欧美精品videossex| 欧美最新免费一区二区三区| 9191精品国产免费久久| 国产高清不卡午夜福利| 亚洲国产最新在线播放| 亚洲成人av在线免费| 久久国产亚洲av麻豆专区| 午夜福利,免费看| 91久久精品国产一区二区三区| 国产淫语在线视频| 精品久久国产蜜桃| 赤兔流量卡办理| 国产精品免费大片| 两个人免费观看高清视频| 自拍欧美九色日韩亚洲蝌蚪91| 丁香六月天网| 国产一区亚洲一区在线观看| 夜夜爽夜夜爽视频| 少妇的丰满在线观看| 18禁观看日本| 久久这里只有精品19| 纯流量卡能插随身wifi吗| 午夜av观看不卡| 妹子高潮喷水视频| 午夜av观看不卡| 欧美丝袜亚洲另类| 日本av免费视频播放| 国产亚洲一区二区精品| 街头女战士在线观看网站| 人妻系列 视频| 国产黄色免费在线视频| 韩国高清视频一区二区三区| 男人操女人黄网站| 中文字幕免费在线视频6| 日本午夜av视频| 激情视频va一区二区三区| 久久99精品国语久久久| 啦啦啦啦在线视频资源| 国产 一区精品| 超碰97精品在线观看| 男女啪啪激烈高潮av片| 亚洲精品第二区| 亚洲精品自拍成人| 国产亚洲一区二区精品| 亚洲婷婷狠狠爱综合网| 亚洲人成77777在线视频| 日日爽夜夜爽网站| 成人亚洲精品一区在线观看| 久久精品国产综合久久久 | 午夜激情av网站| 精品福利永久在线观看| 水蜜桃什么品种好| 欧美亚洲 丝袜 人妻 在线| 亚洲精品成人av观看孕妇| 婷婷色麻豆天堂久久| 侵犯人妻中文字幕一二三四区| av网站免费在线观看视频| 亚洲国产精品成人久久小说| 男女啪啪激烈高潮av片| 黄网站色视频无遮挡免费观看| 午夜日本视频在线| 妹子高潮喷水视频| av福利片在线| 久久精品国产亚洲av天美| 一区二区av电影网| 久久人人97超碰香蕉20202| 视频区图区小说| 国产爽快片一区二区三区| 少妇被粗大猛烈的视频| 亚洲图色成人| 最近最新中文字幕免费大全7| 丁香六月天网| 国产亚洲欧美精品永久| 人妻 亚洲 视频| 91久久精品国产一区二区三区| 午夜免费男女啪啪视频观看| 欧美日韩视频高清一区二区三区二| 在线精品无人区一区二区三| 91精品国产国语对白视频| 国产免费现黄频在线看| 又黄又粗又硬又大视频| 久久99一区二区三区| 国产老妇伦熟女老妇高清| 国产免费福利视频在线观看| 天堂中文最新版在线下载| 亚洲av免费高清在线观看| 亚洲一码二码三码区别大吗| 国产黄色视频一区二区在线观看| 国产精品偷伦视频观看了| 蜜桃国产av成人99| 一区二区av电影网| 国产成人精品一,二区| 国产亚洲欧美精品永久| 午夜免费男女啪啪视频观看| 日本av手机在线免费观看| 久久久久国产网址| 午夜福利视频精品| 精品熟女少妇av免费看| 97人妻天天添夜夜摸| 男女啪啪激烈高潮av片| 蜜桃国产av成人99| 精品久久久久久电影网| 精品国产一区二区三区四区第35| 久久ye,这里只有精品| 熟女av电影| 黄色怎么调成土黄色| 国产精品.久久久| 精品国产国语对白av| 免费观看av网站的网址| 国产黄色视频一区二区在线观看| 国产精品无大码| 国产精品久久久久久久久免| 日本vs欧美在线观看视频| 久久久久久久亚洲中文字幕| 国产片内射在线| 亚洲,欧美,日韩| 91精品国产国语对白视频| 大香蕉久久网| av电影中文网址| 亚洲国产精品一区二区三区在线| 亚洲五月色婷婷综合| 一区二区三区精品91| 黄色 视频免费看| 久久久久精品久久久久真实原创| 久久久国产欧美日韩av| 免费av中文字幕在线| 深夜精品福利| 毛片一级片免费看久久久久| 国产免费福利视频在线观看| 国产精品国产三级国产专区5o| 69精品国产乱码久久久| 日本91视频免费播放| 在线观看三级黄色| 欧美激情 高清一区二区三区| 国产av国产精品国产| 国产av精品麻豆| 日本欧美国产在线视频| 欧美亚洲 丝袜 人妻 在线| 国产精品蜜桃在线观看| 亚洲成国产人片在线观看| 日韩欧美一区视频在线观看| 人人澡人人妻人| 五月开心婷婷网| 99久久精品国产国产毛片| 中文天堂在线官网| 妹子高潮喷水视频| 国产欧美日韩综合在线一区二区| 99热这里只有是精品在线观看| 国产 一区精品| 久久精品国产a三级三级三级| 精品午夜福利在线看| h视频一区二区三区| 亚洲av电影在线观看一区二区三区| 欧美激情极品国产一区二区三区 | 日韩av不卡免费在线播放| 久久99热6这里只有精品| 成人国产麻豆网| 免费少妇av软件| av天堂久久9| 伦理电影大哥的女人| 最近手机中文字幕大全| 2022亚洲国产成人精品| 在线亚洲精品国产二区图片欧美| av又黄又爽大尺度在线免费看| 免费看不卡的av| 一二三四中文在线观看免费高清| 精品熟女少妇av免费看| 青春草国产在线视频| av福利片在线| 夜夜爽夜夜爽视频| 视频中文字幕在线观看| 国产熟女欧美一区二区| 欧美成人午夜精品| 免费在线观看黄色视频的| 在线观看一区二区三区激情| 制服人妻中文乱码| 五月开心婷婷网| www日本在线高清视频| 日本与韩国留学比较| 久久精品国产鲁丝片午夜精品| 国产成人精品婷婷| 免费看光身美女| 丰满少妇做爰视频| 亚洲激情五月婷婷啪啪| 国产欧美日韩一区二区三区在线| 看非洲黑人一级黄片| 熟妇人妻不卡中文字幕| 免费播放大片免费观看视频在线观看| 国产成人精品婷婷| 国产精品蜜桃在线观看| 99香蕉大伊视频| 久久久久久久国产电影| 久久久久精品久久久久真实原创| 黑人巨大精品欧美一区二区蜜桃 | 妹子高潮喷水视频| 日本午夜av视频| 免费黄网站久久成人精品| 国产成人91sexporn| videos熟女内射| 日韩制服骚丝袜av| 老熟女久久久| www.色视频.com| 国产在线一区二区三区精| 日本vs欧美在线观看视频| 日日啪夜夜爽| 国产极品粉嫩免费观看在线| 久久久久久人妻| 一区二区av电影网| 伊人久久国产一区二区| 女人精品久久久久毛片| 国产xxxxx性猛交| 亚洲内射少妇av| 久久久精品免费免费高清| 国产片内射在线| 国产精品不卡视频一区二区| 9色porny在线观看| 亚洲久久久国产精品| 日本av手机在线免费观看| 欧美激情极品国产一区二区三区 | 性高湖久久久久久久久免费观看| 日日摸夜夜添夜夜爱| 90打野战视频偷拍视频| 国语对白做爰xxxⅹ性视频网站| 肉色欧美久久久久久久蜜桃| 色婷婷久久久亚洲欧美| 亚洲av日韩在线播放| 亚洲av免费高清在线观看| 如日韩欧美国产精品一区二区三区| 国产亚洲精品第一综合不卡 | 色网站视频免费| 三级国产精品片| 美女国产视频在线观看| 人妻一区二区av| 2021少妇久久久久久久久久久| 午夜av观看不卡| 亚洲三级黄色毛片| 国产免费视频播放在线视频| 1024视频免费在线观看| 亚洲少妇的诱惑av| 久久影院123| 精品熟女少妇av免费看| 飞空精品影院首页| √禁漫天堂资源中文www| 久久女婷五月综合色啪小说| 国产乱来视频区| 日韩三级伦理在线观看| 看免费成人av毛片| 一二三四在线观看免费中文在 | 久久久久久人人人人人| √禁漫天堂资源中文www| 欧美最新免费一区二区三区| 黄网站色视频无遮挡免费观看| 各种免费的搞黄视频| 日本黄色日本黄色录像| 丝袜脚勾引网站| 亚洲国产av影院在线观看| 热99久久久久精品小说推荐| 亚洲精品国产av成人精品| 波多野结衣一区麻豆| 日韩视频在线欧美| av卡一久久| 免费人妻精品一区二区三区视频| 国产精品久久久av美女十八| 啦啦啦视频在线资源免费观看| 日韩av在线免费看完整版不卡| 新久久久久国产一级毛片| 综合色丁香网| 伊人亚洲综合成人网| 精品亚洲乱码少妇综合久久| 黄片播放在线免费| 寂寞人妻少妇视频99o| 成年av动漫网址| 久久午夜综合久久蜜桃| 欧美xxⅹ黑人| 久久久久久人妻| 青春草亚洲视频在线观看| 寂寞人妻少妇视频99o| 久久久久久人妻| 成人漫画全彩无遮挡| 亚洲欧美精品自产自拍| 人妻系列 视频| 精品国产一区二区久久| 一个人免费看片子| 日本黄色日本黄色录像| 热re99久久国产66热| 全区人妻精品视频| 看免费av毛片| 男人添女人高潮全过程视频| 中文精品一卡2卡3卡4更新| 久久毛片免费看一区二区三区| 欧美精品国产亚洲| 宅男免费午夜| 免费观看无遮挡的男女| 天天躁夜夜躁狠狠躁躁| 一本—道久久a久久精品蜜桃钙片| 久久精品aⅴ一区二区三区四区 | 国产精品成人在线| 午夜精品国产一区二区电影| 国产男女内射视频| 91精品三级在线观看| 高清欧美精品videossex| 亚洲精品日韩在线中文字幕| 黑人巨大精品欧美一区二区蜜桃 |