• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞共現(xiàn)與圖卷積的文本分類方法

      2021-06-11 10:16:38申艷光賈耀清
      計算機工程與應用 2021年11期
      關(guān)鍵詞:文檔卷積單詞

      申艷光,賈耀清,2

      1.河北工程大學 信息與電氣工程學院,河北 邯鄲056038 2.河北工程大學 河北省安防信息感知與處理重點實驗室,河北 邯鄲056038

      文本分類是自然語言處理的基本任務,利用文本分類方法對海量的文本進行科學和有效的管理是亟待解決的問題。根據(jù)所屬領(lǐng)域的不同,文本分類可以分為主題分類[1]、問題分類[2]、情感分類[3]等。文本分類有十分廣闊的應用,如輿情分析、文章組織、意見挖掘、新聞分類、垃圾郵件過濾、決策過程、詞性標注[4-7]等。

      隨著深度學習的興起與發(fā)展,文本分類方法也不斷演化與進步?,F(xiàn)如今基于深度學習的文本分類方法已成為主流,這些深度學習模型可以較好地捕捉局部連續(xù)詞序列的語義和句法信息。為了進一步提高文本分類的準確度,許多文本分類方法都需要大量的數(shù)據(jù)標注,而數(shù)據(jù)標注主要是人工標注與人機結(jié)合輔助標注兩種方法。如果需要標注的數(shù)據(jù)量較小,可以采用人工標注的方法,但如果數(shù)據(jù)量較大,人工標注不能保證效率和準確率。考慮到半監(jiān)督學習的深度學習文本分類方法中數(shù)據(jù)標注是不可避免的,可以使用盡可能少的標注數(shù)據(jù)來達到同樣的模型性能。

      圖卷積神經(jīng)網(wǎng)絡(luò)是近年來的研究熱點,它能夠有效處理具有豐富關(guān)系結(jié)構(gòu)的任務[8-10]。針對上述文本分類中數(shù)據(jù)標注量少的問題,提出一種基于詞共現(xiàn)與圖卷積相結(jié)合的半監(jiān)督文本分類方法。首先,從整個語料庫中構(gòu)造一個大型文本圖,其中包含作為節(jié)點的單詞和文檔;然后,使用圖卷積網(wǎng)絡(luò)對文本圖進行建模,能夠捕捉高階鄰域信息。兩個詞節(jié)點之間的邊由詞的共現(xiàn)信息構(gòu)建,一個詞節(jié)點與文檔節(jié)點之間的邊由詞的頻率和詞的文檔頻率構(gòu)建。其本質(zhì)是將文本分類問題轉(zhuǎn)換為文本圖中的節(jié)點分類問題,與SVM、LSTM、TextCNN、DCNN、TextRNN、GCN等文本分類方法相比,該方法能在少量標注文檔的情況下實現(xiàn)較強的分類性能。

      1 相關(guān)工作

      1.1 傳統(tǒng)文本分類方法

      文本分類由來已久,20世紀70年代,基于知識工程的文本分類方法占據(jù)主流,但此方法需要專業(yè)人員手工定義特定的規(guī)則參與分類,這種方式分類準確度不高[11]。但在20世紀90年代逐漸被機器學習的文本分類方法所替代,如圖1所示,這種文本分類方法首先通過在預先分好類的文本中訓練,然后建立一個指定的分類器,最后通過對未知類別標簽的文本進行分類。與基于知識工程的分類方法相比,這種方法不需要專業(yè)人員的參與,并且能夠適用于各種領(lǐng)域的文本集合。機器學習的文本分類方法雖然分類準確度得到一定的提升,但是主要問題是需要人工提取特征,并且在標簽數(shù)據(jù)量較少的情況下訓練,最后的分類準確率也不理想。

      圖1 機器學習的文本分類方法

      1.2 深度學習的文本分類方法

      1.2.1 FastText

      FastText[12]是Facebook公司開源的一個文本快速分類工具。模型如圖2所示,其結(jié)構(gòu)采用輸入層、隱藏層和輸出層組成。在輸入層中輸入一個詞或是一句話作為輸入序列,這些序列經(jīng)過文本向量化表示之后形成特征向量,然后經(jīng)過隱藏層單元,在隱藏層單元計算每一個句子的詞向量的平均值,最后輸出層進行分類。其特點是模型簡單,訓練速度快。

      圖2 FastText

      1.2.2 TextCNN

      TextCNN[13]模型是利用多個不同大小的核從而提取句子或文本中的信息。卷積神經(jīng)網(wǎng)絡(luò)可以處理圖像(彩色或是灰度圖),是因為圖像可以看作是一種二維矩陣。要將卷積神經(jīng)網(wǎng)絡(luò)應用到文本分類,就需要將文本轉(zhuǎn)化為二維矩陣的形式。例如,一個句子中含有n個單詞,每個單詞對應k個維度的詞向量,那么一個句子就可以用n×k的矩陣來表示。與處理圖像數(shù)據(jù)一樣,CNN同樣能處理文本數(shù)據(jù)。

      1.2.3 DCNN

      DCNN(Dynamic Convolutional Neural Network)[14]是一種動態(tài)Pooling的方式來對句子進行語義建模。在TextCNN模型中,對于文本數(shù)據(jù)量比較小的情況一般使用靜態(tài)詞向量,而在動態(tài)卷積神經(jīng)網(wǎng)絡(luò)DCNN中,Kalchbrenner等人在第三層保留k個最大的信息,也就是k-max pooling技術(shù),這樣就能保留全局的信息。例如,輸入句子為“這個電腦配置很高,但是買它的人并不多”。雖然前半部分的情感傾向偏向于正面,但是后半部分是偏負面的,利用k-max pooling就能很好地處理這種信息。

      1.2.4 TextRNN

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種常用的文本處理方法,常用于文本分類[15]、語音識別[16]等領(lǐng)域。t時刻的狀態(tài)由當前時刻的輸入和上一時刻的狀態(tài)共同決定。TextRNN模型是建立在RNN基礎(chǔ)之上提出的,如圖3所示。其特點是模型具有短期記憶功能,適合處理帶有語序的NLP問題,運行速度較慢。

      圖3 TextRNN

      2 基于詞共現(xiàn)與圖卷積的文本分類方法

      2.1 過濾詞共現(xiàn)矩陣

      建立以下語料庫的共現(xiàn)矩陣,如表1:

      (1)We enjoy swimming.

      (2)We like blue sky.

      (3)We like NLP.則該語料庫中單詞的共現(xiàn)矩陣C為:

      表1 共現(xiàn)矩陣

      構(gòu)建文檔-單詞文本圖前確定文本圖中單詞-單詞的邊(edges)是關(guān)鍵的預處理操作,利用詞共現(xiàn)矩陣構(gòu)建文本圖的邊,但詞共現(xiàn)矩陣的建立面臨矩陣稀疏問題,將詞共現(xiàn)矩陣轉(zhuǎn)化為詞共現(xiàn)概率矩陣可以解決矩陣稀疏問題,但本質(zhì)問題是語料庫中存在大量無關(guān)詞,這些無關(guān)詞的存在也會參與計算,最終會降低文本分類的準確度。一種可行的辦法是在構(gòu)建文本圖的邊之前進行過濾操作,將大量無關(guān)詞進行過濾,然后讓剩余的單詞參與接下來的計算。

      選取語料庫中的部分句子:

      (1)The peach is a symbol of the meaning of life in folk life.

      (2)The growth of pear trees requires strict environment and climate.

      (3)It is well known that gas is steam.

      在語料庫中建立表2,分析表2的共現(xiàn)概率統(tǒng)計信息,K為tree、delicious和fruit時,P(K|pear)/P(K|peach)接近于1,但P(K|pear)/P(K|gas)和P(K|peach)/P(K|gas)卻遠遠大于1。K為the和of時,P(K|pear)/P(K|gas)和P(K|peach)/P(K|gas)也接近于1。

      表2 共現(xiàn)概率矩陣

      令Pxk=P(K|x),a和b是相似的兩個單詞,a和c是不相似的兩個單詞。給定上下文詞K。

      K不為無關(guān)詞時:

      K為無關(guān)詞時:

      在詞向量空間中,余弦距離計算公式為:

      利用過濾后的詞概率共現(xiàn)矩陣構(gòu)建文本圖中單詞-單詞邊,步驟如下:

      (1)利用余弦距離公式,找到與單詞a不相似的單詞c,建立所有單詞c的集合S,S={ci|i=1,2,…,N}。

      (2)集合S中隨機選擇n(n

      (3)將過濾后的共現(xiàn)概率矩陣作為單詞-單詞邊參與文本圖的構(gòu)建。

      2.2 文檔-單詞文本圖

      將數(shù)據(jù)集中的文檔和單詞定義為節(jié)點(Node),假設(shè)一個數(shù)據(jù)集中有N個Node,那么每個Node都具有自己的特征,將這些特征組成一個大小為N×D維的矩陣X,X稱為特征矩陣,各個Node之間也會形成一個N×N維的矩陣A,A稱為鄰接矩陣(Adjacency Matrix)。特征矩陣X以及鄰接矩陣A是模型的輸入。定義文本圖G=(V,E,A),其中V是節(jié)點的集合,E是邊的集合,A是文本圖G的鄰接矩陣。

      建立Word Co-occurrence and Graph Convolution Neural Networks模型(WC-GCN),如圖4,相同顏色的節(jié)點代表同一類的文檔集合,不同顏色的節(jié)點代表不同的文檔集合。

      圖4 文本圖

      2.3 圖卷積神經(jīng)網(wǎng)絡(luò)與注意力機制結(jié)合

      整體結(jié)構(gòu)如圖5所示,以字母“D”開始的是文檔節(jié)點,以字母“W”開始的是單詞節(jié)點,文檔-單詞的邊使用黑色線連接,單詞-單詞的邊使用紅色的線連接,R(X)表示X的嵌入式表示,為了避免類別之間的混亂,只選取橙、藍、綠、青四種顏色的節(jié)點,GCN的輸出引入Attention機制[17],LabelX表示不同的類別標簽。

      圖5 WC-GCN模型

      圖卷積的操作如下:

      (1)發(fā)送(Send):將節(jié)點本身的特征信息經(jīng)過變換后發(fā)送給鄰居節(jié)點。其本質(zhì)是將節(jié)點的特征信息進行抽取。

      (2)接收(Receive):每個節(jié)點接收鄰居節(jié)點的特征信息。其本質(zhì)是將節(jié)點的局部信息進行融合。

      (3)變換(Transform):節(jié)點將所有特征信息做非線性變換,例如ReLU操作。

      構(gòu)造一個三層的WC-GCN,模型簡化為:Z=f(X,A),其中激活函數(shù)分別使用ReLU、ReLU和softmax。新的WC-GCN模型的表達如下:

      其中:

      將鄰接矩陣A經(jīng)過歸一化處理,引入鄰接矩陣的度矩陣D,得到新的鄰接矩陣A。

      其中:

      將原本GCN的輸出引入Attention機制,使網(wǎng)絡(luò)側(cè)重特征本身的內(nèi)部聯(lián)系,最后通過加權(quán)平均輸出結(jié)果,提高模型的表達能力,如圖6所示。

      圖6 Attention機制

      Attention機制的計算如下:

      式(8)通過加權(quán)平均方式計算n個特征的輸出,式(9)計算每個輸入xi的得分si,以此來評價對輸出h的影響,式(10)計算si經(jīng)過歸一化之后的最終權(quán)重α。

      3 數(shù)據(jù)集和實驗

      3.1 實驗數(shù)據(jù)集

      本實驗采用網(wǎng)絡(luò)上公開的文本分類數(shù)據(jù)集。

      20NG:包含18 846個文檔,20個類別。其中11 314個文檔在訓練集中,7 532個文檔在測試集中。

      Ohsumed:來自MEDLINE數(shù)據(jù)庫。數(shù)據(jù)集合中的每個文檔都有一個或多個與23個疾病類別相關(guān)的類別。

      MR:電影評論的二元情感分類數(shù)據(jù)集,每個評論只包含一個句子,數(shù)據(jù)集有5 331條正面評論和5 331條負面評論。

      對以上三個數(shù)據(jù)集進行過濾詞共現(xiàn)矩陣的預處理,形成實驗所需的數(shù)據(jù)集,如表3。

      表3 數(shù)據(jù)集統(tǒng)計 個

      3.2 實驗環(huán)境與實驗結(jié)果

      本實驗的硬件環(huán)境為:64位Win10系統(tǒng),處理器為i5-9300H,內(nèi)存為16 GB RAM,顯卡為RTX2060。編程環(huán)境使用Python3.6.5,并結(jié)合tensorflow深度學習框架。

      選擇文本分類評價性能指標Precision描述該算法的精確度。為了防止模型運行的意外錯誤,運行任意模型5次之后取平均,得到均值,如表4。

      表4 不同數(shù)據(jù)集表現(xiàn)

      WC+GCN模型總體表現(xiàn)良好的原因分析如下:

      (1)構(gòu)建文本圖時使用了過濾詞共現(xiàn)信息的方法,在去除不必要單詞的同時,減少了算法運行的時間,同時,文本圖可以捕捉文檔和單詞之間以及全局的單詞與單詞之間的聯(lián)系。

      (2)WC+GCN模型中文檔節(jié)點的標簽信息可以傳遞給相鄰的詞節(jié)點,詞節(jié)點收集全面的文檔標簽信息,在文本圖中充當關(guān)鍵的連接,將標簽信息傳播到整個圖中。

      WC+GCN的方法在MR數(shù)據(jù)集表現(xiàn)不明顯的原因分析如下:

      (1)MR數(shù)據(jù)集是二元的情感分類數(shù)據(jù)集,數(shù)據(jù)集本身是電影的評論,大部分評論比較短,屬于短文本。TextCNN和LSTM則明確地對連續(xù)的單詞序列進行建模。而WC+GCN模型忽略了在情感分類中非常關(guān)鍵的語序問題,在實際構(gòu)建MR數(shù)據(jù)集的文本圖時,其圖的邊數(shù)比其他文本圖要少很多,這限制了在節(jié)點之間的消息傳遞。

      (2)CNN和LSTM依賴于來自外部語料庫的預先訓練好的單詞嵌入,而WC+GCN模型只使用目標輸入語料庫中的信息。

      設(shè)定WC+GCN模型的層數(shù)為K,在不同K值的情況下實驗。

      實驗結(jié)果如圖7所示,當K=3時,三個數(shù)據(jù)集的精確度都達到了最大值,因此WC+GCN模型的隱藏層數(shù)設(shè)置為3。

      圖7 不同K值情況下的精確度

      與卷積神經(jīng)網(wǎng)絡(luò)類似,圖卷積神經(jīng)網(wǎng)絡(luò)的卷積核類似于一個滑動的窗口。在選定K值為3的情況下,滑動窗口尺寸H分別為0、5、10、15、20、25、30時,3種數(shù)據(jù)集的精確度如圖8~10所示。

      圖8 20NG數(shù)據(jù)集在不同H值情況下的精確度(K=3)

      圖9 Ohsumed數(shù)據(jù)集在不同H值情況下的精確度(K=3)

      圖10 MR數(shù)據(jù)集在不同H值情況下的精確度(K=3)

      根據(jù)實驗結(jié)果,選擇隱藏層數(shù)K=3,滑動窗口尺寸H=15,測試不同文本分類方法對不同數(shù)據(jù)集的表現(xiàn)。

      最終,算法的分類性能如圖11和12所示,SVM、LSTM、TextCNN、DCNN、TextRNN、GCN和WC+GCN分別用不同的顏色以及填充圖案標出,WC+GCN方法的表現(xiàn)良好。

      圖11 在數(shù)據(jù)集Ohsumed的分類性能

      圖12 在數(shù)據(jù)集20NG的分類性能

      4 結(jié)束語

      圖卷積神經(jīng)網(wǎng)絡(luò)正處于迅速發(fā)展階段,提出了一種半監(jiān)督文本分類方法——WC-GCN。將整個語料庫構(gòu)建成一個異構(gòu)的文檔-單詞圖,并將文本分類問題轉(zhuǎn)化為一個文檔節(jié)點分類問題。WC-GCN模型能夠很好地捕捉全局詞的協(xié)同信息,利用有限的標記文本對未知的文本進行分類。實驗表明,一個三層的WC-GCN網(wǎng)絡(luò)結(jié)構(gòu)在三種數(shù)據(jù)集20NG、Ohsumed和MR的分類性能優(yōu)于SVM、LSTM、TextCNN、DCNN、TextRNN、GCN等分類方法。

      文本分類技術(shù)的應用前景十分廣闊,但同時也面臨更多的挑戰(zhàn)。除了文中提出的半監(jiān)督文本分類方法以外,還有許多可以改進的地方。未來針對文本分類的研究還可以從以下幾個方向進行:(1)隨著文本數(shù)據(jù)的日益擴增,短文本數(shù)據(jù)處理難度增加,這給文本分類領(lǐng)域帶來了更多的挑戰(zhàn)與機遇。(2)雖然改進后的文本分類方法有著不錯的表現(xiàn),但這是在一定程度上犧牲了時間成本換取的,如何在保證時間復雜度的前提下進一步提升文本分類的準確率是接下來研究的重點。

      猜你喜歡
      文檔卷積單詞
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      有人一聲不吭向你扔了個文檔
      單詞連一連
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      看圖填單詞
      基于傅里葉域卷積表示的目標跟蹤算法
      看完這些單詞的翻譯,整個人都不好了
      基于RI碼計算的Word復制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      彰武县| 磴口县| 崇阳县| 太仆寺旗| 融水| 扎囊县| 海伦市| 安徽省| 玉树县| 泗水县| 湟中县| 来安县| 冀州市| 宁明县| 左权县| 平顶山市| 天水市| 永年县| 永修县| 荔浦县| 宽甸| 晋州市| 金寨县| 崇左市| 灌南县| 郧西县| 雷州市| 东乡| 晴隆县| 永仁县| 金沙县| 荔波县| 屯门区| 新郑市| 进贤县| 利津县| 大姚县| 衡南县| 永定县| 泰来县| 永济市|