陳行健,胡雪嬌,薛 衛(wèi)
(南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,南京 210095)
詞袋模型源于文本處理領(lǐng)域,其原理是將目標(biāo)文檔看作若干無(wú)序單詞的集合,通過(guò)統(tǒng)計(jì)每個(gè)單詞在該文檔中出現(xiàn)的次數(shù),得到單詞頻率直方圖向量用于文本分類[1].傳統(tǒng)詞袋模型在機(jī)器學(xué)習(xí)與模式識(shí)別等領(lǐng)域均取得了較好的效果,但該模型假設(shè)特征單詞之間相互獨(dú)立,忽略了特征單詞之間的空間位置信息,在目標(biāo)對(duì)象的特征表示方面還存在局限性.為提高BoW模型的分類性能,提出了一些改進(jìn)算法.主要可分為三類:一是在局部特征提取階段選擇合適的特征,如Zhang等人提出采用ORB(Oriented Fast and Rotated BRIEF)描述子代替SIFT(Scale-Invariant Feature Transform)優(yōu)化圖像特征,從而提高了檢索效率[2];Xie等人通過(guò)分析鄰域像素和局部圖像,引入LQP(Local Quantized Pattern)構(gòu)建字典,取得了較好效果[3];二是在聚類分析過(guò)程中對(duì)字典進(jìn)行優(yōu)化,如Irfan等人通過(guò)對(duì)字典降維并使用TF_IDF(Term Frequency_Inverse Document Frequency)算法賦予相應(yīng)詞權(quán)重,解決了文本錯(cuò)誤匹配問(wèn)題[4];Zhu等人利用模糊均值(Fuzzy C-Means)代替K均值(K-Means)優(yōu)化字典,使初始聚類中心的選擇更加合理[5];三是在統(tǒng)計(jì)信息的基礎(chǔ)上融入空間位置信息,如Wang等人引入顯著區(qū)域提取,結(jié)合三角剖分方法融入圖像全局信息,得到了較好的預(yù)測(cè)效果[6];Li等人使用空間金字塔匹配技術(shù)(Spatial Pyramid Matching,簡(jiǎn)稱SPM),在圖像表示階段加入局部特征的空間位置信息,從而提高了分類性能[7];Ramesh等人提出上下文詞袋特征,結(jié)合空間共生矩陣對(duì)視覺(jué)詞組進(jìn)行特征表示,提高了圖像識(shí)別的準(zhǔn)確率[8].
雖然當(dāng)前的方法在不同領(lǐng)域均取得了較好的效果,但其中大部分算法仍然是針對(duì)局部特征提取或聚類分析過(guò)程進(jìn)行改進(jìn),而并未考慮聚類后得到的特征單詞之間的空間位置關(guān)系,且在結(jié)合特征單詞空間信息方面,所生成的單詞特征表達(dá)能力和區(qū)分度不足.因此,本文在傳統(tǒng)詞袋模型的基礎(chǔ)上,對(duì)聚類后得到的特征單詞提出位置關(guān)系圖譜,并與傳統(tǒng)詞袋特征相融合,可以使目標(biāo)對(duì)象的特征表述更具有代表性,從而提高分類性能.
本文主要以字符序列作為研究對(duì)象.字符序列被廣泛應(yīng)用于文檔、Web用戶訪問(wèn)日志、金融數(shù)據(jù)庫(kù)的交易序列以及生物信息領(lǐng)域的基因和蛋白質(zhì)序列等應(yīng)用中[9].近年來(lái),隨著大數(shù)據(jù)時(shí)代的來(lái)臨,字符數(shù)據(jù)庫(kù)呈現(xiàn)爆炸式的增長(zhǎng)趨勢(shì),字符序列的數(shù)據(jù)挖掘也逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域的重點(diǎn)研究?jī)?nèi)容.
傳統(tǒng)詞袋模型忽略特征單詞之間的詞序、語(yǔ)法及語(yǔ)義等要素,將目標(biāo)對(duì)象僅僅看作是由若干個(gè)無(wú)序單詞組成的集合,這種方法沒(méi)有考慮到特征單詞之間的空間位置信息,得到的詞袋特征表達(dá)能力和區(qū)分度不足.針對(duì)上述問(wèn)題,本文提出一種基于關(guān)系拓展的改進(jìn)詞袋模型,該模型在傳統(tǒng)詞袋模型的基礎(chǔ)上,對(duì)序列單詞提取位置關(guān)系圖譜,將得到的關(guān)系圖譜進(jìn)行特征轉(zhuǎn)換、降維并與傳統(tǒng)詞袋特征相融合作為模型最終特征.相比傳統(tǒng)詞袋模型,本文提出的模型能更加全面地反映目標(biāo)序列的特征分布規(guī)律.其流程如圖1所示.
圖1 基于關(guān)系圖譜的詞袋模型流程Fig.1 Process of BoW model based on relational graph
假定對(duì)于任意字符序列,首先對(duì)序列進(jìn)行分割處理提取局部特征,本文采用滑動(dòng)窗口分割法.滑動(dòng)窗口分割法即將每條字符序列按照一定窗口進(jìn)行切分,通過(guò)設(shè)定窗口大小和滑動(dòng)間距得到不同長(zhǎng)度和數(shù)量的序列片段,經(jīng)特征提取后得到序列單詞集合形成構(gòu)建字典的基礎(chǔ).這種方法能完整保留字符序列的全部信息.本文取滑動(dòng)間隔為1,滑動(dòng)窗口大小決定序列單詞長(zhǎng)度,需滿足以下條件:
(1)
其中L1,L2,…,Ln表示數(shù)據(jù)集中所有字符序列長(zhǎng)度,L即為數(shù)據(jù)集中最短字符序列長(zhǎng)度,d為滑動(dòng)窗口大小,即序列單詞長(zhǎng)度在L/2到L之間選取,具體值根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)選取.
分割后對(duì)序列片段進(jìn)行特征提取得到特征單詞,對(duì)特征單詞進(jìn)行K-Means聚類[10]構(gòu)建字典,將目標(biāo)序列的各個(gè)特征單詞映射到與之距離最近的聚類中心,則目標(biāo)序列可由若干個(gè)聚類中心唯一表示,即對(duì)于任意字符序列經(jīng)上述步驟后可表示為:
F=(x1,x2,x3,…,xn),1≤i≤n,n∈Z
(2)
其中F為目標(biāo)序列,xi表示序列F中第i個(gè)特征單詞片段所映射的聚類中心標(biāo)簽,n為序列切分長(zhǎng)度.
馬爾科夫模型是刻畫隨機(jī)過(guò)程的重要模型,具有極強(qiáng)的對(duì)動(dòng)態(tài)過(guò)程序列的建模能力和時(shí)序模式的分類能力[11].本文結(jié)合馬爾科夫模型對(duì)特征單詞提出位置關(guān)系圖譜.對(duì)于一個(gè)隨機(jī)過(guò)程,如果它所處的未來(lái)狀態(tài)僅與它的當(dāng)前狀態(tài)有關(guān),并且獨(dú)立于過(guò)去已發(fā)生的狀態(tài),那么該隨機(jī)過(guò)程被稱為馬爾科夫過(guò)程.對(duì)于任意有限狀態(tài)序列X={x1,x2,…,xt},用x1,x2,…,xt表示該狀態(tài)序列在T=1,2,…,t時(shí)刻所處的狀態(tài).則將滿足以下條件的狀態(tài)序列X稱為馬爾科夫鏈:
(3)
(4)
基于馬爾科夫鏈,則對(duì)于任意目標(biāo)序列F,假設(shè)x1,x2,…,xn表示該序列在N=1,2,…,n時(shí)刻所處的狀態(tài),則序列F在N時(shí)刻所處的狀態(tài)只與前面已出現(xiàn)的N-1個(gè)時(shí)刻的狀態(tài)有關(guān),序列F中任一時(shí)刻所處的狀態(tài)xN滿足以下條件函數(shù):
xN=g(xN-1,xN-2,…,x1)
(5)
如果假設(shè)影響序列F未來(lái)的當(dāng)前狀態(tài)僅有一個(gè),即序列F中任一時(shí)刻所處狀態(tài)xN僅取決于上一時(shí)刻所處狀態(tài)xN-1,那么上式將變?yōu)?
xN=g(xN-1)
(6)
在一個(gè)隨機(jī)馬爾可夫過(guò)程中,k階馬爾科夫鏈表示當(dāng)前狀態(tài)僅與前k個(gè)相鄰狀態(tài)有關(guān).則對(duì)于序列F中任意一個(gè)聚類中心xi,xi所映射的單詞片段僅與前面已出現(xiàn)的k個(gè)聚類中心所映射的單詞片段有關(guān),其中k為馬爾科夫相關(guān)系數(shù),1≤k≤i-1,k=1時(shí)表示當(dāng)前聚類中心xi僅與前面已出現(xiàn)的一個(gè)聚類中心xi-1有關(guān),k=i-1時(shí)表示當(dāng)前聚類中心xi與前面已出現(xiàn)的i-1個(gè)聚類中心有關(guān),則對(duì)于序列F,依次提取F中每個(gè)特征單詞與前面已出現(xiàn)過(guò)的特征單詞之間的相鄰關(guān)系,即可得到位置關(guān)系圖譜.本文k取i-1.具體算法思路如下:
(7)
其中m為聚類中心個(gè)數(shù),vij為矩陣D中任意元素值,對(duì)應(yīng)聚類片段(xi,xj)出現(xiàn)的次數(shù),矩陣的行和列分別對(duì)應(yīng)不同聚類中心標(biāo)簽.
提取算法過(guò)程如下:
輸入:目標(biāo)序列F,聚類中心個(gè)數(shù)m,序列切分長(zhǎng)度n,初始零矩陣D
輸出:位置關(guān)系矩陣
1)for(i=1;i≤n;i++)
2)for(j=i-k;j≤i-1;j++)
3)D(xi,xj)+=1
4) 重復(fù)步驟3)直至j=i-1
5)vij=D(xi,xj)
6) 重復(fù)步驟5)直至i=n
7) 輸出D
目標(biāo)序列F經(jīng)上述步驟后被表示成一個(gè)m*m的位置關(guān)系矩陣,將矩陣轉(zhuǎn)化為關(guān)系圖譜,圖譜中各個(gè)不同亮度的像素點(diǎn)分別代表相應(yīng)聚類片段出現(xiàn)的次數(shù).當(dāng)馬爾科夫系數(shù)k=1時(shí),提取過(guò)程如圖2所示.
圖2 詞袋關(guān)系圖譜提取步驟Fig.2 Extraction process of BoW relational graph
經(jīng)上述步驟得到的關(guān)系圖譜以二維矩陣的形式存在,如果直接展開(kāi)進(jìn)行串接表示數(shù)據(jù)量過(guò)大,訓(xùn)練分類器時(shí)的內(nèi)存和時(shí)間消耗代價(jià)過(guò)高.一般用池化的方法來(lái)為特征向量降維.池化操作常用于圖像處理領(lǐng)域,對(duì)圖像不同位置的特征進(jìn)行聚合統(tǒng)計(jì),提取有效特征,減少計(jì)算量.常用的池化方法有最大池化(Max-pooling)[12]和平均池化(Mean-pooling)[13].Max-pooling即對(duì)鄰域內(nèi)特征點(diǎn)取最大值,能更多的保留圖像的背景信息,而Mean-pooling則是對(duì)鄰域內(nèi)特征點(diǎn)求平均值,能更多的保留圖像的紋理信息.考慮到對(duì)矩陣直接進(jìn)行池化可能會(huì)丟失部分信息,因此本文使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,簡(jiǎn)稱CNN)對(duì)矩陣進(jìn)行特征轉(zhuǎn)換.
已有研究表明,卷積神經(jīng)網(wǎng)絡(luò)的全連接層能更為全面的捕捉到全局空間的布局信息,因此本文直接提取全連接層的輸出作為關(guān)系圖譜的特征表示.考慮到經(jīng)上述步驟得到的關(guān)系圖譜比較稀疏,為了進(jìn)一步提高CNN模型的魯棒性,本文借鑒自然語(yǔ)言處理中的詞嵌入方法對(duì)稀疏圖譜進(jìn)行密集表示.詞嵌入是將詞的稀疏向量轉(zhuǎn)換為稠密向量的一類方法.具體方法是隨機(jī)生成一個(gè)m*m的權(quán)重矩陣,將上文得到的關(guān)系圖譜矩陣映射到隨機(jī)權(quán)重矩陣,則矩陣中每一個(gè)維度都被轉(zhuǎn)化為密集向量的形式,該過(guò)程的輸出即為密集圖譜[14].將密集處理后的關(guān)系圖譜送入CNN進(jìn)行深度特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.
圖3 CNN模型結(jié)構(gòu)Fig.3 Model structure of CNN
卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、下采樣層、全連接層和輸出層等五個(gè)部分組成.其中,輸入層即為關(guān)系圖譜X,卷積層則通過(guò)制定不同的窗口值對(duì)X進(jìn)行特征提取,池化層使用最大池化對(duì)特征圖進(jìn)行降維來(lái)減少后續(xù)層的參數(shù).全連接層將卷積層或者池化層中具有類別區(qū)分性的分布式特征映射到高維向量輸出.本文采用糾正線性單元(Rectified Linear Unit,簡(jiǎn)稱ReLU)作為激活函數(shù).為了有效地緩解訓(xùn)練過(guò)程中的過(guò)擬合現(xiàn)象,在卷積層和全連接層中均使用了Dropout技術(shù),經(jīng)驗(yàn)值取0.5.實(shí)驗(yàn)選取Cross-Entropy作為損失函數(shù),并引入Weight-Decay對(duì)參數(shù)進(jìn)行正則化,提取全連接層的輸出作為關(guān)系圖譜的最終特征表示,其向量維度為p.
基于關(guān)系圖譜的特征表示方法雖引入了局部特征的空間位置信息,但其缺少特征單詞的全局統(tǒng)計(jì)信息,分類性能仍有待提高.因此本文利用多特征融合的方式對(duì)圖譜特征及詞袋特征進(jìn)行進(jìn)一步處理以提高模型精度.將提取到的兩種不同的特征向量拼接形成最終特征,經(jīng)過(guò)融合后的特征向量能更加全面地反映目標(biāo)序列的全局信息,其最終表示為:
V=[vt1,vt2,vt3,…,vtm,vs1,vs2,vs3,…,vsp]
(8)
其中vt為詞袋特征向量,vs為位置特征向量,m和p分別代表相應(yīng)特征向量維數(shù).由于拼接后得到的向量維數(shù)較大,因此本文使用主成分分析(Principal Component Analysis,簡(jiǎn)稱PCA)的方法進(jìn)行降維.將降維后的數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化后作為模型最終向量送入分類器進(jìn)行分類.
為檢驗(yàn)?zāi)P托阅?將其應(yīng)用到蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)研究中.蛋白質(zhì)亞細(xì)胞區(qū)間定位對(duì)于確定蛋白質(zhì)功能、設(shè)計(jì)藥物靶標(biāo)、揭示分子交互機(jī)理等方面都有很大的促進(jìn)作用,是生物數(shù)據(jù)挖掘中的研究熱點(diǎn)[15-19].蛋白質(zhì)序列是由20 種氨基酸殘基以不同的字母形式組合而成的生物字符序列.蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)即根據(jù)蛋白質(zhì)序列預(yù)測(cè)其所處的亞細(xì)胞區(qū)間,屬于分類問(wèn)題.
本文使用Pytorch作為深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境為:Intel Core E5-2650 v4 CPU,2.2GHz主頻,GTX 1080Ti顯卡*2,16G內(nèi)存,1T硬盤.Windows10操作系統(tǒng),Anaconda開(kāi)發(fā)平臺(tái).
在蛋白質(zhì)亞細(xì)胞區(qū)間定位研究中,傳統(tǒng)實(shí)驗(yàn)方法所需時(shí)間周期較長(zhǎng),人工標(biāo)注完善的蛋白質(zhì)序列數(shù)據(jù)庫(kù)規(guī)模有限.本文采用國(guó)際公認(rèn)有效且使用較為廣泛的ZD98、ZW225及CL317作為實(shí)驗(yàn)數(shù)據(jù)集.其中ZD98由Zhou和Doctor[16]構(gòu)建,共有98條蛋白質(zhì)序列,分為4個(gè)亞細(xì)胞區(qū)間類別;ZW225由Zhang等人[17]構(gòu)建,共有225條蛋白質(zhì)序列,分為4個(gè)亞細(xì)胞區(qū)間類別;CL317由Chen和Li[18]構(gòu)建,共有317條蛋白質(zhì)序列,分為6個(gè)亞細(xì)胞區(qū)間類別.
實(shí)驗(yàn)基于一對(duì)一算法(one-versus-one)構(gòu)造支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)多類分類器進(jìn)行預(yù)測(cè).采用Jackknife進(jìn)行假設(shè)檢驗(yàn).Jackknife是蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中使用最多的測(cè)試方法,即每次從數(shù)據(jù)集中取出一條蛋白質(zhì)序列作為測(cè)試集,其余序列作為訓(xùn)練集送入分類器進(jìn)行訓(xùn)練,以此類推直至所有序列均預(yù)測(cè)完畢,是一種客觀有效的假設(shè)檢驗(yàn)方法[19].本文使用準(zhǔn)確率(Acc)作為最終評(píng)價(jià)指標(biāo),其定義如下:
(9)
其中,TPi代表第i類蛋白質(zhì)序列亞細(xì)胞區(qū)間預(yù)測(cè)正確的條數(shù),FNi代表第i類蛋白質(zhì)序列亞細(xì)胞區(qū)間預(yù)測(cè)錯(cuò)誤的條數(shù),M為蛋白質(zhì)亞細(xì)胞區(qū)間類別總數(shù).
為了驗(yàn)證本文模型的有效性,將本文方法在三種數(shù)據(jù)集上的預(yù)測(cè)結(jié)果列于表1中,同時(shí)將選取的在蛋白質(zhì)亞細(xì)胞區(qū)間定位中具有代表性的氨基酸組成(Amino acid composition,簡(jiǎn)稱AAC)算法[20]、偽氨基酸組成(Pseudo Amino acid composition,簡(jiǎn)稱PseAAC)算法[15]及二肽組成(Dipeptide,簡(jiǎn)稱Dipe)算法[21]得到的預(yù)測(cè)結(jié)果一并列出,如表中AAC、PseAAC及Dipe所示,其中Dipe是蛋白質(zhì)序列特征表示方法中使用較多的位置信息提取算法.
基于關(guān)系圖譜的特征表示方法在實(shí)際應(yīng)用中也取得了不錯(cuò)的效果,為了便于比較,本文也列出了基于各種序列位置特征提取算法的實(shí)驗(yàn)結(jié)果.其中Markov為Bulashevska等人通過(guò)計(jì)算蛋白質(zhì)序列在一階馬爾科夫鏈下的狀態(tài)轉(zhuǎn)移矩陣進(jìn)行預(yù)測(cè)的實(shí)驗(yàn)結(jié)果[22];Seq_Index為L(zhǎng)iao等人基于橫向和縱向編碼整合氨基酸殘基位置分布信息進(jìn)行預(yù)測(cè)的實(shí)驗(yàn)結(jié)果[23];Bow_Index為本文結(jié)合傳統(tǒng)詞袋模型基于Liao等人的實(shí)驗(yàn)方法提取片段位置信息進(jìn)行預(yù)測(cè)的結(jié)果;Bow_Matrix為將本文關(guān)系圖譜作為最終特征表示進(jìn)行預(yù)測(cè)的結(jié)果.
此外,本文列出了Zhao等人將傳統(tǒng)詞袋模型應(yīng)用到相同數(shù)據(jù)集進(jìn)行預(yù)測(cè)的實(shí)驗(yàn)結(jié)果[24],如表中BoW所示,同時(shí)也進(jìn)行了多次基于不同改進(jìn)算法的預(yù)測(cè)實(shí)驗(yàn).其中TF_IDF為文獻(xiàn)[4]中的詞頻-逆文檔頻率算法;FCM為文獻(xiàn)[5]中的模糊均值聚類算法;SPM為文獻(xiàn)[7]中的空間金字塔匹配算法.不同對(duì)比算法在局部特征提取階段均使用AAC進(jìn)行特征提取,預(yù)測(cè)時(shí)均使用SVM作為最終分類器,最終比較結(jié)果如表1所示.
表1 數(shù)據(jù)集預(yù)測(cè)準(zhǔn)確率比較
Table 1 Comparison of the accuracy of data sets
MethodsZD98ZW225CL317AAC[20]0.80610.80440.8196PseAAC[15]0.83330.82670.8228Dipe[21]0.82290.81780.8196Markov[22]0.88780.83110.7911Seq_Index[23]0.86730.84780.8386Bow_Index0.88780.84000.8611Bow_Matrix0.91890.84450.8924BoW[24]0.90820.86220.8829TF_IDF0.89790.86220.8544FCM0.89790.85780.8924SPM0.86730.84890.8386Max_Pooling0.88780.83110.8228Mean_Pooling0.86730.84000.8196Bow_Flatten0.90820.85780.8924Our0.94890.89780.9304
從表1可以看出,本文模型相比傳統(tǒng)蛋白質(zhì)序列特征提取算法AAC、PseAAC和Dipe等在ZD98、ZW225和CL317數(shù)據(jù)集的總體預(yù)測(cè)精度上最大提升了約11個(gè)百分點(diǎn),實(shí)驗(yàn)證明本文模型能有效增加蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)的準(zhǔn)確率.對(duì)比Dipe、Seq_Index與Bow_Matrix的實(shí)驗(yàn)結(jié)果,進(jìn)一步證實(shí)了本文關(guān)系圖譜對(duì)序列位置特征提取的有效性.將本文方法與基于傳統(tǒng)詞袋模型(BoW)及其改進(jìn)算法(TF_IDF,FCM,SPM)的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,在相同數(shù)據(jù)集上的準(zhǔn)確率也都提高了約2到5個(gè)百分點(diǎn),實(shí)驗(yàn)表明本文模型較傳統(tǒng)詞袋模型及其改進(jìn)算法具有顯著優(yōu)勢(shì).
對(duì)比Markov、Bow_Index與Bow_Matrix的實(shí)驗(yàn)結(jié)果可知,就蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)研究而言,經(jīng)詞袋模型處理后的蛋白質(zhì)序列所表示的單詞信息量比單個(gè)字符更加豐富,其相鄰切片類別的先驗(yàn)知識(shí)信息優(yōu)于只考慮序列相鄰氨基酸殘基關(guān)系的先驗(yàn)信息,故其預(yù)測(cè)精度優(yōu)于基于位置先驗(yàn)信息的馬爾可夫算法.
對(duì)于關(guān)系矩陣,文獻(xiàn)[12,13]中有多種處理算法,如將矩陣直接串接形成一維向量(Bow_Flatten),及當(dāng)前應(yīng)用較廣泛的池化算法(Max_Pooling,Mean_Pooling),提取關(guān)系矩陣每一列的最大值或平均值,然后串接形成一維向量等.實(shí)驗(yàn)結(jié)果表明,直接連接形成一維向量會(huì)造成維數(shù)災(zāi)難,降低模型精度,池化提取特征又忽略掉關(guān)系矩陣每一列的大量信息,導(dǎo)致特征表達(dá)能力不足,通過(guò)CNN提取關(guān)系圖譜的全局信息,能更加全面地反映序列位置特征的分布規(guī)律,提高分類準(zhǔn)確率.
本文提出了一種基于關(guān)系拓展的詞袋模型,引入位置關(guān)系圖譜對(duì)聚類單詞提取位置信息,并與統(tǒng)計(jì)信息相融合作為模型最終特征,對(duì)提升傳統(tǒng)詞袋模型特征表達(dá)能力方面具有重要意義.實(shí)驗(yàn)表明,本文提出的關(guān)系圖譜能有效解決傳統(tǒng)詞袋模型中統(tǒng)計(jì)信息區(qū)分度不足的問(wèn)題,改進(jìn)了傳統(tǒng)詞袋模型的應(yīng)用性能.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)系圖譜進(jìn)行特征提取,相比池化等方法效果更優(yōu).此次針對(duì)傳統(tǒng)詞袋模型進(jìn)行了一些改進(jìn),在字符序列特征提取方面做了研究工作并取得了一些成果,接下來(lái)將在對(duì)稀疏矩陣的特征提取算法上做進(jìn)一步的改進(jìn),并嘗試在其他應(yīng)用領(lǐng)域做進(jìn)一步的拓展,重點(diǎn)關(guān)注圖像識(shí)別以及文本分類等.