聶維 劉小豫 康世英
【摘? 要】特征提取是當(dāng)前關(guān)于文本挖掘、自然語(yǔ)言處理、信息檢索、文本情感分析和網(wǎng)絡(luò)輿情分析等領(lǐng)域的研究重難點(diǎn)。一方面,特征提取是基于文本挖掘系統(tǒng)的基本因素;另一方面,從文本分類結(jié)果的角度而言,文本特征提取性能是分類結(jié)果的重要衡量指標(biāo)。因此,論文詳細(xì)地闡述了傳統(tǒng)的文本特征提取方法和深度學(xué)習(xí)視域下的文本特征提取方法,并對(duì)基于深度學(xué)習(xí)視域下的文本特征提取方法在實(shí)際應(yīng)用中出現(xiàn)的問題進(jìn)行分析和創(chuàng)新,以期能夠幫助提高提取效率和提取質(zhì)量。
【Abstract】Feature extraction is an important and difficult topic in the field of text mining, natural language processing, information retrieval, text sentiment analysis and network public opinion analysis. On the one hand, feature extraction is the basic factor of text mining system; on the other hand, from the perspective of text classification results, text feature extraction performance is an important measure of classification results. Therefore, this paper elaborates the traditional text feature extraction methods and text feature extraction methods from the perspective of deep learning, and analyzes and innovates the problems in the practical application of text feature extraction methods from the perspective of deep learning, so as to help improve the extraction efficiency and quality.
【關(guān)鍵詞】深度學(xué)習(xí);文本特征;提取方法;自然語(yǔ)言處理
【Keywords】deep learning; text feature; extraction method; natural language processing
【中圖分類號(hào)】TP391.1;TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2020)09-0190-02
1 當(dāng)前對(duì)文本特征提取的主要方法
隨著信息技術(shù)的不斷發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)的應(yīng)用已經(jīng)成為日常生活中不可缺少的組成部分。隨著近年來(lái)云計(jì)算應(yīng)用和大數(shù)據(jù)的興起,網(wǎng)絡(luò)中所存儲(chǔ)的文件數(shù)量和內(nèi)容都越來(lái)越多,越來(lái)越廣泛。在保證大量存儲(chǔ)文件中的文本信息能夠得到有效管理和組織的基礎(chǔ)上,如何快速、準(zhǔn)確地獲取到文本信息中的內(nèi)容成為當(dāng)前文本挖掘、信息檢索或是網(wǎng)路輿情信息分析等行業(yè)首要解決的問題。由于網(wǎng)絡(luò)文本信息內(nèi)容具有多樣性、復(fù)雜性、不規(guī)范性和冗余性的特點(diǎn),因此,在對(duì)網(wǎng)絡(luò)文本信息進(jìn)行特征提取時(shí)首先要對(duì)高緯度特征進(jìn)行降維。另一方面,在高緯度特征空間中,提取最優(yōu)特征子集也可以歸納至特征提取方法中。但就目前的提取方法而言,主要分為Filter過濾式和Wrapper封裝式兩種提取方式。特征提取方式作為文本分類的關(guān)鍵,對(duì)于文本分類的好壞起到直接的影響作用。一是由于特征提取的方式不同對(duì)于所提取內(nèi)容的特征子集優(yōu)劣不同。二是在特征提取過程中,要選擇出能夠有效展示信息完整性的子集特征,才能夠最大限度地保證文本分類的質(zhì)量。
1.1 Wrapper封裝式特征選擇算法
Wrapper封裝式的提取方法相較于Filter過濾式的提取方法在很大程度上會(huì)過于依賴監(jiān)督式機(jī)器的學(xué)習(xí)技術(shù)。監(jiān)督學(xué)習(xí)主要是指在特征選擇的過程中,對(duì)于特征子集的訓(xùn)練和學(xué)習(xí)。監(jiān)督式機(jī)器根據(jù)所訓(xùn)練的內(nèi)容和特征對(duì)于特征子集產(chǎn)生一定的判斷結(jié)果,并對(duì)其優(yōu)劣進(jìn)行評(píng)定。由于監(jiān)督機(jī)器需要設(shè)定固定的訓(xùn)練模型,因此,對(duì)于數(shù)據(jù)較為龐大的樣本時(shí)仍然具有較大的局限性。
1.2 Filter過濾式特征選擇算法
Filter過濾式作為一項(xiàng)效率高、運(yùn)算快的特征選擇提取方式,相比較于Wrapper封裝式的提取方法具有一定的獨(dú)立性,它是不依賴于訓(xùn)練集和監(jiān)督機(jī)器的。Filter過濾式特征選擇算法主要是根據(jù)特定的評(píng)估函數(shù)的運(yùn)算,選擇出最能夠體現(xiàn)文本類別特征的合集。剛開始特征類別的合集僅僅是作為特征空間的子集存在的,在經(jīng)過不同函數(shù)的評(píng)估和判定之后,得出相應(yīng)的特征合集。目前Filter過濾式特征選擇算法包括距離測(cè)度、信息測(cè)度、一致性測(cè)度和相關(guān)性測(cè)度四個(gè)方面。
2 深度學(xué)習(xí)視域下的文本特征提取方法
特征提取作為機(jī)器學(xué)習(xí)中較為重要的特征工程任務(wù),是相關(guān)處理機(jī)器所需要學(xué)習(xí)的重要內(nèi)容之一,同時(shí)在數(shù)據(jù)挖掘和信息檢索中也起著不可忽視的作用。就目前來(lái)看,在機(jī)器學(xué)習(xí)的眾多人物中,特征提取往往在起著決定性作用。一方面,在常用類任務(wù)方面,分類結(jié)果是取決于特征提取的質(zhì)量。另一方面,在傳統(tǒng)的特征提取方法中,人工提取是主要的提取手段,這種提取方法包含了冗余的分類任務(wù)和提取特征,使得人工提取難度增加,無(wú)論是在質(zhì)量方面還是在效率方面都具有一定的局限性。為了解決這一問題的困擾,大多是對(duì)任務(wù)特征進(jìn)行降維,在保證特征提取質(zhì)量時(shí),又加大了工作量。因此,傳統(tǒng)的特征提取方式并不能很好地滿足當(dāng)前社會(huì)的需求。
近年來(lái),隨著我國(guó)信息技術(shù)的不斷發(fā)展,對(duì)于特征提取的相關(guān)技術(shù)手段的研究?jī)?nèi)容也不斷增加。其中較為著名的有使用多個(gè)卷積層與池化層的卷積網(wǎng)絡(luò)來(lái)對(duì)高光譜圖像的特征進(jìn)行提取,并通過實(shí)驗(yàn)后具有不錯(cuò)的檢測(cè)效果。在文本特征提取方面,主要是關(guān)于基于深度學(xué)習(xí)的特征提取方法居多,其中包括自編碼的神經(jīng)網(wǎng)絡(luò)特征提取、受限波茲曼機(jī)特征提取和循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取等。這些基于深度學(xué)習(xí)理念的特征提取方法不僅對(duì)傳統(tǒng)詞袋模型進(jìn)行了探討,同時(shí)對(duì)非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)特征提取方法也提供了一定的借鑒材料。因此,在這一時(shí)期內(nèi),結(jié)合深度學(xué)習(xí)理念的特征提取稱為研究熱點(diǎn)。
目前,基于深度學(xué)習(xí)理念的特征提取技術(shù)在圖像領(lǐng)域的應(yīng)用不斷加強(qiáng),而有關(guān)于文本特征提取的報(bào)道卻并不多見。在對(duì)中文文本提取特征的研究成果中,相關(guān)的研究?jī)?nèi)容更是稀缺。而傳統(tǒng)的手工特征提取方法不僅維度較大,同時(shí)也具有效率低和耗費(fèi)資源等問題。因此,深度學(xué)習(xí)作為近年來(lái)文本特征提取的重要指導(dǎo)思想,對(duì)文本特征的提取難度和特征提取效率都具有一定的幫助。
因此,在本文中,對(duì)基于深度學(xué)習(xí)視域下的特征提取方法主要從卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)兩種處理方式來(lái)展開。同時(shí)對(duì)于兩種方式下的特征提取方式作了詳細(xì)的解釋,以期能夠更為準(zhǔn)確地表達(dá)出文本信息的內(nèi)容,從而獲得更好的分類效果。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于特征提取方面的應(yīng)用,更為常用的是在計(jì)算機(jī)視覺領(lǐng)域并且相關(guān)的應(yīng)用技術(shù)都已經(jīng)趨于成熟。隨著深度學(xué)習(xí)理念的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也被越來(lái)越多的學(xué)者應(yīng)用于自然語(yǔ)言的處理領(lǐng)域,并且取得了較好的實(shí)驗(yàn)效果。在當(dāng)前的文本特征提取中,卷積神經(jīng)網(wǎng)絡(luò)更常見地應(yīng)用于對(duì)任務(wù)的分類中,分類效果良好。
2.1.1 TF-IDF
TF-IDF(term frequency-inverse document frequency)是在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的組成部分之一,是基于統(tǒng)計(jì)學(xué)的應(yīng)用技術(shù)之一,主要是用來(lái)計(jì)算詞權(quán)重的方法之一,同時(shí)也是特征向量化的常用方法。TF-IDF目前更多地應(yīng)用于信息檢索和數(shù)據(jù)挖掘等方面,該方法不僅能夠準(zhǔn)確地評(píng)估某一個(gè)具體文檔在語(yǔ)料庫(kù)或其他文檔中的重要程度,還能夠詳細(xì)地分析出某一文件的具體權(quán)重,從而幫助區(qū)分文檔的獨(dú)立性。
2.1.2 Word2vec
Word2vec是與TF-IDF相似的,是作為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的組成部分之一。而不同的地方主要體現(xiàn)在,TF-IDF主要是對(duì)文本權(quán)重的分析,而Word2vec則是詞嵌入工具。這種詞嵌入工具最早源于谷歌,同時(shí)也是在自然語(yǔ)言處理領(lǐng)域中較為常用的一種詞嵌入方式。在理論上,Word2vec是通過將每個(gè)特征詞映射至向量空間,并通過其中的某一個(gè)向量表現(xiàn)出來(lái)。通過所表現(xiàn)的向量來(lái)刻畫出具體的文本語(yǔ)言信息,從而使計(jì)算機(jī)特征之間的相關(guān)性更為明顯。Word2vec作為詞嵌入工具主要有兩種模型:一是跳字模型。跳字模型是根據(jù)文本中的中心詞來(lái)預(yù)測(cè)上下文的背景,同時(shí)根據(jù)檢測(cè)特征詞來(lái)調(diào)整中心詞的詞向量。二是連續(xù)詞袋模型。連續(xù)詞袋模型不同于跳字模型,主要是依據(jù)上下文的背景來(lái)預(yù)測(cè)中心詞,而后根據(jù)上下文之間的區(qū)別和變化來(lái)不斷調(diào)整中心詞的詞向量。
2.2 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相較于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而言,更具有局部特征的提取優(yōu)勢(shì),這主要是因?yàn)殚L(zhǎng)短期的記憶網(wǎng)絡(luò)更能夠捕捉上下文信息。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)λ枰崛〉奈谋具M(jìn)行多組特征提取,并對(duì)所提取的多組文本特征進(jìn)行池化,從而得到文本內(nèi)容中較為重要的特征,最后再由提取出的重要特征送入LSTM神經(jīng)網(wǎng)絡(luò)檢測(cè),并得出最終結(jié)果。
3 結(jié)論
本文詳細(xì)地闡述了傳統(tǒng)的文本特征提取方式和基于深度學(xué)習(xí)理念下的本文特征提取方式,并對(duì)不同的特征提取方法作了一定的比較和探討。在特征提取方面,要充分考慮到本內(nèi)容中特征詞的詞性,位置分布和相互之間的關(guān)系,只有充分考慮到這些因素,才能夠?qū)⑻卣魈崛『头诸惙椒ㄍ昝澜Y(jié)合,才能夠?qū)μ卣魈崛〉膬?nèi)容進(jìn)一步完善。
【參考文獻(xiàn)】
【1】聶維,劉小豫.深度學(xué)習(xí)視域下的文本表示方法研究[J].科技資訊,2019,17(18):30+32.
【2】龐景安.Web文本特征提取方法的研究與發(fā)展[J].情報(bào)理論與實(shí)踐,2006(03):338-340+367.