俸世洲
(重慶師范大學(xué)涉外商貿(mào)學(xué)院,401520)
基于自編碼神經(jīng)網(wǎng)絡(luò)的文本表示應(yīng)用研究
俸世洲
(重慶師范大學(xué)涉外商貿(mào)學(xué)院,401520)
本文主要研究高校招生領(lǐng)域Web短文本的表示方法及處理步驟。基于自編碼神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的要求,研究文本預(yù)處理的主要技術(shù):中文分詞、停用詞處理、降維處理,文本向量化表示等技術(shù),并分析了文本表示的處理流程。
高校招生自編碼;中文分詞;文本表示
隨著互聯(lián)網(wǎng)的發(fā)展,留言板、QQ、微信等媒體在招生工作中的應(yīng)用越來(lái)越頻繁,積累了越來(lái)越多的電子文本數(shù)據(jù),如何有效地利用這些大數(shù)據(jù)資源已經(jīng)成為招生領(lǐng)域急需解決的問(wèn)題。為從這些數(shù)據(jù)資源中挖掘有利于改進(jìn)招生工作的信息,嘗試?yán)卯?dāng)下最熱門(mén)的深度學(xué)習(xí)算法來(lái)挖掘文本數(shù)據(jù),基于此算法必須找出一個(gè)適應(yīng)其輸入的文本表示方法,本文分別從中文分詞、停用詞處理、降維處理、文本向量化表示等技術(shù)入手,分析文本表示的處理流程。
分詞處理具體包括了若干步驟,如圖1所示:
圖1 中文分詞處理流程
(1)從留言板后臺(tái)獲取數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)為MDB格式,只保留留言主題、留言問(wèn)題及問(wèn)題回復(fù)三個(gè)字段,把其余字段去除,這三個(gè)字段包含的信息量最大,其中包含了考生咨詢(xún)的主題、具體細(xì)節(jié)以及回復(fù)人員的解答。通過(guò)數(shù)據(jù)庫(kù)工具把這三個(gè)字段導(dǎo)出到文本編輯工具當(dāng)中。
(2)利用文本編輯工具如記事本、word或excel,去除HTML代碼及多余的符號(hào)。由后臺(tái)數(shù)據(jù)庫(kù)導(dǎo)出的數(shù)據(jù)當(dāng)中存在很多HTML代碼,如:<font color="#cc0000">回復(fù)內(nèi)容</font>,需要手動(dòng)去除掉,保留純文本的部份。
(3)目前應(yīng)用比較廣泛的中文分詞工具有NLPIR/ICTCLAS分詞系統(tǒng)和教育部語(yǔ)言文字應(yīng)用研究所的分詞和詞性標(biāo)注程序。本文選用后者用于試驗(yàn),此系統(tǒng)可以對(duì)文件進(jìn)行批量處理,并同時(shí)標(biāo)注詞性,利于下一步去除停用詞等工作。如圖2所示:
(4)分詞和詞性標(biāo)注完成后,得到分詞及標(biāo)注后的文本文件,從中可區(qū)分出名詞、動(dòng)詞、停用詞、嘆詞等詞性。去除停用詞等不需要的詞,這也是對(duì)文本進(jìn)行降維的方式。
通過(guò)以上幾步的處理,輸出純文本文件,準(zhǔn)備下一步的文本向量化表示。
圖2 分詞和詞性標(biāo)注程序
文本文檔是字符的集合,是非結(jié)構(gòu)化信息,神經(jīng)網(wǎng)絡(luò)不能識(shí)別,必須將其轉(zhuǎn)換成統(tǒng)一的結(jié)構(gòu)化形式,才能夠進(jìn)行進(jìn)一步的分析和處理。1975年,Salton提出的向量空間模型(Vector Space Model)是文本分類(lèi)中應(yīng)用最廣泛的一種文本表示模型。在該模型中,所有出現(xiàn)在文本中的特征項(xiàng)被作為向量空間中的一維,n個(gè)特征項(xiàng)就構(gòu)成一個(gè)n維的特征向量空間。每一篇文檔都表示成一組特征詞組成的特征向量,其中表示特征詞k在特征向量中的權(quán)重。權(quán)值的取值范圍為[0,1]。
向量空間中,主要有以下幾種權(quán)重計(jì)算方式:布爾加權(quán)法,詞頻加權(quán)法,加權(quán)法。假設(shè)為特征項(xiàng)在文檔,出現(xiàn)的頻率,n為文檔集中文檔總數(shù),為在文檔集中出現(xiàn)文檔特征項(xiàng)的文檔數(shù)量。
(1)布爾加權(quán)法
布爾權(quán)重也叫二值權(quán)重或二元權(quán)重,是最簡(jiǎn)單的權(quán)重計(jì)算方法。如公式1所示,當(dāng)特征項(xiàng)出現(xiàn)在文檔中時(shí),權(quán)重為1,否則為0。
即,公式1
(2)詞頻加權(quán)法
用特征頻度作為權(quán)重。即。
(3)加權(quán)法
加權(quán)法是使用比較廣泛的權(quán)重計(jì)算方法。特征在文本中出現(xiàn)次數(shù)越多,越重要;特征在越多的文本中出現(xiàn),越不重要。即,。
基于自編碼神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的要求,并且留言板文本屬于Web短文本,用布爾加權(quán)法來(lái)表示更加適用。本文選擇布爾加權(quán)法表示文本向量。詞頻統(tǒng)計(jì)工具我們采用教育部語(yǔ)言文字應(yīng)用研究所的字詞頻率統(tǒng)計(jì)工具,如圖3所示:
統(tǒng)計(jì)過(guò)后,去除出現(xiàn)頻率過(guò)高或過(guò)低的詞,并構(gòu)建特征詞表。最后通過(guò)程序構(gòu)造出布爾編碼向量,形成自編碼神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。
圖3 字詞頻率統(tǒng)計(jì)工具
本文通過(guò)一個(gè)文本預(yù)處理實(shí)例分析了中文分詞、停用詞處理、降維處理、文本向量化表示等技術(shù)的實(shí)施步驟,并為后期的文本分類(lèi)等工作做好數(shù)據(jù)準(zhǔn)備。
[1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.
[2] 楊杰明. 文本分類(lèi)中文本表示模型和特征選擇算法研究[D].長(zhǎng)春:吉林大學(xué),2013
1981年9月出生;工作單位:重慶師范大學(xué)涉外商貿(mào)學(xué)院;重慶大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專(zhuān)業(yè)碩士,助理研究員職稱(chēng),研究方向:數(shù)據(jù)挖掘,人工智能,人工神經(jīng)網(wǎng)絡(luò)
Research indicates neural network based on self-encoding text
Feng Shizhou
(Chongqing Normal University Foreign Trade And Business College,401520)
This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.
College Admissions self-encoding;Chinese word;text representation
項(xiàng)目支持:重慶市教委科學(xué)技術(shù)研究項(xiàng)目KJ1501703重慶師范大學(xué)涉外商貿(mào)學(xué)院科研項(xiàng)目KY2015004