張健
(成都文理學(xué)院,四川成都,610401)
為保證大數(shù)據(jù)文本自動分類處理系統(tǒng)能夠安全穩(wěn)定的運行,可選擇Hadoop 分布式計算平臺,該平臺是云計算背景下,誕生的先進(jìn)的系統(tǒng)運行平臺。Hadoop 分布式計算平臺可為文本自動分類處理系統(tǒng)設(shè)計提供一個分布式系統(tǒng)集成框架,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,發(fā)布分布式程序,利用集群的高速運算和存儲。而且該平臺中的分布式文件系統(tǒng)由一個管理結(jié)點和N 個數(shù)據(jù)結(jié)點共同組成,在每個結(jié)點上可布置一臺計算機。存儲在HDFS 中的文件可被細(xì)分為多個小塊,滿足用戶創(chuàng)建文件的需求,而且HDFS 內(nèi)部的通信都是基于標(biāo)準(zhǔn)的TCP/IP 協(xié)議,可為文本自動分類處理系統(tǒng)設(shè)計提供良好條件。
先進(jìn)性和可用性。在文本自動分類處理系統(tǒng)設(shè)計中,要尋找現(xiàn)已成熟的B/S 架構(gòu)、C/S 架構(gòu)、JAVA 語言,同時學(xué)習(xí)和借鑒目前比較成功的案例,以保證系統(tǒng)具有良好的可用性。
標(biāo)準(zhǔn)性和共享性。在設(shè)計中需要嚴(yán)格遵循開發(fā)標(biāo)準(zhǔn)流程,為提升跨平臺使用,需要按照標(biāo)準(zhǔn)接口設(shè)計跨平臺可互聯(lián)的接口, 既要支持都中平臺使用,也要設(shè)置多種網(wǎng)絡(luò)傳輸協(xié)議,提升數(shù)據(jù)信息的共享效率。
開放性和可擴展。云計算自身就具有很強的開放性,任何都可以使用,這就需要文本自動分類處理系統(tǒng)在設(shè)計中要充分考慮未來企業(yè)業(yè)務(wù)發(fā)展需求,保證系統(tǒng)具有良好的開放性和擴展性。
為保證大數(shù)據(jù)文本自動分類處理系統(tǒng)具有良好可用性、便捷性,需要在統(tǒng)一的架構(gòu)和標(biāo)準(zhǔn)接口上進(jìn)行設(shè)計,共分為三個層級,包括:系統(tǒng)表示層、業(yè)務(wù)邏輯層、系統(tǒng)數(shù)據(jù)層,具體的體系結(jié)構(gòu)示意圖如圖1 所示。
圖1 中,最上層為系統(tǒng)表示層,主要作用是實現(xiàn)大數(shù)據(jù)文本自動分類處理系統(tǒng)和操作人員之間的數(shù)據(jù)交互和數(shù)據(jù)顯示,可直接提供系統(tǒng)運維、管理、數(shù)據(jù)查詢、數(shù)據(jù)顯示等功能,在設(shè)計中可選擇通過GUI、Web 瀏覽器、標(biāo)準(zhǔn)的外部系統(tǒng)接口來實現(xiàn)這一作用。
圖1 大數(shù)據(jù)文本自動分類處理系統(tǒng)結(jié)構(gòu)示意圖
中間層為業(yè)務(wù)邏輯層,是實現(xiàn)業(yè)務(wù)處理的關(guān)鍵環(huán)節(jié),涉及到的內(nèi)容包括:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、公文管理、信息公告等多方面的管理【1】。
最下層為系統(tǒng)數(shù)據(jù)層,包括公文信息、用戶基礎(chǔ)信息、管理人員信息等,是數(shù)據(jù)存儲中心,用于實現(xiàn)大數(shù)據(jù)文本自動分類處理系統(tǒng)基礎(chǔ)信息的存儲、數(shù)據(jù)查詢、數(shù)據(jù)處理操作等。
數(shù)據(jù)模擬層是大數(shù)據(jù)文本自動分類處理系統(tǒng)的核心組成結(jié)構(gòu),其主要作用為文本自動分類系統(tǒng)在運行中,提供自動化分類所需的各種測試文本數(shù)據(jù)、訓(xùn)練文本數(shù)據(jù),由數(shù)據(jù)獲取、數(shù)據(jù)解析、數(shù)據(jù)重構(gòu)等組成,用于模擬大規(guī)模的非結(jié)構(gòu)文本數(shù)據(jù),保證系統(tǒng)運行的穩(wěn)定性。
在數(shù)據(jù)獲取環(huán)節(jié)設(shè)計中,要保證系統(tǒng)能夠自行獲得數(shù)據(jù),可通過網(wǎng)絡(luò)爬蟲Heritrix 來實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)爬取。比如:在網(wǎng)易新聞網(wǎng)站就是通過此種設(shè)計方式來爬取網(wǎng)絡(luò)上的體育、教育、娛樂、科技、財經(jīng)等文明信息,爬取到的數(shù)據(jù)信息,可作為大數(shù)據(jù)文本自動分類處理系統(tǒng)訓(xùn)練文本集源數(shù)據(jù)。但通過網(wǎng)絡(luò)爬蟲Heritrix 獲取到的信息內(nèi)容比較多,而且比較廣泛,為保證數(shù)據(jù)具有針對性,比如:避免在體育文本信息中混入科技信息、財經(jīng)信息等,還要設(shè)定相應(yīng)的過濾器,只爬取分類好的數(shù)據(jù)信息,為滿足爬取數(shù)據(jù)量的需求,還要合理設(shè)定爬取深度【2】。
文本信息解析和重構(gòu)的主要作用對爬取下來的文本進(jìn)行全面解析,以快速獲得關(guān)鍵文本信息進(jìn)行重構(gòu),以形成不同種類和不同樣式的非結(jié)構(gòu)化文本。因此,在文本信息解析和重構(gòu)環(huán)節(jié)的設(shè)計中,可采用HtmIParser 工具,此工具是一種僅由JAVA 語言編寫的HtmI 解析數(shù)據(jù)庫,無需其他JAVA 庫文件也可以獨立運行,多應(yīng)用在改造和提取HtmI,具有非常快速的解析速度。在大數(shù)據(jù)文本自動分類處理系統(tǒng)設(shè)計中,可利用該工具來快速提取網(wǎng)頁關(guān)鍵標(biāo)簽標(biāo)記的內(nèi)容,并快速生成后綴名為.doc、.xls、.xml 或者是.pdf 的文檔,滿足大數(shù)據(jù)文本自動分類處理系統(tǒng)對非結(jié)構(gòu)化文檔多樣化的需求。
此層的主要作用是對數(shù)據(jù)模擬層得到的數(shù)據(jù)進(jìn)行特征提取,通過文本特征詞來構(gòu)建語言向量模型中文本特征向量,是大數(shù)據(jù)文本自動分類處理系統(tǒng)的主要環(huán)節(jié)。保證此功能能夠順利實現(xiàn),在設(shè)計中可采用中文分詞器IKAnalyzer 來對需要處理的文本進(jìn)行中文分詞,中文分詞器IKAnalyzer 可看作是一個開源的獨立使用的庫,在使用中通過調(diào)用相關(guān)分詞接口就能實現(xiàn)分詞處理,分詞詞庫和停詞表,可采用中文分詞器IKAnalyzer 中自帶的常用詞庫進(jìn)行最大分詞處理,這就要求在使用中能夠引入相關(guān)的包,并保證其能夠準(zhǔn)確快速的導(dǎo)入配置文件中,從而實現(xiàn)對使用詞庫和停詞表的有效配置【3】。在具體設(shè)計中可將中文分詞器IKAnalyzer 部署到項目的lib 目錄中,對數(shù)據(jù)庫中的文件進(jìn)行有效配置,包括:擴展詞庫中的停詞表、分詞中的停詞表都能到有效配置。
在大數(shù)據(jù)文本自動分類處理系統(tǒng)中,文本分類層的主要作用文本分類進(jìn)行具體操作,為提升自動分類的效果,可采用K 最鄰近分類算法,對特征層提取層進(jìn)行處理,并輸出分類結(jié)果。文本數(shù)據(jù)自動化分類流程如下:
第一步,分詞。將連續(xù)的字序列,按照特定的規(guī)范和要求,重新組合成新的詞序列,分詞面對的對象多為中文文本,外文文本通常不需要此步驟。
第二步,對文本進(jìn)行向量化處理。為促使分詞之后的文本能夠被轉(zhuǎn)化為計算機能識別并且自動處理的形式,在文本自動分類之前,就需要將文本中的詞進(jìn)行量化處理,形成文本的特征向量,在具體設(shè)計中可通過VSM 來實現(xiàn)這一效果。
第三步,進(jìn)行特征選擇。在大數(shù)據(jù)文本自動分類處理系統(tǒng)中,文本中詞的特征,會都在文本向量特征空間的高維性和稀疏性,這就需要采取一種行之有效的特征選擇方法,來降低特征空間的維數(shù),以提升文本自動分類的效率和精度【4】。
在信息化時代,如何有效評價文本分類的好壞,直接關(guān)系到文本自動分類的效果,在具體設(shè)計中,必須綜合考慮此問題,保證通過分類結(jié)構(gòu)的評價,能夠從側(cè)面反映出分類算法的好壞,以及大數(shù)據(jù)文本自動分類處理系統(tǒng)運行的效果和整體性能,常用的文本分類評價方法有:召回率、查準(zhǔn)率、F-Measure 等,但相比而言,召回率和查準(zhǔn)率比較簡單且有效,在本系統(tǒng)設(shè)計中,就采用召回率和查準(zhǔn)率來評價文本分類的好壞。召回率指的是評價樣本和屬于該類有樣本的樣本的總數(shù)之比,而準(zhǔn)確率則指的是屬于該類樣本所占的比例。
為保證大數(shù)據(jù)文本自動分類處理系統(tǒng)能夠穩(wěn)定運行,在平臺設(shè)計中可從硬件、軟件、開發(fā)環(huán)境三個方面入手,來保證系統(tǒng)運行的整體效果。在硬件平臺設(shè)計中可5 臺個人計算機,配置上主頻為2.0GHz 的CPU,2G 內(nèi)存。軟件平臺設(shè)計時可通過部署Hadoop 將5 臺計算機連接成一個整體,形成分布式集群,大數(shù)據(jù)文本自動分類處理系統(tǒng)在Hadoop 上運行,通過5 臺計算機,就能實現(xiàn)分布式處理,提升文本自動分類處理效果【5】。系統(tǒng)開發(fā)環(huán)境設(shè)計中,可選擇eclipse 開發(fā)平臺,而項目管理工具則可以采用maven,二者相互作用,就能實現(xiàn)各項目開發(fā)。
綜上所述,本文采用理論結(jié)合實踐的方法,分析了云計算背景下大數(shù)據(jù)自動分類處理系統(tǒng)設(shè)計,分析結(jié)果表明,云計算為大數(shù)據(jù)自動分類處理系統(tǒng)的建設(shè)提供了新的技術(shù)支持,借助云技術(shù),設(shè)計有針對性、有效的系統(tǒng),可大幅度提升數(shù)據(jù)自動分類處理效率,提升海量數(shù)據(jù)處理速度,保證各項數(shù)據(jù)、各項信息都能得到有效利用,發(fā)揮出信息數(shù)據(jù)的價值,促使各行各業(yè)穩(wěn)健發(fā)展。