張科星
摘 要: 網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中特征數(shù)據(jù)的有效分類,是提高網(wǎng)民查詢體驗(yàn)、開發(fā)新型應(yīng)用的有效途徑。為此,設(shè)計(jì)穩(wěn)定性好、資源占用率低的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)。系統(tǒng)的顯示端是網(wǎng)民的直接應(yīng)用端,其主要進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)的獲取、大數(shù)據(jù)獲取結(jié)果的顯示和特征分類結(jié)果的顯示。服務(wù)端利用SOA體系結(jié)構(gòu)為網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)提供特征數(shù)據(jù)的分類服務(wù),其將特征數(shù)據(jù)的分類標(biāo)準(zhǔn)納入到網(wǎng)絡(luò)大數(shù)據(jù)中,并傳遞給邏輯層處理端。邏輯層處理端根據(jù)特征數(shù)據(jù)分類標(biāo)準(zhǔn),利用云計(jì)算和策略設(shè)計(jì)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)集合進(jìn)行特征提取,其特征提取算法于軟件中給出。特征數(shù)據(jù)分類端根據(jù)邏輯層處理端所提取出的大數(shù)據(jù)特征,利用特征向量機(jī)進(jìn)行特征數(shù)據(jù)的自動(dòng)分類工作。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的系統(tǒng)穩(wěn)定性好、資源占用率低。
關(guān)鍵詞: 網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái); 特征數(shù)據(jù)分類系統(tǒng); 分類服務(wù); 云計(jì)算
中圖分類號(hào): TN711?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)08?0025?04
Design and implementation of feature data classification system in
network big data platform
ZHANG Kexing
(Taiyuan University, Taiyuan 030012, China)
Abstract: Effective classification of the characteristics data of the network big data platform is to improve the Internet query experience of netizens, and an effective way to develop new applications. Therefore, a characteristic data classification system with good stability and low resource utilization was designed for the network large data platform. The system′s display terminal is the direct application client of netizens, which is used to acquire the network big data, and display the data acquisition result and feature classification result. The server utilizes SOA architecture to provide the classification service of the characteristics data for network big data platform. The classification standard of characteristic data is brought into network large data, and passed to the logic layer processing side, which extracts the characteristics of network big data set according to the characteristic data classification standard, cloud computing and strategy design. The feature extraction algorithm is given in the third paragraph of this paper. Feature data classification end classifies the characteristics data automatically by using the feature vector machine (SVM) according to the big data characteristics extracted by logic layer processing side. The experimental results show that the designed system has high stability, low resource utilization.
Keywords: network big data platform; characteristic data classification system; classification service; cloud computing
0 引 言
隨著科技的不斷進(jìn)步,網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代悄然來臨,為了各國網(wǎng)民提供了更為高效、便捷的服務(wù)。網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中的特征數(shù)據(jù)的有效分類,是提高網(wǎng)民查詢體驗(yàn)、開發(fā)新型應(yīng)用的有效途徑[1?3]。以往設(shè)計(jì)出的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng),未能合理分析大數(shù)據(jù)的固有特征趨勢(shì),穩(wěn)定性不高并造成了系統(tǒng)運(yùn)行資源的浪費(fèi)。故能否設(shè)計(jì)出一種穩(wěn)定性好、資源占用率低的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng),是特征分類領(lǐng)域關(guān)注的重點(diǎn)內(nèi)容[4?6]。
曾設(shè)計(jì)出的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)都或多或少地存在一些問題。如文獻(xiàn)[7]設(shè)計(jì)基于信息互動(dòng)的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng),此系統(tǒng)以信息互動(dòng)這一學(xué)習(xí)方式,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中的特征數(shù)據(jù)進(jìn)行對(duì)比互動(dòng)分析,并利用軟件設(shè)計(jì)出迭代算法,對(duì)特征數(shù)據(jù)進(jìn)行“再教育”,進(jìn)而將其準(zhǔn)確分類。此系統(tǒng)的準(zhǔn)確性高、資源占用率低,但穩(wěn)定性欠佳。文獻(xiàn)[8]設(shè)計(jì)基于語義的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng),此系統(tǒng)根據(jù)語義方式對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行相似搜索,并在網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的資源庫中構(gòu)建語義特征向量,通過計(jì)算特征向量的角度對(duì)特征數(shù)據(jù)進(jìn)行分類。整個(gè)系統(tǒng)利用分布式設(shè)計(jì),擁有較高的穩(wěn)定性,但其資源占用率較高。文獻(xiàn)[9]設(shè)計(jì)基于地圖縮放模型的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng),此系統(tǒng)將AVM算法引入網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中,并構(gòu)建地圖縮放模型,將特征數(shù)據(jù)準(zhǔn)確提取并分類。但此系統(tǒng)只能用于數(shù)據(jù)量較少的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中,數(shù)據(jù)量過多時(shí),系統(tǒng)的穩(wěn)定性較低。
為了解決以上問題,設(shè)計(jì)穩(wěn)定性好、資源占用率低的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)。實(shí)驗(yàn)結(jié)果證明,所設(shè)計(jì)的系統(tǒng)能夠較好地實(shí)現(xiàn)設(shè)計(jì)初衷,為特征分類領(lǐng)域指引了新的方向。
1 網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中的特征數(shù)據(jù)分類系統(tǒng)設(shè)計(jì)
所設(shè)計(jì)的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)是基于SOA體系結(jié)構(gòu)和云計(jì)算設(shè)計(jì)的。SOA體系結(jié)構(gòu)能夠根據(jù)網(wǎng)民需求,將網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分布式配置,其應(yīng)用價(jià)值是無法估量的。將云計(jì)算凌駕于SOA體系結(jié)構(gòu)基礎(chǔ)上進(jìn)行系統(tǒng)設(shè)計(jì),則大大增強(qiáng)了云計(jì)算的兼容性和穩(wěn)定性,使穩(wěn)定性好、資源占用率低的特征數(shù)據(jù)分類工作得以實(shí)現(xiàn)。
1.1 顯示端設(shè)計(jì)
顯示端是網(wǎng)民的直接應(yīng)用端,其主要進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)的獲取、大數(shù)據(jù)獲取結(jié)果的顯示和特征分類結(jié)果的顯示。對(duì)于不同的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái),顯示端所進(jìn)行的工作流程并不相同,這需要根據(jù)實(shí)際情況進(jìn)行分析。
顯示端為網(wǎng)民提供了非常簡單易懂的交互頁面,便于網(wǎng)民的操作以及系統(tǒng)的自管理。網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的特征數(shù)據(jù)分類結(jié)果,是按照一定的分類標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)并顯示的,顯示方法主要是文字、圖形和視頻。網(wǎng)絡(luò)大數(shù)據(jù)的獲取工作一部分是根據(jù)網(wǎng)民個(gè)性化定制的,但大部分的網(wǎng)絡(luò)大數(shù)據(jù)還是基于網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的預(yù)設(shè)參數(shù)進(jìn)行的。顯示端所獲取到大數(shù)據(jù)將傳輸?shù)椒?wù)端。
1.2 服務(wù)端設(shè)計(jì)
服務(wù)端是網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的基礎(chǔ),其能夠接受軟件的直接調(diào)用,為特征數(shù)據(jù)的準(zhǔn)確分類提供技術(shù)支持。服務(wù)端利用SOA體系結(jié)構(gòu)為網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)提供特征數(shù)據(jù)的分類服務(wù),并將特征數(shù)據(jù)的分類標(biāo)準(zhǔn)納入到網(wǎng)絡(luò)大數(shù)據(jù)中。圖1是SOA對(duì)外接口示意圖。由圖1可知,SOA的接口是中立的,并與網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的硬件設(shè)施和編程軟件獨(dú)立開來,使進(jìn)入服務(wù)端的網(wǎng)絡(luò)大數(shù)據(jù)均通過相同的流程進(jìn)行交互,以縮減系統(tǒng)資源利用率、增強(qiáng)系統(tǒng)穩(wěn)定性?;赟OA的服務(wù)端的大數(shù)據(jù)傳輸接口分為兩種,一種是同顯示端的輸入接口,另一種是同邏輯層處理端的輸出接口,如圖2所示。
圖2中,服務(wù)端上部是其與顯示端的輸入接口,下部是與邏輯層處理端的輸出接口。輸入接口的輸入數(shù)據(jù)主要作為服務(wù)端設(shè)定標(biāo)準(zhǔn)的借鑒參數(shù),包括接口參數(shù)和后臺(tái)分類參數(shù)。服務(wù)端根據(jù)以上兩種參數(shù)設(shè)定自身的處理參數(shù),包括軟件調(diào)用參數(shù)和后臺(tái)運(yùn)行參數(shù),這兩種參數(shù)主要進(jìn)行大數(shù)據(jù)目標(biāo)層后臺(tái)操作和網(wǎng)民返還的標(biāo)準(zhǔn)制定。同時(shí),顯示端獲取到的網(wǎng)絡(luò)大數(shù)據(jù)將以集合形式無差別地傳輸?shù)椒?wù)端處理并存儲(chǔ)。
輸出接口能夠?qū)⒎?wù)端所制定的特征數(shù)據(jù)分類標(biāo)準(zhǔn)傳輸?shù)竭壿媽犹幚矶?,包括網(wǎng)民的個(gè)性化分類標(biāo)準(zhǔn)和系統(tǒng)的后臺(tái)操作標(biāo)準(zhǔn),網(wǎng)絡(luò)大數(shù)據(jù)仍將以集合的形式無差別傳輸。
1.3 邏輯層處理端設(shè)計(jì)
邏輯層處理端能夠?qū)崿F(xiàn)服務(wù)端所制定的特征數(shù)據(jù)分類標(biāo)準(zhǔn),并利用云計(jì)算對(duì)網(wǎng)絡(luò)大數(shù)據(jù)集合進(jìn)行特征提取。邏輯層處理端根據(jù)特征數(shù)據(jù)分類標(biāo)準(zhǔn),首先對(duì)網(wǎng)絡(luò)大數(shù)據(jù)集合開始定性分析,并對(duì)分析結(jié)果進(jìn)行管理。
為了提高網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的穩(wěn)定性,邏輯層處理端的定性分析工作主要通過云計(jì)算和策略設(shè)計(jì)進(jìn)行,云計(jì)算先將網(wǎng)絡(luò)大數(shù)據(jù)集合從傳輸接口中調(diào)出,再經(jīng)由大數(shù)據(jù)坐標(biāo)系構(gòu)建、大數(shù)據(jù)更正和限制等計(jì)算操作,給出網(wǎng)絡(luò)大數(shù)據(jù)特征類型,為策略設(shè)計(jì)的特征提取工作打下堅(jiān)實(shí)的基礎(chǔ)。圖3是策略設(shè)計(jì)原理圖。
由圖3可知,策略設(shè)計(jì)由網(wǎng)絡(luò)環(huán)境、策略和策略實(shí)施三步驟組成,這三個(gè)步驟雖然是相互封裝進(jìn)行的,但也存在一定的關(guān)聯(lián)性。策略設(shè)計(jì)首先檢測(cè)網(wǎng)絡(luò)環(huán)境,再給出特征數(shù)據(jù)的提取策略。特征數(shù)據(jù)提取策略的實(shí)施是雙向進(jìn)行的,通常給出A,B兩種通道同時(shí)開始實(shí)施工作。邏輯層處理端將網(wǎng)絡(luò)大數(shù)據(jù)的特征提取出來后,網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)將進(jìn)入最終處理流程,這項(xiàng)工作是經(jīng)由特征數(shù)據(jù)分類端完成的。
1.4 特征數(shù)據(jù)分類端設(shè)計(jì)
特征數(shù)據(jù)分類端能夠?qū)崿F(xiàn)人工操作的完全解放,其根據(jù)邏輯層處理端所提取出的大數(shù)據(jù)特征,利用分類器進(jìn)行特征數(shù)據(jù)的自動(dòng)分類工作。圖4是特征數(shù)據(jù)分類端給出的特征數(shù)據(jù)最優(yōu)分類原理圖。
由圖4可知,特征數(shù)據(jù)分類端所設(shè)計(jì)的特征數(shù)據(jù)最優(yōu)分類原理,是基于特征向量機(jī)這一分類器實(shí)現(xiàn)的。特征向量機(jī)是一種將統(tǒng)計(jì)學(xué)應(yīng)用于特征數(shù)據(jù)分類工作的設(shè)備,其運(yùn)算精準(zhǔn),有很高的工作效率,且對(duì)網(wǎng)絡(luò)大數(shù)據(jù)類型的分類限制較少,有效簡化了網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的工作流程,縮減了系統(tǒng)的資源占用率。
特征向量機(jī)根據(jù)邏輯層處理端提取出的網(wǎng)絡(luò)大數(shù)據(jù)特征,將網(wǎng)絡(luò)大數(shù)據(jù)分解成向量形式,其中的支持向量將被分配到兩端,一端用于接收與特征數(shù)據(jù)無關(guān)的向量,另一端則經(jīng)由最優(yōu)超平面進(jìn)行分類。特征向量機(jī)的分類間隔由特征數(shù)據(jù)分類端根據(jù)網(wǎng)絡(luò)的實(shí)際情況進(jìn)行設(shè)置。
2 特征數(shù)據(jù)分類系統(tǒng)軟件設(shè)計(jì)
所設(shè)計(jì)的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)需要對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的特征提取,才能進(jìn)行特征數(shù)據(jù)的分類工作。由于網(wǎng)絡(luò)大數(shù)據(jù)類型過多,無法一一列出,故以其中的多媒體大數(shù)據(jù)為例,給出特征提取算法。多媒體大數(shù)據(jù)的時(shí)域特征雖在特征分類中很少應(yīng)用,但對(duì)于特定的多媒體大數(shù)據(jù)來講卻是不可缺少的;頻域則應(yīng)用較多。因此,系統(tǒng)對(duì)多媒體大數(shù)據(jù)的時(shí)域和頻域分別進(jìn)行了特征提取。
2.1 時(shí)域特征提取算法
時(shí)域特征主要包括瞬時(shí)能量及其均方值、過零率以及高過零幀比。
瞬時(shí)能量的單位通常是幀,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)中的多媒體大數(shù)據(jù)來講,一般是將每幀的參照點(diǎn)幅值的平方和作為時(shí)間同多媒體大數(shù)據(jù)增減的參照能量值,其表達(dá)式如下:
多媒體大數(shù)據(jù)中語音信號(hào)的不同音色往往交替出現(xiàn),這將造成過零率波動(dòng)趨勢(shì)的增大,高過零幀比較大;而視頻信號(hào)的音色波動(dòng)卻不明顯,高過零幀比較小。根據(jù)以上原理能夠準(zhǔn)確進(jìn)行多媒體大數(shù)據(jù)的特征分類。
2.2 頻域特征提取算法
時(shí)域特征主要進(jìn)行多媒體大數(shù)據(jù)中梅爾頻率倒譜系數(shù)和線性預(yù)測(cè)系數(shù)的特征提取,其對(duì)頻譜以及子帶能量等的特征提取均為輔助提取。
梅爾頻率倒譜系數(shù)是一種對(duì)梅爾尺度等距劃分頻帶的特征,其擁有較高的抵抗噪音能力,且與頻率具有線性關(guān)系。因此,常將梅爾頻率倒譜系數(shù)作為多媒體大數(shù)據(jù)頻率特征的替代特征。若想獲取梅爾頻率倒譜系數(shù),軟件需對(duì)多媒體大數(shù)據(jù)進(jìn)行語音加重、幀分類、添窗等處理,此時(shí)將獲取到幀的時(shí)域信號(hào)用表示。對(duì)幀的時(shí)域信號(hào)進(jìn)行傅里葉變換后將獲取到離散頻譜,用表示,則離散頻譜的表達(dá)式為:
3 實(shí)驗(yàn)驗(yàn)證
實(shí)驗(yàn)對(duì)本文所設(shè)計(jì)的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的穩(wěn)定性和資源占用率進(jìn)行了驗(yàn)證。實(shí)驗(yàn)選取兩種類型不同的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)(分別編號(hào)為平臺(tái)1和平臺(tái)2),驗(yàn)證本文系統(tǒng)的穩(wěn)定性和資源占用率。實(shí)驗(yàn)結(jié)果如表1~表3所示。
由表1和表2可知,召回率和F1值代表著本文系統(tǒng)對(duì)特征數(shù)據(jù)分類水平的預(yù)測(cè)值。本文系統(tǒng)在平臺(tái)1和平臺(tái)2中,均具有較高的分類準(zhǔn)確率,且平臺(tái)的分類準(zhǔn)確率、召回率和F1值結(jié)果相差不大,驗(yàn)證了本文的穩(wěn)定性較好。由表3可知,本文系統(tǒng)的CPU占用率實(shí)驗(yàn)結(jié)果范圍為[48%,58%],內(nèi)存占用率實(shí)驗(yàn)結(jié)果范圍為[20%,33%]。而以往研究出的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)的CPU占用率和內(nèi)存占用率大致在70%和40%,驗(yàn)證了本文系統(tǒng)資源占用率低。
4 結(jié) 論
本文設(shè)計(jì)穩(wěn)定性好、資源占用率低的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)特征數(shù)據(jù)分類系統(tǒng)。系統(tǒng)的顯示端是網(wǎng)民的直接應(yīng)用端,其主要進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)的獲取、大數(shù)據(jù)獲取結(jié)果的顯示和特征分類結(jié)果的顯示工作。服務(wù)端利用SOA體系結(jié)構(gòu)為網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)提供特征數(shù)據(jù)的分類服務(wù),其將特征數(shù)據(jù)的分類標(biāo)準(zhǔn)納入到網(wǎng)絡(luò)大數(shù)據(jù)中,并傳遞給邏輯層處理端。邏輯層處理端利用云計(jì)算對(duì)網(wǎng)絡(luò)大數(shù)據(jù)集合進(jìn)行特征提取,其特征提取算法于軟件中給出。特征數(shù)據(jù)分類端根據(jù)邏輯層處理端所提取出的大數(shù)據(jù)特征,利用特征向量機(jī)進(jìn)行特征數(shù)據(jù)的自動(dòng)分類工作。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的系統(tǒng)穩(wěn)定性好、資源占用率低。
參考文獻(xiàn)
[1] 尹曉華,胡楠,劉為,等.OpenFlow在電力大數(shù)據(jù)平臺(tái)中的應(yīng)用[J].電力建設(shè),2015,36(3):43?48.
[2] 李維乾,李莉,張曉濱,等.Hadoop平臺(tái)下突發(fā)水污染應(yīng)急預(yù)案并行化處置[J].西安工程大學(xué)學(xué)報(bào),2015,29(6):733?739.
[3] 樸雪,張立,俞嘯,等.面向醫(yī)療大數(shù)據(jù)平臺(tái)的異構(gòu)網(wǎng)絡(luò)網(wǎng)關(guān)的設(shè)計(jì)[J].自動(dòng)化儀表,2015,36(9):42?44.
[4] 王昌輝.云計(jì)算設(shè)備中的大數(shù)據(jù)特征高效分類挖掘方法研究[J].現(xiàn)代電子技術(shù),2015,38(22):55?58.
[5] 林海.基于SO平臺(tái)的4G網(wǎng)絡(luò)大數(shù)據(jù)優(yōu)化分析手段研究[J].新媒體研究,2015,1(9):18?19.
[6] 關(guān)培源,陳志剛,王云華,等.基于移動(dòng)醫(yī)療大數(shù)據(jù)平臺(tái)下降低能量消耗機(jī)會(huì)網(wǎng)絡(luò)的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2015,32(12):3790?3793.
[7] 吳純青,任沛閣,王小峰.基于語義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1?17.
[8] 張建,孫銘,段娟.基于大數(shù)據(jù)平臺(tái)的精準(zhǔn)廣告系統(tǒng)研究與設(shè)計(jì)[J].電腦與信息技術(shù),2015,23(4):47?50.
[9] 張兆楠,萬錄品.基于移動(dòng)互聯(lián)網(wǎng)及大數(shù)據(jù)的學(xué)校心理健康自服務(wù)系統(tǒng)的研究[J].移動(dòng)通信,2016,40(5):35?40.