胡淑新 宋志蕙
摘 要:針對數(shù)據(jù)的多維度、非線性、不穩(wěn)定性等特有的復(fù)雜屬性,在傳統(tǒng)數(shù)據(jù)分類方法的基礎(chǔ)上,本研究將高維大數(shù)據(jù)進(jìn)行降維處理,結(jié)合SVM分類方法和多元SVM-REF分類方法,提出一種基于數(shù)據(jù)降維的復(fù)雜屬性大數(shù)據(jù)分類方法。試驗(yàn)證明,與傳統(tǒng)數(shù)據(jù)分類方法相比,本設(shè)計方法能夠有效地提升復(fù)雜屬性大數(shù)據(jù)的分類效率,也為后續(xù)對高維數(shù)據(jù)分類和數(shù)據(jù)復(fù)雜波動規(guī)律分析的深入研究提供依據(jù)。
關(guān)鍵詞:數(shù)據(jù)降維;復(fù)雜屬性;大數(shù)據(jù);分類
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1003-5168(2020)02-0018-03
Abstract: Aiming at the unique complex attributes of data such as multi-dimensionality, non-linearity, and instability, based on the traditional data classification method, this research reduced the dimension of high-dimensional big dat, combined SVM classification method and multivariate SVM-REF classification method, and proposed a method for complex attribute big data classification based on data dimensionality reduction. Experiments show that compared with traditional data classification methods, this design method can effectively improve the classification efficiency of big data with complex attributes, and also provide a basis for subsequent in-depth research on high-dimensional data classification and analysis of data complex fluctuation rules.
Keywords:data reduction;complex attributes;big data;classification
近年來,信息技術(shù)和互聯(lián)網(wǎng)不斷發(fā)展,大數(shù)據(jù)分析技術(shù)逐漸成熟,而復(fù)雜屬性的大數(shù)據(jù)分類充滿機(jī)遇和挑戰(zhàn)[1]。當(dāng)前,科學(xué)研究水平不斷進(jìn)步,信息技術(shù)與互聯(lián)網(wǎng)技術(shù)也在不同的領(lǐng)域中逐漸成熟,新興技術(shù)的發(fā)展在帶動行業(yè)本身進(jìn)步的同時也擴(kuò)大了軟件和硬件技術(shù)的市場需求。因此,新的市場和模式不斷要求數(shù)據(jù)挖掘邁向更高的水平。從數(shù)據(jù)的體量、類型及維度等方面來分析,研究的對象也變得越來越復(fù)雜[2]。隨著互聯(lián)網(wǎng)的不斷普及,企業(yè)要從設(shè)計、制定、運(yùn)營等不同環(huán)節(jié)為用戶提供全方位的解決辦法,而這些環(huán)節(jié)都或多或少地涉及數(shù)據(jù)的采集、整理與分析,企業(yè)為了保證自身優(yōu)勢,需要從多個角度兼顧信息處理的時效性、準(zhǔn)確性及經(jīng)濟(jì)性。因此,人們對復(fù)雜屬性的大數(shù)據(jù)分類研究提出了更加嚴(yán)格的要求。
1 高維大數(shù)據(jù)的降維處理
傳統(tǒng)的特征抽取技術(shù)包括主成分分析和線性鑒別分析。但這些傳統(tǒng)的特征抽取技術(shù)都存在著局限性。目前,一種新型的基于核的分析方法出現(xiàn),并已經(jīng)在模式識別領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域展現(xiàn)了其優(yōu)秀的分類能力[3]。這種分析方法利用非線性轉(zhuǎn)換技術(shù),對數(shù)據(jù)間不同類別的可分離性進(jìn)行增強(qiáng),以獲取更好的分類效果。與傳統(tǒng)方法不同的是,該方法能夠利用核技術(shù)將輸入進(jìn)來的樣本映射到高維度的特征空間中,其間不需要對該樣本的非線性映射函數(shù)有具體的掌握,因此減輕了傳統(tǒng)的非線性映射方法的負(fù)擔(dān)。但該方法的弊端在于,無法對大型數(shù)據(jù)進(jìn)行分類處理。在對大數(shù)據(jù)進(jìn)行分類時,時間和空間的復(fù)雜程度都明顯提高,并且特征抽取的效率取決于訓(xùn)練樣本的個數(shù),個數(shù)越多,取樣的效率會越低,因此該方法對于大數(shù)據(jù)分類的效率更低[4]?;诖耍梢詫⒁粋€大型數(shù)據(jù)集劃分為多個不同的小數(shù)據(jù)集,將一個大分類問題分解成為多個小分類問題,從而解決原有的大分類問題。通常情況下,高維大數(shù)據(jù)的降維可以分為特征選擇和特征提取,如圖1所示。
特征提取是指在原始的大數(shù)據(jù)特征中選取一個滿足條件的最優(yōu)特征子集進(jìn)行建模,因此這種方法也稱為選維。假設(shè)大數(shù)據(jù)為[X],大數(shù)據(jù)中包含[N]個特征信息,表示為[X=(x1,x2,...,xN)],通過特征選擇選出[M]個最具有代表性的特征構(gòu)成新的特征矢量[Y],表示為[Y=(xi1,xi2,...,xiM)],且[M 特征提取是利用映射函數(shù)將特征從原始的大數(shù)據(jù)空間映射到新的特征子空間中。特征提取的特征矢量可表示為[X=(x1,x2,...,xN)],其變換函數(shù)表示為[y=f(x)],[X]經(jīng)[y]變換降維后得到[M]為新的特征矢量,可表示為[Y=(y1,y2,...,yM)],且[M 在對復(fù)雜屬性大數(shù)據(jù)進(jìn)行降維處理時,要根據(jù)大數(shù)據(jù)的特征選用適當(dāng)?shù)姆椒ǎ舸髷?shù)據(jù)中的特征是相互獨(dú)立的個體,則選用特征選擇的方法更加方便快捷;若大數(shù)據(jù)中的特征之間具有關(guān)聯(lián)性、不獨(dú)立,則應(yīng)選用特征提取方法對大數(shù)據(jù)進(jìn)行降維處理,執(zhí)行特征的函數(shù)變換可以消除特征之間的相關(guān)性。在進(jìn)行數(shù)據(jù)降維時也可將兩者綜合利用,首先進(jìn)行特征選擇,將選出的一部分具有代表性的特征施加數(shù)學(xué)映射變換,將原始大數(shù)據(jù)空間映射到新的子空間中,達(dá)到雙重降維的目的。 2 復(fù)雜屬性大數(shù)據(jù)分類方法 關(guān)于利用特征選擇和特征提取降維處理后的大數(shù)據(jù),根據(jù)其不同特點(diǎn),采用SVM分類方法或多元SVM-REF分類方法對復(fù)雜屬性大數(shù)據(jù)進(jìn)行分類,下面對兩種分類方法進(jìn)行了詳細(xì)的說明。 2.1 SVM分類方法 傳統(tǒng)的數(shù)據(jù)分類方法包括兩種,一種是有監(jiān)督的分類方法,如決策樹、神經(jīng)網(wǎng)絡(luò)模型等;一種是無監(jiān)督的分類方法,如聚類分析、主成分分析等。在眾多有監(jiān)督的分類方法中,SVM(支持向量機(jī))分類方法在非線性問題處理、數(shù)據(jù)特征識別、小樣本數(shù)據(jù)分析等方面具有獨(dú)特的優(yōu)勢,是一種經(jīng)典機(jī)器學(xué)習(xí)方法,以統(tǒng)計分析為理論基礎(chǔ)。SVM分類方法的核心建模思想是結(jié)構(gòu)風(fēng)險最小化原則。 假設(shè)一個未知映射為[p],對于給定的輸入樣本空間[a]和與其對應(yīng)的輸出域[b],任何機(jī)器學(xué)習(xí)的目的都是為了讓輸出域[b]更加貼近事實(shí)。具體說明,假設(shè)損失函數(shù)為[E],記期望風(fēng)險(映射值與實(shí)際值之間的誤差被稱為風(fēng)險)為[R],用公式可表示為: 式(2)給出的是在不同情況下,映射函數(shù)[p(a)]所對應(yīng)的概率。對于大數(shù)據(jù)分類問題來說,二分類器中的一對一和一對多方法能夠更容易地拓展到多分類問題中。實(shí)際上,[a]和[b]的聯(lián)合概率密度函數(shù)[p(a,b)]為未知的函數(shù),因此,式(1)中的期望風(fēng)險[R(p)]無法通過直接計算得出。人們,需要根據(jù)大數(shù)據(jù)樣本的經(jīng)驗(yàn)分布推斷[R(p)],并以經(jīng)驗(yàn)風(fēng)險逼近期望風(fēng)險。當(dāng)數(shù)據(jù)樣本的容量趨近于無限大時,經(jīng)驗(yàn)風(fēng)險將無限趨近于期望風(fēng)險。但在實(shí)際應(yīng)用中,由于采集到的數(shù)據(jù)樣本十分有限,因此在有限的數(shù)據(jù)樣本情況下,經(jīng)驗(yàn)風(fēng)險最小并不一定是期望風(fēng)險最小的時候?;诮?jīng)驗(yàn)風(fēng)險最小的分類器的識別能力較差,在分類過程中很難達(dá)到更高的分類精度,針對這一問題,在有限數(shù)據(jù)樣本的條件下將結(jié)構(gòu)風(fēng)險降低到最小。 2.2 多元SVM-REF分類方法 當(dāng)采集到的數(shù)據(jù)特征樣本的維度過大而訓(xùn)練樣本的模式較少時,采用降低高維度數(shù)據(jù)空間的維數(shù)用以避免過擬合風(fēng)險。在進(jìn)行過擬合過程中,樣本的訓(xùn)練分類器通常是分類精度非常高的,但缺點(diǎn)在于泛化性能差。利用正則化方法能夠在某種程度上解決過擬合問題的同時不對數(shù)據(jù)進(jìn)行降維處理,而SVM分類方法正是針對這一問題建立的。SVM分類方法在處理非線性問題時具有良好的表現(xiàn)效果,并且計算過程的復(fù)雜度相對較低,但SVM分類方法只能用于對小樣本數(shù)據(jù)進(jìn)行識別,而對于高維度的大數(shù)據(jù)樣本進(jìn)行分析時要結(jié)合特征選擇的方法進(jìn)行分析。上文已經(jīng)對數(shù)據(jù)特征選擇進(jìn)行分析,在此不進(jìn)行過多贅述,將SVM分類方法與特征選擇相結(jié)合,對高維度大數(shù)據(jù)進(jìn)行分類。將特征選擇后的結(jié)果進(jìn)行排序,排序后的特征將被直接應(yīng)用于后續(xù)分析中。對于排序的準(zhǔn)則函數(shù),可以為其設(shè)定一個閾值,方便后續(xù)篩查。在結(jié)構(gòu)風(fēng)險最小的數(shù)據(jù)中,將對應(yīng)的嵌套子特征集合定義為[F1?F2?…?F]。通過改變設(shè)定的信息準(zhǔn)則閾值,人們可以篩選出相應(yīng)的最優(yōu)特征子集。然后,利用遞歸特征消除法,根據(jù)設(shè)定的判斷閾值,對數(shù)據(jù)樣本的特征進(jìn)行合理排序,并以此作為衡量數(shù)據(jù)樣本特征對分類器學(xué)習(xí)性能的重要程度的標(biāo)準(zhǔn)。該方法的基本流程為:訓(xùn)練分類器→根據(jù)排序準(zhǔn)則,計算出大數(shù)據(jù)中所有特征的得分情況→去除得分排序最低的特征樣。 3 試驗(yàn)論證分析 3.1 試驗(yàn)準(zhǔn)備 為了驗(yàn)證本文提出的復(fù)雜屬性大數(shù)據(jù)分類方法,首先建立用于算法的開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的交互式平臺,準(zhǔn)備一種簡單、易于使用并且快速有效的SVM模式可識別的軟件工具箱進(jìn)行試驗(yàn),比較本文提出的分類方法和傳統(tǒng)的數(shù)據(jù)分類方法對高維度數(shù)據(jù)分類的表現(xiàn)。其間采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的數(shù)據(jù)集,其中應(yīng)包含一個多分類數(shù)據(jù)集。該數(shù)據(jù)集含有180個樣本、14個屬性,在該數(shù)據(jù)集中,不同屬性之間的數(shù)據(jù)分布情況要求差異性更大,數(shù)值分布更分散。 3.2 分類準(zhǔn)確定評價 為了讓對比試驗(yàn)?zāi)軌蚋忧逦乇磉_(dá)兩種方法的有效性,利用評價準(zhǔn)則對兩種方法的復(fù)雜屬性大數(shù)據(jù)分類結(jié)果進(jìn)行度量。平均百分比分類誤差[MPCE]是分類方法領(lǐng)域中經(jīng)典的評價指標(biāo),其公式可表示為: 3.3 試驗(yàn)結(jié)果分析 將兩種方法對數(shù)據(jù)集的分類情況進(jìn)行記錄,如表1所示。 根據(jù)表1記錄的數(shù)據(jù),利用上文提出的平均百分比分類誤差計算出兩種方法的誤差值。傳統(tǒng)方法誤差值分別為16.67%、20.00%、23.33%、16.67%、26.67%、13.33%;本文分類方法誤差值分別為6.67%、10.00%、3.33%、3.33%、6.67%、6.67%。通過數(shù)據(jù)可以看出,本文提出的分類方法對復(fù)雜屬性大數(shù)據(jù)分類的誤差值明顯低于傳統(tǒng)分類方法,且本文提出的分類方法誤差值最低可達(dá)3.33%,也就是說該方法的分類精度可達(dá)96.67%,明顯高于傳統(tǒng)分類方法,這也說明了本文提出的基于數(shù)據(jù)降維的復(fù)雜屬性大數(shù)據(jù)分類方法更具實(shí)際意義。 4 結(jié)語 現(xiàn)代社會,數(shù)據(jù)增長速度是十分驚人的,隨著計算機(jī)技術(shù)的迅猛發(fā)展和廣泛的應(yīng)用,在工業(yè)、生物、醫(yī)療等領(lǐng)域,數(shù)據(jù)的采集和傳輸速度快速增長,同時數(shù)據(jù)復(fù)雜程度日趨增加,規(guī)模不斷擴(kuò)大,因此形成了類型更加復(fù)雜、形式更加多樣的數(shù)據(jù)信息。在進(jìn)行數(shù)據(jù)挖掘時,人們要重新考慮人類生活及生產(chǎn)中各個方面的需求,日后對高維度、多源、非均衡的復(fù)雜數(shù)據(jù)信息分類進(jìn)行更加深入的研究。 參考文獻(xiàn): [1]黃建理,杜金燃,謝家全.一種基于改進(jìn)KNN的大數(shù)據(jù)離群點(diǎn)檢測算法[J].計算機(jī)與現(xiàn)代化,2017(5):67-70. [2]滕少華,盧東略,霍穎翔,等.基于正交投影的降維分類方法研究[J].廣東工業(yè)大學(xué)學(xué)報,2017(3):1-7. [3]何興高,李蟬娟,王瑞錦.基于信息熵的高維稀疏大數(shù)據(jù)降維算法研究[J].電子科技大學(xué)學(xué)報,2018(2):235-241. [4]蔣華,韓飛,王鑫.基于MapReduce改進(jìn)K-NN的大數(shù)據(jù)分類算法研究[J].微電子學(xué)與計算機(jī),2018(10):42-51.