鄭 潔
(貴陽職業(yè)技術(shù)學(xué)院,貴州 貴陽 550081)
近年來,數(shù)據(jù)挖掘技術(shù)得到了蓬勃的發(fā)展,人們能夠從海量的數(shù)據(jù)信息中提取或“挖掘”出有用的知識,這些知識可提供給相關(guān)領(lǐng)域使用,因此,將數(shù)據(jù)挖掘技術(shù)看作是信息技術(shù)自然演化的結(jié)果[1]。在現(xiàn)實生活中,我們面臨著各種各樣的數(shù)據(jù)問題,通常,我們將數(shù)據(jù)預(yù)處理作為進行數(shù)據(jù)挖掘的一個前期工作。缺失數(shù)據(jù)的處理問題作為數(shù)據(jù)預(yù)處理領(lǐng)域的一個研究熱點[2],為了能夠更加充分地利用已經(jīng)搜集到的數(shù)據(jù),對缺失數(shù)據(jù)的處理是非常必要的。
Relief算法以類內(nèi)和類間的距離作為基礎(chǔ)來評判該特征屬性的重要性,作為一種重要的機器學(xué)習(xí)方法,廣泛應(yīng)用于數(shù)據(jù)的特征選擇、分類等方面[3],本文的研究工作是在基于Relief算法的思想上來求解屬性特征權(quán)值。
對于一個含有決策屬性的數(shù)據(jù)集,假設(shè)x是數(shù)據(jù)集合中的任一個樣本,如果x'是與同類距離最近的樣本,y是與x異類距離最近的樣本,考慮x與x',y的距離在各個特征上的投影,記為pin(a,x,x')與pout(a,x,y),其中a是屬性特征集合中的一個特征。對于連續(xù)型的數(shù)值變量,Relief算法給出了計算特征權(quán)值的規(guī)則:
其中:pin(a, x, x ')=| x -x′|, pout(a, x, y) =|x -y|,初始化特征權(quán)值wk= 1/m;對于數(shù)據(jù)集中每一個樣本數(shù)據(jù)按照公式(1)更新每一維屬性權(quán)值,即可輸出屬性集的特征權(quán)值
在殼近鄰計算方法(Shell Neighbors Imputation,SNI)中[4],我們把每一個選擇出來的左、右近鄰對數(shù)據(jù)修復(fù)的結(jié)果影響程度看作是相同的,但實際上,由于每一維屬性的重要程度是不同的,因此,我們將特征權(quán)值引入數(shù)據(jù)填充計算,采取如下公式:
為了說明本文提出的修復(fù)方法的有效性,我們引入一個衡量預(yù)測準備率的參數(shù):均方根誤差(Root Mean Square Error,RMSE),它的定義如下:
其中:ei是原來的屬性值,是填充值,n是數(shù)據(jù)集中缺失值的個數(shù),對數(shù)據(jù)進行填充后,通過計算得出RMSE的值可以驗證數(shù)據(jù)的修復(fù)效果,RMSE的值越大,表示預(yù)測準確率就越低,即數(shù)據(jù)的修復(fù)效果越不好,相反則說明修復(fù)效果越好。
本章的實驗數(shù)據(jù)來源是UCI標準數(shù)據(jù)集[5]中的兩個真實數(shù)據(jù)集,為了測試預(yù)測的準確率,我們選擇完整的數(shù)據(jù)集,每次隨機地將其中部分的數(shù)據(jù)設(shè)為缺失,對其進行填充后,再與原本的值一起計算RMSE的值來比較修復(fù)效果。每一個數(shù)據(jù)集上進行500次實驗,表1是實驗數(shù)據(jù)集的基本信息。
表1 數(shù)據(jù)集基本信息
將本文提出的修復(fù)方法與殼近鄰計算方法分別在表1描述的兩個真實的UCI數(shù)據(jù)集上進行模擬實驗,結(jié)果如圖1—2所示。
根據(jù)上述實驗結(jié)果,我們可以得到以下結(jié)論:
(1)隨著數(shù)據(jù)集中數(shù)據(jù)缺失程度不斷提高,兩種填充算法計算所得的RMSE的值會逐漸增大,即數(shù)據(jù)填充準確率隨著數(shù)據(jù)缺失率的增加會逐漸降低。尤其是當(dāng)數(shù)據(jù)缺失率超過20%以后,兩種算法數(shù)據(jù)修復(fù)的準確率明顯下降。
圖1 Iris數(shù)據(jù)集上的填充效果對比
圖2 Pen-Based數(shù)據(jù)集上的效果對比
(2)在大數(shù)據(jù)集Pen-Based的RMSE值明顯小于小數(shù)據(jù)集Iris的RMSE值,也就是說,我們可以認為在數(shù)據(jù)缺失率相同的情況下,數(shù)據(jù)集越大,計算過程中可以利用的已知信息會越多,由此可能會使得缺失數(shù)據(jù)的修復(fù)準確率更高。
(3)在兩個數(shù)據(jù)集上,本文提出的方法對缺失數(shù)據(jù)修復(fù)的效果都優(yōu)于SNI,由此我們可知:如果對屬性的特征權(quán)值計算合理,將其引入數(shù)據(jù)填充計算中,可以提升數(shù)據(jù)修復(fù)的效果。