李 毅,米子川
(山西財經(jīng)大學 統(tǒng)計學院,山西 太原030006)
隨著社交媒體、手機APP、安全監(jiān)視器、天文望遠鏡、衛(wèi)星、工業(yè)生產線和各種傳感器等基于互聯(lián)網(wǎng)的硬件和應用軟件的普及,來自不同過程的統(tǒng)計數(shù)據(jù)不斷產生,其物理特征包含文字、圖像、音頻、純數(shù)據(jù)等等,這些數(shù)據(jù)數(shù)量龐大、結構復雜且維度多樣[1-4]。面向大數(shù)據(jù)的統(tǒng)計分析,存在三個方面的困難和挑戰(zhàn):首先,由于大數(shù)據(jù)的背景分布缺乏先驗信息,大多數(shù)分析過程是從單純的數(shù)據(jù)出發(fā),這種分析過程被稱為“冷啟動”。通常大數(shù)據(jù)的產生和收集在事先并沒有特別的目的,或者收集者的目的并不明確,因此無法獲得顯著的先驗分布信息。與此相反,在傳統(tǒng)的統(tǒng)計數(shù)據(jù)采集方法中,實驗設計則是一個目的明確的數(shù)據(jù)搜集過程,即在一定的控制變量和區(qū)組條件下完成對數(shù)據(jù)的重復測度和記錄。實驗設計所得的資料是通過事先科學設計的,F(xiàn)isher提出的原則是“均衡分散,整齊可比”,說明實驗設計記錄的數(shù)據(jù)是一種結構完整、信息充分的“小數(shù)據(jù)”;其次,就資料收集目的而言,大數(shù)據(jù)收集的目的也是不同的,其收集過程和目的并非統(tǒng)計分析的目的,但對于價值的提取二者是相同的,并在大數(shù)據(jù)的分析過程中,希望從數(shù)據(jù)中發(fā)現(xiàn)一些有趣的特征或模式,藉此提供有價值的信息以供決策參考;第三,大數(shù)據(jù)的規(guī)模顯著地大于傳統(tǒng)的統(tǒng)計數(shù)據(jù),但是所蘊涵的信息量則相對稀少,一般被稱為數(shù)據(jù)的“稀疏性”。根據(jù)統(tǒng)計學基本理論,有用的樣本量應該是越多越好,但是大數(shù)據(jù)的信息貢獻卻不是這樣,數(shù)據(jù)量大不一定意味著有價值的信息就會增多,大量的虛假知識甚至會損害數(shù)據(jù)信息,因此“大數(shù)據(jù)等于總體”的思想是錯誤的。此外,大數(shù)據(jù)建模時,數(shù)據(jù)本身的屬性也會成為統(tǒng)計建模和分析的難題,如高維度、時間序列特性、變量間的復雜關系等等,都是亟待解決的問題。事實上,對于較小的數(shù)據(jù)集,上述問題可能不存在困擾,但對于大數(shù)據(jù)則可能就是一個嚴重的問題。所以,如何從大數(shù)據(jù)中汲取有價值的信息是統(tǒng)計學面臨的一項重要挑戰(zhàn)。
從統(tǒng)計學角度看,面對大數(shù)據(jù)分析中的上述問題,隨機抽樣仍然是最直接的解決方法,可以利用抽樣技術從相同數(shù)據(jù)結構的大數(shù)據(jù)集中獲得相對小的隨機樣本。必須指出的是,抽樣并不能告訴人們有用的信息在哪里,而是加速找到有用特征的工具。本文的主要思想是:在大數(shù)據(jù)總體的參數(shù)估計和統(tǒng)計推斷問題中,為了節(jié)約計算成本,筆者希望盡可能減少樣本的數(shù)據(jù)量,且同時應得到一個良好的響應曲面來描述復雜的大數(shù)據(jù)結構,均勻設計便是達到上述目標的一個有效方法,該方法是中國數(shù)學家方開泰教授和王元教授于1980年首次提出,主要目的是在定義域上尋找均勻布點。大量相關文獻證實利用均勻設計來選取輸入值,不管因變量與自變量之間存在何種的關系,所得到的資料對于基礎模型通常都具有良好的描述和再現(xiàn)能力。30多年來,已有大量的均勻設計理論研究和實證分析案例在工農業(yè)生產和科學實踐中得到了展現(xiàn)[5][6]131-170[7-12]。
本文采用預測抽樣的思路展開探索[12],通過均勻設計的基本原理進行均勻抽樣,即利用機器學習中監(jiān)督式學習的概念,把被抽中的樣本點作為機器學習中的訓練集,使其盡量充滿原始大數(shù)據(jù)集的全部空間,以便能真實反應大數(shù)據(jù)的結構,進而訓練得到一個最優(yōu)模型(這個模型屬于某個函數(shù)的集合,最優(yōu)則表示在某個評價準則下是最佳的),最后通過測試集的誤差率來討論均勻抽樣的有效性[13]。
其中V(f)是函數(shù)f在定義域C上的總變差,若函數(shù)f平穩(wěn),V(f)則偏小,反之亦然;D (Tn)為集合Tn在定義域C上的偏差,即度量集合Tn均勻性的測度,如果D (Tn)越小,則集合Tn散布性越均勻。
均勻性度量的定義方法有多種,使用范圍最廣的方法為偏差法[15]。假設x為定義域C中一個n個點的集合,則定義p在定義域C偏差為:
當采用偏差法為準則來做均勻設計時,定義域的原點明顯扮演著很特殊的角色。事實上,若從不同的角度看待定義域(Cs)中的布點均勻性,每個頂點的重要性應該是一樣的。馬長興在使用偏差做均勻設計的準則時所找出的布點會產生方向性,用對稱偏差則可以修正這項缺失[16]。F.J.Hickernell提出的中心化L2-偏差同樣可以修正偏差具有方向性的缺點,此測量的優(yōu)點是同時把分布在高維度上的點集合投影到低維度的坐標子空間上來做均勻性的判斷[17]。另外,中心化L2-偏差也不會因為坐標旋轉而改變,所以中心化L2-偏差是目前被廣泛應用并證明有效的均勻性測量方法[5]。
公式(1)中定義域C= [0,1 ]k,其中k代表立方體的維度。舉例來說,k=2表示單位正方形,k=3則表示單位正六面體,而均勻設計主要的目的便是在此定義域中尋求均勻的布點方式,在定義域C中抽樣,則收斂速度為 O(n-1(logn )k),而隨機抽樣收斂速度為O(n-1/2(loglogn)1/2)。
式(1)中函數(shù)f為希望估計的模型,一般要求f對任何函數(shù)都成立。根據(jù)f (xi),i=1,2,…,n 的值,利用均勻抽樣的數(shù)據(jù)做監(jiān)督式學習,這個過程符合統(tǒng)計學中關于大數(shù)定律的基本思想,即當試驗次數(shù)足夠多時,事件出現(xiàn)的頻率f (xi)無窮接近于該事件發(fā)生的概率函數(shù)f,進而可以利用式(1)的Tn求函數(shù)f。
求均勻性是一個優(yōu)化問題,由于求解是在一個離散的空間上,目標函數(shù)的連續(xù)性和可微性已失去意義,從而傳統(tǒng)的各種優(yōu)化方法失去了效用。為此,本文設計了利用門限接受的啟發(fā)式算法進行均勻抽樣。
設S為全部的大數(shù)據(jù)集合,抽樣步驟如下:
步驟1:設置初始值。設置初始門限值T>0,先從S中隨機抽取n0個點,記為,令,計算的值。
步驟2:產生新的樣本。從S中讀取下一輪數(shù)據(jù),記 為,將z看作,計算的值。
步驟3:產生新解。計算,若δ<T,則z就被選中,而將其置入中S的集合,設n=n+1,并返回步驟2。
步驟4:判斷是否滿足終止條件。若滿足S中的點被讀取完,則抽樣結束。
對于控制參數(shù),即門限值T,循環(huán)算法持續(xù)進行“產生新解—判斷—接受或舍棄”的迭代過程,當T較大時,抽樣所產生的樣本量較低,進行的是粗略隨機搜索。隨著T的逐漸降低,抽樣所得的樣本量越來越高時,進行的是精細檢索。
采用R語言隨機模擬了一組二維數(shù)據(jù)X2000×2=(X1,X2),其中兩個分量X1、X2相互獨立,其散點圖見圖1所示。
圖1 二維模擬數(shù)據(jù)X2000×2圖
利用均勻抽樣從模擬數(shù)據(jù)進行抽取,獲得了一個樣本量為369的隨機均勻樣本,如圖2所示。
從圖1與圖2結果來看,抽出的均勻結果為,說明采用中心化L2-偏差的CD2進行抽樣的效果不錯,達到了預期的效果,即盡可能減少樣本量,且同時得到一個良好的響應曲面來描述和逼近復雜的大數(shù)據(jù)結構。
圖2 二維模擬數(shù)據(jù)X2000×2均勻抽樣圖
本文的原始數(shù)據(jù)選取吳喜之教授提供的胎心宮縮監(jiān)護數(shù)據(jù),一共包括2 129個觀察值及23個變量。吳喜之教授使用了前22個變量作為自變量來預測因變量NSP(胎兒狀態(tài)分類代碼)的類別[18]56-70。筆者利用均勻抽樣與隨機抽樣的樣本作為訓練集,其余樣本為測試集,還采用了五折交叉的算法,應用到?jīng)Q策樹(分類樹)、adaboosting、bagging和隨機森林算法中,分析結果見表1。
表1 四種數(shù)據(jù)挖掘方法不同抽樣結果表
從表1中的測試集誤差率可以看出,四種數(shù)據(jù)挖掘方法中均勻抽樣的誤差率最小、五折交叉次之、隨機抽樣最大,顯然均勻抽樣技術在四種算法模型中的表現(xiàn)均優(yōu)于其他方法。
與傳統(tǒng)的統(tǒng)計分析思想相比,大數(shù)據(jù)分析有著結構復雜、數(shù)據(jù)量大、信息稀疏雜亂等特點。因此,目前大數(shù)據(jù)分析初步形成了兩個相對重要的研究方向:第一個方向是側重數(shù)據(jù)的預處理,主要有采集、加工、分類和描述等,這個方向更多的文獻和研究成果集中在信息處理和計算機科學領域;第二個方向是研究數(shù)據(jù)的統(tǒng)計規(guī)律,比如數(shù)據(jù)結構、關聯(lián)和趨勢分析等,這個方向主要是統(tǒng)計學、管理學、經(jīng)濟學和營銷等領域的研究成果。目前,更多學者認為兩者是一個整體,分析方法必須和數(shù)據(jù)預處理相匹配,大數(shù)據(jù)分析必須從數(shù)據(jù)的預處理開始,直至達成分析目的,這也是本研究的基本出發(fā)點。
本文嘗試提出在大數(shù)據(jù)分析中繼續(xù)使用抽樣技術的觀念,并通過均勻抽樣方法的設計在機器學習中開展應用研究,即利用均勻設計的原理,將中心化L2-偏差的CD2和門限接受的啟發(fā)式算法相結合進行抽樣。本文提出的均勻抽樣的概念和方法設計,在大數(shù)據(jù)典型儲存方式數(shù)據(jù)庫中可以得到較好的應用,特別是對需要減少計算量卻又不知如何抽樣的問題。與傳統(tǒng)抽樣概念不同的是在數(shù)據(jù)分析上,筆者主要先選取訓練樣本進行各項分析以測試樣本檢視結果,并在選取訓練樣本時發(fā)現(xiàn)均勻設計可以在樣本均勻度、代表性等方面優(yōu)于隨機抽樣,此結果可提供數(shù)據(jù)庫抽樣上更反映總體的數(shù)據(jù)進行后續(xù)分析,這一結論能為大型數(shù)據(jù)庫中抽樣數(shù)據(jù)在數(shù)據(jù)挖掘方法的應用提供參考,還能為大數(shù)據(jù)背景下的隨機抽樣技術的研究和發(fā)展提供佐證。
[1] Jordan J M,Lin Dennis K J.Statistics for Big Data:Are Statisticians Ready for Big Data[J].International Chinese Statistical Association Bulletin,2014,26(1).
[2] Fan J Q,Han F,Liu H.Challenges of Big Data Analysis[J].National Science Review,2014,1(12).
[3] 喬晗.“大數(shù)據(jù)”背景下利用掃描數(shù)據(jù)編制中國CPI問題的研究[J].統(tǒng)計與信息論壇,2014(2).
[4] Li R Z,Lin Dennis K J,Li Bing.Statistical Inference on Massive Data Sets[J].Applied Stochastic Models in Business and Industry,2013,29(5).
[5] Fang K T,Lin Dennis K J.Winker P,Zhang Y.Uniform Design:Theory and Application[J].Technometrics,2000,42(3).
[6] Fang K T,Lin Dennis K J.Uniform Experimental Design and Its Applications in Industry,Hndbook of Statistics in Industry[M].New York:Eisevier,2003.
[7] Li R Z,Lin Dennis K J,Chen Y.Uniform Design:Design,Analysis and Its Application[J].International Journal of Materials and Product Technology,2004,20(1).
[8] Huang C M,Lee Y J,Lin Dennis K J,Huang S Y.Model Selection for Support Vector Machines Via Uniform Design[J].Computational Statistics & Data Analysis,2007,52(1).
[9] 張維群.均勻設計在多指標抽樣調查方案設計中的應用[J].統(tǒng)計與信息論壇,2009(10).
[10]Yang J F,Sun F S,Lin Dennis K J,Liu Min-Qian.A Study on Design Uniformity Under Errors in the Level Values[J].Statistics and Probability Letters,2010,80(19).
[11]Jeong I J,Kim K J,Lin Dennis K J.Bayesian Analysis for Weighted Mean-squared Error in Dual Response Surface Optimization[J].Quality and Reliability Engineering International,2010,26(5).
[12]Tang Yu,Xu H Q,Lin,Dennis K J.Uniform Fractional Factorial Designs[J].The Annals of Statistics,2012,40(2).
[13]Chao M T.On CRIS-DM and Predictive Samping[J].Journal of the Chinese Statistical Association,2002,40(4).
[14]Brandolini L,Colzani L,Gigante G,Travaglini G.On the Koksma-Hlawka Inequality[J].Journal of Complexity,2013,29(2).
[15]Hickernell F J,Liu M Q,Yan C Y.Discrepancy Measures of Uniformiey[J].Journal of the Chinese Statistical Association,2000,38(4).
[16]馬長興.均勻性的一個新的度量準則—對稱偏差[J].南開大學學報:自然科學報,,1997,30(1).
[17]Hickernell F J.A Generalized Discrepancy and Quadrature Error Bound[J].Mathematics of Computation,1998,67(221).
[18]吳喜之.復雜數(shù)據(jù)統(tǒng)計方法——基于R的應用[M].北京:中國人民大學出版社,2012.