苗永春,程 艷
(江西師范大學(xué)計算機信息工程學(xué)院,江西南昌330022)
隨著云計算、物聯(lián)網(wǎng)及社交網(wǎng)絡(luò)等技術(shù)的興起,數(shù)據(jù)的種類和規(guī)模正在不斷增長和積累,大數(shù)據(jù)時代已到來.大數(shù)據(jù)呈現(xiàn)出 4種特性[1]:規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價值性(value),數(shù)據(jù)像從“池塘”變成“海洋”,不僅數(shù)據(jù)的量大,數(shù)據(jù)的維數(shù)也劇增.對合并后的小型數(shù)據(jù)集合進行離群點挖掘,可以獲得許多額外的信息,可用來避免疾病擴散、網(wǎng)絡(luò)入侵檢測、信用卡惡意透支、貸款證明的審核等,這些用途正是大數(shù)據(jù)時代下離群點挖掘盛行的原因.
離群點檢測是數(shù)據(jù)挖掘技術(shù)中一個重要的研究領(lǐng)域,也被稱為離群點挖掘,其目的是試圖捕獲那些顯著偏離多數(shù)模式的異常情況.離群點檢測在許多應(yīng)用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損壞檢測、圖像處理、傳感器/視頻網(wǎng)絡(luò)監(jiān)視和入侵檢測等.早期的離群點檢測算法是針對整個數(shù)據(jù)集,檢測的是全局離群點[2-4].后來,研究發(fā)現(xiàn):在現(xiàn)實世界中,數(shù)據(jù)集本身具有復(fù)雜性、多變性及不完整性,而且在較多場合,更多考慮領(lǐng)域的局部情況,為此,提出局部離群點檢測算法[4].隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的來源、數(shù)據(jù)量及維數(shù)急劇增加,離群點檢測面臨著一系列挑戰(zhàn).
本文將離群點檢測方法[5-7]分為基于統(tǒng)計的、基于距離的、基于密度的、基于聚類的和基于分類的離群點檢測方法,并分析了這些方法各自的優(yōu)缺點.針對大數(shù)據(jù),為改進的離群點檢測方法,當(dāng)今研究者多把研究焦點聚集到采樣點的預(yù)處理上,筆者根據(jù)近幾年相關(guān)研究總結(jié)得出改進策略:數(shù)據(jù)集的預(yù)處理分為剪枝和屬性約簡,把對復(fù)雜的高維、大數(shù)據(jù)量的離群點檢測問題轉(zhuǎn)化為傳統(tǒng)的離群點檢測問題,將復(fù)雜問題簡單化,并以T-ODCD算法和AROD算法為例說明對應(yīng)的改進策略.
離群點檢測的研究最早始于統(tǒng)計領(lǐng)域.基于統(tǒng)計的方法[8]的主要思想為對于數(shù)據(jù)的正常性做出假設(shè).假定數(shù)據(jù)集中的正常對象服從某種分布或概率模型,通過不一致檢驗把那些嚴(yán)重偏離分布曲線的對象視為離群點,或低概率區(qū)域中的對象是離群點.
針對給定的數(shù)據(jù)集,該方法需要學(xué)習(xí)一個擬合的生成模型.根據(jù)如何學(xué)習(xí)生成模型,該類方法又進一步劃分成2個主要類型:參數(shù)方法和非參數(shù)方法.
(i)參數(shù)方法[9]:假定正常的數(shù)據(jù)對象服從一個以o為參數(shù)的參數(shù)分布.該參數(shù)分布的概率密度函數(shù)f(x,o)給出對象x被該分布產(chǎn)生的概率.該值越小,x越可能是離群點.該方法主要包括基于高斯模型的和基于回歸模型的檢測方法[11].
(ii)非參數(shù)方法[10]:并不假定先驗統(tǒng)計模型,而是試圖從輸入數(shù)據(jù)中學(xué)習(xí)“正常數(shù)據(jù)”的模型.該方法主要包括基于直方圖的和基于核函數(shù)的檢測方法[11].
基于統(tǒng)計的離群點檢測方法適用于單變量的服從特定概率模型的數(shù)據(jù)集.其優(yōu)點為該方法建立在標(biāo)準(zhǔn)的統(tǒng)計學(xué)技術(shù)之上,具有穩(wěn)定的基礎(chǔ);對于單個屬性的離群點檢測,當(dāng)具有充分的數(shù)據(jù)和所需的先驗知識時,該方法檢測效果較好.其缺點是對于多維數(shù)據(jù)集,該方法檢測效果會變差,對于很難估計真實的分布的高維數(shù)據(jù),該方法不適用[12];在許多情況下,數(shù)據(jù)集服從的分布或概率模型是未知的,用不同的模型檢測出來的離群點可能不一致;基于統(tǒng)計的方法的有效性較大程度上依賴于對待挖掘的數(shù)據(jù)集所做的統(tǒng)計模型假定是否成立[13].為了改進這些不足之處,發(fā)展出了基于計算統(tǒng)計學(xué)的方法,被稱為基于深度的方法.
基于距離的方法最早由 E.M.Knorr等[14-15]提出,其主要思想為對于待要分析的數(shù)據(jù)集DB(pct,dismin),用戶可以指定一個距離閾值dismin來定義對象的合理鄰域,對于每個對象 O,可以考察 O的dismin-鄰域中的其他數(shù)據(jù)對象.如果數(shù)據(jù)集DB中大多數(shù)對象都遠(yuǎn)離O,即至少有pct部分的數(shù)據(jù)對象與O的距離大于dismin,則該對象O被視為離群點.
Rastogi& Ramaswamy[16]在基于上面對距離的離群點定義的基礎(chǔ)上,提出基于距離的k-最近鄰(k-NN)離群檢測算法.該算法的一個主要缺陷是每計算對象O的第k個最近鄰點的距離值,就要掃描一次數(shù)據(jù)集,計算效率低.針對該缺陷,提出基于索引的(index-based)算法引進索引的思想來提高算法的效率[17-18]、嵌套循環(huán)(Nested Loop,簡稱 NL)算法主要從減少操作的I/O次數(shù)方面來改善算法的效率[14,17]和基于網(wǎng)格(cell-based)的算法通過結(jié)合點的局部密度方法來提高離群檢測的效率[16].該方法比較適用于數(shù)據(jù)對象的屬性維數(shù)比較少且參數(shù)pct和dismin的值比較容易確定的數(shù)據(jù)集.
其優(yōu)點是該方法比較簡單,只要能定義反應(yīng)數(shù)據(jù)之間彼此差別的距離函數(shù),就可以采用該方法.其缺點是該方法中指定的距離閾值是全局閾值,對于不同密度的數(shù)據(jù)集,它檢測出離群點的準(zhǔn)確度低[19];如果需要確定的距離閾值dismin和參數(shù)pct的先驗知識不足,則對其運用造成一定的困難,尤其對不同聚類密度數(shù)據(jù)集而言,距離閾值dismin差別會較大,指定不同的距離閾值dismin,離群點檢測結(jié)果也常常會出現(xiàn)不一致的現(xiàn)象[20];由于遍歷鄰域內(nèi)的數(shù)據(jù)對象需要一定的時間復(fù)雜度,因此,難以用于大規(guī)模數(shù)據(jù)集.
基于密度的方法[21]主要思想為假定正常數(shù)據(jù)對象周圍的密度與其鄰域周圍的密度類似,而離群點對象周圍的密度顯著不同于其鄰域周圍的密度.需要把對象周圍的密度與對象鄰域周圍的密度進行比較,把低密度的對象視為離群點.一般使用每個對象到第k個最近鄰的距離大小來度量密度,定義密度為到k個最近鄰的平均距離的倒數(shù).如果數(shù)據(jù)對象的該值大,則密度得分就高,離群程度較大.
該檢測方法的一個典型的例子是M.M.Breuning[22]等提出基于局部離群因子的離群點檢測算法,除此之外,還有基于平均密度的離群點檢測方法[23]和 C.C.Aggarwal[24]提出的一個結(jié)合子空間投影變換的基于密度的高維離群檢測算法.根據(jù)算法特性,它更適用于聚類特性比較明顯,求局部密度時的I/O代價比較低的數(shù)據(jù)集.
其優(yōu)點是對于密度分布不均勻的數(shù)據(jù)集,能夠更好地檢測出那些位于稠密簇周邊的離群點(局部離群點);不需要知道數(shù)據(jù)集的先驗知識,并且可以同時檢測出全局離群點和局部離群點[25].其缺點是由于算法中用到的計算復(fù)雜度較大,因此,該檢測方法的時間和空間效率不高;數(shù)據(jù)的稀疏性和離群意義難以解釋,則對參數(shù)k的選擇很困難.對于規(guī)模較大的數(shù)據(jù),I/O的也較高.
基于聚類的方法[26]主要思想為如果對象不屬于任何簇或與最近簇之間的距離都很遠(yuǎn),則視該對象為離群點;如果某簇包含的數(shù)據(jù)對象較小且又稀疏,則該簇中的所有數(shù)據(jù)對象均為離群點.
由定義可知,該算法既可以發(fā)現(xiàn)簇,也可以發(fā)現(xiàn)離群點,但是其主要的目標(biāo)是發(fā)現(xiàn)簇,而離群點就是沒有被包含在簇內(nèi)的對象.該方法一個顯著的特點是首先采用特定的聚類算法處理所有輸入的數(shù)據(jù)對象得到聚類,然后在聚類的基礎(chǔ)上來評估各對象屬于簇的程度,從而檢測出離群點.依據(jù)其特點,該方法比較適用于聚類特性明顯,容易用聚類算法發(fā)現(xiàn)簇的數(shù)據(jù)集.其主要的代表方法[27]有基于對象離群因子的方法和基于簇的離群因子的方法.
其優(yōu)點為該方法對許多類型的數(shù)據(jù)均有效,并且是以無監(jiān)督方法檢測離群點;由于與整個數(shù)據(jù)集包含的對象總數(shù)相比,簇中包含的對象數(shù)目小了很多,因此,在離群點檢測階段,比較對象與簇之間的關(guān)系,可以更快地確定該對象是否是離群點.其缺點是它的有效性高度依賴于聚類算法,且所使用的聚類算法產(chǎn)生的簇的質(zhì)量對檢測出離群點的質(zhì)量影響很大[27];離群點也非常依賴于所用的簇的個數(shù)和數(shù)據(jù)中離群點的存在性;有些聚類方法強制規(guī)定每個數(shù)據(jù)點都依附某個簇,當(dāng)離群點恰好依附于一個稠密的簇時,容易漏檢;大多聚類算法需要的時間復(fù)雜度為O(dN2)[28],對于大型數(shù)據(jù)集,該方法開銷較大,有可能成為制約算法應(yīng)用的瓶頸.
針對分類標(biāo)簽已知的數(shù)據(jù)集,其包含一些標(biāo)記為“正常”,而其他標(biāo)記為“離群點”的樣本.基于分類的方法[29]主要思想為對分類標(biāo)示已知的數(shù)據(jù)集,經(jīng)過訓(xùn)練和學(xué)習(xí),找出區(qū)分?jǐn)?shù)據(jù)類的模型,即構(gòu)建一個可以區(qū)分正常類和離群點類的分類器.對于被檢測的對象,考察其被分成正常類,還是離群點類.
由于樣本數(shù)據(jù)的不平衡性,即正常樣本的數(shù)量可能遠(yuǎn)遠(yuǎn)高于離群點樣本的數(shù)量,離群點樣本數(shù)量的不足,使得很難構(gòu)造一個準(zhǔn)確的分類器.另外離群點樣本的表示不充分,如實際中,新的離群點不時地出現(xiàn),導(dǎo)致無法枚舉所有離群點.為了解決上述問題,基于分類的方法通常構(gòu)建一類模型,即構(gòu)建一個僅描述正常類的分類器,不屬于正常類的任何樣本都被視為離群點.根據(jù)訓(xùn)練集中正常類標(biāo)簽的多少,該方法可以進一步劃分為“多類別離群分類檢測法”和“單類別離群分類檢測法”.基于分類的離群點檢測方法主要包括:基于神經(jīng)網(wǎng)絡(luò)的方法[30]、基于貝葉斯網(wǎng)絡(luò)的方法[31]、基于支持向量機的方法[32]和基于規(guī)則的方法[33].
其優(yōu)點是該方法使用正常類的模型(一類模型)檢測離群點,可以檢測可能不靠近訓(xùn)練集中的任何離群點的新離群點;該方法一旦構(gòu)建好分類模型,離群點檢測過程就較快.其缺點是該方法的有效性不僅高度依賴分類算法,還依賴于有代表性的正常類標(biāo)簽的數(shù)量;在實際應(yīng)用中,難以獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),這使得此方法在應(yīng)用中受到制約.
當(dāng)數(shù)據(jù)量增長到一定規(guī)模以后,可以從小量數(shù)據(jù)中挖掘出有效信息的算法并一定適用于大數(shù)據(jù),針對大數(shù)據(jù)規(guī)模大、維數(shù)高的特性,在傳統(tǒng)的離群點檢測方法的基礎(chǔ)上,提出了2種改進策略,以便進一步地深入研究奠定了基礎(chǔ).
離群點檢測方法的時間復(fù)雜度和數(shù)據(jù)集規(guī)模有著密切的關(guān)系,大數(shù)據(jù)的數(shù)據(jù)量越大,計算量越大,算法的時空效率越低[34].剪枝策略[4,34-36]是指離群點占整個數(shù)據(jù)集的小部分,在離群點檢測前,剪掉那些不包含離群點的數(shù)據(jù)對象類,對余下的數(shù)據(jù)進行離群點檢測.研究發(fā)現(xiàn):這種通過減小數(shù)據(jù)量,進而降低計算量,對分布密度顯著不同的數(shù)據(jù)集,挖掘的效果佳.
由于傳統(tǒng)的離群點檢測方法僅僅為了尋找到離群點,不會關(guān)注離群點里面包含的內(nèi)在信息,并且高維數(shù)據(jù)空間對象間的距離往往并不明確[37].因此,針對大數(shù)據(jù)的高維特性,傳統(tǒng)的離群點檢測方法的準(zhǔn)確性、有效性及適用性均很低.
解決該問題的關(guān)鍵是對數(shù)據(jù)空間的維度進行劃分和歸約來進行優(yōu)化[38],即把對高維數(shù)據(jù)的離群點檢測轉(zhuǎn)為傳統(tǒng)的離群點檢測或者對子空間檢測離群點,但需要確保經(jīng)過約簡之后的屬性集合和全屬性集上發(fā)現(xiàn)的大部分離群點基本一致[39].
研究人員一般對大數(shù)據(jù)剪枝,對高維大數(shù)據(jù)約維,再擴充傳統(tǒng)的離群點檢測方法,使其適用到當(dāng)前的離群點檢測應(yīng)用中.下面以具體的方法為例,來說明離群點檢測方法的改進策略.
剪枝策略以基于聚類劃分的兩階段離群點檢測方法(T-ODCD)為例來說明,T-ODCD 算法[20]對傳統(tǒng)的基于距離的離群點檢測方法的擴充,采用基于聚類和距離相結(jié)合的辦法進行局部離群點的檢測,聚類階段是剪枝策略的關(guān)鍵階段.筆者總結(jié)出T-ODCD算法的流程圖如圖1所示.
從圖1可以清晰地觀察出T-ODCD算法,首先將數(shù)據(jù)集劃分成若干個微聚類.再利用信息熵去判斷得到的微聚類中是否包含離群點,如果不包含離群點,則剔除該微聚類[20,40].最后,利用基于距離的方法在剩余微聚類中挖掘離群點.前2步的主要目的是避免從不包含離群點的微聚類中強行挖掘離群點,對整體數(shù)據(jù)集進行剪枝處理,降低數(shù)據(jù)量,從而降低了基于距離的離群點檢測方法中的計算量.
圖1 T-ODCD算法的流程圖
基于屬性約簡的離群點檢測方法,引入基于信息熵的屬性劃分,對非重要屬性進行約簡.其基本思想[39,41]:首先計算每個屬性信息熵,將其作為加權(quán)距離的權(quán)值;其次依據(jù)屬性劃分熵值和數(shù)據(jù)集的信息熵對屬性重要程度進行劃分,對非重要屬性進行約簡;最后結(jié)合數(shù)據(jù)的離群度計算方法,對離群度進行降序排序,選取前k個離群度最高的對象作為離群點.總結(jié)出AROD算法的流程圖如圖2所示.
本文通過對離群點檢測方法的分析可知,傳統(tǒng)方法本身存在不足,并且針對大數(shù)據(jù)的數(shù)據(jù)量大、維數(shù)高的特性,傳統(tǒng)方法效率低,準(zhǔn)確性低的問題更加突出.為此總結(jié)出當(dāng)前2種離群點改進策略:剪枝策略和屬性約簡策略,并通過T-ODCD算法和AROD算法為例進行分析,以便研究者更進一步深入研究.
大數(shù)據(jù)時代的到來,數(shù)據(jù)呈現(xiàn)爆炸式的增長,人們正被數(shù)據(jù)洪流所包圍,從大規(guī)模數(shù)據(jù)集中檢測出離群點信息猶如從大海撈針,如何通過剪枝規(guī)則來加速大規(guī)模數(shù)據(jù)集中離群點的檢測面臨很大的挑戰(zhàn).數(shù)據(jù)的多樣性是大數(shù)據(jù)時代的顯著特征之一,這也就是意味著除了結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)也將是大數(shù)據(jù)時代的重要數(shù)據(jù)類型組成部分[42],因此流式數(shù)據(jù)的離群點檢測也是一個熱點.最新文獻表明,地學(xué)數(shù)據(jù)的離群檢測算法、動態(tài)環(huán)境下異常的增量式挖掘算法、長時間序列離群檢測算法以及基于人工智能的離群檢測算法將是未來一段時間內(nèi)離群數(shù)據(jù)挖掘領(lǐng)域的一個主要研究方向.
圖2 AROD算法的流程圖
[1] Barwick H.The“fourVs”of big data.Implementing information infrastructure symposium [EB/OL].[2012-10-02].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2]Han Jiawei,Kamber.Datamining:concepts and techniques[M].2ed.San Francisco:Morgan Kaufmann,2006.
[3]薛安榮,姚林,鞠時光,等.離群點挖掘方法綜述[J].計算機科學(xué),2008,35(11):13-27.
[4]薛安榮,鞠時光,何偉華,等.局部離群點挖掘算法研究[J].計算機學(xué)報,2007,30(8):1456-1463.
[5]黃洪宇,林甲祥,陳崇成,等.離群數(shù)據(jù)挖掘綜述[J].計算機應(yīng)用研究,2006,8:8-11.
[6]Hawkins D.Identification of outliers[M].London:Chapman and Hall,1980.
[7]徐翔,劉建偉,羅雄麟.離群點挖掘研究[J].計算機應(yīng)用研究,2009,26(1):34-39.
[8]BarnettV,Lewis T.Outliers in statistical data[M].New York:John Wiley & Sons,1994.
[9]金義富,鄧明.基于統(tǒng)計的離群數(shù)據(jù)挖掘與分析[J].湛江師范學(xué)院學(xué)報,2007,28(6):71-73.
[10]李志云.數(shù)據(jù)挖掘中離群點檢測的非參數(shù)方法研究[J].微型電腦應(yīng)用,2013,29(8):46-47.
[11]Paul S T,F(xiàn)ung K Y.A Generalized extreme studentized residualmultiple-outlier-detection procedure in linear regression [J].Techno-metrics,1991,33:339-348.
[12]史東輝,張春陽,蔡慶生.離群數(shù)據(jù)的挖掘方法研究[J].小型微型計算機系統(tǒng),2001,22(10):234-236.
[13]楊茂林.離群檢測算法研究[D].武漢:華中科技大學(xué),2012.
[14]Knorr E M,Ng R T.Algorithms formining distance-based outliers in large datasets[C]//New York:Proc ofInt ConfVery Large Data-bases(VLDB’98),1998:392-403.
[15]Knorr E,Ng R.Findingintensional knowledge of distancebased outliers[C]//Scotland:Proc of the 25 thVLDB Conference Edin-burgh,1999:211-222.
[16]Angiulli F,Pizzuti C.Fast outlier detection in high dimensional spaces[EB/OL].[2012-10-16].http://www.researchgate.net/publication/220699183_Fast_Outlier_Detection_in_High_Dimensional_Spaces.
[17]Bay S D,Schwabacher M.Mining distance-based outliers in near linear time with randomization and a simple pruning rule[C].Washington,DC:Sigkdd,2003.
[18]An Jiawei,Kamber M.Datamining:concepts and techniques[M].New York:Academic Press,2001.
[19]胡彩平,秦小麟.一種基于密度的局部離群點檢測算法DLOF[J].計算機研究與發(fā)展,2010,47(12):2110-2116.
[20]楊福萍,王洪國,等.基于聚類劃分的兩階段離群點檢測算法 [J].計算機應(yīng)用研究,2013,30(7):1943-1945.
[21]Spiros Papadimitriou,Hiroyuki Kitagawa,et al.LOCI:fast outlier detection using the local correlation integral[EB/OL].[2013-10-12]10.1109/ICDE.2003.1260802.
[22]Breuning M M,Kriegel H P,Ng R T,et al.LOF:identifying density-based local outliers[C].Dallas:ACM Press,2000:93-104.
[23]施化吉,周書勇,李星毅,等.基于平均密度的孤立點檢測研究[J].電子科技大學(xué)學(xué)報,2007,36(6):1286-1288.
[24]Aggarwal C C,Yu P.Findinggeneralized projected clusters in high dimensional spaces[C].Dallas:ACM Press,2000:70-81.
[25]張衛(wèi)旭,尉宇.基于密度的局部離群點檢測算法[J].計算機與數(shù)字工程,2010,38(10):11-14.
[26]Ng R,Han J.Efficient and effective clusteringmethods for spatial datamining[C].California:Morgan Kaufmann PublishersInc,1994,144-155.
[27]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實踐[M].北京:電子工業(yè)出版社,2011.
[28]Xu R,WunschII D.Survey of clustering algorithms[J].IEEE Transactions on Neural Networks,2005,16(3):645-678.
[29]Das K,Schneider J.Detecting anomalous records in categorical dataset[C].New York:ACM,2007,220-229.
[30]Markou M,Singh S.Novelty detection:a review-part2:neural network based approaches [J].Signal Processing,2003,83(12):2499-2521.
[31]Wong W K,MooreA,Cooper G,et al.Bayesian network anomaly pattern detection for disease outbreaks[C].Washington DC:AAAI Press,2003:808-815.
[32]Ratsch Q Mika S,Scholkopf B.Constructing boosting algorithms from svms:An application to one-class classification[J].IEEE Transactions on PatternAnalysis and MachineIntelligence,2002,24(9):1184-1199.
[33]Mahoney MV,Chan P K.Learning rules for anomaly detection of hostile network traffic[C].Washington DC:IEEE,2003:601-604.
[34]崔貫勛,朱慶生.一種改進的基于密度的離群數(shù)據(jù)挖掘算法[J].計算機應(yīng)用,2007,27(3):560-573.
[35]古平,劉海波,羅志恒.一種基于多重聚類的離群點檢測算法 [J].計算機應(yīng)用研究,2013,30(3):751-754.
[36]趙戰(zhàn)營,成長生.基于聚類分析局部離群點挖掘改進算法的研究與實現(xiàn)[J].計算機應(yīng)用與軟件,2010,27(11):255-258.
[37]Agrawal R,Gehrke J,Gunopulos D,et al.Automatic subspace clustering of high dimensional data for datamining applications [EB/OL].[2013-10-17].http://wenku.baidu.com/link?url=GuhDQJR7Xnz0D_PifjZVa1jMJtCiFqlbh_qphD8egqzM_2fkYZJLCaj8sfpFuJ 5gocOgVM3vv-U2c_NX_AlhbEd0BhLCW4bagPjP3CYF 1Qmq.
[38]吳曉燕.高維數(shù)據(jù)空間中離群點檢測算法的研究[D].南京:南京財經(jīng)大學(xué),2010.
[39]王芳.基于屬性重要度的屬性約簡算法研究[D].成都:電子科技大學(xué),2011.
[40]Ye Zhengwang.The research of intrusion detection algorithms based on the clustering of information entropy[C].Wuhan:HubeiUniversity of Technology,2010:552-555.
[41]陳源,曾德勝,謝沖.基于聚類的屬性約簡方法[J].計算機系統(tǒng)應(yīng)用,2009,(5):173-176.
[42]孟小峰,慈祥.大數(shù)據(jù)管理、概念技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.