張維群,岳 雪
(1.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710049;2.西安財(cái)經(jīng)學(xué)院 統(tǒng)計(jì)學(xué)院,陜西 西安 710100)
基于Copula連接函數(shù)的數(shù)據(jù)挖掘關(guān)聯(lián)算法的設(shè)計(jì)
張維群1,2,岳 雪2
(1.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710049;2.西安財(cái)經(jīng)學(xué)院 統(tǒng)計(jì)學(xué)院,陜西 西安 710100)
現(xiàn)實(shí)中海量數(shù)據(jù)往往持續(xù)地產(chǎn)生,如何實(shí)現(xiàn)信息和知識(shí)的動(dòng)態(tài)挖掘已成為人們關(guān)注的理論問(wèn)題。根據(jù)數(shù)據(jù)集分批分步輸入處理的思想,以Copula連接函數(shù)為理論基礎(chǔ),給出一種有效海量數(shù)據(jù)的關(guān)聯(lián)分步測(cè)度算法,通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了該算法的可行性,結(jié)果顯示所設(shè)計(jì)的關(guān)聯(lián)算法能顯著提高關(guān)聯(lián)效應(yīng)測(cè)量的效率,并能有效地解決超海量數(shù)據(jù)關(guān)聯(lián)效應(yīng)的測(cè)度問(wèn)題。
關(guān)聯(lián)效應(yīng);連接函數(shù);挖掘算法
隨著信息技術(shù)的進(jìn)步,人們能以更快速、更簡(jiǎn)單、更方便的方式獲取和存儲(chǔ)數(shù)據(jù),必然使數(shù)據(jù)信息量以指數(shù)方式增長(zhǎng),海量數(shù)據(jù)本身并不能直接地體現(xiàn)其價(jià)值,有價(jià)值的是從中抽取到有用的知識(shí)和信息,因此數(shù)據(jù)挖掘越來(lái)越受到重視。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中有用的信息?,F(xiàn)實(shí)中存在著海量數(shù)據(jù)集,但因相對(duì)應(yīng)有限的存儲(chǔ)空間及有限生命體時(shí)間限制的問(wèn)題,設(shè)計(jì)出了高效數(shù)據(jù)挖掘算法,此算法能夠快速挖掘出海量數(shù)據(jù)的知識(shí)和信息,并提供即時(shí)決策,已成為當(dāng)前理論研究的熱點(diǎn)問(wèn)題。
對(duì)于數(shù)據(jù)關(guān)聯(lián)性測(cè)度算法的研究較多,不同文獻(xiàn)根據(jù)問(wèn)題的特殊性設(shè)計(jì)了相應(yīng)的算法。Roecker J A.為解決在多目標(biāo)數(shù)據(jù)關(guān)聯(lián)中存在的噪聲問(wèn)題,提出了一種多重掃描聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)(JPDA)算法,該算法先利用標(biāo)準(zhǔn)單向掃描JPDA算法對(duì)目標(biāo)進(jìn)行追蹤更新,然后進(jìn)行后向掃描,并將隨著后向掃描目標(biāo)信息所產(chǎn)生的更好加權(quán)數(shù)據(jù)關(guān)聯(lián)反饋給服務(wù)器,從而解決同時(shí)在多目標(biāo)和噪聲的環(huán)境下測(cè)量跟蹤數(shù)據(jù)關(guān)聯(lián)的問(wèn)題[1];陳玉坤等人運(yùn)用現(xiàn)代數(shù)學(xué)中的綜合分析法得出模糊相似性測(cè)度數(shù)據(jù)關(guān)聯(lián)算法,其處理速度較快,存儲(chǔ)和通信量要求較低,且具有良好的關(guān)聯(lián)效果[2];Wang Hansheng提出了迭代邊緣優(yōu)化擬合算法(IMO),旨在保證MRC目標(biāo)函數(shù)的單調(diào)遞增,該算法不僅有效穩(wěn)定,且計(jì)算速度也非常令人滿意[3];Michael Kaess等人針對(duì)邊際協(xié)方差陣估計(jì)數(shù)據(jù)關(guān)聯(lián)問(wèn)題很難得到計(jì)算完整的密集協(xié)方差矩陣,提出使用一個(gè)平方根信息矩陣作為維護(hù)增量平滑和映射(iSAM)算法,并允許刪除不提供信息的測(cè)量降低估計(jì)的復(fù)雜性,該算法用真實(shí)數(shù)據(jù)模擬實(shí)驗(yàn)結(jié)果較好[4];唐冬麗等人針對(duì)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法需要知道目標(biāo)總數(shù)并對(duì)矩陣差分計(jì)算量呈指數(shù)增長(zhǎng)的問(wèn)題,提出了一種模糊多門限概率關(guān)聯(lián)算法,該算法利用計(jì)算測(cè)量與目標(biāo)的關(guān)聯(lián)概率來(lái)替代概率數(shù)據(jù)關(guān)聯(lián)算法中可行聯(lián)合事件概率,在改善性能的同時(shí)又減少了計(jì)算量[5];安振等人認(rèn)為數(shù)據(jù)關(guān)聯(lián)算法的研究是多目標(biāo)跟蹤中的核心問(wèn)題,多目標(biāo)跟蹤的精度和計(jì)算過(guò)程的復(fù)雜度均取決于所采取的數(shù)據(jù)關(guān)聯(lián)算法的優(yōu)劣,繼而提出了一種改進(jìn)的次優(yōu)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法[6];Aziz Ashraf M.為了在很大程度上降低聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)方法和傳統(tǒng)模糊邏輯數(shù)據(jù)關(guān)聯(lián)方法的計(jì)算復(fù)雜度,提出加權(quán)模糊關(guān)聯(lián)方法解決在嘈雜環(huán)境中多目標(biāo)的跟蹤問(wèn)題,利用模糊聚類來(lái)生成一個(gè)似然測(cè)度代替?zhèn)鹘y(tǒng)的馬哈拉諾比斯距離,實(shí)驗(yàn)結(jié)果表明該算法具有比最近鄰馬哈拉諾比斯距離、聯(lián)合數(shù)據(jù)關(guān)聯(lián)算法和傳統(tǒng)模糊邏輯數(shù)據(jù)關(guān)聯(lián)方法更好的性能[7]。
綜合文獻(xiàn)研究可以看出,雖然以往的算法對(duì)于變量的關(guān)聯(lián)測(cè)度算法有很大的提高,但都是針對(duì)有限數(shù)據(jù)集進(jìn)行研究,在超大數(shù)據(jù)集和連續(xù)數(shù)據(jù)流的情況下,算法復(fù)雜度太高且運(yùn)算量較大,算法的效率改進(jìn)有限。張維群利用迭代思想提出了分步測(cè)量關(guān)聯(lián)性的算法[8],但是該算法需要系統(tǒng)存儲(chǔ)上步計(jì)算的諸多參數(shù),使算法的適用性受到限制。筆者在此基礎(chǔ)上,利用云計(jì)算思想,將數(shù)據(jù)分步分批進(jìn)行處理,利用連接函數(shù)的概念,對(duì)分批樣本的估算結(jié)果進(jìn)行連接,依據(jù)收斂后的結(jié)論快速地得出關(guān)聯(lián)測(cè)度結(jié)果。
對(duì)于現(xiàn)實(shí)中連續(xù)生成的海量數(shù)據(jù)而言,傳統(tǒng)的關(guān)聯(lián)測(cè)度算法已經(jīng)不能保證結(jié)果的準(zhǔn)確性和有效性,這是因?yàn)楹A繑?shù)據(jù)或無(wú)限數(shù)據(jù)交由一個(gè)處理器處理,難免會(huì)降低處理效率,也不可能一次性進(jìn)行即時(shí)處理。因此,利用云計(jì)算的資源交互概念,對(duì)傳統(tǒng)海量數(shù)據(jù)關(guān)聯(lián)挖掘算法進(jìn)行改進(jìn),提出將分“塊”數(shù)據(jù)分步關(guān)聯(lián)性測(cè)度計(jì)算結(jié)果通過(guò)連接函數(shù)進(jìn)行連接,依據(jù)結(jié)果收斂的性質(zhì)提出了一種快速有效的關(guān)聯(lián)測(cè)度算法。在利用海量數(shù)據(jù)的有限樣本情況下,給出了海量數(shù)據(jù)目標(biāo)變量間關(guān)聯(lián)性測(cè)度結(jié)果,使海量數(shù)據(jù)的關(guān)聯(lián)算法更有效率。
1.連接函數(shù)的構(gòu)造
張堯庭最先將Copula函數(shù)應(yīng)用到相關(guān)分析中,在Copula連接函數(shù)原型的基礎(chǔ)上構(gòu)造連接函數(shù)。常用Copula連接函數(shù)分為兩大類:橢圓Copula函數(shù)族和阿基米德Copula函數(shù)族。在此,以阿基米德Copula函數(shù)為原型,形式如下:
關(guān)于“連接函數(shù)”,即將邊緣分布通過(guò)連接函數(shù)與聯(lián)合分布函數(shù)形成等式關(guān)系這一概念,由于該函數(shù)具有形式簡(jiǎn)單、對(duì)稱性和可結(jié)合性等優(yōu)良性質(zhì),基于樣本量與綜合信息量相關(guān)的客觀事實(shí),將權(quán)重這一信息加入式(1),再綜合考慮相關(guān)系數(shù)的取值范圍,對(duì)連接函數(shù)設(shè)計(jì)為:
根據(jù)數(shù)據(jù)分“塊”的思想,將海量數(shù)據(jù)中的一個(gè)小樣本集si交由終端處理,以較為常用的皮爾遜相關(guān)系數(shù)為例,在已知實(shí)際的數(shù)據(jù)分布關(guān)聯(lián)測(cè)度分析中,可根據(jù)數(shù)據(jù)的具體特征來(lái)選擇具體的相關(guān)系數(shù)計(jì)算方法,估計(jì)出樣本集si中變量x對(duì)y的關(guān)聯(lián)效應(yīng)水平:
為了驗(yàn)證設(shè)計(jì)算法的有效性,用Matlab軟件處理來(lái)自移動(dòng)通信行業(yè)的26 300組數(shù)據(jù),從而計(jì)算通話時(shí)長(zhǎng)與話費(fèi)開銷的關(guān)聯(lián)測(cè)度。隨機(jī)進(jìn)行分組,可將各組數(shù)據(jù)分步交由處理器進(jìn)行處理。為了剔除參數(shù)α取值的影響,實(shí)驗(yàn)中均令α的取值從0.1取到0.9,輸出每次的結(jié)果,然后再選取最優(yōu)結(jié)果。實(shí)驗(yàn)分別進(jìn)行了12次,輸出結(jié)果見表1。
如果利用全部26 300組樣本得到計(jì)算通話時(shí)長(zhǎng)與話費(fèi)開銷的關(guān)聯(lián)測(cè)度為0.745 9,根據(jù)本文算法的實(shí)驗(yàn)結(jié)果顯示,上述數(shù)據(jù)在實(shí)驗(yàn)中最多用了159組數(shù)據(jù),樣本利用率為60.45%,最少的實(shí)驗(yàn)僅通過(guò)2組數(shù)據(jù)就得到了收斂結(jié)果,樣本利用率只有0.76%。綜合實(shí)驗(yàn)結(jié)果,本文設(shè)計(jì)的關(guān)聯(lián)算法樣本利用率均沒(méi)有超過(guò)61%,最差精度為0.71%,結(jié)果說(shuō)明所設(shè)計(jì)的關(guān)聯(lián)算法具有明顯的優(yōu)勢(shì),大大地降低了處理器運(yùn)算量,從而節(jié)約了處理時(shí)間,提高了處理效率,也降低了處理過(guò)程對(duì)于計(jì)算機(jī)硬件的要求。
現(xiàn)實(shí)中數(shù)據(jù)平臺(tái)可能會(huì)不斷地生成新的數(shù)據(jù),傳統(tǒng)算法需要將所有數(shù)據(jù)重新計(jì)算。本文設(shè)計(jì)的算法只需要對(duì)新生成數(shù)據(jù)進(jìn)行關(guān)聯(lián)性測(cè)量,并運(yùn)用連接函數(shù)生成新的測(cè)量結(jié)果,如果新的測(cè)量結(jié)果收斂,則可以在一段時(shí)期內(nèi)不用對(duì)海量數(shù)據(jù)進(jìn)行再挖掘,其關(guān)聯(lián)性測(cè)度水平只要通過(guò)云平臺(tái)提供給用戶就可以。
本文以數(shù)據(jù)集分“塊”和連接函數(shù)為基礎(chǔ),討論海量數(shù)據(jù)關(guān)聯(lián)測(cè)度算法的設(shè)計(jì),并設(shè)計(jì)了一種有效準(zhǔn)確的關(guān)聯(lián)測(cè)度算法,驗(yàn)證了該算法具有顯著的處理效率和應(yīng)用的可行性。同樣,設(shè)計(jì)的算法對(duì)于測(cè)量超海量數(shù)據(jù)集的關(guān)聯(lián)性水平仍然有效,也為海量數(shù)據(jù)挖掘的云服務(wù)提供了可能。
[1] Roecker J A.Multiple Scan Joint Probabilistic Data Association[J].IEEE Transactions on Aerospace and Electronic Systems,1995,31(3).
[2] 陳玉坤,司錫才,李偉彤.基于模糊相似性測(cè)度的數(shù)據(jù)關(guān)聯(lián)算法研究[J].彈箭與制導(dǎo)學(xué)報(bào),2007(2).
[3] Wang H.A Note on Iterative Marginal Optimization:A Simple Algorithm for Maximum Rank Correlation Estimation[J].Computational Statistics & Data Analysis,2007(6).
[4] Kaess M,Dellaert F.Covariance Recovery from a Square Root Information Matrix for Data Association[J].Robotics and Autonomous Systems,2009(12).
[5] 唐冬麗,李小兵,王志清.一種改進(jìn)的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法的研究[J].彈箭與制導(dǎo)學(xué)報(bào),2010(6).
[6] 安振,姜秋喜,李業(yè)春.次優(yōu)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法的研究[J].現(xiàn)代雷達(dá),2011(4).
[7] Aziz Ashraf M.A New Nearest-Neighbor Association Approach Based on Fuzzy Clustering[J].Aerospace Science and Technology,2013(1).
[8] 張維群.基于海量數(shù)據(jù)關(guān)聯(lián)效應(yīng)測(cè)度算法的設(shè)計(jì)[J].統(tǒng)計(jì)與信息論壇,2012(7).
A Design of Correlation Algorithm of Data Mining Based on the Copula Function
ZHANG Wei-qun1,2,YUE Xue2
(1.School of Economics and Finance,Xi'an Jiaotong University,Xi'an 710049,China;2.School of Statistics,Xi'an University of Finance and Economics,Xi'an 710100,China)
In reality,the massive data are generated continuously,how to realize the dynamic mining of information and knowledge is a theoretical problem which people concerned.According to the idea of batch wise and stepwise input data processing,an effective stepwise algorithm on mass data correlation is introduced which is based on the theory of copula function.Further,the feasibility of the algorithm is verified by simulation experiments.The results show that the efficiency of measurement on the data association effect can be highly improved through the algorithm referred in this paper,and the measurement of super mass data or even infinite data will be solved effectively.
correlation effect;Copula function;mining algorithm
F224.0∶O213.9
A
1007-3116(2014)04-0010-04
2013-11-18;修復(fù)日期:2014-01-12
國(guó)家社會(huì)科學(xué)基金項(xiàng)目《基于多因素的空間抽樣調(diào)查理論與應(yīng)用研究》(13BTJ006)
張維群,男,陜西旬邑人,博士生,副教授,研究方向:電子商務(wù)數(shù)據(jù)挖掘,統(tǒng)計(jì)測(cè)度理論;
岳 雪,女,貴州遵義人,碩士生,研究方向:統(tǒng)計(jì)理論,數(shù)據(jù)挖掘算法。
(責(zé)任編輯:郭詩(shī)夢(mèng))