楊 明,李鐵冰,姜 茸,高提雷,王 佳
(云南財經(jīng)大學(xué) 信息學(xué)院,云南 昆明 650221)
2015年國內(nèi)印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,提出要全面推進(jìn)大數(shù)據(jù)的發(fā)展和應(yīng)用,將中國建設(shè)成為數(shù)據(jù)強(qiáng)國。然而,大數(shù)據(jù)規(guī)模龐大(volume)、類型多樣(variety)、生成迅速(velocity)和價值密度低(value)的特征[1]給數(shù)據(jù)的運(yùn)用和分析帶來了阻礙。在沒有理論體系的支撐下,面對海量的數(shù)據(jù)時更是難以判斷其可用性,也就無法有效地進(jìn)行數(shù)據(jù)價值的提取。此時,所面對的將不再是大數(shù)據(jù),而是“一堆數(shù)據(jù)”[2],就好比坐擁金山卻不知,失去了大數(shù)據(jù)的原有意義。
大數(shù)據(jù)的諸多特征使其難以琢磨,對此李建中[3-4]等指出,一個正確的大數(shù)據(jù)集合至少應(yīng)該滿足5個性質(zhì):精準(zhǔn)性、實(shí)效性、完整性、實(shí)體同一性和一致性,并在此基礎(chǔ)上提出了大數(shù)據(jù)可用性研究的方向和問題。諸如:大數(shù)據(jù)可用性的描述、影響因素的分析、可用性的量化評估、挖掘模型的評價研究等。圍繞這些關(guān)鍵問題,文中結(jié)合AHP方法建立大數(shù)據(jù)可用性及挖掘方案的評估模型,通過定量的比較分析討論大數(shù)據(jù)的可用性及其有效挖掘方案。
建立系統(tǒng)的大數(shù)據(jù)可用性指標(biāo)體系,首先需要梳理其影響因素。圍繞大數(shù)據(jù)的4V特征,通過參閱文獻(xiàn)[5-10],結(jié)合數(shù)據(jù)挖掘的目的,梳理得到以下可用性影響因素:
(1)相關(guān)性。指數(shù)據(jù)是否滿足用戶的需求,包括用戶的預(yù)期、感興趣度和決策目標(biāo)等。滿足用戶需求是決定大數(shù)據(jù)可用性的重要因素,數(shù)據(jù)挖掘的目的正是為了縮小挖掘結(jié)果和用戶預(yù)期之間的差距。邁爾-舍恩伯格[11]教授在其書中也曾提到,在面對紛繁復(fù)雜的數(shù)據(jù)時,更應(yīng)側(cè)重于事物之間的相關(guān)關(guān)系,而不是其因果關(guān)系。
(2)準(zhǔn)確性。其含義包括數(shù)據(jù)的客觀性、公正性、真實(shí)性、精確性等,指數(shù)據(jù)是否能夠客觀反映事物的本質(zhì),并對事物進(jìn)行準(zhǔn)確的描述。在數(shù)據(jù)挖掘的過程中精確性必不可少,而決定挖掘結(jié)果是否可用、是否正確的關(guān)鍵就在于所處理的數(shù)據(jù)是否正確;相反,一個不準(zhǔn)確的數(shù)據(jù)經(jīng)過處理所得到的結(jié)果,將會對決策造成較大的影響。
(3)完整性。指數(shù)據(jù)是否完整,是否包含了對事物的所有信息。大數(shù)據(jù)的挖掘目標(biāo)旨在將全體數(shù)據(jù)資源化,保留數(shù)據(jù)的最大價值。完整的數(shù)據(jù),能夠?yàn)閿?shù)據(jù)的挖掘提供多角度、多層次的事實(shí),從而保證大數(shù)據(jù)的質(zhì)量。而數(shù)據(jù)的不完整則會由于其片面性,造成數(shù)據(jù)價值的丟失,影響數(shù)據(jù)的可用性,甚至導(dǎo)致決策的錯誤。
(4)一致性。指相關(guān)數(shù)據(jù)對于事物本身是否存在不一致的判定,一致性的數(shù)據(jù)要求在空間、時間、因果等關(guān)系上都是保存一致的。例如用1組數(shù)據(jù)描述客戶{年齡=“30”,職業(yè)=“工人”,所屬地區(qū):“重慶”,所屬省份:“四川”},其中就存在空間和時間上的沖突(因?yàn)?997年后重慶便不再隸屬于四川省)。可見,一致性的問題也會影響到數(shù)據(jù)的運(yùn)用和分析。
(5)時效性。指數(shù)據(jù)的時間段是否滿足當(dāng)前的業(yè)務(wù)需求,是否存在由于時間長遠(yuǎn)而失效的數(shù)據(jù)?!吧裳杆佟笔谴髷?shù)據(jù)的主要特征之一,大數(shù)據(jù)的質(zhì)量需求除了數(shù)據(jù)的規(guī)模外,同時也要求數(shù)據(jù)的實(shí)時性。只有及時掌握了數(shù)據(jù)的最新變化,才能指引未來決策的方向。過時的數(shù)據(jù)不僅存在信息落后的弊病,甚至還可能由于未及時更新而出現(xiàn)錯誤的問題。
(6)同一性。不同于一致性,同一性是指多源數(shù)據(jù)對同一實(shí)體的描述是否一致。假如同一實(shí)體在不同的數(shù)據(jù)集中存在不同的描述,或是存在表達(dá)模糊、描述差異等問題,這就會造成決策模凌兩可的局面。另外。同一實(shí)體的多種描述,也會造成數(shù)據(jù)源中信息重復(fù)或冗余的問題。類型多樣是大數(shù)據(jù)的另一特征,正因如此,在大數(shù)據(jù)分析的過程中同一性就顯得額外重要。
(7)擴(kuò)展性。傳統(tǒng)的數(shù)據(jù)注重數(shù)據(jù)的一致性,便于數(shù)據(jù)的挖掘分析。但是在面對大數(shù)據(jù)規(guī)模龐大的特征時,針對具體問題還需考慮數(shù)據(jù)的擴(kuò)展性。雖然從數(shù)據(jù)源中獲得的數(shù)據(jù)是零散的,但是這些數(shù)據(jù)如果能夠通過有效的組合滿足業(yè)務(wù)的需求,或是擴(kuò)大數(shù)據(jù)的描述范圍,對于提升數(shù)據(jù)的質(zhì)量將起到重要的作用,因?yàn)閿?shù)據(jù)在經(jīng)過不同的組合后也會產(chǎn)生新的價值。
上述內(nèi)容從不同角度論述了大數(shù)據(jù)可用性的影響因素,結(jié)合這些因素,利用AHP方法展開進(jìn)一步的評估研究。
AHP(層次分析法)是一種定性和定量相結(jié)合的評價決策方法,適用于多目標(biāo)、多要素、多層次的問題求解[12-13]。它能夠通過定量的比較為決策提出合適的解決方案。在評估大數(shù)據(jù)的可用性時,擬解決的關(guān)鍵問題是保證評價的客觀性。在處理該類問題上,AHP方法通常是對兩兩因素進(jìn)行比較,進(jìn)而通過判斷矩陣實(shí)現(xiàn)對整體的評價。該方法能夠有效地減小評估過程中人為主觀因素的影響。
鑒于此,將AHP融入到大數(shù)據(jù)的可用性研究中,建立其研究結(jié)構(gòu)模型,如圖1所示。
圖1 基于AHP的大數(shù)據(jù)可用性研究結(jié)構(gòu)模型
(1)目標(biāo)層(可用性研究目標(biāo)層)。
目標(biāo)層是整個AHP框架的核心,是研究的主題。大數(shù)據(jù)可用性研究的核心目的旨在提升大數(shù)據(jù)的質(zhì)量,通過合理的方法保證其可用性,得到最優(yōu)的數(shù)據(jù)處理方案。
(2)準(zhǔn)則層(可用性評估指標(biāo)層)。
準(zhǔn)則層描述的是達(dá)成目標(biāo)需要考慮的因素集。在大數(shù)據(jù)的可用性評估中,則是指影響大數(shù)據(jù)可用性的相關(guān)因素。對此前文已經(jīng)論述了7個因素,用集合C={C1,C2,C3,C4,C5,C6,C7}表示。
(3)方案層(大數(shù)據(jù)挖掘方案層)。
方案層指綜合考慮第2層中提出的影響指標(biāo)擬采納的解決方案,也就是面向大數(shù)據(jù)可用性的數(shù)據(jù)挖掘方案。
在圖1模型的基礎(chǔ)上,擬定3種不同的挖掘方案進(jìn)行比較,它們分別側(cè)重于“整體價值”、“挖掘速度”和“挖掘精度”3個不同的點(diǎn),用P={P1,P2,P3}表示。
方案1:盡可能保證數(shù)據(jù)的整體價值。該方案對于數(shù)據(jù)挖掘的速度要求較低,要求從最大程度上保留數(shù)據(jù)的整體價值。
方案2:以最快速度從數(shù)據(jù)中獲取價值,盡快提出決策。該方案側(cè)重于價值的快速提取,對其他方面要求一般。
方案3:保證數(shù)據(jù)的挖掘精度及挖掘結(jié)果的準(zhǔn)確性。該方案的特征在于保證數(shù)據(jù)的精確性,但勢必會在一定程度上影響挖掘的速度。
在擬定挖掘方案后,則是構(gòu)造各層的判斷矩陣。
(1)準(zhǔn)則層(可用性指標(biāo)判斷矩陣)。
首先是準(zhǔn)則層的判斷矩陣。采用表1中的對比標(biāo)準(zhǔn),針對某公司的大數(shù)據(jù)研究項(xiàng)目,綜合12名專家的評估意見,將C={C1,C2,C3,C4,C5,C6,C7}進(jìn)行比較,得到的判斷矩陣如表2所示。
表1 兩兩指標(biāo)對比標(biāo)準(zhǔn)
表2 大數(shù)據(jù)可用性指標(biāo)判斷矩陣
(2)方案層(挖掘方案判斷矩陣)。
同理,比較得到3類挖掘方案相對于各指標(biāo)的判斷矩陣,如圖2所示,其中Pij表示相對于某指標(biāo),方案i與方案j在權(quán)重上的比較。
圖2 各挖掘方案判斷矩陣
例如,其中相對于時效性C2,P2方案比P1方案對時效性的要求更高;而相對于完整性C4,P1方案則比其他方案對完整性的要求都高。
步驟1:用和積法[14-15]計算得到可行性指標(biāo)矩陣的最大特征向量ω以及特征根λmax:
ω=(ω1,ω2,ω3,ω4,ω5,ω6,ω7)T=
(0.156,0.096,0.362,0.106,0.207,0.049,0.024)T
(1)
λmax=7.611
(2)
步驟2:將上述特征根代入到一致性指標(biāo)檢驗(yàn)公式中。
(3)
計算得到CI=0.102,CR=0.077。其中,CI為一致性指標(biāo),其值越大矩陣的不一致程度越高;n為判斷矩陣的階數(shù);RI為隨機(jī)一致性指標(biāo),是經(jīng)過1 000次正反矩陣計算得到的平均隨機(jī)一致性指標(biāo),如表3所示;CR為一致性比率。當(dāng)C<0.1時,說明該判斷矩陣的不一致性程度在容許范圍內(nèi),即說明對于大數(shù)據(jù)各可用性指標(biāo)的權(quán)重比較屬于合理范圍。
表3 矩陣平均隨機(jī)一致性指標(biāo)
步驟3:同理,用和積法求出方案層對目標(biāo)的最大特征向量,分別為:
(ω11,ω21,ω31)=(0.260,0.106,0.633)
(ω12,ω22,ω32)=(0.118,0.681,0.201)
(ω13,ω23,ω33)=(0.539,0.297,0.164)
(ω14,ω24,ω34)=(0.653,0.096,0.251)
(ω15,ω25,ω35)=(0.260,0.106,0.633)
(ω16,ω26,ω36)=(0.334,0.098,0.568)
(ω17,ω27,ω37)=(0.600,0.200,0.200)
(4)
得到結(jié)果為{ω(P1),ω(P2),ω(P3)}={0.401,0.231,0.368},ω(Pj)的值越大說明該方案j對于提高大數(shù)據(jù)可用性的權(quán)重越大,其可行性更高。
研究結(jié)果對比如表4和表5所示。
表4 指標(biāo)對比
表5 方案對比
(1)通過結(jié)果比較可以看出,該項(xiàng)目大數(shù)據(jù)的可用性對時效性C2、同一性C6以及數(shù)據(jù)擴(kuò)展性C7的要求較低,而以相關(guān)性C3最高,說明決定該項(xiàng)目大數(shù)據(jù)可用性最重要指標(biāo)是“數(shù)據(jù)的相關(guān)性”,它將決定該項(xiàng)目大數(shù)據(jù)所產(chǎn)生的價值,同時也說明數(shù)據(jù)源中數(shù)據(jù)的時間變化以及冗余性等并不會較大地影響其決策。
(2)從方案對比可以看出P1>P3>P2。說明要實(shí)現(xiàn)該項(xiàng)目價值的最大化,提高數(shù)據(jù)的可用性,所采用的挖掘方案應(yīng)該首先要注重的是保留數(shù)據(jù)的完整性,從整體上對數(shù)據(jù)進(jìn)行分析;其次在處理的過程中盡量保證數(shù)據(jù)的準(zhǔn)確性等,而不宜過于追求挖掘的速度,否則將會影響到最終結(jié)果的可用性。
以上結(jié)論與邁爾-舍恩伯格在文獻(xiàn)[11]中所提出的觀點(diǎn)一致,說明大數(shù)據(jù)的可用性重在其關(guān)聯(lián)性,在分析過程中需要對全體數(shù)據(jù)進(jìn)行分析而不是抽樣分析,同時需要保證數(shù)據(jù)的準(zhǔn)確性,不能一味地追求速度,只有在這樣的條件下才能盡可能滿足用戶需求,縮小挖掘結(jié)果與用戶預(yù)期之間的差距,將數(shù)據(jù)進(jìn)行有效的價值轉(zhuǎn)化。
圍繞大數(shù)據(jù)的特征,通過參閱文獻(xiàn)梳理得到大數(shù)據(jù)可用性的因素集,提出了基于AHP方法的大數(shù)據(jù)可用性及挖掘方案模型研究。用數(shù)學(xué)的方法描述了大數(shù)據(jù)的可用性,并在該模型基礎(chǔ)上結(jié)合數(shù)學(xué)的方法針對有利于提高大數(shù)據(jù)可用性的挖掘方案展開了定量的對比研究,為大數(shù)據(jù)的可用性評價以及挖掘方案研究提出了一種可行方法。
整個模型的建立科學(xué)合理,采用定性和定量相結(jié)合的方法,有效減少了評價過程中人為主觀因素的影響,對于大數(shù)據(jù)的可用性研究具有一定的參考價值。然而,大數(shù)據(jù)的可用性研究并非是一項(xiàng)簡單的任務(wù),在今后的研究中還有許多需要完善的地方,包括可用性因素集的完善、提高大數(shù)據(jù)可用性的方案研究等。總之,只有在遇到新問題時,針對具體問題具體分析,不斷總結(jié),才能逐漸完善大數(shù)據(jù)的可用性研究理論。
參考文獻(xiàn):
[1] GANTZ J,REINSEL D.Extracting value from chaos[EB/OL].(2011)[2017-07-05].https://russia.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-
ar.pdf.
[2] 張 引,陳 敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機(jī)研究與發(fā)展,2013,50:216-233.
[3] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機(jī)研究與發(fā)展,2013,50(6):1147-1162.
[4] 李建中,王宏志,高 宏.大數(shù)據(jù)可用性的研究進(jìn)展[J].軟件學(xué)報,2016,27(7):1605-1625.
[5] MILLER D W,YEAST J D,EVANS R L.Missing prenatal records at a birth center:a communication problem quantified[C]//Proceedings of AMIA annual fall symposium.Maryland:American Medical Informatics Association,2005:535-539.
[6] SWARTZ N.Gartner warns firms of ‘dirty data’[J].Information Management Journal,2007,41(3):6-12.
[7] KORN F,MUTHUKRISHNAN S,ZHU Y.Checks and balances:monitoring data quality problems in network traffic databases[C]//Proceedings of the 29th international conference on very large data bases.[s.l.]:[s.n.],2003:536-547.
[8] XIONG Hui,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(3):304-319.
[9] 李聰穎,王瑞剛,于金良.大數(shù)據(jù)分布式全文檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J].計算機(jī)與數(shù)字工程,2016,44(12):2426-2430.
[10] 李衛(wèi)榜,李戰(zhàn)懷,陳 群,等.分布式大數(shù)據(jù)不一致性檢測?[J].軟件學(xué)報,2016,27(8):2068-2085.
[11] 維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[12] 曹黎俠,馮孝周.新的改進(jìn)AHP算法研究及應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2010,20(12):115-117.
[13] 王 磊,黃夢醒.云計算環(huán)境下基于灰色AHP的供應(yīng)商信任評估研究[J].計算機(jī)應(yīng)用研究,2013,30(3):742-744.
[14] 趙煥臣,許樹柏,和金生.層次分析法[M].北京:科學(xué)出版社,1986:22-26.
[15] 魏翠萍.層次分析法中和積法的最優(yōu)化理論基礎(chǔ)及性質(zhì)[J].系統(tǒng)工程理論與實(shí)踐,1999,19(9):113-115.