(廈門市美亞柏科信息股份有限公司 福建 361008)
社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等的出現(xiàn)帶領(lǐng)人們進入到全新的世界,同時也給人們的生活注入了新鮮的血液,滿足了人們對高品質(zhì)生活的追求,讓人們的生活上升到了新的高度。但大量信息出現(xiàn)的同時也讓數(shù)據(jù)不斷地增加,如何有效地得到更加精確的數(shù)據(jù)呢?這是一個值得我們?nèi)フJ真思考的問題。
大數(shù)據(jù)中所具有的數(shù)據(jù)是復(fù)雜多變的,面對這種情況就需要采用合理的方式將數(shù)據(jù)進行有效區(qū)分,讓收集到的數(shù)據(jù)能夠快速地被辨別。在實踐證明下發(fā)現(xiàn)傳統(tǒng)的方式不能夠?qū)?shù)據(jù)進行有效區(qū)分,還會讓所收集到的數(shù)據(jù)出現(xiàn)不完整的情況,這是由于傳統(tǒng)方式主要以數(shù)據(jù)采樣為切入口,從而以縮小數(shù)據(jù)范圍的形式對數(shù)據(jù)庫進行高效地管理,雖然這種方式在一定程度上減少了對數(shù)據(jù)進行分析的時間,但會導(dǎo)致所掌握的數(shù)據(jù)有誤差并出現(xiàn)無用的數(shù)據(jù),不能夠讓數(shù)據(jù)發(fā)揮最大的價值,還會讓數(shù)據(jù)在被收集后不能夠進行二次使用。傳統(tǒng)方式還會將數(shù)據(jù)進行強制性的聚類,但這種方式會對數(shù)據(jù)的多維結(jié)構(gòu)造成影響,讓數(shù)據(jù)的多維結(jié)構(gòu)出現(xiàn)不完整的情況,使得計算的結(jié)果出現(xiàn)誤差。
而數(shù)據(jù)聚類分析在對數(shù)據(jù)進行處理的過程中將數(shù)據(jù)原有的特征與數(shù)據(jù)具有的多維關(guān)系進行保留,根據(jù)不同數(shù)據(jù)所具有的不同特征采取相應(yīng)的方式對數(shù)據(jù)進行分析,能夠讓同類數(shù)據(jù)與異類數(shù)據(jù)被有效地分析。
采用多維分析是推動聚類區(qū)分的重要內(nèi)容,要想開啟多維分析的按鈕,就需要采取相應(yīng)的方式讓維度能夠被改變,充分借助數(shù)據(jù)非結(jié)構(gòu)的特征能夠?qū)?shù)據(jù)維度的改變產(chǎn)生一定的效果,在事實表中將所收集到的數(shù)據(jù)維度融合到其中,能夠有效地應(yīng)對復(fù)雜多變的問題,讓數(shù)據(jù)維度有所變化,這也說明了數(shù)據(jù)中的維度無論上升多少,都不會讓數(shù)據(jù)分析的性能產(chǎn)生改變。
多維聚類分析算法主要是一個決策樹的模式,在整個過程中能夠通過命令將內(nèi)容環(huán)環(huán)執(zhí)行并得出最終的結(jié)果。這種算法能夠通過分析數(shù)據(jù)項的形式,在所有檢測規(guī)則產(chǎn)生的結(jié)果分布中,對數(shù)據(jù)項打上各種維度的標(biāo)簽,依據(jù)標(biāo)簽動態(tài)地對該類數(shù)據(jù)類型的質(zhì)量檢測流程進行調(diào)整,讓檢測的數(shù)據(jù)質(zhì)量能夠得到保證。
所謂非結(jié)構(gòu)化數(shù)據(jù)就是沒有完整結(jié)構(gòu)的數(shù)據(jù),它能夠?qū)?shù)字、符號等具有明顯結(jié)構(gòu)的數(shù)據(jù)進行處理,還能夠?qū)β曇簟D像文本等非結(jié)構(gòu)性數(shù)據(jù)進行處理。全部字段的記錄對字段并未做過多的要求。但不能夠利用數(shù)據(jù)庫二維邏輯表對數(shù)據(jù)進行表示。多維去重聚類分析算法主要是借助貝葉斯網(wǎng)絡(luò)的特殊模型結(jié)構(gòu)對隱形結(jié)構(gòu)進行分析,并讓顯變量能夠與隱變量具有關(guān)聯(lián)性,所有的隱變量能夠與數(shù)據(jù)聚類相互對應(yīng),能夠接納多個隱變量的存在。
多維去重聚類算法在對非結(jié)構(gòu)數(shù)據(jù)進行有效分析的過程中會采用相應(yīng)的方式進行,在很大程度上能夠提升去重效果,讓去重的效果能夠上升到新的高度,以下是對數(shù)據(jù)去重的具體步驟:①為了讓數(shù)據(jù)能夠有效地被清理,可以以數(shù)據(jù)預(yù)處理為突破口找到打開去重數(shù)據(jù)的鑰匙,有效地對數(shù)據(jù)進行保護,在對數(shù)據(jù)進行處理的過程中對數(shù)據(jù)進行轉(zhuǎn)換主要是通過屬性內(nèi)連續(xù)值來區(qū)分。②使用統(tǒng)計學(xué)中的概率模式能夠讓數(shù)據(jù)預(yù)處理的效果更高,可以將數(shù)據(jù)集劃分成清晰易懂的形式,能夠在一定程度上使得結(jié)果準(zhǔn)確率更高。在借助分類器進行評估的過程中,若能夠讓分類器正常使用,就說明評估的結(jié)果準(zhǔn)確率高;若分類器不能夠被使用,就應(yīng)該采取相應(yīng)的措施讓分類器能夠達到理想中的狀態(tài)。③為了讓文本通過計算機的識別環(huán)節(jié),就需要借助向量空間模型,在將文本進行轉(zhuǎn)換的過程中應(yīng)該利用文本中詞的表現(xiàn)形式進行量化處理。④為了對維數(shù)進行有效控制,使得結(jié)果更加精確,就需要采取合理且有效的方式進行,使得分類的速度有所提升并讓分類的結(jié)果更加精確。
依據(jù)非結(jié)構(gòu)化數(shù)據(jù)的特征能夠?qū)Χ嗑S數(shù)據(jù)聚類分析函數(shù)模型的概念有所了解。以下是多維數(shù)據(jù)聚類分析函數(shù)模型的含義:①利用數(shù)據(jù)集的形式對數(shù)據(jù)進行分析,例如給定數(shù)據(jù)集E={E1,E2,E3,…,En},類別集合F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)n},主要是為了讓集合D 中的D1、D2等能夠與其中的類別進行對應(yīng)并得到反映。②若給定大數(shù)據(jù)變量集合為O={O1,O2,O3,…On},變量Oi主要依賴于節(jié)點集合O,那么每一個變量都可以表示一個節(jié)點,每個節(jié)點都能夠從集合O 中的所有向節(jié)點引導(dǎo)一條有向邊到達Oi。③若W 與N 是貝葉斯網(wǎng)S 中的兩個變量,P 是O 中與W 與N 集合無關(guān)的節(jié)點集合。若Pd對W、N 進行分割,就會讓W(xué)、N 在條件P 出現(xiàn)時獨立,進一步說明了貝葉斯網(wǎng)絡(luò)圖論側(cè)面與概率論側(cè)面所具有的聯(lián)系。④為了對樣本空間進行區(qū)分,將貝葉斯公式設(shè)定為{l1,l2,l3,…,ln},若Q(Ii)能夠反映Ii所出現(xiàn)的概率,同時Q(Ii)>0,且i 是自然數(shù)。任意時間出現(xiàn)時都會使得Q(x)>0。⑤如果依據(jù)特征矢量x 提供的證據(jù)對某個物體進行分類,,p(wj/x)>p(wi/x)(i≠j)。應(yīng)用貝葉斯公式展開后可以得到:p(x/wj)p(wj)>p(x/wi)p(wi),決策規(guī)則具有一定的似然率測試規(guī)則。⑥借助概率的形式讓推理的過程難度得到快速地降低,以消元過程為突破口,能夠找到數(shù)據(jù)被有效處理的過程,從而計算出概率很小的樣本。
在對數(shù)據(jù)進行篩選的過程中傳統(tǒng)的數(shù)據(jù)去重算法已經(jīng)不能夠滿足去重的要求了,會使得去重的結(jié)果產(chǎn)生誤差并將有用的數(shù)據(jù)篩選出去,讓結(jié)果達不到預(yù)期的效果。所以對數(shù)據(jù)去重算法進行大力的升級是十分重要的內(nèi)容。在通過多種算法對數(shù)據(jù)去重后發(fā)現(xiàn)聚類算法具有明顯的篩選優(yōu)勢,數(shù)據(jù)去重的精確率比其他同類算法的精確率提高了30%,同時對數(shù)據(jù)檢測的速度十分快速且準(zhǔn)確率很高,能夠推動多維數(shù)據(jù)去重。
多維數(shù)據(jù)在對所收集到的數(shù)據(jù)進行檢測的過程中能夠提升數(shù)據(jù)檢測的準(zhǔn)確率,傳統(tǒng)的檢測數(shù)據(jù)的方式已經(jīng)不能夠滿足數(shù)據(jù)準(zhǔn)確率高的要求了,主要是由于傳統(tǒng)算法在面對突發(fā)情況的時候,會出現(xiàn)對數(shù)據(jù)進行檢測的誤差,讓數(shù)據(jù)的質(zhì)量下降到最低點,使得檢測的結(jié)果達不到理想中的狀態(tài),同時對數(shù)據(jù)進行去重需要很長的時間來進行,加大了數(shù)據(jù)去重的時間成本,讓數(shù)據(jù)去重的整個過程變得十分復(fù)雜,不利于提升數(shù)據(jù)去重的效率。而多維數(shù)據(jù)去重能夠?qū)?shù)據(jù)進行及時且有效地分析,大力提升了數(shù)據(jù)去重的速度。在對數(shù)據(jù)進行有效分析后能夠主動地對檢測的結(jié)果反饋,讓所收集到的數(shù)據(jù)質(zhì)量能夠提升,從而使得整個數(shù)據(jù)庫是有用的且重復(fù)率很低,切實地幫助了使用者。
充分借助多維數(shù)據(jù)對數(shù)據(jù)庫進行篩選,能夠及時地將所要的數(shù)據(jù)進行精確定位,同時保留了價值很高的數(shù)據(jù)。充分利用規(guī)則相似性評估算法與多維標(biāo)簽,能夠及時地將類型不明確的數(shù)據(jù)項的質(zhì)量直觀地展現(xiàn)出來,使得不明確類型的數(shù)據(jù)項能夠主動地對檢測相關(guān)的規(guī)定進行有效反映,對數(shù)據(jù)的準(zhǔn)確性及時地進行了篩選,能夠在一定程度上推動多維數(shù)據(jù)檢測的速率,使得數(shù)據(jù)檢測的工作壓力得到了緩解。
多維數(shù)據(jù)檢測能夠使得檢測的整個過程逐漸簡單化,在對傳統(tǒng)算法進行優(yōu)化的過程中,運用這種算法對數(shù)據(jù)進行去重能夠縮減去重的時間,在很大程度上使得時間成本得到了降低,在執(zhí)行某個命令的過程中,能夠按照命令的要求執(zhí)行,透過每一環(huán)的執(zhí)行最終將結(jié)果快速地得出,相比于傳統(tǒng)的方式,能夠讓整個過程具有簡便性特征。
在大數(shù)據(jù)環(huán)境中對多維數(shù)據(jù)去重具有多種方式,但在實際去重的過程中能夠知道聚類算法的效果更佳,并且聚類算法所花費的成本更低。例如,模糊信息?;绞綄?shù)據(jù)分析的效果很差,并且不能夠有效地分析數(shù)據(jù)與數(shù)據(jù)之間的明顯區(qū)別,這使得最終篩選的數(shù)據(jù)并不是理想中的狀態(tài);粗糙集近似法在對多維數(shù)據(jù)去重的過程中不僅擁有較強的表達方式,而且對數(shù)據(jù)分析的能力要求很高。在對不同去重方式進行對比后能夠知道不同算法擁有自己獨特的優(yōu)勢,在大數(shù)據(jù)環(huán)境下應(yīng)該依據(jù)不同領(lǐng)域進行有效運用,才能夠讓不同算法發(fā)揮最大的價值。
隨著信息化時代的不斷推進,在大數(shù)據(jù)環(huán)境中多維數(shù)據(jù)去重成了十分艱巨且重大的內(nèi)容,人們開始大力注重對多維數(shù)據(jù)的去重,讓所收集到的數(shù)據(jù)能夠降低重復(fù)率并且讓所得到的數(shù)據(jù)能夠更加精確化。而聚類算法的運用能夠在很大程度上提升對多維數(shù)據(jù)去重的效率,在與其他算法進行對比后能夠明顯看到聚類算法比同類算法的精確度更高,按動了去重質(zhì)量優(yōu)化的加速鍵。