宋 蕊
(黃河水利職業(yè)技術(shù)學(xué)院,河南 開封 475000)
物聯(lián)網(wǎng)作為基于網(wǎng)絡(luò)平臺(tái)形成的一種具有針對(duì)性和聯(lián)動(dòng)性的網(wǎng)絡(luò)化結(jié)構(gòu),其應(yīng)用范圍呈逐步拓展的趨勢(shì)。數(shù)據(jù)挖掘則強(qiáng)調(diào)從固有的數(shù)據(jù)信息中尋找和挖掘有價(jià)值的信息,通過(guò)數(shù)據(jù)信息的分析和研究找到問(wèn)題解決的辦法。只要保證數(shù)據(jù)信息的來(lái)源和計(jì)算方法的準(zhǔn)確性和可靠性,就能夠在物聯(lián)網(wǎng)時(shí)代充分發(fā)揮數(shù)據(jù)對(duì)問(wèn)題分析和解決過(guò)程的支撐作用,體現(xiàn)物聯(lián)網(wǎng)系統(tǒng)在實(shí)踐應(yīng)用中的優(yōu)勢(shì)。
數(shù)據(jù)挖掘是基于固定的數(shù)據(jù)信息進(jìn)行分析和研究的過(guò)程,整個(gè)數(shù)據(jù)挖掘的工作流程具有典型的程序化特征,且各個(gè)步驟之間也有非常緊密的聯(lián)系。對(duì)數(shù)據(jù)挖掘基本流程的充分了解,是進(jìn)一步為物聯(lián)網(wǎng)實(shí)踐應(yīng)用提供服務(wù)的重要條件。具體來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用流程如下。
數(shù)據(jù)集的選擇主要是指,從數(shù)據(jù)信息的來(lái)源方面進(jìn)行有效控制并合理選擇?,F(xiàn)階段比較常見(jiàn)的數(shù)據(jù)集選擇方式包括網(wǎng)站下載、網(wǎng)絡(luò)爬蟲技術(shù)支持下的爬取、數(shù)據(jù)庫(kù)下載等多種渠道。親戚關(guān)系數(shù)據(jù)集選取環(huán)節(jié)所選定的數(shù)據(jù)集模式,會(huì)直接影響后續(xù)的數(shù)據(jù)信息算法的選擇[1]。因此,在數(shù)據(jù)挖掘技術(shù)的應(yīng)用中,應(yīng)當(dāng)對(duì)前期的數(shù)據(jù)集選擇環(huán)節(jié)的工作引起充分的重視,并慎重完成篩選過(guò)程。
數(shù)據(jù)集的預(yù)處理環(huán)節(jié)是指,在具體的數(shù)據(jù)挖掘技術(shù)實(shí)踐應(yīng)用前,需要對(duì)數(shù)據(jù)集進(jìn)行細(xì)節(jié)性篩選和處理,形成優(yōu)質(zhì)數(shù)據(jù)集。在進(jìn)行預(yù)處理的過(guò)程中,主要步驟包括數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)規(guī)約。經(jīng)過(guò)處理的數(shù)據(jù)可向目的端進(jìn)行傳送,并進(jìn)一步應(yīng)用[2]。
數(shù)據(jù)挖掘是整個(gè)技術(shù)實(shí)施的核心環(huán)節(jié),需要相關(guān)的技術(shù)人員和數(shù)據(jù)分析研究人員分別從數(shù)據(jù)的結(jié)構(gòu)、維度等方面對(duì)數(shù)據(jù)的基本性質(zhì)和特征進(jìn)行明確[3]。在此基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中涉及的不同類型的算法進(jìn)行充分了解,明確其實(shí)踐應(yīng)用中的基本特征和優(yōu)缺點(diǎn),以便結(jié)合實(shí)際選擇適當(dāng)?shù)乃惴ㄍ瓿蓴?shù)據(jù)挖掘的過(guò)程,確保在大批量的數(shù)據(jù)信息中找到具有應(yīng)用價(jià)值的關(guān)鍵性信息。
在這一階段,工作要點(diǎn)在于,對(duì)已經(jīng)選擇的計(jì)算方法和計(jì)算流程狀態(tài)進(jìn)行評(píng)估,確認(rèn)此模式在實(shí)踐應(yīng)用中是否具有合理性和可靠性[4]。在分析了整體模式的狀態(tài)后,也能夠?yàn)榘l(fā)現(xiàn)新的運(yùn)行模式提供一定的支持和幫助。圖1 為數(shù)據(jù)挖掘環(huán)節(jié)的具體工作開展流程。
圖1 數(shù)據(jù)挖掘技術(shù)應(yīng)用流程
虛擬化技術(shù)主要應(yīng)用于:當(dāng)高性能的硬件出現(xiàn)了產(chǎn)能過(guò)剩的問(wèn)題或者由于陳舊性因素導(dǎo)致產(chǎn)能不足問(wèn)題時(shí),通過(guò)虛擬化技術(shù)完成硬件的充足與再利用。通過(guò)底層物理硬件的透明化處理,實(shí)現(xiàn)軟件和硬件的分離操作。利用獨(dú)立的高性能硬件實(shí)現(xiàn)多種類型資源的虛擬,實(shí)現(xiàn)客觀上產(chǎn)能不足的資源的整合和應(yīng)用,提升物理硬件本身的利用率[5]。
云計(jì)算技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在對(duì)多種不同類型數(shù)據(jù)的集中處理,并建立相應(yīng)的編程模型。具體的編程模型結(jié)構(gòu)方面包括了不同類型的函數(shù)公式,在不同的階段需要利用函數(shù)公式完成相應(yīng)的計(jì)算以及數(shù)據(jù)的讀取和加工。完成數(shù)據(jù)的初步讀取過(guò)程后,需進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行合并處理[6]。這種數(shù)據(jù)處理模型對(duì)大批量的數(shù)據(jù)都具有處理能力,并且對(duì)于數(shù)據(jù)集也能夠起到監(jiān)控作用。一旦出現(xiàn)運(yùn)行異常的情況,也能夠及時(shí)進(jìn)行識(shí)別處理,在整體的運(yùn)行穩(wěn)定性上更高。圖2 為常用并行編程模型。
圖2 并行編程模型
Hadoop 平臺(tái)是云計(jì)算技術(shù)應(yīng)用的典型常用平臺(tái)。此平臺(tái)在實(shí)踐應(yīng)用中能夠?qū)崿F(xiàn)大批量數(shù)據(jù)的存儲(chǔ),在硬件分布式集群化處理時(shí),均可發(fā)揮相應(yīng)的作用。在具體特征方面,此平臺(tái)具有典型的適應(yīng)性和擴(kuò)展性優(yōu)勢(shì),可根據(jù)用戶在實(shí)踐應(yīng)用中的具體需求,完成內(nèi)容和信息的擴(kuò)展。在這一云計(jì)算平臺(tái)上,數(shù)據(jù)存儲(chǔ)在模塊結(jié)構(gòu)中。在不同的模塊結(jié)構(gòu)支撐下,數(shù)據(jù)信息實(shí)現(xiàn)不同位置的復(fù)制,而集群節(jié)點(diǎn)周圍的數(shù)據(jù)是數(shù)據(jù)分析中具有高度可用性的關(guān)鍵數(shù)據(jù)。此平臺(tái)的基本組件主要包括了分布式文件系統(tǒng)以及MapReduce 系統(tǒng)[7]。前者主要提供集群中的復(fù)制數(shù)據(jù)塊信息,并且實(shí)現(xiàn)大批量數(shù)據(jù)的有效存儲(chǔ);而后者則主要發(fā)揮分布式大數(shù)據(jù)計(jì)算的功能。在實(shí)踐運(yùn)行應(yīng)用中,除了要保證平臺(tái)功能的有效發(fā)揮,平臺(tái)運(yùn)行中的安全以及數(shù)據(jù)信息一致性,也是需要考慮的典型問(wèn)題。在此平臺(tái)中,隨著數(shù)據(jù)計(jì)算和分析功能的發(fā)揮,安全模式會(huì)同步啟動(dòng)。這時(shí),文件系統(tǒng)只接受讀取的請(qǐng)求;而對(duì)于刪除、修改等變更性請(qǐng)求不予處理。數(shù)據(jù)的一致性主要是指,在平臺(tái)運(yùn)行的過(guò)程中,節(jié)點(diǎn)之間的數(shù)據(jù)傳送會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)損失和破壞的現(xiàn)象。因此,為了保證數(shù)據(jù)信息的準(zhǔn)確性和完整性,利用系統(tǒng)內(nèi)的分布式文件功能,完成對(duì)基礎(chǔ)數(shù)據(jù)信息的校驗(yàn)和分析,確保新文件的存儲(chǔ)經(jīng)過(guò)校驗(yàn)和分析。
聚類算法在數(shù)據(jù)挖掘技術(shù)中屬于核心的算法方式。在聚類算法應(yīng)用中,又可細(xì)分為不同類型的細(xì)節(jié)算法。比較常見(jiàn)的聚類算法包括了K-means 算法和LDC 算法。而本文探討的ALDCK-means 算法,能夠解決傳統(tǒng)算法中的噪聲問(wèn)題和數(shù)值異常問(wèn)題。在算法應(yīng)用的過(guò)程中,簇的質(zhì)心將作為聚類的中心點(diǎn),開啟下一輪的計(jì)算。此種計(jì)算方法的應(yīng)用是對(duì)傳統(tǒng)的計(jì)算方法進(jìn)行改進(jìn)和優(yōu)化形成的一種綜合性和全面性更強(qiáng)的計(jì)算方法。例如,在前期的K-means 算法中,K 值的選擇以及LDC 算法中初始中心的選擇,都能夠?yàn)锳LDCKmeans算法的應(yīng)用提供一定的參考和輔助[8-10]。在實(shí)踐應(yīng)用中,此種綜合性更強(qiáng)的計(jì)算方法,能夠更好地對(duì)數(shù)據(jù)點(diǎn)的局部密集度和高密度最小距離進(jìn)行合理確認(rèn)。從數(shù)據(jù)集中,去除滿足條件的相應(yīng)噪聲點(diǎn),隨后再按照降序排列的基本規(guī)則,對(duì)數(shù)據(jù)集中高密度的最小距離進(jìn)行確認(rèn);而確認(rèn)了最小距離后,可進(jìn)一步在相關(guān)的序列數(shù)據(jù)中,選擇初始聚類中心區(qū)域,執(zhí)行K-means 聚類操作。這類操作完成后,實(shí)現(xiàn)距離最近的兩個(gè)類別的合并,并且計(jì)算合并之前的評(píng)判值(E0)和合并之后的評(píng)判值(E)。評(píng)判值計(jì)算結(jié)果需要滿足的公式為:
合并完成后,若能夠進(jìn)一步確認(rèn)合并的合理性,則可進(jìn)行下一階段的合并。直到無(wú)法確保滿足條件時(shí)停止,這時(shí)輸出聚類結(jié)果,并終止計(jì)算過(guò)程。
LDCK-K-means 算法是綜合性更強(qiáng)的ALDCK-means 算法應(yīng)用的重要基礎(chǔ)。在具體的算法流程上包括:①輸入截距指標(biāo)(dc)和數(shù)據(jù)集(A);②計(jì)算單獨(dú)數(shù)據(jù)點(diǎn)的高密度最小距離值(δi)以及局部密度值(ρi);③針對(duì)整個(gè)數(shù)據(jù)集區(qū)間進(jìn)行搜索,將滿足以下公式的數(shù)據(jù)直接從數(shù)據(jù)集中刪除:ρi≤μσ(ρ)-2σ(ρ)和δi≥μ(δ)+σ(δ);④將剩余的數(shù)據(jù)點(diǎn)按照高密度的最小距離進(jìn)行降序形式的排列,選出前n個(gè)根號(hào)數(shù)據(jù)形成聚類中心點(diǎn);⑤應(yīng)用K-means 聚類算法,對(duì)數(shù)據(jù)進(jìn)行計(jì)算,獲得相應(yīng)的集群數(shù)據(jù);⑥計(jì)算簇之間的分散度和簇內(nèi)的聚合度指標(biāo),最終求出評(píng)判值;⑦進(jìn)行可聚類中心點(diǎn)之間距離的計(jì)算,并完成類別的合并,求出新的聚類中心點(diǎn),進(jìn)行循環(huán)聚類操作;⑧用迭代計(jì)算方式,計(jì)算出滿足條件的相關(guān)數(shù)據(jù),當(dāng)無(wú)法滿足既定條件時(shí),則宣布算法結(jié)束。
算法實(shí)驗(yàn)的具體落實(shí)執(zhí)行,需選取人工數(shù)據(jù)集作為基礎(chǔ)依托數(shù)據(jù),并且對(duì)優(yōu)化后的聚類效果以及準(zhǔn)確率進(jìn)行試驗(yàn)分析。在具體的實(shí)驗(yàn)過(guò)程中,可選取具有代表性的數(shù)據(jù)集納入實(shí)驗(yàn)過(guò)程,分別按照聚類數(shù)目、形態(tài)、數(shù)據(jù)量三項(xiàng)指標(biāo),對(duì)算法的準(zhǔn)確性進(jìn)行觀察驗(yàn)證。通過(guò)對(duì)算法聚類效果的觀察可知,不同的計(jì)算方法在效果上存在一定的差異。本文所探討的ALDCK-means 算法,在聚類效果上較之傳統(tǒng)算法具有一定的優(yōu)勢(shì),且算法所得的數(shù)據(jù)信息在準(zhǔn)確性上也更強(qiáng)。
在新的計(jì)算方法得到優(yōu)化后,能夠更加顯著地完成更大數(shù)量級(jí)的數(shù)據(jù)集計(jì)算。計(jì)算中,每個(gè)數(shù)據(jù)點(diǎn)的高密度最小距離、局部密度、中心點(diǎn)距離等各項(xiàng)數(shù)據(jù)都能保持相對(duì)獨(dú)立的狀態(tài)。因此,可進(jìn)一步考慮將新的計(jì)算方法進(jìn)行并行化處理,以便應(yīng)用在更大規(guī)模的數(shù)據(jù)信息計(jì)算過(guò)程中。在此種新型的計(jì)算方法應(yīng)用和并行化的過(guò)程中,獨(dú)立的迭代都會(huì)對(duì)應(yīng)相應(yīng)的數(shù)據(jù)分析任務(wù)。另外,還會(huì)產(chǎn)生相應(yīng)的密度最小距離值以及局部密度值。在不同的運(yùn)算階段,其所執(zhí)行的計(jì)算流程也有非常顯著的特征。
在完成了并行化后,ALCDK-means 算法的執(zhí)行流程如下:①實(shí)現(xiàn)集群的初始化處理,并將聚類數(shù)據(jù)傳輸?shù)椒植际降南到y(tǒng)平臺(tái)中;②立足于系統(tǒng)平臺(tái)讀取聚類數(shù)據(jù),完成相應(yīng)專業(yè)格式的解析;③各部分的區(qū)域性狀態(tài)都形成獨(dú)立運(yùn)行的模式,可分別讀取數(shù)據(jù)點(diǎn)計(jì)算出的高密度最小距離值和局部密度值;④對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行分析和檢驗(yàn),刪除噪聲點(diǎn),完成降序排列,選擇合理的聚類中心。
通過(guò)本文的分析可知,在云計(jì)算背景下的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,需要應(yīng)用不同的數(shù)據(jù)算法,進(jìn)行數(shù)據(jù)的分析和研究。具體的算法選擇,需結(jié)合算法應(yīng)用的實(shí)際狀態(tài)和效果進(jìn)行合理的規(guī)劃。與此同時(shí),算法的實(shí)踐應(yīng)用也需要按照不同的步驟,依托具體的基礎(chǔ)數(shù)據(jù)和公式進(jìn)行計(jì)算確認(rèn)。最終得到具有核心參照價(jià)值的參數(shù)指標(biāo)。獲得相應(yīng)的數(shù)據(jù)計(jì)算結(jié)果,可為云計(jì)算技術(shù)支持下的物聯(lián)網(wǎng)數(shù)據(jù)計(jì)算分析提供支持。