(江蘇電力信息技術(shù)有限公司,江蘇南京市,210000)封 晶 孫澄宇 董 平 趙 南
物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,推動(dòng)著大數(shù)據(jù)挖掘的變革,信息挖掘逐漸從整體化挖掘?qū)ο筠D(zhuǎn)變?yōu)榉植际?、碎片化的挖掘模式。為?shí)現(xiàn)物聯(lián)網(wǎng)中海量信息的有效利用,以及促進(jìn)數(shù)據(jù)挖掘的集中化發(fā)展,提出了具有前瞻性的人工智能大數(shù)據(jù)挖掘算法,在智能化時(shí)代背景下對(duì)于我國工業(yè)經(jīng)濟(jì)的發(fā)展和建設(shè)具有重要作用。
為滿足物聯(lián)網(wǎng)動(dòng)態(tài)特性以及用戶信息獲取的準(zhǔn)確度,需要構(gòu)建數(shù)據(jù)模型用于無法物聯(lián)網(wǎng)中用戶的行為。首先,基于模型樹的特征,對(duì)物聯(lián)網(wǎng)中的用戶數(shù)據(jù)進(jìn)行掃描,以保證數(shù)據(jù)的全面性。其次,根據(jù)物聯(lián)網(wǎng)網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)建用戶數(shù)據(jù)集。最后,從數(shù)據(jù)集中提取數(shù)據(jù)量較大的節(jié)點(diǎn),然后進(jìn)行數(shù)據(jù)挖掘,針對(duì)其他數(shù)據(jù)節(jié)點(diǎn)主要采用排序方法進(jìn)行處理[1]?;谏鲜鼍W(wǎng)絡(luò)節(jié)點(diǎn)選擇方法,可以獲取不同周期的節(jié)點(diǎn)數(shù)據(jù)模型樹。
構(gòu)建數(shù)據(jù)模型樹雖然可以明確數(shù)據(jù)挖掘內(nèi)容和范圍,但是無法保證模型關(guān)聯(lián)度的準(zhǔn)確性以期獲取的挖掘結(jié)果。因此,需要采用數(shù)據(jù)特征提取算法分析大數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)屬性,獲取數(shù)據(jù)價(jià)值維度。假設(shè)大數(shù)據(jù)挖掘集為D,數(shù)據(jù)集維度為d,則根據(jù)大數(shù)據(jù)屬性可以獲取大數(shù)據(jù)屬性集合W。
如果數(shù)據(jù)挖掘子空間為S,則數(shù)據(jù)屬性集合將包含子空間S,并且子空間S中的對(duì)象為0∈D?;跀?shù)據(jù)離群特征,可以獲取子空間S中數(shù)據(jù)對(duì)象的鄰域(0,S),該鄰域?yàn)榉蔷鶆蚍植紶顟B(tài)。如果在子空間S中隨機(jī)提取一個(gè)對(duì)象,那么其離群概率則為Id(0,S)。從數(shù)據(jù)屬性方面來看,該集合中子空間中心位置即為數(shù)據(jù)對(duì)象0,由此得出子空間離群概率距離公式為:
式中:d為距離;Id(0,S)為離群概率。
由于物聯(lián)網(wǎng)大部分的數(shù)據(jù)都為不均勻分布,因此需要利用理算數(shù)據(jù)標(biāo)準(zhǔn)距離與密度的近似值表示離散數(shù)據(jù)特征:
基于離散特征λ可以獲取物聯(lián)網(wǎng)中離散數(shù)據(jù)分布情況。針對(duì)上述數(shù)據(jù)值的獲取,可以采用信息熵檢測方法,在待測數(shù)據(jù)集Y中,對(duì)數(shù)據(jù)y的分布特征進(jìn)行分析,基于概率函數(shù)p可以獲得y數(shù)據(jù)信息熵E(y):
根據(jù)信息熵計(jì)算結(jié)果,可以對(duì)待測數(shù)據(jù)進(jìn)行排序。并按照從大到小的排序方式,提取出多個(gè)信息熵較大的數(shù)據(jù)作為聚類中心對(duì)剩余數(shù)據(jù)進(jìn)行檢測。數(shù)據(jù)聚類中心距離計(jì)算公式為:
式(4)中,a、b為隨機(jī)提取的聚類中心,并將其作為核心,對(duì)所有數(shù)據(jù)信息熵進(jìn)行計(jì)算后獲得聚類閾值。如果聚類中心距離小于閾值時(shí),則需要重新選擇聚類中心,并重復(fù)式(4)計(jì)算過程中,直至聚類距離計(jì)算結(jié)果大于閾值為止[2]。
在數(shù)據(jù)特征檢測過程中通常會(huì)產(chǎn)生噪聲數(shù)據(jù)或數(shù)據(jù)量綱差異較差,該情況會(huì)影響大數(shù)據(jù)挖掘質(zhì)量和效率,因此為保證數(shù)據(jù)分析的準(zhǔn)確性,需要采用標(biāo)準(zhǔn)化方法對(duì)檢測數(shù)據(jù)進(jìn)行處理。
在數(shù)據(jù)標(biāo)準(zhǔn)化處理過程中,利用標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)進(jìn)行計(jì)算,可以進(jìn)一步強(qiáng)化數(shù)據(jù)的特征,有利于保證大數(shù)據(jù)挖掘的質(zhì)量。除了利用標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理外,還可以利用數(shù)據(jù)平均偏差Gα進(jìn)行計(jì)算,計(jì)算公式為:
利用上述公式對(duì)特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,可以提高大數(shù)據(jù)挖掘算法抗干擾性。數(shù)據(jù)標(biāo)準(zhǔn)差Yα、數(shù)據(jù)平均偏差Gα、數(shù)據(jù)均值α計(jì)算公式為:
式中,m為迭代次數(shù)。在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,需要采用人工智能技術(shù)對(duì)大數(shù)據(jù)進(jìn)行挖掘。
BP神經(jīng)網(wǎng)絡(luò)(以下簡稱BP網(wǎng))具有多層傳輸結(jié)構(gòu),并且其各層神經(jīng)元數(shù)量可以隨意設(shè)定,因此將其作為大數(shù)據(jù)挖掘的主體結(jié)構(gòu),并將經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)傳輸至BP網(wǎng)中[3]。由于BP網(wǎng)結(jié)構(gòu)存在的一定的特殊性,因此需要計(jì)算數(shù)據(jù)信息熵,并求出其平均值E,然后將其作為物聯(lián)網(wǎng)各層的連接權(quán)值ω,其計(jì)算公式為:
式中:ω為連接權(quán)值;Hi為屬性熵值,E為信息熵平均值。
在獲取到BP網(wǎng)連接權(quán)值后,需要根據(jù)圖2分析流程,對(duì)物聯(lián)網(wǎng)中的數(shù)據(jù)進(jìn)行挖掘。
圖1 BP網(wǎng)挖掘流程
從圖2可知,基于人工智能的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法,融入了遺傳學(xué)習(xí)算法,并配置了以網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)分類能力為核心的大數(shù)據(jù)分類器。利用遺傳學(xué)習(xí)算法對(duì)大數(shù)據(jù)挖掘進(jìn)行優(yōu)化,然后輸出滿足大數(shù)據(jù)挖掘條件的數(shù)據(jù)[4]。
為驗(yàn)證基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法的性能,通過仿真實(shí)驗(yàn)方法對(duì)算法應(yīng)用效果進(jìn)行檢驗(yàn)。首先,選擇具有3500個(gè)二維特征的數(shù)據(jù),并將其構(gòu)成數(shù)據(jù)集。
數(shù)據(jù)被劃分為15類,并且每個(gè)數(shù)據(jù)聚類模糊系數(shù)均為1.7,傳遞點(diǎn)數(shù)量為2。為使數(shù)據(jù)向量維度值保持在0~1之間,需要去除每個(gè)維度中參數(shù)最小的值,并計(jì)算最大值與計(jì)算結(jié)構(gòu)之間的商值。該計(jì)算過程主要是對(duì)數(shù)據(jù)進(jìn)行正則化處理。在本次仿真實(shí)驗(yàn)中,共設(shè)置四個(gè)數(shù)據(jù)集,數(shù)據(jù)集大小為10%、20%、25%、50%。
在本次仿真實(shí)驗(yàn)中主要采用RI和F-measure作為判斷人工智能大數(shù)據(jù)挖掘算法的重要指標(biāo),F(xiàn)measure是一種常用的大數(shù)據(jù)挖掘性能評(píng)價(jià)指標(biāo),其計(jì)算公式為:
式中:F為計(jì)算結(jié)果;R為召回率;P為精度。
計(jì)算結(jié)果的準(zhǔn)確性通常取決于精度和召回率。其中精度具體是指大數(shù)據(jù)挖掘過程中精準(zhǔn)參數(shù)所占據(jù)的比例;召回率具體是指具有特定類特性的數(shù)據(jù)數(shù)量。I、j量類數(shù)據(jù)的召回率與精度計(jì)算公式為:
大數(shù)據(jù)挖掘的質(zhì)量也可以利用RI指標(biāo)對(duì)其進(jìn)行評(píng)價(jià)。首先,計(jì)算出數(shù)據(jù)集X聚類參數(shù)和實(shí)際聚類參數(shù)CT。其次,對(duì)無序數(shù)據(jù)點(diǎn)(xi,xj)進(jìn)行定義,劃分出RI值的集合FP、TP、FN、TN。
RI計(jì)算公式為:
利用公式(11)對(duì)RI指標(biāo)進(jìn)行計(jì)算,可以獲取到取值范圍在0~1之間的參數(shù),如果RI指標(biāo)趨近于1,則實(shí)際計(jì)算結(jié)果與挖掘結(jié)果相似度越高,并且挖掘算法精度也越高;如果RI指標(biāo)趨近于0,則實(shí)際計(jì)算結(jié)果與挖掘結(jié)果相似度較低,并且算法精度也較低。
本文基于人工智能技術(shù),通過特征數(shù)據(jù)提取、特征數(shù)據(jù)檢測、特征數(shù)據(jù)標(biāo)準(zhǔn)化處理等方式,在獲取和處理挖掘數(shù)據(jù)信息熵后,融入遺傳學(xué)習(xí)算法對(duì)信息熵平均值進(jìn)行計(jì)算,該算法能夠進(jìn)一步提高物聯(lián)網(wǎng)中大數(shù)據(jù)挖掘的質(zhì)量和效率。BP網(wǎng)和遺傳學(xué)算法的融入,不僅提高了大數(shù)據(jù)對(duì)數(shù)據(jù)集的處理能力,而且也解決了大數(shù)據(jù)挖掘過程中信息傳遞錯(cuò)誤的情況。通常仿真實(shí)驗(yàn),驗(yàn)證了基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法在RI結(jié)果和F-measure結(jié)果確實(shí)有所改進(jìn),同時(shí)也證明了人工智能技術(shù)在大數(shù)據(jù)挖掘中的應(yīng)用,有利于促進(jìn)大數(shù)據(jù)挖掘的持續(xù)發(fā)展。