張春麗
摘要:為積極對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)處理效果不佳的問(wèn)題,提出結(jié)合Boosted方法對(duì)網(wǎng)絡(luò)的樣本數(shù)據(jù)進(jìn)行建模方法。結(jié)合抽樣調(diào)查以及Apriori算法對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)進(jìn)行采集和挖掘,獲取數(shù)據(jù)特征,并根據(jù)特征參數(shù)對(duì)模型的傾向得分進(jìn)行估計(jì),以便對(duì)網(wǎng)絡(luò)數(shù)據(jù)訪問(wèn)群進(jìn)行對(duì)比分析,從而實(shí)現(xiàn)對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型的構(gòu)建。最后通過(guò)實(shí)驗(yàn)證實(shí),基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型有較高的有效性,充分滿足研究要求。
關(guān)鍵詞: Boosted; 大數(shù)據(jù); 網(wǎng)絡(luò)樣本; 數(shù)據(jù)建模
中圖分類號(hào): TM897? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)27-0277-02
隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)社會(huì)各行各業(yè)的影響也呈現(xiàn)多樣復(fù)雜、高速大量等特點(diǎn)。在此環(huán)境背景下,結(jié)合Boosted方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)概率樣本進(jìn)行等級(jí)劃分和評(píng)估,判斷數(shù)據(jù)的有效答率,并隨著其答率數(shù)值的上升,有效解決覆蓋不全等的問(wèn)題,從而實(shí)現(xiàn)對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模[1]。通過(guò)在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境背景下對(duì)數(shù)據(jù)樣本進(jìn)行隨機(jī)采集,基于Boosted方法和Apriori算法對(duì)樣本合理性概率、特征數(shù)值和模型的傾向得分進(jìn)行計(jì)算。并根據(jù)計(jì)算結(jié)果推斷出目標(biāo)樣本變量,有針對(duì)性的構(gòu)建廣義Boosted樣本數(shù)據(jù)判斷模型,最終實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模。
1大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)建模
1.1大數(shù)據(jù)網(wǎng)絡(luò)樣本采集
對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本進(jìn)行采集,記為V,在采集過(guò)程中由于數(shù)值相對(duì)較大,對(duì)網(wǎng)絡(luò)候選數(shù)據(jù)進(jìn)行抽樣調(diào)查,并記錄隨機(jī)抽取到的數(shù)據(jù)樣本,為方便記錄,對(duì)數(shù)據(jù)樣本記為S-。將隨機(jī)選擇的抽樣調(diào)查數(shù)據(jù)視為一個(gè)近似于二階段原理的特征樣本[2]。在二階段處理過(guò)程中,其中的第一階設(shè)總體樣本數(shù)據(jù)U中的數(shù)據(jù)特征進(jìn)行采集。第二階主要的處理是根據(jù)第一階段中采集到的數(shù)據(jù)特征值進(jìn)一步進(jìn)行抽樣調(diào)查,獲取其樣本有效性概率。考慮到樣本數(shù)據(jù)設(shè)在調(diào)查過(guò)程中,共得到了i個(gè)采集樣本,樣本的潛在協(xié)變量數(shù)值可記為Xi1,Xi2,...Xip,且i=1,2,....,n,另外,在樣本數(shù)據(jù)采集的過(guò)程中,P表示高位組成的向量,則則網(wǎng)絡(luò)銀行部數(shù)據(jù)找那個(gè)的單元特征算法為:
在上述算法中,[ι]克表示在采集過(guò)程中抽取的隨機(jī)樣本合理性概率,[ε]為在固定的網(wǎng)絡(luò)環(huán)境條件下的數(shù)據(jù)特征普遍性概率。結(jié)合Boosted模型對(duì)樣本參數(shù)進(jìn)行評(píng)估,設(shè)W表示二值性變量,且在檢測(cè)單元L中W=Li,若網(wǎng)絡(luò)數(shù)據(jù)的參考樣本以w=0為標(biāo)準(zhǔn)基數(shù),則數(shù)據(jù)樣本的傾向分值可記為[P(W=0σi)=P(x)],令logP(x)/[1-P(x)]=g(x=1)。基于廣義的Boosted模型對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)進(jìn)行估計(jì)可得:P(x)=1/[1+expg(x)+logP(x)]。利用Logistic回歸模型,對(duì)P(x)的回歸性曲線模型進(jìn)行設(shè)計(jì),為線性回歸模型,設(shè)定一個(gè)靈活的期望函數(shù)點(diǎn),記為L(zhǎng)(p),則:
基于上述算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)的運(yùn)行函數(shù)進(jìn)行估計(jì),并調(diào)整估算數(shù)值,以便保障估算數(shù)據(jù)的合理性,進(jìn)一步進(jìn)行改建,尋找一個(gè)節(jié)點(diǎn)H(x)并保證公式(2)的計(jì)算結(jié)果大于隨機(jī)節(jié)點(diǎn)H(x)的評(píng)估參數(shù)值,并對(duì)H(x)進(jìn)行進(jìn)行迭代處理,最終得到最優(yōu)值,并以其最優(yōu)值作為廣義Boosted模型設(shè)計(jì)的參考數(shù)值,從而保證對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)的穩(wěn)定和精準(zhǔn)評(píng)估。
1.2基于廣義Boosted模型的傾向得分估計(jì)算法
在上述步驟的基礎(chǔ)上,根據(jù)迭代函數(shù)數(shù)值建立回歸樹,并對(duì)回歸樹上的自變量和因變量之間的數(shù)值關(guān)系進(jìn)行判斷,采集完整的網(wǎng)絡(luò)數(shù)據(jù)集,并根據(jù)前文中的算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)樣本特征進(jìn)行劃分和歸類,并實(shí)現(xiàn)對(duì)不同等級(jí)的數(shù)據(jù)的采集,并對(duì)數(shù)據(jù)進(jìn)行最小誤差預(yù)測(cè)處理,從而更好地實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)的分析[3]。結(jié)合Apriori算法和Boosted模型對(duì)獲取到的網(wǎng)絡(luò)樣本數(shù)據(jù)邏輯信息關(guān)系進(jìn)行合理的改善和有效的調(diào)整。結(jié)合上述方法進(jìn)行Boosted模型的優(yōu)化,保證網(wǎng)絡(luò)結(jié)構(gòu)傾向數(shù)據(jù)具有相應(yīng)的獨(dú)立性,避免判斷誤差等問(wèn)題,基于上述思路對(duì)廣義Boosted模型結(jié)構(gòu)進(jìn)行優(yōu)化,具體如下:
在以上模型結(jié)構(gòu)中,通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的傾向得分?jǐn)?shù)值進(jìn)行評(píng)價(jià)有針對(duì)性的實(shí)現(xiàn)部署,并生成相應(yīng)的網(wǎng)絡(luò)節(jié)點(diǎn)關(guān)系邏輯代碼以及相應(yīng)數(shù)據(jù)評(píng)價(jià)及處理列隊(duì)排序。在對(duì)傾向得分進(jìn)行預(yù)估評(píng)價(jià)過(guò)程中,要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的綜合數(shù)據(jù)向量數(shù)值進(jìn)行計(jì)算,設(shè)在網(wǎng)絡(luò)結(jié)構(gòu)中,網(wǎng)絡(luò)數(shù)據(jù)等級(jí)可分別記為N=(Q、W、Y、T),基于上述原理對(duì)不同等級(jí)的數(shù)據(jù)特征權(quán)重算法進(jìn)行優(yōu)化,可記為N=W*P(x)*(n1,n2,n3,...,nm),則通過(guò)計(jì)算得出網(wǎng)絡(luò)結(jié)構(gòu)中的量最小指標(biāo)數(shù)值,具體算法如下:
其中,Wn為可檢測(cè)到的數(shù)據(jù)樣本標(biāo)準(zhǔn)信息熵,Ha(W)表示數(shù)據(jù)樣本特征挖掘前后的信息差。
1.3大數(shù)據(jù)網(wǎng)絡(luò)樣本建模
結(jié)合Boosted方法對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本進(jìn)行建模?;谇拔乃惴▽?duì)模型進(jìn)行優(yōu)化。在復(fù)雜的網(wǎng)絡(luò)環(huán)境下對(duì)樣本數(shù)據(jù)進(jìn)行跟蹤調(diào)查和收集記錄,并根據(jù)采集記錄結(jié)果對(duì)樣本數(shù)據(jù)特征進(jìn)行進(jìn)一步的挖掘和存儲(chǔ)。為保障數(shù)據(jù)特征挖掘的有效性和合理性,對(duì)數(shù)據(jù)樣本采集和挖掘的有效性進(jìn)行評(píng)價(jià),結(jié)合廣義Boosted模型進(jìn)行網(wǎng)絡(luò)樣本數(shù)據(jù)的分析和評(píng)估[4]。首先對(duì)網(wǎng)絡(luò)數(shù)值及傾向得分?jǐn)?shù)值的變化進(jìn)行挖掘和分析,并調(diào)查網(wǎng)絡(luò)樣本運(yùn)行的安全需求數(shù)據(jù),從而有針對(duì)性地對(duì)網(wǎng)絡(luò)運(yùn)行質(zhì)量?jī)A向數(shù)值進(jìn)行合理的估計(jì)和調(diào)整,通過(guò)對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)的數(shù)據(jù)信息進(jìn)行處理,獲取其邏輯特征并有針對(duì)性地提出特征支持?jǐn)?shù)據(jù)。并在不同的網(wǎng)絡(luò)結(jié)構(gòu)中,建立不同的數(shù)據(jù)等級(jí)評(píng)價(jià)體系,為方便對(duì)數(shù)據(jù)樣本進(jìn)行分析研究,保證樣本數(shù)據(jù)采集的合理性。建立了數(shù)據(jù)采集挖掘優(yōu)化流程,具體如下圖所示。
基于以上步驟實(shí)現(xiàn)對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本特征的采集和分析,改善其處理流程,在上述步驟中,若樣本數(shù)據(jù)建模變化數(shù)值為0,則說(shuō)明該模型對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)的識(shí)別效果相對(duì)較為穩(wěn)定[5]。若數(shù)值大于0,則說(shuō)明結(jié)果有效,且其數(shù)值越高,效果越佳。反之若數(shù)值小于0則,說(shuō)明建模效果不佳,其數(shù)值越小效果越差?;谝陨显砜捎行?shí)現(xiàn)基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模。
2實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型的有效性,進(jìn)行了實(shí)驗(yàn)檢測(cè),為保障檢測(cè)結(jié)果精準(zhǔn)有效,在相同的實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)參數(shù)下,于傳統(tǒng)數(shù)據(jù)樣本模型使用效果進(jìn)行了對(duì)比,具體檢測(cè)結(jié)果如下圖所示:
觀察以上實(shí)驗(yàn)檢測(cè)結(jié)果,其中,A曲線表示本文設(shè)計(jì)的基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型有效性檢測(cè)結(jié)果,B曲線為傳統(tǒng)模型有效性檢測(cè)結(jié)果,觀察檢測(cè)結(jié)果可知,隨著數(shù)據(jù)量的增加,基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型運(yùn)行的有效性呈現(xiàn)緩慢的上升趨勢(shì),其有效性可達(dá)到50%-85%,反觀傳統(tǒng)模型有效性檢測(cè)出現(xiàn)明顯下降的情況其有效性處于30%-55%之間。因此這證實(shí),基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型具有較高的有效性,充分滿足研究要求。
3結(jié)束語(yǔ)
為了更好地對(duì)復(fù)雜的網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)樣本進(jìn)行合理的分析和建模,提出基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型方法,以便對(duì)數(shù)據(jù)樣本進(jìn)行更加準(zhǔn)確有效的分析和處理。通過(guò)對(duì)大數(shù)據(jù)網(wǎng)絡(luò)樣本特征進(jìn)行采集和挖掘,結(jié)合廣義Boosted模型對(duì)采集參數(shù)進(jìn)行傾向得分估計(jì),從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)樣本數(shù)據(jù)合理建模,有效保證網(wǎng)絡(luò)運(yùn)行的安全穩(wěn)定。
參考文獻(xiàn):
[1] 彭道剛, 梅蘭, 李生根,等. 基于大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)的鍋爐燃燒含氧量建模研究[J]. 熱能動(dòng)力工程, 2018, 33(9):86-92.
[2] 董娜, 劉偉娜, 侯波濤. 基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法[J]. 電力信息與通信技術(shù), 2018(1):6-10.
[3] 孟祥鵬. 大數(shù)據(jù)網(wǎng)絡(luò)惡意入侵?jǐn)?shù)據(jù)準(zhǔn)確恢復(fù)仿真研究[J]. 計(jì)算機(jī)仿真, 2017, 34(12):279-282.
[4] 史金梅, 夏偉. 基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù), 2017, 40(14):30-32.
[5] 毛國(guó)君, 胡殿軍, 謝松燕. 基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2017(1):161-175.
【通聯(lián)編輯:光文玲】