廉小親,劉 鈺,吳艷華,程智博
(1.北京工商大學(xué)人工智能學(xué)院,北京 100048;2.國(guó)家鐵路智能運(yùn)輸系統(tǒng)工程技術(shù)研究中心,北京 100081)
隨著新建高鐵快速發(fā)展,鐵路數(shù)字化、智能化建設(shè)逐步深入,中國(guó)新建鐵路在建設(shè)階段就已經(jīng)積累了海量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),包括勘察設(shè)計(jì)數(shù)據(jù)、工程進(jìn)度數(shù)據(jù)和自然災(zāi)害檢測(cè)數(shù)據(jù)等。鐵路建設(shè)期數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型多、數(shù)據(jù)增長(zhǎng)快、業(yè)務(wù)價(jià)值大的特點(diǎn)[1],傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式管理復(fù)雜、成本較高、訪問速度較低。因此,為了能夠滿足鐵路建設(shè)期數(shù)據(jù)存儲(chǔ)量大、存儲(chǔ)方式多樣的需求,選擇分級(jí)存儲(chǔ)的方式能夠有效降低存儲(chǔ)成本,提高系統(tǒng)性能。
數(shù)據(jù)分級(jí)存儲(chǔ)是根據(jù)數(shù)據(jù)自身價(jià)值高低,選擇與數(shù)據(jù)價(jià)值相匹配的存儲(chǔ)設(shè)備來(lái)進(jìn)行存儲(chǔ),將數(shù)據(jù)價(jià)值高、經(jīng)常被訪問以及重要程度高的數(shù)據(jù)存儲(chǔ)在高性能的存儲(chǔ)設(shè)備中,數(shù)據(jù)價(jià)值低、備份數(shù)據(jù)以及重要程度低的數(shù)據(jù)則存儲(chǔ)在低性能的存儲(chǔ)設(shè)備中,基于此就需要對(duì)數(shù)據(jù)價(jià)值進(jìn)行準(zhǔn)確判定才能保證數(shù)據(jù)分級(jí)存儲(chǔ)有效性。江菲[2]等提出的數(shù)據(jù)價(jià)值評(píng)估模型從靜態(tài)因素以及動(dòng)態(tài)因素多指標(biāo)考慮,相較于基于頻率評(píng)估數(shù)據(jù)遷移結(jié)果準(zhǔn)確率有明顯提升,但該數(shù)據(jù)模型中未考慮到數(shù)據(jù)業(yè)務(wù)特性,無(wú)法滿足不同業(yè)務(wù)類別、不同數(shù)據(jù)類型的鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)存儲(chǔ)需求;黃冬梅[3]等提出海洋數(shù)據(jù)價(jià)值遷移模型綜合考慮了時(shí)間屬性、文件大小和海洋數(shù)據(jù)的區(qū)域性等,但要素涉及范圍不夠全面,對(duì)數(shù)據(jù)價(jià)值判斷準(zhǔn)確性有影響;邊根慶[4]等提出的海量數(shù)據(jù)價(jià)值評(píng)估模型通過多項(xiàng)參數(shù)加權(quán)求和實(shí)現(xiàn)數(shù)據(jù)價(jià)值精確判定,但簡(jiǎn)單的疊加求和方法所求得的結(jié)果是否準(zhǔn)確難以判定。
為了改進(jìn)上述問題,本文提出一種基于聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)的多維鐵路數(shù)據(jù)價(jià)值映射模型。將數(shù)據(jù)量大小、數(shù)據(jù)訪問時(shí)間重要性、數(shù)據(jù)訪問頻率重要性、訪問用戶相似度和數(shù)據(jù)業(yè)務(wù)價(jià)值共同作為判定數(shù)據(jù)價(jià)值高低因素,從數(shù)據(jù)自身屬性以及業(yè)務(wù)特征、訪問情況、未來(lái)被訪問的可能性等方面進(jìn)行多維度全面衡量數(shù)據(jù)價(jià)值,以改進(jìn)RBF神經(jīng)網(wǎng)絡(luò)模型構(gòu)建數(shù)據(jù)價(jià)值判定因素與數(shù)據(jù)價(jià)值等級(jí)之間的非線性映射關(guān)系模型,數(shù)據(jù)價(jià)值高低直接對(duì)應(yīng)數(shù)據(jù)分級(jí)存儲(chǔ)位置,使得數(shù)據(jù)分級(jí)結(jié)果更準(zhǔn)確。
2.1.1 鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系
針對(duì)當(dāng)前鐵路建設(shè)期數(shù)據(jù)的業(yè)務(wù)特點(diǎn)以及存儲(chǔ)需求[5],本文提出三級(jí)鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系,如圖1所示。
圖1 鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系
從鐵路建設(shè)期數(shù)據(jù)屬性特征業(yè)務(wù)特征以及屬性特征業(yè)務(wù)特征兩方面設(shè)置“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”定量二級(jí)指標(biāo)以及“數(shù)據(jù)業(yè)務(wù)特征指標(biāo)”、“數(shù)據(jù)組成屬性指標(biāo)”以及“數(shù)據(jù)保密等級(jí)指標(biāo)”定性二級(jí)指標(biāo)。定性二級(jí)指標(biāo)分別通過專家評(píng)價(jià)方式法判定數(shù)據(jù)符合的下一級(jí)三級(jí)指標(biāo)內(nèi)容,根據(jù)數(shù)據(jù)類別重要程度對(duì)同一二級(jí)指標(biāo)下的各項(xiàng)三級(jí)指標(biāo)賦權(quán)值,重要程度越高,權(quán)值越大,判定符合的三級(jí)指標(biāo)權(quán)值則為相應(yīng)二級(jí)指標(biāo)結(jié)果。
“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”下的三級(jí)指標(biāo),通過訪問日志計(jì)算某一時(shí)間周期內(nèi)數(shù)據(jù)所存儲(chǔ)數(shù)據(jù)庫(kù)內(nèi)所有數(shù)據(jù)執(zhí)行“增”、“刪”、“改”、“查”操作行為頻次作為相應(yīng)的指標(biāo)結(jié)果;“數(shù)據(jù)創(chuàng)建時(shí)間指標(biāo)”計(jì)算數(shù)據(jù)創(chuàng)建時(shí)間截止到當(dāng)前時(shí)間的時(shí)間范圍,分為五個(gè)區(qū)間,“5年以上”、“4-5年”、“3-4年”、“2-3年”和“2年以內(nèi)”,“數(shù)據(jù)庫(kù)創(chuàng)建時(shí)間指標(biāo)”根據(jù)區(qū)間范圍設(shè)定對(duì)應(yīng)為1-5權(quán)值,5年以上權(quán)值為“1”,權(quán)值越大創(chuàng)建時(shí)間截止到當(dāng)前時(shí)間越短,根據(jù)時(shí)間范圍計(jì)算結(jié)果確定的權(quán)值作為該項(xiàng)指標(biāo)結(jié)果。
2.1.2 鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值計(jì)算方法
在計(jì)算鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值的過程中,得到鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系中的各項(xiàng)指標(biāo)結(jié)果后,需要建立各個(gè)指標(biāo)間的關(guān)系,確定“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”下五項(xiàng)三級(jí)指標(biāo)之間的權(quán)重W1,“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”、“數(shù)據(jù)業(yè)務(wù)特征指標(biāo)”、“數(shù)據(jù)組成屬性指標(biāo)”以及“數(shù)據(jù)保密等級(jí)指標(biāo)”四項(xiàng)二級(jí)指標(biāo)之間的權(quán)重W2,通過指標(biāo)所賦權(quán)值大小來(lái)體現(xiàn)不同指標(biāo)之間的重要程度差異,同時(shí),將多個(gè)指標(biāo)的綜合評(píng)價(jià)結(jié)果作為最終的鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值結(jié)果,鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值計(jì)算方法的邏輯架構(gòu)如圖2所示。
圖2 數(shù)據(jù)業(yè)務(wù)價(jià)值計(jì)算方法邏輯架構(gòu)
1)指標(biāo)間權(quán)重確定方法
“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”下的三級(jí)指標(biāo)值均為統(tǒng)計(jì)結(jié)果,“數(shù)據(jù)業(yè)務(wù)特征指標(biāo)”、“數(shù)據(jù)組成屬性指標(biāo)”以及“數(shù)據(jù)保密等級(jí)指標(biāo)”值為專家評(píng)價(jià)結(jié)果,針對(duì)指標(biāo)結(jié)果性質(zhì),本文在確定指標(biāo)間權(quán)重時(shí)平衡主觀性與客觀性之間的影響,選用熵值法-優(yōu)序圖組合方式確定鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系中兩組指標(biāo)權(quán)重,能很好地解決單一權(quán)重確定方法主客觀性不能兼顧的問題,結(jié)果可靠。
“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”下五項(xiàng)三級(jí)指標(biāo)權(quán)重W1通過熵值法確定,熵值法[6]根據(jù)指標(biāo)結(jié)果的信息熵確定指標(biāo)間的權(quán)重值,以量化特征的方式保留指標(biāo)結(jié)果數(shù)據(jù)本身的客觀性,能夠更好地體現(xiàn)鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系中定量指標(biāo)結(jié)果的數(shù)字特征;“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”、“數(shù)據(jù)業(yè)務(wù)特征指標(biāo)”、“數(shù)據(jù)組成屬性指標(biāo)”以及“數(shù)據(jù)保密等級(jí)指標(biāo)”四項(xiàng)二級(jí)指標(biāo)間權(quán)重通W2過優(yōu)序圖法確定,優(yōu)序圖法[7]通過指標(biāo)重要性專家評(píng)價(jià)矩陣計(jì)算指標(biāo)權(quán)重,適用于通過專家評(píng)價(jià)方法獲取的數(shù)據(jù),能較好體現(xiàn)評(píng)價(jià)對(duì)象所處的背景條件和評(píng)價(jià)者意圖。
2)計(jì)算鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值方法
鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值結(jié)果是鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系各項(xiàng)指標(biāo)結(jié)果結(jié)合指標(biāo)權(quán)重的綜合評(píng)價(jià)結(jié)果,在本文中提出的三級(jí)鐵路建設(shè)期數(shù)據(jù)業(yè)務(wù)價(jià)值指標(biāo)評(píng)價(jià)體系中需要兩次計(jì)算。
“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”下五項(xiàng)三級(jí)指標(biāo)結(jié)果與指標(biāo)權(quán)重W1的綜合評(píng)價(jià)結(jié)果是“數(shù)據(jù)創(chuàng)建/訪問指標(biāo)”結(jié)果,結(jié)合建設(shè)期鐵路數(shù)據(jù)量大、評(píng)價(jià)指標(biāo)復(fù)雜的特點(diǎn),選用TOPSIS方法[8]。TOPSIS方法可在具有多個(gè)評(píng)價(jià)指標(biāo)情況下對(duì)不同方案進(jìn)行綜合評(píng)估比較,在指標(biāo)多少、樣本含量和數(shù)據(jù)分布等方面都沒有嚴(yán)格的限制和要求,且能夠?qū)崿F(xiàn)不同評(píng)價(jià)指標(biāo)在同一方案之間橫向比較和同一評(píng)價(jià)指標(biāo)在不同方案間縱向比較;四項(xiàng)二級(jí)特征指標(biāo)結(jié)果與指標(biāo)權(quán)重W2通過加權(quán)求和綜合評(píng)價(jià)法計(jì)算得到最終數(shù)據(jù)業(yè)務(wù)價(jià)值結(jié)果。
為了更精準(zhǔn)地判定鐵路建設(shè)期數(shù)據(jù)價(jià)值,從數(shù)據(jù)被訪問情況、被訪問可能性以及自身業(yè)務(wù)特征角度,本文提出從數(shù)據(jù)量大小、數(shù)據(jù)訪問時(shí)間重要性、數(shù)據(jù)訪問頻率重要性、數(shù)據(jù)訪問用戶相似度和數(shù)據(jù)業(yè)務(wù)價(jià)值五個(gè)方面判定鐵路建設(shè)期數(shù)據(jù)價(jià)值[9]。
1)數(shù)據(jù)量大小因素S(X)
對(duì)于數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng),為節(jié)約存儲(chǔ)成本,高性能存儲(chǔ)設(shè)備容量相對(duì)于其它存儲(chǔ)設(shè)備來(lái)說是最小的,若將數(shù)據(jù)量較大的數(shù)據(jù)存儲(chǔ)在高性能存儲(chǔ)設(shè)備中,占用存儲(chǔ)空間較大同時(shí)存儲(chǔ)成本較高,將有可能導(dǎo)致數(shù)據(jù)量較小而且重要的數(shù)據(jù)無(wú)法及時(shí)被訪問,造成高性能存儲(chǔ)設(shè)備資源浪費(fèi)。將數(shù)據(jù)量大小S(X)作為數(shù)據(jù)綜合價(jià)值判定因素之一。數(shù)據(jù)量較小的數(shù)據(jù)價(jià)值相對(duì)較高,應(yīng)優(yōu)先考慮將數(shù)據(jù)量較小的數(shù)據(jù)存儲(chǔ)在高性能存儲(chǔ)設(shè)備,數(shù)據(jù)量較大的數(shù)據(jù)更適合存儲(chǔ)在存儲(chǔ)容量充足的低性能存儲(chǔ)設(shè)備。
2)數(shù)據(jù)訪問時(shí)間重要性因素T(X)
用戶對(duì)于數(shù)據(jù)的訪問情況從訪問時(shí)間的角度考慮具有一定規(guī)律,一般最新創(chuàng)建或最近被頻繁訪問過的數(shù)據(jù)在未來(lái)短時(shí)間內(nèi)再次被訪問的可能性更大,數(shù)據(jù)在這段時(shí)間內(nèi)重要程度比較高,該數(shù)據(jù)的數(shù)據(jù)價(jià)值也會(huì)隨之提高,應(yīng)優(yōu)先考慮將此類數(shù)據(jù)存儲(chǔ)在高性能存儲(chǔ)設(shè)備;相反,數(shù)據(jù)在被訪問過后未被訪問的時(shí)間間隔逐漸拉長(zhǎng),數(shù)據(jù)被重新訪問的可能性也會(huì)隨之降低,數(shù)據(jù)價(jià)值以及重要程度就會(huì)隨之降低,在這種情況下就需要將數(shù)據(jù)存儲(chǔ)到低性能的存儲(chǔ)設(shè)備。因此,數(shù)據(jù)被訪問的時(shí)間間隔可作為數(shù)據(jù)綜合價(jià)值判定因素之一。
在某一特定周期下,數(shù)據(jù)每次被訪問和修改的時(shí)間集合為{t1,t2,…,tn},當(dāng)前時(shí)間是t,時(shí)間集合內(nèi)的時(shí)間點(diǎn)距離當(dāng)前時(shí)間的間隔為{t-t1,t-t2,…,t-tn},設(shè)以上時(shí)間段為{T1,T2,…,Tn},則計(jì)算數(shù)據(jù)X的訪問時(shí)間重要性因素T(X)如式(1)所示。
(1)
3)數(shù)據(jù)訪問頻率重要性因素F(X)
數(shù)據(jù)訪問頻率可以理解為橫坐標(biāo)為時(shí)間、縱坐標(biāo)為數(shù)據(jù)訪問次數(shù)的二維坐標(biāo)圖的斜率,斜率在一定程度上能夠預(yù)示圖形未來(lái)短時(shí)間內(nèi)的變化趨勢(shì)。在一段時(shí)間內(nèi),數(shù)據(jù)訪問頻率變化成正相關(guān),則該數(shù)據(jù)在未來(lái)短時(shí)間內(nèi)訪問次數(shù)依舊持續(xù)增加的可能性比較大,數(shù)據(jù)綜合價(jià)值及重要性也相對(duì)提高,這樣的數(shù)據(jù)應(yīng)優(yōu)先考慮存儲(chǔ)在高性能存儲(chǔ)設(shè)備。因此,可將數(shù)據(jù)訪問頻率重要性作為判定數(shù)據(jù)綜合價(jià)值高低的因素之一。計(jì)算數(shù)據(jù)X的訪問頻率重要性因素F(X)如式(2)所示。在某一特定時(shí)間周期內(nèi)包含N個(gè)Tk時(shí)間段,每個(gè)Tk時(shí)間段內(nèi)數(shù)據(jù)訪問頻率為fk,在Tk-Tk-1時(shí)間段內(nèi)數(shù)據(jù)訪問頻率的變化趨勢(shì)為fk-fk-1,N個(gè)時(shí)間段數(shù)據(jù)訪問頻率變化的代數(shù)和即數(shù)據(jù)訪問頻率重要性因素。
(2)
4)數(shù)據(jù)訪問用戶相似度因素H(X)
通過計(jì)算所有訪問過數(shù)據(jù)X用戶的相似用戶個(gè)數(shù)之和能夠預(yù)測(cè)數(shù)據(jù)在未來(lái)短時(shí)間內(nèi)被更多用戶訪問的可能性以及可增加的數(shù)據(jù)訪問量,相似性較高的用戶,具有較為相似的用戶習(xí)慣和興趣,訪問過數(shù)據(jù)X用戶的相似用戶越多,則數(shù)據(jù)被更多用戶訪問的可能性也就越高,可增加的數(shù)據(jù)潛在訪問量也就越多,則數(shù)據(jù)價(jià)值以及重要性就越高,應(yīng)優(yōu)先考慮存儲(chǔ)在高性能存儲(chǔ)設(shè)備。
(3)
計(jì)算數(shù)據(jù)X的訪問用戶相似度因素H(X)需要遍歷訪問過數(shù)據(jù)X的用戶以及沒有訪問過數(shù)據(jù)X的用戶,多次重復(fù)計(jì)算一個(gè)訪問過數(shù)據(jù)X用戶與一個(gè)未訪問過數(shù)據(jù)X的用戶之間的相似度,計(jì)算數(shù)據(jù)X的訪問用戶相似度因素H(X)具體計(jì)算步驟如下所示:
1)設(shè)訪問過數(shù)據(jù)X的用戶集合用U來(lái)表示,未訪問過數(shù)據(jù)X的用戶集合用V來(lái)表示,則有U={u1,u2,…,ui,…,un},V={v1,v2,…,vj,…,vm},式中:n和m為各自集合內(nèi)用戶的數(shù)量。
2)循環(huán)逐一取出用戶集合U、V中的用戶,通過式(3)分別計(jì)算計(jì)算一個(gè)集合U中用戶和一個(gè)集合V中用戶兩兩之間的相似度S,最終得到相似矩陣如式(4)所示。
(4)
式中:i∈[1,n],j∈[1,m]。
4)避免訪問過數(shù)據(jù)X用戶集的相似用戶集合可能包含有相同的用戶,重復(fù)的用戶應(yīng)只計(jì)算一次,則計(jì)算數(shù)據(jù)X的訪問用戶相似度因素H(X)如式(5)所示。
(5)
5)數(shù)據(jù)業(yè)務(wù)價(jià)值因素P(X)
鐵路建設(shè)期數(shù)據(jù)的業(yè)務(wù)價(jià)值體現(xiàn)了數(shù)據(jù)在業(yè)務(wù)方面的重要程度,同時(shí)數(shù)據(jù)業(yè)務(wù)特征對(duì)數(shù)據(jù)存儲(chǔ)有特殊的存儲(chǔ)需求,在一定程度上也影響了數(shù)據(jù)存儲(chǔ)級(jí)別的選擇。因此,將數(shù)據(jù)業(yè)務(wù)價(jià)值作為判定數(shù)據(jù)綜合價(jià)值的一項(xiàng)因素,鐵路數(shù)據(jù)業(yè)務(wù)價(jià)值計(jì)算方法如1.1.2節(jié)所示。
RBF神經(jīng)網(wǎng)絡(luò)包含輸入層、隱含層和輸出層三層結(jié)構(gòu),對(duì)于非線性函數(shù)具有較強(qiáng)的逼近能力,且具有結(jié)構(gòu)簡(jiǎn)單、收斂速度快的特點(diǎn)。利用RBF神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能,在提供神經(jīng)網(wǎng)絡(luò)輸入、輸出的前提下,確定數(shù)據(jù)價(jià)值判定因素與數(shù)據(jù)價(jià)值高低等級(jí)之間的非線性映射關(guān)系,構(gòu)建多維鐵路建設(shè)期數(shù)據(jù)綜合價(jià)值映射模型,拓?fù)浣Y(jié)構(gòu)如圖3所示。以5個(gè)數(shù)據(jù)價(jià)值判定因素作為網(wǎng)絡(luò)的輸入向量,以數(shù)據(jù)價(jià)值等級(jí)作為RBF神經(jīng)網(wǎng)絡(luò)的輸出,設(shè)置數(shù)據(jù)價(jià)值高等級(jí)標(biāo)簽為“1”、中等級(jí)標(biāo)簽為“2”、低等級(jí)標(biāo)簽為“3”。
圖3 RBF網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
網(wǎng)絡(luò)隱含層為高斯徑向基層,隱含層神經(jīng)元的激活函數(shù)φ(X,Cj)如式(6)所示[10]。
(6)
網(wǎng)絡(luò)隱含層與輸出層以權(quán)值矩陣W連接,在RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中采取梯度下降法調(diào)節(jié)C、b和W,但此算法易陷入局部最小值[11]。為提高RBF神經(jīng)網(wǎng)絡(luò)收斂性,保證神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的準(zhǔn)確性,本文引入粒子群算法(PSO)以及聚類方法,通過聚類方法確定RBF的隱層神經(jīng)元徑向基函數(shù)中心向量C以及擴(kuò)展常數(shù)b,利用PSO算法選擇隱含層到輸出層之間的最佳權(quán)值矩陣W,以獲得最優(yōu)神經(jīng)網(wǎng)絡(luò)模型。
粒子群優(yōu)化算法(PSO)具有全局收斂性,在RBF神經(jīng)網(wǎng)絡(luò)發(fā)揮泛化映射性的基礎(chǔ)上,能夠提高網(wǎng)絡(luò)的自學(xué)能力以及有效性。
PSO算法是在D維空間下n個(gè)粒子尋找最優(yōu)解的過程,在每次迭代中更新粒子適應(yīng)度函數(shù)個(gè)體最優(yōu)值Pbest和全局最優(yōu)值Gbest追蹤當(dāng)前最優(yōu)粒子,根據(jù)式(7)和式(8)來(lái)更新粒子的速度和位置。
(8)
通過PSO算法確定RBF神經(jīng)網(wǎng)絡(luò)隱含層到輸出層之間的權(quán)值矩陣W,PSO算法的評(píng)價(jià)函數(shù)如式(9)所示。
(9)
圖4 基于聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)的鐵路數(shù)據(jù)價(jià)值映射模型算法流程
本文設(shè)計(jì)了驗(yàn)證聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)模型結(jié)果的準(zhǔn)確性實(shí)驗(yàn),以當(dāng)前真實(shí)存儲(chǔ)的鐵路建設(shè)期結(jié)構(gòu)化數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),包含了28個(gè)鐵路建設(shè)期數(shù)據(jù)相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)以及其中的721張數(shù)據(jù)表,以一張數(shù)據(jù)表作為一個(gè)數(shù)據(jù)單位,模擬數(shù)據(jù)表訪問記錄、構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)集、分析聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)映射模型結(jié)果。
3.1.1 模擬數(shù)據(jù)表訪問記錄
參考數(shù)據(jù)存儲(chǔ)系統(tǒng)的數(shù)據(jù)訪問日志內(nèi)容,針對(duì)721張數(shù)據(jù)表模擬生成隨機(jī)數(shù)量的訪問記錄,構(gòu)成原始數(shù)據(jù)集如表1所示。
表1 訪問記錄原始數(shù)據(jù)集
每條記錄包含了被訪問數(shù)據(jù)的數(shù)據(jù)庫(kù)名稱、數(shù)據(jù)表名稱、訪問用戶IP地址、訪問時(shí)間、訪問操作以及執(zhí)行訪問操作后的數(shù)據(jù)表大小,設(shè)定訪問IP地址范圍從“192.**.**.1”-“192.**.**.20”,訪問時(shí)間為“2022.04.01”-“2022.04.30”這一周期內(nèi)任一時(shí)刻,訪問操作存在“add”、“delete”、“select”和“update”四種操作,執(zhí)行訪問操作后的數(shù)據(jù)表大小以MB為單位。每一張數(shù)據(jù)表的訪問記錄均大于10條,共生成了7583條訪問記錄,
3.1.2 構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)集
基于鐵路建設(shè)期數(shù)據(jù)模擬生成的數(shù)據(jù)表訪問記錄,根據(jù)各數(shù)據(jù)價(jià)值判定因素計(jì)算公式,計(jì)算出每張數(shù)據(jù)表2022年4月這一周期內(nèi)的數(shù)據(jù)量大小、數(shù)據(jù)訪問時(shí)間重要性、數(shù)據(jù)訪問頻率重要性因和數(shù)據(jù)訪問用戶相似度五項(xiàng)因素結(jié)果,通過三級(jí)指標(biāo)體系專家評(píng)價(jià)結(jié)果計(jì)算數(shù)據(jù)表業(yè)務(wù)價(jià)值,將數(shù)據(jù)價(jià)值判定因素結(jié)果作為RBF神經(jīng)網(wǎng)絡(luò)模型的輸入;同時(shí)將每張數(shù)據(jù)表專家評(píng)價(jià)數(shù)據(jù)價(jià)值等級(jí)作為RBF神經(jīng)網(wǎng)絡(luò)模型的輸出,構(gòu)成鐵路建設(shè)期數(shù)據(jù)價(jià)值映射模型訓(xùn)練數(shù)據(jù)集。
本文設(shè)計(jì)了四組對(duì)比實(shí)驗(yàn),梯度下降-RBF神經(jīng)網(wǎng)絡(luò)、聚類-RBF神經(jīng)網(wǎng)絡(luò)、RBF工具箱神經(jīng)網(wǎng)絡(luò)以及聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)分別作為鐵路建設(shè)期數(shù)據(jù)價(jià)值映射模型,721組樣本數(shù)據(jù)中,隨機(jī)選擇其中500組數(shù)據(jù)為訓(xùn)練集,剩下的221組為測(cè)試集,驗(yàn)證訓(xùn)練模型的有效性。聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)作為鐵路建設(shè)期數(shù)據(jù)價(jià)值映射模型多次測(cè)試集分級(jí)準(zhǔn)確率平均能達(dá)到95%以上,最優(yōu)分級(jí)準(zhǔn)確率能達(dá)到99%以上,四組對(duì)比實(shí)驗(yàn)判定數(shù)據(jù)各存儲(chǔ)級(jí)別準(zhǔn)確率如表2所示。
表2 四組對(duì)比試驗(yàn)數(shù)據(jù)分級(jí)結(jié)果準(zhǔn)確率
四組對(duì)比實(shí)驗(yàn)測(cè)試集數(shù)據(jù)標(biāo)簽結(jié)果以及實(shí)際網(wǎng)絡(luò)輸出結(jié)果散點(diǎn)圖如圖5-圖8所示。
圖5 梯度下降-RBF神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果
圖6 聚類-RBF神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果
圖7 ToolBox-RBF神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果
圖8 聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果
針對(duì)當(dāng)前基于數(shù)據(jù)價(jià)值的數(shù)據(jù)分級(jí)存儲(chǔ)模型存儲(chǔ)模型簡(jiǎn)化、因素不全面等問題,本文提出了一種基于聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)的多維鐵路數(shù)據(jù)價(jià)值映射模型。從數(shù)據(jù)量大小、數(shù)據(jù)訪問時(shí)間重要性、數(shù)據(jù)訪問頻率重要性、數(shù)據(jù)訪問用戶相似度和數(shù)據(jù)業(yè)務(wù)價(jià)多維度衡量數(shù)據(jù)價(jià)值,選用RBF神經(jīng)網(wǎng)絡(luò)、引入聚類方法、PSO算法優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)模型參數(shù)選擇,構(gòu)建數(shù)據(jù)價(jià)值判定因素與數(shù)據(jù)價(jià)值高低等級(jí)之間的映射關(guān)系模型。實(shí)驗(yàn)結(jié)果表明,基于聚類-PSO-RBF神經(jīng)網(wǎng)絡(luò)的多維數(shù)據(jù)價(jià)值映射模型能準(zhǔn)確判定數(shù)據(jù)價(jià)值高低,對(duì)實(shí)現(xiàn)鐵路建設(shè)期數(shù)據(jù)分級(jí)存儲(chǔ)十分有意義。