于翠萍,趙志剛
(1.遼東學(xué)院 ,遼寧 丹東 118001;2. 齊魯工業(yè)大學(xué)(山東省科學(xué)院),山東 濟(jì)南 250014)
互聯(lián)網(wǎng)信息時代的發(fā)展對人類社會產(chǎn)生巨大影響。電子檔案作為重要信息保存方式已經(jīng)逐漸融入到人們生活與工作的各個領(lǐng)域,增加了獲得信息的途徑。尤其是政府與各事業(yè)單位,每天都會形成大量電子檔案。除此之外一些圖片、音頻等文件都會選擇電子檔案方式進(jìn)行儲存。電子檔案作為信息高速發(fā)展的產(chǎn)物,和傳統(tǒng)紙質(zhì)檔案相比差別較大,它是指存在價值的以視頻、圖像、文本等形式通過固定格式封裝的電子信息集合,一般將磁盤與光盤作為儲存介質(zhì)。由于電子檔案高度推廣與應(yīng)用,在為人們帶來便利的同時出現(xiàn)數(shù)據(jù)泄露、檔案篡改等問題。因此如何建立安全高效的儲存系統(tǒng)已經(jīng)成為研究焦點(diǎn)。
針對上述問題,相關(guān)領(lǐng)域?qū)﹄娮訖n案管理工作模式進(jìn)行創(chuàng)新,具體措施如下:以人為本,提高相關(guān)工作人員素質(zhì);改革工作方式,建立工作規(guī)范;創(chuàng)新服務(wù)方法,加強(qiáng)檔案資源建設(shè)。除此之外,一些學(xué)者還提出下述解決方案。文獻(xiàn)[1]為改善網(wǎng)絡(luò)負(fù)載擁塞現(xiàn)象,提出基于Hadoop的網(wǎng)絡(luò)行為大數(shù)據(jù)安全儲存系統(tǒng)。首先,規(guī)劃數(shù)據(jù)接收與識別模塊,實(shí)現(xiàn)對數(shù)據(jù)的安全過濾;其次,分析識別地址,在保持較好處理結(jié)果基礎(chǔ)上,對識別后的數(shù)據(jù)進(jìn)行導(dǎo)入和儲存;最后,搭建系統(tǒng)軟件環(huán)境,再結(jié)合硬件基本條件,完成儲存系統(tǒng)設(shè)計。實(shí)驗(yàn)結(jié)果表明,該方法可以降低儲存空間占用率,緩解網(wǎng)絡(luò)負(fù)載擁塞現(xiàn)象。文獻(xiàn)[2]提出基于盲數(shù)BM模型的電網(wǎng)數(shù)據(jù)儲存系統(tǒng)。針對儲存方法安全性低等問題,通過盲數(shù)BM模型對數(shù)據(jù)進(jìn)行提取,利用混合加密算法加密數(shù)據(jù),構(gòu)建諧波數(shù)據(jù)儲存模型;確定儲存規(guī)則,并通過云端驗(yàn)證數(shù)據(jù)儲存的完整性。
上述兩種儲存系統(tǒng)運(yùn)行速度較慢,隨著網(wǎng)絡(luò)與密碼技術(shù)的出現(xiàn),再次推動電子檔案儲存的向前發(fā)展?;诖?,設(shè)計出對大規(guī)模分布電子檔案信息融合[3]的儲存系統(tǒng)。信息融合主要指對不同傳感器得到的信息做綜合處理,消除存在的矛盾,通過信息互補(bǔ),改善不確定性。通過對比實(shí)驗(yàn),證明所提方法儲存速度快,安全性能更高,能有效防止檔案數(shù)據(jù)被篡改。
組成信息融合架構(gòu)的基本四個元素為:信息源,它能提供初始數(shù)據(jù);信息轉(zhuǎn)換與傳遞[4],可以實(shí)現(xiàn)信息預(yù)處理;信息互補(bǔ),其作用是完成信息升華;信息融合處理報告,它能夠顯示融合處理的最終結(jié)果?;炯軜?gòu)圖如圖1所示。
圖1 信息融合基本框架示意圖
1)數(shù)據(jù)層次信息融合
數(shù)據(jù)層融合屬于對相同量級的傳感器初始信息直接融合,對未經(jīng)處理的傳感器數(shù)據(jù)進(jìn)行綜合分析,為最低層次的融合。該層次融合主要優(yōu)勢體現(xiàn)在:可以保持盡可能多的電子檔案,獲取其它層次沒有的細(xì)節(jié)信息。缺點(diǎn)是:處理代價大,耗費(fèi)時間長[5]。融合過程示意圖如圖2所示。
圖2 數(shù)據(jù)層融合示意圖
2)特征層次信息融合
特征層次的融合是中間層次融合,其過程為:首先對初始電子檔案進(jìn)行特征提取,再對特征信息做分析與處理,其可分為目標(biāo)狀態(tài)與目標(biāo)特性融合。
特征層融合的好處為:能實(shí)現(xiàn)信息壓縮,達(dá)到實(shí)時處理目的,融合結(jié)果可以最大程度體現(xiàn)出電子檔案的信息特征。融合過程如圖3所示。
圖3 特征層次信息融合示意圖
3)決策層次信息融合
決策層信息融合主要為檢測、操控與決策提供理論依據(jù)。需要從需求角度考慮,利用特征融合的信息實(shí)現(xiàn)決策融合,其結(jié)果直接影響決策的優(yōu)劣。
決策層信息融合優(yōu)勢為:處理代價低,靈活性強(qiáng),具有較強(qiáng)的抗干擾性能。
圖4 決策層信息融合示意圖
從信息融合角度出發(fā),神經(jīng)網(wǎng)絡(luò)[6]屬于存在高度非線性的大規(guī)模信息融合網(wǎng)絡(luò),可以將其當(dāng)作多輸入信號的一種融合系統(tǒng)。
2.3.1 神經(jīng)元確定
神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)是神經(jīng)元,通常被稱為“處理單元”,又可稱為“節(jié)點(diǎn)”。假設(shè)xi(t)代表t時間點(diǎn)神經(jīng)元j收到的出自于神經(jīng)元i的信息,oj(t)為t時間點(diǎn)神經(jīng)元發(fā)出的信息,此時,神經(jīng)元j的狀態(tài)表達(dá)式為
(1)
式中,τij表示輸入與輸出產(chǎn)生的突觸時延;Tj為j的閾值,wij表示神經(jīng)元i與j之間的突觸連接系數(shù);f(·)代表神經(jīng)元轉(zhuǎn)移函數(shù)。
為方便計算,將式(1)中的突觸時延設(shè)置為單位時間,則將上述公式改寫為
(2)
2.3.2 拓?fù)浣Y(jié)構(gòu)選取
單一的神經(jīng)網(wǎng)絡(luò)功能較為簡單,只有利用拓?fù)浣Y(jié)構(gòu)[7]將多數(shù)神經(jīng)網(wǎng)絡(luò)連接起來,構(gòu)成巨大的神經(jīng)網(wǎng)絡(luò),才可以實(shí)現(xiàn)對電子檔案的儲存,并體現(xiàn)出優(yōu)越性。本文選取互連型拓?fù)浣Y(jié)構(gòu)對儲存系統(tǒng)進(jìn)行研究。
互連型結(jié)構(gòu)為網(wǎng)絡(luò)中隨機(jī)兩個單元之間均是互相連接的,如圖5所示。
圖5 互聯(lián)型拓?fù)浣Y(jié)構(gòu)示意圖
2.3.3 學(xué)習(xí)規(guī)則分析
通常認(rèn)為,神經(jīng)網(wǎng)絡(luò)的全部功能都儲存在神經(jīng)元中,學(xué)習(xí)是指神經(jīng)元之間對現(xiàn)有連接的修正。因此,神經(jīng)元在根據(jù)一定結(jié)構(gòu)形成神經(jīng)網(wǎng)絡(luò)后,需要利用相關(guān)學(xué)習(xí)規(guī)則對連接權(quán)值與閾值進(jìn)行更新。本文通過Hebb規(guī)則[8]對神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
在Hebb學(xué)習(xí)規(guī)則中,學(xué)習(xí)信號可以看作是神經(jīng)元的輸出
(3)
對于權(quán)值向量的調(diào)整表達(dá)式為
(4)
(5)
上述公式說明,權(quán)值調(diào)整量和輸入輸出的乘積具有正比關(guān)系。因此,輸入模式對權(quán)值向量會產(chǎn)生較大影響。
采用神經(jīng)網(wǎng)絡(luò)對信息進(jìn)行融合,主要分為下述步驟:
1)傳感器選擇,對于不同種類的信息融合,選擇對應(yīng)傳感器[9];
2)采樣與預(yù)處理,利用傳感器對儲存系統(tǒng)狀態(tài)進(jìn)行檢測,且做預(yù)處理;
3)神經(jīng)網(wǎng)絡(luò)選取,結(jié)合不同電子文檔特征,根據(jù)神經(jīng)網(wǎng)絡(luò)“三要素”,選擇合適的模型;
4)網(wǎng)絡(luò)的訓(xùn)練與學(xué)習(xí),得到對數(shù)據(jù)的不確定推理機(jī)制或關(guān)系。
圖6 基于神經(jīng)網(wǎng)絡(luò)的信息融合過程示意圖
特征水印相似度計算目的是檢測儲存電子文檔與原始文檔之間的重合程度。本文利用字符頻率零水印算法建立安全儲存模型。
圖7 特征水印相似度模型示意圖
如果T表示原始電子文檔,B代表常用字符頻度示意表,δ為文檔T中全部字符集合,Ti(i=1,2,3,…,n)表示在δ中任意一個字符,V(Ti)是Ti在文檔中出現(xiàn)的頻率,ST(δ)代表集合δ中全部字符根據(jù)V(Ti)進(jìn)行排序產(chǎn)生的序列,SB(δ)表示字符集合δ中全部元素根據(jù)字符序列頻度B生成的集合。
基于字符頻度[10]的儲存模型,獲取初始水印信息與待檢測文檔的水印信息,通過相關(guān)性函數(shù)預(yù)測兩個水印存在的相似度。
β[S1(N),S2(N)]
=β1[S1(N),S2(N)]*β2[S1(N),S2(N)]
(6)
式中,β1代表初始水印信息S1(N)與待檢測的水印信息S2(N)的相似程度比,β1=k/N。
通過最小二乘法預(yù)測電子文檔排列順序的相似程度,并計算兩個字符排列順序的差值平方
(7)
式中,兩個序號之間的最大差值平方和計算公式為
(8)
根據(jù)上述推導(dǎo)可知,原始電子文檔水印信息S1(N)與待檢測的水印信息S2(N)的相同字符排列相似度比值β2計算公式為:
(9)
因此,相似度β=β1β2,則有
(10)
將以上獲得的電子文檔水印相似度[11]作為安全儲存的基本原理對系統(tǒng)進(jìn)行設(shè)置。
設(shè)計大規(guī)模分布的電子檔案儲存系統(tǒng),需要遵循高速采集與大容量儲存的原則?;诖?,分別對系統(tǒng)硬件與軟件進(jìn)行設(shè)計。
圖8 系統(tǒng)總體架構(gòu)示意圖
由上圖可知,電子檔案儲存系統(tǒng)主要包括:處理器、連接電路、計算機(jī)、儲存器與復(fù)位器。
在此系統(tǒng)的總體架構(gòu)中,電子檔案的輸入和輸出是在觸發(fā)與采集裝置基礎(chǔ)上進(jìn)行設(shè)置的。數(shù)據(jù)觸發(fā)總體線路和模擬總線路一起建立數(shù)據(jù)儲存區(qū)域,把電子檔案大數(shù)據(jù)進(jìn)行收集并傳送到控制計算機(jī)內(nèi),經(jīng)過預(yù)處理模塊達(dá)到系統(tǒng)設(shè)計目的。
系統(tǒng)的儲存功能包括:
1)將PIC引入到系統(tǒng)處理器中進(jìn)行緩沖區(qū)域運(yùn)行;
2)信號處理芯片和儲存空間可以互相連接,達(dá)到人類與機(jī)器通信目的;
3)利用計算機(jī)對處理器設(shè)計出合理的動態(tài)增益編碼,確保電子檔案穩(wěn)定在一定區(qū)域內(nèi)。
硬件部分的設(shè)計主要包括:電路同步與復(fù)位、系統(tǒng)觸發(fā)裝置、程序加載與儲存接口設(shè)計。大規(guī)模分布電子檔案的儲存系統(tǒng)電路開關(guān)應(yīng)選取12位采樣數(shù)據(jù)的模塊,對電路進(jìn)行反饋采樣。該系統(tǒng)線性動態(tài)范圍設(shè)置為-50~50dB。根據(jù)電子檔案特性,利用網(wǎng)絡(luò)自動接口功能,對動態(tài)增益部分進(jìn)行設(shè)計。
在互聯(lián)網(wǎng)環(huán)境下對電子檔案儲存必須經(jīng)過時鐘同步的采樣。在時鐘電路端口,接入AD2018的四開關(guān)低通濾波,保證系統(tǒng)輸出電壓的穩(wěn)定性。利用端口的緩沖能力,達(dá)到主機(jī)與檔案傳輸實(shí)時通信的目的。
基于大規(guī)模分布電子檔案儲存系統(tǒng)的時鐘同步電路能夠設(shè)計和I/O設(shè)備相接的轉(zhuǎn)換器。再將信息通道的數(shù)據(jù)采樣模塊換為16位,利用±15V的樣本輸入法,并通過轉(zhuǎn)換其將TOUT變?yōu)镃NNST。
在硬件設(shè)備基礎(chǔ)上,對軟件模塊進(jìn)行規(guī)劃。將設(shè)計高內(nèi)聚、低耦合儲存檔案的模式作為目標(biāo)。在大數(shù)據(jù)環(huán)境下電子檔案存在分布廣泛,樣式多的特征,所以,軟件分為儲存層、邏輯層與訪問層[12],分別對其進(jìn)行設(shè)計。
儲存層可以儲存一定信息量,經(jīng)過頁面交互之后,發(fā)出指令,此時,儲存層會與邏輯層相接,再將指令發(fā)送到儲存層。
邏輯層起到承上啟下的作用,分析并處理接收到的命令,利用數(shù)據(jù)接口將命令傳送到訪問層,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的電子檔案儲存和取讀。
訪問層的主要作用包括:電子檔案的存儲和取讀、插入和更新、查找和刪除等。
軟件中的儲存算法對系統(tǒng)整體性能起關(guān)鍵作用,通常情況下的數(shù)據(jù)問題能夠通過下述表達(dá)式進(jìn)行解決
(11)
可靠性儲存函數(shù)描述為
(12)
式中,p1,p2,…,pn∈2n表示n個數(shù)據(jù)的矢量,λ1,λ2,…,λn為數(shù)據(jù)產(chǎn)生的損失情況,g代表正則化函數(shù),δ屬于共軛函數(shù),x表示初始數(shù)據(jù)變量,y為對偶數(shù)據(jù)的函數(shù)變量,t≥0是正則化函數(shù)的參數(shù)。
由式(12)能夠獲得約束軟件函數(shù)公式
(13)
式(13)中,x屬于變量,矩陣G描述n個數(shù)據(jù)的排列順序。
為驗(yàn)證信息儲存優(yōu)化方法設(shè)計的合理性,將其與文獻(xiàn)[1]方法、文獻(xiàn)[2]方法對比進(jìn)行仿真。主要實(shí)驗(yàn)參數(shù)設(shè)置如下:電子檔案儲存在環(huán)形緩沖區(qū)域,數(shù)據(jù)浮動區(qū)間在-35~55dB,最大疊加量是95dB,數(shù)據(jù)轉(zhuǎn)換器輸出范圍是±20V;數(shù)據(jù)收集通道數(shù)量為20個;數(shù)據(jù)采樣功率是250Hz;控制器與放大器的分辨功率均設(shè)置為15位。
以下兩幅圖分別為兩種方法在儲存速度與儲存空間方面的實(shí)驗(yàn)結(jié)果圖。
分析圖9可知,當(dāng)實(shí)驗(yàn)時間為4ms,文獻(xiàn)[1]方法的儲存速度為200Mb,文獻(xiàn)[2]方法的儲存速度為100Mb,本文方法的儲存速度為400Mb。當(dāng)實(shí)驗(yàn)時間為10ms,文獻(xiàn)[1]方法的儲存速度為540Mb,文獻(xiàn)[2]方法的儲存速度為700Mb,本文方法的儲存速度為1000Mb。本文方法的儲存速度遠(yuǎn)遠(yuǎn)高于其它方法,說明本文方法的信息存儲效率較高。
圖9 不同方法儲存速度折線圖
分析圖10可知,當(dāng)電子檔案量為5MB時,文獻(xiàn)[1]方法的儲存空間為80GB,文獻(xiàn)[2]方法的儲存空間為65GB,本文方法的儲存空間為92GB。當(dāng)電子檔案量為30MB時,文獻(xiàn)[1]方法的儲存空間為81GB,文獻(xiàn)[2]方法的儲存空間為122GB,本文方法的儲存空間為162GB。本文方法的儲存空間遠(yuǎn)遠(yuǎn)高于其它方法,說明本文方法的信息儲存空間較大。說明本文方法儲存的電子檔案數(shù)量更多。
圖10 不同方法儲存空間對比圖
針對傳統(tǒng)電子檔案儲存效率低、安全性差的缺陷,本文對大規(guī)模分布電子檔案信息融合儲存系統(tǒng)進(jìn)行設(shè)計。將信息融合分為不同層次,對其作用與優(yōu)勢進(jìn)行研究;并將神經(jīng)網(wǎng)絡(luò)引入到信息融合中,構(gòu)建電子檔案安全儲存模型;實(shí)現(xiàn)電子檔案系統(tǒng)信息存儲優(yōu)化設(shè)計。通過實(shí)驗(yàn)得出以下結(jié)論:
1)本文方法的信息存儲效率較高,實(shí)驗(yàn)時間為10ms,本文方法的儲存速度為1000Mb。
2)本文方法的信息儲存空間較大,能夠儲存的電子檔案數(shù)量更多。當(dāng)電子檔案量為30MB時,本文方法的儲存空間為162GB。