李 媛
(桐城師范高等??茖W(xué)校 商貿(mào)與電子信息系,安徽 桐城 231400)
網(wǎng)絡(luò)現(xiàn)代化生活為人們提供了極大的便利,但同時(shí)也帶來(lái)了不小的挑戰(zhàn).由于突如其來(lái)的新冠疫情沖擊,對(duì)各國(guó)人民生活和學(xué)習(xí)都產(chǎn)生了極大挑戰(zhàn).疫情下,在線授課和學(xué)習(xí)成為主流應(yīng)對(duì)方法,但云端大量數(shù)據(jù)的存儲(chǔ)和計(jì)算已不能被傳統(tǒng)存儲(chǔ)方法滿足,數(shù)據(jù)量大、傳輸速度慢和存儲(chǔ)效率低等現(xiàn)狀相繼引發(fā)資源被消耗和存儲(chǔ)空間被占用等問(wèn)題[1].劉亞瓊[2]曾提出基于快速傅里葉變換的數(shù)據(jù)壓縮方法,但部分信號(hào)不存在傅里葉變換,對(duì)一些數(shù)據(jù)不夠靈敏,該方法存在局限性.孫建偉[3]提出使用RICE算法完成數(shù)據(jù)壓縮,該方法無(wú)法一次完成索引,導(dǎo)致壓縮效率低.屈永斌[4]提出云計(jì)算的數(shù)據(jù)壓縮方法,云計(jì)算規(guī)模大,擴(kuò)展性高,但響應(yīng)時(shí)間慢.充分借鑒現(xiàn)有研究成果,引入邊緣計(jì)算配合云計(jì)算工作,可實(shí)現(xiàn)“云邊協(xié)同”,提高資源的壓縮存儲(chǔ)效率,減少占用云端存儲(chǔ)空間[5-7].為此本文提出基于邊緣計(jì)算的在線學(xué)習(xí)資源壓縮存儲(chǔ)方法,滿足現(xiàn)階段大量數(shù)據(jù)的壓縮存儲(chǔ)需求.
壓縮感知的目的是重構(gòu)原始信號(hào),主要通過(guò)構(gòu)建聯(lián)合稀疏模型、信號(hào)稀疏表示、字典學(xué)習(xí)、選取測(cè)量矩陣、聯(lián)合重構(gòu)等步驟完成在線學(xué)習(xí)資源的壓縮感知[8-9].壓縮感知具體過(guò)程見(jiàn)下文.
(1)
將M×N的測(cè)量矩陣Φ投影在x上得出公式(2).
y=Φx=Φψθ=Θθ,
(2)
其中,y表示投影系數(shù)組成的N×1列向量,稱為觀測(cè)矢量,Θ為觀測(cè)矩陣.
在壓縮感知理論中,可以用M個(gè)非自適應(yīng)的線性投影值重構(gòu)出x,前提是測(cè)量矩陣Φ和正交基矩陣ψ不相關(guān)或者Θ具備路由信息協(xié)議特性.如果測(cè)量矩陣選擇隨機(jī)矩陣,那么Θ會(huì)在很大程度上滿足路由信息協(xié)議條件.
(3)
公式(3)中,1-范數(shù)問(wèn)題可以利用正交匹配追蹤的線性規(guī)劃方法求解.使用正交匹配追蹤方法重構(gòu)N維K稀疏向量需要的測(cè)量值個(gè)數(shù)需滿足公式(4).
M≥cK,c≈2ln(N).
(4)
1.1.1 聯(lián)合稀疏模型
構(gòu)建第一聯(lián)合稀疏模型JSM-1對(duì)在線學(xué)習(xí)資源進(jìn)行壓縮采集.
在JSM-1模型中,信號(hào)群中的所有信號(hào)均可拆分,表達(dá)式見(jiàn)公式(5).
xj=zc+zjj∈{1,2,…,J},
(5)
其中,zc為共同分量,zj為特征分量,zj=ψαj,αj為第j個(gè)信號(hào)的獨(dú)立稀疏系數(shù);xj表示第j個(gè)信號(hào),J為信號(hào)群中的信號(hào)個(gè)數(shù);zc=ψθc,θc為所有信號(hào)的公共稀疏向量.
1.1.2 信號(hào)稀疏表示及字典學(xué)習(xí)(K-SVD)算法
假設(shè)字典為D,在線學(xué)習(xí)資源為Y,系數(shù)矩陣為X,那么K-SVD的目標(biāo)函數(shù)為
(6)
(7)
(ii)字典更新.在字典學(xué)習(xí)算法下重置每個(gè)字典原子,每次只重置一個(gè)[10],懲罰項(xiàng)見(jiàn)公式(8).
(8)
(9)
1.1.3 選取測(cè)量矩陣
選用貝努利隨機(jī)矩陣,當(dāng)貝努利測(cè)量值M的關(guān)系滿足M≥4.72Klog(N/K)時(shí)即可重構(gòu)原始信號(hào),其中N為原始信號(hào)長(zhǎng)度,K為稀疏度.
1.1.4 聯(lián)合重構(gòu)
采用同步正交匹配追蹤算法(SOMP)與K-SVD算法組成CS-SOMP聯(lián)合重構(gòu)算法.為得到滿足目標(biāo)閾值的信噪比,首先根據(jù)SOMP算法重構(gòu)收集的在線學(xué)習(xí)資源,再通過(guò)K-SVD對(duì)稀疏字典持續(xù)重置降低誤差以達(dá)到要求.此算法不需要大量的字典原子和測(cè)量值,大幅度提高了效率,具體過(guò)程如下.
(i)初始化參數(shù).令初始?xì)埐顁j=yj,j[1,s],其中s為節(jié)點(diǎn)個(gè)數(shù),字典原子個(gè)數(shù)τ,索引值ξ為零,索引集Λ0為空集.
(ii)設(shè)數(shù)據(jù)長(zhǎng)度n,測(cè)量值數(shù)量m,將原始信號(hào)矩陣Xn×s和Φm×n、初始字典Ψn×n以及最低重構(gòu)信噪比SNRdef輸入算法.
(iii)計(jì)算傳感矩陣Am×n=Ψm×nΦn×n.
(iv)令各行殘差與Am×n各列二范數(shù)相加,將最大值對(duì)應(yīng)到Am×n列索引,合并到上次索引集.數(shù)學(xué)表達(dá)式見(jiàn)公式(10)和公式(11).
(10)
Λτ=[Λτ-1ξj].
(11)
(v)殘差更新見(jiàn)公式(12)和公式(13).
(12)
(13)
(vi)重構(gòu)中間信號(hào)及其相對(duì)方均根誤差(R)與重構(gòu)信噪比(SNR)計(jì)算見(jiàn)式(16).
(14)
(15)
(16)
(vii)當(dāng)SNR符合要求時(shí),輸出結(jié)果;當(dāng)SNR比SNRdef小時(shí),重復(fù)步驟(4)直到符合要求.
當(dāng)有大量數(shù)據(jù)需要分析時(shí)可以使用云計(jì)算技術(shù),該技術(shù)具有免維護(hù)計(jì)算硬件、關(guān)聯(lián)軟件和不需要儲(chǔ)存數(shù)據(jù)在本地等優(yōu)點(diǎn),但缺點(diǎn)是響應(yīng)時(shí)間慢,這是由于其他終端與云平臺(tái)間的距離比較遠(yuǎn)導(dǎo)致.此時(shí)引入一種創(chuàng)新方式——邊緣計(jì)算[11-12].該算法離其他終端距離更近,可以解決云計(jì)算因距離導(dǎo)致的響應(yīng)時(shí)間慢問(wèn)題,同時(shí)數(shù)據(jù)和存儲(chǔ)中間需要的寬帶也隨之減少.因此引入邊緣計(jì)算配合云計(jì)算工作,可以降低網(wǎng)絡(luò)延遲,改善系統(tǒng)性能.
基于如圖1所示的云邊協(xié)同框架,采集在線學(xué)習(xí)資源,在云端服務(wù)器上傳經(jīng)邊緣計(jì)算CS-SOMP聯(lián)合重構(gòu)算法重構(gòu)產(chǎn)生的稀疏字典原子和測(cè)量值,然后進(jìn)行以下操作.
(i)在線學(xué)習(xí)資源數(shù)據(jù)的壓縮存儲(chǔ);
(ii)建立完備稀疏字典.邊緣服務(wù)器對(duì)云端服務(wù)器發(fā)送的結(jié)果進(jìn)行資源調(diào)整,采集資源后再傳到云端服務(wù)器[13-14].
圖1 云邊協(xié)同框架
在云邊協(xié)同架構(gòu)下,當(dāng)采用CS-SOMP聯(lián)合重構(gòu)算法一起壓縮采集s個(gè)節(jié)點(diǎn)的數(shù)據(jù)時(shí),每個(gè)數(shù)據(jù)使用同一個(gè)字典原子,各節(jié)點(diǎn)數(shù)據(jù)長(zhǎng)度設(shè)為n,τ為上傳的字典原子個(gè)數(shù),則
(17)
其中,Ym×s為各節(jié)點(diǎn)測(cè)量值,Dτ×n為字典原子,Xn×s為各節(jié)點(diǎn)原始信號(hào).上傳云端的測(cè)量值與字典原子的存儲(chǔ)量隨著矩陣長(zhǎng)度m和傳入云端字典原子個(gè)數(shù)τ的降低而降低.完備字典Dk×n的建立需要云端整合各邊緣上傳的字典原子,來(lái)保證迅速精準(zhǔn)地調(diào)用云端數(shù)據(jù),其中k表示總原子數(shù).稀疏表示系數(shù)θn×s描述見(jiàn)公式(18).
θn×s=SOMP(Ym×s,Dk×n,Ψm×n).
(18)
(19)
數(shù)據(jù)的壓縮存儲(chǔ)通過(guò)建立云端完備字典來(lái)完成,此時(shí)只需各邊緣上傳測(cè)量值,極大降低了云端的存儲(chǔ)空間.具體構(gòu)建完備字典的過(guò)程如下.
(i)di為字典原子,Dk為云端初始稀疏字典Dk×n中第k個(gè)原子,它們間的相關(guān)度用ri,k表示,關(guān)系式見(jiàn)公式(20).
(20)
假設(shè)上傳到云端的字典原子di與云端稀疏字典Dk×n的整體相關(guān)性較弱,則產(chǎn)生的各個(gè)ri,k均比某一閾值低,此時(shí)將該字典原子擴(kuò)充進(jìn)云端稀疏字典.
(ii)過(guò)完備稀疏字典由上傳的字典原子組合而成,各字典原子間的相關(guān)性通過(guò)正則化降低.具體過(guò)程見(jiàn)公式(21)和公式(22).
Dk×n={d1,d2,…,dk},
(21)
(22)
(iii)通過(guò)歸一化過(guò)完備字典更新字典原子,見(jiàn)式(23).
(23)
(iv)在上傳的測(cè)量值中通過(guò)分布式壓縮感知算法,再與過(guò)完備稀疏字典相結(jié)合恢復(fù)原始數(shù)據(jù),由此確認(rèn)恢復(fù)存儲(chǔ)數(shù)據(jù)的可能性.在每個(gè)節(jié)點(diǎn)獲取對(duì)應(yīng)稀疏系數(shù)θj,j∈[1,s],通過(guò)把每個(gè)節(jié)點(diǎn)數(shù)據(jù)的測(cè)量值作為存儲(chǔ)數(shù)據(jù)完成數(shù)據(jù)的壓縮存儲(chǔ)[15].
綜上所述,基于邊緣計(jì)算的在線學(xué)習(xí)資源壓縮存儲(chǔ)方法的具體流程如圖2所示.
圖2 基于邊緣計(jì)算的資源壓縮存儲(chǔ)方法的具體流程圖
以某在線學(xué)習(xí)網(wǎng)站的資源為研究對(duì)象,驗(yàn)證本文方法的在線學(xué)習(xí)資源壓縮存儲(chǔ)性能.
利用本文方法壓縮存儲(chǔ)在線學(xué)習(xí)資源時(shí),需要通過(guò)在云端上傳邊緣計(jì)算采集到的數(shù)據(jù)及其相應(yīng)的稀疏字典原子和測(cè)量值,再進(jìn)行恢復(fù)等操作實(shí)現(xiàn).在保證其他參數(shù)相同的情況下,對(duì)收集到的數(shù)據(jù)采用本文方法訓(xùn)練學(xué)習(xí).字大小典分別是128、256、512、1024,不同大小字典在稀疏度和壓縮比逐漸增大時(shí)的信噪比變化結(jié)果見(jiàn)圖3.
圖3 不同大小字典信噪比對(duì)比
由圖3可知,不同大小字典的信噪比均隨著稀疏度的增加呈升高趨勢(shì),且隨著字典增大,信噪比增大幅度變??;隨著壓縮比逐漸增大,不同大小字典的信噪比均有不同程度下降,128字典和256字典的信噪比在壓縮比達(dá)到20%之后出現(xiàn)大幅下降,但1024大小的字典信噪比始終保持平穩(wěn),且一直高于其他字典的信噪比,說(shuō)明字典越大,應(yīng)用本文方法進(jìn)行數(shù)據(jù)壓縮存儲(chǔ)時(shí)的數(shù)據(jù)處理性能越好.
另外采用本文方法壓縮存儲(chǔ)在線學(xué)習(xí)資源過(guò)程中,樣本數(shù)量也是影響字典學(xué)習(xí)的重要因素.在字典固定1024大小的情況下,分別對(duì)比25、50、75和100個(gè)樣本數(shù)量訓(xùn)練學(xué)習(xí)的字典信噪比,對(duì)比結(jié)果見(jiàn)圖4.
圖4 不同樣本數(shù)量訓(xùn)練學(xué)習(xí)字典性能結(jié)果圖
圖4(a)表明,隨著稀疏度增大,各字典的信噪比均呈上升趨勢(shì),后期增幅變小,逐漸達(dá)到穩(wěn)定.但樣本數(shù)量越大,信噪比越高,前期上升速度越快,證明字典學(xué)習(xí)效果更好;圖4(b)描述訓(xùn)練樣本數(shù)量越少應(yīng)對(duì)壓縮比變化能力越差,僅有25個(gè)樣本數(shù)量的字典在壓縮比為30%的時(shí)候出現(xiàn)嚴(yán)重失真,而100個(gè)樣本數(shù)量的字典信噪比隨壓縮比增大仍保持穩(wěn)定.實(shí)驗(yàn)結(jié)果表明,采用本文方法壓縮存儲(chǔ)在線學(xué)習(xí)資源時(shí),樣本數(shù)量越大,訓(xùn)練學(xué)習(xí)字典效果越好,對(duì)應(yīng)的壓縮存儲(chǔ)優(yōu)勢(shì)越顯著.
為了驗(yàn)證本文方法的有效性,采用本文方法、文獻(xiàn)[2]方法和文獻(xiàn)[3]方法,對(duì)在線學(xué)習(xí)資源進(jìn)行壓縮存儲(chǔ),對(duì)比三種方法壓縮后圖片的清晰度,對(duì)比結(jié)果如表1所示.
表1 清晰度對(duì)比結(jié)果(%)
根據(jù)表1可知,本文方法對(duì)在線學(xué)習(xí)資源進(jìn)行壓縮存儲(chǔ)后,圖片的清晰度最高可達(dá)100%,壓縮后圖片清晰度較高,無(wú)信息缺失.
為了進(jìn)一步驗(yàn)證本文方法的有效性,對(duì)本文方法、文獻(xiàn)[2]方法和文獻(xiàn)[3]方法的在線學(xué)習(xí)資源壓縮時(shí)間進(jìn)行對(duì)比分析,對(duì)比結(jié)果如表2所示.
表2 在線學(xué)習(xí)資源壓縮時(shí)間對(duì)比(s)
根據(jù)表2可知,本文方法的在線學(xué)習(xí)資源壓縮時(shí)間在2s內(nèi),比文獻(xiàn)[2]方法和文獻(xiàn)[3]方法的在線學(xué)習(xí)資源壓縮時(shí)間短.
本文以分布式壓縮感知算法為邊緣算法,通過(guò)對(duì)在線學(xué)習(xí)資源的稀疏采樣識(shí)別,利用云邊協(xié)同框架高效壓縮存儲(chǔ)數(shù)據(jù)的同時(shí)實(shí)現(xiàn)數(shù)據(jù)完整恢復(fù),保證了在線學(xué)習(xí)資源質(zhì)量.通過(guò)實(shí)驗(yàn),驗(yàn)證本文方法訓(xùn)練學(xué)習(xí)1024大小字典的數(shù)據(jù)處理性能最好,且壓縮存儲(chǔ)性能隨樣本數(shù)量增多而變好,本文驗(yàn)證四種數(shù)量樣本中,數(shù)量為100的樣本數(shù)據(jù)訓(xùn)練學(xué)習(xí)效果最好.