莫世鴻,范冰冰
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510631)
近幾年,隨著各地城市監(jiān)控視頻建設(shè)的持續(xù)投入,監(jiān)控?cái)z像頭在城市的部署數(shù)量以每年超過(guò)30%的復(fù)合速率增長(zhǎng),同時(shí)從以往的標(biāo)清逐步向現(xiàn)在的高清過(guò)度,大量視頻監(jiān)控設(shè)備產(chǎn)生海量視頻及其相關(guān)的數(shù)據(jù),如交通卡口和電子警察記錄數(shù)據(jù),視頻監(jiān)控領(lǐng)域大數(shù)據(jù)時(shí)代已來(lái)臨。盡管目前各類(lèi)視頻壓縮編碼技術(shù)已經(jīng)十分成熟,但是,城市視頻大數(shù)據(jù)的數(shù)據(jù)量增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)視頻壓縮編碼技術(shù)的發(fā)展速度,從而造成所需的存儲(chǔ)開(kāi)銷(xiāo)呈指數(shù)級(jí)增長(zhǎng)。根據(jù)美國(guó)國(guó)際數(shù)據(jù)公司(IDC)的估計(jì),數(shù)據(jù)每2年翻1番,10年將增長(zhǎng)50倍[1]。
除重要點(diǎn)或案件相關(guān)等監(jiān)控視頻外,由于受存儲(chǔ)空間限制,國(guó)內(nèi)絕大部分監(jiān)控視頻一般保存時(shí)長(zhǎng)為30天,沒(méi)有考慮監(jiān)控視頻價(jià)值量的差異性,造成價(jià)值量不高的視頻占用了大量存儲(chǔ)空間,價(jià)值量較高的視頻保存時(shí)長(zhǎng)過(guò)短而缺失歷史數(shù)據(jù),對(duì)大數(shù)據(jù)應(yīng)用產(chǎn)生不可彌補(bǔ)的損失。因此,希望面向應(yīng)用對(duì)城市監(jiān)控視頻進(jìn)行差異化的存儲(chǔ)管理。在無(wú)法把所有視頻數(shù)據(jù)保存下來(lái)的條件下,首先,不同的攝像頭價(jià)值量會(huì)有所差異,其次,同一攝像頭在一天的不同時(shí)段價(jià)值量會(huì)有所差異?;诒O(jiān)控視頻價(jià)值實(shí)現(xiàn)動(dòng)態(tài)存儲(chǔ)管理分配與優(yōu)化,對(duì)監(jiān)控視頻大數(shù)據(jù)應(yīng)用具有重大意義。
目前,國(guó)內(nèi)外對(duì)于視頻價(jià)值量的研究幾乎空白,相關(guān)的研究有關(guān)于通用數(shù)據(jù)價(jià)值的研究。文獻(xiàn)[3-5]給出了數(shù)據(jù)價(jià)值的簡(jiǎn)單定義。關(guān)于數(shù)據(jù)價(jià)值的評(píng)定方法,文獻(xiàn)[6]等人介紹了基于應(yīng)用程序的方法對(duì)數(shù)據(jù)價(jià)值進(jìn)行評(píng)估。文獻(xiàn)[7]介紹了一種基于信息使用的最近時(shí)間判斷信息的價(jià)值。文獻(xiàn)[8]等基于電子文件的完整性、真實(shí)性、有效性4個(gè)指標(biāo)建立了電子文件價(jià)值評(píng)估模型。文獻(xiàn)[9]提出的usage-time(UT)模型同時(shí)考慮了最近使用時(shí)間和使用度兩個(gè)因素,基于訪問(wèn)時(shí)間距離當(dāng)前時(shí)間的遠(yuǎn)近程度賦予訪問(wèn)量不同的權(quán)值,從而對(duì)總使用度作出一個(gè)綜合評(píng)價(jià),并且經(jīng)過(guò)案例驗(yàn)證了其有效性和健壯性。文獻(xiàn)[10]等通過(guò)按比例計(jì)算數(shù)據(jù)的固有屬性和預(yù)期價(jià)值,得出數(shù)據(jù)價(jià)值的量化指標(biāo)。文獻(xiàn)[11]等提出了一種基于數(shù)據(jù)本身重要性和潛在價(jià)值的數(shù)據(jù)價(jià)值評(píng)估模型。然而,針對(duì)監(jiān)控視頻,視頻數(shù)據(jù)往往是以數(shù)據(jù)流的方式寫(xiě)入和存儲(chǔ)的,無(wú)法基于文件的方式獲取上述信息。此外,上述模型并未考慮監(jiān)控視頻特有的攝像頭布點(diǎn)重要性因素和時(shí)間戳因素。
此外,還有部分關(guān)于視頻質(zhì)量評(píng)價(jià)或者視頻熱度分析預(yù)測(cè)的相關(guān)文獻(xiàn)[12-15]。在視頻質(zhì)量評(píng)價(jià)方法上,只回答了視頻“可看性”問(wèn)題,而并未回答視頻內(nèi)容價(jià)值量多少的問(wèn)題。視頻熱度的相關(guān)研究在多媒體視頻領(lǐng)域(例如電影電視劇等)分析了哪些視頻會(huì)更吸引用戶的注意,在監(jiān)控視頻領(lǐng)域的研究則是空白。
如何基于監(jiān)控視頻價(jià)值量解決存儲(chǔ)優(yōu)化問(wèn)題,是本文的研究點(diǎn)。據(jù)此,在監(jiān)控視頻價(jià)值量的評(píng)價(jià)上,仍存在以下問(wèn)題:首先,目前對(duì)于監(jiān)控視頻價(jià)值量的概念缺乏一個(gè)明確的定義;其次,對(duì)于監(jiān)控視頻價(jià)值量的評(píng)價(jià)缺乏一個(gè)科學(xué)的評(píng)估體系。
綜合考慮前人對(duì)價(jià)值的定義以及監(jiān)控視頻的特性,給出監(jiān)控視頻價(jià)值量定義:監(jiān)控視頻價(jià)值量是其所包含信息量多少、所含信息可能應(yīng)用價(jià)值、以及其對(duì)應(yīng)攝像頭重要性的綜合體現(xiàn)。所謂信息量多少,主要指的是監(jiān)控視頻中特征對(duì)象出現(xiàn)率,如車(chē)、人等,即對(duì)象出現(xiàn)率越高,價(jià)值量越高。攝像頭重要性主要取決于所處區(qū)域或位置,例如,若一個(gè)攝像頭處于交通要道,或在重點(diǎn)目標(biāo)監(jiān)控區(qū)域(例如大使館等),則該攝像頭所含的信息就越重要,價(jià)值量也越高。信息的應(yīng)用價(jià)值主要通過(guò)用戶的訪問(wèn)、使用來(lái)體現(xiàn),一段監(jiān)控視頻序列訪問(wèn)度越高,則其價(jià)值量越高。
基于上述監(jiān)控視頻價(jià)值量的概念,評(píng)估體系應(yīng)分為兩個(gè)部分:首先,要針對(duì)監(jiān)控?cái)z像頭的各項(xiàng)訪問(wèn)指標(biāo),建立一套評(píng)價(jià)單個(gè)攝像頭總體價(jià)值量的模型;然后,針對(duì)高價(jià)值量的攝像頭,對(duì)一天的不同時(shí)段進(jìn)行分組,采用一定的計(jì)算方法,最后篩選出這些攝像頭一天中價(jià)值量最高的時(shí)段。兩個(gè)部分分別定義為攝像頭篩選模型與時(shí)間段篩選模型,如圖1所示。
圖1 監(jiān)控視頻價(jià)值評(píng)估體系
設(shè)計(jì)評(píng)估體系基于以下4個(gè)要素,其一,監(jiān)控視頻數(shù)據(jù)的價(jià)值是通過(guò)其使用來(lái)實(shí)現(xiàn)和體現(xiàn)的;其二,監(jiān)控視頻的價(jià)值會(huì)隨著橫向時(shí)間的推移而有所差異;其三,不同類(lèi)別攝像頭的數(shù)據(jù)價(jià)值量應(yīng)有所差異;其四,監(jiān)控視頻數(shù)據(jù)在每天不同時(shí)段其價(jià)值量是有明顯差異的。
基于UT模型,加入攝像頭類(lèi)別重要性因素,對(duì)監(jiān)控視頻價(jià)值量評(píng)價(jià)模型做出適應(yīng)性改進(jìn),提出CUT(camera-usage-time)模型對(duì)攝像頭價(jià)值進(jìn)行評(píng)估,如圖2所示。
圖2 CUT模型
該模型具體描述如下:
這里,vt(d)指的是攝像頭d在時(shí)間t的價(jià)值,時(shí)間t是宏觀上的,精確度是某一天。評(píng)估周期用vp表示,持續(xù)時(shí)間為[t-Nt×s,t],s是每個(gè)活躍期的長(zhǎng)度,Nt是活躍期的個(gè)數(shù)。f(Ui(d))表示攝像頭d在活躍期i的使用值,此處數(shù)值是進(jìn)行歸一化處理后的數(shù)值,在[0,1]區(qū)間內(nèi)。w(i)是每個(gè)活躍期i的權(quán)值進(jìn)行標(biāo)準(zhǔn)化后的數(shù)值,權(quán)值總和為1。權(quán)值w(i)通過(guò)上述權(quán)值函數(shù)指定。i越小,表示活躍期距離現(xiàn)在越近,該權(quán)值函數(shù)可以表明,距離當(dāng)前時(shí)間越近的活躍期,具有越高的權(quán)值。z為每類(lèi)攝像頭的重要級(jí)別,由人為指定,取值為1,2,3…,c(z)是每種類(lèi)別的權(quán)重,級(jí)別越高,權(quán)重越大,q是人為定義的總類(lèi)別數(shù)。最后,把價(jià)值尺度vt(d)利用公式(5)標(biāo)準(zhǔn)化為一定區(qū)間[ls,us]內(nèi)(例如[1,10])。
在確定高價(jià)值量攝像頭的基礎(chǔ)上,進(jìn)一步對(duì)一天不同時(shí)段價(jià)值量進(jìn)行分析比較,把一天分為多個(gè)時(shí)間段T1、T2、T3…Tn,針對(duì)不同的應(yīng)用領(lǐng)域,確定不同的評(píng)價(jià)參數(shù)k1、k2…kn,記ck1T1表示參數(shù)k1某一天在時(shí)間段T1的值,為了使評(píng)價(jià)結(jié)果更加準(zhǔn)確,對(duì)同一時(shí)段多天的數(shù)據(jù)取平均,記天數(shù)為CUT模型中一個(gè)活躍期的天數(shù)s,可對(duì)每個(gè)參數(shù)在每個(gè)時(shí)間段取值利用公式(6)取平均,并由此可得到多維矩陣(7):
基于這些參數(shù)對(duì)不同時(shí)間段的價(jià)值量進(jìn)行區(qū)分,可考慮采用聚類(lèi)算法,本文使用的是K-means聚類(lèi)算法[16]。
3.3 中醫(yī)健康宣教的重要性 小米粥營(yíng)養(yǎng)價(jià)值豐富,有“代參湯”之美稱,一般患者及家屬對(duì)小米的飲食功效都比較熟悉,但是對(duì)于小米其他的作用就了解比較少。我院是中醫(yī)醫(yī)院,對(duì)患者進(jìn)行中醫(yī)健康宣教是護(hù)理工作的一個(gè)重要組成部分,也是護(hù)理質(zhì)量考核的一個(gè)指標(biāo)。所以對(duì)入選本課題的壓瘡高?;颊咧v解小米的中醫(yī)作用是不可或缺的一部分,讓患者了解小米的作用后,在知情同意的情況下愿意配合使用小米墊,真正從心里接受此實(shí)驗(yàn)方法,符合醫(yī)學(xué)倫理范疇。
K-Means是一種基于距離的排他的聚類(lèi)劃分方法。K-means算法是硬聚類(lèi)算法,是典型的基于原型的目標(biāo)函數(shù)聚類(lèi)方法的代表,它是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則。K-means算法以歐式距離作為相似度測(cè)度,它是求對(duì)應(yīng)某一初始聚類(lèi)中心向量V最優(yōu)分類(lèi),使得評(píng)價(jià)指標(biāo)J最小。假設(shè)給定集合R={Xm|m=1,2,…,total},對(duì)于R中的每個(gè)樣本給定d個(gè)描述屬性A1,A2,…,Ad來(lái)表示,運(yùn)用多維向量表示數(shù)據(jù)樣本Xm所擁有屬性為:Xm=(Xm1,Xm2…,Xmd),其中Xm1,Xm2…,Xmd是數(shù)據(jù)樣本Xm的具體取值。樣本Xi和Xj之間的相似度通常用它們之間的距離d(Xi,Xj)來(lái)表示,距離越小,樣本Xi和Xj越相似,差異度越??;距離越大,樣本Xi和Xj越不相似,差異度越大。歐氏距離公式如下:
算法采用誤差平方和準(zhǔn)則函數(shù)作為聚類(lèi)準(zhǔn)則函數(shù)。算法是將樣本聚類(lèi)成k個(gè)簇(cluster),具體算法描述如下:
1)隨機(jī)選取k個(gè)聚類(lèi)質(zhì)心點(diǎn)(cluster centroids)為:μ1,μ2,…μk∈Rn,
算法流程圖如圖3所示。
圖3 K-means算法流程圖
本章將基于交通應(yīng)用領(lǐng)域?qū)μ岢龅膬r(jià)值評(píng)估體系進(jìn)行分析和驗(yàn)證,為此,對(duì)500路交通監(jiān)控?cái)z像頭3個(gè)月內(nèi)(9.1-11.30)的訪問(wèn)數(shù)據(jù)進(jìn)行跟蹤,并利用這些數(shù)據(jù)進(jìn)行驗(yàn)證和分析輸出結(jié)果。
對(duì)CUT模型各參數(shù)定義如下:首先把交通領(lǐng)域攝像頭按重要級(jí)別分為4類(lèi),如表1所示。
表1 攝像頭類(lèi)別與對(duì)應(yīng)重要性
則公式(4)中q=4,并取y=2,然后對(duì)式(1)~(3)、(5)采用文獻(xiàn)中[9]UT模型的默認(rèn)參數(shù),則:
ls=1,us=10,價(jià)值尺度為[1,10]
Ui(d)=訪問(wèn)量,
2.1.1 橫向時(shí)間因素
根據(jù)3種不同的訪問(wèn)狀態(tài)對(duì)攝像頭進(jìn)行分類(lèi):突發(fā)性訪問(wèn),周期性訪問(wèn)和常量性訪問(wèn)。如果對(duì)一個(gè)攝像頭所有的訪問(wèn)只發(fā)生在很短的時(shí)間內(nèi),則認(rèn)為這類(lèi)攝像頭是一個(gè)突發(fā)性訪問(wèn)攝像頭。如果訪問(wèn)發(fā)生在某個(gè)固定的時(shí)間間隔,則該攝像頭是周期性的。如果攝像頭在整個(gè)評(píng)估期間不斷被訪問(wèn),則該攝像頭具有不變的訪問(wèn)模式。從每種訪問(wèn)類(lèi)別中隨機(jī)選擇3個(gè)同一重要類(lèi)別的攝像頭,并使用60天的評(píng)估期計(jì)算不同日期的攝像頭價(jià)值,并默認(rèn)所有其他參數(shù),輸出結(jié)果如圖4所示,累計(jì)訪問(wèn)量如表2所示。
圖4 3種類(lèi)型攝像頭價(jià)值隨時(shí)間變化折線圖
表2 累計(jì)訪問(wèn)量統(tǒng)計(jì)
具有周期性和恒定訪問(wèn)模式的攝像頭隨著時(shí)間的推移具有微小的價(jià)值變化。突發(fā)性訪問(wèn)攝像頭顯示出相對(duì)顯著的價(jià)值變化。此外,盡管在某些時(shí)段突發(fā)性攝像頭的累計(jì)訪問(wèn)量高于常量性攝像頭,但是其價(jià)值輸出結(jié)果卻不如常量性攝像頭,這是由于該模型對(duì)不同的橫向時(shí)間段賦予不同的權(quán)值決定的,充分證明了該模型能反映橫向時(shí)間推移對(duì)監(jiān)控視頻價(jià)值的影響。
2.1.2 布點(diǎn)重要性因素
從2.1.1節(jié)具有常量性訪問(wèn)特征的攝像頭里隨機(jī)選取4個(gè)類(lèi)別不同的攝像頭,同樣使用60天的評(píng)估期計(jì)算不同日期的攝像頭價(jià)值,并默認(rèn)所有其他參數(shù),顯然重要級(jí)別越高的攝像頭,其整體價(jià)值量越高,如圖5,重要級(jí)別從高到低的平均價(jià)值量分別為:7.8、4.5、3.9、1.7,然而,在某些日期不同重要性的攝像頭擁有相近的價(jià)值量,甚至在11/5、11/12會(huì)出現(xiàn)重要級(jí)別較低的攝像頭價(jià)值量反而較高的情況,這是訪問(wèn)度因素導(dǎo)致的,當(dāng)某段時(shí)間訪問(wèn)度大量提高時(shí),由于訪問(wèn)度對(duì)結(jié)果的影響大于布點(diǎn)重要性對(duì)結(jié)果的影響,因此這種情況布點(diǎn)重要性因素會(huì)對(duì)模型輸出結(jié)果的敏感度降低。
圖5 不同重要性攝像頭整體價(jià)值量折線圖
2.1.3 訪問(wèn)量因素
對(duì)模型的輸出結(jié)果根據(jù)價(jià)值尺度(1~10)劃分為4個(gè)部分,攝像頭價(jià)值量分布圖如表3所示,根據(jù)對(duì)模型的輸出結(jié)果進(jìn)行分類(lèi),可以看出該模型能把不同價(jià)值量的攝像頭從宏觀上較好地區(qū)分開(kāi)來(lái),價(jià)值尺度高的攝像頭雖然所占比例少,但擁有高訪問(wèn)量。其中,價(jià)值量為6~10的攝像頭占總攝像頭數(shù)量的4%,但是其訪問(wèn)量占據(jù)了總訪問(wèn)量50%以上,價(jià)值量3~6的攝像頭占總攝像頭數(shù)量8%,其訪問(wèn)量占總訪問(wèn)量的18%;相反,價(jià)值量為1的攝像頭雖然占總攝像頭數(shù)量的67%,但是其訪問(wèn)量?jī)H占總訪問(wèn)量的3%。顯然,該模型對(duì)訪問(wèn)量因素具有很好的敏感度。
表3 攝像頭價(jià)值與訪問(wèn)量分布情況
2.2.1 特征值選擇和數(shù)據(jù)預(yù)處理
針對(duì)高價(jià)值量攝像頭進(jìn)一步進(jìn)行時(shí)間分布性分析,隨機(jī)選取其中一路高價(jià)值攝像頭(對(duì)應(yīng)2.1.3節(jié)中價(jià)值量為(6,10]的攝像頭),根據(jù)1.3節(jié)理論基礎(chǔ),取T=2小時(shí),即把一天分為12個(gè)時(shí)間區(qū)間。針對(duì)交通領(lǐng)域,主要的研究對(duì)象為車(chē)輛。此外,違章檢測(cè)作為智能交通的重要應(yīng)用研究,保存大量具有違章行為的視頻序列,對(duì)智能交通的研究具有重要意義。因此選定評(píng)價(jià)參數(shù)車(chē)流量c和違章標(biāo)記數(shù)目p,利用公式(7)對(duì)多天同一時(shí)段的數(shù)據(jù)取均值,得到基礎(chǔ)數(shù)據(jù)如表4(括號(hào)外數(shù)據(jù))。由于這兩個(gè)特征值的度量單位不一致,它們具有不同的量綱和量綱單位,這種情況可能會(huì)導(dǎo)致數(shù)據(jù)分析結(jié)果不準(zhǔn)確,而且收斂速度慢。為了消除指標(biāo)之間的量綱影響,解決數(shù)據(jù)指標(biāo)之間的可比性,加快模型收斂速度,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。對(duì)原數(shù)據(jù)以列為單位經(jīng)過(guò)線性變換,進(jìn)行標(biāo)準(zhǔn)化處理,使得結(jié)果均落在[0,1]區(qū)間內(nèi)。以平均車(chē)流量c為例,轉(zhuǎn)換如下,并得標(biāo)準(zhǔn)化數(shù)據(jù)如表4(括號(hào)內(nèi)數(shù)據(jù)):
2.2.2 仿真實(shí)驗(yàn)結(jié)果
取K值為3,利用matlab進(jìn)行聚類(lèi)仿真,得到如圖6結(jié)果。
可見(jiàn),通過(guò)聚類(lèi)后可以把一路視頻大致分為3類(lèi):分別為高價(jià)質(zhì)量時(shí)間時(shí)間段,中價(jià)值量時(shí)間段,低價(jià)質(zhì)量時(shí)間段。其中高價(jià)質(zhì)量視頻數(shù)據(jù)為第5組與第10組,中價(jià)值量視頻數(shù)據(jù)為第4、6、7、9組,低價(jià)質(zhì)量視頻數(shù)據(jù)為第1、2、3、12組。最后,可以篩選出該路視頻價(jià)值量最高的時(shí)間段是8:00-10:00與18:00-20:00。
表4 各時(shí)段車(chē)流量與違章均值數(shù)據(jù)
圖6 聚類(lèi)結(jié)果
本文對(duì)監(jiān)控視頻價(jià)值評(píng)定問(wèn)題進(jìn)行了研究,分析了監(jiān)控視頻價(jià)值評(píng)估過(guò)程涉及的關(guān)鍵因素,提出了監(jiān)控視頻價(jià)值量概念及其評(píng)估體系。通過(guò)實(shí)驗(yàn)驗(yàn)證,該評(píng)估體系具有以下4個(gè)特點(diǎn):1)捕獲攝像頭價(jià)值隨時(shí)間的變化而變化;2)捕獲不同攝像頭類(lèi)別數(shù)據(jù)之間價(jià)值的差異;3)從宏觀上把不同價(jià)值的攝像頭區(qū)分開(kāi)來(lái);4)把同一個(gè)攝像頭一天中不同時(shí)段的價(jià)值量區(qū)分開(kāi)來(lái)。據(jù)此可為基于監(jiān)控視頻價(jià)值量實(shí)現(xiàn)動(dòng)態(tài)存儲(chǔ)管理分配與優(yōu)化提供理論基礎(chǔ)。然而,該評(píng)估體系仍然具有一定的局限性,在CUT模型中對(duì)攝像頭布點(diǎn)的重要性依靠人為指定,缺乏一定的客觀性,考慮的因素不夠全面,在這方面可繼續(xù)深入考慮人口(例如外來(lái)人口、宗教信仰、年齡結(jié)構(gòu)等)、建筑(例如建筑檔次、建筑密度等)、經(jīng)濟(jì)(例如人均收入、貧富差距等)等因素對(duì)攝像頭布點(diǎn)重要性的影響。此外,在攝像頭篩選階段,未考慮到關(guān)聯(lián)性因素,相關(guān)的攝像頭之間可能存在大量重復(fù)冗余的數(shù)據(jù)。因此,下一步研究方向應(yīng)對(duì)上述問(wèn)題繼續(xù)深入探討。