,,,
作為描述數(shù)據(jù)模型的數(shù)據(jù),元數(shù)據(jù)對數(shù)據(jù)資源的內(nèi)容、結(jié)構(gòu)、價值、使用等各維度進(jìn)行規(guī)范,日益成為數(shù)據(jù)資源共享的重要組織方式[1-2]。針對不同領(lǐng)域、不同類型的數(shù)據(jù)資源,眾多組織和學(xué)者給出了不同的元數(shù)據(jù)標(biāo)準(zhǔn)或框架[3-5],用以描述領(lǐng)域數(shù)據(jù)資源的核心特征。然而,這些標(biāo)準(zhǔn)僅提供了領(lǐng)域數(shù)據(jù)資源的簡單“核心元數(shù)據(jù)”,難以滿足不斷擴(kuò)展的數(shù)據(jù)資源,尤其是跨領(lǐng)域數(shù)據(jù)資源集合的描述需求。
針對此問題,相關(guān)學(xué)者給出了支持?jǐn)U展數(shù)據(jù)資源描述的元數(shù)據(jù)標(biāo)準(zhǔn)或框架的構(gòu)建方法。Michael Heaney提出了“集合分析模型”,用以描述數(shù)據(jù)資源集合中實(shí)體及關(guān)系邏輯[6];Hunter等提出一種基于RDF Schema和XML Schema的元數(shù)據(jù)互操作方案[7],基于RDF模型的數(shù)據(jù)資源描述得到了廣泛應(yīng)用;針對不同領(lǐng)域數(shù)據(jù)資源擴(kuò)展描述,國內(nèi)多位學(xué)者給出了多種元數(shù)據(jù)可擴(kuò)展及互操作的設(shè)計(jì)方法[8-11],以解決特定領(lǐng)域數(shù)據(jù)資源的元數(shù)據(jù)擴(kuò)展及互操作問題??梢姮F(xiàn)有支撐擴(kuò)展數(shù)據(jù)資源描述的元數(shù)據(jù)構(gòu)建方法,大都面向特定領(lǐng)域數(shù)據(jù)資源的“靜態(tài)構(gòu)建”,即通過總結(jié)領(lǐng)域元數(shù)據(jù)特征進(jìn)行歸類,或構(gòu)建適用于用戶交互的元數(shù)據(jù)互操作框架。隨著數(shù)據(jù)資源的爆炸式增長[12],以及跨領(lǐng)域生成抽象領(lǐng)域和特定領(lǐng)域的專業(yè)化細(xì)分,這些領(lǐng)域元數(shù)據(jù)構(gòu)建方法已不能適應(yīng)當(dāng)今日益增長的跨領(lǐng)域海量數(shù)據(jù)資源描述和訪問需求,因此亟需開展面向跨領(lǐng)域海量數(shù)據(jù)資源的元數(shù)據(jù)動態(tài)構(gòu)建方法研究。
為滿足用戶跨領(lǐng)域海量數(shù)據(jù)資源元數(shù)據(jù)構(gòu)建需求,本文提出了一種支持用戶自由擴(kuò)展的跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建方法,該方法基于“核心+擴(kuò)展”的元數(shù)據(jù)模型,支持用戶對領(lǐng)域數(shù)據(jù)資源的多元化進(jìn)行描述和定義,并通過自由擴(kuò)展元數(shù)據(jù)動態(tài)迭代生成可共用和互操作的跨領(lǐng)域核心元數(shù)據(jù),進(jìn)而為用戶跨領(lǐng)域元數(shù)據(jù)構(gòu)建提供一種新的方法框架。
首先構(gòu)建跨領(lǐng)域數(shù)據(jù)資源的概念模型。隨著數(shù)據(jù)資源集成需求日益深化,不同領(lǐng)域生成更大范圍的抽象領(lǐng)域,特定領(lǐng)域也衍生分化出更細(xì)分的子領(lǐng)域,據(jù)此得以構(gòu)建跨領(lǐng)域數(shù)據(jù)資源的概念模型(圖1)。
圖1 跨領(lǐng)域數(shù)據(jù)資源概念模型
在跨領(lǐng)域概念模型中,領(lǐng)域As由不同子領(lǐng)域A1,A2,A3,…,An構(gòu)成,這與實(shí)際如裝備論證等綜合領(lǐng)域數(shù)據(jù)資源的構(gòu)成情況相符。為方便描述,將跨領(lǐng)域As的數(shù)據(jù)資源亦記為As,根據(jù)模型有跨領(lǐng)域數(shù)據(jù)資源As={A1,A2,A3,…,An},考慮到數(shù)據(jù)資源交叉重疊,跨領(lǐng)域數(shù)據(jù)資源As可進(jìn)一步表示為:As=∪{A1,A2,A3,…,An}。
為了支持用戶對數(shù)據(jù)資源的多元化描述,采用“核心元數(shù)據(jù)+擴(kuò)展元數(shù)據(jù)”結(jié)構(gòu),將現(xiàn)有元數(shù)據(jù)靜態(tài)定義進(jìn)行擴(kuò)展,進(jìn)而構(gòu)建跨領(lǐng)域數(shù)據(jù)As的元數(shù)據(jù)Ms。
跨領(lǐng)域元數(shù)據(jù)Ms,由核心元數(shù)據(jù)Cs和擴(kuò)展元數(shù)據(jù)Ps兩部分構(gòu)成,表示如下:
Ms=Cs+Ps
(1)
其中,核心元數(shù)據(jù)Cs是各領(lǐng)域可共用和互操作的核心元數(shù)據(jù),可描述各領(lǐng)域數(shù)據(jù)資源A1,A2,A3,…,An的共同特征;擴(kuò)展元數(shù)據(jù)Ps是各領(lǐng)域用戶自由定義的元數(shù)據(jù),用戶通過自由定義擴(kuò)展元數(shù)據(jù),可以更準(zhǔn)確描述領(lǐng)域數(shù)據(jù)資源的多樣化特征。
同理,各領(lǐng)域元數(shù)據(jù)M1,M2,M3,…,Mn也由核心元數(shù)據(jù)與擴(kuò)展元數(shù)據(jù)構(gòu)成,表示如下:
M=Ck+Pk,k∈{1,2,…,n}
(2)
綜上,由式(1)和式(2)跨領(lǐng)域元數(shù)據(jù)結(jié)構(gòu)得以定義。
(3)
(4)
(5)
進(jìn)一步,由擴(kuò)展元數(shù)據(jù)動態(tài)構(gòu)建滿足用戶可共用和互操作的領(lǐng)域元數(shù)據(jù)Mk的核心元數(shù)據(jù)Ck。
用ΔCk表示由用戶擴(kuò)展元數(shù)據(jù)Pk動態(tài)構(gòu)建的核心元數(shù)據(jù)增量,生成新的核心元數(shù)據(jù)為C'k,有:
(6)
式(6)中,∩表示生成運(yùn)算,具體定義如下。
(7)
(8)
在此基礎(chǔ)上,式(6)中核心元數(shù)據(jù)增量ΔCk可表示為:
(9)
據(jù)此,定義生成運(yùn)算∩:
(10)
由式(4)、(6)、(9)、(10),領(lǐng)域數(shù)據(jù)資源Ak的領(lǐng)域元數(shù)據(jù)Mk得以動態(tài)構(gòu)建。
進(jìn)一步,同理動態(tài)構(gòu)建跨領(lǐng)域數(shù)據(jù)資源領(lǐng)域元數(shù)據(jù)的核心元數(shù)據(jù)。
C's=Cs+ΔCs=Cs+∩C'k,k∈{1,2,…,n}
(11)
式(11)中,生成運(yùn)算∩與式(10)中領(lǐng)域數(shù)據(jù)資源Ak領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建生成運(yùn)算相同。
由式(4)、(6)、(9)、(10)、(11),跨領(lǐng)域數(shù)據(jù)資源As的領(lǐng)域元數(shù)據(jù)Ms得以動態(tài)構(gòu)建,跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建的具體算法流程如下。
輸入:用戶自由定義的元數(shù)據(jù)Mk。
輸出:跨領(lǐng)域元數(shù)據(jù)Ms。
初始條件:領(lǐng)域核心元數(shù)據(jù)Ck,跨領(lǐng)域核心元數(shù)據(jù)Cs。
通過用戶輸入,動態(tài)迭代如下循環(huán):
布爾矩陣B經(jīng)生成運(yùn)算∩生成篩選向量,進(jìn)一步生成領(lǐng)域核心元數(shù)據(jù)增量ΔCk;
由ΔCk,生成新的領(lǐng)域核心元數(shù)據(jù)C'k和領(lǐng)域元數(shù)據(jù)M'k;
由C'k,生成新的跨領(lǐng)域核心元數(shù)據(jù)C's,進(jìn)一步生成跨領(lǐng)域元數(shù)據(jù)M's。
判斷循環(huán)截止,輸出最終跨領(lǐng)域元數(shù)據(jù)M's。
由跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建算法可知,篩選函數(shù)S(x)是動態(tài)生成跨領(lǐng)域數(shù)據(jù)資源核心元數(shù)據(jù)的關(guān)鍵。篩選函數(shù)S(x)是對布爾矩陣B進(jìn)行操作的,布爾矩陣B的0-1分布特征直接影響篩選函數(shù)的設(shè)計(jì),現(xiàn)結(jié)合領(lǐng)域數(shù)據(jù)資源布爾矩陣B的特征,設(shè)計(jì)篩選函數(shù)S(x)。
因數(shù)據(jù)資源特征不同,以及不同用戶對數(shù)據(jù)資源的理解不同,自由定義的數(shù)據(jù)資源元數(shù)據(jù)描述項(xiàng)會呈現(xiàn)出多元化的特征,故領(lǐng)域數(shù)據(jù)資源布爾矩陣B的0-1分布與領(lǐng)域數(shù)據(jù)資源特征和用戶自由擴(kuò)展數(shù)據(jù)描述相關(guān)。
基于領(lǐng)域數(shù)據(jù)資源特征和用戶認(rèn)知特征,對領(lǐng)域數(shù)據(jù)資源布爾矩陣B的0-1分布作如下假設(shè)。
假設(shè)1(隨機(jī)性假設(shè)):假定不同用戶定義領(lǐng)域數(shù)據(jù)資源擴(kuò)展元數(shù)據(jù)時,事先未約定任何規(guī)則,憑理解進(jìn)行自由定義,根據(jù)個體活動的隨機(jī)性,構(gòu)建的數(shù)據(jù)資源布爾矩陣B的0-1分布呈現(xiàn)隨機(jī)分布的特征。
在假設(shè)1條件下,布爾矩陣的漢明重量向量H滿足定理1。
由獨(dú)立伯努力試驗(yàn)的定義,可知行向量(bi1bi2…bin)的漢明重量Hi滿足二項(xiàng)分布:
得證。
由定理1,通過設(shè)置閾值條件,易設(shè)計(jì)篩選函數(shù)S(x)如下:
(12)
假設(shè)2(稀疏性假設(shè)):假定不同用戶定義對某一子領(lǐng)域數(shù)據(jù)資源的認(rèn)知與理解具有一定的相似性,基于領(lǐng)域相似性認(rèn)知和個體隨機(jī)性理解,構(gòu)建的數(shù)據(jù)資源布爾矩陣B的0-1分布呈現(xiàn)稀疏分布的特征。
在假設(shè)2條件下,布爾矩陣B的漢明重量向量H滿足定理2。
定理2:稀疏性假設(shè)條件下,對布爾矩陣B的漢明重量向量H,Hi的期望滿足E(Hi)=rank(BL),BL為布爾矩陣B的低秩部分。
證明:在稀疏性假設(shè)條件下,布爾矩陣B滿足稀疏矩陣和低秩矩陣的特征。在此基礎(chǔ)上,采用稀疏矩陣分解的方法,對布爾矩陣B進(jìn)行分解,有:
B=BL+E
(13)
其中,BL為低秩矩陣,E為稀疏矩陣。
對式(13)進(jìn)行優(yōu)化求解,可轉(zhuǎn)化為如下優(yōu)化問題:
(14)
其中,‖‖0表示矩陣的0范數(shù)即矩陣非0元素個數(shù)。
已證明此問題求解為NP難,可進(jìn)一步轉(zhuǎn)化為以下凸優(yōu)化問題[13]:
(15)
其中,‖‖0表示矩陣的核范數(shù)即矩陣奇異值之和,‖‖1表示矩陣的1范數(shù)即矩陣列向量元素絕對值之和的最大值。
已有諸多方法對以上凸優(yōu)化問題進(jìn)行求解[14-16]。在稀疏矩陣分解基礎(chǔ)上,求解行向量(bi1bi2…bin)漢明重量Hi的期望E(Hi),令:
E(Hi)=k
(16)
由期望定義可知:
P(Hi=k)max{P(Hi=j),j∈{0,1,2,…,n}}
(17)
考察布爾矩陣B的行向量(bi1bi2…bin),由稀疏矩陣分解和矩陣行列對稱性可知:
P(Hi=rank(BL))=max{P(Hi=j),j∈{0,1,2,…,n}}
(18)
結(jié)合式(16)、(17)、(18),可知:E(Hi)=rank(BL)。
得證。
由定理2,通過設(shè)置閾值條件,易設(shè)計(jì)篩選函數(shù)S(x)如下:
(19)
針對設(shè)計(jì)的跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建算法,尤其是兩類假設(shè)條件下的篩選函數(shù),利用相關(guān)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。
針對隨機(jī)性假設(shè),由于現(xiàn)有領(lǐng)域元數(shù)據(jù)尚未有自由擴(kuò)展實(shí)踐,隨機(jī)性假設(shè)條件測試數(shù)據(jù)集采用隨機(jī)模擬的方法生成;針對稀疏性假設(shè),則利用某綜合論證領(lǐng)域元數(shù)據(jù)集,采用“時間換空間”策略,選用不同時段和領(lǐng)域的元數(shù)據(jù)生成測試數(shù)據(jù)集,以滿足稀疏性假設(shè)條件。
選用兩類測試數(shù)據(jù)集,數(shù)量級均分別為103、104、105規(guī)模,利用本文設(shè)計(jì)的跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建算法和篩選函數(shù),生成跨領(lǐng)域元數(shù)據(jù)項(xiàng),從而驗(yàn)證算法的有效性。Matlab軟件生成實(shí)驗(yàn)結(jié)果如圖2和圖3所示。
圖2 隨機(jī)性假設(shè)核心元數(shù)據(jù)生成
圖3 稀疏性假設(shè)核心元數(shù)據(jù)生成
圖2為隨機(jī)性假設(shè)條件下動態(tài)構(gòu)建的核心元數(shù)據(jù)增量,其中藍(lán)色曲線為篩選函數(shù)的期望閾值曲線,紅色曲線為基于數(shù)據(jù)集的動態(tài)構(gòu)建生成數(shù)值曲線,在可知實(shí)際隨機(jī)性條件下,動態(tài)構(gòu)建算法生成的核心元數(shù)據(jù)增量與理論期望值基本吻合。圖3則為稀疏性假設(shè)條件下動態(tài)構(gòu)建的核心元數(shù)據(jù)增量,其中藍(lán)色曲線和紅色曲線定義與圖2相同,在稀疏性假設(shè)條件下,動態(tài)構(gòu)建算法生成的核心元數(shù)據(jù)增量與理論期望值也具有較好的吻合度。
其中,圖2的曲線擬合度相對較高,是因?yàn)殡S機(jī)性假設(shè)選用的是隨機(jī)生成測試數(shù)據(jù);而圖3曲線擬合度存在偏差,說明采用實(shí)際數(shù)據(jù)測試條件下,稀疏性假設(shè)條件與實(shí)際數(shù)據(jù)資源元數(shù)據(jù)描述項(xiàng)分布規(guī)律存在一定偏差。
在稀疏性假設(shè)條件下,基于某綜合論證領(lǐng)域元數(shù)據(jù)集,通過區(qū)分不同時間階段,利用本文設(shè)計(jì)算法生成跨領(lǐng)域元數(shù)據(jù),并與某綜合論證領(lǐng)域元數(shù)據(jù)實(shí)際變化對比,進(jìn)一步驗(yàn)證算法的合理性。Matlab軟件生成實(shí)驗(yàn)結(jié)果如圖4和圖5所示。
圖4 稀疏性假設(shè)生成跨領(lǐng)域核心元數(shù)據(jù)
圖5 稀疏性假設(shè)生成跨領(lǐng)域核心元數(shù)據(jù)增量
圖4為稀疏性假設(shè)條件下算法生成的不同時間階段跨領(lǐng)域元數(shù)據(jù)與實(shí)際元數(shù)據(jù)的對比圖,其中紅色曲線為算法生成的跨領(lǐng)域元數(shù)據(jù),藍(lán)色曲線則為實(shí)際元數(shù)據(jù),實(shí)際元數(shù)據(jù)為經(jīng)過需求論證、專家研討和用戶反饋等環(huán)節(jié)生成的實(shí)際使用核心元數(shù)據(jù)。由圖4可知,算法生成的跨領(lǐng)域元數(shù)據(jù)比實(shí)際元數(shù)據(jù)的數(shù)據(jù)項(xiàng)要多,且隨著時間階段和測試數(shù)據(jù)集規(guī)模增長,算法生成與實(shí)際元數(shù)據(jù)項(xiàng)數(shù)差也越大,說明本算法生成的元數(shù)據(jù)項(xiàng)相對實(shí)際使用元數(shù)據(jù)項(xiàng)要更豐富,需經(jīng)科學(xué)論證和取舍后生成實(shí)際使用元數(shù)據(jù)。
圖5為相應(yīng)時間階段算法生成的跨領(lǐng)域元數(shù)據(jù)增量與實(shí)際元數(shù)據(jù)增量的對比圖,其中紅色曲線為算法生成的跨領(lǐng)域元數(shù)據(jù)增量,藍(lán)色曲線則為實(shí)際元數(shù)據(jù)增量,紫色曲線為算法生成元數(shù)據(jù)與實(shí)際元數(shù)據(jù)的增量比率。由圖5可知,算法生成的跨領(lǐng)域元數(shù)據(jù)增量相對實(shí)際元數(shù)據(jù)增量的絕對值大,但兩者之間的增量比率維持在固定值區(qū)間范圍,說明本算法生成跨領(lǐng)域元數(shù)據(jù)與實(shí)踐生成元數(shù)據(jù)的過程趨勢基本吻合。
針對跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建問題,本文在跨領(lǐng)域數(shù)據(jù)資源概念模型研究基礎(chǔ)上,對跨領(lǐng)域元數(shù)據(jù)的結(jié)構(gòu)進(jìn)行了擴(kuò)展定義,給出“核心+擴(kuò)展”的跨領(lǐng)域元數(shù)據(jù)結(jié)構(gòu),支持用戶對元數(shù)據(jù)的自由定義。在此基礎(chǔ)上,提出了擴(kuò)展元數(shù)據(jù)迭代生成核心元數(shù)據(jù)的動態(tài)構(gòu)建算法,并通過對數(shù)據(jù)資源分布矩陣的隨機(jī)性假設(shè)和稀疏性假設(shè),設(shè)計(jì)了跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建算法中的篩選函數(shù),從而給出了一種可供用戶自由擴(kuò)展的跨領(lǐng)域數(shù)據(jù)資源元數(shù)據(jù)動態(tài)構(gòu)建方法,滿足用戶日益增長的跨領(lǐng)域海量數(shù)據(jù)資源描述和訪問需求。
篩選函數(shù)設(shè)計(jì)是跨領(lǐng)域元數(shù)據(jù)動態(tài)構(gòu)建算法的關(guān)鍵環(huán)節(jié),本文在兩類假設(shè)基礎(chǔ)上,對篩選函數(shù)進(jìn)行了相關(guān)設(shè)計(jì),然而這兩類假設(shè)遠(yuǎn)不能涵蓋跨領(lǐng)域數(shù)據(jù)資源的豐富特征,仍需對現(xiàn)有假設(shè)進(jìn)行深入研究與拓展。同時,針對稀疏性假設(shè)條件下篩選函數(shù)設(shè)計(jì),基于海量數(shù)據(jù)資源的稀疏矩陣分解優(yōu)化問題求解,也應(yīng)成為下一步研究的重點(diǎn)。