摘 要 在航天器飛行過程中,多傳感器輸入數(shù)據(jù)樣本點(diǎn)之間,存在復(fù)雜的數(shù)據(jù)傳輸與計(jì)算關(guān)系。傳統(tǒng)軟件定義這些數(shù)據(jù)為矢量或矩陣的形式。通過軟件開發(fā)人員人工分析數(shù)據(jù)之間具有局部聯(lián)系,這些工作簡(jiǎn)單枯燥,耗費(fèi)軟件開發(fā)人員大量精力。隨著空間飛行器任務(wù)越來越復(fù)雜,數(shù)據(jù)量成倍數(shù)增長(zhǎng),亟待解決的問題就是:為數(shù)據(jù)找到新的高效的表示和編碼方法。本文提出一種基于網(wǎng)絡(luò)構(gòu)建技術(shù)的方法,為解決空間軟件編碼問題提供了一種新思路。
關(guān)鍵詞 網(wǎng)絡(luò)構(gòu)建;空間軟件;編碼
萬維網(wǎng)是以網(wǎng)絡(luò)格式表示的海量數(shù)據(jù)的典范,頁面可以映射為節(jié)點(diǎn),邊就是也頁面之間的鏈接。筆者探索將此種方法引入空間數(shù)據(jù)處理系統(tǒng),將傳統(tǒng)的以矢量或矩陣形式表示的數(shù)據(jù)轉(zhuǎn)換成網(wǎng)絡(luò)表示的形式,解決效率低下的問題。
1空間數(shù)據(jù)特征
(1)無序數(shù)據(jù)。例如:位置、速度、角度、角速度、時(shí)間信息、軌道信息等。
(2)有序數(shù)據(jù):從起飛瞬間開始,執(zhí)行動(dòng)作具有順序特征,且不可逆。
(3)數(shù)值數(shù)據(jù):例如高度和重量。
網(wǎng)絡(luò)構(gòu)建的數(shù)據(jù)相比以向量表示的數(shù)據(jù)擁有更多的信息。這些附加信息有幾個(gè)部分組成,其中最重要的就是樣本之間的關(guān)系結(jié)構(gòu)或者拓?fù)湫畔?。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的優(yōu)勢(shì)還有可以用交互的方式進(jìn)行編碼。如何改變非結(jié)構(gòu)化數(shù)據(jù)?本文引入網(wǎng)絡(luò)構(gòu)建技術(shù),作為非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的橋梁[1]。
首先,處理常用的數(shù)據(jù)距離定義有:歐氏距離;加權(quán)歐式距離;曼哈頓或者城市街區(qū)距離;切比雪夫距離閔可夫斯基距離馬氏距離等。本文使用馬氏距離度量目標(biāo)軟件
接下來處理有序和無序兩類數(shù)據(jù),本文引入二元屬性(出現(xiàn),不出現(xiàn))的方法來刻畫對(duì)象間的相似性。例如:太陽相關(guān)數(shù)據(jù),地球相關(guān)數(shù)據(jù),恒星相關(guān)數(shù)據(jù),飛行器自身產(chǎn)生的數(shù)據(jù)等。我們定義感興趣的類別為出現(xiàn),其他類別為不出現(xiàn)狀態(tài)。因此,當(dāng)比較兩個(gè)向量時(shí),會(huì)有四種不同的情況:
M11:表示兩個(gè)向量同時(shí)出現(xiàn)的次數(shù);M10:表示僅第一個(gè)向量出現(xiàn)的次數(shù);M01:表示只有第二個(gè)向量出現(xiàn)的次數(shù);M00:表示兩個(gè)向量都不出現(xiàn)的次數(shù)
常用的相似度算法有:杰卡德相似度,sorensen相似度,簡(jiǎn)單匹配相似度等。通過實(shí)驗(yàn)對(duì)比分析各種相似度匹配算法后,本文使用定義buser相似度算法,
因?yàn)樵谶@里引入平方根項(xiàng),可以消除在其他相似度計(jì)算公式(杰卡德相似度)中常見樣本大小誤差。方法及步驟如下:
假定相似矩陣S 或相異矩陣D,構(gòu)建網(wǎng)絡(luò)的最直接方法是在兩節(jié)點(diǎn)之間建立連邊,連邊權(quán)重通過的倒數(shù)的函數(shù)獲得。這種方法生成的網(wǎng)絡(luò)通常是完全網(wǎng)絡(luò)且需要滿足以下標(biāo)準(zhǔn):
(1)為了維持節(jié)點(diǎn)之間的相互連接,網(wǎng)絡(luò)必須包含一個(gè)巨大的單元。
(2)為了更好揭示數(shù)據(jù)節(jié)點(diǎn)之間的關(guān)系,應(yīng)盡可能稀疏,這樣可以增加數(shù)據(jù)分類處理的效率,增加準(zhǔn)確性和魯棒性。
在工程實(shí)踐過程中發(fā)現(xiàn),連邊的權(quán)重與泛化結(jié)果正相關(guān)??梢詫?quán)重小的連邊看作數(shù)據(jù)通信中的噪聲,這些噪聲將向算法提供誤導(dǎo)性信息。所以,這些帶噪聲的連邊會(huì)扭曲最終的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),刪掉這些連邊將是提高算法效率的一個(gè)重要預(yù)處理步驟[2]。
根據(jù)以上推理,可以稀疏化相似性和相異性矩陣使用KNN網(wǎng)絡(luò),這是一種常用的靜態(tài)網(wǎng)絡(luò)構(gòu)建技術(shù)。簡(jiǎn)單地說是將整個(gè)網(wǎng)絡(luò)剪切成一系列重疊的線性模塊,然后將他們粘貼在一起。構(gòu)建一個(gè)有向網(wǎng)絡(luò),之間互相連接的邊存在的條件是當(dāng)且僅當(dāng)兩個(gè)點(diǎn)是最相似的k個(gè)元素之一。計(jì)算過程中,我們需要按照相異矩陣的行進(jìn)行升序排序,一旦排序完成,就可以用統(tǒng)一的方式對(duì)待數(shù)據(jù)關(guān)系密集區(qū)和稀疏區(qū)域中的數(shù)據(jù)項(xiàng)。當(dāng)處于稀疏區(qū)域時(shí),knn網(wǎng)絡(luò)被激活。實(shí)質(zhì)上是通過啟發(fā)式算法完成網(wǎng)絡(luò)構(gòu)建。具體而言采用單鏈路方法,構(gòu)建連接的稀疏的網(wǎng)絡(luò),同時(shí)也可以維持原來數(shù)據(jù)集的簇結(jié)構(gòu)。實(shí)驗(yàn)表明當(dāng)K=3時(shí),對(duì)目前中等規(guī)模軟件網(wǎng)絡(luò)拓?fù)湫Ч顑?yōu)。原因分析為,函數(shù)嵌套堆棧最大深度為8層,數(shù)據(jù)間距離計(jì)算結(jié)果為1~8之間的球形分布,對(duì)軟件編碼規(guī)模和密度非常靈活,實(shí)現(xiàn)效果高于傳統(tǒng)軟件工程師人工分析的正確率。
Knn網(wǎng)絡(luò)構(gòu)建技術(shù)也可以被描述為優(yōu)化函數(shù),不需要建立對(duì)稱矩陣。每個(gè)節(jié)點(diǎn)的出度與參數(shù)K對(duì)應(yīng),但是節(jié)點(diǎn)入度保持變化(至少是K)。這種實(shí)驗(yàn)現(xiàn)象的產(chǎn)生可以用非對(duì)稱特性來解釋。另外,優(yōu)化函數(shù)可以通過循環(huán)信念傳播算法實(shí)現(xiàn)。使得本算法可以推廣到任意復(fù)雜度的軟件。只需要選擇合適的網(wǎng)絡(luò)直徑d,就可以表征網(wǎng)絡(luò)代替原有的節(jié)點(diǎn)相似性度量。
仿真實(shí)驗(yàn):在某空間軟件設(shè)計(jì)編碼的過程中,筆者使用KNN網(wǎng)絡(luò)構(gòu)建技術(shù)度量數(shù)據(jù)分類的準(zhǔn)確性,所用的核函數(shù)均是高斯核,結(jié)果表明有4類樣本的類間樣本用直線連接起來,另一類樣本間沒有連接??梢娔繕?biāo)軟件,各類之間的差別是微弱的,本實(shí)驗(yàn)算法把輸入空間的樣本映射到高維特征空間,實(shí)現(xiàn)了對(duì)軟件樣本在特征空間的優(yōu)化的目的。
參考文獻(xiàn)
[1] 黃鳳崗,宋克歐.模式識(shí)別[M].哈爾濱:哈爾濱工程大學(xué)出版社, 1998:79.
[2] 沈清,湯霖.模式識(shí)別導(dǎo)論[M].北京:國(guó)防科技大學(xué)出版社,1991:19.
作者簡(jiǎn)介
葛瑩(1983-),女,北京人;學(xué)歷:碩士,職稱:工程師,現(xiàn)就職單位:北京控制工程研究所,研究方向:空間網(wǎng)絡(luò)軟件。