劉旭
91033部隊 山東 青島 266000
隨著通信技術(shù)的發(fā)展以及裝設(shè)備的不斷升級提升,通信技術(shù)及裝設(shè)備參數(shù)數(shù)據(jù)量不斷增大。大量的數(shù)據(jù)分布式存儲加大了交換與共享的難度。通過對實驗數(shù)據(jù)進行研究發(fā)現(xiàn),95%以上的數(shù)據(jù)都是以Word文檔或Excel文檔的格式進行保存,再將其手動錄入到知識共享系統(tǒng)中,重復(fù)性的錄入工作極大地增大了實驗人員的工作量,因此自動化的數(shù)據(jù)轉(zhuǎn)儲工作迫在眉睫。
通信知識共享系統(tǒng)提供了一個允許多人并行式協(xié)作的平臺。用戶可以自行決定內(nèi)容的相關(guān)性,自由進行創(chuàng)建、修改、刪除等操作。它可以用來當(dāng)作百科全書、字典、術(shù)語表或者內(nèi)部的CMS(Content Management System)平臺等。
目前,系統(tǒng)中以文本為載體的信息尤其豐富,通過關(guān)鍵字Category對頁面進行分類,將在頁面底部自動創(chuàng)建指向分類頁面的鏈接,從而可以方便有效地查看其父類的相關(guān)文檔。將一個頁面歸入分類,只需在編輯時在底部增加“[[Category:分類名稱]]”。知識共享系統(tǒng)的每一個條目都屬于至少一個類別,而一個類別又可以同時對應(yīng)多個條目,具有清晰的類層次結(jié)構(gòu)。
知識共享系統(tǒng)定義了固定的XML格式,任何輸入到系統(tǒng)的條目除了手動輸入外,都可以轉(zhuǎn)儲成該格式從而實現(xiàn)自動導(dǎo)入。條目(page)組成知識共享系統(tǒng)XML文件中最基本核心的組成單位,一個條目代表一個基本頁面。知識共享系統(tǒng)XML文件中條目的組織結(jié)構(gòu)設(shè)計如下:
Word和Excel文檔的標準化技術(shù)目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可導(dǎo)出結(jié)構(gòu)清晰的XML文件[1]。XML Schema文檔完全符合XML語法規(guī)范,它的后綴名是xsd。
Excel文檔標準化之后的XML文檔如下:
兩級映射就是把Word和Excel文檔標準化之后的XML文檔通過Java算法實現(xiàn)向知識共享系統(tǒng)XML文檔的初步轉(zhuǎn)化[2]。因為數(shù)據(jù)源的不同,把兩級映射分為兩個部分,第一部分是Word文檔的標準XML結(jié)構(gòu)到知識共享系統(tǒng)XML文檔的映射,第二部分是Excel文檔的標準XML結(jié)構(gòu)到知識共享系統(tǒng)XML文檔的映射。在轉(zhuǎn)換過程中,暫且不考慮
3.1.1 Word標準XML文件的映射。通過研究Word轉(zhuǎn)換的標準XML文檔結(jié)構(gòu),我們可以知道,其XML文件標簽中根標簽下的
3.1.2 Excel標準XML文件的映射。分析Excel標準XML文件,根節(jié)點下的
頁面融合僅涉及Excel文檔的標準XML文檔到知識共享系統(tǒng)XML文檔的映射。因為Excel文檔中,會存在一種問題,即總類、分類和術(shù)語關(guān)鍵字完全相同,只有下屬不同,如“信道—無線信道—電磁波—地波傳播”和“信道—無線信道—電磁波—天波傳播”,這兩條信息在標準XML文件中是作為兩個page存在的,但在實際的知識共享系統(tǒng)中,應(yīng)該是一個title為“電磁波”,text為“地波傳播、天波傳播”的頁面。所以在轉(zhuǎn)化的過程中,就需要把category、title均相同頁面進行融合[3]。
這兩個page標簽下的category和title如果都相同,則把這兩個頁面合并為一個頁面,合并后的系統(tǒng)XML文檔中的對應(yīng)關(guān)系仍舊滿足上一節(jié)兩級映射的算法,即源頁面的title標簽仍舊對應(yīng)目標頁面的title標簽,category標簽仍以[[category:××]]的形式放入
將完成兩級映射和頁面融合之后形成的知識分享系統(tǒng)XML文檔導(dǎo)入系統(tǒng)內(nèi),可自動生成知識相關(guān)頁面以及分類關(guān)系,導(dǎo)入效果和手工錄取無差別,且錯誤率明顯下降。
通過本文設(shè)計的兩級映射、頁面融合實現(xiàn)Word和Excel文檔形成的標準XML文件到通信知識共享系統(tǒng)XML文件的轉(zhuǎn)換,從而完成通信數(shù)據(jù)的轉(zhuǎn)儲,可取代手動錄入系統(tǒng)的操作,但由于Word和Excel文檔標準化的過程中,仍需要一定量的手動映射,因此還未實現(xiàn)完全的自動化,今后可以規(guī)范Word和Excel文檔中所有的文本信息和數(shù)據(jù)資源,使其在文檔中的位置相對固定,這樣人工判斷操作就變得不再是必需的,可以進一步減少時間的耗費。