王 俊, 高 煒
(1.云南師范大學(xué) 高等教育與區(qū)域發(fā)展研究院,云南 昆明 650500;2.云南師范大學(xué) 民族教育信息化教育部重點實驗室,云南昆明 650500;3.云南師范大學(xué) 信息學(xué)院,云南 昆明 650500)
民族信息資源一直以來都受到國家的重視。20世紀(jì)80年代,國家就組織開展過全國范圍內(nèi)的少數(shù)民族相關(guān)古籍文獻(xiàn)的搜集、整理和出版等工作。經(jīng)過幾十年的建設(shè)和發(fā)展,取得了卓越的成績,民族信息資源建設(shè)已經(jīng)具有一定的特色與規(guī)模,但是民族信息資源仍然沒有得到充分的開發(fā)和利用,使得某些民族文化、風(fēng)俗和宗教等民族信息資源面臨著傳承中斷、特色喪失的困境。
隨著改革開放的深入和城市化的發(fā)展,少數(shù)民族地區(qū)年輕人受城市化影響,放棄原有的民族生活方式和傳統(tǒng)職業(yè),外出工作并長期居住于大城市,他們的下一代出生于大城市,受大城市環(huán)境的熏陶,不愿再回原來的民族部落居住地。因此,西部少數(shù)民族地區(qū)出現(xiàn)文化斷層的現(xiàn)象,少數(shù)民族特有的語言、傳統(tǒng)禮儀、風(fēng)俗民情、傳統(tǒng)手工業(yè)等正在逐漸消失。因此,為了中國傳統(tǒng)文化的及時保護(hù)和傳承,構(gòu)建民族信息資源庫已被提上議事日程并成為迫在眉睫需要解決的問題。
筆者的貢獻(xiàn)在于利用語義網(wǎng)絡(luò)表示有關(guān)事實性知識之間的復(fù)雜聯(lián)系,并由此構(gòu)建各知識之間的聯(lián)系,并設(shè)計基于多元語義網(wǎng)絡(luò)的民族信息資源庫服務(wù)平臺原型系統(tǒng)。
語義網(wǎng)絡(luò)這一概念是1968年奎廉[1](J.R.Quillian)在研究中首先提出,當(dāng)時作為一個心理學(xué)模型,之后用作知識表示;1972年,西蒙[2](Simon)提出可以將語義網(wǎng)絡(luò)用于自然語言理解系統(tǒng);1975年,亨德里克[3](Hnedrix)提出分塊語義網(wǎng)絡(luò)的思想,把復(fù)雜問題分解為若干個簡單的子問題,每一個子問題用一個語義網(wǎng)絡(luò)表示,把自然語言理解的研究向前大大推進(jìn)了一步,使之具有廣闊的發(fā)展前景[4-5]。蔡鴻明[6]提出語義網(wǎng)絡(luò)是一種以網(wǎng)絡(luò)圖的形式表示人類知識構(gòu)造的知識表示方法,反映了實體之間的類比結(jié)構(gòu),能夠較好地表示事物的繼承和變異等概念,并采用分層語義網(wǎng)絡(luò)結(jié)構(gòu)提出了一種提高資源關(guān)聯(lián)性及利用率的資源庫系統(tǒng)模型。李躍新[7]在論文中提出語義網(wǎng)絡(luò)的關(guān)系模型,并用實例論述了語義網(wǎng)絡(luò)知識的關(guān)系數(shù)據(jù)表的存儲。榮月婷[8]在論文中提出用“搭配”、“詞族”、“同義詞”、“插圖”、“詞匯擴充”、“釋義”等方法進(jìn)行詞匯語義網(wǎng)絡(luò)構(gòu)建。其他基于語義網(wǎng)絡(luò)的相關(guān)研究可參見文獻(xiàn)[9-12]。
語義網(wǎng)絡(luò)既可以表示事實性的知識,也可以表示有關(guān)事實性知識之間的聯(lián)系。
1.1.1 表示事實
圖1 語義網(wǎng)絡(luò)表示事實
如圖1所示,該語義網(wǎng)絡(luò)表示了木鼓舞和蘆笙舞都是一種舞蹈,并且分別指出他們所具有的屬性。其中節(jié)點表示一個事實性的知識,弧表示上下級關(guān)系,如木鼓舞和蘆笙舞都是舞蹈的下級,橫線表示節(jié)點的屬性,如舞蹈的屬性有表演和娛樂,木鼓舞表演需要木鼓,蘆笙舞表演需要蘆笙等。
語義網(wǎng)絡(luò)的屬性具有繼承的特點,語義網(wǎng)絡(luò)的下層可以繼承語義網(wǎng)絡(luò)上層的屬性,在此特點下,可以在語義網(wǎng)絡(luò)下層中找出其單獨的屬性。語義網(wǎng)絡(luò)的下層中也可以對它的上層的屬性進(jìn)行細(xì)化和補充,使它能更準(zhǔn)確地反映語義網(wǎng)絡(luò)下層的特征。
1.1.2 表示有關(guān)事實之間的聯(lián)系
語義網(wǎng)絡(luò)可以描述事物間多種復(fù)雜的語義關(guān)系,主要有以下幾種:(1)分類關(guān)系,如“是一種”;(2)聚集關(guān)系,如“一方面”、“一部分”;(3)推論關(guān)系;(4)時間、位置關(guān)系;(5)多元關(guān)系。
在語義網(wǎng)絡(luò)中,一條弧只能從一個節(jié)點指向另一個節(jié)點,適合表示一個二元關(guān)系。但是多數(shù)情況下需要用一種關(guān)系把幾個事務(wù)聯(lián)系起來。為了表示語義網(wǎng)絡(luò)中描述的多元關(guān)系,可以用節(jié)點來表示關(guān)系。如圖2所示,楚雄彝族自治州位于昆明和大理白族自治州之間。
圖2 用節(jié)點來表示多元關(guān)系
1.1.3 用語義網(wǎng)絡(luò)表示比較復(fù)雜的知識(多元語義網(wǎng)絡(luò)的表示)
假設(shè)有如下兩個事實,需要把這兩個事實用語義網(wǎng)絡(luò)描述出來:張三是白族,傳統(tǒng)的服飾主要以白色為主;李四是佤族,傳統(tǒng)的服飾主要以黑色和紅色為主。
以上兩個事實,如果寫成兩個語義網(wǎng)絡(luò)很容易,但是對知識的利用不方便。分析發(fā)現(xiàn),它們都是關(guān)于服飾的,因此,只要把服飾作為一個通用概念用一個節(jié)點表示,而把兩種不同的服飾作為實例,就可以用一個語義網(wǎng)絡(luò)把他們表示出來,如圖3所示。當(dāng)需要尋找有關(guān)服飾信息時,只要首先找到服飾這個節(jié)點就可以了。
圖3 多元語義網(wǎng)絡(luò)表示多個事實
利用二元關(guān)系模型,可描述語義網(wǎng)中的起始節(jié)點和終止節(jié)點之間的關(guān)系:
Initial Node(ID,Title,Index)
TerminalNode(ID,Title,Attribute,Relationship)
Initial Node是語義網(wǎng)中的起始節(jié)點,它的屬性分別為ID起始節(jié)點編號,Title起始節(jié)點標(biāo)題,Index起始節(jié)點序號。TerminalNode是語義網(wǎng)中的終止節(jié)點,它的屬性分別為ID終止節(jié)點編號,Title終止節(jié)點標(biāo)題,Attribute兩個節(jié)點之間的關(guān)系,Relationship兩個節(jié)點之間關(guān)系的值。把兩組節(jié)點構(gòu)建一個二維矩陣,Initial Node作為行元素,TerminalNode為列元素,Attribute做為元素的值。
由此可見,節(jié)點之間的連接是二元關(guān)系,語義網(wǎng)絡(luò)從某種意義上只能表示二元關(guān)系,如果所要表示的事實是多元關(guān)系,需要把這個多元關(guān)系先轉(zhuǎn)化成一系列二元關(guān)系的組合。例如,多元關(guān)系R(X1,X2,…,Xn)可以轉(zhuǎn)換成 R1(X11,X12)∧R2(X21,X22)∧…∧Rn(Xn1,Xn2)。
在民族信息資源庫中,不僅有知識概念所形成的二元關(guān)系,還存在著擁有幾種不同語義關(guān)系的框架間的多元關(guān)系。民族信息資源庫記錄了知識概念有關(guān)層級、總分、參見、域、起始及因果關(guān)系的信息。標(biāo)注這些關(guān)系是建民族信息資源庫的一項重要工作。
利用知識元的方式把所有民族信息資源進(jìn)行分類存儲,并進(jìn)行統(tǒng)一管理。在此基礎(chǔ)上,利用多元語義網(wǎng)絡(luò)建立各知識之間的聯(lián)系,以便于后期進(jìn)行更精確的民族信息資源檢索。比如牛頭和佤族的關(guān)系,如果對佤族沒有了解的讀者想不到他們之間的聯(lián)系,即使計算機根據(jù)檢索的關(guān)鍵詞、近義詞、各語言之間的翻譯等相關(guān)技術(shù)都無法檢索出相關(guān)的信息,如果利用語義網(wǎng)絡(luò)的方式建立起各知識之間的關(guān)系,檢索時就可以把相關(guān)知識檢索出,為讀者提供更好的服務(wù)。知識之間的聯(lián)系多種多樣,各個知識之間的聯(lián)系不止一層,故使用多元語義網(wǎng)絡(luò)對各個知識進(jìn)行聯(lián)系。
根據(jù)以上分析,基于多元語義網(wǎng)絡(luò)的民族信息資源庫設(shè)計結(jié)構(gòu)如圖4所示。
圖4 知識元集合中知識元聯(lián)系及知識元描述資源
根據(jù)以上關(guān)系設(shè)計知識元之間聯(lián)系的數(shù)據(jù)結(jié)構(gòu)見表1。
表1 知識元關(guān)系數(shù)據(jù)結(jié)構(gòu)設(shè)計
假設(shè)剽牛的知識元ID為100001,拉木鼓的知識元ID為200001,兩個知識之間的聯(lián)系見表2。
表2 知識元關(guān)系在數(shù)據(jù)庫中表示
隨著知識元及其關(guān)系的不斷充實完善,即可根據(jù)某個知識元得出有聯(lián)系的知識元,形成知識元網(wǎng)絡(luò),從多方面為研究者和學(xué)習(xí)者提供幫助。
應(yīng)用以上研究的理論與方法,設(shè)計了基于多元語義網(wǎng)絡(luò)的民族信息資源庫服務(wù)平臺原型系統(tǒng)。該平臺采用Visual Studio 2015搭建的ASP.NET(C#)開發(fā)平臺,運用.NET+SQL Server+AJAX等技術(shù)?;诙嘣Z義網(wǎng)絡(luò)的民族信息資源庫服務(wù)平臺原型系統(tǒng)邏輯結(jié)構(gòu)包括資源層、知識層、管理層和服務(wù)應(yīng)用層[13-14]。
資源層將現(xiàn)有的信息系統(tǒng)平臺、信息資源及網(wǎng)絡(luò)資源進(jìn)行整合,并對資源進(jìn)行轉(zhuǎn)換,得到統(tǒng)一的資源體系(文字、圖像、聲音、視頻、動畫)并進(jìn)行統(tǒng)一管理。
知識層將現(xiàn)有資源中的知識提取出來,并用標(biāo)準(zhǔn)的描述方式進(jìn)行描述,把相關(guān)聯(lián)的知識聯(lián)系起來。
管理層功能是統(tǒng)一管理資源層、知識層和服務(wù)應(yīng)用層中的用戶、資源、知識、關(guān)系、服務(wù)和應(yīng)用。
服務(wù)應(yīng)用層將資源的獲取、處理、計算和管理等方法封裝成為標(biāo)準(zhǔn)化的服務(wù)接口,并通過不同的應(yīng)用,如網(wǎng)站、移動APP、微信等平臺對民族信息進(jìn)行共享與服務(wù)[15]?;诙嘣Z義網(wǎng)絡(luò)的民族信息資源庫服務(wù)平臺原型系統(tǒng)結(jié)構(gòu)如圖5所示。
圖5 基于多元語義網(wǎng)絡(luò)的民族信息資源庫服務(wù)平臺原型系統(tǒng)結(jié)構(gòu)圖
文中,筆者運用多元語義網(wǎng)絡(luò)的知識表示方法表示民族信息資源中的相關(guān)知識,在此基礎(chǔ)上設(shè)計民族信息資源庫,利用語義網(wǎng)絡(luò)為各個知識之間建立了聯(lián)系,并進(jìn)行了服務(wù)平臺的設(shè)計。在未來的工作中將要繼續(xù)收集整理更多的民族信息資源到民族信息資源庫中,并記錄相關(guān)的數(shù)據(jù),以便進(jìn)行更深層次的研究。