●孫凌云(廣東工業(yè)大學(xué) 圖書館, 廣州 510090)
知識(shí)組織系統(tǒng),如分類法、詞表、詞匯數(shù)據(jù)庫(kù)、本體、敘詞表都旨在揭示某一領(lǐng)域的潛在語(yǔ)義結(jié)構(gòu)?,F(xiàn)代的數(shù)字化信息系統(tǒng)提供了比傳統(tǒng)的物理圖書館更多的映射方法和信息選擇次序。數(shù)字化環(huán)境使得從復(fù)雜情景中揭示信息的可能性更大。因此,我們?cè)趶?fù)雜的、跨學(xué)科的知識(shí)領(lǐng)域開(kāi)發(fā)對(duì)于終端用戶操作有用且有意義的知識(shí)組織系統(tǒng)所面對(duì)的技術(shù)和智力上的挑戰(zhàn)同樣巨大。使用相應(yīng)的工具來(lái)輔助利用信息資源,進(jìn)行信息資源的組織和檢索,正是網(wǎng)絡(luò)環(huán)境下知識(shí)組織系統(tǒng)的主要應(yīng)用方向。一方面網(wǎng)絡(luò)知識(shí)組織系統(tǒng)是傳統(tǒng)知識(shí)組織系統(tǒng)的重要組成部分與分支;另一方面網(wǎng)絡(luò)知識(shí)組織系統(tǒng)超越了傳統(tǒng)的知識(shí)組織系統(tǒng),是其未來(lái)發(fā)展方向。
知識(shí)組織系統(tǒng) (knowledge organization systems,簡(jiǎn)稱KOS)是我們用來(lái)定義并組織表述真實(shí)世界物體的術(shù)語(yǔ)和符號(hào)的系統(tǒng),在具體應(yīng)用中我們往往將它們泛指為語(yǔ)義工具。不論KOS是以什么形式出現(xiàn),其基本方法都是相同的,不同的是采用這些方法的程度和范圍。KOS的應(yīng)用經(jīng)歷了四個(gè)階段:查尋、查尋加瀏覽、分面加多維、檢索中加入屬性特征。
隨著現(xiàn)代信息技術(shù)和數(shù)字化資源的迅猛發(fā)展,網(wǎng)絡(luò)環(huán)境下KOS(netwo rkedkn owl edgeor gan izat ions ystems,簡(jiǎn)稱NKOS)呈現(xiàn)出新的特點(diǎn):① 吸取不同知識(shí)組織系統(tǒng)的特長(zhǎng),集中起來(lái)優(yōu)化使用;② 等級(jí)結(jié)構(gòu)與元數(shù)據(jù)式的“特征”結(jié)合;③ KOS、元數(shù)據(jù)與專用置標(biāo)語(yǔ)言的結(jié)合使用;④ 多個(gè)知識(shí)組織系統(tǒng)結(jié)構(gòu)在學(xué)習(xí)科學(xué)概念中的結(jié)合使用;⑤ 對(duì)計(jì)算機(jī)可理解性的強(qiáng)調(diào);⑥ 可視化與傳統(tǒng)形式的結(jié)合使用。網(wǎng)絡(luò)環(huán)境下的KOS(NKOS)正在從機(jī)器可讀走向機(jī)器可理解。
Gail.Hdege將NKOS分為術(shù)語(yǔ)列表、分類法和關(guān)系列表。術(shù)語(yǔ)列表,包含一系列有完整定義的術(shù)語(yǔ),通常不包括術(shù)語(yǔ)之間的關(guān)系,如規(guī)范檔、術(shù)語(yǔ)表、字典、地名詞表等;分類法,強(qiáng)調(diào)關(guān)于主題的集合的創(chuàng)建,對(duì)術(shù)語(yǔ)之間的關(guān)系揭示著重于屬分關(guān)系,一般是樹(shù)形結(jié)構(gòu)的,如標(biāo)題詞表、分類法、專類分類法、類目結(jié)構(gòu)等;關(guān)系列表,強(qiáng)調(diào)術(shù)語(yǔ)及其之間的多方面描述,術(shù)語(yǔ)之間關(guān)系的揭示不僅僅局限于用、代、屬、分參等關(guān)系,還可以包括整體部分關(guān)系、蘊(yùn)涵關(guān)系等多種復(fù)雜的關(guān)系,一般是網(wǎng)狀結(jié)構(gòu)的,如敘詞表、語(yǔ)義網(wǎng)絡(luò)和本體等。[1]下圖所示為目前較為認(rèn)同的NKOS分類體系。
圖 知識(shí)組織系統(tǒng)結(jié)構(gòu)
NKOS的表示是NKOS體現(xiàn)其價(jià)值與作用的基礎(chǔ),如果無(wú)法以恰當(dāng)?shù)姆绞奖磉_(dá)NKOS,就無(wú)法對(duì)其進(jìn)行有效利用。因此將NKOS所描述的概念、概念間的關(guān)系和知識(shí)結(jié)構(gòu)以機(jī)器可理解的形式表示出來(lái)是NKOS要解決的首要問(wèn)題。NKOS發(fā)展前期是KOS的電子化,包括KOS的MARC描述和數(shù)據(jù)庫(kù)化,用數(shù)據(jù)庫(kù)存儲(chǔ)和表示便利了對(duì)KOS的管理和訪問(wèn)。隨著web網(wǎng)的普及,實(shí)現(xiàn)了用HTML網(wǎng)頁(yè)提供基本的瀏覽和查詢功能。KOS用HTML表示,不同KOS在體例上、結(jié)構(gòu)上、內(nèi)容上的異構(gòu)性依然存在,不便于計(jì)算機(jī)的自動(dòng)處理和利用。由于NKOS是基于網(wǎng)絡(luò)的,而語(yǔ)義web的基礎(chǔ)語(yǔ)言是XML,為了保障兼容性,合適的NKOS表示語(yǔ)言應(yīng)當(dāng)是基于XML的。
在基于XML的語(yǔ)言體系中,SKOS是一種新興的NKOS表示語(yǔ)言。SKOS是W3C于2004年發(fā)布的作為受控詞表乃至概念框架表示的語(yǔ)言標(biāo)準(zhǔn),目前尚處于發(fā)展階段,但它的簡(jiǎn)潔、通用、易擴(kuò)展、與語(yǔ)義web和傳統(tǒng)圖書館學(xué)情報(bào)學(xué)聯(lián)系緊密等特點(diǎn),已逐漸引起人們的重視。目前國(guó)內(nèi)詳細(xì)介紹SKOS的文章很少。SKOS包括三個(gè)主要部分:核心集(SKOS Core),用于表示除Ontology外的幾乎所有其他NKOS;映射(SKOS Mapping),用于概念框架之間的映射;擴(kuò)展(SKOS Extensions),用于輔助SKOS的特定應(yīng)用。其中SKOS Core比較成熟,已經(jīng)形成了相應(yīng)的語(yǔ)法標(biāo)準(zhǔn)和應(yīng)用標(biāo)準(zhǔn),而后兩者還處于發(fā)展階段。[2]
從JCDL、ECDL、DCMA歷次會(huì)議NKOS研究主題可以看出,2002年之前敘詞表、分類和元數(shù)據(jù)是討論的重點(diǎn),2002年之后,本體、語(yǔ)義網(wǎng)、互操作、標(biāo)準(zhǔn)/協(xié)議、主題地圖、系統(tǒng)管理和服務(wù)成為NKOS研究的熱點(diǎn)。[3]目前NKOS研究熱衷于技術(shù),其技術(shù)研究與實(shí)踐聯(lián)系非常緊密,幾乎每次的NKOS分會(huì)討論中都有相關(guān)技術(shù)的應(yīng)用實(shí)例報(bào)告,并且均是當(dāng)前項(xiàng)目的最新進(jìn)展。目前,世界范圍內(nèi)有很多已建成或在建的NKOS項(xiàng)目。
互操作主要是為解決多語(yǔ)言映射和異構(gòu)系統(tǒng)的問(wèn)題。語(yǔ)言障礙和異構(gòu)系統(tǒng)是用戶利用知識(shí)信息的最大障礙。因此,互操作成為NKOS重點(diǎn)研究的一項(xiàng)技術(shù)。
Marcia Lei Zeng和Lois Mai Chan兩位學(xué)者總結(jié)了KOS互操作的8種實(shí)現(xiàn)方式:繼承/仿建,以現(xiàn)有的復(fù)雜的詞表為原型,創(chuàng)建專業(yè)的或簡(jiǎn)單的詞表;翻譯/改編,從其他語(yǔ)言的詞表翻譯、改編形成自己的詞表;衛(wèi)星子表,對(duì)現(xiàn)有詞表的某個(gè)主題進(jìn)行擴(kuò)展,形成新的子表,稱為原表的衛(wèi)星;直接映射,直接在不同KOS的詞語(yǔ)之間或者詞語(yǔ)與分類號(hào)之間建立等價(jià)關(guān)系;共現(xiàn)映射,通過(guò)KOS詞語(yǔ)在元數(shù)據(jù)記錄中的共現(xiàn)關(guān)系建立術(shù)語(yǔ)間的映射;中心轉(zhuǎn)換,將參與互操作的多個(gè)KOS映射到一個(gè)共同選定的中心KOS上,兩個(gè)KOS之間的互操作可以通過(guò)中心KOS的轉(zhuǎn)換實(shí)現(xiàn);臨時(shí)列表,根據(jù)查詢?cè)~臨時(shí)從不同的KOS提取相匹配的對(duì)象,組建臨時(shí)對(duì)應(yīng)列表;協(xié)議連接,通過(guò)建立KOS服務(wù)協(xié)議供其他應(yīng)用程序訪問(wèn),創(chuàng)建連接環(huán)境,實(shí)現(xiàn)KOS 的互操作。[4]
對(duì)于獨(dú)立創(chuàng)建的KOS,映射和協(xié)議是實(shí)現(xiàn)KOS互操作的主要方式。在參與互操作的KOS比較明確時(shí),映射方式比較適用。而在參與互操作的KOS并不明確時(shí),協(xié)議方式較為合適。臨時(shí)列表是基于對(duì)查詢提問(wèn)的字面匹配的,互操作的效率和準(zhǔn)確性不是很高,但實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單??梢?jiàn),各種互操作方式有其各自的特點(diǎn)和適用范圍,在具體的信息資源共享活動(dòng)中需要從實(shí)際出發(fā)選擇合適的方式。
Z39.19是關(guān)于詞匯控制工具最主要的標(biāo)準(zhǔn)。它提供了單語(yǔ)種詞匯控制工具(包括同義詞環(huán)、專類類表和詞表等)的內(nèi)容、顯示、構(gòu)建、維護(hù)和管理等方面的原則和規(guī)范,充分考慮了標(biāo)引非傳統(tǒng)紙質(zhì)文獻(xiàn)的要求,也提出了在網(wǎng)絡(luò)環(huán)境下的顯示要求。BS5723是英國(guó)制定的關(guān)于單語(yǔ)言詞表的標(biāo)準(zhǔn),頒布于1987年。2005年發(fā)布的《BS8723:用于信息檢索的結(jié)構(gòu)化詞匯》全面取代了BS5723。BS8723共有5個(gè)部分,其中第1、2部分已于2005年出版,第3、4部分于2007年出版,第5部分尚在擬定中。越來(lái)越受到關(guān)注的ISO NP 25964(全稱是Structured vocabularies for information retrieval),即用于信息檢索的結(jié)構(gòu)化詞匯,其主要內(nèi)容就是源于BS8723協(xié)議。
W3C在參考了多種現(xiàn)存的KOS標(biāo)準(zhǔn)后于2004年發(fā)布SKOS推薦標(biāo)準(zhǔn),它是一個(gè)基于語(yǔ)義網(wǎng)技術(shù)表示受控詞表及其它知識(shí)工具的概念框架。SKOS是歐洲學(xué)者提出的,他們大力研究并積極推廣,但是北美學(xué)者對(duì)此似乎反應(yīng)冷淡,這不知是由于學(xué)術(shù)背景的差異還是歐美的學(xué)術(shù)對(duì)峙。鑒于W3C在網(wǎng)絡(luò)語(yǔ)言標(biāo)準(zhǔn)化方面的權(quán)威地位,SKOS盡管還是一個(gè)推薦標(biāo)準(zhǔn),但已經(jīng)被用于若干大型詞表的表示,包括歐洲的多語(yǔ)言環(huán)境詞表GEMET、英國(guó)的檔案詞表UKAT、澳大利亞公共事務(wù)信息服務(wù)詞表APAIS等。北京大學(xué)信息管理系KVision研究小組采用SKOS描述了中國(guó)分類主題詞表的一個(gè)片斷,并基于此實(shí)現(xiàn)了一個(gè)語(yǔ)義檢索系統(tǒng)。
3.3.1 信息檢索
多年以來(lái),只有接受過(guò)訓(xùn)練的編目及標(biāo)引人員會(huì)使用KOS進(jìn)行標(biāo)引,生產(chǎn)相應(yīng)的服務(wù)產(chǎn)品。KOS的用戶大多是圖書館員及其他專業(yè)檢索者,但是近年來(lái),由于電子數(shù)據(jù)和電子出版物的激增,以及對(duì)信息檢索困難的關(guān)注,人們對(duì)專業(yè)人員和最終用戶都能使用的KOS 重新產(chǎn)生了興趣。[5]
EdwardT.O’Neill博士和麥麟屏教授提出對(duì)《美國(guó)國(guó)會(huì)圖書館主題詞表(LCSH)》的應(yīng)用改造,在網(wǎng)絡(luò)環(huán)境下要求KOS具有簡(jiǎn)單易用性。Edward T.O’Neill博士和麥麟屏教授的文章介紹了由他們主要負(fù)責(zé)、OCLC牽頭、有美國(guó)國(guó)會(huì)圖書館(LC)和美國(guó)圖書館學(xué)會(huì)(ALA)圖書館館藏與技術(shù)服務(wù)協(xié)會(huì)/主題分析委員會(huì)ALCTS/SAC參與的《FAST(主題詞匯的分面式應(yīng)用)》項(xiàng)目的工作成果是一個(gè)建立在LCSH的術(shù)語(yǔ)和關(guān)系上、在結(jié)構(gòu)上趨向于后組配、句法簡(jiǎn)單的、用于處理數(shù)字化資源的詞匯表。隨著FAST在2003年年底的正式推廣,處理網(wǎng)絡(luò)資源的工作從此有了可靠的、規(guī)模龐大的、綜合的主題詞匯表,而對(duì)這個(gè)詞匯表的管理工作量又是微乎其微的,基本上是全自動(dòng)化的,這種簡(jiǎn)單易用的工具將被大批從未受過(guò)圖書館學(xué)專業(yè)技能訓(xùn)練的人所使用。FAST的意義在于它對(duì)傳統(tǒng)知識(shí)組織系統(tǒng)工具的開(kāi)發(fā)、改造、利用,并投身于對(duì)新的網(wǎng)絡(luò)環(huán)境的服務(wù)義務(wù)之中,其影響將是巨大的。
3.3.2 術(shù)語(yǔ)服務(wù)和詞匯注冊(cè)
術(shù)語(yǔ)服務(wù)。通過(guò)Web服務(wù)技術(shù)在網(wǎng)絡(luò)上提供分布式的詞匯服務(wù)是目前NKOS服務(wù)的一種主要形式。已提供這類服務(wù)的詞表有:AGROVOC、AAT、CSA/NBII生物復(fù)雜性詞表(Biocom plexity Thesaurus)、美國(guó)國(guó)家農(nóng)業(yè)詞表(NAL)、亞歷山大數(shù)字圖書館項(xiàng)目(ADL)中的地名表協(xié)議等。
詞匯注冊(cè)服務(wù)?!胺诸惙▊}(cāng)庫(kù)”(Taxonomy Warehouse) 站點(diǎn)提供KOS的注冊(cè)服務(wù),任何機(jī)構(gòu)都可以將自己創(chuàng)建的KOS提交到該站點(diǎn)注冊(cè)。目前在該站點(diǎn)登記在冊(cè)的KOS多達(dá)660個(gè)。類似的項(xiàng)目還有:Becta Terminology Studio,HILT Terminoloyg Service,XMDR Extended Metadata Registry,NSDL Metadata Registry等。詞匯注冊(cè)服務(wù)可以作為數(shù)字圖書館體系結(jié)構(gòu)中的一個(gè)關(guān)鍵組件來(lái)實(shí)現(xiàn),它的主要功能有:登記和管理創(chuàng)建者提交的各類NKOS;發(fā)布和發(fā)現(xiàn)關(guān)于術(shù)語(yǔ)的信息;證實(shí)術(shù)語(yǔ)的真實(shí)性和狀態(tài);發(fā)現(xiàn)術(shù)語(yǔ)間的關(guān)系;支持推理、映射等功能;提供對(duì)相關(guān)資源的導(dǎo)航;促進(jìn)不同控制詞匯系統(tǒng)間的互操作等。詞匯注冊(cè)服務(wù)要求采用開(kāi)放標(biāo)準(zhǔn)和通用結(jié)構(gòu)(如Zthes,SKOS,MARC等)描述登記在案的KOS,它還可以提供編程接口,同時(shí)向用戶和職能代理提供服務(wù)。
3.3.3 其他應(yīng)用
出版商采用電子排版系統(tǒng)開(kāi)發(fā)其出版物的文摘和索引服務(wù)產(chǎn)品。大型的期刊出版商,如Elsevier建立了它們自己的可提供書目記錄的系統(tǒng),且書目記錄能夠連接到文獻(xiàn)全文。隨著在線電子期刊內(nèi)容的增長(zhǎng),人們?cè)絹?lái)越需要系統(tǒng)由單純提供目次和期刊卷期瀏覽,轉(zhuǎn)變?yōu)橹С秩臋z索和KOS檢索。電子期刊產(chǎn)生了附屬的KOS,特別是分類表。例如,Elsevier的網(wǎng)站提供主題分類表,為該網(wǎng)站2000多個(gè)子網(wǎng)站提供檢索入口。
商業(yè)領(lǐng)域應(yīng)用規(guī)范檔和分類表。例如美國(guó)應(yīng)用在采購(gòu)和政府統(tǒng)計(jì)中的《標(biāo)準(zhǔn)工業(yè)分類表》(SIC)和《北美工業(yè)分類表》(NAICS);疾病與治療方案一一對(duì)應(yīng)的疾病碼在醫(yī)生、醫(yī)院和保險(xiǎn)公司中使用。越來(lái)越多的組織機(jī)構(gòu)建立網(wǎng)站后,將創(chuàng)建附屬的KOS,以支持其運(yùn)作。
團(tuán)體機(jī)構(gòu)是KOS最大的創(chuàng)造者和使用者。企業(yè)內(nèi)網(wǎng)和知識(shí)管理系統(tǒng)的創(chuàng)建者已經(jīng)發(fā)現(xiàn)了數(shù)百種專門的分類表、術(shù)語(yǔ)表以及其他在組織內(nèi)使用的詞表,其中很多都是為特定任務(wù)創(chuàng)建的,其適用的主題領(lǐng)域及目標(biāo)用戶都比較窄,但是對(duì)這些用戶來(lái)說(shuō),它們?nèi)允秦S富的情報(bào)資源。例如,美國(guó)能源部(DOE)的環(huán)境管理科學(xué)計(jì)劃(EMSP) 和科學(xué)技術(shù)信息辦公室創(chuàng)建數(shù)字圖書館為EMSP的管理者提供支持。研究人員編制了“需求范疇表”和“科學(xué)范疇表”來(lái)組織環(huán)境科學(xué)網(wǎng)(ESN)。ESN利用這些分類表為DOE內(nèi)部的其他相關(guān)資料及來(lái)自美國(guó)環(huán)境保護(hù)署(EPA)、美國(guó)航空航天總署(NASA) 分布數(shù)據(jù)庫(kù)的相關(guān)資料提供支持。圍繞這些分類表組織的詞表,將與網(wǎng)絡(luò)挖掘工具一起使用,將會(huì)為特定主題領(lǐng)域的計(jì)劃管理者提供更相關(guān)、更準(zhǔn)確的網(wǎng)絡(luò)資源。
NKOS代表了知識(shí)組織系統(tǒng)的發(fā)展方向:數(shù)字化、網(wǎng)絡(luò)化、語(yǔ)義化、協(xié)議化和自動(dòng)化,其技術(shù)、方法的廣泛應(yīng)用為知識(shí)組織系統(tǒng)的發(fā)展帶來(lái)了勃勃生機(jī)。NKOS除了為特定社群或用戶提供信息檢索的主要功能外,還能夠在促進(jìn)數(shù)字圖書館發(fā)展中發(fā)揮作用。在這方面還有很多實(shí)際的應(yīng)用性強(qiáng)的研究課題,如NKOS的半自動(dòng)構(gòu)件和維護(hù),NKOS輔助信息資源組織檢索,知識(shí)組織系統(tǒng)最前沿的發(fā)展——語(yǔ)義網(wǎng)(Semantic Web) 和實(shí)用分類系統(tǒng)(Ontologies)等。在研究技術(shù)的同時(shí),研究者必須關(guān)注最終用戶的需求,在以用戶為中心的基礎(chǔ)上研究開(kāi)發(fā)新技術(shù)。NKOS也將隨著技術(shù)的開(kāi)發(fā)和廣泛應(yīng)用而迅速發(fā)展。
[1] Gail H.Systems of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files[M].Waste mston:The Digital Library Federation,2003:4-7.
[2] Zeng ML,Lois Mai Chan.Trend and issues in establishing interoperability among knowledge organization systems[J].Jounralof American Societyfor Information Science and Technology(JASIST),2007,55(5):377-395.
[3]王一丁,王軍.網(wǎng)絡(luò)知識(shí)組織系統(tǒng)表示語(yǔ)言:SKOS[J].大學(xué)圖書館學(xué)報(bào),2007(4):30-35.
[4]司莉,等.知識(shí)組織系統(tǒng)在我國(guó)數(shù)字圖書館中的應(yīng)用及界面研究[J].情報(bào)科學(xué),2007(3):446-450.
[5]司莉,舒欣.國(guó)外網(wǎng)絡(luò)知識(shí)組織系統(tǒng)研究現(xiàn)狀與發(fā)展趨勢(shì)[J].圖書情報(bào)知識(shí),2008(9):82-85.