劉華梅(國家圖書館 北京 100081)
SKOS(Simple Knowledge Organization Systems,簡單知識(shí)組織系統(tǒng))是W3C語義網(wǎng)部署工作組制定的推薦標(biāo)準(zhǔn)。SKOS為知識(shí)組織系統(tǒng)(敘詞表、分類法、主題詞表、術(shù)語表等)提供了一套簡單、靈活、可擴(kuò)展、機(jī)器可理解的描述和轉(zhuǎn)換機(jī)制,目的是為了實(shí)現(xiàn)語義網(wǎng)環(huán)境下資源的共享和重用。
SKOS建立在RDF(Resource Description Framework,資源描述框架)基礎(chǔ)上,提供了表達(dá)各種知識(shí)組織系統(tǒng)基本結(jié)構(gòu)和內(nèi)容的通用模型,將知識(shí)組織系統(tǒng)的概念模式及語義關(guān)系表達(dá)為機(jī)器可理解的方式,還支持概念在萬維網(wǎng)上編輯和發(fā)布,支持概念與網(wǎng)絡(luò)上的數(shù)據(jù)相關(guān)聯(lián),還可以將概念集成到其他概念體系中[1]。通過SKOS描述,受控詞表中的詞匯對應(yīng)轉(zhuǎn)換為SKOS模型中的具體概念,并實(shí)現(xiàn)語義網(wǎng)與其他RDF數(shù)據(jù)的合并與融合,從而實(shí)現(xiàn)真正意義上的資源共享。對傳統(tǒng)知識(shí)組織系統(tǒng)進(jìn)行SKOS描述,不僅可以充分利用其現(xiàn)有成果,而且可以實(shí)現(xiàn)其與語義Web的良好結(jié)合。
根據(jù)2009年8月18日發(fā)布的《SKOS參考》 (SKOS Simple Knowledge Organization System Reference)及《SKOS初級讀本》(SKOS Simple Knowledge Organization System Primer),SKOS中的詞匯標(biāo)簽及其說明如表1所示。
《中國分類主題詞表》(以下簡稱《中分表》)是我國目前規(guī)模最大的分類主題一體化詞表,目前廣泛應(yīng)用于全國各類型圖書館和信息機(jī)構(gòu)的文獻(xiàn)標(biāo)引工作中,由國家圖書館《中國圖書館分類法》(以下簡稱《中圖法》)編輯委員會(huì)負(fù)責(zé)修訂維護(hù),2005年9月修訂并研制出版了《中分表》(第2版)電子版;2009年6月開通了《中分表》網(wǎng)絡(luò)版,用戶可在網(wǎng)站(http://cct.nlc.gov.cn)上登錄瀏覽、檢索。雖然《中分表》已推出了網(wǎng)絡(luò)版,但數(shù)據(jù)仍基于MARC(Machine Readable Catalogue,機(jī)器可讀目錄)格式,應(yīng)用面相對狹窄,還不能完全滿足網(wǎng)絡(luò)共享、交互發(fā)展的需求。而SKOS的提出,為各種傳統(tǒng)分類法、主題詞表提供了一套語義Web環(huán)境下簡單、靈活的描述和轉(zhuǎn)換機(jī)制,如果將《中分表》轉(zhuǎn)換成SKOS的描述形式,將方便其在網(wǎng)絡(luò)上的共享和重用,并可運(yùn)用到網(wǎng)絡(luò)信息檢索的各個(gè)環(huán)節(jié)和領(lǐng)域[2]。
表1 SKOS詞匯及其說明
目前,《中分表》主題詞是以MARC規(guī)范格式存儲(chǔ)和維護(hù)的,MARC格式中包含記錄控制號(hào)、記錄維護(hù)時(shí)間、主題詞、主題詞類型、英譯名、漢語拼音、注釋、分類號(hào)、入口詞、入口詞拼音、屬項(xiàng)詞、分項(xiàng)詞、參項(xiàng)詞、族項(xiàng)詞等信息,需要將所有這些信息用SKOS格式描述出來。以下筆者從《中分表》的宏觀結(jié)構(gòu)和主題詞微觀結(jié)構(gòu)兩個(gè)方面具體分析描述方案。
表2 《中分表》主題詞MARC格式各字段與SKOS詞匯的對應(yīng)關(guān)系
(1)《中分表》宏觀結(jié)構(gòu) 首先將《中分表》定義為一個(gè)主題概念體系(skos:ConceptScheme),所有主題詞和主題詞集合都在這個(gè)概念體系中,用“skos:inScheme”表示。其次,《中分表》將主題詞分為5種類型,分別是“200個(gè)人名稱主題”、“210團(tuán)體或會(huì)議名稱主題”、“215地理名稱主題”、“230統(tǒng)一題名主題”、“250普通學(xué)科主題”,這里我們定義5種主題概念集合(OrderedCollection)來聚集各種類型的主題詞,即“人名主題概念集合”、“團(tuán)體或會(huì)議名稱主題概念集合”、“地理名稱主題概念集合”、“統(tǒng)一題名主題概念集合”、“普通主題概念集合”,各種類型主題詞分別歸屬于對應(yīng)的集合,用“s k o s:memberList”表示。另外,將《中分表》中的族首詞定義為詞表的頂層概念,用“skos:hasTopConcept”表示《中分表》所包含的族首詞。
(2)主題詞微觀結(jié)構(gòu)① 記錄控制號(hào):《中分表》包括12余萬正式主題詞,這些詞都有唯一的記錄控制號(hào)(001字段,Sxxxxxx),我們將所有主題詞定義為概念(skos:Concept),將記錄控制號(hào)轉(zhuǎn)化成HTTP協(xié)議下的URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符),作為概念的唯一標(biāo)識(shí),如http://cct.nlc.gov.cn/Subject/S100084#concept。② 主題詞相關(guān)信息:《中分表》主題詞用MARC的2--字段表示,轉(zhuǎn)換為SKOS用語詞標(biāo)簽屬性“skos:prefLabel”表示。主題詞款目中所有英譯名(4--字段的$8eng子字段)、漢語拼音(2--字段的$7ba$a子字段)都可以相應(yīng)地用“skos:altLabel”加語種代碼來表示。主題詞注釋都用330字段,未加以區(qū)分,所以都用“skos:scopeNote”來表示。主題詞對應(yīng)的《中圖法》分類號(hào)在690字段,且不同指示符表示不同的對應(yīng)方式(主要類號(hào)、次要類號(hào)、交替類號(hào)),此處只能簡化處理,只用“skos:notation”表示對應(yīng)的分類號(hào),不區(qū)分對應(yīng)方式。③ 入口詞:《中分表》包括4萬多入口詞及對應(yīng)漢語拼音,如果不加區(qū)分地歸入“skos:altLabel”屬性里,就會(huì)打亂入口詞同它的拼音之間的一一對應(yīng)關(guān)系,所以我們對入口詞進(jìn)行了特殊處理和單獨(dú)描述,用“skosxl”擴(kuò)展標(biāo)簽來表示,利用程序?yàn)樗腥肟谠~自動(dòng)賦予記錄控制號(hào)(Dxxxxxx),生成入口詞的URI標(biāo)識(shí),用“skosxl:Label”表示URI,用“skosxl:literalForm”表示入口詞,另外,還使用了自定義的擴(kuò)展標(biāo)簽“cct:transliteration”,用于表示入口詞的漢語拼音。④ 參照關(guān)系:《中分表》中主題詞之間通過C(參)、S(屬)、F(分)、Z(族)4種關(guān)系相聯(lián)系,在MARC格式中是由5--字段及相應(yīng)子字段表示的。5--字段的$5k子字段表示C(參)關(guān)系,可轉(zhuǎn)換為“skos:related”屬性;5--字段的$5g子字段表示S(屬)關(guān)系,可轉(zhuǎn)換為“skos: broaderTransitive”屬性;5--字段的$5h子字段表示F(分)關(guān)系,可轉(zhuǎn)換為“skos:narrowerTransitive”屬性。因?yàn)椤吨蟹直怼返闹黝}詞概念具有傳遞性,選用“Transitive”屬性表示概念間的上、下位關(guān)系,各級上位詞、族首詞、下位詞都可以推理得出,形成一條詞族鏈,所以Z(族)關(guān)系在每個(gè)概念中不再揭示,只將族首詞用“skos:topConceptOf”表示為概念體系的頂層概念。
表3 《中分表》主題詞及SKOS描述
通過上面的分析,我們可以基本得出《中分表》主題詞MARC格式各字段與SKOS詞匯的對應(yīng)關(guān)系,如表2所示。
本文利用VB程序和Access數(shù)據(jù)庫編寫程序?qū)崿F(xiàn)《中分表》主題詞從MARC格式到SKOS格式的轉(zhuǎn)換,首先將《中分表》MARC格式按字段類型導(dǎo)出為文本格式,再將文本數(shù)據(jù)讀取到Access數(shù)據(jù)庫中,數(shù)據(jù)表結(jié)構(gòu)包括主題詞、字段類型、控制號(hào)、漢語拼音、英譯名、注釋、分類號(hào)、代項(xiàng)、屬項(xiàng)、分項(xiàng)、參項(xiàng)、族項(xiàng)等全部內(nèi)容,最后利用VB程序從數(shù)據(jù)庫中提取相關(guān)字段,寫入SKOS描述的對應(yīng)標(biāo)簽中。節(jié)選的部分實(shí)現(xiàn)方案代碼如下:
通過對《中分表》所有主題詞進(jìn)行自動(dòng)轉(zhuǎn)換,程序生成的描述代碼完全符合SKOS語法要求?!吨蟹直怼分黝}詞的節(jié)選及其相應(yīng)的自動(dòng)轉(zhuǎn)換后的SKOS 描述見上頁表3。
……Do While Not rs.EOF If rs.Fields("控制號(hào)") <> "" Then kzh(i) = rs.Fields("控制號(hào)")Print #1, "
我國圖書情報(bào)領(lǐng)域廣泛使用的各種知識(shí)組織系統(tǒng)正處于由電子化向網(wǎng)絡(luò)化發(fā)展的關(guān)鍵時(shí)期。SKOS這種表達(dá)知識(shí)組織系統(tǒng)的通用數(shù)據(jù)模型,能提供比RDF更精確的語義關(guān)系的約束,又不像OWL(Web Ontology Language,網(wǎng)絡(luò)本體語言)那樣要求邏輯精確,具 有簡潔、通用、易擴(kuò)展的特點(diǎn)?;赟KOS研究《中分表》的網(wǎng)絡(luò)化,與現(xiàn)有網(wǎng)絡(luò)版相比,除了提供基本的瀏覽、檢索、標(biāo)引、組織信息功能,主要優(yōu)勢是便于網(wǎng)絡(luò)環(huán)境下《中分表》數(shù)據(jù)的獲取、交換、共享和重用,進(jìn)一步實(shí)現(xiàn)可視化、術(shù)語注冊、術(shù)語服務(wù)、關(guān)聯(lián)數(shù)據(jù)、互操作、構(gòu)建本體等服務(wù),我們將繼續(xù)這方面的研究。
[1]SKOS Simple Knowledge Organization System Primer[EB/OL].[2014-02-25].http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/.
[2]劉華梅.簡單知識(shí)組織系統(tǒng)(SKOS)的應(yīng)用研究及《中分表》的SKOS化[G]//第二屆全國文獻(xiàn)編目工作研討會(huì)論文集.北京:北京圖書館出版社,2010:57-63.