瞿 輝(華僑大學(xué)經(jīng)濟(jì)與金融學(xué)院 福建 泉州 362021)周 磊(武漢紡織大學(xué)會(huì)計(jì)學(xué)院 湖北 武漢 430000)
?
基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引研究*
瞿 輝(華僑大學(xué)經(jīng)濟(jì)與金融學(xué)院 福建 泉州 362021)
周 磊(武漢紡織大學(xué)會(huì)計(jì)學(xué)院 湖北 武漢 430000)
[摘 要]以主題關(guān)聯(lián)為基礎(chǔ)的多維語(yǔ)義標(biāo)引方法可用于館藏?cái)?shù)字資源管理與導(dǎo)航,即通過(guò)構(gòu)建館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引體系來(lái)對(duì)不同數(shù)字資源知識(shí)對(duì)象間的語(yǔ)義關(guān)聯(lián)進(jìn)行標(biāo)引,進(jìn)而實(shí)現(xiàn)以內(nèi)容主題關(guān)聯(lián)為核心的館藏?cái)?shù)字資源組織與多維展示。與傳統(tǒng)數(shù)據(jù)庫(kù)檢索相比,該方法更加準(zhǔn)確、直觀和有效,可以作為一種知識(shí)發(fā)現(xiàn)工具和技術(shù)應(yīng)用于中小型機(jī)構(gòu)知識(shí)庫(kù)建設(shè)。
[關(guān)鍵詞]館藏?cái)?shù)字資源 主題關(guān)聯(lián) 多維語(yǔ)義 標(biāo)引方法
當(dāng)前,數(shù)字化、網(wǎng)絡(luò)化已成為館藏資源組織的常態(tài),對(duì)圖書館事業(yè)產(chǎn)生了深遠(yuǎn)影響:一方面,使得館藏資源的生產(chǎn)與加工越來(lái)越容易,傳播越來(lái)越便利;另一方面,造成館藏資源數(shù)量的急劇增長(zhǎng),針對(duì)海量數(shù)字化館藏資源的組織與服務(wù)工作面臨巨大壓力??梢哉f(shuō),由于缺乏對(duì)日益增加的數(shù)字資源進(jìn)行深入、有效的組織和規(guī)范控制,館藏?cái)?shù)字資源管理和服務(wù)工作的主要矛盾已從提高資源存量轉(zhuǎn)為如何高效滿足用戶的多元化、多層次知識(shí)需求[1]。因此,有效揭示館藏?cái)?shù)字資源所包含的各類知識(shí)對(duì)象及其關(guān)聯(lián)就成了圖書館資源建設(shè)與管理工作適應(yīng)知識(shí)經(jīng)濟(jì)時(shí)代“信息服務(wù)知識(shí)化”的必然要求,而其首要任務(wù)就是對(duì)館藏?cái)?shù)字資源中各種知識(shí)對(duì)象及其之間存在的語(yǔ)義關(guān)聯(lián)進(jìn)行揭示和描述,以幫助用戶進(jìn)行準(zhǔn)確的知識(shí)獲取,提高館藏?cái)?shù)字資源的服務(wù)效率。為此,本文提出一種以主題關(guān)聯(lián)為核心的館藏?cái)?shù)字資源組織與展示方法,即通過(guò)主題關(guān)聯(lián)來(lái)對(duì)館藏?cái)?shù)字資源知識(shí)對(duì)象之間不同的語(yǔ)義關(guān)系進(jìn)行多維描述和標(biāo)引,以提高用戶資源訪問(wèn)的準(zhǔn)確性、便捷性,為館藏?cái)?shù)字資源的組織與管理實(shí)踐工作提供一些有益的探索。
2.1館藏?cái)?shù)字資源組織
從整體上來(lái)看,館藏?cái)?shù)字資源是以資源實(shí)體和內(nèi)容實(shí)體兩種形式存在的。所謂資源實(shí)體,是指日益增長(zhǎng)并不斷異構(gòu)和分散化的各種數(shù)字化資源,如數(shù)字化圖書、期刊、報(bào)紙、數(shù)據(jù)及其他數(shù)字出版物[2]。從資源實(shí)體角度上看,雖然館藏?cái)?shù)字資源在采集時(shí)就已經(jīng)具備了一定的形式,但整體上還較為凌亂、無(wú)序,給用戶利用造成諸多不便,因而對(duì)其進(jìn)行組織與管理的實(shí)質(zhì)就是要對(duì)資源實(shí)體進(jìn)行序化。與資源實(shí)體不同,內(nèi)容實(shí)體主要是指蘊(yùn)含在資源實(shí)體中的各種知識(shí)對(duì)象,如概念、定義、公式及推理等[3]。因此,從內(nèi)容實(shí)體角度而言,館藏?cái)?shù)字資源組織就是對(duì)資源實(shí)體各種知識(shí)對(duì)象的組織與管理;其核心任務(wù)首先是知識(shí)對(duì)象的識(shí)別,其次是不同知識(shí)對(duì)象間語(yǔ)義關(guān)聯(lián)的描述與標(biāo)引,以便適應(yīng)資源深度開發(fā)與利用的需要。而在各種類型館藏?cái)?shù)字資源急劇增加的時(shí)代背景下,面向內(nèi)容實(shí)體的組織管理變得更加重要和緊迫,這正如Kodama所指出的那樣,只有有效地整合零散、無(wú)序的知識(shí)才能實(shí)現(xiàn)對(duì)數(shù)字資源的真正管理[4]。
圖1 館藏?cái)?shù)字資源常見館語(yǔ)義關(guān)聯(lián)舉例
2.2館藏?cái)?shù)字資源語(yǔ)義關(guān)聯(lián)
根據(jù)所表征內(nèi)容的不同,館藏?cái)?shù)字資源語(yǔ)義關(guān)聯(lián)總體上可以劃分為主題關(guān)聯(lián)[5]、主體關(guān)聯(lián)[6]和指向關(guān)聯(lián)[7]3種類型。其中,主題關(guān)聯(lián)是指基于不同知識(shí)對(duì)象(如關(guān)鍵詞、主題詞、概念、公式等)所建立起來(lái)的資源內(nèi)容關(guān)聯(lián)關(guān)系,如描述關(guān)系、共生(共現(xiàn))關(guān)系等;主體關(guān)聯(lián)是指館藏?cái)?shù)字資源相關(guān)主體(如作者、出版物、研究機(jī)構(gòu)/出版機(jī)構(gòu))之間所構(gòu)成的各種約束關(guān)系,如撰寫關(guān)系、出版關(guān)系、隸屬關(guān)系及合作關(guān)系等;而指向關(guān)聯(lián)則是館藏?cái)?shù)字資源與其數(shù)據(jù)源之間所具有的鏈接關(guān)系(網(wǎng)址、全文鏈接等)。以期刊類館藏?cái)?shù)字資源為例,通過(guò)4個(gè)基本的知識(shí)對(duì)象(關(guān)鍵詞、作者、期刊以及研究機(jī)構(gòu))可以構(gòu)建出包含以上3種類型的關(guān)聯(lián)體系來(lái)描述館藏資源的內(nèi)容語(yǔ)義特征(見圖1)。在實(shí)踐中,這些語(yǔ)義關(guān)聯(lián)具體又可分為兩種類型:一類是同類知識(shí)對(duì)象語(yǔ)義關(guān)聯(lián),即同屬性知識(shí)對(duì)象所構(gòu)成的關(guān)聯(lián)關(guān)系,包括“關(guān)鍵詞-關(guān)鍵詞(K-K)”“期刊-期刊(J-J)”“作者-作者(A-A)”和“研究機(jī)構(gòu)-研究機(jī)構(gòu)(O-O)”4種關(guān)聯(lián);另一類是不同知識(shí)對(duì)象語(yǔ)義關(guān)聯(lián),指不同屬性知識(shí)對(duì)象之間所構(gòu)成的關(guān)聯(lián),包括“關(guān)鍵詞-作者(K-A)”“期刊-關(guān)鍵詞(K-J)”“關(guān)鍵詞-機(jī)構(gòu)(K-O)”“作者-期刊(A-J)”“作者-機(jī)構(gòu)(A-O)”以及“期刊-機(jī)構(gòu)(JO)”6種關(guān)聯(lián)關(guān)系。
從科學(xué)學(xué)角度來(lái)看,對(duì)館藏?cái)?shù)字資源不同知識(shí)對(duì)象間所存在的語(yǔ)義關(guān)聯(lián)進(jìn)行描述和呈現(xiàn),既可以提高相似主題資源內(nèi)容被發(fā)現(xiàn)的概率,進(jìn)而促進(jìn)知識(shí)的快速轉(zhuǎn)化,也能夠?yàn)轲^藏?cái)?shù)字資源動(dòng)態(tài)聚合成細(xì)粒度、具有內(nèi)在邏輯聯(lián)系的語(yǔ)義路徑提供基礎(chǔ)[8]。因此,構(gòu)建系統(tǒng)的多維語(yǔ)義關(guān)聯(lián)描述機(jī)制就成為了科學(xué)組織館藏?cái)?shù)字資源的關(guān)鍵,即通過(guò)對(duì)知識(shí)對(duì)象及其相互關(guān)系的精確描述來(lái)對(duì)館藏?cái)?shù)字資源進(jìn)行深度的組織和管理。同時(shí),豐富、完整的語(yǔ)義關(guān)聯(lián)體系能夠從多角度揭示館藏?cái)?shù)字資源的內(nèi)容結(jié)構(gòu)特征,而這正是館藏?cái)?shù)字資源建設(shè)工作的重要目標(biāo)。例如,關(guān)聯(lián)“A-J”反映了作者與出版期刊之間的對(duì)應(yīng)關(guān)系,從中可以發(fā)現(xiàn)不同作者論文在發(fā)表中的期刊偏好,即在哪類期刊上發(fā)表論文較多、某期刊擁有哪些穩(wěn)定作者群,進(jìn)而通過(guò)作者的群體特征來(lái)確定期刊定位,而通過(guò)關(guān)聯(lián)“J-K”則可以揭示期刊發(fā)表文獻(xiàn)的主題分布。
如前所述,不同關(guān)聯(lián)類型對(duì)館藏資源內(nèi)容的語(yǔ)義特征描述能力是不同的,其中主題關(guān)聯(lián)的描述能力最強(qiáng),主體關(guān)聯(lián)次之,而指向關(guān)聯(lián)則最弱。因此,基于關(guān)鍵詞在資源內(nèi)容描述方面的重要作用,由關(guān)鍵詞共現(xiàn)所構(gòu)成的主題關(guān)聯(lián)就成為了所有關(guān)聯(lián)中最為重要的一組語(yǔ)義關(guān)系,是構(gòu)建館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引體系的基礎(chǔ),以關(guān)鍵詞共現(xiàn)所反映的主題關(guān)聯(lián)為核心,可以將不同的資源實(shí)體利用不同知識(shí)對(duì)象(內(nèi)容實(shí)體)間所具有的豐富語(yǔ)義關(guān)聯(lián)連接起來(lái),構(gòu)成一個(gè)基于多維語(yǔ)義關(guān)聯(lián)視角的館藏?cái)?shù)字資源描述與呈現(xiàn)框架。
基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引的關(guān)鍵是以資源內(nèi)容主題關(guān)聯(lián)為核心構(gòu)建的一套穩(wěn)定、可擴(kuò)展的多維語(yǔ)義體系,以便對(duì)不同知識(shí)對(duì)象間的語(yǔ)義關(guān)系進(jìn)行標(biāo)引,最終實(shí)現(xiàn)對(duì)館藏?cái)?shù)字資源的多維語(yǔ)義標(biāo)引。基于此,本文構(gòu)建了基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引方法,其流程主要包括以下幾個(gè)步驟:
(1)知識(shí)對(duì)象實(shí)例庫(kù)建設(shè)。即在館藏?cái)?shù)字資源知識(shí)對(duì)象的識(shí)別基礎(chǔ)上,對(duì)知識(shí)對(duì)象進(jìn)行抽取與處理,并以其實(shí)例形式——特征詞來(lái)構(gòu)建領(lǐng)域?qū)ο笾R(shí)庫(kù)。其中,特征詞是指從文章中選取出來(lái)用于反映資源知識(shí)對(duì)象的名詞或術(shù)語(yǔ)[9],在規(guī)范后作為知識(shí)對(duì)象的實(shí)例進(jìn)行匯總添加成為館藏?cái)?shù)字資源知識(shí)對(duì)象庫(kù);本文中,“特征詞”的外延有了進(jìn)一步的擴(kuò)大,即只要能夠揭示館藏資源內(nèi)容的獨(dú)立名詞或詞組(如關(guān)鍵詞、作者、機(jī)構(gòu)名、期刊名等)都應(yīng)被視為館藏?cái)?shù)字資源的特征詞。由于特征詞能夠清晰、有效反映包含于館藏資源的語(yǔ)義關(guān)聯(lián),因此對(duì)特征詞的提取要盡可能全面,涵蓋所有知識(shí)對(duì)象,并需要對(duì)不同特征詞之間的關(guān)系進(jìn)行精確描述,以構(gòu)成對(duì)館藏?cái)?shù)字資源(文獻(xiàn))內(nèi)容語(yǔ)義關(guān)聯(lián)進(jìn)行描述和標(biāo)引的基礎(chǔ)[10]。根據(jù)需要,本文對(duì)館藏?cái)?shù)字資源的6類特征詞進(jìn)行了抽取,并以此構(gòu)建了對(duì)應(yīng)的知識(shí)對(duì)象實(shí)例庫(kù):學(xué)者庫(kù)(包含作者信息)、文獻(xiàn)庫(kù)(包含不同類型文獻(xiàn)的題名及DOI)、機(jī)構(gòu)庫(kù)(主要包括研究機(jī)構(gòu)與出版機(jī)構(gòu))、關(guān)鍵詞庫(kù)(主要包含文獻(xiàn)關(guān)鍵詞或主題詞)、熱點(diǎn)主題庫(kù)(通過(guò)對(duì)高頻關(guān)鍵詞、主題詞的共現(xiàn)分析得到)以及基金庫(kù)(包含國(guó)內(nèi)主要的科研基金項(xiàng)目資助信息)。根據(jù)不同知識(shí)對(duì)象之間所具有的不同語(yǔ)義關(guān)系,實(shí)例庫(kù)之間相應(yīng)設(shè)置了不同的邏輯關(guān)系,其具體的體系結(jié)構(gòu)如圖2所示。
圖2 知識(shí)對(duì)象實(shí)例庫(kù)體系結(jié)構(gòu)
例如,針對(duì)《基于知識(shí)位勢(shì)的技術(shù)創(chuàng)新合作中的知識(shí)擴(kuò)散研究》[11],可以提取包括題名=“基于知識(shí)位勢(shì)的技術(shù)創(chuàng)新合作中的知識(shí)擴(kuò)散研究”、學(xué)者=“李莉”and“黨興華”and“張首魁”、機(jī)構(gòu)=“西安理工大學(xué)工商管理學(xué)院”and“陜西省行政學(xué)院”and“科學(xué)學(xué)與科學(xué)技術(shù)管理”、關(guān)鍵詞=“知識(shí)擴(kuò)散”and“知識(shí)主體”and“知識(shí)深度和寬度”and“知識(shí)位勢(shì)”、基金=“國(guó)家自然科學(xué)基金資助項(xiàng)目”and“教育部博士點(diǎn)基金資助項(xiàng)目”等特征信息,這些特征詞添加后根據(jù)知識(shí)庫(kù)之間的體系結(jié)構(gòu)將能夠自動(dòng)建立起各知識(shí)對(duì)象之間的不同語(yǔ)義關(guān)聯(lián)。
(2)主題關(guān)聯(lián)分析與構(gòu)建。主要是通過(guò)對(duì)抽取的關(guān)鍵詞進(jìn)行共現(xiàn)分析,以確定目標(biāo)館藏?cái)?shù)字資源的“關(guān)鍵詞-關(guān)鍵詞”(K-K)主題關(guān)聯(lián),進(jìn)而以主題關(guān)聯(lián)為基礎(chǔ)將其他語(yǔ)義關(guān)聯(lián)進(jìn)行組配,構(gòu)成用于館藏?cái)?shù)字資源標(biāo)引的多維語(yǔ)義關(guān)聯(lián)集。以K-K關(guān)聯(lián)和A-A關(guān)聯(lián)組配為例(見圖3),一方面,關(guān)鍵詞之間存在著共現(xiàn)關(guān)系(關(guān)聯(lián)1),而作者與作者之間則存在著合作關(guān)系(關(guān)聯(lián)2);另一方面,在作者間不存在直接合作的情況下,因其文獻(xiàn)中使用關(guān)鍵詞的不同而存在如下兩種情況:①如果同時(shí)使用某一關(guān)鍵詞,則其間存在語(yǔ)義關(guān)聯(lián)(關(guān)聯(lián)3);②雖然沒有使用同一關(guān)鍵詞,但這些關(guān)鍵詞之間存在共現(xiàn)關(guān)系,那么其間存在耦合語(yǔ)義關(guān)聯(lián)(關(guān)聯(lián)4)。在完成主題關(guān)聯(lián)分析結(jié)果基礎(chǔ)上,可以通過(guò)不同主題及其包含的關(guān)鍵詞將相同或不相同主題下的所有知識(shí)對(duì)象連接起來(lái)。
圖3 學(xué)科知識(shí)庫(kù)及所包含關(guān)聯(lián)示意圖
(3)知識(shí)對(duì)象多維語(yǔ)義標(biāo)引。經(jīng)過(guò)特征詞抽取、主題關(guān)聯(lián)的分析與建構(gòu),就可以對(duì)所獲得的資源知識(shí)對(duì)象進(jìn)行多維度語(yǔ)義標(biāo)引。實(shí)際上,由于館藏?cái)?shù)字資源包含的各類知識(shí)對(duì)象都經(jīng)由圖2所示的知識(shí)對(duì)象實(shí)例庫(kù)構(gòu)造了較為完整的關(guān)系,因此在標(biāo)引過(guò)程中只需將任何館藏?cái)?shù)字文獻(xiàn)與其相應(yīng)的熱點(diǎn)主題相匹配(關(guān)聯(lián)r4),便自動(dòng)與其他知識(shí)對(duì)象關(guān)聯(lián)起來(lái),并能夠方便地通過(guò)不同知識(shí)對(duì)象建立起與其他具有相關(guān)館藏資源實(shí)體之間的多維語(yǔ)義關(guān)聯(lián)關(guān)系。
以上過(guò)程可以利用本體軟件(如Proté g é )實(shí)現(xiàn),也可通過(guò)主題圖工具(如Ontopia[12])來(lái)完成。與本體類似,主題圖(Topic Maps)是“一種用來(lái)描述知識(shí)以及知識(shí)與信息資源聯(lián)系的元數(shù)據(jù)格式,既可以定位某一知識(shí)對(duì)象的資源位置,也可以用來(lái)表示不同知識(shí)對(duì)象之間的相互聯(lián)系”[13]。但與本體相比,主題圖技術(shù)所提供的XTM標(biāo)簽集與語(yǔ)法規(guī)范具有操作簡(jiǎn)單、描述性強(qiáng)等特點(diǎn),能夠使整個(gè)工作過(guò)程變得簡(jiǎn)單、高效。因此,本文選用Ontopia作為館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引方法的實(shí)現(xiàn)平臺(tái)。
為測(cè)試基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引方法的實(shí)際效果,本文以國(guó)內(nèi)知識(shí)擴(kuò)散(Knowledge Diffusion)研究領(lǐng)域期刊數(shù)字文獻(xiàn)為例進(jìn)行了驗(yàn)證。
4.1數(shù)據(jù)來(lái)源和處理
本文以“知識(shí)擴(kuò)散”為主題在CNKI期刊全文數(shù)據(jù)庫(kù)中進(jìn)行檢索(檢索時(shí)間為2015年8月2日),檢索到相關(guān)文獻(xiàn)1 074篇,對(duì)非相關(guān)文獻(xiàn)進(jìn)行剔除后,得到符合要求的結(jié)果1 069篇,從中對(duì)相關(guān)特征詞進(jìn)行抽取,共獲得1 897個(gè)關(guān)鍵詞、2 451名作者(251個(gè)研究機(jī)構(gòu))、237個(gè)期刊及36個(gè)基金信息。為提高準(zhǔn)確性,本文參考專家意見并結(jié)合自建詞表對(duì)所獲取的特征詞特別是關(guān)鍵詞進(jìn)行了規(guī)范與合并,最后將所得到的數(shù)據(jù)添加到知識(shí)對(duì)象庫(kù)中,以備后續(xù)工作使用。
4.2主題分析及結(jié)果
利用系統(tǒng)聚類方法對(duì)所獲取的高頻關(guān)鍵詞進(jìn)行主題聚類,得到國(guó)內(nèi)知識(shí)擴(kuò)散研究領(lǐng)域的5個(gè)熱點(diǎn)研究主題及其對(duì)應(yīng)的相關(guān)核心關(guān)鍵詞(見表1),其結(jié)果與采用概念空間圖和社會(huì)網(wǎng)絡(luò)分析方法進(jìn)行分析所得結(jié)果基本吻合;在后續(xù)的標(biāo)引過(guò)程中,這些熱點(diǎn)主題將作為實(shí)例添加到圖2所示的“熱點(diǎn)主題庫(kù)”中,并建立主題與核心關(guān)鍵詞之間的包含關(guān)系,完成后續(xù)多維語(yǔ)義標(biāo)引的準(zhǔn)備工作。
4.3館藏?cái)?shù)字資源知識(shí)對(duì)象的多維語(yǔ)義標(biāo)引
實(shí)現(xiàn)館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引,需要將主題聚類的結(jié)果用于相關(guān)館藏?cái)?shù)字資源知識(shí)對(duì)象關(guān)聯(lián)的連接中去,也就是對(duì)文獻(xiàn)進(jìn)行基于主題關(guān)聯(lián)的多維語(yǔ)義標(biāo)引。為此,本文利用主題圖工具Ontopia構(gòu)建了“知識(shí)擴(kuò)散知識(shí)對(duì)象實(shí)例庫(kù)”(見圖3)來(lái)完成對(duì)知識(shí)擴(kuò)散館藏期刊數(shù)字資源的多維語(yǔ)義標(biāo)引。具體過(guò)程包括以下兩個(gè)步驟:
(1)添加研究主題。根據(jù)表1,將5個(gè)研究主題作為知識(shí)對(duì)象實(shí)例添加到“熱點(diǎn)主題庫(kù)”中并分別命名,然后依據(jù)圖4所示的熱點(diǎn)主題庫(kù)語(yǔ)義關(guān)聯(lián)結(jié)構(gòu),對(duì)相應(yīng)主題建立“包含作者”“包含文獻(xiàn)”“包含關(guān)鍵詞”及“涉及機(jī)構(gòu)”4個(gè)關(guān)聯(lián)類型設(shè)置功能以及多個(gè)開放的主題說(shuō)明信息——主題含義(Topic Meaning)、參考鏈接(Reference Links)、備注信息(Remarks)、多媒體附件(Multimedia Attachments)、關(guān)鍵詞含義(Keyword Meaning)等,用于對(duì)主題的深度說(shuō)明,以增強(qiáng)內(nèi)容主題的導(dǎo)航功能。
圖4 熱點(diǎn)主題庫(kù)語(yǔ)義關(guān)聯(lián)結(jié)構(gòu)
表1 知識(shí)擴(kuò)散領(lǐng)域熱點(diǎn)主題及核心關(guān)鍵詞
(2)多維語(yǔ)義標(biāo)引。主題實(shí)例添加完成之后,就可以用來(lái)對(duì)不同的知識(shí)對(duì)象進(jìn)行多角度的語(yǔ)義關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)對(duì)館藏?cái)?shù)字資源的多維語(yǔ)義標(biāo)引。具體來(lái)講,就是將每個(gè)主題與其所涉及的不同作者、文獻(xiàn)、關(guān)鍵詞、機(jī)構(gòu)等知識(shí)對(duì)象聯(lián)系起來(lái)。實(shí)際上,鑒于圖2所示的“知識(shí)擴(kuò)散知識(shí)對(duì)象實(shí)例庫(kù)”中本身已經(jīng)定義好了“學(xué)者庫(kù)”“文獻(xiàn)庫(kù)”“關(guān)鍵詞庫(kù)”及“機(jī)構(gòu)庫(kù)”等6個(gè)資源實(shí)體類型及其之間的豐富語(yǔ)義關(guān)系,因此在具體的標(biāo)引過(guò)程中只需對(duì)每一個(gè)主題實(shí)例與另外任意一個(gè)資源實(shí)體類型進(jìn)行完整的關(guān)聯(lián),就可以自動(dòng)實(shí)現(xiàn)對(duì)其他語(yǔ)義關(guān)聯(lián)的標(biāo)引。
4.4基于多維語(yǔ)義的館藏資源展示效果
完成對(duì)館藏?cái)?shù)字資源的多維語(yǔ)義標(biāo)注,實(shí)質(zhì)上也就實(shí)現(xiàn)了不同數(shù)字資源知識(shí)對(duì)象之間基于主題的語(yǔ)義關(guān)聯(lián)建構(gòu),使基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源可視化與檢索有了可能。本文利用主題圖工具所進(jìn)行的多維語(yǔ)義標(biāo)引結(jié)果會(huì)生成一個(gè)包含全部?jī)?nèi)容語(yǔ)義關(guān)聯(lián)標(biāo)引結(jié)果的XTM文檔包,可以方便地導(dǎo)出、保存、維護(hù)和瀏覽;同時(shí),對(duì)XTM文檔結(jié)果的查詢方式既可以利用相關(guān)插件來(lái)可視化瀏覽,也可通過(guò)文檔列表進(jìn)行訪問(wèn)。圖5為本文利用Ontopia提供的Vizigator插件[14]對(duì)知識(shí)擴(kuò)散領(lǐng)域館藏?cái)?shù)字期刊文獻(xiàn)多維語(yǔ)義標(biāo)引結(jié)果的可視化效果。
圖5 多維語(yǔ)義標(biāo)引結(jié)果的可視化效果(局部)
從圖5可以看出,通過(guò)多維語(yǔ)義標(biāo)引可以得到一個(gè)以主題關(guān)聯(lián)為核心的、多維集成、語(yǔ)義化程度高的館藏?cái)?shù)字資源內(nèi)容實(shí)體(知識(shí)對(duì)象)展示結(jié)果。從中可以方便地對(duì)與某一主題相關(guān)的資源實(shí)體(如期刊、作者、關(guān)鍵詞、機(jī)構(gòu)等)進(jìn)行查詢與訪問(wèn),同時(shí)也可以反向針對(duì)知識(shí)對(duì)象查詢其所屬的主題及該主題下包含有哪些知識(shí)對(duì)象,通過(guò)簡(jiǎn)單的點(diǎn)擊來(lái)發(fā)現(xiàn)不同的館藏資源內(nèi)容主題與知識(shí)對(duì)象;同時(shí),針對(duì)不同需要還可以通過(guò)對(duì)展示的深度進(jìn)行控制,以便獲得不同強(qiáng)度和豐富程度的理想效果。
為了對(duì)該方法應(yīng)用性和效果進(jìn)行檢驗(yàn),本文設(shè)計(jì)了基于多維語(yǔ)義關(guān)聯(lián)的館藏?cái)?shù)字資源導(dǎo)航系統(tǒng)(以下簡(jiǎn)稱系統(tǒng)),并進(jìn)行了小范圍的測(cè)試。系統(tǒng)主要圍繞實(shí)現(xiàn)基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義可視化推薦功能來(lái)構(gòu)架,系統(tǒng)核心通過(guò)ASP.NET技術(shù)集成主題圖工具Ontology軟件包來(lái)實(shí)現(xiàn)。系統(tǒng)基本滿足了用戶通過(guò)關(guān)鍵詞搜索或者目錄瀏覽的方式來(lái)查詢和獲取某一領(lǐng)域相關(guān)主題信息的需求,同時(shí)可以按照不同主題去方便地查詢相關(guān)領(lǐng)域的關(guān)鍵詞、機(jī)構(gòu)、作者、文獻(xiàn)及出版物等信息。在對(duì)主題進(jìn)行查詢和瀏覽時(shí),系統(tǒng)為用戶提供了目錄瀏覽和可視化兩種訪問(wèn)方式;在兩種模式下,用戶都可根據(jù)需要預(yù)設(shè)訪問(wèn)的深度。
表2為本文對(duì)華僑大學(xué)經(jīng)濟(jì)學(xué)專業(yè)二年級(jí)本科生所進(jìn)行的定題檢索效率對(duì)比實(shí)驗(yàn)結(jié)果,其中準(zhǔn)確率采用專家判斷方法予以確認(rèn),所有參與測(cè)試的同學(xué)并無(wú)相關(guān)知識(shí)擴(kuò)散領(lǐng)域知識(shí)背景。通過(guò)對(duì)3組數(shù)據(jù)(平均時(shí)間與準(zhǔn)確率)的對(duì)比來(lái)看,使用導(dǎo)航服務(wù)系統(tǒng)的小組在定題檢索的平均速度和準(zhǔn)確率(2.47/98.3%)上都有較為可靠的保證,高于使用CNKI小組的4.63/91.7%和無(wú)限制組9.50/84.7%。
表2 不同途徑檢索效率對(duì)比數(shù)據(jù) 單位:分鐘/準(zhǔn)確率
本文提出了基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源多維語(yǔ)義標(biāo)引方法,并對(duì)以其為基礎(chǔ)的系統(tǒng)原型的應(yīng)用效果進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,作為一種有效的館藏?cái)?shù)字資源知識(shí)管理工具,該方法克服了傳統(tǒng)數(shù)據(jù)庫(kù)方法在資源內(nèi)容揭示上的不足,能夠通過(guò)更細(xì)粒度的知識(shí)對(duì)象來(lái)為館藏?cái)?shù)字資源的組織提供多種語(yǔ)義標(biāo)引角度,在集成相關(guān)語(yǔ)義工具基礎(chǔ)上用于館藏?cái)?shù)字資源的管理與導(dǎo)航,其效果相對(duì)于傳統(tǒng)方法來(lái)講更為直觀和高效。同時(shí),該方法實(shí)現(xiàn)了基于主題關(guān)聯(lián)的館藏?cái)?shù)字資源知識(shí)對(duì)象的多維聚合與展示,能夠構(gòu)成集成度高的內(nèi)容呈現(xiàn)模式,可以廣泛應(yīng)用于當(dāng)前各類在線中小型機(jī)構(gòu)庫(kù)的建設(shè)。由于篇幅的限制,本文在對(duì)有關(guān)問(wèn)題(如知識(shí)對(duì)象實(shí)例庫(kù)構(gòu)建過(guò)程中的自動(dòng)化等問(wèn)題)上的分析未能充分展開,同時(shí)對(duì)特征詞抽取過(guò)程中的相似度量化、特征詞關(guān)系標(biāo)注等問(wèn)題還需要在后續(xù)工作中進(jìn)行深入研究、完善。
參考文獻(xiàn) :
[1]成 全, 許 爽.館藏?cái)?shù)字資源語(yǔ)義關(guān)聯(lián)研究現(xiàn)狀及發(fā)展趨勢(shì)探析[J].圖書館建設(shè), 2014, 238(4):28-33.
[2]劉壽華, 殷 勤.探討藏書老化規(guī)律 優(yōu)化文獻(xiàn)資源實(shí)體:圖書老化實(shí)測(cè)報(bào)告[J].圖書館建設(shè), 1991, 61(1):26-29.
[3]陳嘉勇, 周 婕, 李 玲, 等.基于文獻(xiàn)實(shí)體關(guān)系模型的高校機(jī)構(gòu)知識(shí)庫(kù)作者認(rèn)領(lǐng)模式研究[J].情報(bào)理論與實(shí)踐, 2015, 38(2): 59-63.
[4]Kodama M.Knowledge Creation Through Networked Strategic Communities: Case Studies on New Product Development in Japanese Companies [J].Long Range Planning, 2005, 38(1):27-49.
[5]王立學(xué), 孫 楊, 楊代慶.基于引文的情報(bào)學(xué)領(lǐng)域主題關(guān)聯(lián)特征分析[J].情報(bào)雜志, 2012, 31(10):27-31.
[6]唐 義.關(guān)聯(lián)科學(xué)核心詞匯規(guī)范:提出、優(yōu)化及展望[J].圖書館雜志, 2013, 32(3):55-60.
[7]游 毅, 成 全.試論基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式[J].情報(bào)理論與實(shí)踐, 2013,36(1):109-114.
[8]任瑞娟, 濮德敏, 王劍宏, 等.基于Drupal實(shí)現(xiàn)多類型學(xué)術(shù)資源的語(yǔ)義化組織與關(guān)聯(lián)化聚合[J].情報(bào)科學(xué), 2015,33(5):63-67.
[9]丁 潔, 王曰芬.基于特征項(xiàng)的文獻(xiàn)共現(xiàn)網(wǎng)絡(luò)在學(xué)術(shù)信息檢索中的應(yīng)用[J].圖書情報(bào)工作, 2014,58(15):135-141.
[10]胡昌平, 陳 果.科技論文關(guān)鍵詞特征及其對(duì)共詞分析的影響[J].情報(bào)學(xué)報(bào), 2014,33(1):23-32.
[11]李 莉, 黨興華, 張首魁.基于知識(shí)位勢(shì)的技術(shù)創(chuàng)新合作中的知識(shí)擴(kuò)散研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理, 2007,28(4):107-112.
[12]Pepper S.The TAO of Topic Maps [J].Proceedings of Xml Europe, 2000,52(11):4362-4365.
[13]王石林.主題地圖及其在軟件工程專業(yè)知識(shí)管理中的應(yīng)用研究[D].武漢: 武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 2006:6.
[14]Beaman R, Wieczorek J.Determining Space from Place for Natural History Collections [J].D-Lib Magazine, 2004,10(5):1082-1089.
Research on Multidimensional Semantic Indexing of Digital Resource of Collection Based on Topic Relevance
[Abstract]The multidimensional semantic indexing method that based on topic relevance can be used for digital resource of collection management and navigation, that is, through the construction of Library Digital Resource of collection multidimensional semantic indexing system to index the semantic relationship between different digital resource knowledge objects, and to realize the organization and multidimensional display of the digital resource of collection, which is based on the core of the content theme.Compared with traditional database retrieval, this method is more accurate, intuitive and effective.It can be used as a knowledge discovery tool and technology that applied in the construction of small and medium sized institutional repository.
[Key words]Digital resource of collection; Topic relevance; Multidimensional semantic; Indexing method
[中圖分類號(hào)]G254.73
[文獻(xiàn)標(biāo)識(shí)碼]A
*本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“區(qū)域創(chuàng)新中的知識(shí)擴(kuò)散規(guī)律及其保障機(jī)制研究”,項(xiàng)目編號(hào):14CTQ020;福建省軟科學(xué)研究項(xiàng)目“面向福建省縣域經(jīng)濟(jì)創(chuàng)新的知識(shí)服務(wù)平臺(tái)及其利用研究”,項(xiàng)目編號(hào):2015R0054的研究成果之一。
[作者簡(jiǎn)介]
瞿 輝 男,1980年生,博士,華僑大學(xué)經(jīng)濟(jì)與金融學(xué)院講師,碩士生導(dǎo)師,研究方向?yàn)橹R(shí)管理、電子商務(wù)、信息經(jīng)濟(jì)與政策,已發(fā)表論文20余篇。
周 磊 女,1986年生,博士,武漢紡織大學(xué)會(huì)計(jì)學(xué)院講師,碩士生導(dǎo)師,研究方向?yàn)閷@閳?bào)分析、技術(shù)創(chuàng)新,已發(fā)表論文20余篇。
[收稿日期:2015-11-09]