陳麗娜(1.商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院;2.中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所)
?
基于混合本體的文獻(xiàn)分類研究
——以計(jì)算機(jī)學(xué)科為例
陳麗娜1,2(1.商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院;2.中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所)
摘要:傳統(tǒng)的文獻(xiàn)分類方法已經(jīng)無(wú)法很好地適應(yīng)文獻(xiàn)組織和用戶的需求。本文以計(jì)算機(jī)學(xué)科為例,對(duì)傳統(tǒng)文獻(xiàn)分類和Folksonomy進(jìn)行對(duì)比研究,分析兩者的優(yōu)缺點(diǎn),提出傳統(tǒng)分類和基于Folksonomy的混合本體構(gòu)建方法,研究了基于Folksonomy的標(biāo)簽抽取和語(yǔ)義映射方法。并以豆瓣讀書(shū)為參考,嘗試構(gòu)建計(jì)算機(jī)文獻(xiàn)本體,驗(yàn)證了該分類方法可有效地組織文獻(xiàn)資源、滿足用戶需求,對(duì)規(guī)范文獻(xiàn)分類具有實(shí)際意義。
關(guān)鍵詞:本體;文獻(xiàn)分類;Folksonomy;標(biāo)簽;計(jì)算機(jī)
傳統(tǒng)的文獻(xiàn)分類是用科學(xué)、嚴(yán)謹(jǐn)?shù)姆椒ò盐墨I(xiàn)組織成層次狀的體系結(jié)構(gòu),但隨著文獻(xiàn)數(shù)量的不斷增長(zhǎng),新知識(shí)層出不窮,原來(lái)的分類體系逐漸暴露出弊端。而且,在現(xiàn)代信息化手段下,人們?cè)谕ㄟ^(guò)網(wǎng)絡(luò)終端查詢文獻(xiàn)時(shí),總是根據(jù)自己的習(xí)慣輸入待查關(guān)鍵字,這些關(guān)鍵字和傳統(tǒng)的文獻(xiàn)分類有很大不同。因此,迫切需要合適的文獻(xiàn)分類方法來(lái)組織文獻(xiàn),滿足用戶需求。
近年來(lái),有對(duì)傳統(tǒng)分類法的改進(jìn)研究,[1]傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的比較研究,[2,3]文獻(xiàn)分類與本體結(jié)合的研究,[4,5]對(duì)計(jì)算機(jī)文獻(xiàn)分類的研究,[6,7]這些研究對(duì)文獻(xiàn)合理分類提供了參考,但沒(méi)能很好地將文獻(xiàn)組織和用戶需求結(jié)合起來(lái)。在Web 2.0環(huán)境下,用戶可以自由地標(biāo)注文獻(xiàn),分眾分類——Folksonomy的方法聚集了大眾智慧,為傳統(tǒng)文獻(xiàn)分類提供了補(bǔ)充。近幾年,也有基于Folksonomy的文獻(xiàn)分類研究,[8,9]但這些研究或者是綜述,或者是理論性的分析,很少有具體的實(shí)踐。本研究提出結(jié)合傳統(tǒng)文獻(xiàn)分類和Folksonomy構(gòu)建本體的方法來(lái)進(jìn)行文獻(xiàn)分類,并以計(jì)算機(jī)學(xué)科為例,構(gòu)建計(jì)算機(jī)文獻(xiàn)本體。期望能提供合適的文獻(xiàn)分類和組織方法,提高文獻(xiàn)的組織管理水平,更好地滿足用戶需求。
文獻(xiàn)分類法是圖書(shū)情報(bào)部門(mén)進(jìn)行文獻(xiàn)分類、組織藏書(shū)的工具,它使用符號(hào)來(lái)代表各級(jí)類目,規(guī)定其先后順序。當(dāng)前常用的文獻(xiàn)分類法是《中國(guó)圖書(shū)館分類法》,簡(jiǎn)稱《中國(guó)法》,總共分5個(gè)基本部類,下分22個(gè)大類?!吨袊?guó)法》以學(xué)科類別為基礎(chǔ),使用字母與數(shù)字混合編碼,用字母代表大類,大類下用阿拉伯?dāng)?shù)字來(lái)細(xì)分具體的學(xué)科。
1.1計(jì)算機(jī)學(xué)科文獻(xiàn)分類
根據(jù)《中圖法》(第五版),計(jì)算機(jī)類文獻(xiàn)可分為11大類:TP3-0計(jì)算機(jī)理論與方法、TP30一般性問(wèn)題、TP31計(jì)算機(jī)軟件、TP32一般計(jì)算器和計(jì)算機(jī)、TP33電子數(shù)字計(jì)算機(jī)、TP34電子模擬計(jì)算機(jī)、TP35混合電子計(jì)算機(jī)、TP36微型計(jì)算機(jī)、TP37多媒體技術(shù)與多媒體計(jì)算機(jī)、TP38其他計(jì)算機(jī)、TP39計(jì)算機(jī)的應(yīng)用。每一類下又分小類,比如TP31計(jì)算機(jī)軟件又分為T(mén)P311程序設(shè)計(jì)、軟件工程、TP312程序語(yǔ)言、算法語(yǔ)言等,而TP311程序設(shè)計(jì)、軟件工程又可分為T(mén)P311.1程序設(shè)計(jì)和TP311.5軟件工程,TP311.1程序設(shè)計(jì)再細(xì)分為T(mén)P311.12數(shù)據(jù)結(jié)構(gòu)、TP311.11程序設(shè)計(jì)方法、TP311.13數(shù)據(jù)庫(kù)理論與系統(tǒng),數(shù)據(jù)庫(kù)理論與系統(tǒng)還可再進(jìn)一步細(xì)分。計(jì)算機(jī)類文獻(xiàn)總共分為227個(gè)子類。傳統(tǒng)計(jì)算機(jī)文獻(xiàn)是嚴(yán)格按照一定的體系結(jié)構(gòu)來(lái)劃分的,比如TP33-TP38是按照計(jì)算機(jī)類型劃分的,而TP31和TP39是根據(jù)文獻(xiàn)性質(zhì)劃分的。
1.2計(jì)算機(jī)學(xué)科文獻(xiàn)分類的優(yōu)點(diǎn)和不足
傳統(tǒng)的計(jì)算機(jī)文獻(xiàn)分類體系,按照從總到分,從一般到具體的原則編制。嚴(yán)謹(jǐn)科學(xué),涵蓋了計(jì)算機(jī)的所有領(lǐng)域,覆蓋面廣;各類目排列規(guī)范,類目之間呈明顯的層次結(jié)構(gòu);概念表述清晰,檢索效率較高。但傳統(tǒng)文獻(xiàn)分類法也存在很多不足。
(1)分類設(shè)置不均衡。有些分類過(guò)于復(fù)雜,導(dǎo)致實(shí)施成本太高。TP31和TP39兩類占了總類數(shù)目的一半以上,其他9類所占類數(shù)還不到一半,分類不均衡。TP31和TP39中的有些分得太細(xì),實(shí)施起來(lái)不方便。
(2)有些概念無(wú)文獻(xiàn)保障。如TP321非電子計(jì)算機(jī)、TP322分析計(jì)算機(jī)(穿孔卡片計(jì)算機(jī))等,由于時(shí)代的發(fā)展,所設(shè)類目已過(guò)時(shí),很少有新文獻(xiàn)來(lái)支持。
(3)反映新事物的概念沒(méi)有出現(xiàn)。如TP316操作系統(tǒng)類別下,沒(méi)有Android操作系統(tǒng)、iphone操作系統(tǒng)等比較新而用戶又常用到的概念。
(4)分類的層次關(guān)系與實(shí)際情況不符。使用分類法得到的是層次結(jié)構(gòu),而實(shí)際上概念之間不單純是層次關(guān)系,會(huì)有交叉。比如在軟件開(kāi)發(fā)過(guò)程中,會(huì)涉及程序設(shè)計(jì)方法、數(shù)據(jù)庫(kù)和編程語(yǔ)言,而程序設(shè)計(jì)是借助于某種編程語(yǔ)言來(lái)實(shí)現(xiàn)的,這樣TP311.52軟件開(kāi)發(fā)、TP311.11程序設(shè)計(jì)方法、TP311.13數(shù)據(jù)庫(kù)理論與系統(tǒng)和TP312程序語(yǔ)言、算法語(yǔ)言就不再是單純的層次關(guān)系。
綜上可知,傳統(tǒng)的計(jì)算機(jī)文獻(xiàn)分類方法不能很好地滿足文獻(xiàn)組織的需要,與用戶的實(shí)際需求也有差別,因此希望尋求新的方法,使分類更加合理。
Folksonomy是在Web 2.0環(huán)境下,隨著語(yǔ)義Web的不斷成熟而迅速興起的以用戶分類為基礎(chǔ)的新型網(wǎng)絡(luò)信息組織方式。它由網(wǎng)絡(luò)用戶自發(fā)定義一組標(biāo)簽對(duì)某類信息進(jìn)行描述,并根據(jù)標(biāo)簽被使用的頻次,選用高頻標(biāo)簽作為該類信息類名的一種為網(wǎng)絡(luò)信息分類方法。[10]隨著社會(huì)性軟件的發(fā)展,F(xiàn)olksonomy被應(yīng)用到越來(lái)越多的網(wǎng)絡(luò)系統(tǒng)中,用戶自發(fā)地對(duì)感興趣的信息標(biāo)注,并與其他用戶分享,每個(gè)用戶都可以貢獻(xiàn)自己的智慧構(gòu)建知識(shí)庫(kù)。[11,12]
2.1基于Folksonomy的計(jì)算機(jī)文獻(xiàn)分類
網(wǎng)上關(guān)于計(jì)算機(jī)資源的分類有很多種,豆瓣讀書(shū)最能體現(xiàn)分眾分類的特色。豆瓣網(wǎng)是Web 2.0網(wǎng)站中較具特色的一個(gè)網(wǎng)站,豆瓣讀書(shū)是其一個(gè)子欄目,網(wǎng)站中關(guān)于書(shū)的描述和評(píng)論都由用戶提供,用戶給任何一本書(shū)添加自己喜歡的標(biāo)簽,并與他人分享。
在豆瓣讀書(shū)中,計(jì)算機(jī)類圖書(shū)被以“科技”命名,分為科普、互聯(lián)網(wǎng)、編程、科學(xué)、交互設(shè)計(jì)、算法、程序、神經(jīng)網(wǎng)絡(luò)和web等十幾個(gè)大類。其中,互聯(lián)網(wǎng)又被用戶冠以運(yùn)營(yíng)、產(chǎn)品、網(wǎng)站、IT、創(chuàng)業(yè)、手機(jī)等標(biāo)簽。如豆瓣評(píng)分9.2的計(jì)算機(jī)類書(shū)籍《編程珠璣》,由1500多人參與評(píng)分,用戶給出340多個(gè)標(biāo)簽,比如:計(jì)算機(jī)、算法、程序設(shè)計(jì)、編程、編程藝術(shù)、programming、藝術(shù)、算法與數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)科學(xué)等。展開(kāi)每一個(gè)標(biāo)簽,還可以找到與此標(biāo)簽相關(guān)的其他圖書(shū)。并且每本書(shū)都有用戶對(duì)該書(shū)的評(píng)價(jià),供他人參考。
2.2 Folksonomy的優(yōu)點(diǎn)和不足
基于Folksonomy的分類非常靈活,它由用戶自發(fā)定義,根據(jù)個(gè)人使用習(xí)慣對(duì)資源進(jìn)行標(biāo)注和分類,易于被大眾接受;由于標(biāo)簽可以動(dòng)態(tài)修改,能夠動(dòng)態(tài)地更新網(wǎng)絡(luò)信息;通過(guò)參考其他用戶的標(biāo)簽,有助于發(fā)現(xiàn)以前未知的資源;有利于集中群體智慧,可以多角度多方位地標(biāo)識(shí)信息。[13]但基于Folksonomy的分類也存在不足。
(1)缺乏層次性。Folksonomy是一種平級(jí)的分類方式,很難使用它來(lái)揭示復(fù)雜的關(guān)系。如程序、IT、算法和互聯(lián)網(wǎng),很難說(shuō)清它們的上下級(jí)關(guān)系。
(2)表達(dá)概念模糊。由于用戶對(duì)標(biāo)簽含義的理解各異,在同一標(biāo)簽下,有可能會(huì)出現(xiàn)與主題完全無(wú)關(guān)的內(nèi)容。如《編程珠璣》中,有用戶標(biāo)注“藝術(shù)”、“2008”,表達(dá)的概念非常模糊,產(chǎn)生了一些垃圾信息,影響了標(biāo)簽含義的表達(dá)。
(3)缺乏同義詞控制。由于用戶用詞習(xí)慣的不同,會(huì)出現(xiàn)大量的同義詞表達(dá)同一個(gè)概念。如用戶可能會(huì)使用“編程”、“program”、“programming”或“程序設(shè)計(jì)”等來(lái)表示編程這個(gè)概念。
(4)低檢索效率。由于Folksonomy使用的是非受控詞,大量相似的標(biāo)簽使用導(dǎo)致用戶無(wú)法檢索到所有結(jié)果。比如,當(dāng)檢索“互聯(lián)網(wǎng)”時(shí),“web”、“internet”等一些標(biāo)引的內(nèi)容則檢測(cè)不到。
由此可見(jiàn),F(xiàn)olksonomy必須與傳統(tǒng)分類結(jié)合方能更好地發(fā)揮作用。
3.1構(gòu)建思想
傳統(tǒng)分類法在體系組織、概念描述上有優(yōu)勢(shì),而Folksonomy則靈活、適應(yīng)性強(qiáng),有利于表達(dá)用戶需求。另外,希望新的分類方法不僅僅能表達(dá)概念的關(guān)系,還能夠更好地表達(dá)概念的語(yǔ)義,因此提出構(gòu)建本體來(lái)實(shí)現(xiàn)兩者的融合。
第一步,參考傳統(tǒng)分類法對(duì)計(jì)算機(jī)文獻(xiàn)的初級(jí)分類:保持一級(jí)分類不變,保證學(xué)科的完整性和系統(tǒng)性。對(duì)子分類進(jìn)行刪減優(yōu)化,對(duì)層次較多的類目減少其層次,對(duì)較少文獻(xiàn)支持的類目進(jìn)行合并,增加能體現(xiàn)用戶需求和新知識(shí)的類目。第二步,基于Folksonomy對(duì)初級(jí)分類進(jìn)行優(yōu)化:進(jìn)行標(biāo)簽抽取、清洗、合并、過(guò)濾,清洗掉垃圾標(biāo)簽,合并同義詞,過(guò)濾低頻標(biāo)簽,得到反映用戶需求的新概念集合,并通過(guò)語(yǔ)義映射確定概念的層次關(guān)系,對(duì)概念集合分類構(gòu)建本體,形成新的計(jì)算機(jī)文獻(xiàn)分類方法。
圖1 本體構(gòu)建示意圖
3.2標(biāo)簽抽取及語(yǔ)義映射
在傳統(tǒng)分類法和Folksonomy構(gòu)建本體的過(guò)程中,新概念及語(yǔ)義關(guān)系的確定是關(guān)鍵。網(wǎng)絡(luò)標(biāo)簽抽取可編寫(xiě)代碼自動(dòng)抽取,也可手工抽取。另外,標(biāo)簽間缺乏層次性,上下級(jí)關(guān)系很難確定,這和傳統(tǒng)分類法是沖突的。因此,還需要進(jìn)行標(biāo)簽語(yǔ)義映射,確定標(biāo)簽間的關(guān)系及標(biāo)簽的語(yǔ)義。
圖2 標(biāo)簽抽取及語(yǔ)義映射過(guò)程示意圖
(1)抽取網(wǎng)絡(luò)資源中的標(biāo)簽進(jìn)行預(yù)處理。標(biāo)簽清洗去除垃圾標(biāo)簽、相似標(biāo)簽合并去除冗余、過(guò)濾掉低頻標(biāo)簽等,形成標(biāo)簽集M。還可以借助Google矯正拼寫(xiě)錯(cuò)誤。
(2)將標(biāo)簽集M與初始概念集N(傳統(tǒng)分類的概念集)進(jìn)行比對(duì),對(duì)于N中已經(jīng)存在的概念,不做處理,其余的歸于新標(biāo)簽集M’。將M’與在線詞典進(jìn)行比對(duì),將標(biāo)簽分為可映射的標(biāo)簽集A和不可映射的標(biāo)簽集B。
(3)將標(biāo)簽集A與在線詞典進(jìn)行映射并進(jìn)行語(yǔ)義關(guān)聯(lián),再通過(guò)網(wǎng)絡(luò)語(yǔ)義資源如Wikipedia確定與這些概念相關(guān)的頁(yè)面集。根據(jù)頁(yè)面集中出現(xiàn)最頻繁的術(shù)語(yǔ)確定與標(biāo)簽最相似的Wikipedia頁(yè)面,通過(guò)該頁(yè)面找到與標(biāo)簽對(duì)應(yīng)的概念,使用Wiki的詞條進(jìn)一步豐富標(biāo)簽的語(yǔ)義。經(jīng)過(guò)處理后,形成帶語(yǔ)義的標(biāo)簽集A’,加入到初始概念集N中。
(4)分析標(biāo)簽集合B中的概念是否和A有關(guān)系,通過(guò)聚類、關(guān)聯(lián)分析之后,將和A有關(guān)聯(lián)的概念加入到A’中,豐富標(biāo)簽的語(yǔ)義。
(5)對(duì)標(biāo)簽集B中和A沒(méi)有關(guān)聯(lián)的標(biāo)簽,從中篩選出高頻標(biāo)簽,這些標(biāo)簽是原有分類體系中沒(méi)有而用戶使用頻率高的,也將其加入到概念集中,形成新的概念集N’。
將標(biāo)簽分類,對(duì)應(yīng)于本體的概念,并將標(biāo)簽的語(yǔ)義關(guān)系轉(zhuǎn)化為本體中概念的關(guān)系,標(biāo)簽概念和本體概念的對(duì)應(yīng)關(guān)系如表所示。
表 標(biāo)簽概念和本體概念的對(duì)應(yīng)關(guān)系
4.1初級(jí)分類
根據(jù)上述分析,計(jì)算機(jī)本體初級(jí)分類仍然保持傳統(tǒng)文獻(xiàn)一級(jí)分類的結(jié)構(gòu),共11大類。對(duì)于子分類,TP31計(jì)算機(jī)軟件和TP39計(jì)算機(jī)應(yīng)用重新優(yōu)化分類,對(duì)其他子分類的處理的思路就是減少類的層次,尤其是減少無(wú)文獻(xiàn)保障(即新出版文獻(xiàn)數(shù)目較少)的分類。比如TP32-TP35,得到初級(jí)分類的結(jié)構(gòu)圖,如圖3所示。
圖3 初級(jí)分類結(jié)構(gòu)圖
4.2基于Folksonomy的優(yōu)化
計(jì)算機(jī)本體涉及的內(nèi)容比較多,為了清晰起見(jiàn),以計(jì)算機(jī)軟件類本體構(gòu)建為例進(jìn)行說(shuō)明。在豆瓣讀書(shū)上對(duì)“編程”、“算法”和“程序”分類抽取部分標(biāo)簽(見(jiàn)圖4)。
圖4 豆瓣讀書(shū)部分標(biāo)簽
從圖4可以看出,這些標(biāo)簽中有大量相同或類似的現(xiàn)象。如“計(jì)算機(jī)”、“計(jì)算機(jī)科學(xué)”、“計(jì)算機(jī)原理”;有些是相同意義不同表達(dá)形式,如“編程”和“programming”、“算法”和“Algorithms”等;有些是垃圾標(biāo)簽,和文獻(xiàn)內(nèi)容關(guān)聯(lián)不大,如“入門(mén)”、“藝術(shù)”等。
首先,對(duì)標(biāo)簽進(jìn)行預(yù)處理:清洗、合并、過(guò)濾、規(guī)范等,得到部分高頻標(biāo)簽集合{計(jì)算機(jī),編程,算法,程序設(shè)計(jì),數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)分析,數(shù)據(jù)庫(kù)……}。然后結(jié)合傳統(tǒng)分類方法,將計(jì)算機(jī)軟件領(lǐng)域分為操作系統(tǒng)、軟件工程、應(yīng)用軟件、數(shù)據(jù)庫(kù)和程序設(shè)計(jì)5大類。操作系統(tǒng)包括主流操作系統(tǒng)windows,unix,兼顧DOS,并新增加移動(dòng)操作系統(tǒng),包括Android、iOS、BlackBerry和Symbian等;軟件工程包括軟件設(shè)計(jì)、軟件測(cè)試和軟件工具等;應(yīng)用軟件包括文字處理軟件、表處理軟件、圖像處理軟件等;數(shù)據(jù)庫(kù)包括Oracle、SQL Server、DB2、Sybase等主流數(shù)據(jù)庫(kù);程序設(shè)計(jì)包括數(shù)據(jù)結(jié)構(gòu)、編程語(yǔ)言、算法和編譯程序,編程語(yǔ)言又包括C語(yǔ)言、JAVA語(yǔ)言、匯編語(yǔ)言和其他語(yǔ)言。
4.3本體模型
根據(jù)上述得到的概念集及語(yǔ)義關(guān)系,采用本體建構(gòu)工具Protégé4.3構(gòu)建了一個(gè)計(jì)算機(jī)軟件類本體模型(見(jiàn)圖5)。
圖5 計(jì)算機(jī)軟件類本體模型
從模型可以看出,本體可以表達(dá)更豐富的語(yǔ)義。如《C程序設(shè)計(jì)語(yǔ)言》既可以歸為C語(yǔ)言,又可歸為算法;《數(shù)據(jù)結(jié)構(gòu)與算法分析》可以同時(shí)歸于C語(yǔ)言、算法和數(shù)據(jù)結(jié)構(gòu)。從豆瓣讀書(shū)上分別查看這兩本書(shū)的標(biāo)簽,《C程序設(shè)計(jì)語(yǔ)言》的高頻標(biāo)簽是{C編程c語(yǔ)言計(jì)算機(jī)程序設(shè)計(jì)經(jīng)典programming編程語(yǔ)言},《數(shù)據(jù)結(jié)構(gòu)與算法分析》的高頻標(biāo)簽是{數(shù)據(jù)結(jié)構(gòu)算法計(jì)算機(jī)C編程數(shù)據(jù)結(jié)構(gòu)與算法分析算法、數(shù)據(jù)結(jié)構(gòu)C語(yǔ)言}。很顯然,該本體的文獻(xiàn)分類和用戶的高頻標(biāo)簽是一致的,而高頻標(biāo)簽代表了大多數(shù)用戶對(duì)資源的理解,這也說(shuō)明了該分類方法是符合大多數(shù)用戶認(rèn)知的。
本研究提出了基于傳統(tǒng)分類和Folksonomy結(jié)合的本體構(gòu)建方法進(jìn)行的文獻(xiàn)分類,并構(gòu)建了計(jì)算機(jī)文獻(xiàn)本體模型,研究了Folksonomy對(duì)傳統(tǒng)分類的補(bǔ)充作用。該方法既保證了傳統(tǒng)分類的科學(xué)性,又體現(xiàn)了用戶需求。由于Folksonomy的自由性、開(kāi)放性,用戶對(duì)標(biāo)簽的標(biāo)注更是五花八門(mén),所以要想更好地發(fā)揮網(wǎng)絡(luò)標(biāo)注的作用,標(biāo)簽的自動(dòng)抽取和充分的語(yǔ)義映射是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
[參考文獻(xiàn)]
[1]周霞,周俊.傳統(tǒng)文獻(xiàn)分類法的改進(jìn)研究[J].高校圖書(shū)館工作, 2013, 33(3): 74-76.
[2]邱陸英.傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類系統(tǒng)的比較分析[J].圖書(shū)館學(xué)刊,2008(6):130-132.
[3]龍衛(wèi)東,等.文獻(xiàn)分類法,信息分類法和分眾分類法探究[J].情報(bào)探索,2010(4): 6-8.
[4]歐陽(yáng)寧,胡飛燕.基于本體的《中圖法》類目可視化查詢系統(tǒng)的設(shè)計(jì)[J].圖書(shū)情報(bào)工作, 2009, 53(5): 43,46-86.
[5]吳瓊,袁曦臨.基于Folksonomy的網(wǎng)絡(luò)文學(xué)書(shū)目資源本體構(gòu)建[J].圖書(shū)館雜志, 2013(7):4.
[6]戴建陸.計(jì)算機(jī)技術(shù)圖書(shū)分類若干問(wèn)題的探討[J].圖書(shū)館建設(shè), 2007(3):69-71.
[7]李鋒.計(jì)算機(jī)軟件類圖書(shū)分類標(biāo)引存在的問(wèn)題及對(duì)策研究[J].圖書(shū)館論壇,2009(1):108-110.
[8]官鳳婷.基于文獻(xiàn)計(jì)量的國(guó)內(nèi)Folksonomy研究現(xiàn)狀分析[J].圖書(shū)館論壇,2012,32(4):94-100.
[9]金岳晴,壽曼麗.中外大眾分類法研究的比較分析[J].新世紀(jì)圖書(shū)館, 2012(9):21-24.
[10]薛涵,等.基于Folksonomy的本體構(gòu)建綜述[J].電子學(xué)報(bào),2014,42(4):791-797.
[11]Spiteri L F.The structure and form of folksonomy tags: The road to the public library catalog[J].Information technologyandlibraries,2013,26(3):13-25.
[12]Cantador I,et al.Categorising social tags to improve folksonomy-basedrecommendations[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(1):1-15.
[13]陳潔,司莉.社會(huì)分類法(Folksonomy)特點(diǎn)及其應(yīng)用研究[J].圖書(shū)與情報(bào),2008,152(3): 27-30.
Literature Classification Study Based on Combined Ontology——Illustrated by the Case of Computer Science
Chen Li-na
Abstract:Traditional literature classification can't satisfy the requirements of literature organization and user demand. The article, taking computer science discipline as an example, makes a comparative study on traditional literature classification and Folksonomy to analyzes their advantages and disadvantages respectively, and proposes an ontology construction method combining traditional literature classification and Folksonomy to classify literature. The article studies tag extraction and semantic mapping approach based on Folksonomy, and tries to build computer literature ontology by taking "Douban" reading as a reference, so as to verify the classification. The experiment shows the method can organize literature resources effectively, and can meet users demand with practical significance for literature classification.
Keywords:Ontology;Literature Classification;Folksonomy;Tag;Computer
[收稿日期]2015-09-20[責(zé)任編輯]劉丹
[作者簡(jiǎn)介]陳麗娜(1977-),女,博士,副教授,研究方向:信息系統(tǒng)管理、科學(xué)計(jì)算可視化等。
[基金項(xiàng)目]本文系國(guó)家科技基礎(chǔ)條件平臺(tái)項(xiàng)目(項(xiàng)目編號(hào):2005DKA21001),河南省科技廳基礎(chǔ)與前沿項(xiàng)目(項(xiàng)目編號(hào):142300410395)的研究成果。
中圖分類號(hào):G254.11
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1005-8214(2016)03-0052-05