張?jiān)浦?,李佳佳(上海大學(xué)圖書情報(bào)檔案系)
國(guó)外Folksonomy與Ontology融合研究的熱點(diǎn)與趨勢(shì)
張?jiān)浦?,李佳佳(上海大學(xué)圖書情報(bào)檔案系)
以2005~2015年期間Web of science(SSCI)數(shù)據(jù)庫(kù)中有關(guān)本體與大眾分類法融合研究的相關(guān)文獻(xiàn)為數(shù)據(jù)來源,采用共詞分析法,以SPSS軟件為工具,對(duì)提取出的高頻關(guān)鍵詞進(jìn)行聚類分析和多維尺度分析,研究各高頻關(guān)鍵詞之間的內(nèi)在關(guān)系,發(fā)現(xiàn)并探討國(guó)外本體與大眾分類法融合研究的四個(gè)熱點(diǎn)與趨勢(shì),以期為國(guó)內(nèi)學(xué)界相關(guān)研究提供啟示。
本體;大眾分類法;標(biāo)簽;融合;共詞分析
Folksonomy源于web2.0下網(wǎng)絡(luò)資源組織理論與實(shí)踐的發(fā)展,其由詞根folks和onomy組合而成,folks指人、大眾,onomy指一種系統(tǒng)、專門的學(xué)科知識(shí),二者結(jié)合簡(jiǎn)言之就是“由大眾所產(chǎn)生的一種分類知識(shí)”。更精確地解釋是“一群人自發(fā)性定義的平面非層級(jí)式標(biāo)簽分類方法”,[1]國(guó)內(nèi)一般譯為大眾分類法。Ontology(本體)是共享概念模型的明確形式化規(guī)范說明,旨在通過捕獲領(lǐng)域知識(shí),用高度形式化的模型給出領(lǐng)域共享詞匯間關(guān)系的明確定義。作為知識(shí)表示與組織的新興工具,二者的優(yōu)劣形成了鮮明的互補(bǔ)特色。本體具有高度形式化、準(zhǔn)確性、規(guī)范性、可復(fù)用性等優(yōu)點(diǎn),但是創(chuàng)建成本高、靈活性低、不易變化等,而大眾分類法具有低成本、高靈活性、易變動(dòng)等優(yōu)點(diǎn),但存在非形式化、語(yǔ)義模糊和語(yǔ)義稀疏等缺點(diǎn)。[2]在此背景下,本體與大眾分類法的融合研究逐漸興起,如何利用本體與大眾分類法的融合優(yōu)化web2.0下的資源組織成為國(guó)內(nèi)外學(xué)者們關(guān)注的熱點(diǎn)。國(guó)外學(xué)者自2005年起就關(guān)注二者的融合研究,相比而言,國(guó)內(nèi)則起步較晚。本文旨在提取Web of science(SSCI)數(shù)據(jù)庫(kù)中2005~2015年期間發(fā)表的有關(guān)二者融合的文獻(xiàn),分析梳理該主題的研究熱點(diǎn)及發(fā)展趨勢(shì),希望對(duì)國(guó)內(nèi)該領(lǐng)域的研究者提供一些啟示。
1.1數(shù)據(jù)的獲取與處理
本文主要以Web of science(SSCI)全文數(shù)據(jù)庫(kù)作為數(shù)據(jù)來源,分別以 SU=“tag and ontology”和SU=“folskonomy and ontology”為檢索式進(jìn)行檢索,限定研究方向?yàn)閕nformation science library science和computer science,共檢索出文獻(xiàn)469篇,經(jīng)過去重、無關(guān)文獻(xiàn)去除和無關(guān)鍵詞文獻(xiàn)去除后,得到文獻(xiàn)281篇,關(guān)鍵詞共678個(gè),總詞頻為1410。為提高共詞分析的精準(zhǔn)度,本文對(duì)獲取的關(guān)鍵詞做了如下處理和篩選:① 不同關(guān)鍵詞但含義相同或相近的,進(jìn)行合并處理,如關(guān)鍵詞 tag、tags、social tag、social book-mark統(tǒng)一合并為tag;② 關(guān)鍵詞的大小寫和單復(fù)數(shù)不同的,統(tǒng)一成單數(shù)、小寫,如Digital library和digital libraries統(tǒng)一合并為digital library;③ 關(guān)鍵詞與研究主題關(guān)系不緊密的,進(jìn)行刪除;④ 關(guān)鍵詞書寫錯(cuò)誤的,進(jìn)行改正。整理后的結(jié)果見表1。
表1 關(guān)鍵詞篩選表(部分)
關(guān)鍵詞處理和篩選后就可選取高頻詞,對(duì)此學(xué)界一般采用兩種方式:①根據(jù)齊普夫第二定律公式,計(jì)算得出高頻詞界限值后選取;②由研究者根據(jù)領(lǐng)域情況自主選取。鑒于本文涉及的領(lǐng)域較新,文獻(xiàn)數(shù)量不夠龐大,故采用第二種方式,取頻次為5以上的關(guān)鍵詞作為高頻詞,共統(tǒng)計(jì)出高頻詞37條(見表2),涉及文獻(xiàn)254篇,占總文獻(xiàn)數(shù)的90.4%,因而在一定程度上能夠代表國(guó)外最近10年有關(guān)本體與大眾分類法融合研究熱點(diǎn)。
表2 高頻關(guān)鍵詞
1.2矩陣構(gòu)建
雖然表2中關(guān)鍵詞的詞頻排序在一定程度上代表了folksonomy與ontology融合的熱點(diǎn),但是這種線性排序未能反映出關(guān)鍵詞之間的關(guān)聯(lián),因而需要進(jìn)一步研究不同關(guān)鍵詞在同一篇文獻(xiàn)中的共現(xiàn)情況來發(fā)現(xiàn)研究熱點(diǎn)間的關(guān)聯(lián),進(jìn)而發(fā)現(xiàn)二者的融合熱點(diǎn)與趨勢(shì)。為此,本文構(gòu)建了用于共詞分析的 37*37的共詞矩陣(見表3),并以此為基礎(chǔ)進(jìn)行多元統(tǒng)計(jì)分析。
本文采用聚類分析和多維尺度分析結(jié)合的方式來分析二者融合研究的熱點(diǎn)和趨勢(shì),為滿足這兩種分析方法對(duì)矩陣的數(shù)據(jù)結(jié)構(gòu)要求并保證數(shù)據(jù)的精確性,需將共詞矩陣轉(zhuǎn)化為相似矩陣和相異矩陣。共詞矩陣轉(zhuǎn)換成相關(guān)矩陣可用計(jì)算ochiia系數(shù)來實(shí)現(xiàn),計(jì)算公式為:A,B兩詞Ochiia系數(shù)=A,B兩詞共同出現(xiàn)的次數(shù)/。相關(guān)矩陣中對(duì)角線上的數(shù)據(jù)都為1,表示某詞自身的相關(guān)程度。一般情況下,相關(guān)矩陣中0值過多會(huì)導(dǎo)致較大的統(tǒng)計(jì)誤差,因而需要用“1”減去相關(guān)矩陣中的全部數(shù)據(jù),得到表示兩詞間相異程度的相異矩陣(見表4)。相異矩陣中,數(shù)值越小,則表示關(guān)鍵詞之間的關(guān)系越近,反之亦然。
表3 共詞矩陣(部分)
表4 相異矩陣(部分)
2.1聚類分析
聚類分析又稱集群分析,是統(tǒng)計(jì)學(xué)中研究物以類聚問題的多元統(tǒng)計(jì)分析方法,其目的在于將對(duì)象加以聚集、分類,使得在群體內(nèi)的個(gè)體的同質(zhì)性很高,群體之間的異質(zhì)性也很高。本文使用聚類分析的目的是把關(guān)聯(lián)程度較密切的關(guān)鍵詞聚集到一個(gè)類團(tuán)中,進(jìn)而協(xié)助folksonomy與ontology融合研究方向的劃分。具體做法是將表4中的相異矩陣導(dǎo)入SPSS軟件中,運(yùn)用其中的聚類分析功能對(duì)其進(jìn)行層次聚類分析,得出所要研究的高頻關(guān)鍵詞的樹狀圖(圖1)。
圖1 聚類分析樹狀圖
根據(jù)統(tǒng)計(jì)出來的聚類圖,在閾值為24.1處把關(guān)鍵詞分為4個(gè)類團(tuán),其中類團(tuán)一包含的關(guān)鍵詞主要有metadata、recommender system等,涉及文獻(xiàn)38篇;類團(tuán)二是圖中較大的一塊,包含的關(guān)鍵詞主要有ontology、folksonomy、web2.0等,涉及文獻(xiàn)247篇;類團(tuán)三包含的關(guān)鍵詞主要有OWL、RDF等,涉及文獻(xiàn)25篇;類團(tuán)四包含的關(guān)鍵詞主要有service discovery、information management、information extraction等,涉及文獻(xiàn)66篇。這四個(gè)類團(tuán)共計(jì)包含文獻(xiàn)376篇,因?yàn)橛兄貜?fù)統(tǒng)計(jì),所以總數(shù)要大于實(shí)際論文數(shù),根據(jù)各個(gè)類團(tuán)所占文獻(xiàn)篇數(shù)可知,第二類團(tuán)是目前國(guó)外關(guān)于大眾分類法和本體融合研究的一個(gè)主要熱點(diǎn),也是本文第三部分所要重點(diǎn)闡述的內(nèi)容。
2.2多維尺度分析
多維尺度分析是分析研究對(duì)象的相似性或差異性的一種多元統(tǒng)計(jì)分析方法,其目的是將研究個(gè)體之間的距離盡可能用二維或者三維的空間距離加以反映,這樣可以客觀地反映研究個(gè)體之間的相似性關(guān)系。本文利用多維尺度分析,目的是將ontology與folksonomy融合研究的高頻關(guān)鍵詞投射在一張知識(shí)圖譜呈點(diǎn)狀分布,并計(jì)算各個(gè)關(guān)鍵詞之間的Euciliden距離來實(shí)現(xiàn)關(guān)鍵詞的聚集,進(jìn)而輔助folksonomy與ontology融合研究方向的劃分。具體做法是將相異矩陣(見表4)導(dǎo)入SPSS中,通過度量功能,對(duì)導(dǎo)入的相異矩陣進(jìn)行多維尺度PROXSCAL分析,得出一個(gè)具有二維空間效果的可視化圖表,即多維尺度分析圖(見圖2)。根據(jù)多維尺度分析圖,二者融合的領(lǐng)域可大致劃分為三個(gè)區(qū)域:區(qū)域一涉及的關(guān)鍵詞包括Ontology、folksonomy、semantic等 14個(gè);區(qū)域二涉及的關(guān)鍵詞包括web2.0、owl、RDF、metedata、reasoning等15個(gè);區(qū)域三涉及的關(guān)鍵詞包括information management、informationenrichment等8個(gè)。
圖2 多維尺度分析圖
根據(jù)2005~2015年folksonomy與ontology融合領(lǐng)域相關(guān)文獻(xiàn)高頻關(guān)鍵詞表及依托該表展開的聚類分析圖和多維尺度分析圖,本文展開如下分析。
聚類分析圖中的類團(tuán)2和多維尺度分析圖中的區(qū)域1關(guān)鍵詞具有很高的重合率,且關(guān)鍵詞之間的內(nèi)在關(guān)聯(lián)都反映出folksonomy與ontology之間的相互優(yōu)化,本文由此得出兩個(gè)研究熱點(diǎn):熱點(diǎn)一是利用ontology優(yōu)化folksonomy語(yǔ)義,熱點(diǎn)二是利用folksonomy實(shí)現(xiàn)本體開發(fā)及演進(jìn)。
聚類分析圖中的類團(tuán)1及類團(tuán)3和多維尺度分析圖中的區(qū)域2關(guān)鍵詞具有很高的重合率,且關(guān)鍵詞之間的內(nèi)在關(guān)聯(lián)都反映出利用其它工具強(qiáng)化ontology與folksonomy融合的研究,此為熱點(diǎn)三。
聚類分析圖中的類團(tuán)4和多維尺度分析圖中的區(qū)域3關(guān)鍵詞具有很高的重合率,且關(guān)鍵詞之間的內(nèi)在關(guān)聯(lián)都反映出利用ontology和folksonomy融合的優(yōu)勢(shì)解決信息資源管理領(lǐng)域的問題,此為熱點(diǎn)四。
3.1熱點(diǎn)一:利用ontology優(yōu)化folksonomy語(yǔ)義
熱點(diǎn)一涉及的關(guān)鍵詞共14個(gè),總詞頻為437,詞頻較高的有ontology、folksonomy、social tagging、tag、semantic web、information retrieval、collaborative tagging,占總詞頻的82.2%。從高頻關(guān)鍵詞表2可以看出,這些關(guān)鍵詞都是排在前幾位的,說明是近幾年國(guó)外學(xué)者對(duì)有關(guān)本體與大眾分類法融合研究的核心主題。該熱點(diǎn)聚焦于如何利用ontology提高folksonomy檢索語(yǔ)義,具體的實(shí)現(xiàn)途徑又可以分為四個(gè)分支。
(1)建立標(biāo)簽與本體之間的語(yǔ)義映射。涉及的主要關(guān)鍵詞有tag、ontology、semantic、semanticweb、information retrieval等。國(guó)外學(xué)者普遍認(rèn)為,folksonomy扁平化的資源組織和表示結(jié)構(gòu)決定了其僅能揭示稀疏、模糊語(yǔ)義,要提高檢索的精度,就需要通過語(yǔ)義映射借助其他形式化的語(yǔ)義工具來輔助folksonomy標(biāo)簽語(yǔ)義關(guān)系的建立。在此主導(dǎo)思想下,ontology成為國(guó)外學(xué)者的首選,建立標(biāo)簽與本體之間的映射成為一種比較常用且有效的方法,利用本體強(qiáng)化folksonomy語(yǔ)義,使標(biāo)簽與標(biāo)簽之間的結(jié)構(gòu)、關(guān)系更為規(guī)范、精確和豐富,進(jìn)而提高檢索的精準(zhǔn)度。該類研究中具有代表性的研究是Lezcano L等提出的利用標(biāo)簽向本體映射建立混合導(dǎo)航環(huán)境來提高大眾分類法的檢索效率。[3]建立標(biāo)簽與本體之間語(yǔ)義映射的難點(diǎn)在于如何利用統(tǒng)計(jì)、聚類等方式高效、簡(jiǎn)潔、準(zhǔn)確地建立映射進(jìn)而清晰化標(biāo)簽之間的上下位屬種關(guān)系,因而不斷探索建立二者映射的新理論、新方法就成為該類研究的必然趨勢(shì)。
(2)利用本體規(guī)范標(biāo)注活動(dòng)的研究。涉及的主要關(guān)鍵詞有 socialtagging、tagontology、collaborative tagging、ontology等。這類研究的主要思想是利用本體的語(yǔ)義控制功能在語(yǔ)義層次上構(gòu)建標(biāo)簽語(yǔ)義網(wǎng)絡(luò),進(jìn)而實(shí)現(xiàn)對(duì)用戶的標(biāo)注行為進(jìn)行標(biāo)識(shí)和控制。國(guó)外學(xué)者根據(jù)不同的設(shè)計(jì)理念設(shè)計(jì)了相應(yīng)的標(biāo)簽本體模型,其中代表性的是三元組模型Tag ontology(user,tagging,tag)[4]和四元組模型 MOAT(user,resource,tag,meaning)。[5]在此基礎(chǔ)上更深入一步,分析每個(gè)標(biāo)簽本體模型的異同點(diǎn),整合不同的標(biāo)簽本體模型將成為該思路下近年來研究的趨勢(shì)。另外,在本體輔助的基礎(chǔ)上實(shí)現(xiàn)對(duì)資源的自動(dòng)標(biāo)注也是國(guó)外近年來探索的新方向之一,該類研究中代表性的是Rattanapanich R等利用本體和潛在語(yǔ)義分析技術(shù)實(shí)現(xiàn)自動(dòng)標(biāo)注,并通過比較自動(dòng)標(biāo)注和手動(dòng)標(biāo)注,發(fā)現(xiàn)自動(dòng)標(biāo)注方法返回的結(jié)果更加精確。[6]
(3)利用本體表示用戶興趣模型實(shí)現(xiàn)個(gè)性化推薦。涉及關(guān)鍵詞有recommender system、ontology、tag、information retrieval等。除明晰標(biāo)簽語(yǔ)義和規(guī)范標(biāo)注活動(dòng)外,為用戶推薦符合其興趣偏好的資源也是提高folksonomy檢索語(yǔ)義的重要途徑,國(guó)外學(xué)者由此思想衍生出了利用本體構(gòu)建用戶興趣模型實(shí)現(xiàn)folksonomy資源的個(gè)性化推薦的研究方向。用戶興趣可在社會(huì)化標(biāo)注系統(tǒng)中用戶對(duì)偏好資源的配置文件的基礎(chǔ)上獲得,代表性的研究是Movahedian H等在用戶配置文件基礎(chǔ)上改善和提出新的個(gè)性化推薦系統(tǒng),[7]也可通過收集用戶標(biāo)簽和分析用戶的標(biāo)注活動(dòng)等方法獲得,代表性的研究是Han X等通過收集用戶標(biāo)簽構(gòu)建出用戶興趣模型實(shí)現(xiàn)標(biāo)簽推薦。[8]用戶興趣模型的結(jié)果一般用本體表示,以實(shí)現(xiàn)對(duì)用戶興趣模型的精確化、形式化表達(dá)。從研究趨勢(shì)看,依托數(shù)據(jù)挖掘方法從“用戶集、資源集、標(biāo)簽集”獲取用戶興趣較之從用戶配置文件獲取用戶偏好更具發(fā)展前景,更能提高個(gè)性化推薦的準(zhǔn)確性、多樣化、新穎性和動(dòng)態(tài)性。另外,當(dāng)前的個(gè)性化推薦大多針對(duì)單用戶,針對(duì)用戶群體的偏好資源推薦也將成為研究趨勢(shì)之一。
(4)利用本體實(shí)現(xiàn)跨平臺(tái)的語(yǔ)義關(guān)聯(lián)。涉及的主要關(guān)鍵詞有folksonomy、ontology、linked data等。從單平臺(tái)的資源檢索發(fā)展成為跨平臺(tái)的資源檢索是國(guó)外folksonomy語(yǔ)義檢索領(lǐng)域近年來研究的一步試探。實(shí)現(xiàn)跨平臺(tái)資源檢索的前提是必須選擇具有語(yǔ)義重疊的同類社會(huì)化標(biāo)注系統(tǒng),其難點(diǎn)在于建立不同平臺(tái)間的語(yǔ)義關(guān)聯(lián),核心在于選擇實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的工具。近年來,由于本體的平臺(tái)無關(guān)性、共享性、可復(fù)用性、形式化等優(yōu)點(diǎn),國(guó)外學(xué)者普遍將本體作為實(shí)現(xiàn)跨平臺(tái)語(yǔ)義檢索工具的不二選擇,代表性的研究是Kim HL等利用跨平臺(tái)的標(biāo)簽本體整合實(shí)現(xiàn)對(duì)網(wǎng)站間標(biāo)注數(shù)據(jù)的共享和鏈接,通過對(duì)標(biāo)注數(shù)據(jù)的整合來提高信息檢索效率。[9]另外,隨著關(guān)聯(lián)數(shù)據(jù)研究的不斷深入,利用本體和關(guān)聯(lián)數(shù)據(jù)結(jié)合實(shí)現(xiàn)跨平臺(tái)的語(yǔ)義關(guān)聯(lián)也成為不錯(cuò)的選擇,代表性的研究是Passant A等提出MOAT本體和關(guān)聯(lián)數(shù)據(jù)整合方案。[10]就發(fā)展趨勢(shì)而言,關(guān)聯(lián)數(shù)據(jù)的應(yīng)用為實(shí)現(xiàn)跨平臺(tái)語(yǔ)義關(guān)聯(lián)注入了新活力,關(guān)聯(lián)數(shù)據(jù)與本體結(jié)合將成為未來解決該類問題的主流方法。
3.2熱點(diǎn)二:利用folksonomy實(shí)現(xiàn)本體開發(fā)及演進(jìn)
熱點(diǎn)二涉及的關(guān)鍵詞有folksonomy、ontology、ontology learning、ontology development和ontology enrichment等,其中后三個(gè)的詞頻依次為4、4和3,所以沒有出現(xiàn)在高頻關(guān)鍵詞表里,但是它們又是與該熱點(diǎn)緊密相連的,所以把它們也放在討論中。較之熱點(diǎn)一,熱點(diǎn)二的相關(guān)研究成果尚不豐碩,但卻正處于逐年上升的發(fā)展趨勢(shì)。該熱點(diǎn)主要聚焦于如何用folksonomy去實(shí)現(xiàn)本體開發(fā)、本體學(xué)習(xí)和本體豐富的研究,下面從兩個(gè)方面進(jìn)行闡述。
(1)本體開發(fā)與構(gòu)建的研究。涉及的關(guān)鍵詞主要有folksonomy、ontology、ontology development。該方向的主導(dǎo)思想是充分發(fā)揮二者的互補(bǔ)性,借助folksonomy標(biāo)簽的群體性來確保本體概念的共享性,借助folksonomy大眾參與的低廉成本來縮減本體構(gòu)建的高昂成本,借助folksonomy更新快速來確保本體演進(jìn)的時(shí)效性,基于folksonomy實(shí)現(xiàn)本體構(gòu)建的術(shù)語(yǔ)收集、概念關(guān)系確立、屬性實(shí)例填充、規(guī)則建立等環(huán)節(jié),正如Chen W等指出,folksonomy是生成本體的潛在知識(shí)源,可以用folksonomy的基本層次概念來生成本體。[11]就本體構(gòu)建的結(jié)果而言,國(guó)外學(xué)者大多傾向于構(gòu)建具有折衷和融合意味的tag ontology、folksonomized ontology等,并將其應(yīng)用到社會(huì)化標(biāo)注系統(tǒng)中作為導(dǎo)航之用,該方面的代表性研究是Alves H等利用兩者的融合構(gòu)建folksonomized ontology,并利用3E技術(shù)提取、豐富和評(píng)估本體。[12]該方向的研究趨勢(shì)是形成一種依托于folksonomy環(huán)境的本體開發(fā)理論和方法,作為對(duì)傳統(tǒng)依托專家知識(shí)構(gòu)建本體的補(bǔ)充和拓展。
(2)本體學(xué)習(xí)或本體豐富的研究。涉及的主要關(guān)鍵詞有folksonomy、ontology、ontology learning、ontology enrichment和e-learning。國(guó)外學(xué)者開展本體學(xué)習(xí)或本體豐富的思路是自動(dòng)或半自動(dòng)地從folksonomy數(shù)據(jù)源中提取概念和關(guān)系,進(jìn)而形成本體或?qū)σ延斜倔w的概念、概念關(guān)系、屬性、實(shí)例或規(guī)則進(jìn)行豐富和完善,該類研究開展仍然是建立在folksonomy與ontology融合基礎(chǔ)上,且本體學(xué)習(xí)和本體豐富往往一脈相承,前者作為后者的主要方法和途徑。該研究方向上具有代表性的研究是 Freddo A R等通過本體學(xué)習(xí)和本體評(píng)估技術(shù)結(jié)合的方法利用本體校正方法進(jìn)行本體豐富。[13]另外,利用基于標(biāo)簽的本體豐富來支持電子學(xué)習(xí)是國(guó)外學(xué)者近年來研究的一個(gè)創(chuàng)舉,Monachesi P等通過用戶評(píng)價(jià)對(duì)比了本體豐富和標(biāo)簽集群在支持學(xué)習(xí)任務(wù)方面的影響,[14]認(rèn)為前者更具優(yōu)勢(shì)。就研究趨勢(shì)而言,本方向仍將著眼于自動(dòng)或半自動(dòng)地從folksonomy標(biāo)簽集中抽取概念和概念關(guān)系,因而對(duì)本體學(xué)習(xí)方法的改進(jìn),對(duì)本體學(xué)習(xí)工具的完善,對(duì)本體學(xué)習(xí)結(jié)果的評(píng)價(jià)都將是學(xué)者們關(guān)注的焦點(diǎn)。
3.3熱點(diǎn)三:利用其它工具強(qiáng)化ontology與folksonomy融合的研究
熱點(diǎn)三涉及的主要關(guān)鍵詞較多,有 metadata、knowledge representation、conceptual model、formal conceptanalysis、RDF、linkeddata、owl、wordnet等,但各詞的詞頻均不高,說明該類研究呈現(xiàn)多樣化、多方案的趨勢(shì)。該研究方向主要聚焦于利用其它工具最大限度地彌補(bǔ)和消除兩者融合的負(fù)面效應(yīng),國(guó)外學(xué)者著重關(guān)注的研究方向如下。
(1)ontology、folksonomy的異同優(yōu)劣對(duì)比。涉及的關(guān)鍵詞主要是metadata、knowledge representation等。國(guó)外學(xué)者認(rèn)為,ontology和folksonomy都可視為特殊的元數(shù)據(jù),二者在知識(shí)表示的視角下各具優(yōu)劣。開展這類研究的時(shí)期都較早,結(jié)論也很成熟,為二者融合奠定了堅(jiān)實(shí)基礎(chǔ),代表性的研究是Christiaens S等較早指出ontology與folksonomy作為不同元數(shù)據(jù)機(jī)制具有一定的區(qū)別與聯(lián)系,通過兩者的互補(bǔ)結(jié)合,借助方法論,可以解決二者的缺陷。[15]
(2)利用其它工具實(shí)現(xiàn)對(duì)folksonomy的輔助或優(yōu)化。涉及的關(guān)鍵詞主要有 conceptual model、formal concept analysis等。該研究方向的基本思路是利用相關(guān)理論、方法和技術(shù)消除二者融合中的標(biāo)簽歧義、標(biāo)簽?zāi):葐栴},通過賦予標(biāo)簽清晰的語(yǔ)義化概念,使標(biāo)簽變成具有語(yǔ)義豐富的層次化結(jié)構(gòu),從而在社會(huì)化標(biāo)注系統(tǒng)中能被更好地使用,其中代表性的研究有:Kim H L利用概念語(yǔ)義模型描述標(biāo)簽的核心概念和相關(guān)特性,推導(dǎo)出標(biāo)簽之間的關(guān)系;[16]Jschke R等利用形式概念分析發(fā)現(xiàn)標(biāo)簽集中隱含的共享的概念及概念層次,并進(jìn)行形式化的定義,實(shí)現(xiàn)folksonomy概念層次發(fā)現(xiàn)[17]等。 就研究趨勢(shì)而言,此類研究仍將呈現(xiàn)多元化,除去上面提到的概念模型和FCA之外,分類法、敘詞表、主題詞等受控詞表的引入,統(tǒng)計(jì)方法、聚類方法的使用,數(shù)據(jù)挖掘技術(shù)、可視化建模技術(shù)應(yīng)用都會(huì)從不同角度、不同側(cè)面彌補(bǔ)二者融合中folksonomy自身的缺陷。
(3)利用其它工具實(shí)現(xiàn)對(duì)本體的輔助或優(yōu)化。涉及的關(guān)鍵詞有 RDF、owl、wordnet、reasoning等。該研究方向的主導(dǎo)思想是利用相關(guān)理論、方法和技術(shù)輔助解決二者融合過程中本體的形式化表示、本體概念語(yǔ)義關(guān)系結(jié)構(gòu)的解析、本體推理等問題。RDF三元組和owl語(yǔ)言在目前本體形式化描述語(yǔ)言中仍占主流,在描述本體概念的關(guān)系、屬性與屬性之間的關(guān)系等方面仍然不可或缺。Wordnet通常被國(guó)外學(xué)者作為通用本體或語(yǔ)義庫(kù)用以確立同義詞集或上下位語(yǔ)義關(guān)系,輔助標(biāo)簽語(yǔ)義確立或本體構(gòu)建,代表性的研究是Chen R C利用wordnet識(shí)別語(yǔ)義,協(xié)助完成自動(dòng)化的領(lǐng)域本體構(gòu)建。[18]另外,為提高二者融合環(huán)境下資源檢索的智能性,國(guó)外學(xué)者從語(yǔ)義推理入手,嘗試通過豐富和完善本體推理規(guī)則解決該問題。該方向的研究仍將延續(xù)過去幾年的思路,不斷探索新的更合理的本體形式化表示方式,不斷完善類似WordNet的語(yǔ)義結(jié)構(gòu)體系,不斷提升智能推理的水平。
3.4熱點(diǎn)四:利用ontology和folksonomy融合的優(yōu)勢(shì)解決信息資源管理領(lǐng)域的問題
熱點(diǎn)四涉及的關(guān)鍵詞包括 information retrieval、image retrieval、service discovery、information management、 informationextraction、 informationenrichment等。該研究方向的主導(dǎo)思想是既不用本體去優(yōu)化folksonomy,也不用folksonomy來豐富本體,而是將兩者放在平等地位上,充分發(fā)揮各自優(yōu)勢(shì)來解決信息資源管理領(lǐng)域信息檢索、圖像檢索、服務(wù)發(fā)現(xiàn)、信息管理、信息抽取和信息豐富等問題。folksonomy由大眾構(gòu)建,技術(shù)簡(jiǎn)易,成本低廉又具有柔性,在解決信息資源管理領(lǐng)域問題時(shí)方便易用,適合用于前段與用戶互動(dòng);ontology語(yǔ)義準(zhǔn)確且豐富,形式化程度高,在解決信息資源管理領(lǐng)域問題時(shí)精準(zhǔn)可靠,適合用于后臺(tái)作為保障。該方向具有代表性的研究有Peng X等利用眾分類法和本體融合,使數(shù)字地名系統(tǒng)能夠提供智能的數(shù)字地名信息服務(wù),從而提高地理信息檢索的能力。[19]Bindelli S等利用整合了大眾分類法與本體的優(yōu)勢(shì)從而達(dá)到提高信息搜索與導(dǎo)航的目的。[20]Karimpour R等利用本體從語(yǔ)義上增強(qiáng)web服務(wù)和實(shí)現(xiàn)web服務(wù)發(fā)現(xiàn)。就研究趨勢(shì)而言,隨著web2.0實(shí)踐的不斷發(fā)展和深入,該熱點(diǎn)在folksonomy與ontology融合領(lǐng)域所占的比重將越來越高,其原因在于二者融合的終極目標(biāo)不是為了融合而融合,而是為解決現(xiàn)實(shí)問題而融合。
[1]王爽,徐行.基于用戶分類標(biāo)簽建立結(jié)構(gòu)性的大眾分類法[J].圖書館學(xué)研究,2011(9):73-76.
[2]張?jiān)浦?本體與自由分類法的融合機(jī)理研究[J].情報(bào)理論與實(shí)踐,2012,35(2):35-40.
[3]Lezcano L,et al.Bridging informal tagging and formal semantics via hybrid navigation[J].Journal of InformationScience,2012,38(2):140-155.
[4]Richard N,et al.Tag ontology[EB/OL].[2015-04 -22].http://www.holygoat.co.uk/owl/redwood/0.1/tags/.
[5]Passant A,Laublet P.Meaning of a tag:A collaborative approach to bridge the gap between tagging and Linked Data[EB/OL].[2015-04-22].http://events. linkeddata.org/ldow2008/papers/22-passant-laubletmeaning-of-a-tag.pdf.
[6]Rattanapanich R,Sriharee G.Auto-tagging articles usinglatentsemantic indexing and ontology[M]//Intelligent Information and Database Systems.Springer InternationalPublishing,2014:153-162.
[7]Movahedian H,Khayyambashi M R.Folksonomy-based user interest and disinterest profiling for improved recommendations:An ontological approach[J].Journal of Information Science,2014:40(5):594-610.
[8]Han X,et al.Folksonomy-based ontological user interest profile modeling and its application in personalized search[M]//ActiveMediaTechnology.SpringerBerlin Heidelberg,2010:34-46.
[9]KimHL,etal.Integratingtaggingintotheweb ofdata: Overview and combination of existing tag ontologies [J].Journal of InternetTechnology,2011,12(4): 561-572.
[10]Passant A,et al.Auri is worth a thousand tags:From tagging to linked data with moat[J].Semantic Services,Interoperability and Web Applications:E-merging Concepts:Emerging Concepts,2011:279.
[11]Chen W,et al.Generating ontologies with basic level concepts from folksonomies[J].Procedia Computer Science,2010,1(1):573-581.
[12]Alves H,Santanche A.Folksonomized ontology and the 3E steps technique to support ontology evolvement [J].Web Semantics:Science,Services and Agents ontheWorldWideWeb,2013,18(1):19-30.
[13]FreddoAR,TaclaCA.Integrat-ingSocial Webwith SemanticWeb-OntologyLearningandOntologyEvolutionfromFolksonomies [C]//Las Vegas:IKE'09 2009-The 2009 International Conference on Information and Knowledge EngineeringIKE'09,2009:247-253.
[14]Monachesi P,et al.Ontology enrichment with social tags for e-learning[M]//Learning in the Synergy of Multiple Disciplines.Berlin:Springer-Verlag,2009: 385-390.
[15]Christiaens S.Metadata mechanisms:From ontology to folksonomy...and back[C]//On the Move to Meaningful Internet Systems 2006:OTM 2006 Workshops. Berlin:Springer-Verlag,2006:199-207.
[16]KimHL,et al.Social semanticcloudof tags:semantic model for folksonomies[J].Knowledge Management Research&Practice,2010,8(3):193-202.
[17]Ja..schke R,et al.Discovering shared conceptualizations infolksonomies[J].WebSemantics:Science, ServicesandAgentsontheWorldWideWeb,2008,6 (1):38-53.
[18]Chen R C,Chuang C H.Automating construction of a domain ontology using a projective adaptive resonance theoryneuralnetworkandBayesiannetwork[J].Expertsystems,2008,25(4):414-430.
[19]Peng X,et al.A folksonomy ontology based digital gazetteer service[C]//Beijing InternationalConferenceon Geoinformatics.2010:1-6.
[20]Bindelli S,et al.Improving search and navigation by combiningontologiesandsocial tags[C]//On the Move to Meaningful Internet Systems:OTM 2008 Workshops.Berlin:Springer-Verlag,2008:76-85.
Abroad Research Hotspots and Trends of the Integration of Folksonomy and Ontology
Zhang Yun-zhong,Li Jia-jia
Taking the documents of the research on the integration of Folksonomy and Ontology in Web of Science(SSCI)in 2005~2015 as data source,this article applying co-term analysis method and SPSS to analyzes high frequency keywords so as to discover internal relationship among these keywords.Meanwhile,this article discovers 4 hotspots and trend of the integration of Folksonomy and Ontology in abroad which can serve as reference for domestic research field.
Ontology;Folksonomy;Marks;Integration;Co-term Analysis
G254.1
A
1005-8214(2016)07-0039-06
本文系上海市哲學(xué)社會(huì)科學(xué)規(guī)劃課題青年項(xiàng)目“自由分類法、專家分類法和本體的融合集成研究”(項(xiàng)目編號(hào):2014ETQ001),上海市教育委員會(huì)科研創(chuàng)新項(xiàng)目“web2.0下本體與大眾分類法的互補(bǔ)與融合”(項(xiàng)目編號(hào):14YS007)的研究成果和上海市青年教師培養(yǎng)資助計(jì)劃成果之一。
張?jiān)浦校?985-),男,博士,上海大學(xué)圖書情報(bào)檔案系講師,碩士生導(dǎo)師,研究方向:知識(shí)組織;李佳佳(1990-),女,上海大學(xué)圖書情報(bào)檔案系碩士生,研究方向:知識(shí)組織。
2015-12-14[責(zé)任編輯]閻秋娟