陳 婷 胡改麗 陳福集
(福州大學(xué)經(jīng)濟與管理學(xué)院 福建 福州 350108)
社會化標注系統(tǒng)的語義標簽資源導(dǎo)航構(gòu)建*
陳 婷 胡改麗 陳福集
(福州大學(xué)經(jīng)濟與管理學(xué)院 福建 福州 350108)
社會化標簽的資源導(dǎo)航可以為用戶提供個性化的信息服務(wù)。主題圖不僅能解決一般社會化標注系統(tǒng)中標簽云的語義缺失和語義模糊問題,還可以實現(xiàn)資源導(dǎo)航的可視化?;谏鐣瘶撕炁c主題圖技術(shù)的資源導(dǎo)航可通過以下3個步驟實現(xiàn):采集與預(yù)處理用戶標簽;形成具有明確架構(gòu)和語義關(guān)系的知識網(wǎng)絡(luò);實現(xiàn)資源導(dǎo)航的可視化。
社會化標注系統(tǒng) 資源導(dǎo)航 主題圖 語義標簽
社會化標注系統(tǒng)在分類學(xué)中又稱自由分類法,是用戶根據(jù)自身的認知和需要,自由地隨社會情境選擇詞匯對資源進行標注,由此而形成的分布式系統(tǒng)。社會化標注系統(tǒng)允許用戶自由地對文章、圖片、視頻等資源進行標注以形成標簽,以實現(xiàn)用戶對網(wǎng)絡(luò)信息資源的分類、檢索和共享。社會化標簽作為一種用戶驅(qū)動的資源組織機制,具有面向大眾、操作簡單、共享互動等特點和優(yōu)勢,通過社會化標簽,用戶可以連接到其他的資源,實現(xiàn)資源之間的鏈接與導(dǎo)航。因此,社會化標注系統(tǒng)充分融合了用戶的認知行為和信息組織行為,并因其社會性、自由性、大眾性、靈活性等優(yōu)勢為網(wǎng)絡(luò)用戶所青睞。但由于社會化標簽之間是平等關(guān)系,其他分類體系中最基本的詞間關(guān)系(如上位類、下位類等)在社會化標注系統(tǒng)中均無法體現(xiàn),整個社會化標注系統(tǒng)是靈活的扁平化平面結(jié)構(gòu)模式,加之一詞多義和同義詞現(xiàn)象,造成標簽的多樣性、模糊性,標簽的這些固有缺陷降低了社會化標注系統(tǒng)的資源利用率。
在這種背景下,如何充分挖掘用戶標簽間的語義關(guān)系、構(gòu)建基于語義標簽的資源導(dǎo)航、提高其資源檢索的查準率和查全率,正在成為社會化標注系統(tǒng)優(yōu)化的新生長點,也是情報學(xué)的研究熱點。
社會化標注系統(tǒng)知識導(dǎo)航是將系統(tǒng)資源聚類的結(jié)果從邏輯上聯(lián)系起來,采用可視化的資源組織和呈現(xiàn)方式將結(jié)果展示給用戶的過程[1]。國內(nèi)外關(guān)于社會標注系統(tǒng)中知識導(dǎo)航的研究工作,主要集中在3個方面:①針對社會化標注系統(tǒng)的核心要素——標簽,基于其語義關(guān)系缺失和語義模糊性等固有缺陷,對標簽云優(yōu)化機理進行探討,以此為基礎(chǔ)嘗試構(gòu)建知識導(dǎo)航模型[2-5]。②在社會化標注系統(tǒng)中,資源聚合是資源導(dǎo)航的前提,因此一部分研究工作通過剖析社會化標注系統(tǒng)資源聚合機理,促進資源聚合,進而為實現(xiàn)人性化和多元化的資源導(dǎo)航提供思路[6-7]。③通過融合傳統(tǒng)知識組織方法與大眾分類法的優(yōu)勢,提高社會化標注系統(tǒng)中資源的可查性,構(gòu)建混合性知識導(dǎo)航模型[8-9]。
研究表明構(gòu)建社會化標注系統(tǒng)中的知識導(dǎo)航是社會化標注系統(tǒng)發(fā)展的必然趨勢,正成為學(xué)術(shù)界廣泛關(guān)注的研究熱點。
關(guān)于如何構(gòu)建社會化標注系統(tǒng)的知識導(dǎo)航,國內(nèi)外的研究主要圍繞標簽云導(dǎo)航展開,以優(yōu)化標簽云布局為研究起點,說明標簽云是認識社會化標注系統(tǒng)中知識導(dǎo)航構(gòu)建的主流方式。仍舊不能解決用戶信息檢索中的“知識迷航”問題,且上述研究大多是從理論上提出知識導(dǎo)航的構(gòu)建思路和原則,以期探索相適應(yīng)的可視化導(dǎo)航方式,尚未實現(xiàn)知識導(dǎo)航的可視化。
然而無論采取何種資源聚合形式,實現(xiàn)與之相適應(yīng)的可視化資源導(dǎo)航模式是研究工作的落腳點。因此,在國內(nèi)外學(xué)者研究成果的基礎(chǔ)上,筆者以解決標簽云語義關(guān)系缺失及由同義詞和一詞多義造成的語義模糊等問題為研究起點,提出融合主題圖技術(shù)與社會化標簽構(gòu)建社會化標注系統(tǒng)知識導(dǎo)航的研究思路,利用主題圖在知識組織中的語義完整性和知識關(guān)聯(lián)表達的靈活、易用性,以社會化標簽為基礎(chǔ),構(gòu)建意義豐富、完整的知識語義網(wǎng)絡(luò),從實現(xiàn)主題知識關(guān)聯(lián)的視角優(yōu)化標簽云,最終構(gòu)建一個融合社會化標簽和主題圖的可視化導(dǎo)航模型。
融合社會化標簽和主題圖技術(shù)的資源導(dǎo)航,可以充分利用標簽在提供個性化信息服務(wù)上的優(yōu)勢以及主題圖技術(shù)較強的語義表達能力和可視化功能的特點,克服標簽云所缺失的語義表達功能。筆者從分析模型生成機理入手,設(shè)計研究方案,實現(xiàn)標簽云融合主題圖技術(shù)與社會化標簽的導(dǎo)航模型的轉(zhuǎn)化。
2.1 模型生成機理分析
通過分析主題圖技術(shù)的特點和社會化標簽云導(dǎo)航在社會化標注系統(tǒng)中的缺陷,明確二者在導(dǎo)航構(gòu)建中的角色與作用,可以明晰資源導(dǎo)航模型的生成機理。
允許用戶自定義標簽對資源進行標識而形成的標注結(jié)果更符合大眾的需求,在此基礎(chǔ)上形成的信息檢索更人性化、社會化。但是用戶自定義標簽也存在顯著的局限性,如缺乏層次性,僅僅基于用戶自定義標簽,整個信息資源的組織結(jié)構(gòu)是若干個語詞形成的平面結(jié)構(gòu),難以揭示知識資源間的復(fù)雜關(guān)聯(lián);另外,由于多義詞和同義詞的存在,僅僅采用標簽組織資源會造成表達概念的模糊性,產(chǎn)生大量“噪音”,降低信息分類的準確性。
主題圖(Topic Map)作為一種新興的數(shù)字化資源組織技術(shù),主要用于描述信息資源知識結(jié)構(gòu)的數(shù)據(jù)格式,可以定位某一概念間的相互聯(lián)系,為信息資源結(jié)構(gòu)可互相轉(zhuǎn)換的信息描述提供一個標準的表示方法,即使用定義主題和主題之間關(guān)系的方法[10]。主題圖的組成要素包括主題(Topic)、關(guān)聯(lián)(Associations)、資源實體(Occurrence)、范圍(Scope)、標記(Identity)、分面(Facet)等,可以將主題圖看作是一個由主題、關(guān)聯(lián)、資源實體3個核心要素組成的集合體。主題是對信息資源實體的具體化,是能夠反映現(xiàn)實事物特征及本質(zhì)的名詞;與主題相關(guān)聯(lián)的信息資源就是主題圖中的資源實體;關(guān)聯(lián)是主題圖中最有價值的部分,是描述主題間或主題與資源實體相互關(guān)系的元素,由于主題位于不同的上下文環(huán)境中,“范圍”就是用來描述上下文環(huán)境的概念[11]。主題圖將某一特定領(lǐng)域信息資源的知識結(jié)構(gòu)及其語義關(guān)聯(lián)用一定的方式揭示出來,并以特定的方式顯示。主題圖的多層主題用于表達不同概念范圍的不同層次,不同層次主題之間的關(guān)聯(lián)體現(xiàn)了主題之間的隸屬關(guān)系。通過多層主題及其關(guān)聯(lián),可以適應(yīng)社會化標注系統(tǒng)中資源知識結(jié)構(gòu)的復(fù)雜性。
剖析主題圖和社會化標簽的優(yōu)劣特點,可發(fā)現(xiàn)二者具有互補性。
(1)主題圖的多層主題結(jié)構(gòu)可以彌補社會化標簽中的語義關(guān)系缺失的缺陷。主題圖的多層主題結(jié)構(gòu),從第1層到第n層代表主題的層次,主題的層級越小,說明該主題概念的涵蓋范圍越小;層級越大,相對應(yīng)的主題概念涵蓋的范圍越大。上層的主題是涵蓋該層主題的“父主題”,而該層的下層主題則是“子主題”。這種明確、清晰的層級關(guān)系,自頂向下,層層相扣,正好可以用于表達社會化標簽中上位類、下位類等詞間關(guān)系和標簽間的語義關(guān)聯(lián),從而把扁平結(jié)構(gòu)的標簽云轉(zhuǎn)化為具有層級結(jié)構(gòu)的語義標簽知識網(wǎng)絡(luò)。
(2)標簽云中由于標簽的一詞多義會造成語義模糊,主題圖的相關(guān)機制能夠有效降低標簽云的語義模糊性。標簽中存在一詞多義現(xiàn)象(如標簽“PLA”既可以指“中國人民解放軍”,也可以指“聚酸乳”),為避免這一問題,可以為標簽賦予特征,使其在特定界限內(nèi)有效[12],在主題圖中把這種分配主題特定有效性的限定稱為主題范圍(Scope)。例如,可以對范圍加以描述,用來描述上下文的環(huán)境概念,對于“PLA”這一標簽,可以通過Scope將其限定在一定范圍內(nèi),即特定領(lǐng)域,可為其設(shè)定學(xué)科領(lǐng)域,用以明確其具體含義。
(3)社會化標簽中同義詞現(xiàn)象可能造成的語義模糊性問題。對于同一資源,不同的用戶可能會用不同的標簽進行標注,導(dǎo)致標簽云中存在大量同義詞,從而造成資源分散并給用戶查找資源帶來不便。例如,用戶的資源需求為圖書《麥田的守望者》,但是大量用戶將該資源標注為“王小波”,從而使標簽云中該資源對應(yīng)的標簽為“王小波”,導(dǎo)致用戶資源檢索的“信息迷航”。而主題圖提供了一個比較便利的手段為每個主題賦予多個基本名稱(Base Names),用多個名稱表示相同的概念,并根據(jù)不同的應(yīng)用環(huán)境為每個基本名稱提供一個變量(Variants)。例如,標簽“網(wǎng)絡(luò)輿情”,對應(yīng)的英文為“Internet public opinion”筆者設(shè)定其在默認的Scope下顯示“王小波”,在英文Scope下顯示“Internet public opinion”,利用這種機制可根據(jù)格式、語言、學(xué)科領(lǐng)域、地理范圍及時間的差異,在不同的Scope下為同一概念定義不同的名稱,大大增強了標簽的適用性。
(4)標簽云在標引對象方面仍存在較大的局限性,主要表現(xiàn)為精確性較低。而主題圖中的資源指引(Occurrence)機制可將標簽與所對應(yīng)的資源聚集在一起,能夠使用戶根據(jù)標簽迅速定位相關(guān)資源,具體可以精確到網(wǎng)頁中的一張圖表或文本的某一行。
(5)主題圖的合并機制能夠適應(yīng)社會化標注系統(tǒng)中用戶分布式創(chuàng)建模式,可支持多用戶的協(xié)作,將其他用戶為資源添加的標簽主題通過合并主題圖及時歸并到一起。
實現(xiàn)社會化標簽與主題圖技術(shù)的融合,創(chuàng)建基于標簽主題的資源導(dǎo)航,既保留了社會化標簽的優(yōu)勢(即符合用戶分類的思維習(xí)慣),又借助于主題圖技術(shù)能夠?qū)⑷我鈴?fù)雜關(guān)系以結(jié)構(gòu)化方式清晰地揭示出來并進行可視化展示,克服了標簽間弱化的語義關(guān)聯(lián)問題,由此構(gòu)建的資源導(dǎo)航有助于用戶對標簽之間復(fù)雜關(guān)系的理解,主題圖的范圍和身份標識機制允許同一概念有不同的表達形式及對同一概念不同表達形式的合并,能夠解決標簽中一詞多義和同義詞造成的語義模糊問題。因此,基于標簽主題的資源導(dǎo)航可有效滿足用戶的資源組織和檢索需求,引導(dǎo)用戶在特定的知識組織架構(gòu)中漫游。
2.2 資源導(dǎo)航的概念模型
本文繼續(xù)提出資源導(dǎo)航的概念模型。社會化標注系統(tǒng)中的信息資源,從類型和組織形式看,有數(shù)據(jù)庫、電子圖書、電子期刊、網(wǎng)頁、多媒體資源等。基于主題標簽的資源導(dǎo)航生成機理分析,筆者以社會化標注系統(tǒng)中對旅游文獻的標注情況為例,通過實現(xiàn)標簽云到標簽主題的轉(zhuǎn)換,提出基于標簽主題的資源導(dǎo)航概念模型(見圖1)。
在圖1中,資源實體層中的不同形狀表示不同類型的信息資源,包括電子圖書、網(wǎng)頁等;連線表示主題間的關(guān)系,具體包括同層主題之間的關(guān)系和上下層主題間的關(guān)系;通過資源指引形式實現(xiàn)主題層與信息資源層之間的關(guān)聯(lián)。從模型中也可看到扁平結(jié)構(gòu)標簽云的標簽中缺失的語義關(guān)系(包括上位類、下位類等詞間關(guān)系和同義、近義關(guān)系)及資源鏈接借助于主題圖技術(shù)得到了有效補充。不同層的連線表達了標簽間的隸屬關(guān)系,即上位類、下位類等詞間關(guān)系;同層中的連線表達了標簽間的語義關(guān)聯(lián)。二者的融合在內(nèi)容和形式上都達到了高度統(tǒng)一,形成了一個關(guān)于阿壩卓克基土司官寨旅游資源的較完整的知識網(wǎng)絡(luò)。
圖1 基于標簽主題的資源導(dǎo)航概念模型
3.1 用戶標簽采集與預(yù)處理
目前,社會化標注的知識組織模式已被廣泛應(yīng)用于各類資源型網(wǎng)站,只是標簽的應(yīng)用程度、功能略有差異,商業(yè)性網(wǎng)站中的標簽使用量較高[13]。
豆瓣網(wǎng)是Web2.0網(wǎng)站中具有特色的社區(qū)網(wǎng)站,提供關(guān)于圖書、電影、音樂等作品的信息,目前注冊用戶超過5 000萬,包括豆瓣讀書、豆瓣電影和音樂[14]。“豆瓣讀書”融合了社會化標簽的特征,網(wǎng)站用戶使用標簽組織自己感興趣的網(wǎng)絡(luò)資源,因此,“豆瓣讀書”可看作一個典型的社會化標注系統(tǒng)。筆者選取“豆瓣讀書”展示模型的構(gòu)建過程,從“豆瓣讀書”“最受關(guān)注圖書榜”中選取排名前30的圖書,然后在每本圖書的豆瓣成員常用的標簽列表中選取使用頻率最高的5個標簽,得到一個容量為150的標簽數(shù)據(jù)集樣本。限于篇幅,筆者僅列出部分標簽(見表1)。
表1 部分初始標簽樣本
3.2 模型的實現(xiàn)
實現(xiàn)“豆瓣讀書”資源導(dǎo)航模型的重點、難點是從其信息資源特點、用戶標注習(xí)慣、用戶需求3個角度定義主題類型,并定義主題之間的關(guān)聯(lián),進而建立本體,以形成具有明確架構(gòu)和語義關(guān)系的知識網(wǎng)絡(luò)。
3.2.1 定義主題類型
分析“豆瓣讀書”中用戶標簽的分布情況和圖書資源的特點,筆者定義“書名”、“作者”、“類型”、“標題”、“學(xué)科領(lǐng)域”、“出版社”、“出版年”、“國家”8個主題類型,在“類型”主題下再定義“題材”和“體裁”兩個子類,作為兩個新的主題。筆者在對主題進行提取后,將實驗中采集到的標簽樣本集分類和歸類,確定每個主題下的標簽實例,具體方法如下:
書名:親愛的生活,練習(xí)一個人,時蔬小話,偉大的博弈,貨幣戰(zhàn)爭,飛鳥集,假面騎士。
類型:①體裁:專題,書信集,傳記;②題材:科幻,人生哲理,傳統(tǒng)文化,健康,軍事。
作者:愛麗絲·門羅,王小波,泰戈爾,阿瀾·盧。
學(xué)科:中國文學(xué),教育,社會學(xué),經(jīng)濟學(xué),醫(yī)學(xué)。
出版社:中信出版社,哈爾濱出版社,浙江文藝出版社。
出版年:2005,2003,2010,2009。
國家:中國,挪威,印度。
3.2.2 定義主題關(guān)聯(lián)
要實現(xiàn)標簽云到基于語義標簽的資源導(dǎo)航模型的轉(zhuǎn)換,就必須揭示標簽主題之間的語義關(guān)系,即在定義了“豆瓣讀書”中的主題類型和實例后,要定義主題之間的關(guān)聯(lián)。在“豆瓣讀書”的標簽集中,筆者歸納出以下5種主題關(guān)聯(lián):“屬于”、“相關(guān)”、“揭示”、“出版”、“創(chuàng)作”。
(1)“屬于”關(guān)聯(lián),表達主題類型“書名”和“國家”之間的語義關(guān)系,如“飛鳥集”屬于“印度”。此外,“作者”和“國家”,“書名”和“類型”也具有“屬于”關(guān)聯(lián)。
(2)“相關(guān)”關(guān)聯(lián)用來聯(lián)系主題“類型”之間的關(guān)系,如標簽“隨筆”和“散文”標注的資源在內(nèi)容上可能存在較大的相關(guān)性;“傳記”也很有可能是一部“回憶錄”;“學(xué)科”之間也存在“相關(guān)”關(guān)系。
(3)“揭示”關(guān)聯(lián)。作品大都揭示了某一學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀或某種學(xué)科主題,因此,“書名”和“學(xué)科”之間存在“揭示”關(guān)聯(lián)。
(4)“出版”關(guān)聯(lián)?!皶焙汀俺霭嫔纭薄ⅰ俺霭婺辍泵黠@是“出版”關(guān)聯(lián)。
(5)“創(chuàng)作”關(guān)聯(lián)實現(xiàn)這兩個標簽主題之間的語義關(guān)聯(lián),例如“王小波”和“麥田的守望者”、“泰戈爾”和“飛鳥集”。
3.2.3 定義實體資源
實體資源是描述某一主題的圖片、文本、網(wǎng)頁等信息資源,通過主題圖中的“資源指引”機制指引使用者鏈接到相關(guān)的信息資源、其存放處或存放形式?!岸拱曜x書”中的信息資源大多為圖書,因此,本文構(gòu)建資源導(dǎo)航模型中的實體資源為圖書。
3.3 基于語義標簽的主題圖資源導(dǎo)航模型生成
3.3.1 用Ontopoly實現(xiàn)模型可視化
本文選用挪威Ontopia公司開發(fā)的Ontopoly構(gòu)建基于語義標簽的主題圖資源導(dǎo)航模型,將語義標簽及其關(guān)系以圖形的方式展現(xiàn)給用戶,輸出資源導(dǎo)航模型的可視化形式。通過主題圖可視化工具Vizigator,用戶可以通過圖形可視化直觀地瀏覽語義標簽間潛在和顯在的知識關(guān)聯(lián)。
3.3.2 基于語義標簽的資源導(dǎo)航應(yīng)用
在社會化標注系統(tǒng)中,標簽是用戶對感興趣的資源的描述、定位等相關(guān)信息,大量用戶在搜索、標注的過程中,通過相互之間信息的碰撞與融合,最終使標簽具有了社會性。因此,社會化標注系統(tǒng)不僅是用戶添加關(guān)鍵詞的簡單行為,而且是大量用戶對某些資源的特定看法的詞匯集,是一種綜合行為,通過這種綜合行為,社會化標注系統(tǒng)建立了系統(tǒng)內(nèi)部的各種要素,包括信息資源、用戶、標簽之間的關(guān)系網(wǎng)絡(luò)[15](見下頁圖2)。筆者以社會化標注系統(tǒng)中的這種關(guān)系網(wǎng)絡(luò)為視角,闡述可視化的模型在資源導(dǎo)航中的應(yīng)用。
(1)標簽-標簽網(wǎng)絡(luò)的可視化。用戶通過社會化標注的行為,使標簽、資源和用戶之間產(chǎn)生了一定的聯(lián)系,在拓撲上形成網(wǎng)絡(luò)結(jié)構(gòu),如標簽之間通過對資源的標注形成標簽-標簽網(wǎng)絡(luò)。用于標注相同資源的標簽在一定程度上具有相似的語義,標簽之間的同現(xiàn)關(guān)系形成網(wǎng)絡(luò)結(jié)構(gòu)。例如,“威尼斯商人”的常用標簽有“小說”和“文學(xué)”,而標簽“文學(xué)”和“小說”有很大的相關(guān)性。從圖2中可看到“王小波全集”的標簽-標簽網(wǎng)絡(luò),該作品使用頻率較高的標簽包括“文學(xué)”、“小說”、“王小波”等,如果用戶想繼續(xù)獲取與該資源相關(guān)的其他資源,可點擊與其相關(guān)的標簽,如點擊“小說”,會發(fā)現(xiàn)一系列相關(guān)資源,包括“威尼斯商人”、“親愛的生活”、“三體全集”等。
圖2 基于語義標簽的知識網(wǎng)絡(luò)可視化
(2)資源-資源網(wǎng)絡(luò)的可視化。經(jīng)常使用相同標簽進行標注的不同資源之間也具有很大的相關(guān)性。例如,“飛鳥集”和“新月集”的高頻標簽都包括“印度”、“泰戈爾”和“詩集”,說明作品“飛鳥集”和“新月集”具有很大的相關(guān)性,二者都是印度文學(xué)巨匠泰戈爾在不同時期創(chuàng)作的詩集。換句話說,社會化標注系統(tǒng)中相同的高頻標簽可以聚合不同用戶在相同分類下的資源,形成資源-資源網(wǎng)絡(luò),而通過基于語義標簽的主題圖資源導(dǎo)航模型可實現(xiàn)這種網(wǎng)絡(luò)的可視化。例如,圖2中“科幻”、“硬科幻”、“中國科幻”等標簽從布局上看具有很大的相關(guān)性,而通過這些相關(guān)度高的標簽聚集可將“假面騎士”和“三體全集”聚合在一起。
(3)不同標簽概念知識網(wǎng)絡(luò)可視化。通過定義不同的標簽概念之間的語義關(guān)系,可將不同的標簽概念進行聚合,如通過“相關(guān)”關(guān)系將“科幻”、“硬科幻”、“科幻小說”、“中國科幻”等標簽進行語義層面的聚合。通過不同標簽概念間的聚合,可以實現(xiàn)資源的聚合,如點擊圖2中標簽“硬科幻”,可看到該標簽標注的資源為“三體全集”,點擊“科幻”看到該標簽標注的資源為“假面騎士”,標簽“硬科幻”與“科幻”通過“相關(guān)”關(guān)系可聚合資源“三體全集”和“假面騎士”。由此可見,通過標簽概念知識網(wǎng)絡(luò)實現(xiàn)了社會標注系統(tǒng)中資源的聚合。
以上社會化標簽中形成的3種網(wǎng)絡(luò)的可視化,反映了用戶個性化的認知,實現(xiàn)了社會化標簽到語義標簽的轉(zhuǎn)化,構(gòu)建了具有完整語義的知識網(wǎng)絡(luò),彌補了標簽云的扁平化造成弱語義的缺陷;同時將標簽間復(fù)雜關(guān)系以結(jié)構(gòu)化的方式清晰地揭示出來,有助于用戶對復(fù)雜關(guān)系的理解。綜合社會化標簽構(gòu)建標簽語義網(wǎng)絡(luò),并利用這種語義網(wǎng)絡(luò)可視化構(gòu)建資源導(dǎo)航,是從用戶對資源的理解和認知的角度對資源進行的組織,這有助于縮短用戶查詢的時間,提高檢索效率,并能夠有效減少用戶在社會化標注系統(tǒng)中進行資源查找時的“信息迷航”。直觀的圖形檢索方式可以使用戶在瀏覽資源時形成資源結(jié)構(gòu)的整體印象,從宏觀上掌握知識結(jié)構(gòu)。用戶在對感興趣的知識內(nèi)容進行資源讀取的同時,可根據(jù)不同標簽概念間的語義知識關(guān)聯(lián)擴大知識面,實現(xiàn)跨學(xué)科領(lǐng)域的資源查找。
3.3.3 基于語義標簽的數(shù)字圖書館資源導(dǎo)航
數(shù)字圖書館的出現(xiàn)打破了用戶資源獲取的時空界限,實現(xiàn)了館藏資源數(shù)字化。在“豆瓣讀書”中,用戶需要通過自定義標簽組織自己的知識收藏,同時也可以通過標簽主題來瀏覽和檢索被標注了同一標簽的信息資源,從而發(fā)現(xiàn)與自己興趣相近的用戶,并與其進行交流互動。因此,“豆瓣讀書”的典型應(yīng)用——個人數(shù)字圖書館可以作為社會化標注的典型代表。
資源導(dǎo)航的重要意義在于將數(shù)字圖書館資源組織的結(jié)果以可視化的方式呈現(xiàn)給用戶,并能滿足其個性化和多樣化的信息需求?;谥黝}圖技術(shù)構(gòu)建的語義標簽系統(tǒng)能夠支持基于Tolog語言的資源請求和復(fù)雜的關(guān)系檢索。例如,用戶對既屬于“漫畫”又屬于“科幻”題材的資源進行檢索,檢索語句如下:
select $ resources from
@1008(@726:@538, $resources:@394),
@1008(@257:@538, $resources:@394),
instance-of ($resources, $type),
@1058 ($type:1060,@1125:@874) ?
檢索結(jié)果為“假面騎士”,如果用戶繼續(xù)查找相關(guān)資源,點擊屬性“漫畫”或“科幻”,可得到全部相關(guān)資源。由此可見,基于語義標簽的資源導(dǎo)航系統(tǒng)能夠?qū)?shù)字圖書館的信息資源進行有效的組織與整合,從用戶的認知出發(fā)將分散、異構(gòu)、無序的信息資源組建成一個集成化、統(tǒng)一有序的系統(tǒng),實現(xiàn)數(shù)字資源之間的無縫鏈接;同時支持基于用戶認知水平的資源檢索,提高了查準率和查全率,有助于用戶發(fā)現(xiàn)相關(guān)資源集合,消除檢索時的“信息迷航”。
在Web2.0環(huán)境下,社會化標注系統(tǒng)構(gòu)建資源導(dǎo)航問題的求解是一個多值問題,不同的視角下會出現(xiàn)不同的研究思路。基于語義標簽的資源導(dǎo)航能夠有效提高社會化標注系統(tǒng)中資源的可查找性,具有較強的實踐指向性,為社會化標注系統(tǒng)中的資源聚合與導(dǎo)航提出了一種新的解決思路。這僅僅是研究的起點,如何對標簽的語義相關(guān)度進行衡量,并結(jié)合相關(guān)度構(gòu)建更為精確的資源導(dǎo)航,最終實現(xiàn)跨系統(tǒng)的資源聚合與導(dǎo)航,將成為未來研究的重點。
[1]楊 萌, 張云中. 社會化標注系統(tǒng)資源多維度聚合機理研究[J].圖書情報工作, 2013,57(15):126-131.
[2]畢 強, 周姍姍. 面向知識關(guān)聯(lián)的標簽云優(yōu)化機理研究[J]. 現(xiàn)代圖書情報技術(shù), 2014,246(5):33-39.
[3]Halpin H, Robu V, Shepherd H. The Complex Dynamics of Collaborative Tagging [C]//Proceedings of the 16th International Conference on World Wide Web. New York: ACM Press,2007: 211-220.
[4]傅麗君. 社會化標簽與分類集成的信息導(dǎo)航結(jié)構(gòu)及其應(yīng)用研究[D]. 杭州:浙江理工大學(xué)經(jīng)濟管理學(xué)院, 2013:13-14.
[5]Manish G, Rui L. An Overview of Social Tagging and Applications [J]. Social Network Data Analytics, 2011:447-296.
[6]Ivan M,Cantadora C, Konstasb I, et al. Catagorising Social Tags to Improve Folksonomy-Based Recommendations[J]. Web Semantics: Science, Service and Agents on the World Wide Web, 2011,32(7):1-15.
[7]張云中, 楊 萌. Tax-folk混合導(dǎo)航:社會化標注系統(tǒng)資源聚合的新模型[J]. 中國圖書館學(xué)報, 2014,40(3):78-89.
[8]Kiu C C, Eric T. TaxoFolk: A Hybrid Taxonomy-Folksonomy Structure for Knowledge Classification and Navigation[J]. Expert Systems with Applications,2011,38(5):6049-6058.
[9]Heymann P, Koutrika G, Garcia-Molina H. Can Social Bookmarking Improve Web Search[C]//Proceedings of WSDM'08. New York:ACM Press,2008:195-206.
[10]白新國. 基于主題圖的教育文獻資源組織模型與應(yīng)用研究[D].武漢:華中師范大學(xué)教育信息學(xué)院, 2008:4-7.
[11]艾丹祥, 張玉峰. 利用主題圖建立概念知識庫[J]. 圖書情報知識, 2003,(2):48-50,53.
[12]李清茂. 主題圖理論與應(yīng)用方法研究:以四川省阿壩州旅游文化資源組織為例[M]. 成都:四川大學(xué)出版社, 2011:7-19.
[13]賈君枝, 張 寧. 社會標簽的應(yīng)用功能分析[J]. 圖書情報工作, 2012,35(11):112-116.
[14]豆瓣[EB/OL]. [2014-07-05]. http://www.douban.com.
[15]武慧娟, 徐寶祥. 社會化標注系統(tǒng)自組織演化機理研究[J]. 圖書情報工作, 2014,58(2):132-137.
Construction on the Resource Navigation of the Semantic Label in the Social Tagging System
The resource navigation of the social label could provide the personalized information service for users. The topic map could not only solve shortcomings of the tag cloud such as the semantic deletion and the semantic ambiguity in the general social tagging system, but also could be implemented the visualization of the resource navigation. The resource navigation based on the social label and the topic map technology could be implemented in following three steps: collecting and pretreating user labels; forming the knowledge network that has the clear structure and semantic relations; implementing the visualization of the resource navigation.
Social tagging system; Resource navigation; Topic map; Semantic label
G254.1
B
2014-08-04 ]
*本文系國家自然科學(xué)基金項目“基于知識網(wǎng)格面向網(wǎng)絡(luò)輿情的政府決策知識供需匹配研究”的成果之一,項目編號: 71271056。
陳 婷 女,福州大學(xué)經(jīng)濟與管理學(xué)院碩士研究生,研究方向為社會協(xié)同標注的語義網(wǎng)絡(luò)挖掘,已發(fā)表論文7篇。胡改麗 女,福州大學(xué)經(jīng)濟與管理學(xué)院碩士研究生,研究方向為社會化標注系統(tǒng)的資源聚合機理,已發(fā)表論文4篇。陳福集 福州大學(xué)經(jīng)濟與管理學(xué)院教授,博士生導(dǎo)師,研究方向為數(shù)字圖書館館藏資源的資源協(xié)同和服務(wù)協(xié)同研究,已發(fā)表論文100余篇。