黃如花 任其翔
摘 要:WorldCat熱門標簽在信息組織的科學(xué)性、規(guī)范性以及引導(dǎo)用戶信息發(fā)現(xiàn)的實用性上有提高空間。文章對WorldCat熱門標簽的內(nèi)容按主題與質(zhì)量進行統(tǒng)計分析,將其與BibSonomy、Flickr和豆瓣熱門標簽的功能從質(zhì)量控制、排序方式、瀏覽模式與內(nèi)容顯示等四方面進行比較,進而從了解用戶的標注行為、加強標簽的質(zhì)量控制及擴展熱門標簽的功能等三方面提出了WorldCat熱門標簽的優(yōu)化建議。
關(guān)鍵詞:WorldCat 熱門標簽 社會標簽 信息組織
中圖分類號: G250.73文獻標識碼: A 文章編號: 1003-6938(2012)05-0007-04
熱門標簽是一種Web2.0環(huán)境下新的信息組織與信息發(fā)現(xiàn)工具,它按照一定的標簽統(tǒng)計規(guī)則,將社會標簽進行分類排序后向用戶進行展示。2009年,OCLC調(diào)查發(fā)現(xiàn)“用戶希望書目記錄能夠包含更多的主題信息以輔助其信息查找” [1],進而在WorldCat中提供了熱門標簽。但在實際使用中,由于標簽內(nèi)容的質(zhì)量控制與篩選機制不完善,加上缺少對熱門標簽內(nèi)容與功能的調(diào)查研究,它在信息組織的科學(xué)性、規(guī)范性以及引導(dǎo)用戶信息發(fā)現(xiàn)的實用性上有待提高。本文擬對WorldCat熱門標簽的內(nèi)容按主題與質(zhì)量進行統(tǒng)計分析,并通過與其它網(wǎng)站熱門標簽的功能比較,對其提出優(yōu)化建議。
1 WorldCat熱門標簽內(nèi)容的統(tǒng)計分析
筆者自2011年3月11日至2012年5月15日對WorldCat熱門標簽進行調(diào)查,并獲得了76個標簽。下文將對其內(nèi)容按主題與質(zhì)量進行統(tǒng)計分析。
1.1 標簽內(nèi)容的主題分析
Golder和Huberman在關(guān)于社會標簽用戶行為分析的研究中將標簽分為識別主題內(nèi)容、關(guān)于內(nèi)容載體、確定是誰創(chuàng)建、用于分類提煉、確定內(nèi)容特色、用于自我參考和用戶任務(wù)組織等7個主題類型[2],本文參考了該方法,對獲得的Worldcat標簽內(nèi)容按主題分類(見表1)。
[類型\&含義\&數(shù)量\&百分比
(%)\&揭示資源主題\&揭示包括所屬學(xué)科、所述人物等方面信息資源主題的標簽\&24\&31.6\&描述資源實體\&資源物理形態(tài)的描述、格式、作者信息等MARC信息的標簽\&19\&25.0\&說明資源擁有者\&涉及資源擁有者,包括集體或個人擁有者、潛在擁有者等的標簽\&10\&13.2\&評論資源特點與質(zhì)量\&表達觀點與內(nèi)容評論的標簽\&4\&5.3\&用于個人參考\&僅對描述者具有參考意義的標簽\&10\&13.2\&表達用戶行為\&與表達用戶任務(wù)行為相關(guān)的標簽\&7\&9.2\&非英文標簽\&采用除英文外的語言標注的標簽\&2\&2.6\&][表1 WorldCat熱門標簽內(nèi)容的主題分布]
統(tǒng)計發(fā)現(xiàn):關(guān)于“揭示資源主題”與“描述資源實體”的標簽分別有24個和19個,共占標簽總數(shù)的56.6%。超過一半的標簽內(nèi)容關(guān)注信息資源本身,說明熱門標簽對信息分類有積極作用,且可基本滿足信息組織與信息發(fā)現(xiàn)的功能要求。
“說明資源擁有者”的標簽共有10個,占總數(shù)的13.2%。這類標簽在WorldCat中發(fā)揮了資源定位的作用,對于其他用戶亦有參考價值。
“評論資源特點與質(zhì)量”、“用于個人參考”以及“表達用戶行為”的標簽共占標簽總數(shù)的27.7%。它們僅對標注者或者特定人群具有參考意義,作為熱門標簽出現(xiàn)時,不能很好地發(fā)揮信息組織與信息發(fā)現(xiàn)功能。
WorldCat是一個以英文資源為主的網(wǎng)站,用戶在標注標簽時大多采用英文形式,故非英文標簽在WorldCat熱門標簽中僅有2個,占總數(shù)的2.6%。
可見,描述信息資源本身的標簽占熱門標簽的大部分,說明通過熱門標簽來引導(dǎo)用戶發(fā)現(xiàn)信息是可行的。而部分標簽內(nèi)容并不能幫助用戶查找與獲取信息的現(xiàn)狀,又說明其有優(yōu)化的必要性。
1.2 標簽內(nèi)容的質(zhì)量分析
標簽的質(zhì)量主要考察與《美國國會圖書館主題詞表(The Library of Congress Subject Headings, 簡稱LCSH)》主題詞的關(guān)系。下文將利用LCSH對熱門標簽進行細分,具體標準參考Kipp對標簽與受控詞表之間關(guān)系的分類[3]。因標簽的質(zhì)量還受到如拼寫正誤、縮寫詞的使用與文字是否規(guī)范等因素的影響,故本文將WorldCat熱門標簽內(nèi)容按質(zhì)量分為8類(見表2)。
[類型\&含義\&數(shù)量\&百分比
(%)\&與LCSH主題詞相同\&與LCSH主題詞相同的熱門標簽\&23\&30.3\&與LCSH主題詞具有“用代關(guān)系”\&熱門標簽中與LCSH主題詞屬于“用代關(guān)系”的非規(guī)范標引詞\&5\&6.6\&相關(guān)標簽\&本身具有明確的概念但是卻并不匹配LCSH主題詞的熱門標簽\&4\&5.3\&與LCSH主題詞具有“屬分關(guān)系”\&出現(xiàn)在LCSH中屬于上位詞與下位詞的熱門標簽\&5\&6.6\&縮寫詞\&以縮寫形式出現(xiàn)而又不屬于LCSH主題詞的熱門標簽\&11\&14.5\&不規(guī)范的標簽\&超過三個單詞但又不是復(fù)合詞的熱門標簽\&5\&6.6\&拼寫錯誤\&拼寫錯誤的熱門標簽\&4\&5.3\&其它標簽\&不屬于以上七類的熱門標簽\&19\&25.0\&][表2 Worldcat熱門標簽內(nèi)容的質(zhì)量分布]
統(tǒng)計發(fā)現(xiàn):WorldCat熱門標簽中“與LCSH主題詞相同”的標簽共有23個,占總數(shù)的30.3%,說明其標簽內(nèi)容的質(zhì)量較高。與LCSH主題詞有“用代關(guān)系”與“屬分關(guān)系”的標簽分別有5個,共占總數(shù)的13.2%??紤]到社會標簽的個性化與自由化特點,該統(tǒng)計結(jié)果說明WorldCat熱門標簽基本達到了信息組織與信息發(fā)現(xiàn)的目標。
“相關(guān)標簽”共有4個,占總數(shù)的5.3%。這類標簽對于信息分類具有補充作用,且可為對相關(guān)信息資源感興趣的用戶提供引導(dǎo)。如標簽“satirical non-fiction”在內(nèi)涵上比LCSH主題詞“non-fiction”更加專深。
“縮寫詞”標簽共有11個,占總數(shù)的14.5%。有國外研究者認為縮寫詞類型的標簽不利于對用戶信息發(fā)現(xiàn)與分類[3]。雖然WorldCat熱門標簽中部分“縮寫詞”標簽(如“bf2010”與“bcu-new”)的內(nèi)容未被社會公認,的確對用戶信息發(fā)現(xiàn)無幫助。但像“hci”(human computer interaction/interface)這類標簽是已被計算機領(lǐng)域認可的縮寫詞,它們簡化了熱門標簽的內(nèi)容顯示。
“不規(guī)范的標簽”與“拼寫錯誤的標簽”分別有5個和4個,共占總數(shù)的11.9%。這兩類標簽不能有效引導(dǎo)用戶發(fā)現(xiàn)信息。并且利用這兩類標簽來組織信息沒有必要,其結(jié)果對用戶亦無實際幫助。
其它標簽在調(diào)查中共有19個,占了總數(shù)的25.0%。這19個標簽具體可細分為時間相關(guān)標簽、非英文標簽、表明擁有者的標簽和表示用戶行為的標簽。
2 WorldCat熱門標簽與其他網(wǎng)站熱門標簽的比較
BibSonomy與Flickr較早采用了熱門標簽這一信息組織與信息發(fā)現(xiàn)工具,其內(nèi)容排列組織相對成熟且各具特點。而中文網(wǎng)絡(luò)社區(qū)豆瓣按標簽屬性展示熱門標簽的理念很有借鑒意義。因此,為對WorldCat熱門標簽提出有效的優(yōu)化建議,筆者將其與Bibsonomy、Flickr、豆瓣3個網(wǎng)站的熱門標簽進行比較。
2.1 標簽質(zhì)量控制的比較
熱門標簽是對社會標簽的展示,網(wǎng)站是否在用戶標注時采取必要的質(zhì)量控制與提供合理的標注建議,直接影響熱門標簽內(nèi)容的質(zhì)量。本文從大小寫限制、標簽拼寫提示以及幫助信息等7個方面對標簽質(zhì)量控制方式進行了比較(見表3)。
比較結(jié)果說明,4個網(wǎng)站在標簽質(zhì)量控制上均有待提高。與另外3個網(wǎng)站相比,WorldCat在標簽質(zhì)量控制上做得較好,其通過符號限制、標簽長度限制以及幫助信息規(guī)范了用戶標注行為。豆瓣標簽的質(zhì)量控制有待完善,其僅提供了“什么是標簽”的幫助信息。Flickr是調(diào)查中唯一對標簽內(nèi)容的大小寫進行控制的網(wǎng)站,它將所有標簽內(nèi)容都自動轉(zhuǎn)化為小寫形式,規(guī)范了標簽顯示。BibSonomy則主要通過標簽拼寫提示與規(guī)范標簽提示控制標簽質(zhì)量。為用戶標注提供單詞拼寫與規(guī)范標簽提示,不僅能夠節(jié)約用戶標簽時間,還能提高用戶標簽的質(zhì)量。
[網(wǎng)站
比較項目\&WorldCat\&BibSonomy\&Flickr\&豆瓣\&大小寫限制\&無\&無\&有,限小寫\&無\&標簽拼寫提示\&無\&有\&無\&無\&規(guī)范標簽提示\&無\&有\&無\&無\&不同語種轉(zhuǎn)換\&無\&無\&無\&無\&符號限制\&有,能用5種\&無\&有,但無說明\&無\&標簽長度限制\&有,75個\&無\&無\&無\&幫助信息\&有\&有\&無\&有\&][表3 WorldCat與其它網(wǎng)站標簽的質(zhì)量控制比較]
2.2 標簽排序方式的比較
BibSonomy、Flickr和豆瓣均按字順排列標簽。其具體規(guī)則如下,BibSonomy按照“數(shù)字—英文—非英文”的順序,F(xiàn)lickr按照字母順序,豆瓣按照“數(shù)字—英文—漢字”的順序。針對不同的標簽熱門程度,這3個網(wǎng)站以標簽云圖表明。
WorldCat只采用了標簽云圖表現(xiàn)各標簽的熱門程度,在標簽的排序上并未采用特定方式。該處理方式不利于用戶快速查找熱門標簽的具體內(nèi)容,降低了其功能的實用性。
2.3 標簽瀏覽模式的比較
標簽瀏覽模式指網(wǎng)站針對用戶的不同瀏覽需求與使用偏好,對標簽內(nèi)容進行的單一或多樣化展示模式。筆者調(diào)查發(fā)現(xiàn),另外3個網(wǎng)站均提供了多樣化的瀏覽模式,而WorldCat熱門標簽僅提供了標簽云圖這一種瀏覽模式。
Flickr的熱門標簽按照統(tǒng)計時間的不同提供了3類熱門標簽,分別是“在過去24小時內(nèi)最熱門標簽”、“過去一周內(nèi)最熱門標簽”以及“一直以來最熱門的標簽”。BibSonomy的熱門標簽則采用了按字母順序(alpha)和標簽熱度(freq)兩種瀏覽模式,并在此基礎(chǔ)上按云圖(cloud)和列表(list)進行展示。豆瓣對熱門標簽采用了分類瀏覽與所有熱門標簽兩種瀏覽模式。在分類瀏覽模式下,豆瓣先對標簽屬性進行分類,然后將各個標簽按照標注頻率歸入各大類。
WorldCat熱門標簽的瀏覽功能不如另外3個網(wǎng)站。單一的瀏覽模式局限了用戶對于熱門標簽的查找,不能滿足用戶多樣化的信息需求以及個性化的使用偏好。
2.4 標簽內(nèi)容顯示的比較
在標簽內(nèi)容顯示上,WorldCat、Flickr均以體積、字體以及顏色深淺來顯示熱門標簽。對于標引頻次差別不大的標簽,用戶不能直觀了解其熱門程度的差異。在這種標簽內(nèi)容顯示的基礎(chǔ)上,豆瓣和BibSonomy在每個熱門標簽后面都顯示了具體被標注的頻次,用戶可以準確地了解各標簽的熱門程度。
3 WorldCat熱門標簽的優(yōu)化建議
3.1 了解用戶的標注行為
有學(xué)者研究發(fā)現(xiàn)“大眾標注中,用戶對于標簽的選擇還會受到從眾心理、其他用戶標注行為與社會共識的影響,往往使用‘熱度最高的詞去標注目標,也就是俗語中的‘人云亦云” [4]。熱門標簽除了引導(dǎo)用戶發(fā)現(xiàn)信息外,還會對其標注行為產(chǎn)生影響。為避免出現(xiàn)用戶參考熱門標簽中錯誤或者不規(guī)范的標簽,從而造成“人云亦云”甚至是“以訛傳訛”的后果,WorldCat在設(shè)計熱門標簽功能以及規(guī)范標簽質(zhì)量上需要有對用戶、對信息負責(zé)的態(tài)度與認識。
WorldCat可以通過兩種方式來了解用戶的標注行為。一方面,WorldCat可以開展關(guān)于標簽質(zhì)量控制與熱門標簽功能需求的用戶調(diào)查,通過調(diào)查總結(jié)出用戶關(guān)于熱門標簽的需求,進而對其功能進行針對性設(shè)計。另一方面,WorldCat可從現(xiàn)有熱門標簽數(shù)據(jù)中,總結(jié)出用戶的標注偏好以及不同類型標簽的利用情況,再適當調(diào)整其內(nèi)容與功能,使之更能滿足用戶需求。
3.2 加強標簽的質(zhì)量控制
熱門標簽作為WorldCat提供的信息組織與信息發(fā)現(xiàn)工具,內(nèi)容質(zhì)量將直接影響其功能的實現(xiàn)。結(jié)合上文對其標簽內(nèi)容的質(zhì)量分析與質(zhì)量控制的調(diào)查,WorldCat可通過兩種措施加強標簽的質(zhì)量。
(1)增加用戶標注提示。WorldCat在用戶對信息進行標簽時僅提示“標簽需用逗號隔開”,使得用戶在標注時處于不受控的狀態(tài)。在用戶添加標簽時,WorldCat應(yīng)給用戶“拼寫提示”或者“規(guī)范標簽提示”。如Google搜索引擎,當用戶輸入檢索詞時,往往只需輸入一部分,用戶便可在下拉列表中看到提示詞。WorldCat的標簽系統(tǒng)可以借鑒這一用戶提示機制,利用相關(guān)技術(shù)對用戶可能輸入的標簽進行預(yù)測,并將規(guī)范標簽提示給用戶。此外,當用戶輸入的標簽內(nèi)容與其質(zhì)量控制政策相抵觸時,系統(tǒng)應(yīng)將錯誤內(nèi)容向用戶標明,并給出正確提示。
(2)為用戶標注提供多種選擇。用戶添加標簽時,給用戶提供規(guī)范標簽作為參考或提供規(guī)范詞表進行查閱,可引導(dǎo)用戶在標注時選擇更規(guī)范的標簽內(nèi)容。WorldCat在用戶標注系統(tǒng)中,提供相關(guān)LCSH主題詞信息或者標簽推薦信息讓用戶選擇,能夠提高其標簽內(nèi)容的質(zhì)量。
Brain Matthews等人就將知識組織系統(tǒng)引入到用戶標簽界面中,并且發(fā)現(xiàn)這一機制提高了社會標簽在信息組織與信息檢索中的質(zhì)量,同時還提高了用戶在主題標引方面的準確性[5]。WorldCat可將待標注資源的標簽云、相關(guān)主題詞、標簽提示及標簽內(nèi)容等4類信息的多語種表達以樹形列表顯示在標簽界面中,為用戶標注提供更多參考。
3.3 擴展熱門標簽的功能
(1)多維度展示熱門標簽。社會標簽的合理應(yīng)用能夠“為用戶提供更多的可理解的信息獲取路徑”[6]。目前WorldCat熱門標簽僅用無序的標簽云圖進行展示,不能滿足用戶對熱門標簽個性化的瀏覽需求。它可以采取多維度展示的方法,提供按不同分類標準整合的熱門標簽。
除標簽云圖外,WorldCat熱門標簽可參考Flickr對標簽內(nèi)容按時間范圍展示的理念。這不僅可以解決目前標簽排列無序的問題,而且可以解決熱門標簽因更新緩慢而無法及時反映用戶關(guān)注熱點的問題。
此外,WorldCat熱門標簽還可先按標簽的功能(如表示信息主題的、時間相關(guān)的標簽等)進行分類,再展示各個類目下的熱門標簽,使之更加全面實用。
(2)讓熱門標簽更加融入網(wǎng)站。目前WorldCat僅在其主頁上顯示熱門標簽,使得用戶每次想要了解其具體內(nèi)容時需要再次返回主頁進行瀏覽。建議WorldCat將熱門標簽以一個工具條的形式嵌入到每個頁面空白處,使用戶在瀏覽網(wǎng)頁時可以通過點擊熱門標簽方便的瀏覽與查找。如BibSonomy就將 “busy tags”工具條嵌入到網(wǎng)站中,讓用戶更加便捷地使用熱門標簽。
(3)增加熱門標簽組配檢索的功能。目前WorldCat用戶僅能選擇單一標簽內(nèi)容進行信息檢索,當用戶想要對多個感興趣的標簽內(nèi)容進行瀏覽與查找則需要重復(fù)多次。WorldCat熱門標簽可以增加讓用戶利用標簽內(nèi)容進行組配檢索的功能。這樣不僅能夠節(jié)約用戶時間,還能讓用戶通過熱門標簽檢索到的信息資源更加全面準確。其可借鑒書簽分享網(wǎng)站Delicious提供的標簽聯(lián)合檢索功能,用戶在Delicious中僅需點擊選擇多個感興趣的標簽,便能夠檢索到包含這些標簽的具體資源。
4 結(jié)語
社會化網(wǎng)絡(luò)環(huán)境下,面對不斷變化與提高的用戶需求,圖書館界有必要對信息組織方法進行優(yōu)化與創(chuàng)新。WorldCat將熱門標簽作為新的信息組織與信息發(fā)現(xiàn)工具投入使用是一個有益的嘗試,能夠為信息組織方法的研究提供新的視角,并將對整個圖書館界起示范作用。希望本文針對WorldCat提出的建議能為相關(guān)機構(gòu)的熱門標簽優(yōu)化或者其它信息組織方法的創(chuàng)新提供參考,推動適應(yīng)社會化網(wǎng)絡(luò)環(huán)境的信息組織方法在圖書館界的應(yīng)用。
參考文獻:
[1]OCLC.Online Catalogs: What Users and Librarians Want[EB/OL].[2012-05-15].http://www.oclc.org/reports/onlinecatalogs/fullreport.pdf.
[2]Golder,S.,Huberman, B.,Usage patterns of collaborative tagging systems[J].Journal of Information Science,2006,32(2):198-208.
[3]Kipp, M. Complementary or Discrete Contexts in Online Indexing: A Comparison of User, Creator and Intermediary Keywords[EB/OL].[2012-05-15].http://eprints.rcl
is.org/bitstream/10760/10397/1/mkipp-cais2006slides.pdf.
[4]查先進,呂彬.知識共享視角下的大眾標注行為研究——基于標簽的實證分析[J].圖書館論壇, 2010, 30(6):76-81.
[5]Matthews, B. Jones C. Puzon, B. An evaluation of enhancing social tagging with a knowledge organization system[J]. Aslib Proceedings:New Information Perspectives,2010, 65(4/5): 447-465.
[6]Larson, K. Mining Social Tagging Data for Enhanced Subject Access for Readers and Researchers[J].The Jour
nal of Academic Librarianship, 2009, 35(6): 574-582.
作者簡介:黃如花(1968—),女,武漢大學(xué)信息資源研究中心教授,博士生導(dǎo)師;任其翔(1989—),男,武漢大學(xué)信息管理學(xué)院2011級碩士研究生。