●劉向紅,宋 文,姚 朋
(1.承德石油高等??茖W(xué)校 信息中心,河北 承德 067000;2.中國科學(xué)院 文獻情報中心,北京 100080)
Folksonomy是近年來流行于網(wǎng)絡(luò)的一種用戶參與、主導(dǎo)的資源自組織方式,是web2.0時代的一個重要技術(shù)輔助手段?,F(xiàn)在,很多應(yīng)用Folksonomy的網(wǎng)站成為web2.0的明星網(wǎng)站,如國外的del.icio.us、Flickr、43-Things、CiteUlike、Connotea等,國內(nèi)的豆瓣網(wǎng)、天天網(wǎng)摘等。這些網(wǎng)站允許用戶根據(jù)自己的需要自由選擇自然語言,即使用Tag(標(biāo)簽)存儲和管理自己的信息資源,并提供分享和交流的平臺。Tag之間是平等的關(guān)系,不必考慮等級結(jié)構(gòu),每個Tag相當(dāng)于用戶對資源的一個分類。信息專家ThomasVanderWal將這種信息分類方式命名為“Folksonomy”。國內(nèi)對Folksonomy的譯法很多,如大眾分類法,自由分類法,大眾標(biāo)注,分眾分類法等,本文采用“自由分類法”的名稱。
Folksonomy這種組織形式的特點是自由、共享和動態(tài)更新,能夠迎合用戶的需求,體現(xiàn)用戶價值,促進集體交流,是一種基于用戶合作的分類方式。本文以國外著名的學(xué)術(shù)網(wǎng)摘CiteUlike為例,對社會化標(biāo)簽系統(tǒng)中的Folksonomy機制進行分析研究。
CiteULike與del.icio.us很類似,同樣是一款免費的社會化書簽網(wǎng)絡(luò)工具,是專門為學(xué)術(shù)研究人員提供組織學(xué)術(shù)文章的網(wǎng)站。它可以幫助學(xué)術(shù)工作者分享、儲存和組織他們正在瀏覽的文獻形成個人資料庫。支持Tags、RSS訂閱、設(shè)定優(yōu)先權(quán)、內(nèi)容輸出到BibTeX、EndNote文獻管理系統(tǒng)和由BibTeX輸入內(nèi)容,并支持按Tags和作者查詢以及提供用戶組等服務(wù)。[1]
Citeulike使用簡單,注冊后無需安裝插件,如果是PubMed、SD等學(xué)術(shù)數(shù)據(jù)庫中的文章,收藏時點幾下鼠標(biāo)就可自動添加作者、期刊名、文章卷期、頁碼、出版商、摘要等信息,形成標(biāo)準(zhǔn)的引文格式。而且所有的這些工作均在瀏覽器中完成,不需要安裝什么特別的插件。[2]
本文的研究目的是通過數(shù)據(jù)收集和圖表分析,分析用戶與所標(biāo)注資源的關(guān)系、用戶與所使用標(biāo)簽的關(guān)系、用戶使用標(biāo)簽的時間變化規(guī)律以及標(biāo)簽的共現(xiàn)關(guān)系和聚類特性,旨在探討社會化書簽系統(tǒng)中用戶的標(biāo)注行為特征,驗證標(biāo)簽的資源組織能力。
筆者通過GoogleReader,使用CiteUlike[3]提供的RSSFeed服務(wù),抓取了CiteUlike網(wǎng)站2008年12月21日至2009年6月30日時間段以Folksonomy作為標(biāo)簽檢索的數(shù)據(jù)233條,去重后獲取183篇文獻,得到一組資源概況數(shù)據(jù)集,其中每條數(shù)據(jù)都包括文獻題名、作者、發(fā)表時間、文獻出處、用戶名以及標(biāo)注人數(shù)。統(tǒng)計工作圍繞這個數(shù)據(jù)集展開。
通過統(tǒng)計,可以看到,被標(biāo)引最多的資源是Scott Golder和 Bernardo A.Huberman 2005年發(fā)表的 《The StructureofCollaborativeTaggingSystems》,有 246個個人用戶、62個群用戶都標(biāo)引了該資源。被標(biāo)注次數(shù)較多的資源和作者,說明其被關(guān)注程度較高,在某種程度上可視為有關(guān)Folksonomy研究的核心資源和核心作者。
另外,筆者所獲取的83%的資源出版年限集中在2005年—2009年,2007年和2008年尤為集中,這與Folksonomy一詞在2005年開始在網(wǎng)絡(luò)上出現(xiàn)有關(guān),同時也說明,人們對近期出現(xiàn)的資源較為關(guān)注,越遠期的資源關(guān)注度越低。
筆者還發(fā)現(xiàn)這些文獻作者數(shù)量為2—4人的最多,占64%;作者為1人的僅占23%;5個作者以上的文獻占13%,這表明,科學(xué)研究越來越趨向于合作,而非單打獨斗。[4]
筆者按照用戶標(biāo)注數(shù)量排序后得到一組“用戶標(biāo)注資源數(shù)量”數(shù)據(jù)集,其中每條數(shù)據(jù)包括:用戶名、標(biāo)注次數(shù)。表1顯示,有1224名用戶參加了這183條資源的標(biāo)注活動,共發(fā)生了3662次標(biāo)注活動,平均每個用戶標(biāo)注2.99次,平均每條資源被標(biāo)注的次數(shù)是20.01次;標(biāo)注活動最頻繁的兩個用戶分別標(biāo)注了53條資源和48條資源,共有24個用戶的Folksonomy標(biāo)注行為超過20次。這說明近兩年人們對有關(guān)Folksonomy的研究還是非常關(guān)注的。
表1 基于folksonomy的資源及其對應(yīng)的用戶
通過分析用戶數(shù)目與標(biāo)注行為數(shù)目之間的關(guān)系,筆者發(fā)現(xiàn)大多數(shù)的標(biāo)注行為是由相對較少的用戶產(chǎn)生的,標(biāo)注資源數(shù)大于20篇的用戶數(shù)占用戶總數(shù)的0.19%,他們占有了17.9%的標(biāo)注行為數(shù)(即標(biāo)注篇數(shù));標(biāo)注資源數(shù)為1篇的用戶占了用戶總數(shù)的56.9%,而標(biāo)注行為數(shù)(即標(biāo)注篇數(shù)) 僅為總數(shù)的1.9%。這表明:數(shù)量較少的用戶標(biāo)注行為頻次高,而大多數(shù)用戶的標(biāo)注行為頻次較低,呈現(xiàn)“長尾(Long-Tail)”現(xiàn)象,遵循冪律分布規(guī)律,也就是說,數(shù)量較少的用戶貢獻了大部分資源。
ThomasVanderWal、AdamMathes等多位學(xué)者均指出,標(biāo)簽的使用情況也遵循冪律分布(Power Law):一方面,代表用戶共同知識的一部分標(biāo)簽被多數(shù)用戶使用,具有較高的使用頻率;另一方面,存在大量“個性化”的標(biāo)簽,僅對少數(shù)用戶甚至個人有意義,這些標(biāo)簽的使用頻率很低,但在數(shù)量上卻比成為“熱門類目”的標(biāo)簽龐大很多。
筆者選取了本組數(shù)據(jù)中被標(biāo)注次數(shù)最多的1篇文獻 《The Structure ofCollaborative TaggingSystems》,統(tǒng)計了其2007年1月至2009年6月的標(biāo)簽使用情況,得到一組共現(xiàn)標(biāo)簽數(shù)據(jù)集,其中每條數(shù)據(jù)包括:用戶、標(biāo)簽、標(biāo)注時間。
統(tǒng)計數(shù)據(jù)顯示:該文獻在此時間段共被標(biāo)注了148次,其中個人用戶標(biāo)注125次,群用戶23次,共使用了349次標(biāo)簽,平均每個用戶使用2.35個標(biāo)簽,出現(xiàn)的共現(xiàn)標(biāo)簽數(shù)為98個,還有10人未使用標(biāo)簽。
作者將數(shù)據(jù)集中標(biāo)簽的序號和標(biāo)簽使用人數(shù)兩列的數(shù)據(jù)取值映射到坐標(biāo)系中,標(biāo)簽的序號作為自變量x,標(biāo)簽的使用人數(shù)作為因變量y,用柱形圖表現(xiàn)標(biāo)簽與標(biāo)簽使用次數(shù)的關(guān)系,圖像呈現(xiàn)出明顯的冪函數(shù)的特征。
如圖1所示,排序在前幾位的標(biāo)簽具有較高的使用次數(shù),代表使用頻率高的熱門類目,但這樣的標(biāo)簽是極少數(shù),使用次數(shù)超過30的標(biāo)簽僅2個;隨著標(biāo)簽序號的值增大,對應(yīng)標(biāo)簽的使用次數(shù)減少,并且這一下降的趨勢非常迅猛,使圖像的前半部分具有很大的切線斜率絕對值;在接下來的一段取值區(qū)間中,圖像經(jīng)過一個短暫的過渡后,走勢逐漸趨于平穩(wěn),圖像的后半段分布的是使用頻率低的標(biāo)簽,即使用人數(shù)為2或1的標(biāo)簽達到67個,占據(jù)本篇文獻標(biāo)簽數(shù)量的68.37%,形成了一條基本與x軸平行的“長尾”,也就說大多數(shù)標(biāo)簽屬于個性化標(biāo)簽,不代表用戶的共識。
圖 1 《The Structure of Collaborative Tagging Systems》標(biāo)簽使用情況
而使用人數(shù)超過2的標(biāo)簽,它們中的一部分反映了用戶的共識,如tagging和folksonomy,去除拼寫錯誤和單復(fù)數(shù)形式,這兩個標(biāo)簽的使用人數(shù)是85和38,分別占總標(biāo)注人數(shù)的57.4%和25.7%,可以說,tagging和folksonomy就是用戶對這篇文獻的網(wǎng)絡(luò)自由分類名稱。
以上的數(shù)據(jù)分析驗證了用戶對標(biāo)簽的選擇遵循冪律分布規(guī)律。這一特征與文獻計量學(xué)中的齊夫定律很相似。這類冪律分布的現(xiàn)象普遍存在于自然界和人類社會中,統(tǒng)計物理學(xué)家將這類現(xiàn)象稱為“無標(biāo)度現(xiàn)象”,即系統(tǒng)中個體的尺度相差懸殊,例如互聯(lián)網(wǎng)、人際網(wǎng),這些網(wǎng)絡(luò)中不同節(jié)點所擁有的連接數(shù)都遵循冪律分布規(guī)律。
在CiteUlike中,每個用戶的標(biāo)引記錄是按照時間先后順序排列的,這有助于了解用戶標(biāo)簽隨時間推移的分布情況。筆者選取了標(biāo)注這183條資源的用戶中標(biāo)注活動最活躍的兩名用戶ianturton和brusilovsky,分別提取了他們所有標(biāo)簽中使用率最高的前4個標(biāo)簽隨時間變化的的情況,二者都是2006年開始有標(biāo)注行為的,其標(biāo)注行為如表2,然后借助Excel統(tǒng)計出這些標(biāo)簽的使用率隨時間的增長情況,具體結(jié)果如圖2—圖3,其中橫坐標(biāo)代表時間,縱坐標(biāo)代表該標(biāo)簽的使用率,而不同的標(biāo)簽則用不同顏色表示。
表2 用戶使用標(biāo)簽情況
在標(biāo)簽增長曲線中,線段的斜率代表標(biāo)簽使用率的增長速度。線段在某段時間內(nèi)向上的斜率越大,表示該標(biāo)簽的使用率增長就越快;向下的斜率越大,表示該標(biāo)簽的使用率減少越快,高位平行線段表示該標(biāo)簽在這段時間內(nèi)使用率較高,呈勻速增長,而低位平行線段則表示該標(biāo)簽在這段時間內(nèi)的使用率較低,用戶很少使用,甚至可能沒有使用。
通過圖2和圖3,筆者發(fā)現(xiàn):
圖2 用戶ianturton的標(biāo)簽變化情況
圖3 用戶brusilovsky的標(biāo)簽變化情況
(1)在每個用戶的每個標(biāo)簽增長曲線中都存在一個頂點,說明在這個時間點,用戶對標(biāo)簽的使用達到一個高峰。如用戶brusilovsky在2007年對information-retrieval這個標(biāo)簽的使用達到頂峰,說明2007年的某個時間點,brusilovsky非常關(guān)注這方面的資源,或許對之在進行集中研究。
(2)有些標(biāo)簽在高位平行線段形成頂點后開始迅速向下,或形成低位平行線段,或繼續(xù)下降,說明用戶對標(biāo)簽的關(guān)注率在下降。如visualization這個標(biāo)簽,82%都是在2006年和2007年使用的,說明用戶ianturton在這個時期對可視化這個專題的資源非常感興趣,而2008年以后對之關(guān)注度明顯下降。
(3) 有些標(biāo)簽長期保持持續(xù)增長態(tài)勢,如用戶brusilovsky的標(biāo)簽recommender和tagging,說明用戶對標(biāo)簽的關(guān)注率在持續(xù)提升。
這些現(xiàn)象表明,標(biāo)簽的生命周期具有階段性,即用戶研究問題的視角可能是不斷轉(zhuǎn)移的。若從特定標(biāo)簽的角度來看,則說明用戶對它的使用率可能是集中在某一個或幾個時間段內(nèi),在其余大部分時間內(nèi),用戶對該標(biāo)簽所代表的問題關(guān)注度非常低,而對某些標(biāo)簽來說,用戶對它們的關(guān)注則屬于一次性的短期行為。若選取相同時間段來觀察不同標(biāo)簽的斜率,可以發(fā)現(xiàn),增長趨勢越接近的標(biāo)簽,其相關(guān)性也越高,如圖3中的標(biāo)簽semantic和information-retrieval。該現(xiàn)象可以從一定程度上反映出這些標(biāo)簽的共現(xiàn)頻率較高的事實,有助于人們判斷用戶研究熱點的變化情況。
在社會化標(biāo)簽系統(tǒng)中,標(biāo)簽之間存在一定的隱性關(guān)系,挖掘標(biāo)簽之間的聯(lián)系,有助于更好地理解標(biāo)簽的語義和用戶行為。一般而言,共同標(biāo)注某一資源的所有標(biāo)簽都互為共現(xiàn)標(biāo)簽,標(biāo)簽被用戶使用標(biāo)注同一資源的次數(shù)越多,其共現(xiàn)頻率越高,相關(guān)度也就越高。標(biāo)簽的共現(xiàn)關(guān)系可以在一定程度上反映出標(biāo)簽之間的語義關(guān)系,如同義關(guān)系、層次關(guān)系等。
3.4.1 標(biāo)簽共現(xiàn)強度表達了標(biāo)簽的相關(guān)度
筆者還是選取《TheStructureofCollaborativeTagging Systems》2007年1月至2009年6月的標(biāo)簽使用情況,查重后共得到98個標(biāo)簽,然后將所有標(biāo)簽按照使用次數(shù)排序,因為標(biāo)簽被共同標(biāo)注的次數(shù)越多,其共現(xiàn)頻率越高,它們之間的關(guān)系越密切。為了統(tǒng)計準(zhǔn)確,在統(tǒng)計過程中合并了標(biāo)簽詞匯的單復(fù)數(shù)形式以及明顯的拼寫錯誤,如Folksonomy和folksonomies以及olksonomy(明顯拼寫錯誤),Tag和Tags、Tagx,collaborative-Tagging和ollabrative-Tagging(拼寫錯誤) 等等,用Excel表繪制圖4。圖4是上述資源指定標(biāo)簽的頻度統(tǒng)計排名分布圖,橫坐標(biāo)為標(biāo)簽序號rank(按標(biāo)簽使用頻率排序),縱坐標(biāo)為標(biāo)簽出現(xiàn)的頻次與序號的乘積—f*r??梢悦黠@看出,標(biāo)簽的頻度統(tǒng)計排名分布基本符合齊夫定律:C=f*r(rank)
圖4 folksonomy同現(xiàn)標(biāo)簽的頻度排名分布圖
圖4 顯示,在標(biāo)簽出現(xiàn)頻次排名較高的部分,曲線相對平坦,即這幾個標(biāo)簽的C常數(shù)(C=f*r(rank)基本相等,這主要是因為:語義相近或重疊的常用詞語(同義詞或近義詞)會在使用上存在競爭關(guān)系,或者說并列關(guān)系,如“tagging”“folksonomy”和“Tag”之間就存在這種關(guān)系。圖中標(biāo)注了頻度最高的4個共現(xiàn)標(biāo)簽,我們定義這4個標(biāo)簽(認(rèn)為這4個標(biāo)簽?zāi)芗械胤从吃撡Y源的特征) 為強共現(xiàn)標(biāo)簽,[5]即這4個標(biāo)簽共同出現(xiàn)的機會較高,詞義相關(guān)度極高。對于某個特定的標(biāo)簽,其強共現(xiàn)標(biāo)簽頻率分布顯示出了與該標(biāo)簽聯(lián)系密切的“詞匯”。
3.4.2 共現(xiàn)標(biāo)簽之間的層次關(guān)系
在標(biāo)注此文獻的共現(xiàn)標(biāo)簽中,可以發(fā)現(xiàn)以folksonomy為中心,共現(xiàn)標(biāo)簽的關(guān)系呈幾種層級分布:
●從屬關(guān)系,上位類:knowledge,socialsoftware,classification,web2.0
●相關(guān)關(guān)系(同義詞關(guān)系):tagging,tag,collaborative-tagging,socialbookmarking,social-tagging
●并列關(guān)系,同位類:collaborative-filtering,collective_knowledge,semantic,ontology
通過分析特定的標(biāo)簽,從詞匯關(guān)聯(lián)角度可以發(fā)現(xiàn)有意義的知識模式和語義關(guān)聯(lián)。
聚類分析是一種無監(jiān)督分類,目標(biāo)是將資源劃分為有意義的簇(Cluster)或類,每個聚類簇中的資源之間具有較大的相似性,而聚類簇之間的資源具有較小的相似性。[6]通過聚類簇可以聚合同類資源和同類用戶,從而形成網(wǎng)絡(luò)上的社團結(jié)構(gòu)。
自由分類得以實現(xiàn),主要是采用社群成員共同建立的標(biāo)準(zhǔn)來進行分類體系的建構(gòu)。成員提交的標(biāo)簽可能千奇百怪,但系統(tǒng)很容易通過統(tǒng)計方法在這些關(guān)鍵詞中發(fā)現(xiàn)最適合的元數(shù)據(jù)。自由分類的分類標(biāo)準(zhǔn)是——“對于同一內(nèi)容,采用使用頻率最高的一個或幾個關(guān)鍵字標(biāo)簽來作為其分類元數(shù)據(jù)”。[7]
由圖4容易看出,tagging采用的關(guān)鍵字使用的頻率最多(85次),其他幾個共現(xiàn)標(biāo)簽——Tag,folksonomy,collaborative也有較高的使用頻率,那么這幾個標(biāo)簽可以作為這一資源的元數(shù)據(jù)標(biāo)簽,tagging則可以作為這一資源的Folksonomy分類名稱。這是通過自發(fā)過程選出的滿足大多數(shù)人需要的分類標(biāo)簽,這種分類方式與主流網(wǎng)絡(luò)信息分類體系相比,可以更好地聚合滿足用戶需求、符合用戶分類習(xí)慣的資源,并且能幫助用戶更好地理解信息分類,從而更快更準(zhǔn)確地找到需要的信息。這種有別于學(xué)科聚類、主題聚類的方式可以稱為社群聚類,它是Folksonomy機制的核心部分。[8]這就進一步體現(xiàn)出Folksonomy是一種基于用戶提交關(guān)鍵字的分類,它反應(yīng)的是整個社群的群體意識傾向和知識背景,具有不同成員結(jié)構(gòu)的社群對同一網(wǎng)絡(luò)內(nèi)容就可能形成不同的元數(shù)據(jù)標(biāo)簽。本文所使用的數(shù)據(jù)集就是以Folksonomy為標(biāo)簽聚合的資源,同時還將對自由分類法具有共同興趣的用戶也聚合在一起。這種聚類方式,可以凸顯出社群成員關(guān)心的熱點信息,形成一個特別適合本社群成員特點的信息分類體系。
由上述分析我們發(fā)現(xiàn):標(biāo)簽是用戶在描述資源時自由選用的詞匯,在CiteUlike這樣的社會化書簽系統(tǒng)中,標(biāo)簽的分布和用戶的標(biāo)注行為是遵循冪律分布規(guī)律的,即少數(shù)用戶貢獻了大部分資源,少數(shù)標(biāo)簽具有較高的使用頻率;當(dāng)標(biāo)注同類資源時,具有較高使用頻率的少數(shù)標(biāo)簽成為強共現(xiàn)標(biāo)簽,強共現(xiàn)標(biāo)簽具有社群聚類功能,聚合了同類資源以及同類用戶。而Folksonomy正是通過同一標(biāo)簽對不同資源和同一資源對不同標(biāo)簽的聚合作用來不斷擴充主題(標(biāo)簽)和資源間的動態(tài)聯(lián)系的,其作用主要表現(xiàn)在:
(1)從標(biāo)簽角度聚合資源,可以揭示資源之間存在的內(nèi)容相關(guān)性,反映通過標(biāo)簽發(fā)現(xiàn)新資源的能力;還可以聚合使用該標(biāo)簽的用戶,通過追蹤他們的標(biāo)注行為,以類似滾雪球的方式找出許多相關(guān)文獻。
(2)CiteUlike這樣的社會化書簽系統(tǒng)可以從資源角度聚合用戶行為,即通過選定某資源,揭示標(biāo)注過該資源的所有用戶及其采用的標(biāo)簽,既可以反映不同用戶對同一資源的不同理解,幫助人們從不同角度加深對該資源的認(rèn)識,又可以發(fā)現(xiàn)與之具有相同或相似興趣的人。
(3)同類標(biāo)簽所標(biāo)注的資源中被標(biāo)注次數(shù)較高的資源和資源作者,相對這個領(lǐng)域可能較為重要,而且有可能以此發(fā)現(xiàn)某一學(xué)科新的研究熱點。
(4)CiteUlike可以按用戶來聚合資源,瀏覽某一用戶所有的標(biāo)引活動,從該用戶對標(biāo)簽的使用規(guī)律能夠分析其研究熱點的變化。
(5)CiteUlike這樣的社會化書簽系統(tǒng)可以通過計算,推薦資源的強共現(xiàn)標(biāo)簽作為用戶標(biāo)注資源時的參考,以便于按標(biāo)簽聚合資源,同時,用戶可以從中學(xué)習(xí)其它收錄者是用何種標(biāo)簽描述文獻的,為用戶的標(biāo)注行為和瀏覽行為提供方便和效率。
(6)可以通過研究某一標(biāo)簽的共現(xiàn)標(biāo)簽,深化對用戶對資源的理解。
由此可得出結(jié)論:Folksonomy這種分類形式在網(wǎng)絡(luò)資源組織和用戶行為研究上都具有獨特的優(yōu)勢。
[1]學(xué)術(shù)網(wǎng)絡(luò)書簽工具——CiteULike介紹[EB/OL].[2009-06-20].http://www.xxc.idv.tw/blog/xxc/webtryit/academic_social_1.html.
[2]個性化站點:CiteULike.org[EB/OL].[2007-06-20].http://www.guwendong.cn/post/2007/site_citeulike_org.html.
[3]CiteULike[EB/OL].[2009-06-30].http://www.citeulike.org/.
[4]Margaret E I Kipp.TaggingPractices on Research Oriented Social BookmarkingSites[EB/OL].[2009-03-20]http://www.cais-acsi.ca/proceedings/2007/kipp_2007.pdf.
[5]王萍.基于自由分類法的elearning標(biāo)簽研究[J].中國遠程教育,2008(10):65-70.
[6]王萍.基于自由分類法的e-Learning共現(xiàn)標(biāo)簽網(wǎng)絡(luò)分析[J].中國電化教育,2008(1):99-104.
[7]ACapocci,GCaldarelli.Folksonomies and clustering inthecollaborativesystemCiteULike[EB/OL].[2009-03-31].http://arxiv.org/PS_cache/arxiv/pdf/0710/0710.2835v2.pdf.
[8]周榮庭,鄭彬.分眾分類:網(wǎng)絡(luò)時代的新型信息分類法[J].現(xiàn)代圖書情報技術(shù),2006(3):72-75.