池雪花,張穎怡,高 星,盧 超,章成志
不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異研究
——以新浪微博用戶的標(biāo)簽為例*
池雪花,張穎怡,高 星,盧 超,章成志
文章以新浪微博中用戶標(biāo)簽作為研究對(duì)象,從微博中收集用戶基本信息與用戶標(biāo)簽信息,依據(jù)用戶標(biāo)簽分類體系對(duì)用戶標(biāo)簽進(jìn)行人工分類;然后分析標(biāo)簽類型、標(biāo)簽類型分布熵、用戶平均標(biāo)簽個(gè)數(shù)、用戶平均標(biāo)簽長(zhǎng)度等標(biāo)簽標(biāo)注行為指標(biāo)在不同學(xué)科領(lǐng)域中的差異,以及從高頻和不同標(biāo)簽個(gè)數(shù)分組兩個(gè)角度分析上述行為指標(biāo)在不同學(xué)科領(lǐng)域的差異。研究表明,標(biāo)簽類型、平均標(biāo)簽個(gè)數(shù)在不同學(xué)科領(lǐng)域中有顯著性差異;不同學(xué)科領(lǐng)域高頻標(biāo)簽中,標(biāo)簽類型存在較大差異;在不同標(biāo)簽個(gè)數(shù)分組下,用戶標(biāo)簽類型在不同學(xué)科領(lǐng)域下無(wú)明顯差異,用戶的平均標(biāo)簽長(zhǎng)度隨著個(gè)數(shù)的增多呈遞減趨勢(shì)。
用戶標(biāo)簽 標(biāo)簽分類 標(biāo)注行為 用戶信息行為
隨著互聯(lián)網(wǎng)發(fā)展,越來(lái)越多的Web2.0網(wǎng)站采用標(biāo)簽標(biāo)注功能,用戶針對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注,從而產(chǎn)生大量的標(biāo)簽。一些社交網(wǎng)站允許用戶在維護(hù)個(gè)人文檔時(shí),用關(guān)鍵詞標(biāo)注自己的興趣或愛(ài)好,這種類型的關(guān)鍵詞通常稱為用戶標(biāo)簽(UserTag),圖1為新浪微博博主孫茂松的用戶標(biāo)簽(http://weibo.com/p/1005051970879995/ info?mod=pedit_more)。
圖1 孫茂松的用戶標(biāo)簽
規(guī)范的用戶標(biāo)簽可以對(duì)社交網(wǎng)站上的用戶進(jìn)行有效分類,并為用戶興趣建模、好友推薦、專家檢索等應(yīng)用提供依據(jù)。然而目前微博用戶標(biāo)簽存在標(biāo)注隨意、標(biāo)簽無(wú)序化、標(biāo)簽間缺乏語(yǔ)義關(guān)系等問(wèn)題,這限制了用戶標(biāo)簽的實(shí)際應(yīng)用效果?,F(xiàn)有的社會(huì)化標(biāo)簽研究主要對(duì)象為用戶生成內(nèi)容對(duì)應(yīng)的標(biāo)簽,而學(xué)術(shù)界對(duì)用戶標(biāo)簽的研究還較少,更缺乏對(duì)用戶標(biāo)簽的分類研究。
研究不同領(lǐng)域的社會(huì)化標(biāo)簽的標(biāo)注行為差異,對(duì)標(biāo)簽標(biāo)注質(zhì)量的提高有重要作用。為此,本文通過(guò)對(duì)用戶標(biāo)簽進(jìn)行分類研究,考察不同學(xué)科領(lǐng)域的標(biāo)注差異,從而為今后的用戶標(biāo)簽標(biāo)注界面或標(biāo)注系統(tǒng)的研究與設(shè)計(jì)提供參考。本文選擇新浪微博作為研究對(duì)象,從微博中收集用戶標(biāo)簽相關(guān)信息,設(shè)計(jì)微博用戶標(biāo)簽分類體系,依據(jù)該體系對(duì)用戶標(biāo)簽進(jìn)行人工分類;然后分析不同學(xué)科領(lǐng)域中用戶標(biāo)簽的差異。調(diào)研結(jié)果發(fā)現(xiàn),標(biāo)簽類型、平均標(biāo)簽個(gè)數(shù)在不同學(xué)科領(lǐng)域中有顯著性差異;不同學(xué)科領(lǐng)域高頻標(biāo)簽中,標(biāo)簽類型存在較大差異;在不同標(biāo)簽個(gè)數(shù)分組下,用戶標(biāo)簽類型在不同學(xué)科領(lǐng)域下無(wú)明顯差異,用戶的平均標(biāo)簽長(zhǎng)度隨著個(gè)數(shù)的增多呈遞減趨勢(shì)。
(1)標(biāo)簽標(biāo)注行為研究概述。標(biāo)注系統(tǒng)中用戶標(biāo)注行為的研究已引起學(xué)者持續(xù)關(guān)注。2007年FarooqU等從標(biāo)簽增長(zhǎng)、標(biāo)簽重用、標(biāo)簽顯隱性、標(biāo)簽歧視、標(biāo)簽頻率和標(biāo)注方式來(lái)分析用戶標(biāo)簽標(biāo)注行為[1];Mirzaee V等從每個(gè)資源的標(biāo)簽數(shù)量、標(biāo)簽的選擇與使用、標(biāo)注頻率等角度分析用戶標(biāo)簽標(biāo)注動(dòng)機(jī)對(duì)標(biāo)注行為的影響[2];Xufei Wang等以StumleUpon與Delicious為平臺(tái),從用戶標(biāo)簽數(shù)量、用戶標(biāo)簽共享、高頻率標(biāo)簽的使用等角度對(duì)用戶標(biāo)注行為進(jìn)行分析[3];Aedín Guyot從標(biāo)簽長(zhǎng)度、標(biāo)簽個(gè)數(shù)、高頻率使用標(biāo)簽、不同語(yǔ)言標(biāo)簽、標(biāo)簽長(zhǎng)尾性等角度對(duì)LibraryThing中的書(shū)籍標(biāo)簽進(jìn)行分析[4];章成志等人對(duì)騰訊微博用戶標(biāo)簽與微博內(nèi)容關(guān)鍵詞進(jìn)行相關(guān)度評(píng)分,考察不同領(lǐng)域用戶標(biāo)簽主題表達(dá)能力[5]。
(2)標(biāo)簽類型劃分研究概述。社會(huì)化標(biāo)簽具有不同的類型和功能,區(qū)分標(biāo)簽類型有利于有針對(duì)性的應(yīng)用研究。學(xué)者們提出不同的標(biāo)簽類型劃分方式。Sen S和Lam K等將標(biāo)簽劃分為客觀標(biāo)簽、主觀標(biāo)簽和個(gè)人標(biāo)簽[6];Xu Zhichen和Fu Yun等將標(biāo)簽劃分為描述內(nèi)容、提供資源一些額外信息(如時(shí)間、地點(diǎn))、外部屬性(如擁有者類型)、表達(dá)對(duì)資源評(píng)價(jià)、用于自我組織的一些個(gè)人詞匯等[7];Melenhorst M S和Van S M等將標(biāo)簽劃分為內(nèi)容標(biāo)簽、態(tài)度標(biāo)簽、自我提醒標(biāo)簽等[8];Bischoff K和Firan C S等將標(biāo)簽細(xì)分為主題、類型、作者或擁有者、評(píng)價(jià)、目的、自身任務(wù)需要、地點(diǎn)、時(shí)間等類型[9];Heymann P等等將標(biāo)簽劃分為客觀和基于內(nèi)容的、物理屬性、意見(jiàn)、個(gè)人、縮寫(xiě)詞、垃圾標(biāo)簽等類型[10];Bhnstedt D等將標(biāo)簽劃分為人物或者組織資源作者或涉及到的人、地點(diǎn)、資源的類型、資源所涉及事件、主題、目標(biāo)或任務(wù)等類型[11];Cantadora I等將標(biāo)簽劃分為基于內(nèi)容和基于環(huán)境兩大類,基于內(nèi)容的標(biāo)簽可再細(xì)分為物理實(shí)體和非物理實(shí)體及組織團(tuán)體,基于環(huán)境下可細(xì)分為時(shí)間、地點(diǎn)等類型[12]。
綜上,社會(huì)化標(biāo)簽標(biāo)注行為、標(biāo)簽類型劃分等相關(guān)研究較深入,然而缺乏用戶標(biāo)簽的類型劃分、不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異等相關(guān)研究。用戶標(biāo)簽分類研究對(duì)于用戶標(biāo)簽標(biāo)注界面或系統(tǒng)設(shè)計(jì)具有參考價(jià)值,因此,本文結(jié)合用戶模型,引入標(biāo)簽分類體系,對(duì)用戶標(biāo)簽進(jìn)行分類,并進(jìn)行標(biāo)簽類型、標(biāo)簽類型分布熵、標(biāo)簽個(gè)數(shù)、標(biāo)簽長(zhǎng)度這四個(gè)方面的計(jì)算,通過(guò)四個(gè)指標(biāo)分析用戶在不同分類角度下的標(biāo)注行為差異。
2.1 調(diào)研流程
如圖2所示,本文調(diào)研流程為:首先利用新浪微博平臺(tái),采集不同學(xué)科領(lǐng)域下的用戶標(biāo)簽數(shù)據(jù);其次制定用戶標(biāo)簽分類體系,邀請(qǐng)3名志愿者參與用戶標(biāo)簽分類任務(wù),得到用戶標(biāo)簽分類數(shù)據(jù)集;然后根據(jù)標(biāo)簽分類數(shù)據(jù)集進(jìn)行結(jié)果分析,即利用分類結(jié)果獲得標(biāo)簽類型比率、標(biāo)簽類型分布熵以及標(biāo)簽的平均長(zhǎng)度、平均個(gè)數(shù);最后進(jìn)行不同學(xué)科領(lǐng)域、高頻標(biāo)簽、不同標(biāo)簽個(gè)數(shù)用戶等三個(gè)角度下的比較分析。
2.2 標(biāo)簽分類體系的構(gòu)建
本文結(jié)合用戶建模思想構(gòu)建用戶標(biāo)簽分類體系。本文通過(guò)前期的用戶標(biāo)簽數(shù)據(jù)調(diào)研結(jié)果,參考GolematiM等關(guān)于個(gè)人本體構(gòu)建的研究成果[13],結(jié)合對(duì)部分用戶標(biāo)簽類型的考察,在GolematiM等人成果的基礎(chǔ)上,增加狀態(tài)、行業(yè)領(lǐng)域、身份或職位、工作經(jīng)歷和其他這5個(gè)用戶相關(guān)屬性,最終得到用戶標(biāo)簽分類體系,如表1所示(說(shuō)明:部分標(biāo)簽由于用戶個(gè)人經(jīng)歷不同可劃分成多種類型,如標(biāo)簽“音樂(lè)”可劃分成專業(yè)或興趣愛(ài)好。對(duì)于上述情況,本文參考用戶主頁(yè),結(jié)合用戶實(shí)際情況進(jìn)行標(biāo)簽類型劃分)。
圖2 用戶標(biāo)簽類別的調(diào)查分析流程圖
表1 微博用戶標(biāo)簽分類體系說(shuō)明與舉例
表2 用戶標(biāo)注行為量化指標(biāo)說(shuō)明
2.3 用戶標(biāo)注行為量化指標(biāo)構(gòu)建
為全面考察用戶標(biāo)簽在不同學(xué)科領(lǐng)域的差異,本文從標(biāo)簽類型比率、類型分布熵、平均標(biāo)簽個(gè)數(shù)與長(zhǎng)度等角度進(jìn)行考察,見(jiàn)表2。
(1)標(biāo)簽類型比率。選擇類型比率指標(biāo)的原因:在微博中,用戶可以標(biāo)注不同類型的標(biāo)簽;某一類型的標(biāo)簽數(shù)越多,說(shuō)明用戶標(biāo)注此類型標(biāo)簽的積極性越高。因此,通過(guò)類型比率,可以對(duì)用戶使用不同標(biāo)簽類型的積極性的差異進(jìn)行分析。為計(jì)算類型比率,本文對(duì)每位用戶的標(biāo)簽按照事先構(gòu)建好的標(biāo)簽分類體系進(jìn)行分類,并對(duì)用戶標(biāo)簽數(shù)量進(jìn)行統(tǒng)計(jì),從而計(jì)算出每個(gè)學(xué)科領(lǐng)域用戶標(biāo)簽的類型比率。
(2)標(biāo)簽類型分布熵。選擇標(biāo)簽類型分布熵的原因:信息熵是信息論中用于度量信息量的概念;一個(gè)系統(tǒng)的信息熵越低表明該系統(tǒng)越有序,信息熵越高表明該系統(tǒng)越混亂。計(jì)算標(biāo)簽類型分布熵可描述出標(biāo)簽類型的離散程度。因此,通過(guò)計(jì)算標(biāo)簽類型分布熵的大小,可對(duì)不同學(xué)科領(lǐng)域用戶的整體標(biāo)簽類型分布的差異進(jìn)行分析。
(3)平均標(biāo)簽個(gè)數(shù)。選擇平均標(biāo)簽個(gè)數(shù)指標(biāo)的原因:用戶可以為自己標(biāo)注不同數(shù)量的標(biāo)簽,因此不同用戶的標(biāo)簽數(shù)量有差異;之前學(xué)者通過(guò)對(duì)不同網(wǎng)站中用戶的平均標(biāo)簽個(gè)數(shù),以及不同資源的平均標(biāo)簽個(gè)數(shù)進(jìn)行調(diào)研來(lái)分析用戶的標(biāo)簽標(biāo)注行為[2][3-4][13]。因此,通過(guò)平均標(biāo)簽個(gè)數(shù)可以對(duì)不同學(xué)科領(lǐng)域用戶的平均標(biāo)簽個(gè)數(shù)的差異進(jìn)行分析。
新浪微博的標(biāo)簽分為中英文兩種語(yǔ)言。對(duì)中文標(biāo)簽,本文將空格符號(hào)作為標(biāo)簽分割符,如“旅游校園生活”計(jì)算為2個(gè)標(biāo)簽。對(duì)英文的標(biāo)簽,以一個(gè)單詞為標(biāo)準(zhǔn),如“IT”計(jì)算為1個(gè)標(biāo)簽。由此得到每位用戶的標(biāo)簽總數(shù),計(jì)算用戶標(biāo)簽總數(shù)與用戶數(shù)量的比率,得到平均標(biāo)簽個(gè)數(shù)。
(4)平均標(biāo)簽長(zhǎng)度。選擇平均標(biāo)簽長(zhǎng)度指標(biāo)的原因:用戶標(biāo)注行為研究中,學(xué)者開(kāi)始對(duì)標(biāo)簽長(zhǎng)度予以重視[4];標(biāo)簽長(zhǎng)度的研究數(shù)量占所有用戶標(biāo)注行為的研究仍較少。因此,通過(guò)平均標(biāo)簽長(zhǎng)度指標(biāo),可對(duì)不同學(xué)科領(lǐng)域用戶標(biāo)簽的平均標(biāo)簽長(zhǎng)度的差異進(jìn)行分析,從而為標(biāo)簽長(zhǎng)度的研究提供參考。本文采用計(jì)算字節(jié)數(shù)的方式,將1個(gè)中文計(jì)算為2個(gè)字節(jié),如“旅游”為4個(gè)字節(jié)長(zhǎng)度;將一個(gè)英文字母計(jì)算為1個(gè)字節(jié),如“IT”為2個(gè)字節(jié)長(zhǎng)度。通過(guò)上述方式,統(tǒng)計(jì)得到標(biāo)簽總長(zhǎng)度,并計(jì)算標(biāo)簽總長(zhǎng)度與總個(gè)數(shù)的比率,得到平均標(biāo)簽長(zhǎng)度。
3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
(1)實(shí)驗(yàn)數(shù)據(jù)采集概述。在采集實(shí)驗(yàn)數(shù)據(jù)時(shí),本文對(duì)以下幾點(diǎn)進(jìn)行控制:數(shù)據(jù)來(lái)源:本文以新浪微博為研究平臺(tái),采集用戶信息及用戶標(biāo)簽數(shù)據(jù);采集時(shí)間:數(shù)據(jù)采集的時(shí)間段為2014年12月20日至2015年4月20日;采集對(duì)象:選擇檔案學(xué)、圖書(shū)館學(xué)、情報(bào)學(xué)、新聞學(xué)、機(jī)器學(xué)習(xí)、人工智能6個(gè)學(xué)科領(lǐng)域作為采集對(duì)象;采集方法:在新浪微博網(wǎng)絡(luò)平臺(tái)上,根據(jù)事先選擇的學(xué)科領(lǐng)域,以學(xué)科名作為關(guān)鍵詞,在微博搜人欄目中手動(dòng)檢索出用戶,去除認(rèn)證的微博用戶,記錄用戶名,用戶URL及用戶標(biāo)簽;通過(guò)上述途徑共采集2673個(gè)微博用戶,不同學(xué)科領(lǐng)域的調(diào)研用戶分布見(jiàn)表3。
表3 不同學(xué)科領(lǐng)域的調(diào)查用戶數(shù)
標(biāo)簽分類數(shù)據(jù)集的構(gòu)建。根據(jù)2.2小節(jié)提供的標(biāo)簽分類體系,邀請(qǐng)2名志愿者對(duì)6個(gè)學(xué)科領(lǐng)域微博用戶的標(biāo)簽進(jìn)行分類,然后邀請(qǐng)第3名志愿者對(duì)不一致結(jié)果給予確認(rèn),作為該標(biāo)簽的最終分類結(jié)果。為刻畫(huà)兩名志愿者的標(biāo)注是否一致,采用比較簡(jiǎn)單的標(biāo)注差異度量化指標(biāo)來(lái)度量,差異度計(jì)算公式如下:
兩名志愿者的標(biāo)注差異如表4所示。結(jié)果顯示:6個(gè)領(lǐng)域中兩名志愿者的標(biāo)注差異度為0.13~0.28,均值為0.1570,說(shuō)明兩名志愿者在對(duì)用戶標(biāo)簽進(jìn)行分類時(shí),有較好的標(biāo)注一致性。
表4 志愿者標(biāo)注的差異度
3.2 不同學(xué)科領(lǐng)域用戶標(biāo)簽類別差異分析
選取6個(gè)不同學(xué)科領(lǐng)域的新浪微博用戶,通過(guò)標(biāo)簽類型比率、標(biāo)簽類型分布熵、平均標(biāo)簽個(gè)數(shù)、平均標(biāo)簽長(zhǎng)度來(lái)分析不同領(lǐng)域用戶標(biāo)簽類別差異。對(duì)不同學(xué)科領(lǐng)域用戶標(biāo)簽類型進(jìn)行差異性分析,結(jié)果如圖3所示:(1)在各個(gè)學(xué)科領(lǐng)域下,標(biāo)簽主要集中在P、H、D類型,說(shuō)明大部分用戶習(xí)慣選用自己的專業(yè)、所屬領(lǐng)域、興趣愛(ài)好來(lái)描述自己;(2)情報(bào)學(xué)、機(jī)器學(xué)習(xí)、人工智能P類的標(biāo)簽比率總體較高,都在0.4以上,其他三個(gè)學(xué)科領(lǐng)域的P類標(biāo)簽比率較低,說(shuō)明情報(bào)學(xué)、機(jī)器學(xué)習(xí)、人工智能用戶使用微博主要用于學(xué)術(shù)交流,專業(yè)屬性較強(qiáng),其他三個(gè)學(xué)科領(lǐng)域用戶比較傾向綜合發(fā)展;(3)H類型標(biāo)簽比率普遍較高,說(shuō)明用戶的興趣愛(ài)好比較廣泛,其中新聞學(xué)的比率最高,達(dá)到0.40左右,情報(bào)學(xué)、人工智能相對(duì)較低,機(jī)器學(xué)習(xí)最低,為0.20左右;(4)圖書(shū)館學(xué)的L類比率尤為高,體現(xiàn)出圖書(shū)館學(xué)用戶喜歡使用表示生活經(jīng)歷的標(biāo)簽。對(duì)不同領(lǐng)域微博用戶標(biāo)簽類型分布熵進(jìn)行差異性分析,結(jié)果如表5所示。
圖3 不同學(xué)科領(lǐng)域用戶標(biāo)簽類型分布
表5 不同學(xué)科領(lǐng)域標(biāo)簽類型分布熵
從標(biāo)簽類型分布熵看,值從大到小依次的領(lǐng)域是:圖書(shū)館學(xué)、新聞學(xué)、檔案學(xué)、情報(bào)學(xué)、人工智能、機(jī)器學(xué)習(xí)。圖書(shū)館學(xué)的熵值最大為2.7258,說(shuō)明在圖書(shū)館學(xué)的用戶標(biāo)簽類型最多,差異較大。機(jī)器學(xué)習(xí)的熵值最小為1.9848,人工智能、情報(bào)學(xué)的熵值也相對(duì)較小分別為2.0422、2.5305。說(shuō)明自然科學(xué)領(lǐng)域用戶標(biāo)簽類型差異幅度較小,社會(huì)科學(xué)領(lǐng)域用戶標(biāo)簽類型差異幅度大,標(biāo)簽呈現(xiàn)多樣化。對(duì)不同學(xué)科領(lǐng)域微博用戶平均標(biāo)簽個(gè)數(shù)、長(zhǎng)度進(jìn)行差異分析,結(jié)果如表6所示。
表6 不同學(xué)科領(lǐng)域用戶平均標(biāo)簽個(gè)數(shù)、長(zhǎng)度
微博用戶的平均標(biāo)簽個(gè)數(shù)為6個(gè)左右,圖書(shū)館學(xué)用戶的平均標(biāo)簽個(gè)數(shù)最少為3.67個(gè),人工智能的用戶平均標(biāo)簽個(gè)數(shù)最多為7.89個(gè),新聞學(xué)和機(jī)器學(xué)習(xí)的平均標(biāo)簽個(gè)數(shù)也較多,大約為6-7個(gè),檔案學(xué)用戶的平均標(biāo)簽個(gè)數(shù)為5.13。說(shuō)明機(jī)器學(xué)習(xí)、人工智能、情報(bào)學(xué)、新聞學(xué)用戶標(biāo)簽標(biāo)注積極性較高,檔案學(xué)和圖書(shū)館學(xué)用戶標(biāo)注積極性較低,其中圖書(shū)館學(xué)用戶積極性最低。
用戶的平均標(biāo)簽長(zhǎng)度為7.14字節(jié),不同學(xué)科領(lǐng)域下用戶平均標(biāo)簽長(zhǎng)度無(wú)明顯差異,即用戶趨向于使用3-4個(gè)字的詞語(yǔ)用來(lái)標(biāo)注。其中檔案學(xué)平均標(biāo)簽長(zhǎng)度最短為6.54字節(jié)。機(jī)器學(xué)習(xí)的平均標(biāo)簽長(zhǎng)度最長(zhǎng)為7.82字節(jié),原因可能是由于其專業(yè)名詞較長(zhǎng)。從整體看,自然科學(xué)領(lǐng)域的用戶的平均標(biāo)簽長(zhǎng)度較長(zhǎng),社會(huì)科學(xué)領(lǐng)域的用戶的平均標(biāo)簽長(zhǎng)度較短。
3.3 高頻用戶標(biāo)簽類別差異分析
微博用戶標(biāo)簽在一定程度上揭示了用戶自身信息,如愛(ài)好、專業(yè)、觀點(diǎn)、感想。由于具有相同文化、知識(shí)或社會(huì)背景的用戶對(duì)某些事物存在一致的認(rèn)識(shí),因此他們會(huì)不約而同地使用相同的標(biāo)簽。本文對(duì)這些相同的標(biāo)簽進(jìn)行統(tǒng)計(jì),試圖對(duì)高頻次的用戶標(biāo)簽類別在不同領(lǐng)域進(jìn)行差異分析。
首先,通過(guò)標(biāo)簽比率從眾多標(biāo)簽中挑取出高頻用戶標(biāo)簽,計(jì)算公式為:
標(biāo)簽比率=標(biāo)簽出現(xiàn)的次數(shù)/所有標(biāo)簽個(gè)數(shù)
然后通過(guò)對(duì)比率從大到小排序,得到每個(gè)領(lǐng)域的高頻用戶標(biāo)簽。表7為不同領(lǐng)域的頻次最高的前10個(gè)用戶標(biāo)簽。
表7 不同學(xué)科領(lǐng)域TOP-10高頻標(biāo)簽一覽表
由表7可知:(1)每個(gè)領(lǐng)域中(除圖書(shū)館學(xué))標(biāo)簽比率最大的標(biāo)簽皆為本領(lǐng)域的名稱,圖書(shū)館學(xué)標(biāo)簽比率最大的是“教育就業(yè)”,說(shuō)明圖書(shū)館學(xué)用戶比較關(guān)注教育就業(yè)方面。(2)出現(xiàn)次數(shù)較多的共同標(biāo)簽有“旅游”“美食”“文藝”“音樂(lè)”“電影”,說(shuō)明這些為用戶的普遍愛(ài)好和共同特點(diǎn),也有可能是因?yàn)槲⒉橛脩艚o自己打標(biāo)簽時(shí)提供的標(biāo)簽自動(dòng)推薦功能導(dǎo)致該類標(biāo)簽比率上升。(3)多個(gè)領(lǐng)域出現(xiàn)了“80后”“90后”標(biāo)簽,揭示了微博用戶主要為80后、90后群體。(4)情報(bào)學(xué)、機(jī)器學(xué)習(xí)、人工智能相對(duì)于其他三個(gè)領(lǐng)域出現(xiàn)較多的標(biāo)簽為專業(yè)名詞。(5)檔案學(xué)領(lǐng)域出現(xiàn)了“情報(bào)學(xué)”,情報(bào)學(xué)領(lǐng)域下出現(xiàn)“圖書(shū)館學(xué)”“檔案學(xué)”等,體現(xiàn)了領(lǐng)域之間的交叉,在交叉領(lǐng)域下又出現(xiàn)了很多共同的高頻標(biāo)簽,如“互聯(lián)網(wǎng)”“IT”“大數(shù)據(jù)”等,體現(xiàn)了交叉領(lǐng)域間的共同背景。(6)情報(bào)學(xué)中出現(xiàn)“武漢大學(xué)”,新聞學(xué)中出現(xiàn)了“中國(guó)傳媒大學(xué)”,其都為本學(xué)科領(lǐng)域?qū)嵙敿獾母咝!?/p>
本文對(duì)微博用戶高頻標(biāo)簽進(jìn)行標(biāo)簽類型差異性分析,將標(biāo)簽按照標(biāo)引的頻次選擇Top5、Top10、Top20,并按分類體系進(jìn)行類型分布統(tǒng)計(jì),結(jié)果如圖4(a)-(f)所示。
圖4 微博用戶高頻標(biāo)簽類型分布比較
由圖4(a)可看出,檔案學(xué)領(lǐng)域微博用戶高頻標(biāo)簽以H、P為主,說(shuō)明微博用戶在表達(dá)自己的興趣愛(ài)好之外傾向于表達(dá)專業(yè)技能。從圖4(b)、4(c)、4(d)看出,圖書(shū)館學(xué)、情報(bào)學(xué)、新聞學(xué)領(lǐng)域的標(biāo)簽類型較多,但以H為主。說(shuō)明微博用戶并非只關(guān)注單方面的知識(shí),而更多偏向于綜合、全面和廣泛的學(xué)習(xí)交流。從圖4(e)、4(f)可見(jiàn)人工智能和機(jī)器學(xué)習(xí)的標(biāo)簽類型集中在P和D類,在前20個(gè)標(biāo)簽中只有4種類型,且只有一個(gè)標(biāo)簽是B類,表明這兩個(gè)學(xué)科的標(biāo)簽類型相對(duì)單一。
從整體高頻標(biāo)簽類型分布情況來(lái)看,用戶偏向選擇興趣愛(ài)好和專業(yè)的標(biāo)簽。社會(huì)學(xué)科用戶標(biāo)簽類型相對(duì)自然科學(xué)用戶較多,體現(xiàn)社會(huì)學(xué)科用戶的表達(dá)方式的多樣化。
對(duì)高頻用戶標(biāo)簽進(jìn)行平均標(biāo)簽長(zhǎng)度的差異分析,結(jié)果見(jiàn)表8。取前5個(gè)高頻標(biāo)簽進(jìn)行考察時(shí),計(jì)算出所有領(lǐng)域的平均標(biāo)簽長(zhǎng)度為6.6字節(jié),前10個(gè)高頻標(biāo)簽的平均長(zhǎng)度為6.2字節(jié),前20個(gè)高頻標(biāo)簽的平均長(zhǎng)度為6.15字節(jié)。在這三個(gè)分組中標(biāo)簽長(zhǎng)度無(wú)明顯差異。而表6顯示不同學(xué)科領(lǐng)域用戶平均標(biāo)簽長(zhǎng)度為7.14字節(jié)。對(duì)比可見(jiàn),高頻標(biāo)簽一般長(zhǎng)度較短的,為3個(gè)字左右。在TOP5,TOP10,TOP20不同分組下,機(jī)器學(xué)習(xí)的平均標(biāo)簽長(zhǎng)度始終為最長(zhǎng),檔案學(xué)的平均標(biāo)簽長(zhǎng)度始終為最短。從整體看,自然科學(xué)用戶平均標(biāo)簽長(zhǎng)度普遍比社會(huì)科學(xué)用戶平均標(biāo)簽長(zhǎng)度長(zhǎng)。
表8 平均標(biāo)簽長(zhǎng)度(單位:字節(jié))
3.4 不同標(biāo)簽個(gè)數(shù)用戶對(duì)應(yīng)的用戶標(biāo)簽類別差異
微博用戶可以為自己選擇1個(gè)或多個(gè)標(biāo)簽來(lái)描述自己,從標(biāo)簽個(gè)數(shù)在一定程度上可以看出用戶使用標(biāo)簽的積極程度。因此根據(jù)用戶的標(biāo)簽個(gè)數(shù)對(duì)用戶進(jìn)行分組研究顯得有意義。本文已剔除無(wú)標(biāo)簽用戶,根據(jù)統(tǒng)計(jì)發(fā)現(xiàn)用戶標(biāo)簽個(gè)數(shù)最少為1個(gè),最多有13個(gè)。所以把用戶按照標(biāo)簽個(gè)數(shù)分組為:標(biāo)簽個(gè)數(shù)1-3個(gè)、標(biāo)簽個(gè)數(shù)4-6個(gè)、標(biāo)簽個(gè)數(shù)7-9個(gè)、標(biāo)簽個(gè)數(shù)10個(gè)以上。
對(duì)不同標(biāo)簽個(gè)數(shù)用戶的標(biāo)簽類型進(jìn)行差異性分析。通過(guò)按不同標(biāo)簽個(gè)數(shù)對(duì)用戶進(jìn)行分組,然后在統(tǒng)計(jì)了每個(gè)分組下標(biāo)簽的類型比率,得到的結(jié)果如圖5所示。
圖5 不同標(biāo)簽個(gè)數(shù)用戶分組下的標(biāo)簽類型比率
從圖5可知:(1)標(biāo)簽類型為專業(yè)和行業(yè)領(lǐng)域的標(biāo)簽在用戶標(biāo)簽個(gè)數(shù)增多的情況下成下降趨勢(shì),這是由于描述用戶專業(yè)的標(biāo)簽個(gè)數(shù)有限,當(dāng)基數(shù)增大時(shí),比率減小。(2)標(biāo)簽類型為興趣愛(ài)好的標(biāo)簽隨個(gè)數(shù)的增多比率上升,說(shuō)明用戶在標(biāo)簽個(gè)數(shù)增多時(shí)偏向選用類型為興趣愛(ài)好的標(biāo)簽,同時(shí)也說(shuō)明用戶廣泛的興趣愛(ài)好。(3)標(biāo)簽類型為性格特征的標(biāo)簽,在個(gè)數(shù)為1-3個(gè)和10-13個(gè)時(shí)比率較大。(4)標(biāo)簽類型為狀態(tài)和自然屬性的標(biāo)簽,隨著標(biāo)簽個(gè)數(shù)增多類型比率增大。(5)類型為教育經(jīng)歷的標(biāo)簽,在標(biāo)簽個(gè)數(shù)為1-3個(gè)的用戶組內(nèi)較少使用,在標(biāo)簽個(gè)數(shù)為4-13個(gè)的用戶中無(wú)明顯差異。(6)類型為身份、工作經(jīng)歷的標(biāo)簽在不同分組內(nèi)也無(wú)明顯差異。
對(duì)微博用戶高頻標(biāo)簽進(jìn)行平均標(biāo)簽長(zhǎng)度差異分析,結(jié)果如表9所示。由表9可知,標(biāo)簽長(zhǎng)度一般為6-8字節(jié),即平均每個(gè)標(biāo)簽為3-4個(gè)字。當(dāng)用戶標(biāo)簽個(gè)數(shù)為1-3個(gè)時(shí),平均標(biāo)簽長(zhǎng)度為7.5字節(jié);當(dāng)用戶標(biāo)簽個(gè)數(shù)為4-6個(gè)時(shí),平均標(biāo)簽長(zhǎng)度為7.06字節(jié);當(dāng)用戶標(biāo)簽個(gè)數(shù)為7-9個(gè)時(shí),平均標(biāo)簽長(zhǎng)度為7.14字節(jié);當(dāng)用戶標(biāo)簽個(gè)數(shù)為10個(gè)以上時(shí),平均標(biāo)簽長(zhǎng)度為6.94字節(jié)??梢钥闯鲇脩舻钠骄鶚?biāo)簽長(zhǎng)度隨著個(gè)數(shù)的增多而減短,即標(biāo)簽個(gè)數(shù)越多,平均標(biāo)簽長(zhǎng)度越短,標(biāo)簽個(gè)數(shù)越少,平均標(biāo)簽長(zhǎng)度越長(zhǎng)。
表9 平均標(biāo)簽長(zhǎng)度(單位:字節(jié))
本文從用戶建模的角度區(qū)分標(biāo)簽類型,研究不同學(xué)科領(lǐng)域高頻用戶標(biāo)簽,不同標(biāo)簽個(gè)數(shù)用戶下的標(biāo)簽類型的差異,結(jié)果表明:不同學(xué)科領(lǐng)域用戶的標(biāo)簽類型主要集中在專業(yè)、興趣愛(ài)好和行業(yè)領(lǐng)域。社會(huì)科學(xué)領(lǐng)域的用戶標(biāo)簽類型多且差異較大,其中標(biāo)簽類型為興趣愛(ài)好的最多,自然科學(xué)領(lǐng)域的用戶標(biāo)簽類型相對(duì)較少,集中的標(biāo)簽類型為專業(yè)。自然科學(xué)領(lǐng)域的平均標(biāo)簽個(gè)數(shù)比社會(huì)科學(xué)領(lǐng)域多。從平均標(biāo)簽長(zhǎng)度看,皆在3-4個(gè)字左右,這是由于用戶一般使用3-4字的詞語(yǔ)使用習(xí)慣造成的。但高頻用戶標(biāo)簽的長(zhǎng)度較短。在標(biāo)簽個(gè)數(shù)逐漸增多下,用戶的平均標(biāo)簽長(zhǎng)度減短,且在使用標(biāo)簽類型為專業(yè)的標(biāo)簽后會(huì)偏向選擇表示興趣愛(ài)好的標(biāo)簽,體現(xiàn)了用戶廣泛的興趣。
本文研究不足之處主要包括:人工分類的形式,由于每個(gè)人的認(rèn)知程度,知識(shí)面限制等原因,所以不可避免地給分類帶來(lái)了判斷誤差;數(shù)據(jù)采集在學(xué)科領(lǐng)域覆蓋面上有待提高;此外,在采集用戶信息時(shí)僅用單一的查詢?cè)~且僅通過(guò)網(wǎng)站采集數(shù)據(jù),并不能結(jié)合用戶的實(shí)際真實(shí)信息以得到更加可靠的結(jié)果。下一步可以根據(jù)用戶發(fā)微博,關(guān)注好友等行為來(lái)對(duì)用戶進(jìn)行動(dòng)態(tài)建模,以便于更準(zhǔn)確實(shí)時(shí)地分析用戶的行為。
[1]FarooqU,KannampallilTG,SongY,et al.Evaluating tagging behavior in socialbookmarking systems:metrics and design heuristics[C]//Proceedingsofthe 2007 InternationalACM Conference on Supporting Group Work,2007:351-360.
[2]Mirzaee V,Iverson L.Tagging:Behaviour and motivations[J].ProceedingsoftheAmerican SocietyforInformationScience&Technology,2009,46(1):1-5.
[3]Wang X,Kumar S,Liu H.A Study of Tagging BehavioracrossSocialMedia[C]//Proceedingofthe2011 SIGIR Workshop on Social Web Search and Mining. Beijing:2011.
[4]Guyot A.Understanding Booksonomies-How and why are book taggerstagging[D].Aberystwyth:University of Wales,2013.
[5]章成志,何陸林,丁培紅.不同領(lǐng)域的用戶標(biāo)簽主題表達(dá)能力差異研究——以中文微博為例[J].情報(bào)理論與實(shí)踐,2013(4):68-71.
[6]SenS,LamSK,RashidAM,etal.tagging,communities,vocabulary,evolution[C]//Proceedings of the conference on Computer supported cooperative work. USA:ACM,2006:181-190.
[7]Xu Z,F(xiàn)u Y,Mao J,et al.Towardsthe semantic web: Collaborativetag suggestions[C]//Proceedings of Collaborativewebtaggingworkshop at WWW 2006.Edinburgh,Scotland:2006.
[8]Melenhorst M S,Van SM.Usefulnessoftagsin providingaccessto large information systems[C]//Proceedings of IEEE International Professional Communication Conference.Scattle:IPCC,2007:1-9.
[9]Bischoff K,F(xiàn)iran C S,Kadar C,et al.Automatically identifying tag types[M]//Advanced Date Mining and Applications.Berlin:Springer,2009:31-42.
[10]Heymann P,Paepcke A.Garcia-Molina H.Tagging human knowledge[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining.New York:ACM,2010:51-60.
[11]BhnstedtD,LehmannL,RensingC,etal.Automantic identification of tag types in a resource-based learning scenario[M]//Towards Ubiquitous Learning.Berlin:Springer,2011:57-70.
[12]CantadoraI,Konstasb I,Joemon M J.Categorisingsocialtagsto improvefolksonomy-based recommendations [J].WebSemantics:Science,ServicesandAgentson the WorldWideWeb,2011,9(19):1-15.
[13]GolematiM,KatiforiA,VassilakisC,etal.Creatingan Ontologyfor the User Profile:Method and Applications [C]//ProceedingsoftheFirstInternationalConferenceon Research Challenges Information Science.Ouarzazate:2007:23-26.
(責(zé)任編輯:鄺玥)
Different Tagging Behavior of Microblog Users in Different Domains——A Case Study of User Tagging of Sina Weibo
CHIXue-hua,ZHANGYing-yi,GAOXing,LUChao,ZHANGCheng-zhi
This paper studies user tags of Sina Weibo.By collecting users’profiles and their tagging information,tags are classified manually according to tags classification system;then analysis is made of the differences in tag types,the distribution entropy of tag types,the average number of user tags,and the average length of tags in different domains.Tagging behavioral indicators are also compared according to high frequency and tag number. The study finds that there are significant differences in tag types and average tag number in different domains;and there are large differences in types of high-frequency words.Grouped by the numbers of different tag types,no obvious differences are showed in user tag types of different domain sand the average length of user-generated tags decreases with an increase in the number of tags.
user tags;tag classification;tagging behavior;user information behavior
格式 池雪花,張穎怡,高星,等.不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異研究——以新浪微博用戶的標(biāo)簽為例[J].圖書(shū)館論壇,2016(9):112-120.
池雪花,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士生;張穎怡,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院博士生;高星,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士生;盧超,男,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院博士生;章成志,男,博士生導(dǎo)師,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院教授,通訊作者,E-mail:zcz51@126.com。
2015-08-03
*本文系國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“面向突發(fā)事件應(yīng)急決策的快速響應(yīng)情報(bào)體系研究”(項(xiàng)目編號(hào):13&ZD174)、國(guó)家社會(huì)科學(xué)基金項(xiàng)目“在線社交網(wǎng)絡(luò)中基于用戶的知識(shí)組織模式研究”(項(xiàng)目編號(hào):14BTQ033)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(項(xiàng)目編號(hào):30915011323)研究成果之一