• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于群體智慧理論的協同標注信息行為機理研究
      ——以豆瓣電影標簽數據為例

      2021-02-25 10:37:48馮翠翠莫富傳鄧衛(wèi)華
      情報學報 2021年1期
      關鍵詞:偏度標簽群體

      易 明,馮翠翠,莫富傳,鄧衛(wèi)華

      (1.華中師范大學信息管理學院,武漢430079;2.華中農業(yè)大學公共管理學院,武漢430070)

      1 引言

      作為一種典型的協同信息組織行為,協同標注信息行為是群體用戶根據各自的需要和理解自由選擇詞匯作為標簽對資源進行標注的信息行為。雖然每個用戶標注資源的信息動機不同,但是其標注行為通過協同標注系統的集成便能產生整體效應,即“涌現”出對應某個資源的、被大多數群體用戶所認同的分類標準。因此,協同標注信息行為本質上是一種基于群體智慧的協同信息組織行為。

      從目前的研究現狀來看,國內外學者圍繞協同標注信息行為的研究主要涉及內涵、影響因素、過程機理等方面。其中,大部分學者從行為學的角度出發(fā),認為協同標注是指眾多用戶參與的、反映心理認知的過程,提出協同標注信息行為作為一種用戶自發(fā)的群體性行為,是根據用戶的主觀認知實現標簽與資源的匹配[1-4]。在影響因素方面,相關研究成果集中在資源、用戶、標簽和系統等四個維度。目標資源維度主要關注資源的內容主題[5]、資源形態(tài)[6],以及資源本身及其相互之間的連接、用戶和資源的結合[7];用戶維度關注用戶偏好[8]、用戶認知[9]、標注動機[10]、標注能力[11]等;標簽維度被認為是標簽的主題與質量對于用戶的標簽使用行為具有顯著影響,系統維度則主要從ATM理論出發(fā)提出標注系統感知有用性和感知易用性對協同標注信息行為產生影響[12]。此外,極少數學者從群體層面對協同標注信息行為的過程機理展開了探索,認為協同標注信息行為是讓每個用戶都能貢獻其對信息編碼分類的知識,然后系統用統計匯總的方式把最能被眾人接受的分類法凸顯出來[13],最終生成的代表著用戶集中化、大眾化的標注詞集在一定程度上客觀地反映了標簽變化過程的協同過濾結果[14-15],其本質是以標簽為媒介將用戶隱性知識顯性化[16],通過標簽的積累使得群體知識得以涌現[17]。

      通過梳理文獻發(fā)現,目前,學者們主要聚焦于對協同標注信息行為影響因素的研究,而且更多的是從個體層面展開,忽視了作為群體層面的協同標注信息行為的協同性和過程性。所謂協同性,強調的是協同標注信息行為是一種典型的協同信息行為,需要群體用戶之間的協作才能完成協同標注信息行為的最終目標——大眾分類;所謂過程性,強調的是協同標注信息行為的階段性特征,即大眾分類的形成需要經歷群體用戶的協同過程才能完成。雖然極少數學者從群體層面探索了協同標注信息行為的過程機理,但是相關研究側重于理論層面的闡述,尚未構建相應的理論模型,也缺少對協同性、過程性等特征的定量探索。因此,本文借鑒群體智慧理論解析協同標注信息行為模型,并以豆瓣電影標簽數據為例開展實證分析,以期豐富協同標注信息行為的相關研究。

      2 群體智慧理論

      2004年,Surowiecki出版了The Wisdom of Crowds一書,第一次使群體智慧這個概念成為大眾關注的焦點[18]。目前,群體智慧已經成為Web 2.0的核心要素,在產業(yè)界得到了廣泛應用。所謂群體智慧,是指由組成群體的個人貢獻出自己的知識、技能和經驗,通過個體間的協作、靈感互動、相互啟迪等共享機制,產生的優(yōu)于任何個人的智慧[19]。

      雖然群體智慧的重要性與普遍性已經得到了廣泛認同,但是關于群體智慧涌現的機理,不同的學者有著不同的觀點。Nishimoto等[20]將個人思考模式、合作思考模式、協作思考模式等有機融合,提出了群思考模型;在此基礎上,Nunaneker等[21]將個體之間的協作劃分為聚集、協調和協作三個層次,由此構建了群體智慧涌現的協作過程模型;甘永成等[22]從虛擬學習社區(qū)知識建構的視角,將集體智慧的螺旋上升周期分為發(fā)散、收斂、凝聚和創(chuàng)新四個階段,并據此構建了集體智慧涌現的四階段模型;Lykourentzou等[23]認為協作內容的質量和數量是吸引用戶進行群體協作的原因,同時,用戶量的增長對于內容質量和數量又有促進作用,由此構建了互聯網用戶協作創(chuàng)作模型;趙芳等[24]針對滇池可持續(xù)發(fā)展問題呈現在萬維網上的龐雜信息,利用鏈接結構分析方法從中挖掘出主題層次,從定量的角度揭示了由龐大觀點構成的復雜體系中提煉出深層次群體智慧的動態(tài)過程;Hong等[25]研究表明,經驗分散化、參與者獨立性和網絡分散化對群體智慧的涌現有積極的影響,開發(fā)基于人群的、通過考慮人群的多樣性、獨立性、分散性和人群規(guī)模來有效地匯聚人群意見的決策工具對于提升群體行為績效具有重要意義;吳增源等[26]運用Lotka-Volterra模型揭示了開放式創(chuàng)新社區(qū)集體智慧涌現的內在機理,認為企業(yè)知識開放是集體智慧涌現的“加速器”,而在不同的生態(tài)關系中,集體智慧涌現的水平會有所差異。

      協同標注信息行為是一個基于群體智慧涌現的分類知識產生過程,這種群體智慧的涌現是一個量變到質變的過程。甘永成等提出的四階段模型,對于協同標注信息行為機理分析有著重要的指導意義。然而,四階段模型中的創(chuàng)新狀態(tài)是指個體乃至群體思維能力的提升,適用情景在于提出和探討新問題,其關注點在于個體思維能力的升華,與發(fā)散、收斂、凝聚狀態(tài)關注群體認知變化趨勢存在一定差異。因此,發(fā)散、收斂和凝聚三個環(huán)節(jié)才是群體智慧涌現的核心,從而也成為本文構建協同標注信息行為模型的關鍵要素。

      3 基于群體智慧理論的協同標注信息行為模型

      基于上述分析,本文認為需要將甘永成等提出的四階段模型作適當調整,僅將群體智慧的發(fā)散、收斂、凝聚狀態(tài)納入協同標注信息行為模型中,最終形成了如圖1所示的模型。其中,宏觀層面包含了初始階段、中級階段和終極階段三個子過程,其描述了協同標注信息行為由量變到質變的過程,從而凸顯了協同標注信息行為的過程性;微觀層面包含了發(fā)散、收斂和凝聚三個子環(huán)節(jié),其描述了協同標注信息行為中群體智慧涌現的基本過程,從而凸顯了協同標注信息行為的協同性。由于微觀層面發(fā)散、收斂和凝聚等子環(huán)節(jié)的相互作用,使得協同標注信息行為在宏觀層面會經歷從初始階段到中級階段并最終進入終極階段的循序漸進過程。

      3.1 宏觀解析

      3.1.1 初始階段——雜亂無章

      圖1 基于群體智慧理論的協同標注信息行為模型

      目標資源在協同標注系統中的出現便意味著初始階段的開啟。此時,特定用戶可以基于不同的信息動機和認知對目標資源進行標注,從而推動協同標注信息行為進入發(fā)散環(huán)節(jié)。隨著其他用戶的參與,目標資源相關的標簽種類、數量會逐漸增加,少數標簽數量可能會相對占優(yōu),但總體上規(guī)模相對較少。例如,在某部電影正式上映之前,豆瓣網就會將該電影信息展示在即將上映頁面中,但此時豆瓣網用戶對其關注度相對較低,與該電影相關的標簽數據也相對較少。由于協同標注系統協同功能的發(fā)揮需要建立在一定數據規(guī)模的基礎上,所以初始階段收斂環(huán)節(jié)的作用有限,凝聚效果不明顯,使得初始階段群體用戶的標注策略以自建標簽為主,導致目標資源的分類體系是雜亂無章的。

      3.1.2 中級階段——局部共識

      隨著標注用戶的不斷增加,協同標注信息行為將由初始階段進入中級階段,其標志是群體用戶針對目標資源的分類標準達成局部共識。協同標注信息行為能否由初始階段進入中級階段,關鍵在于收斂環(huán)節(jié)是否有效,也就是引用其他用戶使用的標簽或者接受協同標注系統推薦的標簽的標注策略是否會不斷增加。隨著目標資源的標注用戶迅速增加,標簽的種類、數量也在激增,從而形成了較好的基礎數據集,為協同標注系統協同功能的發(fā)揮提供了重要支持。一旦協同功能發(fā)揮效用,引用標簽的概率就會上升,從而推動收斂環(huán)節(jié)的正常運行。例如,在某部電影上映后,豆瓣網用戶的關注度迅速上升,參與標注的用戶持續(xù)增加,該電影資源獲得的標注數據也越來越多,在協同功能的支撐下,收斂環(huán)節(jié)將不斷產生重復標簽。隨著時間的推移,可能會出現高頻標簽,但由于標注用戶還在持續(xù)增加,所以此時的高頻標簽只能代表一種階段性的局部共識,而協同標注信息行為也由此進入中級階段。

      3.1.3 終極階段——全局共識

      在后續(xù)標注用戶的推動下,協同標注信息行為最終會由中級階段進入終極階段,其標志是針對目標資源的分類標準形成全局共識,即大眾分類的涌現。從實踐角度看,當電影網絡資源開放后,會吸引大量先前想觀看該電影但尚未去影院觀看的用戶在網上觀看電影,這時會導致新一輪用戶數量的增長,最后會進入漫長的緩慢增加階段。雖然此時發(fā)散環(huán)節(jié)也會出現,但是能夠產生其他新的高頻標簽的可能性已經很小,收斂環(huán)節(jié)將成為主流,使得原有的部分局部共識會得到更多用戶的認同,從而推動局部共識向全局共識的轉化。

      3.2 微觀解析

      3.2.1 發(fā)散——自建標簽

      在協同標注信息行為中,發(fā)散是指用戶通過自建標簽的方式對目標資源進行標注,從而產生不同種類標簽。作為Web 2.0的典型應用之一,協同標注系統本身就是建立在“無知觀”的假設基礎上,即任何用戶都不可能對日漸復雜的對象系統及問題全域有一個全面的把握,其只能按照自己的知識背景對某一領域的某一問題有著一定了解[20]。協同標注系統的參與門檻較低,用戶只需要根據自己的主觀認知使用自然語言來對目標資源進行標注,從而貢獻了其對目標資源分類的微知識。由于用戶對目標資源認知的差異性,無論用戶處在哪個階段,不同用戶針對同一目標資源的標注結果也會不盡相同,自建標簽會成為用戶的標注策略之一,進而實現了發(fā)散。

      3.2.2 收斂——引用標簽

      在協同標注信息行為中,收斂是指用戶采取引用他人標簽或接受系統推薦標簽的方式對目標資源進行標注,從而產生重復標簽。一方面,收斂是由于用戶對相同目標資源的認知與其他用戶不可避免地呈現相似甚至一致;另一方面,是因為協同標注系統為了促進群體智慧的涌現,提供了強大的協同功能予以支持。具體有兩種實現方式:一是協同標注系統利用獨特的方法把目標資源的已有標簽展示出來,以供其他用戶學習、借鑒;二是協同標注系統利用精準的推薦算法向用戶推薦標簽,類似于傳統分類中專家的角色。從而用戶可看到目標資源的已有標簽以及系統推薦標簽,而這些標簽本質上是群體用戶和協同標注系統貢獻的微知識。一旦用戶在主觀上認同了這些微知識,那么就會采取引用標簽(包括引用其他用戶使用的標簽以及協同標注系統推薦的標簽)的標注策略,推動收斂的出現。由于協同標注系統協同功能的存在,使得收斂環(huán)節(jié)在整個協同標注信息行為過程中一直發(fā)揮作用。

      3.2.3 凝聚——匯聚共識

      在協同標注信息行為中,凝聚是指群體用戶針對目標資源的分類標準出現了共識,從而產生高頻標簽。換而言之,經過發(fā)散和收斂等環(huán)節(jié),群體用戶針對目標資源的分類標準出現重疊的情形越來越多,逐步形成了不同程度的共識。如果在局部群體中出現了高頻標簽,或者是在目標資源的特定維度出現了高頻標簽,那么此時產生的就是局部共識;反之,則是全局共識,同時也意味著大眾分類的涌現。事實上,由于收斂的作用,凝聚環(huán)節(jié)貫穿整個協同標注信息行為過程,只是不同階段的體現有所差異。

      4 實證研究

      4.1 實證研究設計

      本文構建的基于群體智慧理論的三階段-三環(huán)節(jié)模型,在實證研究中,首先需要驗證三階段、三環(huán)節(jié)是否存在,進而探索相關的變化規(guī)律,具體的目標與思路如圖2所示。

      4.1.1 引入偏度系數和Chow檢驗的宏觀解析

      偏度是指對一組數據的分布偏斜方向和程度的測度。Li等[27]認為偏度可以作為決策中表達投資者偏好的變量;Lee等[28]的研究從偏度角度展示了評論數量和評論喜歡數量之間的關系,其認為偏度統計可以被視為一種意見偏度的指標。這些研究表明,偏度可以被視為一種反映群體意見趨勢的指標,可將其借鑒運用到本研究中,即:將偏度視為一種反映協同標注信息行為過程中群體智慧水平變化趨勢的指標,按時間依次計算標簽標注次數的偏度系數,得到偏度系數時間序列數據,最終利用Chow檢驗來探測宏觀層面協同標注信息行為的結構性變化,即階段性特征。

      1)偏度系數

      數據分布偏度的測量值被稱為偏度系數,是描述分布偏離對稱性程度的一個特征數,通常記為Sk。偏度系數的計算方法有很多,常用的計算公式[29]為

      其中,n為樣本數量;xi為第i個樣本的數值;xˉ為全體樣本數值的均值。偏度表明分布偏差的程度,當分布左右對稱時,偏度系數為0;當偏度系數大于0時,重尾在右側,該分布為右偏;當偏度系數小于0時,重尾在左側,該分布為左偏。此外,Sk的絕對值越接近于0,偏斜程度越低;Sk的絕對值越大,偏斜程度就越高。若Sk的絕對值小于0.5,數據分布為低度偏度分布;若Sk的絕對值在區(qū)間[0.5,1],數據分布為中度偏度分布;若Sk的絕對值大于1,數據分布為高度偏度分布。

      由于本文需要以天為單位來計算電影標簽標注次數的偏度系數,前期標簽的數量很少,而偏度系數的結果會受到樣本量大小的影響,故本文采用了Lee等[28]的 修 正 公 式:

      其中,n為標簽種類;xi為第i個標簽的標注數;xˉ為全部標簽標注數的均值,即全部標簽的標注數之和與標簽種類數的商。

      2)Chow檢驗

      圖2 實證研究的目標與思路

      Chow檢驗是用于判斷結構在預先給定的時點是否發(fā)生了變化的一種方法[30]。Chow檢驗的特點在于把時間序列數據分成兩部分,其分界點就是檢驗是否已發(fā)生結構變化的檢驗時點。Chow統計量遵循k和N1+N2-2k自由度下的F分布,可以根據累積F分布計算單側p值。在此基礎上,利用F檢驗來檢驗由前一部分n個數據求得的參數與由后一部分m個數據求得的參數是否相等,據此判斷結構是否發(fā)生了變化。式(3)是計算Chow統計量的方法之一:

      其中,SSRC為組合數據的殘差平方和(給定時點前數據+給定時點后數據);SSR1為給定時點前數據中的殘差平方和;SSR2為給定時點后數據中的殘差平方和;k為參數個數;N1為給定時點前數據中的觀測數;N2為給定時點后數據中的觀測數。

      4.1.2 引入協同標注信息行為模式的微觀解析

      在基于群體智慧理論的三階段-三環(huán)節(jié)模型中,微觀層面包含了發(fā)散、收斂和凝聚等三個子環(huán)節(jié)。其中,凝聚意味著共識的產生,與群體智慧水平是同義語,其變化規(guī)律已在宏觀解析中進行了闡述。故微觀解析重在揭示發(fā)散、收斂子環(huán)節(jié)在三階段的變化規(guī)律。為了表征發(fā)散、收斂子環(huán)節(jié),本文借鑒了Langley等[31]提出的描述羊群效應模式的三個指標:個體數量、蔓延速度、一致程度,提出描述協同標注信息行為的三個指標:標注用戶規(guī)模、標注擴散速度、標注方向一致性。

      (1)標注用戶規(guī)模,是指截至某天的協同標注信息行為用戶累計數量。該指標按日期依次統計截至當天的時間段內所有參與協同標注信息行為的用戶的數量,并以整個協同標注信息行為過程中的用戶累計數量的平均值作為標注擴散速度的基準值。

      (2)標注擴散速度,是指每天的新增標注數量。該指標按日期依次統計每天協同標注信息行為中所發(fā)生的標注次數,并以整個協同標注信息行為過程中新增標注數量的平均值作為標注擴散速度的基準值。

      (3)標注方向一致性,是指由占據標注總數80%的標簽構成的高頻標簽群的穩(wěn)定性。該指標按日期依次獲取當天和當天之前的占據標注總數80%的高頻標簽群信息(包括標簽個數和具體的標簽構成),然后,取同時出現在當天高頻標簽群與當天之前高頻標簽群的標簽的個數除以當天之前高頻標簽群個數之商,作為標注方向一致性的度量值。同樣地,將整個協同標注信息行為過程中同時出現在當天高頻標簽群與當天之前高頻標簽群的標簽個數除以當天之前高頻標簽群個數之商的平均值作為標注方向一致性的基準值。

      將三個指標與各自基準值進行比較,若某一指標大于其基準值,則將該指標標記為“+”;若該指標小于其基準值則標記為“-”。根據各指標的標記結果對指標進行組合,可以得到八種協同標注信息行為模式,如表1所示。需要指出的是,標注方向一致性高時,相對應的行為模式處于收斂環(huán)節(jié);標注方向一致性低時,其所對應的行為模式則處于發(fā)散環(huán)節(jié)。

      4.2 數據采集與篩選

      豆瓣電影是中國最大的電影分享與評論社區(qū),其中產生了大量動態(tài)的電影標簽數據。由于電影宣傳期、影院熱映期和電影網絡資源開放期的出現,使得電影標簽數據具有獨特的社會性和動態(tài)性,更能滿足本研究的需要。由于豆瓣電影標簽數據會實時更新,且最多顯示10個頁面的數據,超出10個頁面的標簽數據會被系統刪除,因此本文使用R語言自編程序,采取24小時不間斷實時爬取豆瓣電影即將上映板塊中的電影標簽數據,具體采集內容包括電影名稱、用戶名稱、用戶ID、標注標簽、標注時間等。采集時間為2018年11月1日—2019年9月30日。通過網絡檢索獲取電影的影院上映日期和網絡資源開放日期,發(fā)現上映于2018年12月—2019年6月且網絡資源于2019年8月31日前開放的電影有158部。對于單部電影而言,在網絡資源開放之后,當標注數量連續(xù)一周為個位數或零時,認為其生命周期結束[32],即電影的時間長度從有標注標簽首次產生的那天開始直至生命周期結束的那天為止。通過對豆瓣電影標簽數據進行分析,發(fā)現有78部電影標簽數據不完整,舍去后得到80部電影標簽數據。同時,由于偏度統計量的計算對數據量有要求,故刪去了標簽量低于500的22部電影,最終選取了58部電影數據。對58部電影數據進行初步統計發(fā)現,參與標注的用戶有294946人,共標注975579次。

      表1 協同標注信息行為模式及其描述

      4.3 宏觀層面的實證分析結果

      4.3.1 偏度系數分析結果

      分別計算58部電影的標簽標注次數的偏度系數,并繪制偏度系數散點圖,如圖3所示。由圖3可知,每部電影的偏度系數均大于1(最小值為1.60),且平均值為5.34,說明每部電影在最終狀態(tài)時都處于高度正偏狀態(tài),協同標注信息行為中的群體智慧達到了較高水平。

      以天為單位,分別計算標簽標注次數的偏度系數,并為每一部電影繪制偏度系數隨時間變化的曲線圖,部分電影的偏度系數隨時間變化的曲線如圖4所示。其中,橫坐標表示電影的日期序號,縱坐標表示電影的偏度系數值。

      由圖4可知,標簽標注次數的偏度系數總體呈增長趨勢,且僅在初始階段出現了幾個負值。由于當偏度系數大于0時,重尾在右側,數據分布為右偏,這與標簽標注次數的正態(tài)分布曲線長尾在右側的分布一致。同時,絕大多數的偏度系數大于1,說明數據分布長期處于高度偏度分布,即引用標簽行為是整個協同標注信息行為過程中的常態(tài)。電影的偏度系數時間分布圖顯示,隨著時間的推移,參與標注的用戶開始較為集中地引用一些高頻標簽,最終導致有少量標簽的引用程度很高,其余大多數標簽的引用程度較低。也就是說,協同標注信息行為最終形成了全局共識。

      圖3 58部電影的偏度系數

      4.3.2 Chow檢驗分析結果

      由偏度系數隨時間變化的曲線圖可知,曲線具有明顯的階段性,且階段的劃分時點為電影的影院上映日期和網絡資源開放日期。使用Chow檢驗對這兩個時點進行驗證,結果如圖5所示(橫縱坐標含義與圖4一致)。其中,圖中的第一條豎線為電影在國內影院的上映日期,第二條豎線為電影網絡資源的開放日期。Chow檢驗結果顯示,有46部電影兩個斷點在0.05水平上顯著,其中43部電影兩個斷點均在0.001水平上顯著。有6部電影第一個斷點不顯著(第二個斷點在0.001水平上顯著),6部電影第二個斷點不顯著(第一個斷點在0.001水平上顯著),不存在兩個斷點均不顯著的電影。

      根據Chow檢驗結果,可以認為協同標注信息行為具有明顯的階段性特征,電影前期宣傳、影院熱映和電影網絡資源開放不同階段內,用戶標注信息行為導致了協同標注信息行為中群體智慧的結構性變化,電影上映日期與電影網絡資源開放日期將用戶標注行為過程劃分為三個階段:初始階段、中級階段和終極階段。以電影《白蛇:緣起》為例,對協同標注信息行為初始階段、中級階段和終極階段的特征進行分析,相關數據如表2所示。

      圖4 部分電影的偏度系數隨時間變化的曲線圖

      在第一個階段,即初始階段,曲線起伏波動較大。初始階段僅有404位用戶參與標注,僅占整個協同標注信息行為過程中用戶數量的2.72%,共標注了62個標簽。由于自建標簽僅考慮標簽在某階段內是否為首次被標注,不考慮后續(xù)是否被繼續(xù)標注,即自建標簽有可能演化為引用標簽。因此,此階段的62個標簽應全部視為自建標簽,但仍有30個標簽在首次被標注后繼續(xù)被引用了1228次,平均標簽引用次數為40.93。雖然此時出現了不少的引用標簽和較高頻次標簽,但標注次數達到整個截至當前階段標注總次數的80%,標簽數量占據了累計標簽數的16.13%,與其他階段相比相對較高,這表明大多數標簽被引用次數較少,高頻標簽數量較少。結合圖4可知,此時偏度系數曲線總體呈上升趨勢,但偏度系數曲線的波動較大,偏度系數時間序列數據的離散系數達到0.26,是三個階段中的最高值。

      在第二個階段,即中級階段,曲線快速上升,到達一定峰值后趨于平緩,并略有下降。如表2所示,在電影上映后的一段時間內,涌入大量用戶對該電影進行標注,此時用戶數量達10206人,占整個協同標注信息行為過程中用戶數量的68.8%。此階段共有350個標簽被標注,自建標簽僅24個,但有339個標簽累計被引用39759次,引用標簽概率高達96.86%,平均標簽引用次數為117.28,高頻標簽比例快速下降到2.57%。這表明在中級階段的標注過程中,用戶傾向于引用已有的標簽,已經初步形成高頻標簽群。此階段偏度系數曲線總上升趨勢加快,偏度系數時間序列數據離散系數下降到0.16,說明群體意見收斂效果明顯。但需要指出的是,電影資源在熱映期是受用戶關注度最高的時期,當進入上映后期,用戶關注度下降,用戶數、標簽數增速變緩,偏度系數趨于穩(wěn)定。

      圖5 部分電影的Chow檢驗結果

      表2 電影《白蛇:緣起》不同階段的用戶與標簽特征

      在第三個階段,即終極階段,曲線重復中級階段的上升模式,但增長幅度略有降低。如表2所示,此階段用戶占比例28.48%,遠遠高于初始階段的用戶數量,說明在電影網絡資源開放初期,吸引了大量先前想觀看該電影但尚未去影院觀看的用戶,導致新一輪的用戶數量猛增。然而,在標注中新增的標簽往往很少,引用標簽是主流趨勢,概率達到100%。雖然此階段只有213個標簽被引用,但已累計被引用54952次,平均標簽引用次數高達257.99。這表明中級階段形成的大部分高頻標簽在此階段繼續(xù)獲得很高的引用次數,群體用戶意見收斂效果更加顯著,偏度系數繼續(xù)呈現增長的趨勢。電影網絡資源開放一段時間之后,用戶關注度將逐步下降,偏度系數時間序列數據的離散系數降為0.15,偏度系數增長幅度也相應變平緩。從整個協同標注信息行為的周期來看,此時的高頻標簽數為9,僅占累計標簽數的1.83%,表明已經形成了穩(wěn)定的代表群體用戶意見的高頻標簽群。

      4.4 微觀層面的實證分析結果

      4.4.1 八種模式的統計分析

      八種模式分別表征了發(fā)散、收斂子環(huán)節(jié),本文計算了每種模式在標注行為過程中的占比,以及發(fā)散和收斂的比例關系,如表3所示。

      表3 八種協同標注信息行為模式的出現數量及占比

      同時,進一步繪制了發(fā)散和收斂比例的堆積柱形圖,如圖6所示。

      圖6 發(fā)散與收斂比例的堆積柱形圖

      總體來看,在協同標注信息行為的整個過程中,八種模式均有發(fā)生。從發(fā)散與收斂的角度來看,其最終的比例接近3∶7,這說明在整個協同標注信息行為過程中,是以收斂為主的。具體而言,八種模式的出現比例可大致分為三個等級,緩慢聚合和游行模式的出現比例最高,在20%以上;緩慢蔓延、迅速聚合、冷布朗和急行軍模式的出現比例中等,在10%左右;而迅速蔓延和熱布朗模式的出現比例較低,尤其是熱布朗,其在總體占比中不足2%。

      分階段來看,八種模式的出現比例差異很大。

      在初始階段中,只出現了前四種模式,且以緩慢聚合、緩慢蔓延模式為主,兩者的占比達到了92.16%,發(fā)散和收斂的比例接近4∶6。這是因為初始階段參與標注的用戶相對來說較少,且用戶在標注時會傾向于自建標簽,群體用戶觀點發(fā)散顯著。但由于用戶可了解到的只是電影的外部特征信息,信息量有限,用戶在標注過程中在以自建標簽為主的基礎上,輔之以引用標簽,使得從整個初始階段周期來看,蔓延模式將向聚合模式過渡,群體用戶觀點收斂環(huán)節(jié)占優(yōu)。

      在中級階段中,雖然八種模式都有出現,但出現比例較高的緩慢聚合、迅速聚合和游行這三種模式均屬于收斂環(huán)節(jié),且發(fā)散和收斂的比例接近2∶8。在中級階段中,電影資源的影院熱映會集中涌入大量的用戶對電影進行標注。雖然仍然會出現一系列的自建標簽,但由于標注的集中性凸顯,高頻標簽已經逐步形成,多數用戶還是會傾向于引用標簽,這就導致收斂環(huán)節(jié)優(yōu)勢更加明顯。

      在終極階段中,雖然出現了六種模式,但主要以游行、急行軍、冷布朗三種模式為主,其他模式的出現比例不足4%。同時,游行和急行軍模式都是收斂環(huán)節(jié)的,其出現比例超過80%。從發(fā)散與收斂的角度來看,其最終的比例超過2∶8,相對于上一階段而言,發(fā)散與收斂的比例略有上升。隨著電影網絡資源的開放,會吸引許多前期不愿意去電影院消費的潛在用戶進入豆瓣的標注系統對該電影進行標簽標注,表達自我觀點。但因為經過了前面的兩個階段,協同標注系統中已經形成了局部共識,后續(xù)進入的用戶在標注時會更加傾向于引用標簽,使得群體用戶的觀點收斂作用強勢,將進一步凝聚共識、達成全局共識。

      4.4.2 收斂-發(fā)散環(huán)節(jié)的轉移分析

      本文根據時間順序統計了八種模式的發(fā)生次序,并計算了這八種模式之間的總體經驗轉移概率以及分階段的經驗轉移概率,具體結果如表4~表7所示。

      1)協同標注信息行為中收斂-發(fā)散環(huán)節(jié)的總體轉移態(tài)勢分析

      由總體轉移概率可知,對于緩慢聚合、迅速聚合、游行和急行軍四種反映收斂環(huán)節(jié)的模式,轉移概率表明最有可能在下一時期出現相同的模式,即這些模式隨著時間的推移是穩(wěn)定的,表明群體用戶意見隨著時間的推移繼續(xù)保持收斂趨勢。其中,迅速聚合模式隨時間變化最穩(wěn)定(其自身轉移概率為75.33%)。相反地,四種反映發(fā)散環(huán)節(jié)的緩慢蔓延、迅速蔓延、冷布朗和熱布朗模式本質上是不穩(wěn)定的,其在下一時期既有可能轉為自身模式,又有很大的概率轉為反映收斂環(huán)節(jié)的其他模式。例如,迅速蔓延模式在下一時期進入迅速蔓延模式的概率為33.13%,而進入迅速聚合模式的概率卻達到了43.56%;冷布朗模式在下一時期向自身轉移的概率也較高,但更有可能進入游行模式;熱布朗模式傾向于在下一時期進入急行軍或游行模式。緩慢蔓延、迅速蔓延、冷布朗和熱布朗這四種模式的轉移趨勢表明協同標注信息行為所反映的群體意見處于過渡狀態(tài),在群體用戶的認知因獲得目標資源更多信息而趨于客觀,以及協同標注系統協同功能的共同作用下,部分用戶意見隨著時間的推移將得到更多的認同,使得群體用戶意見將由發(fā)散環(huán)節(jié)向收斂環(huán)節(jié)轉移,并最終凝聚共識、實現全局共識。

      表4 協同標注信息行為中收斂-發(fā)散環(huán)節(jié)的總體轉移概率

      表5 初始階段收斂-發(fā)散環(huán)節(jié)的轉移概率

      表6 中級階段收斂-發(fā)散環(huán)節(jié)的轉移概率

      表7 終極階段收斂-發(fā)散環(huán)節(jié)的轉移概率

      2)初始階段收斂-發(fā)散環(huán)節(jié)的轉移分析

      由初始階段的轉移概率可知,在電影上映前的這段時間內,參與標注的用戶比較少,只出現了個體規(guī)模較小的四種模式。但迅速蔓延和迅速聚合模式的出現,說明在某些日期,參與標注的用戶是比較集中的,這有可能是因為處于電影的宣傳期。就模式之間的轉換而言,由于此階段標注行為以自建標簽為主,緩慢蔓延、緩慢聚合、迅速蔓延以及迅速聚合四種模式都是不穩(wěn)定的,說明此階段發(fā)散環(huán)節(jié)作用顯著。然而,緩慢聚合和迅速聚合模式的出現,以及蔓延模式向聚合模式轉移的概率較高,說明此階段用戶在自建標簽的同時,也會引用標簽,收斂環(huán)節(jié)逐漸發(fā)揮作用。

      3)中級階段收斂-發(fā)散環(huán)節(jié)的轉移分析

      中級階段的轉移概率情況與總體轉移概率情況類似,反映收斂環(huán)節(jié)的緩慢聚合、迅速聚合、游行和急行軍四種模式將繼續(xù)保持自身狀態(tài),而反映發(fā)散環(huán)節(jié)的緩慢蔓延、迅速蔓延、冷布朗以及熱布朗模式則傾向于向自身或另一種反映收斂環(huán)節(jié)的模式轉移。對于反映收斂環(huán)節(jié)的緩慢聚合、迅速聚合和游行三種模式而言,其向各自轉移的概率比總體轉移概率和初始階段轉移概率均有提高,急行軍向自身轉移的概率也與總體轉移概率一樣保持很高的水平;對于反映發(fā)散環(huán)節(jié)的緩慢蔓延、迅速蔓延、冷布朗及熱布朗模式而言,相對于向自身轉移,進入另外反映收斂環(huán)節(jié)的模式的概率也有所提高。上述分析表明,收斂環(huán)節(jié)在中極階段得到增強,群體用戶觀點進一步收斂、凝聚。

      4)終極階段收斂-發(fā)散環(huán)節(jié)的轉移分析

      終極階段的協同標注信息行為主要以個體規(guī)模大的四種模式為主,這說明在電影網絡資源開放后,參與標注的用戶已經具備了一定的規(guī)模。就模式之間的轉移而言,反映收斂環(huán)節(jié)的游行和急行軍模式最為穩(wěn)定,在下一時期將出現相同的模式;反映發(fā)散環(huán)節(jié)的冷布朗和熱布朗模式則更有可能向反映收斂環(huán)節(jié)的游行和急行軍模式轉移,冷布朗模式將更有可能進入游行模式,熱布朗模式向游行和急行軍模式轉移的概率大體相同。上述模式的轉移情況與總體轉移概率一致,但冷布朗、游行和急行軍三種模式的轉移概率值進一步提高,熱布朗模式差異不大。另外,此階段也存在迅速蔓延和迅速聚合,但僅向反映收斂環(huán)節(jié)的迅速聚合和急行軍模式轉移。終極階段的模式構成及其轉移概率表明,群體用戶在此階段更加愿意引用高頻標簽,凝聚環(huán)節(jié)代替收斂環(huán)節(jié),群體用戶對目標資源的分類標準達成了全局共識。

      從表7可以看出,左下方都是沒有數據的,這是由于標注用戶規(guī)模這一變量只會增加,不能減少,即不能從群體模式(冷布朗、熱布朗、游行和急行軍)轉向個體模式(緩慢蔓延、緩慢聚合、迅速蔓延和迅速聚合)。除此之外,可發(fā)生其他任何形式的轉移,甚至可以直接從個體規(guī)模小的模式進入急行軍,例如,迅速蔓延和迅速聚合模式在下一時期進入急行軍的概率遠遠高于向其他三種模式轉移的概率。但是如果處于緩慢聚合模式,則傾向于先轉移為游行模式,然后由游行模式進入急行軍模式(如圖7所示)。這表明在協同標注信息行為過程中,進入急行軍模式的標準動態(tài)為:首先在方向一致性方面增加,然后增加參與標注的用戶數量,提升擴散速度。

      圖7 總體上個體模式與群體模式間的轉移

      4.5 相關結論

      (1)Chow檢驗結果顯示,絕大部分電影的兩個斷點在0.001水平上顯著,表明在電影前期宣傳、影院熱映和資源開放三個不同階段內,協同標注信息行為群體智慧存在結構性變化。協同標注信息行為包含了雜亂無章的初始階段、局部共識的中級階段和全局共識的終極階段。引入標注用戶規(guī)模、標注擴散速度和標注方向一致性三個指標,所構建的協同標注信息行為模式在不同階段的結構及其轉移情況很好地表征了發(fā)散、收斂和凝聚等子環(huán)節(jié)?;谌后w智慧理論的“三階段-三環(huán)節(jié)”模型,凸顯了協同標注信息行為群體智慧涌現的過程性和協同性,合理地解釋了協同標注信息行為的機理特征。

      (2)偏度系數可以作為反映協同標注信息行為過程中群體智慧水平變化趨勢的指標,標簽標注次數的偏度系數總體呈增長趨勢,并長期處于高度偏度分布狀態(tài)。這表明引用標簽是整個協同標注信息行為過程的常態(tài),最終導致少量反映群體用戶意見的標簽被持續(xù)引用標注,其余大多數標簽的引用程度較低,群體智慧在協同標注信息行為過程中不斷涌現。

      (3)在初始階段的標注過程中,參與標注的用戶數量較少,標注策略以自建標簽為主,尚未形成明顯的高頻標簽,群體意見分散,目標資源分類體系雜亂無章;在中級階段的標注過程中,數量急速增加的用戶傾向于引用標簽,初步形成了高頻標簽群,群體用戶意見收斂效果明顯,對目標資源分類體系達成了局部共識;在終極階段的標注過程中,出現了新一輪用戶數量的增長,中級階段形成的大部分高頻標簽在此階段繼續(xù)獲得較高的引用次數,群體用戶意見收斂效果更加顯著,形成了穩(wěn)定的代表群體用戶意見的高頻標簽群,群體用戶對大眾分類標準形成了全局共識。

      (4)八種協同標注信息行為模式在整個協同標注信息行為過程中均有發(fā)生,但緩慢聚合、迅速聚合、游行和急行軍屬于收斂環(huán)節(jié)的模式較為穩(wěn)定,而屬于發(fā)散環(huán)節(jié)的緩慢蔓延、迅速蔓延、冷布朗和熱布朗模式有較大的概率轉為屬于收斂環(huán)節(jié)的其他模式。同時,協同標注信息行為模式也不能從群體模式轉向個體模式,反映了發(fā)散、收斂和凝聚環(huán)節(jié)的不可逆性,大眾分類體系一經形成將進入穩(wěn)定狀態(tài)。

      (5)發(fā)散與收斂的比例從初始階段的4∶6提高到終極階段2∶8,這說明協同標注信息行為過程以收斂環(huán)節(jié)為主,且收斂程度逐步提高,群體用戶意見經歷了由發(fā)散向收斂轉移,并最終凝聚共識、涌現大眾分類的過程。

      5 結語

      本文構建了基于群體智慧理論的協同標注信息行為模型,采用豆瓣電影標簽數據對模型進行實證研究,從宏觀和微觀兩個角度,證實了協同標注信息行為的過程性和協同性,驗證了本研究方法的科學性,豐富了協同信息行為的理論與方法體系。同時,本文所揭示的發(fā)散、收斂和凝聚子過程的變化規(guī)律,對于協同標注系統的深度開發(fā)具有一定的指導意義,例如,可以引入偏度分析功能監(jiān)測群體智慧水平,進而通過優(yōu)化協同標注系統協同功能進行動態(tài)干預。

      此外,本研究的方法對于“數據-信息-知識-智慧”這一價值鏈的定量探索具有一定參考價值,有利于下一代情報學體系中智慧情報學的縱深發(fā)展[33]。然而,本文的理論模型雖然得到了實證研究的進一步印證,但所采集的數據局限于國內單一平臺、單一目標資源類型,具有一定的局限性。后續(xù)研究可采集更多實驗數據,進行跨平臺、多類型數據的交叉驗證。此外,從標注用戶、目標資源和標注系統等視角探討協同標注信息行為中群體智慧涌現的影響因素和影響機制,也是值得深入研究的一個難點。

      猜你喜歡
      偏度標簽群體
      對稱分布的矩刻畫
      大學數學(2021年2期)2021-05-07 09:24:20
      通過自然感染獲得群體免疫有多可怕
      科學大眾(2020年10期)2020-07-24 09:14:12
      “群體失語”需要警惕——“為官不言”也是腐敗
      當代陜西(2019年6期)2019-04-17 05:04:02
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于偏度的滾動軸承聲信號故障分析方法
      標簽化傷害了誰
      考慮偏度特征的動態(tài)多響應穩(wěn)健參數設計與優(yōu)化
      基于偏度、峰度特征的BPSK信號盲處理結果可信性評估
      電子器件(2015年5期)2015-12-29 08:42:56
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      五指山市| 宿松县| 卓资县| 玉山县| 准格尔旗| 桦川县| 德江县| 石泉县| 临江市| 内乡县| 保亭| 海南省| 嘉定区| 田林县| 元江| 龙游县| 辉南县| 都兰县| 武鸣县| 江油市| 涞源县| 泸溪县| 北票市| 南陵县| 工布江达县| 西和县| 连城县| 香河县| 沧源| 阆中市| 英山县| 隆林| 汉沽区| 和硕县| 石阡县| 宝坻区| 长子县| 桐庐县| 临安市| 渑池县| 河北省|