常天舒,林鴻飛
(1.大連理工大學(xué) 信息檢索實(shí)驗(yàn)室,遼寧 大連 116024)
維基模式與其相關(guān)的Web 2.0技術(shù)可能帶來的信息革命的新浪潮,其影響力已經(jīng)滲透到各類與互聯(lián)網(wǎng)相關(guān)的產(chǎn)品與服務(wù)中,更為學(xué)術(shù)界其他領(lǐng)域的研究提供了參考與信息獲取的平臺。Wiki是一種采用“多人協(xié)作”模式的超文本協(xié)作系統(tǒng)。2001年1月,由Jimmy Wales和Larry Sanger創(chuàng)建的維基百科英文版開始運(yùn)行。截止2010年3月,英文維基百科已經(jīng)擁有320萬個條目,成為條目數(shù)最多的語言版本,除英文外,還包含了其他多達(dá)271種語言,總條目數(shù)達(dá)到1 500萬個,總注冊用戶超過2 200萬人,總編輯次數(shù)突破8.6億次。維基百科各語言版本發(fā)展并不均勻,其中條目總數(shù)前15名的語言版本占總條目的71%[1]。一項(xiàng)由Nature雜志于2005年的調(diào)查數(shù)據(jù)顯示,維基百科中科學(xué)技術(shù)相關(guān)主題的準(zhǔn)確程度與大不列顛百科全書中的對應(yīng)詞條基本一致[2]。
隨著維基百科中文章和貢獻(xiàn)者數(shù)目的不斷增長,越來越多的爭議也隨之出現(xiàn)。如圖1所示,用戶Gogo Dudo 與用戶Fanforclark13反復(fù)將對方修改的版本進(jìn)行回滾操作,互相堅(jiān)信自己的觀點(diǎn)正確,這就是一種典型的爭議現(xiàn)象。
圖1 維基百科中爭議性的例子,用戶Gogo Dudo 與 用戶FanforClark13之間的爭議
互聯(lián)網(wǎng)社區(qū)結(jié)構(gòu)中的沖突是一種復(fù)雜的現(xiàn)象,即使它經(jīng)常被認(rèn)為是一種負(fù)面的效應(yīng),但同時它也存在正面的影響[3]。文章中用戶因意見或觀點(diǎn)不同所表現(xiàn)出的沖突體現(xiàn)在文章的編輯歷史中,我們稱之為文章的沖突結(jié)構(gòu)。包含較多沖突結(jié)構(gòu)的文章,我們稱為爭議性文章或爭議性條目(Controversial article)。若一篇文章中具有更多的爭論發(fā)生,則認(rèn)為該文章具有較大的爭議性。維基百科為使用者提供了多種標(biāo)注爭議性的工具,包括標(biāo)簽(Tag),類別(Category)和維基百科爭議性文章列表(Wikipedia list of controversial articles)。從眾多的維基百科條目中發(fā)現(xiàn)這些爭議性較強(qiáng)的條目有著重要且深遠(yuǎn)的意義[4]。
? 出現(xiàn)在維基百科文章中的爭議通常是現(xiàn)實(shí)世界的真實(shí)反映。發(fā)現(xiàn)維基百科中的爭議性文章有助于民眾和學(xué)術(shù)研究者更好地理解現(xiàn)實(shí)世界中的爭論;
? 快速且高效地發(fā)現(xiàn)維基百科中爭議性條目可以幫助編輯者和貢獻(xiàn)者更快地定位相應(yīng)的條目,從而對爭議性問題進(jìn)行處理并解決;
? 爭議性條目往往是近期或長期以來持續(xù)引起關(guān)注的話題,能夠迅速且有效地定位這些條目將會對熱點(diǎn)話題追蹤等應(yīng)用有著重要意義。
維基百科自身雖然提供了爭議性文章列表,但只是將用戶顯示標(biāo)注為“Controversial”的文章列入其中,除這些文章外,仍然存在大量未被標(biāo)注的爭議性文章。本文通過文章—用戶爭議度結(jié)合的方式,利用編輯歷史中所提供的元數(shù)據(jù),對爭議性條目根據(jù)其爭議度得分進(jìn)行排序,從而發(fā)現(xiàn)爭議性較強(qiáng)的文章,為維基百科發(fā)現(xiàn)并解決爭議提供可供參考的解決方案。本文的主要貢獻(xiàn)如下:
? 本文對當(dāng)前爭議性發(fā)現(xiàn)的若干方法進(jìn)行了探索和深入研究;
? 利用已有的文章—用戶爭議度迭代計算框架,即考慮文章的爭議度得分的同時,引入相應(yīng)文章貢獻(xiàn)者的爭議度得分,對文章的爭議度進(jìn)行預(yù)測;
? 本文在研究并分析維基百科編輯歷史的基礎(chǔ)上,定義了一類特別的用戶,即強(qiáng)爭議性用戶,并對這一特定用戶群在發(fā)現(xiàn)爭議性的問題的重要性進(jìn)行了探索和實(shí)驗(yàn)。
本文后續(xù)部分的組織結(jié)構(gòu)為: 第2節(jié)敘述相關(guān)工作,介紹相關(guān)領(lǐng)域的研究現(xiàn)狀和主要方法;第3節(jié)介紹強(qiáng)爭議度用戶這一新的概念;第4節(jié)重點(diǎn)介紹爭議性排序模型的基本理論和本文主要提出的爭議度排序模型;第5節(jié)敘述本文的實(shí)驗(yàn)部分,將本文提出的改進(jìn)的爭議度排序模型與其他模型進(jìn)行對比及分析;第6節(jié)對本文進(jìn)行總結(jié),提出未來的研究方向。
維基百科中爭議性文章的發(fā)現(xiàn)是一項(xiàng)新的同時兼具挑戰(zhàn)性的研究課題,至今專門從事這方面研究的學(xué)者和相應(yīng)的學(xué)術(shù)成果并不多。從事該領(lǐng)域的學(xué)者早期主要將更多的精力放在維基百科特色條目或文章自身質(zhì)量的評價上[5-7]。
維基百科中爭議性文章的研究最早來源于對維基百科中用戶間的協(xié)同網(wǎng)絡(luò)和沖突結(jié)構(gòu)的研究,A. Kittur[8]首次將發(fā)現(xiàn)爭議性文章作為研究沖突結(jié)構(gòu)的媒介引入到對維基百科的研究中。通過對維基百科提供的全局信息,文章相關(guān)信息,用戶相關(guān)信息等幾個層面的研究,分析并總結(jié)出若干對沖突結(jié)構(gòu)直接相關(guān)的影響因素。用戶通過機(jī)器學(xué)習(xí)的方法,利用維基百科中已經(jīng)標(biāo)記為“Controversial”文章作為訓(xùn)練集訓(xùn)練SVM分類器,預(yù)測潛在的爭議文章。A. Kittur在文章層面的研究發(fā)現(xiàn)影響文章沖突度的積極因素和消極因素。與此同時,該文章通過Revert-Graph將用戶之間用Revert信息聯(lián)系起來,直觀的展現(xiàn)了用戶間的沖突結(jié)構(gòu)。這篇文章從文章本身和用戶角度為后續(xù)的爭議性文章相關(guān)研究提供了諸多極具價值的參考因素。但用戶層面所考慮的因素只有單一的revert信息,顯得并不全面,更多相關(guān)可用信息有待挖掘。
U. Brandes[9]為分析研究維基百科中協(xié)同結(jié)構(gòu),在文章中定義了編輯網(wǎng)絡(luò) (Edit network) 這種結(jié)構(gòu),來描述維基百科中文章與用戶之間的關(guān)系。文章通過對這種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行可視化并計算其兩極化得分來作為文章最終的爭議度得分,其研究貢獻(xiàn)在于首次將用戶對文章的增刪量化,片面性在于只考慮了文章的兩極化結(jié)構(gòu),對存在多級沖突結(jié)構(gòu)的文章分析誤差較大,另一方面,對增刪量化的同時,增加了算法的復(fù)雜度。U. Brandes[10]隨后又提出一種修訂版網(wǎng)絡(luò) (Revision network), 認(rèn)為對同一篇文章相鄰的兩次修改可以作為衡量兩個用戶之間存在沖突的標(biāo)準(zhǔn),時間間隔越短,則沖突度越大。R. Jesus[11]利用社會網(wǎng)絡(luò)分析的方法識別和發(fā)現(xiàn)爭議性文章中的用戶和文章簇。
B.-Q. Vuong[4]首次直接研究維基百科中的爭議性文章,作者不僅考慮到文章的爭議度得分,同時也將用戶的爭議度得分考慮在內(nèi),利用相互增強(qiáng)原理得到了較好的效果。本文的主要工作就是基于Vuong提出的迭代爭議度計算框架,引入新的特征,進(jìn)而提出更有效的爭議性文章發(fā)現(xiàn)算法。
維基百科為參與者提供自由的編輯平臺,每一篇維基百科中的文章都有一個最初的創(chuàng)建者,創(chuàng)建者為相應(yīng)的詞條撰寫第一個版本的描述。此后,任何參與者均可以完善詞條為目的在原文的基礎(chǔ)上進(jìn)行修改,修改一旦經(jīng)管理員審核通過,新的版本將被采用來替代舊版本作為該詞條的描述頁面。同時,兩個版本的內(nèi)容和相關(guān)修改信息都會被保留下來,以供用戶恢復(fù)原版本或進(jìn)行回滾操作。我們的研究就是基于這種優(yōu)良的維基平臺機(jī)制所提供的信息,根據(jù)以上描述,我們給出若干關(guān)于強(qiáng)爭議性的定義如下。
定義1交互假設(shè)R是文章r的所有版本的集合,ri和ri-1是R中兩個相鄰的版本,用戶v是版本ri-1的用戶,用戶u是版本ri的用戶。由ri和ri-1的先后順序可知,用戶u修改了用戶v的版本,這種用戶u對用戶v的版本進(jìn)行的修改行為稱為一次交互(Revise)。
定義2強(qiáng)爭議性用戶在文章rk中,若存在用戶ui和uj,他們之間的交互次數(shù)(Revise Count, RC)滿足公式(1)的限制條件:
即用戶ui對用戶uj的版本進(jìn)行過不止一次的修改操作,此時,稱用戶ui為強(qiáng)爭議性用戶。在這里我們?nèi)绻x擇閾值為1,則所有用戶均滿足條件,所以沒有意義,而如果選擇大于2的閾值,將會極大的縮小強(qiáng)爭議用戶的規(guī)模,從而影響實(shí)驗(yàn)效果,所以這里我們選取一個可選范圍內(nèi)滿足條件的最小值來進(jìn)行有效性的驗(yàn)證。
在對維基百科爭議性文章進(jìn)行的早期研究中,很少有學(xué)者將文章中的不同貢獻(xiàn)者區(qū)別對待,而是將用戶的爭議度體現(xiàn)在對他們貢獻(xiàn)度的計算中。如計算用戶回滾的次數(shù)[8],作為衡量其爭議度的一個標(biāo)準(zhǔn),這種情況下往往存在著管理員維護(hù)維基百科正常秩序的原因,回滾操作并非是由用戶的爭議性或文章的爭議性引起的,而是由一些惡意用戶的修改導(dǎo)致的常規(guī)維護(hù)行為。與此同時,執(zhí)行回滾操作的用戶也并非全部都是管理員或維護(hù)人員,現(xiàn)實(shí)中往往包含大量的維基百科用戶,他們自發(fā)的維護(hù)行為是不易識別的。除此之外,還有基于用戶刪除比例的爭議度計算模型[4,9],即通過用戶刪除行為所產(chǎn)生的貢獻(xiàn)占用戶所有貢獻(xiàn)的比例來衡量用戶的爭議度。這種計算方式看似更合乎邏輯,但取得的效果并不是很好。本文引入對用戶爭議性的分析,在計算文章爭議度時,剔除普通用戶可能會對文章爭議性計算所起到的負(fù)面影響,降低雜音,強(qiáng)調(diào)爭議性用戶的作用。
通常情況下的用戶與項(xiàng)目的迭代計算采用的相互激勵的原則,即被高分用戶標(biāo)注的對應(yīng)項(xiàng)目理應(yīng)得到更高的分?jǐn)?shù),如此反復(fù)迭代,強(qiáng)者更強(qiáng),弱者更弱。在考慮爭議性這一特殊屬性時,這一原則將不再適用。用戶與爭議度的關(guān)系,滿足如下的互增強(qiáng)原則(Mutual Reinforcement Principle)。具體包含兩條規(guī)則:
規(guī)則1若文章中的爭論多發(fā)生在爭議度較低的用戶間,則該文章具有高的爭議程度。
規(guī)則2若用戶參與更多爭議度較低的文章中的爭論,則該用戶具有較高的爭議程度。
該理論恰當(dāng)?shù)慕沂玖擞脩襞c文章爭議性之間的關(guān)系。如果詞條自身就具有較高的爭議程度,它理應(yīng)吸引更多的參與者發(fā)表不同的看法,其中不乏那些不易與人發(fā)生沖突的參與者。同理,如果用戶本身易發(fā)生沖突,則有很大概率他也會在低爭議性的文章中發(fā)生沖突,這些沖突并不能有力地說明該文章的爭議性。
本節(jié)給出基于統(tǒng)計量的簡單統(tǒng)計模型,同時給出用戶與文章迭代計算爭議度的基本方法和框架,并作為本文提出的模型的基礎(chǔ)和改進(jìn)的對象。
最直觀的用來評價文章爭議程度的方法就是利用文章的版本數(shù)目或參與其中的用戶數(shù)目來衡量文章的爭議程度。公式(2)中Revision Model和公式(3)中的Contributor Count Model為計算文章爭議度的排序模型。
然而,這兩種簡單的計算方法存在著明顯的缺陷。發(fā)生在用戶間的爭論或質(zhì)疑是最能夠體現(xiàn)文章爭議性的因素,而這種爭論或質(zhì)疑明顯不能通過文章的版本多少或參與者的多少衡量,它們不能很好的識別出爭論結(jié)構(gòu)。一些惡意用戶更可以通過多次修改文章來增加版本數(shù)目,進(jìn)而提高文章的爭議性,達(dá)到某種目的。同理,基于貢獻(xiàn)者數(shù)目的模型同樣也不是很可取的,通過這種評分方式很容易將高質(zhì)量的維基百科特色文章定義為爭議性文章。
Controversial Rank Model(CR-Model)是B.-Q. Vuong等在文獻(xiàn)[4]中根據(jù)互增強(qiáng)理論得到的一種表現(xiàn)最好的爭議性排序模型CR-Model,通過分別定義用戶與文章的爭議度,迭代計算文章的爭議性。式(4)和式(5)分別定義了CR-Model中文章和用戶爭議度的計算公式。
在關(guān)注文章爭議度時,我們考慮將強(qiáng)爭議性用戶的交互爭議度作為衡量文章爭議性的標(biāo)準(zhǔn),就得到了強(qiáng)爭議性用戶的排序模型(High Controversial Contributor Model, HC-Model),式(6)和式(7)分別給出了HC-Model中文章爭議度和用戶爭議度的計算公式。
公式(6)中的,計算文章爭議度得分時,只考慮文章中強(qiáng)爭議性用戶的貢獻(xiàn)值,oik和ojk為強(qiáng)爭議性用戶在文章rk中的貢獻(xiàn)值,Age(rk)為版本數(shù)的正比例函數(shù),如公式(8)中所示。為使得到的文章爭議度得分在0到1之間,使用強(qiáng)爭議性用戶的最大貢獻(xiàn)值進(jìn)行歸一化。
revk為文章rk中的版本總數(shù),avg為文章revk的平均值,乘以系數(shù)-0.001使得該函數(shù)值在0到1之間具有很大的區(qū)分度。公式(7)中計算用戶爭議度時,H(i,k)為一個二值函數(shù),當(dāng)用戶ui為文章rk中的強(qiáng)爭議性用戶時,函數(shù)值為1,否則為0。
我們將強(qiáng)爭議性用戶的思想與B.-Q. Vuong等提出的基于刪除貢獻(xiàn)比的CR-Model進(jìn)行融合,引入強(qiáng)爭議性用戶的概念。于是得到了基于強(qiáng)爭議性排序模型(High Controversial Rank Model, HCR-Model)。HCR-Model中文章爭議度得分的計算仍采用CR-Model的計算方法。而用戶爭議度的計算則采用HC-Model中為強(qiáng)爭議性用戶設(shè)計的爭議度得分計算公式,公式(9)和公式(10)分別為HCR-Model中文章爭議度得分和用戶爭議度得分的計算方式。
上述模型中,我們雖然分別給出了用戶與文章爭議度的計算方式和相應(yīng)的理論模型。但本文旨在發(fā)現(xiàn)維基百科中的爭議性文章,所以,本文并未對用戶爭議度計算的準(zhǔn)確性加以考量,而是通過融入用戶爭議度計算模型后得到相應(yīng)的文章爭議性加以評價。
維基百科的數(shù)據(jù)量非常龐大,完整的維基百科編輯歷史文件大小在TB級別以上。針對所研究的問題規(guī)模,我們選擇了維基百科數(shù)據(jù)集enwiki-20080103-pages-meta-history.xml的一個子集。經(jīng)整理后,可以從每個版本的記錄中獲取如圖2所示的屬性信息。其中主要包括版本號、標(biāo)題、版本的用戶、版本的分類信息、用戶評論信息和次要性標(biāo)志。通過這些屬性,我們可以得到同一文章中不同版本間的修改信息。
我們從該數(shù)據(jù)集中抽取了所有宗教類共計16 745篇文章截止2008年1月的所有版本信息作為實(shí)驗(yàn)語料。與此同時,我們從維基百科網(wǎng)站的list of Controversial Articles頁面中下載了宗教類共651篇文章的標(biāo)題信息,其中有76篇文章出現(xiàn)在實(shí)驗(yàn)數(shù)據(jù)集中。這76篇文章是經(jīng)過龐大的維基百科用戶群體及維基百科管理員所認(rèn)可的爭議性文章,我們將以這76篇文章作為檢驗(yàn)標(biāo)準(zhǔn),來驗(yàn)證各個模型的表現(xiàn)。
圖2 每個維基百科文章版本中的屬性信息
實(shí)驗(yàn)的基本任務(wù)可以看作是從16 745篇文檔構(gòu)成的文檔集合中檢索到76篇爭議性(相關(guān))文檔的任務(wù),這與信息檢索的過程頗為類似,因此,我們選取信息檢索中常用的NDCG值來進(jìn)行評價。由于76篇爭議性文章并未有先后順序之分,所以本文選取二值相關(guān)性來進(jìn)行計算,相關(guān)為1,否則為0。式(11)定義了NDCG@k,為:
NDCG@k表征從結(jié)果排序位置p=1到p=k的貢獻(xiàn)量,其中當(dāng)位置p的文檔為76篇標(biāo)準(zhǔn)文章之一時,relp=1,否則為0。Z為理想情況下的排序DCG值,作為歸一化常量存在。理想情況下的排序結(jié)果就是將76篇文檔排在最前面。
圖3所示為HC-Model、 HCR-Model和CR-Model、 Revision Model、 Contributor Count Model在NDCG@5分值上的表現(xiàn),可以看出只考慮強(qiáng)爭議性用戶的HC-Model在NDCG@k的表現(xiàn)較好,甚至優(yōu)于CR-Model。這說明我們考慮強(qiáng)爭議性用戶這一思想對于發(fā)現(xiàn)文章中的沖突結(jié)構(gòu)是有積極作用的。本組實(shí)驗(yàn)結(jié)果表現(xiàn)最優(yōu)的為HCR-Model,即將對用戶的強(qiáng)爭議度計算與其他計算文章爭議度的方法結(jié)合起來,使得用戶的爭議程度得到區(qū)分,突出爭議性較強(qiáng)的用戶,并強(qiáng)化他們對文章的爭議度影響,進(jìn)而取得更好的結(jié)果。
整體趨勢上本文所提出的HCR-Model和HC-Model較CR-Model的效果有所提升,但不難看出,HCR-Model對排名靠前的文檔表現(xiàn)尤為突出。究其原因,是由強(qiáng)爭議性用戶自身的稀疏性所決定的。表1所示為數(shù)據(jù)集中強(qiáng)爭議性用戶和含有強(qiáng)爭議性用戶所參與交互的文章數(shù)目。不難看出,在所有四十多萬名用戶中,只有4.05%的用戶為強(qiáng)爭議性用戶。而所有16 745篇文檔中,只有29.7%的文檔含有這種強(qiáng)交互行為。正是由于強(qiáng)爭議性本身的稀疏性,導(dǎo)致少數(shù)強(qiáng)爭議性的文章受到更多的重視,使得更多的強(qiáng)爭議性文檔排在前面。HCR-Model的返回結(jié)果中,76篇爭議性文章中81.6%的文檔都囊括在返回結(jié)果的1 000名之內(nèi)。得到較高的召回率,這也是我們所希望看到的結(jié)果。
圖3 HC-Model、 HCR-Model、CR-Model、Revision Model、Contributor Count Model在NDCG@k上的結(jié)果
TypeTotalHCCinvolvedRatio/%Author448673181654.05Article16745498229.7
由于涵蓋16 745篇文章的數(shù)據(jù)集中,只有76篇文章被標(biāo)記為相關(guān)文檔,所以,當(dāng)k增大到一定程度后,所出現(xiàn)的相關(guān)文檔越來越少,而作為基數(shù)的排序值不斷上升。這將導(dǎo)致當(dāng)k增大到一定程度后,上述模型的NDCG值區(qū)分度將變小,不再能夠明顯的表征模型的性能。因此,本文提供另外一種更為直觀的方式來體現(xiàn)模型在整體性能上的優(yōu)劣。表2~表4為76篇爭議性文章中在HC-Model、 HCR-Model和CR-Model中按先后順序最后出現(xiàn)的10篇,并給出它們在各自排序模型中所處的位置??梢钥闯觯琀C-Model的最后10篇文檔中,9篇都是在4 000名以內(nèi)的,4篇是3 000名以內(nèi)的,最后一名排在稍差的5 059位。HCR-Model的最后10篇文檔中,7篇是排在4 000名以內(nèi)的,5篇是3 000名以內(nèi)的,甚至有2篇是排在2 000以內(nèi)的,排名最后的文檔在7 504位。而未引入強(qiáng)爭議性用戶的CR-Model則表現(xiàn)較差,最后10篇文檔中,只有6篇排在4 000名以內(nèi),2篇排在3 000以內(nèi),最后一篇文檔排到了8 415,基本處于文檔集的二分之一處,即在維基百科發(fā)現(xiàn)所有爭議性文檔時,可能需要取二分之一的結(jié)果才能找全。
表2 HC-Model的最后10篇文檔
表3 HCR-Model的最后10篇文檔
表4 CR-Model的最后10篇文檔
隨著近年來維基百科的迅速發(fā)展,發(fā)現(xiàn)維基百科爭議性文章作為維基百科研究領(lǐng)域中社會網(wǎng)絡(luò)分析的一個分支,得到了迅速的發(fā)展,同時也兼具更多的挑戰(zhàn)。龐大的維基百科數(shù)據(jù)集往往令研究者望而卻步,本文從維基百科的小部分?jǐn)?shù)據(jù)出發(fā),以小窺大,通過對文章用戶群體的研究給出了如何發(fā)現(xiàn)爭議性文章的一種解決方案。
本文的主要貢獻(xiàn)是通過對維基百科貢獻(xiàn)者行為的分析研究,定義了一類特殊的用戶群體,即強(qiáng)爭議性用戶。他們通過反復(fù)修改同一用戶的行為體現(xiàn)出更強(qiáng)的爭議性,這恰好符合了爭議性文章發(fā)現(xiàn)的關(guān)鍵因素,更多的沖突導(dǎo)致更多的爭議。本文根據(jù)強(qiáng)爭議性用戶這一新的概念,提出了純粹的基于強(qiáng)爭議性用戶行為的HC-Model和HCR-Model。實(shí)驗(yàn)結(jié)果表明,在識別爭議性文章的過程中,引入強(qiáng)爭議性用戶的概念進(jìn)行建模,可以提高精確度。
在下一階段的研究工作中,強(qiáng)爭議性用戶這一概念將繼續(xù)沿用,我們會嘗試將這一概念與已經(jīng)存在的表現(xiàn)良好的識別模型結(jié)合,以用戶為中心,重新設(shè)計新模型來發(fā)現(xiàn)爭議性文章。
[1] Wikipedia. What is Wikipedia [OL].http://wikipedia.jaylee.cn/.
[2] J Giles. Internet encyclopedias go head to head [OL]. http://www.nature.com/news/2005/051212/full/438 900a.html.
[3] V Franco, R Piirto, H Y Hu, et al. Anatomy of a flame: conflict and community building on the Internet [J]. Tech. and Society Magazine, IEEE, 1995,14: 12-21.
[4] B Q Vuong, E P Lim, A Sun, et al. On ranking controversies in Wikipedia: models and evaluation[C]//Proceedings of the International Conference on Web Search and Web Data Mining (WSDM’08), Palo Alto, California, USA, February 11-12, 2008: 171-182.
[5] N Lipka, B Stein. Identifying featured articles in Wikipedia: writing style matters[C]//Proceedings of International World Wide Web Conferences (WWW’10). Raleigh, North Carolina, USA, 2010: 1147-1148.
[6] B T Adler, L de Alfaro. A content-driven reputation system for the Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’07), Banff, Canada, 2007: 261-270.
[7] J E Blumenstock. Size matters: word count as a measure of quality on Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’08), Beijing, China, 2008: 1095-1096.
[8] A Kittur, B Suh, B A Pendleton, et al. He says, she says: conflict and coordination in Wikipedia[C]//Proceedings of SIGCHI Conf. Human Factors in Computing Systems, Son Jose, California, USA, 2007: 453-462.
[9] U Brandes, P Kenis, J Lerner, et al. Network analysis of collaboration structure in Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’09), Madrid, Spain, 2009: 731-740.
[10] U Brandes, J Lerner. Visual analysis of controversy in contributor-generated encyclopedias [J]. Information Visualization, 2008,11: 34-48.
[11] R Jesus. Bipartite networks of wikipedia’s articles and authors: a meso-level approach[C]//Proceedings of International Symposium on Wikis and Open Collaboration (WikiSym’09). Orlando, Florida, USA, 2009: 1-10.