魏 超,陳 飛,許丹青,張 敏,劉奕群,馬少平
(智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌)清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京100084)
萬維網(wǎng)信息資源的爆炸性增長使其成為人類歷史上最大規(guī)模的信息集散平臺(tái),而搜索引擎作為訪問萬維網(wǎng)信息資源最重要的工具在人們的工作、生活、學(xué)習(xí)中發(fā)揮著至關(guān)重要的作用。盡管搜索引擎的數(shù)據(jù)索引與處理能力十分強(qiáng)大,但網(wǎng)絡(luò)數(shù)據(jù)的飛速增長仍給其存儲(chǔ)和網(wǎng)絡(luò)服務(wù)帶來了巨大的壓力。與此同時(shí),網(wǎng)絡(luò)數(shù)據(jù)中的大量冗余、低質(zhì)量乃至垃圾數(shù)據(jù)又造成了搜索引擎存儲(chǔ)與運(yùn)算能力的巨大浪費(fèi)。因此,搜索引擎一直將網(wǎng)頁數(shù)據(jù)質(zhì)量評(píng)估視為其技術(shù)發(fā)展的核心挑戰(zhàn)之一。在這種情況下,如何建立適合萬維網(wǎng)實(shí)際應(yīng)用環(huán)境的網(wǎng)頁數(shù)據(jù)質(zhì)量評(píng)估體系與評(píng)估算法成為信息檢索領(lǐng)域的重要研究課題。
萬維網(wǎng)上的網(wǎng)頁質(zhì)量參差不齊。從直觀上看,網(wǎng)頁按其質(zhì)量可以分為以下幾類:內(nèi)容信息量豐富,在所屬領(lǐng)域內(nèi)知名,可以提供高質(zhì)量信息的網(wǎng)頁;知名度一般,有信息量(可能是轉(zhuǎn)帖),可以提供一般質(zhì)量信息的網(wǎng)頁;無內(nèi)容或者充斥了廣告、推廣鏈接、色情、暴力信息的網(wǎng)頁。顯然,如果能夠?qū)W(wǎng)頁建立合理的評(píng)估體系和算法,一方面可以在搜索引擎抓取網(wǎng)頁的時(shí)候?qū)W(wǎng)頁按其質(zhì)量進(jìn)行分類,只抓取質(zhì)量較高的網(wǎng)頁,減少存儲(chǔ)壓力;另一方面可以對(duì)不同質(zhì)量的網(wǎng)頁分類索引,在用戶提交請(qǐng)求的時(shí)候按網(wǎng)頁質(zhì)量對(duì)返回結(jié)果做一次過濾,從而減少網(wǎng)絡(luò)服務(wù)壓力,提高搜索引擎用戶的滿意度。
已有的網(wǎng)頁質(zhì)量評(píng)估體系,要么由于需要大量人工對(duì)網(wǎng)頁特征進(jìn)行打分檢驗(yàn)特征之間的統(tǒng)計(jì)相關(guān)性,導(dǎo)致質(zhì)量評(píng)估只能局限于特定領(lǐng)域或特定類型的網(wǎng)頁;要么只能針對(duì)網(wǎng)頁質(zhì)量的一個(gè)側(cè)面(例如是否是垃圾頁面,網(wǎng)頁的重要性程度等)進(jìn)行質(zhì)量評(píng)估(詳見第2節(jié))。因此有必要提出一個(gè)多維度、全面的、指導(dǎo)性明確且具有較強(qiáng)操作性的網(wǎng)頁質(zhì)量評(píng)估體系。這也是本文的主要研究內(nèi)容。
本文的主要貢獻(xiàn)在于:我們力圖關(guān)注網(wǎng)頁質(zhì)量的多個(gè)側(cè)面,提出具有四個(gè)維度的較全面的網(wǎng)頁質(zhì)量評(píng)價(jià)體系,這四個(gè)維度并不局限于特定領(lǐng)域或特定類型的網(wǎng)頁;標(biāo)注驗(yàn)證顯示在我們定義的網(wǎng)頁質(zhì)量評(píng)價(jià)體系下,人工標(biāo)注結(jié)果具有較高度一致性,因此該體系具有較強(qiáng)的可操作性;另外,我們使用Ordinal Logistic Regression模型對(duì)這四個(gè)維度的重要性進(jìn)行了分析并得出了一些啟發(fā)性的結(jié)論,據(jù)我們所知,這是第一次將該模型應(yīng)用到網(wǎng)頁質(zhì)量評(píng)價(jià)領(lǐng)域中。
本文結(jié)構(gòu)如下:第2節(jié)介紹網(wǎng)頁質(zhì)量評(píng)價(jià)領(lǐng)域的相關(guān)工作;第3節(jié)給出網(wǎng)頁質(zhì)量評(píng)價(jià)體系;第4節(jié)介紹使用該分類體系進(jìn)行標(biāo)注的實(shí)驗(yàn)結(jié)果和利用Ordinal Logistic Regression模型進(jìn)行數(shù)據(jù)分析的結(jié)果;最后給出結(jié)論和今后工作的方向。
對(duì)互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量進(jìn)行的研究由來已久,其研究方法主要有兩類。一是將網(wǎng)頁看作提供信息的平臺(tái),借助于信息系統(tǒng)領(lǐng)域?qū)π畔①|(zhì)量研究的框架,提取若干特征,分析其對(duì)用戶獲取信息的影響[1-3]。作為這種方法的代表性工作,文獻(xiàn)[1]選取了12個(gè)具體的購物服務(wù)類網(wǎng)站,提取了142個(gè)主觀特征,使用大量標(biāo)注人員(大于300人)對(duì)這些網(wǎng)站的特征進(jìn)行打分,根據(jù)這些特征之間的相關(guān)性,將影響網(wǎng)站質(zhì)量的因素分為12個(gè)維度。這種方法的缺陷在于在研究對(duì)象通常為網(wǎng)站而非具體的網(wǎng)頁,研究者使用特定領(lǐng)域(如購物、新聞?lì)I(lǐng)域)的若干個(gè)網(wǎng)站,提取大量耦合性很高的特征并將其合并為若干個(gè)維度用來揭示影響用戶獲取網(wǎng)頁信息的因素。這種研究需要大量標(biāo)注人員對(duì)特征打分,每次只選取特定領(lǐng)域的少量網(wǎng)頁進(jìn)行分析而且沒有給出每個(gè)維度對(duì)網(wǎng)頁質(zhì)量的影響程度。
另一種研究根據(jù)不同的需求定義質(zhì)量,例如垃圾網(wǎng)頁的識(shí)別[4-5],在該任務(wù)中,非垃圾網(wǎng)頁被定義為高質(zhì)量的網(wǎng)頁。此外,諸如 PageRank[6]、HITS[7]、TrustRank[8]和BrowseRank[9]都可以看作是按不同需求定義的網(wǎng)頁質(zhì)量。針對(duì)垃圾網(wǎng)頁的識(shí)別問題,文獻(xiàn)[8]提出了TrustRank算法,該算法選取一些“種子”網(wǎng)站,將其“信用”(衡量是否是垃圾網(wǎng)站)按鏈接關(guān)系進(jìn)行傳播,最終得到全網(wǎng)上各個(gè)網(wǎng)站的“信用”得分。文獻(xiàn)[9]作為鏈接分析的改進(jìn),提出了BrowseRank算法,該算法在用戶瀏覽關(guān)系圖(User Browse Graph)上引入了連續(xù)時(shí)間馬爾可夫過程,考慮了網(wǎng)頁之間實(shí)際的跳轉(zhuǎn)關(guān)系而不是網(wǎng)頁實(shí)際內(nèi)容的相互鏈接關(guān)系,另外該算法還考慮了用戶在每個(gè)網(wǎng)頁上的停留時(shí)間。這些算法的共同特點(diǎn)是利用數(shù)學(xué)模型提出網(wǎng)頁質(zhì)量的概念,其優(yōu)點(diǎn)是對(duì)網(wǎng)頁質(zhì)量的定義有直觀的物理意義,易于解釋并且相關(guān)的理論比較成熟,可以進(jìn)行詳細(xì)的分析。這種模式的缺點(diǎn)在于對(duì)網(wǎng)頁質(zhì)量的判定局限于一個(gè)側(cè)面,而且其算法究竟多大程度上能夠代表網(wǎng)頁質(zhì)量還不得而知。文獻(xiàn)[10]在小規(guī)模數(shù)據(jù)上驗(yàn)證了類似于Page-Rank/HITS的算法無法有效地提高純文本檢索的效果。
總之兩種方法都有其缺陷,第一種方法需要大量人工,只能針對(duì)特定領(lǐng)域或類型網(wǎng)頁進(jìn)行評(píng)價(jià)且不能給出每個(gè)特征對(duì)網(wǎng)頁質(zhì)量的影響程度;第二種方法需要對(duì)網(wǎng)頁質(zhì)量進(jìn)行定義,而通常情況下這些質(zhì)量的定義只能反應(yīng)網(wǎng)頁質(zhì)量的一個(gè)側(cè)面。
我們認(rèn)為,網(wǎng)頁質(zhì)量的最終評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)該是瀏覽網(wǎng)頁的用戶體驗(yàn),為此,我們從用戶出發(fā),構(gòu)建了具有四個(gè)維度的網(wǎng)頁質(zhì)量評(píng)價(jià)體系。
我們首先分析了文獻(xiàn)[1-3]的工作,融合和總結(jié)了前人工作中與網(wǎng)頁質(zhì)量有關(guān)的因素。其次,我們又與若干名網(wǎng)頁設(shè)計(jì)者、經(jīng)常瀏覽網(wǎng)頁的實(shí)際用戶、專業(yè)標(biāo)注人員等三類不同用戶群體進(jìn)行了討論,最終確定了影響網(wǎng)頁質(zhì)量的17個(gè)因素(表1)。
表1 網(wǎng)頁質(zhì)量影響因素
續(xù)表
在表1中,2、3、6號(hào)因素是由經(jīng)常瀏覽網(wǎng)頁的實(shí)際用戶補(bǔ)充的,17號(hào)因素是由網(wǎng)頁設(shè)計(jì)者補(bǔ)充的。據(jù)我們所知,這些因素在以前的工作中沒有被提到過。另外,之前的研究對(duì)權(quán)威性和知名度的概念的使用是模糊的,而我們進(jìn)行了明確的區(qū)分:權(quán)威性主要考察網(wǎng)頁內(nèi)容來源的可靠性,例如,國家發(fā)展和改革委員會(huì)的官方網(wǎng)站(http://www.sdpc.gov.cn/),作為發(fā)改委發(fā)布信息的渠道,該網(wǎng)站內(nèi)的網(wǎng)頁可以認(rèn)為是權(quán)威的,其內(nèi)容具有可靠性;知名度主要考察網(wǎng)頁所屬網(wǎng)站或網(wǎng)頁內(nèi)容提供者是否知名,然而知名的網(wǎng)頁并不意味著網(wǎng)頁具有權(quán)威性,例如,優(yōu)酷網(wǎng)(http://www.youku.com/)可以被認(rèn)為是知名的網(wǎng)站,其在互聯(lián)網(wǎng)用戶中的知名度較高,然而這并不代表網(wǎng)站提供信息的可靠性,因?yàn)槲覀冎涝趦?yōu)酷網(wǎng)上有很多互聯(lián)網(wǎng)用戶的原創(chuàng)作品,這些作品內(nèi)容的可靠性不能得到保證??傊?權(quán)威性和知名度是相關(guān)但不等價(jià)的兩個(gè)特征,因此將知名度、權(quán)威性作為單獨(dú)的特征是必要的。
該特征列表基本涵蓋了影響網(wǎng)頁質(zhì)量的因素,是我們建立最終網(wǎng)頁質(zhì)量評(píng)估體系的出發(fā)點(diǎn)。
在確定了影響網(wǎng)頁質(zhì)量的基本因素后,我們對(duì)這些特征進(jìn)行了詳細(xì)的分析。
首先,特征之間存在相關(guān)性,例如權(quán)威性和知名度,這些特征可以合并為網(wǎng)頁質(zhì)量的一個(gè)維度,根據(jù)這條原則,將權(quán)威性和知名度合并到“權(quán)威知名度”維度中,將信息量、原創(chuàng)性、內(nèi)容準(zhǔn)確正確性、內(nèi)容擴(kuò)展性、多媒體元素合并到“內(nèi)容”維度中,將可導(dǎo)航性、結(jié)構(gòu)化層次、可讀性、交互性、網(wǎng)頁風(fēng)格合并到“網(wǎng)頁呈現(xiàn)”維度中。其次,有些特征雖然對(duì)網(wǎng)頁質(zhì)量有影響,但是實(shí)際操作有困難。對(duì)于響應(yīng)速度特征而言,用戶在不同時(shí)間、地點(diǎn)接入網(wǎng)絡(luò)進(jìn)行網(wǎng)頁瀏覽所獲得的網(wǎng)頁響應(yīng)時(shí)間是不同的,因此,我們刪去了該特征;安全性是影響網(wǎng)頁質(zhì)量的重要因素,但是判斷網(wǎng)頁安全性非常困難,因?yàn)楹茈y知道網(wǎng)站是否對(duì)用戶隱私信息進(jìn)行了加密處理,是否會(huì)妥善保管這些信息,所以我們?cè)谙旅娴姆治鲋袆h除了該特征;同理,我們也刪去了反饋特征;對(duì)于URL可理解性和可讀性,我們認(rèn)為雖然該特征對(duì)網(wǎng)頁質(zhì)量有一定影響但衡量URL是否容易識(shí)記存在主觀上的不一致,不容易操作,所以也刪去了該特征。最終我們得到了一個(gè)四維的網(wǎng)頁質(zhì)量評(píng)價(jià)體系,包括權(quán)威知名度(Authority)、內(nèi)容(Content)、時(shí)效(Timeliness)、網(wǎng)頁呈現(xiàn)(Appearance)四個(gè)維度。這四個(gè)維度與原來17個(gè)特征的對(duì)應(yīng)關(guān)系如表2所示(該表中對(duì)應(yīng)編號(hào)指相關(guān)特征在表1中的編號(hào))。
表2 網(wǎng)頁質(zhì)量評(píng)價(jià)的四個(gè)維度
按照以上四個(gè)維度,通過與專業(yè)標(biāo)注人員的溝通,我們制訂了詳細(xì)的標(biāo)注細(xì)則,并將每個(gè)維度按A-D分為四級(jí)(其中A極好,D表示極差)。接下來,我們使用該評(píng)價(jià)體系對(duì)抽樣的網(wǎng)頁進(jìn)行了標(biāo)注,并對(duì)這四個(gè)維度對(duì)網(wǎng)頁質(zhì)量的影響程度進(jìn)行了分析。
一個(gè)自然的想法是驗(yàn)證上一節(jié)提出的網(wǎng)頁質(zhì)量評(píng)價(jià)體系的可操作性并分析不同維度對(duì)網(wǎng)頁質(zhì)量的影響。前者可以借助標(biāo)注人員使用該體系進(jìn)行標(biāo)注結(jié)果的一致性進(jìn)行衡量;后者可以借助Ordinal Logistic Regression模型進(jìn)行分析。
實(shí)驗(yàn)所用數(shù)據(jù)來自搜狗搜索引擎(http://www.sogou.com/)在2010年10月的查詢?nèi)罩?。我們從日志中隨機(jī)抽取了130個(gè)中頻查詢(對(duì)應(yīng)查詢的點(diǎn)擊量在5~10次之間),然后抓取搜索引擎在這些query下的前十條結(jié)果,得到1154條網(wǎng)頁。使用這種方法得到的網(wǎng)頁含有較多的一般質(zhì)量的網(wǎng)頁;如果使用熱點(diǎn)查詢或者稀有查詢,那么搜索引擎返回的結(jié)果傾向于給出質(zhì)量較高或者較差的網(wǎng)頁,這樣會(huì)使采樣有偏差。
三個(gè)標(biāo)注者對(duì)這些網(wǎng)頁按上述評(píng)價(jià)體系的四個(gè)維度進(jìn)行了標(biāo)注,每個(gè)標(biāo)注者分配了大約600個(gè)網(wǎng)頁,其中每個(gè)標(biāo)注者的前300個(gè)網(wǎng)頁是重合的,用來檢驗(yàn)標(biāo)注結(jié)果的一致性。在正式標(biāo)注之前,三個(gè)標(biāo)注者共同標(biāo)注了30個(gè)網(wǎng)頁,以便對(duì)評(píng)價(jià)體系有完整的認(rèn)識(shí),并盡量保證三人對(duì)標(biāo)注細(xì)則掌握程度一致。
標(biāo)注可靠性(Inter-Rater Reliability)用來衡量不同標(biāo)注者標(biāo)注結(jié)果的一致性,一種常見的分析方法是使用 kappa系數(shù)。kappa系數(shù)是一個(gè)取值在[-1,1]區(qū)間上的變量,該值越接近于1則說明標(biāo)注結(jié)果越一致。文獻(xiàn)[11]提出,kappa系數(shù)在0.8~1.0意味著“幾乎完全一致”(Almost Perfect Agreement),0.6~0.8意味著“相當(dāng)一致”(Substantial Agreement),0.4~0.6意味著“中等一致”(Moderate Agreement),0.2~0.4意味著“有些一致”(Fair Agreement)。
對(duì)于上述網(wǎng)頁質(zhì)量評(píng)價(jià)體系,我們計(jì)算在每個(gè)維度上標(biāo)注者兩兩結(jié)果的kappa系數(shù),結(jié)果如表3所示。
表3 標(biāo)注結(jié)果一致性
可以看出,除標(biāo)注者1和3在網(wǎng)頁外觀、標(biāo)注者2和3在時(shí)效性上的kappa系數(shù)低于0.4外,其余系數(shù)都高于0.4(中等一致);標(biāo)注者1和2在權(quán)威性上的kappa系數(shù)達(dá)到了0.635(相當(dāng)一致)。應(yīng)當(dāng)注意的是,上述評(píng)價(jià)體系的四個(gè)維度都屬于主觀范疇,標(biāo)注者由于自身知識(shí)結(jié)構(gòu)和認(rèn)識(shí)方式的不同而出現(xiàn)的不同的標(biāo)注結(jié)果是我們預(yù)料之中的。另外,維度的主觀性越強(qiáng),那么標(biāo)注的一致性就會(huì)越差。從表3可以看出,在外觀維度上的標(biāo)注一致性是最差的,其均值只有0.37,這與直觀想法也是吻合的。文獻(xiàn)[12]中對(duì)主觀特征進(jìn)行標(biāo)注的kappa系數(shù)均值在0.4±0.03范圍內(nèi),而我們標(biāo)注結(jié)果的kappa系數(shù)均值達(dá)到了0.456,這說明我們提出的質(zhì)量評(píng)估體系具有較強(qiáng)的可操作性,比較易于理解和標(biāo)注。
為了分析不同維度對(duì)網(wǎng)頁質(zhì)量的影響程度,實(shí)驗(yàn)要求標(biāo)注者在對(duì)網(wǎng)頁進(jìn)行標(biāo)注后對(duì)網(wǎng)頁質(zhì)量進(jìn)行一個(gè)總體打分,分?jǐn)?shù)分為A~D四級(jí)(其中A表示質(zhì)量非常好的網(wǎng)頁,D表示質(zhì)量極差的網(wǎng)頁)。
我們使用Ordinal Logistic Regression模型對(duì)評(píng)價(jià)體系的四個(gè)維度和和總得分的關(guān)系進(jìn)行分析。Ordinal Logistic Regression模型是一種常見的對(duì)響應(yīng)變量為有序分類變量進(jìn)行分析的回歸模型,在我們的模型中,響應(yīng)變量為網(wǎng)頁的總體得分,自變量為網(wǎng)頁四個(gè)維度的得分。具體模型如下:
其中 Overall表示網(wǎng)頁總體得分,j=1、2 、3,分別對(duì)應(yīng)D、C、B三個(gè)等級(jí),X1~X4表示四個(gè)維度特征,β表示每個(gè)特征的系數(shù),該系數(shù)越大,則表示對(duì)響應(yīng)變量的影響越大。在下面的分析中,只考慮系數(shù)β,而α作為截距項(xiàng)在我們的問題中沒有參考價(jià)值。
表4總結(jié)了對(duì)三個(gè)標(biāo)注者的標(biāo)注結(jié)果進(jìn)行模型擬合的結(jié)果,其中β為不同維度特征擬合出來的系數(shù),p值為顯著性水平,該值越小說明對(duì)應(yīng)維度特征的貢獻(xiàn)越顯著。
表4 標(biāo)注結(jié)果回歸分析
對(duì)于擬合出的模型,我們主要關(guān)心的是不同維度特征對(duì)應(yīng)β的相對(duì)大小,值得注意的是,不同的標(biāo)注者擬合的β之間是不能直接進(jìn)行比較的。
從表4可以看出,權(quán)威性、內(nèi)容、時(shí)效性、網(wǎng)頁呈現(xiàn)對(duì)應(yīng)的p值均為0,說明這四個(gè)維度特征對(duì)網(wǎng)頁質(zhì)量均有顯著影響;其對(duì)應(yīng)的β均為正值,這說明這些特征和網(wǎng)頁質(zhì)量是正相關(guān)的。
模型擬合結(jié)果顯示,β值最高的維度特征是內(nèi)容,說明網(wǎng)頁內(nèi)容是決定網(wǎng)頁質(zhì)量的最重要的特征,這個(gè)結(jié)論與我們的直觀想法一致。時(shí)效性的重要程度分別為第三、第二、第二,意味著標(biāo)注者對(duì)網(wǎng)頁時(shí)效性的要求較高,同時(shí)也顯示出標(biāo)注者認(rèn)為網(wǎng)頁時(shí)效性對(duì)網(wǎng)頁質(zhì)量有重要影響。在這三個(gè)模型中,權(quán)威知名度的重要程度分別是第四、第四、第三,網(wǎng)頁外觀呈現(xiàn)的重要程度分別是第二、第三、第四,說明在標(biāo)注者看來,這兩個(gè)特征的重要程度較內(nèi)容和時(shí)效性來說稍低。一個(gè)合理的解釋是在網(wǎng)頁內(nèi)容及時(shí)效性滿足用戶要求的情況下,用戶并沒有太注重網(wǎng)頁權(quán)威知名度和外觀帶來的影響。這是一個(gè)很有意思的結(jié)論。
在萬維網(wǎng)信息資源的飛速增長的今天,建立適合萬維網(wǎng)實(shí)際應(yīng)用環(huán)境的數(shù)據(jù)質(zhì)量評(píng)估體系與評(píng)估算法成為了信息檢索領(lǐng)域的重要研究課題。通過對(duì)實(shí)際網(wǎng)頁的研究,我們提出了一個(gè)綜合考慮網(wǎng)頁權(quán)威知名度、內(nèi)容、時(shí)效性、網(wǎng)頁外觀四個(gè)維度的網(wǎng)頁質(zhì)量評(píng)價(jià)體系,使用該體系對(duì)網(wǎng)頁標(biāo)注的結(jié)果顯示該體系具有較強(qiáng)的可操作性;對(duì)標(biāo)注數(shù)據(jù)使用Ordinal Logistic Regression模型進(jìn)行擬合的結(jié)果顯示這四個(gè)維度對(duì)網(wǎng)頁質(zhì)量都有顯著影響,且網(wǎng)頁內(nèi)容、時(shí)效性對(duì)網(wǎng)頁質(zhì)量影響較大。另外,該評(píng)價(jià)體系具有很強(qiáng)的可擴(kuò)展性,可將其他可能影響網(wǎng)頁質(zhì)量的因素添加到體系中并使用回歸模型對(duì)其重要性進(jìn)行分析。
未來可能的工作方向包括:對(duì)評(píng)價(jià)體系進(jìn)行進(jìn)一步的完善;提取合適的客觀特征,對(duì)上述網(wǎng)頁質(zhì)量評(píng)價(jià)體系的四個(gè)維度進(jìn)行擬合,從而實(shí)現(xiàn)網(wǎng)頁質(zhì)量的自動(dòng)評(píng)價(jià)。
[1]LoiaconoE T,Watson R T,GoodhueD L.WEBQUAL:A Measure of Website Quality[C]//Marketing Educators'Conference:Marketing Theory and Applications,2002,13:432-437.
[2]Harold W.Webb,Linda A.Webb.SiteQual:an integrated measure of Web site quality[J].Journal of Enterprise Information Management,2004,17(6):430-440.
[3]M Cao,Q Zhang,J Seydel.B2C e-commerce web site quality:an empirical examination[J].Industrial Management&Data Systems,2005,105(5):645-661.
[4]Ntoulas A,Najork M,Manasse M,et al.Detecting Spam Web Pages through Content Analysis[C]//Proc.of the 15th Int Conf on World Wide Web.New York:ACM,2006:83-92.
[5]Gan Q,Suel T.Improving web spam classifiers using link structure[C]//Proc.of the 3rd Int workshop on Adversarial information retrieval on the web.New York:ACM,2007:17-20.
[6]Brin S,Page L.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.
[7]Kleingerg J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[8]Gy?ngyi Z,Garcia-Molina H,Pedersen J.Combating Web Spam with TrustRank[C]//Proc.of the 30th Int Conf on Very Large Data Bases.US:VLDB Endowment,2004,576-587.
[9]Liu Yuting,Gao Bin,Liu Tie-Yan,et al.BrowseRank:letting web users vote for page importance[C]//Proc.of the 31st annual Int ACM SIGIR conf.New York:ACM,2008,451-458.
[10]Amento B,Terveen L,Hill W.Does “authority”mean quality?Predicting expert quality ratings of Web documents[C]//Proc.of the 23st annual Int ACM SIGIR conf.New York:ACM,2000,296-303.
[11]Landis J R,Koch G G.The measurement of observer agreement for categorical data[J].Biometrics,1977,33(1):159-174.
[12]Song Y,Marchionini G,Oh C Y.What are the most eye-catching and ear-catching features in the video?Implications for video summarization[C]//Proc.of the 19th Int Conf on World Wide Web.New York:ACM,2010:911-920.