仝召娟 許 鑫
(1.上海財經(jīng)大學圖書館,上海,200433; 2.華東師范大學商學院信息學系,上海,200241)
百度百科網(wǎng)頁質量的自動化評價
仝召娟1許 鑫2
(1.上海財經(jīng)大學圖書館,上海,200433; 2.華東師范大學商學院信息學系,上海,200241)
本文給出了一種高度自動化、可操作性強的百度百科網(wǎng)頁質量評價方法。論文首先闡述了百度百科網(wǎng)頁質量評價的必要性,介紹了國內(nèi)外網(wǎng)頁質量評價的現(xiàn)狀;然后給出了百度百科網(wǎng)頁質量的自動化評價思路,包括確定并自動化提取網(wǎng)頁特征值、訓練評價模型和自動化評價網(wǎng)頁質量等步驟;以百度百科中“中華烹飪文化”相關的網(wǎng)頁為實驗對象,在對比分類結果的基礎上,選取J48分類器實現(xiàn)了自動化評價,并探討了各特征值對評價結果的影響;最后討論了這種自動化評價方法的局限及后續(xù)研究。
網(wǎng)頁質量 百度百科 自動化評價
無論是日常搜索還是學術活動中,百度百科都已成為滿足人們信息需要的重要工具。百度百科從2006年4月上線至2014年5月,已有470余萬用戶為其貢獻了超過800萬的詞條[1]。日常搜索中,百度百科的網(wǎng)站訪問比例約占百度域名訪問比例的8.5%,人均頁面訪問量約為3.3個,居百度新聞、百度圖片之前[2]。在學術活動中,開放式網(wǎng)絡百科信息的影響力也在逐步上升,2006~2012年,中國學術期刊網(wǎng)絡出版總庫中,來自百度百科、維基百科、搜搜百科、互動百科的引用記錄共有16041條,其中來自核心期刊的引用共有4447條,由此可見作者和期刊二者均在一定程度上默許了百科類信息作為參考文獻[3]。
百度百科內(nèi)容為用戶生成的概念性、定義性信息,這保證了其較高的內(nèi)容更新速度和參考價值。盡管百度百科有質量審核制度,但其信息質量很大程度上依賴于詞條創(chuàng)作人員和審核人員,而詞條創(chuàng)作人員和審核人員有很多不確定因素,如主觀性、認知程度等。另外,百度百科的創(chuàng)作元數(shù)據(jù)隨意性較強,用戶在創(chuàng)建詞條時,某些字段如參考文獻、標簽等可以為空,這使得用戶有了詞條創(chuàng)作自由的同時,其內(nèi)容可信性下降。自由的內(nèi)容生成機制、不完善的質量評價措施和海量的網(wǎng)頁數(shù)目,使得百度百科網(wǎng)頁質量的評價仍是一個亟需解決的問題。
國內(nèi)外關于網(wǎng)頁質量評價的研究較多,對這些研究中用到的評價方法進行歸類,大體包含以下一些技術路線:
(1)用戶評價方法。Rafiei等給出了一種基于用戶訪問模型的網(wǎng)頁質量評價方法,實現(xiàn)了Topic試驗系統(tǒng)用以測試一個尋找特定主題的隨機訪問用戶愿意訪問此網(wǎng)頁的概率[4]。薛宇飛等比較和分析了基于用戶瀏覽關系圖結構的幾種主要網(wǎng)頁質量評估算法[5]。張甫等從用戶角度出發(fā),建立了一套基于用戶信息需求的網(wǎng)頁相關性評價方法[6]。用戶評價方法以信息利用者為中心,提高用戶體驗,但用戶評價網(wǎng)頁時往往有一定的主觀因素,不同用戶對于同一網(wǎng)頁質量的評價可能差別很大,很難有一個客觀明確的標準。
(2)基于網(wǎng)頁本身特征的定量評價方法。Laporte等在評價醫(yī)學類網(wǎng)絡信息資源時提出通過計算網(wǎng)絡資源被檢索或引用的次數(shù)來測定網(wǎng)絡資源的重要性[7]。Bauer等人研究了網(wǎng)址類型和其對應的網(wǎng)頁質量之間的關系[8]。Joachims等提出了用點擊量來反映網(wǎng)頁與用戶需求的相關性方法[9]。Adler等人給出了利用作者信用評級系統(tǒng)來控制維基百科的網(wǎng)頁質量的方法[10]。Blumenstock通過實驗得出文章長度和維基百科文章質量存在很強的正相關性的結論[11]。Lipka等研究了寫作風格和維基百科文章質量之間的關系[12]。這類方法的研究對象多為外文網(wǎng)頁,試圖通過某個網(wǎng)頁外在特征來判定網(wǎng)頁質量,這對海量網(wǎng)頁信息的評價有重要借鑒意義,此類方法大多未考慮多個網(wǎng)頁特征間的相互影響。
(3)基于網(wǎng)頁排名的評價方法。Pagerank方法是被公認較為有效的網(wǎng)頁排名評價方法,國外相關研究較多。國內(nèi)袁毅等人通過實例研究了Pagerank評價網(wǎng)頁質量的可靠性及可行性[13];過仕明分析了Pagerank技術及其存在的不足,并結合用戶對頁面的點擊率建立了網(wǎng)頁重要性的綜合評價模型[14]。Pagerank評價方法的前提假設是“質量高的網(wǎng)頁會有較多的鏈接”,這種方法廣泛應用于互聯(lián)網(wǎng)網(wǎng)頁評價,但一些低質量網(wǎng)站正是利用這一前提假設,通過人為增加網(wǎng)頁鏈接數(shù)以提高網(wǎng)頁的Pagerank值,從而使網(wǎng)頁成為搜索引擎認為的高質量網(wǎng)頁。
(4)基于評價指標體系的評價方法。Smith等人[15]、Harris[16]、Wilkinson等[17]分別提出了不同的評價指標體系,他們共同考慮的方面主要包括目的和用戶群,信息內(nèi)容(范圍、準確性、權威性、新穎性、時效性),信息組織(元信息、導航、美觀),信息利用(可獲取、穩(wěn)定、界面友好)等指標。國內(nèi)的竇志[18]、梁君[19]、王巍[20]、李洋[21]、魏超等[22]分別基于不同角度給出了各自的評價指標體系。劉鵬程等[23]、唐夢莎等[24]、許衛(wèi)衛(wèi)等[25]在給出指標體系的基礎上還通過手工評分的方法對結果進行評價。通過建立指標體系對網(wǎng)頁進行質量評價的方法能夠較為全面客觀地反映網(wǎng)頁質量,但這種方法需要大量的人工工作,且某些指標一定程度上依賴于評價者的主觀認知。
(5)其它評價方法。Wohner等人在統(tǒng)計的基礎上,給出了基于生命周期的網(wǎng)頁質量評價方法[26]。雷粉紅對各種評價方法進行了對比分析后,提出了HFGH算法評價模型[27]。王海鷹等人利用蟻群算法量化用戶的偏愛度,提出了一種多目標優(yōu)化模型的網(wǎng)頁價值綜合評價體系[28]。在微博廣泛應用的背景下,齊娜等人還對醫(yī)療健康領域的微博信息的質量問題作了探討,綜合問卷調(diào)查、統(tǒng)計分析、專家訪談、對比分析等方法得出網(wǎng)絡信息質量問題的主要原因[29]。這些方法為網(wǎng)頁質量評價提供了一些新的思路和視角。
以上方法都在一定程度上推動了網(wǎng)頁質量評價的研究,然而這些方法仍需要大量的手工工作。文獻[10-12]以英文的維基百科網(wǎng)頁質量為對象展開了研究,其研究探討了某一類網(wǎng)頁特征對維基百科網(wǎng)頁質量的影響,但由于語言的不同,這些研究結論未必適用于中文百科類網(wǎng)頁。本文參考了網(wǎng)頁特征與網(wǎng)頁質量可能相關這一前提假設,在此基礎上,較為全面地結合百度百科網(wǎng)頁的多個特征,實現(xiàn)從網(wǎng)頁信息采集到網(wǎng)頁特征獲取,再到網(wǎng)頁質量評價多個環(huán)節(jié)的自動處理,這對海量中文百科類網(wǎng)頁的質量評價有較強的實踐意義。
由上述相關文獻[7-14]可知,一些可定量的網(wǎng)頁特征,包括文章長度、網(wǎng)址類型、鏈接情況等可能和網(wǎng)頁質量之間存在相關關系,某個網(wǎng)頁特征值和網(wǎng)頁質量之間的對應關系可能是兩元線性相關、非線性相關,多個網(wǎng)頁特征值和網(wǎng)頁質量之間可能是多元復相關,當然也有某些特征值與網(wǎng)頁質量無關聯(lián)。對此,本文在這些可能的相關關系基礎上,引入機器學習的方法來對網(wǎng)頁質量進行自動分類。
機器學習是人工智能的重要研究領域之一,其主旨是利用計算機模擬或實現(xiàn)人類學習活動,在一定的數(shù)據(jù)學習經(jīng)驗基礎上,使機器建立起特征值和結果之間的聯(lián)系,基于這種聯(lián)系,機器對新輸入的條件值進行判斷分析,從而給出判斷結果。自出現(xiàn)以來,機器學習已發(fā)展成為一門涉及多個領域的交叉學科,涉及統(tǒng)計學、概率論、統(tǒng)籌學、計算機算法等學科知識,在很多領域中被研究和應用。利用機器學習方法進行網(wǎng)頁信息質量評價的框架可簡單表示為圖1。
按照學習策略,機器學習可以分為機械學習、示教學習、演繹學習、類比學習、解釋學習、歸納學習等。其中以接收為學習主要目標的是機械學習和示教學習。機械學習是其中最簡單的學習方法,機器無需推理轉換,只需接收知識;示教學習仍是以接收知識為主的學習形式,但需要對不斷接收的知識進行整合。演繹學習類似于公理推導的過程,其反面為歸納學習。類比學習涉及的模塊更多,需要通過比較找出兩種知識的相同相異之處,進而推導出目標知識。解釋學習和本體的概念有類似之處,機器通過學習概念、實例和操作規(guī)則,實現(xiàn)解釋概念、實例和操作間關系的目的。歸納學習是較高級的學習方法,機器需要利用提供的實例和反例歸納出某個概念的描述,歸納學習的應用較廣泛,因為在完成歸納學習的基礎上,機器很容易判斷出一個新的實例是否屬于該概念的描述范圍,這就實現(xiàn)了利用機器學習進行分類的功能。
圖1 基于機器學習的網(wǎng)頁信息質量評價框架
按是否給出分類結果,機器學習可分為監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習即利用已知類別的樣本,在機器學習的過程中給出學習結果的評判。機器在接收到原來結果是否正確的基礎上,通過不斷調(diào)整算法,使學習誤差盡量減小,以完成分類或預測。無監(jiān)督學習即在機器學習的過程中,不提供給機器學習結果,而讓機器通過歸納學習機制,自主完成學習的過程,這種方法通常用于處理未被分類標記的樣本集。
針對像百度百科這樣的開放式網(wǎng)絡百科類的信息資源來說,機器需要在已知小樣本信息質量數(shù)據(jù)所屬類別的基礎上,對未分類的數(shù)據(jù)做出類別判斷,因此本文用到的機器學習方法屬于歸納學習和監(jiān)督學習。
基于機器學習的網(wǎng)頁信息質量評價本質上是一個分類問題。從數(shù)據(jù)流動的角度來看,將網(wǎng)頁數(shù)量記為n,網(wǎng)頁可分別記為1,2,…,m,…,n;假定選取的網(wǎng)頁特征值共μ個,網(wǎng)頁特征值可分別記為記為α,β,…,μ,則第n個網(wǎng)頁對應的一組特征值數(shù)據(jù)可記為(αn,βn,…,μn)。則n組網(wǎng)頁的特征值數(shù)據(jù)可記為(α1,β1,…,μ1),(α2,β2,…,μ2),…(αm,βm,…,μm),…,(αn,βn,…,μn)。n組網(wǎng)頁特征數(shù)據(jù)中,選取前m組數(shù)據(jù)作為訓練集的特征值部分,其余的(n-m)組數(shù)據(jù)作為測試集。接下來,對m組訓練集數(shù)據(jù)對應的網(wǎng)頁進行質量評價,將評價結果記為φ,則含有評價結果的第m組訓練集數(shù)據(jù)為(αm,βm,…,μm,φm)。利用機器學習算法,通過建立分類模型,得到(αm,βm,…,μm)與φm的對應關系。對比不同分類模型的分類結果,選取評價準確率最高的作為分類器。最后,將(n-m)組不含評價結果的測試集數(shù)據(jù)載入分類器中;分類器根據(jù)訓練過程中學習到的對應關系,得到第n個網(wǎng)頁的評價結果φn。至此,所有數(shù)據(jù)均得到了對應的評價結果。
基于機器學習方法對網(wǎng)頁信息質量進行分類大體上可以分為確定特征值、提取特征值、訓練并選取模型、利用所選模型進行網(wǎng)頁質量評價等幾步。具體到百度百科,利用機器學習方法進行自動化質量評價的步驟可表示為圖2。
圖2 百度百科網(wǎng)頁質量自動化評價的步驟
3.1 選取百度百科網(wǎng)頁特征
選取百度百科網(wǎng)頁特征時,需要兼顧可獲得性與相關性,最理想的特征集選取應該能夠以最簡單的特征較好地實現(xiàn)網(wǎng)頁信息質量的分類。通過對百度百科隨機網(wǎng)頁的源代碼分析可知,可以通過網(wǎng)頁采集器一次獲取的數(shù)據(jù)有:網(wǎng)址、網(wǎng)頁標題、摘要、正文、源代碼、編輯次數(shù)、最近更新等。通過簡單的Excel函數(shù),還可以獲取文章長度以及最近更新時間距目前時間的間隔。
編輯次數(shù)即網(wǎng)頁從生成至今被修訂的次數(shù)。在網(wǎng)頁內(nèi)容可被用戶自由編輯的環(huán)境下,通常一個網(wǎng)頁的內(nèi)容被認同時,網(wǎng)頁閱覽者不會對網(wǎng)頁進行編輯修訂。因此可認為編輯次數(shù)和用戶對網(wǎng)頁整體質量的評價有一定相關性。
最近更新即最近一次網(wǎng)頁被生成或修訂的具體日期,網(wǎng)頁被生成或修訂的日期距離現(xiàn)在越近,則其內(nèi)容的新穎性和時效性更強。新穎性、時效性是網(wǎng)頁內(nèi)容質量評價重要指標之一[15-17]。最近更新是一個具體的日期,本文將計算出目前時間和最近更新的月數(shù)差以方便后續(xù)數(shù)據(jù)處理,這一特征值可表述為“更新距今月數(shù)差”。
另外,直觀上某個網(wǎng)頁的內(nèi)容字數(shù)越多,其內(nèi)容也越可能更豐富,前人的文獻也證明了這種相關性[11],因此本文也將文章長度列為指標之一。本文將統(tǒng)計網(wǎng)頁正文對應的字數(shù)作為文章長度指標。
從網(wǎng)址的后綴可以看出其域名類型,研究[8]表明域名類型和網(wǎng)頁質量之間存在關聯(lián),但百度百科所有網(wǎng)址對應的域名類型均為表示工商企業(yè)“.com”,不具有分類上的意義;網(wǎng)頁標題、摘要、源代碼屬于可獲取指標,但暫無研究或實驗表明其與網(wǎng)頁質量間存在關聯(lián)。結合上述分析,同時在相關實驗探討之后,本文最終選取了三個網(wǎng)頁特征值進行實驗:編輯次數(shù)、更新距今月數(shù)差、文章長度,這三個網(wǎng)頁特征值被定義為α、β、μ。
3.2 自動化提取與處理網(wǎng)頁特征值
本文選取LocoySpider[30]和Excel對百度百科的網(wǎng)頁特征進行自動化提取與處理。LocoySpider是一款常用的網(wǎng)絡數(shù)據(jù)采集軟件。通過百度百科網(wǎng)頁的的源代碼分析,本文采取前后截取的方式,利用LocoySpider采集待評價的n個網(wǎng)頁的網(wǎng)頁信息,直接采集到的數(shù)據(jù)有網(wǎng)址、網(wǎng)頁標題、正文、編輯次數(shù)、最近更新等;將這些數(shù)據(jù)保存在一個Excel中,共得到n組網(wǎng)頁特征值數(shù)據(jù),然后利用Excel中的日期差函數(shù)“DATEDIF”處理“最近更新”一列,利用文本長度函數(shù)“LEN”處理“正文”一列,自動得出“更新距今月數(shù)差”和“文章長度”。
在得到這些初始數(shù)據(jù)后,還需要初步檢查這些數(shù)據(jù)的完整性和合理性,例如所有數(shù)據(jù)都應為不可缺省的自然數(shù),再比如文章長度的數(shù)據(jù)反映的是網(wǎng)頁內(nèi)容的字數(shù),若此數(shù)據(jù)過小,應返回網(wǎng)頁查看正文內(nèi)容是否抓取完全。
3.3 訓練數(shù)據(jù)并選擇學習模型
訓練與評價階段用到的主要工具為基于JAVA環(huán)境下開源的機器學習軟件Weka(Waikato Environment for Knowledge Analysis)[31]。在得到網(wǎng)頁特征值數(shù)據(jù)后,將這些數(shù)據(jù)分成兩部分,從n組網(wǎng)頁特征值中選取前m組數(shù)據(jù),則n組數(shù)據(jù)被分為(1,2,…,m)和(m+1,m+2,…,n)兩部分。人工評價對應于(1,2,…,m)的m個網(wǎng)頁的質量,其中第m個網(wǎng)頁的評價結果記為φm。含m組特征值(αm,βm,μm)和評價結果φm的數(shù)據(jù)將作為訓練集。訓練集的評價結果將直接影響網(wǎng)頁質量自動化評價的精確度,因此人工評價時應盡可能精確,保證其科學合理性。
按照Weka對文件格式的要求,將含有網(wǎng)頁特征值和評價結果的訓練集數(shù)據(jù)進行格式轉換并載入,在Classify功能下選取不同的算法訓練數(shù)據(jù)。對比不同算法得到的分類結果,選取精確度較高的算法對應的模型作為網(wǎng)頁質量分類器。
3.4 自動化評價網(wǎng)頁質量
將(n-m)組測試集(m+1,m+2,…,n)的網(wǎng)頁特征值載入所選分類器中。對于每一組新輸入的網(wǎng)頁特征值(αn,βn,μn),網(wǎng)頁質量分類器將根據(jù)之前的學習規(guī)則對其進行判定,根據(jù)特征值和評價模型的相似度,給出每一組特征值新的評價結果φn,便得到了測試集對應質量的評價結果(φm+1,φm+2,...,φn)。
中華烹飪文化博大精深,既關乎日常實踐,又是一種獨特的物質和精神財富。本文作者曾利用互聯(lián)網(wǎng)信息資源構建了中華烹飪文化專題知識庫[32],正是在此過程中開始了對網(wǎng)頁質量的自動化評價研究。本文以“中華烹飪文化”作為檢索詞,在百度百科中進行詞條搜索,截止2013年7月15日,共得到相關詞條1330條,以此數(shù)據(jù)集作為實驗對象進行網(wǎng)頁信息質量自動化評價實驗。
4.1 實驗數(shù)據(jù)預處理
本文采用LoclySpider V7.7版本對網(wǎng)頁特征進行初步采集。為了綜合比較不同特征選取下的比較分類效果,在初步采集時盡可能多地采集了各類網(wǎng)頁特征,包括網(wǎng)址、網(wǎng)頁標題、正文、源代碼、編輯次數(shù)和最近更新等信息。因為除了最終選取的3個特征以外,本文也在預研究階段對基于網(wǎng)址URL特性分類、網(wǎng)頁標題與正文相似度計算、根據(jù)“中華烹飪文化”字樣分別在網(wǎng)頁標題或正文中出現(xiàn)賦權等其它特征選取策略進行了實驗,最后依據(jù)“最省力”原則,在最終實驗結果可以接受的情況下選取了最簡單的3個特征。
具體的數(shù)據(jù)采集及處理包括在采集配置頁面中批量導入檢索“中華烹飪文化”所得到的1330個網(wǎng)址,即網(wǎng)頁個數(shù)n=1330;然后根據(jù)源代碼填入最終所選取特征的截取規(guī)則,并將相關記錄保存到本地Excel文件;再按照前文所述原則,檢查數(shù)據(jù)的完整性和合理性。進一步對Excel文件中的數(shù)據(jù)進行處理,對Excel文件的“正文”列使用函數(shù)“=LEN()”,得到新的一列“內(nèi)容長度”;對“最近更新”列使用函數(shù)“=DATEDIF(“最近更新”,”目前日期”, “M”),得到新的一列“更新距今月數(shù)”;最后將“編輯次數(shù)”和這兩列另存至新的Excel中。
4.2 評價小樣本網(wǎng)頁質量
將1330個網(wǎng)頁分為兩部分,隨機抽取其中的200個網(wǎng)頁作為小樣本網(wǎng)頁,即m=200。含有小樣本網(wǎng)頁特征值和質量分類結果的數(shù)據(jù)即訓練集,其余只含有網(wǎng)頁特征值的數(shù)據(jù)為測試集,訓練集和測試集數(shù)據(jù)分別保存在兩個Excel文件中。為盡可能保證評價標準的科學與嚴謹,研究中參照了以前研究者對于網(wǎng)頁質量評價的一些研究成果[15-25],以網(wǎng)頁與主題的相關性、文本豐富度、可信性、可讀性、新穎性等作為實際標引網(wǎng)頁質量的標準,從信息的內(nèi)容、組織和利用各個層次對網(wǎng)頁質量進行綜合評價,評價結果被標記為“H”(高質量)和“L”(低質量),即φ的值為“H”或“L”。
4.3 訓練數(shù)據(jù)并選取模型
按照Weka3.6.9版本對文件類型的要求,在訓練集和測試集中添加必要的屬性和關系聲明,并轉存為“.arff”文件。需要注意的是,評價結果必須放在最后一列,測試集中需要用“?”表示其評價值為空。
在Explorer模塊中載入訓練集,在“Classify”功能中選擇十折交叉驗證,選擇不同的分類算法進行數(shù)據(jù)訓練,對比分析各結果發(fā)現(xiàn),選用RandomForest算法、ADTree算法、J48算法的精確度較高,分別為83%、85%、87%,其中J48算法得到的結果精確度最為理想。從圖3所示的混淆矩陣中可以看出,J48算法分類器對于高質量的網(wǎng)頁和低質量網(wǎng)頁的召回率分別為88%和83%,其相比較而言對于高質量網(wǎng)頁的召回率更高些。J48算法的基本思想是不斷選擇最優(yōu)的屬性并建立相應節(jié)點,對數(shù)據(jù)集作劃分,其優(yōu)點是產(chǎn)生的分類規(guī)則易于理解,準確率較高,缺點是效率較低。
圖3 用J 48算法訓練小樣本特征值的結果
4.4 自動化評價結果
選擇“Classify”功能中的“Supplied test set”,將其余的1130組數(shù)據(jù)載入所選的J48分類器中,分類器根據(jù)之前的學習經(jīng)驗,對照新輸入的每一組特征值,開始自動化評價。結果顯示,1130個百度百科網(wǎng)頁中共有1027個高質量網(wǎng)頁和103個低質量網(wǎng)頁。結合之前訓練集的評價結果可以看出,在進行試驗的所有1330個網(wǎng)頁中,高質量網(wǎng)頁數(shù)量共有1180個,占所有網(wǎng)頁數(shù)目的88.7%,這也表明在“中華烹飪文化”領域,百度百科相關網(wǎng)頁的整體質量較高。
為了研究各個特征指標對最終結果的貢獻,本文將三個特征值α,β,μ的其中一個逐一剔除,再次進行試驗。評價結果顯示,剔除文章長度α這一特征值對試驗結果的影響最大,剔除編輯次數(shù)β和更新距今月數(shù)差μ對結果的影響較小且影響度基本相同,這也表明百度百科的網(wǎng)頁質量對文章長度α的依賴性更強。
本文在前人研究的基礎上,提供了一種自動化實現(xiàn)百度百科網(wǎng)頁質量評價的方法,以最為簡單的3個特征指標實現(xiàn)了87%的網(wǎng)頁信息質量分類精度,對于海量網(wǎng)頁的質量評價具有較強的實踐意義,在國內(nèi)百科類網(wǎng)頁質量自動化評價研究方面具有一定的創(chuàng)新意義。同時,隨著網(wǎng)頁生成越來越規(guī)范,這種方法對于任意類型網(wǎng)頁的質量評價也具有一定的借鑒意義。由于本文重點考慮網(wǎng)頁特征的可自動獲取的特性,因此一些需要大量手工統(tǒng)計才能獲取的網(wǎng)頁特征,如網(wǎng)頁好評率、作者等級及擅長領域等未被討論,這是本文的局限所在,也是海量網(wǎng)頁質量評價面臨的一個難題。進一步研究將集中在如何保證訓練集評價結果的科學性,并在此基礎上通過領域專題對比、網(wǎng)頁類型對比、特征指標選取對比和分類算法選取對比,將該自動化評價思路推廣至更多領域專題,應用于更多網(wǎng)頁類型。
[1] 百度百科. 百度百科[EB/OL].[2014-05-24]. http://baike.baidu.com/
[2] Alexa China[EB/OL].[2014-05-14]. http://alexa.chinaz.com/index.asp?domain=baidu.com
[3] 丁玉東, 張春峰, 劉穎. 期刊論文引用中文Wiki網(wǎng)絡百科的統(tǒng)計與分析[J]. 情報雜志, 2013(3): 113-116
[4] Rafiei D, Mendelzon A O. What is this page known for? Computing Web page reputations[J]. Computer Networks, 2000, 33(1): 823-835
[5] 薛宇飛,劉奕群,張敏,等. 基于用戶瀏覽圖的網(wǎng)頁質量評估方法的比較分析[C]//中國計算機語言學研究前沿進展(2007-2009). 北京:中文信息學會,2009:491-497
[6] 張甫, 吳新年, 張紅麗.基于用戶信息需求的網(wǎng)頁相關性評價研究[J]. 情報理論與實踐,2011(5):30-33
[7] LaPorte R E, Marler E, Akazawa S, et al. The death of biomedical journals[J]. British Medical Journal, 1995, 310(6991): 1387-1390
[8] Bauer C,Scharl A.Quantitive evaluation of Web site content and structure[J].Internet Research,2000,10(1):31-44
[9] Joachims T, Granka L, Pan B, et al. Accurately interpreting clickthrough data as implicit feedback[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. New York: ACM, 2005: 154-161
[10] Adler B T, De Alfaro L. A content-driven reputation system for the Wikipedia[C]// Proceedings of the 16th international conference on World Wide Web(WWW’07). New York:ACM, 2007:261-270
[11] Blumenstock J E. Automatically assessing the quality of Wikipedia articles.[EB/OL].[2014-09-24].https://escholarship.org/uc/item/18s3z11b
[12] Lipka N, Stein B. Identifying featured articles in Wikipedia: writing style matters[C]// Proceedings of the 19th international conference on World Wide Web. New York: ACM, 2010:1147-1148
[13] 袁毅, 徐曼. PageRank判斷網(wǎng)頁質量的可靠性分析[J]. 情報雜志,2006(2):58-60
[14] 過仕明. PageRank技術分析及網(wǎng)頁重要性的綜合評價模型[J]. 圖書館論壇,2006(1): 80-81
[15] Smith, Alastair G. Testing the Surf: Criteria for evaluating internet information resources[J].The Public-Access Computer Systems Review 1997,8(3):1-14
[16] Harris R. Evaluating Internet research sources[OL].[2014-07-15] http://www.virtualsalt.com/evalu8it.htm
[17] Wilkinson G L, Bennett L T, Oliver K M. Consolidated listing of evaluation criteria and quality indicators[EB/OL].[2014-07-15]. http://itechl.coe.uga.edu/faculty/gwilkinson/wsbeval.html
[18] 竇志. 網(wǎng)絡體育信息資源評價探究[J]. 武漢體育學院學報,2006(9):93-95
[19] 梁君. 第三方B2B電子商務網(wǎng)站質量評價體系研究[D]. 杭州:浙江大學,2008:38-49
[20] 王巍. 基于B/S結構的網(wǎng)絡學術信息資源評價系統(tǒng)的研究與實現(xiàn)[D]. 大連:大連交通大學,2009:24-34
[21] 李洋. 網(wǎng)上學術信息質量評價研究[D]. 長春:吉林大學, 2010:39-46
[22] 魏超, 陳飛, 許丹飛,等. 網(wǎng)頁質量評價體系的研究[J]. 中文信息學報, 2011,25(5): 3-8
[23] 劉鵬程, 王德斌, 洪倩,等. 國內(nèi)有關兒童發(fā)熱的網(wǎng)絡信息質量評價初探[J]. 中華疾病控制雜志,2010(5):436-439
[24] 唐夢莎, 王德斌, 柴靜,等. 國內(nèi)有關兒童齲齒的網(wǎng)絡信息質量評價[J]. 預防醫(yī)學情報雜志,2010(7):557-561
[25] 許衛(wèi)衛(wèi), 張士靖, 劉海通,等. 網(wǎng)絡醫(yī)療衛(wèi)生信息資源評價研究——以心理健康網(wǎng)站為例[J]. 醫(yī)學信息學雜志,2012(6):50-55
[26] Wohner T, Peters R. Assessing the quality of wikipedia articles with lifecycle based metrics[J]. WikiSym, 2009(10):25-27
[27] 雷粉紅. 網(wǎng)絡科技資源質量評價方法的研究[D]. 西安:西北大學,2010:28-41
[28] 王海鷹, 魏穎. 基于蟻群算法的多目標網(wǎng)頁綜合評價策略[J]. 計算機工程與應用,2011,47(4):223-225
[29] 齊娜, 宋麗榮. 醫(yī)療健康領域微博信息傳播中的信息質量問題[J]. 科技導報,2012,30(17):60-65
[30] 火車頭數(shù)據(jù)采集平臺. 火車采集器LocoySpider網(wǎng)頁數(shù)據(jù)采集利器[EB/OL].[2014-07-15]. http://www.locoy.com/
[31] WEKA. Weka 3: Data Mining Software in Java[EB/OL].[2014-07-15]. http://www.cs.waikato.ac.nz/ml/weka/
[32] 許鑫, 郭金龍. 基于領域本體的專題庫構建——以中華烹飪文化知識庫為例[J]. 現(xiàn)代圖書情報技術,2013,29(12):2-9
Automatic Evaluation of Baidu Encyclopedia Web Pages
Tong Zhaojuan1Xu Xin2
(1.Shanghai University of Finance & Economics Library,Shanghai,200433;2.Department of Information Science,Business School,East China Normal University,Shanghai,200241)
This paper presents an automatic and practical evaluation method of Baidu encyclopedia web pages. Firstly it expounds the necessity of the quality evaluation of Baidu encyclopedia web pages and the current situation of the web pages quality evaluation methods. Then the paper introduces the framework of automatic evaluation of the Baidu encyclopedia web pages quality, including confirming and automatically extracting the web pages’ features, training the evaluation model and automatically evaluating the web pages’ quality. Taking the webpages related to Chinese cuisine culture from Baidu encyclopedia as experimental subjects,based on the comparisons between the classification results,this paper selects the classifier to realize the automatic evaluation and discusses the influence of the eigenvalues on the evaluation results. Finally, it discusses the limitations and further direction of this automated evaluation method.
Web pages quality Baidu encyclopedia Automatic evaluation
仝召娟,女,助理館員,碩士,研究方向為數(shù)字圖書館、信息資源建設;許鑫,男,副教授,博士,研究方向為管理信息系統(tǒng)、網(wǎng)絡信息處理與分析,Email:xxu@infor.ecnu.edu.cn。
G203
A
2095-2171(2015)02-0063-07
10.13365/j.jirm.2015.02.063
2014-07-10)