韓玉民 郭麗 張浩 張帥叢
摘? 要:文章研究了目前新聞類網站的發(fā)展現狀,指出了目前新聞網站不斷增長,“標題黨”、虛假信息泛濫,造成了不良的社會影響,通過新聞網站的可信度評估,幫助用戶辨別新聞的可信度。該文創(chuàng)建了新聞網站可信度評估指標體系,并提出了可信度評估指標的自動化識別方案,構建了網站可信度評估模型。通過對南方周末、騰訊、搜狐、新浪和網易五個網站的新聞頁面抽樣測試,取得了良好的結果。
關鍵詞:網站可信度;評價指標;評價模型;自然語言處理
Abstract:This paper studies the current situation of the development of news websites,points out that the continuous growth of news websites,the proliferation of forum spammer and false information,has caused adverse social impact,through the credibility evaluation of news websites,to help users identify the credibility of news. In this paper,the credibility evaluation index system of news website is established,and the automatic recognition scheme of credibility evaluation index is proposed,and the website credibility evaluation model is constructed. Through the South Weekend,Tencent,Sohu,Sina,Netease five websites news page sampling test,and achieved good results.
Keywords:website credibility;evaluating indicator;evaluation model;natural language processing
0? 引? 言
中國互聯(lián)網絡信息中心(CNNIC)《2016年中國互聯(lián)網新聞市場研究報告》[1]顯示,截至2016年6月,互聯(lián)網新聞市場用戶規(guī)模達到5.79億,其中手機端網絡新聞用戶規(guī)模為5.18億,占移動網民的78.9%,互聯(lián)網新聞已成為網民高頻使用的基礎類網絡應用。
互聯(lián)網新聞產業(yè)鏈日漸完善,在新聞生產、渠道分發(fā)環(huán)節(jié)都形成了相對成熟的發(fā)展機制,市場監(jiān)管日益完善,參與主體日趨多元。然而,用戶對網絡新聞深度關注偏低,三成網絡新聞用戶只看首屏新聞和標題。一方面由于社交媒體與信息膨脹不斷分散用戶注意力,深度閱讀和思考正變得日益困難;另一方面,網絡新聞質量仍亟待提升,部分網絡媒體利用虛假新聞,通過“標題黨”方式提升點擊率,降低了網絡新聞水準和內容質量,并且對新聞真實性的質疑意識需提升,超六成網絡新聞用戶轉發(fā)新聞前不會考慮新聞是否真實。
中原工學院軟件學院與河南廣播電視臺針對如何判斷和評價互聯(lián)網上信息的有效性進行了相關分析與研究,針對目前大數據時代的互聯(lián)網,設計了一種互聯(lián)網信息質量評估模型和標準。
從互聯(lián)網發(fā)展的角度來看,從“網站可信度”角度為互聯(lián)網信息質量評價提供一種新的更客觀的評價模型和方法;有助于凈化互聯(lián)網環(huán)境,使互聯(lián)網健康有序發(fā)展;指導互聯(lián)網信息提供者改進信息平臺建設,提高信息有效性和信息平臺質量。
在信息化高度發(fā)展的時代,搜索引擎僅對網頁進行評價排序有很大的局限性。網頁可信度從某個頁面的內容的可讀性以及與用戶當前搜索目的是否相符的角度出發(fā)進行分析,卻并未考慮信息的真實性。所以需要從網站整體的可信度出發(fā),分析站內網頁可信度的均值,讓網民了解站內網頁的可信度等級,減少網民因不考慮新聞真實性隨手轉發(fā)的行為導致的虛假新聞的進一步傳播。
1? 研究現狀
隨著Web2.0的發(fā)展,網站的不斷增加,使得網站的分類也越來越細,例如新聞網站除了基于傳統(tǒng)媒體如新聞報刊構建的網站,如人民日報、南方周末、法制日報等,也涌現出了很多純新媒體的新聞名站,如新浪新聞、騰訊新聞、網易新聞等,甚至還出現了一些地方媒體,及綜合類信息網站。根據統(tǒng)計,目前新聞類的網站,被hao123網站收錄就有1 211個,分成5大類,如表1所示。
其中,騰訊基于多年新聞門戶網站積累,同時依托QQ、微信等社交媒體強大的渠道優(yōu)勢穩(wěn)居首位;今日頭條則利用算法技術為用戶提供個性化的新聞資訊推薦,形成差異化優(yōu)勢并超越多數門戶網站。
CNNIC調查發(fā)現,新聞綜合網站和傳統(tǒng)新聞網站目前占有市場主要地位,其中新聞綜合網站具備更強流量優(yōu)勢,知名媒體網站公信力更勝一籌。所以,網站在不同的對比指標上,其可信度不同。事實上,信息可信度的研究在19世紀就開始了,信息的可信度的范圍很廣,根據研究者的研究點不同、研究對象不同給出了不同的可信度的概念。通常將可信度定義為客觀性、可靠性、準確性、真實性、公正性。大量學者在不同的類型的站點上,從不同的分析角度進行了研究。
秦艷華[2]針對電子商務網站進行分析,將電子商務網站的可信度定義為競爭力指數,并建立了對應的指標體系,提出一種基于FOA優(yōu)化BP神經網絡的電子商務網站評價模型。馬海燕[3]采用可用性工程理論及其方法對微博網站進行可用性測試,建立改進的適用于微博網站的啟發(fā)式評價準則,結合用戶測試法,對微博網站進行啟發(fā)式評價。李森[4]等人基于用戶體驗的角度,從網站的設計和網站的操作易用性方面建立了評價指標體系。何怡超[5]等人在分析新聞網站的排名時,使用了基于層次分析發(fā)對新聞網站進行了評價,評價指標選擇的是Alexa、PR值以及站長工具所提供的流量數據,這也是目前對新聞網站評價的通常做法。
然而考慮到各大網站用戶規(guī)模不同、影響力不同,本文提出一種綜合考慮網頁內容質量、網站影響力和用戶體驗三部分的評價模型。
2? 分析方法與過程
網站的可信度分析模型的建立,主要是通過設置若干評價指標,并獲得各個網站在這些指標上的評分。本文提出的新聞網站可信度分析方法包括信息抽取、指標分析、可信度評估三個模塊,如圖1所示。
本文在設計網站可信度評估模型時,通過數據采集獲得當前要進行評價的網站的抽樣網頁的集合;通過對網頁的信息和特征,獲得網站的內容質量和用戶體驗指標的均值;通過站長工具抓取網站的綜合實力信息。綜合分析各指標評分后,建立網站的可信度評估模型。
2.1? 建立評價指標
本文從內容質量、網站影響力和用戶體驗三個維度,將資訊類網站的可信度評價指標分為三大類,每個大類下的細化指標如表2所示。
2.2? 評價指標分析
一級指標A1與A2都需要對抽取的Web網頁信息進行分析,例如,南方周末的“http://www.infzm.com/contents/17 9694”網頁所示的新聞內容分析如圖2所示。一級指標A3的數據則通過站長工具進行直接請求獲取。將每一項具體的二級指標進行打分。
2.2.1? 用戶體驗
評價指標B1、B2、B3通過提取頁面中圖片、視頻、超鏈接三類超媒體元素,獲取對應的鏈接路徑。通過對鏈接路徑的分析,將其標注為“站內頁面”“站外頁面”。并分析超媒體是否增加內容說明,如“alt”屬性,及其與網頁主題的相關度,其中Bi是對應指標得分,Wi是指標i的權重。
2.2.2? 內容質量
在網頁質量上本文主要考慮兩個指標:主題相關度和內容真實性。兩個指標的分析都需要借助于自然語言處理相關的算法來實現。
評價指標B4代表的主題相關度主要為了識別當前頁面是否存在“標題黨”行為。本文通過對網頁正文識別高頻詞,再利用高頻詞與網頁標題的相似度對指標B4進行評分。
評價指標B5代表頁面內容的真實性,本文主要通過用戶評論對真實性進行分析。新聞評論與電子商務評論不同,不存在評分,只有自然語言的評語,所以本文借助于情感分析,使用SVM模型對評論進行真實性分析。
2.2.3? 網站影響力
評價指標A3中的所有二級指標都是站長工具提供的信息,信息是針對整站統(tǒng)計,并且能夠保證該部分信息的公正有效。首先獲取站長工具內“新聞/報紙”目錄下全部的網站的B6~B10指標信息。然后針對具體的站點對指標數據進行歸一化處理。
3? 網站可信度評估模型
不同的評價指標在網站可信度方面的重要程度不一樣,用戶會更加注重內容質量和內容的真實性。另外網站的綜合影響力、用戶量、訪問量等也間接地說明了網站的可信度。而網站在用戶體驗上也在一定程度上說明了網站的專業(yè)性,反映了是更加注重新聞事實的傳播,還是商業(yè)目的更強。本文將不同的評價指標定義對應的權值,表達指標的重要程度,如表3所示。
接下來建立單層次分析法模型,目標C是當前待測試網站的可信度,隸屬C的評價指標分別是A1、A2、A3。構造各個指標兩兩比較的判斷矩陣A如下。
其中Aij指矩陣A的第i行,第j列的元素值,該值代表兩個指標之間的重要程度對比,含義如表4所示。
計算判斷矩陣A的最大特征根λmax和其對應經過歸一化的特征向量W=(W1,W2,W3)T。
采用方根法求解W′=(0.251,3.000,1.326),歸一化后的最終特征向量W=(0.055,0.655,0.290),由此可求得A的最大特征根λmax=3.078。
4? 實驗數據
本文選取具有代表性的5個資訊網站進行測試。首先抓取新浪、網易、搜狐、騰訊和南方周末的網頁作為測試數據集,確保網頁類型的覆蓋面全,對每個網站進行抽樣,對共計20*5個頁面進行分析。具體測試數據分布如表5所示。
采用本文第3小節(jié)內提出的評價維度與分析方法對上述站點內采集的測試頁面進行分析,最終得到的判斷矩陣如下:
(1)在用戶體驗上,網站S1~S5兩兩比較的判斷矩陣為:
(2)在內容質量上,網站S1~S5兩兩比較的判斷矩陣為:
(3)在綜合影響力上,網站S1~S5兩兩比較的判斷矩陣為:
得到最終的網站的權重如表6所示。通過權重的對比可以看出,經過本文的可信度模型計算得到的結果,可信度由高到低為南方周末、騰訊、搜狐、新浪、網易。
5? 結? 論
由實驗數據可見,通過本文提出的可信度模型算法統(tǒng)計出的結果與CNNIC調查結果幾乎一致。在可信度上人們更傾向于報紙雜志類的專業(yè)網站,該結果與一些統(tǒng)計工具結果有差異,更多考慮的是信息的真實性。
本文在進行分析時,沒有考慮更細致的網站分類。事實上,不同的網站在不同的類別中具有的可信度是不一樣的,例如在體育新聞中,新浪網的可信度就更高一些。所以在后續(xù)的研究中,將會針對更具體的新聞分類進行可信度計算方法研究。
參考文獻:
[1] 中國互聯(lián)網絡信息中心.2016年中國互聯(lián)網新聞市場研究報告 [R/OL].(2017-01-11).http://www.cnnic.cn/hlwfzyj/hlwxzbg/mtbg/201701/P020170112309068736023.pdf.
[2] 秦艷華.基于FOA優(yōu)化BP神經網絡的電子商務網站評價研究 [J].四川理工學院學報(自然科學版),2015,28(6):36-41.
[3] 馬海燕.基于可用性工程的微博網站評價方法研究 [D].北京:首都經濟貿易大學,2013.
[4] 李森,夏靜,劉瑋琳,等.基于用戶體驗的B2C電子商務網站評價研究 [J].工業(yè)工程與管理,2012,17(6):97-100.
[5] 何怡超,劉邈,宋乙程,等.基于層次分析法的新聞網站評價 [J].教育教學論壇,2016(20):66-67.
作者簡介:韓玉民(1963—),男,漢族,河南淇縣人,副院長,副教授,本科,學士學位,研究方向:云計算、大數據技術。