• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      針對互聯(lián)網(wǎng)數(shù)據(jù)的新聞轉(zhuǎn)載引用分析

      2017-12-25 02:25:12陳辛夷
      中國傳媒科技 2017年11期
      關鍵詞:網(wǎng)頁文本算法

      文/陳辛夷 陳 珺 王 熠

      針對互聯(lián)網(wǎng)數(shù)據(jù)的新聞轉(zhuǎn)載引用分析

      文/陳辛夷 陳 珺 王 熠

      互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化,分析新聞在不同渠道媒體采用和傳播情況是構建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。然而,由于互聯(lián)網(wǎng)和新媒體數(shù)據(jù)格式不規(guī)范、轉(zhuǎn)載和引用不注明來源等問題,新媒體的新聞轉(zhuǎn)載引用分析難度大。本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等新聞數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶。利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎。文中介紹了新聞轉(zhuǎn)載引用分析的工作原理和建設意義,對關鍵技術實現(xiàn)進行了深入研究,在此基礎上提出了新聞轉(zhuǎn)載引用分析未來的發(fā)展建議。

      新聞轉(zhuǎn)載引用;文本相似度大數(shù)據(jù);Hadoop Spark

      引言

      互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化。如何利用智能分析技術,在互聯(lián)網(wǎng)大數(shù)據(jù)中定位和跟蹤新聞轉(zhuǎn)載和引用的信息,及時反映新聞被國內(nèi)外媒體采用的情況,是構建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。

      本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶,利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎。

      1. 新聞轉(zhuǎn)載引用分析概念

      新聞轉(zhuǎn)載引用分析是針對一篇原創(chuàng)新聞,通過一系列技術手段分析海量實時的互聯(lián)網(wǎng)大數(shù)據(jù),識別出其中轉(zhuǎn)載和引用該新聞的媒體。

      轉(zhuǎn)載指報刊或網(wǎng)站等媒體上發(fā)布其他媒體已經(jīng)發(fā)表過的新聞。在對內(nèi)報道中,新聞被媒體全文轉(zhuǎn)載的情況比較常見。

      顯性轉(zhuǎn)載引用指報刊或網(wǎng)站在轉(zhuǎn)載或引用時注明轉(zhuǎn)載或引用媒體的情況。一種情況是在轉(zhuǎn)載時保留電頭;另一種情況是在引用時指明“據(jù)某媒體報道”。

      隱性轉(zhuǎn)載引用在新聞的轉(zhuǎn)載引用中存在文章中不注明來源的情況,稱為隱性轉(zhuǎn)載或引用。與顯性轉(zhuǎn)載引用相比,隱性轉(zhuǎn)載引用的識別難度更大。隨著互聯(lián)網(wǎng)技術的發(fā)展,各種新媒體不斷涌現(xiàn),在拓展傳播邊界的同時也存在著轉(zhuǎn)載不規(guī)范的問題。

      2. 新聞轉(zhuǎn)載引用分析的意義

      通過分析新聞在中英文網(wǎng)站、電子報紙、微信和移動客戶端的轉(zhuǎn)載和引用情況,標記引用的段落和句子,識別采用媒體、采用時間和采用的版面等信息,可以及時追蹤和分析新聞被全媒體采用的情況,進而可以統(tǒng)計和評估采編人員的工作成果,并對稿件的傳播效果進行分析,為指導進一步提高新聞傳播影響力提供數(shù)據(jù)支持。

      3. 新聞轉(zhuǎn)載引用分析工作原理

      本文提出一種基于文本語義對比進行新聞轉(zhuǎn)載引用分析的技術,主要包含新聞特征提取、相似新聞聚類、新聞轉(zhuǎn)載引用關系判定、結果校驗幾個步驟。

      新聞特征提?。翰捎镁W(wǎng)頁信息抽取技術提取互聯(lián)網(wǎng)新聞數(shù)據(jù)特征。對每篇稿件,通過分析網(wǎng)頁的結構,使用機器學習與規(guī)則相融合的算法抽取出該新聞的發(fā)布時間。

      相似新聞聚類:使用相似簇劃分算法對采集的互聯(lián)網(wǎng)新聞數(shù)據(jù)按照語義相似度進行劃分,每個相似簇內(nèi)部的新聞都是語義相似的,這些新聞數(shù)據(jù)之間可能存在隱式轉(zhuǎn)載的關系。

      新聞轉(zhuǎn)載引用關系判定:綜合相似簇內(nèi)新聞間的相似度和新聞的發(fā)布時間等信息,根據(jù)經(jīng)驗判定閾值,對新聞的轉(zhuǎn)載引用關系進行分析判定,得出新聞間的轉(zhuǎn)載引用關系。

      結果校驗:對判定結果進行再次校驗。

      4. 新聞轉(zhuǎn)載引用分析技術原理

      系統(tǒng)總體數(shù)據(jù)處理架構如圖1所示。主要架構設計思路和數(shù)據(jù)處理過程分為以下幾個部分:

      數(shù)據(jù)引進層:通過大規(guī)模數(shù)據(jù)采集和第三方引入的互聯(lián)網(wǎng)新聞數(shù)據(jù),首先使用Redis進行排重,然后進行數(shù)據(jù)的預處理及ETL,形成規(guī)則數(shù)據(jù),得到結構化數(shù)據(jù)。

      任務調(diào)度層:基于Kafka分布式消息隊列,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的接入和緩沖。對Kafka消息隊列里的數(shù)據(jù)結合實時Spark Steaming流式計算和離線大規(guī)模M/R計算框架進行新聞轉(zhuǎn)載引用分析。

      數(shù)據(jù)存儲層:面對海量新聞數(shù)據(jù),分布式存儲可以實現(xiàn)高效的業(yè)務邏輯運算、可伸縮的存儲部署策略和高可用的冗余式存儲。MySQL作為轉(zhuǎn)載引用統(tǒng)計結果的基礎存儲數(shù)據(jù)庫,負責數(shù)據(jù)模型的定義與數(shù)據(jù)積累,但不對外提供復雜的查詢服務。ElasticSearch首先作為MySQL核心業(yè)務表的鏡像進行數(shù)據(jù)同步,同時實現(xiàn)多表關聯(lián)和數(shù)據(jù)冗余,提升查詢性能。其次,作為數(shù)據(jù)服務業(yè)務的實時服務端,提供數(shù)據(jù)服務的在線查詢。Hive作為數(shù)據(jù)服務的離線服務端,提供離線的大規(guī)模數(shù)據(jù)查詢分析服務。FastDFS作為離散文件的存儲系統(tǒng),提供圖片、PDF和報告Excel文件的存儲管理。

      集成服務層:針對業(yè)務需求,依托服務總線技術將底層數(shù)據(jù)通過靈活多樣的查詢和數(shù)據(jù)提取邏輯發(fā)布至上層服務接口,實現(xiàn)對外的通用服務接口。基于Zookeeper和Dubbo實現(xiàn)服務總線,統(tǒng)一協(xié)調(diào)調(diào)度,統(tǒng)一配置管理。

      圖1 系統(tǒng)數(shù)據(jù)處理架構設計

      5. 新聞轉(zhuǎn)載引用分析關鍵技術

      5.1 網(wǎng)頁信息抽取

      從網(wǎng)頁源碼中解析內(nèi)容信息,傳統(tǒng)的方法一般會采用遞歸解析子標簽的方式,逐一獲取標簽內(nèi)容。但在實際應用中,該方式在解析復雜的網(wǎng)頁源碼時,復雜度過高,消耗的資源過大。為解決這種問題,本文設計網(wǎng)頁內(nèi)容解析算法,采用XPATH技術與網(wǎng)頁結構樹遞歸解析結合的方式抽取網(wǎng)頁內(nèi)容。XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,它提供在數(shù)據(jù)結構樹中找尋節(jié)點的能力。

      網(wǎng)頁的主體內(nèi)容信息一般都在特定的HTML標簽或者其子標簽下,本算法先通過XPATH技術獲取網(wǎng)頁中的主體正文塊,對于每一個正文塊,構造網(wǎng)頁結構樹,在結構樹上以遞歸的方式遍歷全部的標簽。在遞歸處理過程中,以標簽全路徑來記錄遍歷過的路徑,避免標簽被重復解析。在算法遍歷的過程中,可以獲取網(wǎng)頁所包含的標題、正文、網(wǎng)頁鏈接、來源、發(fā)布時間等信息。

      5.2 文本相似度比對

      使用文本相似度比對算法,將文本劃分為不同的相似簇。本文使用經(jīng)典的VSM(向量空間模型)與Bag of Words(BOW)作為文檔表示模型,該模型的基本思想是將文檔分為若干的特征項,通過對特征項權重的量化計算進而將整個文檔用一特征項的權重為分量的向量來表示,在將文檔用特征向量的方式表示為數(shù)學模型后,再基于特征向量進行文檔間的相似度計算。使用TF-IDF算法作為特征項的權重值。文本相似度計算的流程如圖2所示。

      圖2 文本相似度計算處理流程圖

      在文本相似性比對算法中,文本相似度量算法扮演了重要的角色,常用的相似度度量方法有:皮爾遜相關系數(shù)(Pearson Correlation Coefficient ,PCC)、余弦相似度(Cosine Similarity)、歐幾里得相似度(Euclidean Similarity)等,經(jīng)對比發(fā)現(xiàn),皮爾遜相關系數(shù)更適合本算法。皮爾遜相關系數(shù)是計算兩個向量線性相關度的一個指標,其計算公式如下:

      5.3 新聞轉(zhuǎn)載引用關系構建

      基于文本相似簇,再利用網(wǎng)頁新聞的來源、發(fā)布時間等信息,實現(xiàn)轉(zhuǎn)載引用網(wǎng)絡的構建。本文使用了圖數(shù)據(jù)庫構建與存儲轉(zhuǎn)載引用網(wǎng)絡,支持數(shù)據(jù)的動態(tài)更新和多級轉(zhuǎn)載引用關系的查詢。最終,利用網(wǎng)絡路徑追蹤技術,可以追溯每一篇新聞的轉(zhuǎn)載引用路徑,定位追蹤新聞的轉(zhuǎn)載引用情況。

      6. 相似文本簇劃分的具體技術實現(xiàn)

      針對不同的應用場景開發(fā)了兩套相似文本簇劃分系統(tǒng),分別是適合批處理的基于Hadoop平臺的相似文本簇劃分和適合實時計算的基于分布式內(nèi)存實時計算的相似文本簇劃分。

      6.1 基于Hadoop平臺的相似文本簇劃分

      Hadoop作為大數(shù)據(jù)處理領域最成熟的解決方案,其以分布式文件系統(tǒng)HDFS和分布式計算模型MapReduce為代表的技術在大數(shù)據(jù)批處理領域取得了很大的成功。此外Hadoop擁有完善的生態(tài)系統(tǒng),可以提供豐富的組件支持,本文使用了數(shù)據(jù)挖掘工具包Mahout中的一些算法,極大地簡化了處理的難度。

      6.2 基于分布式內(nèi)存實時計算的相似文本簇劃分

      基于分布式內(nèi)存實時計算的相似文本簇劃分系統(tǒng)主要針對一些對實時性要求比較高的場景。該系統(tǒng)可以實現(xiàn)亞秒級響應的數(shù)據(jù)處理,處理框架圖如圖3。

      圖3 基于分布式內(nèi)存實時計算的相似文本簇劃分處理框架圖

      7. 集成及測試效果

      經(jīng)過多輪測試和算法優(yōu)化,目前中文文字新聞轉(zhuǎn)載引用分析準確率達到95%以上,英文文字新聞轉(zhuǎn)載引用分析準確率達到90%以上。

      8. 面向互聯(lián)網(wǎng)大數(shù)據(jù)的新聞轉(zhuǎn)載引用分析的應用展望

      傳播路徑分析結合相似文本簇劃分對新聞的整個傳播路徑進行分析,找到傳播路徑中的關鍵媒體或新媒體賬戶。

      專題報道分析針對專題報道中的一組新聞進行轉(zhuǎn)載和引用分析,結合專題的時間、地域、事件發(fā)展過程等分析總結其中的傳播規(guī)律。

      輿論引導力分析在一個新聞事件的報道中,通過分析某一篇新聞前后的新聞報道,研究這篇新聞起到了怎樣的輿論引導作用,達成了怎樣的效果。

      結語

      2017年4月 ,系統(tǒng)上線試運行,提供全社采編人員實時查詢稿件在全媒體的采用情況,提供總社和分社新聞采編業(yè)務統(tǒng)計數(shù)據(jù)和新聞采編人員考核數(shù)據(jù)的基礎數(shù)據(jù),提供全社全媒體報道發(fā)稿、采用和互動情況的大屏展示,初步取得了較好的效果。隨著應用的不斷深入,采編人員和統(tǒng)計人員都對系統(tǒng)提出了新的要求。系統(tǒng)會繼續(xù)針對圖片視頻等多媒體稿件的采用分析、小語種稿件的采用分析等難點課題進行進一步研究。

      [1] Holden Karau等. Spark快速大數(shù)據(jù)分析[J].北京:人民郵電出版社,2015(10): 161-185.

      [2] Sean Owen等.Mahout實戰(zhàn)[J].北京:人民郵電出版社,2014(3):40-47.

      [3] Tom White.Hadoop權威指南[J]. 北京:清華大學出版社,2011年(7):160-174.

      TP392

      A

      1671-0134(2017)11-089-03

      10.19483/j.cnki.11-4653/n.2017.11.029

      指報刊或網(wǎng)站等媒體的文章中部分引用了其他媒體已經(jīng)發(fā)表過的新聞中的語句或信息。在對外報道中,海外媒體特別是國際主流媒體通常引用新聞中的一段或一句,或者將原文中的信息轉(zhuǎn)述表達。在新聞報道中,引用的場景一種是引述事實再展開深入報道;另一種是引述觀點進而闡述相同或相反的觀點。

      新華通訊社通信技術局)

      猜你喜歡
      網(wǎng)頁文本算法
      基于MapReduce的改進Eclat算法
      在808DA上文本顯示的改善
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于CSS的網(wǎng)頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      一種改進的整周模糊度去相關算法
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      红原县| 会宁县| 昭平县| 金塔县| 多伦县| 民乐县| 新乐市| 枞阳县| 依安县| 彭泽县| 工布江达县| 库车县| 望城县| 莒南县| 连平县| 福建省| 安义县| 循化| 夹江县| 桑日县| 邵武市| 鲜城| 专栏| 蒲城县| 徐州市| 尖扎县| 历史| 阳高县| 乌恰县| 巴彦淖尔市| 潞城市| 汉源县| 朝阳县| 深圳市| 石阡县| 满城县| 芒康县| 大庆市| 西峡县| 星座| 南靖县|