• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于微博數據采集的Web信息集成系統(tǒng)研究

    2016-04-12 00:00:00馬凱
    現(xiàn)代電子技術 2016年11期

    摘 要: 使用模塊化構建了一種特定領域的Web信息集成系統(tǒng),設計實現(xiàn)一種基于領域關鍵詞的新聞、微博數據采集處理系統(tǒng),通過用戶提供的關鍵詞,結合人工篩選進行關鍵詞擴展,對全網相關新聞、微博數據進行采集與抽取。設計實現(xiàn)了一種基于關鍵詞和轉發(fā)數的新聞排序方法,對特定領域采集的新聞數據進行處理排序,遴選重要信息進行定向推送。以氣候變化領域為例,設計了Web信息集成系統(tǒng)。

    關鍵詞: Web信息集成; 微博數據采集; 氣候變化; 信息推送

    中圖分類號: TN919?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)11?0125?04

    Abstract: A Web information integration system for a specific field was constructed with modularization. A data acquisition and processing system of news and microblog based on field keywords was designed and implemented, which can acquire and extract the related news of the whole network and microblog data in combination with the keywords provided by the user and keywords extension with manual screening. A news sorting method based on keywords and forwarding quantity was designed and implemented to sort the news data acquired in a specific field and select the important information for pushing directionally. The Web information integration system was designed by taking the field of climate change as an example.

    Keywords: Web information integration; microblog data acquisition; climate change; information push

    0 引 言

    近幾年,伴隨著Web信息的急劇膨脹,Web信息集成技術引起研究者的研究興趣,在Web信息集成上進行了大量研究工作,取得了一定成果,但是Web信息集成仍然處于發(fā)展階段,在設計實現(xiàn)自動化程度高、智能化Web信息集成系統(tǒng)上仍有很多關鍵困難沒有克服。本文研究的特定領域Web信息集成系統(tǒng)是針對某一領域Web信息的深度挖掘,將Web領域相關的新聞、微博數據采集下來進行集成,為領域學者、用戶提供信息支持。

    1 特定領域的Web信息集成系統(tǒng)設計

    1.1 特定領域的Web信息集成系統(tǒng)

    Web信息集成系統(tǒng)將Web上分散、異構、自治站點上的數據信息綜合在一起,屏蔽一切數據源細節(jié),只將用戶查詢的信息以統(tǒng)一格式返回給用戶。

    在設計特定領域Web信息集成系統(tǒng)時,首先要分析用戶對信息集成系統(tǒng)需求。用戶關注某一領域,掌握這一領域內比較重要的Web站點,同時基于對該領域的研究,用戶能夠用一些領域本體關鍵詞來描述這一領域的研究重點、新聞焦點、微博熱點等。圖1描述了用戶與特定領域Web信息集成系統(tǒng)的相互需求關系。

    再進一步提煉Web信息集成系統(tǒng)內部的方法流程,輸入關鍵詞與目標站點,輸出則為三種方式的信息推送,具體方法流程如圖2所示。

    1.2 系統(tǒng)結構

    本文在構建特定領域Web信息集成系統(tǒng)時,為降低系統(tǒng)設計的復雜性,采用模塊化程序設計思想。特定領域Web信息集成系統(tǒng)采用基于上述模塊化程序設計思想進行設計,將整個系統(tǒng)劃分為四個子模塊:用戶模塊、系統(tǒng)預處理模塊、數據采集與處理模塊、展示推送模塊。根據各個模塊功能不同,每個模塊又包含一個或多個子流程。其詳細系統(tǒng)功能結構如圖3所示。

    2 關鍵技術

    2.1 新聞類Web信息數據采集

    領域相關的新聞類信息數據主要來自由用戶提供的目標Web站點,以基于關鍵詞的全網新聞采集系統(tǒng)采集的新聞為增量輔助數據。特定領域Web信息集成系統(tǒng)的爬蟲負責下載領域相關的新聞網頁源碼。主要是從系統(tǒng)維護的URL序列中有序取出URL,獲取相應網頁HTML源碼,抽取其中的有用信息并存入數據庫。

    2.2 Web微博信息數據的采集處理

    通過對國內微博平臺調研,選取了市場占有率最大的新浪微博作為特定領域Web信息集成系統(tǒng)的微博中文數據源,國外微博輿情則選定Twitter。圖4以新浪微博為例闡述本文提出的信息數據采集抽取方法。

    2.3 數據處理

    (1) 數據去重處理

    由于面對全網信息采集,不可避免遇到數據重復問題。分析重復信息得出主要重復數據來源:一是同一新聞存在同一站點的不同板塊,采集系統(tǒng)下載兩次或兩次以上;二是相同新聞內容在不同Web站點均有發(fā)布或轉載,而且新聞內容變化不大。

    針對上述情況設計了系統(tǒng)采集時去重和采集后離線數據去重兩個模塊。采集時去重模塊主要是針對相同新聞且URL地址也相同的情況。針對第二種情況,在系統(tǒng)實現(xiàn)上采用基于句子的Simhash去重算法。

    (2) 數據過濾處理

    在數據處理時需要對已經保存在數據庫中的信息進行過濾處理,去除無關信息。過濾方法對于微博內容中包含用戶領域關鍵詞,則認為是領域相關的微博,如果不包含,則刪除該條微博信息。

    (3) 數據排序處理

    新聞類Web信息數據排序原則是按照新聞內容領域相關性、時效性、內容重要性進行的綜合排序。

    ① 計算該條新聞內容的領域相關性權值。在數據處理前,對領域關鍵詞賦予相應的權值然后對新聞內容進行分詞,并與領域關鍵詞進行匹配,統(tǒng)計匹配領域關鍵詞及其頻率計算內容相關性權值:

    ② 以該條新聞轉發(fā)數為重要依據,計算新聞重要性權值。

    ③ 經過以上兩步獲得了每一條新聞相關性、重要性權值,再結合新聞時效性便可以對數據庫中新聞數據進行很好的排序。

    針對微博信息熱點推薦,設計并實現(xiàn)了一種改進的短文本主題發(fā)現(xiàn)方法。該方法滿足大量微博數據的處理以及微博的傳播特性,首先基于馬爾科夫模型(Hideen Markov Model)進行新詞發(fā)現(xiàn)。然后利用新詞發(fā)現(xiàn)結果構建LDA模型,實現(xiàn)微博熱點挖掘,最后結合微博發(fā)布時間、轉發(fā)數、評論數進行排序推薦。

    2.4 特定領域信息的監(jiān)控與自動更新模塊

    為應對新聞類網頁動態(tài)性較強,數據更新頻率不固定這一問題,設計實現(xiàn)了新聞站點監(jiān)控與自動更新模塊。通過監(jiān)聽目標網址,建立該網址信息快照,設置更新間隔及增益、下次更新時間,具體流程信息如下:

    Step1:對目標新聞網站索引頁,從數據庫中讀取其網頁快照更新間隔增益下次更新時間

    Step2:通過對比系統(tǒng)當前時間與索引頁下次更新時間決定是否對索引頁進行更新檢查。如果系統(tǒng)當前時間未到索引頁下次更新時間則忽略該Web站點的更新檢查;如果當前時間已過下次更新時間則調用系統(tǒng)Web爬蟲,下載該索引頁網頁信息,獲取其當前網頁快照。

    Step3:對比當前網頁快照與數據庫中網頁快照,判斷該網頁是否更新。將第2步獲取的索引頁網頁快照與從數據庫讀出的上次網頁快照進行對比,如果兩個網頁快照完全一致,則說明該Web站點信息沒有更新;如果兩者不相同則說明該Web站點新聞信息已經更新,系統(tǒng)自動調用Web爬蟲將更新數據下載到數據庫中。

    Step4:經過第3步,可以判斷出網頁索引頁信息是否更新,之后需要把對應的更新時間間隔進行修正,并計算下次更新時間。對于沒有任何更新的Web站點,需要動態(tài)增大更新間隔下次更新時間采用下述表達式:

    上述監(jiān)控程序每隔一段時間訪問更新時間在當前時間之前的網址,與網頁快照比較判斷是否更新。采用對更新間隔時間進行動態(tài)增減值,能保證數據庫中更新時間間隔動態(tài)逼近真實的Web站點更新間隔,計算出的下次更新時間在其真實更新時間上下浮動。這樣Web信息集成系統(tǒng)可以按照預期的網站更新時間進行數據采集,合理利用有限資源,避免大量無關檢索操作,提高采集效率。

    2.5 特定領域的可視化及推送

    (1) 動態(tài)網站展示及郵件推送。通過網站展示,用戶可以直觀獲取集成后自己所需的新聞內容或感興趣的微博信息,但也存在局限性,用戶一旦離開PC,就難以獲取系統(tǒng)集成的信息。

    (2) 微信公眾號信息推送。微信公眾平臺在公眾號開發(fā)菜單的高級功能中為移動開發(fā)者提供了兩種微信公眾號模式:編輯模式和開發(fā)模式。啟用編輯模式的微信公眾號,管理員可以綜合用戶關心的問題及自身服務內容,進行對應的公眾號信息庫配置。開發(fā)模式則是騰訊推出的采用第三方服務器響應用戶請求的微信公眾號開發(fā)方式。

    3 Web信息集成系統(tǒng)實現(xiàn)及分析

    3.1 氣候變化Web信息集成系統(tǒng)

    氣候變化Web信息集成系統(tǒng)能夠根據用戶設置一組Web新聞站點的索引頁URL及氣候變化領域相關的關鍵詞詞集,系統(tǒng)能自動將目標站點的全部新聞信息下載并抽取出正文等信息,同時基于領域關鍵詞抓取微博上相關輿情信息,將這些氣候變化領域相關新聞、輿情信息存入本地數據庫,通過進一步數據分析處理,實現(xiàn)網站展示、郵件推送、微信公眾號推送。

    3.2 氣候變化Web信息集成系統(tǒng)設計及實現(xiàn)

    (1) 用戶模塊

    氣候變化Web信息集成系統(tǒng)的用戶模塊主要是氣候變化領域專家、學者提供一些目標網站的新聞索引頁。使有與氣候變化領域直接相關的Web數據源,確保抓取信息的準確性,避免了大量的Web信息判斷,領域專家同時提供一個氣候變化領域相關的關鍵詞詞集。

    (2) 預處理模塊

    在用戶模塊中專家提供的新聞索引頁、氣候變化領域關鍵詞詞集均為配置文件,系統(tǒng)在預處理模塊中將這些配置文件載入系統(tǒng),同時初始化數據庫、網站展示、郵件推送訂閱用戶列表等。在預處理階段,依據用戶提供的關鍵詞和用戶需求,可以針對性地擴大領域關鍵詞詞集,為后續(xù)數據采集與處理提供支持。

    (3) 數據采集與處理模塊

    ① Web 數據采集模塊

    氣候變化領域Web信息集成系統(tǒng)數據源分為新聞類數據源和微博數據源,其中新聞類Web數據源主要采用用戶定制方式指定領域相關的Web新聞站點,這樣保證新聞準確性、相關性。微博數據主要來源是新浪微博、Twitter,并將基于微博搜索引擎獲取的騰訊微博、搜狐微博作為微博數據補充。

    系統(tǒng)數據信息采集模塊包括了領域新聞采集、微博輿情信息采集模塊。其中領域新聞信息采集分為基于氣候變化領域相關的新聞Web 站點索引頁的新聞信息采集和基于氣候變化領域關鍵詞的全網新聞信息采集,通過索引頁識別和網頁翻頁模塊,采集抽取出新聞類網頁鏈接地址URLs,然后采取正文抽取方法進行正文信息采集,再生成正文Simhash指紋,并與數據庫中已下載數據Simhash指紋進行比較,判斷該新聞數據是否存在,如不存在則存入數據庫中。兩者主要區(qū)別是Web站點信息源不同,前者有學者、專家指定氣候變化領域新聞網站,后者依賴搜索引擎對氣候變化領域內的新聞信息進行全網檢索。后者主要作為前者信息的補充,同時通過關鍵詞擴展,對于新聞事件檢索有較好的效果。兩者在Web爬蟲采集過程中對新聞進行URL去重,過濾到重復的新聞信息。

    ② Web 數據處理模塊

    信息集成系統(tǒng)采集模塊采集大量氣候變化領域相關新聞、微博數據,存儲在本地數據庫中。雖然經過采集過程中URL去重和Simhash指紋算法去重,這些數據仍然需要進一步綜合處理,才能交于展示推送模塊,推送給用戶。氣候變化領域Web信息集成系統(tǒng)數據處理模塊包含的幾個子模塊如圖5所示。

    ③ 領域信息的監(jiān)控與自動更新模塊

    Web上站點信息更新時間各不相同,通過監(jiān)控與自動更新模塊,可以使系統(tǒng)調用采集模塊進行Web站點信息采集時間在對應站點信息更新時間的上下浮動,避免在目標站點更新周期內過于頻繁進行采集操作,造成不必要資源浪費。氣候變化領域Web信息集成系統(tǒng)運行以后,監(jiān)控與自動更新模塊在采集某一Web站點的索引頁時,為其建立網頁快照,并設置默認更新間隔T、增益K,同時根據當前時間和更新間隔計算出下次S,并將這些數據保存到庫下載任務表中。

    (4) 展示推送模塊

    為更好適應現(xiàn)代工作生活節(jié)奏,氣候變化領域Web信息集成系統(tǒng)在展示推送模塊設計上,采取多樣性展示推送方式。

    前臺網站展示,數據由本系統(tǒng)數據采集與處理模塊支持。網站將數據庫中信息,特別是新聞類信息依照分類模塊計算出的類別分版塊進行展示,適用PC用戶,方便獲取各種氣候變化領域信息。

    4 結 論

    本文設計了一種模塊化可定制可移植的特定領域Web信息集成系統(tǒng)框架,通過目標Web站點索引頁、領域關鍵詞等信息對系統(tǒng)進行定制,方便將系統(tǒng)遷移到不同領域,滿足不同用戶需求。在采集用戶設置目標站點的同時,系統(tǒng)能夠對全網領域相關新聞、微博數據進行采集與處理,將相關信息存入數據庫中,供展示推送模塊調用。在介紹系統(tǒng)設計的同時,闡述了各模塊實現(xiàn)技術及功能,并針對其中關鍵技術進行了研究,提出基于XPath的索引頁翻頁方法、一種通用新聞類網頁正文方法以及一種基于關鍵詞領域新聞數據、微博輿情信息的采集系統(tǒng)等。

    參考文獻

    [1] 吳斌杰,徐子瑋,虞飛華.基于 API 的微博信息采集系統(tǒng)設計與實現(xiàn)[J].電腦知識與技術,2013,9(17):4005?4008.

    [2] 孫青云,王俊峰,趙宗渠,等.一種基于模擬登錄的微博數據采集方案[J].計算機技術與發(fā)展,2014,24(3):6?10.

    [3] 張彥超,劉云,李勇,等.基于自動生成模板的Web信息抽取技術研究[J].北京交通大學學報,2009,33(5):40?45.

    [4] 歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法[J].清華大學學報(自然科學版),2005,45(z1):1743?1747.

    [5] 趙欣欣,索紅光,劉玉樹.基于標記窗的網頁正文信息提取方法[J].計算機應用研究,2007,24(3):144?145.

    [30] CAI D, YU S P, WEN J R, et al. VIPS: a vision?based page segmentation algorithm [R]. Redmond: Microsoft Corporation, 2003.

    [6] LAENDER A H F, RIBEIRO?NETO B A, DA SILVA A S, et al. A brief survey of Web data extraction tools [J]. ACM SIGMOD record, 2002, 31(2): 84?93.

    [7] FLESCA S, MANCO G, MASCIARI E, et al. Web wrapper induction: a brief survey [J]. AI communications, 2004, 17(2): 57?61.

    华坪县| 盐边县| 施秉县| 彭山县| 德州市| 桐柏县| 喀喇沁旗| 阿拉善盟| 绥宁县| 阿合奇县| 科尔| 尤溪县| 太谷县| 龙川县| 伊宁市| 扶余县| 卢湾区| 临湘市| 都江堰市| 昌吉市| 沈阳市| 肥东县| 大悟县| 鹤庆县| 漠河县| 七台河市| 南康市| 沙坪坝区| 西贡区| 无极县| 梅河口市| 苍南县| 岱山县| 乌拉特前旗| 铜鼓县| 依安县| 突泉县| 娱乐| 西昌市| 井冈山市| 同江市|