• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng)設(shè)計

      2021-07-30 07:57:46趙瑞丹朱旭
      電子設(shè)計工程 2021年14期
      關(guān)鍵詞:爬蟲網(wǎng)頁輿情

      趙瑞丹,朱旭

      (西安航空職業(yè)技術(shù)學院,陜西西安 710089)

      如今,互聯(lián)網(wǎng)已成為人們生活中不可或缺的一部分,特別是對于年輕一代的高校學生,其為人際交往以及資源獲取提供了重要渠道。但由于網(wǎng)絡(luò)的開放性與包容性,使得其中積極和負面的輿論信息均能夠在互聯(lián)網(wǎng)中迅速傳播,容易在辨別能力差的青年學生中造成較大影響[1-3]。網(wǎng)絡(luò)輿情具有發(fā)酵時間短、傳播速度快、影響范圍大等特點[4]。輿情尤其是負面輿情發(fā)生后,通常由于學校管理部門未能及時發(fā)現(xiàn)與處理,造成輿情持續(xù)發(fā)酵和擴散,引起廣大學生的質(zhì)疑及不滿,從而產(chǎn)生危機。為此,亟需建立一套能夠?qū)W(wǎng)絡(luò)輿情進行實時監(jiān)控與采集分析的智能化系統(tǒng)。

      針對上述提到的問題以及傳統(tǒng)輿情采集系統(tǒng)在采集效率與質(zhì)量上存在的不足,文中建立了基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng)。該系統(tǒng)選用了效率更高的主題網(wǎng)絡(luò)爬蟲和更符合設(shè)計需求的廣度優(yōu)先搜索策略,同時通過引入語義分析技術(shù)更優(yōu)地保證采集到的輿情信息質(zhì)量。系統(tǒng)性能測試結(jié)果表明,該系統(tǒng)能夠較好地進行互聯(lián)網(wǎng)中輿情信息的采集和數(shù)據(jù)存儲,為進一步進行輿情信息的分析處理提供了重要基礎(chǔ)。

      1 網(wǎng)絡(luò)爬蟲技術(shù)

      網(wǎng)絡(luò)爬蟲(Web crawler)是根據(jù)某種規(guī)則對互聯(lián)網(wǎng)上統(tǒng)一資源定位符(Uniform Resource Locator,URL)進行抓取的程序或腳本[5]。作為有效獲取網(wǎng)頁信息的工具,網(wǎng)絡(luò)爬蟲能夠為網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計提供關(guān)鍵的基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)處理操作平臺。

      網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)方式的不同,通常可分為兩種[6]:傳統(tǒng)網(wǎng)絡(luò)爬蟲和主題網(wǎng)絡(luò)爬蟲。

      1.1 傳統(tǒng)網(wǎng)絡(luò)爬蟲

      該類爬蟲在進行網(wǎng)頁抓取的過程中主要考慮廣泛的抓取范圍,而不考慮抓取結(jié)果與感興趣內(nèi)容的相似度[7]。傳統(tǒng)網(wǎng)絡(luò)爬蟲從給定的一個或多個種子URL開始獲取網(wǎng)頁,并從當前處理的頁面中解析出新的URL 放入待抓取隊列中。具體的工作流程如圖1所示[8-10]。

      圖1 傳統(tǒng)網(wǎng)絡(luò)爬蟲工作流程

      首先,根據(jù)設(shè)計需求獲取特定網(wǎng)站的URL 作為最初的爬取目標(種子URL);然后,將獲取到的種子URL 放入網(wǎng)絡(luò)爬蟲待抓取隊列中[11];隨后,通過域名解析的方式得到隊列中URL 的服務(wù)器網(wǎng)絡(luò)地址,并將該地址對應(yīng)的網(wǎng)頁數(shù)據(jù)存儲到數(shù)據(jù)庫中;最終,通過數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)得到新的URL 放入待抓取隊列中,循環(huán)上述過程,直到滿足系統(tǒng)設(shè)定的終止條件為止。

      隨著系統(tǒng)需要抓取網(wǎng)頁數(shù)量的不斷增加,傳統(tǒng)網(wǎng)絡(luò)爬蟲已較難滿足實際的系統(tǒng)開發(fā)需求。其弊端不僅是網(wǎng)頁信息抓取效率的低下,且抓取結(jié)果的質(zhì)量通常也較差[12]。上述問題,使得該類爬蟲無法滿足網(wǎng)絡(luò)輿情采集系統(tǒng)的需求。

      1.2 主題網(wǎng)絡(luò)爬蟲

      此類爬蟲也稱“聚焦網(wǎng)絡(luò)爬蟲”,是對傳統(tǒng)網(wǎng)絡(luò)爬蟲的一種改進,在其基礎(chǔ)上增加了URL 評價以及與感興趣內(nèi)容相似度(主題)的判斷[13]。其最主要的特點是抓取與主題相關(guān)性大的數(shù)據(jù)信息,具有明確目標與方向。主題網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)資源進行抓取的流程如圖2 所示。

      圖2 主題網(wǎng)絡(luò)爬蟲工作流程

      主題網(wǎng)絡(luò)爬蟲與傳統(tǒng)網(wǎng)絡(luò)爬蟲工作流程最大的不同是增加了“策略過濾URL”部分,該部分使得主題爬蟲能夠準確地抓取所需要的網(wǎng)絡(luò)資源[14]。主題爬蟲需要預(yù)先設(shè)定好URL 過濾規(guī)則,根據(jù)這一規(guī)則過濾與主題相關(guān)性較弱的URL 鏈接,從而最大程度上保證進入待爬取隊列的URL 為符合系統(tǒng)需要的鏈接。此外,通常還采用語義分析的方法對爬取網(wǎng)頁進行進一步過濾,保證抓取結(jié)果的質(zhì)量。

      與傳統(tǒng)網(wǎng)絡(luò)爬蟲更加注重網(wǎng)頁爬取的廣泛性相比,主題網(wǎng)絡(luò)爬蟲則更注重抓取結(jié)果與主題的相關(guān)性[15]。該類爬蟲為面向?qū)ο蟮馁Y源搜索提供了重要數(shù)據(jù),同時在效率和質(zhì)量上也表現(xiàn)更優(yōu),符合文中網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計需要。因此,文中也將采用該主題爬蟲技術(shù)進行后續(xù)的系統(tǒng)設(shè)計與開發(fā)。

      2 系統(tǒng)設(shè)計

      網(wǎng)絡(luò)爬蟲技術(shù)是輿情采集系統(tǒng)的關(guān)鍵部分,其最重要的作用就是通過不斷地抓取網(wǎng)頁,進而為后續(xù)的輿情監(jiān)控與分析提供大量的原始數(shù)據(jù)。該節(jié)主要介紹分析輿情采集系統(tǒng)的需求,以及基于需求所設(shè)計的采集系統(tǒng)總體框架和系統(tǒng)利用的關(guān)鍵技術(shù)。

      2.1 系統(tǒng)需求分析

      網(wǎng)絡(luò)輿情采集系統(tǒng)的主要功能為:按照實際需求從網(wǎng)絡(luò)上采集所需的輿情信息,為進一步地分析預(yù)處理提供重要的原始數(shù)據(jù)。因此,該系統(tǒng)的主要需求如下:

      1)用戶可以注冊登錄,同時根據(jù)登錄用戶的權(quán)限,提供不同的數(shù)據(jù)管理功能;

      2)具有網(wǎng)絡(luò)爬蟲的設(shè)置接口,能夠?qū)ΨN子URL、搜索策略等進行設(shè)置;

      3)網(wǎng)絡(luò)爬蟲采集到的網(wǎng)頁輿情數(shù)據(jù)及新的URL可以被存儲到數(shù)據(jù)庫中;

      4)擁有數(shù)據(jù)更新、過濾等機制。系統(tǒng)應(yīng)將數(shù)據(jù)采集與更新、過濾分開,建立專門的數(shù)據(jù)更新與過濾服務(wù)器,從而提高網(wǎng)絡(luò)爬蟲的信息抓取效率以及數(shù)據(jù)更新與過濾的時效性,為后續(xù)輿情信息的處理提供更多有價值的數(shù)據(jù)。

      2.2 系統(tǒng)總體框架設(shè)計

      1)系統(tǒng)總體結(jié)構(gòu)

      基于上述提到的系統(tǒng)開發(fā)需求,文中設(shè)計的基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng),如圖3所示。

      圖3 系統(tǒng)總體框架

      該系統(tǒng)從功能上可分為4 個模塊:Web 數(shù)據(jù)庫、URL 數(shù)據(jù)庫、服務(wù)器端及客戶端。其中,Web 數(shù)據(jù)庫用來存儲網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁數(shù)據(jù);URL 數(shù)據(jù)庫則用來存儲從網(wǎng)頁數(shù)據(jù)中所得到新的URL 鏈接,這些URL 會按照一定的順序放入網(wǎng)絡(luò)爬蟲的待抓取隊列中;服務(wù)器端是整個系統(tǒng)的核心部分,主要是進行數(shù)據(jù)的采集與處理,包括多個子模塊,如URL 調(diào)度、網(wǎng)頁數(shù)據(jù)采集、網(wǎng)頁解析、網(wǎng)頁去重及用戶管理等;客戶端主要是提供多種環(huán)境下的人機交互界面,包括網(wǎng)絡(luò)站點的管理、數(shù)據(jù)交互與網(wǎng)絡(luò)通信等。

      2)系統(tǒng)工作流程

      根據(jù)上述對輿情采集系統(tǒng)的分析以及結(jié)合主題網(wǎng)絡(luò)爬蟲的工作流程,文中設(shè)計開發(fā)的網(wǎng)絡(luò)輿情采集系統(tǒng)的具體工作流程,如圖4 所示。

      圖4 系統(tǒng)工作流程

      2.3 關(guān)鍵技術(shù)研究

      文中所設(shè)計的系統(tǒng)以主題網(wǎng)絡(luò)爬蟲作為驅(qū)動,同時也結(jié)合了語義分析、頁面相似度分析等技術(shù),該節(jié)主要對系統(tǒng)中用到的關(guān)鍵技術(shù)進行分析。

      1)搜索策略

      通常主題網(wǎng)絡(luò)爬蟲的搜索策略有廣度、深度及最佳3 種優(yōu)先搜索策略[16-18]。文中在充分考慮系統(tǒng)需求的情況下,選擇了廣度優(yōu)先搜索作為系統(tǒng)爬蟲進行網(wǎng)頁抓取的工作策略。廣度優(yōu)先搜索也稱為橫向優(yōu)先搜索或?qū)哟伪闅v,其基本思想是從初始節(jié)點出發(fā),以輻射狀的形式逐步遍歷周圍節(jié)點。以數(shù)據(jù)結(jié)構(gòu)中的“樹”為例,廣度優(yōu)先搜索的具體搜索過程可描述為:從樹的根節(jié)點出發(fā),沿著樹的寬度方向依次遍歷樹的各個節(jié)點,直到遍歷完所有節(jié)點或滿足終止條件為止。以圖5 為例,采用廣度優(yōu)先搜索策略的網(wǎng)絡(luò)爬蟲對網(wǎng)頁的抓取順序為A-B-CD-E-F-G-H。

      圖5 基于廣度優(yōu)先的搜索流程

      2)語義分析技術(shù)

      語義分析是自然語言處理(Natural Language Processing,NLP)中的核心部分,是指運用各種算法學習與理解一段文本所表示的語義內(nèi)容,包括詞法分析、句法分析、語用分析及語境分析等[19-20]。語義分析與主題網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合用于網(wǎng)頁文本數(shù)據(jù)的分析,能夠有效過濾網(wǎng)頁中與感興趣內(nèi)容無關(guān)的信息。該系統(tǒng)中利用語義分析中的向量空間模型(VSM)算法對采集到的網(wǎng)頁數(shù)據(jù)進行進一步過濾,以保證爬蟲網(wǎng)頁抓取結(jié)果的質(zhì)量。

      VSM 算法的核心思想是將獲取到的網(wǎng)頁文本信息映射到向量空間中,從而將復(fù)雜的文本語義分析轉(zhuǎn)化為向量運算,將語義相似性轉(zhuǎn)換為向量相似性。在對網(wǎng)頁信息的處理中,最常用的相似性度量方法即計算兩者之間的余弦距離。

      VSM 算法進行文本信息數(shù)據(jù)處理的流程如下:

      1)信息預(yù)處理,對主題網(wǎng)絡(luò)爬蟲爬取到的網(wǎng)頁數(shù)據(jù)進行中英文分詞,過濾掉其中包含的錯誤短語及停用詞。

      2)對第一步得到分詞結(jié)果中的關(guān)鍵詞進行選擇與加權(quán),同時統(tǒng)計該網(wǎng)頁各關(guān)鍵詞出現(xiàn)的次數(shù),計算相應(yīng)的頻率。

      3)將網(wǎng)頁信息處理為一個具有n個分量的網(wǎng)頁向量,同時向量中的每個分量為各關(guān)鍵詞在網(wǎng)頁中所占有的權(quán)重,權(quán)重的計算依賴于關(guān)鍵詞在整個網(wǎng)頁中出現(xiàn)的頻率情況。最終,計算向量相似度所用到的余弦距離數(shù)學表達式為:

      其中,Sim(D1,D2) 代表兩個網(wǎng)頁的相似度,其值處于0~1 之間,W1k則代表網(wǎng)頁第k個關(guān)鍵詞的權(quán)重。

      4)兩網(wǎng)頁信息數(shù)據(jù)越相似,其余弦距離的計算結(jié)果就越趨近于1。因此,可以通過設(shè)定合理的閾值實現(xiàn)對網(wǎng)頁的進一步過濾。

      3 系統(tǒng)測試

      為了驗證文中設(shè)計系統(tǒng)的有效性與可靠性,在完成對系統(tǒng)的搭建后,進行以下兩項試驗:系統(tǒng)功能試驗及系統(tǒng)性能試驗。其中,系統(tǒng)功能試驗主要是對文中系統(tǒng)所能實現(xiàn)的基礎(chǔ)功能進行測試,以此確定系統(tǒng)的各個功能能夠按設(shè)計需求正常使用;系統(tǒng)性能試驗則是對系統(tǒng)及數(shù)據(jù)的抓取性能進行測試,如抓取效率和質(zhì)量等。

      1)系統(tǒng)功能試驗

      該項試驗分兩部分進行:基本功能試驗及網(wǎng)絡(luò)輿情信息采集試驗?;竟δ茉囼灠ㄓ脩糇?、用戶登錄、用戶退出和用戶注銷,對應(yīng)的試驗結(jié)果如表1 所示。

      表1 系統(tǒng)基本功能試驗結(jié)果

      由表1 可以看出,該系統(tǒng)能夠較好地完成用戶注冊、登錄等功能,同時可以在新用戶登錄時提醒注冊,密碼錯誤時提醒用戶重新輸入或進入密碼找回流程。

      網(wǎng)絡(luò)輿情采集試驗主要通過黑盒測試的方法對預(yù)期功能進行試驗,包括輿情信息采集、數(shù)據(jù)庫管理等功能單元,試驗結(jié)果如表2 所示。該結(jié)果說明系統(tǒng)能夠按照需求進行網(wǎng)絡(luò)輿情信息的采集與管理,系統(tǒng)各項功能運行正常。

      表2 網(wǎng)絡(luò)輿情采集試驗結(jié)果

      2)系統(tǒng)性能試驗

      系統(tǒng)性能試驗包括VSM 算法網(wǎng)頁數(shù)據(jù)處理試驗、爬蟲網(wǎng)頁抓取效率和質(zhì)量試驗。其中,VSM 算法試驗主要驗證該算法對網(wǎng)絡(luò)爬蟲采集的輿情信息進行處理的可行性。在系統(tǒng)試驗的一周內(nèi),VSM 試驗結(jié)果如圖6 所示。其中曲線下方的面積代表經(jīng)VSM算法處理的輿情信息總數(shù),同時曲線也說明了主題網(wǎng)絡(luò)爬蟲所采集的網(wǎng)頁與主題的相關(guān)性均較高,基本均能達到0.5 以上。經(jīng)過VSM 處理后(設(shè)定合理閾值),能夠?qū)ο嗨菩缘偷木W(wǎng)頁進行進一步過濾,保證結(jié)果的質(zhì)量。

      圖6 VSM余弦值與采集網(wǎng)頁數(shù)的關(guān)系

      隨后進行爬蟲網(wǎng)頁輿情信息抓取效率試驗,測試了爬蟲抓取1 000、2 000、3 000 條輿情信息所用的時間及系統(tǒng)采集到的輿情信息與主題的平均相似度。試驗結(jié)果如表3 所示。由結(jié)果可以看出,系統(tǒng)的輿情信息采集速度平均在每條12 ms 左右,說明系統(tǒng)具有較高的采集效率。

      表3 爬蟲網(wǎng)頁抓取效率試驗結(jié)果

      最終是對采集到的輿情信息質(zhì)量進行試驗,測試其與主題的平均相似度。其中VSM 的閾值設(shè)置為0.75,計算得出的平均相似度為0.833,說明該系統(tǒng)具有較高的輿情信息采集質(zhì)量。

      4 結(jié)束語

      文中設(shè)計開發(fā)了一套基于網(wǎng)絡(luò)爬蟲技術(shù)與語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng),以滿足現(xiàn)代高校學生的輿情監(jiān)控分析需要。該系統(tǒng)在兩種爬蟲中選擇了在效率與質(zhì)量上表現(xiàn)更優(yōu)的主題網(wǎng)絡(luò)爬蟲,同時搜索策略選用應(yīng)用范圍廣泛的廣度優(yōu)先搜索算法。所設(shè)計的輿情采集系統(tǒng)主要包括Web 數(shù)據(jù)庫、URL 數(shù)據(jù)庫、服務(wù)器端及客戶端4 個模塊。系統(tǒng)功能試驗及系統(tǒng)性能試驗結(jié)果說明,該系統(tǒng)能夠在保證性能的情況下,完成系統(tǒng)的各項功能,驗證了系統(tǒng)的可行性與可靠性。

      猜你喜歡
      爬蟲網(wǎng)頁輿情
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      網(wǎng)頁制作在英語教學中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      民乐县| 安新县| 钦州市| 资中县| 绥宁县| 武安市| 濮阳县| 翁源县| 佛坪县| 鄂托克前旗| 曲松县| 太仆寺旗| 邵阳市| 乐亭县| 北宁市| 古浪县| 通榆县| 耒阳市| 绿春县| 景宁| 肇源县| 乌审旗| 柘荣县| 广汉市| 九龙坡区| 宝兴县| 泸定县| 昭平县| 巩义市| 旌德县| 肇州县| 驻马店市| 莱阳市| 宜黄县| 沂源县| 上高县| 时尚| 美姑县| 濮阳市| 广宁县| 北票市|