趙芬 雷珍臻 楊曉云 蘇鵬舉 王順曄
摘要:網(wǎng)絡(luò)輿情是社會(huì)輿情在互聯(lián)網(wǎng)空間的映射,是社會(huì)輿情的直接反映,可通過(guò)大量的數(shù)據(jù)集合,進(jìn)行輿情分析,大學(xué)生作為高等教育的主體,如何更好地了解學(xué)生的所思所想,成為高校教育不可或缺的一部分。本文通過(guò)爬蟲(chóng)技術(shù),在百度貼吧這個(gè)大學(xué)生聚集的社交平臺(tái)爬取交流數(shù)據(jù),通過(guò)對(duì)京津冀20所不同類(lèi)型的高校的論壇內(nèi)容進(jìn)行網(wǎng)絡(luò)輿情的情感分析,以方便高校管理部門(mén)更好地指導(dǎo)學(xué)生工作。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;百度貼吧;網(wǎng)絡(luò)爬蟲(chóng)
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)28-0227-03
Analysis on the Network Public Opinion of University students Based on Baidu Tieba
ZHAO Fen, LEI Zhen-zhen, YANG Xiao-yun, SU Peng-ju, WANG Shun-ye
(Langfang Normal University, Computer Technology Department, Langfang 065000, China)
Abstract: Network public opinion is the mapping of social public opinion in Internet. It relect the social public opinion directly. How to better understand what students think, becomes an indispensable part of higher education. Through crawler technology, this paper crawls the data from Baidu Tieba, a social platform gathered by university students. It makes an sentiment analysis of the network public opinion in Baidu Tieba which is from 20 different types of colleges and universities in Beijing, Tianjin and Hebei. It can facilitate the better management of colleges and universities students.
Key words: Network public opinion; Baidu Tieba; web crawler
1 概述
輿情是社會(huì)公眾對(duì)各類(lèi)現(xiàn)象問(wèn)題事件所表達(dá)的態(tài)度意見(jiàn)言論和情緒的綜合。隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)輿情作為輿情領(lǐng)域的新問(wèn)題備受關(guān)注。新時(shí)代大學(xué)生思想活躍,網(wǎng)民所占比例重,是各大社交平臺(tái)的主流群體。掌握學(xué)生網(wǎng)絡(luò)輿情對(duì)回應(yīng)高校學(xué)生訴求、化解高校矛盾、維護(hù)高校秩序和穩(wěn)定等發(fā)揮著巨大作用。在大數(shù)據(jù)環(huán)境下問(wèn)卷調(diào)查已不具普適性,信息處理、定量分析無(wú)疑是最佳方法。因此探討高校網(wǎng)絡(luò)輿情的監(jiān)測(cè)和引導(dǎo)問(wèn)題是必要的和科學(xué)的。
本文通過(guò)爬蟲(chóng)技術(shù),在百度貼吧這個(gè)大學(xué)生聚集的社交平臺(tái)爬取交流數(shù)據(jù),通過(guò)對(duì)京津冀20所不同類(lèi)型的高校的論壇內(nèi)容進(jìn)行網(wǎng)絡(luò)輿情的情感分析,以方便高校管理部門(mén)更好地指導(dǎo)學(xué)生工作。
2 大學(xué)生網(wǎng)絡(luò)輿情
2.1網(wǎng)絡(luò)輿情
隨著時(shí)代的慢慢推移,科學(xué)技術(shù)水平的飛速發(fā)展,網(wǎng)絡(luò)通信日漸發(fā)達(dá),互聯(lián)網(wǎng)已經(jīng)變成了日常生活中不可或缺的一部分,人們對(duì)于網(wǎng)絡(luò)信息的需求也越來(lái)越高,信息的過(guò)濾以及熱點(diǎn)話(huà)題的分析也變得越來(lái)越急需,其中網(wǎng)絡(luò)輿情分析也是其重要的一部分。網(wǎng)絡(luò)輿情是現(xiàn)今社會(huì)中網(wǎng)友對(duì)待熱點(diǎn)事件根據(jù)自身的感受以及社會(huì)現(xiàn)象等所顯示和展現(xiàn)出來(lái)的狀態(tài)以及意見(jiàn)。通過(guò)對(duì)網(wǎng)絡(luò)輿情的研究分析可以隨時(shí)了解到社會(huì)的各種現(xiàn)象,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)提取的數(shù)據(jù)信息,通過(guò)收集整理,可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情研究的精準(zhǔn)、準(zhǔn)時(shí)的獲取和判斷。網(wǎng)絡(luò)輿情現(xiàn)已成為各種公司、單位及社會(huì)部門(mén)預(yù)測(cè)以及監(jiān)控的重要部分。
2.2大學(xué)生網(wǎng)絡(luò)輿情
近年來(lái),互聯(lián)網(wǎng)已經(jīng)在高校中隨處可見(jiàn),但受其網(wǎng)絡(luò)的沖擊,校園文化、風(fēng)氣也得到了很大的打擊。百度貼吧作為網(wǎng)絡(luò)交流平臺(tái)中最受歡迎的一個(gè),因?yàn)槠浞奖?、快捷、及時(shí)的特點(diǎn),以及用戶(hù)的隱匿性和交互性,受到了廣大大學(xué)生的喜愛(ài),成為大學(xué)生最常用的網(wǎng)絡(luò)交流平臺(tái)之一,許多大學(xué)生都通過(guò)百度貼吧獲取信息或?qū)で髱椭鷣?lái)解決問(wèn)題。高校網(wǎng)絡(luò)輿情是老師、學(xué)生通過(guò)各種網(wǎng)絡(luò)平臺(tái)對(duì)學(xué)校的管理制度、意見(jiàn)觀(guān)點(diǎn),學(xué)校熱點(diǎn)話(huà)題,學(xué)校發(fā)展建議等做出的評(píng)價(jià)以及態(tài)度和情緒的集合。
3 網(wǎng)絡(luò)爬蟲(chóng)
3.1網(wǎng)絡(luò)爬蟲(chóng)定義
網(wǎng)絡(luò)爬蟲(chóng)[1],最簡(jiǎn)單地來(lái)講:將網(wǎng)頁(yè)中的數(shù)據(jù)放到本地計(jì)算機(jī)上,是一種自動(dòng)化瀏覽網(wǎng)頁(yè)的程序,可以將其看成一個(gè)隱形的沒(méi)有界面的簡(jiǎn)陋瀏覽器,爬蟲(chóng)為搜索引擎工作,作為搜索引擎的主要內(nèi)核程序,通過(guò)搜索引擎將網(wǎng)頁(yè)中的內(nèi)容下載到本地。首先獲取爬取信息的種子URL,通過(guò)分析網(wǎng)頁(yè)結(jié)構(gòu),實(shí)現(xiàn)網(wǎng)頁(yè)中數(shù)據(jù)的讀取,并將其內(nèi)容放置到本地計(jì)算機(jī)中,通過(guò)抓取網(wǎng)頁(yè)中的URL,源源不斷的將當(dāng)前網(wǎng)頁(yè)中的URL存儲(chǔ)到循環(huán)隊(duì)列中,實(shí)現(xiàn)一層層的抓取,當(dāng)把網(wǎng)站中的所有網(wǎng)頁(yè)抓取完成后,爬蟲(chóng)才算結(jié)束,如同在網(wǎng)絡(luò)上爬行的大蜘蛛,通過(guò)以上的原理可以將整個(gè)網(wǎng)絡(luò)上的所有網(wǎng)頁(yè)爬取下來(lái)。
爬蟲(chóng)技術(shù)[2]被很快用于搜索引擎或者其他相關(guān)網(wǎng)站,以便及時(shí)獲取數(shù)據(jù)網(wǎng)站的內(nèi)容以及其他數(shù)據(jù)。網(wǎng)絡(luò)爬蟲(chóng)可以通過(guò)設(shè)定自動(dòng)收集所有可訪(fǎng)問(wèn)網(wǎng)頁(yè)和其中的內(nèi)容,收集到的數(shù)據(jù)以供搜索引擎做進(jìn)一步處理,進(jìn)而使用戶(hù)可以在第一時(shí)間準(zhǔn)確獲得需要信息。
3.2網(wǎng)絡(luò)爬蟲(chóng)原理
網(wǎng)絡(luò)爬蟲(chóng)等同于瀏覽器,爬蟲(chóng)工作抓取網(wǎng)頁(yè)的過(guò)程也是在于對(duì) Request 和 Response 的處理。以瀏覽器渲染網(wǎng)頁(yè)的過(guò)程為例,當(dāng)用戶(hù)打開(kāi)某個(gè)網(wǎng)頁(yè)時(shí),瀏覽器將發(fā)起對(duì)目標(biāo)網(wǎng)址所在服務(wù)器的請(qǐng)求 Request,服務(wù)器則應(yīng)答請(qǐng)求,將網(wǎng)頁(yè)以特定格式 Response 返回給瀏覽器,響應(yīng)該請(qǐng)求后的瀏覽器會(huì)將網(wǎng)頁(yè)Response 反饋給瀏覽器,最終,在通過(guò)瀏覽器解析 Response中的格式把內(nèi)容顯示到屏幕上。
網(wǎng)絡(luò)爬蟲(chóng)流程分為下幾步[3]:
(1)首先根據(jù)自身信息需要選擇一部分種子URL。
(2)將以上種子URL放入U(xiǎn)RL隊(duì)列中,等待抓取。
(3)從URL的帶抓取隊(duì)列中取出帶抓取的URL,解析DNS,從而得到主機(jī)的ip,將對(duì)應(yīng)的URL網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。然后,把已經(jīng)抓取過(guò)的URL放入已抓取隊(duì)列中。
(4)分析URL已抓取隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列。
(5)以上工作完成之后,繼續(xù)循環(huán)此流程。
4實(shí)例分析
4.1數(shù)據(jù)準(zhǔn)備
百度貼吧的內(nèi)容需要爬蟲(chóng)自動(dòng)抓取,所以初始的URL要由人為定義,也就是根據(jù)用戶(hù)輸入的關(guān)鍵字來(lái)進(jìn)行提取相關(guān)URL,并且對(duì)于抓取到的內(nèi)容要進(jìn)行過(guò)濾,獲得自己需要的內(nèi)容,本論文利用html技術(shù)做了Web前端版爬蟲(chóng)界面,增加了爬蟲(chóng)的完整性,根據(jù)用戶(hù)輸入的關(guān)鍵字,爬取相關(guān)的數(shù)據(jù),并保存進(jìn)入數(shù)據(jù)庫(kù)。
本文借鑒相關(guān)問(wèn)題的研究方法[4],根據(jù)所做爬蟲(chóng)進(jìn)行數(shù)據(jù)采集,選取京津冀地區(qū)20 所高校,醫(yī)藥類(lèi)大學(xué) 2所、理工類(lèi)7 所、綜合類(lèi)5所、經(jīng)管類(lèi)1所、師范類(lèi) 5所,并且其中985、211類(lèi)院校6所、一本院校11所,二本院校3所。本論文在數(shù)據(jù)搜索方面,爬取20所高校的貼吧論壇的帖子共計(jì)10萬(wàn)的帖子,并將排名前50的帖子的帖子名稱(chēng)進(jìn)行排序,把每個(gè)帖子中的內(nèi)容爬取,進(jìn)行數(shù)據(jù)分析,并對(duì)發(fā)帖類(lèi)型和發(fā)帖數(shù)量進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
4.2數(shù)據(jù)分析
SinglePass[5]算法屬于聚類(lèi)算法,有著簡(jiǎn)單的工作原理,所有的文本數(shù)據(jù)都會(huì)進(jìn)行一次樣本分析,并一一對(duì)比,如果某文本數(shù)據(jù)和樣本數(shù)據(jù)匹配相似,便可歸為樣本數(shù)據(jù)的一類(lèi),如果某文本數(shù)據(jù)和樣本數(shù)據(jù)不匹配,就將該文本數(shù)據(jù)單獨(dú)劃分為一類(lèi)。
根據(jù)Single-pass算法,與文本相似度進(jìn)行重復(fù)匹配。在進(jìn)行數(shù)據(jù)重復(fù)率匹配之前,借用IKAnalyzer分詞工具包對(duì)所有評(píng)論內(nèi)容進(jìn)行分詞。
本文用分詞后的文本數(shù)據(jù)與文章進(jìn)行遍歷,計(jì)算出數(shù)據(jù)與評(píng)論報(bào)道的相似度,如果若相似度大于已知的相似度閾值,將此文本數(shù)據(jù)視為該話(huà)題,如果相似度小于已知相似度閾值,則不將此文數(shù)據(jù)視為該話(huà)題,通過(guò)對(duì)所有文本數(shù)據(jù)的遍歷,得到最終的文本話(huà)題集合。
根據(jù)表 2可以看出,20所大學(xué)前 50名的帖子主要集中在情感交流和信息分享,問(wèn)題求助的帖子緊隨其后。有關(guān)情緒發(fā)泄和評(píng)論意見(jiàn)的帖子在前 50名的帖子中占比很小,不到平均比例的10%??梢?jiàn)京津冀地區(qū)的20所高校,其中主要的貼吧帖子占情感以及信息分享額比例很大。大學(xué)生在百度貼吧中,通過(guò)發(fā)帖及互評(píng),發(fā)現(xiàn)和自己有共同理想和目標(biāo)的人,來(lái)進(jìn)行交友和情感拓展,在其中還有一部分帖子是尋找伴侶的帖子。信息分享在其中的占比很大,通過(guò)百度貼吧,尋找考研、雅思等學(xué)習(xí)資料以及經(jīng)驗(yàn),可見(jiàn)各高校對(duì)于學(xué)習(xí)還是有很大的動(dòng)力,考研、考雅已經(jīng)成為一種社會(huì)趨勢(shì)。
京津冀各高校分別隸屬京、津、冀,有“雙一流”“一本”“二本”高校,有理工類(lèi)高校、綜合類(lèi)高校、偏重師范的高校,在大學(xué)生論壇中反映出來(lái)的網(wǎng)絡(luò)輿情也不相同。
(1)情感交流貼中二本院校占的比例是所有高校中比例最高的,但從總體來(lái)看,除了極個(gè)別高校情感交流貼比例很小,和其他帖子相比還是偏高,情感交流帖子的數(shù)量明顯較多。其中情感交流貼較少的幾個(gè)高校,主要分布為理工科大學(xué)(女生少)、一本類(lèi)師范大學(xué)(男生),各個(gè)高校的男女學(xué)生,相比幾十年前的大學(xué)生,從思想上和生活方式上已經(jīng)開(kāi)放了很多,同學(xué)們通過(guò)百度貼吧,從中結(jié)交、認(rèn)識(shí)興趣愛(ài)好相同的人,男生也在此表達(dá)對(duì)女生的愛(ài)慕之情,現(xiàn)在已經(jīng)成為一種常態(tài)化的事情。
(2)信息分享帖相比所有高校中在一本和211、985院校中的比重是最大的,其中北京交通大學(xué)高達(dá)52%,可以看出現(xiàn)在高校學(xué)生對(duì)于信息的分享中百度貼吧是一個(gè)重要的載體,百度貼吧成為大學(xué)生主要交流、互動(dòng)、分享的平臺(tái),可以及時(shí)了解學(xué)校的公告動(dòng)態(tài),從信息分享的內(nèi)容中可以看出,20所高校的信息分享帖,其中60%以上都是關(guān)于研究生考試、資料以及經(jīng)驗(yàn)有關(guān),從這一點(diǎn)也可以看出,現(xiàn)在考研是現(xiàn)在高校中的主流趨勢(shì)。
5 總結(jié)
通過(guò)本次研究、分析,整理了京津冀地區(qū)20所高校的網(wǎng)絡(luò)輿情,希望各高??梢愿鶕?jù)輿情分析的結(jié)果,加強(qiáng)對(duì)學(xué)校的管理以及制度的改善,并且在輿情分析的過(guò)程中,讓我對(duì)網(wǎng)絡(luò)爬蟲(chóng)有了更好的理解,以及更大的好奇,也知道了網(wǎng)絡(luò)爬蟲(chóng)的重要性。
此論文雖然完成高校網(wǎng)絡(luò)輿情分析的功能,但是面對(duì)許多問(wèn)題還有待解決,可以在以下幾個(gè)方面進(jìn)行適當(dāng)?shù)母倪M(jìn):
(1)可以將網(wǎng)絡(luò)爬蟲(chóng)的加入更多的功能,將所有的功能細(xì)化,可以根據(jù)用戶(hù)的需要,自行設(shè)置。
(2)可以加入其他大型的網(wǎng)絡(luò)交流論壇,如知乎,豆瓣等,做成一個(gè)Web前端式整合版的網(wǎng)絡(luò)爬蟲(chóng)。
(3)做成高校網(wǎng)絡(luò)輿情分析的軟件,將極大提高各個(gè)高校對(duì)于學(xué)生、學(xué)校的管理和改革。
參考文獻(xiàn):
[1] 韋瑋.精通Python網(wǎng)絡(luò)爬蟲(chóng)[M],北京:機(jī)械工業(yè)出版社,2017年4月 .
[2] 周中華,等.基于 Python新浪微博數(shù)據(jù)爬蟲(chóng)[J],計(jì)算機(jī)應(yīng)用,34(2014) : 3131-3134.
[3] Ryan Mitchell.Python網(wǎng)絡(luò)數(shù)據(jù)采集[M],北京:人民郵電出版社出版,2016.
[4] 陽(yáng)曉艷,等.大連高校維穩(wěn)工作與網(wǎng)絡(luò)輿情現(xiàn)狀分析——以微信、微博、百度貼吧平臺(tái)為例[J].才智,2017.6.
[5] 張志林.基于云計(jì)算的網(wǎng)絡(luò)輿情監(jiān)控關(guān)鍵技術(shù)研究[D].內(nèi)蒙古工業(yè)大學(xué),2017.
【通聯(lián)編輯:王力】