鄭建靈 張艷玲 田俊雄 黃子豪 梁茵
摘要:為從高校各種網(wǎng)絡(luò)平臺(tái)上的海量言論中提取和分析校園輿情熱點(diǎn)問題,使用爬蟲獲取高校貼吧文本,對(duì)獲得的文本數(shù)據(jù)進(jìn)行分詞、清洗;然后使用tensorfloW hub中的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NNIM)進(jìn)行遷移訓(xùn)練得到文本向量,對(duì)文本向量使用基于劃分的K-means聚類,得到多個(gè)文本簇團(tuán);對(duì)簇團(tuán)使用詞頻一逆文檔頻率算法(TF-IDF),得到每個(gè)簇團(tuán)的關(guān)鍵信息并進(jìn)行人工分析。實(shí)驗(yàn)結(jié)果表明,貼吧上的熱點(diǎn)問題主要是考研類和入學(xué)類話題。根據(jù)分析得出的話題可為高校管理決策提供依據(jù)。
關(guān)鍵詞:校園輿情;遷移訓(xùn)練;詞表征;詞頻一逆文檔頻率;K-means聚類
DOI: 10. 11907/rjdk.191649
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800( 2020)004-0061-06
O 引言
隨著互聯(lián)網(wǎng)技術(shù)的普及,社交網(wǎng)絡(luò)成為大學(xué)生活至關(guān)重要的一部分。新媒體潮流促進(jìn)了信息流動(dòng)和傳播,也帶來(lái)了海量的媒體內(nèi)容與用戶數(shù)據(jù)。大學(xué)生平常關(guān)注的熱點(diǎn)問題,對(duì)高校管理有重要的指導(dǎo)意義。
自然語(yǔ)言文本信息的聚類需要將文本信息轉(zhuǎn)換成數(shù)字信息,這一過(guò)程叫做文本表征,高強(qiáng)[1]較為完整地闡述了如何將文本信息轉(zhuǎn)換成數(shù)字信息以應(yīng)用于聚類的過(guò)程與技術(shù)細(xì)節(jié)。傳統(tǒng)的文本表征是使用詞頻信息表達(dá)文本。文嶠[2]分別使用詞頻、TF-IDF、卡方檢驗(yàn)、互信息表征文本得到使用各類表征方式的分類準(zhǔn)確率與特征維度的關(guān)系。但是,單從本文中提取詞頻特征,會(huì)忽視詞項(xiàng)語(yǔ)義,無(wú)法充分提取文本包含的語(yǔ)義信息,且得到的文本表征存在高維、稀疏等問題;張雪松[3]使用頻繁詞集表示文本以降低文本維度;Mikolov[4]在2013提出Word2vector,使獲取詞項(xiàng)的上下文語(yǔ)義信息成為可能;周順先[5]等使用詞向量聚類質(zhì)心頻率模型,將得到的特征化文本放入神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行分類實(shí)驗(yàn),得到比單純基于詞頻統(tǒng)計(jì)的TF-IDF更好的分類效果;賀益侗[6]分別使用TF-IDF與DOC2VEC表征文本,得到兩個(gè)模型,然后使用模型融合得到最后結(jié)果。但TF-IDF的表征僅包含詞頻信息,而DOC2VEC能夠反映詞項(xiàng)語(yǔ)義信息卻沒有包含詞頻信息,使用模型融合也沒有真正將詞頻和詞項(xiàng)語(yǔ)義信息結(jié)合在一起;黃承慧"、高明霞等[8]提出使用詞頻與詞項(xiàng)語(yǔ)義相結(jié)合的方法度量文本相似度,這類方法在各白的實(shí)驗(yàn)中都取得了比單獨(dú)使用詞頻信息或詞項(xiàng)語(yǔ)義更好的實(shí)驗(yàn)結(jié)果;汪靜[9]在結(jié)合詞頻與語(yǔ)義的基礎(chǔ)上,在計(jì)算詞頻上加入了詞性的貢獻(xiàn)因子,對(duì)文本信息的提取更加深入;鄒艷春[10]使用DBSCAN聚類方法對(duì)文本進(jìn)行聚類;李春青[11]介紹了文本聚類的4種聚類方法;徐維林[12]結(jié)合LDA和SVM模型,利用K-means聚類對(duì)長(zhǎng)文本進(jìn)行聚類,獲得較好的聚類質(zhì)量和穩(wěn)定性;熊祖濤[13]探究了幾種文本表征和聚類方法對(duì)短文本進(jìn)行聚類;周海晨[14]使用TF-IDF作為文本表征,對(duì)文章標(biāo)題進(jìn)行文本挖掘,建議在不同時(shí)期給學(xué)生推送內(nèi)容;劉家成[15]基于TF-IDF和K-means聚類方法研究了價(jià)格波動(dòng)與買家評(píng)論的相關(guān)性。
直接使用TF-IDF表征文本向量,在應(yīng)用到大量文本數(shù)據(jù)進(jìn)行表征時(shí),不僅存在數(shù)據(jù)矩陣極其稀疏、運(yùn)算時(shí)間極長(zhǎng)等問題,而且該種表征僅體現(xiàn)了詞頻信息,沒有詞義信息。若使用WORD2VEC與TF-IDF相結(jié)合的表征方法,在提取詞向量與作為權(quán)重的TF-IDF相乘時(shí),同樣耗時(shí)過(guò)長(zhǎng),難以得到訓(xùn)練結(jié)果。本文直接使用tensorflow一hub中的NNLM模型進(jìn)行遷移訓(xùn)練得到文本向量。這種表示方法可以直接指定數(shù)據(jù)矩陣維度,解決數(shù)據(jù)矩陣密度稀疏問題,且在運(yùn)行速度上也有較大提高。
本文首先利用python爬蟲工具,收集高校貼吧中學(xué)生發(fā)布的言論;再使用python中的jieba分詞將文本切割成一個(gè)個(gè)詞匯,使用NNLM模型得到關(guān)于文本的詞匯及進(jìn)行遷移訓(xùn)練,得到每個(gè)文本的文本向量;接著使用K-means算法對(duì)文本進(jìn)行聚類,對(duì)聚類結(jié)果使用TF-IDF算法計(jì)算,得到每個(gè)簇的關(guān)鍵信息,以此分析大學(xué)生關(guān)注的熱點(diǎn)問題。
1 文本數(shù)據(jù)預(yù)處理
本文所探討的校園輿情內(nèi)容來(lái)自百度貼吧。使用Pv-thon爬蟲技術(shù),在全國(guó)各個(gè)高校貼吧主頁(yè)爬取學(xué)生討論內(nèi)容。本次研究一共爬取全國(guó)784所高校共4605942個(gè)帖。
1.1 文本分詞
常見的分詞T具有jieha分詞、ltp分詞、thulac等分詞-具。僅從分詞上看,jieba分詞具有精確、搜索引擎、新詞識(shí)別等模式,加入字典的詞將直接匹配,安裝使用方便;ltp分詞粒度較大.詞性類型較少,安裝稍復(fù)雜;thulac分詞具有世界上最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù),分詞速度快。
針對(duì)貼吧文本分別使用jieba、ltp分工具,得到如圖l所示結(jié)果。
可以看到,ltp分詞中,“新生加群”、“師姐會(huì)”、“新生學(xué)弟”等沒有被分開,相應(yīng)在jieba分詞中均被分開。總的來(lái)說(shuō),ltp分詞粒度相對(duì)較大,即文本會(huì)被分割成更長(zhǎng)的詞串,而jieha分詞粒度相對(duì)較小,就分詞效果而言,分詞粒度小更適合本實(shí)驗(yàn);此外,為了保證分詞效果,加人人工白定義詞典。ltp分詞將所定義的詞典以特征的方式加入機(jī)器學(xué)習(xí)算法,無(wú)法保證輸入的詞能完整切分,而jieha分詞可以匹配白定義詞典中詞及其詞性,故最后選擇jieha分詞作為分詞工具。
1.2文本清洗
首先對(duì)單一文本進(jìn)行清洗,分別加入停用詞,用戶白定義詞典以及對(duì)詞性篩選,得到將要用于表征的文本。實(shí)驗(yàn)所采用的停用詞分為兩個(gè)部分:①?gòu)木W(wǎng)上找到的停用詞表,即一些普遍沒有意義的詞及標(biāo)點(diǎn)符號(hào);②通過(guò)人T篩選得到的對(duì)于研究沒有意義的詞語(yǔ)。在用戶白定義詞典方面,需要通過(guò)人工檢查分詞結(jié)果,手動(dòng)將被錯(cuò)誤切分的詞合并并定義詞性,然后加入用戶白定義詞典,這樣能夠修正被錯(cuò)誤分詞的詞語(yǔ).獲得更多有意義的詞語(yǔ)。篩選掉的部分詞語(yǔ)如表1所示。
從表1可以看出,第一類主要是稱呼用語(yǔ),第二類是一些單個(gè)字,難以表達(dá)一個(gè)準(zhǔn)確意思的動(dòng)詞,第三類是一些數(shù)量詞、序數(shù)詞,以及其它對(duì)研究主題沒有意義的詞語(yǔ)。在詞性篩選方面,利用jieba分詞的詞性標(biāo)注功能給每個(gè)詞語(yǔ)定義詞性,然后篩選必要的名詞、形容詞、動(dòng)詞等對(duì)實(shí)驗(yàn)較有意義的詞性并保留。
經(jīng)過(guò)單一文本清洗后會(huì)對(duì)每一篇文本進(jìn)行詞數(shù)檢查,如果詞的個(gè)數(shù)不足10個(gè),則說(shuō)明該貼的關(guān)注度不高,將舍棄該文本。經(jīng)過(guò)必要清洗篩選后選取其中920351個(gè)帖進(jìn)行研究。
2文本表征
將文本信息轉(zhuǎn)化成向量信息,文本向量表征的好壞決定最后聚類理論上能否達(dá)到最好的結(jié)果。特征選擇函數(shù)種類繁多,對(duì)訓(xùn)練集和分類算法依賴性也很大,不同研究針對(duì)不同的分類應(yīng)用,采用不同的訓(xùn)練過(guò)程和分類算法,對(duì)各評(píng)價(jià)函數(shù)的性能評(píng)價(jià)結(jié)果差異也較大[16]。最常用的文本向量表征方法是TF-IDF模型,屬于基于詞頻的表征方法。但在大量文本下,實(shí)驗(yàn)分詞后詞庫(kù)高達(dá)382 326個(gè)詞。即便通過(guò)篩選,也仍有10萬(wàn)數(shù)量級(jí)詞量,導(dǎo)致最后的向量空間維度過(guò)高,難以直接運(yùn)行出結(jié)果。而使用WORD2VEC模型能夠得到詞的低維度向量空間表示,但利用詞向量有效表示短文本是一個(gè)研究難點(diǎn)。常見的方法有以文本所有詞向量的均值表示文本,也有利用TF-IDF值表達(dá)每個(gè)詞的權(quán)重,從而利用權(quán)重得到表示文本的向量[8]。但由于使用WORD2VEC模型與TF-IDF權(quán)重計(jì)算時(shí)耗時(shí)過(guò)長(zhǎng),難以得出運(yùn)算結(jié)果。
遷移學(xué)習(xí)是利用先驗(yàn)知識(shí)從一個(gè)領(lǐng)域和任務(wù)類比到另一個(gè)領(lǐng)域和任務(wù),本文使用Tensorflow huh中的NNLM中文模型進(jìn)行遷移訓(xùn)練獲取文本表征。
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型( Nerual Network Language Model,NNLM)由Bengio等[17]于2003年提出。NNLM利用前n-l個(gè)詞預(yù)測(cè)第n個(gè)詞同時(shí)為最大化目標(biāo)詞語(yǔ)的概率。NNLM在中間層將句子編碼壓縮成一條稠密特征,解決了表征向量稀疏化問題。同時(shí),由于分類模型作用,該特征能很好地表達(dá)句子含義,也具備傳統(tǒng)統(tǒng)計(jì)學(xué)模型不具備的上下義信息,解決了Word2vec難以表達(dá)句子的問題。Tensorflowhub中NNLM模型使用大語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,能較好地涵蓋各種中文語(yǔ)料庫(kù)。使用NNLM遷移訓(xùn)練貼吧數(shù)據(jù),對(duì)得到的文本表征將有更好的泛化能力。
文獻(xiàn)[9]提出使用詞性作為影響因子進(jìn)行權(quán)重計(jì)算的方法。據(jù)此,本實(shí)驗(yàn)采取更簡(jiǎn)便的方法,將除名詞、動(dòng)詞、形容詞等詞性以外的詞全部舍棄,只留下對(duì)探究主題有用的詞語(yǔ),但這樣做的弊端是存在許多離群點(diǎn)。
3文本聚類
文本聚類指白動(dòng)地將文本集合分組為不同的類別。同一類別中的文本非常相似,而不同類別之間的文本則不相似”1?;痉诸惙椒ㄓ袆澐址椒ā哟畏椒?、基于密度的方法、基于網(wǎng)格的方法等[19]。
3.1 K-means聚類
本文使用K-means聚類。K-means聚類是一種基于劃分的聚類方法。通過(guò)初始化k個(gè)簇心點(diǎn)計(jì)算每個(gè)點(diǎn)與簇心點(diǎn)的距離,將每個(gè)點(diǎn)劃分到距離該點(diǎn)最近的簇心中,然后利用簇中的每個(gè)點(diǎn)到簇心的距離計(jì)算均值,得到新的簇中心;重復(fù)計(jì)算點(diǎn)與簇心的距離,更新簇中心,如此迭代一定次數(shù),或者前后兩次每個(gè)點(diǎn)到簇中心距離的總和(簇內(nèi)變差)不超過(guò)設(shè)定的閾值則停止迭代,輸出聚類結(jié)果。
3.2實(shí)現(xiàn)思路
根據(jù)義本向量表征將每篇文檔向量看成M維空間的一個(gè)點(diǎn),共N個(gè)點(diǎn)。本文進(jìn)行分組對(duì)照實(shí)驗(yàn),將N個(gè)點(diǎn)劃分成4個(gè)組分別進(jìn)行文本聚類,聚類思路如下:①在M維空間中,隨機(jī)選取10個(gè)點(diǎn)作為初始簇中心點(diǎn);②計(jì)算每個(gè)點(diǎn)分別到10個(gè)簇中心點(diǎn)的歐式距離,將每個(gè)點(diǎn)劃分至與其歐式距離最近的質(zhì)心點(diǎn)簇中;③計(jì)算新的簇內(nèi)變差,即每個(gè)點(diǎn)到其所在的簇中心歐式距離的總和,并記錄,設(shè)定舊的簇內(nèi)變差為一1;④根據(jù)簇的每個(gè)點(diǎn)坐標(biāo),將簇內(nèi)所有點(diǎn)維度相同的值相加,再求每個(gè)維度的平均值,得到新的簇中心點(diǎn);⑤計(jì)算新舊簇內(nèi)變差的差值,若差值小于1或者進(jìn)行100次迭代計(jì)算,然后退出,否則重復(fù)步驟②一⑤;⑥重復(fù)步驟①一⑤若干次,取多次K-means聚類中得到的最小簇內(nèi)變差,并以此作為聚類結(jié)果。
3.3聚類實(shí)驗(yàn)結(jié)果處理
對(duì)所有文檔聚類之后,計(jì)算每篇文檔所有詞的TF-IDF值,然后根據(jù)每個(gè)簇中詞的TF-IDF值總和進(jìn)行排序,篩選得到每個(gè)簇的關(guān)鍵信息。
3.3.1 詞頻一逆文檔頻率(Tenn Frequency-Inverse Docu-ment Frequency, TF-IDF)
TF-IDF方法對(duì)于提取文本庫(kù)中某一篇文檔的特征較為有效。通過(guò)計(jì)算每個(gè)詞在當(dāng)前文檔的頻率,突出該詞在本文中的重要程度,但有可能是沒有意義的高頻詞;再計(jì)算詞的逆文檔頻率,與詞頻率相乘,可以降低沒意義的高頻詞TF-IDF值,得到較好表征文本的詞語(yǔ),但此過(guò)程沒有考慮詞義。
根據(jù)TF-IDF= TF*IDF計(jì)算得出每篇文檔所有詞的TF-IDF值。
設(shè)文本庫(kù)共有IDI篇文檔,將所有文檔中的不同詞語(yǔ)構(gòu)成一個(gè)詞庫(kù)M,詞數(shù)為IMI,則每篇文檔對(duì)應(yīng)一個(gè)M維向量,文檔向量中每個(gè)維度的值為TF-IDF值或0。整個(gè)文本庫(kù)可以構(gòu)成一個(gè)IDlxIMI矩陣,得到文本向量表征。
3.3.2簇關(guān)鍵信息提取
聚類后得到的每個(gè)文檔向量歸屬于一個(gè)類中。提取聚類結(jié)果思路如下:①對(duì)每個(gè)類建立一個(gè)關(guān)于詞庫(kù)的IMI維向量K,且初始值均為0;②將類內(nèi)每個(gè)文檔向量中維度上的數(shù)值與K向量上相應(yīng)維度的數(shù)值相加;③對(duì)詞庫(kù)向量K進(jìn)行排序,得到TF-IDF值最高的前7個(gè)詞,查找詞庫(kù),得到相應(yīng)的詞語(yǔ),作為該類關(guān)鍵詞。
4 熱點(diǎn)問題分析
首先,使用Pvthon中jieha分詞對(duì)貼吧評(píng)論進(jìn)行分詞并統(tǒng)計(jì)詞頻,得到詞頻最高的前20個(gè)詞,如圖2所示。
從得到的前20個(gè)詞頻上看,學(xué)生輿論涉及的話題主要圍繞“學(xué)?!薄ⅰ皩I(yè)”、“考研”、“宿舍”、“工作”、“錄取”等關(guān)鍵詞展開。
然后,使用TF-IDF算法提取每組每個(gè)簇的簇關(guān)鍵詞信息,得到每組10個(gè)簇的關(guān)鍵詞信息,如圖3所示。
(1)每個(gè)分組得到最大帖數(shù)的簇分別是圖3(a)6、圖3(b)5、圖3(c)7、圖3(d)9,都具有“學(xué)?!薄ⅰ耙槐尽?、“專業(yè)”、“新生群”、“同學(xué)”和“微信”等關(guān)鍵信息。從關(guān)鍵信息可以看到,這些簇主要是關(guān)于準(zhǔn)大學(xué)生對(duì)將要踏人大學(xué)校園的提問,主要有學(xué)校、填報(bào)志愿、專業(yè)、加入各種新生討論群等,其中較有意思的是“微信”這個(gè)關(guān)鍵詞,一般新生討論群都在QQ建立,微信這個(gè)詞出現(xiàn)主要是由于許多大學(xué)都開設(shè)有公眾號(hào),學(xué)生會(huì)通過(guò)大學(xué)公眾號(hào)查詢白已是否過(guò)線,以及一些專業(yè)錄取情況等。將這個(gè)簇所包含的信息定義為“入學(xué)類”,表2包含了與該簇相關(guān)的簇類信息。
從相關(guān)簇類關(guān)鍵信息可進(jìn)一步了解到準(zhǔn)大學(xué)生會(huì)在貼吧上咨詢每年的文、理、綜排名情況,每年各學(xué)校的錄取情況等。準(zhǔn)大學(xué)生通過(guò)這些方式確認(rèn)白己的分?jǐn)?shù)是否能考上心儀的大學(xué),以及能否選到理想的專業(yè)。
(2)每組第二大帖數(shù)的簇分別是圖3(a)9、圖3(b)8、圖3 (c)10、圖3(d)4,都具有“考研”這個(gè)關(guān)鍵信息。這個(gè)簇類主要是關(guān)于大學(xué)生繼續(xù)深造的問題,將簇包含信息定義為“考研類”,表3包含了相關(guān)的簇類信息。
結(jié)合相關(guān)簇類信息可知,每個(gè)分組都擁有的關(guān)鍵信息增加了“專業(yè)”、“資料”、“學(xué)院”,其中有3個(gè)分組都包含“調(diào)劑”、“研究生”等關(guān)鍵信息。由此可知,準(zhǔn)備考研的大學(xué)生關(guān)注學(xué)校專業(yè)方面的問題,此外,大學(xué)生報(bào)考相應(yīng)院校還因?qū)I(yè)試題不同,會(huì)在貼吧上尋求相應(yīng)幫助,獲取備考資料、詢問相關(guān)調(diào)劑信息等等,也不乏一些T作方面的討論。
(3)對(duì)每個(gè)簇進(jìn)行定義,分為“入學(xué)類”、“考研類”、“情感類”、“宿舍類”、“社團(tuán)類”、“電子產(chǎn)品類”,得到分類表如表4所示。
其中,情感類主要信息有“喜歡”、“愛”、“感覺”、“女朋友”等,主要是關(guān)于大學(xué)生戀愛問題;宿舍類主要信息有“宿舍”、“空調(diào)”、“租”、“人間”等,主要是探討學(xué)校宿舍環(huán)境、住宿人數(shù)等,也有不少討論在校外租房的情況;社團(tuán)類主要關(guān)注社團(tuán)管理等問題,該簇類是所有簇中最小的簇,可以看到分組c甚至沒有凝聚出該類;電子產(chǎn)品類主要是大學(xué)生討論關(guān)于購(gòu)買電腦、手機(jī)等問題,也有關(guān)于使用手機(jī)卡、學(xué)校網(wǎng)絡(luò)的討論。對(duì)每個(gè)類別統(tǒng)計(jì)其總帖子數(shù),如表5所示。
從表5可以看出考研類帖數(shù)最多,是大學(xué)生討論最為廣泛的一個(gè)話題,其次是入學(xué)類帖子。此外,情感類、宿舍類、電子產(chǎn)品類等帖子數(shù)量也在30000上下,也是大學(xué)生討論的主要問題之一,而社團(tuán)類帖子數(shù)量較少,討論也不多。
通過(guò)定義平均回復(fù)數(shù)評(píng)測(cè)哪個(gè)話題更容易引起學(xué)生的強(qiáng)烈反應(yīng)。
平均回復(fù)數(shù)=簇類總回復(fù)數(shù)量/簇類帖子數(shù)量
通過(guò)計(jì)算得到圖4。
從圖4可知,從單項(xiàng)上看,圖4(a)、圖4(c)回復(fù)數(shù)量最大的是考研類信息,圖4(b)、圖4(d)回復(fù)數(shù)量最大的是社團(tuán)類信息,且回復(fù)數(shù)量第二的也是考研類信息。從帖子基數(shù)上看,考研信息一直是貼吧中較為活躍的話題,而社團(tuán)類信息雖然帖數(shù)不多,但一經(jīng)發(fā)布就會(huì)有較高人次的討論。計(jì)算每類信息的平均回復(fù)數(shù)量,得到表6。
從表6分析可以得到,考研類、情感類、社團(tuán)類信息是最為活躍的幾個(gè)話題,參與人次位列前三。然后是宿舍類、入學(xué)類、電子產(chǎn)品類問題。
最后,將所有貼吧信息全部進(jìn)行聚類并提取關(guān)鍵信息,得到圖5。
由圖5可以得到表7。
其中,帖數(shù)最高的類別是考研類,總帖數(shù)達(dá)267482;其次是入學(xué)類,總帖數(shù)達(dá)232 055;情感類、宿舍類、電子產(chǎn)品類帖數(shù)也相差數(shù)萬(wàn),而社團(tuán)類帖數(shù)相對(duì)較少。所得結(jié)果與分組結(jié)果相近。
5 結(jié)語(yǔ)
本文以百度貼吧中高校貼吧作為數(shù)據(jù),對(duì)相應(yīng)的學(xué)生輿論內(nèi)容進(jìn)行數(shù)據(jù)挖掘,對(duì)文本數(shù)據(jù)使用jieha分詞處理,篩選掉無(wú)關(guān)詞語(yǔ);使用tensorflow huh模型進(jìn)行遷移訓(xùn)練,將文本信息轉(zhuǎn)換為數(shù)字信息;再利用K-means聚類算法聚類,對(duì)得到的聚類結(jié)果使用TF-IDF提取每個(gè)簇中的關(guān)鍵詞,以此挖掘貼吧文本中的焦點(diǎn)問題。
從結(jié)果上看,貼吧學(xué)生用戶主要有3大群體。
(1)高中畢業(yè)的準(zhǔn)大學(xué)生。主要在高校貼吧咨詢錄取分?jǐn)?shù)線、分?jǐn)?shù)排名以及填報(bào)志愿和加入新生群等問題;另外關(guān)注學(xué)校校舍問題,經(jīng)常問詢諸如校舍幾人間、是否有空調(diào)、外出租房等問題。根據(jù)帖數(shù)計(jì)算這類群體所提問題出現(xiàn)比例約為36.26%。
(2)考研生。他們更多在白己心儀的學(xué)校貼吧尋找咨詢通道,也有向?qū)W校詢問報(bào)考信息、面試情況、尋求復(fù)習(xí)資料等。其中不乏對(duì)不同學(xué)校專業(yè)的討論,包括是否過(guò)線及調(diào)劑等問題。根據(jù)帖數(shù)計(jì)算,所占比例約為29.0%。
(3)在校大學(xué)生。主要是作為“過(guò)來(lái)人”給準(zhǔn)大學(xué)生提供一些咨詢渠道,如新生咨詢?nèi)航獯鹦律谫N吧中提出的各類問題等。此外,有關(guān)社團(tuán)類問題也應(yīng)是在讀大學(xué)生所發(fā)布,但所占規(guī)模僅為0.45%。
因此,高??稍谫N吧上設(shè)置更為全面詳細(xì)的本科生、研究生招生信息,以拓寬宣傳渠道。對(duì)于本科生,可以提供相關(guān)年份的錄取分?jǐn)?shù)線,包括各個(gè)專業(yè)的分?jǐn)?shù)線以及相關(guān)專業(yè)介紹,解答準(zhǔn)大學(xué)生的各種疑慮,讓準(zhǔn)大學(xué)生找準(zhǔn)適合自己的專業(yè),實(shí)現(xiàn)人生價(jià)值。同時(shí),學(xué)校宿舍也是學(xué)生關(guān)注的重點(diǎn)問題??梢愿鶕?jù)校舍情況在貼吧設(shè)立專門模塊,展示校舍的各種優(yōu)勢(shì),以吸引更多優(yōu)質(zhì)生源。對(duì)準(zhǔn)備考研的學(xué)生,可提供學(xué)習(xí)教材目錄,介紹研究生考試群等等,滿足考研學(xué)生需要。此外,電子產(chǎn)品也是學(xué)生關(guān)注的問題之一,生產(chǎn)商可通過(guò)了解學(xué)生需求,把握商機(jī),制造更加吸引學(xué)生的電子產(chǎn)品;學(xué)??膳c相關(guān)公司合作,提供宣傳機(jī)會(huì),增加廣告收入。關(guān)于學(xué)生情感問題,可設(shè)立相應(yīng)的情感輔導(dǎo)老師,在貼吧上進(jìn)行相應(yīng)的心理輔導(dǎo),引導(dǎo)學(xué)生積極面對(duì)大學(xué)生活。
后續(xù)主題研究中,可將相似的簇合并并進(jìn)行重聚類,以得到更多聚類主題。在方法上,可以構(gòu)建專屬于學(xué)生輿論的模型進(jìn)行遷移訓(xùn)練。在數(shù)據(jù)上要獲取更多平臺(tái)上的學(xué)生輿論,以獲取更多學(xué)生關(guān)注的問題。
參考文獻(xiàn):
[1]高強(qiáng).基于向量空間的文本聚類算法[J].電子世界,2017(20):61-62
[2]文嶠.基于文本特征提取方法的文本分類研究[J]電腦知識(shí)與技術(shù),2018 .14( 18): 188-189.192.
[3]張雪松,賈彩燕一種基于頻繁詞集表示的新文本聚類方法[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):102-112
[4]MIKOLOV T. SUTSKEVER I, CHEN K, et al. Distributed representa-tions of words and phrases and their compositionalitv[J] Advances inNeural Information Processing Systems, 2013, 10(26): 3111-3119.
[5]周順先,蔣勵(lì),林霜巧,等.基于Word2vector的文本特征化表示方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,30(2):272-279.
[6]賀益侗,基于doc2vec和TF-IDF的相似文本識(shí)別[J].電子制作,2018(18):37-39
[7]黃承慧,印鑒,侯昉.一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J]計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
[8]高明霞,李經(jīng)緯.基于word2vec詞模型的中文短文本分類方法[J]山東大學(xué)學(xué)報(bào)(工學(xué)版),2018,11(2):159-163
[9]汪靜,羅浪,王德強(qiáng).基于Word2vec的中文短文本分類問題研究[J]計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(5):209-215.
[10]鄒艷春.基于DBSCAN算法的文本聚類研究[J]軟件導(dǎo)刊,2016,15(8):36-38.
[11]李春青文本聚類算法研究[J].軟件導(dǎo)刊,2015,14(1):74-76.
[12]徐維林,朱宗,高麗,等,基于主題模型的網(wǎng)絡(luò)微博輿情分析[J]. 軟件導(dǎo)刊,2016,15(5):153-154.
[13]熊祖濤.基于稀疏特征的中文微博短文本聚類方法研究[J].軟件導(dǎo)刊,2014,13(1):133-135.
[14]周海晨.基于爬蟲與文本挖掘的“985”高校圖書館微信公眾號(hào)的調(diào)研[D].合肥:安徽大學(xué),2017
[15]劉家成,王藝憬,孫燕紅基于TF-IDF算法和K-means聚類的商品評(píng)論與價(jià)格波動(dòng)相關(guān)性研究——以ThinkPad電腦為例[J].科技創(chuàng)業(yè)月刊,2018,31(7):45-49
[16]單麗莉,劉秉權(quán),孫承杰.文本分類中特征選擇方法的比較與改進(jìn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43( S1):319-324
[17]YOSHUA BENGIO, REJEAN DUCHARME, PASCAL VINCENT,et al.A neural prohahilistic language modelEJl. Journal of MachineLearning Research. 2003(3):1137-1155.
[18]nCyc.lopedia of Data Warehousing&Mining Second Edi-tion. 2005(2):197-203.
[19]韓家煒,裴建等.數(shù)據(jù)挖掘:概念與技術(shù)[M]北京:機(jī)械工業(yè)出版 社.2012.
[20]11 D 0, MEI H H. SHEN Y. et al. ECharts:a declarative frame-work for rapid construction of weh-basedVisualization[J] Visual In-formatics. 2018(6):561-567.
(責(zé)任編輯:杜能鋼)
作者簡(jiǎn)介:鄭建靈(1995-),男,廣州大學(xué)計(jì)算機(jī)科學(xué)與網(wǎng)絡(luò)工程學(xué)院學(xué)生,研究方向?yàn)槲谋痉治?張艷玲(1970-),女,博士,廣州大學(xué)計(jì)算機(jī)科學(xué)與網(wǎng)絡(luò)工程學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄芗捌鋺?yīng)用。本文通訊作者:張艷玲。