李大嶺,張浩軍,王家慧,李世龍,黃柯源
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,河南 鄭州 410001)
現(xiàn)實(shí)世界的社交關(guān)系網(wǎng)絡(luò)中,將每一個(gè)人看作一個(gè)節(jié)點(diǎn),將具有相互聯(lián)系的人對應(yīng)的節(jié)點(diǎn)直接連起來,這就構(gòu)成了一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)可以描述為:將網(wǎng)絡(luò)中的節(jié)點(diǎn)按照一定的規(guī)則進(jìn)行分組,使得同一個(gè)組內(nèi)的節(jié)點(diǎn)連接相對稠密,不同組之間的節(jié)點(diǎn)連接相對稀疏。社區(qū)發(fā)現(xiàn)算法就是發(fā)現(xiàn)網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu)的算法。常見的社區(qū)發(fā)現(xiàn)算法大多分為2類:分離法和聚合法。淦文燕等[1]從數(shù)據(jù)場思想出發(fā),提出了一種基于拓?fù)鋭莸纳鐓^(qū)發(fā)現(xiàn)算法。該方法引入拓?fù)鋭菝枋鼍W(wǎng)絡(luò)節(jié)點(diǎn)間的相互作用,將每個(gè)社區(qū)視為拓?fù)鋭輬龅木植扛邉輩^(qū),通過尋找被低勢區(qū)域所分割的連通高勢區(qū)域?qū)崿F(xiàn)網(wǎng)絡(luò)的社區(qū)劃分。胡健等[2]引入邊聚集系數(shù)的概念,提出基于邊聚集系數(shù)的社區(qū)發(fā)現(xiàn)算法,在時(shí)間復(fù)雜度上有很大提升。柳助民等[3]提出來基于PCM聚類算法的Blog社區(qū)發(fā)現(xiàn)算法,用來識(shí)別Blog社區(qū)的核心和邊界,實(shí)驗(yàn)取得了很好的結(jié)果。閻春霖等[4]綜合考慮標(biāo)簽使用頻率和稀疏度,并使用兩者構(gòu)造一個(gè)鄰接矩陣進(jìn)行聚類,最終完成了社區(qū)的發(fā)現(xiàn)。熊正理等[5]提出一種基于用戶緊密度的在線社會(huì)網(wǎng)絡(luò)社區(qū)算法,利用層次聚類算法對完整用戶圖進(jìn)行處理進(jìn)而發(fā)現(xiàn)潛在社區(qū),取得不錯(cuò)的實(shí)驗(yàn)結(jié)果。康旭彬等[6]提出一種改進(jìn)的、基于節(jié)點(diǎn)局部相似性的標(biāo)簽傳播算法,提高了準(zhǔn)確率并保證了時(shí)間復(fù)雜度。
本文采用的一種基于模塊度的Louvain算法,該方法可以快速且高效處理節(jié)點(diǎn)數(shù)目龐大的網(wǎng)絡(luò)。算法基本原理為:①把無向圖中所有的節(jié)點(diǎn)都看作一個(gè)社區(qū)。②依次把每個(gè)節(jié)點(diǎn)和與其相鄰的一個(gè)節(jié)點(diǎn)合并,計(jì)算出模塊度增益ΔQ,若所有ΔQ都小于0,則節(jié)點(diǎn)不合并回到原來位置;否則找到ΔQ最大節(jié)點(diǎn),將這2個(gè)節(jié)點(diǎn)歸為一個(gè)社區(qū)。③重復(fù)上一步,直到整個(gè)圖的網(wǎng)絡(luò)結(jié)構(gòu)不再改變?yōu)橹?。④把每個(gè)社區(qū)壓縮為一個(gè)新的超節(jié)點(diǎn),社區(qū)內(nèi)邊為自環(huán)邊,社區(qū)間的邊為超節(jié)點(diǎn)邊。⑤重復(fù)①—③步驟,直到圖的網(wǎng)絡(luò)結(jié)構(gòu)不再改變[7]。
模塊度是評估一個(gè)網(wǎng)絡(luò)社區(qū)劃分好壞的度量方法,物理含義是社區(qū)內(nèi)節(jié)點(diǎn)的連邊數(shù)與隨機(jī)情況下的邊數(shù)之差,取值范圍為[-0.5,1],其定義由Newman提出:
式(1)中:m為所有邊的權(quán)重之和,為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的權(quán)重;ki為所有與節(jié)點(diǎn)i相連的邊的權(quán)重之和ci為節(jié)點(diǎn)i所屬的社區(qū)。
研究的數(shù)據(jù)來自中國知網(wǎng)(CNKI),選取了2014—2021年時(shí)間段作為研究對象。在知網(wǎng)上通過模糊查找以(主題=高等教育)AND(文獻(xiàn)來源=中國高等教育)作為條件,選取8年間所有的期刊文獻(xiàn),共計(jì)1 149篇學(xué)術(shù)期刊,保證了數(shù)據(jù)源的數(shù)量和質(zhì)量。
Gephi是一個(gè)可以實(shí)現(xiàn)數(shù)據(jù)可視化的開源的分析軟件,它廣泛被應(yīng)用于大學(xué)里的統(tǒng)計(jì)研究。首先通過Gephi讀取CSV類型文件,并將邊類型設(shè)為無向邊初步構(gòu)成一個(gè)網(wǎng)絡(luò),其次運(yùn)行模塊化,通過不斷地調(diào)整解析度等參數(shù)找到最優(yōu)的社區(qū)劃分,最后以Fruchterman Reingold的布局方式將網(wǎng)絡(luò)結(jié)構(gòu)圖可視化呈現(xiàn)。Pycharm是一種Python的集成開發(fā)環(huán)境(Python IDE),給程序編寫提供了良好的程序開發(fā)、調(diào)試環(huán)境,并極大地提高了開發(fā)時(shí)的效率。由于原始數(shù)據(jù)源并不規(guī)范,含有大量的空格、標(biāo)點(diǎn)等一系列的數(shù)據(jù)噪音,故用Pycharm工具編寫程序?qū)Φ玫降脑紨?shù)據(jù)源進(jìn)行數(shù)據(jù)處理,最后將處理過的數(shù)據(jù)進(jìn)行關(guān)鍵詞共現(xiàn),即找到構(gòu)成無向圖的邊和節(jié)點(diǎn)。
在進(jìn)行社區(qū)發(fā)現(xiàn)實(shí)驗(yàn)之前,需要對文本進(jìn)行預(yù)處理,通過數(shù)據(jù)清洗、去停用詞、關(guān)鍵詞共現(xiàn)處理等步驟將其轉(zhuǎn)換為標(biāo)準(zhǔn)的輸入數(shù)據(jù)。文章關(guān)鍵詞含有許多噪音,且得到準(zhǔn)確關(guān)鍵詞之后還需通過關(guān)鍵詞共現(xiàn)生成社區(qū)發(fā)現(xiàn)實(shí)驗(yàn)所需的圖。本文預(yù)處理的具體流程圖如圖1所示。
圖1 文本預(yù)處理流程圖
3.1.1 數(shù)據(jù)清洗
本次實(shí)驗(yàn)所用數(shù)據(jù)為知網(wǎng)的高等教育領(lǐng)域文章的關(guān)鍵詞,關(guān)鍵詞如圖2所示,其中存在許多異常字符,如空格符等字符,為了不影響分析結(jié)果,在數(shù)據(jù)清洗階段對這些數(shù)據(jù)進(jìn)行了剔除;還存在如雙一流、雙一流建設(shè)、世界一流大學(xué)、世界一流學(xué)科等關(guān)鍵詞,此類關(guān)鍵詞皆為同義詞,故使用統(tǒng)一關(guān)鍵詞進(jìn)行替換。
圖2 關(guān)鍵詞詞頻統(tǒng)計(jì)
3.1.2 去停用詞
將語料中沒有意義的關(guān)鍵詞刪除,如出現(xiàn)高等教育、我國高等教育、教育、中華人民共和國、大學(xué)、高校等類型的關(guān)鍵詞,此類關(guān)鍵詞所表示的主題對于本次實(shí)驗(yàn)無意義,故建立一個(gè)stopwords停用詞表,剔除這類關(guān)鍵詞。
3.1.3 關(guān)鍵詞共現(xiàn)
社區(qū)發(fā)現(xiàn)算法是對圖結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行一系列調(diào)整進(jìn)而劃分成各個(gè)社區(qū),故實(shí)驗(yàn)需要首先生成基于關(guān)鍵詞共現(xiàn)的圖結(jié)構(gòu)網(wǎng)絡(luò),本次實(shí)驗(yàn)將每一篇文章當(dāng)做圖結(jié)構(gòu)中的節(jié)點(diǎn),若兩篇文章出現(xiàn)關(guān)鍵詞共現(xiàn),則在兩個(gè)節(jié)點(diǎn)之間建立一條連線,關(guān)鍵詞共現(xiàn)的次數(shù)用來表示這條邊的權(quán)重。以2年為一個(gè)時(shí)間段共分成4個(gè)時(shí)段,分別對2014—2021年這8年間的文獻(xiàn)關(guān)鍵詞進(jìn)行關(guān)鍵詞共現(xiàn)處理,得到關(guān)鍵詞共現(xiàn)數(shù)據(jù),并整理成CSV文件的形式,以2014—2015年的部分?jǐn)?shù)據(jù)為例,如表1所示,其中起點(diǎn)和終點(diǎn)代表邊的2個(gè)節(jié)點(diǎn),關(guān)鍵詞為邊的lable值。
表1 關(guān)鍵詞共現(xiàn)表
以2014—2015年的數(shù)據(jù)為例,實(shí)驗(yàn)首先通過讀入CSV文件構(gòu)建共詞網(wǎng)絡(luò);其次對共詞網(wǎng)絡(luò)通過調(diào)用Louvain算法進(jìn)行社區(qū)劃分;然后調(diào)整解析度的值觀察模塊度Q的變化,如圖3所示,當(dāng)解析度為1.2時(shí)模塊度Q值達(dá)到最大0.673,故選用解析度1.2作為最終閾值進(jìn)行社區(qū)劃分;最后對共詞網(wǎng)絡(luò)進(jìn)行“Fruchterman Reingold”布局調(diào)整,得到最終共詞網(wǎng)絡(luò)圖,如圖4所示。
圖3 模塊度隨解析度變化情況
用表格對圖4進(jìn)行統(tǒng)計(jì),將每個(gè)社區(qū)中的主要關(guān)鍵詞進(jìn)行提取匯聚成2014—2015年社區(qū)表,如表2所示。并以上述方法依次得到2016—2017年、2018—2019年、2020—2021年社區(qū)表,如表3、表4、表5所示。
圖4 2014—2015年共詞網(wǎng)絡(luò)調(diào)整圖
表2 2014—2015年社區(qū)表
表3 2016—2017年社區(qū)表
表4 2018—2019年社區(qū)表
表5 2020—2021年社區(qū)表
實(shí)驗(yàn)統(tǒng)計(jì)了高等教育國際化和雙一流建設(shè)文章的發(fā)文量,如圖5所示,高等教育國際化的熱度一直維持在較為平均的水平。而雙一流建設(shè)熱度曲線出現(xiàn)很大波動(dòng),2015—2017年“雙一流”建設(shè)上升明顯,查閱資料發(fā)現(xiàn)2015-10-24國務(wù)院印發(fā)《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》[8]對新時(shí)期高等教育重點(diǎn)建設(shè)作出新部署,將“211工程”“985工程”及“優(yōu)勢學(xué)科創(chuàng)新平臺(tái)”等重點(diǎn)建設(shè)項(xiàng)目,統(tǒng)一納入世界一流大學(xué)和一流學(xué)科建設(shè),2015年11月,由國務(wù)院印發(fā),決定統(tǒng)籌推進(jìn)建設(shè)世界一流大學(xué)和一流學(xué)科,至此雙一流建設(shè)的熱度開始上升。而后2017-01-24,經(jīng)國務(wù)院同意,教育部、財(cái)政部、國家發(fā)展和改革委員會(huì)聯(lián)合印發(fā)《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)實(shí)施辦法(暫行)》;2017-09-21,教育部、財(cái)政部、國家發(fā)展改革委聯(lián)合發(fā)布《教育部 財(cái)政部 國家發(fā)展改革委關(guān)于公布世界一流大學(xué)和一流學(xué)科建設(shè)高校及建設(shè)學(xué)科名單的通知》,世界一流大學(xué)和一流學(xué)科建設(shè)高校及建設(shè)學(xué)科名單正式確認(rèn)公布,雙一流建設(shè)主題的熱度達(dá)到頂峰。
圖5 熱度變化圖
最后通過對4個(gè)時(shí)段的社區(qū)分析進(jìn)行統(tǒng)一的整理,共計(jì)統(tǒng)計(jì)“人才培養(yǎng)”“雙一流建設(shè)”“依法治?!薄爸袊厣F(xiàn)代大學(xué)制度”“高等教育改革”“創(chuàng)新創(chuàng)業(yè)”“高等教育質(zhì)量”“校企合作”“審核評估”“思想政治教育”“高等教育國際化”“傳統(tǒng)文化教育”“特色型大學(xué)”“學(xué)科建設(shè)”“人類命運(yùn)共同體”“新媒體”“研究生”“疫情防控”“新文科建設(shè)”19個(gè)社區(qū)。將19個(gè)社區(qū)代表性關(guān)鍵詞在每年關(guān)鍵詞表中進(jìn)行統(tǒng)計(jì)分析,首先導(dǎo)入Python的re模塊,用re.search的方法遍歷查找關(guān)鍵詞出現(xiàn)的頻率并記錄文章發(fā)表時(shí)間,然后導(dǎo)入Pyecharts模塊,將發(fā)表時(shí)間作為X_data,關(guān)鍵詞和關(guān)鍵詞出現(xiàn)的頻率作為y_data,最后生成社區(qū)河流圖,如圖6所示。通過河流圖看到,2014—2017年河流的流量在逐年的增加,2018年流量出現(xiàn)大幅度下降往后又出現(xiàn)上升趨勢?!叭瞬排囵B(yǎng)”“高等教育改革”“創(chuàng)新創(chuàng)業(yè)”“校企合作”的河流圖8年變化幅度較小,說明學(xué)者對這類主題的關(guān)注度呈現(xiàn)平穩(wěn)趨勢。
圖6 社區(qū)河流圖
《中國高等教育》是由中華人民共和國教育部主管、中國教育報(bào)刊社主辦的學(xué)術(shù)期刊,通過分析該期刊的文獻(xiàn),展現(xiàn)了中國高等教育研究的學(xué)術(shù)演進(jìn)動(dòng)態(tài),揭示高等教育研究領(lǐng)域的研究主體、熱點(diǎn)主題及其未來趨勢。近年來,《中國高等教育》熱點(diǎn)主題集中在雙一流建設(shè)、人才培養(yǎng)、高等教育改革等領(lǐng)域。雙一流建設(shè)主題聚焦“我國大學(xué)治理體系的發(fā)展演進(jìn)”“中國特色世界一流大學(xué)的標(biāo)志與特征”和“中國特色世界一流大學(xué)治理體系建設(shè)的路徑取向”等3個(gè)方面,高等教育改革主題較為集中探討高等教育改革的動(dòng)力、邏輯和路徑等內(nèi)容,人才培養(yǎng)主題聚焦校企合作、創(chuàng)新創(chuàng)業(yè)以及深化課堂教學(xué)改革等方面。從研究社區(qū)發(fā)現(xiàn)和共現(xiàn)網(wǎng)絡(luò)構(gòu)建中可以看出,中國高等教育研究主題熱度變化受國家政策文件影響大,高等教育改革重點(diǎn)多體現(xiàn)為自頂向下模式,學(xué)者積極參與到高等教育政策及改革實(shí)踐討論中,有利于貫徹落實(shí)國家意志,統(tǒng)一改革方向。同時(shí),主題發(fā)現(xiàn)也反映出高校自主改革創(chuàng)新并形成研究熱點(diǎn)以及研究成果影響勢能還不足,需集思廣益促進(jìn)高等教育發(fā)展。