■黃振宇,陳 哲,字汝倩,林嘉鴻,鄒葦婷
(湛江科技學(xué)院,廣東 湛江 524000)
隨著我國(guó)國(guó)際化進(jìn)程逐漸加快,各行業(yè)人才市場(chǎng)需求不斷加大。各大高校為了提高辦學(xué)效率和教學(xué)質(zhì)量,都在開展教育改革,從而為人才培養(yǎng)提供有效保障,因此,開展高等教育人才培養(yǎng)質(zhì)量的評(píng)估成為了教學(xué)質(zhì)量管理工作的關(guān)鍵環(huán)節(jié)[1]?!盎ヂ?lián)網(wǎng)+”教育以及教育大數(shù)據(jù)分析可以為教學(xué)工作提供決策支持[2]。本研究以廣東省高校人才培養(yǎng)質(zhì)量社交文本數(shù)據(jù)為基礎(chǔ),利用情感詞典和卷積神經(jīng)網(wǎng)絡(luò)算法展開分析,從而獲取社交網(wǎng)絡(luò)平臺(tái)對(duì)于廣東省高教人才培養(yǎng)質(zhì)量的態(tài)度和建議。
當(dāng)前我國(guó)關(guān)于高校人才培養(yǎng)質(zhì)量的研究,大多集中在學(xué)校專業(yè)建設(shè)、教師團(tuán)隊(duì)建設(shè)以及學(xué)生培養(yǎng)方式等高校人才培養(yǎng)環(huán)節(jié)上[3],研究手段主要是采用理論分析[4]、國(guó)內(nèi)外經(jīng)驗(yàn)借鑒,在此基礎(chǔ)上進(jìn)行人才培養(yǎng)質(zhì)量評(píng)估體系的優(yōu)化[5],少有依據(jù)培養(yǎng)質(zhì)量效果的反饋對(duì)人才培養(yǎng)方案做持續(xù)改進(jìn);研究中所選用的數(shù)據(jù)來(lái)源基本上是通過(guò)問(wèn)卷調(diào)查[6]、專家訪談等渠道,而這些數(shù)據(jù)帶有較大的主觀誤差,難以為研究提供精準(zhǔn)的實(shí)證支撐。所以,當(dāng)前采用獨(dú)立客觀數(shù)據(jù)精準(zhǔn)分析的以高校人才培養(yǎng)質(zhì)量效果為導(dǎo)向評(píng)估方式的研究成果較為匱乏。本研究通過(guò)對(duì)網(wǎng)絡(luò)資訊、網(wǎng)絡(luò)社交數(shù)據(jù)的無(wú)差異采集分析,進(jìn)行海量大數(shù)據(jù)文本統(tǒng)計(jì)分析,引入基于雙向循環(huán)注意力神經(jīng)網(wǎng)絡(luò)模型解決文本中的高頻詞和情感關(guān)鍵詞之間的關(guān)聯(lián)問(wèn)題,并融合注意力模型分配給領(lǐng)域關(guān)鍵詞更高的權(quán)重,最終進(jìn)一步完善對(duì)高校人才培養(yǎng)質(zhì)量評(píng)估系統(tǒng)的改進(jìn)。
本研究獲得的數(shù)據(jù)均是來(lái)自網(wǎng)絡(luò)上社會(huì)對(duì)廣東省省屬高校的客觀意見(jiàn),但是在研究方法和手段上是國(guó)內(nèi)首次將大數(shù)據(jù)文本挖掘和神經(jīng)網(wǎng)絡(luò)算法分析運(yùn)用在高等教育領(lǐng)域的研究中。
文章運(yùn)用網(wǎng)絡(luò)文本內(nèi)容分析法與對(duì)比研究法。內(nèi)容分析法是對(duì)文獻(xiàn)內(nèi)容進(jìn)行高效率、去主觀化、量化分析的一種研究方法[7]。這種方法的優(yōu)勢(shì)是去中心、去系統(tǒng)的文本,將離散的互動(dòng)交流式的信息轉(zhuǎn)化為系統(tǒng)、量化的數(shù)據(jù)[8]。本研究使用python爬蟲程序獲得社交文本數(shù)據(jù),利用情感詞典和神經(jīng)網(wǎng)絡(luò)算法(通過(guò)github獲取的開源代碼)對(duì)文本施行分詞分句后進(jìn)行情感判斷,得出文本計(jì)量,最后建立人才培養(yǎng)質(zhì)量評(píng)估體系對(duì)數(shù)據(jù)進(jìn)行分析評(píng)價(jià)。
本研究整體上分為四個(gè)步驟:第一階段是對(duì)研究的學(xué)術(shù)環(huán)境進(jìn)行分析,對(duì)高校人才培養(yǎng)質(zhì)量評(píng)估的創(chuàng)新需求進(jìn)行整理,對(duì)文本分析關(guān)鍵技術(shù)運(yùn)用評(píng)估;第二階段是分別進(jìn)行實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)集獲取、文本的預(yù)處理;第三階段是對(duì)文本進(jìn)行挖掘工作,關(guān)鍵點(diǎn)在于使用情感詞典+卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)文本的情感進(jìn)行分析,使用stata分析數(shù)據(jù)的相關(guān)性;第四階段是將分析的結(jié)果進(jìn)行討論和思考。實(shí)驗(yàn)設(shè)計(jì)思路如圖1所示。
圖1 實(shí)驗(yàn)計(jì)劃思路
本研究的數(shù)據(jù)來(lái)源主要兩處:一處是社交文本數(shù)據(jù),來(lái)自中國(guó)較大的社交平臺(tái):百度貼吧;另一處是廣東省教育廳在“創(chuàng)新強(qiáng)?!表?xiàng)目中對(duì)廣東省48所省屬本科高校的人才培養(yǎng)質(zhì)量評(píng)估的數(shù)據(jù)。
本研究計(jì)劃通過(guò)該實(shí)驗(yàn)回答以下幾個(gè)問(wèn)題:
通過(guò)社交媒體獲取的文本,是否能較為全面地展示高等教育的人才培養(yǎng)質(zhì)量?
使用社交媒體的文本對(duì)高校人才培養(yǎng)質(zhì)量進(jìn)行評(píng)估的結(jié)果和主管部門提供的評(píng)估結(jié)果有什么不同?
在文本分析任務(wù)中,往往需要使用大量的文本數(shù)據(jù)集來(lái)完成算法的訓(xùn)練,從而提高算法性能。百度貼吧是百度旗下獨(dú)立品牌、全球領(lǐng)先的中文社區(qū),該社區(qū)有效地使用特定的關(guān)鍵詞將感興趣的網(wǎng)絡(luò)用戶聚集在一起,這為捕捉廣東省不同高校學(xué)生的社交文本提供了極大便利。在數(shù)據(jù)爬取過(guò)程中,利用chromedriver軟件來(lái)模擬用戶登錄,采集貼吧文本數(shù)據(jù)。百度貼吧采集數(shù)據(jù)的流程如圖2所示。
圖2 百度貼吧文本抓取流程圖
在獲得數(shù)據(jù)后,我們對(duì)數(shù)據(jù)進(jìn)行初步處理:爬蟲所獲取的文本就算通過(guò)解析之后,可能仍然包含許多網(wǎng)頁(yè)格式自帶的標(biāo)簽,這些無(wú)用的標(biāo)簽不僅對(duì)于文本內(nèi)容分析不起作用,還會(huì)干擾正常文本分析工作,去除程度越高,越有利于文本分析工作的進(jìn)行。常見(jiàn)方法是匹配正則表達(dá)式,篩選網(wǎng)頁(yè)數(shù)據(jù)中的網(wǎng)頁(yè)標(biāo)簽。此外,也可使用字符串匹配的方式去除相對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)簽字符,或者使用Word中通配符文本替換的方法進(jìn)行標(biāo)簽去除。
通過(guò)對(duì)48所學(xué)校(原本是49所學(xué)校,但某學(xué)校因?yàn)檎蚊舾性虿婚_放貼吧)社交平臺(tái)進(jìn)行抓取,筆者獲得了百萬(wàn)級(jí)的文本數(shù)據(jù)(平均每個(gè)學(xué)校的文本字符數(shù)約70 000,總文本字符數(shù)約等于3360 000),使用神經(jīng)網(wǎng)絡(luò)算法的并行運(yùn)算,實(shí)現(xiàn)了對(duì)貼吧每一個(gè)文本句子的內(nèi)容進(jìn)行情感分析,筆者按照每年廣東省教育廳所進(jìn)行的“創(chuàng)新強(qiáng)校工程”專家考核評(píng)審中詳細(xì)指標(biāo)擬定了關(guān)鍵詞,篩選出對(duì)應(yīng)的文本句子,在使用人工的方法對(duì)貼子所標(biāo)志的情感狀態(tài)進(jìn)行收集整理和展示。
廣東省教育廳的高校評(píng)價(jià)指標(biāo)體系涵蓋了專業(yè)和課程建設(shè)、教師教學(xué)能力、實(shí)踐教學(xué)、人才培養(yǎng)模式改革與成效、質(zhì)量保障體系建設(shè)及成效、學(xué)位授予質(zhì)量六個(gè)一級(jí)指標(biāo),一級(jí)指標(biāo)下面分多個(gè)二級(jí)指標(biāo),如專業(yè)和課程建設(shè)一級(jí)指標(biāo)下面就有專業(yè)及課程建設(shè)規(guī)劃、優(yōu)質(zhì)專業(yè)和課程建設(shè)、校企共建專業(yè)多個(gè)二級(jí)指標(biāo)。確保立體全面涵蓋了高等院校人才培養(yǎng)質(zhì)量的方方面面,具有科學(xué)性和權(quán)威性[9]。
本研究通過(guò)以下的操作驗(yàn)證問(wèn)題:筆者在借鑒廣東省教育廳的高校評(píng)價(jià)指標(biāo)體系(把握控制變量,用于驗(yàn)證問(wèn)題),進(jìn)一步構(gòu)建每類指標(biāo)的相關(guān)指標(biāo)詞典;確保每個(gè)指標(biāo)指向的關(guān)鍵詞具有能夠代表這一類別指標(biāo)的特點(diǎn),同時(shí)采用抽樣驗(yàn)證的方法,確保關(guān)鍵詞能獲取到實(shí)驗(yàn)中所需的文本內(nèi)容,若出現(xiàn)文本量不足或者文本情感差異過(guò)大的情況,筆者將對(duì)關(guān)鍵詞進(jìn)行審核或者替換嘗試,各類指標(biāo)詞典如表1所示。
表1 社會(huì)評(píng)價(jià)指標(biāo)詞典(部分)
在構(gòu)建高教人才培養(yǎng)質(zhì)量社 會(huì)評(píng)價(jià)指標(biāo)詞典基礎(chǔ)上,利用其中的關(guān)鍵詞對(duì)卡面獲取到的300多萬(wàn)文本進(jìn)行文本內(nèi)容提取,例如在一級(jí)指標(biāo)“專業(yè)和課程建設(shè)”中“專業(yè)及課程建設(shè)規(guī)劃”下的關(guān)鍵詞“課程”,通過(guò)其檢索出來(lái)的文本句子或者句子群(以單個(gè)帖子或者回答作為區(qū)分標(biāo)準(zhǔn)),進(jìn)行計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)算法的打分來(lái)實(shí)現(xiàn)情感判斷。
以下操作主要是為了驗(yàn)證問(wèn)題:筆者將數(shù)值分為三組,第一組是廣東省教育廳“創(chuàng)新強(qiáng)?!惫ぷ髦羞x取的“人才培養(yǎng)”專項(xiàng)的分值,第二組數(shù)據(jù)是來(lái)自于神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練前的情感判斷打分(取樣10%進(jìn)行人工訓(xùn)練),第三組數(shù)據(jù)是來(lái)自于神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練后的情感判斷打分。廣東高校社交文本情感分析得分見(jiàn)表2。
表2 廣東高校社交文本情感分析得分(部分)
結(jié)果顯示神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練前的結(jié)果與廣東省教育廳“創(chuàng)新強(qiáng)?!惫ぷ髦羞x取的“人才培養(yǎng)”專項(xiàng)分值毫不相關(guān),P值(0.17)大于 0.1。這說(shuō)明從GitHub上面獲得的開源代碼和情感詞典進(jìn)行情感判斷的誤差非常大,如果進(jìn)行大數(shù)據(jù)文本分析工作,必須要進(jìn)行事前的人工訓(xùn)練,實(shí)現(xiàn)算法系統(tǒng)的調(diào)教。
經(jīng)過(guò)實(shí)驗(yàn)人員提交人工判斷方法進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)情感算法的打分分值,與廣東省教育廳“創(chuàng)新強(qiáng)校”工作中選取的“人才培養(yǎng)”專項(xiàng)分值的回歸P值(0.048)低于0.05,說(shuō)明相關(guān)性顯著,存在負(fù)相關(guān),但不是非常明顯。斷點(diǎn)回歸圖如圖3所示。
圖3 斷點(diǎn)回歸圖
通過(guò)借鑒和對(duì)照廣東省教育廳對(duì)省屬本科高校的評(píng)估指標(biāo),筆者建立了社會(huì)評(píng)價(jià)指標(biāo)詞典。最后結(jié)果顯示問(wèn)題的結(jié)論是肯定的;筆者將省教育主管部門的評(píng)估分?jǐn)?shù)和社交網(wǎng)絡(luò)文本的情感分析方法獲得的人才培養(yǎng)質(zhì)量評(píng)估分值相對(duì)比,顯示存在顯著負(fù)相關(guān),對(duì)于這個(gè)結(jié)果的理解分為兩面:一個(gè)原因是高校行政主管部門和高校學(xué)生自己的觀察角度不同,所獲得的信息存在較大的誤差;另一個(gè)原因是高校在按照上級(jí)主管部門執(zhí)行人才培養(yǎng)方案的時(shí)候忽略了學(xué)生的需求,導(dǎo)致學(xué)生產(chǎn)生不滿情緒——這個(gè)筆者認(rèn)為是對(duì)問(wèn)題的解答。鑒于此,筆者建議廣東省教育廳在高校人才培養(yǎng)質(zhì)量評(píng)估標(biāo)準(zhǔn)的優(yōu)化過(guò)程中,可以對(duì)指標(biāo)作進(jìn)一步細(xì)化,尤其是顧及到高校學(xué)生對(duì)本校方案實(shí)施的滿意程度和情感訴求。
第一,數(shù)據(jù)獲取來(lái)源渠道不足,目前按照計(jì)劃從多個(gè)平臺(tái)上獲取文本信息進(jìn)行分析,但是受限于數(shù)據(jù)量的要求和文本的質(zhì)量,絕大多數(shù)用于分析的文本來(lái)自于百度貼吧,這導(dǎo)致了文本的情感的主體是在校大學(xué)生,存在一定偏差,不足以代表社會(huì)群體的整體意見(jiàn)。后續(xù)的工作是編寫更多的社交平臺(tái)文本抓取程序,增加文本獲取的時(shí)長(zhǎng),以獲得更多的文本數(shù)據(jù)來(lái)進(jìn)行多維度校正。
第二,文本數(shù)據(jù)清洗的質(zhì)量不高,導(dǎo)致了有大量的廣告參雜其中,其主要原因是本調(diào)研的時(shí)間不足,人手有限。后續(xù)工作將會(huì)開發(fā)新的廣告清洗算法,使用軟件來(lái)解決。
第三,關(guān)鍵詞設(shè)置不合理,本研究使用的關(guān)鍵詞是為了能篩選出與評(píng)價(jià)指標(biāo)相關(guān)的文本信息,但是因?yàn)榛ヂ?lián)網(wǎng)平臺(tái)上的管理規(guī)則,某些主題的貼子將會(huì)被管理員刪除,所以導(dǎo)致本次設(shè)置的一些關(guān)鍵詞對(duì)應(yīng)的內(nèi)容不能被開始的爬蟲程序所抓取。未來(lái)需要開辟新的思路,尋找社交平臺(tái)管理更為寬松的平臺(tái),以獲得更加真實(shí)的學(xué)生意思表示文本,提高研究質(zhì)量。
太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào)2022年7期