王金羽 詹逸思 馮 起 李曼麗
(1.清華大學(xué) 教育研究院,北京 100084;2.清華大學(xué) 學(xué)生學(xué)習(xí)與發(fā)展指導(dǎo)中心,北京 100084;3.清華大學(xué) 電機(jī)工程與應(yīng)用電子技術(shù)系,北京 100084)
隨著在線教育信息技術(shù)的發(fā)展,海量增長(zhǎng)的文本資料成為教育研究者開(kāi)展教育研究的數(shù)據(jù)寶藏。然而,大量的文本資料過(guò)于豐富,難以僅憑過(guò)往研究者的人工編碼分析展開(kāi)研究。為了充分利用這些寶貴的研究資料,更好地發(fā)現(xiàn)基于新模態(tài)數(shù)據(jù)的教育學(xué)科新知識(shí),探索新的數(shù)據(jù)分析方法已成為近些年全球教育學(xué)者們關(guān)注的熱點(diǎn)問(wèn)題。在這方面,研究者們最初聚焦在已有教育教學(xué)信息管理系統(tǒng)中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)分析方法上,例如美國(guó)普渡大學(xué)的課程信號(hào)項(xiàng)目(Course Signals)(1)祝智庭,沈德梅.學(xué)習(xí)分析學(xué):智慧教育的科學(xué)力量[J].電化教育研究,2013,(5):5-12.、比爾蓋茨基金會(huì)的學(xué)位指南針項(xiàng)目(Degree Compass)(2)Darrell M.West, “Big Data for Education: Data Mining, Data Analytics, and Web Dashboards,”Governance Studies at Brookings, no.4(2012): 1-10.,以及密西根大學(xué)的Gradecraft平臺(tái)(3)The New Media Consortium,“NMC Horizon Report 2014 Higher Education Edition,”(2014).。伴隨著越來(lái)越多的非結(jié)構(gòu)數(shù)據(jù)的出現(xiàn),眾多研究者聚焦在此類(lèi)數(shù)據(jù)的文本挖掘方法工具探索,比如賽斯·格蘭姆斯(Seth Grimes)(4)Seth Grimes,“Unstructured Data and the 80 Percent Rule,”http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/.、史蒂夫·卡恩斯(Steve Kearns)(5)ITBE Staff,“Six Reasons Businesses Need to Pay Attention to Unstructured Data,”http://www.itbusinessedge.com/slideshows/six-reasons-businesses-need-to-pay-attention-to-unstructured-data-05.html.、劉三女牙等(6)劉三女牙等.基于文本挖掘的學(xué)習(xí)分析應(yīng)用研究.[J].電化教育研究,2016,(2):23-27.。盡管不斷有新的文本分析方法更新迭代,但文本數(shù)據(jù)來(lái)源的多樣性、質(zhì)量的差異性仍不斷增加,因此與傳統(tǒng)的教育定量和質(zhì)性研究方法邏輯緊密相扣的分析方法仍有待突破。例如,質(zhì)性研究中依靠研究者人工編碼的扎根資料分析法,在一級(jí)編碼時(shí)倘若面臨教育信息技術(shù)產(chǎn)生的海量文本資料,研究將無(wú)法如期進(jìn)行。不僅在質(zhì)性研究方法中一級(jí)編碼時(shí)會(huì)遇到數(shù)據(jù)分析方法的瓶頸,倘若研究者期待驗(yàn)證不同概念之間的量化假設(shè)關(guān)系,也同樣處處受人力掣肘。
具體而言,教育評(píng)估過(guò)程中產(chǎn)生的大量主觀描述性和評(píng)價(jià)性的文本數(shù)據(jù),尚未得到充分有效的分析和利用。例如普通高等學(xué)校本科教學(xué)工作水平評(píng)估過(guò)程中,教育部普通高等學(xué)校本科教育教學(xué)評(píng)估專(zhuān)家委員會(huì)被國(guó)家委派赴各個(gè)高校聽(tīng)課、調(diào)查評(píng)估,為每所高校提供了本科教學(xué)工作水平的改進(jìn)意見(jiàn)。未來(lái)的教育決策不僅僅依靠某幾位專(zhuān)家的教育教學(xué)評(píng)估反饋,而需匯聚多渠道來(lái)源的專(zhuān)家評(píng)估意見(jiàn),分析全國(guó)教育整體情況和發(fā)展趨勢(shì),方能制定出有效的教育教學(xué)發(fā)展政策。為了更有效地促進(jìn)教育教學(xué)改進(jìn),教育領(lǐng)域海量中文文本數(shù)據(jù)的有效分析方法需要突破。
目前,統(tǒng)計(jì)學(xué)研究界已有概率潛在語(yǔ)義索引模型(PLSI)(7)Thomas Hofmann,“Probabilistic Latent Semantic Indexing,”P(pán)roceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,(1999):50-57.、潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)(8)王健,張俊妮.統(tǒng)計(jì)模型在中文文本挖掘中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2017,(4):609-619.等基于英文文本資料分析的算法。然而,這些均是基于英語(yǔ)語(yǔ)言環(huán)境,以及對(duì)英文文本分析的研究成果。而中文文本的內(nèi)容分析需要分詞、詞和句意義的解讀、主題聚類(lèi)分析是否可行,都有待基于中文環(huán)境的文本驗(yàn)證。目前在社會(huì)科學(xué)領(lǐng)域,LDA已經(jīng)被政治學(xué)、管理學(xué)等研究者應(yīng)用分析中文文本較多,但是其主題聚類(lèi)的分析結(jié)果仍有待優(yōu)化。因此,關(guān)于中文文本的主題聚類(lèi)分析方法如何在教育學(xué)等社會(huì)學(xué)科領(lǐng)域的研究應(yīng)用,仍有待突破。2013年,瑪格麗特·羅伯茨(Margaret E.Roberts)等人(9)Margaret E.Roberts et al.,“The Structural Topic Model and Applied Social Science,”Advances in Neural Information Processing Systems Workshop on Topic Models: Computation, Application, and Evaluation, no.4(2013): 1-20.開(kāi)發(fā)了結(jié)構(gòu)主題模型(Structural Topic Model, STM),隨后在政治學(xué)、新聞傳播學(xué)等領(lǐng)域相繼有學(xué)者應(yīng)用STM進(jìn)行文本內(nèi)容分析研究。例如羅伯茨等人(10)Margaret E.Roberts et al.,“Structural Topic Models for Open-ended Survey Responses,”American Journal of Political Science, no.58(2014): 1064-1082.應(yīng)用該方法進(jìn)行政治學(xué)科開(kāi)放式問(wèn)卷所采集的文本內(nèi)容分析,驗(yàn)證了STM對(duì)于英文文本內(nèi)容分析的適用性;吳俊等人(11)吳俊等.基于STM和格蘭杰因果分析的網(wǎng)絡(luò)新聞媒體傾向研究[J].系統(tǒng)工程學(xué)報(bào),2020,(4):446-458.應(yīng)用該方法進(jìn)行新聞報(bào)道文本內(nèi)容分析,并驗(yàn)證了STM對(duì)中文文本分析的適用性,且具有比LDA等傳統(tǒng)主題模型更好的預(yù)測(cè)性能;苗紅等人(12)苗紅等.基于結(jié)構(gòu)主題模型的用戶功能需求挖掘研究[J].情報(bào)雜志,2020,(7):134-141.應(yīng)用該方法挖掘用戶功能需求,分析各需求間的關(guān)系、價(jià)格變化對(duì)不同需求的影響,并將STM與傳統(tǒng)詞頻統(tǒng)計(jì)方法作對(duì)比,發(fā)現(xiàn)STM有助于克服傳統(tǒng)詞頻統(tǒng)計(jì)方法的缺陷,提高了用戶功能需求定位的準(zhǔn)確性。其他相關(guān)研究亦驗(yàn)證了STM對(duì)中文語(yǔ)料的適用性以及相對(duì)于其他分析方法的優(yōu)越性(13)瓦倫蒂娜·安佐西等.大規(guī)模城市開(kāi)發(fā)敘事研究:以杭州未來(lái)科技城為例[J].杭州師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2020,(5):121-129;吳俊等.融合語(yǔ)義與情感分析的區(qū)塊鏈產(chǎn)業(yè)新聞監(jiān)測(cè)研究[J].現(xiàn)代情報(bào),2020,(11):22-33.。然而,該方法是否能應(yīng)用于教育教學(xué)評(píng)估中文語(yǔ)料的文本內(nèi)容分析,尚無(wú)先例。
本文嘗試應(yīng)用STM內(nèi)容分析法展開(kāi)某高校教學(xué)評(píng)估中文文本資料的主題分析,識(shí)別核心主題,并且結(jié)合傳統(tǒng)的教育質(zhì)性研究方法中的人工編碼,以期更精準(zhǔn)地理解文本資料的意義,為發(fā)現(xiàn)結(jié)論奠定扎實(shí)的基礎(chǔ)。這一“人機(jī)協(xié)同”的文本內(nèi)容分析法不僅將使教育研究者分析海量中文文本資料成為可能,而且能幫助研究者更快速地提取所研究文本資料的內(nèi)容主題,從而提高研究效率。
2020年春,受疫情影響,H高校組織各院系開(kāi)展線上教學(xué)。為保障全校課程線上順利開(kāi)課,該校教學(xué)質(zhì)量評(píng)估中心于2月17日至3月6日組織開(kāi)展了線上教學(xué)保障性聽(tīng)課活動(dòng)。各院系主任(院長(zhǎng))、書(shū)記、教學(xué)主任等教學(xué)專(zhuān)家133人,在線全程觀察直播課358門(mén),聽(tīng)課后填寫(xiě)課堂觀察反饋問(wèn)卷463份。反饋問(wèn)卷中,設(shè)置了7項(xiàng)開(kāi)放性問(wèn)題,采集聽(tīng)課專(zhuān)家對(duì)線上教學(xué)效果的評(píng)價(jià)和改進(jìn)建議。7個(gè)開(kāi)放性問(wèn)題包括如下:(1)師生互動(dòng)方式和效果如何?(2)教學(xué)上有什么突出特色和改革創(chuàng)新之處?(3)線上教學(xué)的適應(yīng)性如何?(4)教學(xué)技術(shù)平臺(tái)和工具使用的熟練度如何?(5)課堂交互的開(kāi)展和控制如何?(6)教學(xué)內(nèi)容的深度和廣度如何?(7)其他反饋。原始數(shù)據(jù)覆蓋200個(gè)不同學(xué)科的線上直播課程。研究者進(jìn)行了前期的數(shù)據(jù)清理,形成可供STM工具包導(dǎo)入的Excel表格數(shù)據(jù)形式。最終獲得200條有效數(shù)據(jù)中,每條數(shù)據(jù)均包括7個(gè)主觀問(wèn)題的聽(tīng)課記錄反饋文字(WenBen)和相應(yīng)的協(xié)變量,如聽(tīng)課星期、上課節(jié)次(Time)、課程類(lèi)型(liGong,若為理工類(lèi)課程,則其值為1,否則為0)等(處理后數(shù)據(jù)詳情如圖1)。
本次教學(xué)評(píng)估包含上千條文本數(shù)據(jù)。采用傳統(tǒng)的人工編碼方法處理?xiàng)l目眾多的文本數(shù)據(jù)需要耗費(fèi)研究者大量的時(shí)間和精力,故本研究采用STM對(duì)這些文本數(shù)據(jù)進(jìn)行分析。分析步驟如下:
1.文本預(yù)處理
文本預(yù)處理包括分詞、設(shè)置專(zhuān)業(yè)詞庫(kù)和停用詞庫(kù)三個(gè)部分。分詞是將文本拆分成若干詞,是中文自然語(yǔ)言處理的關(guān)鍵。(14)Nianwen Xue,“Chinese Word Segmentation as Character Tagging,”International Journal of Computational Linguistics & Chinese Language Processing, no.8(November 2003): 29-48.本文采用Jieba(結(jié)巴分詞)作為分詞工具。它不僅是簡(jiǎn)單、高效、靈活的Python工具庫(kù),廣受自然語(yǔ)言處理研究者的喜愛(ài)(15)曹帥.結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,(5):144-151.,也是R語(yǔ)言中應(yīng)用廣泛的中文分詞工具包。專(zhuān)業(yè)詞庫(kù)是用戶自定義詞項(xiàng)的集合。利用Jieba分詞時(shí),部分詞項(xiàng)會(huì)無(wú)法識(shí)別。例如,“雨課堂”會(huì)被識(shí)別為“雨”“課堂”兩個(gè)詞項(xiàng)。將“雨課堂”輸入專(zhuān)業(yè)詞庫(kù)可解決該問(wèn)題。停用詞庫(kù)是對(duì)研究無(wú)意義的詞項(xiàng)、符號(hào)的集合,如“了”“的”和標(biāo)點(diǎn)符號(hào)等。這些詞將通過(guò)建立停用詞庫(kù),并運(yùn)行相關(guān)命令被移除。圖2為文本預(yù)處理后的部分?jǐn)?shù)據(jù),可見(jiàn)每條文字總結(jié)均被拆分為若干詞(Word),每條拆分后的文字總結(jié)稱(chēng)為一個(gè)文檔(Document)。
2.選擇最優(yōu)主題聚類(lèi)結(jié)果
STM的一個(gè)重要功能是對(duì)文本數(shù)據(jù)的主題(Topic)進(jìn)行聚類(lèi)。主題又稱(chēng)“隱性語(yǔ)義”(Latent Semantic)。STM和其他主題模型的重要功能即在于通過(guò)一些算法識(shí)別出文本背后隱含的抽象的、不可見(jiàn)的主題,并將其用形象、具體的方式表現(xiàn)出來(lái)。由于STM在進(jìn)行主題聚類(lèi)的過(guò)程中考慮了文檔協(xié)變量的影響,故與其他主題模型相比,STM通常具有更好的聚類(lèi)效果。STM聚類(lèi)首先要確定第一個(gè)重要參數(shù)即為主題數(shù)。輸入不同的主題數(shù),會(huì)產(chǎn)生不同的主題聚類(lèi)結(jié)果。最優(yōu)主題結(jié)果是使主題聚類(lèi)效果最優(yōu)主題取值下呈現(xiàn)的數(shù)據(jù)形態(tài)及結(jié)構(gòu)。衡量主題聚類(lèi)效果有多種指標(biāo),本文采用兩個(gè)指標(biāo)——留出似然值(16)留出似然值(Held-Out Likelihood):STM并非對(duì)所有文檔數(shù)據(jù)進(jìn)行擬合,而是對(duì)原始的文檔數(shù)據(jù)進(jìn)行抽樣,抽樣出來(lái)的文檔稱(chēng)為“留出文檔”。留出文檔不參與模型擬合。模型擬合完成后,估算該模型產(chǎn)生留出文檔的概率。該值越高,則該模型的“留出似然值”愈高。該值體現(xiàn)了模型對(duì)新數(shù)據(jù)的預(yù)測(cè)能力。和語(yǔ)義一致性(17)語(yǔ)義一致性(Semantic Coherent):該指標(biāo)表征了高頻主題詞的共現(xiàn)頻率。計(jì)算該指標(biāo)時(shí),關(guān)注各主題下出現(xiàn)頻率最高的M個(gè)詞(M的值由研究者指定,默認(rèn)值為10)。若這些詞同時(shí)出現(xiàn)在一個(gè)文檔中的次數(shù)越多,則該指標(biāo)值越高。。仍以聽(tīng)課報(bào)告數(shù)據(jù)為例,令主題取值在2到10之間變化,觀察不同取值下上述兩個(gè)指標(biāo)的運(yùn)行結(jié)果,圖3為運(yùn)行結(jié)果。一般來(lái)說(shuō),建議選取這兩個(gè)指標(biāo)都比較高的模型為較優(yōu)主題聚類(lèi)結(jié)果。如此,在本例中,可選擇主題數(shù)為2、6、7的三個(gè)模型(最優(yōu)主題取值數(shù)可以不唯一)。
3.主題建模與語(yǔ)義理解
輸入最優(yōu)主題取值數(shù)后,R語(yǔ)言STM包通過(guò)底層算法推斷文檔中的各詞分別來(lái)自哪個(gè)主題,進(jìn)而確定各文檔的“文檔-主題”分布,以及各主題的“主題-詞項(xiàng)”分布。通過(guò)一個(gè)文檔的“文檔-主題”分布,可以得知該文檔中來(lái)自各主題的詞的數(shù)量分別有多少。當(dāng)文檔的詞的數(shù)量一定時(shí),來(lái)自某一主題的詞的數(shù)量越多,則該主題的強(qiáng)度通常越高。(18)一篇文檔D中主題T的主題強(qiáng)度(topic prevalence)是指文檔D中的某個(gè)詞屬于主題T的先驗(yàn)概率。如果用頻率近似估計(jì)概率,則文檔D中主題T的強(qiáng)度可近似估計(jì)為:文檔D中隸屬于主題T的詞的數(shù)量/文檔D的詞數(shù)。可見(jiàn)主題強(qiáng)度越高,則該主題在文檔中越可能被提到。通過(guò)一個(gè)主題的“主題-詞項(xiàng)”分布,可以得知該主題中的每個(gè)詞項(xiàng)出現(xiàn)的頻率。STM可以列舉各主題之下的高頻詞項(xiàng),從而用具體的詞項(xiàng)來(lái)描述抽象的主題。STM的可視化功能,也可以實(shí)現(xiàn)某個(gè)主題的高頻主題詞和強(qiáng)度。圖4顯示了關(guān)于直播課堂教師線上教學(xué)適應(yīng)性如何的課堂觀察的文檔,假如選擇主題取值數(shù)為6,其六類(lèi)主題的前三個(gè)高頻主題詞和其在整個(gè)文本中的強(qiáng)度如圖4所示。第五個(gè)主題的前三個(gè)高頻主題詞為“ppt”“注意力”和“充分利用”,直線長(zhǎng)短表示該主題的強(qiáng)度大小,越長(zhǎng)代表強(qiáng)度越大。
圖5列舉了主題數(shù)分別為2、6、7時(shí),各主題下出現(xiàn)頻率最高的三個(gè)詞,以及主題1強(qiáng)度最高的6個(gè)文檔。這些具體結(jié)果均有助于研究者人工理解抽象主題語(yǔ)義。
4.主題語(yǔ)義的人工編碼
前述步驟主要通過(guò)機(jī)器使用STM模型完成。這一步開(kāi)始加入人工分析編碼階段。在STM輸出結(jié)果的基礎(chǔ)上,由兩名研究人員分別進(jìn)行獨(dú)立的人工語(yǔ)境分析編碼。例如,圖5中最優(yōu)主題聚類(lèi)結(jié)果是主題取值數(shù)為2、6、7之下的情況。研究者分別對(duì)主題取值數(shù)為2、6、7三種情況下的各主題語(yǔ)義進(jìn)行背靠背編碼。
以主題取值數(shù)為6的情況為例,編碼人員須分別對(duì)6個(gè)主題進(jìn)行編碼。對(duì)每個(gè)主題的編碼均參考該主題下的高頻詞和強(qiáng)度最高的6個(gè)文檔。例如,對(duì)于Topic 3,其高頻詞為“騰訊會(huì)議,越來(lái)越,雨課堂”。編碼員1將該主題編碼為:“越來(lái)越適應(yīng)雨課堂和騰訊視頻的使用”,編碼員2編碼為“教師逐步使用騰訊會(huì)議和雨課堂功能互補(bǔ),越來(lái)越適應(yīng)在線教學(xué)”。而后,兩名編碼員進(jìn)行討論,結(jié)合Topic3強(qiáng)度最高的幾個(gè)文檔:“逐步適應(yīng),越來(lái)越放松”和“理論部分使用“荷塘-雨課堂”,實(shí)踐練習(xí)部分使用騰訊會(huì)議,轉(zhuǎn)換流暢”,協(xié)商確定將編碼員2的編碼作為T(mén)opic3的最終編碼。研究者對(duì)每個(gè)主題取值數(shù)下的每個(gè)主題都重復(fù)相同步驟,直到所有主題均被編碼。在此編碼過(guò)程中,每位研究者需要閱讀90個(gè)文檔。(19)研究者需要對(duì)模型2、模型6和模型7的所有主題進(jìn)行編碼。模型2有2個(gè)主題,模型6有6個(gè)主題,模型7有7個(gè)主題,共15個(gè)主題。對(duì)于每個(gè)主題,都需要閱讀該主題強(qiáng)度最高的6個(gè)文檔。共計(jì)研究者需要閱讀90個(gè)文檔。相較于閱讀近200條原始文檔資料,針對(duì)每條進(jìn)行傳統(tǒng)人工編碼所花費(fèi)的時(shí)間精力已明顯縮減。所需處理的原始文本數(shù)據(jù)中文檔越多,STM的工作效率優(yōu)勢(shì)越明顯。
而后,研究者根據(jù)模型對(duì)文本的覆蓋程度和歸納合理性選擇模型。例如,本次研究中,模型2(20)即主題數(shù)為2的主題模型。覆蓋度不夠,模型7的Topic3和Topic4語(yǔ)義重復(fù),故選擇模型6。最終,通過(guò)兩位編碼者的語(yǔ)義編碼后,確定模型6中的六個(gè)主題句如圖6所示。其中6個(gè)主題之間的關(guān)系是STM工具包的可視化功能體現(xiàn),6個(gè)主題句是兩位編碼者背靠背編碼后,再一同討論確定的對(duì)這類(lèi)主題的語(yǔ)義描述。
相對(duì)于傳統(tǒng)的人工編碼方法,STM不僅在處理大規(guī)模文本數(shù)據(jù)方面具備獨(dú)特優(yōu)勢(shì),還具備傳統(tǒng)人工編碼難以實(shí)現(xiàn)的一些其他功能。首先,STM可以給出文檔協(xié)變量和主題強(qiáng)度之間的定量關(guān)系,如圖7。例如模型6中,課程類(lèi)型與主題6的主題強(qiáng)度呈負(fù)相關(guān),其回歸關(guān)系為:prevalance6(主題6的主題強(qiáng)度)=-0.26173·liGong+0.33077。這意味著和其他文字評(píng)價(jià)相比,對(duì)理工類(lèi)課程的文字評(píng)價(jià)中較少提及“節(jié)奏感”這一主題。
其次,STM的可視化功能強(qiáng)大,能更清晰地展示數(shù)據(jù)分析結(jié)果,協(xié)助研究者對(duì)比分析數(shù)據(jù)。圖8是STM可視化功能清晰地展示了非理工科和理工科課堂不同主題強(qiáng)度的差異。該圖顯示了在理工科的直播課程中,Topic3“教師逐步使用騰訊會(huì)議和雨課堂功能互補(bǔ),越來(lái)越適應(yīng)”Topic 6“教師還需進(jìn)一步熟悉遠(yuǎn)程教學(xué)技術(shù),加強(qiáng)講授語(yǔ)言節(jié)奏感,保持學(xué)生注意力”兩個(gè)主題強(qiáng)度更大。而非理工科的直播課堂,Topic 1的強(qiáng)度更高“教師很適應(yīng)線上教學(xué),手寫(xiě)板對(duì)吸引學(xué)生注意力效果好”這個(gè)結(jié)果讓研究者可以快速清晰地對(duì)比觀察,發(fā)現(xiàn)不同學(xué)科的教師線上教學(xué)適應(yīng)性的差異情況。
圖9展示了協(xié)變量“課程類(lèi)型”對(duì)主題1高頻詞分布的影響。課程類(lèi)型為“LiGong”的文檔中,主題1最可能出現(xiàn)“教學(xué)效果”一詞。而課程類(lèi)型為“NonLiGong”的文檔中,主題1最可能出現(xiàn)“雨課堂”。這也可以幫助編碼者進(jìn)一步對(duì)比分析不同課程類(lèi)型的課堂觀察的差異。
結(jié)構(gòu)主題模型文本分析法相較于傳統(tǒng)僅憑人工編碼者的文本分析法具有諸多獨(dú)特優(yōu)勢(shì),如表1所示。首先,該方法使得教育研究者分析海量的半結(jié)構(gòu)化文本資料成為可能。過(guò)去,由于研究者時(shí)間精力的有限性,文本分析的資料主要集中在有限次數(shù)的訪談文本、字?jǐn)?shù)有限的教育政策文本等數(shù)據(jù)。而STM則可以對(duì)有固定主題或問(wèn)題下的開(kāi)放性文本資料開(kāi)展初步的主題類(lèi)別的分析,在機(jī)器文本信息提取的基礎(chǔ)上,研究者再開(kāi)展意義理解的人工編碼工作。例如,過(guò)往一些如學(xué)生在教學(xué)評(píng)估問(wèn)卷中,對(duì)教師教學(xué)的開(kāi)放性回答建議,由于難以用人工展開(kāi)分析則不得不成為封塵的“沉默數(shù)據(jù)”。但如今,研究人員可以采用STM讓類(lèi)似的寶貴文本數(shù)據(jù)開(kāi)始“說(shuō)話”,向政策制定者、社會(huì)公眾呈現(xiàn)教育教學(xué)的真實(shí)圖景。
STM的第二大優(yōu)勢(shì)是可以開(kāi)展質(zhì)性和定量混合研究。相對(duì)于以往的主題模型,STM在主題建模的過(guò)程中考慮了文檔協(xié)變量的影響。(21)協(xié)變量(covariate)常對(duì)主題強(qiáng)度(topic prevalence)有重要影響。例如,對(duì)于一批政治評(píng)論數(shù)據(jù),每條評(píng)論便是一個(gè)文檔。設(shè)置文檔協(xié)變量“time”。當(dāng)文檔寫(xiě)作時(shí)間為2020年12月時(shí)其值為1,否則為0。time值為1的文檔中,主題“美國(guó)大選”的強(qiáng)度要高于主題“全球化”的強(qiáng)度。而time值為0的文檔中,可能情況恰好相反??紤]協(xié)變量后的主題建模結(jié)果通常比不考慮協(xié)變量的預(yù)測(cè)效果好。相對(duì)于傳統(tǒng)的人工方法,主題模型通過(guò)分析文本數(shù)據(jù)中單詞的共現(xiàn)率,并將經(jīng)常共出現(xiàn)的單詞進(jìn)行分組,從而發(fā)現(xiàn)人類(lèi)在龐大數(shù)據(jù)中可能不會(huì)發(fā)現(xiàn)的有意義的主題。而相對(duì)于LDA等傳統(tǒng)的主題模型,STM對(duì)中文語(yǔ)料建模的預(yù)測(cè)性能更好,能定量估計(jì)協(xié)變量對(duì)主題強(qiáng)度的影響(22)吳俊等.基于STM和格蘭杰因果分析的網(wǎng)絡(luò)新聞媒體傾向研究[J].系統(tǒng)工程學(xué)報(bào),2020,(4):446-458.。不僅如此,文本分析后的主題也可以作為因變量,探索與時(shí)間、樣本人口統(tǒng)計(jì)學(xué)等自變量之間的相關(guān)關(guān)系。這種定量和質(zhì)性研究混合的研究方法實(shí)現(xiàn),將能探索出更多豐富內(nèi)涵的理論發(fā)現(xiàn)。
除了以上兩大優(yōu)勢(shì),一旦當(dāng)研究者熟練掌握此方法后,對(duì)大量文本的主題分析則會(huì)高效許多。研究者也可以借助機(jī)器抵消人腦注意力和思維的局限,發(fā)現(xiàn)一些頻次不高但具有教育學(xué)意義的主題和主題之間的規(guī)律。而且STM也借助于R語(yǔ)言強(qiáng)大的可視化功能,使得研究結(jié)論的呈現(xiàn)更加易于理解,例如本文圖4、圖6和圖8所示。
雖然,對(duì)比傳統(tǒng)的人工文本分析方法,STM已有諸多優(yōu)勢(shì),但對(duì)于應(yīng)用于實(shí)際的教育研究,還應(yīng)考慮以下情況:首先,STM要求文本數(shù)據(jù)必須以半結(jié)構(gòu)化的形式呈現(xiàn)。半結(jié)構(gòu)化是指該條數(shù)據(jù)除了有針對(duì)明確主題回答的文本資料(如線上教學(xué)適應(yīng)性如何),還需具備相應(yīng)的協(xié)變量(如聽(tīng)課星期、上課節(jié)次、課程類(lèi)型)。其次,STM無(wú)法自動(dòng)識(shí)別中文文檔中的停用詞、專(zhuān)業(yè)詞和同義詞的不同表現(xiàn)形式,而對(duì)這些詞的不同處理方式會(huì)對(duì)主題聚類(lèi)結(jié)果產(chǎn)生較大影響。因此,在主題分析之前,須由人工進(jìn)行文本預(yù)處理,這一步工作也對(duì)研究者的理論功底和文本資料的理解有一定的要求。最后,STM無(wú)法識(shí)別高頻主題詞之間的關(guān)系,以及背后的語(yǔ)義,須人工識(shí)別主題語(yǔ)義。(23)詞袋模型(unigram model)只考慮各詞在文檔中出現(xiàn)的頻率,而不考慮各詞在文檔中的先后順序。例如,STM中,文檔“貢獻(xiàn) 第一 收入 第二”和文檔“收入 第一 貢獻(xiàn) 第二”是完全等效的。例如圖4、圖5所示,編碼者需要根據(jù)STM呈現(xiàn)出來(lái)的主題高頻詞、樣例文檔展開(kāi)意義理解。需要指出的是,該方法是“人機(jī)協(xié)同”文本挖掘技術(shù)之一,其中機(jī)器不能替代人。
本研究探索了如何在分析教育教學(xué)評(píng)估的中文文本資料中應(yīng)用結(jié)構(gòu)主題模型展開(kāi)文本挖掘。研究發(fā)現(xiàn):該方法可以應(yīng)用于半結(jié)構(gòu)化文本資料的分析過(guò)程。它不僅具有可以分析海量文本資料、可視化功能強(qiáng)、分析效率高和降低人工分析主觀局限性等諸多優(yōu)勢(shì),還使得質(zhì)性和定量的混合研究更為可行便捷。這一“人機(jī)協(xié)同”文本挖掘方法的應(yīng)用,可以幫助教育研究者分析眾多技術(shù)平臺(tái)(如學(xué)堂在線等)中針對(duì)固定主題的海量文本資料,例如教學(xué)評(píng)估主觀問(wèn)題的回答、討論文本等等。
然而,該方法也存在一定的局限性。機(jī)器分析僅僅是供研究者作為人工分析的基礎(chǔ),無(wú)論是停用詞或自定義詞表的確定,或一定主題取值數(shù)之下的模型選擇,還是主題句的歸納,均離不開(kāi)研究者的人工分析。而且,該方法適于分析具有固定主題或問(wèn)題的文本資料(半結(jié)構(gòu)化文本),是否適合于分析非結(jié)構(gòu)化的文本數(shù)據(jù),仍有待于進(jìn)一步探索。