潘 芳 張會(huì)兵 董俊超
1(廣西師范大學(xué)職業(yè)技術(shù)師范學(xué)院 廣西 桂林 541004) 2(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)
由于在線(xiàn)課程開(kāi)放、方便和優(yōu)質(zhì)的特點(diǎn),使得在線(xiàn)學(xué)習(xí)者數(shù)量快速增加[1]。數(shù)量龐大、背景各異、層次多樣的學(xué)習(xí)者對(duì)在線(xiàn)課程的管理提出了新的挑戰(zhàn):實(shí)時(shí)掌握學(xué)習(xí)動(dòng)因、學(xué)情/狀態(tài)變化以更好地提供個(gè)性化教育服務(wù)。為適應(yīng)這一趨勢(shì),在線(xiàn)學(xué)習(xí)平臺(tái)會(huì)提供評(píng)論、論壇等社區(qū)功能,方便學(xué)習(xí)者、教師和平臺(tái)管理方之間的交流互動(dòng)。在線(xiàn)交互過(guò)程中會(huì)產(chǎn)生大量的交互文本等非結(jié)構(gòu)化數(shù)據(jù),對(duì)評(píng)論文本進(jìn)行情感分析可以有效獲取學(xué)習(xí)者的情感態(tài)度、學(xué)習(xí)體驗(yàn)等,從而理解學(xué)習(xí)者的需求變化和“學(xué)習(xí)痛點(diǎn)”,為個(gè)性化服務(wù)提供參考。
現(xiàn)有的在線(xiàn)課程評(píng)論情感分析主要有情感詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類(lèi)方法[1-3]。基于情感詞典的方法主要是依據(jù)人類(lèi)先驗(yàn)知識(shí)構(gòu)建情感詞典,將課程評(píng)論分詞后與情感詞典比對(duì)計(jì)算實(shí)現(xiàn)對(duì)課程評(píng)論的情感分析。該類(lèi)方法受情感詞典質(zhì)量的影響較大,不適用于在線(xiàn)課程海量評(píng)論信息情感分析的需要[4]?;跈C(jī)器學(xué)習(xí)的方法是將從評(píng)論文本中抽取的特征值傳入相應(yīng)模型中進(jìn)行情感分析[5],此類(lèi)方法的性能對(duì)特征工程依賴(lài)較大。隨著在線(xiàn)教育平臺(tái)中課程評(píng)論數(shù)據(jù)規(guī)模的快速增長(zhǎng),特征工程需要花費(fèi)的時(shí)間、人力急劇增加使得該類(lèi)方法缺點(diǎn)日益凸顯。近年來(lái),對(duì)評(píng)論文本進(jìn)行特征自動(dòng)抽取的深度學(xué)習(xí)情感分析模型(如CNN、RNN)在文本情感分類(lèi)研究中得到了廣泛應(yīng)用。然而,此類(lèi)模型中文本嵌入層依賴(lài)的one-hot編碼或詞向量編碼并不適用于屬性眾多、語(yǔ)義豐富、句型復(fù)雜的課程評(píng)論文本。最近,Google提出的BERT模型使用了一種新穎的“MASK”詞向量訓(xùn)練方法,不僅可以根據(jù)詞語(yǔ)在上下文中的含義對(duì)其進(jìn)行編碼,而且可以有效捕捉評(píng)論文本中分句間的關(guān)系,能較好地適應(yīng)海量課程評(píng)論數(shù)據(jù)中情感分析的需要,但是由于課程評(píng)論語(yǔ)料規(guī)模與BERT預(yù)訓(xùn)練模型采用的維基百科語(yǔ)料規(guī)模差距甚大,進(jìn)行課程評(píng)論情感分類(lèi)下游任務(wù)時(shí)會(huì)發(fā)生嚴(yán)重的過(guò)擬合問(wèn)題。
為此,提出一種激活-池化增強(qiáng)的BERT(RP-BERT)課程評(píng)論情感分析模型。該模型采用深度學(xué)習(xí)方法從課程評(píng)論文本中自動(dòng)抽取特征,解決了傳統(tǒng)課程評(píng)論情感分析模型中詞典構(gòu)建和特征工程需要大量人工參與的問(wèn)題。從維基百科大規(guī)模語(yǔ)料中構(gòu)建BERT預(yù)訓(xùn)練模型,既能抽取課程評(píng)論句內(nèi)詞語(yǔ)的關(guān)鍵語(yǔ)義信息,又能對(duì)課程評(píng)論文本句子的邏輯關(guān)系進(jìn)行學(xué)習(xí)。對(duì)直接應(yīng)用BERT模型在課程評(píng)論情感分析任務(wù)中存在過(guò)擬合的問(wèn)題,增加激活函數(shù)層和最大-平均池化層進(jìn)行改進(jìn)。突破了以往基于神經(jīng)網(wǎng)絡(luò)模型進(jìn)行課程評(píng)論情感分析中過(guò)多依賴(lài)數(shù)據(jù)規(guī)模和數(shù)據(jù)標(biāo)注質(zhì)量的局限,為課程評(píng)論情感分析提供新方法,以期為學(xué)生課程選擇、教師授課內(nèi)容優(yōu)化和平臺(tái)服務(wù)提升等方面提供數(shù)據(jù)支持。
在線(xiàn)課程評(píng)論的情感分析吸引了越來(lái)越多的研究者的關(guān)注。文獻(xiàn)[6]使用KNN算法對(duì)本科生的課程評(píng)論文本進(jìn)行分析以獲得學(xué)生的情緒和觀點(diǎn)。吳林靜等[7]在正負(fù)情感詞加權(quán)的方法的基礎(chǔ)上通過(guò)計(jì)算正負(fù)情感詞的數(shù)量差來(lái)計(jì)算課程評(píng)價(jià)評(píng)論句子的情感傾向。薛耀鋒等[8]結(jié)合情感交互和情感計(jì)算理論,提出了面向在線(xiàn)課程的多模態(tài)情感分析模型,并基于此模型實(shí)現(xiàn)了在線(xiàn)學(xué)習(xí)過(guò)程中的情感測(cè)量。黃昌勤等[9]針對(duì)學(xué)習(xí)云空間中的“情感缺失”問(wèn)題,提出一種基于LSTM神經(jīng)網(wǎng)絡(luò)的交互文本動(dòng)態(tài)實(shí)時(shí)情感分析模型,并且采用貝葉斯網(wǎng)絡(luò)進(jìn)行情感歸因分析,建立情感驅(qū)動(dòng)的個(gè)性化學(xué)習(xí)推薦策略。文獻(xiàn)[10]針對(duì)不同課程評(píng)論文本蘊(yùn)含的情感偏差,提出基于遷移學(xué)習(xí)的CNN-LSTM模型自動(dòng)識(shí)別一個(gè)帖子是否表達(dá)了困惑,判斷其緊迫性并對(duì)情緒極性進(jìn)行分類(lèi)。該模型同時(shí)考慮每個(gè)單詞的特征和長(zhǎng)期時(shí)間語(yǔ)義關(guān)系,顯著提高了情感分析的有效性。Dessì等[11]首先構(gòu)建適合課程上下文的詞嵌入,通過(guò)改進(jìn)雙向LSTM情感分析模型中嵌入層編碼方式提升情感分析的性能。
上述模型沒(méi)有充分考慮課程評(píng)論中上下文信息與分句間關(guān)系對(duì)情感的影響,而B(niǎo)ERT模型中基于Transformer的雙向編碼器依據(jù)海量無(wú)標(biāo)注語(yǔ)料的上下文對(duì)詞進(jìn)行編碼表征,可以獲得文本中豐富的語(yǔ)義信息,預(yù)測(cè)兩個(gè)分句間的關(guān)聯(lián)性,只需標(biāo)注少量課程評(píng)論的情感標(biāo)簽即可實(shí)現(xiàn)評(píng)論情感分析任務(wù)[12-15]。文獻(xiàn)[13]提出一種基于BERT模型將評(píng)論轉(zhuǎn)化為大量知識(shí)來(lái)回答用戶(hù)問(wèn)題的微調(diào)方法,該方法可應(yīng)用在基于屬性的情緒分析和情緒分類(lèi)等任務(wù)上。Pei等[16]提出DA-BERT模型來(lái)解決傳統(tǒng)方法在社交媒體細(xì)粒度、短文本情感分類(lèi)中的計(jì)算復(fù)雜度和依賴(lài)性問(wèn)題。Yang等[17]將BERT模型用在對(duì)話(huà)文本的情感檢測(cè)上,并實(shí)現(xiàn)了對(duì)話(huà)語(yǔ)境信息的分析。BERT除了單獨(dú)用在情感分類(lèi)任務(wù)外,還可與LSTM、Bi-GRU等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型組合應(yīng)用在情感分類(lèi)任務(wù)中的情感屬性標(biāo)注和情感極性預(yù)測(cè)任務(wù)中[18-19]。然而,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn)直接應(yīng)用原始BERT模型進(jìn)行課程評(píng)論情感分類(lèi)任務(wù)時(shí)會(huì)發(fā)生嚴(yán)重的過(guò)擬合問(wèn)題。
適用于在線(xiàn)課程評(píng)論情感分析的RP-BERT模型如圖1所示,其中:E為輸入表征層中每個(gè)子層(包括位置、分段、令牌3個(gè)子層)所對(duì)應(yīng)的嵌入表示;C為BERT模型中表示開(kāi)始的特殊令牌[CLS];Tok為BERT模型中的令牌;T為語(yǔ)義抽取層輸出的令牌;Trm為T(mén)ransformer編碼器結(jié)構(gòu),語(yǔ)義抽取層包含多個(gè)Transformer。輸入表征層對(duì)預(yù)處理完成后的原始課程評(píng)論進(jìn)行編碼;語(yǔ)義提取層對(duì)輸入表征層輸出的評(píng)論編碼進(jìn)行語(yǔ)義提取,并將其輸入到激活函數(shù)層進(jìn)行非線(xiàn)性映射;池化層進(jìn)一步縮減激活函數(shù)層的網(wǎng)絡(luò)規(guī)模,提取關(guān)鍵特征,輸出結(jié)果到情感分類(lèi)層;最后,通過(guò)情感分類(lèi)層對(duì)課程評(píng)論情感極性進(jìn)行分類(lèi)表達(dá)。通過(guò)在原始BERT模型中新增Leaky ReLU激活函數(shù)層、最大-平均池化層和情感極性二分類(lèi)層,改進(jìn)原始BERT模型在課程評(píng)論情感分析任務(wù)中存在的泛化能力不佳和過(guò)擬合的問(wèn)題。
圖1 在線(xiàn)課程評(píng)論情緒分析模型框架
RP-BERT模型采用與上下文有關(guān)的句向量級(jí)編碼的BERT預(yù)訓(xùn)練模型,能夠準(zhǔn)確量化課程評(píng)論短文本內(nèi)同一詞在不同語(yǔ)境中的含義,同時(shí)能夠?qū)φn程長(zhǎng)句評(píng)論文本中的分句間關(guān)系進(jìn)行編碼,具體流程如下:
(1) 對(duì)原始評(píng)論數(shù)據(jù)做預(yù)處理:去除重復(fù)灌水評(píng)論以及與情感表達(dá)無(wú)關(guān)的鏈接、代碼等類(lèi)型數(shù)據(jù);對(duì)課程評(píng)論中含糊不清的情感字符、數(shù)字和英文詞匯等使用語(yǔ)義相同的中文詞匯進(jìn)行替換。
(2) 使用WordPiece嵌入模型,按照雙字節(jié)編碼方式對(duì)單個(gè)漢字進(jìn)行編碼,使其更加適用于詞匯數(shù)量眾多、含義豐富、結(jié)構(gòu)復(fù)雜的在線(xiàn)課程評(píng)論文本,相比于傳統(tǒng)詞向量編碼方式大大縮減了評(píng)論文本的編碼規(guī)模和復(fù)雜度[20]。
(3) 按照評(píng)論文本語(yǔ)句結(jié)構(gòu)的不同,將其分為短句和長(zhǎng)句兩種類(lèi)型。針對(duì)短句評(píng)論文本采用遮蔽LM方法構(gòu)建語(yǔ)言模型,通過(guò)隨機(jī)遮蓋或者替換評(píng)論文本中15%的任意漢字,讓模型通過(guò)理解上下文的內(nèi)容去預(yù)測(cè)遮蓋或者替換的部分,替換方式包括:80%幾率替換為[MASK],如老師講得非常好—>老師講得非常[MASK];10%的幾率被替換成為另外一個(gè)令牌, 如老師講得非常好—>老師講得非常美;10%的幾率保持原本內(nèi)容不變,如老師講得非常好—>老師講得非常好。針對(duì)長(zhǎng)句評(píng)論文本,在評(píng)論文本語(yǔ)義邏輯處添加一些判斷上下句起止位置的特殊令牌[SEP],如圖2輸入所示。按照1∶1的比例將上下文相關(guān)和上下文無(wú)關(guān)的評(píng)論文本作為輸入表征層輸入,以便模型理解課程評(píng)論文本句子間關(guān)系。例如:
輸入=[CLS]老師[MASK]講得好[SEP]我[MASK]愛(ài)聽(tīng)[SEP]
標(biāo)簽=有下文關(guān)系
輸入=[CLS]老師[MASK]講得好[SEP]吃[MASK]晚飯[SEP]
標(biāo)簽=無(wú)下文關(guān)系
圖2 輸入表征層
輸入表征層除了輸入和令牌嵌入外,還要隨機(jī)初始化一個(gè)可訓(xùn)練的分段嵌入。通過(guò)分段嵌入信息使得模型能夠判斷上下句的起止位置以分開(kāi)上下句,如表1所示。輸入表征層最終輸出為令牌嵌入、分段嵌入、位置嵌入的總和。
表1 分段嵌入示例
圖3中的語(yǔ)義提取層是以Transformer編碼器為基礎(chǔ)單元組成的多層雙向解碼器。Transformer編碼器包括字向量與位置編碼、注意力機(jī)制、殘差連接與層標(biāo)準(zhǔn)化和前饋四部分[21],如圖3所示。
圖3 Transformer編碼器結(jié)構(gòu)
(1) 字向量與位置編碼。位置編碼提供課程評(píng)論文本中每個(gè)字的位置信息給Transformer用來(lái)識(shí)別字在評(píng)論文本中的依賴(lài)關(guān)系和時(shí)序特性。
X=E(X)+PX∈Rbatch-size×seq.len×embed.dim
(1)
P(pos,2i)=sin(pos/1 0002i/dmodel)
(2)
P(pos,2i+1)=sin(pos/1 0002i/dmodel)
(3)
式中:E(·)為字對(duì)應(yīng)的嵌入表示;P為位置編碼;batch-size為輸入課程評(píng)論文本數(shù);seq.len為每條課程評(píng)論文本的長(zhǎng)度;embed.dim為課程評(píng)論文本中每個(gè)字的嵌入維度;pos為課程評(píng)論文本中字的位置;i為字對(duì)應(yīng)的向量維度;dmodel為特定位置向量維度。
(2) 注意力機(jī)制。注意力機(jī)制保證了每條評(píng)論文本中的每個(gè)字向量都含有該條課程評(píng)論文本中所有字向量的信息。
(4)
式中:Linear(·)表示線(xiàn)性映射;X為課程評(píng)論文本向量;WQ、WK、WV為權(quán)重。
Xattention=SelfAttention(Q,K,V)=
(5)
(3) 層標(biāo)準(zhǔn)化與殘差連接。層標(biāo)準(zhǔn)化歸一化神經(jīng)網(wǎng)絡(luò)中的隱藏層為標(biāo)準(zhǔn)正態(tài)分布,從而加快模型訓(xùn)練和收斂的速度:
(6)
(7)
(8)
殘差連接可以解決梯度消失和網(wǎng)絡(luò)退化問(wèn)題,如式(9)所示。
X=Xembedding+attention(Q,K,V)LayerNorm(X+subLayer(X))
(9)
式中:LayerNorm(·)為子層的輸出;subLayer(·)為子層本身實(shí)現(xiàn)的函數(shù);Xembedding為隱藏層輸出;attention(·)表示計(jì)算注意力。
(4) 前饋。前饋由兩層線(xiàn)性映射組成,并用ReLU激活函數(shù)激活,輸出課程評(píng)論文本經(jīng)過(guò)輸入編碼層和語(yǔ)義提取層處理完成后的隱藏序列,計(jì)算公式如下:
Xhidden=ReLU(Linear(Linear(X)))
(10)
其輸出的隱藏層即為課程評(píng)論文本的數(shù)學(xué)表達(dá),其中隱藏層的任一隱藏單元經(jīng)過(guò)Transformer編碼器中的注意力機(jī)制之后,均含有評(píng)論文本中的所有成分的信息。
在原始BERT模型第一個(gè)令牌[CLS]的最終隱藏狀態(tài)后新增激活函數(shù)層和池化層,以逐步解決課程評(píng)論情感分析任務(wù)中存在的過(guò)擬合問(wèn)題。激活函數(shù)層選用Leaky ReLU函數(shù)進(jìn)行非線(xiàn)性映射,增強(qiáng)原始BERT模型評(píng)論文本復(fù)雜數(shù)據(jù)類(lèi)型的學(xué)習(xí)能力,提高模型收斂速度[22]。然而,由于BERT模型中預(yù)處理模型數(shù)據(jù)規(guī)模極大,模型微調(diào)采用的含情感標(biāo)注信息的課程評(píng)論數(shù)據(jù)與之相差甚大,增加激活函數(shù)層后仍然存在過(guò)擬合問(wèn)題。因此,在激活函數(shù)層后繼續(xù)增加池化層,縮減網(wǎng)絡(luò)規(guī)模,融合輸出特征,增強(qiáng)特征魯棒性,進(jìn)一步解決模型過(guò)擬合問(wèn)題。
池化層采用如圖4所示的最大-平均池化方法[23]。最大-平均池化沿著評(píng)論文本長(zhǎng)度和嵌入維度分別求均值和最大值,然后將均值和最大值級(jí)聯(lián)為一條向量,實(shí)現(xiàn)了隱藏序列到向量的轉(zhuǎn)換,具體公式如下:
max_pooled=max(Xhidden,dimension=
seq_len)∈Rbatch_size×embedding_dim
(11)
mean_pooled=mean(Xhidden,dimension=seq_len)∈
Rbatch_size×embedding_dim
(12)
max_mean_pooled=concatenate(max_pooled,mean_pooled,dimension=
embedding_dim)∈Rbatch_size×embedding_dim×2
(13)
式中:max_pooled、mean_pooled、max_mean_pooled分別表示最大池化、平均池化、最大-平均池化;Xhidden為隱藏序列;seq_len為課程評(píng)論文本長(zhǎng)度;dimension為向量維度;concatenate表示向量連接;embedding_dim為嵌入維度;batch_size為課程評(píng)論文本數(shù)目。
圖4 最大-平均池化層
構(gòu)建情感分類(lèi)器來(lái)獲取課程評(píng)論文本的語(yǔ)義表示Xhidden對(duì)于情感標(biāo)簽的得分向量并輸出最終情感標(biāo)簽。利用Sigmoid函數(shù)對(duì)池化層的輸出max_mean_pooled進(jìn)行相應(yīng)計(jì)算,從而進(jìn)行課程評(píng)論文本情感分類(lèi)。具體公式如下:
(14)
(15)
RP-BERT在線(xiàn)課程情感分析模型利用輸入表征層進(jìn)行課程評(píng)論文本特性編碼,構(gòu)建一個(gè)含有長(zhǎng)句和短句評(píng)論的特征向量;然后,對(duì)特征向量進(jìn)行學(xué)習(xí),在每個(gè)Transformer編碼器單元中進(jìn)行評(píng)論語(yǔ)義信息捕獲;并將抽取的特征輸入到激活函數(shù)與池化層中進(jìn)行語(yǔ)義信息的進(jìn)一步選擇;最終,輸入情感分類(lèi)層將課程評(píng)論分為積極課程評(píng)論和消極課程評(píng)論兩類(lèi)。
(1) 數(shù)據(jù)集。在線(xiàn)評(píng)論情感分析任務(wù)中,采用從中國(guó)大學(xué)MOOC爬取的課程評(píng)論正負(fù)情感數(shù)據(jù)各5 000條,數(shù)據(jù)字段如表2所示。對(duì)RP-BERT情感分析模型進(jìn)行訓(xùn)練和測(cè)試,訓(xùn)練集與測(cè)試集按照7∶3劃分。
表2 中國(guó)MOOC課程評(píng)論數(shù)據(jù)集字段說(shuō)明
(2) 評(píng)估指標(biāo)。根據(jù)數(shù)據(jù)樣本真實(shí)情感類(lèi)別與預(yù)測(cè)情感類(lèi)別組合劃分為真正例(TP)、假正例(FP)、真負(fù)例(TN)、假負(fù)例(FN)四類(lèi),并依此計(jì)算情感分類(lèi)正確的樣本數(shù)與總樣本數(shù)之比的準(zhǔn)確率(Accuracy)和表示正例樣本排在負(fù)例之前概率的AUC值(Area Under Curve),公式為:
(16)
(17)
(1) 實(shí)驗(yàn)環(huán)境。本次實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為Ubuntu 18.04長(zhǎng)期服務(wù)版,CPU為Intel Xeon Silver 4114@2.20 GHz,GPU為GTX 1080 Ti 11 GB,內(nèi)存為16 GB,程序語(yǔ)言是Python 3.6,深度學(xué)習(xí)模型框架采用PyTorch 1.0.0。
(2) 參數(shù)設(shè)置。利用中文維基百科語(yǔ)料庫(kù)訓(xùn)練原始BERT的預(yù)訓(xùn)練模型[25]。Google提供Base和Large兩種原始BERT預(yù)訓(xùn)練模型,兩者參數(shù)不同但網(wǎng)絡(luò)結(jié)構(gòu)完全一致。受硬件環(huán)境限制,實(shí)驗(yàn)采用Base參數(shù)設(shè)置:Transformer模塊數(shù)為12,隱藏層尺寸為768維,12個(gè)自注意力頭部,總共參數(shù)大小為110 MB[12]。最大序列長(zhǎng)度為300,Batch為32,學(xué)習(xí)率為5e-5。
(1) RP-BERT模型驗(yàn)證。將RP-BERT與SVM、條件隨機(jī)場(chǎng)、原始BERT進(jìn)行比較[15,26-27]。為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確和客觀,將四種模型分別在同一訓(xùn)練和測(cè)試數(shù)據(jù)集上各自運(yùn)行10次,求得準(zhǔn)確率和AUC值的平均值作為模型最終結(jié)果,如表3所示。
表3 四種在線(xiàn)課程評(píng)論情感分析模型準(zhǔn)確率和AUC值
可以看出,BERT 模型和RP-BERT模型的準(zhǔn)確率和AUC值在訓(xùn)練集和測(cè)試集中均高于其余兩個(gè)模型。一個(gè)原因是這兩種模型中的預(yù)訓(xùn)練模型為無(wú)須人工參與的大規(guī)模語(yǔ)料的無(wú)監(jiān)督訓(xùn)練,它們的注意力機(jī)制能夠準(zhǔn)確聯(lián)系上下文語(yǔ)義挖掘課程評(píng)論文本中準(zhǔn)確句意。另一個(gè)原因是RP-BERT模型針對(duì)課程評(píng)論情感分析任務(wù)只需少量人工情感標(biāo)注完成的課程評(píng)論數(shù)據(jù)對(duì)模型微調(diào)即可,而SVM和條件隨機(jī)場(chǎng)過(guò)度依賴(lài)課程評(píng)論文本情感標(biāo)注質(zhì)量和數(shù)量,實(shí)驗(yàn)采集標(biāo)注的各5 000條正負(fù)情感課程評(píng)論對(duì)這兩個(gè)模型而言較小。此外,與BERT相比可知RP-BERT未發(fā)生欠擬合或過(guò)擬合問(wèn)題,驗(yàn)證了RP-BERT模型對(duì)原始BERT模型過(guò)擬合問(wèn)題改進(jìn)的有效性。
(2) 基于情感分析的課程評(píng)論詞云圖。通過(guò)課程評(píng)論詞云圖對(duì)評(píng)論語(yǔ)義的可視化,可以直觀地了解學(xué)生對(duì)課程或者老師的看法,為學(xué)習(xí)者選課、教師改進(jìn)教學(xué)等提供參考。圖5和圖6分別展示了課程評(píng)論情感積極和消極的詞云示例。
圖5 課程評(píng)論積極反饋關(guān)鍵詞云圖
圖6 課程評(píng)論消極反饋關(guān)鍵詞云圖
可以看出,學(xué)生更加喜歡條理清晰、通俗易懂、生動(dòng)形象的課程,非常反感照本宣科的課程。此外,實(shí)驗(yàn)結(jié)果分析還發(fā)現(xiàn)學(xué)生對(duì)課程字幕和PTT課件比較關(guān)注,老師的方言或者口音問(wèn)題成為課程輟學(xué)率上升的主要因素之一。因此在線(xiàn)課程在發(fā)布時(shí)候不僅要考慮課程本身內(nèi)容外,課程平臺(tái)還應(yīng)該為在線(xiàn)課程提供對(duì)應(yīng)字幕和課程配套PPT方便學(xué)生學(xué)習(xí),開(kāi)課教師應(yīng)該提高普通話(huà)水平避免出現(xiàn)方言和地方口音的問(wèn)題,做到課程內(nèi)容豐富、配套資源齊全、老師講解清晰明了,降低在線(xiàn)課程輟學(xué)率。
圖7為《高等數(shù)學(xué)(同濟(jì)版)》課程評(píng)論文本生成的詞云圖??梢钥闯觯叩葦?shù)學(xué)(同濟(jì)版)課程評(píng)論反饋整體比較好,課程內(nèi)容豐富,講解思路清晰、通俗易懂是影響評(píng)論積極的關(guān)鍵因素,用戶(hù)普遍感覺(jué)課程講解細(xì)致清楚,自己學(xué)完課程后有所收獲。
圖7 《高等數(shù)學(xué)(同濟(jì)版)》課程評(píng)論詞云圖
RP-BERT通過(guò)在原始BERT模型中增加激活函數(shù)層和池化層改進(jìn)了直接應(yīng)用BERT模型做課程評(píng)論情感分析任務(wù)時(shí)出現(xiàn)過(guò)擬合的問(wèn)題,同時(shí)增加了情感分類(lèi)層對(duì)課程評(píng)論情感進(jìn)行分析。相對(duì)于傳統(tǒng)課程評(píng)論情感分析模型,RP-BERT模型具有精確度高、訓(xùn)練容易的優(yōu)點(diǎn)。融合RP-BERT課程評(píng)論情感分析模型和詞云圖可以對(duì)課程評(píng)論反饋的關(guān)鍵信息進(jìn)行分析挖掘和可視化展示,為課程選擇、內(nèi)容優(yōu)化和平臺(tái)服務(wù)提升等提供有益參考。后續(xù)將研究融合課程評(píng)論文本和評(píng)分的在線(xiàn)課程評(píng)論情感分析模型,使得情感分析更加準(zhǔn)確實(shí)用。