伴隨信息技術(shù)的快速發(fā)展,為各行業(yè)領(lǐng)域注入新鮮的活力。以教育領(lǐng)域?yàn)槔?,較多互動學(xué)習(xí)平臺逐漸被引入其中,特別其中包含的學(xué)習(xí)者評論數(shù)據(jù),均可為教學(xué)質(zhì)量改善、用戶選課以及平臺支持提供參考,然而現(xiàn)有的平臺運(yùn)行中并未充分利用這些反饋信息,需行之有效的完善策略。本次研究將對情感傾向識別與話題挖掘技術(shù)做簡單介紹,在此基礎(chǔ)上提出在線課程評論樣本處理與特征提取方法、情感傾向識別算法以及在線課程評論話題挖掘技術(shù)等。
【關(guān)鍵詞】在線課程評論 情感傾向識別 話題挖掘技術(shù)
信息化時(shí)代背景下,學(xué)習(xí)資源共享、平臺共享已成為大多學(xué)習(xí)者青睞的主要內(nèi)容,也因此有較多學(xué)習(xí)行為數(shù)據(jù)生成,如何對這些數(shù)據(jù)充分利用成為當(dāng)前需考慮的主要問題。值得注意的是,當(dāng)前許多數(shù)據(jù)提取、教學(xué)系統(tǒng)設(shè)計(jì)并不能滿足數(shù)據(jù)挖掘需求,更無從談及利用所獲取的數(shù)據(jù)為教學(xué)實(shí)踐進(jìn)行指導(dǎo),要求引入有效的數(shù)據(jù)提取、情感傾向識別以及話題挖掘技術(shù)。因此,本本文對在線課程評論的情感傾向識別與話題挖掘技術(shù)研究,具有十分重要的意義。
1 情感傾向識別與話題挖掘技術(shù)介紹
關(guān)于情感傾向識別、話題挖掘技術(shù)的概念,首先可從教育大數(shù)據(jù)進(jìn)行分析,近年來在線學(xué)習(xí)中較多學(xué)習(xí)平臺逐漸引入,使海量未結(jié)構(gòu)化數(shù)據(jù)生成,這些數(shù)據(jù)區(qū)別于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)如考勤記錄、考試成績等,有數(shù)據(jù)動態(tài)變化、數(shù)據(jù)規(guī)?;约邦愋投鄻踊忍攸c(diǎn),而滿足這些特征的在線學(xué)習(xí)數(shù)據(jù)均推動教育大數(shù)據(jù)的形成。而在此基礎(chǔ)上提出的情感傾向識別,Web2.0時(shí)代下,大眾在瀏覽事物信息中,更注重對以往相關(guān)評論內(nèi)容關(guān)注,或?qū)⒆陨淼南敕ā⒁庖娕c心情表達(dá)出來。大數(shù)據(jù)環(huán)境下,便強(qiáng)調(diào)數(shù)據(jù)挖掘中能夠?qū)Υ蟊姷钠骄鶅?nèi)容做情感分析,該過程被稱之為情感傾向識別。另外,在話題挖掘技術(shù)方面,由于很多情感傾向信息并非針對一個(gè)整體評論對象,而是對其中某一部分的傾向表現(xiàn),而這些部分便可被叫做話題。實(shí)際進(jìn)行海量文本瀏覽中,便要求引入話題自動提取技術(shù),保證信息檢索與處理效率,以此達(dá)到話題挖掘的目的。
2 在線課程評論樣本處理與特征提取
2.1 在線課程評論數(shù)據(jù)樣本處理
本次研究中,主要針對在線課程學(xué)習(xí)網(wǎng)站中的點(diǎn)評區(qū)分析,具體做樣本數(shù)據(jù)出去中,相關(guān)的要求主要包括:
(1)對點(diǎn)評區(qū)網(wǎng)頁結(jié)構(gòu)信息充分了解,這些存儲于后臺數(shù)據(jù)庫內(nèi)的半結(jié)構(gòu)化形式文本數(shù)據(jù),向用戶展示中,將通過HTML頁面以相應(yīng)的格式顯示,因網(wǎng)頁引入的通訊技術(shù)有一定差異,所以在采集數(shù)據(jù)中有多種方式,如利用HTML表單形式,或借助HTML結(jié)構(gòu)樹抽??;
(2)為使服務(wù)器訪問壓力、系統(tǒng)資源減少,一般設(shè)計(jì)中也考慮引入加載方式,以JavaScript為例,通過腳本動態(tài)導(dǎo)入數(shù)據(jù)。實(shí)際做數(shù)據(jù)采集中,可設(shè)定相應(yīng)的方案流程,整個(gè)流程強(qiáng)調(diào)首先對JS腳本內(nèi)有無提取信息判斷,若加載過程需借助JS動態(tài)實(shí)現(xiàn),取中間代理方法,對JavaScript Object Notation頁面探測,進(jìn)行格式解吸,然后將評論數(shù)據(jù)相關(guān)信息提取出來并存儲。假若加載方式選擇HTML靜態(tài)加載,轉(zhuǎn)換的目標(biāo)體現(xiàn)在文本對象模型DOM上,在此基礎(chǔ)上做定位解析,將其中信息提取出來并存儲在數(shù)據(jù)庫內(nèi)。
2.2 特征提取
所謂文本特征,主要指被識別對象的特征,具體進(jìn)行文本情感識別中,通常也需由這些特征著手。值得注意的是,在評論信息中,不同學(xué)習(xí)者在表達(dá)細(xì)致程度上有一定差異,其直接導(dǎo)致課程評論文本長度不同,部分評論中有豐富的文字內(nèi)容,傳遞的信息較多,而部分評論僅有幾個(gè)字,其意味文本特征分布有稀疏性、不均衡性特點(diǎn)。對此,實(shí)際進(jìn)行文本特征提取中,本次研究考慮引入細(xì)粒度特征生成法,如N-gram語言模型,所有文本內(nèi)容,均以字符單元形式呈現(xiàn),有長度為N的字符片段序列形成,其中各片段均被叫做gram。同時(shí),既往研究資料中,也對稀疏文本特征提取問題提出較多優(yōu)化方式,如多空間微粒群優(yōu)化,這一方式側(cè)重于取訓(xùn)練集,細(xì)化為不同交叉訓(xùn)練子集,通過檢驗(yàn)各子集,提取其中的特征信息,達(dá)到文本特征提取目標(biāo)。
3 在線課程評論情感傾向識別算法研究
情感傾向識別的實(shí)現(xiàn),主要強(qiáng)調(diào)通過對在線課程評論的分析,了解情感傾向。本次研究中,考慮引入自適應(yīng)多視圖選擇方法,其亦被稱之為AMVS,識別中采用半監(jiān)督情感識別方法,其區(qū)別于傳統(tǒng)RSS方法,更注重做情感強(qiáng)度的計(jì)算,能夠優(yōu)先選取鑒別型高的特征。需注意該方法應(yīng)用下,選擇視圖中,要求結(jié)合特征維度、訓(xùn)練精度兩者關(guān)系,進(jìn)行維度分布的構(gòu)建,保證各視圖維度均較為合適,這樣僅需保證特征采樣覆蓋率適宜,便可進(jìn)行視圖生成量的確定。盡管該算法應(yīng)用下無需考慮視圖劃分、視圖維度等影響因素,且自適應(yīng)性強(qiáng),但在無標(biāo)記樣本規(guī)模影響下,識別精度可能無法保證。
4 在線課程評論話題挖掘技術(shù)分析
情感識別的基礎(chǔ)上,便要求做話題挖掘。本文在研究中對于評論話題挖掘方法的選擇,主要結(jié)合既往研究成果,如話題情感模型的構(gòu)建,DEI-TM,這一模型強(qiáng)調(diào)對情感表達(dá)尋找相應(yīng)的話題,融入以往LDA模型話題挖掘機(jī)制,即通過語句間關(guān)聯(lián)信息的利用,過濾出正面、負(fù)面情感樣本,以分而治之理論為指導(dǎo),實(shí)現(xiàn)不同情感類別話題信息的提取。實(shí)踐研究發(fā)現(xiàn),DEI-TM模型運(yùn)用下,提取后的話題無較高相似度,在泛化能力上較強(qiáng),可充分展示話題內(nèi)單詞,極大程度上提高話題挖掘效果。
5 結(jié)論
情感傾向識別及其話題挖掘是當(dāng)前在線課程評論數(shù)據(jù)被充分利用的關(guān)鍵性保證。實(shí)際識別評論信息情感信息、挖掘話題內(nèi)容過程中,應(yīng)充分認(rèn)識其基本內(nèi)涵,選擇針對性的技術(shù)方式,如多視圖半監(jiān)督學(xué)習(xí)文本情感識別、DEI-TM模型等,確保將這些技術(shù)具體用于評論信息數(shù)據(jù)挖掘與分析中,以此保證評論數(shù)據(jù)能夠用于實(shí)踐指導(dǎo)中。
參考文獻(xiàn)
[1]張耀之.網(wǎng)絡(luò)輿情語義識別的技術(shù)分析及識別流程構(gòu)建[D].吉林大學(xué),2016.
[2]劉智.課程評論的情感傾向識別與話題挖掘技術(shù)研究[D].華中師范大學(xué),2014.
[3]鄧鐳.面向微博新媒體的公共事件及其社會輿論分析技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué),2013.
作者簡介
楊麗(1985-),女,山西省潞城市人。博士學(xué)歷。講師。研究情感分析方向,大數(shù)據(jù)、智能方法等。
作者單位
湖北大學(xué) 湖北省武漢市 430062