□文孟飛 胡超 于文濤 劉偉榮
?
一種基于特征提取的教育視頻資源推送方法*
□文孟飛胡超于文濤劉偉榮
摘要:豐富的網(wǎng)絡(luò)教育視頻資源滿足了學(xué)習(xí)者自主選擇學(xué)習(xí)內(nèi)容、時間和地點的需求。然而資源自身及其平臺存在著內(nèi)容質(zhì)量參差不齊、優(yōu)質(zhì)教育資源匱乏、資源同質(zhì)化、資源推送方式單一等問題,學(xué)習(xí)者難以快速高效地從海量的資源中獲取與自身需求相關(guān)的有價值的資源。為讓學(xué)習(xí)者高效獲取個性化教育視頻資源,在進(jìn)行資源推送時,研究采用深度學(xué)習(xí)方法準(zhǔn)確識別出視頻資源中的知識點,通過構(gòu)造視頻中的知識點、視頻質(zhì)量和學(xué)習(xí)者需求之間的特征向量作為支持向量機的輸入,由支持向量機決定是否將視頻資源推送給學(xué)習(xí)者。將學(xué)習(xí)者對推送結(jié)果的實際點擊率和學(xué)習(xí)者反饋的滿意度作為方法的性能評價指標(biāo)。這種推送方法關(guān)注學(xué)習(xí)者的興趣需求和視頻特征的結(jié)合,能更好地滿足學(xué)習(xí)者的要求并提升學(xué)習(xí)效率,具有較大的應(yīng)用潛力。
關(guān)鍵詞:教育視頻資源;特征提??;深度學(xué)習(xí);支持向量機;推送方法
信息技術(shù)的快速發(fā)展和廣泛應(yīng)用深刻影響著人們的學(xué)習(xí)、工作和生活?;ヂ?lián)網(wǎng)已成為人們搜索、獲得和發(fā)布信息的重要平臺,其自由開放的特性極大程度促進(jìn)了教育資源的共建共享,信息技術(shù)對教育教學(xué)的革命性影響日趨明顯,學(xué)習(xí)者通過信息化學(xué)習(xí)環(huán)境可以自主選擇學(xué)習(xí)內(nèi)容、時間和地點,突破了傳統(tǒng)課堂教與學(xué)的模式。
教育資源在互聯(lián)網(wǎng)上同時以文本、圖片、聲音和視頻等多種形式呈現(xiàn)。其中,教育視頻資源以其豐富生動的音頻和圖像信息,最類似于課堂上聽和看的學(xué)習(xí)模式,吸引著眾多學(xué)習(xí)者和教師的關(guān)注與使用。當(dāng)前MOOC、微課、翻轉(zhuǎn)課堂等的教育視頻資源在飛速增長,然而這些教育視頻資源為學(xué)習(xí)者提供豐富學(xué)習(xí)資源之時,也使學(xué)習(xí)者面臨這樣的一些問題(郭進(jìn)成,2013):教育視頻資源的內(nèi)容質(zhì)量參差不齊,優(yōu)質(zhì)教育資源少。教育資源共享平臺多數(shù)仍是以物為主,忽略了學(xué)習(xí)者的個性化特征,為不同的學(xué)習(xí)對象提供相同的學(xué)習(xí)資源,不能從根本上滿足用戶的個性化學(xué)習(xí)需求;教育資源雜而多,學(xué)習(xí)者需要花費更多的時間和精力來尋找對自己真正有用的那部分資源。尤其是對于缺乏專業(yè)的搜索能力的學(xué)習(xí)者,這一問題特別突出,大大降低了學(xué)習(xí)效率。
國內(nèi)外已有學(xué)者對資源推送方法進(jìn)行了探索(Resnick et al.,1997;許海玲等2009;Linden et al., 2010),如基于內(nèi)容的推送,基于關(guān)聯(lián)規(guī)則的推送,基于協(xié)同過濾的推送,基于知識的推送等。這些傳統(tǒng)的推送方法是研究推送的基礎(chǔ),但由于單個算法都有自身的限制,不能直接用于信息量大、知識點豐富的學(xué)校教育視頻資源的推送上。因此亟需一種能根據(jù)學(xué)習(xí)者個性化需求,幫助和引導(dǎo)學(xué)習(xí)者快速獲取所需資源的推送方法。研究在內(nèi)容推送的基礎(chǔ)上提出一種利用深度學(xué)習(xí)和支持向量機的基于特征提取的教育視頻資源推送方法,以實現(xiàn)向?qū)W習(xí)者推送有效資源的目的。
Resnick和Varian于1997年提出的個性化推送系統(tǒng)為網(wǎng)絡(luò)用戶的有用信息快速獲取帶來了希望。個性化推送系統(tǒng)根據(jù)用戶的個性需求特征主動地為用戶推送可能感興趣的信息資源,突破了傳統(tǒng)完全靠人力獲取資源的方式,其作為一種行之有效的獲取有效資源的方法而得到了眾多研究者和研究團(tuán)體的廣泛關(guān)注。
推送系統(tǒng)中最常用的推送方法是基于內(nèi)容的推送和基于協(xié)同過濾的推送?;趦?nèi)容的推送系統(tǒng)有Personal Web Watcher(Dunja,1996),Syskill & Webert(Michael et al.,1998)等;基于協(xié)同過濾的系統(tǒng)有SiteSeer(James et al.,1997),Let's Browse(Lieberman et al.,1999)。這些原型系統(tǒng)對個性化服務(wù)的設(shè)計與實現(xiàn)具有指導(dǎo)作用,但也都存在著很多不足?;趦?nèi)容的推送結(jié)果直觀且推送效率高,但難以區(qū)分資源的質(zhì)量,只能根據(jù)用戶已有興趣發(fā)現(xiàn)相似興趣資源,不能發(fā)現(xiàn)用戶新興趣?;趨f(xié)同過濾的推送能夠發(fā)現(xiàn)用戶潛在的興趣,但是不能準(zhǔn)確識別相似用戶。
傳統(tǒng)推送系統(tǒng)的不足促使研究者對其進(jìn)行相應(yīng)的改進(jìn),并取得了一定的成果。CYCLADES(the Open Collaborative Virtual Archive Service Environment)系統(tǒng)采用基于用戶的協(xié)同過濾技術(shù),提供面向一般性推薦服務(wù),它能為不同教學(xué)中產(chǎn)生的學(xué)習(xí)活動提供推薦,不僅僅適用于一個社區(qū)(Avancini et al.,2004)。Tang和Mccalla提出一種自我進(jìn)化的智能推薦系統(tǒng),該系統(tǒng)通過分析用戶和系統(tǒng)的交互行為,從網(wǎng)上動態(tài)獲取學(xué)習(xí)資源并集成到系統(tǒng)中,為學(xué)習(xí)者實時提供有效的學(xué)習(xí)內(nèi)容(Tang & Mccalla,2004)。邢春曉等在傳統(tǒng)協(xié)同過濾方法的基礎(chǔ)上提出基于時間的數(shù)據(jù)權(quán)重和基于資源相似度的數(shù)據(jù)權(quán)重兩種改進(jìn)方案,從而及時反映用戶興趣變化(邢春曉等,2007)。何安(2007)提出協(xié)同過濾和聚類組合的推送方法,通過先將物品聚類,較好地減少數(shù)據(jù)稀疏性,再結(jié)合協(xié)同過濾方法來處理大量稀疏的數(shù)據(jù)。
以上算法均是針對單個推送算法的優(yōu)化和兩種推送方法的組合,而多種算法的融合為推送算法的改進(jìn)提供了新的思路。王宏宇(2007)通過融合算法設(shè)計新的推送算法,提出將機器學(xué)習(xí)中的貝葉斯網(wǎng)絡(luò)與統(tǒng)計學(xué)習(xí)方法應(yīng)用于推薦算法融合,設(shè)計了一種支持向量機回歸實現(xiàn)的基于內(nèi)容推薦的算法,提高了推送精度,減少了推送時間。但其研究中使用的是原始的貝葉斯網(wǎng)絡(luò)提取特征,其表達(dá)能力有限,并且其中的貝葉斯網(wǎng)絡(luò)主要用于構(gòu)建用戶檔案模型。深度學(xué)習(xí)(Hinton et al.,2006)因其能夠自動識別出數(shù)據(jù)的特征,便于初始問題的特征提取,該方法能夠克服傳統(tǒng)特征提取方法存在的問題。中小學(xué)教育視頻資源豐富,亟需對視頻資源快速自動提取特征,進(jìn)而進(jìn)行有效地推送。支持向量機(Support Vector Machine,SVM)(張學(xué)工,2004)是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)方法,通常用來進(jìn)行模式識別、分類、以及回歸分析。
研究采用深度學(xué)習(xí)對視頻資源提取特征,然后構(gòu)造視頻中的知識點、視頻質(zhì)量和學(xué)習(xí)者需求之間的特征向量,作為支持向量機的輸入,再由支持向量機決定是否將視頻資源推送給學(xué)習(xí)者。這是一種基于深度學(xué)習(xí)和支持向量機的教育視頻資源推送方法,能向?qū)W習(xí)者推送有效的視頻資源。
整個系統(tǒng)主要包括三個部分:用戶需求提取、深度學(xué)習(xí)視頻知識點識別和支持向量機推送。系統(tǒng)整體架構(gòu)如圖1所示。
第一個部分為用戶需求提取,它的工作是通過采集和分析學(xué)習(xí)者的網(wǎng)絡(luò)行為來提取學(xué)生的網(wǎng)絡(luò)資源需求。用戶需求提取模塊是個性化推送的基礎(chǔ)模塊,負(fù)責(zé)收集用戶的學(xué)習(xí)信息。一方面通過在線學(xué)習(xí)情況調(diào)查獲取學(xué)生主動描述出來的顯式信息,例如學(xué)生的年級、課程學(xué)習(xí)情況以及考試成績等基本學(xué)習(xí)狀況;另一方面通過行為跟蹤收集用戶在資源使用過程中的隱式學(xué)習(xí)信息。行為跟蹤主要包括:(1)用戶的資源使用信息:通過用戶對資源的點擊、下載、收藏和評價等信息,選取用戶需要的學(xué)習(xí)資源,提取用戶對已有資源的需求描述。(2)用戶的資源搜索信息:通過搜索引擎日志(站內(nèi)搜索和嵌套外部的,如Baidu,Google等)記錄用戶檢索的信息,采用Web挖掘技術(shù)(韓勃,2012)獲取用戶學(xué)習(xí)行為數(shù)據(jù),在服務(wù)器端通過挖掘Web日志來跟蹤收集學(xué)生的學(xué)習(xí)行為數(shù)據(jù);在客戶端則利用Cookie、安裝瀏覽器插件等方法進(jìn)行數(shù)據(jù)采集,并根據(jù)這些行為數(shù)據(jù)分析學(xué)習(xí)者的學(xué)習(xí)興趣和偏重點。用戶信息收集模塊獲得的數(shù)據(jù)(包括基本信息、學(xué)習(xí)偏好、學(xué)習(xí)狀況)將用來對學(xué)習(xí)者進(jìn)行建模。通過分析用戶模型所得到學(xué)習(xí)者對學(xué)習(xí)資源的需求描述將作為支持向量機的輸入。
第二個部分為深度學(xué)習(xí)視頻知識點識別。首先采用深度學(xué)習(xí)進(jìn)行教育資源特征提取。采用深度自動編碼器利用無監(jiān)督逐層貪心預(yù)訓(xùn)練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡(luò),從無類標(biāo)數(shù)據(jù)中提取高維復(fù)雜輸入數(shù)據(jù)的分層特征,并得到原始數(shù)據(jù)的分布式特征。深度自動編碼的學(xué)習(xí)模型分為輸入層、共享表示層以及輸出層。在輸入層通過采用稀疏玻爾茲曼機進(jìn)行預(yù)訓(xùn)練得到資源的特征模態(tài)。在共享表示層通過采用典型關(guān)聯(lián)分析方法找到特征模態(tài)的轉(zhuǎn)換表示,從而最大化模態(tài)之間的關(guān)聯(lián)性。最后,在輸出層得到深度學(xué)習(xí)模型所識別出來的教學(xué)中的知識點,把該知識點作為下一步支持向量機進(jìn)行分類的輸入量。通過數(shù)據(jù)的訓(xùn)練來確定隱藏層與輸入層之間的權(quán)值,優(yōu)化支持向量機的工作性能,更好地呈現(xiàn)輸入數(shù)據(jù)的內(nèi)容。
第三個部分為支持向量機推送部分。首先建立用戶與學(xué)習(xí)資源的聯(lián)系,形成特征向量。然后采用徑向基核函數(shù)分別構(gòu)建支持向量機,最終實現(xiàn)學(xué)習(xí)資源的主動推送?;谥С窒蛄繖C的學(xué)習(xí)資源推送算法主要有兩個階段:學(xué)習(xí)階段和學(xué)習(xí)資源推送階段。學(xué)習(xí)階段主要包括:學(xué)習(xí)資源預(yù)選取、建立訓(xùn)練樣本集、選擇核函數(shù)、獲取相應(yīng)參數(shù)。學(xué)習(xí)階段之后為資源主動推送階段的實施過程。系統(tǒng)的性能指標(biāo)為學(xué)習(xí)者對推送結(jié)果的實際點擊率和滿意度。實際點擊率可由網(wǎng)站后臺統(tǒng)計得到,滿意度可以通過對學(xué)習(xí)者進(jìn)行滿意度調(diào)查問卷得到。
圖1 基于深度學(xué)習(xí)和支持向量機的教育視頻資源推送策略
學(xué)習(xí)者建模是對學(xué)習(xí)者的學(xué)習(xí)特征進(jìn)行描述的過程,推送系統(tǒng)中的學(xué)習(xí)者模型不僅包括學(xué)習(xí)者的姓名、性別等基本信息,還包括能夠反映學(xué)習(xí)者學(xué)習(xí)進(jìn)度、知識水平及其個性化(如興趣、愛好)的信息,這為學(xué)習(xí)者推薦合適的學(xué)習(xí)資源提供了依據(jù)。
由此,研究中的學(xué)習(xí)者模型可從學(xué)習(xí)風(fēng)格偏好、認(rèn)知水平和測試評價等多個方面進(jìn)行描述(黃俊,2013)。學(xué)習(xí)者模型的形式化描述如下:
學(xué)習(xí)者模型={基本信息,學(xué)習(xí)偏好,學(xué)習(xí)狀況}
1.學(xué)習(xí)者基本信息
學(xué)習(xí)者基本信息包括姓名、性別、年級、擅長科目等,由學(xué)習(xí)者提供。
2.學(xué)習(xí)者個性化興趣特征
個性化興趣特征包括學(xué)習(xí)者對教學(xué)內(nèi)容、教學(xué)方式、教學(xué)時間等方面的偏好,如學(xué)生喜歡詩詞類的學(xué)習(xí)內(nèi)容,喜歡互動式教學(xué),喜歡長時間學(xué)習(xí)。這類信息難以直接獲得,需通過對學(xué)習(xí)者的訪問記錄進(jìn)行數(shù)據(jù)挖掘、分析訪問記錄中隱含的學(xué)習(xí)者個性化特征而獲得。
3.學(xué)習(xí)者學(xué)習(xí)狀況
學(xué)習(xí)狀況主要描述學(xué)習(xí)者的知識學(xué)習(xí)狀態(tài),包括學(xué)習(xí)知識的廣度和深度。
(1)學(xué)習(xí)知識的廣度
知識點一般是由教學(xué)專家根據(jù)學(xué)科的特點和實際教學(xué)情況進(jìn)行的系統(tǒng)、科學(xué)的劃分,以保證知識內(nèi)容的局部完整性。研究采用知識點表示領(lǐng)域知識的最小完整單元。知識點可以構(gòu)建學(xué)生的知識體系,也能在一定程度上反映出學(xué)生當(dāng)前的知識廣度。因此而建立的學(xué)生的知識廣度模型如下:
其中,m1={a1,a2,…,an};m2={b1,b2,…,bn};…mn={m1,m2,…,mn};
式子a1~an,b1~bn,m1~mn都表示知識點的數(shù)值。當(dāng)學(xué)習(xí)者學(xué)習(xí)了某個知識點,則該知識點的屬性值為1。反之,該知識點的屬性值為0。因此,如果測量該學(xué)習(xí)者所學(xué)某一課程的全部知識點,就能得到表示該學(xué)生某一學(xué)科的知識體系向量。然而,知識點之間的關(guān)系并不是完全獨立的,而是有依賴、繼承、分解等關(guān)系,由知識點構(gòu)建的知識體系具有層次結(jié)構(gòu)。因此,研究采用一個有層次之分的向量組表示學(xué)習(xí)者的知識廣度。
(2)學(xué)習(xí)知識的深度
不同階段的學(xué)習(xí)者學(xué)習(xí)的知識點不同,研究將中小學(xué)學(xué)習(xí)者分為12個階段(如下表所示)。
表 中小學(xué)學(xué)習(xí)階段的劃分
根據(jù)學(xué)生所處的年級,在知識深度的量化過程中,引入變量g表示學(xué)生所處的不同年級,變量取值是處于區(qū)間[1,12]的整數(shù)。
在一個學(xué)習(xí)階段里,即具有相同的g值,為了更好地考核學(xué)生對知識的掌握情況,一般系統(tǒng)會通過進(jìn)行多次測驗來綜合評定。
其中,ci表示第i次測試的成績(假設(shè)每次測試的滿分均為100分)。wi表示一門課的各種測試中第i次測試占的比重,它的取值在[0,1]之間,必須滿足
綜合學(xué)習(xí)者的知識廣度和知識深度兩個方面,建立的領(lǐng)域知識模型為:
通過對學(xué)習(xí)者的學(xué)習(xí)偏好和學(xué)習(xí)狀況進(jìn)行分析,得到學(xué)習(xí)者的學(xué)習(xí)需求,作為支持向量機的輸入。
教育視頻中知識點的提取是進(jìn)行其個性化推送的前提,研究采用基于深度學(xué)習(xí)的方法能有效并準(zhǔn)確提取所需知識點。
圖2 深度自動編碼器學(xué)習(xí)模型
視頻是一種既包含音頻又包含圖像的合成資源,為根據(jù)視頻特征更準(zhǔn)確識別知識點,研究采用多模態(tài)的識別方法,即將視頻資源的深度學(xué)習(xí)模型描述為視聽雙模態(tài)的特征學(xué)習(xí),其中該模型的雙輸入分別是連續(xù)聲譜圖和視頻幀。
在進(jìn)行知識點識別與提取前,需對所需要的相關(guān)資源的特征進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練過程采用稀疏限制玻爾茲曼機(Restricted Boltzmann Machines,RBM)。RBM是一個具有隱藏變量和可見變量的無向圖模型。隱藏變量和可見變量之間存在對稱性的連接,但隱藏變量之間或者可見變量之間沒有連接。并且可見變量作為實值單元,隱藏變量作為二值單元。研究采用對比差異來學(xué)習(xí)RBM模型的參數(shù)。同時為了調(diào)整該模型的稀疏度,我們鼓勵每一個隱藏單元采用正則懲罰時期具有預(yù)決定的期望激活。
視頻資源的深度學(xué)習(xí)模型采用基于稀疏理論的深度自動編碼器(Jiquan et al.,2011)。深度自動編碼器是一種利用無監(jiān)督逐層貪心預(yù)訓(xùn)練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡(luò)從無標(biāo)簽數(shù)據(jù)中提取高維復(fù)雜輸入數(shù)據(jù)的分層特征,并得到原始數(shù)據(jù)的分布式特征表示的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其主要工作是復(fù)現(xiàn)輸入內(nèi)容。當(dāng)自動編碼器的輸入為無標(biāo)簽數(shù)據(jù)時,其首先需要經(jīng)過一個輸入數(shù)據(jù)編碼的過程,將該編碼作為輸入的一個表示,然后再進(jìn)行表示的解碼,這樣就可以獲得輸入數(shù)據(jù)的信息,如果該解碼信息與原始輸入信息相像,可以肯定編碼的過程是可靠的,進(jìn)而調(diào)整編碼與解碼過程的權(quán)重,進(jìn)一步減小信息重構(gòu)的誤差,提高知識點識別的準(zhǔn)確度。
基于稀疏理論的深度自動編碼器對原始自動編碼器的隱含層添加了約束條件并增加了隱含層數(shù)量,因而當(dāng)隱含層神經(jīng)元的數(shù)量很大時,該類自動編碼器依然能發(fā)現(xiàn)輸入數(shù)據(jù)的結(jié)構(gòu)特征。該深度自動編碼器能提取高維數(shù)據(jù)變量的稀疏解釋性因子,保留原始輸入的非零特征,增加表示算法的魯棒性,增強數(shù)據(jù)的線性可分性,使分類邊界變得更加清晰,并且能在一定程度上控制變量的規(guī)模,改變給定輸入數(shù)據(jù)的結(jié)構(gòu),豐富原有信息,提高信息表述的全面性和準(zhǔn)確率。
基于以上分析,研究提出一種基于深度自動編碼器的知識點提取方案,如圖2所示。
該學(xué)習(xí)模型分為輸入層、共享表示層以及輸出層。
輸入層:為視頻資源的兩個特征模態(tài),即聲譜波和視頻幀,該兩個特征采用稀疏玻爾茲曼機進(jìn)行預(yù)訓(xùn)練。
共享表示層:這一層的關(guān)鍵是找到特征模態(tài)的轉(zhuǎn)換表示,從而最大化模態(tài)之間的關(guān)聯(lián)性。研究采用典型關(guān)聯(lián)分析(Canonical Correlation Analysis,CCA)的方法尋找聲譜波和視頻幀數(shù)據(jù)的線性轉(zhuǎn)換,從而形成性能優(yōu)良的共享表示。
其中,典型相關(guān)分析有助于綜合地描述兩組變量之間的典型相關(guān)關(guān)系,先將較多變量轉(zhuǎn)化為少數(shù)幾個典型變量,再通過其間的典型相關(guān)系數(shù)來綜合描述兩組多元隨機變量之間關(guān)系的統(tǒng)計方法。運用典型相關(guān)分析,其基本程序是從兩組變量各自的線性函數(shù)中各抽取一個組成一對,它們應(yīng)是相關(guān)系數(shù)達(dá)到最大值的一對,稱為第1對典型變量,類似地就可以求出第2對、第3對……,這些成對變量之間互不相關(guān),各對典型變量的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。所得到的典型相關(guān)系數(shù)的數(shù)目不超過原兩組變量中任何一組變量的數(shù)目。共享層采用典型相關(guān)分析方法,目的是最大程度發(fā)現(xiàn)聲譜波和視頻幀數(shù)據(jù)兩者之間的關(guān)聯(lián)點,進(jìn)而應(yīng)用深度學(xué)習(xí)更精準(zhǔn)地識別教育視頻中的知識點。
輸出層:輸出該深度學(xué)習(xí)模型所識別出來的教學(xué)視頻中的知識點,該知識點作為下一步支持向量機進(jìn)行分類的輸入量。
綜上所述,深度自動學(xué)習(xí)編碼模型的工作流程如下:首先利用稀疏玻爾茲曼機對視頻資源進(jìn)行預(yù)訓(xùn)練,得到視頻資源的兩個特征模態(tài),即聲譜波和視頻幀;然后利用典型關(guān)聯(lián)分析方法找到聲譜波和視頻幀數(shù)據(jù)的線性轉(zhuǎn)換并形成優(yōu)良的共享表示;最后輸出該視頻中包含的知識點,作為支持向量機的輸入。
研究采用SVM技術(shù)對含有深度學(xué)習(xí)提取到的特征信息的學(xué)習(xí)資源進(jìn)行主動推送,但并不是所有的資源都要進(jìn)行推送。其關(guān)鍵問題是選擇哪些資源進(jìn)行推送。研究的目的是根據(jù)用戶的特征進(jìn)行資源的匹配性推薦,即推薦適合用戶的信息。通過建立學(xué)習(xí)資源與用戶需求的關(guān)聯(lián),在學(xué)習(xí)資源庫中智能化選擇最適合該學(xué)習(xí)者的學(xué)習(xí)資源,并進(jìn)行主動推送。
為了更好地實現(xiàn)學(xué)習(xí)資源的個性化推送,首先需要建立起用戶需求與學(xué)習(xí)資源的聯(lián)系,并形成特征向量。然后采用徑向基核函數(shù)構(gòu)建支持向量機,最終實現(xiàn)學(xué)習(xí)資源的個性化推送。基于支持向量機的學(xué)習(xí)資源推送算法主要包括學(xué)習(xí)階段和學(xué)習(xí)資源推送階段。
1.用戶需求與學(xué)習(xí)資源之間的關(guān)聯(lián)
基于支持向量機的資源推送主要通過知識點來建立用戶需求與學(xué)習(xí)資源之間的關(guān)聯(lián)。知識點是教學(xué)活動過程中傳遞教學(xué)信息的基本單元,包括理論、原理、概念、定義、范例和結(jié)論等。一門課程的學(xué)習(xí)可以看成是對一系列知識點的學(xué)習(xí)過程。
為了更清晰地建立用戶需求與學(xué)習(xí)資源之間的關(guān)聯(lián),需要描述知識點之間的關(guān)系。知識點之間的關(guān)系包含從屬關(guān)系和支持關(guān)系。在從屬關(guān)系中,不包含任何其他知識點的稱為元知識點;而包含其他知識點的稱為復(fù)合知識點。知識點的支持關(guān)系是指知識點的先修后修關(guān)系,因為學(xué)習(xí)是一種循序漸進(jìn)的過程,知識點在學(xué)習(xí)過程中具有一種必然的先后銜接關(guān)系。一個知識點當(dāng)前是否可學(xué)習(xí)往往取決于另一些知識點是否學(xué)習(xí)過,或者說后者是前者的預(yù)備知識。在學(xué)習(xí)某一知識點之前必須先學(xué)習(xí)相關(guān)的另一知識點,這兩者之間的關(guān)系即為先修關(guān)系。在學(xué)習(xí)某一知識點之后,由本知識點直接支持的知識點,這兩者之間就直接構(gòu)成了后修關(guān)系。
圖3 某課程知識結(jié)構(gòu)分解圖
通過支持關(guān)系構(gòu)建的知識點關(guān)系圖是一個有向無環(huán)圖(DAG)(林海平等,2010),如圖3所示。課程中的實例、解說等學(xué)習(xí)對象統(tǒng)稱為學(xué)習(xí)資源,并將每個學(xué)習(xí)對象用“隸屬”關(guān)系隸屬于某個知識點,由此構(gòu)成圖3所示的某課程知識結(jié)構(gòu)分解圖。其中,課程知識域數(shù)據(jù)庫(KDDB)包含了課程中所有的知識點,并定義各知識點之間的關(guān)系;學(xué)習(xí)對象數(shù)據(jù)庫(LODB)包含此課程的所有學(xué)習(xí)資源對象,并定義每個學(xué)習(xí)對象與知識點的隸屬關(guān)系。根據(jù)知識點劃分的顆粒度不同,可分為復(fù)合知識點F和元知識點Y。
學(xué)習(xí)資源主要由學(xué)習(xí)資源包含的知識點列表(Slist)和學(xué)習(xí)資源難度(N)、學(xué)習(xí)視頻的清晰度(Q)以及點擊率(Sq)來進(jìn)行形式化的描述。學(xué)習(xí)資源與用戶需求的絕對距離AD(S,R)表示學(xué)習(xí)資源與用戶所需的知識點的相關(guān)性,即前面所描述的支持程度,絕對距離越大則表示相關(guān)性越小。而學(xué)習(xí)資源與用戶需求的相對距離AD(S,R)主要表示學(xué)習(xí)資源中知識點與用戶需求中知識點的先修后修關(guān)系。用戶需求的知識點包括用戶瀏覽記錄和所提供的關(guān)鍵詞,用Rlist表示用戶需求的知識點列表。
2.特征向量的選擇
資源是否推送可以通過支持向量機進(jìn)行學(xué)習(xí)分類,因此需要構(gòu)造特征向量作為支持向量機的輸入。當(dāng)用戶瀏覽資源后,系統(tǒng)可根據(jù)其瀏覽的學(xué)習(xí)資源記錄關(guān)鍵詞,同時根據(jù)其需求主動推送學(xué)習(xí)資源。因此,需要構(gòu)造學(xué)習(xí)資源與用戶需求的特征向量主要包括:學(xué)習(xí)資源與用戶需求的絕對距離、相對距離,學(xué)習(xí)資源的學(xué)習(xí)難度,學(xué)習(xí)資源的清晰度及點擊率。
3.基于支持向量機的個性化學(xué)習(xí)資源推送設(shè)計
(1)支持向量機原理
SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來的,基本思想可用圖4的兩維情況說明。圖中圓形和方形分別代表兩類樣本,H為分類線,分別為各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(訓(xùn)練錯誤率為0),且能使分類間隔最大。
對于非線性問題,可以通過非線性變換轉(zhuǎn)換為某個高維空間中的線性問題,再變換空間求最優(yōu)分類面。對于非線性數(shù)據(jù)集,SVM可通過一種核函數(shù)將非線性空間映射到高維空間而實現(xiàn)線性分類。
圖4 線性可分情況下的最優(yōu)分類線
目前SVM最常用的核函數(shù)主要有三類:線性核函數(shù)、多項式核函數(shù)和徑向基(RBF)核函數(shù)。這些核函數(shù)中RBF應(yīng)用最廣,無論是小樣本還是大樣本,高維還是低維等情況,RBF核函數(shù)均適用。相比其他的函數(shù)RBF,核函數(shù)具有以下優(yōu)點:
其一,RBF核函數(shù)可以將一個樣本映射到一個更高維的空間,而且線性核函數(shù)是RBF的一個特例,換言之,如果考慮使用RBF,就沒有必要考慮線性核函數(shù)了。
其二,與多項式核函數(shù)相比,RBF需要確定的參數(shù)要少,核函數(shù)參數(shù)的多少直接影響函數(shù)的復(fù)雜程度。另外,當(dāng)多項式的階數(shù)比較高時,核矩陣的元素值將趨于無窮大或無窮小,而選擇RBF會減少數(shù)值的計算困難。
(2)推送的實現(xiàn)
推送主要分為學(xué)習(xí)階段與學(xué)習(xí)資源主動推送階段。
學(xué)習(xí)階段的實施過程包括:預(yù)選取學(xué)習(xí)資源、建立訓(xùn)練樣本集、選擇核函數(shù)、獲取相應(yīng)參數(shù)。
預(yù)選取學(xué)習(xí)資源:根據(jù)用戶的瀏覽記錄,系統(tǒng)將根據(jù)相關(guān)原則預(yù)選取一些資源,推薦給用戶。
建立訓(xùn)練樣本集:每一個預(yù)挑選出來的學(xué)習(xí)資源與用戶需求生成特征向量,如果用戶點擊選取了此學(xué)習(xí)資源,則歸類為1,否則歸類為0。
選擇核函數(shù):依據(jù)麥瑟(Mercer)定理按實際情況為SVM選擇適當(dāng)?shù)暮撕瘮?shù)相關(guān)參數(shù),作為高維特征空間在低維輸入空間的等效形式。選擇適當(dāng)?shù)暮撕瘮?shù)可將復(fù)雜特征空間映射到一個簡單的高維空間,且高維空間中兩特征向量間的點積可由核函數(shù)在低維特征空間中對應(yīng)兩特征向量計算而得到,這樣降低了分類器的復(fù)雜度,而不用擔(dān)心由于引入核函數(shù)而引起的維數(shù)災(zāi)難。
獲取相應(yīng)參數(shù):通過訓(xùn)練樣本集,求解二次規(guī)劃式,獲得每一個SVM的支持向量及相應(yīng)的拉格朗日(Lagrange)乘子。
資源主動推送階段的實施過程是:首先導(dǎo)入前面學(xué)習(xí)階段所獲得的參數(shù),包括訓(xùn)練樣本數(shù)據(jù)、每個樣本對應(yīng)的拉個朗日乘子以及支持向量等。然后在用戶每次瀏覽后預(yù)選取若干個學(xué)習(xí)資源,將每個學(xué)習(xí)資源與用戶需求和資源質(zhì)量(包括資源的學(xué)習(xí)難度、清晰度和點擊率)生成輸入特征向量(RD (S,R),AD(S,R),N,Q,Sq),根據(jù)分類函數(shù)計算其輸出值(0或者1)。最后是資源的推送,將輸出結(jié)果為1的特征向量中的學(xué)習(xí)資源推薦給用戶。
為提高教學(xué)資源的利用率和資源獲取的效率,研究提出了一種基于深度學(xué)習(xí)和支持向量機相結(jié)合的方法對網(wǎng)絡(luò)上大量學(xué)習(xí)資源進(jìn)行推送。針對以往基于資源推送系統(tǒng)中很多資源上傳者在描述資源時,只是簡單地描述內(nèi)容信息,沒有全面、詳細(xì)地描述導(dǎo)學(xué)資源介紹的相關(guān)知識的問題,采用深度神經(jīng)網(wǎng)絡(luò)和支持向量機相結(jié)合的方式對缺少分類和標(biāo)簽信息的教育資源實現(xiàn)推送。采用深度自動編碼器,進(jìn)行資源的深度共享,從而有效準(zhǔn)確識別出教學(xué)資源中的知識點,然后構(gòu)造資源的知識點、質(zhì)量和用戶需求之間的特征向量,作為支持向量機的輸入,根據(jù)支持向量機中的分類函數(shù)決定是否推送,實現(xiàn)資源根據(jù)用戶需求自動推送。通過學(xué)習(xí)者對推送結(jié)果的實際點擊率和滿意度作為方案的性能評價指標(biāo)。這種方案關(guān)注學(xué)習(xí)者的興趣需求和視頻特征的結(jié)合,具有廣泛的市場前景和應(yīng)用潛力。
參考文獻(xiàn):
[1]郭進(jìn)成(2013).基于本體的教育資源推送服務(wù)研究[D].呼和浩特:內(nèi)蒙古大學(xué): 1.
[2]韓勃(2012). E-Learning環(huán)境中學(xué)習(xí)行為挖掘的設(shè)計與實現(xiàn)[D].濟南:山東大學(xué): 4-11.
[3]何安(2007).協(xié)同過濾技術(shù)在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D].杭州:浙江大學(xué): 28-38.
[4]黃?。?013).基于學(xué)生特征模型的教育云資源推送技術(shù)[D].廣州:華南理工大學(xué): 19-23.
[5]林海平,檀曉紅,申瑞民(2010).基于知識結(jié)構(gòu)圖的個性化學(xué)習(xí)內(nèi)容生成算法[J].上海交通大學(xué)學(xué)報,(3):418-422.
[6]邢春曉,高鳳榮,戰(zhàn)思南(2007).適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,(2):296-301.
[7]許海玲,吳瀟,李曉東(2009).互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,(2): 350-362.
[8]王宏宇(2007).商務(wù)推薦系統(tǒng)的設(shè)計研究[D].合肥:中國科學(xué)技術(shù)大學(xué): 108-123.
[9]張學(xué)工(2004).關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J].自動化學(xué)報,26(1):32-42.
[10]Avancini,H.,& Straccia,U.(2004). Personalization,Collaboration,and Recommendation in the Digital Library Environment Cyclades[A]. Proceedings of the IADIS International Conference Applied Computing(AC-04)[C]. Lisbon,Portugal: IADIS:589-596.
[11]Dunja,M.(1996). Personal Web Watcher: Design and Implementation[R].Departmentof Intelligent Systems JStefan Institute.
[12]Hinton,G. E.,& Salakhutdinov,R. R.(2006). Reducing the Dimensionality of Data with Neural Networks[J]. Science,313(5786):504-507.
[13]Lieberman,H.,Dyke,N. V.,& Vivacqua,A.(1999). Let's Browse: A Collaborative Browsing Agent[J]. Knowledge-Based Systems,12(8):427-431.
[14]Linden,G.,Smith,B.,& York,J.(2010). Amazon.com Recommendations: Item-to-Item Collaborative Filtering[J]. IEEE Internet Computing,7(1):76-80.
[15]James. R.,& Marcos,J. P.(1997). Siteseer: Personalized Navigationforthe Web[J].Communicationsofthe ACM,40(3):73-75.
[16]Jiquan,N.,Aditya,K.,& Mingyu,K. et al.(2011). Multimodal Deep Learning[A]. Proceedings of the 28th International Conference on Machine Learning(ICML-11)[C]. Bellevue,Washington,Usa:689-696.
[17]Michael,P.,Jack,M.,&Daniel,B.(1998). Syskill & Webert: Identifying interesting web sites[C]. Thirteenth National Conference on Artificial Intelligence-volume.23(4):54-61.
[18]Resnick,P.,& Varian,H. R.(1997). Recommender Systems[J]. Communications of the ACM,40(3): 56-58.
[19]Tang,T.,& Mccalla,G.(2004). Evaluating a Smart Recommender for an Evolving E-learning System: A Simulation-Based Study[A]. Tawfik,A. Y.,& Goodwin,S. D.(2004). Advances in Artificial Intelligence[M]. Springer Berlin Heidelberg:439-443.
The Implementation of Educational Video Resources Recommendation Method Based on Feature Extraction
Wen Mengfei,Hu Chao,Yu Wentao,Liu Weirong
Abstract:The plentiful network educational video resources meet the demand of learners to select learning content,learning time and learning place by themselves. However,it's difficult for learners to obtain worthwhile resources associated with their needs from the massive resources quickly and efficiently because of some problems existing in the resources or the resources platform such as the varied quality of resource content,the scarcity of high-quality educational resources,resources homogenization,the single mode of resources pushing. To allow learners to get personalized educational video resources efficiently,when recommending resources,this research uses deep learning method to identify the knowledge points of video resources accurately. Then the feature vector structured by the knowledge points of video resources,video quality and the needs of learners serves as the input of the support vector machine,which is responsible for deciding whether to recommend video resources to the learners or not. The performance evaluating indicators of this proposed method includes the actual click rate of the recommended resources by learners and the satisfaction degree fed back by learners. This proposed method focuses on the combination of the learners' interests and video features,which can better meet the requirements of learners and enhance the ability of learners with great potential in application.
Keywords:Educational Video Resources;Feature Extraction;Deep Learning;Support Vector Machine;Recommendation Method
收稿日期2016-03-25責(zé)任編輯曾艷
作者簡介:文孟飛,博士,副教授,湖南省教育科學(xué)研究院(湖南長沙410005);胡超(通信作者),博士,講師,中南大學(xué)信息與網(wǎng)絡(luò)中心(湖南長沙410083);于文濤,博士,中南林業(yè)科技大學(xué)計算機與信息工程學(xué)院(湖南長沙410018);劉偉榮,博士,副教授,中南大學(xué)信息科學(xué)與工程學(xué)院(湖南長沙410083)。
*基金項目:湖南省教育科學(xué)“十二五”規(guī)劃重點資助項目“云計算環(huán)境下基礎(chǔ)教育優(yōu)質(zhì)數(shù)字資源建設(shè)與應(yīng)用研究”(XJK014AJC001);國家自然科學(xué)基金項目“云計算中資源共享的分層博弈聯(lián)盟形成與定價機制研究”(61379111)。
中圖分類號:G434
文獻(xiàn)標(biāo)識碼:A
文章編號:1009-5195(2016)03-0104-09 doi10.3969/j.issn.1009-5195.2016.03.012