紀(jì) 娟
(1.四川開(kāi)放大學(xué),成都 610073;2.國(guó)家開(kāi)放大學(xué)教育信息管理與信息系統(tǒng)研究中心,北京 100039)
隨著大數(shù)據(jù)時(shí)代的到來(lái)和數(shù)據(jù)挖掘技術(shù)的迅猛發(fā)展,客戶流失預(yù)測(cè)模型再一次被研究者們關(guān)注。在激烈的市場(chǎng)競(jìng)爭(zhēng)環(huán)境下,企業(yè)客戶流失問(wèn)題越來(lái)越嚴(yán)重。國(guó)內(nèi)外對(duì)客戶流失模型的研究最早應(yīng)用于通信業(yè)[1],目前已廣泛應(yīng)用于金融、保險(xiǎn)、郵政、商品推銷等領(lǐng)域[2-5]。為了減少客戶流失率,企業(yè)通過(guò)建立大量基于不同算法和數(shù)據(jù)分析方法的客戶流失預(yù)測(cè)模型提前預(yù)測(cè)潛在的流失用戶,對(duì)模型預(yù)測(cè)出的流失用戶制定個(gè)性化的營(yíng)銷套餐,以此為策略來(lái)挽留用戶。如張宇等[6]基于C5.0決策樹(shù)算法以中國(guó)郵政短信服務(wù)的100多萬(wàn)條實(shí)際業(yè)務(wù)數(shù)據(jù)為研究對(duì)象,建立了客戶流失預(yù)測(cè)模型,得出的C5.0決策樹(shù)模型有較高的命中率和覆蓋率,具有良好的預(yù)警功能,能幫助企業(yè)及時(shí)發(fā)現(xiàn)有可能流失的客戶,減少客戶流失率;盧美琴等[7]針對(duì)商業(yè)銀行貴賓客戶流失率不斷提高的問(wèn)題,綜合應(yīng)用決策樹(shù)、支持向量機(jī)和貝葉斯網(wǎng)絡(luò)3種算法分別生成流失預(yù)警子模型,再利用神經(jīng)網(wǎng)絡(luò)對(duì)3個(gè)子模型進(jìn)行組合,構(gòu)建客戶流失預(yù)測(cè)模型,得出的組合預(yù)測(cè)模型的準(zhǔn)確率明顯優(yōu)于單一模型,能幫助企業(yè)提前定位可能流失的用戶,幫助銀行更好地進(jìn)行貴賓關(guān)系的管理。由此可見(jiàn),通過(guò)建立有效、高準(zhǔn)確率的流失預(yù)測(cè)模型,解決企業(yè)客戶流失問(wèn)題是目前市場(chǎng)上成熟有效的策略。
國(guó)內(nèi)教育研究者們一直關(guān)注學(xué)習(xí)者的流失問(wèn)題,也積累了一些研究成果。與金融和通信行業(yè)相比,我國(guó)關(guān)于學(xué)習(xí)者流失預(yù)警模型的研究成果較少,這些研究成果集中在輟學(xué)預(yù)測(cè)模型上,即根據(jù)學(xué)習(xí)者的課程學(xué)習(xí)行為數(shù)據(jù),預(yù)測(cè)未來(lái)退出課程學(xué)習(xí)的概率。如孫霞等[8]從課程學(xué)習(xí)行為數(shù)據(jù)中自動(dòng)提取有用的特征,使用卷積神經(jīng)網(wǎng)絡(luò)的長(zhǎng)短期記憶模型,動(dòng)態(tài)預(yù)測(cè)不同時(shí)間階段的學(xué)習(xí)者輟學(xué)率。郭文鋒等[9]以學(xué)習(xí)行為數(shù)據(jù)為基礎(chǔ),使用二元邏輯回歸模型,預(yù)測(cè)學(xué)習(xí)者退課率。盧曉航等[10]在課程數(shù)據(jù)基礎(chǔ)上提取19個(gè)特征,使用機(jī)器學(xué)習(xí)算法構(gòu)建滑動(dòng)窗口模型,動(dòng)態(tài)預(yù)測(cè)學(xué)習(xí)者輟學(xué)率。
從在線學(xué)習(xí)者的完整學(xué)業(yè)流程來(lái)看,學(xué)習(xí)者的課程學(xué)習(xí)行為只是學(xué)業(yè)中的一個(gè)重要業(yè)務(wù),僅根據(jù)課程學(xué)習(xí)行為數(shù)據(jù)建立流失預(yù)測(cè)模型,則使預(yù)判學(xué)習(xí)者流失的因素存在片面性和不完整性。因此,筆者在分析遠(yuǎn)程教育學(xué)生核心業(yè)務(wù)的基礎(chǔ)上,通過(guò)量化學(xué)生在核心業(yè)務(wù)上的活躍度,加入可以影響學(xué)生流失的關(guān)鍵基礎(chǔ)屬性,使用深度學(xué)習(xí)算法,建立一套基于深度學(xué)習(xí)的遠(yuǎn)程教育學(xué)生流失預(yù)測(cè)模型,為全面和深入地分析遠(yuǎn)程教育中學(xué)習(xí)者的流失因素提供科學(xué)依據(jù)。
人工神經(jīng)網(wǎng)絡(luò)是客戶流失預(yù)測(cè)中常用的一種算法,而深度學(xué)習(xí)(DeepLearning,DL)是人工神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展,是一種擁有多隱層的人工神經(jīng)網(wǎng)絡(luò)算法。該算法通過(guò)模擬人腦,多層、逐級(jí)地抽取信息特征,最終獲得能夠較好地表示輸入數(shù)據(jù)的特征[11]。2006年,Hinton等[12]提出的深度置信網(wǎng)絡(luò)(DBN)是當(dāng)前深度學(xué)習(xí)算法的框架,打破了深層神經(jīng)網(wǎng)絡(luò)難以有效訓(xùn)練的僵局。
深度學(xué)習(xí)是從已標(biāo)注分類的實(shí)驗(yàn)數(shù)據(jù)中學(xué)習(xí)類似人腦處理信息的神經(jīng)結(jié)構(gòu),實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)的自動(dòng)分類的過(guò)程[13]。深度學(xué)習(xí)網(wǎng)絡(luò)內(nèi)部應(yīng)用了激活函數(shù)、損失函數(shù)、神經(jīng)單元誤差反向傳播法、梯度下降法等多種數(shù)學(xué)工具,具備嚴(yán)謹(jǐn)?shù)目茖W(xué)性。通過(guò)不斷地計(jì)算數(shù)據(jù)和損失,得到可以用于預(yù)測(cè)或分類的神經(jīng)網(wǎng)絡(luò)模型[14]。目前,深度學(xué)習(xí)算法大多是基于DNN,它分為輸入層、輸出層和隱藏層,網(wǎng)絡(luò)的每一層都由許多神經(jīng)元組成,層與層間采用全連接結(jié)構(gòu)[15]。
深度學(xué)習(xí)算法從人工神經(jīng)網(wǎng)絡(luò)算法發(fā)展而來(lái),其本質(zhì)是含有多隱層的神經(jīng)網(wǎng)絡(luò)。它的思想來(lái)源于人腦的啟發(fā),從信息處理角度出發(fā)對(duì)人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立簡(jiǎn)單模型;它的工作原理借鑒于人腦的視覺(jué)機(jī)理,從原始信息開(kāi)始低層提取特征,逐漸向高層迭代提取特征,層級(jí)越高特征越抽象;它的動(dòng)機(jī)是通過(guò)構(gòu)建具有多隱層的機(jī)器模型,由此模型對(duì)海量數(shù)據(jù)進(jìn)行訓(xùn)練,由機(jī)器學(xué)習(xí)獲取更加有效的特征,從而最終提升分類和預(yù)測(cè)的準(zhǔn)確性。
筆者研究的目標(biāo)是使用多隱層的人工神經(jīng)網(wǎng)絡(luò)算法,建立遠(yuǎn)程教育本科學(xué)生流失預(yù)測(cè)模型。與使用決策樹(shù)、回歸分析和人工神經(jīng)網(wǎng)絡(luò)等算法建模的流程一樣,基于深度學(xué)習(xí)算法建模主要有理解數(shù)據(jù)、清洗數(shù)據(jù)、建立基于深度學(xué)習(xí)的流失預(yù)測(cè)模型和評(píng)估模型4個(gè)步驟。其建模流程圖如圖1所示。
圖1 基于深度學(xué)習(xí)的建模流程圖
理解數(shù)據(jù)是建立流失預(yù)測(cè)模型的關(guān)鍵步驟,其主要目的是對(duì)遠(yuǎn)程教育本科生的相關(guān)數(shù)據(jù)進(jìn)行分析和研究,在此基礎(chǔ)上確定目標(biāo)建模數(shù)據(jù),從而獲取建模數(shù)據(jù)以供建模時(shí)使用。具體包括:(1)確定目標(biāo)建模數(shù)據(jù);(2)對(duì)流失學(xué)生的定義。
3.1.1 確定目標(biāo)建模數(shù)據(jù)
據(jù)統(tǒng)計(jì)發(fā)現(xiàn),近年來(lái)遠(yuǎn)程教育本科生已達(dá)到畢業(yè)年限未能按期畢業(yè)的學(xué)生人數(shù)逐漸上升。四川省近年來(lái)遠(yuǎn)程教育本??普猩鷶?shù)及本科未按期畢業(yè)人數(shù)統(tǒng)計(jì)數(shù)據(jù),如表1所示。
表1 四川省遠(yuǎn)程開(kāi)放教育本??普猩鷶?shù)及本科未按期畢業(yè)人數(shù)統(tǒng)計(jì) 單位:人
表1中,本科未按期畢業(yè)人數(shù)表示的是在當(dāng)前年度學(xué)期入學(xué)的本科生已達(dá)到畢業(yè)年限還未畢業(yè)的人數(shù)。按本科畢業(yè)年限2.5年計(jì)算,2016年秋季及以前入學(xué)的學(xué)生均已達(dá)到畢業(yè)年限,但每期都存在大量未畢業(yè)的學(xué)生,且每期未按期畢業(yè)率均高于10%。從統(tǒng)計(jì)數(shù)據(jù)可以看出,2012―2016年本科生每期招生總數(shù)基本相同,而本科生每期未按期畢業(yè)人數(shù)則呈逐期上升趨勢(shì)。這些未按期畢業(yè)的學(xué)生,如果未采取相應(yīng)的挽留措施,久而久之成為流失生的可能性很大。而遠(yuǎn)程教育中,??粕恼猩?guī)模和畢業(yè)規(guī)模一直處于穩(wěn)定發(fā)展期,流失率較小。因此,筆者研究的目標(biāo)學(xué)生范圍是2012―2016年期間入學(xué)的本科生。
確定流失預(yù)測(cè)的目標(biāo)學(xué)生之后,接下來(lái)是特征工程的選擇。特征工程的選擇依賴于流失預(yù)測(cè)模型的類型。目前常見(jiàn)的流失預(yù)測(cè)模型包含基于用戶屬性、基于關(guān)鍵事件、基于負(fù)體驗(yàn)、基于業(yè)務(wù)黏性和基于活躍度這5種類型。其中基于關(guān)鍵事件的預(yù)測(cè)類型需要梳理詳細(xì)的流程事件,難度較大;基于負(fù)體驗(yàn)的預(yù)測(cè)類型需要梳理產(chǎn)品使用中的負(fù)體驗(yàn),這與遠(yuǎn)程教育中學(xué)生主體關(guān)聯(lián)不大;活躍度是界定用戶流失的最直接明了的指標(biāo),在數(shù)學(xué)模型中這樣的指標(biāo)具有優(yōu)越性,但是,活躍度是結(jié)果,是因變量,在解釋形成流失的原因方面存在一定的劣勢(shì),因此基于活躍度的流失預(yù)測(cè)意義不大;而基于業(yè)務(wù)黏性的流失預(yù)測(cè)模型主要分析用戶在核心業(yè)務(wù)功能上的活躍度表現(xiàn),模型既保留了最優(yōu)指標(biāo),又具有自變量元素。綜合考慮,采用基于業(yè)務(wù)黏性的流失預(yù)測(cè)模型。
基于業(yè)務(wù)黏性的流失預(yù)測(cè)模型重點(diǎn)在于定義核心業(yè)務(wù)和活躍行為。結(jié)合遠(yuǎn)程教育本科生的業(yè)務(wù)范疇,確定學(xué)生的核心業(yè)務(wù)為入學(xué)、注冊(cè)和考試3個(gè)方面,各核心業(yè)務(wù)具有的活躍行為是入學(xué)以來(lái)課程注冊(cè)后繳費(fèi)的行為、完成各種類型考核后獲得成績(jī)的行為和最后一次課程注冊(cè)行為。通過(guò)量化行為生成活躍度屬性,最終組成模型特征工程的第1部分內(nèi)容。深度學(xué)習(xí)算法具有逐層迭代提取特征的能力,為了體現(xiàn)它在特征工程方面的優(yōu)越性,加入了可以影響學(xué)生流失的關(guān)鍵基礎(chǔ)屬性作為特征工程的第2部分內(nèi)容。因此,基于深度學(xué)習(xí)的流失預(yù)測(cè)模型的最終特征工程包括學(xué)生的基礎(chǔ)屬性和核心業(yè)務(wù)的活躍度屬性。其中,學(xué)生的基礎(chǔ)屬性包括:學(xué)生的性別、出生日期(年齡)和身份證號(hào)(學(xué)生戶籍所在地類型);核心業(yè)務(wù)的活躍度屬性包括:入學(xué)學(xué)期數(shù)、最近一次課程注冊(cè)學(xué)期距離本期的學(xué)期數(shù)、已交課程注冊(cè)費(fèi)用、獲得及格成績(jī)課程門(mén)數(shù)。特征工程選項(xiàng)和釋義如表2所示。
表2 流失預(yù)測(cè)模型的特征工程表
3.1.2 定義流失學(xué)生
學(xué)籍庫(kù)中學(xué)生的學(xué)籍狀態(tài)屬性記錄了學(xué)生的狀態(tài),此屬性具有明確的流失記錄值。但是,只通過(guò)學(xué)籍狀態(tài)屬性來(lái)定義學(xué)生流失是不全面的,這是因?yàn)榇擞涗浶袨閷俜潜匾袨?,在系統(tǒng)中與其他業(yè)務(wù)沒(méi)有必要的流程關(guān)聯(lián)性,并不是所有的業(yè)務(wù)人員在實(shí)際操作時(shí)都完成了此項(xiàng)操作,從學(xué)生的相關(guān)數(shù)據(jù)分析也驗(yàn)證了上面的結(jié)論。筆者以學(xué)籍狀態(tài)為條件對(duì)本科學(xué)生分組后,通過(guò)增加時(shí)間節(jié)點(diǎn)和部分核心業(yè)務(wù)行為指標(biāo)來(lái)定義流失。具體內(nèi)容如下:
(1)獲取2012―2016年入學(xué)的本科生的學(xué)籍狀態(tài),根據(jù)學(xué)籍狀態(tài)將學(xué)生分成3組:已經(jīng)畢業(yè)的學(xué)生、在籍學(xué)生和其他狀態(tài)學(xué)生。其中,學(xué)籍狀態(tài)為已經(jīng)畢業(yè)的是已經(jīng)順利完成學(xué)業(yè)且獲得畢業(yè)證書(shū)的學(xué)生,這部分學(xué)生定義為非流失生;學(xué)籍狀態(tài)為其他的學(xué)生定義為流失生;學(xué)籍狀態(tài)為在籍的學(xué)生流失狀態(tài)待定,需要增加時(shí)間節(jié)點(diǎn)等信息確定。
(2)明確在籍學(xué)生的流失狀態(tài)。增加2個(gè)關(guān)鍵信息:最近一次注冊(cè)課程信息距離本學(xué)期的時(shí)間lRCtime和已經(jīng)獲得學(xué)分的課程數(shù)目tCount。當(dāng)lRCtime>6個(gè)學(xué)期,定義學(xué)生為流失狀態(tài);當(dāng)lRCtime≤6個(gè)學(xué)期,且獲得學(xué)分的課程總數(shù)tCount≤20,定義學(xué)生為流失狀態(tài);當(dāng)lRCtime≤6個(gè)學(xué)期,且獲得學(xué)分的課程總數(shù)tCount≥20,定義學(xué)生為非流失狀態(tài)。
為了提高訓(xùn)練模型時(shí)模型的執(zhí)行效率,需要在外部環(huán)境下對(duì)數(shù)據(jù)進(jìn)行清洗,包括標(biāo)準(zhǔn)化數(shù)據(jù)、填補(bǔ)建模數(shù)據(jù)的缺失值、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)不平衡等預(yù)處理。筆者使用SQL語(yǔ)言在數(shù)據(jù)庫(kù)環(huán)境下對(duì)建模數(shù)據(jù)預(yù)處理。主要有以下內(nèi)容:
3.2.1 標(biāo)準(zhǔn)化學(xué)生戶籍所在地信息
身份證號(hào)是學(xué)生身份的唯一標(biāo)識(shí),在注冊(cè)信息時(shí)必須用身份證號(hào)、護(hù)照、軍官證或其他能代表學(xué)生唯一身份的證件注冊(cè)。因此,將學(xué)生的戶籍所在地類別標(biāo)準(zhǔn)化處理為省內(nèi)、省外、外籍和其他4種類別,并將這4種類別的數(shù)據(jù)類型轉(zhuǎn)化為數(shù)值型數(shù)據(jù),分別用1~4表示。
3.2.2 填補(bǔ)建模數(shù)據(jù)缺失值
空值會(huì)造成模型不能正常訓(xùn)練,需要對(duì)模型的所有輸入值進(jìn)行填補(bǔ)處理。學(xué)生的身份證號(hào)、出生日期是非空項(xiàng),不需要替換,學(xué)生注冊(cè)費(fèi)用和學(xué)生已獲得及格成績(jī)的課程門(mén)數(shù)依據(jù)學(xué)生的行為獲取,存在缺失值,填補(bǔ)這2項(xiàng)的缺失值為0。
3.2.3 計(jì)算轉(zhuǎn)換數(shù)據(jù)
包括:(1)根據(jù)出生年月值計(jì)算年齡;(2)根據(jù)最后一次課程注冊(cè)學(xué)期值計(jì)算最近一次課程注冊(cè)時(shí)間距離本學(xué)期的學(xué)期數(shù);(3)根據(jù)入學(xué)學(xué)期值計(jì)算入學(xué)時(shí)間距離本學(xué)期的學(xué)期數(shù)。
3.2.4 處理不平衡數(shù)據(jù)
根據(jù)前文提到的相關(guān)條件提取2012—2016年期間入學(xué)的學(xué)生數(shù)據(jù),發(fā)現(xiàn)流失的學(xué)生有8 856 人,非流失的學(xué)生有64 641 人,流失和非流失學(xué)生數(shù)之間存在較大的差距,在數(shù)據(jù)上存在數(shù)據(jù)不平衡問(wèn)題。為了使模型預(yù)測(cè)更有意義,減少非流失學(xué)生數(shù),只選取非流失學(xué)生數(shù)中的10 000 條數(shù)據(jù),加上流失學(xué)生數(shù),最終建模數(shù)據(jù)集有18 856 條。
筆者研究的深度學(xué)習(xí)算法采用1個(gè)輸入層、2個(gè)隱藏層和1個(gè)輸出層的全連接神經(jīng)網(wǎng)絡(luò),使用Keras高級(jí)Python API快速構(gòu)建和訓(xùn)練基于深度學(xué)習(xí)的流失預(yù)測(cè)模型,使用Tensorflow深度學(xué)習(xí)框架作為它的后端,使用Tensorboard將模型可視化。基于深度學(xué)習(xí)的流失預(yù)測(cè)模型的結(jié)構(gòu),如圖2所示。
圖2 流失預(yù)測(cè)模型結(jié)構(gòu)圖
從圖2中可以了解網(wǎng)絡(luò)模型的整體結(jié)構(gòu)、數(shù)據(jù)流的方向和大小。模型實(shí)現(xiàn)的關(guān)鍵步驟具體描述如下。
3.3.1 拆分建模數(shù)據(jù)
Dense_input是最低層,是建模數(shù)據(jù)的入口。為了防止模型過(guò)擬合,從建模數(shù)據(jù)集中隨機(jī)抽取67%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),用來(lái)訓(xùn)練模型的參數(shù);其余33%的數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),用來(lái)檢驗(yàn)?zāi)P偷男阅?。使用Sklearn拆分?jǐn)?shù)據(jù)集后訓(xùn)練數(shù)據(jù)有12 633 條,測(cè)試數(shù)據(jù)有6 223 條。
3.3.2 搭建神經(jīng)網(wǎng)絡(luò)模型
使用Keras搭建基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,可以快速實(shí)現(xiàn)模型,包括:選擇模型類型、構(gòu)建模型的網(wǎng)絡(luò)層、編譯模型、訓(xùn)練模型和預(yù)測(cè)。
構(gòu)建模型的網(wǎng)絡(luò)層包括建立神經(jīng)網(wǎng)絡(luò)的輸入層、2個(gè)隱藏層和輸出層,并設(shè)置每層的神經(jīng)元數(shù)和激活函數(shù)的類型。網(wǎng)絡(luò)的輸入層有7個(gè)神經(jīng)元,分別對(duì)應(yīng)建模數(shù)據(jù)中的7個(gè)特征屬性;網(wǎng)絡(luò)的第1個(gè)隱藏層dense_1有12個(gè)神經(jīng)元,網(wǎng)絡(luò)的第2個(gè)隱藏層dense_2有8個(gè)神經(jīng)元,這2個(gè)隱藏層的激活函數(shù)都是非線性的ReLU函數(shù);由于本流失預(yù)測(cè)是二分類問(wèn)題,因此,網(wǎng)絡(luò)的輸出層只有1個(gè)神經(jīng)元,它的值是0或1,且輸出層的激活函數(shù)是Sigmoid函數(shù)。
編譯模型是對(duì)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程進(jìn)行配置,包括設(shè)置模型的優(yōu)化方式為Adam、指定損失函數(shù)為Binary_crossentropy和指定衡量模型的性能metrics指標(biāo)為accuracy。
3.3.3 評(píng)估模型性能
Tensorboard是Tensorflow內(nèi)置的一個(gè)可視化工具,能夠有效地展示程序在運(yùn)行過(guò)程中的結(jié)構(gòu)圖和各種指標(biāo)隨時(shí)間的變化趨勢(shì),從而幫助研究者們理解深度神經(jīng)網(wǎng)絡(luò)內(nèi)部的組織、結(jié)構(gòu)和其訓(xùn)練過(guò)程。模型深度學(xué)習(xí)的目標(biāo)是讓準(zhǔn)確率盡可能地提高,而損失盡可能地降低。通過(guò)Tensorboard的標(biāo)量面板,觀察訓(xùn)練數(shù)據(jù)的準(zhǔn)確率提高過(guò)程如圖3所示;訓(xùn)練數(shù)據(jù)的損失下降過(guò)程如圖4所示;測(cè)試數(shù)據(jù)的預(yù)測(cè)驗(yàn)證準(zhǔn)確率如圖5所示;測(cè)試數(shù)據(jù)的預(yù)測(cè)驗(yàn)證損失變化趨勢(shì)如圖6所示。
圖3 流失預(yù)測(cè)訓(xùn)練數(shù)據(jù)準(zhǔn)確率提高過(guò)程圖
圖4 流失預(yù)測(cè)訓(xùn)練數(shù)據(jù)損失下降過(guò)程圖
圖5 流失預(yù)測(cè)驗(yàn)證數(shù)據(jù)準(zhǔn)確率圖
圖6 流失預(yù)測(cè)驗(yàn)證數(shù)據(jù)損失變化趨勢(shì)圖
從圖3~圖6可以觀察到模型在150 次訓(xùn)練過(guò)程中,其學(xué)習(xí)目標(biāo)是朝著理想的狀態(tài)在進(jìn)行,在第150 次訓(xùn)練后,其訓(xùn)練數(shù)據(jù)的準(zhǔn)確率提高到0.979 5,訓(xùn)練數(shù)據(jù)的損失減少到0.053 4,驗(yàn)證數(shù)據(jù)的準(zhǔn)確率提高到0.970 1,驗(yàn)證數(shù)據(jù)的損失減少到0.077 1。
模型訓(xùn)練好后,需要從準(zhǔn)確率、召回率和精確率3個(gè)方面評(píng)估模型的效果。模型評(píng)估的詳細(xì)結(jié)果如表3所示。
表3 流失預(yù)測(cè)標(biāo)量圖
表3中,第2行是關(guān)于流失預(yù)測(cè)的3個(gè)評(píng)估指標(biāo)的值,第3行是關(guān)于非流失預(yù)測(cè)的3個(gè)評(píng)估指標(biāo)的值。從表3中可以看出,無(wú)論是對(duì)流失的預(yù)測(cè),還是對(duì)非流失的預(yù)測(cè),評(píng)估指標(biāo)值較高,表示模型效果較好。
遠(yuǎn)程教育本科招生形勢(shì)一直處于不理想狀態(tài),且本科學(xué)生未按期畢業(yè)人數(shù)居高不下,為了減少流失學(xué)生并緩和招生壓力,建立高效的本科學(xué)生流失預(yù)測(cè)模型迫在眉睫。筆者闡述了深度學(xué)習(xí)算法和深度學(xué)習(xí)框架,在理解業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,確定了基于核心業(yè)務(wù)黏性和學(xué)生基礎(chǔ)屬性的特征工程,采用Tensorflow深度學(xué)習(xí)框架構(gòu)建了包含2個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò),借助Tensorboard工具對(duì)深度神經(jīng)網(wǎng)絡(luò)可視化和性能評(píng)估。評(píng)估模型表明:構(gòu)建的基于深度學(xué)習(xí)的學(xué)生流失預(yù)測(cè)模型達(dá)到了理想的預(yù)測(cè)效果。但是,研究存在著2點(diǎn)不足:(1)對(duì)流失學(xué)生的定義,主觀性判斷較多;(2)基于業(yè)務(wù)黏性的核心指標(biāo)數(shù)不多。在下一步的研究中,可以從采用邏輯回歸模型定義流失學(xué)生、增加更多的基于業(yè)務(wù)黏性的核心指標(biāo)和隱藏層數(shù)等方面改進(jìn)及優(yōu)化模型,進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確率。
北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào)2022年3期