邢文娜,寧睿
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
隨著我國(guó)經(jīng)濟(jì)的發(fā)展,人們的生活水平逐漸提高,然而仍有相當(dāng)一部分群體處于生活較為貧困的狀態(tài)[1-3]。在高校中同樣存在一定數(shù)量的貧困學(xué)生,尤其是高等教育體制改革、高校擴(kuò)招后,貧困生所面臨的問(wèn)題進(jìn)一步凸顯。為了改善貧困學(xué)生的生活水平,國(guó)家開(kāi)展了多種形式的助學(xué)計(jì)劃。
然而,高校扶貧對(duì)象的確認(rèn)主要依靠學(xué)生申請(qǐng)、班級(jí)成員與輔導(dǎo)員評(píng)估的模式,存在編造虛假申請(qǐng)材料與舞弊的現(xiàn)象。同時(shí)由于部分貧困學(xué)生害怕受到歧視,申請(qǐng)積極性較低[4-7]。這些具體情況均會(huì)導(dǎo)致助學(xué)金無(wú)法真正惠及需要幫助的學(xué)生,因此,開(kāi)展高效、合理、智能的貧困生確認(rèn)方法成為當(dāng)前高校扶貧工作的重點(diǎn)之一[8]。
隨著大數(shù)據(jù)技術(shù)與深度學(xué)習(xí)技術(shù)的不斷發(fā)展,深度挖掘?qū)W生的在校消費(fèi)數(shù)據(jù)成為了可能[9-11]。利用經(jīng)過(guò)人工標(biāo)注的、有監(jiān)督訓(xùn)練的模型,可自動(dòng)識(shí)別與判斷該學(xué)生是否具有貧困生的特征。文中利用深度學(xué)習(xí)的RBF 神經(jīng)網(wǎng)絡(luò)技術(shù)與分布式強(qiáng)化學(xué)習(xí)技術(shù),分別將預(yù)處理過(guò)的學(xué)習(xí)消費(fèi)數(shù)據(jù)聚類(lèi)和分析,構(gòu)建基于分布式強(qiáng)化學(xué)習(xí)的精準(zhǔn)助學(xué)數(shù)據(jù)分析算法。
為精準(zhǔn)識(shí)別學(xué)生的貧困程度,文中通過(guò)對(duì)學(xué)生在校園內(nèi)產(chǎn)生的各項(xiàng)消費(fèi)數(shù)據(jù)進(jìn)行采集與分析,并通過(guò)分布式強(qiáng)化學(xué)習(xí)來(lái)深層次挖掘?qū)W生的消費(fèi)習(xí)慣。進(jìn)而對(duì)學(xué)生的消費(fèi)能力進(jìn)行排序,以此為依據(jù)進(jìn)行助學(xué)金的分配。具體結(jié)構(gòu)框架如圖1 所示。
圖1 基于分布式強(qiáng)化學(xué)習(xí)助學(xué)金分配結(jié)構(gòu)框架
歸一化RBF 神經(jīng)網(wǎng)絡(luò)聚類(lèi)可將各個(gè)消費(fèi)場(chǎng)景產(chǎn)生的數(shù)據(jù)提取特征向量,RBF 神經(jīng)網(wǎng)絡(luò)是一種三層無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)[12]。文中將其改進(jìn),設(shè)置多層隱藏層,并進(jìn)行歸一化,以實(shí)現(xiàn)將低維度的數(shù)據(jù)轉(zhuǎn)化為高維度的向量,從而將低維度的線性不可分問(wèn)題轉(zhuǎn)化為高維空間的線性可分問(wèn)題。
分布式強(qiáng)化學(xué)習(xí)是在行動(dòng)與評(píng)價(jià)中學(xué)習(xí)知識(shí),從而改進(jìn)行動(dòng)方案,來(lái)適應(yīng)周?chē)h(huán)境,并最終實(shí)現(xiàn)目標(biāo)的過(guò)程。試錯(cuò)搜索與延遲回報(bào)是強(qiáng)化學(xué)習(xí)最大的特點(diǎn),其基本模型如圖2 所示。當(dāng)智能體做出某個(gè)行為動(dòng)作時(shí),環(huán)境因該行為動(dòng)作產(chǎn)生狀態(tài)變化,同時(shí)反饋給智能體一個(gè)獎(jiǎng)勵(lì)信息。智能體根據(jù)當(dāng)前環(huán)境狀態(tài)及反饋回的獎(jiǎng)勵(lì)信息來(lái)選擇下一個(gè)動(dòng)作,而動(dòng)作選擇的標(biāo)準(zhǔn)是讓得到獎(jiǎng)勵(lì)信息的概率增大。
圖2 基于分布式強(qiáng)化學(xué)習(xí)助學(xué)數(shù)據(jù)分析結(jié)構(gòu)框架
精準(zhǔn)助學(xué)數(shù)據(jù)分析算法除了需要有先進(jìn)的算法,還需要有合適的數(shù)據(jù)來(lái)源作為分析材料,圖3 為精準(zhǔn)助學(xué)數(shù)據(jù)來(lái)源及預(yù)處理示意圖。使用大數(shù)據(jù)技術(shù)可以從學(xué)生在校園區(qū)域內(nèi)產(chǎn)生的各項(xiàng)消費(fèi)數(shù)據(jù)分析該學(xué)生的消費(fèi)能力、消費(fèi)習(xí)慣等信息,進(jìn)而量化學(xué)生的貧困程度,精準(zhǔn)篩選貧困生。隨著數(shù)字化與智能化應(yīng)用在校園的推進(jìn),使得學(xué)生的某些行為被記錄下來(lái)。餐廳、圖書(shū)館、超市、澡堂、洗衣房及校園內(nèi)代步車(chē)等場(chǎng)所或設(shè)備均有相應(yīng)的終端可以采集到學(xué)生的消費(fèi)信息與充值信息,通過(guò)中心化數(shù)據(jù)庫(kù)將這些信息收集并處理,即可成為分析學(xué)生消費(fèi)習(xí)慣、貧困程度的原始數(shù)據(jù)。
圖3 數(shù)據(jù)來(lái)源及預(yù)處理示意圖
原始數(shù)據(jù)雖能表征學(xué)生的消費(fèi)能力與消費(fèi)習(xí)慣,但其存在大量的無(wú)效數(shù)據(jù)。因此,在進(jìn)行數(shù)據(jù)挖掘前需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包含:數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)充以及衍生變量的計(jì)算,數(shù)據(jù)清洗是指針對(duì)數(shù)據(jù)采集終端同一消費(fèi)行為重復(fù)采集數(shù)據(jù)、數(shù)據(jù)記錄異常等情況進(jìn)行無(wú)效數(shù)據(jù)的過(guò)濾及清除,以降低數(shù)據(jù)量;數(shù)據(jù)補(bǔ)充是針對(duì)數(shù)據(jù)采集終端因故障等原因未能采集到數(shù)據(jù)的現(xiàn)象,通過(guò)數(shù)據(jù)中心的數(shù)據(jù)對(duì)比來(lái)補(bǔ)充相關(guān)消費(fèi)信息;衍生變量是指利用原始數(shù)據(jù)計(jì)算得到其他相關(guān)指標(biāo),涉及的指標(biāo)有總消費(fèi)次數(shù)、總金額、食堂消費(fèi)金額、超市消費(fèi)金額等。
隨著數(shù)字化校園的推進(jìn),越來(lái)越多的智能體被使用,由此產(chǎn)生的消費(fèi)數(shù)據(jù)可用來(lái)分析各個(gè)學(xué)生的消費(fèi)能力、行為習(xí)慣等信息。由食堂、洗衣房、澡堂等組成多智能體協(xié)作系統(tǒng)在解決實(shí)際問(wèn)題時(shí),群體強(qiáng)化學(xué)習(xí)算法可實(shí)現(xiàn)較優(yōu)的效果,各個(gè)智能體之間的交互可使用對(duì)策模型來(lái)進(jìn)行表述。Markov 對(duì)策是對(duì)傳統(tǒng)Markov 決策的改進(jìn)和優(yōu)化,將其變成由多個(gè)參與者參加的分布式?jīng)Q策過(guò)程,并將多步對(duì)策看作是隨機(jī)發(fā)生的。Markov 對(duì)策框架如圖4 所示,是Mark 決策與雙矩陣對(duì)策的組合。Mark 決策是一種單個(gè)智能體、多個(gè)環(huán)境的模型,而雙矩陣對(duì)策是多個(gè)智能體、單個(gè)環(huán)境的模型。通過(guò)兩者的結(jié)合,可認(rèn)為Markov 對(duì)策是多個(gè)智能體、多個(gè)環(huán)境的模型[13-14]。
圖4 Markov對(duì)策框架結(jié)構(gòu)示意圖
Q 學(xué)習(xí)是多智能體領(lǐng)域內(nèi)應(yīng)用最廣泛的強(qiáng)化學(xué)習(xí)算法,將Q 學(xué)習(xí)算法從單個(gè)智能體擴(kuò)展到多個(gè)智能體時(shí),可以將所有智能體的聯(lián)合動(dòng)作代替單個(gè)智能體的動(dòng)作。在多智能體系統(tǒng)內(nèi),使用Bayesian 網(wǎng)絡(luò)可建立各個(gè)智能體之間的相互關(guān)系。該相互關(guān)系可用聯(lián)合概率分布進(jìn)行表征,聯(lián)合概率越大,表明智能體之間的緊密耦合程度越高。由于各個(gè)智能體在選擇行為動(dòng)作時(shí)通常依據(jù)某種策略,在概率學(xué)上表現(xiàn)為智能體在某狀態(tài)下選擇的動(dòng)作是服從一定概率分布的隨機(jī)行為。因此研究某智能體的行為時(shí),可通過(guò)研究其他智能體歷史行為,學(xué)習(xí)其行為選擇策略并建模,由此確定該智能體的最佳響應(yīng)。某智能體在進(jìn)行行為選擇時(shí),可通過(guò)其他智能體所選擇動(dòng)作的先驗(yàn)概率,在Bayesian 網(wǎng)絡(luò)的基礎(chǔ)上推導(dǎo)相應(yīng)的后驗(yàn)概率,即確定行為選擇策略[15-16]。
學(xué)生的消費(fèi)行為是動(dòng)態(tài)行為,通過(guò)長(zhǎng)時(shí)間的數(shù)據(jù)收集、分析可以更加準(zhǔn)確地分析學(xué)生的經(jīng)濟(jì)狀況,因此貧困生的篩選與認(rèn)定應(yīng)當(dāng)是動(dòng)態(tài)的過(guò)程。文中使用分布式強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)分析模型的建立,可將瞬時(shí)優(yōu)化目標(biāo)函數(shù)轉(zhuǎn)化成長(zhǎng)期的優(yōu)化目標(biāo)。當(dāng)數(shù)據(jù)與數(shù)據(jù)庫(kù)中已存在消費(fèi)行為相似時(shí),智能體可根據(jù)學(xué)習(xí)到的知識(shí)直接得到與當(dāng)前消費(fèi)行為相近的結(jié)果,避免重復(fù)計(jì)算。
動(dòng)態(tài)模型可以化簡(jiǎn)為MDP 過(guò)程,其定義如下。
式中,S代表消費(fèi)狀態(tài)集合;A代表助學(xué)獎(jiǎng)金的發(fā)放;P代表轉(zhuǎn)移概率矩陣;r代表獎(jiǎng)賞函數(shù)。消費(fèi)狀態(tài)集合是指所有學(xué)生消費(fèi)狀態(tài)的集合,為了方便后續(xù)計(jì)算,需要按照一定的規(guī)則表示成向量。定義集合如式(2)所示。
其中,p(t)表示每天的消費(fèi)金額;h(t)表示每天的消費(fèi)次數(shù);Sm(t)表示第t天學(xué)生賬戶余額狀態(tài)。文中,轉(zhuǎn)移概率被視為未知量,可使用免模型學(xué)習(xí)算法Q-learning 來(lái)求解。
由于學(xué)生在校園中存在多個(gè)消費(fèi)場(chǎng)景,在這些場(chǎng)景中,學(xué)生的消費(fèi)習(xí)慣應(yīng)該是統(tǒng)一的,因此需要聯(lián)合動(dòng)作學(xué)習(xí)。在此設(shè)定下,強(qiáng)化學(xué)習(xí)算法認(rèn)為智能體可通過(guò)相互觀察,來(lái)獲取彼此所選擇的行為與相應(yīng)的報(bào)酬等信息,進(jìn)而維護(hù)自身的Q函數(shù)。此時(shí),所有智能體的Q值將組成一個(gè)對(duì)策集合Q1(st),…,Qn(st)。因此,值函數(shù)可被表示為式(3):
相應(yīng)的,令Nash 平衡的解為x1(st),…,xn(st),則值函數(shù)可進(jìn)一步表示為式(4):
值函數(shù)得到更新后,Q值亦隨之改變。更新規(guī)則如式(5)所示。
通過(guò)以上分析,精準(zhǔn)助學(xué)數(shù)據(jù)分析算法的過(guò)程如下:
1)將狀態(tài)訪問(wèn)次數(shù)初始化,設(shè)置n(s)為0,對(duì)于任意狀態(tài)及任意動(dòng)作行為,其平衡解的概率值為x(s,ak)=1/|A|;
2)智能體k通過(guò)觀察其他智能體來(lái)預(yù)測(cè)聯(lián)合動(dòng)作概率x(s,a1,…,an),并以此來(lái)選擇最優(yōu)策略x(s,ak);
3)在選擇行為動(dòng)作時(shí),智能體k通過(guò)獨(dú)立學(xué)習(xí)來(lái)更新自身行為的概率分布,依據(jù)概率x(s,ak)選擇下一動(dòng)作;
4)智能體k根據(jù)Bayesian 公式來(lái)調(diào)整其他智能體的動(dòng)作選擇信念,并更新Q值;
5)令n(s+1)=n(s)+1,返回步驟2)繼續(xù)循環(huán)。
為了驗(yàn)證文中所述方案的有效性與可行性,使用某高校312 名學(xué)生的一卡通消費(fèi)數(shù)據(jù)進(jìn)行驗(yàn)證。經(jīng)過(guò)預(yù)處理后的部分?jǐn)?shù)據(jù),如表1 所示。預(yù)處理后的數(shù)據(jù)涉及各個(gè)消費(fèi)場(chǎng)景的消費(fèi)次數(shù)、單次消費(fèi)最大值、中位值。從中選擇3/4 作為訓(xùn)練數(shù)據(jù),使得歸一化RBF 神經(jīng)網(wǎng)絡(luò)與分布式強(qiáng)化學(xué)習(xí)模型的各個(gè)網(wǎng)絡(luò)參數(shù)可以精準(zhǔn)地識(shí)別數(shù)據(jù)背后的規(guī)律性。其余數(shù)據(jù)作為測(cè)試數(shù)據(jù),以檢驗(yàn)文中所提出的精準(zhǔn)助學(xué)數(shù)據(jù)分析方法的準(zhǔn)確率。
表1 每月學(xué)生各項(xiàng)消費(fèi)數(shù)據(jù)(預(yù)處理后)
首先,使用訓(xùn)練模型進(jìn)行歸一化RBF神經(jīng)網(wǎng)絡(luò)的隱藏層層數(shù)與神經(jīng)元個(gè)數(shù)的確認(rèn)。從圖5 中可以看出,隱藏層層數(shù)的增加會(huì)顯著提高聚類(lèi)準(zhǔn)確率增長(zhǎng)的速度,在神經(jīng)元較少的情況下仍可實(shí)現(xiàn)較高的準(zhǔn)確率。而神經(jīng)元個(gè)數(shù)的增加同樣會(huì)提高聚類(lèi)準(zhǔn)確率,但當(dāng)神經(jīng)元個(gè)數(shù)增加到一定數(shù)量時(shí),準(zhǔn)確率趨于固定值。綜合神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)間及聚類(lèi)準(zhǔn)確率,歸一化RBF神經(jīng)網(wǎng)絡(luò)被設(shè)置為3層隱藏層,每層各30個(gè)神經(jīng)元。
圖5 不同隱藏層層數(shù)及神經(jīng)元個(gè)數(shù)對(duì)聚類(lèi)準(zhǔn)確率結(jié)果對(duì)比
其次,通過(guò)設(shè)置對(duì)照組的方式來(lái)驗(yàn)證分布式強(qiáng)化學(xué)習(xí)算法的有效性。實(shí)驗(yàn)組采用文中所述的分布式強(qiáng)化學(xué)習(xí)算法模型,對(duì)照組采用Adaboost 算法進(jìn)行貧困生的認(rèn)定。兩組均采用相同的已清洗數(shù)據(jù),使用相同配置的計(jì)算機(jī)平臺(tái)進(jìn)行驗(yàn)證。針對(duì)文中采用的分布式強(qiáng)化學(xué)習(xí),相應(yīng)仿真參數(shù)為:學(xué)習(xí)率為0.8,折扣系數(shù)為0.9。Adaboost 算法采用多個(gè)弱分類(lèi)器進(jìn)行分類(lèi)以提升學(xué)習(xí)精度,每個(gè)弱分類(lèi)器的權(quán)重不同,通過(guò)微調(diào)各個(gè)權(quán)重值來(lái)提高分類(lèi)準(zhǔn)確度。文中所述方案與Adaboost 算法的識(shí)別結(jié)果對(duì)比,如表2所示。從表2 中可以看出,無(wú)論是訓(xùn)練數(shù)據(jù)或是測(cè)試數(shù)據(jù),文中所述方案的識(shí)別準(zhǔn)確率均比Adaboost算法高。同時(shí)分布式強(qiáng)化學(xué)習(xí)的平均絕對(duì)誤差為0.153 2,較Adaboost 算法低。這是由于分布式強(qiáng)化學(xué)習(xí)中各個(gè)智能體在選擇行為動(dòng)作時(shí),會(huì)通過(guò)觀察與學(xué)習(xí)其他智能體的行為策略,避免進(jìn)行更多的試錯(cuò)行為,提高了學(xué)習(xí)效率且加快收斂速度。
表2 分布式強(qiáng)化學(xué)習(xí)與Adaboost算法識(shí)別結(jié)果對(duì)比
文中使用分布式強(qiáng)化學(xué)習(xí)與歸一化RBF 神經(jīng)網(wǎng)絡(luò)進(jìn)行了精準(zhǔn)助學(xué)數(shù)據(jù)分析技術(shù)的研究,通過(guò)合適的隱藏層層數(shù)與神經(jīng)元個(gè)數(shù)的選擇來(lái)提高歸一化RBF 神經(jīng)網(wǎng)絡(luò)的聚類(lèi)準(zhǔn)確率。同時(shí)采用分布式強(qiáng)化學(xué)習(xí)進(jìn)一步挖掘?qū)W生消費(fèi)數(shù)據(jù)的內(nèi)在邏輯關(guān)系,通過(guò)對(duì)智能體在面對(duì)系統(tǒng)狀態(tài)所采用的行動(dòng)進(jìn)行獎(jiǎng)勵(lì)或懲罰,進(jìn)而改善學(xué)習(xí)策略的效率。經(jīng)過(guò)測(cè)試,文中所述方案在貧困生的識(shí)別方面具有80.9 %的準(zhǔn)確率,與Adaboost 算法相比更適合高校貧困生的認(rèn)定。