梁肖裕 苗晨 山東科技大學(xué)信息管理與信息系統(tǒng)
關(guān)鍵字:LSTM 邏輯回歸分類器 混淆矩陣檢驗
我們擁有的初始數(shù)據(jù)集是某城市安裝四分之一的移動支付設(shè)備時,全部公交的移動支付情況。那么,該城市的公交車全部安裝移動支付設(shè)備后,當(dāng)前移動支付人數(shù)的四倍約為全部安裝移動支付設(shè)備后的總乘車人數(shù)。利用這個關(guān)鍵信息,使用LSTM神經(jīng)網(wǎng)絡(luò)對人數(shù)進(jìn)行預(yù)測。
LSTM網(wǎng)絡(luò)的訓(xùn)練采用誤差的反向傳播算法,當(dāng)前細(xì)胞的狀態(tài)會受到前一個細(xì)胞狀態(tài)的影響。同時在誤差反向傳播計算時,當(dāng)前單元的輸出誤差不僅僅包含當(dāng)前時刻T的誤差,也包括T時刻之后所有時刻的誤差,這樣每個時刻的誤差都可以經(jīng)由當(dāng)前單元的輸出和前一時刻單元的輸出迭代計算。
經(jīng)過訓(xùn)練后,我們利用LSTM的記憶特點,對全部安裝設(shè)備后的公交卡支付人數(shù)進(jìn)行預(yù)測,再與移動支付人數(shù)進(jìn)行對比。通過數(shù)據(jù)對比發(fā)現(xiàn),移動支付的人數(shù)一直比公交卡支付的人數(shù)多。且在統(tǒng)計范圍的28天之內(nèi),共計多出1440824人。
邏輯回歸是將線性函數(shù)的結(jié)果映射到了Sigmoid函數(shù)中,Sigmoid函數(shù)如圖1:
圖1 Sigmoid函數(shù)
其中x為樣本輸入,對應(yīng)的函數(shù)為模型輸出,可以理解為某一分類的概率大小。而θ為分類模型的要求出的模型參數(shù)。對于模型輸出,令其讓它和二元樣本輸出y(假設(shè)為0和1)有以下的對應(yīng)關(guān)系:如果模型輸出值大于0.5,則y為1。
混淆矩陣是一個兩行兩列的情形分析表,可以用來對分類器進(jìn)行評估檢驗。矩陣的每一列表達(dá)了分類器對于樣本的類別預(yù)測,二矩陣的每一行則表達(dá)了版本所屬的真實類別,顯示以下四組記錄的數(shù)目:作出正確判斷的肯定記錄(真陽性)、作出錯誤判斷的肯定記錄(假陰性)、作出正確判斷的否定記錄(真陰性)以及作出錯誤判斷的否定記錄(假陽性)。
我們將用LSTM預(yù)測出的結(jié)果放入邏輯回歸分類器進(jìn)行重復(fù)訓(xùn)練,每天抽調(diào)出400個數(shù)據(jù)作為訓(xùn)練集,100個作為測試集,對28天的數(shù)據(jù)分別進(jìn)行檢驗。
圖2 訓(xùn)練集檢驗圖
圖3 測試集檢驗圖
可知重復(fù)預(yù)測的結(jié)果比較理想,再根據(jù)混淆矩陣的輸出,以2月13日為例,當(dāng)天一百個測試集的數(shù)據(jù)的混淆矩陣,得到矩陣打印結(jié)果:
即成功率為89%,模型通過驗證。
綜合來看,移動支付平臺由四分之一到全部開放的過程中,增加了一定的固定成本,更關(guān)鍵的是移動支付客流量的大幅增長,經(jīng)過代入數(shù)值計算,可得該城市在全部移動支付平臺投入運(yùn)行后的第13天開始盈利,且第三方支付平臺在每位用戶處獲利0.5%,由于移動支付的客流量增大,故開始盈利三十天內(nèi),利潤可達(dá)到340000元。