衛(wèi)昆 李想
【摘 要】C2C電子商務(wù)模式由于虛擬性和信息的不對稱性,導(dǎo)致交易欺詐現(xiàn)象頻發(fā),其發(fā)展受到嚴(yán)重影響。論文通過構(gòu)建具有一定分類精度的隨機(jī)森林分類器模型,探索從C2C交易商家數(shù)據(jù)中發(fā)掘和識別出異常信息并分析評判的方法,幫助電子商務(wù)企業(yè)及時(shí)發(fā)現(xiàn)問題并做出決策,對C2C交易欺詐風(fēng)險(xiǎn)防范具有現(xiàn)實(shí)意義。
【Abstract】Due to the virtual nature and asymmetric information of the C2C e-commerce mode, there often occurs transaction fraud, and its development is seriously affected. Through constructing a random forest classifier mode, which has certain classification accuracy, we explore the method of discovering and identifying abnormal information from C2C trading merchant data and analyzing and judging it, so as to help e-commerce enterprises find problems and make decisions in time, it also has practical significance for the prevention of C2C transaction fraud risk.
【關(guān)鍵詞】C2C電子商務(wù);欺詐識別;隨機(jī)森林;決策樹
【Keywords】C2C e-commerce;fraud identification;random forest;decision-making tree
【中圖分類號】F724.6 【文獻(xiàn)標(biāo)志碼】A 【文章編號】1673-1069(2018)08-0171-03
1 C2C電子商務(wù)發(fā)展及其交易欺詐問題
隨著互聯(lián)網(wǎng)的發(fā)展,C2C電子商務(wù)交易模式不斷成熟穩(wěn)定,以其不受地域時(shí)間的限制、高效率、低成本等優(yōu)勢而受到越來越多人的青睞。近年來我國電子商務(wù)消費(fèi)者人數(shù)迅速增長,根據(jù)CNNIC第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)》,截至2017年12月底我國電子商務(wù)市場的交易總額高達(dá)29.16億元,較之2016年增幅約為11.7%。網(wǎng)絡(luò)購物市場總交易規(guī)模高達(dá)6.2億元,比2016年增長24%。2010年C2C市場的交易額約為4651億元,2015年C2C電子商務(wù)在中國整體網(wǎng)絡(luò)購物市場規(guī)模中增長率為19.5%,2017年天貓雙11全球狂歡節(jié)交易額高達(dá)1682億元,年增長39%,數(shù)據(jù)表明C2C電子商務(wù)模式發(fā)展空間很大。
2 相關(guān)理論方法介紹
2.1 分類器原理
分類器是利用分類技術(shù)構(gòu)建的模型,主要是用來預(yù)測數(shù)據(jù)對象的離散類別,經(jīng)過對訓(xùn)練集(由類別已知的數(shù)據(jù)組成)的學(xué)習(xí)得到一個(gè)分類模型,可視作一個(gè)目標(biāo)函數(shù),待測集(所屬類別未知的數(shù)據(jù))中的每個(gè)樣本通過該目標(biāo)函數(shù)的映射,得出一個(gè)被預(yù)測的類別。
2.2 分類器性能評價(jià)指標(biāo)
在分類器構(gòu)建完成后,通常需要使用一系列的指標(biāo)去衡量它的分類性能,首先是混淆矩陣?;煜仃?,現(xiàn)在假設(shè)分類變量只有兩個(gè)類別,分別為正例(positive)和負(fù)例(negative),其中,True positives(TP):表示實(shí)際為正例且被分類器判斷為正例的樣本的數(shù)量;False positives(FP):表示實(shí)際為負(fù)例但被分類器判斷為正例的樣本的數(shù)量;False negatives(FN):表示實(shí)際為正例但被分類器判斷為負(fù)例的樣本的數(shù)量;True negatives(TN):表示實(shí)際為負(fù)例且被分類器判斷為負(fù)例的樣本的數(shù)量。
2.3 決策樹與隨機(jī)森林
決策樹可以抽象理解為一個(gè)樹形結(jié)構(gòu),樹中的每個(gè)非葉子節(jié)點(diǎn)代表某個(gè)屬性,每個(gè)分支代表某個(gè)屬性值,每個(gè)葉子節(jié)點(diǎn)對應(yīng)著從根節(jié)點(diǎn)到該葉子節(jié)點(diǎn)所經(jīng)歷的路徑表示的樣本的類別,即葉子節(jié)點(diǎn)代表的屬性就是該樣本的分類結(jié)果。
隨機(jī)森林分類器是包含多個(gè)決策樹的一種組合分類器,最終的分類結(jié)果由這些決策樹共同決定。隨機(jī)森林的特點(diǎn)主要體現(xiàn)在它的兩個(gè)隨機(jī)性上,第一個(gè)隨機(jī)性是它在構(gòu)建每一個(gè)決策樹時(shí),采用自助法(bootstrap)重采樣技術(shù),即有回放地從數(shù)據(jù)集中隨機(jī)抽取一定數(shù)量的樣本,第二個(gè)隨機(jī)性是在決策樹進(jìn)行節(jié)點(diǎn)分裂時(shí),隨機(jī)選擇若干屬性參與比較,以確定分裂節(jié)點(diǎn)。
3 基于隨機(jī)森林的C2C交易欺詐識別模型構(gòu)建
3.1 數(shù)據(jù)收集及屬性確定
本研究從淘寶網(wǎng)收集了真實(shí)交易數(shù)據(jù),整理后共包含41個(gè)屬性,其中屬性“is_cheat”為目標(biāo)屬性,用來表示樣本的類別(欺詐商家,非欺詐商家),由于隨機(jī)森林算法在構(gòu)建決策樹節(jié)點(diǎn)時(shí),從數(shù)據(jù)集所有變量(除目標(biāo)屬性和用于標(biāo)識的屬性)中隨機(jī)選取若干屬性進(jìn)行比較,所以它能夠處理擁有屬性較多的數(shù)據(jù),無需進(jìn)行特征選擇[1]。如表1所示為各屬性名和它們的含義。
該數(shù)據(jù)集含樣本1456條,類別為“欺詐賣家”的樣本數(shù)為621,類別為“非欺詐賣家”的樣本數(shù)為835,訓(xùn)練集和測試集的樣本數(shù)量。
3.2 隨機(jī)森林分類器的構(gòu)建與訓(xùn)練
3.2.1分類器相關(guān)參數(shù)選擇
①mrty參數(shù)的選取
mrty參數(shù)表示隨機(jī)森林在分類節(jié)點(diǎn)處選擇參考的屬性的數(shù)量,對隨機(jī)森林分類的準(zhǔn)確度有很大影響。為了確定mrty的最優(yōu)取值,本文設(shè)計(jì)如下實(shí)驗(yàn):將mrty的值分別取為50、100、150,mrty取3至10之間的整數(shù)(若數(shù)據(jù)集的屬性個(gè)數(shù)為M,則mrty的值一般取為,由于本研究中,“count_id”和“is_cheat”屬性不計(jì)算在內(nèi),則M=39,的值介于6和7之間,所以取3至10之間的整數(shù)進(jìn)行實(shí)驗(yàn)),以訓(xùn)練集為數(shù)據(jù)集,以F的值為評價(jià)指標(biāo),分類器的分類性能和F的值呈正相關(guān)。當(dāng)mrty=6時(shí),F(xiàn)的值比較穩(wěn)定且普遍較高,所以選定mrty的值為6,即將要構(gòu)建的隨機(jī)森林分類器在分類節(jié)點(diǎn)處選擇參考的屬性的數(shù)量為6。
②ntree參數(shù)的選取
ntree參數(shù)表示隨機(jī)森林中所要生產(chǎn)樹的數(shù)量,它的取值對最終的分類效果也起著至關(guān)重要的作用,所以本文也設(shè)計(jì)如下實(shí)驗(yàn)來確定其最優(yōu)取值:mtry取值為6,將ntree的取值分別設(shè)定為10、40、70、100、130、160、190、220、250,同樣以訓(xùn)練集為數(shù)據(jù)集,以F的值為評價(jià)指標(biāo)。當(dāng)mtry=6,ntree=70時(shí),所得到的F值最大,此時(shí)分類器的分類效果也相對最好,所以我們將參數(shù)ntree的值確定為70。
3.2.2 隨機(jī)森林分類器的訓(xùn)練
在確定分類器構(gòu)建所需要的軟件及相關(guān)參數(shù)的取值后,分類器的運(yùn)行流程
參數(shù)值確定后,進(jìn)行分類器的構(gòu)建,在R軟件中輸入如下程序:
library(randomForest) ;#加載隨機(jī)森林程序包
Data_train <- read.csv(" F: / train .csv" , header=TRUE) ;#讀入訓(xùn)練集數(shù)據(jù)
Data_test <- read.csv(" F: / test .csv" , header=TRUE) ;#讀入測試集數(shù)據(jù)
RF <- randomForest(is_cheat ~ , Data_train , importance=TRUE , ntree=70 , mtry=6 ) ;#運(yùn)行randomForest()函數(shù)
A= predict( RF , Data_test , type="response") ;#運(yùn)用測試集對隨機(jī)森林分類器進(jìn)行測試
table(A , Data_test $ is_cheat )#將測試結(jié)果進(jìn)行展示
4 結(jié)論
本文在C2C電子商務(wù)交易欺詐日漸嚴(yán)重的情況下,提出以數(shù)據(jù)挖掘技術(shù)中的隨機(jī)森林算法構(gòu)建分類器模型,介紹了決策樹與隨機(jī)森林的原理、構(gòu)建過程,對二者的分類性能進(jìn)行了對比,得出了隨機(jī)森林分類器分類效果好于決策樹分類器的結(jié)論。進(jìn)而運(yùn)用從淘寶網(wǎng)上收集的真實(shí)交易數(shù)據(jù)進(jìn)行分類器模型的構(gòu)建,通過使用R軟件、確定相關(guān)參數(shù)、測試集測試等步驟,構(gòu)建了具有較高分類正確率的隨機(jī)森林分類器模型,可以對欺詐商家進(jìn)行有效的識別。本文工作試圖從C2C電子商務(wù)交易賣家數(shù)據(jù)中有效地識別出欺詐賣家,以期望C2C電子商務(wù)交易欺詐問題能夠早日得到解決,人們能夠獲得更加良好更加放心的網(wǎng)上購物體驗(yàn),賣家可以在公平的環(huán)境下競爭,C2C電子商務(wù)持續(xù)健康發(fā)展。
【參考文獻(xiàn)】
【1】王全才.隨機(jī)森林特征選擇[D].遼寧:大連理工大學(xué),2011.