張?chǎng)?/p>
摘要:隨著中國(guó)汽車工業(yè)的高速增長(zhǎng)及汽車市場(chǎng)的日益成熟,汽車消費(fèi)也成為拉動(dòng)內(nèi)需的一個(gè)重要“引擎”。購(gòu)車行為是整個(gè)消費(fèi)者行為過(guò)程最關(guān)鍵的環(huán)節(jié)。因此,對(duì)于中國(guó)汽車消費(fèi)者的購(gòu)車決策影響因素進(jìn)行分析具有重要意義。本文主要利用機(jī)器學(xué)習(xí)中的三種分類算法并建立ROC曲線,對(duì)中國(guó)家庭購(gòu)車決策影響因素進(jìn)行分析。
關(guān)鍵詞:購(gòu)車決策;分類算法;ROC曲線
一、引言
當(dāng)前社會(huì),汽車已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡某鲂泄ぞ摺1疚睦弥袊?guó)家庭金融調(diào)查數(shù)據(jù),分別利用Logistic回歸,線性判別LDA分類器和非線性二次判別QDA分類器這三種分類算法進(jìn)行對(duì)比研究,并采用ROC分析技術(shù),分析出對(duì)于中國(guó)家庭購(gòu)車行為的影響因素問(wèn)題哪種分類方法更優(yōu)。
二、研究算法簡(jiǎn)介
用機(jī)器學(xué)習(xí)的方法來(lái)分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識(shí)已成為今后的研究趨勢(shì)。在解決實(shí)際問(wèn)題時(shí),分類模式和回歸模式是使用最普遍的。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或者分類模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某個(gè)類。本文主要研究了Logistic回歸模型,線性判別LDA分類器和非線性二次判別QDA分類器三種分類算法的對(duì)比。評(píng)估分類規(guī)則的準(zhǔn)確率是模型的關(guān)鍵,如果準(zhǔn)確率可以接受,則分類規(guī)則可用于新的數(shù)據(jù)的分類。ROC曲線是用來(lái)衡量分類算法的一種分析方法,能全面分析分類算法的分類性能。目前,通用的方法是計(jì)算ROC曲線下的面積AUC。AUC是曲線下區(qū)域與單位面積的比值,它的值在0到1之間。通常AUC值越大,意味著分類性能越好。
三、數(shù)據(jù)來(lái)源、變量說(shuō)明
3.1數(shù)據(jù)來(lái)源
本文數(shù)據(jù)采用西南財(cái)經(jīng)大學(xué)2011年中國(guó)家庭金融調(diào)查(CHFS)數(shù)據(jù)。涉及到25個(gè)?。ㄖ陛犑校?、80個(gè)縣、320個(gè)社區(qū)的8438戶家庭,CHFS數(shù)據(jù)庫(kù)中包括家庭購(gòu)車決策、家庭各項(xiàng)收入、戶主個(gè)人特征,如年齡、受教育程度等信息。首先用Statal2.0對(duì)數(shù)據(jù)進(jìn)行處理,最后選取了8個(gè)變量,6203戶家庭信息。
3.2變量說(shuō)明
VI:carif,家庭的購(gòu)車決策(若購(gòu)車,carif=1;不購(gòu)車,cafif=0);V2:house,家庭住房擁有量,作為家庭財(cái)富的替代變量;v3:In_income,家庭年收入取對(duì)數(shù),家庭年收入包括家庭工資性收入(稅后)、福利性補(bǔ)貼收入、財(cái)產(chǎn)性收入、生產(chǎn)經(jīng)營(yíng)性收入及非家庭成員對(duì)其轉(zhuǎn)移性收入,且為減輕可能存在的異方差影響,對(duì)家庭收入變量取對(duì)數(shù)處理;v4:age,戶主的年齡;v5:size,家庭規(guī)模;V6:sex,戶主性別;v7:edu,戶主的受教育程度,將受教育水平為大專及大專以上的取值為1,其他為0。V8:mar,戶主的婚姻狀況。
四、實(shí)證結(jié)果分析
4.1Logistic回歸
4.1.1擬合
對(duì)家庭是否購(gòu)買汽車的選擇模型,先對(duì)家庭的購(gòu)車決策(V1),家庭住房擁有量(V2),家庭年收入(V3),戶主的年齡(V4),家庭規(guī)模(V5),戶主性別(V6),戶主的受教育程度(V7),戶主的婚姻狀況(V8)進(jìn)行擬合。然后用Step()函數(shù)進(jìn)行逐步回歸,篩選出影響顯著的變量,結(jié)果變量V2,V6,V8被剔除。
Logistic回歸結(jié)果輸出見(jiàn)表2。且模型輸出結(jié)果中,AIC=2077.3,由表2可知訓(xùn)練出來(lái)的模型為:
4.1.2預(yù)測(cè)
建立模型的一個(gè)重要目的就是預(yù)測(cè),下面對(duì)6203戶家庭購(gòu)車決策模型進(jìn)行預(yù)測(cè),用Logistic預(yù)測(cè)的分類結(jié)果中288個(gè)錯(cuò)判。
4.1.3分類性能評(píng)價(jià)
本文通過(guò)ROC曲線來(lái)衡量分類算法的分類性能,加載R語(yǔ)言中的pROC程序包。得到Logistic模型的ROC曲線如圖1。圖1中ROC曲線下方面積(AUC)為0.747,大于0.5。
4.2LDA分類算法
用到的是程序包MASS中的函數(shù)lda0,得到LDA分類算法對(duì)家庭購(gòu)車決策的分類結(jié)果。對(duì)于LDA分類性能評(píng)價(jià),得到LDA模型的ROC曲線如圖2。圖2中ROC曲線下方面積(AUC)為0.746。
4.3QDA分類算法
用到的是程序包MASS中的函數(shù)qda(),得到QDA分類算法對(duì)家庭購(gòu)車決策的分類結(jié)果,其中有289戶家庭分類錯(cuò)判。對(duì)于LDA分類性能評(píng)價(jià),得到LDA模型的ROC曲線如圖3。圖3中ROC曲線下方面積(AUC)為0.749,優(yōu)于前兩種分類方法。
從以上研究發(fā)現(xiàn)影響家庭購(gòu)車行為決策的因素主要有家庭年收入,家庭規(guī)模,戶主年齡及受教育程度。且通過(guò)Logistic回歸,線性判別LDA分類器和非線性二次判別QDA分類器這三種分類算法的對(duì)比研究,結(jié)合KOC分析技術(shù),發(fā)現(xiàn)二次判別函數(shù)QDA對(duì)于中國(guó)家庭購(gòu)車行為的影響因素問(wèn)題的研究更優(yōu)。