陳韜宇, 安海燕, 陳 杰
(1.貴州大學(xué)經(jīng)濟(jì)學(xué)院, 貴州 貴陽 550025;2.貴州師范大學(xué)國際教育學(xué)院, 貴州 貴陽 550001)
近年來,在我國經(jīng)濟(jì)快速發(fā)展下,產(chǎn)生了特有的農(nóng)民工群體。城鎮(zhèn)化發(fā)展至今,農(nóng)村勞動力轉(zhuǎn)移的同時,也導(dǎo)致了各式各樣的問題[1-3]。從經(jīng)濟(jì)學(xué)的視角來看,不論是生活的本質(zhì)——衣食住行,還是社會保障、教育等都會影響農(nóng)民工在城市的融入感[4-6]。如今,新生代農(nóng)民工逐漸成為老一代農(nóng)民工的接班人,而不同的成長環(huán)境和經(jīng)歷,造成其在融入城市的過程中又產(chǎn)生了新的問題[7-9]。因此,有必要對影響農(nóng)民工城市融入的因素進(jìn)行進(jìn)一步探究。本文采用信息學(xué)的ID3算法分析經(jīng)濟(jì)、社交、社會福利和心理4個方面對農(nóng)民工城市融入問題的影響,并為解決農(nóng)民工城市融入問題提出相應(yīng)的建議[10]。
本文以直觀的數(shù)據(jù)結(jié)果分析影響農(nóng)民工城市融入的因素。其中,決策樹算法的典型應(yīng)用在文獻(xiàn)[11]至文獻(xiàn)[13]中有提及,同時有許多學(xué)者對其進(jìn)行了優(yōu)化[14-16]。本文以大數(shù)據(jù)挖掘為基礎(chǔ),對城市融入問題的研究進(jìn)行方法上的創(chuàng)新[17-18]。
有別于傳統(tǒng)回歸分析方式,采取數(shù)據(jù)挖掘算法ID3分析農(nóng)民工的城市融入問題,對影響因子的重要性進(jìn)行樹形排列,得到直觀的信息,為該問題的深入研究提供方向和參考。
ID3算法就是決策樹模型算法,它是一種基本的分類回歸方法,通常運用于大數(shù)據(jù)挖掘方面,與ID3算法類似的有C4.5算法(ID3算法的一種擴(kuò)展算法)和CART算法。C4.5算法的優(yōu)點在于產(chǎn)生的規(guī)則容易被理解,正確率比較高,操作實現(xiàn)的難度不高,但是它的缺點也同樣明顯,例如數(shù)據(jù)需要進(jìn)行多次遍歷和排序,效率很低。ID3算法在剪枝和數(shù)據(jù)丟失值處理等方面區(qū)別于C4.5算法和CART算法。針對本文的問題,采取ID3算法更簡潔、有效,能夠準(zhǔn)確地挖掘數(shù)據(jù)中隱藏的含義,體現(xiàn)影響農(nóng)民工城市融入的主要因素和次要因素,也就是重要性的排序。
ID3算法是一種經(jīng)典的決策樹算法,常用于分析數(shù)據(jù)的重要性排序;它的原理是建立在奧卡姆剃刀原理的基礎(chǔ)上,用較少的樣本獲取更多的隱藏信息。在信息理論中,期望信息越小,那么信息增益(Gain)就越大。ID3算法的核心思想就是通過信息增益大小作為屬性的選擇理論依據(jù)進(jìn)行分裂挖掘。
(1)信息熵。熵的概念是在物理學(xué)中被定義的,它是在物理學(xué)中用作測量一個熱力學(xué)系統(tǒng)的無序程度,在信息學(xué)的理論中,熵是對不確定性信息的度量。香農(nóng)(Claude Shannon)對物理學(xué)中的熵重新進(jìn)行定義,出現(xiàn)了信息學(xué)中的信息熵,并將其定義為離散隨機(jī)事件出現(xiàn)的概率。一個數(shù)據(jù)集或者系統(tǒng)當(dāng)中的數(shù)據(jù)越有序,信息熵就越低;一個數(shù)據(jù)集或者系統(tǒng)當(dāng)中的數(shù)據(jù)越無序,信息熵就越高。假如一個隨機(jī)變量D的取值為D={d1,d2,d3,d4,…,dn},每一種取到的概率分別是{p1,p1,p3,…,pn},那么D的熵定義如下:
(1)
其中,Entropy(D)為數(shù)據(jù)總信息熵,pi為取到該項數(shù)據(jù)的概率。
一個變量的變化越多,那么它攜帶的信息量就越大。本文研究通過ID3算法對調(diào)研數(shù)據(jù)進(jìn)行處理,分析調(diào)研數(shù)據(jù)的信息量并用信息熵表示。由熵的定義可知,熵只決定了X的分布規(guī)律,與X的取值大小沒有關(guān)系。
(2)期望信息也稱為分類系統(tǒng)的熵或者條件熵,對于分類系統(tǒng)來說,特征A是擁有不同的類別{A1,A2,…,An}變量,它的樣本個數(shù)分別記為{C1,C2,C3,…,Cn},而每一個類別出現(xiàn)的概率分別是P(C1),P(C2),…,P(Cn),其中n表示類別的總數(shù)量。所以,期望信息(條件熵)就可以用公式(2)表示:
(2)
(3)信息增益是ID3算法中最核心的判別特征,也是區(qū)別重要性的依據(jù)。將信息增益定義為Gain,信息增益是數(shù)據(jù)集D分裂前與分裂后的差,表示由于特征的分裂引起數(shù)據(jù)集的不確定性程度降低。通過計算得到數(shù)據(jù)分裂的根據(jù)是由于當(dāng)特征的取值較多時,以此特征劃分更容易得到純度更高的子集,表現(xiàn)為如圖1所示的經(jīng)濟(jì)因素特征下還有特征可以分裂,也就是決策樹根節(jié)點順序由高到低表示重要程度的高低。
圖1 決策樹算法模型結(jié)果圖Fig.1 Result graph of decision tree algorithm model
信息增益越高,意味著劃分后的子節(jié)點純度越高,對于分類的貢獻(xiàn)越大。因此,ID3算法須選擇信息增益最大的節(jié)點作為父節(jié)點。表示信息增益的公式如下:
GainA(D)=E(D)-H(D/A)
(3)
其中,GainA(D)表示特征A中的信息增益,E(D)表示原始樣本的信息熵,H(D/A)表示特征A的條件熵。
數(shù)據(jù)來源于實地調(diào)研,有效的調(diào)研問卷總計359份,所有數(shù)據(jù)均來自調(diào)研對象農(nóng)民工。在問卷中設(shè)計了包括經(jīng)濟(jì)(收入)、社會福利(教育和醫(yī)療水平)、社交(親友數(shù)量)及心理(受到歧視心理影響程度)等方面的問題。將調(diào)查的實驗數(shù)據(jù)進(jìn)行匯總并歸納分析,將其分為15個大類,重復(fù)的數(shù)據(jù)歸為一個類別,得到的歸納分析結(jié)果如表1所示。
表1 數(shù)據(jù)歸納分析表Tab.1 Data summary and analysis table
本文研究將影響城市融入的影響因素分為經(jīng)濟(jì)(收入)、社會福利(教育和醫(yī)療水平)、社交(親友數(shù)量)、心理(受到歧視心理影響程度)4個方面。問卷調(diào)查中將收入變化和生活成本變化程度由弱到強(qiáng)分為5個。但是,由于問卷中的問題過于細(xì)分化,所以將5個程度減少為3個程度,分別是低、中、高,并且由于在調(diào)查問卷中調(diào)研對象選擇的程度在3~5的范圍,所以可以將程度1~2去除,最后的結(jié)果為低(3)、中(4)、高(5),分別代表了調(diào)研對象對經(jīng)濟(jì)部分問題的感知和反饋程度。社會福利、社交和心理三個影響因素進(jìn)行同樣的量化分類,具體如表1所示。
2.2.1 計算總體熵
經(jīng)歸納分析后的問卷結(jié)果見表1。表1中有15個例子,共有兩個大類,即城市融入的“是”與“否”,同時擁有4個特征,分別經(jīng)濟(jì)、社會福利、社交和心理。感到融入“是”的比例為7/15,感到融入“否”的比例為8/15。
計算總體熵,假設(shè)D為表1所有的數(shù)據(jù)集合,經(jīng)計算可得:
這里將Entropy(D)記為縮寫E(D),所以E(D)≈0.997(保留三位小數(shù),下同)。
2.2.2 計算特征下的條件熵
4個特征即C1為經(jīng)濟(jì)、C2為社會福利、C3為社交、C4為心理,將兩個大類記為B1與B2,分別用A1、A2和A3代表經(jīng)濟(jì)因素影響的高、中、低三個程度。
(1)以經(jīng)濟(jì)為特征計算條件熵表(如表2所示)。
表2 經(jīng)濟(jì)特征條件熵表Tab.2 Entropy table of economic characteristic conditions
根據(jù)經(jīng)濟(jì)為特征的熵:
H(D/C1)=PC1×H(D/C1A1)+
PC1×H(D/C1A2)+PC1×H(D/C1A3)
(4)
根據(jù)公式(2)可得樣本特征為經(jīng)濟(jì)的高、中、低的熵:
以經(jīng)濟(jì)為特征的熵:
(2)以社會福利為特征計算條件熵(如表3所示)。
表3 社會福利條件熵表Tab.3 Entropy table of social welfare conditions
根據(jù)社會福利為特征的條件熵:
H(D/C2)=PC2×H(D/C2A1)+
PC2×H(D/C2A2)+PC2×H(D/C2A3)
(5)
H(D/C2A3)=-0log20-log21=0
以社會福利為特征的熵:
(3)以社交為特征計算條件熵(如表4所示)。
表4 社交特征條件熵表Tab.4 Entropy table of social feature conditions
根據(jù)社交為特征的條件熵:
H(D/C3)=PC3×H(D/C3A1)+PC3×H(D/C3A3)
(6)
以社交為特征的熵:
(4)以心理為特征計算條件熵(如表5所示)。
表5 心理特征條件熵表Tab.5 Entropy table of psychological feature conditions
根據(jù)心理為特征的條件熵:
H(D/C4)=PC4×H(D/C4A1)+PC4×H(D/C4A3)
(7)
以心理為特征的熵:
2.2.3 計算信息增益
信息增益通過以下公式計算,并選取出最大的信息增益作為樹的根節(jié)點,也就是最重要因素的決出。
Gain(D/Ci)=E(D)-H(D/Ci)
(8)
Gain(D/C1)=E(D)-H(D/C1)=0.997-0.805=0.192
Gain(D/C2)=E(D)-H(D/C2)=0.997-0.860=0.137
Gain(D/C3)=E(D)-H(D/C3)=0.997-0.990=0.007
Gain(D/C4)=E(D)-H(D/C4)=0.997-0.971=0.026
選取具有最大增益的特征作為樹的根節(jié)點,也就是經(jīng)濟(jì)因素C1作為根節(jié)點。
(1)接下來進(jìn)行數(shù)據(jù)集劃分,經(jīng)濟(jì)因素影響程度高(C1A1)對應(yīng)表1的數(shù)據(jù)集為X1={1,2,3,4,5};經(jīng)濟(jì)因素影響程度中(C1A2)對應(yīng)表1的數(shù)據(jù)集為X2={6,7,8,9,10};經(jīng)濟(jì)因素影響程度低(C1A3)對應(yīng)表1的數(shù)據(jù)集為X3={11,12,13,14,15}。
(2)進(jìn)行數(shù)據(jù)集的劃分后,對每個數(shù)據(jù)集進(jìn)行決策樹算法,在數(shù)據(jù)集的子集中求出各個子集信息增益,從而得到X1中C2特征最為顯著,也就是信息增益最大,將其設(shè)置為分枝根節(jié)點。同理,在X2中的信息增益最大的也是C2,對C2再進(jìn)行決策樹算法,同時對其數(shù)據(jù)集劃分得到C2特征中高的信息增益為特征C4,C2特征中的信息增益較高的為C3,所以得到信息增益在各個特征下的信息增益排序,各個特征下低的部分皆為否類,并畫出決策樹的圖(如圖1所示)。
根據(jù)實驗結(jié)果和數(shù)據(jù)決策樹分析圖可知,經(jīng)濟(jì)因素是第一影響因素,社會福利因素是次要影響因素,這反映了農(nóng)民工對社會福利的關(guān)心程度較高,從側(cè)面反映了農(nóng)民工只有在強(qiáng)烈感受到社會保障(如醫(yī)療和教育)的福利之后,才會降低城市無法融入感,甚至認(rèn)可自身融入城市。對政府來說,完善社會福利體系,醫(yī)療、教育、保險都是很重要的方面。同時,對于社會福利的微觀方面,應(yīng)該盡力幫助農(nóng)民工對享受到保障措施的程序簡單化,杜絕各種享受福利需要各種部門蓋章的煩瑣程序,讓農(nóng)民工感受到城市對其的包容。研究表明,心理和社交因素對于農(nóng)民工城市融入的影響程度比較低。農(nóng)民工是否覺得自己受到歧視以及影響其城市融入的程度并不是那么在意,更多的是關(guān)心自己的經(jīng)濟(jì)收入和社會福利是否得到保障。政府需要加強(qiáng)農(nóng)民工的心理健康建設(shè),例如讓農(nóng)民工重視工作的長遠(yuǎn)規(guī)劃,建立職業(yè)信心與生活信念等。