(山東科技大學 數(shù)學與系統(tǒng)科學學院,山東 青島 266590)
汽車保險是我國財產保險中的第一大險種。隨著車險投保數(shù)量以及金額的不斷提高,車險理賠量也隨之大幅增加,汽車保險詐騙案件數(shù)目也不斷上升。保險欺詐的存在,從長遠來看影響著保險公司的定價策略和社會經濟效益,甚至嚴重威脅到了我國保險業(yè)的發(fā)展[1]。
近年來國內外學者在保險欺詐識別研究上引入了多種人工智能技術。葉明華[2]以中國機動車保險為例,提出利用BP神經網(wǎng)絡與logit回歸相結合的保險欺詐檢測模型,利用logit回歸分析選出顯著性指標,最后通過檢測結果分析,與logit回歸相結合的BP神經網(wǎng)絡模型識別的準確率要高于單獨使用BP神經網(wǎng)絡識別的結果。湯俊和莫依雯[3]利用支持向量機和Apriori算法等數(shù)據(jù)挖掘技術,提出車險反欺詐的檢測系統(tǒng)模型,利用Apriori挖掘到的規(guī)則對支持向量機判斷出來的可疑案例進行再檢驗,提高了檢驗的準確性。閆春等[4]提出基于隨機森林和蟻群算法的汽車保險欺詐識別模型,該模型對汽車保險索賠數(shù)據(jù)和挖掘欺詐規(guī)則進行更有效的分類和預測,具有更好的準確性和魯棒性。ubelj等[5]提出一種既考慮實體內在屬性也考慮實體之間的關系的一種迭代評估算法(iterative evaluation algorithm,IAA),通過結果分析,該系統(tǒng)能夠有效檢測到汽車保險欺詐行為。Yaqi等[6]提出一種基于主成分分析的潛在近鄰隨機森林法,用于汽車保險欺詐的識別,最后通過實證說明提出的方法具有較好的準確率以及較強的魯棒性[6]。Yan等[7]將最近鄰剪枝規(guī)則的改進孤立點檢測方法應用于汽車保險欺詐,實驗結果表明,改進的汽車保險欺詐識別算法具有時間復雜度低、識別率高等優(yōu)點。
傳統(tǒng)的BP神經網(wǎng)絡具有初始權值隨機,導致學習效率低、收斂速度慢,并且容易形成局部極小值而得不到全局最優(yōu)的缺點。遺傳算法因其良好的尋優(yōu)能力,被許多學者[8-11]用于優(yōu)化BP神經網(wǎng)絡的初始權值,以實現(xiàn)對BP神經網(wǎng)絡的優(yōu)化。以上文獻在試驗中都證明了用遺傳算法優(yōu)化的BP神經網(wǎng)絡其預測效果優(yōu)于單獨使用BP神經網(wǎng)絡的預測效果。基于上述研究,提出一種改進的自適應遺傳算法與BP神經網(wǎng)絡算法相結合的識別算法,利用該算法進行汽車保險欺詐的識別。在考慮到BP神經網(wǎng)絡具有很強的預測能力,同時遺傳算法具有很好的尋優(yōu)能力的基礎上,該模型將遺傳算法和BP神經網(wǎng)絡算法有機結合。文中將已有的車險欺詐數(shù)據(jù)指標先進行分類量化,然后將量化的數(shù)據(jù)進行主成分分析,選出車險欺詐的主成分指標,作為BP神經網(wǎng)絡的輸入。文中改進的自適應遺傳算法考慮了種群適應度的多種集中分散程度,并且非線性地自適應調節(jié)遺傳算法的交叉概率與變異概率。為了提高遺傳算法的收斂效率以及尋優(yōu)能力,不僅在最優(yōu)保存策略基礎上加入排序選擇策略,而且提出了保留親本的策略。通過改進的自適應遺傳算法對BP神經網(wǎng)絡的初始權值進行優(yōu)化,實現(xiàn)對汽車保險欺詐的識別分析。
BP神經網(wǎng)絡具有很強的非線性映射能力,是一種多層前饋神經網(wǎng)絡,其學習規(guī)則是最速下降法,通過反向傳播來不斷調整網(wǎng)絡的權值和閾值,使網(wǎng)絡的誤差平方和最小。
1.2.1 改進的自適應遺傳算法
傳統(tǒng)遺傳算法(genetic algorithm)是一種通過模擬自然進化過程搜索最優(yōu)解的方法,但是在處理一些較為復雜的優(yōu)化問題時,容易陷入到一些局部的極值點。本研究提出了一種改進的自適應遺傳算法(new adaptive genetic algorithm,NAGA),既考慮了種群適應度的多種集中分散程度,又非線性地自適應調節(jié)遺傳算法的交叉概率與變異概率;為了提高遺傳算法的收斂效率以及尋優(yōu)能力,不僅在最優(yōu)保存策略基礎上加入排序選擇策略,而且提出了保留親本的策略。
圖1 改進的自適應遺傳算法的運算流程圖Fig.1 Flowchart of the improved adaptive genetic algorithm
改進的自適應遺傳算法過程為:
1)編碼初始群體(L),設置各個參數(shù);
2)設置適應度函數(shù),計算各個體的適應度值,保留最大適應度個體;
3)判斷是否滿足收斂條件,如果滿足收斂條件,則輸出結果,否則進入步驟4);
4)判斷π/12≤arcsin(fave/fmax)<π/3 是否成立,如果成立,先執(zhí)行變異操作,然后進行交叉操作(此操作保留父代);反之先執(zhí)行交叉操作。最后執(zhí)行選擇操作;
5)判斷選擇操作的結果是否滿足收斂條件,若滿足則輸出結果,否則回到步驟2)。
求解流程圖如圖1所示。
之所以用π/12≤arcsin(fave/fmax)<π/3來判斷是否先進行交叉,因為在種群中容易出現(xiàn)除最高適應度之外其余適應度都集中很小的情況,此時的fave/fmax<1/2,如果根據(jù)楊從銳[12]IAGA算法思想則將此種情況列為種群處于分散狀態(tài),將先進行交叉操作,但是此種情況下種群集中在較小適應度下,種群差異度較小,種群不豐富,如果先進行交叉會使得種群進化速度加慢,導致收斂慢或不易收斂,正是考慮到此種情況,本文改變條件公式,使得改進算法考慮更加全面。
1.2.2 改進選擇算子
傳統(tǒng)的遺傳算法利用輪盤賭的方法來進行個體的選擇,這種方法雖然優(yōu)良親本的選擇概率較高,但容易造成優(yōu)良親本被選中的情況,即“退化”現(xiàn)象,為避免出現(xiàn)該現(xiàn)象,增加了排序選擇策略和最優(yōu)保存策略,即利用排序選擇策略將個體按適應度從大到小進行排序,淘汰掉適應度小的排列位于后1/4的個體,直接保留排列位于適應度大的前1/4個體做為下一代的父本,將中間1/2個體保留繼續(xù)操作[13],以有效地把握種群進化的方向。
然后,將保留下來的1/2種群計算出個體的選擇概率進行輪盤賭選擇:
(1)
(2)
式中,qmax、qmin分別是最初定義的最佳個體和最差個體的選擇概率,M是最大迭代次數(shù)。
利用公式(1)、(2),從保留下來的1/2個體中根據(jù)輪盤賭選擇策略選出一半的個體,將這一半的個體與第一步中復制下來的前1/4個體組成一個個體數(shù)量為L/2(L為初始種群)的父代種群。為了保持種群數(shù)目恒定,在進行選擇概率之前的最后一次操作保留父代;為了防止了中間過程中產生或者錯過更優(yōu)良的個體,又采用了最優(yōu)保存策略[13],即把新產生種群中的最高適應度與前一代的最高適應度比較,如果高于子代的最高適應度,就隨機淘汰掉子代中的一個個體,把前一代中最高適應度個體加入到新一代中產生一個新的種群,此保存策略保證了前一代的優(yōu)良個體不會被交叉變異等遺傳操作破壞。
1.2.3 自適應調節(jié)Pc與Pm的值
傳統(tǒng)的遺傳算法采用固定的交叉概率與變異概率,但是隨著后期優(yōu)良個體的增加,如果不改變變異概率與交叉概率的大小,將會破壞掉優(yōu)良的個體。為了更充分地使交叉概率Pc和變異概率Pm在遺傳操作中發(fā)揮作用,本文在楊從銳[12]的IAGA的基礎上提出交叉概率Pc和變異概率Pm的值的自適應公式(3)、(4)。
(3)
(4)
其中,k1、k2分別取1.0、0.05,k3和k4分別取0.02和2。之所以用 arcsin(fave/fmax)作為判斷條件是因為隨著fave的變化,arcsin(fave/fmax)的變化會更快,這樣便能更好地判斷種群適應度之間的集中分散程度。用是否大于等于π/6來判斷是因為sin(π/6)=1/2,當arcsin(fave/fmax)≥π/6時,fave/fmax≥1/2,說明適應度平均值接近適應度最大值,即種群適應度接近最大適應度集中分布。
本節(jié)提出的方法是將經過改進的遺傳算法用于優(yōu)化BP神經網(wǎng)絡的權值,以達到解決BP神經網(wǎng)絡初始權值隨機所帶來的收斂速度慢、求解精準度不高等問題。
NAGA-BP算法過程為:
1)數(shù)據(jù)預處理,確定BP網(wǎng)絡拓撲結構,編碼初始群體(L),設置各個參數(shù);
2)令測試樣本誤差作為目標函數(shù),設置遺傳算法適應度函數(shù);
3)進行遺傳操作,計算各個體的適應度值;
4)判斷是否滿足收斂條件,如果滿足,則進入BP神經網(wǎng)絡操作,否則進入步驟5);
5)判斷π/12≤arcsin(fave/fmax)<π/3 是否成立,如果成立,先執(zhí)行變異操作,然后進行交叉操作(此操作保留父代);反之先執(zhí)行交叉操作。最后進行選擇操作;
6)將選擇操作的結果進行判斷是否滿足收斂條件,若收斂則輸出結果,否則回到步驟2)。
具體流程圖如圖2所示。
為了驗證所提出的算法在車險欺詐識別中的有效性,選取某保險公司車險歷史索賠的數(shù)據(jù)為例進行欺詐識別分析,數(shù)據(jù)來源于文獻[4]。
在進行車險欺詐預測之前,需要對數(shù)據(jù)進行重要指標的選取,將選出的指標作為BP神經網(wǎng)絡的輸入向量。根據(jù)已知的投保人信息,選取部分信息作為汽車保險欺詐研究的指標。再根據(jù)相關研究,初步選取15個對車險欺詐存在影響的指標因子:車輛渠道來源、被保險車輛使用性質、被保險車輛所屬性質、駕駛人性別、有無事故認定書、出險記錄、定損照片張數(shù)、歷史索賠次數(shù)、勘察類型、配件上報修理個數(shù)、所標修理廠類型額等。各變量類型說明如表1所示。
圖2 改進自適應遺傳算法優(yōu)化BP神經網(wǎng)絡的流程圖Fig.2 Flowchart of the BP neural network optimization by improved adaptive genetic algorithm
表1 數(shù)據(jù)集指標描述Tab.1 Data set index description
從表 1 的汽車保險索賠數(shù)據(jù)變量指標描述中,可以看出存在非數(shù)值型的分類變量以及布爾型變量,需要將這些數(shù)據(jù)進行分層并進行量化處理。分層結果如表 2 所示。
如果選取所有的指標進行分析,多個指標之間可能存在相關性,并會影響模型的識別效率,增加數(shù)據(jù)處理的復雜程度。所以接下來需要對這15個欺詐識別指標進行降維處理。
表2 分類變量的分層Tab.2 Stratification of classified variables
主成分分析法是一種多元的統(tǒng)計方法,能夠對多維度的特征矩陣進行降維處理,減小數(shù)據(jù)的復雜程度,并且降維后的數(shù)據(jù)能夠保留原始數(shù)據(jù)的主要信息。表3為將15個欺詐識別數(shù)據(jù)進行主成分分析的結果,第一主成分貢獻率為16.637%,第二主成分貢獻率為12.752%,前9個主成分累計貢獻率達80.167%,因此提取前9個主成分作為模型的輸入變量。
表3 主成分分析結果Tab.3 Principal component analysis results
圖3 誤差變化圖Fig.3 Error variation diagram
將選出的9個主成分作為神經網(wǎng)絡的輸入,即BP神經網(wǎng)絡輸入層具有9個節(jié)點,根據(jù)公式p=2m+1確定隱含層節(jié)點數(shù)為19。將是否欺詐作為輸出,令保險欺詐索賠輸出為1,誠信索賠輸出為0,因此輸出層節(jié)點數(shù)為1。將79例車險欺詐樣本分為兩部分,其中70例為訓練樣本,剩余9例為檢驗樣本;采用訓練樣本來訓練BP神經網(wǎng)絡、GA算法優(yōu)化的BP神經網(wǎng)絡、IAGA算法優(yōu)化的BP神經網(wǎng)絡,以及本研究的NAGA算法優(yōu)化的BP神經網(wǎng)絡。將檢驗樣本輸入訓練后的模型,獲得欺詐識別的預測結果,再將各個結果與原始數(shù)據(jù)對比,以此評價各模型對于車險欺詐預測的良好程度。
從圖3中可以看出,改進的NAGA算法無論是在最優(yōu)解的取值上,還是在收斂速度上,都明顯高于GA和IAGA算法。自適應的調節(jié)遺傳算法的交叉率和變異率,能夠提高遺傳算法的尋優(yōu)能力,而利用排序選擇和最優(yōu)保存策略相結合的選擇策略,有利于加快遺傳算法的收斂能力,因此NAGA遺傳算法在收斂速度與精準度等方面都有較大的進步。
本文利用平均絕對百分比誤差(MAPE)與預測方差(MSE)來評價實驗的誤差,其中
(5)
(6)
式中:N為測試樣本個數(shù),本文取N=9,yi和xi分別為第i個樣本的實際值與測試值。
圖4 各遺傳算法優(yōu)化BP神經網(wǎng)絡對比圖Fig.4 Comparative diagram of optimized BP neural networks by genetic algorithm
圖4(a)、4(b)為預測樣本輸出的原始值分布(Standard data)和三種遺傳算法優(yōu)化BP神經網(wǎng)絡預測(NAGA-BP、IAGA-BP、GA-BP)的樣本輸出值和單獨使用BP神經網(wǎng)絡系測的樣本輸出值(BP)。圖4(a)中*線代表保險公司判定的是否欺詐的實際值,圖4(b)中O線表示NAGA-BP神經網(wǎng)絡給出的預測值,當預測值逼近 1代表預測該索賠為欺詐索賠;當實際值逼近 0代表預測該索賠為誠實索賠。此時按照 9個影響因子訓練的 BP神經網(wǎng)絡,從預測結果可以看出欺詐預測和誠實索賠預測除了樣本1、3、6、8、9逼近真實值外,樣本2、7的判定處于模棱兩可的狀態(tài),并且第4個樣本的判斷結果與真實值相反,所以單純的BP神經網(wǎng)絡對于車險欺詐的識別不理想。利用9個影響因子來訓練改進的NAGA算法優(yōu)化BP神經網(wǎng)絡,從預測結果中可以看出,預測的9個樣本都逼近真實值,所以NAGA-BP模型預測出的車險欺詐情況較為理想。
表4 算法預測誤差對比Tab.4 Comparison of prediction errors
通過表4的各誤差對比可以看出,未經過優(yōu)化的BP神經網(wǎng)絡的預測誤差方差為0.130 2,經過GA-ZAGA優(yōu)化的網(wǎng)絡輸出誤差分別為0.049、0.020 9,而經過本文改進的遺傳算法NAGA優(yōu)化的網(wǎng)絡輸出誤差方差0.010 7,預測值更加接近原始數(shù)據(jù),進一步說明本文算法改善了BP網(wǎng)絡容易陷入局部極小值和收斂速度慢的問題。
隨著我國保險的快速發(fā)展,車險欺詐現(xiàn)象也逐漸蔓延,急需提出一種有效識別車險欺詐的方法來挖掘潛在的欺詐客戶,根據(jù)客戶的索賠資料判斷其是否欺詐,以便提前采取相應措施阻止欺詐產生。
本研究通過主成分分析,將某保險公司的欺詐索賠數(shù)據(jù)進行指標的提煉,將提煉后的指標用于模型欺詐預測的變量,以此驗證NAGA- BP算法的識別欺詐能力。提出的NAGA算法自適應調節(jié)遺傳算法的交叉概率與變異概率,有效地提高了遺傳算法的尋優(yōu)能力。利用NAGA優(yōu)化BP神經網(wǎng)絡的預測算法,考慮到神經網(wǎng)絡的預測能力,以及遺傳算法具有的搜索和優(yōu)化的特點,將遺傳算法與神經網(wǎng)絡相結合,以此來克服神經網(wǎng)絡收斂速度慢和易陷入局部極小值等缺點。在最后的實證分析中,用改進的遺傳算法與IAGA和GA算法比較,NAGA算法在收斂速度與精準度等方面都有較大的進步,然后將這3種遺傳算法分別優(yōu)化BP神經網(wǎng)絡進行保險欺詐數(shù)據(jù)預測,結果表明改進的NAGA-BP算法得到的車險欺詐預測數(shù)據(jù)更加接近原始數(shù)據(jù)。