宋正陽(yáng)
摘要為了能夠高效地分類出農(nóng)業(yè)保險(xiǎn)承保與理賠業(yè)務(wù)連續(xù)數(shù)年變化差異大的險(xiǎn)種,為相關(guān)從業(yè)人員深入研究農(nóng)業(yè)保險(xiǎn)的實(shí)施與創(chuàng)新提供決策支持與目標(biāo)定位服務(wù),以北京市政策性農(nóng)業(yè)保險(xiǎn)數(shù)據(jù)為依托,通過(guò)預(yù)先設(shè)定評(píng)價(jià)指標(biāo)體系,研究經(jīng)典決策樹C4.5算法篩選目標(biāo)險(xiǎn)種的效果。結(jié)果表明,在排除政策影響的情況下,C4.5算法提高了對(duì)農(nóng)業(yè)目標(biāo)險(xiǎn)種篩選的效率,可為相關(guān)從業(yè)人員開展重點(diǎn)險(xiǎn)種的改革創(chuàng)新或開發(fā)新的服務(wù)業(yè)務(wù)提供參考依據(jù)。
關(guān)鍵詞農(nóng)業(yè)保險(xiǎn);C4.5算法;可持續(xù)性;北京市
中圖分類號(hào)F840.66文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)0517-6611(2020)04-0235-04
doi:10.3969/j.issn.0517-6611.2020.04.068
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Research on Sustainability Mining of Agricultural Insurance Based on C4.5 Algorithms—Taking Beijings Policy Agricultural Insurance as an Example
SONG Zheng-yang(Agricultural Information Institute of the Chinese Academy of Agricultural Sciences, Key Laboratory of Digital Agricultural Early-warning Technology, MOA, Beijing 100081)
AbstractIn order to effectively classify the different types of insurance in the agricultural insurance underwriting and claims settlement business for several years, to provide decision support and target positioning services for the relevant practitioners in-depth study of the implementation and innovation of agricultural insurance, we studied the effect of classical decision tree C4.5 algorithm in screening target insurance species by setting up an evaluation index system in advance based on Beijing's policy-oriented agricultural insurance data.The results showed that the C4.5 algorithm improved the efficiency of screening agricultural target insurance, and could provide references for relevant practitioners to carry out reform and innovation of key insurance or develop new service business.
Key wordsAgricultural insurance;C4.5 algorithm;Sustainability;Beijing
農(nóng)業(yè)保險(xiǎn)是對(duì)農(nóng)民生產(chǎn)風(fēng)險(xiǎn)的一種保障,我國(guó)農(nóng)業(yè)保險(xiǎn)起步較晚,但發(fā)展較快,全國(guó)各省均針對(duì)自身的地域特點(diǎn)開展了不同形式的農(nóng)業(yè)保險(xiǎn)業(yè)務(wù),開發(fā)的險(xiǎn)種各有不同,僅北京地區(qū)開展過(guò)的險(xiǎn)種就多達(dá)59種(含已停售險(xiǎn)種),每個(gè)新險(xiǎn)種的產(chǎn)生都需要保險(xiǎn)公司或科研機(jī)構(gòu)投入大量智力資源來(lái)開發(fā)完成。一個(gè)好的農(nóng)業(yè)險(xiǎn)種必須能夠平衡農(nóng)戶利益與保險(xiǎn)公司利益,其效果發(fā)揮需要經(jīng)過(guò)市場(chǎng)驗(yàn)證、(結(jié)合政策)調(diào)整、再驗(yàn)證反復(fù)進(jìn)行。保險(xiǎn)公司為了提高自己的服務(wù)質(zhì)量,同時(shí)符合政府對(duì)農(nóng)業(yè)保險(xiǎn)實(shí)施精細(xì)化管理與市場(chǎng)的需求,需要不斷地探索險(xiǎn)種的改良與開發(fā)。
國(guó)內(nèi)外學(xué)者對(duì)農(nóng)業(yè)保險(xiǎn)新技術(shù)或模型[1-3]、農(nóng)業(yè)保險(xiǎn)政策或發(fā)展模式[4-6]以及保險(xiǎn)實(shí)施效果或評(píng)價(jià)進(jìn)行了研究[7-8] ,但鮮有對(duì)歷史險(xiǎn)種的績(jī)效評(píng)價(jià)方面的研究。
鑒于此,筆者通過(guò)農(nóng)業(yè)保險(xiǎn)承保與理賠環(huán)節(jié)重要節(jié)點(diǎn)數(shù)據(jù)連續(xù)若干年的變化趨勢(shì)建立一種農(nóng)業(yè)險(xiǎn)種的績(jī)效評(píng)價(jià)方法,采用C4.5決策樹算法快速分類農(nóng)業(yè)險(xiǎn)種承保與理賠實(shí)施效果差異,判斷哪些險(xiǎn)種需要?jiǎng)?chuàng)新改革以適應(yīng)新的市場(chǎng)與政策環(huán)境或深度挖掘出新的險(xiǎn)種服務(wù),旨在為相關(guān)從業(yè)人員開展重點(diǎn)險(xiǎn)種的改革創(chuàng)新或開發(fā)新的服務(wù)業(yè)務(wù)提供參考依據(jù)。
1農(nóng)業(yè)險(xiǎn)種績(jī)效評(píng)價(jià)
政策性農(nóng)業(yè)保險(xiǎn)是以保險(xiǎn)公司為依托,政府通過(guò)保費(fèi)補(bǔ)貼扶持,對(duì)種植業(yè)、養(yǎng)殖業(yè)及涉農(nóng)保險(xiǎn)標(biāo)的物因遭受自然災(zāi)害和意外事故造成的經(jīng)濟(jì)損失提供的保險(xiǎn)。在市場(chǎng)相對(duì)成熟的情況下,從險(xiǎn)種連續(xù)幾年農(nóng)業(yè)保險(xiǎn)的實(shí)施效果來(lái)做判斷,從而反推其他因素影響,得出農(nóng)業(yè)險(xiǎn)種的評(píng)價(jià)結(jié)果。
1.1險(xiǎn)種實(shí)施結(jié)果指標(biāo)選擇以種植業(yè)與養(yǎng)殖業(yè)為例,每個(gè)險(xiǎn)種的實(shí)施結(jié)果均反映在如下幾個(gè)方面:①承保環(huán)節(jié)指標(biāo)。它包括投保數(shù)量,投保戶次,簽單保費(fèi)。實(shí)例中指標(biāo)樣本數(shù)據(jù)主要反映的是農(nóng)業(yè)險(xiǎn)種的種養(yǎng)規(guī)模變化、參與農(nóng)戶數(shù)量變化與總保費(fèi)的變化。②理賠環(huán)節(jié)指標(biāo)。它包括賠付戶次,賠付數(shù)量,賠付金額,賠付率。實(shí)例中指標(biāo)樣本數(shù)據(jù)主要反映的是受災(zāi)后保險(xiǎn)賠付金額變化、受益戶次變化、災(zāi)損數(shù)量變化以及賠付率波動(dòng)變化。依據(jù)上述基礎(chǔ)指標(biāo),設(shè)定農(nóng)業(yè)險(xiǎn)種評(píng)價(jià)指標(biāo)(表1)。
由表1可知,設(shè)定承保環(huán)節(jié)指標(biāo)中有不小于2項(xiàng)是持續(xù)增加的,則承保指標(biāo)為“高”,反之為“底”;同樣,理賠環(huán)節(jié)中有不小于3項(xiàng)是持續(xù)增加(或非<10%)的,則理賠環(huán)節(jié)指標(biāo)為“高”,反之為“低”。當(dāng)承保指標(biāo)與理賠指標(biāo)評(píng)價(jià)結(jié)果不一致時(shí)(即一個(gè)為“高”另一個(gè)為“低”),險(xiǎn)種評(píng)價(jià)為需要重點(diǎn)研究險(xiǎn)種。
1.2樣本數(shù)據(jù)集選擇
依托北京市農(nóng)村金融與風(fēng)險(xiǎn)管理信息平臺(tái),可以獲得北京地區(qū)相關(guān)完整、準(zhǔn)確的政策性農(nóng)業(yè)保險(xiǎn)數(shù)據(jù)。取2016、2017、2018年3年保單與理賠數(shù)據(jù)為試驗(yàn)訓(xùn)練樣本,該數(shù)據(jù)集包含了北京地區(qū)13個(gè)區(qū)縣和4家集團(tuán)公司共53個(gè)險(xiǎn)種的數(shù)據(jù),其中承保2.4萬(wàn)條數(shù)據(jù)、承保明細(xì)25.7萬(wàn)條數(shù)據(jù)、理賠11.9萬(wàn)條數(shù)據(jù)和理賠明細(xì)27.6萬(wàn)條數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)集的歸類計(jì)算,依據(jù)表1指標(biāo)描述引出指標(biāo)結(jié)果集,表2列出了部分險(xiǎn)種指標(biāo)樣本數(shù)據(jù)集。
2決策樹算法
2.1C4.5算法
決策樹算法作為一種分類算法,目標(biāo)就是將具有p維特征的n個(gè)樣本分到c個(gè)類別中去,它是判斷給定樣本與某種屬性相關(guān)聯(lián)的決策過(guò)程的一種表示方法, 該方法廣泛應(yīng)用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域,用來(lái)解決與分類相關(guān)的問(wèn)題,目前比較經(jīng)典的決策樹生成算法有ID3、C4.5和CART樹3種。
決策樹C4.5 算法是構(gòu)造農(nóng)險(xiǎn)險(xiǎn)種績(jī)效評(píng)價(jià)決策樹,該算法的輸入是一張關(guān)系表,由若干不同的屬性及若干數(shù)據(jù)元組(稱為訓(xùn)練樣本數(shù)據(jù)集 ) 組成。該算法采用信息熵的方法,比較各個(gè)判定對(duì)象屬性的信息增益率的大小,選擇信息增益率最大的屬性進(jìn)行分類,遞歸生成一個(gè)判定樹。
2.2算法描述
參考表2的數(shù)據(jù)樣本數(shù)據(jù)集中,取屬性集中D={保費(fèi)趨勢(shì),投保數(shù)量趨勢(shì),投保戶次趨勢(shì),賠付金額趨勢(shì),賠付戶次趨勢(shì),賠付數(shù)量趨勢(shì),賠付率波動(dòng)},評(píng)價(jià)結(jié)果集類別有P={PjUp,PjDown}。
2.2.1計(jì)算類別信息熵。
信息增益實(shí)際上是ID3算法中用來(lái)進(jìn)行屬性選擇度量的。它選擇具有最高信息增益的屬性來(lái)作為節(jié)點(diǎn)N的分裂屬性。該屬性使結(jié)果劃分中的元組分類所需信息量最小。對(duì)D中的元組分類所需的期望信息為下式:
Info(D)=-mi=1pilog2(p2)(1)
式中,m指結(jié)果集中元素不同類別個(gè)數(shù)(實(shí)例中m為2),pi為第i個(gè)結(jié)果集類別元素在樣本數(shù)據(jù)集中的個(gè)數(shù)與樣本數(shù)據(jù)集總行數(shù)的比值,例如表中“評(píng)價(jià)結(jié)果”共計(jì)y個(gè),其中PjUp有x個(gè),則pi=x/y,Info(D)又稱為熵。
2.2.2計(jì)算每個(gè)屬性的信息熵。
現(xiàn)在假定按照屬性A劃分D中的元組,且屬性A將D劃分成v個(gè)不同的類。在該劃分之后,為了得到準(zhǔn)確的分類還需要的信息由下面的式子度量:
InfoA(D)=yj=1|Dj||D|×Info(Dj)(2)
式中A為D的屬性分類,比如“保費(fèi)趨勢(shì)”,y為“保費(fèi)趨勢(shì)”值中不同分類(BaoFeiUp,BaoFeiDown,BaoFeiOther)個(gè)數(shù)(這里為3),Dj為每個(gè)不同分類元素在樣本數(shù)據(jù)集中的個(gè)數(shù)(例BaoFeiUp的總個(gè)數(shù)),D為樣本集總行數(shù) ,Info(Dj)為樣本數(shù)據(jù)集中單獨(dú)提取出某一個(gè)分類組成的表的熵(例如,只取樣本數(shù)據(jù)集—表2中含BaoFeiUp的數(shù)據(jù)行,組成的新表求熵)。
2.2.3計(jì)算信息增益。
信息增益定義為原來(lái)的信息需求(即僅基于類比例)與新需求(即對(duì)A劃分之后得到的)之間的差,即:
Gain(A)=Info(D)-InfoA(D)(3)
2.2.4計(jì)算屬性分裂信息度量。
用分裂信息度量來(lái)考慮某種屬性進(jìn)行分裂時(shí)分支的數(shù)量信息和尺寸信息,把這些信息稱為屬性的“內(nèi)在信息”。信息增益率等于信息增益/內(nèi)在信息,會(huì)導(dǎo)致屬性的重要性隨著內(nèi)在信息的增大而減?。ㄒ簿褪钦f(shuō),如果這個(gè)屬性本身不確定性就很大,那我就越不傾向于選取它),這樣算是對(duì)單純用信息增益有所補(bǔ)償。
HA(D)=-yj=1|Dj||D|×log2(|Dj||D|)(4)
2.2.5計(jì)算信息增益率。信息增益率定義:
IGF(A)=Gain(A)/H(A)(5)
選擇具有最大增益率的屬性作為分裂屬性[3,9-10]。
3實(shí)例分析
總結(jié)上節(jié)所述算法流程如下:
While(當(dāng)前節(jié)點(diǎn)非葉子結(jié)點(diǎn))
(1)計(jì)算當(dāng)前節(jié)點(diǎn)的類別信息熵Info(D)(以類別取值計(jì)算);
(2)計(jì)算當(dāng)前節(jié)點(diǎn)各個(gè)屬性的信息熵Info(Ai)(以屬性取值下的類別取值計(jì)算);
(3)計(jì)算各個(gè)屬性的信息增益Gain(Ai)=Info(D)-Info(Ai);
(4)計(jì)算各個(gè)屬性的分類信息度量H(Ai)(以屬性取值計(jì)算);
(5)計(jì)算各個(gè)屬性的信息增益率IGR(Ai)=Gain(Ai)/H(Ai)。
End While
依據(jù)表2數(shù)據(jù)集,通過(guò)以上算法流程執(zhí)行第1次循環(huán)得到結(jié)果見表3。
算法取信息增益率IGR(A)值最大(0.026 93)的指標(biāo)項(xiàng)“投保數(shù)量趨勢(shì)”作為初始分裂屬性。如此循環(huán)執(zhí)行C4.5算法,不斷分裂,直至所有節(jié)點(diǎn)均為葉子節(jié)點(diǎn)(圖1)。
通過(guò)對(duì)表2數(shù)據(jù)集(共計(jì)8個(gè)分類,424個(gè)屬性值)執(zhí)行決策樹算法,可以最少分裂2次、最多分裂4次找到葉子結(jié)點(diǎn)(結(jié)點(diǎn)屬性值對(duì)應(yīng)所有結(jié)果值均相同),時(shí)間可以忽略,算法可以很快依據(jù)評(píng)價(jià)指標(biāo)分類出需要重點(diǎn)研究的農(nóng)險(xiǎn)險(xiǎn)種,符合預(yù)期目標(biāo)。
4結(jié)論
決策樹方法只需要預(yù)先確定樣本數(shù)據(jù)集,然后依賴數(shù)據(jù)學(xué)習(xí)得到?jīng)Q策樹,并用定量規(guī)則方式表達(dá)所獲取的知識(shí),應(yīng)用于農(nóng)業(yè)保險(xiǎn)險(xiǎn)種可持續(xù)發(fā)展性評(píng)價(jià),即只需要選取合適的險(xiǎn)種指標(biāo)基礎(chǔ)數(shù)據(jù)(相應(yīng)指標(biāo)的保險(xiǎn)業(yè)務(wù)數(shù)據(jù))并依據(jù)評(píng)價(jià)規(guī)則計(jì)算得到分類結(jié)果。依據(jù)農(nóng)業(yè)保險(xiǎn)業(yè)務(wù)發(fā)展情況對(duì)保費(fèi)趨勢(shì)、投保數(shù)量趨勢(shì)、投保戶次趨勢(shì)、賠付金額趨勢(shì)、賠付戶次趨勢(shì)、賠付數(shù)量趨勢(shì)以及賠付率波動(dòng)屬性設(shè)定評(píng)價(jià)方法,通過(guò)采用決策樹C4.5算法進(jìn)行險(xiǎn)種業(yè)務(wù)發(fā)展情況的快速結(jié)果分類處理,該方法不僅可以有效避免主觀判斷和經(jīng)驗(yàn)知識(shí)的不足,且有利于隨著保險(xiǎn)業(yè)務(wù)的推進(jìn)快速更新評(píng)價(jià)數(shù)據(jù),為有效分類出重點(diǎn)農(nóng)業(yè)險(xiǎn)種研究對(duì)象、開展可持續(xù)性研究提供了一種思路和方法。但其應(yīng)用有一定局限性,即農(nóng)業(yè)保險(xiǎn)受“政策”影響較大,并非完全市場(chǎng)運(yùn)營(yíng)機(jī)制,這在政策性農(nóng)業(yè)保險(xiǎn)發(fā)展初始期難以避免。隨著我國(guó)社會(huì)經(jīng)濟(jì)的不斷發(fā)展,農(nóng)業(yè)保險(xiǎn)發(fā)展日漸成熟,“政策”對(duì)農(nóng)業(yè)保險(xiǎn)市場(chǎng)的影響將逐漸淡化。加之保險(xiǎn)業(yè)務(wù)發(fā)展評(píng)價(jià)方法的不斷完善,決策樹算法的逐步改進(jìn)將對(duì)數(shù)據(jù)的分析結(jié)果更趨于高效性與合理性。
參考文獻(xiàn)
[1]李飛,齊林.基于決策樹C4.5算法的大數(shù)據(jù)保險(xiǎn)業(yè)模型研究[J].財(cái)政與金融, 2017(2):71-73.
[2] 司巧梅.基于決策樹的農(nóng)業(yè)氣象災(zāi)害等級(jí)預(yù)測(cè)模型[J].安徽農(nóng)業(yè)科學(xué),2010,38(9):4925-4927.
[3] 紀(jì)思琪,吳芳,李乃祥.基于決策樹的蔬菜病害靜態(tài)預(yù)警模型[J].天津農(nóng)學(xué)院學(xué)報(bào),2017,24(2):77-80.
[4] 曹波.新疆農(nóng)業(yè)保險(xiǎn)運(yùn)行效率評(píng)價(jià):基于五個(gè)試點(diǎn)地區(qū)的實(shí)證分析[D].烏魯木齊:新疆農(nóng)業(yè)大學(xué),2016.
[5] 庹國(guó)柱.試論農(nóng)業(yè)保險(xiǎn)創(chuàng)新及其深化[J].農(nóng)村金融研究,2018(6):9-13.
[6] 高岑.國(guó)外典型農(nóng)業(yè)再保險(xiǎn)發(fā)展模式分析及其啟示[J].農(nóng)村經(jīng)濟(jì)與科技, 2019,30(2):212-214.
[7] 趙紅.我國(guó)農(nóng)業(yè)保險(xiǎn)標(biāo)準(zhǔn)化績(jī)效評(píng)價(jià)研究[D].濟(jì)南:山東大學(xué),2015.
[8] 林樂(lè)芬,李遠(yuǎn)孝.高效種植農(nóng)業(yè)保險(xiǎn)績(jī)效評(píng)價(jià)及影響因素分析:以江蘇省為例[J].煙臺(tái)大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2018,31(5):98-109.
[9] 馬偉杰.基于C4.5決策樹算法的網(wǎng)絡(luò)學(xué)習(xí)行為研究[J].科學(xué)導(dǎo)刊,2016(23):150-151.
[10] 任周橋,劉耀林,焦利民.基于決策樹的土地適宜性評(píng)價(jià)[J].國(guó)土資源科技管理,2007,24(3):21-25.