• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于過離散數(shù)據(jù)下的模型選擇

      2022-03-30 10:24:58重慶工商大學數(shù)學與統(tǒng)計學院楊小藜
      內江科技 2022年3期
      關鍵詞:車齡分位泊松

      ◇重慶工商大學數(shù)學與統(tǒng)計學院 楊小藜 孫 榮

      本文針對一組具有過離散特征的保險索賠數(shù)據(jù),采用對比分析的研究方法分別對泊松回歸、負二項回歸模型、泊松-逆高斯模型以及零膨脹泊松模型和零膨脹負二項模型進行探討,主要采用AIC和BIC信息準則對模型加以比較。最終擬合結果顯示,負二項回歸模型和泊松-逆高斯對過離散型索賠數(shù)據(jù)的擬合效果相當,且兩者均比泊松回歸和零膨脹模型更佳;綜合看泊松-逆高斯模型的效果表現(xiàn)為最佳。

      1 引言

      根據(jù)某一屬性或類別先分組計數(shù),再匯總后得到的信息稱為計數(shù)型數(shù)據(jù),它的變量值是定性的而且取值常常是非負的整數(shù);日常生活中,像保險索賠次數(shù)、車流量、旅游景區(qū)數(shù)、訪問人數(shù)等等都可當作計數(shù)型數(shù)據(jù)研究分析。對于計數(shù)型數(shù)據(jù),線性回歸是最早使用的領域,但因為該模型要求因變量服從連續(xù)型或至少為準連續(xù)型而造成它的運用受到限制;后來泊松回歸模型逐漸走入人們的視野,該模型要求方差與均值相等;特別是在精算領域,關于風險費率厘定方面的問題,泊松回歸模型一度受到歡迎。盡管如此,由于保險公司在劃分保單類型時,被歸為同一類的保單并非沒有差別,往往存在異質性,說明在實際應用中的確存在方差大于均值的情況,也就是過離散現(xiàn)象。如果在存在過離散問題的情況下仍然采用泊松回歸模型,那么從擬合結果能夠明顯發(fā)現(xiàn)參數(shù)的標準誤差被低估,顯著性水平被過高估計的問題,最終就會影響模型的準確與客觀性。對于這樣的過離散現(xiàn)象,楊肇(2003年)[1]等人在logistic回歸分析中提出了通過Pearson和Deviance統(tǒng)計量以及Williams法進行糾正;Noriszura Ismail和Abdul Aziz Jemain(2007年)[2]提出可以處理過離散問題的負二項和廣義泊松模型,并在三組不同的索賠頻率數(shù)據(jù)上通過擬合、檢驗,比較了Poisson、負二項和廣義Poisson的乘法與加性回歸模型。Richard Berk 和 John M.MacDonald(2008年)[3]討論了回歸模型在計數(shù)型數(shù)據(jù)中的應用,而且證明了在犯罪學應用中,只有在特殊情況下使用負二項分布才能解決過離散問題。徐飛(2009年)[4]針對具有過離散現(xiàn)象的一組車險數(shù)據(jù)討論并應用了兩種分布形式的負二項分布模型。徐昕(2010年)[5]等人基于車險損失數(shù)據(jù)推出的三參數(shù)負二項回歸模型有效地改善了擬合效果,但是參數(shù)越多計算量會越復雜。曾平(2011年)等[6]總結對比了可以檢驗是否存在過離散現(xiàn)象的四種方法。喬艦(2016年)[7]等人對過離散問題形成的原因進行了論證,即根本問題是類內樣本數(shù)據(jù)具有非齊次性和正相關性。

      文章的主要工作是針對一家保險公司的索賠次數(shù)數(shù)據(jù),對僅含主效應和含有交互效應的不同方程分別采用泊松回歸模型、負二項回歸模型、泊松-逆高斯模型以及零膨脹泊松、零膨脹負二項模型加以擬合,最終的擬合結果說明泊松-逆高斯模型的表現(xiàn)最佳,負二項模型的效果與之近似,兩個模型相較于泊松回歸模型和零膨脹模型更適合用于擬合具有過離散特征的索賠數(shù)據(jù)。

      2 模型理論

      (1)在車險索賠數(shù)據(jù)中,對于索賠次數(shù)的分析最常用的是泊松回歸模型,而對于過離散的問題,我們有相應的負二項分布和泊松-逆高斯分布,這兩者都是混合泊松分布,負二項分布是泊松與伽馬分布的混合分布;泊松-逆高斯分布是泊松與逆高斯的混合分布。

      (2)零膨脹模型是指:當觀測值有零膨脹現(xiàn)象且因變量服從相應分布時的零膨脹回歸模型。

      (3)概率密度函數(shù)為:

      (4)在醫(yī)療、精算等領域,當人們對此類數(shù)據(jù)進行研究之前通常會做過離散檢驗。2011年曾平[6]在文章中總結出了過離散檢驗的幾種方法,分別是O檢驗、殘差檢驗、得分檢驗以及拉格朗日乘數(shù)檢驗。文中所用的五個模型中,只有泊松回歸模型的均值與方差相等,其它幾個模型均滿足方差大于均值的條件,在實證分析中將通過比較這五個模型來選擇出最適宜擬合過離散車險數(shù)據(jù)的模型。

      3 模型比較

      3.1 AIC和BIC信息準則

      當模型的樣本量差異不大時,所用的AIC和BIC信息準則為:

      3.2 分位殘差和QQ圖

      對于因變量的不同類型,通常分為連續(xù)型和離散型,相應的分位殘差是不同的,離散型因變量的分位殘差表現(xiàn)為隨機性,故稱為隨機分位殘差圖。由于分位殘差和隨機分位殘差近似服從標準正態(tài)分布,所以相應圖形與正態(tài)分布的貼合程度能夠體現(xiàn)出模型的擬合效果。QQ圖即標準化殘差QQ圖,當QQ圖的分布近似表現(xiàn)為一條直線時,說明了正態(tài)性假設得以滿足,也即模型的擬合結果比較理想。

      4 實證分析

      4.1 數(shù)據(jù)描述

      文章使用的索賠次數(shù)數(shù)據(jù)來自某汽車保險公司[8],影響因素共涉及三個因素,分別是:

      汽車類型(type)分為4個水平:A、B、C、D;

      車齡(vage)分為4個水平:0-3、4-7、8-9、10+;

      投保人年齡(age)分為8個水平:17-20、21-23、25-29、30-34、35-39、40-49、50-59、60+[9]。

      按照以上三個因素可以設置128個風險單元,將車齡和年齡兩個變量都當做分類變量處理,將汽車類型A、車齡0-3年以及年齡17-20歲設為基準水平。

      根據(jù)以上要求來定義如下回歸方程:

      考慮含有交互效應的情況:

      對索賠次數(shù)初步分析知,該保險索賠次數(shù)的均值為71.1484,方差為9260.7258,方差遠大于均值,可以看出該類數(shù)據(jù)具有明顯的過離散現(xiàn)象。

      4.2 模型比較

      表1

      圖1 模型擬合值

      圖2 泊松回歸模型

      圖3 負二項回歸模型

      圖4 泊松逆高斯模型

      4.3 結論及分析

      實證結果表明,首先是考慮了含有交互效應的模型的AIC和BIC值明顯優(yōu)于不含交互效應的模型;而且在所有含有交互效應的模型中,效果最優(yōu)的是含有車型(type)與車齡(vage)的乘積因素以及三個主效應因素的回歸模型。其次從對比各個模型來看,零膨脹泊松、零膨脹負二項模型都沒有體現(xiàn)出本身的優(yōu)越性,因此可以排除該類索賠數(shù)據(jù)存在零膨脹現(xiàn)象的可能性;也可以說明雖然以上兩個模型的分布都具有過離散特征,但是并不適用于此類數(shù)據(jù)。

      在考慮了車型和車齡的交互效應之后,可以看到索賠風險降低,其中風險最小的是車齡在10年以上的D型車,最高的是車齡為4-7年的B型車。單通過車型的估計結果來看,B型車存在的索賠風險最大,D型車的風險最低。通過比較車齡的估計結果知,車齡越小的車具有越高的索賠風險,而越老的車風險越低,這有可能是因為對于越老的車司機越重視其安全系數(shù)以及更加注重汽車維修保養(yǎng)等從而降低了保險索賠次數(shù)。從投保人年齡來看,索賠風險最高的是40-49歲之間的投保人,且對于小于50歲的投保人存在年齡越大風險越高的趨勢,也就是說隨著年齡增加,有可能因為反應變慢、安全意識降低等因素增大了事故發(fā)生可能性。

      比照泊松回歸模型與負二項回歸模型和泊松-逆高斯回歸模型,泊松回歸模型的標準誤差明顯低于后兩者模型,也可以說參數(shù)的標準誤差在泊松回歸模型中被低估,而參數(shù)的顯著性被過高估計,這就導致模型其實有失準確性與客觀性;反之,負二項回歸模型與泊松-逆高斯模型的AIC和BIC值雖然不相同但兩者并沒有特別突出的差異,并且和泊松回歸模型比較發(fā)現(xiàn)它們的擬合效果更優(yōu)。再從三個模型的擬合值來看,也反映出泊松回歸模型的擬合效果相對較差;最后通過隨機分位殘差圖和QQ圖更是能區(qū)別出泊松回歸模型的擬合結果比其余兩模型都差一些。綜上,負二項回歸模型和泊松-逆高斯模型相較于泊松回歸模型更適合用于擬合存在過離散問題的車險索賠數(shù)據(jù)。

      5 結束語

      本文首先通過一組汽車索賠次數(shù)數(shù)據(jù),對比了在考慮交互效應和不考慮交互效應下,模型的優(yōu)良性;針對此次索賠數(shù)據(jù),零膨脹泊松模型、零膨脹負二項模型雖然具有過離散特征,但并沒有展現(xiàn)很好的擬合效果,說明數(shù)據(jù)不存在零膨脹特征;對比分析了當存在過離散現(xiàn)象時,負二項回歸模型與泊松-逆高斯模型的擬合效果差異不突出,并且兩者都比泊松回歸模型更加準確、客觀,綜合看表現(xiàn)最好的為泊松-逆高斯模型,所以可以優(yōu)先考慮該模型。

      猜你喜歡
      車齡分位泊松
      基于兩階段Expectile回歸的風險保費定價
      當前市場位置和潛在空間
      基于泊松對相關的偽隨機數(shù)發(fā)生器的統(tǒng)計測試方法
      帶有雙臨界項的薛定諤-泊松系統(tǒng)非平凡解的存在性
      2019年前3個月二手車交易同比增長2%
      北京國Ⅰ國Ⅱ輕型汽油車將限行
      汽車縱橫(2017年3期)2017-03-18 23:15:47
      基于“業(yè)績與薪酬雙對標”的國有企業(yè)負責人薪酬研究
      西部論叢(2017年10期)2017-02-23 06:31:36
      泊松著色代數(shù)
      1<γ<6/5時歐拉-泊松方程組平衡解的存在性
      一個有效估計:半?yún)?shù)非時齊擴散模型的局部線性復合分位回歸估計
      从江县| 普陀区| 桃源县| 井冈山市| 浦北县| 曲麻莱县| 河西区| 原平市| 汉寿县| 舒兰市| 耒阳市| 宣城市| 永清县| 三河市| 团风县| 江川县| 罗江县| 桓台县| 涞水县| 平利县| 库车县| 宝应县| 上杭县| 太谷县| 苏尼特左旗| 涞源县| 罗定市| 灵宝市| 桐梓县| 牙克石市| 河津市| 车致| 宜丰县| 定日县| 松原市| 巢湖市| 砀山县| 梅州市| 伊金霍洛旗| 广安市| 安国市|