沈思怡 倪杰 夏曉倩 楊曉蓉
(1.浙江工商大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院,浙江 杭州 310018)
(2.統(tǒng)計數(shù)據(jù)工程技術(shù)與應(yīng)用協(xié)同創(chuàng)新中心,浙江 杭州 310018)
隨著網(wǎng)絡(luò)的普及、物流體系的不斷完善,網(wǎng)絡(luò)購物以其商品類型多樣、商品價格低廉以及消費方式便捷深受廣大消費者的喜愛,成為當(dāng)下最盛行的購物模式[1]。然而,由于買賣雙方無法協(xié)調(diào)退貨運費而產(chǎn)生大量退貨糾紛阻礙了電子商務(wù)市場的健康穩(wěn)定發(fā)展。退貨運費險在解決這方面問題上發(fā)揮了積極作用,成為我國電子商務(wù)市場中不可或缺的環(huán)節(jié)。因此,為了維護買賣雙方的利益和保證保險公司的盈利,進一步研究有關(guān)退貨運費險定價方面的問題,制定符合電商平臺發(fā)展需求的退貨運費險定價方案十分必要。
本文從網(wǎng)購消費者視角切入,首先,尋找不同商品類別下網(wǎng)購消費者退貨情況的重要影響因素。其次,采用預(yù)期損失定價法和貝葉斯網(wǎng)絡(luò)方法建立定價模型,對退貨運費險進行合理定價。最后,在模型的基礎(chǔ)上,給出相應(yīng)的結(jié)論與建議。
貝葉斯網(wǎng)絡(luò)結(jié)合了概率論與圖論的知識,是一種基于概率推理的圖形化網(wǎng)絡(luò),適用于表達和分析不確定性和概率性的事件。貝葉斯網(wǎng)絡(luò)在給定某些先驗信息后,能夠利用條件概率表定量地描述事件之間的關(guān)系。設(shè)貝葉斯網(wǎng)絡(luò)表示成BN=(G,P),其中BN代表貝葉斯網(wǎng)絡(luò),G代表有向無環(huán)圖,P代表節(jié)點條件概率表。令?表示網(wǎng)絡(luò)中所有節(jié)點的集合,pa(Xi)表示節(jié)點Xi所有父節(jié)點的集合,當(dāng)pa(Xi)為空集時,P(Xi|pa(Xi))為先驗概率P(xi),則P(Xi|pa(Xi))表示節(jié)點Xi的條件概率表,由此可計算得到聯(lián)合概率分布[2],即
貝葉斯網(wǎng)絡(luò)學(xué)習(xí)包括結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)。結(jié)構(gòu)學(xué)習(xí)方法常用的有基于評分搜索的方法,其將貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)問題視為優(yōu)化問題,根據(jù)某種評分函數(shù),利用搜索算法尋找評分最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。該方法主要包括兩個部分,一個是評分函數(shù),用于評價網(wǎng)絡(luò)結(jié)構(gòu)與樣本數(shù)據(jù)的擬合程度;另一個是搜索算法,用于搜索評分最高的網(wǎng)絡(luò)結(jié)構(gòu)。目前,評分函數(shù)主要包括貝葉斯評分(MAP)、貝葉斯信息準(zhǔn)則評分(BIC)等,搜索算法主要包括爬山算法等,具體原理可參考文獻[3-4]。參數(shù)學(xué)習(xí)方法常用的有貝葉斯估計法[5],該方法基于貝葉斯理論,充分考慮了先驗信息和樣本信息對待估參數(shù)的影響,基本原理是:首先將待估參數(shù)θf視作一個隨機變量,然后確定參數(shù)θ的先驗分布P(θ),最后通過貝葉斯公式計算出參數(shù)θ的后驗概率P(θ|D)。
根據(jù)退貨運費險市場的實際情況,本文將影響消費者退貨概率的主要因素歸納為消費者個人因素、商家因素和商品因素三個方面,采用調(diào)查問卷的方式獲取所需數(shù)據(jù)。
1.消費者個人因素側(cè)重于消費者個人情況對其退貨情況的影響,共有14個,包括性別、年齡、網(wǎng)購年齡、平均每月網(wǎng)購交易額、平均每月網(wǎng)購頻率、挑選商品的時間長度、常用的物流公司、平均每月退貨頻率、歷史退貨率、退貨運費險補償金額、是否購買過保險、購買商品總數(shù)、消費者忠誠度、退貨運費價格。
2.商家因素側(cè)重于商家情況對消費者退貨情況的影響,共有2個,包括商品降價補償措施、商家的綜合信譽度。
3.商品因素側(cè)重于商品情況對消費者退貨情況的影響,共有5個,包括商品類別、商品最高價位、商品包裝精美程度、商品質(zhì)量情況、商品電子口碑好評度。
考慮到數(shù)據(jù)的實際搜集情況以及消費者之間的差異性,本文選取“退貨”的樣本數(shù)較多的商品類別作為本文研究的對象,最終選取衣帽鞋飾品類、數(shù)碼電子類和美容護膚類這三組分別進行建模。
在建模之前,對所獲取的數(shù)據(jù)進行預(yù)處理,以保證數(shù)據(jù)的可用性。針對這三組樣本數(shù)據(jù)存在明顯類不平衡問題,使用欠采樣的方法處理,使每個數(shù)據(jù)集中的類別達到平衡。此外,本文使用基于互信息的變量選擇方法篩選消費者退貨情況的重要影響因素,即以退貨情況作為被解釋變量,以上述21個影響因素作為解釋變量,分別計算三種商品類別下各影響因素與退貨情況之間的互信息值,閾值設(shè)定為0.01,按照關(guān)聯(lián)程度篩選變量,留下關(guān)聯(lián)性較強的變量作為后續(xù)用于建模的變量。
經(jīng)過變量選擇,篩選得到不同商品類別下影響消費者退貨概率的重要因素各10個,具體見表1。
表1 三種商品類別下的重要影響因素
由結(jié)果可知,消費者購買不同類別的商品,其退貨的主要影響因素會有所不同。經(jīng)過變量選擇后,在上述三種類別中,共同的影響因素有平均每月退貨頻率、歷史退貨率、商品質(zhì)量情況、商品包裝精美程度、商品降價補償措施、商品電子口碑好評度,但每個變量在不同的商品類別下,它們的重要程度是不同的。另外,不同商品類別的退貨情況還受到特定的因素影響。例如,衣帽鞋飾品類的退貨情況還受到平均每月網(wǎng)購交易額、是否購買過保險的影響,數(shù)碼電子類的退貨情況還受到購買商品總數(shù)、商家的綜合信譽度的影響,美容護膚類的退貨情況還受到年齡、退貨運費價格這些因素的影響。
1.構(gòu)建退貨運費險定價模型
考慮到預(yù)期損失定價法具有一般性,且計算原則簡單,本文建立預(yù)期損失定價模型對退貨運費險進行合理定價。預(yù)期損失定價法的定價公式如下。
預(yù)期損失率=預(yù)期違約概率*風(fēng)險敞口*預(yù)期違約損失率
上式中,預(yù)期違約概率一般根據(jù)消費者預(yù)期退貨概率確定;風(fēng)險敞口在一般情況下等于1;預(yù)期違約損失率是指違約造成的損失占被保單運費總額的比例,通常情況下也等于1。如此就把退貨運費險定價模型轉(zhuǎn)換為求預(yù)期退貨概率這一關(guān)鍵參數(shù)的值。下面則重點對消費者退貨概率進行預(yù)測。
2.構(gòu)建貝葉斯網(wǎng)絡(luò)預(yù)測模型
貝葉斯網(wǎng)絡(luò)是研究不確定性問題的優(yōu)良方法,是描述隨機變量間關(guān)系的一種工具。消費者退貨情況受諸多因素影響,這些影響因素彼此關(guān)聯(lián),其蘊含的信息又具有不確定性和相關(guān)性的特點,因此本文選用貝葉斯網(wǎng)絡(luò)方法建立消費者退貨概率的預(yù)測模型,這樣既能夠挖掘出影響因素與消費者退貨情況的關(guān)聯(lián)關(guān)系,也更加貼近現(xiàn)實情況。
根據(jù)前面篩選出的不同類別下影響消費者退貨情況的重要變量,在確定網(wǎng)絡(luò)節(jié)點時,將這些變量全部考慮在內(nèi),并把退貨情況這一被解釋變量也納入網(wǎng)絡(luò)結(jié)構(gòu),即衣帽鞋飾品類、數(shù)碼電子類和美容護膚類這三種商品類別的網(wǎng)絡(luò)節(jié)點均為11個。然后,本文采用基于評分搜索的方法進行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)以及采用貝葉斯估計法進行貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)。使用基于評分搜索的方法需要考慮兩個方面,一方面是評分函數(shù)選擇,另一方面是搜索算法的選擇。目前,常用的評分函數(shù)有K2評分、BDeu評分、BIC評分,常用的搜索算法有:K2算法、爬山算法??墒牵瑢⒛膫€評分函數(shù)與哪個搜索算法結(jié)合使用可以得到最合適的網(wǎng)絡(luò)結(jié)構(gòu)還未可知,所以本文嘗試多種組合方式,期望找到適用于不同商品類別下的消費者退貨概率的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)??紤]到爬山算法原理簡單且可與任一評分函數(shù)一起使用,故將爬山算法作為固定的搜索算法,分別與K2評分、BDeu評分和BIC評分組合成三種貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法,分別稱為K2評分-爬山搜索法、BDeu評分-爬山搜索法、BIC評分-爬山搜索法,借此建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)完成后,使用貝葉斯估計法進行參數(shù)學(xué)習(xí),充分利用樣本信息學(xué)習(xí)得到每個網(wǎng)絡(luò)節(jié)點的條件概率分布。
綜上,本文基于衣帽鞋飾品類、數(shù)碼電子類和美容護膚類這三組樣本數(shù)據(jù)和經(jīng)過變量選擇保留的變量,選擇使用K2評分-爬山搜索法、BDeu評分-爬山搜索法、BIC評分-爬山搜索法這三種貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法分別建立消費者退貨概率的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。在同一種商品類別下,通過上述三種貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法可構(gòu)建三種不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),繼而利用建立的網(wǎng)絡(luò)結(jié)構(gòu)進行參數(shù)學(xué)習(xí),預(yù)測消費者退貨概率,最后比較“退貨”和“未退貨”兩個類的F1值以及平均準(zhǔn)確率,選擇效果最好的模型作為該類別下最終的貝葉斯網(wǎng)絡(luò)預(yù)測模型,那么該模型的網(wǎng)絡(luò)結(jié)構(gòu)則為該類別下最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。
在同一商品類別下,通過對比采用K2評分-爬山搜索法、BIC評分-爬山搜索法、BDeu評分-爬山搜索法這三種結(jié)構(gòu)學(xué)習(xí)方法建立的貝葉斯網(wǎng)絡(luò)預(yù)測模型的效果,能夠得到最優(yōu)的模型,最終結(jié)果見表2。
表2 三種商品類別下的最優(yōu)貝葉斯網(wǎng)絡(luò)模型預(yù)測結(jié)果
結(jié)果顯示,不同商品類別下的貝葉斯網(wǎng)絡(luò)預(yù)測模型的平均預(yù)測準(zhǔn)確率均在74%以上。從F1值的角度來看,各類別的F1值均在72%以上,說明本文所建立的各類別下的貝葉斯網(wǎng)絡(luò)預(yù)測模型效果均較好。
除了貝葉斯網(wǎng)絡(luò)以外,機器學(xué)習(xí)還有隨機森林、XGBoost、支持向量機等非線性算法。本文采用隨機森林、XGBoost、支持向量機三種算法建立模型,對消費者退貨概率進行預(yù)測,然后與最優(yōu)的貝葉斯網(wǎng)絡(luò)模型預(yù)測結(jié)果進行比較,分析這四種方法的預(yù)測精度,以此驗證貝葉斯網(wǎng)絡(luò)方法的有效性,結(jié)果如表3所示。
表3 各模型預(yù)測結(jié)果對比
結(jié)果表明,在三種商品類別下,貝葉斯網(wǎng)絡(luò)模型預(yù)測效果較優(yōu)于其他三種方法建立的模型,這表明本文所構(gòu)建的貝葉斯網(wǎng)絡(luò)模型具有良好的預(yù)測精度和泛化能力,并且該模型能從概率的角度較好地描述退貨情況與其對應(yīng)影響因素之間的非線性關(guān)系,因此將該模型應(yīng)用于消費者退貨概率預(yù)測是可行的。
研究發(fā)現(xiàn),消費者購買不同類別的商品,其退貨的主要影響因素有所不同,且每個變量在不同的商品類別下,它們的重要程度也不同。如果按照消費者購買的商品類別劃分樣本可構(gòu)建更加優(yōu)良的貝葉斯網(wǎng)絡(luò)模型。此外,研究結(jié)果還證明了貝葉斯網(wǎng)絡(luò)模型可以作為預(yù)測消費者退貨概率的有效工具,按照以上思路能夠?qū)崿F(xiàn)退貨運費險的差別化定價和動態(tài)定價?;谝陨辖Y(jié)論,為促進退貨運費險市場良好發(fā)展提出如下建議:其一,細(xì)分消費者群體有助于制定差別化的退貨運費險定價方案,使方案更具針對性;其二,保險公司在針對不同消費群體制定退貨運費險定價時,應(yīng)該關(guān)注到消費者退貨概率與影響因素之間相關(guān)性以及影響因素與影響因素之間的相關(guān)性,并且在定價過程中應(yīng)該有所側(cè)重,避免使用相同變量導(dǎo)致模型無法有效預(yù)測消費者退貨概率;其三,利用貝葉斯網(wǎng)絡(luò)模型得到消費者后驗退貨概率后,需“有的放矢”地采取定價措施,避免設(shè)置過高的價格“勸退”消費者。