余 琴 侯立文
(上海交通大學,上海 200030)
在“互聯(lián)網(wǎng) +”時代,網(wǎng)約車普遍被人們接受和使用 ,在社會中扮演著越來越重要的角色,但隨之產(chǎn)生了諸如網(wǎng)絡(luò)生態(tài)治理缺位、服務(wù)平臺規(guī)制欠缺、安全問題突出等問題,其中安全問題最受關(guān)注。近年來我國發(fā)生多起網(wǎng)約車乘客安全的惡性犯罪事件。2018年5月初,空姐李某在鄭州搭乘滴滴順風車途中,遭到司機殘忍殺害。2018 年8月25日,浙江省樂清市 20 歲女孩趙某也遭到滴滴順風車司機的搶劫,并被殘忍殺害。網(wǎng)約車安全問題頻發(fā)不僅涉及侵犯人身和財產(chǎn)安全、危害公共安全、妨礙社會監(jiān)管制度等,更成了部分犯罪事件的導火索。同時,網(wǎng)約車是共享經(jīng)濟的重要組成部分,是“互聯(lián)網(wǎng)+”的代表,網(wǎng)約車安全是共享經(jīng)濟安全的一個縮影,研究網(wǎng)約車安全問題可以為網(wǎng)約車行業(yè)乃至共享經(jīng)濟行業(yè)良性發(fā)展提供一定參考。
本研究將沖突事態(tài)嚴重程度定級預(yù)測作為研究目標。沖突事態(tài)嚴重程度定級是網(wǎng)約車安全事件管理中的重要環(huán)節(jié),它連接了安全事件識別和安全事件干預(yù)這兩個環(huán)節(jié)。安全事件識別環(huán)節(jié)目的是識別出可能引發(fā)司乘沖突的訂單,本研究用沖突事態(tài)嚴重程度來量化。安全事件干預(yù)目的是在沖突升級形成負面影響之前,采取措施去阻止安全事件的進一步惡化,往往不同的沖突嚴重程度對應(yīng)著不同干預(yù)措施。安全事件干預(yù)需要根據(jù)上一環(huán)節(jié)預(yù)測出的沖突事態(tài)嚴重程度采取相應(yīng)措施,因而研究沖突事態(tài)嚴重程度定級對于網(wǎng)約車安全事件管理有著重要理論意義。另一方面,通過預(yù)測沖突事態(tài)嚴重程度定級來主動識別可能引發(fā)司乘沖突的訂單的管理模式對網(wǎng)約車平臺有一定啟示作用,在沖突升級形成負面影響之前,就對沖突進行風險控制管理,從被動地以司乘沖突發(fā)生后的應(yīng)急方式為主的事后風控階段,提升到通過機器學習模型主動發(fā)現(xiàn)風險的主動防御型的事中風控階段,實現(xiàn)風險的內(nèi)部消化,也將地有利于網(wǎng)約車平臺的文明創(chuàng)建工作,打造文明出行環(huán)境,保障與維護司乘雙方權(quán)益。因此,研究網(wǎng)約車司乘沖突嚴重程度定級具有一定理論意義。
目前網(wǎng)約車安全領(lǐng)域的研究并不多,管理學界已有研究主要關(guān)注網(wǎng)約車安全現(xiàn)狀、網(wǎng)約車風險及規(guī)避手段、網(wǎng)約車安全問題及其影響,具體見表1。大多數(shù)研究從定性角度出發(fā)來研究網(wǎng)約車安全風險,沈霄鵬和王婷(2018)通過定性分析、案例分析來探討網(wǎng)約車行業(yè)中道德缺失現(xiàn)象及治理對策,孫興軍(2016)通過定性分析來研究網(wǎng)約車風險及規(guī)避手段。定量角度的話,主流做法是通過問卷調(diào)查來收集用戶對網(wǎng)約車安全的認知,Lee(2017)通過問卷調(diào)查結(jié)合結(jié)構(gòu)方程模型來研究乘客對網(wǎng)約車相關(guān)的行程保障、人身安全、額外費用(索高價)三類風險的認知和這種認知對實際網(wǎng)約車使用的影響。目前,國內(nèi)外還未有實證研究來探討網(wǎng)約車司機和乘客在網(wǎng)約車服務(wù)過程中產(chǎn)生沖突的文獻,主要有以下兩個難點:第一點是沖突新聞收集的難度,從各大信息資訊平臺盡可能多地收集來源可靠的新聞是一項費時費力的工作;第二點是對于沖突新聞后續(xù)的文本分析帶來的難度。因而,本文從實證分析出發(fā)來研究網(wǎng)約車安全問題中的司乘沖突嚴重程度定級預(yù)測。
表1 文獻匯總
以下為一個完整的司乘沖突新聞:“某日,司機A駕駛網(wǎng)約車將乘客B送達本市C小區(qū)附近,乘客B在下車過程中與司機A因XX發(fā)生口角,后相互推搡、廝打。其間,司機A用拳頭擊打乘客B頭面,致乘客B面部多處受傷。經(jīng)法醫(yī)學鑒定中心鑒定,乘客B輕傷二級。經(jīng)乘客B報警,公安機關(guān)趕至現(xiàn)場,并于當日將司機A傳喚到案?!闭麄€沖突過程可由事件屬性來刻畫,具體可由以下四元組來描述:沖突屬性、沖突緣由、沖突行為、沖突嚴重程度。沖突屬性包括沖突時間、地點、角色三項。引發(fā)司乘沖突的緣由多樣且復(fù)雜,和具體的沖突場景緊密相關(guān)。沖突行為是沖突雙方在沖突過程中采取的措施,雙方既有可能互不相讓進而沖突升級引發(fā)肢體沖突,也有可能各退一步。而沖突嚴重程度直接受沖突屬性、沖突緣由、沖突行為影響。對于這類型的具體測量,目前并沒有形成一個較為系統(tǒng)的劃分標準,基本依據(jù)人的主觀經(jīng)驗判斷。對于沖突烈度的歸類,也亟待權(quán)威部門制定相應(yīng)的劃分標準,以按沖突的不同程度采取相應(yīng)的措施。
達倫多夫在論述社會沖突的程度時,提出強度和烈度的概念。其中,強度表示社會沖突過程中各沖突主體投入力量的程度,包括人數(shù)多少、權(quán)利大小等因素;烈度表示沖突的方式,如和平協(xié)商、暴力解決、社會行動等。李濤、蘇曦凌根據(jù)沖突程度對社區(qū)沖突進行類型劃分時,基本參考達倫多夫提出的強度和烈度兩種概念。張?zhí)K在關(guān)于交通沖突程度的研究中指出交叉口交通沖突嚴重程度可由單位時間事故發(fā)生概率的數(shù)學期望表示,也可以由沖突本身表現(xiàn)出來的特征來界定。本研究主要就司乘沖突的嚴重程度進行定級預(yù)測,在提取特征時參考達倫多夫提出的沖突強度和沖突烈度兩個概念。
本文的被解釋變量為網(wǎng)約車司乘沖突事態(tài)嚴重程度等級,根據(jù)上述四元組進一步細化,初期共提取出16個特征,如表2所示。對于大部分特征,本文采用文本挖掘手段通過Python編程語言來進行特征提取,對于無法自動化提取的特征,采用人工手動標注來實現(xiàn)全量數(shù)據(jù)的特征提取。其中,特征Action_set指的是沖突雙方在沖突過程中用的動作,本研究從沖突過程中可能引發(fā)的沖突動作出發(fā),定義了操作不當、酒駕、口角、盜竊、言語行動騷擾、猥褻、搶劫、非持械傷害、持械傷害、強奸、殺人以上11個沖突動作的集合,給每個動作賦予一個嚴重等級,數(shù)值越大表示沖突事態(tài)越嚴重。為了使不同動作對應(yīng)的沖突事態(tài)嚴重程度盡可能有區(qū)別,比如讓殺人和口角之間對應(yīng)的分值差距盡可能大,可使用一個轉(zhuǎn)換函數(shù)來重新界定每個動作的嚴重程度。本研究采用的是數(shù)字2的冪次方來表示。本研究將各動作對應(yīng)的嚴重等級定義如下:操作不當:1;酒駕:2;口角:2;盜竊:3;言語行動騷擾:3;猥褻:4;搶劫:4;非持械傷害:4;持械傷害:5;強奸:5;殺人:6,則各動作對應(yīng)的嚴重分數(shù)按照2的冪次方計算如下:操作不當:2;酒駕:4;口角:4;盜竊:8;言語行動騷擾:8;猥褻:16;搶劫:16;非持械傷害:16;持械傷害:32;強奸:32;殺人:64。如果一條新聞中涉及兩個及以上的動作,則該新聞司乘沖突嚴重程度對應(yīng)的分數(shù)為各動作對應(yīng)分數(shù)的加和。
表2 變量匯總
表3 Kappa系數(shù)分類標準
以“網(wǎng)約車”為核心關(guān)鍵詞,分別以中國裁判文書網(wǎng)、互聯(lián)網(wǎng)新聞庫和圖書館文獻庫為范疇查找資料,從不同信息源來進行資料的收集。中國裁判文書網(wǎng)是司法機關(guān)統(tǒng)一公布各級人民法院生效裁判文書的官方網(wǎng)址,互聯(lián)網(wǎng)新聞庫包括今日頭條、微博等資訊平臺。隨后,為了保證有效信息的提取,逐條閱讀每條新聞,篩除掉不滿足四元組定義的新聞,僅保留滿足四元組定義的新聞,以確保有效信息的提取。隨后,再對所有搜集到的資料進行內(nèi)容閱讀、噪聲數(shù)據(jù)清洗、分類、要點提煉,形成可用于該問題研究的數(shù)據(jù)基礎(chǔ),共收集了從2015年1月至2020年10月全國范圍內(nèi)網(wǎng)約車司機和乘客發(fā)生沖突的新聞161條,其中刑事案件56條。
在初期特征提取步驟中,對于大部分特征,采用文本挖掘手段通過Python編程語言來進行特征提取,對于無法自動化提取的特征,采用人工手動標注來實現(xiàn)全量數(shù)據(jù)的特征提取。我們希望盡可能提取更多的特征,可提供更多信息用以準確描述問題,使得模型解釋性更強。但當維度超過一定值時,會引起“維度災(zāi)難”,在保證學習算法預(yù)測精度前提下,訓練所需樣本會隨著維度提升呈現(xiàn)指數(shù)形式提升。對于161條數(shù)據(jù)和16個特征易引發(fā)“維數(shù)災(zāi)難”,模型易引發(fā)過擬合問題,需從原始特征中篩選出“好的”特征,剔除掉“不好的”特征?!昂玫摹碧卣髦笇δP拓暙I度大的、與任務(wù)相關(guān)性強的特征?!安缓玫摹碧卣髦溉哂嗵卣?、無關(guān)特征和噪聲等。本文采用決策樹模型來進行特征提取,在已知數(shù)據(jù)上構(gòu)建決策樹模型,決策樹每次分叉都會選擇對信息熵影響最大的特征,根據(jù)特征分叉的先后順序模型可以獲得每個特征所屬的權(quán)重,按照特征對應(yīng)權(quán)重由大到小排列,可以獲得特征重要性排序。
如圖1所示,可以看到排名靠前的3個特征按照特征貢獻度從大到小分別是沖突事件雙方采取的行動集合得分、沖突事件中過錯方所受處罰、受害者人身傷害狀況,對應(yīng)的特征重要性分別為0.2462、0.1983、0.1233,這也與社會大眾判斷一起司乘沖突嚴重程度的經(jīng)驗相一致,沖突事件中沖突雙方采取的過激肢體行動越多、越嚴重,則司乘沖突事態(tài)越嚴重;沖突事件中過錯方所受司法處罰越重,則司乘沖突事態(tài)越嚴重;受害者所受人身傷害越重,則司乘沖突事態(tài)越嚴重。排名靠后的5個特征分別是司機身份狀態(tài)、司機神志狀態(tài)、受害者身份、有無前科、受害者在沖突過程中遭受的財產(chǎn)損失,這5個特征對模型的重要性均小于0.02,分析認為是這5個特征大部分都是默認值,所取的值較少,因而不利于模型學到更有用的信息。以受害者身份這一特征為例,95%的受害者是乘客,5%的受害者是司機,這一特征給模型帶來較小的貢獻度。我們設(shè)置閾值為0.02,特征貢獻度大于閾值的特征將會保留用于后續(xù)操作,特征貢獻度小于閾值的特征將會舍棄掉,以此達到特征篩選的目的。
圖1 特征重要性柱形圖
用決策樹算法篩選出更重要的特征后,下一步對各列特征進行特征縮放。為了消除指標之間的量綱影響,一般需要進行數(shù)據(jù)標準化處理,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價。特征縮放包含兩種主要的方式:Min-Max標準化和Z-score標準化。轉(zhuǎn)化函數(shù)分別如式1、2所示。本研究采用兩種特征縮放方式進行對比驗證。
司乘沖突嚴重程度定級中,本研究采用百度眾測平臺來為新聞中涉及的司乘沖突嚴重程度進行標注?!鞍俣缺姕y”是國內(nèi)最大的數(shù)據(jù)標注平臺,提供專業(yè)、高質(zhì)量、高標準的數(shù)據(jù)標注服務(wù)。本研究將自己的新聞標注需求發(fā)布在百度眾包平臺,讓標注人員按照自己的先驗看法對每條新聞中司乘沖突嚴重程度進行標注,其中1~4表示從不嚴重到最嚴重。為了保證標注人員對每條新聞沖突嚴重程度標注的獨立性和先驗性,本研究告知標注人員按照他們個人對一起司乘沖突嚴重程度的先驗看法來標注。每一條新聞沖突嚴重程度取決于所有標注員給的標注里的眾數(shù)。
本次研究對象是一個多分類問題,即預(yù)測網(wǎng)約車司乘沖突嚴重等級程度,所以選擇以下經(jīng)典分類算法——邏輯回歸、隨機森林、SVM、樸素貝葉斯,進而比較哪個模型更適合本次研究對象的樣本。多分類評價指標其中一種方法是將多分類問題轉(zhuǎn)化為多個二分類問題進行討論,多分類的精確率、召回率依據(jù)每個標簽的精確率、召回率再取其加權(quán)平均得到;還有一種是直接定義的多分類指標。本研究采用的是Kappa系數(shù),借用Cohen提出的Kappa系數(shù)分類評價標準。
表4顯示了使用邏輯回歸、樸素貝葉斯、SVM、隨機森林四種算法,以及每種算法使用Min-Max方法和Z-Score方法進行無量綱化后的精確率、召回率、Kappa系數(shù)對比。研究發(fā)現(xiàn),在三種不同分類算法中,Min-Max標準化和Z-score標準化后相比未使用特征縮放的模型,效果均有略微提升。在使用邏輯回歸、隨機森林的情況下,模型驗證不同特征處理方法的識別率都很高,說明數(shù)據(jù)模型構(gòu)造得都很合理,在驗證集的表現(xiàn)良好。而在貝葉斯算法中,模型精確率、召回率不足50%,Kappa系數(shù)也落在分類效果一般的區(qū)間,說明構(gòu)造模型的泛化能力很差。
表4 模型預(yù)測識別準確率對比
本研究中貝葉斯算法效果不太理想和隨機森林、邏輯回歸效果理想也是可預(yù)見的。貝葉斯算法假定所有輸入屬性彼此是獨立的,但現(xiàn)實中經(jīng)常發(fā)生不滿足條件獨立性的情況。在本研究中變量之間并不滿足相互獨立的情況,比如Personal_injury和Punishment成正相關(guān)。而隨機森林算法是一種集成算法,它隨機選取不同的特征訓練樣本,生成大量的決策樹,然后綜合多棵決策樹的結(jié)果來進行最終的分類,因而在數(shù)據(jù)上表現(xiàn)優(yōu)異。
本文立足于中國網(wǎng)約車安全治理體系下的司乘沖突事件頻發(fā)的現(xiàn)狀,從實證分析角度出發(fā),對中國法律文書網(wǎng)和權(quán)威資訊網(wǎng)站的網(wǎng)約車司乘沖突新聞進行了深入研究。在機器學習的研究上,深入研究和運用了邏輯回歸、隨機森林、SVM、貝葉斯機器學習等算法,并在深入研究可能引發(fā)司乘沖突事件的基礎(chǔ)上運用大量特征工程方法來加工樣本數(shù)據(jù),訓練出了具有高識別能力的機器學習模型。研究證明了網(wǎng)約車平臺通過機器學習來識別可能引發(fā)司乘沖突的訂單的管理模式是完全可行的,在形成負面影響之前,就對沖突進行風險控制管理,這屬于主動防御性風險控制管理,從被動地以司乘沖突發(fā)生后的應(yīng)急方式為主的事后風控階段,提升到通過機器學習模型主動發(fā)現(xiàn)風險的主動防御型事中風控階段,實現(xiàn)風險的內(nèi)部消化,也將更有利于網(wǎng)約車平臺的文明創(chuàng)建工作,打造文明出行環(huán)境,保障與維護司乘雙方權(quán)益。
但本文的研究還存在以下不足:(1)在數(shù)據(jù)方面,本文的研究數(shù)據(jù)為2015年1月起網(wǎng)約車司機和乘客發(fā)生沖突的新聞,共收集到161條新聞,因此在后續(xù)研究中可以繼續(xù)收集有關(guān)這方面的新聞來擴大樣本量。數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。(2)在特征提取方面,本研究從沖突發(fā)生時間、地點,沖突雙方年齡、狀態(tài),沖突所用工具,沖突事由,沖突發(fā)生后所造成的財產(chǎn)損害、人身傷害,施害者受到的處罰等盡可能對沖突進行事件畫像,初期共提取出16個特征,后續(xù)研究可在數(shù)據(jù)量有一定增加后,再繼續(xù)提取更多的特征以提供更多信息用以準確描述沖突事態(tài),使得模型解釋性更強,特征研究結(jié)果也將更加充滿說服力。(3)在算法方面,本文應(yīng)用了隨機森林算法、樸素貝葉斯算法、SVM、邏輯回歸算法,但不能說明這些算法是最佳算法。如數(shù)據(jù)量增加,可嘗試構(gòu)建一份司乘沖突的語料庫,再基于語料庫采用LDA算法,進行主題挖掘。