陳慧敏,曹繼翔,張凌寒,鄭萬波
(1.昆明理工大學(xué)理學(xué)院,云南昆明 650500;2.中鐵一局集團第四工程有限公司,陜西咸陽 610400)
受新冠疫情影響,我國安全生產(chǎn)面臨著前所未有的挑戰(zhàn)。部分企業(yè)、施工單位短時間內(nèi)經(jīng)歷從停工停產(chǎn)到復(fù)工復(fù)產(chǎn)的轉(zhuǎn)變,而轉(zhuǎn)變過程中存在諸多不安全因素與潛在危險,使得安全生產(chǎn)監(jiān)管工作成為重點和難點[1]。如果不能實時監(jiān)控、預(yù)警并采取措施以消除安全隱患,就可能發(fā)生嚴(yán)重的安全事故。
近年來,我國在安全監(jiān)管方面投入巨大,但由于企業(yè)數(shù)量龐大,且安全事故存在突發(fā)性、傷亡性等特點,政府安全監(jiān)管人員仍嚴(yán)重不足,無法滿足全面監(jiān)管的要求[2]。與此同時,監(jiān)管機構(gòu)不健全、監(jiān)管人員業(yè)務(wù)能力不強、監(jiān)管人員變動頻繁等帶來的安全生產(chǎn)監(jiān)管問題也在不斷増加[3]。針對這些問題,國內(nèi)外學(xué)者提出了多種創(chuàng)新型監(jiān)管手段與方法。例如,梁佳興等[4]提出的區(qū)塊協(xié)同激勵機制、潘子軒等[5]提出的基于蜜罐技術(shù)的擴展式安全博弈、Bommarito等[6]提出的基于風(fēng)險的監(jiān)管生態(tài)系統(tǒng)模型、Fahad 等[7]提出的深度學(xué)習(xí)與自我注意機制相結(jié)合的監(jiān)管預(yù)測模型等,都給安全生產(chǎn)監(jiān)管提供了新思路與新方法。此外,Ma等[8]利用三階段——半定量法構(gòu)建基于協(xié)同管理的安全預(yù)警指標(biāo),Zhang 等[9]建立四階段定量安全評估法以指揮、協(xié)調(diào)安全監(jiān)管工作,為實現(xiàn)全方面監(jiān)管提供了理論基礎(chǔ)與實踐經(jīng)驗。
通過梳理上述文獻后發(fā)現(xiàn),盡管安全監(jiān)管方式有了巨大進步,但最終的監(jiān)管效果受到各級政府監(jiān)管部門監(jiān)管能力與實際行為的直接影響[10],僅依靠有限的人力與物力完成如此復(fù)雜的監(jiān)管工作仍較為困難[11]。施工現(xiàn)場安全監(jiān)管是一個涉及多因素、復(fù)雜的博弈過程。因此,本文將施工安全監(jiān)督場景進行簡化,對安全員與工人監(jiān)督行為之間的博弈過程進行分析,為加強安全員和工人監(jiān)督的自覺性與主動性提供參考。
安全員與工人在施工現(xiàn)場的監(jiān)督過程中,雙方均會通過對相應(yīng)策略的感知收益來調(diào)整自身行為策略。因此,為考慮人在決策時的心理行為,本文利用基于前景理論的演化博弈理論。首先計算均衡點,分析不同條件下的演化穩(wěn)定點,然后通過分析獎懲金額與罰金分配額度對系統(tǒng)演化的影響情況,并結(jié)合現(xiàn)實問題,提出促進現(xiàn)場安全員與工人采取積極策略的相關(guān)建議。據(jù)此,本文提出以下假設(shè):
假設(shè)1:施工現(xiàn)場安全監(jiān)督的博弈雙方為安全員和工人,其對應(yīng)的行為策略集分別為{積極監(jiān)督,消極監(jiān)督}、{主動監(jiān)督,被動監(jiān)督}。安全員的積極監(jiān)督體現(xiàn)為:對項目實施過程中的工人行為與現(xiàn)場整體狀況進行實時監(jiān)督,必要時可進行協(xié)調(diào)安排;安全員的消極監(jiān)督體現(xiàn)為:沒有及時了解工人行為與現(xiàn)場情況,缺乏對整體的把控。在安全員消極監(jiān)督的情況下,安全員可獲得額外收益,如節(jié)省監(jiān)管成本等。工人的主動監(jiān)督體現(xiàn)為:投入大量時間與精力對安全員的監(jiān)督行為進行監(jiān)督,當(dāng)發(fā)現(xiàn)安全員消極監(jiān)督時可投訴處理;工人的被動監(jiān)督體現(xiàn)為:對安全員的監(jiān)管狀態(tài)不關(guān)心,追求自己的短期利益,不考慮施工完成帶來的巨大收益與發(fā)生事故帶來的損失等。
本文不考慮不可控因素,認(rèn)為只有在雙方均采取消極策略的情況下,監(jiān)督現(xiàn)場將會出現(xiàn)監(jiān)督不到位、監(jiān)督方法不當(dāng)?shù)葐栴},從而造成重大損失。此時的監(jiān)督工作只能依賴高一級的政府監(jiān)督部門來實現(xiàn)。另外,安全員積極監(jiān)督的概率為x(0 ≤x≤1),消極監(jiān)督的概率為1 -x;工人主動監(jiān)督的概率為y(0 ≤y≤1),被動監(jiān)督的概率為1 -y。
假設(shè)2:決策博弈雙方即安全員與工人基于前景理論進行策略選擇,具有有限理性。Kahneman 等[12]提出的前景理論認(rèn)為:決策者對未知策略的感知收益由價值函數(shù)與權(quán)重函數(shù)共同決定,具體表現(xiàn)形式為:
式(1)中,價值函數(shù)v(Δξ)體現(xiàn)的是人們對未來收益與損失的提前感知,具體表現(xiàn)形式為:
其中,η1、η2為決策者對收益與損失的敏感程度(0 <η1,η2<1),當(dāng)α=β時,表明決策者對于損失與收益的偏好一致;Δξ=ξ-ξ0,ξ表示實際收益或損失,ξ0是決策者根據(jù)心理感受而作出的初始判斷;λ(λ>0)是決策者對于損失的規(guī)避程度,而當(dāng)λ>1 時,表示相比于收益的感知價值,決策者對于損失的感知價值更高,說明決策者趨向于風(fēng)險規(guī)避[13]。
式(1)中,決策權(quán)重函數(shù)π(p)體現(xiàn)的是該決策的重要程度,具體表現(xiàn)形式為:
其中,p為該事件發(fā)生的概率,σ為決策權(quán)重函數(shù)的調(diào)節(jié)參數(shù)(0 <σ<1)。
假設(shè)3:E1為安全員積極監(jiān)督時可獲得的收益,V(E1)為其對應(yīng)的感知價值(下同,不再另作說明);ΔE1為安全員消極監(jiān)督時可獲得的額外收益;E2為工人主動監(jiān)督時可獲得的收益;ΔE2為工人被動監(jiān)督時可獲得的額外收益;-M1為安全員消極監(jiān)督時導(dǎo)致的監(jiān)督物資無效損耗過多、監(jiān)督失職等情況下的損失;-M2為工人被動監(jiān)督時導(dǎo)致的現(xiàn)場財產(chǎn)、生命安全等損失。
假設(shè)4:當(dāng)安全員與工人的策略集為{消極監(jiān)督,主動監(jiān)督}時對安全員進行金額為-P的處罰,施工現(xiàn)場整體獲得獎勵Q,其中工人的獎勵占?;當(dāng)安全員與工人的策略集為{消極監(jiān)督,被動監(jiān)督}時對雙方進行總和為-P的處罰,其中,工人所占處罰比例為θ,安全員所占處罰比例為1 -θ。
基于上文的基本假設(shè)與相關(guān)參數(shù)設(shè)定,分別計算在4種情況下安全員與工人的感知價值收益,得到的感知矩陣如表1所示。
(1)設(shè)安全員積極、消極監(jiān)督時的期望收益分別為E11和E12,安全員的平均收益為:
Table 1 Perception matrix of construction site supervision decision表1 施工現(xiàn)場監(jiān)督?jīng)Q策的感知矩陣
(2)設(shè)工人主動、被動監(jiān)督時的期望收益分別為E21和E22,工人的平均收益為:
根據(jù)Friedman 提出的觀點可知,通過分析雅可比矩陣的局部穩(wěn)定性來分析系統(tǒng)均衡點的穩(wěn)定性,而本系統(tǒng)的雅克比矩陣為:
將特殊解E1(0,0)、E2(0,1)、E3(1,0)、E4(1,1)分別帶入上述雅可比矩陣,可得到穩(wěn)定性的行列式和矩陣的跡,如表2所示。
Table 2 Determinant and trace of Jacobian matrix表2 雅克比矩陣的行列式與跡
當(dāng)均衡點滿足Det(J) >0,且Tr(J) <0時,該均衡點為演化穩(wěn)定策略。進一步根據(jù)表2分場景進行系統(tǒng)穩(wěn)定性分析,得出以下4點結(jié)論:
結(jié)論 1:當(dāng)V(ΔE1)+V(-M1)+(θ-1)V(-P) 結(jié)論2:當(dāng)V(ΔE2)+V(-M2)-?V(Q) +θV(-P) <0 結(jié)論 3:當(dāng)V(ΔE1)+V(-M1)+(θ-1)V(-P) 與V(ΔE2)+V(-M2)異號,且負數(shù)的絕對值更大時,經(jīng)過一段時間的博弈,安全員選擇積極監(jiān)督,工人選擇被動監(jiān)督,E3(1,0)為系統(tǒng)的唯一演化均衡點。即工人為了減少花費的時間與成本、保證自身利益而選擇被動監(jiān)督,而安全員選擇積極監(jiān)督,靈活對現(xiàn)場工人進行調(diào)配,及時規(guī)避可能出現(xiàn)的危險,保證生命、財產(chǎn)安全。施工現(xiàn)場工作的有序開展依賴于安全員的有效管理與實時監(jiān)督。 結(jié)論4:當(dāng)V(ΔE1)+V(-M1)+(θ-1)V(-P) <0 且V(ΔE2)+V(-M2)<0 時,經(jīng)過長時間的博弈,安全員與工人選擇積極監(jiān)督與主動監(jiān)督,E4(1,1)為系統(tǒng)的唯一演化均衡點。即此時安全員與工人采取積極策略的感知收益都較高,因此雙方選擇積極策略,從而最大程度保證了現(xiàn)場監(jiān)督的參與度,減少了事故發(fā)生的可能性。 為直觀分析不同條件下安全員與工人策略的演化路徑,探討處罰金額P、獎勵金額Q、處罰力度θ以及獎勵力度?對動態(tài)演化過程的影響,本文采用MATLAB 進行博弈仿真。為衡量客觀損益的感知價值,根據(jù)參考文獻[14],前景理論公式中的η1=η2=0.88,λ=2.25,取ξ0=0,決策權(quán)重函數(shù)π(p)=1。其余參數(shù)設(shè)置為:E1=10,ΔE1=2,E2=8,ΔE2=2,M1=9,M2=7(收益、損失與獎懲金額的單位為百萬)。 在保證其他參數(shù)不變的情況下,設(shè)置獎勵金額Q為6,獎懲力度均為0.5,分別取處罰金額P為2、4、6、8、10,此時安全員與工人行為策略隨時間演化的過程分別如圖1、圖2所示。 Fig.1 Effect of penalty P on safety officer’s strategy圖1 處罰金額P對安全員策略的影響 Fig.2 Effect of penalty P on workers'strategy圖2 處罰金額P對工人策略的影響 觀察圖1 可知,安全員在不同的處罰金額下,最終的行為策略均表現(xiàn)為積極監(jiān)督。處罰金額P與安全員選擇積極監(jiān)督策略的速度成正相關(guān),即處罰金額越高,收斂速度越快。 另一方面,從圖2 中可以發(fā)現(xiàn),工人的監(jiān)督策略在處罰金額P為2 時,最終的穩(wěn)定策略為被動監(jiān)督;當(dāng)處罰金額P為4、6 時,工人先趨向于被動策略,之后又轉(zhuǎn)變?yōu)橹鲃颖O(jiān)督;當(dāng)處罰金額P達到8 時,工人快速且穩(wěn)定地趨向于選擇主動監(jiān)督。說明工人的自我監(jiān)督與相互監(jiān)督受罰金影響較大,增加罰款金額提高了工人對損失價值的感知,從而選擇規(guī)避風(fēng)險,對安全員實行有效監(jiān)督。 在保證其他參數(shù)不變的情況下,設(shè)置處罰金額P為6,獎懲力度均為0.5,分別取獎勵金額Q為2、4、6、8、10,此時安全員與工人行為策略隨時間演化的過程分別如圖3、圖4所示。 Fig.3 Effect of the reward Q on safety officer’s strategy圖3 獎勵金額Q對安全員策略的影響 Fig.4 Effect of the reward Q on workers'strategy圖4 獎勵金額Q對工人策略的影響 觀察圖3、圖4 可知,在不同的獎勵金額下,安全員與工人最終的行為策略表現(xiàn)一致,即趨向于選擇積極策略。獎勵金額的增加對于安全員選擇積極策略存在較小的抑制作用,對工人選擇積極策略存在較大的促進作用。即安全員對獎勵金額變化表現(xiàn)的不敏感,而工人受獎勵金額的影響較為顯著。 綜合對比圖1-圖4 可知,安全員與工人對于處罰金額的變化表現(xiàn)的更敏感,獎勵金額次之。同時,處罰金額P=10 且獎勵金額Q=10,是該模型下的最優(yōu)解。在該情況下,安全員和工人認(rèn)為積極監(jiān)督與主動監(jiān)督存在更高的感知價值收益。因此,博弈雙方會以最快的速度選擇積極策略。安全員對施工過程進行全方面監(jiān)督,能及時發(fā)現(xiàn)和制止不安全行為;工人存在較強的監(jiān)督意識,對安全員的行為起到了很好的督促作用。 在保證其他參數(shù)不變的情況下,設(shè)置處罰金額P=6,獎勵金額Q=6。在此前提下,設(shè)置場景一:處罰力度θ分別為0.2、0.4、0.6、0.8、1,獎勵力度?為0.5,可得到安全員與工人策略演化圖,如圖5 所示;場景二:獎勵力度?分別為0.2、0.4、0.6、0.8、1,處罰力度θ為0.5,可得到該場景下的安全員與工人策略演化圖,如圖6所示。 Fig.5 Comparison of the effect of penalty intensityθ on the strategy of safety officers and workers圖5 處罰力度θ對安全員、工人策略影響對比 Fig.6 Comparison of the effect of rewards intensity? on the strategy of safety officers and workers圖6 獎勵力度?對安全員、工人策略影響對比 觀察分析圖5、圖6 可知,在不同的獎懲力度下,安全員與工人最終的行為策略表現(xiàn)一致,即趨向于采取積極策略。當(dāng)獎懲力度相同時,安全員對于處罰力度的變化表現(xiàn)的更敏感。同時,處罰力度越大,安全員選擇積極策略的速度越快。工人對于獎勵力度與懲罰力度的變化都比較敏感,且處罰力度和獎勵力度對于工人趨向于主動監(jiān)督都具有很好的促進作用。處罰力度θ=1 且獎勵力度?=1,是該模型下的最優(yōu)解。在該情況下,安全員與工人分別會以最快的速度選擇積極監(jiān)督與主動監(jiān)督。 本文在傳統(tǒng)博弈理論基礎(chǔ)上引入前景理論,考慮了人在決策時的心理因素,分析了不同情況下最穩(wěn)定的監(jiān)督方案,之后進一步研究分析了獎懲金額與獎懲比例改變對監(jiān)督行為的影響。通過理論分析與計算機仿真模擬最終得到以下結(jié)論:①安全員在不同的獎懲金額和獎懲比例下,最終的行為策略均表現(xiàn)為積極監(jiān)督,得到的結(jié)果一致;②提高對安全員的處罰力度,可使得安全員選擇積極策略的概率加快趨向于1;③工人對獎懲金額與獎懲力度的變化都較為敏感。當(dāng)處罰金額為2 時,工人趨向于選擇被動監(jiān)督,隨著處罰金額的增加,工人的策略由被動監(jiān)督向主動監(jiān)督轉(zhuǎn)變;④處罰金額P=10 且獎勵金額Q=10,處罰力度θ=1 且獎勵力度?=1,是該模型下的最優(yōu)解。此時,安全員與工人參與安全監(jiān)督的積極性與主動性最強。3 仿真模擬
3.1 處罰金額對演化過程的影響
3.2 獎勵金額對演化過程的影響
3.3 獎懲力度對演化過程的影響
4 結(jié)語