楊銳,孫鵬軒
(安徽交通職業(yè)技術(shù)學(xué)院土木工程系,安徽 合肥 230000)
競爭性招標(biāo)是建筑工程、基礎(chǔ)設(shè)施建設(shè)領(lǐng)域選擇合適承包商的普遍方法。然而在實(shí)踐中,投標(biāo)人的報(bào)價是否低于成本是困擾招標(biāo)人的重要問題[1-3]。異常報(bào)價會擾亂有序、公平的市場秩序,影響工作質(zhì)量。從避免糾紛的目的出發(fā),尋找異常低價投標(biāo)行為的判別方法成了一個亟待解決的問題[4,5]。
為避免“贏者詛咒”問題,招標(biāo)單位多采用更為保守的均價中標(biāo)法[5,6],這會降低市場效率,無法實(shí)現(xiàn)低成本、低報(bào)價企業(yè)中標(biāo)的目的。目前最常用的異常報(bào)價判別標(biāo)準(zhǔn)方法是相對偏差法和秩排序法[7],前者是比較特定報(bào)價與報(bào)價平均值的偏差,后者將最低價與次低價做比較。各國在允許偏差的范圍或者平均值的計(jì)算方法上有所區(qū)別,例如比利時、法國、意大利、葡萄牙、西班牙和希臘的使用范圍大多在10%到15%之間變化[8]。國內(nèi)外相關(guān)學(xué)者從理論角度研究了異常低價投標(biāo)檢測問題。彭明龍等分析了社會平均成本和企業(yè)個別成本的形成過程和依據(jù),指出“不得低于成本投標(biāo)”指的是企業(yè)個別成本,但未提出判別標(biāo)準(zhǔn)[9]。Conti P L等推導(dǎo)出了投標(biāo)報(bào)價服從正態(tài)分布假設(shè)下秩排序法判別閾值以及識別準(zhǔn)確率與誤警率之間的關(guān)系,推薦閾值大小為0.15,即最低報(bào)價相對次低報(bào)價減少超過15%,則認(rèn)為其存在異常低價投標(biāo)的可能性較大[10]。
針對經(jīng)驗(yàn)法的不足以及投標(biāo)報(bào)價分布假設(shè)的局限性,本文提出了適用于投標(biāo)報(bào)價分布未知情況下異常低價投標(biāo)判別模型。通過Shapiro-Wilk檢驗(yàn)方法判斷投標(biāo)報(bào)價是否服從正態(tài)分布,若服從正態(tài)分布則采用最大似然法估計(jì)正態(tài)分布模型參數(shù),否則采用KDE核密度估計(jì)法擬合投標(biāo)報(bào)價概率密度。在此基礎(chǔ)上,提出用累積分布函數(shù)(CDF)進(jìn)行評價,通過Monte Carlo模擬實(shí)驗(yàn)和ROC曲線分析方法得到最優(yōu)閾值,并以此為依據(jù)判別異常低價投標(biāo),并劃分風(fēng)險(xiǎn)等級。
假設(shè)X1,X2,…,XN是來自同一總體的N個報(bào)價數(shù)據(jù),總體分布函數(shù)為F()x,具體形式未知。α為決策閾值,則xα為判別異常低價范圍的界限值,其數(shù)學(xué)形式為:
求解xα,需要解決兩個問題,一是確定投標(biāo)報(bào)價的累計(jì)概率密度分布函數(shù)F()x,二是確定合理的α取值。
累積分布函數(shù)(CDF)是檢測模型的重要指標(biāo),投標(biāo)報(bào)價值越小,其對應(yīng)點(diǎn)的累計(jì)概率值越小,越有可能屬于異常低價投標(biāo)。投標(biāo)報(bào)價時可先假設(shè)其服從正態(tài)分布,并利用Shapiro-Wilk檢驗(yàn)方法判斷樣本數(shù)據(jù)是否服從正態(tài)分布,若符合要求,則采用最大似然方法進(jìn)行參數(shù)估計(jì),否則使用非參數(shù)核密度估計(jì)(KDE)方法估計(jì)其經(jīng)驗(yàn)分布函數(shù)。參數(shù)估計(jì)方法[11]較為常見,本文重點(diǎn)研究報(bào)價數(shù)據(jù)不服從正態(tài)分布時,用KDE的方法估計(jì)其經(jīng)驗(yàn)分布函數(shù)的方法。
設(shè)未知分布總體X的概率密度函數(shù)為f(x),其樣本觀測值為x1,x2,…,xn,則f(x)的一個核密度估計(jì)結(jié)果為:
其中,K(·)被稱為核函數(shù);hn>0稱為帶寬,是一個同n有關(guān)的光滑參數(shù),滿足n→∞,hn→0時,f(x)→f(x)(as.)。本文使用應(yīng)用范圍更廣的正態(tài)核函數(shù),并根據(jù)Silverman提出的經(jīng)驗(yàn)法則來確定選用正態(tài)核函數(shù)時的最佳窗寬,其表達(dá)式為:
其中,σ為樣本數(shù)據(jù)標(biāo)準(zhǔn)差,n為樣本容量。通過上述方法,可以得出投標(biāo)報(bào)價的概率密度函數(shù),并通過式(4)求解出異常低價判別界限值xa。
ROC曲線以靈敏度(TPR)和特異度(TNR)為評價指標(biāo),通過作圖法來反映兩者之間的關(guān)系。以投標(biāo)報(bào)價為例,靈敏度表示異常低價投標(biāo)樣本數(shù)據(jù)集中被正確識別為異常低價的幾率;特異度表示正常報(bào)價數(shù)據(jù)集中被正確識別為正常報(bào)價的幾率,“1-特異度”(FPR)也稱為假陽性率,即正常報(bào)價數(shù)據(jù)集中被錯誤識別為異常低價的幾率。ROC曲線以靈敏度為縱坐標(biāo),“1-特異度”為橫坐標(biāo)繪制而成,其形式如圖1所示。
圖1 ROC曲線示意圖
由于實(shí)際招投標(biāo)活動中無法確切指出全部的異常低價,因此本文通過Monte Carlo模擬方法構(gòu)造正常報(bào)價數(shù)據(jù)集和異常低價投標(biāo)數(shù)據(jù)集。假設(shè)兩種狀態(tài)下投標(biāo)報(bào)價均服從方差相同的正態(tài)分布,即正常報(bào)價設(shè)為隨機(jī)數(shù)X~N(μ,σ2),異常低價設(shè)為隨機(jī)數(shù)Y~N(β μ,σ2),其中0<β<1,作為異常低價投標(biāo)折減系數(shù)。
得到兩組模擬報(bào)價數(shù)據(jù)集并將其合并成為一組完整的投標(biāo)報(bào)價樣本,使用KDE核密度估計(jì)得到各報(bào)價對應(yīng)的累計(jì)概率密度值,將實(shí)驗(yàn)數(shù)據(jù)標(biāo)記為“正常報(bào)價”和“異常低價”兩個類別??赡艹霈F(xiàn)以下四種檢測結(jié)果:
情景1:樣本為正常報(bào)價,模型檢測結(jié)果標(biāo)記為正常報(bào)價;
情景2:樣本為正常報(bào)價,模型檢測結(jié)果標(biāo)記為異常低價;
情景3:樣本為異常低價,模型檢測結(jié)果標(biāo)記為正常報(bào)價;
情景4:樣本為異常低價,模型檢測結(jié)果標(biāo)記為異常低價。
通過設(shè)置不同的閾值計(jì)算靈敏度和“1-特異度”兩個指標(biāo)值。繪制兩者的關(guān)系曲線,并計(jì)算給定各閾值對應(yīng)的Youden指數(shù),確定最佳閾值。具體流程方法如圖2所示。
圖2 ROC曲線確定異常低價判別最優(yōu)閾值流程圖
判斷異常低價投標(biāo)行為主要分為兩個步驟,首先確定投標(biāo)報(bào)價的概率分布,其次確定異常低價判別界限值xα。利用Shapiro-Wilk檢驗(yàn)方法,判斷投標(biāo)報(bào)價是否服從正態(tài)分布,對于服從正態(tài)分布的報(bào)價數(shù)據(jù)集,采用參數(shù)估計(jì)的方法對報(bào)價數(shù)據(jù)進(jìn)行正態(tài)擬合。如果報(bào)價數(shù)據(jù)正態(tài)測試結(jié)果不滿足正態(tài)分布,則利用KDE核密度估計(jì)方法確定投標(biāo)報(bào)價概率密度函數(shù)。在得到投標(biāo)報(bào)價的概率密度分布后根據(jù)Monte Carlo模擬實(shí)驗(yàn)數(shù)據(jù)和ROC曲線分析確定的最優(yōu)閾值α,計(jì)算得到異常低價判別界限值xα,最后判斷報(bào)價數(shù)據(jù)是否屬于異常低價。算法步驟如下:
第一步,利用W檢驗(yàn)(Shapiro-Wilk法)判斷投標(biāo)報(bào)價是否服從正態(tài)分布;
第二步,如果服從正態(tài)分布,則利用最大似然估計(jì)方法求出投標(biāo)報(bào)價正態(tài)分布模型參數(shù)μ和σ,并進(jìn)行第四步,否則進(jìn)行第三步;
第三步,使用KDE核密度估計(jì)模型計(jì)算各投標(biāo)報(bào)價的概率密度f(x),并計(jì)算累計(jì)概率密度函數(shù)F(X);
第四步,根據(jù)給定的最佳閾值α,根據(jù)式(4)求解界限值Xα,判斷Xi<Xα是否成立,如果成立,則標(biāo)記此報(bào)價為“異常低價”。
本文選取某省6條高速公路建設(shè)工程項(xiàng)目的實(shí)際招投標(biāo)數(shù)據(jù),分別運(yùn)用參數(shù)擬合和非參數(shù)KDE核密度估計(jì)方法擬合投標(biāo)報(bào)價的概率分布,并通過K-S檢驗(yàn)評價兩種方法的擬合效果。報(bào)價數(shù)據(jù)信息以及W檢驗(yàn)(Shapiro-Wilk法)正態(tài)測試結(jié)果如表1所示。
表1 投標(biāo)報(bào)價數(shù)據(jù)W檢驗(yàn)結(jié)果
表1中N表示投標(biāo)人數(shù)量,X表示投標(biāo)報(bào)價樣本均值,S表示樣本標(biāo)準(zhǔn)差。P-value是W檢驗(yàn)法下評價樣本數(shù)據(jù)與正態(tài)分布總體差異性的指標(biāo),P-value<0.05表示樣本數(shù)據(jù)與正態(tài)分布總體有統(tǒng)計(jì)學(xué)差異,P-value<0.01表示樣本數(shù)據(jù)與正態(tài)分布總體有顯著差異。根據(jù)正態(tài)測試結(jié)果,在0.05顯著水平下,數(shù)據(jù)顯著來自正態(tài)分布總體的項(xiàng)目有P2和P5。而項(xiàng)目P1、P3、P4、P6所得Pvalue均小于0.01,表明其投標(biāo)報(bào)價樣本數(shù)據(jù)與正態(tài)分布總體有顯著差異。因此,對于P2和P5可假設(shè)其報(bào)價數(shù)據(jù)服從正態(tài)分布,即X~N(μ,σ),并通過最大似然法估計(jì)正態(tài)分布的參數(shù)μ和σ,從而得到投標(biāo)報(bào)價的概率分布;而對于P1、P3、P4、P6若采用上述方法,則擬合結(jié)果將會與實(shí)際分布狀況產(chǎn)生較大偏差,因此應(yīng)采用非參數(shù)KDE核密度估計(jì)方法來擬合得到報(bào)價數(shù)據(jù)的概率分布。分別采用參數(shù)估計(jì)和KDE核密度估計(jì)方法擬合各項(xiàng)目投標(biāo)報(bào)價數(shù)據(jù),結(jié)果如圖3所示。
由圖3可以看出,KDE估計(jì)與參數(shù)估計(jì)結(jié)果存在明顯差異。P1、P3、P4表現(xiàn)出明顯的負(fù)偏態(tài)分布,而P6表現(xiàn)為多峰性,這些特征與正態(tài)分布單峰對稱性不符,說明報(bào)價數(shù)據(jù)并不總是服從正態(tài)分布。而KDE估計(jì)能夠更好地反映報(bào)價數(shù)據(jù)局部特征。對KDE估計(jì)結(jié)果進(jìn)行K-S檢驗(yàn),得到P-value,如表2所示。表中P-value均遠(yuǎn)大于0.05,說明KDE估計(jì)可以適用于各種分布報(bào)價數(shù)據(jù)的概率分布函數(shù)擬合,且擬合精度較高。
圖3 參數(shù)估計(jì)與KED估計(jì)概率密度曲線對比
表2 KDE擬合優(yōu)度結(jié)果
根據(jù)1.2所述方法,參數(shù)β取β1=0.9、β2=0.8、β3=0.7三個不同水平,表示異常低價不同程度地偏離正常報(bào)價數(shù)據(jù)。取參數(shù)μ=100,σ=10,利用Monte Carlo方法產(chǎn)生兩組實(shí)驗(yàn)數(shù)據(jù)??紤]到公路工程項(xiàng)目招標(biāo)投標(biāo)人數(shù)量一般在20家以上,且異常低價數(shù)量相對較少,因此設(shè)置一組正常報(bào)價數(shù)據(jù)集包含20個生成數(shù)據(jù),一組異常低價報(bào)價數(shù)據(jù)集包含5個生成數(shù)據(jù),重復(fù)實(shí)驗(yàn)100次,分別生成100組正常報(bào)價數(shù)據(jù)集和異常報(bào)價數(shù)據(jù)集。一次實(shí)驗(yàn)生成的所有數(shù)據(jù)表示一次招投標(biāo)活動中產(chǎn)生的所有投標(biāo)報(bào)價。對實(shí)驗(yàn)結(jié)果進(jìn)行KDE核密度估計(jì),并計(jì)算各點(diǎn)累計(jì)概率密度函數(shù)值F(X)。分別計(jì)算不同αi取值條件下的靈敏度(TPR)和1-特異度(FPR),繪制ROC曲線并計(jì)算各點(diǎn)Youden指數(shù),選取Youden指數(shù)最大處點(diǎn)作為最優(yōu)閾值α。重復(fù)計(jì)算100組實(shí)驗(yàn)數(shù)據(jù)得到所對應(yīng)的αk,k=1,2,…,100,取所有αk平均值得到最后所求目標(biāo)解αopt。
三個水平的模擬實(shí)驗(yàn)數(shù)據(jù)各取一組,按照上述原則繪制的ROC曲線見圖4。以β3=0.7為例,按照Youden指數(shù)最大原則選取最佳臨界點(diǎn)即C點(diǎn)。其對應(yīng)的閾值大小為0.32,此時靈敏度為0.8,特異度為0.85。ROC曲線上另外兩個拐點(diǎn)為A和B。A點(diǎn)對應(yīng)的特異度為0.95,靈敏度為0.4,說明異常低價樣本中有40%的數(shù)據(jù)被正確標(biāo)識出來;B點(diǎn)對應(yīng)的靈敏度為1,“1-特異度”為0.55,說明正常報(bào)價樣本中有55%數(shù)據(jù)被誤判為異常低價。A與B兩點(diǎn)之間對應(yīng)的閾值范圍為(0.09,0.92),最優(yōu)閾值為0.32。同理,β2=0.8對應(yīng)的閾值范圍為(0.12,0.96),最優(yōu)閾值為0.43;β1=0.9對應(yīng)的閾值范圍為(0.05,0.86),最優(yōu)閾值為0.57。在三種不同的水平下,按照此法求得100組數(shù)據(jù)的最優(yōu)閾值,從而求出目標(biāo)解αopt,結(jié)果如表3所示。
圖4 不同偏離水平下ROC曲線
表3 不同偏離水平下最優(yōu)閾值
由圖4可以看出,偏離水平β由0.9到0.7,所對應(yīng)的曲線下面積在逐漸增加,三種水平下AZ平均值分別為0.67、0.75、0.82。說明隨著低價投標(biāo)數(shù)據(jù)偏離程度增大,模型檢測效率提高,但整體性能一般。這主要是因?yàn)楸疚乃媚P团c實(shí)踐中應(yīng)用較廣的相對均值法以及秩檢驗(yàn)法本質(zhì)相通,目標(biāo)都是構(gòu)造一個低價區(qū)間,以此作為判別是否低價投標(biāo)的標(biāo)準(zhǔn)。但“低價”不是“低價投標(biāo)策略企業(yè)”唯一特征,也不是獨(dú)有特征。這一“低價區(qū)間”中仍包含著部分低成本企業(yè),不能否定有些高成本企業(yè)即使采取低價策略,其報(bào)價仍然高于低成本企業(yè)。因此,“低價區(qū)間”的意義在于風(fēng)險(xiǎn)提示,如果中標(biāo)價格在此區(qū)間內(nèi),則發(fā)生“贏者詛咒”的風(fēng)險(xiǎn)就比較高。
異常低價數(shù)據(jù)偏離程度可用于表征風(fēng)險(xiǎn)程度,β水平取0.9,表示風(fēng)險(xiǎn)程度較低,0.8表示風(fēng)險(xiǎn)程度較高,0.7表示風(fēng)險(xiǎn)程度高。設(shè)一次招投標(biāo)活動中標(biāo)價格為Xk,不同閾值對應(yīng)的異常低價界限值用Xα表示,如X0.6表示低風(fēng)險(xiǎn)程度界限值,X0.4表示較高風(fēng)險(xiǎn)程度界限值,X0.3表示高風(fēng)險(xiǎn)程度界限值。若Xk小于X0.6,說明此價格可能存在較小程度的偏離,風(fēng)險(xiǎn)較低;若Xk小于X0.4,說明此價格存在一定程度的風(fēng)險(xiǎn),應(yīng)引起招標(biāo)方風(fēng)險(xiǎn)管理部門的關(guān)注;若Xk小于X0.3,說明此價格可能存在嚴(yán)重偏離,成本超支風(fēng)險(xiǎn)較高,需要特別注意,可在合同授予前要求企業(yè)提供充分的證明材料表明其可以如約完成施工任務(wù),同時調(diào)查企業(yè)以往工程中成本超支、索賠次數(shù)等情況。只有充分了解這些信息才能保證被選中的企業(yè)為低成本企業(yè)而非“風(fēng)險(xiǎn)偏好型低價策略中標(biāo)企業(yè)”。
根據(jù)2.1的擬合結(jié)果,對于項(xiàng)目P2、P5可采用最大似然法估計(jì)報(bào)價數(shù)據(jù)的正態(tài)參數(shù),項(xiàng)目P1、P3、P4、P6可采用KDE估計(jì)概率分布。根據(jù)不同風(fēng)險(xiǎn)等級所對應(yīng)的最優(yōu)閾值,求解某省6條公路工程項(xiàng)目各個風(fēng)險(xiǎn)等級下異常低價判別界限值,并與項(xiàng)目中標(biāo)價格作比較,最終得到6個項(xiàng)目的風(fēng)險(xiǎn)評價等級,結(jié)果見表4。
表4 異常低價投標(biāo)判別結(jié)果
本文從數(shù)理統(tǒng)計(jì)的角度建立了投標(biāo)報(bào)價分布類型未知情況下的異常低價投標(biāo)判別模型,同時也提供了一種評價模型性能的實(shí)驗(yàn)和驗(yàn)證方法,主要結(jié)論如下:
(1)運(yùn)用參數(shù)估計(jì)和非參數(shù)KDE核密度估計(jì)方法擬合報(bào)價概率分布,部分項(xiàng)目投標(biāo)報(bào)價服從正態(tài)分布,可使用最大似然估計(jì)和KED核密度估計(jì)法擬合報(bào)價概率分布,擬合優(yōu)度均較高,而大部分項(xiàng)目投標(biāo)報(bào)價不服從正態(tài)分布,使用KED核密度估計(jì)擬合效果較好。
(2)采用報(bào)價數(shù)據(jù)累積分布函數(shù)(CDF)進(jìn)行評價,并通過Monte Carlo模擬和ROC曲線分析確定最優(yōu)閾值,建立了異常低價投標(biāo)判別模型,異常低價偏離程度越大,模型效率越高。
(3)建立了基于報(bào)價偏離水平不同的中標(biāo)價格“贏者詛咒”的風(fēng)險(xiǎn)等級,并提出了相應(yīng)的評價標(biāo)準(zhǔn),并以高速公路項(xiàng)目投標(biāo)數(shù)據(jù)為例,驗(yàn)證了該方法的適用性與有效性。
安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào)2022年4期