袁光輝, 樊重俊, 熊紅林, 冉祥來(lái)
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.上海萬(wàn)達(dá)信息股份有限公司,上海 201112;3.上海機(jī)場(chǎng)(集團(tuán))有限公司,上海 201106)
貝葉斯方法提供了一種有效的風(fēng)險(xiǎn)預(yù)測(cè)手段,能夠?qū)⒅饔^估計(jì)與客觀估計(jì)結(jié)合起來(lái),并能隨著資料的不斷增加而不斷進(jìn)行預(yù)測(cè),使得預(yù)測(cè)更加精確,有利于工程建設(shè)項(xiàng)目的動(dòng)態(tài)風(fēng)險(xiǎn)管理[1].
1988年,加利福尼亞大學(xué)計(jì)算機(jī)系Pearl給出了貝葉斯網(wǎng)絡(luò)的嚴(yán)格定義并創(chuàng)建貝葉斯網(wǎng)絡(luò)理論體系,近年來(lái)在各個(gè)領(lǐng)域都得到了廣泛應(yīng)用[2].
針對(duì)軟件項(xiàng)目的特點(diǎn)和軟件項(xiàng)目風(fēng)險(xiǎn)定量評(píng)估任務(wù),蔣國(guó)萍等[3]提出了基于面向?qū)ο蟮呢惾~斯網(wǎng)絡(luò)風(fēng)險(xiǎn)評(píng)估方法.該方法通過(guò)分析軟件項(xiàng)目生命周期中的具體風(fēng)險(xiǎn)與風(fēng)險(xiǎn)因素之間的因果關(guān)系,建立面向?qū)ο蟮呢惾~斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),由專家判斷和工程經(jīng)驗(yàn)確定網(wǎng)絡(luò)中的概率參數(shù),采用概率推斷工具定量估計(jì)風(fēng)險(xiǎn)的發(fā)生概率.唐愛國(guó)等[4]采用貝葉斯網(wǎng)絡(luò)推理軟件項(xiàng)目失敗風(fēng)險(xiǎn)發(fā)生的概率,用模糊語(yǔ)方評(píng)估風(fēng)險(xiǎn)后果與損失.袁健等[5]利用功能點(diǎn)模型和多元回歸算法來(lái)進(jìn)行軟件項(xiàng)目工作量的預(yù)估,以降低對(duì)工作量估算的結(jié)果偏差,從而降低軟件項(xiàng)目的風(fēng)險(xiǎn).
張福生等[6]針對(duì)大型工程建設(shè)項(xiàng)目風(fēng)險(xiǎn)評(píng)估的實(shí)際需求,為對(duì)影響進(jìn)度的風(fēng)險(xiǎn)作好預(yù)測(cè),提出一種基于貝葉斯網(wǎng)絡(luò)的工程項(xiàng)目風(fēng)險(xiǎn)評(píng)估模型及推理算法.算法在基于概率傳播和更新的貝葉斯網(wǎng)絡(luò)推理中,引入項(xiàng)目管理中分配給相應(yīng)角色任務(wù)的最早開始時(shí)間、最晚結(jié)束時(shí)間等約束受限資源的風(fēng)險(xiǎn)評(píng)價(jià)概率因子.
唐愛國(guó)等[7]針對(duì)軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估的應(yīng)用需求,提出了基于貝葉斯網(wǎng)絡(luò)方法的多種風(fēng)險(xiǎn)對(duì)某種風(fēng)險(xiǎn)后果的組合影響以及單個(gè)風(fēng)險(xiǎn)對(duì)整體后果的綜合影響的度量模型,對(duì)軟件項(xiàng)目中的風(fēng)險(xiǎn)進(jìn)行了度量.
從上述研究中可以看出目前軟件類的大多數(shù)風(fēng)險(xiǎn)研究集中在軟件的實(shí)施過(guò)程及大型項(xiàng)目中的應(yīng)用,信息系統(tǒng)整合方面的研究較少.由于信息整合特殊性的制約,軟件項(xiàng)目的風(fēng)險(xiǎn)評(píng)估方法不能直接地在信息系統(tǒng)整合中進(jìn)行使用.本文借助貝葉斯網(wǎng)絡(luò)方法,結(jié)合信息系統(tǒng)整合的特殊性,對(duì)信息系統(tǒng)整合風(fēng)險(xiǎn)進(jìn)行研究.最后結(jié)合算例,得出了在相同置信度情況下,本方法的置信區(qū)更為精確,這為決策者在風(fēng)險(xiǎn)評(píng)估決策時(shí)提供了更好的決策依據(jù).
貝葉斯網(wǎng)絡(luò)是概率理論和圖論相結(jié)合的產(chǎn)物,它是不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一.貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)圖結(jié)構(gòu)和條件概率分布組成,Bs=(V,E)是有向無(wú)環(huán)圖,其中V 是節(jié)點(diǎn)集,E是有向邊集,邊表示節(jié)點(diǎn)與節(jié)點(diǎn)的依賴關(guān)系,依賴程度由條件概率決定.為了便于研究,將Bs細(xì)化為Bs=(V,E,R),其中R 為網(wǎng)絡(luò)中的關(guān)系.
根據(jù)貝葉斯網(wǎng)絡(luò),對(duì)于風(fēng)險(xiǎn)分析中網(wǎng)絡(luò)中的一組變量X={X1,X2,…,Xn},風(fēng)險(xiǎn)分析網(wǎng)絡(luò)模型為一個(gè)二元組:Bn=(Bs,Bp).其中,Bp表示風(fēng)險(xiǎn)分析網(wǎng)絡(luò)的條件概率分布表(CPT)集,任意變量Xi的條件概率分布為P(Xi|$π(Xi)),其中π(Xi)是Xi的父節(jié)點(diǎn)集.另外,節(jié)點(diǎn)集V 中每個(gè)節(jié)點(diǎn)代表一個(gè)變量Xi,網(wǎng)絡(luò)關(guān)系R 為產(chǎn)生的風(fēng)險(xiǎn)(后果)與風(fēng)險(xiǎn)因子(起因)的有序?qū)?
風(fēng)險(xiǎn)分析網(wǎng)絡(luò)中,各個(gè)節(jié)點(diǎn)關(guān)系無(wú)后向性,即符合馬爾科夫條件(各節(jié)點(diǎn)后驗(yàn)結(jié)構(gòu)只與其相鄰的前一步結(jié)果有關(guān)).其聯(lián)合分布中的—般條目可使用風(fēng)險(xiǎn)網(wǎng)絡(luò)節(jié)點(diǎn)的CPT 將分析網(wǎng)絡(luò)中的概率信息計(jì)算出來(lái).其中,CPT可以通過(guò)學(xué)習(xí)或者專家指定得到,則
由上式可以看出,X1,X2,…,Xn的聯(lián)合概率分布的每個(gè)條目都可以用CPT 的乘積來(lái)表示.
對(duì)多個(gè)信息系統(tǒng)實(shí)現(xiàn)整合時(shí),涉及的影響風(fēng)險(xiǎn)因子眾多,用一組變量X={X1,X2,…,Xn}表示系統(tǒng)整合中的風(fēng)險(xiǎn)因子與產(chǎn)生的風(fēng)險(xiǎn)后果.根據(jù)因果關(guān)系建立二元有序?qū)Γ╔i,Xj),其中Xi表示起因;Xj的先驗(yàn)概率為P (Xi),Xj表示后果.同時(shí)用帶箭頭的線將它們聯(lián)結(jié)起來(lái),箭頭由Xi指向Xj,用P (Xj|Xi)表示其聯(lián)結(jié)強(qiáng)度.以此類推,最后可以建立信息系統(tǒng)整合風(fēng)險(xiǎn)的貝葉斯網(wǎng)絡(luò)分析圖與分析模型(見圖1).
圖1 貝葉斯風(fēng)險(xiǎn)評(píng)估模型Fig.1 Bayesian risk assessment model
以信息系統(tǒng)整合的一些風(fēng)險(xiǎn)因子與風(fēng)險(xiǎn)后果為例作簡(jiǎn)要說(shuō)明,組成后果模糊集,后果模糊集主要包含可預(yù)估的風(fēng)險(xiǎn)后果.從整合過(guò)程角度來(lái)分析,根據(jù)已有研究風(fēng)險(xiǎn)的理論和其它領(lǐng)域風(fēng)險(xiǎn)案例的成果,結(jié)合專家經(jīng)驗(yàn)建立系統(tǒng)整合風(fēng)險(xiǎn)的貝葉斯網(wǎng)絡(luò)評(píng)估模型[8-9],如圖2所示.將圖2中的節(jié)點(diǎn)用變量Xi代替,可得到簡(jiǎn)化的系統(tǒng)整合風(fēng)險(xiǎn)貝葉斯網(wǎng)絡(luò)圖(見圖3).
圖2 系統(tǒng)整合風(fēng)險(xiǎn)的貝葉斯網(wǎng)絡(luò)圖Fig.2 Bayesian network diagram of system integration risk
圖3 簡(jiǎn)化系統(tǒng)整合風(fēng)險(xiǎn)的貝葉斯網(wǎng)絡(luò)圖Fig.3 Bayesian network diagram of simplified system integration risk
通過(guò)建立系統(tǒng)整合風(fēng)險(xiǎn)貝葉斯網(wǎng)絡(luò),從圖3可知
式中,R 表示貝葉斯網(wǎng)中各因素的直接關(guān)聯(lián)結(jié)構(gòu).根據(jù)變量Xi特定的概率P(Xi)和CPT,可以利用貝葉斯網(wǎng)絡(luò)中各變量的依賴關(guān)系,求其聯(lián)合概率
同理,根據(jù)風(fēng)險(xiǎn)貝葉斯分析網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行推理,可得出各個(gè)風(fēng)險(xiǎn)節(jié)點(diǎn)的風(fēng)險(xiǎn)概率,記錄每個(gè)風(fēng)險(xiǎn)節(jié)點(diǎn)的計(jì)算結(jié)果,以便進(jìn)行下一步的推理計(jì)算,直到推理計(jì)算結(jié)束為止.
每次分析結(jié)束后,將相關(guān)數(shù)據(jù)存入特定的數(shù)據(jù)庫(kù)中.隨著進(jìn)行風(fēng)險(xiǎn)分析的實(shí)際案例增多以及新信息的獲得,歷史數(shù)據(jù)和相關(guān)案例經(jīng)驗(yàn)越來(lái)越多,在評(píng)估進(jìn)行過(guò)程中,可實(shí)時(shí)進(jìn)行網(wǎng)絡(luò)的傳播與更新,這樣逐漸形成一個(gè)包含諸多獨(dú)立風(fēng)險(xiǎn)模型的案例庫(kù),為以后模型的建立提供參考數(shù)據(jù)和經(jīng)驗(yàn).
設(shè)f(x)為隨機(jī)變量的正態(tài)分布密度函數(shù),μ 為x 的均值,x1,…,xn是x 的隨機(jī)樣本,已知精度ρ為方差σ2的倒數(shù)為樣本均值.文獻(xiàn)[3]根據(jù)貝葉斯原理,設(shè)x 是隨機(jī)變量,其均值μ 也是隨機(jī)變量.假設(shè)μ 的先驗(yàn)分布為正態(tài)分布,其均值μ′和精度ρ′已知,則μ 的后驗(yàn)分布也是一個(gè)正態(tài)分布,其均值μ″和精度ρ″分別為
由式(4)可以看出,后驗(yàn)均值μ″是先驗(yàn)均值μ′和樣本均值x—的加權(quán)平均值,其權(quán)重是由ρ′和nρ 決定的;由式(5)可以看出,ρ″與樣本觀測(cè)值xi無(wú)關(guān),隨著觀測(cè)次數(shù)的增加,μ 的后驗(yàn)分布越來(lái)越集中于后驗(yàn)均值的附近,而其均值將取決于觀測(cè)值xi.
信息系統(tǒng)整合項(xiàng)目比單一的信息系統(tǒng)開發(fā)項(xiàng)目要復(fù)雜得多,因?yàn)橄到y(tǒng)整合牽涉的用戶(user)、用戶界面(user interface)、業(yè)務(wù)邏輯(business logic)、數(shù)據(jù)服務(wù)(data service)眾多,而不是單一的,所以在實(shí)施系統(tǒng)整合的時(shí)候需要考慮的因素也就頗多,毋庸置疑,帶來(lái)的風(fēng)險(xiǎn)也不容忽視.實(shí)際上,只要對(duì)風(fēng)險(xiǎn)評(píng)估得當(dāng),采取有效措施,都可以將風(fēng)險(xiǎn)控制在可以接受的范圍內(nèi).
任何項(xiàng)目,不管涉及的風(fēng)險(xiǎn)因子有多少,最終都離不開工期、成本(支出費(fèi)用)、系統(tǒng)整合后的總體性能這三大因子的風(fēng)險(xiǎn)困擾.對(duì)于風(fēng)險(xiǎn)分析可實(shí)施全方位風(fēng)險(xiǎn)分析計(jì)算,亦可對(duì)以上3個(gè)因素單獨(dú)分析.
根據(jù)數(shù)據(jù)的可得性及一個(gè)具體的信息系統(tǒng)整合項(xiàng)目,成本是業(yè)主和集成商直接且首要考慮的因素,下面以信息系統(tǒng)整合成本因素為例,利用貝葉斯方法進(jìn)行風(fēng)險(xiǎn)評(píng)估分析.
以一定時(shí)間為單位(周、月、年)構(gòu)成估計(jì)成本序列,考察其預(yù)計(jì)費(fèi)用與支出情況以及費(fèi)用超支與否的次數(shù),建立模型推導(dǎo)費(fèi)用支出概率分布.系統(tǒng)在設(shè)計(jì)開發(fā)過(guò)程中,需要不斷和用戶溝通,需求可能不斷發(fā)生變更,產(chǎn)生的費(fèi)用xi是個(gè)隨機(jī)變量.由于影響因素眾多,可以認(rèn)為xi是個(gè)均勻分布的隨機(jī)變量,那么x1+x2+…+xn的極限分布是正態(tài)分布,其均值為μ′,方差為δ2.根據(jù)數(shù)據(jù)確定參數(shù),計(jì)算出單位時(shí)期的成本預(yù)算.
根據(jù)貝葉斯方法原理,信息系統(tǒng)整合項(xiàng)目成本支出風(fēng)險(xiǎn)分析步驟如下:
步驟1 統(tǒng)計(jì)分析源數(shù)據(jù),即采樣分析歷史數(shù)據(jù),計(jì)算樣本均值x—、方差S2、精度ρ.
步驟2 確定先驗(yàn)概率分布,這個(gè)過(guò)程中可以讓項(xiàng)目組成員(或者行業(yè)專家)根據(jù)歷史經(jīng)驗(yàn),主觀初步估計(jì)成本預(yù)算,然后將所得的估計(jì)值按權(quán)重得到平均值,并計(jì)算誤差范圍,這樣就得到了先驗(yàn)的概率分布參數(shù)μ1 和精度ρ1.
步驟3 根據(jù)先驗(yàn)概率分布,進(jìn)行后驗(yàn)概率分布推斷.
步驟4 擬定置信度1-α,查正態(tài)分布表得到uα,則支付費(fèi)用均值μ′的區(qū)間估計(jì)可以獲得.
步驟5 繼續(xù)補(bǔ)充新信息,應(yīng)用上述分析步驟,隨著信息量的增加,估計(jì)值就越來(lái)越趨于實(shí)際值.
某公司為信息系統(tǒng)行業(yè)的開發(fā)商兼集成商,作為集成商根據(jù)用戶和業(yè)務(wù)實(shí)際需求,對(duì)相關(guān)信息系統(tǒng)進(jìn)行整合.在和用戶進(jìn)行溝通交流后,了解了用戶的整合需求,同時(shí)也得知開發(fā)或者整合的風(fēng)險(xiǎn).在實(shí)際系統(tǒng)整合的風(fēng)險(xiǎn)當(dāng)中,成本和進(jìn)度風(fēng)險(xiǎn)是考慮的重要對(duì)象.現(xiàn)以該公司2010年實(shí)施信息系統(tǒng)整合項(xiàng)目的月支付費(fèi)用中連續(xù)10個(gè)月的數(shù)據(jù)為實(shí)例進(jìn)行分析.
該公司事業(yè)部在實(shí)施某單位的信息系統(tǒng)整合項(xiàng)目時(shí),其中10個(gè)月的支出(不包括硬件設(shè)備的采購(gòu)支出)見表1.在項(xiàng)目實(shí)施前,為了減少中標(biāo)后帶來(lái)的項(xiàng)目成本風(fēng)險(xiǎn),項(xiàng)目組核心成員對(duì)支出費(fèi)用進(jìn)行了大致估算,見表2.
表1 某系統(tǒng)整合項(xiàng)目中連續(xù)10個(gè)月的支出費(fèi)用Tab.1 Expense in successive ten months of some row in a system integration project
a.根據(jù)已知樣本計(jì)算均值、方差、標(biāo)準(zhǔn)差、精度
表2 某系統(tǒng)整合項(xiàng)目估計(jì)月支出費(fèi)用Tab.2 Estimated monthly expense of some integration system project
b.預(yù)算先驗(yàn)均值、方差、標(biāo)準(zhǔn)差、精度
先驗(yàn)標(biāo)準(zhǔn)方差S′=5.244
先驗(yàn)精度ρ′=0.036 4
c.后驗(yàn)概率分布推測(cè)
d.令α=0.01,置信度為1-α=99%,uα=2.58,則預(yù)計(jì)支出均值μ 的置信區(qū)間為
支出預(yù)算落入(34.188,36.798)的可能性是99%.在實(shí)際應(yīng)用中,置信度可以根據(jù)需要取值,實(shí)際置信度不一定能達(dá)到99%,可以根據(jù)經(jīng)驗(yàn)擬定置信度.
e.相似的信息系統(tǒng)整合項(xiàng)目費(fèi)用支出信息見表3,用于費(fèi)用風(fēng)險(xiǎn)推理.
根據(jù)貝葉斯學(xué)習(xí)理論,原有的后驗(yàn)信息變?yōu)橄闰?yàn)信息,根據(jù)新增加的信息再次進(jìn)行后驗(yàn)推測(cè).
表3 項(xiàng)目預(yù)算估計(jì)Tab.3 Project budget estimate
令α=0.01,置信度為1-α,uα=2.58,則預(yù)計(jì)支出均值μ 的置信區(qū)間為(34.315,35.905).
通過(guò)計(jì)算發(fā)現(xiàn),通過(guò)相似項(xiàng)目信息學(xué)習(xí)后的計(jì)算結(jié)果較無(wú)相似信息學(xué)習(xí)的計(jì)算結(jié)果效果更優(yōu).即在置信度相同的情況下,有學(xué)習(xí)結(jié)果在支出估計(jì)區(qū)間范圍較無(wú)學(xué)習(xí)結(jié)果有所減小,也就是說(shuō)置信區(qū)間更為集中,估計(jì)更接近實(shí)際,有利于決策.
由以上實(shí)例分析可知,對(duì)于信息系統(tǒng)整合項(xiàng)目,可根據(jù)已有相關(guān)項(xiàng)目確切的數(shù)據(jù)統(tǒng)計(jì)或具有豐富經(jīng)驗(yàn)的行業(yè)專家分析的數(shù)據(jù)統(tǒng)計(jì),利用本文方法對(duì)正在實(shí)施的項(xiàng)目進(jìn)行風(fēng)險(xiǎn)量化評(píng)估,以達(dá)到發(fā)現(xiàn)風(fēng)險(xiǎn)的目的,從而降低施工企業(yè)的潛在風(fēng)險(xiǎn),降低項(xiàng)目施工延期風(fēng)險(xiǎn),這對(duì)施工方及客戶均具有實(shí)際的價(jià)值和意義.顯然利用貝葉斯方法評(píng)估信息系統(tǒng)整合項(xiàng)目風(fēng)險(xiǎn)損失具有一定優(yōu)勢(shì).
分析了貝葉斯方法理論,基于貝葉斯方法對(duì)信息系統(tǒng)整合項(xiàng)目風(fēng)險(xiǎn)評(píng)估模型構(gòu)建整合風(fēng)險(xiǎn)貝葉斯網(wǎng)絡(luò)圖,并根據(jù)先驗(yàn)概率或者專家經(jīng)驗(yàn),實(shí)現(xiàn)對(duì)未知風(fēng)險(xiǎn)的量化計(jì)算.同時(shí),進(jìn)行了實(shí)際案例推算,計(jì)算結(jié)果可供決策者進(jìn)行參考分析.隨著添加的歷史信息的增多與經(jīng)驗(yàn)的累積,估算越接近實(shí)際值,這樣能讓決策者在評(píng)估風(fēng)險(xiǎn)時(shí)減少失誤和降低損失.從分析的結(jié)果可發(fā)現(xiàn),本方法不僅可在信息系統(tǒng)整合中得到使用,同時(shí)可在施工項(xiàng)目的風(fēng)險(xiǎn)評(píng)估中使用.
[1]賈煥軍.貝葉斯方法在工程建設(shè)項(xiàng)目風(fēng)險(xiǎn)分析中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2005,24(3):10-14.
[2]冀俊忠,劉椿年,沙志強(qiáng).貝葉斯網(wǎng)模型的學(xué)習(xí)、推理和應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(5):24-27.
[3]蔣國(guó)萍,陳英武.基于面向?qū)ο筘惾~斯網(wǎng)絡(luò)的軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估[J].系統(tǒng)工程與電子技術(shù),2005,27(2):353-356.
[4]唐愛國(guó),王如龍.基于貝葉斯網(wǎng)絡(luò)的軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估模型[J].計(jì)算機(jī)工程,2008,34(22):91-93.
[5]袁健,丁岳偉,李海淵.軟件項(xiàng)目工作量預(yù)估系統(tǒng)的研究與實(shí)現(xiàn)[J].上海理工大學(xué)學(xué)報(bào),2005,27(6):547-550.
[6]張福生,王洪泊,楊揚(yáng),等.一種基于貝葉斯網(wǎng)絡(luò)的建設(shè)項(xiàng)目風(fēng)險(xiǎn)評(píng)估方法[J].計(jì)算機(jī)仿真,2010,27(7):296-298.
[7]唐愛國(guó),王如龍,胡春華.貝葉斯網(wǎng)絡(luò)在軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(7):62-67.
[8]王楨珍,姜欣,武小悅,等.信息安全風(fēng)險(xiǎn)概率計(jì)算的貝葉斯網(wǎng)絡(luò)模型[J].電子學(xué)報(bào),2010,38(S1):18-22.
[9]樊重俊,熊紅林,張海英,等.虹橋機(jī)場(chǎng)信息化建設(shè)項(xiàng)目中的風(fēng)險(xiǎn)管理方法[J].科技管理研究,2010,30(8):129-132.