吳 江,馬小寧,鄒 丹,孫思齊,王沛然
(1.中國鐵道科學(xué)研究院 研究生部,北京 100081;2.中國鐵道科學(xué)研究院集團有限公司 鐵路大數(shù)據(jù)研究與應(yīng)用創(chuàng)新中心,北京 100081)
伴隨著鐵路數(shù)據(jù)采集技術(shù)的進步,鐵路數(shù)據(jù)的總量呈現(xiàn)出指數(shù)級別的增長。傳統(tǒng)的鐵路數(shù)據(jù)資產(chǎn)價值評估方法依靠專家討論的文字總結(jié)進行價值評估,其結(jié)果相對模糊且不能準確表達專家對各價值影響指標的評價,無法滿足對新增數(shù)據(jù)進行價值評估的精準度要求。研究結(jié)合鐵路數(shù)據(jù)資產(chǎn)特征創(chuàng)建指標體系,構(gòu)建評估模型,使鐵路數(shù)據(jù)資產(chǎn)價值評估的結(jié)果更加精確。
目前,國內(nèi)在數(shù)據(jù)資產(chǎn)價值評估領(lǐng)域的研究處于探索階段,研究方向可分為價值評估指標體系與價值評估模型兩方面。在評估指標體系方面,張志剛等[1]在無形資產(chǎn)價值評估研究成果的基礎(chǔ)上,提出了基于層次分析模型構(gòu)建的指標評價體系與方法。李永紅等[2]通過對數(shù)據(jù)資產(chǎn)進行定界與其價值體現(xiàn)的分析,將數(shù)據(jù)資產(chǎn)價值影響因素分為數(shù)據(jù)量與數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析能力2個方面。李菲菲等[3]將數(shù)據(jù)資產(chǎn)成本、應(yīng)用與數(shù)據(jù)質(zhì)量、效果相結(jié)合,嘗試了混合評估指標體系。在評估模型方面,王靜等[4]針對互聯(lián)網(wǎng)金融企業(yè)數(shù)據(jù)資產(chǎn)搭建了評價指標體系,結(jié)合B-S理論進行評估。董祥千等[5]從市場交易的角度將數(shù)據(jù)資產(chǎn)作為一種商品進行分析,采用基于市場模型參與者利潤建模方法進行了數(shù)據(jù)資產(chǎn)價值的評估。倪淵等[6]結(jié)合網(wǎng)絡(luò)平臺交易的數(shù)據(jù)構(gòu)建了AGA-BP神經(jīng)網(wǎng)絡(luò)評估模型,結(jié)合實例證明該模型具有較好的評估效果。
綜上所述,針對數(shù)據(jù)資產(chǎn)價值評估的研究取得了諸多成果。但在鐵路領(lǐng)域內(nèi),相關(guān)研究較少,不足以實現(xiàn)對鐵路數(shù)據(jù)資產(chǎn)的精確評估。因此,創(chuàng)建鐵路數(shù)據(jù)資產(chǎn)價值評估指標體系,構(gòu)建AHP-FCE模型進行權(quán)重分析與價值評價,使用鐵路主數(shù)據(jù)字段進行仿真,實驗結(jié)果表明模型具有良好的評估效果,能夠較為精確地評估鐵路數(shù)據(jù)資產(chǎn)的價值。
鐵路數(shù)據(jù)資產(chǎn)是鐵路行業(yè)內(nèi)各單位在運營管理、人員管理、業(yè)務(wù)場景中產(chǎn)生、傳輸、存儲的,具有價值的以圖片、文字、視頻、音頻等方式為載體的數(shù)據(jù)集合。相較于政務(wù)、郵遞、醫(yī)療等領(lǐng)域的數(shù)據(jù)資產(chǎn),鐵路數(shù)據(jù)資產(chǎn)具有產(chǎn)速快、類型多、數(shù)據(jù)量大、保密性強等特征。
(1)產(chǎn)速快。除了通用的人財物等管理信息系統(tǒng)數(shù)據(jù)外,鐵路數(shù)據(jù)資產(chǎn)還包含設(shè)備設(shè)施維修維護系統(tǒng)和生產(chǎn)系統(tǒng)的數(shù)據(jù)。對設(shè)備設(shè)施維修維護系統(tǒng)來說,員工的每次維修都會產(chǎn)生工單;對生產(chǎn)系統(tǒng)來說,監(jiān)測數(shù)據(jù)每時每刻都在發(fā)生變化。這些系統(tǒng)產(chǎn)生的數(shù)據(jù)動態(tài)性強、隨機性強、顆粒度多樣,且都以ms或μs的時間間隔變化。
(2)類型多。根據(jù)數(shù)據(jù)產(chǎn)生的來源,可以將數(shù)據(jù)分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括安全生產(chǎn)數(shù)據(jù)、運營服務(wù)數(shù)據(jù)、維修維護數(shù)據(jù)、物資采購數(shù)據(jù)、人力資源數(shù)據(jù)、財務(wù)管理數(shù)據(jù)、企業(yè)管理數(shù)據(jù);外部數(shù)據(jù)包括交通路況、天氣數(shù)據(jù)、大型活動數(shù)據(jù)和其他相關(guān)公共數(shù)據(jù)等。
(3)數(shù)據(jù)量大。據(jù)粗略統(tǒng)計,目前,鐵路數(shù)據(jù)資產(chǎn)總量達10 PB以上,日增長量超1 TB。其數(shù)據(jù)量龐大的主要原因包括以下幾點:鐵路數(shù)據(jù)采集設(shè)備的升級與采集數(shù)據(jù)的精度提高,使數(shù)據(jù)來源增多、采集間隔減??;新技術(shù)的開發(fā)使得鐵路與其他領(lǐng)域的數(shù)據(jù)融合頻率增多;數(shù)據(jù)治理將傳統(tǒng)的紙質(zhì)及其他形式的資料以數(shù)據(jù)形式存儲。
(4)保密性強。鐵路數(shù)據(jù)資產(chǎn)包括鐵路行業(yè)內(nèi)各單位管控類的人財物數(shù)據(jù)、生產(chǎn)系統(tǒng)等物聯(lián)網(wǎng)系統(tǒng)采集終端傳感器的數(shù)據(jù)等,具有極大的應(yīng)用價值,牽扯到鐵路日常管理、人事調(diào)動、調(diào)度安排等業(yè)務(wù)及流程。數(shù)據(jù)如若泄露,將對企業(yè)秘密和公共安全造成極大的危害,因此對保密性要求高。
鑒于鐵路數(shù)據(jù)資產(chǎn)的諸多特征,進行價值評估時需從多個維度考慮。通過整理傳統(tǒng)有形資產(chǎn)與無形資產(chǎn)價值評估中的評估因子,結(jié)合鐵路數(shù)據(jù)資產(chǎn)特征選定影響鐵路數(shù)據(jù)資產(chǎn)價值的主要因素包括數(shù)據(jù)成本、數(shù)據(jù)固有價值、數(shù)據(jù)應(yīng)用價值3個方面。
(1)數(shù)據(jù)成本?;跀?shù)據(jù)生命周期模型,數(shù)據(jù)成本主要集中在數(shù)據(jù)收集、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用3個階段當中。數(shù)據(jù)收集階段需一線人員對數(shù)據(jù)進行采集;數(shù)據(jù)管理階段需數(shù)據(jù)管理員對數(shù)據(jù)進行數(shù)據(jù)確認、清洗、入庫、整合;數(shù)據(jù)應(yīng)用階段需數(shù)據(jù)分析師對數(shù)據(jù)進行挖掘。整理上述流程中的成本費用,數(shù)據(jù)成本可分為數(shù)據(jù)建設(shè)成本、數(shù)據(jù)管理成本、數(shù)據(jù)使用成本。
(2)數(shù)據(jù)固有價值。數(shù)據(jù)固有價值指數(shù)據(jù)本身所蘊含的信息內(nèi)容,包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)活性、數(shù)據(jù)規(guī)模。數(shù)據(jù)質(zhì)量與數(shù)據(jù)規(guī)模是數(shù)據(jù)固有價值的直觀體現(xiàn),質(zhì)量好的數(shù)據(jù)可以減少后續(xù)數(shù)據(jù)治理的成本,而規(guī)模大的數(shù)據(jù)則可以提供更多的挖掘樣本。數(shù)據(jù)活性是數(shù)據(jù)固有價值的潛在體現(xiàn),關(guān)聯(lián)性越強的數(shù)據(jù)可與更多其他領(lǐng)域的數(shù)據(jù)進行融合。
(3)數(shù)據(jù)應(yīng)用價值。鐵路數(shù)據(jù)資產(chǎn)應(yīng)用價值分為路內(nèi)應(yīng)用價值、路外應(yīng)用價值。在路內(nèi),數(shù)據(jù)可直接應(yīng)用,例如根據(jù)車輛的延誤數(shù)據(jù)進行列車調(diào)度;同時也可間接應(yīng)用,例如根據(jù)車站的人流量數(shù)據(jù)進行周邊交通的管控。在路外,數(shù)據(jù)的價值取決于業(yè)務(wù)的需求程度與歷史價值,例如在城際鐵路一體化的智慧城市項目中,鐵路數(shù)據(jù)是必需的,具有極高的價值。而根據(jù)鐵路數(shù)據(jù)在該項目中的實際使用效果,可在將來為其他同類項目對鐵路數(shù)據(jù)的價值評估提供參考。
鐵路數(shù)據(jù)資產(chǎn)價值評估的關(guān)鍵在于整理價值影響因素以形成指標體系和定量描述指標。依據(jù)鐵路數(shù)據(jù)資產(chǎn)特征,結(jié)合數(shù)據(jù)資產(chǎn)價值評估領(lǐng)域的研究現(xiàn)狀,將層次分析法與模糊綜合評價法相結(jié)合構(gòu)建評估模型[7-8]。
層次分析法(Analytic Hierarchy Process,AHP)是一種將復(fù)雜多目標決策問題通過分解為多個層次與指標進行分析的決策方法,具有科學(xué)性、簡潔性、所需定量數(shù)據(jù)信息較少等優(yōu)點,能夠形成鐵路數(shù)據(jù)資產(chǎn)價值評估指標體系并計算出各指標的權(quán)重;模糊綜合評價法(Fuzzy Comprehensive Evaluation,F(xiàn)CE)是一種基于模糊數(shù)學(xué)的隸屬度理論把定性評價轉(zhuǎn)化為定量評價,對受到多種因素制約的對象做出一個總體評價的方法,可以定量描述鐵路數(shù)據(jù)資產(chǎn)的價值。
(1)構(gòu)建指標體系。鐵路數(shù)據(jù)資產(chǎn)價值評估指標體系如圖1所示,包括1個總目標、3個一級指標、8個二級指標、21個三級指標。
圖1 鐵路數(shù)據(jù)資產(chǎn)價值評估指標體系Fig.1 Index framework for value evaluation of railway data assets
數(shù)據(jù)成本是指在建設(shè)、管理、使用數(shù)據(jù)的過程中花費的人力、物力的總和,一般認為數(shù)據(jù)成本越高的數(shù)據(jù),其價值越高。數(shù)據(jù)建設(shè)成本包括數(shù)據(jù)采集成本和現(xiàn)場數(shù)據(jù)損失。數(shù)據(jù)采集成本指獲得數(shù)據(jù)所耗費的人力、物力總和,在現(xiàn)場數(shù)據(jù)的采集過程中,根據(jù)采集設(shè)備的費用確定數(shù)據(jù)的成本,費用越高,則采集成本越高;在統(tǒng)計數(shù)據(jù)的采集過程中,根據(jù)獲取數(shù)據(jù)的難度確定數(shù)據(jù)的成本,數(shù)據(jù)獲取流程越多,所需權(quán)限越大,則采集成本越高。不同業(yè)務(wù)中的數(shù)據(jù)由其特定的采集方式?jīng)Q定其采集成本。現(xiàn)場數(shù)據(jù)損失指在采集過程中部分數(shù)據(jù)未達到要求而被舍棄所產(chǎn)生的損失。數(shù)據(jù)管理成本包括數(shù)據(jù)傳輸成本、數(shù)據(jù)治理成本、數(shù)據(jù)存儲成本。數(shù)據(jù)使用成本包括數(shù)據(jù)分析成本、技術(shù)使用成本、數(shù)據(jù)服務(wù)成本。數(shù)據(jù)分析成本指為分析技術(shù)所投入的費用,分析技術(shù)水平越高,所能挖掘的數(shù)據(jù)價值越多;技術(shù)使用成本、數(shù)據(jù)服務(wù)成本指為了配合數(shù)據(jù)的使用而進行的相關(guān)技術(shù)開發(fā)與技術(shù)服務(wù)等費用。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)固有價值的直接表現(xiàn),參考國家標準GB/T 25000.12-2017《系統(tǒng)與軟件工程 系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第12部分:數(shù)據(jù)質(zhì)量模型》、GB/T 25000.24-2017《系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第24部分:數(shù)據(jù)質(zhì)量測量》等規(guī)定,結(jié)合鐵路數(shù)據(jù)特征整理得到具體指標包括:完整性、準確性、規(guī)范性。數(shù)據(jù)活性描述了數(shù)據(jù)的影響與變化,包括關(guān)聯(lián)性與貶值速率。關(guān)聯(lián)性由數(shù)據(jù)來源與影響范圍共同決定,數(shù)據(jù)可來源于局、段等單位,一般認為來源單位級別越高,影響范圍越大,關(guān)聯(lián)性越強。數(shù)據(jù)規(guī)模是對數(shù)據(jù)整體進行描述,包括數(shù)據(jù)量、增長率、更新率、多源異構(gòu)性。多源異構(gòu)性指由多個數(shù)據(jù)源所產(chǎn)生的不同結(jié)構(gòu)的數(shù)據(jù)的結(jié)合,描述了數(shù)據(jù)結(jié)構(gòu)的復(fù)雜程度。
路內(nèi)應(yīng)用價值包括直接應(yīng)用價值、間接應(yīng)用價值。間接應(yīng)用價值指使用分析技術(shù)對數(shù)據(jù)進行挖掘,是數(shù)據(jù)深層價值的體現(xiàn)。路外應(yīng)用價值包括需求程度、歷史價值。歷史價值是數(shù)據(jù)價值變動的參考依據(jù),可根據(jù)以往數(shù)據(jù)實際使用效果做出價值判斷,效果越好則數(shù)據(jù)價值越高。
(2)構(gòu)建判斷矩陣。邀請專家對同一準則下的指標xi與xj成對比較,用1-9標度法表示兩者之間的重要程度,記為aij。遍歷同準則下所有指標,合成判斷矩陣A= (aij)n×n。
(3)計算最大特征根。最大特征根λmax計算如下。
式中:W為判斷矩陣A的特征向量,wi為W的元素。
(4)一致性檢驗。判斷矩陣的一致性指標CI計算如下。
RI值查詢?nèi)绫?所示。當CR≤ 0.1時,判斷矩陣通過一致性檢驗;當CR> 0.1時,判斷矩陣未通過一致性檢驗,需調(diào)整判斷矩陣直至通過檢驗。一致性比CR計算如下。
表1 RI值查詢Tab.1 RI value inquiry
式中:RI為平均隨機一致性指標。
(5)全局權(quán)重。指標的全局權(quán)重為該指標至總目標的路徑上,所對應(yīng)準則的權(quán)重與其局部權(quán)重的乘積。
(1)確定評價因素集和評語集。評價因素集U= {u1,u2,…,un}為評價指標因素所組成的集合,n為評價因素的數(shù)量。評語集V= {v1,v2,…,vm}為評價等級所組成的集合,m為評價等級數(shù),需經(jīng)過專家討論后確定。經(jīng)過與專家討論取m= 5。
(2)確定評價指標權(quán)重。采用AHP法確定指標權(quán)重。
(3)一級模糊綜合評價。首先構(gòu)建模糊評價矩陣,模糊評價矩陣由各指標的隸屬度子集合R= {r1,r2,…,rm}構(gòu)成。其中,定性指標無法量化評價,采用“優(yōu)”“良”等評語,由專家投票的方式進行計算。定性指標的隸屬度rm計算如下。
式中:k為選擇m級別的人數(shù);N為參與評價的總?cè)藬?shù)。
定量指標可量化評價,選擇半梯形分布函數(shù)作為隸屬度函數(shù),評語集V= {v1,v2,…,vm}中的vm的取值由專家商討決定。定量指標的隸屬度rm計算如下。
式中:x為定量指標ui的具體評價數(shù)值。
一級模糊評價向量Bi計算如下。
式中:Wl×1為l個下層指標對應(yīng)的上層指標的特征向量;Rl×1為l個下層指標對應(yīng)的隸屬度子集合并形成的模糊評價矩陣。
(4)多級模糊綜合評價。模糊綜合評價法按照由下至上的順序進行計算,下層的模糊評價向量構(gòu)成中間層的模糊評價矩陣,將其與對應(yīng)權(quán)值W相乘直至得到目標層的模糊評價向量B。
(5)評價結(jié)果分析。通過與專家討論,以數(shù)據(jù)實際應(yīng)用效果為標準確定了評價對象的分值分級表。分值分級表如表2所示。在此基礎(chǔ)上以分級表的范圍上限為標準,確定總目標的評語集V= {20,40,60,80,100}。評價目標的分值T計算如下。
表2 分值分級表Tab.2 Score grading
選擇鐵路主數(shù)據(jù)管理平臺中的主數(shù)據(jù)字段進行仿真。主數(shù)據(jù)字段作為構(gòu)成鐵路各系統(tǒng)數(shù)據(jù)庫的基礎(chǔ)元素,可以描述鐵路業(yè)務(wù)實體的特征,指導(dǎo)新建鐵路的系統(tǒng)構(gòu)建,具有較大的作用與影響。實驗通過對鐵路主數(shù)據(jù)字段進行價值評估,根據(jù)已有評估結(jié)果反證實驗?zāi)P偷臏蚀_性。
(1)權(quán)值計算。以一級準則層的判斷矩陣作為案例進行分析,統(tǒng)計整理出專家評分結(jié)果。專家評分表如表3所示。
表3 專家評分表Tab.3 Expert scoring
根據(jù)表3可得判斷矩陣A。
計算矩陣A的特征向量W。
計算矩陣A的最大特征根λmax。
按公式(2)可得CI= 0.001 85,查詢表1可知RI= 0.58,代入公式(3),計算一致性比CR= 0.003 2 < 0.1,通過一致性檢驗。同理可得其余因素權(quán)重。指標權(quán)重如表4所示。
表4 指標權(quán)重Tab.4 Index weight
案例數(shù)據(jù)總計12個判斷矩陣,其中最大CR= 0.090 4 < 0.1,整體滿足一致性檢驗。對權(quán)值進行分析,發(fā)現(xiàn)對鐵路數(shù)據(jù)資產(chǎn)價值影響最大的3個因素分別是直接應(yīng)用價值、間接應(yīng)用價值、數(shù)據(jù)量。這說明目前鐵路領(lǐng)域?qū)?shù)據(jù)價值的認識依舊以數(shù)據(jù)的直接使用為主,可以增加間接應(yīng)用價值的比重,挖掘數(shù)據(jù)深層價值,充分發(fā)揮鐵路數(shù)據(jù)量巨大的優(yōu)勢。
(2)分數(shù)評估。將指標構(gòu)成評價因素集,根據(jù)不同屬性的指標構(gòu)造評語集。以定性指標直接應(yīng)用價值C18為例,請20位專家對其進行價值評估。專家投票結(jié)果如表5所示。
表5 專家投票結(jié)果Tab.5 Voting results of experts
根據(jù)公式(4)計算指標C18的隸屬度:r1=r2=r3= 0;r4= 0.15;r5= 0.85。
以定量指標數(shù)據(jù)采集成本C1為例,其值為12.31萬元,根據(jù)公式(5)計算指標C1的隸屬度:r1= 0.769;r2= 1 -r1= 0.231;r3=r4=r5= 0。
同理可得其余指標隸屬度,整理可得隸屬度子集。將指標按性質(zhì)分為定性與定量兩類。定量指標隸屬度子集結(jié)果如表6所示。因定性指標的評價等級一致,直接計算其隸屬度子集即可。定性指標隸屬度子集如表7所示。
表6 定量指標隸屬度子集Tab.6 Quantitative index membership subset
表7 定性指標隸屬度子集Tab.7 Qualitative index membership subset
以數(shù)據(jù)建設(shè)成本B1為例,根據(jù)公式(6)計算指標BB1的中間模糊評價向量。
同理可得其余準則及總目標對應(yīng)的模糊評價向量。
按公式(7)計算分值T。
結(jié)合模糊評價向量與實際場景進行分析,主數(shù)據(jù)字段由鐵路各個系統(tǒng)中的字段整理總結(jié)而得,涉及到人工調(diào)查、收集等一系列流程工作,中間需經(jīng)過多次數(shù)據(jù)傳輸與清洗,經(jīng)過整理后可直接描述鐵路業(yè)務(wù)實體,故其花費主要集中在傳輸、治理方面,成本極低;主數(shù)據(jù)字段由實際需求確定,其范圍覆蓋整個鐵路的業(yè)務(wù)流程,關(guān)聯(lián)多個相關(guān)領(lǐng)域,然而由于標準的落實仍處于初步階段,其在各個系統(tǒng)中的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)差異較大,導(dǎo)致其固有價值一般;主數(shù)據(jù)字段作為鐵路系統(tǒng)字段的歸納總結(jié),能夠為后續(xù)鐵路系統(tǒng)的建設(shè)起到指導(dǎo)作用,具有較高的應(yīng)用價值。通過該模型對鐵路數(shù)據(jù)資產(chǎn)的價值進行評估,不僅可以為鐵路數(shù)據(jù)資產(chǎn)分類分級提供新的標準,也有助于推動與其他領(lǐng)域的數(shù)據(jù)資產(chǎn)等值共享,充分發(fā)揮鐵路數(shù)據(jù)的價值。
隨著數(shù)據(jù)量指數(shù)級的增長,數(shù)據(jù)資產(chǎn)在鐵路領(lǐng)域的作用日益增強。在構(gòu)建鐵路數(shù)據(jù)資產(chǎn)價值評估指標體系的基礎(chǔ)上,根據(jù)權(quán)重計算、量化模糊評價等需求,選擇層次分析法及模糊綜合評價法建立評估模型。結(jié)合鐵路實際業(yè)務(wù)場景,選擇具有較高價值的主數(shù)據(jù)字段進行實例驗證,根據(jù)已有的模糊評價反向驗證實驗結(jié)果的精確性。結(jié)果表明該模型可以較為準確地描述數(shù)據(jù)資產(chǎn)的價值,有利于進一步挖掘鐵路數(shù)據(jù)的價值,提高鐵路行業(yè)數(shù)據(jù)資產(chǎn)管理水平。