孫藝新 崔維平 雷濤
(1.國網(wǎng)能源研究院有限公司,北京 102209;2.天云融創(chuàng)數(shù)據(jù)科技(北京)有限公司,北京 100080)
在大數(shù)據(jù)階段,數(shù)據(jù)才具備了完整的、獨(dú)立的資產(chǎn)屬性,它可以作為一個獨(dú)立要素,配置到許多生產(chǎn)、經(jīng)營或管理場景中,通過機(jī)器學(xué)習(xí)建模預(yù)測的方式,實(shí)現(xiàn)生產(chǎn)、經(jīng)營或管理的模式改進(jìn)或模式創(chuàng)新,直接對增加收入增長、降低成本、減少損失或規(guī)避風(fēng)險(xiǎn)等目標(biāo)產(chǎn)生不可替代的且可以評估的經(jīng)濟(jì)價(jià)值。
數(shù)據(jù)資產(chǎn)價(jià)值的基本評價(jià)方式很明確,就是計(jì)算引入一項(xiàng)數(shù)據(jù)資產(chǎn)要素后,在具體的業(yè)務(wù)場景中產(chǎn)生的經(jīng)濟(jì)價(jià)值。
以電網(wǎng)設(shè)備故障預(yù)測與智能化檢修方案為例,假設(shè)原有檢修方案對應(yīng)的年故障停工損失為S1,引入新模型后的年故障停工損失為S2,則新模型產(chǎn)生的年經(jīng)濟(jì)價(jià)值S為:
S=S1-S2
以個性化電價(jià)營銷為例,假設(shè)原有電力營銷年收入為S1,引入個性化電價(jià)營銷后,年收入為S2,則個性化電價(jià)營銷模型產(chǎn)生的年經(jīng)濟(jì)價(jià)值S為:S=S2-S1。
但是,某項(xiàng)數(shù)據(jù)資產(chǎn)在某個具體業(yè)務(wù)場景中產(chǎn)生的經(jīng)濟(jì)價(jià)值,并不等于該項(xiàng)數(shù)據(jù)資產(chǎn)本身的估值,因?yàn)樵谠摌I(yè)務(wù)場景中產(chǎn)生經(jīng)濟(jì)價(jià)值的要素并不只有所引入的數(shù)據(jù)資產(chǎn)要素,還包括所依賴的人力、設(shè)備和資金等要素,因此,針對上述業(yè)務(wù)場景,該項(xiàng)數(shù)據(jù)資產(chǎn)的正確估值y應(yīng)該是所產(chǎn)生經(jīng)濟(jì)價(jià)值S乘以該項(xiàng)數(shù)據(jù)資產(chǎn)的要素貢獻(xiàn)度權(quán)重x,即:y=Sx。假設(shè)某項(xiàng)數(shù)據(jù)資產(chǎn)能應(yīng)用到多個業(yè)務(wù)場景中,則該項(xiàng)數(shù)據(jù)資產(chǎn)的估值就是針對各個業(yè)務(wù)場景的估值的加和,即:
Y = y1+y2+y3+……+yn= S1x1+S2x2+S3x3+……+Snxn
總體數(shù)據(jù)資產(chǎn)中包含多項(xiàng)可以產(chǎn)生經(jīng)濟(jì)價(jià)值的數(shù)據(jù)資產(chǎn)子項(xiàng),因此總體數(shù)據(jù)資產(chǎn)Z的估值公式如下:
Z=Y1+Y2+Y3+……+Yn
由于在大數(shù)據(jù)時(shí)代,數(shù)據(jù)資產(chǎn)的價(jià)值,是通過機(jī)器學(xué)習(xí)建模預(yù)測的方式,在具體的業(yè)務(wù)場景中得到實(shí)現(xiàn)的,而業(yè)界的一個通識就是數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,模型和算法只是逼近這個上限而已,因此,在對一項(xiàng)數(shù)據(jù)資產(chǎn)的價(jià)值進(jìn)行量化評估時(shí),就不能僅僅從原始維度的層面去評估,還應(yīng)包括特征工程和算法實(shí)現(xiàn)這兩個層面的量化評估,換句話說,當(dāng)我們對一項(xiàng)數(shù)據(jù)資產(chǎn)的價(jià)值進(jìn)行量化評估時(shí),需要區(qū)分?jǐn)?shù)據(jù)資產(chǎn)的3個基本形態(tài):(1)原始維度;(2)特征工程成果;(3)算法實(shí)現(xiàn)成果。
理論上,數(shù)據(jù)資產(chǎn)的原始維度形態(tài)決定了數(shù)據(jù)資產(chǎn)效用和價(jià)值的上限,而特征工程和算法實(shí)現(xiàn)的作用和價(jià)值是通過機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的價(jià)值,并逼近這個價(jià)值上限。
這3個基本形態(tài)的區(qū)分,不僅對數(shù)據(jù)資產(chǎn)的交易和定價(jià)有著更加清晰的邊界意義,而且對該項(xiàng)數(shù)據(jù)資產(chǎn)的增值開發(fā),以及對利益相關(guān)方的利益分配,也有著更加清晰的邊界意義,因?yàn)檫@3個基本形態(tài),在現(xiàn)實(shí)中,很可能分屬于不同的利益方,并且可以單獨(dú)交易,也可以組合交易,可以單獨(dú)定價(jià),也可以組合定價(jià)。
數(shù)據(jù)資產(chǎn)的時(shí)空形態(tài),是指數(shù)據(jù)所在的時(shí)間窗口范圍、空間范圍以及數(shù)據(jù)的時(shí)空粒度,電力數(shù)據(jù)資產(chǎn)就具備很強(qiáng)的時(shí)空形態(tài)特性,例如電力生產(chǎn)、傳輸和經(jīng)營數(shù)據(jù)可以按年度、季度、月度分片,也可以按地區(qū)分片。
由于歷史原因,在電力數(shù)據(jù)資產(chǎn)中,同一類數(shù)據(jù)資產(chǎn)在不同的時(shí)空范圍內(nèi),其維度形態(tài)和質(zhì)量形態(tài)也有區(qū)別,例如有些范圍內(nèi)的數(shù)據(jù)維度不夠豐富或有缺失,或數(shù)據(jù)質(zhì)量達(dá)不到機(jī)器學(xué)習(xí)建模所要求的標(biāo)準(zhǔn),這些都會影響對數(shù)據(jù)資產(chǎn)價(jià)值的量化評估。這也意味著,在梳理用于機(jī)器學(xué)習(xí)建模的電力數(shù)據(jù)資產(chǎn)時(shí),需要先行按維度標(biāo)準(zhǔn)和質(zhì)量標(biāo)準(zhǔn)對不同時(shí)空范圍的數(shù)據(jù)資產(chǎn)進(jìn)行分級,使其成為價(jià)值量化評估的一個判斷前提或依據(jù)。
假設(shè)某項(xiàng)數(shù)據(jù)資產(chǎn)的形態(tài)和所針對的業(yè)務(wù)場景已經(jīng)確定,例如,在某類大型設(shè)備檢修場景中,原始維度數(shù)據(jù)集由某時(shí)空范圍內(nèi)的設(shè)備基礎(chǔ)數(shù)據(jù)、運(yùn)行監(jiān)測數(shù)據(jù)、停工檢修數(shù)據(jù)(含檢修成本和檢修停工損失數(shù)據(jù))、故障損失數(shù)據(jù)組成,那么可以采用以下方式對其進(jìn)行價(jià)值的量化評估:
(1)定義與業(yè)務(wù)場景對應(yīng)的價(jià)值評估指標(biāo),此例中可定義為:價(jià)值量化評估指標(biāo)S=故障損失總值+(檢修成本總值+檢修停工損失總值)。
(2)將原始維度數(shù)據(jù)集分割為訓(xùn)練集和驗(yàn)證集,以設(shè)備需要在哪個時(shí)間點(diǎn)進(jìn)行停工檢修為變量,選擇適用的一個標(biāo)準(zhǔn)算法進(jìn)行建模。
(3)建模完畢,在驗(yàn)證集中計(jì)算建模前的S值S(0)和建模后的S值S(1),則可得到原始維度形態(tài)的數(shù)據(jù)資產(chǎn)所產(chǎn)生的經(jīng)濟(jì)價(jià)值為:Y(1)=S(0)-S(1)。
(4)根據(jù)場景業(yè)務(wù)和數(shù)據(jù)特點(diǎn),引入特征工程,在特征工程成果基礎(chǔ)上,繼續(xù)選擇第2步中所用的標(biāo)準(zhǔn)算法進(jìn)行建模。
(5)建模完畢,在驗(yàn)證集中計(jì)算建模后的S值S(2),則可得到提升到特征工程形態(tài)的數(shù)據(jù)資產(chǎn)所產(chǎn)生的經(jīng)濟(jì)價(jià)值為:Y(2)=S(0)-S(2),而特征工程所提升的經(jīng)濟(jì)價(jià)值為:Y(1)↗(2)=Y(2)-Y(1)。
(6)在特征工程成果基礎(chǔ)上,設(shè)計(jì)新的算法或直接在建模平臺上優(yōu)化算法,再次建模。
(7)建模完畢,在驗(yàn)證集中計(jì)算算法改進(jìn)后的S值S(3),則可得到提升到算法改進(jìn)后的數(shù)據(jù)資產(chǎn)所產(chǎn)生的經(jīng)濟(jì)價(jià)值為:Y(3)=S(0)-S(3)。
而算法改進(jìn)所提升的經(jīng)濟(jì)價(jià)值為:Y(2)↗(3)=Y(3)-Y(2)。
在具體實(shí)踐中,4-7步可以重復(fù)進(jìn)行,直到得到理想的結(jié)果。
在其他類型的業(yè)務(wù)場景中,我們同樣可以用類似的方法得到 Y(1),Y(2),Y(3),Y(1)↗(2),Y(2)↗(3)這一組值,并以此來量化評估不同形態(tài)的數(shù)據(jù)資產(chǎn)價(jià)值。
如果需要,對同一類或同一項(xiàng)數(shù)據(jù)資產(chǎn),因其內(nèi)部的時(shí)空形態(tài)、維度形態(tài)和質(zhì)量形態(tài)的分布不均導(dǎo)致不同范圍數(shù)據(jù)集的價(jià)值區(qū)別,也可以通過上述方法分別進(jìn)行量化評估,并進(jìn)行對比。例如,針對同一個業(yè)務(wù)場景,有兩個數(shù)據(jù)集A和B,我們可以計(jì)算出以下量化評估值進(jìn)行比對:
Y(1)Avs Y(1)B
Y(2)Avs Y(2)B
Y(3)Avs Y(3)B
在某些業(yè)務(wù)場景中,因條件所限,數(shù)據(jù)資產(chǎn)價(jià)值的量化評估指標(biāo)可能無法以金額方式實(shí)現(xiàn),則可以采用機(jī)器學(xué)習(xí)算法的標(biāo)準(zhǔn)評價(jià)指標(biāo)來作為替代或參考,例如采用AUC值或KS值作為評價(jià)指標(biāo),在條件具備時(shí)再換算為金額。
數(shù)據(jù)資產(chǎn)價(jià)值的量化評估為數(shù)據(jù)資產(chǎn)的對外交易和定價(jià)帶來了便利,基于前文描述的價(jià)值量化評估模式,數(shù)據(jù)資產(chǎn)可以采取前述三個形態(tài)單獨(dú)或組合進(jìn)行交易。
僅僅擁有數(shù)據(jù)資產(chǎn)的原始維度形態(tài),往往只能得到最低的估值,僅僅售賣原始維度形態(tài)的數(shù)據(jù)資產(chǎn),往往只能擁有最低的交易報(bào)價(jià)話語權(quán),并且只能得到最低的價(jià)值回報(bào),還面臨著數(shù)據(jù)泄密的商業(yè)風(fēng)險(xiǎn)。因此,擁有原始維度形態(tài)數(shù)據(jù)資產(chǎn)的企業(yè),一定要重視數(shù)據(jù)資產(chǎn)的增值開發(fā),主動將數(shù)據(jù)資產(chǎn)形態(tài)提升到特征工程或算法實(shí)現(xiàn)這兩個高級的、高價(jià)值的形態(tài)。
對數(shù)據(jù)資產(chǎn)擁有者來說,最理想的交易方式是交付模型,而不是交付原始維度形態(tài)的數(shù)據(jù),因?yàn)槟P筒粌H包含了原始維度形態(tài)的數(shù)據(jù)資產(chǎn)價(jià)值,還包含了特征工程和算法改進(jìn)所提升的經(jīng)濟(jì)價(jià)值,使得數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)價(jià)值最大化。