鐘維堅(jiān) 何 慶
(中國(guó)移動(dòng)信息技術(shù)有限公司,廣東 廣州 510640)
隨著人類對(duì)大自然探索的深入和基礎(chǔ)學(xué)科理論工具的發(fā)展,基于電子信息發(fā)展而來(lái)的通信技術(shù)和超大規(guī)模計(jì)算機(jī)技術(shù),包括大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)等,成為全球技術(shù)發(fā)展戰(zhàn)略要地,體現(xiàn)各國(guó)經(jīng)濟(jì)生產(chǎn)力水平?!吨袊?guó)信通院云計(jì)算發(fā)展白皮書(2020年)》預(yù)測(cè),國(guó)內(nèi)私有云市場(chǎng)規(guī)模將從2018年的約525億到2023年的近1447億(圖1),相應(yīng)政策環(huán)境日趨完善。作為最早推出云計(jì)算平臺(tái)的運(yùn)營(yíng)商,中國(guó)移動(dòng)云計(jì)算應(yīng)用從互聯(lián)網(wǎng)行業(yè)向政務(wù)、金融、工業(yè)、醫(yī)療等傳統(tǒng)行業(yè)加速滲透。云計(jì)算技術(shù)的不斷發(fā)展成熟,促使大型軟件、工具和平臺(tái)快速迭代,系統(tǒng)復(fù)雜度不斷提升,相應(yīng)地建設(shè)成本也日益提升,為了降低成本,搭建安全、敏捷、效率最優(yōu)的系統(tǒng),高集成度的開(kāi)放平臺(tái)日益受到青睞,基于資源分層精細(xì)化管控、自由可自定義集成多個(gè)工具組件的PaaS平臺(tái),靈活支撐應(yīng)用快速開(kāi)發(fā)迭代成為主流。
在對(duì)云平臺(tái)的運(yùn)營(yíng)管理工作中,為確保對(duì)公司資源的有效利用,經(jīng)常需要分析平臺(tái)用戶價(jià)值,評(píng)估用戶申請(qǐng)資源的合理性。該方面常用的一類工作方式是直接查看用戶的資源利用率、資源占用等明細(xì)運(yùn)營(yíng)數(shù)據(jù),并憑經(jīng)驗(yàn)做出判決,該方式缺乏統(tǒng)一、直觀、科學(xué)的數(shù)據(jù)指標(biāo)對(duì)運(yùn)營(yíng)工作進(jìn)行指導(dǎo),影響工作效率。
其它針對(duì)云平臺(tái)用戶的分析方法,往往聚焦于用戶行為等方向,如胡曉祥(2014)基于云平臺(tái)設(shè)計(jì)了對(duì)海量網(wǎng)絡(luò)用戶行為數(shù)據(jù)進(jìn)行處理和分析的方法,重點(diǎn)解決海量網(wǎng)頁(yè)分類過(guò)濾時(shí)間代價(jià)高以及對(duì)用戶訪問(wèn)網(wǎng)頁(yè)內(nèi)容分析層次淺的問(wèn)題,達(dá)到了對(duì)海量網(wǎng)絡(luò)用戶行為數(shù)據(jù)分析的高效性要求[1];又如王電輕(2016)設(shè)計(jì)了一套涵蓋數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)計(jì)算、數(shù)據(jù)可視化的用戶行為分析系統(tǒng),提取用戶行為特征對(duì)策略管控和智能服務(wù)以及推動(dòng)未來(lái)智慧協(xié)同網(wǎng)絡(luò)發(fā)展[2]。這些方法均不能解決分析企業(yè)云用戶價(jià)值的問(wèn)題。
圖1 國(guó)內(nèi)私有云市場(chǎng)規(guī)模及增速
另一方面,在針對(duì)用戶類對(duì)象的分析方法,往往只采用有監(jiān)督的方法。如王慶娟等(2018)對(duì)用戶進(jìn)行特征分析,從基礎(chǔ)信息、交費(fèi)行為、用電特征三大維度出發(fā),提煉出多個(gè)影響出租房客戶分析的指標(biāo)作為預(yù)測(cè)指標(biāo)集,通過(guò)C5.0決策樹(shù)算法構(gòu)建出租房用戶預(yù)測(cè)模型[3]。其缺點(diǎn)是無(wú)法很好地處理連續(xù)型的特征,容易過(guò)擬合,需要人為剪枝,且會(huì)忽略特征之間的相關(guān)性。以上缺點(diǎn)將會(huì)導(dǎo)致用戶分析系統(tǒng)無(wú)法支撐大規(guī)模、多類型用戶的分析。
綜上所述,針對(duì)大規(guī)模、多租戶類別、數(shù)據(jù)多樣的海量租戶入駐前分析系統(tǒng),上述方法無(wú)法提供全面、有效的租戶入駐前分析方法與系統(tǒng)。因此,本文提出一種基于主客觀分析方法相結(jié)合的用戶價(jià)值分析方法。
綜合評(píng)價(jià)方法需要結(jié)合多因素和指標(biāo),對(duì)待評(píng)價(jià)系統(tǒng)做出整體性、全局性判斷。綜合評(píng)價(jià)方法已應(yīng)用于人類生活的各個(gè)領(lǐng)域,若待評(píng)價(jià)對(duì)象x因素個(gè)數(shù)為p,x={x1,x2,…,xp},w表示權(quán)重,其常用方法如下:
(1)區(qū)間評(píng)分法:區(qū)間評(píng)分法通過(guò)將各個(gè)指標(biāo)轉(zhuǎn)化為具體的分值后進(jìn)行匯總的方式,對(duì)事物進(jìn)行評(píng)價(jià)[4]。其第一步是劃分等級(jí),然后將指標(biāo)按照劃分標(biāo)準(zhǔn)進(jìn)行打分,再基于確定好的指標(biāo)權(quán)重,進(jìn)行線性加權(quán)求和,得到綜合得分。這種方法的缺點(diǎn)是對(duì)評(píng)價(jià)對(duì)象的區(qū)分程度不足。
(2)綜合指數(shù)法:實(shí)際值與標(biāo)準(zhǔn)值進(jìn)行對(duì)比后再使用線性綜合匯總得到綜合評(píng)分,該方法缺點(diǎn)是存在線性替代的現(xiàn)象[5]。若x0為待評(píng)價(jià)事務(wù)因素的均值,則綜合指數(shù)法評(píng)分Z為:
(3)秩和比評(píng)價(jià)方法:秩和比評(píng)價(jià)方法對(duì)各個(gè)指標(biāo)進(jìn)行處理,獲得各指標(biāo)對(duì)應(yīng)的秩r,然后對(duì)秩進(jìn)行加權(quán)綜合處理,進(jìn)行綜合評(píng)價(jià),其缺點(diǎn)是當(dāng)數(shù)據(jù)量較大時(shí),成本較高[6]。秩和比計(jì)算公式如下:
(4)功效系數(shù)法:功效系數(shù)法對(duì)規(guī)格化后,對(duì)參數(shù)的靈活設(shè)置,通過(guò)線性綜合法或幾何綜合法,計(jì)算功效系數(shù)的綜合評(píng)估值[7]。
(5)模糊綜合評(píng)價(jià)法:模糊綜合評(píng)價(jià)法是一種基于模糊數(shù)學(xué)的綜合評(píng)價(jià)方法[8]。該綜合評(píng)價(jià)法根據(jù)模糊數(shù)學(xué)的隸屬度理論把定性評(píng)價(jià)轉(zhuǎn)化為定量評(píng)價(jià),即用模糊數(shù)學(xué)對(duì)受到多種因素制約的事物或?qū)ο笞鞒鲆粋€(gè)總體的評(píng)價(jià)。它具有結(jié)果清晰、系統(tǒng)性強(qiáng)的特點(diǎn),能較好地解決模糊的、難以量化的問(wèn)題,適合各種非確定性問(wèn)題的解決。
給定n個(gè)用戶X={xi},i=1,2,...,n,其中xi代表第i個(gè)用戶。每個(gè)用戶xi在云平臺(tái)上的特征數(shù)據(jù)用表示。本文的目的是設(shè)計(jì)一個(gè)滿足私有云平臺(tái)評(píng)估用戶價(jià)值的算法。
文中常用的符號(hào)以及說(shuō)明見(jiàn)表1。
表1 符號(hào)及說(shuō)明
本文提出一種云平臺(tái)多用戶價(jià)值評(píng)估方法,方法包括對(duì)用戶特征的采集處理、建立專家評(píng)分模型、建立客觀評(píng)分模型三部分。
特征處理需要確定采集用戶運(yùn)營(yíng)特征的種類、范圍,并通過(guò)特征工程對(duì)特征進(jìn)行處理和轉(zhuǎn)換,具體步驟如下:
步驟1 特征處理需要確定采集用戶運(yùn)營(yíng)特征的種類、范圍。本方案基于用戶資源占用、資源利用、價(jià)值和意義三方面對(duì)總計(jì)40維特征進(jìn)行采集,并將這40維特征定義為一級(jí)特征,具體如表2。
步驟2 轉(zhuǎn)換資源占用方面特征為二級(jí)特征:
步驟2.1 依據(jù)其他公司數(shù)據(jù)規(guī)模和建設(shè)各類資源規(guī)模數(shù)據(jù),建立回歸預(yù)測(cè)模型,從而獲得二級(jí)特征體現(xiàn)用戶數(shù)據(jù)規(guī)模與所申請(qǐng)資源規(guī)模對(duì)等程度:
步驟2.1.1 收集移動(dòng)31個(gè)省公司數(shù)據(jù)規(guī)模和建設(shè)各類資源規(guī)模數(shù)據(jù),數(shù)據(jù)包含特征見(jiàn)表3。
步驟2.1.2 構(gòu)建訓(xùn)練集X,則:
步驟2.1.3 構(gòu)建訓(xùn)練標(biāo)簽Y,則:
步驟2.1.4 基于X,Y構(gòu)建線性回歸模型Modelf(X,Y)
步驟2.1.5 對(duì)待評(píng)估用戶x1,使用已構(gòu)建的回歸模型預(yù)測(cè)其數(shù)據(jù)規(guī)模:
步驟2.1.6 評(píng)估用戶實(shí)際數(shù)據(jù)量與用戶申請(qǐng)資源預(yù)計(jì)能處理數(shù)據(jù)規(guī)模進(jìn)行比較,從而確定二級(jí)特征:
表2 一級(jí)特征及說(shuō)明
表3 31個(gè)省公司的數(shù)據(jù)特征
步驟3轉(zhuǎn)換資源利用方面特征為二級(jí)特征:
表4 二級(jí)特征及說(shuō)明
步驟3.4定義CPU、存儲(chǔ)、內(nèi)存單價(jià)為cpu_price=1000,volumn_price=150,raw_price=70,從而確定用戶分別表示存儲(chǔ)、CPU、內(nèi)存利用率產(chǎn)生的資源浪費(fèi)成本:
步驟4轉(zhuǎn)換用戶價(jià)值和意義方面特征為二級(jí)特征:
步驟4.1確定用戶占用資源總價(jià)值cost:
步驟5以上特征處理方法定義為Ftransform,則40維用戶特征通過(guò)Ftransform方法處理后,輸出27維二級(jí)特征,具體見(jiàn)表4,其中OD表示特征最優(yōu)方向,若OD=1,該特征值越大,用戶評(píng)價(jià)越優(yōu),OD=-1時(shí)相反。
3.2.1 基于模糊評(píng)估和SVM的專家評(píng)估方法
專家評(píng)估方法結(jié)合模糊綜合評(píng)估方法和SVM支持向量機(jī),首先利用模糊綜合評(píng)估方法在專家打分的基礎(chǔ)上得到方案定義的五個(gè)重要用戶價(jià)值維度的評(píng)分,以及模糊綜合得分,再使用SVM訓(xùn)練學(xué)習(xí)專家評(píng)分機(jī)制,實(shí)現(xiàn)自動(dòng)獲得五個(gè)維度評(píng)分以及模糊綜合評(píng)分的能力,具體步驟如下:
算法1專家評(píng)估方法
輸入:用戶數(shù)據(jù)集X={xi},i=1,2,...,n,xi包含特征
輸出:用戶評(píng)分:es
步驟1 確定評(píng)價(jià)因素Fset={f1,f2,f3,f4,f5}={資源利用、資源合理性、用戶經(jīng)濟(jì)價(jià)值、用戶科技創(chuàng)新價(jià)值、政治和管理意義}
步驟2 確定因素評(píng)價(jià)集FES={〖fes〗_1,〖fes〗_2,..,〖fes〗_5}={a,b,c,d,e},以及對(duì)應(yīng)分?jǐn)?shù)as={95,85,70,50,20}
步驟3 使用層次分析法,確定評(píng)價(jià)因素權(quán)重
步驟4 運(yùn)營(yíng)工作相關(guān)專家對(duì)用戶各維度評(píng)分,專家數(shù)量為rn,則評(píng)分為err,l∈FES,表示第r位專家對(duì)該用戶第l項(xiàng)因素的評(píng)分,則評(píng)分集為ERr,l為:
步驟5 計(jì)算專家對(duì)該用戶各評(píng)價(jià)因素評(píng)分類型占比:
確定模糊綜合判斷矩陣SR:
步驟6 確定用戶各因素評(píng)分ds:
步驟7 進(jìn)行模糊綜合評(píng)判,確定用戶屬于各類評(píng)分的隸屬度,以及用戶最終模糊評(píng)分fscore:
步驟8 基于SVM算法訓(xùn)練回歸模型,學(xué)習(xí)專家評(píng)分機(jī)制:
用戶數(shù)據(jù)X,經(jīng)過(guò)本文3.1的特征處理并歸一化后得到X',根據(jù)5個(gè)維度的評(píng)分結(jié)果,訓(xùn)練集歸一化后分別訓(xùn)練5個(gè)回歸模型 modeld(X',Y),d=1,2,...,5
獲取回歸模型輸出
將Yd拼接到原有用戶數(shù)據(jù)集X',得到X''
訓(xùn)練模糊評(píng)分回歸模型model fuzzy(X',fscore)
步驟9 當(dāng)需要對(duì)用戶x確定其專家評(píng)分時(shí):
經(jīng)過(guò)特征處理并歸一化后得到x'后,輸入model d,d=1,2,...,5得到該用戶在Fset上5個(gè)因素上的評(píng)分
輸出用戶專家評(píng)估分?jǐn)?shù)es=model fuzzy(x')
3.2.2 客觀評(píng)估方法設(shè)計(jì)
客觀評(píng)估方法首先使用本文3.1所述特征處理方法對(duì)用戶特征數(shù)據(jù)進(jìn)行處理,再使用“標(biāo)準(zhǔn)差權(quán)術(shù)法”對(duì)用戶各特征指標(biāo)進(jìn)行賦權(quán)后,采用“TOPSIS理想解法”,對(duì)用戶價(jià)值分?jǐn)?shù)進(jìn)行評(píng)估,算法具體步驟如下:
算法1客觀評(píng)估方法
輸入:用戶數(shù)據(jù)集X={xi},i=1,2,...,n,xi包含特征
輸出:用戶評(píng)分:osi
步驟1 使用3.1所述特征處理方法對(duì)用戶特征數(shù)據(jù)進(jìn)行處理:X'=Ftransform(X),處理后X'包含特征
步驟2 利用標(biāo)準(zhǔn)差權(quán)術(shù)法對(duì)各特征進(jìn)行賦權(quán):
求特征矩陣X'各特征的均值:
求每個(gè)特征的權(quán)重:
步驟3 計(jì)算得到加權(quán)之后的特征矩陣:
步驟4 尋找最優(yōu)最劣解,找到每一個(gè)特征的最優(yōu)記為,找到每一特征最差記為,最優(yōu)解為F+,最劣解為F-,則:
步驟5 計(jì)算各用戶與最優(yōu)最劣向量的歐式距離:
步驟6 計(jì)算用戶的相對(duì)貼近程度:
3.2.3 整體方法說(shuō)明
用戶價(jià)值評(píng)估方法結(jié)合用戶的生命周期,從用戶本身的資源占用、數(shù)據(jù)占用、利用率等多維度進(jìn)行評(píng)估,建立評(píng)估模型,輸出用戶價(jià)值分?jǐn)?shù)。
其中專家評(píng)分方法利用了模糊綜合評(píng)價(jià)方法,在專家對(duì)各用戶指標(biāo)進(jìn)行打分后,確定各個(gè)指標(biāo)的權(quán)重,建立模糊綜合判斷矩陣,計(jì)算得出模糊評(píng)價(jià),因模糊綜合評(píng)價(jià)方法需要專家對(duì)用戶指標(biāo)進(jìn)行打分,為在后續(xù)工作中省略該步驟,計(jì)劃用SVM分類算法對(duì)模糊評(píng)價(jià)結(jié)果進(jìn)行訓(xùn)練,學(xué)習(xí)專家打分規(guī)則知識(shí)。而客觀評(píng)分模型則是采用標(biāo)準(zhǔn)差系數(shù)權(quán)重法對(duì)用戶各指標(biāo)進(jìn)行權(quán)重設(shè)定后,使用TOPSIS理想解法,對(duì)用戶價(jià)值進(jìn)行客觀評(píng)分。
定義專家評(píng)分方法輸出用戶分?jǐn)?shù)esi,客觀評(píng)分方法輸出分?jǐn)?shù)osi,則用戶整體價(jià)值為:
方法整體流程如圖2。
圖2 整體流程圖示
本文基于移動(dòng)私有云用戶數(shù)據(jù)對(duì)所提出算法進(jìn)行測(cè)試。用戶特征數(shù)據(jù)為標(biāo)準(zhǔn)40維云平臺(tái)運(yùn)營(yíng)特征,經(jīng)過(guò)特征處理后獲取27位二級(jí)特征。之后分別利用專家評(píng)估模型和客觀評(píng)估模型,獲得加權(quán)后的總評(píng)分,整體流程如圖3。
經(jīng)過(guò)模型分析,同時(shí)可獲得各類型特征對(duì)評(píng)分結(jié)果重要性權(quán)重,如圖4。
隨著越來(lái)越多的用戶入駐云平臺(tái),在對(duì)云平臺(tái)的運(yùn)營(yíng)管理工作中,為確保對(duì)公司資源的有效利用,經(jīng)常需要分析平臺(tái)用戶價(jià)值,評(píng)估用戶申請(qǐng)資源的合理性。該方面常用的一類工作方式是直接查看用戶的資源利用率、資源占用等明細(xì)運(yùn)營(yíng)數(shù)據(jù),并憑經(jīng)驗(yàn)做出判決,該方式缺乏統(tǒng)一、直觀、科學(xué)的數(shù)據(jù)指標(biāo)對(duì)運(yùn)營(yíng)工作進(jìn)行指導(dǎo),影響工作效率。
本文定義了云平臺(tái)用戶價(jià)值分析方法,方法使用了特殊的特征處理方式獲得租戶二級(jí)特征,體現(xiàn)租戶在租戶資源利用、資源合理性、租戶經(jīng)濟(jì)價(jià)值、租戶科技創(chuàng)新價(jià)值、政治和管理意義方面的特性,并從專家評(píng)分模型、客觀評(píng)分模型兩個(gè)方面對(duì)租戶建立評(píng)估方法,綜合輸出用戶價(jià)值評(píng)分。
本文提出的云平臺(tái)用戶價(jià)值方法結(jié)合客觀評(píng)分模型和專家評(píng)分模型,分析結(jié)果可靠、穩(wěn)定,改變了以往評(píng)估方法過(guò)于主觀、缺乏適用性的問(wèn)題,能較好地適用于云平臺(tái)用戶分析工作。
圖3 測(cè)試流程圖
圖4 各類型特征對(duì)評(píng)分結(jié)果重要性權(quán)重