褚玉飛
(常州法商委員會,江蘇 常州 213000)
TM 公司現(xiàn)在面臨市場同質化競爭激烈的情況下市場占有率和利潤大幅度下降,公司計劃在現(xiàn)有產品結構上啟動一個新項目——投放一種新型電動共享汽車來提高競爭力。項目風險管理結構是根據(jù)PMP 項目風險管理體系來建立。通過前期的市場調研,計劃在城市CBD、工業(yè)區(qū)和市郊這三個區(qū)域中選擇最適合的一個最優(yōu)區(qū)域作為一期項目投放區(qū)域,待其產生良好的效果后依次投放其他兩個區(qū)域,以便形成良好的項目循環(huán)投放效果。
TM 公司在項目啟動風險管理階段通過專家討論識別出用戶的年齡和收入是新型電動共享汽車項目能否取得成功的關鍵風險因素。在這兩個因素上TM 公司又開展德爾菲技術和引導技術分析得出新型共享電動汽車的一期項目在工業(yè)區(qū)投放可能好于CBD 和市郊。為更好的識別該項目的風險,TM 公司希望通過公司以往項目形成的經驗數(shù)據(jù),通過聚類分析技術進行量化分析得出結論。據(jù)此TM 公司在以往的共享項目中收集了2 084 個用戶的收入和年齡數(shù)據(jù)進行分析,希望能找出這些數(shù)據(jù)背后的規(guī)律和現(xiàn)象來解決項目啟動階段的風險管理問題,減少損失,增大收益,技術路線如圖1所示。
圖1 技術路線圖
聚類數(shù)據(jù)處理首先考慮的是使用共享電動汽車人群的年齡和收入的變動風險,這兩個風險變量將影響共享電動汽車投放的區(qū)域選擇。據(jù)此,PMP 項目啟動風險管理的的屬性信息就是就人的年齡和收入。其次,如表1所示,從企業(yè)前期項目中提取使用過共享電動汽車客戶的年齡和收入信息,這些信息主要來自企業(yè)以往項目的過程資產。
表1 項目企業(yè)過程資產
根據(jù)項目目的需求對以上數(shù)據(jù)進行篩選,考慮的是性別和年齡的變動對項目啟動是否存在風險,所以提取該兩類數(shù)據(jù)變量進行聚類分析。但原始數(shù)據(jù)較為繁雜和瑣碎,也不是所有數(shù)據(jù)都存在內在聯(lián)系,如果在收集數(shù)據(jù)的過程中如存在非數(shù)字化數(shù)據(jù)就要對數(shù)據(jù)進行數(shù)字化變量處理。本文所選擇的聚類分析軟件是現(xiàn)行可靠的分析軟件Python,據(jù)此,在收集數(shù)據(jù)的過程中都將考慮數(shù)據(jù)是否能夠被Python 讀取而進行數(shù)據(jù)處理。
1.2.1 定義TM 公司在PMP 項目啟動風險管理的問題
目前共享電動汽車企業(yè)難以實現(xiàn)大規(guī)模投車的主要原因之一是處于對成本的焦慮——重資產運營。共享電動汽車采購單價和維護成本高,決定了對投放區(qū)域選擇必須是根據(jù)需求精準投放。如果TM 公司在項目啟動階段沒有經過完成的項目啟動風險管理分析,投放效果達不到既定的項目目標的話,那么同時屬于固定資產的共享電動汽車也會就折舊一項給企業(yè)帶來較大的支出,而如果沒有產生足夠的現(xiàn)金流量將會造成企業(yè)的經營形成惡性循環(huán),這樣的投放實際就是在制造損失。所以TM 公司在項目啟動階段就投放區(qū)域的考慮一定要結合項目自身的需求去挖掘市場潛力,而不是盲目投放,以量取勝的粗糙戰(zhàn)略。
首先考慮的是共享電動汽車使用人群的年齡對使用情況影響。通常理解上接收新鮮事物對年齡段較低的用戶接受起來較強,而年齡較高的用戶接受起來較弱,但針對共享電動汽車也是這樣情況?其次考慮的是共享電動汽車使用人群的收入對使用情況的影響。根據(jù)當前共享電動汽車的發(fā)展特點,投放區(qū)域的選擇主要集中在城市核心商圈、寫字樓等CBD 區(qū)域,而忽略市郊、工業(yè)區(qū)等人流量大,理論上收入一般的地方。但消費能力強代表著有自有車輛的可能性也較高,他們不一定會選擇共享電動汽車,所以對于使用共享汽車的需求是不是也并不會有那么高的需求。而生活在市郊或者偏離市中心較遠的工業(yè)區(qū)的人沒有自有車輛的可能性較高,是不是具有剛性的開車通勤需求?基于這樣的考慮TM 公司在項目啟動階段必須要對這樣的問題進行詳細、周密的研究,將年齡和收入的變化作為項目啟動階段的風險因素進行考慮,識別風險,進而制定相應的風險應對策略促使項目成功。
因此,在TM 公司項目啟動階段,需要盡快在企業(yè)內部過程資產的數(shù)據(jù)中精準預測新用戶增長未來對邊際利潤貢獻類型的趨勢,通過這種精細化的分析,可以幫助企業(yè)制定有效、全面的項目章程,在項目啟動過程中讓各方干系人明白項目的痛點和難點,從而提升項目目標實現(xiàn)的最大可能性。
1.2.2 TM 公司在PMP 項目啟動風險管理過程中數(shù)據(jù)收集和清洗
在數(shù)據(jù)收集和清洗階段,首先要考慮聚類分析所需數(shù)據(jù)的質量和數(shù)據(jù)對象處理描述數(shù)據(jù)的問題。關于數(shù)據(jù)質量,數(shù)據(jù)采集的過程是根據(jù)項目整體的需求進行采集的,所得數(shù)據(jù)源多種多樣。但是要盡量避免收集過程中的異常數(shù)據(jù)的產生,這些異常數(shù)據(jù)如果較多將會影響聚類分析的效果。雖然聚類分析可以通過離群點將這些異常的數(shù)據(jù)去除,但是異常數(shù)據(jù)本身也有分析的價值,它所代表的異常風險也是項目必須考慮的。但是異常是數(shù)據(jù)本身性質的改變,所以我們要考慮高質量的數(shù)據(jù)是去除自身錯誤的數(shù)據(jù)。關于數(shù)據(jù)對象處理描述數(shù)據(jù)的問題,TM 公司項目啟動風險管理提出描述數(shù)據(jù)的問題,所以本文定義數(shù)據(jù)屬性是年齡和收入。TM 公司在企業(yè)過程資產中提取2 084 條數(shù)據(jù),需要對數(shù)據(jù)質量進行一次校對,所以要對數(shù)據(jù)全面進行一次描述觀察,如果發(fā)現(xiàn)異常數(shù)據(jù)或者重復數(shù)據(jù)都要進行去除,這就是聚類分析的前提,對數(shù)據(jù)進行清洗整理的過程。去除異常數(shù)據(jù)這樣可以避免無效數(shù)據(jù)帶來的影響,也可以去除數(shù)據(jù)迭代分析中不必要的決策影響。如表2所示,在得到聚合的數(shù)據(jù)后,需要對數(shù)據(jù)進行一個宏觀的數(shù)據(jù)的描述觀察,觀察這些數(shù)據(jù)有無異常,并判定這些數(shù)據(jù)是自身錯誤的數(shù)據(jù)還是數(shù)據(jù)自身屬性的變化。
表2 數(shù)據(jù)描述
從表2我們可以對清洗后的數(shù)據(jù)可以得出結論:在對收集的2 084 個數(shù)據(jù)中進行初步的的評估我們可以發(fā)現(xiàn):收入(income)和年齡(age)的平均數(shù)、最大數(shù)和最小數(shù)、四分位數(shù)比較正常,并沒有出現(xiàn)數(shù)字異常過高或過小的情況;在最小數(shù)的收入(income)項目出現(xiàn)了零,說明有數(shù)值是空的,需要進行清洗。
在對數(shù)據(jù)進行一場清洗后,我們得到表3,在表中我們可以發(fā)現(xiàn)在最小數(shù)的收入(income)項目中的值不再為零,而是一個比較正常的數(shù)值。
表3 數(shù)據(jù)描述
Mean 78 774.604 127 39.048 944 Std 39 262.335 670 11.058 060 Min 53 127.000 000 18 25% 39.048 944 29.000 000 50% 73 232.000 000 38.500 000 75% 113 980.000 000 49.000 000 Max 179 294.000 000 63.000 000
聚類分析數(shù)據(jù)標準化階段。在數(shù)據(jù)評價體系中,數(shù)據(jù)類型、數(shù)據(jù)屬性和統(tǒng)一的量綱是首要考慮的問題。如果數(shù)據(jù)的這些屬性存在異常變化,分析數(shù)據(jù)自身的質量都不能保證,那么聚類的結果將也不能獲得保證,所以要對數(shù)據(jù)進行標準化的處理。數(shù)據(jù)標準化處理是聚類分析的前提,只有將數(shù)據(jù)統(tǒng)一類型,統(tǒng)一屬性,統(tǒng)一量綱,那么在其后的聚類分析上才能高效進行分析,得出的聚類分析結果也有較大的可靠性,也是對聚類分析的結果進行分析時可以排除數(shù)據(jù)自身質量造成的不必要的干擾。
其次在標準化過程中,假如出現(xiàn)某一數(shù)據(jù)集a 的數(shù)據(jù)數(shù)值都比較小,數(shù)據(jù)的范圍在0.1 到1 之間,我們可以看出這一數(shù)據(jù)集的數(shù)據(jù)變化很小。但是我們又發(fā)現(xiàn)另一數(shù)據(jù)集b 的數(shù)據(jù)值很大,數(shù)據(jù)的范圍都是1 到100 之間,我們可以看出這一數(shù)據(jù)集的數(shù)據(jù)變化很大。據(jù)此,在聚類分析計算距離的時候,數(shù)據(jù)集b 的作用就比數(shù)據(jù)集a 的作用要大,其聚類的結果的作用也大。本文選用的K-Means 聚類中選擇歐幾里德距離計算距離,數(shù)據(jù)集又出現(xiàn)了上面所述的情況,就一定要進行數(shù)據(jù)的標準化,即將數(shù)據(jù)按線性比例在特定的區(qū)間內變化。關于收入和年齡的標準化公式為:(收入-收入均值)/收入標準差;(年齡-年齡均值)/年齡標準差。表4呈現(xiàn)是數(shù)據(jù)標準化后的情形。
表4 收入和年齡標準
1.2.3 基于K-means 算法的聚類分析
在對聚類分析需求的數(shù)據(jù)進行清洗后在進行聚類分析之前,必須了解下列的數(shù)據(jù)的特性才能更好的進行聚類分析,更好的分析聚類結果。
首先是聚類分析的數(shù)據(jù)規(guī)模。數(shù)據(jù)樣本的規(guī)模越大,所得的聚類分析結果就會越趨近于數(shù)據(jù)背后的規(guī)律和現(xiàn)象,這也是一切數(shù)據(jù)分析的基礎。如果數(shù)據(jù)樣本不夠大,那么相對于樣本的分析的結果可能存在相似性。
其次是聚類分析需求數(shù)據(jù)的稀疏性。稀疏數(shù)據(jù)是指數(shù)據(jù)值通常是缺失或者是空值,這些稀疏數(shù)據(jù)雖然描述的數(shù)值不完成,但是其本身的數(shù)據(jù)類型和屬性是沒有問題的,依然可以通過數(shù)據(jù)挖掘后進行處理得出有效的結論。
最后是聚類分析需求數(shù)據(jù)的尺度屬性。數(shù)據(jù)的計量尺度有定序尺度、定類尺度、定比尺度和定距尺度,其中定類尺度和定序尺度是本文數(shù)據(jù)清洗中選用的方式,因為這兩種方式主要用于定量分析,其余的兩種方式主要用于定性分析。如年齡和收入,在數(shù)據(jù)實際的尺度計量中可能存在不同的尺度屬性。如果數(shù)據(jù)集中的數(shù)據(jù)存在數(shù)據(jù)尺度混淆,就將可能影響聚類分析的準確性,因為這也將影響簇內與簇之間的距離和相似性分析。
綜上所述,本文進行聚類分析考慮的是年齡和收入對項目啟動的影響,其中年齡用的是歲,收入用的元,在使用歐幾里得距離相似性的分析技術,則年齡數(shù)值因為范圍較小,所以對聚類的影響比較小,結果是在進行聚類分析中是將以數(shù)值范圍較大的收入作為聚類主要考慮的因素。因此我們必須考慮將數(shù)值標準化,來消除尺度不同造成的影響,其有效方式是數(shù)值減去均值,再除以標準差,每個數(shù)據(jù)屬性將進行標準化。
1.3.1 數(shù)據(jù)初步可視化
從圖2可以看出,在簇的外圍有一些異常的數(shù)值,這些數(shù)據(jù)遠離簇的質心,即遠離簇的整體,看上去極不協(xié)調,這就是離群點。正常情況如果這些數(shù)據(jù)是異常值就應當去除,不然將會影響聚類分析的效果,如果這些異常值是本身屬性的變化,可以考慮單獨分析這些異常值的背后原因,找出潛在的風險。比如分析項目資源的異常投入,我們就可以通過聚類把這些異常的點找出來,分析其背后形成的原因,而不是覆蓋在正常的項目資源需求中,所以在項目執(zhí)行過程中可以把離群值單獨作為一類風險來分析。
圖2 數(shù)據(jù)初步可視化
據(jù)此,我們在PMP 項目啟動階段的風險分析中,這些異常離群點對我們分析的作用不是特別大,只是個別數(shù)據(jù)本身有錯誤或者一些和普通數(shù)據(jù)相比的個別突出數(shù)據(jù),對PMP 項目啟動階段的風險分析并沒有什么價值,所以在剔除這些離群點后,進行如下的聚類分析:
(1)群體分成2 類進行分析結果如圖3所示。
圖3 群體分成2 類進行分析
(2)群體分成4 類進行分析結果如圖4所示。
圖4 群體分成4 類進行分析
(3)將群體分成5 類進行分析結果如圖5所示。
圖5 群體分成5 類進行分析
(4)將群體分成6 類進行分析結果如圖6所示。
圖6 群體分成6 類進行分析
1.3.2 聚類分析后確定最優(yōu)分類
在TM 公司本次共享電動汽車投放項目啟動風險識別聚類分析可以看出:根據(jù)圖3聚類雖然分為2 類,但在聚類的效果上明顯呈現(xiàn)出4 類的一個分布情況;因此如圖4所示將群體分成4 類進行聚類分析,簇的邊界比較清晰的呈現(xiàn)出4個分類;在考慮是否有最優(yōu)分類情況下,繼續(xù)迭代進行5 類和6 類的聚類分析,嘗試找出是否有最優(yōu)的分類,如圖5和6 所示,此兩種聚類形成的簇都是交替存在于是將群體分成4 類的簇當中。據(jù)此,將群體分成4 類進行分析是當前適合的聚類分布。
根據(jù)聚類分析最優(yōu)分類的聚類選擇,本次TM 公司選擇將群體分為4 類進行年齡和收入的數(shù)據(jù)分析如表5所示。從表5可以發(fā)現(xiàn)收入分為2 檔,1 和3 為一檔:0~8 萬元,0 和2 為一檔:8 萬~18 萬元,而這兩檔收入在使用共享汽車的頻次上并沒有帶來明顯的差異,說明收入并不是決定是否使用共享汽車的主要因素。
表5 收入
從表6可以發(fā)現(xiàn)年齡分為2 檔,0 和3 為一檔:18 歲~39歲中青年,1 和2 為一檔:40~60 歲中老年,從圖上看出共享汽車的使用者年齡并沒有明顯的差異,說明年齡也不是適合影響共享汽車使用的主要因素。
表6 年齡
從k-means 聚類分析進行共享電動汽車投放區(qū)域的聚類分析結論上看,我們并沒有發(fā)現(xiàn)年齡和收入是影響用戶使用共享汽車的決定因素。鑒于此,TM 在該項目管理是需要考慮別的因素對項目的影響。另一方面頁說明,在現(xiàn)今數(shù)據(jù)爆炸的時代,PM 項目管理的數(shù)據(jù)分析多維度和多方向的的迭代分析,因為數(shù)據(jù)和市場一直是動態(tài)的變化,只有精準定位影響項目啟動風險的數(shù)據(jù),才能減少和控制是PMP 項目啟動風險管理,也為PMP 項目啟動風險管理提供一種分析工具和方法。