基礎(chǔ)設施是為社會生產(chǎn)和居民生活提供公共服務的物質(zhì)工程設施,是保證社會經(jīng)濟活動正常進行的根本性物質(zhì)基礎(chǔ)。基礎(chǔ)設施作為產(chǎn)業(yè)導入與城市開發(fā)的基本前提,可以為企業(yè)生產(chǎn)和社會發(fā)展創(chuàng)造良好的外部條件、產(chǎn)生可觀的外溢效應。一方面帶動當?shù)毓I(yè)、零售業(yè)、旅游業(yè)等產(chǎn)業(yè)投資,持續(xù)性提高生產(chǎn)效率和產(chǎn)出水平,助推產(chǎn)業(yè)邁向中高端水平。另一方面完善民生領(lǐng)域公共服務設施,有效改善當?shù)鼐用裆钏?,提升城?zhèn)化質(zhì)量?;椖客顿Y是我國提高全要素生產(chǎn)率、實現(xiàn)高質(zhì)量發(fā)展的必由道路。
以大數(shù)據(jù)為基礎(chǔ),結(jié)合基建項目投資市場的特征,從基建項目業(yè)主(政府、相關(guān)行業(yè)主管部門或代表政府行使建設單位職責的城投公司)、基建項目社會投資人(基建投資類央國企)、基建項目實施主體(勘察設計、施工單位等)三個角度對影響基礎(chǔ)設施項目的因素進行分析,可以看出他們之間的合作關(guān)系是十分必要且具有發(fā)展前景。對基建行業(yè)中不同階段、不同年限性項目存在差異化趨勢并有針對性地提供服務,能夠有效降低成本費用支出和提高效益水平。
基建項目投資市場趨勢預測方法
數(shù)據(jù)挖掘的對象是海量的歷史數(shù)據(jù),這些數(shù)據(jù)主要來源于相關(guān)的官方數(shù)據(jù)、行業(yè)報告、媒體報道等。大數(shù)據(jù)挖掘的主要任務是從這些海量數(shù)據(jù)中提取出對投資市場趨勢分析有用的信息,并通過相應的統(tǒng)計方法和技術(shù)對信息進行分析和挖掘,從中發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的關(guān)聯(lián)信息,并對這些信息進行有效整合和應用。數(shù)據(jù)挖掘可以有效地提高決策支持系統(tǒng)的效率和質(zhì)量,使得企業(yè)能夠更好地把握投資市場的變化趨勢,并做出更加準確有效的投資決策。
在數(shù)據(jù)挖掘過程中,主要采用機器學習、統(tǒng)計學、知識發(fā)現(xiàn)等技術(shù)。其中,機器學習是當前主流的數(shù)據(jù)挖掘方法。在企業(yè)內(nèi)部數(shù)據(jù)庫中挖掘出項目信息,針對項目信息的挖掘,可以從項目立項、融資、招標、合同等階段進行,在這一階段主要是利用關(guān)系型數(shù)據(jù)庫系統(tǒng)來進行數(shù)據(jù)分析。關(guān)系型數(shù)據(jù)庫系統(tǒng)主要分為MongoDB和Spark兩種。MongoDB是一種分布式數(shù)據(jù)庫,可以用來存儲各種類型的數(shù)據(jù);Spark是一種分布式計算框架,它可以在一個內(nèi)存中進行處理,在多個計算機之間進行數(shù)據(jù)交換。通過這兩種框架的組合使用,可以大大提高數(shù)據(jù)分析和處理的效率。
基建項目投資市場趨勢預測的應用
數(shù)據(jù)倉庫是一個收集和組織數(shù)據(jù)的結(jié)構(gòu),數(shù)據(jù)倉庫中存儲的是在業(yè)務流程中產(chǎn)生的具有一定結(jié)構(gòu)、有組織的、可檢索的數(shù)據(jù)。通常將其描述為:存儲在數(shù)據(jù)庫中的所有數(shù)據(jù);按時間順序排列的記錄;按主題劃分的數(shù)據(jù)集合;有組織地使用數(shù)據(jù)庫來存取數(shù)據(jù)。此外針對傳統(tǒng)機器學習方法的缺陷,提出了一種基于貝葉斯網(wǎng)絡的時間序列數(shù)據(jù)挖掘算法,在該算法中,貝葉斯網(wǎng)絡通過節(jié)點和邊的傳遞來計算節(jié)點與節(jié)點之間的關(guān)系,用來表達個體與個體之間的關(guān)系。模型中,通過設計兩個特征來描述不同節(jié)點的不同屬性,根據(jù)模型得出不同的特征值,從而得到與時間序列數(shù)據(jù)相對應的概率。通過貝葉斯網(wǎng)絡可以將訓練集上每個數(shù)據(jù)點的概率值組合起來形成一個新的數(shù)據(jù)集,也就是一組樣本。利用這種方法,可以把數(shù)據(jù)集中每個點和對應數(shù)據(jù)點之間的關(guān)系表示出來,從而根據(jù)貝葉斯網(wǎng)絡模型對時間序列數(shù)據(jù)進行建模。
從投資數(shù)據(jù)中提取的輿情分析與監(jiān)測,其目的是通過對社交媒體平臺上與基建投資相關(guān)的評論進行分析,來識別市場情緒。通過分析基建投資的主要社交媒體平臺,并對相關(guān)新聞進行文本挖掘,可以挖掘出關(guān)于基建投資的正面評論和負面評論。對于負面評論,可以通過輿情監(jiān)測來鑒別其來源并加以分析。
目前的輿情監(jiān)測平臺主要采用基于規(guī)則的文本挖掘技術(shù)進行分析,如百度、搜狗、360等。但這些平臺的文本挖掘技術(shù)主要采用機器學習,依賴于對已有文本的訓練。而在我國,自然語言處理技術(shù)仍處于初級階段,因此這種技術(shù)方法在實際應用中有一定的局限性。直接利用互聯(lián)網(wǎng)上已有的海量文本數(shù)據(jù)進行訓練,包括中文和英文。在訓練過程中,通過學習大量的樣本,可以有效地減少人工標注帶來的錯誤率和成本。
時間序列分析是一種統(tǒng)計學方法,其目的是確定數(shù)據(jù)的統(tǒng)計特性和統(tǒng)計特征,并將這些統(tǒng)計特征用來預測數(shù)據(jù)。通過時間序列分析,可以實現(xiàn)對數(shù)據(jù)的趨勢分析和預測。首先,將項目投資數(shù)據(jù)分為序列數(shù)據(jù)和波動率數(shù)據(jù)。序列數(shù)據(jù)是指項目投資歷史記錄,包括已完成的投資和未完成的投資。波動率數(shù)據(jù)是指過去一段時間內(nèi)發(fā)生的波動程度。序列數(shù)據(jù)可以通過對項目投資歷史記錄進行建模,得到歷史時間序列;波動率數(shù)據(jù)可以通過對波動率進行建模,得到未來波動率。
基建項目投資市場趨勢預測的挑戰(zhàn)
數(shù)據(jù)質(zhì)量指的是數(shù)據(jù)的準確性,主要有兩個方面:一是數(shù)據(jù)格式的正確性,比如文件是否包含了所有關(guān)鍵字、日期格式是否正確等;二是數(shù)據(jù)質(zhì)量,比如數(shù)據(jù)是否能完整地反映用戶在某一特定事件發(fā)生時的真實行為。用戶隱私則主要指用戶的個人信息是否被收集、使用,是否會被用于非法目的等。
基建項目投資市場大數(shù)據(jù)的主要來源是政府網(wǎng)站、企業(yè)網(wǎng)站、行業(yè)網(wǎng)站、新聞媒體等。如存在數(shù)據(jù)缺失,則無法進行預測分析。同時,基建項目投資市場大數(shù)據(jù)存在一定的隱私泄露問題,例如客戶信息和業(yè)務信息等,這些數(shù)據(jù)的泄露不僅會給客戶帶來不便,還會影響整個行業(yè)的發(fā)展。因此,對于基建項目投資市場大數(shù)據(jù)的采集與分析需嚴格遵守法律法規(guī),并充分考慮客戶隱私保護問題。
模型的準確性和穩(wěn)定性是決定模型預測結(jié)果好壞的重要因素。模型通過采用多指標評價法,對三個評價指標進行了權(quán)重的確定,并采用加權(quán)平均法確定各指標的權(quán)重,最后結(jié)合灰色系統(tǒng)理論、BP神經(jīng)網(wǎng)絡和遺傳算法對預測結(jié)果進行修正,從而保證了模型預測結(jié)果的準確性。在對市場走勢進行預測時,分別利用三種預測方法進行了對比,結(jié)果顯示三種方法均能較好地提高預測精度。其中采用BP神經(jīng)網(wǎng)絡模型預測精度最高,與其他兩種方法相比其優(yōu)勢在于可以有效地避免神經(jīng)網(wǎng)絡容易陷入局部極小值和收斂速度慢的問題,使整個網(wǎng)絡能夠收斂到全局最優(yōu)解。
目前,基建投資正處于高質(zhì)量發(fā)展階段。在結(jié)構(gòu)上,更精準、更體系化地聚焦經(jīng)濟、社會、生態(tài)、安全等效益和功能;在模式上,基于嚴防隱性債務的大前提,更靈活、更高效益地發(fā)揮財政資金、社會資本、城投企業(yè)的組合效能。
在大數(shù)據(jù)的背景下,對基建項目投資市場進行深入分析,提出基于大數(shù)據(jù)技術(shù)的基建項目的可行性策略。通過對比國內(nèi)外文獻和實際案例,發(fā)現(xiàn)我國基礎(chǔ)設施建設投資領(lǐng)域存在諸多問題需要解決與完善;同時目前國內(nèi)對于投資產(chǎn)品市場還存在一些誤區(qū),并沒有通過有效地整合資源、優(yōu)化配置、提高效率等方面來實現(xiàn)對項目風險控制能力的提升。
(作者單位:中國城鄉(xiāng)控股集團有限公司)