喻芳宇,高勝哲,2
(1.大連海洋大學(xué)信息工程學(xué)院,遼寧 大連 116023;2.大連海洋大學(xué)設(shè)施漁業(yè)教育部重點實驗室,遼寧 大連 116023)
成分?jǐn)?shù)據(jù)[1]是指由各個組成部分(或成分)構(gòu)成的數(shù)據(jù)集合,可以通過一組和為1 的多個分量表達變量的各個部分所占的成分比例。無論是哪個領(lǐng)域,對成分?jǐn)?shù)據(jù)的準(zhǔn)確理解和分析都是獲取相關(guān)知識和進行決策的重要基礎(chǔ)。因此,成分?jǐn)?shù)據(jù)在現(xiàn)階段已經(jīng)受到廣泛關(guān)注。
早在1986年,J. Aitchison 就已經(jīng)提出邏輯正態(tài)分布理論和對數(shù)變換的計算方法[2];基于此,王惠文、劉強學(xué)者提出了球坐標(biāo)變換方法,通過球面投影的方法對成分?jǐn)?shù)據(jù)做非線性降維,從而得到與成分?jǐn)?shù)據(jù)自由度相吻合的向量數(shù)據(jù)[1];J. J. Egozcue等提出了等距對數(shù)比變換[3];張曉琴等進行了成分?jǐn)?shù)據(jù)組合預(yù)測研究[4];陶志富等將模糊時間序列分析與成分?jǐn)?shù)據(jù)時間序列預(yù)測相結(jié)合,提出一類融合模糊時間序列分析的成分?jǐn)?shù)據(jù)時間序列預(yù)測方法,在預(yù)測過程中對成分?jǐn)?shù)據(jù)不進行變換,通過求成分?jǐn)?shù)據(jù)信息熵進行模糊預(yù)測[5]。在成分?jǐn)?shù)據(jù)預(yù)測研究中,存在一類成分?jǐn)?shù)據(jù)——某個指標(biāo)取值的頻率分布序列[5-6]。本文以頻率分布序列為研究對象,采用灰色預(yù)測理論與最優(yōu)化方法相結(jié)合的預(yù)測方法,以待預(yù)測時刻的頻率分布的期望值與均值的預(yù)測值之間差異最小化為目標(biāo),引入歷史經(jīng)驗約束及待預(yù)測時刻的實際方向余弦與方向余弦預(yù)測值之間差異控制在較小范圍內(nèi)的約束,構(gòu)建二次規(guī)劃數(shù)學(xué)模型,對頻率分布結(jié)構(gòu)向量進行預(yù)測。
設(shè)狀態(tài)空間I={I1,I2,…,Im},變量X的頻率分布為:
式中fk為{X∈Ik}的頻率值。設(shè)變量X的歷史觀測數(shù)據(jù)為{xk(t)}(t= 1,2,…,T;k= 1,2,…,tk)。
設(shè)均值序列為:
定義變量Y,Y=yk,當(dāng)X∈Ik,k= 1,2,…,m。本文所討論問題的數(shù)學(xué)描述為,已知某指標(biāo)在第t時刻取值的頻率分布為:
為了解決對頻率分布序列預(yù)測問題,本文提出融合隨機統(tǒng)計規(guī)律性與優(yōu)化思想的成分?jǐn)?shù)據(jù)預(yù)測模型研究框架,主要包含三個階段:
階段1:對第1,2,…,T時刻的歷史觀測數(shù)據(jù)的均值序列進行建模,得到第T+1 時刻均值的預(yù)測值;
階段2:對第2,3,…,T時刻觀測數(shù)據(jù)的頻率分布與第1 時刻頻率分布之間方向余弦序列進行建模,得到第T+1 時刻方向余弦的預(yù)測值;
階段3:融合階段1 和階段2 所計算得到的第T+1 時刻的均值、方向余弦的預(yù)測值,構(gòu)建二次規(guī)劃數(shù)學(xué)模型,計算第T+1 時刻頻率分布結(jié)構(gòu)向量的預(yù)測值。
1)構(gòu)建基于灰色預(yù)測模型的均值預(yù)測模型對第1,2,…,T時刻的均值序列。
采用灰色模型GM(1,1)方法建立預(yù)測模型,預(yù)測第T+1 時刻的均值。
2)構(gòu)建基于灰色預(yù)測模型的方向余弦預(yù)測模型
計算第k=2,3,…,T時刻的頻率分布與第1 時刻的頻率分布之間方向余弦序列。
采用灰色模型GM(1,1)方法建立預(yù)測模型,預(yù)測第T+1 時刻的方向余弦值。
3)構(gòu)建基于信息融合的頻率分布結(jié)構(gòu)預(yù)測模型。
為了避免異常值出現(xiàn),在成分?jǐn)?shù)據(jù)約束條件的基礎(chǔ)上引入歷史經(jīng)驗的約束,以及待預(yù)測時刻的實際方向余弦與方向余弦預(yù)測值之間差異控制在較小范圍內(nèi)的約束,構(gòu)建頻率分布結(jié)構(gòu)預(yù)測數(shù)學(xué)模型。具體模型如下:
模型的性能需要依靠適合的評價指標(biāo)進行衡量[7]。本文預(yù)測模型的預(yù)測精度選用的是平均絕對誤差(MAE)、均方根誤差(RMSE)和方向余弦(DC),計算公式分別如下:
1)平均絕對誤差(MAE)
2)均方差誤差(RMSE)
3)方向余弦(DC)[8]
式中:xk(t)(k= 1,2,…,m;t= 1,2,…,T)是包含m個成分的成分?jǐn)?shù)據(jù)x(t)的第k個成分;為xk(t)的預(yù)測值,對應(yīng)預(yù)測成分?jǐn)?shù)據(jù)為x?(t)。
本文選用2013—2022 屆某專業(yè)學(xué)生的專業(yè)核心能力數(shù)據(jù)進行實驗仿真,考慮到建模和驗證模型有效性的需要,將2013—2020 屆數(shù)據(jù)劃分為訓(xùn)練集,將2021、2022 屆數(shù)據(jù)劃分為測試集進行預(yù)測。
本文選取2013—2022 屆某專業(yè)學(xué)生的全學(xué)程學(xué)業(yè)數(shù)據(jù),按照培養(yǎng)方案中專業(yè)核心課程計算得到每位學(xué)生的專業(yè)核心能力值。
在此基礎(chǔ)上,分別計算得到2013—2022 屆學(xué)生專業(yè)核心能力平均值和2013—2022 屆學(xué)生專業(yè)核心能力結(jié)構(gòu)數(shù)據(jù);選取2013 屆學(xué)生專業(yè)核心能力結(jié)構(gòu)向量為基準(zhǔn)向量,計算2014—2022 屆學(xué)生專業(yè)核心能力結(jié)構(gòu)向量與基準(zhǔn)向量的方向余弦,如表1 所示。
表1 2013—2022 屆學(xué)生專業(yè)核心能力平均值、方向余弦及結(jié)構(gòu)數(shù)據(jù)
對經(jīng)線性變換D-1后序列采用GM(1,1)預(yù)測方法,構(gòu)建預(yù)測模型為:
式中:a= -0.038 8;b= 52.316 1。對預(yù)測結(jié)果作線性變換的逆變換D,公式為:
計算得到2013—2020 屆專業(yè)核心能力均值擬合值,擬合精度為96.69%,可用于對2021、2022 屆專業(yè)核心能力均值進行預(yù)測,預(yù)測結(jié)果如表2 所示。
表2 2021、2022 屆專業(yè)核心能力均值預(yù)測值
利用灰色預(yù)測模型對2014—2020 屆專業(yè)核心能力結(jié)構(gòu)向量與基準(zhǔn)向量的方向余弦序列進行建模,預(yù)測模型為:
式中:a= -0.000 674 72;b= 0.927 7。計算得到2014—2020 屆方向余弦擬合值,擬合精度為96.34%,可以用于對2021、2022 屆相應(yīng)的方向余弦進行預(yù)測,預(yù)測結(jié)果如表3 所示。
表3 2021、2022 屆對應(yīng)的方向余弦預(yù)測值
為了驗證本文預(yù)測模型的有效性,結(jié)合歷屆專業(yè)核心能力頻率分布數(shù)據(jù)中含有0 成分,本文選擇對專業(yè)核心能力結(jié)構(gòu)成分?jǐn)?shù)據(jù)進行球坐標(biāo)變換,預(yù)測2021、2022屆專業(yè)核心能力結(jié)構(gòu)向量。通過與利用球坐標(biāo)變換預(yù)測結(jié)果的對比分析,得出不同預(yù)測方法對2021、2022 屆專業(yè)核心能力結(jié)構(gòu)向量預(yù)測的性能對比,如表4、表5所示。
表4 不同預(yù)測方法對測試集預(yù)測結(jié)果
表5 不同預(yù)測方法在測試集上的性能對比
通過比較三種評價指標(biāo)結(jié)果可以看出,本文所提出的預(yù)測模型的平均絕對誤差、均方根誤差小于球坐標(biāo)變換方法的值;方向余弦值較球坐標(biāo)變換方法的值更接近于1,說明此模型的預(yù)測精度顯著優(yōu)于球坐標(biāo)變換預(yù)測方法。進一步說明了本文提出的成分?jǐn)?shù)據(jù)預(yù)測模型的有效性。
本文以頻率分布序列為研究對象,融合頻率分布所具有的統(tǒng)計規(guī)律性與優(yōu)化思想,構(gòu)建了二次規(guī)劃數(shù)學(xué)模型,選取某專業(yè)學(xué)生的專業(yè)核心能力頻率分布結(jié)構(gòu)數(shù)據(jù),通過實驗對預(yù)測模型進行驗證并與研究成分?jǐn)?shù)據(jù)的球坐標(biāo)變換對比,結(jié)果表明,本文所提出的預(yù)測模型具有較好的預(yù)測精度,可以有效解決頻率分布序列預(yù)測問題。
注:本文通訊作者為高勝哲。