林恭興
(泉州工藝美術(shù)職業(yè)學(xué)院,福建 泉州 362500)
在網(wǎng)絡(luò)發(fā)展快速環(huán)境中,微信增長趨勢十分顯著,其對人們生活模式、工作模式均存在不可忽視的作用。微信影響力預(yù)測,能夠準(zhǔn)確分析微信平臺中某個文章、某個事件的影響力[1]。對此,本文構(gòu)建一種基于數(shù)據(jù)挖掘技術(shù)的微信影響力預(yù)測模型,將數(shù)據(jù)挖掘技術(shù)引入微信影響力預(yù)測問題中,能夠充分優(yōu)化微信影響力數(shù)據(jù)挖掘的全面性[2]。
基于粗糙集理論的數(shù)據(jù)挖掘通常為屬性規(guī)約,屬性規(guī)約的流程是:先使用判斷矩陣得到屬性規(guī)約的關(guān)鍵之處,之后通過規(guī)約算法運算規(guī)約集,按照某類評價標(biāo)準(zhǔn)設(shè)置最優(yōu)規(guī)約集[3]。粗糙集約簡的停止條件或稱為BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)數(shù)目選取條件為粗糙集理論的難點。訓(xùn)練數(shù)據(jù)數(shù)目選取對BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練耗時存在較大干擾[4]?,F(xiàn)在還沒有一種合理的訓(xùn)練數(shù)據(jù)數(shù)目設(shè)定方法,只有一種粗略計算方法,訓(xùn)練數(shù)據(jù)數(shù)量和連接權(quán)數(shù)量相比,差異顯著。
可用于預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)數(shù)目選取和神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率存在不可分離的關(guān)系。一般情況中預(yù)測微信影響力的數(shù)據(jù)學(xué)習(xí)能力主要通過均方根誤差來描述。均方根誤差函數(shù)是:
(1)
式(1)中,訓(xùn)練集的樣本eji數(shù)目設(shè)成n;神經(jīng)網(wǎng)絡(luò)的輸出單元xji數(shù)目設(shè)成m。
按照公式(1)顯示,如果預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)數(shù)目增多,誤差降低,因此,增多用于預(yù)測微信影響力的數(shù)據(jù)數(shù)目能夠降低誤差。此時,用于預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)數(shù)目每提升一倍,網(wǎng)絡(luò)訓(xùn)練耗時也提升一倍。為此,使用代價函數(shù)克服此問題。代價函數(shù)能夠體現(xiàn)用于預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)數(shù)目與誤差間關(guān)聯(lián)性。將誤差函數(shù)變?yōu)?
(2)
式(2)中,引進一種自變量Y,Y值是1時,函數(shù)保持不變,代價函數(shù)是:
(3)
式(3)中,y表示系數(shù),取值范圍不小于1,x描述代價指標(biāo)。
獲取代價函數(shù)后,便能夠獲取用于預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)選取憑據(jù),還能夠獲取粗糙集規(guī)約停止憑據(jù)。針對存在多個屬性的微信數(shù)據(jù)樣本,將最優(yōu)代價設(shè)成用于預(yù)測微信影響力的訓(xùn)練數(shù)據(jù)選取憑據(jù)。針對數(shù)據(jù)挖掘而言,微信數(shù)據(jù)存在海量性,因此,為了顧及到某些例外的狀況,本文設(shè)置了數(shù)據(jù)量低、條件屬性低時的選取標(biāo)準(zhǔn)。
微信影響力預(yù)測并不是針對某一個小變量實施評價預(yù)測,屬于一種宏觀變量預(yù)測。目前使用較多的預(yù)測方法均以指標(biāo)加權(quán)形式實現(xiàn)。為了防止出現(xiàn)權(quán)重設(shè)定缺乏客觀性的情況,使用主成分分析方法,將上小節(jié)挖掘出的有效微信數(shù)據(jù)實施降維操作,獲取有效主成分,運算每個微信數(shù)據(jù)的變量在主成分中分?jǐn)?shù),判斷其對微信影響力的影響程度。
1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
因為在分析微信影響時,差異數(shù)據(jù)間的量綱將對主成分分析結(jié)果存在較大干擾,所以,將獲取的全部有效微信數(shù)據(jù)實施標(biāo)準(zhǔn)化無量綱操作,使用Z-Score法實施標(biāo)準(zhǔn)化,則有:
(4)
1.2.2 主成分分析法
十九世紀(jì)時Pearson提出主成分分析法,該方法為了降低數(shù)據(jù)維數(shù),將協(xié)差陣實施特征分析。簡而言之是使用幾種主成分描述多種變量的內(nèi)部特征,不但對微信數(shù)據(jù)原始變量信息不存在干擾,且能夠保障微信數(shù)據(jù)原變量的全部特征[5]。詳細運算方法是:
(5)
式(5)中,Xm,Yq依次描述第m個主成分、第q個變量;hmq,Hm′表示微信影響力傳播時間矩陣系數(shù)。
使用新變量取代原始的10種微信數(shù)據(jù)變量Y1,Y2,…,Y10,當(dāng)中第一主成分X1需要具有充分的原變量特征。若第一主成分中原變量特征較少,則使用第二主成分X2,若第二主成分中原變量特征較少,則使用第三主成分X3。
主成分?jǐn)?shù)目需要按照每個主成分累計方差貢獻度α實現(xiàn)判斷。一般狀況中,累計貢獻度提升為較大的百分?jǐn)?shù)便可停止。則:
(6)
式(6)中,每個主成分相應(yīng)的微信數(shù)據(jù)特征值設(shè)成θ。
將特征值最大的前10種數(shù)據(jù)類型設(shè)成微信影響力預(yù)測指標(biāo),并將特征值排列前三的預(yù)測指標(biāo)設(shè)成主成分因子。
1.2.3 整體預(yù)測
通過主成分分析將設(shè)置的預(yù)測指標(biāo)實施信息總結(jié)后,便能按照獲取的預(yù)測指標(biāo)實施整體預(yù)測。將三種核心預(yù)測指標(biāo)依次設(shè)成頭條熱搜度、微信文章點擊率以及微信文章推廣率,再通過主成分的方差貢獻度判斷其主成分權(quán)數(shù),以此能夠提升指標(biāo)設(shè)定的客觀性,優(yōu)化微信影響力預(yù)測精度。
將預(yù)測指標(biāo)主成分的特征根實施歸一化并設(shè)置權(quán)重?:
(7)
然后建立整體預(yù)測函數(shù)實現(xiàn)微信影響力整體預(yù)測:
S=?1X1+?2X2+?3X3
(8)
實驗數(shù)據(jù)是針對個人微信賬號與某些知名的公眾微信賬號為著手點,將微信平臺里影響力預(yù)測的關(guān)鍵詞設(shè)成“校園暴力”,并挖掘有關(guān)“校園暴力”的微信文章傳播信息。預(yù)測中用到的指標(biāo)由頭條熱搜度、微信文章點擊率以及微信文章推廣率構(gòu)成,微信影響力整體預(yù)測的樣本總值是5327條,排除已刪除內(nèi)容和與關(guān)鍵詞無關(guān)的信息后,有效數(shù)據(jù)是5185條。此5185條微信的發(fā)布時間是2019年6月8日~2019年7月9日。由于微信影響力預(yù)測的運算公式都是正值,所以對微信影響力預(yù)測值的標(biāo)準(zhǔn)化方式為:
(9)
式(9)中,微信影響力最高值與最低值依次設(shè)成max(?j),min(?j)。
實驗把微信影響力設(shè)定在0~100之間,通過運算獲取的微信影響力數(shù)值和100相乘,便能夠獲取新的微信影響力值,取值區(qū)間是[0%,100%]。有關(guān) “校園暴力”微信文章影響力實際值見表1:
表1 有關(guān) “校園暴力”微信文章影響力實際值
本文模型預(yù)測結(jié)果和實際結(jié)果的對比見圖1:由圖1可知,本文模型預(yù)測的微信影響力和實際高度吻合,預(yù)測誤差最大值僅有1%,表示本文模型預(yù)測結(jié)果可信。
圖1 本文模型預(yù)測精度
為了測試本文模型的預(yù)測性能,分析本文模型、基于加權(quán)K-Means和局部BPNN的影響力預(yù)測模型、基于回歸樹與衰減函數(shù)的在線影響力預(yù)測模型在預(yù)測關(guān)鍵詞是“校園暴力”的微信文章影響力時,對微信“校園暴力”文章影響力數(shù)據(jù)挖掘的查全率,結(jié)果見圖2。分析圖2可知,三種模型對比之下,本文模型的查全率最高,高達0.9899,兩種對比模型的查全率低于本文模型。
分析三種模型對微信影響力預(yù)測時,對關(guān)鍵詞是“校園暴力”微信文章的頭條熱搜度、微信文章點擊率以及微信文章推廣率三種預(yù)測指標(biāo)的查準(zhǔn)率,結(jié)果見圖3。由圖3可知,本文模型的查準(zhǔn)率占據(jù)一定優(yōu)勢,對比模型的查準(zhǔn)率始終低于本文模型,本文模型查準(zhǔn)率高達0.9934。
圖2 三種模型查全率對比結(jié)果
圖3 三種模型查準(zhǔn)率對比結(jié)果
預(yù)測模型利用數(shù)據(jù)挖掘技術(shù)中的粗糙集理論、BP神經(jīng)網(wǎng)絡(luò)以及主成分分析技術(shù),實現(xiàn)微信數(shù)據(jù)挖掘、降維以及微信影響力預(yù)測。實驗采用本文預(yù)測模型圍繞關(guān)鍵詞是“校園暴力”的微信文章進行影響力預(yù)測,由此驗證了本文模型有效性與使用價值。在未來工作中,將深入優(yōu)化本文模型中所用的主成分分析法,優(yōu)化本文模型預(yù)測速度,將微信影響力的演化與發(fā)展?fàn)顟B(tài)實施更進一步的分析與預(yù)測。