路 健,范增民,劉彩娜
(河北地質(zhì)大學(xué)華信學(xué)院,河北 石家莊 050700)
伴隨經(jīng)濟(jì)全球化發(fā)展趨勢(shì)的不斷發(fā)展,市場(chǎng)資源發(fā)生巨大改變,信息化在供應(yīng)鏈管理中發(fā)揮著至關(guān)重要的作用。信息是供應(yīng)鏈的驅(qū)動(dòng)元素之一,是供應(yīng)鏈每個(gè)環(huán)節(jié)的溝通載體[1],具有連接與增強(qiáng)供應(yīng)鏈全局效率與效益的功能,可為供應(yīng)鏈決策者提供事實(shí)依據(jù)。供應(yīng)鏈內(nèi)包含諸多內(nèi)容,如信息流、物流和資金流等[2]。不同工作內(nèi)容對(duì)信息的選擇也各不相同,實(shí)現(xiàn)高效快速的信息定向挖掘是目前供應(yīng)鏈數(shù)據(jù)應(yīng)用領(lǐng)域的重要問題之一。
阮陽[3]等人提出了一種基于爬蟲技術(shù)的定向信息檢索挖掘模型。根據(jù)逆k近鄰中出現(xiàn)的樞紐現(xiàn)象以及與離群數(shù)據(jù)的關(guān)系,利用k近鄰中的距離信息作為權(quán)值實(shí)現(xiàn)離群分?jǐn)?shù)加權(quán),然后隨機(jī)產(chǎn)生區(qū)分度臨界值,依據(jù)爬蟲技術(shù)挑選離群程度最大的多個(gè)數(shù)據(jù)對(duì)象當(dāng)作離群數(shù)據(jù)。但該模型運(yùn)算時(shí)間過長,其時(shí)效性有待增強(qiáng);劉海濤[4]等人設(shè)計(jì)了基于潛在因子模型的信息定向挖掘及匹配模型。該模型使用高頻項(xiàng)目集合,不斷深化迭代的方法形成自頂向下挖掘過程,整合模糊集合理論和潛在因子模型,在事務(wù)數(shù)據(jù)集內(nèi)探尋模糊關(guān)聯(lián)規(guī)則,挖掘出儲(chǔ)存在多層次結(jié)構(gòu)事務(wù)數(shù)據(jù)庫中定量值信息隱含知識(shí),完成定制化信息挖掘需求。但該模型在處理大規(guī)模、高維度、包含非線性關(guān)系供應(yīng)鏈信息時(shí),挖掘效果并不理想。
針對(duì)以上方法不足,本研究建立了一種基于詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法的供應(yīng)鏈信息定向挖掘模型。在分析用戶對(duì)供應(yīng)鏈信息的內(nèi)在需求的基礎(chǔ)上,運(yùn)用TF-IDF算法計(jì)算信息權(quán)重大小,然后利用支持向量機(jī)方法建立高效率供應(yīng)鏈信息定向挖掘過程。
供應(yīng)鏈信息挖掘取向是定向挖掘重要的前提條件,也是整個(gè)挖掘工作的關(guān)鍵知識(shí)源。以用戶為核心,根據(jù)用戶需求為其提取想要的資源,明確信息挖掘范圍[5]。因此,建立用戶層次向量空間模型,該模型決定了用戶對(duì)供應(yīng)鏈中哪類信息的關(guān)注程度。層次向量空間模型使用樹形結(jié)構(gòu)對(duì)進(jìn)行分類,運(yùn)用向量空間模型描述用戶信息挖掘取向。
首先使用三層樹狀結(jié)構(gòu)表示用戶取向模型,第一層節(jié)點(diǎn)為用戶,第二層節(jié)點(diǎn)是用戶信息取向,一個(gè)信息取向擁有若干取向特征項(xiàng),第三層節(jié)點(diǎn)為用戶某個(gè)取向主題下的特征項(xiàng)。將用戶模型架構(gòu)如圖1所示。
假如用戶具備m個(gè)不同取向的興趣主題,則將用戶取向模型描述成以下特征矢量
Model={(T1,W1,n1),(T2,W2,n2),…,(Ti,Wi,ni)}
(1)
式中,Ti是第i個(gè)取向特征矢量,Wi是取向權(quán)重,ni是第i個(gè)取向涵蓋的信息數(shù)量。將Wi采取初始化,得到
Wi=I(page1)I(page2)…I(pageni)
(2)
式中,I(pagek)(k=1,2,…,ni)是用戶對(duì)網(wǎng)頁的興趣,即網(wǎng)頁興趣度。
主題Si內(nèi)文檔實(shí)例提取關(guān)鍵詞特征項(xiàng)如下
Si={(ki1,wi1),(ki2,wi2),…,(kij,wij)}
(3)
式中,(kij,wij)表示Si類的第j個(gè)取向關(guān)鍵詞條,kij表示關(guān)鍵詞,wij是關(guān)鍵詞kij的權(quán)重。
現(xiàn)階段的有關(guān)工作多數(shù)圍繞瀏覽行為判斷用戶對(duì)供應(yīng)鏈哪些頁面內(nèi)容興趣較大。利用相關(guān)性分析獲得五個(gè)典型瀏覽行為:儲(chǔ)存頁面、打印頁面、Bookmark、訪問數(shù)量與停留時(shí)間[6-8]。五個(gè)瀏覽行為是用戶取向性分析的最優(yōu)組合。設(shè)定I(w)是用戶對(duì)頁面w的興趣度,將I(w)記作
I(w)=φ(S(w),P(w),B(w),F(xiàn)(w),D(w))
(4)
式中,S(w)代表保存頁面,P(w)是打印頁面,B(w)表示把頁面儲(chǔ)存于Bookmark內(nèi),F(xiàn)(w)是頁面訪問頻度,D(w)是在頁面內(nèi)的停留時(shí)長。
對(duì)于保存頁面、打印頁面、Bookmark頁面三類行為來說,有其中一個(gè)行為發(fā)生就證明用戶對(duì)該頁面擁有很大的興趣取向,將評(píng)估過程記作
(5)
針對(duì)用戶訪問頁面,用戶對(duì)頁面訪問次數(shù)越多,且頁面瀏覽速率越緩慢,證明用戶對(duì)該頁面信息興趣越高,獲得如下定義
(6)
式中,w表示用戶訪問頁面集合,Size(w)是網(wǎng)頁w的大小。為化簡取向分析過程,設(shè)定α值等于0。用戶信息取向的計(jì)算考慮訪問頁面變換成文本實(shí)例后的文本大小
(7)
在明確用戶對(duì)供應(yīng)鏈信息取向后,可為后續(xù)定向挖掘提供可靠依據(jù)。在構(gòu)建定向挖掘模型之前,首先要確立詞位置與詞跨度對(duì)定向挖掘中關(guān)鍵詞權(quán)重的影響。傳統(tǒng)信息預(yù)處理無法闡明詞語在文本內(nèi)的分布狀態(tài),本文在信息預(yù)處理過程中引入詞語段落標(biāo)注技術(shù)[9],融合數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)信息預(yù)處理目標(biāo),排除多余信息干擾,增強(qiáng)定向挖掘效率。
采用四元組〈ci,tfi,di,li〉描述預(yù)處理后的文本集合,其中,ci表示詞語,tfi表示詞語的詞頻,di表示詞語處于文本內(nèi)的位置權(quán)重,li表示文本內(nèi)出現(xiàn)處于的段落個(gè)數(shù)。詳細(xì)計(jì)算過程為:
1)將語料庫采取分詞處理;
2)去除停用詞。也就是提出文本內(nèi)出現(xiàn)次數(shù)很多,但對(duì)所需供應(yīng)鏈信息不擁有代表性或代表性較低的詞語;
3)識(shí)別未登錄詞語。未登錄此表示文本內(nèi)無法使用詞典識(shí)別的詞語,如人名、地名、專業(yè)術(shù)語等[10]。未登錄詞大部分為名詞,即專有名詞與新詞匯。通常闡述的是固定對(duì)象,具備很強(qiáng)的重要性;
4)統(tǒng)計(jì)分析。統(tǒng)計(jì)詞語的詞頻、位置和出現(xiàn)該詞語的段落數(shù)量。對(duì)詞語實(shí)施位置權(quán)重計(jì)算時(shí),使用表1的推導(dǎo)原則,將最終獲得的四元組當(dāng)作信息預(yù)處理結(jié)果。
表1 位置權(quán)值系數(shù)
設(shè)定文本集合為C,N是C內(nèi)所有文本個(gè)數(shù)。在固定文檔e中,使用TF-IDF算法算出固定詞i的權(quán)重解析式
(8)
式中,fij是詞語i在文本dj內(nèi)出現(xiàn)的頻度,Ni是文本內(nèi)出現(xiàn)詞語i的文本個(gè)數(shù),β表示經(jīng)驗(yàn)值,通常取值為1。
從式(8)可以看出,詞語i在文本內(nèi)出現(xiàn)的頻度越大,在文本集合內(nèi)出現(xiàn)的概率越小,詞語的權(quán)重越大,證明涵蓋的信息熵越高,擁有很強(qiáng)代表性。
詞匯的跨段落狀態(tài)證明該詞匯是闡明局部還是表達(dá)全文??缍温浯螖?shù)越多,表明詞匯越關(guān)鍵,全局性越高。局部關(guān)鍵詞不在信息挖掘范圍內(nèi)。在其它算法中,局部關(guān)鍵詞通常會(huì)因?yàn)槠涓哳l率變成文本中心詞,減少了獲取關(guān)鍵詞的正確性[11]。為此,設(shè)計(jì)一個(gè)詞匯跨度權(quán)重,其計(jì)算過程為
(9)
式中,li是詞匯出現(xiàn)的段落,L是段落數(shù)量總和。
針對(duì)文本內(nèi)隨機(jī)一個(gè)候選供應(yīng)鏈關(guān)鍵詞,按照位置權(quán)重和跨度權(quán)重,創(chuàng)建基于改進(jìn)TF-IDF算法的文本權(quán)重計(jì)算公式
(10)
通過式(10)獲得各個(gè)候選關(guān)鍵詞的綜合權(quán)重,按照權(quán)重對(duì)候選關(guān)鍵詞實(shí)施排列[12],利用排列,可以挑選前g個(gè)關(guān)鍵詞當(dāng)作文本關(guān)鍵詞,減少供應(yīng)鏈信息定向挖掘所耗時(shí)間。
支持向量機(jī)是一種機(jī)器學(xué)習(xí)方法,通過線性可分前提下的最優(yōu)分類面拓展得到的,最優(yōu)分類面即要求分類面既能把兩個(gè)類別進(jìn)行準(zhǔn)確劃分,且分類間隔距離大,和最優(yōu)分類超平面距離最接近的向量為支持向量。
將支持向量機(jī)線性可分訓(xùn)練集合描述成如下形式
T={(x1,y1),(x2,y2),K,(xn,yn)}
(11)
式中,x∈Rn,y∈{-1,1}?;诖丝傻玫?/p>
f(x)=sgn((ω·x)+b)
(12)
倘若具備如式(12)的判別函數(shù),則在線性條件下,把最優(yōu)分類超平面使用圖2中的二維模式進(jìn)行說明。
圖2 最優(yōu)分類超平面示意圖
圖2中,較粗的實(shí)線H為分類面,空心點(diǎn)與實(shí)心點(diǎn)依次表示兩種樣本。H1、H2是和分類面平行的平面,該平面取決于各種分類線最近樣本,兩個(gè)平面的間距是分類間隙。
通過式(13)能劃分兩個(gè)樣本的超平面。式中,ω表示權(quán)重指數(shù),b是偏置項(xiàng)。
ω·x+b=0
(13)
為了讓分類超平面可以最大程度劃分兩種樣本,提高所建模型定向挖掘性能,需要讓間隔為最大,也就是創(chuàng)建一個(gè)間隔優(yōu)化問題,可得到
(14)
在線性不可分情況下,某些樣本點(diǎn)無法符合式(14)計(jì)算條件,則代入松弛變量,將式(14)轉(zhuǎn)變成
s.t.yi(ω·x+b)≥1-ξii=1,2,K,n
(15)
經(jīng)過引入拉格朗日乘子就把初始的約束優(yōu)化問題變成對(duì)偶問題,可得到
(16)
經(jīng)過計(jì)式(16)獲得如下計(jì)算公式
(17)
最終獲得線性判別函數(shù)如下
(18)
通常大部分系數(shù)αi的值是0,不會(huì)影響定向挖掘結(jié)果。增量學(xué)習(xí)是把新引入的訓(xùn)練樣本當(dāng)作增加向量,對(duì)原始訓(xùn)練樣本獲得分類器實(shí)施訓(xùn)練,讓重新獲得的分類器具備良好的區(qū)分效果。對(duì)增量學(xué)習(xí)時(shí)的各類新增訓(xùn)練集而言,支持向量集合即為向量集的子集,詳情如圖3所示。
圖3 殼向量和支持向量之間的關(guān)聯(lián)
針對(duì)供應(yīng)鏈信息定向挖掘,多Agent是現(xiàn)階段使用最多的技術(shù)手段。企業(yè)網(wǎng)絡(luò)化數(shù)據(jù)庫可采用Agent映射出定向信息源特征屬性,構(gòu)建貼合企業(yè)供應(yīng)鏈目標(biāo)查詢的模型,如圖4所示。
圖4 供應(yīng)鏈定向挖掘模型
模型關(guān)鍵思路為:對(duì)分站點(diǎn)數(shù)據(jù)集實(shí)施支持向量機(jī)局部信息挖掘,將局部挖掘獲取的支持向量表示成局部特征多叉樹,經(jīng)過移動(dòng)Agent把支持向量機(jī)與殼向量信息傳輸至下個(gè)站點(diǎn),把新增樣本和原有樣本融合后進(jìn)行信息挖掘,伴隨樣本集的不斷積累,逐步提升學(xué)習(xí)精度,最終完成供應(yīng)鏈信息定向挖掘任務(wù)。
為驗(yàn)證上述基于TF-IDF算法的供應(yīng)鏈信息定向挖掘模型的實(shí)際應(yīng)用性能,設(shè)計(jì)如下仿真。將其與文獻(xiàn)[3]中的基于爬蟲的定向信息檢索挖掘模型、文獻(xiàn)[4]中的基于潛在因子模型的信息定向挖掘及匹配模型進(jìn)行對(duì)比。仿真參數(shù)如表2所示。
表2 仿真它參數(shù)設(shè)置
在以上仿真參數(shù)下,從挖掘效率與挖掘錯(cuò)誤率兩方面對(duì)3種模型的性能加以驗(yàn)證。
以挖掘過程耗時(shí)為指標(biāo),驗(yàn)證不同模型的挖掘效率,對(duì)比結(jié)果如圖5所示。
圖5 不同模型挖掘效率對(duì)比分析
從圖5中可以看到,伴隨節(jié)點(diǎn)數(shù)量的持續(xù)增多,本文模型的挖掘過程耗時(shí)始終保持較低狀態(tài),僅在最初時(shí)略高于文獻(xiàn)[4]模型,說明其挖掘效率較高。這是因?yàn)楸疚哪P筒捎肨F-IDF算法計(jì)算文本權(quán)重,能降低供應(yīng)鏈信息定向挖掘時(shí)間損耗,充分利用網(wǎng)絡(luò)節(jié)點(diǎn)挖掘能力,所以挖掘效率為最高。而傳統(tǒng)模型因?yàn)楹雎粤擞?jì)算節(jié)點(diǎn)數(shù)量增多時(shí)可能具備的競(jìng)爭元素,所以運(yùn)算挖掘效率不佳。
為深入驗(yàn)證本文模型的應(yīng)用效果,以挖掘錯(cuò)誤率為指標(biāo)對(duì)不同模型加以驗(yàn)證,對(duì)比結(jié)果如圖6所示。
圖6 不同模型挖掘錯(cuò)誤率對(duì)比分析
從圖6中可以看到,伴隨節(jié)點(diǎn)數(shù)量的持續(xù)增多,本文模型的挖掘錯(cuò)誤率始終小于2種對(duì)比模型,且上浮程度較小,始終保持在10%以下。原因在于本文模型利用支持向量機(jī)機(jī)器學(xué)習(xí)模式,可得到優(yōu)秀的信息分類精度,運(yùn)用多Agent技術(shù)構(gòu)建出符合企業(yè)供應(yīng)鏈查詢需求的定向挖掘模型,挖掘錯(cuò)誤率得到有效遏制。而文獻(xiàn)[3]模型在挖掘中沒有對(duì)數(shù)據(jù)進(jìn)行修正,文獻(xiàn)[4]模型在尋找模糊關(guān)聯(lián)規(guī)則時(shí)的精度不高,難以獲得滿意的數(shù)據(jù)挖掘結(jié)果。
針對(duì)傳統(tǒng)的供應(yīng)鏈信息定向挖掘模型存在的精準(zhǔn)度不高、效率低的問題,本研究構(gòu)建了基于TF-IDF算法的供應(yīng)鏈信息定向挖掘模型。該模型能有效甄別用戶對(duì)供應(yīng)鏈若干信息中的哪類信息需求最高,且定向挖掘時(shí)效性強(qiáng),大幅提升了定向挖掘整體性能,為精準(zhǔn)提取供應(yīng)鏈信息發(fā)揮關(guān)鍵作用。今后會(huì)對(duì)模型動(dòng)態(tài)性與并行運(yùn)算等方面開展深入研究,進(jìn)一步提高模型的適用性。