趙軍愉, 柴小亮, 李士林, 徐松曉, 王強(qiáng)
(1.國(guó)網(wǎng)河北省電力有限公司保定供電分公司,河北,石家莊 050021;2.國(guó)網(wǎng)河北省電力有限公司,河北,石家莊 050021)
隨著當(dāng)前互聯(lián)網(wǎng)通信技術(shù)的快速發(fā)展,促進(jìn)了各類通信工具與軟件的開(kāi)發(fā)與推廣,產(chǎn)生了微信、微博、知乎、頭條等各類社交與資訊平臺(tái),并在上述系統(tǒng)平臺(tái)中產(chǎn)生了大量文本數(shù)據(jù)[1-3]。T.Y.Lin設(shè)計(jì)了一種全覆蓋模型并進(jìn)行了粒計(jì)算測(cè)試,屬于一類特定的部分覆蓋模型,苗奪謙等[4]利用上述模型對(duì)多粒度問(wèn)題進(jìn)行智能分析,極大降低了復(fù)雜問(wèn)題的求解難度,實(shí)現(xiàn)信息處理效率的大幅度提升,同時(shí)也為推廣相關(guān)技術(shù)理論起到了一定的參考作用。國(guó)內(nèi)學(xué)者李順勇等[5]通過(guò)多粒度粗糙決策的方式建立屬性約簡(jiǎn)算法,能夠滿足對(duì)多粒度條件進(jìn)行屬性約簡(jiǎn)的處理要求。楊田等[6]在WANG等[7]提出的屬性約簡(jiǎn)算法基礎(chǔ)上進(jìn)行分析得到存在高復(fù)雜度的二元關(guān)系屬性約簡(jiǎn)算法,經(jīng)過(guò)特例分析大幅度減小了時(shí)間復(fù)雜度。李兵洋等[8]主要從降低約簡(jiǎn)冗余屬性的層面分析,選擇合適的屬性權(quán)值以或合適的閾值來(lái)達(dá)到上述效果,最終構(gòu)建了包含融合屬性權(quán)重的優(yōu)化約簡(jiǎn)方法。CHEN等[9]主要對(duì)覆蓋決策過(guò)程的一致性進(jìn)行了分析,并根據(jù)覆蓋決策確定了知識(shí)約簡(jiǎn)。JING等[10]利用多粒度視圖方法對(duì)增量屬性進(jìn)行了約簡(jiǎn)處理,結(jié)果發(fā)現(xiàn)能夠滿足大數(shù)據(jù)的快速約簡(jiǎn)。謝珺等[11]設(shè)計(jì)了全覆蓋粒數(shù)學(xué)模型,可以同時(shí)實(shí)現(xiàn)知識(shí)約簡(jiǎn)并滿足屬性重要度分析要求,采用全覆蓋粒知識(shí)約簡(jiǎn)的方式對(duì)文本特征實(shí)施降維,最后通過(guò)全覆蓋粒屬性特點(diǎn)實(shí)現(xiàn)文本的聚類分析。
根據(jù)以上關(guān)于全覆蓋粒的文獻(xiàn),本文采用全覆蓋粒計(jì)算方法對(duì)特征選擇算法的數(shù)據(jù)高維性與稀疏性進(jìn)行分析,顯著改善了聚類結(jié)果;根據(jù)不同特征選擇方法對(duì)比結(jié)果判斷算法有效性。
TFIDF算法屬于向量空間模型中用于特征詞分析的一個(gè)重要算法[12-13]。IDF屬于逆文檔頻率,隨著文檔數(shù)量不斷增加,該參數(shù)也發(fā)生了持續(xù)降低的趨勢(shì),采用該特征詞無(wú)法實(shí)現(xiàn)文檔類別進(jìn)行準(zhǔn)確區(qū)分的目標(biāo)。TF為詞頻,隨著特征詞頻率的提高,對(duì)應(yīng)的權(quán)值也越大,可以判斷此時(shí)該特征詞達(dá)到了更強(qiáng)的文檔區(qū)分性能。以下為TFIDF計(jì)算式:
(1)
式中,t是第m篇文檔出現(xiàn)詞t的頻率,N為所有文檔的數(shù)量,n是含有詞t的文檔數(shù)。
利用TFIDF算法對(duì)均勻狀態(tài)的詞進(jìn)行高效過(guò)濾,但也需注意此算法具有較大缺陷需要克服,進(jìn)行貢獻(xiàn)度計(jì)算時(shí)只分析特征詞頻率的影響,并未針對(duì)特征詞位置與詞性進(jìn)行研究,處于不同的詞性與位置條件下,特征詞實(shí)際表達(dá)的含義也存在明顯差異。其中,名詞與動(dòng)詞可以獲得比形容詞更強(qiáng)的主題表現(xiàn)力,對(duì)文檔達(dá)到更精確的表達(dá)效果,而當(dāng)詞語(yǔ)出現(xiàn)在標(biāo)題區(qū)域時(shí)則可以獲得比正文區(qū)域更重要的意義,對(duì)上述情況的各類詞需將其與常規(guī)詞區(qū)分處理。
針對(duì)TFIDF算法存在的缺陷,本文設(shè)計(jì)了一種經(jīng)過(guò)改進(jìn)后的TFIDF_SP算法。通過(guò)權(quán)重系數(shù)綜合分析詞性與位置并建立復(fù)合權(quán)值,計(jì)算得到特征加權(quán)并將其與TFIDF方法進(jìn)行結(jié)合處理,由此區(qū)分文檔內(nèi)處于不同部位的特征詞重要性。以下給出了對(duì)應(yīng)的計(jì)算式:
(2)
其中,tk=tk1+tk2。
(3)
式中,tfi,j是對(duì)特征詞進(jìn)行權(quán)重調(diào)整得到的詞頻,λj屬于詞性權(quán)重系數(shù)。其中,名詞在λ=3時(shí)達(dá)到最優(yōu),動(dòng)詞在λ=2時(shí)最優(yōu),其他詞在λ=1時(shí)達(dá)到最優(yōu),tk是文檔i中的詞j頻率,u1、u2依次為詞在標(biāo)題與正文區(qū)域下的權(quán)重系數(shù),取值分別在4與1時(shí)獲得最佳結(jié)果,tk1、tk2代表詞j在標(biāo)題與正文條件下形成的詞頻,l是第i篇文檔內(nèi)包含的各個(gè)詞的數(shù)量總和。利用對(duì)特征詞進(jìn)行詞性與位置加權(quán)歸一化,并將結(jié)果拓展,特征詞除了頻率較高以外,還可以更加高效體現(xiàn)出文本的結(jié)構(gòu)特點(diǎn)。
LDA屬于一種典型概率模型,對(duì)高維文檔集合進(jìn)行映射生成維度更低的潛在語(yǔ)義空間,從而將文檔表示成不同主題的混合形式,本次選擇詞空間分布作為主題,對(duì)特征詞進(jìn)行軟聚類分析,再通過(guò)抽象方法獲取文本內(nèi)容。在LDA主題模型基礎(chǔ)上進(jìn)行擴(kuò)展得到bLDA主題模型,按照伯努利分布的形式確定各詞的背景與先驗(yàn)主題。
使用bLDA主題模型進(jìn)行分析時(shí),需通過(guò)GibbsSampling推理的過(guò)程對(duì)特征詞wi進(jìn)行主題z測(cè)試。以下為各參數(shù)的采樣計(jì)算式:
(4)
p(zi=k|zi,x)∝
(5)
(k=1,2,…,n)
式中,zi對(duì)應(yīng)詞特征i的主題變量,n(t)為第m篇文檔內(nèi)詞t出現(xiàn)的頻率,n(k)為主題k詞頻,n(0)為第m篇文檔形成的主題k(k=0)詞頻,n為主題數(shù)量,V為文檔集包含的所有詞數(shù)量,lamada為背景主題先驗(yàn)概率,βt與αk依次對(duì)應(yīng)詞t與主題k狄利克雷先驗(yàn)分布結(jié)果。
按照全覆蓋粒知識(shí)約簡(jiǎn)的方式對(duì)以上特征詞集實(shí)施約簡(jiǎn),從中選擇可以有效表達(dá)文檔并且包含有用信息的特征詞集,從而同時(shí)實(shí)現(xiàn)減小復(fù)雜度以及增加精度的效果。
文本特征算法的具體處理過(guò)程如下。
從文檔集N中選擇特征詞集D作為輸入,以經(jīng)過(guò)約簡(jiǎn)得到的特征詞集core作為輸出。
第一步:對(duì)特征詞集進(jìn)行數(shù)據(jù)處理確定中心center(D),之后再計(jì)算得到粒度熵I(D)。
第二步:以core(D)表示經(jīng)過(guò)約簡(jiǎn)處理得到的特征詞集,同時(shí)計(jì)算文檔集Di重要度SigD。
第三步:判斷I(core(D))=I(D)是否滿足條件,當(dāng)符合判斷條件時(shí)則處理過(guò)程結(jié)束,由此得到的core(D)屬于最小粒約簡(jiǎn);反之,重新跳轉(zhuǎn)到第四步。
第四步:以P表示core(D),再把文檔集結(jié)算結(jié)果加入P中。
第五步:判斷是否滿足I(P)=I(D),當(dāng)結(jié)果滿足時(shí)則停止處理過(guò)程,由此得到的P屬于特征詞集D約簡(jiǎn);反之繼續(xù)執(zhí)行第四步。
對(duì)特征詞進(jìn)行加權(quán)處理后雖可以達(dá)到優(yōu)異文檔表達(dá)能力,能夠有效克服特征稀疏性的問(wèn)題,但優(yōu)異該處理方法具有明顯的高維特征,導(dǎo)致計(jì)算量大幅度增加,整個(gè)處理過(guò)程非常復(fù)雜,最終引起聚類精度的降低。選擇全覆蓋粒知識(shí)約簡(jiǎn)方法進(jìn)行處理時(shí)可以控制約簡(jiǎn)前后處于同樣的特征表達(dá)狀態(tài)下,實(shí)現(xiàn)計(jì)算復(fù)雜度的顯著減小。按照以下步驟對(duì)文本特征進(jìn)行全覆蓋粒計(jì)算。
其中,特征詞集通過(guò)TFIDF_SP算法進(jìn)行計(jì)算作為輸入,以經(jīng)過(guò)約簡(jiǎn)的特征詞集加權(quán)作為輸出。
第一步:以TFIDF_SP算法獲得特征詞集內(nèi)概率在0以上的詞置1,生成取值等于0或1的特征詞集。
第二步:?;≈档扔?或1的特征詞集,再對(duì)特征粒進(jìn)行約簡(jiǎn)處理。
第三步:對(duì)特征集進(jìn)行加權(quán)處理,同時(shí)保留約簡(jiǎn)部分,再對(duì)其按照min-max方式實(shí)施歸一化,由此獲得約簡(jiǎn)特征詞集。
各流程見(jiàn)圖1。
圖1 算法流程
通過(guò)搜狐網(wǎng)站信息爬取的方式得到1250篇新聞?wù)Z料,對(duì)這些新聞進(jìn)行分類統(tǒng)計(jì),屬于“健康”類的新聞總共180篇,“財(cái)經(jīng)”類共660篇,“IT”類共410篇,分別從各篇新聞中提取標(biāo)題與正文內(nèi)容進(jìn)行測(cè)試,文本規(guī)?;驹?~8 KB之間。
通過(guò)實(shí)驗(yàn)語(yǔ)料獲得相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集,按照2.2節(jié)的算法流程計(jì)算各評(píng)價(jià)指標(biāo),并驗(yàn)證算法有效性。
通過(guò)爬取獲得的搜狐新聞都是以人工分類得到的文本集,由此實(shí)現(xiàn)聚類A和人工類別B的相互對(duì)應(yīng),此時(shí)A的文本基本都屬于B的文本。綜合考慮準(zhǔn)確率(Precision)、召回率(Recall)、F參數(shù)對(duì)實(shí)際聚類性能進(jìn)行評(píng)價(jià)。
采用以上語(yǔ)料庫(kù)作為測(cè)試數(shù)據(jù),建立bLDA主題模型時(shí),將參數(shù)設(shè)定為α=50/k、β=0.01,總共迭代1000次。測(cè)試時(shí)主題數(shù)k屬于一個(gè)不確定參數(shù),當(dāng)取值變化時(shí)會(huì)引起特征選擇有效性也存在顯著差異,將n值依次設(shè)定在1~10,設(shè)定主題模型包含的主題數(shù),再以K-medoids聚類得到的F值進(jìn)行評(píng)價(jià),從而獲得根據(jù)語(yǔ)義建立的“文檔—詞語(yǔ)”矩陣,經(jīng)測(cè)試得到結(jié)果如圖2所示。
圖2 bLDA主題個(gè)數(shù)設(shè)置
其中,橫坐標(biāo)代表實(shí)際設(shè)定的主題數(shù)量,縱坐標(biāo)代表評(píng)價(jià)指標(biāo),根據(jù)以上測(cè)試數(shù)據(jù)判斷特征選擇算法有效性與bLDA主題模型主題數(shù)之間的關(guān)系。通過(guò)分析可知,在主題數(shù)k=3的情況下,獲得了最大聚類F,表明此時(shí)達(dá)到了最優(yōu)處理效果,與人工標(biāo)注主題數(shù)相符。同時(shí)還可以看到,主題數(shù)接近人工標(biāo)注主題數(shù)的情況下,形成了基本一致的評(píng)價(jià)指標(biāo),通過(guò)bLDA主題模型可以獲得較優(yōu)主題粒度,從而更接近文檔表達(dá)含義;以bLDA主題模型進(jìn)行粗主題粒度提取時(shí)無(wú)法獲得良好的聚類性能,并無(wú)法對(duì)各類主題特征詞進(jìn)行明顯分類,導(dǎo)致區(qū)分度偏差;當(dāng)采用bLDA主題模型提取細(xì)主題粒度時(shí)也無(wú)法獲得理想聚類效果,此時(shí)會(huì)對(duì)相同主題特征詞造成弱化,將其判斷為不同主題類型的特征詞。
在特征選擇時(shí),將k設(shè)定在3,參數(shù)因子γ依次設(shè)定在0.50~0.95,在不同γ值下經(jīng)對(duì)比得到K-medoids聚類F值,由此獲得最優(yōu)特征詞集權(quán)重,測(cè)試所得結(jié)果見(jiàn)圖3。
圖3 γ的最優(yōu)設(shè)置
γ值介于0.5~0.8之間時(shí),當(dāng)γ值提高時(shí)獲得了更優(yōu)文本聚類性能,而在γ值達(dá)到0.8以上,繼續(xù)增加γ值則會(huì)降低文本聚類性能,由此判斷γ值取0.8時(shí)可以獲得最優(yōu)聚類效果。因此可以從側(cè)面推斷出,與采用bLDA主題模型處理獲得的“文檔—詞語(yǔ)”概率相比,通過(guò)TFIDF算法獲得的“文檔—詞語(yǔ)”概率可以更加準(zhǔn)確地表達(dá)文本含義,促進(jìn)權(quán)重的進(jìn)一步提升。
據(jù)以上搜狐新聞?wù)Z料,為驗(yàn)證特征詞權(quán)重分析方式有效性,分別以TFIDF算法與bLDA主題模型作為Baseline、Baseline2,再以上述2種方法相結(jié)合的形式組成Baseline3,之后利用同一語(yǔ)料庫(kù)測(cè)試上述各項(xiàng)算法相對(duì)TFIDF_SP算法及bLDA主題模型方法的綜合處理性能,再根據(jù)K-medoids聚類算法準(zhǔn)確率、召回率、F值進(jìn)行綜合評(píng)估,測(cè)試得到結(jié)果如表1所示。
表1 不同方法對(duì)比結(jié)果
通過(guò)比較發(fā)現(xiàn),采用TFIDF_SP和bLDA主題模型或采用TFIDF和bLDA主題模型進(jìn)行結(jié)合處理時(shí)比單一使用bLDA主題模型處理方式和TFIDF算法獲得更優(yōu)的性能,因此需要對(duì)TFIDF算法與bLDA主題模型進(jìn)行結(jié)合分析,從而為特征詞分配合適的權(quán)重。以TFIDF_SP和bLDA主題模型進(jìn)行結(jié)合分析時(shí),可以獲得比TFIDF和bLDA主題模型結(jié)合高1.62%的聚類準(zhǔn)確率,表明當(dāng)特征詞方式詞性與位置變化時(shí)會(huì)引起文檔表達(dá)效果的顯著影響。
采用bLDA主題模型提取細(xì)主題粒度的時(shí)候也無(wú)法獲得理想聚類效果,此時(shí)會(huì)對(duì)相同主題特征詞造成弱化,將其判斷為不同主題類型的特征詞。γ值取0.8時(shí)可以獲得最優(yōu)聚類效果,此時(shí)本文改進(jìn)TFIDF算法能促進(jìn)權(quán)重的進(jìn)一步提升。本文改進(jìn)TFIDF算法可以獲得比TFIDF和bLDA主題模型結(jié)合高1.62%的聚類準(zhǔn)確率,表明當(dāng)特征詞方式詞性與位置變化時(shí)會(huì)引起文檔表達(dá)效果的顯著影響。