張 影,劉紅美
(三峽大學(xué)理學(xué)院,湖北 宜昌 443000)
在大數(shù)據(jù)和信息化的時(shí)代特征下,網(wǎng)絡(luò)平臺(tái)無(wú)疑為收集海量的文本數(shù)據(jù)提供了便捷,如何快速、有效、精確地篩選出主要信息并對(duì)其分類、答復(fù),是一個(gè)需要不斷精化、持續(xù)進(jìn)步的課題。為了不斷改進(jìn)智能文本挖掘模型及算法,對(duì)計(jì)算機(jī)讀取的研究引起了人們的廣泛關(guān)注。
計(jì)算機(jī)讀取技術(shù)的發(fā)展對(duì)信息檢索、自動(dòng)文摘、答復(fù)系統(tǒng)等自然語(yǔ)言處理研究任務(wù)有積極作用,同時(shí)也能夠直接改善搜索引擎、智能APP 等產(chǎn)品的用戶體驗(yàn)。因此,以讀取篩選、文本挖掘?yàn)槠鯔C(jī)研究機(jī)器自然語(yǔ)言的技術(shù),在有限的信息范圍內(nèi)要做到準(zhǔn)確全面處理,具有重要的研究與應(yīng)用價(jià)值。
網(wǎng)絡(luò)問(wèn)政平臺(tái)作為一種新興模式,以其快捷、不受時(shí)空限制等優(yōu)點(diǎn)而受到政府機(jī)構(gòu)的青睞。借助網(wǎng)政平臺(tái)收集群眾反饋的海量信息數(shù)據(jù),是實(shí)時(shí)了解民意、匯聚民智、凝聚民氣的重要渠道。如果能從群眾留下的信息中敏銳地捕捉信號(hào),不僅能夠提升政府的管理水平,同時(shí)也能更好地為群眾百姓提供服務(wù),進(jìn)行互贏模式間的雙向信息傳遞。本文針對(duì)智慧政務(wù)的文本挖掘問(wèn)題,采用潛在語(yǔ)義分析、聚類分析、主成分分析方法,基于留言的一級(jí)標(biāo)簽分類,實(shí)現(xiàn)了對(duì)熱點(diǎn)問(wèn)題的挖掘和排名。
數(shù)據(jù)來(lái)源為“智慧政務(wù)”互聯(lián)網(wǎng)公開(kāi)渠道,對(duì)其留言的一級(jí)標(biāo)簽分類簡(jiǎn)述的處理過(guò)程如下。
基于Python,采用sklearn 提供的函數(shù)劃分?jǐn)?shù)據(jù)集,實(shí)現(xiàn)分層抽樣,以保證60%訓(xùn)練集、20%驗(yàn)證集、20%測(cè)試集3 部分?jǐn)?shù)據(jù)的一級(jí)標(biāo)簽分布均勻性。
數(shù)據(jù)清洗:清除附件“留言詳情”欄附有HTML 標(biāo)簽、URL 地址等文本標(biāo)記的無(wú)效分類信息以及標(biāo)點(diǎn)符號(hào),去除噪聲,為后續(xù)分類奠定基礎(chǔ)。分詞采用Python 開(kāi)發(fā)的一個(gè)中文分詞模塊——jieba 分詞器,分詞效果如圖1 所示。
建立停用詞字典:維護(hù)一個(gè)停用詞表,在分詞后將停用詞去除。
基于TF-IDF 對(duì)文本特征進(jìn)行提取[1],以向量空間模型(VSM)[2]表示文本留言。
Word2vec 是一個(gè)Estimator,它采用一系列代表文檔的詞語(yǔ)來(lái)訓(xùn)練Word2vec model。該模型將每個(gè)詞語(yǔ)映射到一個(gè)固定大小的詞向量,將文本結(jié)構(gòu)化。
2.1.1 語(yǔ)義空間降維
通常情況下,當(dāng)?shù)贸鑫谋鞠蛄亢?,直接比較兩向量的夾角的余弦值,并進(jìn)行相似度計(jì)算。但是,針對(duì)智慧政務(wù)平臺(tái)上的留言所構(gòu)造的詞匯-文本矩陣是一個(gè)巨大矩陣,計(jì)算起來(lái)比較困難。另外,留言文本信息中存在同義詞和近義詞等詞語(yǔ),即使通過(guò)特征抽取轉(zhuǎn)化得到的文本向量,可能仍然達(dá)不到自然語(yǔ)言屬性本質(zhì)的要求。
因此,這里需要借用潛在語(yǔ)義分析(Latent Semantic Semantic Analysis,LSA)理論[3]將留言信息中文本向量空間中非完全正交的多維特征投影到維數(shù)較少的潛在語(yǔ)義空間上。而LSA 對(duì)特征空間進(jìn)行處理時(shí)用的關(guān)鍵技術(shù)是奇異值分解(Singular Value Decomposition,SVD),在統(tǒng)計(jì)學(xué)上,它是針對(duì)矩陣中的特征向量進(jìn)行分解和壓縮的技術(shù)。
圖1 過(guò)濾后分詞結(jié)果
2.1.1.1 一般的奇異值分解
奇異值分解可以將網(wǎng)頁(yè)文本通過(guò)向量轉(zhuǎn)換后的非完全正交的多維特征投影到較小的一個(gè)潛在語(yǔ)義空間中,同時(shí)保持原空間的語(yǔ)義特征,從而可以實(shí)現(xiàn)對(duì)特征空間的降噪和降維處理。奇異值分解是一類矩陣分解,是正規(guī)矩陣酉對(duì)角化的一種推廣。對(duì)于任意的矩陣A,其奇異值分解表達(dá)式為A=U∑VT,其中A∈Rm×n,且Rank(A)≤min(m,n),正交矩陣(即A的左右奇異向量),U∈Rm×m和V∈Rn×n,半正定對(duì)角矩陣…≥σr≥0,UUT=Im,VVT=In。
在奇異值分解A=U∑VT中,有A的k階截距陣即:
由上述可知,在F-范數(shù)中,Ak是和A相似度最高的k秩矩陣,這將用于矩陣降維。
2.1.1.2 詞匯-文本矩陣的奇異值分解
對(duì)于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為:
∑矩陣表示某類詞與留言文本之間的相關(guān)性。在生成的“語(yǔ)義空間”中,大的奇異值對(duì)應(yīng)的維度更具有詞的共性,而小的奇異值所對(duì)應(yīng)的維度更具有詞的個(gè)性。
在A矩陣中,Ui和∑決定每一行i的信息,和∑決定每一列j的信息。對(duì)角矩陣∑的信息主要由奇異值大小決定,奇異值越大,對(duì)∑的影響也越大,對(duì)整個(gè)矩陣的影響也越大。因此,可以通過(guò)保留較大的奇異值,刪去較小的奇異值,從而對(duì)矩陣進(jìn)行行與列的降維處理。
另一方面,∑矩陣的奇異值σ1≥σ2≥…≥σr中,如果σi(1,2,…,r)的值比較小,則它對(duì)整個(gè)詞匯-文本矩陣A的影響也小,所以可以刪除對(duì)矩陣A影響較小的σ以及對(duì)應(yīng)的U和VT的信息,保留影響較大主要信息,得到Am×n的近似矩陣Ak。
在不影響留言文本分析結(jié)果的同時(shí)對(duì)矩陣進(jìn)行降維處理,簡(jiǎn)化了運(yùn)算的復(fù)雜度。
通常情況下,前10%的奇異值的和占總奇異值和的99%。k值的選取決定著近似矩陣的相似性,k值的大小與主要信息的承載量成正比,k值越大,所包含的主要信息越多,相應(yīng)地對(duì)次要信息的刪除就會(huì)減少,且會(huì)減弱降維的效果,而取值越小,則會(huì)刪除更多信息,以至于剩下的信息沒(méi)有很好的區(qū)分度。
由于在∑矩陣中只取非零的奇異值,只要滿足m×n≥m×k+n×k+k×k(近似矩陣中的三個(gè)矩陣的元素個(gè)數(shù)),即可以去掉次要的信息,保留主要信息,達(dá)到降維的目的,降低計(jì)算機(jī)對(duì)存儲(chǔ)的要求,從而保證聚類的準(zhǔn)確性。
2.1.2 向量語(yǔ)義化
對(duì)某一特征項(xiàng)為n的文本向量t進(jìn)行奇異值分解以及t在進(jìn)行k維映射后得到的向量t′為:進(jìn)行語(yǔ)義壓縮后的向量被認(rèn)為投影在同一空間里,然后方可進(jìn)行文本聚類。
2.1.3 文本聚類
2.1.3.1 留言文本相似度計(jì)算
為表示不同留言間的差異,先計(jì)算基于距離度量的歐幾里得距離,再轉(zhuǎn)化為余弦相似度[4]。
令i=(x1,x2,…,xp)和j=(y1,y2,…,yp)是兩個(gè)被p個(gè)數(shù)值屬性標(biāo)記的對(duì)象,則對(duì)象i和j之間的歐氏距離,以及根據(jù)余弦相似度和歐氏距離的關(guān)系,留言文本間的余弦相似度可表示為:
2.1.3.2 基于K-means 聚類[5]的文本聚類
該算法要求在計(jì)算之前給定k值。本文通過(guò)初步估計(jì)留言數(shù)據(jù)中的熱點(diǎn)問(wèn)題數(shù),并以此給定k的值,這里令k=7 為初值,根據(jù)后續(xù)的熱度值大小,進(jìn)行適當(dāng)增減k的值,也就是對(duì)熱點(diǎn)問(wèn)題的數(shù)量進(jìn)行調(diào)控。原理流程如圖2 所示。主成分基本步驟如圖3 所示。
圖2 K-means 聚類流程圖
圖3 主成分基本步驟
2.2.1 矩陣和特征量的計(jì)算
考慮到影響熱點(diǎn)問(wèn)題間的差異性,將每個(gè)熱點(diǎn)問(wèn)題所包含的留言數(shù)、留言時(shí)間密集度、點(diǎn)贊數(shù)、反對(duì)數(shù)等作為評(píng)價(jià)指標(biāo)。
希望用較少的綜合變量來(lái)代替原來(lái)較多的變量,而這幾個(gè)綜合變量又能盡可能多地反映原來(lái)變量的信息,并且彼此之間互不相關(guān)。
標(biāo)準(zhǔn)化指標(biāo)變量:選取m1個(gè)指標(biāo),
計(jì)算相關(guān)系數(shù)矩陣R的特征值λ1≥λ2≥…≥λm1≥0,及對(duì)應(yīng)的特征向量a1,a2,…,am1,其中aj=[a1j,a2j,…,am1j]T,由特征向量組成m1個(gè)新的指標(biāo)變量:
2.2.2 主成分的選擇
為達(dá)到降維,選取部分更具代表性的主成分,計(jì)算各主成分Fj的信息貢獻(xiàn)率bj及F1,F(xiàn)2,…,F(xiàn)p的累計(jì)貢獻(xiàn)率αp:
當(dāng)αp接近于1(取αp>0.95)時(shí),則選擇前p個(gè)指標(biāo)變量F1,F(xiàn)2,…,F(xiàn)p作為p個(gè)主成分,代替原來(lái)m1個(gè)指標(biāo)變量,從而可對(duì)p個(gè)主成分進(jìn)行綜合分析。
2.2.3 主成分分析的綜合評(píng)價(jià)
篩選出p個(gè)主成分;通過(guò)標(biāo)準(zhǔn)化指標(biāo)前特征向量數(shù)值的相對(duì)大小,分析各主成分主要反映的對(duì)應(yīng)指標(biāo)。
以p個(gè)主成分的信息貢獻(xiàn)率為權(quán)重,構(gòu)建綜合評(píng)價(jià)模型求出綜合分
在純文字文本下,調(diào)用Python 的庫(kù)函數(shù),根據(jù)語(yǔ)義分析LSA 的奇異值分解SVD 技術(shù)和K-means 算法,實(shí)現(xiàn)留言語(yǔ)義空間降維,將相似問(wèn)題聚類并實(shí)現(xiàn)熱點(diǎn)挖掘。
經(jīng)統(tǒng)計(jì),數(shù)據(jù)來(lái)源共有4 326 條留言,經(jīng)Python 處理得每個(gè)熱點(diǎn)的留言信息,首先分層篩選出留言文本在前175 條的熱點(diǎn)占總留言內(nèi)容的98.86%,因此其余留言可以忽略不計(jì),進(jìn)而構(gòu)造上述指標(biāo),利用SPSS 對(duì)其進(jìn)行綜合排名。
對(duì)篩選得到的數(shù)據(jù)導(dǎo)入SPSS 進(jìn)行標(biāo)準(zhǔn)化處理,得到各標(biāo)準(zhǔn)化指標(biāo)的解釋方差,如表1 所示。
由表1 可知,成分1~6 的因子比較重要,其方差累計(jì)貢獻(xiàn)率達(dá)到了92.6%(>90%)符合主成分分析方差提取原則??紤]到因子較多時(shí),剔除主成分的第一行特征值小于1的因子,因此成分1~4 的因子是主導(dǎo)作用的。
表1 解釋方差
對(duì)篩選出的4 個(gè)主成分,經(jīng)計(jì)算得如下各標(biāo)準(zhǔn)化指標(biāo)前的特征向量表,如表2 所示。
表2 特征向量矩陣
將得到的特征向量與標(biāo)準(zhǔn)化后的數(shù)據(jù)相乘,可以得出各個(gè)主成分得分值。以每個(gè)主成分所對(duì)應(yīng)的特征值占總特征值的比例作為權(quán)重計(jì)算主成分綜合得分F,其中λi表示第i主成分因子的特征值。
得到綜合排名分F以及排名前5 的熱點(diǎn)問(wèn)題,如表3所示。
表3 熱點(diǎn)問(wèn)題表
本文的研究是針對(duì)智慧政務(wù)平臺(tái)的留言信息,結(jié)合所建模型以及算法對(duì)留言進(jìn)行了充分挖掘,原理可解釋性極強(qiáng),實(shí)驗(yàn)也表明其結(jié)果具有可靠性和有效性,非常適用于此類大量文本數(shù)據(jù)的情況。對(duì)熱點(diǎn)問(wèn)題的排名采用主成分分析法,很好消除了評(píng)價(jià)指標(biāo)之間的相關(guān)影響,減少了指標(biāo)選擇的工作量,且便于實(shí)現(xiàn)。
為了更好地對(duì)類似政務(wù)平臺(tái)單位進(jìn)行政務(wù)文本挖掘,解決文本熱點(diǎn)留言的挖掘問(wèn)題,推進(jìn)簡(jiǎn)化平臺(tái)的發(fā)展,對(duì)智慧政務(wù)留言信息文本進(jìn)行了詳細(xì)分析研究,具有一定的理論研究意義和廣泛的實(shí)際應(yīng)用價(jià)值。
對(duì)留言文本采用降維方式匹配篩選的綜合模型,如何精簡(jiǎn)所建模型及算法,同時(shí)對(duì)留言的情感語(yǔ)義進(jìn)行分析,是筆者們下一步的工作。