陳 莊,楊春玉
(重慶理工大學 計算機科學與工程學院, 重慶 400054)
面向監(jiān)理工程的文本分類技術研究
陳 莊,楊春玉
(重慶理工大學 計算機科學與工程學院, 重慶 400054)
針對監(jiān)理工程中文本文檔在管理過程中存在的一些困難,提出一種適用于監(jiān)理工程的文本分類方法,旨在提高管理效率,簡化工作方式。該方法在進行中文分詞處理時,使用通用詞典與手動構造的監(jiān)理工程專業(yè)詞典相結合的方式。對于特征提取,在使用TFIDF的基礎上,結合一定的規(guī)則來調整特征權重,并采用樸素貝葉斯分類算法來構造分類器。實驗結果表明:該方法在對監(jiān)理通知單分類問題上能滿足實質性的應用需求。
監(jiān)理工程;問題分類;TFIDF;特征二次加權;樸素貝葉斯
隨著監(jiān)理工程行業(yè)信息化程度的提高,監(jiān)理工程行業(yè)相關的文本大量積累。針對該情況,如何對雜亂無章的文本進行分類以便快速查找和管理是一個具有實際意義的研究課題。相對于傳統(tǒng)的企業(yè),監(jiān)理公司的數據分析對項目的順利進行有著極其重要的作用。監(jiān)理單位的數據分析工作是對包括監(jiān)理公司的內部管理活動及日常監(jiān)理資料、公司與外部主體交往的記錄內容的內、外兩大類數據綜合起來進行分析[2]。為進一步開展分析工作,對監(jiān)理工程文本資料采用文本挖掘中的相關技術進行處理。本文主要采用文本分類技術對監(jiān)理通知單進行分類,對監(jiān)理問題按照質量、進度、施工、其他問題進行分類。如果采用傳統(tǒng)人工分類方法進行分類工作,不僅耗費大量的時間與人力,而且效率低,引入自動分類機制將大大提升工作效率。
監(jiān)理工程的主要工作是“三控、兩管、一協調”,其中質量控制是人們首要的關注重點,而質量控制中最有價值的文檔就是監(jiān)理通知單。對監(jiān)理通知單出現問題的原因進行分類統(tǒng)計就可以了解整個工程中出現最多的問題類別,有助于對該類問題加強管理。同時,分類統(tǒng)計結果可以反映施工單位的企業(yè)素質和管理水平,對今后的招投標工作和公司經營活動有一定的指導作用,對推動監(jiān)理信息化進程,以及提升公司處理大量非結構化數據的能力具有一定的實際意義。本文提出了一種面向監(jiān)理工程的文本分類技術,改善了質量控制問題分類的效果。
1.1 分類流程
文本分類是文本挖掘中的重要子領域,它將文本文檔分配到一個或多個預定義的類或類別中[9]。文本分類過程主要分為2個階段:訓練和測試,具體主要包括中文分詞、去除停用詞、特征選擇、構造特征向量空間模型、模型訓練與評價。其中,特征選擇是分類過程中最為關鍵和重要的一步,它的好壞直接影響分類效果。分類過程如圖1所示。
圖1 文本分類過程
1.2 中文分詞和去除停用詞
領域專業(yè)文本包含較多的專業(yè)詞匯,僅使用通用詞典進行分詞的準確率不高,而專業(yè)領域詞典的制定確保了其權威性與完整性[7]。因此,應采用專業(yè)詞典和通用詞典相結合的方式進行詞切分。本文采用的監(jiān)理工程專業(yè)詞典主要來源于手工錄入。使用的監(jiān)理工程專業(yè)詞典部分詞匯包括熱軋板帶、吊車梁、板坯庫、塑鋼門窗、啃軌、加熱爐、腳螺栓孔、攪拌站等。
停用詞的處理就是對分詞后的詞集合與停用詞表進行匹配,匹配成功的詞則刪除,這些詞是一些對分類無意義的虛詞。
1.3 特征向量構建
文本分類算法不能直接在原始文本形式上處理。因此,需要在預處理階段將文本轉化為計算機能識別的信息,即對文本進行標識。目前,文本表示模型主要有布爾模型(boolean model)、概率模型(probabilistic model)、向量空間模型(vector space model)[3]。
本文采用最為廣泛使用的向量空間模型(VSM),其基本思想是將文本表示成向量空間中的向量,1個文本對應1個向量,文本間的相似性度量用向量之間的夾角余弦表示。文本用特征項集表示為:
d={t1,t2,…,tn}
其中:ti為特征項,1≤i≤n。根據各個特征項ti在文本中的重要程度為其賦予一定權重wk,這時文本表示為
d={t1,w1,t2,w2,…,tn,wn}
1.4 特征選擇
特征選擇通俗來說就是選取一些最能代表一篇文檔的詞或短語,它是文本分類中最為重要的一步。目前,較為常用的特征選擇算法有文檔頻率(DF)、TFIDF、互信息(MI)、卡方檢驗(CHI)、信息增益(IG)等[1]。其中,TFIDF算法是權重計算中經典的算法之一[8],本文采用TFIDF來計算特征權值。TFIDF的基本思想是假設一個詞或短語在一篇文檔中出現的頻率高,而在其他文檔中很少出現,則認為該詞或短語具有很好的類別區(qū)分能力,適用于分類。
常用的TFIDF計算公式如下:
其中:wdt是所計算的特征項的權值;fdt代表詞t在文檔d中出現的頻率,即詞頻TF;N表示所有的文檔數,nt表示出現詞t的文檔數,log(N/nt)表示逆文檔頻率IDF。
1.5 特征二次加權
從實際應用出發(fā),將文本分類系統(tǒng)應用于監(jiān)理工程的文本描述之中。通過查看訓練文本集,發(fā)現個別詞匯在文本分類過程中所起的作用較大,個別術語含義比較貼切,能反映此通知單所代表的問題所在。主要表現在以下2個方面:
① 特定位置。詞匯表現文本內容的強弱與詞匯在監(jiān)理通知單中的位置有一定聯系。例如,出現在“事由”后面部分的文字,通常具有代表此通知單具體是哪類問題的表象。
② 特定關鍵詞代表問題類別比較明顯。對于監(jiān)理通知單文本,由于數據集的樣本數量有限,有些詞匯集中出現在某一類別的文本中。根據相關經驗,這些詞匯很可能與某類別相關度較大,有益于文本分類,例如,“質量”“施工”“進度”等。
本文在使用TFIDF來計算特征權值后,對于集合中包含的這些特定關鍵詞加大權值,從而增大不同類別問題文本的區(qū)分度。基于此建立一個關鍵詞表KeyTable,對在特征項集合中出現過的關鍵詞增加權重w′。通過實驗發(fā)現,當w′=0.5時,實驗能取得較好的結果。
關鍵詞表KeyTable中的關鍵詞有“質量”“施工”“進度”“整改”“安裝”“措施”等。
從數學角度來說,分類問題可以形式地表示如下:
已知集合:c={y1,y2,y3,…,yn}和I={x1,x2,x3,…,xn},確定映射規(guī)則y=f(x),使得任意xi有且僅有一個yi∈c,使得yi=f(xi)成立。
其中,c稱為類別集合,類別集合中的每一個元素是一個類別;I稱為項集合,項集合中的每一個元素是一個待分類項,f為分類器。
本文采用樸素貝葉斯[4](naive Bayesian)分類算法。與其他算法相比,樸素貝葉斯分類算法較為簡單,且分類速度快,分類結果的準確率高。該方法的基本思想是:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,條件概率最大的,就認為待分類項屬于這個類別。
計算步驟如下:
① 假設x={t1,t2,t3,…,tn}為待分類項,其中ti為特征項;
② 有類別集合c={y1,y2,y3,…,yn};
③ 計算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x);
④ 如果P(yk|x)=MAX{P(y1|x),P(y2|x),…,P(yn|x)},則x屬于yk類。
其中,最為關鍵的一步是計算各個條件概率,計算過程可分解為以下步驟:
① 統(tǒng)計得到在各類別下各個特征項的條件概率估計值,即
② 假設各個特征項是條件獨立的,則根據貝葉斯定理有:
又因為各個特征項是條件獨立的,所以有:
P(x|yi)P(yi)=P(t1|yi)P(t2|yi)…
3.1 實驗數據
本文采用的實驗數據由重慶某監(jiān)理咨詢公司提供,包括5個工程項目中的監(jiān)理通知單,共計 1 579個文本。監(jiān)理問題分為4大類,質量問題占35.6%,施工問題占40.3%,進度問題占14.9%,其他問題占9.2%。問題分布情況如表1所示。
表1 問題分布情況
3.2 算法流程
輸入:待分類文本X,類別集合c={y1,y2,y3,…,yn},監(jiān)理通知單訓練集T。
輸出:待分類文本X的類別向量d(x)。
初始化:① 經過文本預處理階段得到特征項集合x={t1,t2,t3,…,tn};
② 由式(1)計算特征項集合x中每個特征項ti的權值wi,得到d={t1,w1,t2,w2,…,tn,wn};
③ 根據特征項二次加權方法,為出現在KeyTable中的特征項ti的權值wi加上w′;
④ 由步驟③得到新的文本向量d′;
⑤ 將訓練集T中所有的文本表示成向量;
⑥ 計算文本x與類別yi的相關度,即采用樸素貝葉斯分類方法計算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x)
⑦ 比較條件概率的大小P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則得到x的類別yk。
3.3 評價指標
實驗采用常用的查全率(recall)、查準率(precision)及F值來驗證分類器的性能[5]。查全率r=分類器在cj上分類正確的文本數/cj真正包含的文本數;查準率p=分類器在cj上分類正確的文本數/分類器識別為cj類的文本數;F值=2×查全率×查準率/(查準率+查全率)[1]。
3.4 結果分析
為了驗證改進后的方法在監(jiān)理通知單分類上的實用性和有效性,分別進行下面2組實驗。
實驗一:實用性
一般提取方法(即直接采用TFIDF算法加權)與特征二次加權方法進行對比分析。為保公正性,2種方法都采用同種分詞方法,即通用詞典結合專業(yè)詞典的分詞方法,分類算法也都采用樸素貝葉斯分類方法。對實驗所用的數據按照7∶3的比例劃分,分別為測試集和訓練集[6]。
采用一般提取方法的實驗結果如表2所示,特征二次加權后的實驗結果如表3所示。
表2 一般提取方法 %
表3 特征二次加權方法 %
通過表2、3的對比可以得知:特征二次加權方法與直接使用TFIDF方法的分類結果在查全率和查準率上均有提高,都達到了預期的結果,有一定的實用價值。其中,質量問題與施工問題這兩個類別的改善情況比較樂觀,而另外兩個類別的效果不是很明顯。另外,施工問題的樣本數量本身較多,再加上可以羅列的關鍵詞也較多,因此它的準確率提高得相對明顯。
實驗二:有效性
由實驗一可知:改進后的方法對監(jiān)理通知單文本分類的結果有一定影響,為了降低偶然性,使用改變訓練樣本與測試樣本的比例的方法進行多次實驗,從而驗證其有效性。用F值作為對比數據。圖2為采用不同樣本比例所得到的對比結果。
圖2 不同訓練樣本比例2種方法的F值對比
從圖2可以看出:改進后的算法F值隨訓練樣本容量的增加呈上升趨勢,取值范圍為71.5%~84%??傮w而言,改進算法相對于未改進前提升了性能,表明改進后的算法是有效的。
以上實驗結果說明:結合使用專業(yè)詞典和特征二次加權的方法在監(jiān)理通知單文本分類的具體應用方面具有一定的提升作用。但是實驗二顯示:F值均小于85%,表明該算法仍存在一定的提升空間。
本文在原有文本分類方法上結合監(jiān)理工程自身的一些特點,提出了一種適用于監(jiān)理工程的文本分類方法,主要包括2點:① 針對中文分詞詞典存在未登錄詞匯,采用通用詞典與專業(yè)詞典相結合的方式,提高了分詞的準確性;② 在特征提取的過程中,基于使用TFIDF計算特征權重進行了特征二次加權,增大了類別區(qū)分度,使分類結果更準確。經過實驗驗證,表明改進后的方法在實用性和有效性方面都有所提高,能滿足實際需求。
[1] 宋阿羚,劉海峰,劉守生.基于位置及詞頻信息的優(yōu)化CHI文本特征選擇方法[J].計算機科學與應用,2015,5(9):322-330.
[2] 胡毅.通過數據分析強化監(jiān)理信息的管理工作[J].邏輯學研究,2005,25(4):271-274.
[3] 徐濤,于洪志,加羊吉.基于改進卡方統(tǒng)計量的藏文文本表示方法[J].計算機工程,2014,40(6):185-189.
[4] 張亞萍,陳得寶,侯俊欽,等.樸素貝葉斯分類算法的改進及應用[J].計算機工程與應用,2011,47(15):134-137.
[5] 樊存佳,汪友生,邊航.一種改進的KNN文本分類算法[J].國外電子測量技術,2015,34(12):39-43.
[6] 伍洋,鐘鳴,姜艷,等.面向審計領域的短文本分類技術研究[J].微電子學與計算機,2015,32(1):5-10.
[7] 董麗麗,魏勝輝.一種面向機械領域文本分類器的設計[J].微電子學與計算機,2012,29(4):142-145.
[8] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(b06):167-170.
[10] ZHANG H,ZHONG g G.Improving short text classification by learning vector representations of both words and hidden topics[J].Knowledge-Based Systems,2016,102:76-86.
(責任編輯楊黎麗)
StudyonTextCategorizationTechnologyforSupervisionEngineering
CHEN Zhuang, YANG Chunyu
(College of Computer Science and Engineering,Chongqing University of Technology, Chongqing 400054, China)
In order to solve the problems of management, such as query, statistics and confusion, a text categorization method is proposed to improve the management efficiency and simplify the working mode. Firstly, in Chinese word processing, supervision of professional dictionary uses generic dictionary with manually constructed combination; and then for feature extraction based on the use of TFIDF, according to certain rules to adjust the weights of features, finally we construct the classifier using Naive Bayesian classification algorithm. The experimental results show that this method can meet the practical application requirements in the classification of supervision notice.
supervision engineering; problem categorization; TFIDF; twice weighting for feature; Naive Bayesian
2017-06-22
重慶市研究生科研創(chuàng)新項目(CYS16222);重慶理工大學研究生創(chuàng)新基金資助項目(YCX2016229)
陳莊(1964—),男,博士,教授,主要從事企業(yè)信息化管理、網絡與信息安全研究,E-mail:cz@cqut.edu.cn。
陳莊,楊春玉.面向監(jiān)理工程的文本分類技術研究[J].重慶理工大學學報(自然科學),2017(10):187-191.
formatCHEN Zhuang, YANG Chunyu.Study on Text Categorization Technology for Supervision Engineering[J].Journal of Chongqing University of Technology(Natural Science),2017(10):187-191.
10.3969/j.issn.1674-8425(z).2017.10.030
TP391
A
1674-8425(2017)10-0187-05