王英杰
(北京建筑大學 測繪與城市空間信息學院,北京100044)
網頁文本信息是非結構化數(shù)據(jù),文本格式自由多樣,內容更新頻繁,在不同文章環(huán)境下容易產生不同的意義。地理學名詞匯具有不同于基礎詞匯的形式與用法,往往蘊含著豐富專業(yè)信息,將地理學名詞引入文本分類可以有效提高對地理相關文本的分類結果。因此,本文針對文本分類提出了基于地理學名詞的特征權重計算方法,在分詞過程中識別地理學名詞使其不被分割,在向量空間模型表示中利用地理學名詞,重新分配特征權重從而提高分類器的性能,即提高與地理相關的文本信息分類的正確率。
文本分類或者稱為自動文本分類,是指計算機將載有信息的一篇文本映射到預先給定的某一類別或某幾類別主題的過程。文本分類另外也屬于自然語言處理領域。本文中文本和文檔不加區(qū)分,具有相同的意義。
文本分類的形式化定義如下:
地理學名詞反映了地理學內容的廣泛性,還反映了中國地理現(xiàn)象和中國地理學研究的特色,并對所有選定的地理學名詞進行了科學定義。針對地理學名詞的特點提出了本文文本分類的技術路線。
(1)利用爬蟲技術爬取百科平臺文本數(shù)據(jù),將文本統(tǒng)一化處理,得到待分類文本信息。
(2)在文本預處理過程中加入地理學名詞詞典,利用地理學名詞重新對文本分詞,一并得到統(tǒng)計量。
(3)基于地理學名詞提出新的特征權重計算公式,得到全新特征矩陣。
(4)在已有的基礎上使用K 近鄰算法作為分類器訓練方法,通過分類器得到文本分類。
以往TF-IDF 算法基本關注是特征項的詞頻和逆文本頻率這兩個指數(shù),而詞頻和逆文本頻率對于地理相關文本的特殊性是沒有任何意義的,所以根據(jù)文本中地理名詞的特殊性,使用其加入語料庫,可以解決文本分詞過程中出現(xiàn)的歧義問題,從而有效地提高文本分詞的準確率。并且根據(jù)特殊的語義產生的分詞能夠更有效地描述文本,使文本的向量空間模型更準確。因此本文針對現(xiàn)有的TF-IDF 算法,提出了基于地理學名詞的改進策略。
針對特征項長度改進權重:特征項的字數(shù)可以衡量該特征項是否重要,在文本分詞后的統(tǒng)計結果中,單字是頻率最高的,而多字的特征項則頻率較低。而且對于特征項而言,單字不能傳達有效的信息且難以用來作為文本信息的特征。而多字特征項卻本身所傳達的信息量多可以作為文本信息的特征,因此這一指標可以用來衡量特征項的權重。通常較長的特征用來表示特定的信息,例如“天安門”所傳達的信息就是特定地點,因此利用特征項長度改進權重。
本文基于地理學名詞在地理相關文本中的重要性及特殊性對其基礎上改進,提出了改進的權重算法公式:
其中l(wèi)en(t)是特征項的長度,將分子,分母同時加上len(t)將會提高特征項t 在文本d 中的權重。
基于改進特征項權重的文本分類流程:
(1)文本預處理得到文本分詞和文本詞典。
(2)特征處理包括特征頻率統(tǒng)計,特征評估,特征加權。
(3)將文本建立向量空間模型(向量表示)。
(4)輸入分類器得到分類結果。
實驗使用開源jieba 工具對原始數(shù)據(jù)進行分詞處理,利用傳統(tǒng)TFIDF 算法作為比照實驗。
通常文本分類的評價指標為精度(Precision)、召回率(Recall)和F1 得分(F1 score)。
精度(P)是正確分類樣本占總分類樣本數(shù)量的百分比,召回率(R)是正確分類樣本占某分類總樣本數(shù)量的百分比,F(xiàn)1 值是平衡查準率和查全率兩個不同分類效果指標,對某一類別。
類別 傳統(tǒng)TF-IDF (實驗1) 傳統(tǒng)TFIDF 結合改進權重 (實驗2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89
從上表中可得實驗二的準確率和召回率均比實驗一高且F1 得分平均值比實驗二的F1 得分平均值高5.54%,通過實驗對比可得,地理學名詞加入文本預處理可使分類有所提升,同時可以減少特征項的數(shù)量使向量空間模型的緯度降低。
本文基于傳統(tǒng)TF-IDF 算法,提出一種新的地理文本分類方法,根據(jù)地理特征名詞、和特征項長度因素改進了傳統(tǒng)TF-IDF 中的權值計算,針對不同特征項采取不同計算方式。最后通過數(shù)據(jù)分析及評價指標數(shù)值驗證該方法合理有效且效果較好。然而該方法尚未深入考慮待分類文本中未識別的地理特征項如何提取。