• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的公安情報自動分類系統(tǒng)模型設計

      2012-09-17 09:43:46譚敏范強
      網(wǎng)絡安全技術與應用 2012年7期
      關鍵詞:情報公安預處理

      譚敏 范強

      湖南警察學院計算機系 湖南 410138

      0 前言

      在傳統(tǒng)的公安情報工作中,公安業(yè)務人員每天都要面臨著大量的情報文本,它們來自不同的渠道,例如:110接處警信息,公安偵查人員搜集的信息,公安內(nèi)網(wǎng)發(fā)布的信息,互聯(lián)網(wǎng)的公開信息等等。據(jù)統(tǒng)計一個普通市級的公安部門每天就會接到幾千條,上萬條的情報信息。對于這些情報,公安機關需要安排專門的人員進行整理,以便及時分析研判情報,發(fā)布有價值的情報給上級部門和下屬的單位。這不僅耗費了大量的警力資源,同時由于工作的繁重和工作人員自身認知的差異也會造成情報整理分析的延誤和疏漏,造成不同程度上的損失。

      針對傳統(tǒng)的公安情報工作的不足,研究文本自動分類技術,設計公安情報自動分類模型,實現(xiàn)公安情報文本的快速自動分類,即將偵查部門采集到的情報文本按照一定的策略自動歸類到已經(jīng)設定的類別之中??梢允勾罅康木瘑T擺脫繁重的手工識別情報工作,降低分類成本、改善分類性能(如提高分類精度和推廣性),并提高情報文本分類的效率,為進一步的情報加工處理提供支持。為在新形勢下,建立和完善信息化、自動化的情報體系,推動“情息主導警務”戰(zhàn)略的落實具有重要的現(xiàn)實意義。

      1 相關技術

      1.1 Agent 技術

      Agent技術是人工智能領域中的一個重要分支,以其所具有的智能性、自主性、交互性和可移動性等優(yōu)點在許多研究領域中受到了重視。軟件Agent 是能夠與環(huán)境交互的自主軟件實體,較之軟件對象概念具有更多的知識,具有更強的問題求解和自治能力。它可以分為單 Agent 系統(tǒng)和多Agent(Multi-Agent)系統(tǒng)。多Agent系統(tǒng)是由一組獨立但又協(xié)同工作的Agent構成。各Agent 相互協(xié)商和協(xié)作,以完成某一共同任務。

      1.2 文本分類過程

      一般來講,文本分類過程需要解決以下幾個問題:

      (1) 文本預處理

      由于文檔都是非結構化的, 而且文檔的內(nèi)容是人類所使用的自然語言, 計算機很難處理其語義, 因此要進行必要的文本預處理。文本預處理是指把文本轉化為原始特征空間中元素的序列。對于不同語言書寫的文本,預處理過程和復雜程度不同。比如對于英語,預處理主要是去掉停用詞,還原詞形為詞干,得到“干凈”的文本。而對于中文,由于中文詞語是連續(xù)書寫,采用詞語作為特征項需要先從連續(xù)的文本中分離出一個個的詞語來,所以預處理階段的主要工作是分詞和去停用詞。

      (2) 特征選擇

      目前,在信息處理方向上,文本的表示主要采用向量空間模型(VSM)。構成文本的詞匯,數(shù)量通常相當大,因此,表示文本的向量空間的維數(shù)也相當大,可以達到幾萬維,所以有必要對于所獲取的特征進行篩選和優(yōu)化,從特征的全集中提取一個最優(yōu)的特征子集。特征提取的目的就是盡量地保留有用特征,剔除無用特征,它通常會采用某種標準對特征的重要性進行評價,之后只要保留重要程度較高的特征即可,特征提取的好處為提高分類效率和提高分類精度。文本的特征提取一般是構造一個評價函數(shù), 對特征集中的每個特征進行獨立的評估, 提取的方法有多種, 可以使用不同的評價函數(shù), 如: 詞頻DF( document frequency threshold) 、信息增益 IG ( information gain) 、互信息 M I ( mutual information) 、期望交叉熵( expected cross entropy) 、文本證據(jù)權( the weight of evidence for text) 等, 其中詞頻和互信息應用較廣。

      (3) 文本向量表示

      文本的特征表示是指用文本的特征信息集合來代表原來的文本。文本的特征信息是關于文本的元數(shù)據(jù), 可以分為外部特征和內(nèi)容特征兩種類型。其中外部特征包括文本的名稱、日期、大小、類型、文本的作者、標題、機構等信息,文本的內(nèi)容特征包括主題、分類、摘要等特征。目前,文本的向量表示主要采用向量空間模型(vector Space Model,VSM),在該模型中,每一對象模型轉化為空間中的點,兩對象間的差異由多維空間中兩點間的距離表示。它的基本思想是以向量來表示文本。目前存在多種VSM權重計算公式,其中被廣泛采用的是TF一IDF公式。

      (4) 選擇分類方法

      選擇分類方法實際上就是要使用某種方法,建立從文本特征(或?qū)傩?到文本類別的映射關系,是文本分類的核心問題?,F(xiàn)有的分類方法主要來自兩個方面:統(tǒng)計和機器學習,比較著名的文本分類方法有KNN, NaiveBayes,SVM等等。

      (5) 性能評測

      文本分類系統(tǒng)的建立,需要對系統(tǒng)使用的分類方法或選用不同參數(shù)下的分類器的性能進行評價,性能評價對改進和完善分類系統(tǒng)也具有指導意義。對文本進行分類可以看作是一種機器學習的過程, 機器學習中常用的評估標準有分類正確率(classification accuracy),查準率( precision)與查全率(recall),查準率與查全率的幾何平均數(shù),信息估值(information score),興趣性( interestingness)等。

      2 公安情報自動分類系統(tǒng)模型

      基于支持向量機的公安情報自動分類分為情報預處理、特征提取、核函數(shù)選擇、支持向量機構造、公安情報分類、質(zhì)量評估等步驟。

      在分析公安情報分類主要過程的基礎上,可以結合當前比較先進的多Agent 的思想,來構建公安情報分類系統(tǒng)。即建立多個具有較高智能和自治能力的 Agent,每一個 Agent都能獨立完成公安情報自動分類系統(tǒng)中的某項功能,而 Agent之間則通過共享資源、相互協(xié)作、相互服務,共同完成整個任務,使得整個系統(tǒng)能夠具有自主性、主動性、反映性、可動性、協(xié)同性和智能性,從而取得最佳的效果(圖1)。

      圖1 公安情報自動分類系統(tǒng)模型

      2.1 情報預處理Agent

      情報預處理Agent的主要任務是將公安信息語料按照一定比例分為訓練文本和測試文本兩類。再分別對訓練文本和測試分類文本進行分詞、去停用詞和詞性標注等預處理工作,此時得到的語料信息作為文本特征全集構成原始的特征空間。

      2.2 特征提取Agent

      將中文文本進行分詞后,通常每篇文本都對應著數(shù)量龐大的詞條,若直接用這些詞條組成向量,不僅維數(shù)太高,而且其中也包含了過多的干擾信息和冗余詞條,一方面影響算法的分類準確率,另一方面也增加了計算量,降低了算法的分類效率。為此,在不影響文本分類準確率的前提下,對分詞后的詞語進行選擇,只保留那些在文檔中表現(xiàn)能力強、與文本主題密切相關的對分類有貢獻的詞條。

      特征提取Agent 的主要任務是,在進行分類處理之前,對情報文本中出現(xiàn)的詞條及其權值進行選取,以便將非結構化的文本表示成計算機學習和分類算法可以識別的形式。

      在文本分類中,用于特征選擇的統(tǒng)計量主要包括特征頻度、文檔頻度、特征熵、互信息、信息增益、X2 統(tǒng)計量、期望交叉熵、文本證據(jù)權等。這些方法的基本思想是給每一個特征詞統(tǒng)計一定規(guī)則下的度量值,并根據(jù)實際情況設定某一閥值,然后去掉那些度量值小于閥值的詞條,保留度量值大于閥值的詞條作為特征詞。對于不同的分類算法, 各種特征提取方法的效率都不盡相同。根據(jù)研究,對支持向量機分類方法來說,信息增益和X2統(tǒng)計量的方法要優(yōu)于其他幾種。

      2.3 核函數(shù)選擇Agent

      要構造出一個具有良好性能的 SVM,核函數(shù)的選擇是關鍵。采用適當?shù)暮撕瘮?shù)可以在不增加計算復雜度的情況下實現(xiàn)某一非線性變換后的線性分類,核函數(shù)的這一特點提供了解決“維數(shù)災難”的方法。核函數(shù)的選擇包括兩部分:一是核函數(shù)類型的選擇;二是確定核函數(shù)類型后相關參數(shù)的選擇。

      核函數(shù)選擇 Agent 的主要任務是選擇適當?shù)暮撕瘮?shù)作為構造支持向量機的基礎。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和 Sigmoid 核函數(shù)等,它們各有不同的優(yōu)點和適用場合。徑向基核函數(shù)具有良好的性能,在缺乏問題先驗知識時其適應性是最好的,它能夠處理非線性的情況,而在參數(shù)取某些特定值時,又和線性核函數(shù)或Sigmoid 核函數(shù)的性能相似。徑向基核函數(shù)的另一個優(yōu)點是它只有一個核參數(shù),比多項式核函數(shù)和 Sigmoid 核函數(shù)的參數(shù)少,在選擇參數(shù)時比較方便。

      2.4 支持向量機構造Agent

      支持向量機的目標是找到一個超平面,使得它能夠盡可能多的將兩類數(shù)據(jù)點正確分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠。支持向量機構造Agent 的主要任務是在經(jīng)過核函數(shù)映射的高維空間內(nèi),按照模式識別、統(tǒng)計學習和最優(yōu)化理論闡述的有關方法,針對訓練樣本集構造最優(yōu)分類超平面,從而求解出符合結構風險最小化原則的最佳分類函數(shù),構造支持向量機分類器。支持向量機的主要優(yōu)點是將降維和分類兩個問題集中處理。研究表明,支持向量機的分類性能超過其它分類算法,而且訓練速度與 Rocchio 算法相當。

      2.5 分類Agent

      公安情報分類 Agent 的主要任務是通過由訓練樣本構造出來的支持向量機來對情報文本進行分類。標準 SVM 最基本的理論是針對二分類問題,然而,在實際應用中有許多分類問題,要解決多分類問題必須輔以一定的策略,常用的方法有:標準算法、一對一方法、k 類 SVM 方法、決策導向循環(huán)圖方法。

      2.6 性能評測Agent

      質(zhì)量評估Agent的主要任務是對通過情報分類得到的分類結果和分類模式進行評價解釋。查準率和查全率是最為傳統(tǒng)、也是應用最多的兩個評價指標。查準率體現(xiàn)了系統(tǒng)分類的準確程度,查全率體現(xiàn)了系統(tǒng)分類的完備性。查準率和查全率兩個評價標準通常情況下是互補的,單純提高其中一個指標會導致另一個指標的下降。理論上講,一個優(yōu)良的分類系統(tǒng)應該同時具備較高的查準率和查全率。但實際上,大多數(shù)系統(tǒng)需要在二者之間做出一些折衷,以免某個指標過高或過低。

      3 總結

      本文在深入研究文本自動分類技術和多Agent技術的基礎上, 結合公安情報的分類需求, 基于支持向量機(SVM)設計了公安情報自動分類系統(tǒng)模型。多Agent文本分類是對以往多種文本分類方法賦予其智能性的系統(tǒng)集成,盡管研究工作離實用尚有一段距離,但不失為文本分類的一條新的研究途徑。

      [1]趙天昀.多分類SVM在企業(yè)競爭情報自動分類中的應用[J].現(xiàn)代情報.2008.

      [2]吳紹忠.WEB信息挖掘與公安情報收集[J].中國人民公安大學學報.2006.

      [3]閆超.基于 SVM 的中文文本自動分類系統(tǒng)的研究與實現(xiàn)

      [D].太原:太原理工大學碩士學位論文.2010.

      [4] 牛琳.基于 SVM 的公安情報自動分類系統(tǒng)的設計與實現(xiàn)[D].解放軍信息工程大學碩士學位論文.2007.

      [5]熊浩勇.基于 SVM 的中文文本分類算法研究與實現(xiàn)[D].武漢理工大學碩士學位論文.2008.

      [6]王賢川.基于知網(wǎng)的文本分類算法研究及應用[D].南京:江蘇大學碩士學位論文.2009.

      [7]岑杰.面向情報領域的文本自動分類系統(tǒng)的設計于實現(xiàn)[D].西安:西安電子科技大學碩士學位論文.2008.

      猜你喜歡
      情報公安預處理
      情報
      情報
      情報
      “老公安”的斂財“利器”
      基于預處理MUSIC算法的分布式陣列DOA估計
      制導與引信(2017年3期)2017-11-02 05:16:56
      “10歲當公安”為何能暢通無阻
      公安報道要有度
      新聞傳播(2016年20期)2016-07-10 09:33:31
      淺談PLC在預處理生產(chǎn)線自動化改造中的應用
      絡合萃取法預處理H酸廢水
      交接情報
      石河子市| 屯昌县| 昭通市| 锡林郭勒盟| 浦县| 东乡族自治县| 唐河县| 巍山| 朝阳县| 永福县| 岚皋县| 沽源县| 福鼎市| 雅安市| 琼结县| 民丰县| 醴陵市| 麻江县| 宜良县| 屯留县| 上杭县| 大港区| 高清| 临沭县| 海阳市| 德兴市| 淅川县| 宣武区| 达日县| 河间市| 伽师县| 安塞县| 彭州市| 巩义市| 霍州市| 广南县| 沂水县| 金坛市| 温宿县| 阿鲁科尔沁旗| 长白|