• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于信息論的文本數(shù)據(jù)挖掘算法

    2017-07-05 17:10:45方玉峰
    電子技術與軟件工程 2017年12期
    關鍵詞:信息論準確度數(shù)據(jù)挖掘

    方玉峰

    摘 要隨著互聯(lián)網(wǎng)技術的快速發(fā)展和應用,很多領域已經(jīng)積累了海量數(shù)據(jù)資源,文本數(shù)據(jù)占據(jù)了85.6%,因此文本數(shù)據(jù)挖掘和分析成為人們研究的熱點,并且引起了百度、Google、京東、騰訊等互聯(lián)網(wǎng)公司關注??梢栽谖谋緮?shù)據(jù)挖掘中引入支持向量機、BP神經(jīng)網(wǎng)絡、K均值算法,但是這些算法需要依賴經(jīng)驗知識,不能夠從多維度挖掘文本數(shù)據(jù)。因此,為了解決上述問題,本文提出構建一種基于信息論的文本數(shù)據(jù)挖掘算法,該算法可以從海量文本數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價值的信息,提高文本分類的準確度。

    【關鍵詞】信息論 文本數(shù)據(jù) 數(shù)據(jù)挖掘 準確度

    1 引言

    文本數(shù)據(jù)挖掘包括兩個大類別,一種是有監(jiān)督學習方法,比如BP神經(jīng)網(wǎng)絡、支持向量機、貝葉斯理論;一種是無監(jiān)督學習方法,比如譜聚類、密度聚類、K均值、信息論等方法。有監(jiān)督文本數(shù)據(jù)挖掘方法需要利用人們的經(jīng)驗,預先構建一個分析模型,然后盡可能地提高這個學習模型的準確性,從而保證文本數(shù)據(jù)挖掘的精確度;無監(jiān)督學習方法卻不需要任何先驗知識,系統(tǒng)自動地將文本數(shù)據(jù)按照不同的關注角度進行分類。

    2 文本數(shù)據(jù)處理發(fā)展現(xiàn)狀

    文本數(shù)據(jù)處理自從誕生之后,從簡單的人工標注發(fā)展到當前的自動挖掘,文本數(shù)據(jù)挖掘取得了顯著的應用成效。本文結(jié)合筆者實踐知識,簡要介紹BP神經(jīng)網(wǎng)絡、支持向量機、K均值三種具有代表性的文本數(shù)據(jù)挖掘算法。BP神經(jīng)網(wǎng)絡能夠按照統(tǒng)計學規(guī)則,實現(xiàn)文本數(shù)據(jù)處理,輸入層可以接收所有數(shù)據(jù),并且將這些數(shù)據(jù)傳輸給中間層的神經(jīng)元,神經(jīng)元負責數(shù)據(jù)信息處理、變換,并且能夠根據(jù)信息變化能力的需求,改變和整合中間層結(jié)構。文本數(shù)據(jù)流經(jīng)過識別和處理之后,就可以從中間層分發(fā)到輸出層,這樣就可以完成一次學習過程,將BP神經(jīng)網(wǎng)絡訓練成為一個準確度非常高的模型,還可以通過誤差梯度下降等修正各個層次的權值,向隱藏層逐級反饋,實現(xiàn)反向傳播和修正,提高文本數(shù)據(jù)識別精確度。支持向量機是一種基于統(tǒng)計學習理論的模式識別算法,是一個二類分類模型,在文本數(shù)據(jù)分析過程中,可以將文本數(shù)據(jù)劃分為正常數(shù)據(jù)或非法數(shù)據(jù),并且可以對文本數(shù)據(jù)進行深度分析。支持向量機是一種性能強大的文本數(shù)據(jù)分析技術,其可以解決樣本數(shù)量較少、非線性或高維模式數(shù)據(jù)分析的問題,比如推廣到函數(shù)擬合的其他類型數(shù)據(jù)分析問題中,可以更好地分析數(shù)據(jù)、識別模式,用于分類和回歸分析。K均值(K-means)算法是一種基于距離的聚類算法,其可以把距離作為相似性評價和度量指標,采用無監(jiān)督學習模式,通常兩個文本數(shù)據(jù)對象的距離越近,這兩個文本數(shù)據(jù)對象的相似性就會越高,不需要指定數(shù)據(jù)的類別標簽就可以獲取文本內(nèi)部結(jié)構,將文本數(shù)據(jù)匯聚在一起,實現(xiàn)數(shù)據(jù)解釋。

    3 一種基于信息論的文本數(shù)據(jù)挖掘算法設計

    在信息論中,熵是最基本的概念之一,熵可以用來度量隨機變量中的各種不確定性,服從p(x)分布的離散隨機變量X的熵H(X)的計算過程如公式1所示。

    (1)

    互信息可以描述任意兩個概率分布之間的信息量,假設給定了任意兩個隨機變量(X,Y)服從概率分布p(x,y),同時變量X的邊緣概率分布p(x)=∑Y p(x,y),變量Y的邊緣概率分布p(y)=∑X p(x,y),則隨機變量X和隨機變量Y之間包含的互信息如公式2所示。

    (2)

    其中,如果隨機變量X和隨機變量Y之間是相互獨立的,則兩個隨機變量之間的互信息I(X;Y)=0。

    在使用文本數(shù)據(jù)挖掘算法的過程中,可以使用變量X描述文本數(shù)據(jù)對象集合,x可以具體指代某一篇文檔;使用變量Y描述單詞特征變量集合,y可以具體指代某一篇文檔的單詞特征。基于互信息的文本信息處理算法從X和Y兩個方向開始聚類,詳細描述如下:

    從X方向挖掘文本數(shù)據(jù)過程中,可以將Y作為相關信息;從Y方向挖掘特征數(shù)據(jù)過程中,可以將X作為相關信息;X和Y在聚類過程中都是動態(tài)地減少,如果將所有的文本數(shù)據(jù)劃分為多層聚類模式,就可以更加準確地挖掘數(shù)據(jù)內(nèi)容,實現(xiàn)對數(shù)據(jù)的操作和處理。具體地,為了能夠度量文本數(shù)據(jù)挖掘的內(nèi)容,可以把互信息作為信息保存的量進行設置,如果互信息損失達到閾值,則可以停止算法執(zhí)行。

    為了能夠驗證本文算法的有效性,采用Lang收集2000篇信息文檔進行實驗,分為9個子數(shù)據(jù)集,每一個文本數(shù)據(jù)集包含了500篇文檔,Binary_1,2,3表示擁有兩個真實類別的文檔數(shù)據(jù)集;Multi5_1,2,3可以描述擁有五個真實類別文檔數(shù)據(jù)集;Multi10_1,2,3可以描述擁有十個真實類別文檔數(shù)據(jù)集。通常情況下,文本數(shù)據(jù)挖掘采用精確度作為評價算法運行結(jié)果的標準,算法運行結(jié)果精確度評價公示如公式3所示。

    (3)

    其中,t∈T,其可以描述相關的數(shù)據(jù)對象;c∈C,其可以描述相關的類別號或簇標號;A1(c,T)可以描述相關的已經(jīng)正確分配到c中的文檔或元組的數(shù)量;A2(c,T)可以描述相關的算法不正確的分配到c中的文檔或元組的數(shù)量;A3(c,T)可以描述相關的不正確的沒有分配到c中的文檔或元組的數(shù)量。

    4 結(jié)束語

    實驗結(jié)果顯示,本文提出的基于信息論的文本數(shù)據(jù)挖掘算法可以精準發(fā)現(xiàn)文檔類別,文本數(shù)據(jù)挖掘精確度達到了96.7%,能夠根據(jù)用戶的輸入請求推薦更加準確地挖掘結(jié)果,可以為百度搜索、搜狗、騰訊、京東等網(wǎng)站的搜索引擎提供服務,具有重要的作用和意義。

    參考文獻

    [1]黃蓉.基于聚類分析的數(shù)據(jù)挖掘方法研究[J].山東農(nóng)業(yè)大學學報(自然科學版),2017,48(01).

    [2]張軍,劉文杰.一種新的基于鄰居樣本分布特征的異常值檢測算法研究[J].科技通報,2017(01):86-88.

    [3]尹治華,張大鵬,譚明,等.一種改進的基于FP-Tree的高效挖掘最大頻繁項目集算法[J].濟南大學學報:自然科學版,2017,31(02).

    作者單位

    云南科技信息職業(yè)學院 云南省昆明市 650224

    猜你喜歡
    信息論準確度數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    幕墻用掛件安裝準確度控制技術
    建筑科技(2018年6期)2018-08-30 03:40:54
    基于超像素和信息論的SAR圖像目標檢測研究
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
    電力與能源(2017年6期)2017-05-14 06:19:37
    動態(tài)汽車衡準確度等級的現(xiàn)實意義
    安全通論(11)——《信息論》、《博弈論》與《安全通論》的融合:刷新您的通信觀念
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
    微生物二元網(wǎng)絡作用關系研究
    高爐重量布料準確度的提高
    天津冶金(2014年4期)2014-02-28 16:52:58
    對電子天平的誤差及保證其稱量準確度的探討
    機電信息(2014年35期)2014-02-27 15:54:30
    民县| 台中县| 平度市| 武宣县| 塔河县| 靖西县| 临沂市| 黑龙江省| 兰西县| 车险| 曲周县| 利川市| 阿合奇县| 绵阳市| 许昌市| 徐水县| 高淳县| 邵阳县| 乌兰县| 常德市| 竹北市| 金山区| 凤冈县| 蒲江县| 尉犁县| 乌拉特中旗| 凭祥市| 贵德县| 盐津县| 伊宁县| 资源县| 清原| 忻城县| 武冈市| 柳江县| 石柱| 华坪县| 寿光市| 荣昌县| 泰兴市| 红桥区|