• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文文本挖掘的流程與工具分析

      2019-11-30 12:35:50李果
      科技創(chuàng)新導(dǎo)報 2019年19期
      關(guān)鍵詞:中文文本挖掘工具

      李果

      摘? ?要:文本挖掘技術(shù)在各行業(yè)的應(yīng)用價值高、范圍廣,中文文本跟西方語言相比本身具有很大的特點(diǎn),因此本文的研究內(nèi)容是針對于中文文本展開的。首先對文本挖掘的基本含義和狀況做了簡要概述,對于中文文本挖掘的概念和流程做了詳細(xì)介紹,對于其中所包含的重點(diǎn)步驟做了詳細(xì)分析,包括特征提取以及算法等。介紹了R中文本挖掘相關(guān)的包,以及CHQ'S文本多分類系統(tǒng)。希望可以加強(qiáng)對于中文文本數(shù)據(jù)處理與使用的研究。

      關(guān)鍵詞:中文? 文本挖掘? 流程? 工具

      中圖分類號:G254? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)07(a)-0142-02

      隨著互聯(lián)網(wǎng)越來越普及,各式各樣的文本層出不窮,這種文本的數(shù)據(jù)處理跟以前相比增加了不小的難度,但是這種文本數(shù)據(jù)反映的是人的行為以及思想,這正是它的價值所在。在實(shí)際生活當(dāng)中,文本數(shù)據(jù)庫中所存在的大部分信息都是以文本形式來存儲的,而且該數(shù)據(jù)庫中包含了各種數(shù)據(jù)文檔,有的是書籍,有的是文章,有的是網(wǎng)頁等等。文本信息隨著互聯(lián)網(wǎng)的發(fā)展在飛速增長,因此文本挖掘在信息領(lǐng)域有著重要的研究意義。

      文本挖掘的前景非常明了,國內(nèi)的多數(shù)學(xué)者以及專家對此都做了很多研究,首先我們開始介紹它的相關(guān)概念以及文本挖掘所要遵循的流程。

      1? 文本挖掘概念

      文本挖掘具體指的就是從大量文本數(shù)據(jù)信息當(dāng)中提取到用戶感興趣的或者對用戶有一定幫助作用的信息的一個過程。業(yè)內(nèi)對于文本挖掘的基本定義為:文本挖掘指的是從海量的文本數(shù)據(jù)庫當(dāng)中提取人們無法預(yù)知但是能夠理解的且最終能夠?yàn)樽约嚎捎玫男畔⒌囊粋€過程,利用這些所提取到的信息,可以為自己將來的行動做一定的參考。

      文本挖掘起源于數(shù)據(jù)挖掘,因此文本挖掘的定義跟數(shù)據(jù)挖掘的定義幾乎大同小異。但是在本質(zhì)上跟傳統(tǒng)的數(shù)據(jù)挖掘相比又有著自身獨(dú)特之處,文檔本身屬于一種非結(jié)構(gòu)化的數(shù)據(jù),這種文本的形式非常隨機(jī)且機(jī)器很難理解它的準(zhǔn)確定義;而數(shù)據(jù)挖掘的對象主要面對的是結(jié)構(gòu)化的數(shù)據(jù),這種數(shù)據(jù)的形式是確定的,因此相對于文本挖掘來說,并不能夠全拿照搬,某些方法對于文本挖掘是適用的,有些技術(shù)并不適用。

      總之來說,對于以文本形式所存儲的數(shù)據(jù)信息必須提取其特征,從所提取的特征當(dāng)中分析得出我們所需要的信息,根據(jù)這些信息搭建相應(yīng)的模型。

      2? 中文文本挖掘流程

      中文文本挖掘跟西方語言文本相比也有這天壤之別,因此文本挖掘的步驟也不一樣,中文文本挖掘包括以下幾個過程:

      (1)數(shù)據(jù)來源:文本挖掘就是從數(shù)據(jù)來源開始,文本數(shù)據(jù)的來源包含多種,比如說網(wǎng)頁、郵件、圖書以及文章和文獻(xiàn)等等,這些不同的形式都包含了豐富的文本信息。

      (2)文本預(yù)處理:首先得需要提取信息的文本進(jìn)行整理,整理好之后進(jìn)行相關(guān)解析操作,解析過程中把握好分詞這個關(guān)鍵點(diǎn)。通過這個關(guān)鍵點(diǎn)以及所應(yīng)用的語音分析算法或者工具可以對相應(yīng)的文本結(jié)構(gòu)進(jìn)行處理。

      (3)文本挖掘:在完成上述操作之后,可以利用數(shù)據(jù)分析以及積極學(xué)習(xí)的各種算法提取我們所需要的信息。

      (4)模式評估與展現(xiàn):這是文本挖掘的最后一個過程,利用之前已經(jīng)定好的參考標(biāo)準(zhǔn)對獲取信息的方式進(jìn)行評價。如果評價結(jié)果達(dá)到標(biāo)準(zhǔn),就可以將該模式呈現(xiàn)給用戶。

      文本挖掘過程中有兩個比較重要的步驟就是特征提取和挖掘分析,本文主要研究的過程是對文本進(jìn)行如何分類,下面對這兩個重要的步驟進(jìn)行相應(yīng)分析。

      2.1 特征提取及降維

      TF-IDF在文本挖掘過程當(dāng)中使用比較廣泛,它的主要目的是評估一份文件當(dāng)中哪些詞比較重要。其中TF指的是該詞出現(xiàn)的次數(shù),IDF是逆向文件頻率。

      這個統(tǒng)計(jì)方法的定義比較容易理解,如果某個詞在文本當(dāng)中出現(xiàn)的次數(shù)很多,那么這個詞往往就是關(guān)鍵詞,但是如果在文件集當(dāng)中出現(xiàn)的頻率增加,那么它的重要性相反會降低。對于某一個特定詞語來說,如果在某一個具體文件當(dāng)中頻繁出現(xiàn),但是其他文檔當(dāng)中卻很少包含這個詞語,那么對于不同文本來說就很容易區(qū)分,這樣選擇出來的特征就能夠更直觀的體現(xiàn)出某一類文本。此外,TF-IDF方法計(jì)算的是詞出現(xiàn)的頻率,因?yàn)椴煌奈谋居虚L有短,如果按照詞的數(shù)量來計(jì)算的話,某些比較長的文本當(dāng)中包含該詞語的次數(shù)肯定比短的文本多。

      按照TF-IDF的方法有多種不同的數(shù)學(xué)公式來計(jì)算,應(yīng)用最為廣泛的公式如下:

      這種方法本身沒有那么復(fù)雜,而且定義相對簡單,因此在文本挖掘過程中應(yīng)用非常普遍。但同時它也存在一些缺點(diǎn),因?yàn)閷τ诓煌奈臋n,不同的位置所出現(xiàn)的詞語的重要性是各不一樣的,這種方法并沒有考慮到這點(diǎn)。

      2.2 常用分類算法

      (1)Vapnik根據(jù)統(tǒng)計(jì)學(xué)理論提出了一種新的解讀學(xué)習(xí)算法,叫做SVM,在分類問題當(dāng)中這種算法應(yīng)用較為普遍。它的理論比較簡明,而且對于分類問題能夠達(dá)到比較理想的效果。換句話說,這種理論就是找一個能夠使兩個不同類的集合盡可能分開的超平面,同時也是讓M argin達(dá)到最大。

      (2)除此之外,還有一個比較常用的分類算法就是決策樹,這種分類算法能夠很容易讓人理解。它的基本思想是把每一個節(jié)點(diǎn)都看作一個特征,通過這些不同的特征逐漸的建立起分類模型。

      3? 中文文本挖掘工具

      現(xiàn)在已經(jīng)有很多學(xué)者對文本挖掘展開了相關(guān)研究,跟此有關(guān)的文獻(xiàn)以及著作比較多。接下來要介紹的是R軟件當(dāng)中的文本挖掘工具和CHQ'S文本多分類系統(tǒng)。

      3.1 R文本挖掘應(yīng)用

      (1)rsmartcn包,作者:黃榮貴,只能用于簡體中文。

      (2)rmmseg4j包,作者:黃榮貴,用Chih-Hao Tsai的MMSeg算法。易理解,主要是chunk及四個規(guī)則。

      (3)Rwordseg包,作者:李艦,能夠很方便地定義字典,從而能夠不斷更新并適應(yīng)新詞的出現(xiàn),也能夠更好地適應(yīng)有更多行業(yè)領(lǐng)域的各類專業(yè)分詞。

      3.2 CHQ'S文本多分類系統(tǒng)

      CHQ'S文本多分類系統(tǒng)能夠?qū)χ形奈谋具M(jìn)行多分類,例如,中文廣告、中文垃圾郵件、中文文本分類等。只要實(shí)現(xiàn)模型化之后,文本分類的運(yùn)行速度能達(dá)到很快。

      該系統(tǒng)主要基于以下的算法進(jìn)行開發(fā):

      (1)使用中科院的ICTCLAS進(jìn)行分詞,基于自身的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)。

      (2)基于文檔頻率,TF-IDF,IG的特征選擇以及降維方法實(shí)現(xiàn)文本的特征提取與降維。

      (3)SVM的分類算法,林智仁的LibSVM。

      4? 結(jié)語

      互聯(lián)網(wǎng)的發(fā)展為我們的生活提供了很大的方便,隨著互聯(lián)網(wǎng)的不斷普及,各種數(shù)據(jù)也呈現(xiàn)出了一種爆炸式增長,尤其是圖書、文章以及郵件等等形式的文本文件,而由于這種文字式的文本跟數(shù)據(jù)文本有著顯著的區(qū)別,因此對于它的文本分析就面對著很多困難,所以文本挖掘開始的時間并不長。而且中文文本跟西方文本又有著截然的不同,中文詞語不像英文詞語那樣每個單詞之間都是用空格隔開,中文詞語之間沒有停頓,因此對于中文文本挖掘的過程首先要做的就是分詞操作,而針對于如何進(jìn)行分詞,也有很多學(xué)者致力于此方面的研究,而且目前已經(jīng)出現(xiàn)了多個中文分詞工具,在未來的研究過程中還需要不斷地進(jìn)行優(yōu)化與創(chuàng)新。

      參考文獻(xiàn)

      [1] 戚云霞.中文文本挖掘技術(shù)的研究與應(yīng)用[D].西安電子科技大學(xué),2014.

      [2] 唐守忠.文本挖掘關(guān)鍵技術(shù)研究[D].北京林業(yè)大學(xué),2013.

      [3] 冷伏海,王林,王立學(xué).基于文本挖掘的形態(tài)分析方法的關(guān)鍵問題[J].圖書情報工作,2012(4):27-30.

      [4] 潘小換,蔣保建.基于文本挖掘的技術(shù)路線圖構(gòu)建研究[J].情報工程,2018(4):73-81.

      猜你喜歡
      中文文本挖掘工具
      波比的工具
      波比的工具
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      淺析華文教材《中文》
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
      近年日語外來詞對中文的作用及影響
      慧眼識璞玉,妙手煉渾金
      中日五種基本顏色詞義項(xiàng)比較
      红安县| 屏东市| 五峰| 深州市| 邮箱| 札达县| 南部县| 台南县| 漳平市| 阿图什市| 抚宁县| 淮滨县| 桑日县| 台中县| 新干县| 汝阳县| 北流市| 临漳县| 丹江口市| 宁乡县| 蓝田县| 监利县| 沾化县| 淳化县| 衡山县| 荆门市| 雷州市| 南充市| 牟定县| 星座| 榆中县| 辽阳市| 安图县| 通化市| 邹城市| 乐安县| 济源市| 万年县| 商南县| 南漳县| 南投市|