• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本分類中支持向量機(jī)研究

    2019-10-21 07:21:05何焱
    河南科技 2019年29期
    關(guān)鍵詞:文本分類支持向量機(jī)

    何焱

    摘 要:隨著我國(guó)現(xiàn)代科技的快速發(fā)展,文本分類逐漸在信息化技術(shù)與數(shù)字化技術(shù)領(lǐng)域得到重視。利用計(jì)算處理系統(tǒng)處理文本信息,能夠有效提升文本分類的質(zhì)量與效率,提升數(shù)據(jù)信息的利用率,從而促進(jìn)信息化技術(shù)的普及。而支持向量機(jī)是處理文本內(nèi)容,加強(qiáng)文本分類速度,并通過(guò)文檔建模、中文分詞、分類器評(píng)估等形式,構(gòu)建出的行之有效的統(tǒng)計(jì)語(yǔ)言模型,它可以推動(dòng)文本分類工作的發(fā)展。本文結(jié)合國(guó)內(nèi)外研究現(xiàn)狀,探析文本分類內(nèi)涵及支持向量機(jī)原理,提出基于支持向量機(jī)的文本分類算法。

    關(guān)鍵詞:文本分類;支持向量機(jī);統(tǒng)計(jì)語(yǔ)言模型

    中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-5168(2019)29-0008-03

    Research on Support Vector Machine in Text Categorization

    HE Yan

    (Zunyi Medical and Pharmaceutical College,Zunyi Guizhou 563002)

    Abstract: With the rapid development of modern science and technology in China, text classification has gradually gained attention in the field of information technology and digital technology. The use of the computing processing system to process text information can effectively improve the quality and efficiency of text classification, improve the utilization of data information, and promote the popularization of information technology. The support vector machine is a statistical language model that is effective in processing text content, enhancing text classification speed, and constructing it through document modeling, Chinese word segmentation, and classifier evaluation, which can promote the development of text classification work. Based on the research status at home and abroad, this paper analyzed the text classification connotation and the principle of support vector machine, and proposed a text classification algorithm based on support vector machine.

    Keywords: text classification;support vector machine;statistical language model

    大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息技術(shù)逐漸成為推動(dòng)我國(guó)社會(huì)經(jīng)濟(jì)快速發(fā)展的重要途徑,同時(shí)也是加速城市智能化、現(xiàn)代化發(fā)展的關(guān)鍵手段。隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,數(shù)字信息技術(shù)得到我國(guó)社會(huì)各領(lǐng)域的廣泛重視。然而,如何提升現(xiàn)代信息的利用效率,凸顯數(shù)字信息的時(shí)代價(jià)值呢?人們需要從文本分類手段出發(fā),整合現(xiàn)有的文本信息,使其成為大數(shù)據(jù)技術(shù)及云計(jì)算技術(shù)的重要組成部分。

    1 國(guó)內(nèi)外研究現(xiàn)狀

    20世紀(jì)中葉,文本分類得到了迅速的發(fā)展,并利用知識(shí)工程理論實(shí)現(xiàn)了人為定制分類體系的建構(gòu)目標(biāo)。而在21世紀(jì)初,相關(guān)專家和學(xué)者開(kāi)始嘗試?yán)脵C(jī)器學(xué)習(xí)的形式實(shí)現(xiàn)對(duì)文本的分類。這種不需要人為干預(yù)的文本分類方法得到快速的發(fā)展,并逐漸成為文本分類的主要研究?jī)?nèi)容[1-3]。2002年,美國(guó)學(xué)者提出基于權(quán)重修復(fù)的分類器,并對(duì)數(shù)據(jù)檢索展開(kāi)分析研究,提出了召回率、準(zhǔn)確率等相關(guān)概念。2005年,英國(guó)學(xué)者提出使用向量機(jī)開(kāi)展文本分類工作的理論方法,而在“深度學(xué)習(xí)”理論不斷發(fā)展的過(guò)程中,神經(jīng)網(wǎng)絡(luò)逐漸被廣泛應(yīng)用到現(xiàn)代網(wǎng)絡(luò)分類體系中,并且獲得了顯著的效果。

    現(xiàn)階段,文本分類的主要研究熱點(diǎn)有四。首先是多語(yǔ)種分類,即如何通過(guò)分類器對(duì)跨文化文本進(jìn)行分類。其次是噪聲問(wèn)題,即如何破解文本分類中所固有的噪聲問(wèn)題,尤其是短文本問(wèn)題。再次是規(guī)模性文本分類,即如何在大規(guī)模數(shù)據(jù)文本中構(gòu)建有效的分類器。最后是層次化分類,即根據(jù)文本內(nèi)容間的主從關(guān)系、邏輯關(guān)系、依賴關(guān)系實(shí)現(xiàn)分級(jí)分類。

    在文本分類理論研究過(guò)程中,我國(guó)學(xué)者通過(guò)明確“深度學(xué)習(xí)”理論的內(nèi)涵、深化召回率與準(zhǔn)確率等概念,從實(shí)際應(yīng)用層面闡述文本分類的現(xiàn)實(shí)價(jià)值。文本分類是互聯(lián)網(wǎng)檢索技術(shù)、大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等多種技術(shù)的基礎(chǔ)性技術(shù),在實(shí)際研究過(guò)程中,能夠有效提升數(shù)據(jù)的檢索質(zhì)量與傳輸質(zhì)量[4-6]。以現(xiàn)代檢索技術(shù)為例,當(dāng)前的檢索平臺(tái)以關(guān)鍵詞檢索為主,在數(shù)據(jù)文本的檢索過(guò)程中存在著明顯的局限,即60%的數(shù)據(jù)信息屬于無(wú)效文本。而在文本分類技術(shù)快速發(fā)展的過(guò)程中,檢索平臺(tái)能夠根據(jù)關(guān)鍵詞的主題內(nèi)容,向用戶推送與之“存在內(nèi)部邏輯關(guān)系”即依賴關(guān)系的數(shù)據(jù)信息,以此提升文本數(shù)據(jù)的利用率。

    2 文本分類內(nèi)涵與分類任務(wù)

    2.1 文本分類的基本內(nèi)涵

    文本分類主要指通過(guò)計(jì)算機(jī)技術(shù)對(duì)文本集或物件,根據(jù)特定的分類標(biāo)準(zhǔn)或機(jī)制進(jìn)行智能化、自動(dòng)化分類標(biāo)記的過(guò)程。具體屬于樸素貝葉斯分類手法。在概念界定上,文本分類是基于用戶興趣、資訊過(guò)濾的自動(dòng)分類,同時(shí)也是針對(duì)關(guān)鍵詞、關(guān)鍵字的統(tǒng)計(jì)分類,更是以學(xué)科為基礎(chǔ)的專業(yè)分類手段。在應(yīng)用背景層面,伴隨我國(guó)社會(huì)經(jīng)濟(jì)的快速發(fā)展,電子文檔逐漸取代紙質(zhì)文本成為現(xiàn)代文本數(shù)據(jù)的重要載體。相關(guān)數(shù)據(jù)顯示,當(dāng)前的互聯(lián)網(wǎng)系統(tǒng)中依舊存在上百億級(jí)別的網(wǎng)頁(yè)數(shù)據(jù),并以數(shù)千萬(wàn)級(jí)的發(fā)展速度增長(zhǎng)著。因此,面對(duì)指數(shù)增長(zhǎng)且基數(shù)龐大的數(shù)據(jù)世界,如何組織文本數(shù)據(jù)并從中探尋出有效的數(shù)據(jù)信息是當(dāng)前信息化技術(shù)發(fā)展的挑戰(zhàn)。為有效探尋解決方案,人們需要對(duì)數(shù)據(jù)信息進(jìn)行檢索、分類,以此提升數(shù)據(jù)資源的有效利用率。

    2.2 文本分類的主要任務(wù)

    根據(jù)相關(guān)理論定義,文本分類是各種自然語(yǔ)言分析、處理、檢索任務(wù)的基礎(chǔ)。通常來(lái)講,文本分類與傳統(tǒng)的監(jiān)督方法相同,需要根據(jù)已知標(biāo)記的數(shù)據(jù)模塊上構(gòu)建模型,并將模型進(jìn)行存儲(chǔ)以便開(kāi)展后續(xù)的文本分析工作。而針對(duì)新文本,模型將會(huì)根據(jù)文本的特征及特點(diǎn)給出類別。與傳統(tǒng)“監(jiān)督”任務(wù)的不同之處在于,互聯(lián)網(wǎng)技術(shù)難以從原始數(shù)據(jù)中獲取信息,所以需要對(duì)文本的基本特征進(jìn)行表示。其中,“特征表示”主要是指將文檔數(shù)據(jù)作為語(yǔ)意信息或統(tǒng)計(jì)信息,以此使計(jì)算機(jī)系統(tǒng)能夠有效識(shí)別文本單元內(nèi)部的信息內(nèi)容。其間往往需要利用特征向量的方式,對(duì)文本數(shù)據(jù)進(jìn)行表示。通常采用的表示方式有詞向量與TF-DF兩種。在意義層面,文本分類能夠有效縮短文本資料的處理時(shí)間,可以對(duì)數(shù)據(jù)信息進(jìn)行檢索,有利于文本的管理、儲(chǔ)存與歸類。通過(guò)文本分類,人們能夠有效認(rèn)知并區(qū)分事物,進(jìn)而提升接觸并了解自然物質(zhì)世界的水平。

    在文本分類力量研究上,我國(guó)相關(guān)專家學(xué)者主要的研究方向如下。首先是冗余過(guò)濾。如何過(guò)濾冗余信息,如何在重復(fù)性文本中篩選出性價(jià)比高的文本內(nèi)容,是冗余過(guò)濾研究中的重點(diǎn)內(nèi)容。其次是文檔組織。文檔組織具體指在文本分類的同時(shí)將具有內(nèi)在邏輯的文本進(jìn)行組織規(guī)劃,以此提升文本與文本間的協(xié)調(diào)性。例如,在農(nóng)業(yè)文本中,小麥種植應(yīng)與小麥病害防范組織在一起,而根據(jù)實(shí)際應(yīng)用需求,也可將小麥種植與大豆種植進(jìn)行組織。再次是信息檢索,信息檢索的本質(zhì)是利用已分類的文本,提升社會(huì)各領(lǐng)域的生產(chǎn)質(zhì)量及工作效率。其間需要相關(guān)人員根據(jù)文本的主題特征及關(guān)鍵詞等要素,作為檢索標(biāo)記或通過(guò)語(yǔ)段描述特征的分析方式,對(duì)不同語(yǔ)段的連詞、動(dòng)詞、名詞進(jìn)行分析及處理,進(jìn)而形成完整的文本標(biāo)記庫(kù),以此通過(guò)計(jì)算機(jī)對(duì)文本內(nèi)容的識(shí)別,提升文本檢索質(zhì)量。最后是信息過(guò)濾,信息過(guò)濾具體指與文本分類主體不存在主從關(guān)系、邏輯關(guān)系的其他信息,其中包括網(wǎng)絡(luò)推廣信息、廣告信息等。

    3 支持向量機(jī)原理及算法

    3.1 支持向量機(jī)的基本原理

    支持向量機(jī)是美國(guó)學(xué)者Vapnik通過(guò)統(tǒng)計(jì)學(xué)原理提出的機(jī)器學(xué)習(xí)法。在具體的文本分類過(guò)程中,支持向量機(jī)以結(jié)構(gòu)風(fēng)險(xiǎn)小的優(yōu)勢(shì),通過(guò)篩選函數(shù)子集及子集內(nèi)部的判別函數(shù),促使學(xué)習(xí)機(jī)的風(fēng)險(xiǎn)維持最小,以此確保在通過(guò)有限的樣本訓(xùn)練獲得的分類器對(duì)測(cè)試文本時(shí),誤差仍最小,進(jìn)而獲得擁有推廣泛化與最優(yōu)分類等能力的智能學(xué)習(xí)機(jī)。從理論層面來(lái)分析,支持向量機(jī)的主要思想是根據(jù)給定的有限訓(xùn)練樣本的文本學(xué)習(xí)任務(wù),對(duì)給定訓(xùn)練內(nèi)容進(jìn)行無(wú)差別的學(xué)習(xí)訓(xùn)練,以此獲得最優(yōu)的學(xué)習(xí)性能。而支持向量機(jī)的識(shí)別原則是以構(gòu)建超平面平臺(tái)作為決策主體,以此使正負(fù)間的有效空白最大化。其根本任務(wù)是建設(shè)目標(biāo)函數(shù)集,并劃分出不同的函數(shù)子集,進(jìn)而實(shí)現(xiàn)文本分類的目的。而在線性不可分與可分的不均衡背景下,支持向量機(jī)能夠?qū)⑽谋痉诸悊?wèn)題轉(zhuǎn)化為規(guī)劃問(wèn)題,并利用線性折射的方式,將輸入的數(shù)值映射到特殊維度的空間中,以此在構(gòu)造有效的超平面空間時(shí),進(jìn)行線性分類。

    近年來(lái),支持向量機(jī)應(yīng)用理論以其良好的特性與扎實(shí)的理論基礎(chǔ)得到了廣泛的支持與關(guān)注。在最開(kāi)始時(shí),它主要是為兩種文本分類問(wèn)題設(shè)計(jì)的,然而在具體應(yīng)用過(guò)程中,多類分類較為普遍。文本分類則屬于多類分類范疇。所以,如何使支持向量機(jī)的性能應(yīng)用到文本分類范疇中,提升向量機(jī)的決策速度與訓(xùn)練質(zhì)量是解決當(dāng)前向量機(jī)文本分類問(wèn)題的重要內(nèi)容與課題。在理論應(yīng)用中,支持向量機(jī)采用訓(xùn)練及學(xué)習(xí)的方式,提升自身性能,其基本內(nèi)涵是對(duì)現(xiàn)有的分類方法及組合形式進(jìn)行歸納與應(yīng)用,以此實(shí)現(xiàn)自動(dòng)化、智能化分類的效果。在具體文本分類過(guò)程中,支持向量機(jī)需要根據(jù)特定的算法,構(gòu)建相應(yīng)的分類器,并對(duì)分類器的分類程序進(jìn)行整理及運(yùn)算,從而形成子分類器。在標(biāo)記樣本的正類或負(fù)類的過(guò)程中,最終完成對(duì)文本類型的分類。

    3.2 支持向量機(jī)的主要算法

    3.2.1 組合法。支持向量機(jī)組合法中最早形成的文本分類算法是1-A-R算法,也稱“一對(duì)多法”。在實(shí)際的文本分類過(guò)程中,人們需要應(yīng)用到不同類型的分類器。其間往往構(gòu)建兩類分類器,每個(gè)分類器又需要將其中的內(nèi)容進(jìn)行二級(jí)分類,即在不同類別的分類器體系下,構(gòu)建大量分類模塊,從而輸入有效的X歸屬集。通常來(lái)講,一對(duì)多法主要是對(duì)k類文本問(wèn)題建造k個(gè)支持向量機(jī)子分類系統(tǒng),并在建立第n個(gè)子分類系統(tǒng)時(shí),需要將從屬第n類的文本樣本標(biāo)記為正向類。而不屬于n類的文本樣本則需要標(biāo)記為負(fù)向類。

    在具體的數(shù)據(jù)測(cè)試過(guò)程中,人們需要分別核算不同子分類體系的函數(shù)值,進(jìn)而選取數(shù)值比較大的類別作為核算文本的基本類別。在現(xiàn)代文本分類過(guò)程中,一對(duì)多分類法簡(jiǎn)單易行,得到廣泛的推廣與應(yīng)用。但是,一對(duì)多分類法存在諸多的缺陷,譬如泛化能力差,尤其在訓(xùn)練樣本和訓(xùn)練時(shí)間成正相關(guān)時(shí),訓(xùn)練難度較大,繼而造成向量機(jī)訓(xùn)練不均衡等問(wèn)題。在對(duì)規(guī)模較小的樣本類別進(jìn)行識(shí)別時(shí),識(shí)別進(jìn)度較低。而組合法中的一對(duì)一分類法,雖然與一對(duì)多分類法相似,也是采取兩類分類器進(jìn)行運(yùn)算,然而在構(gòu)建過(guò)程中,則采取類別q與類別o的數(shù)據(jù)樣本作為數(shù)據(jù)訓(xùn)練基礎(chǔ),能夠有效解決一對(duì)多算法的弊端。

    3.2.2 決策樹(shù)法。決策樹(shù)通常是支持向量機(jī)的重要文本分類法,并通過(guò)相互融合的形式,形成類別多樣的識(shí)別器。根據(jù)相關(guān)理論分析,人們能夠發(fā)現(xiàn),支持向量機(jī)決策樹(shù)擁有較為分明的層次結(jié)構(gòu),不同層次的子分類器的重要性與級(jí)別各不相同,并且訓(xùn)練結(jié)合的內(nèi)容與構(gòu)成也存在較大的差異。人們需要根據(jù)不同層次間的邏輯結(jié)構(gòu)進(jìn)行文本分類測(cè)試,并輸入不同的樣本,子分類器的規(guī)模與數(shù)目必須介于決策樹(shù)的縱向深度與數(shù)值1之間。因此,在具體測(cè)試過(guò)程中,樣本測(cè)試速度比較快。由于決策樹(shù)分支與節(jié)點(diǎn)的劃分缺乏充足的理論依據(jù),所以操作人員需要擁有充足的知識(shí)。

    在具體應(yīng)用過(guò)程中,向量機(jī)決策樹(shù)能夠同時(shí)處理規(guī)模龐大的文本類別與樣本,保障每一個(gè)文本分類問(wèn)題都能夠得到有效解決。在測(cè)試及分類過(guò)程中,決策樹(shù)對(duì)分類器的需求較少,能夠保障最優(yōu)的性能。從實(shí)效性角度來(lái)分析,決策樹(shù)分類法的基本優(yōu)勢(shì)是訓(xùn)練樣本與向量機(jī)分類器的數(shù)量較少,能夠在節(jié)約成本的同時(shí)提升后續(xù)工作的分類水平。在文本分類過(guò)程中,操作人員不需要估計(jì)所有分類器,因此,在文本分類的應(yīng)用過(guò)程中,決策樹(shù)分類法具有顯著的分類速度與訓(xùn)練速度。

    4 結(jié)語(yǔ)

    我國(guó)現(xiàn)代數(shù)據(jù)化技術(shù)與信息化技術(shù)的快速發(fā)展對(duì)文本分類提出了全新的要求,尤其是大數(shù)據(jù)時(shí)代,文本分類不僅要具有準(zhǔn)確性、保真性、時(shí)效性,更要深入到不同語(yǔ)種、不同學(xué)科專業(yè)的文本分類過(guò)程中,進(jìn)而在支持向量機(jī)的幫助下,推動(dòng)我國(guó)數(shù)字信息化技術(shù)的快速發(fā)展。

    參考文獻(xiàn):

    [1]周慶平,譚長(zhǎng)庚,王宏君,等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016(11):3374-3377.

    [2]羅玉華,左軍,李巖.SVM及其在文本分類中的應(yīng)用[J].科技信息,2010(3):441-442.

    [3]丁勇,秦曉明,何寒暉.支持向量機(jī)的參數(shù)優(yōu)化及其文本分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2010(11):187-190.

    [4]張小艷,李強(qiáng).基于SVM的分類方法綜述[J].科技信息,2008(28):344-345.

    [5]祝曉魯,白振興,賈海燕.自動(dòng)文本分類技術(shù)研究[J].現(xiàn)代電子技術(shù),2007(3):121-124.

    [6]王義忠,劉循,吳迪.一種改進(jìn)的SVM文本分類算法[J].現(xiàn)代計(jì)算機(jī),2014(26):16-20.

    猜你喜歡
    文本分類支持向量機(jī)
    基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
    基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
    基于貝葉斯分類器的中文文本分類
    基于SVM的煙草銷售量預(yù)測(cè)
    動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
    論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
    基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
    基于蟻群智能算法的研究文本分類
    基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
    基于K—means算法的文本分類技術(shù)研究
    绥芬河市| 汉阴县| 昆山市| 阳朔县| 桐乡市| 家居| 房产| 天峻县| 县级市| 英山县| 平南县| 常山县| 宣恩县| 长沙县| 济阳县| 轮台县| 麻栗坡县| 清流县| 杭锦旗| 镇远县| 嫩江县| 河源市| 碌曲县| 崇仁县| 涿州市| 石景山区| 阿坝县| 沙洋县| 荔浦县| 仪陇县| 于田县| 塘沽区| 祁门县| 贵定县| 定边县| 红原县| 曲松县| 镶黄旗| 永年县| 沂水县| 东阿县|