• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文文本分類技術(shù)研究綜述

      2021-03-22 02:53:17蘇慧婧群諾
      電腦知識與技術(shù) 2021年4期
      關(guān)鍵詞:機器學(xué)習(xí)特征選擇

      蘇慧婧 群諾

      摘要:該文介紹了藏文文本分類技術(shù)的研究與進展。首先對現(xiàn)階段常用的文本表示以及文本特征選擇方法進行了分析和比較,接著回顧了藏文在機器學(xué)習(xí)方面的分類算法特點,深入討論了不同算法應(yīng)用在藏文文本分類技術(shù)上的研究情況,最后指出了當(dāng)前藏文文本分類所面臨的問題和挑戰(zhàn),并對未來的研究提出了建議。

      關(guān)鍵詞:藏文文本分類;文本表示;特征選擇;機器學(xué)習(xí)

      中圖分類號: TP391? ? ? ? 文獻標(biāo)識碼:A

      文章編號:1009-3044(2021)04-0190-03

      Abstract :This article introduces the research and development of Tibetan text classification technology. First, it analyzes and compares the commonly used text representation and text feature selection methods at this stage, then reviews the characteristics of Tibetan classification algorithms in machine learning, and discusses the application of different algorithms in Tibetan text classification technology. Finally, it points out the current problems and challenges of Tibetan text classification, and puts forward suggestions for future research.

      Key words :Tibetan text classification; text representation; feature selection; machine learning

      自然語言是人們?nèi)粘J褂玫恼Z言,是人類學(xué)習(xí)生活的重要工具。為此,自然語言處理是人工智能的一個重要應(yīng)用領(lǐng)域,也是新一代計算機必須研究的課題。隨著我國藏族聚居區(qū)信息化事業(yè)的快速發(fā)展,藏族網(wǎng)民人數(shù)快速增長,以藏語為載體的內(nèi)容也在增多。對藏文文本分類技術(shù)的研究,能夠拓寬藏文信息處理的應(yīng)用領(lǐng)域,推動藏文語言文學(xué)在網(wǎng)絡(luò)時代的發(fā)展。文本特征的表示方法和分類器模型的設(shè)計是有關(guān)文本分類技術(shù)的關(guān)鍵步驟,本文簡要提出了文本分類系統(tǒng)的各個功能,依據(jù)現(xiàn)階段藏文文本分類技術(shù)的研究進展,詳細分析了文本表示以及特征選擇的不同方法和多種分類器模型的算法特點和應(yīng)用前景。目前,我國對藏文古籍文獻的經(jīng)典信息需求量很大,因此,針對藏文文本,深入研究高效精準(zhǔn)的文本分類技術(shù),具有十分重要的現(xiàn)實價值和歷史意義。

      1 藏文文本分類研究現(xiàn)狀和發(fā)展趨勢

      在信息化時代背景下,藏文文本分類技術(shù)作為藏文信息處理的一個重要組成部分,在情感分類、檢測垃圾郵件、用戶意圖識別、客服工單自動分類等方面應(yīng)用廣泛。賈會強[1]等人提出了基于規(guī)則的藏文文本分類方法;才讓加[2,3]等人對藏文語料進行分詞標(biāo)注并利用詞性特征建立分類語料庫;孟祥和[4]提出了基于改進的聚類算法和KNN分類算法實現(xiàn)藏文網(wǎng)站話題發(fā)現(xiàn)與跟蹤;袁斌[5]提出選用不同情感特征表示,基于SVM+TF-IDF進行藏文微博情感分類能達到比較不錯的效果;周登[6]采用基于N-Gram模型的藏文文本分類技術(shù);安見才讓等人[7]實現(xiàn)了互聯(lián)網(wǎng)藏文信息輿情分析的系統(tǒng)設(shè)計;胥桂仙等人[8]設(shè)計了基于欄目的藏文網(wǎng)頁文本自動分類系統(tǒng)。賈宏云等人[9,10,11]分別選用藏文詞以及n-gram的藏文音節(jié)作為文本特征,采用信息增益算法、前向逐步回歸算法篩選最優(yōu)特征子集進行文本表示,基于Logistic回歸模型、SVM模型以及AdaBoost模型實現(xiàn)藏文文本分類并取得了不錯的進展。王莉莉等人[12]采用長短時記憶加條件隨機場模型的方法對藏文分類文本進行分詞,運用TF-IDF公式計算特征權(quán)重得到向量空間模型以進行文本表示,通過互信息方法提取和選擇特征,基于多種深度神經(jīng)網(wǎng)絡(luò)模型得到了較好的分類結(jié)果,但是該文選用的數(shù)據(jù)集在類別數(shù)量以及文本規(guī)模上都相對較少,這將使得分類模型性能不夠穩(wěn)定,泛化能力較低。

      在目前藏文文本分類研究中,已有少量基于規(guī)則和使用傳統(tǒng)機器學(xué)習(xí)方法的分類研究,將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于藏文文本分類的研究仍處于最淺顯層面,又因為平臺上缺乏開源的藏文語料,而每個研究人員所使用的語料也大不相同,因此使得實驗研究數(shù)據(jù)缺乏可比性,其分類準(zhǔn)確率難以評估與分析。通過借鑒中英文中較為成熟的文本分類方法,如何在資源不足的條件下訓(xùn)練模型,如何將人類的先驗知識融入神經(jīng)網(wǎng)絡(luò)中是藏文文本分類面臨的挑戰(zhàn)和亟待解決的難題。

      2 藏文文本分類相關(guān)技術(shù)

      藏文文本分類由四個模塊組成:藏文語料獲取、文本表示以及特征選擇、模型訓(xùn)練、模型性能評價。

      2.1 藏文語料獲取

      在對文本進行分類之前,首先要獲取藏文語料,建立藏文數(shù)據(jù)集。我們可以從網(wǎng)上爬取藏文語料或者下載別人整理好的數(shù)據(jù)集,對其進行預(yù)處理,通過預(yù)處理過程,減少特征維數(shù)、去除噪聲特征,以此提高機器學(xué)習(xí)算法的精準(zhǔn)度和分類效果。過程包括分詞、剔除符號和停用詞,按類別進行人工分類,再按一定比例劃分訓(xùn)練集和測試集。

      2.2 分詞

      在英語的分詞中,詞與詞之間具有很自然的空格作為標(biāo)記,而對于藏文分詞,藏文與漢語相同,文檔的詞語之間沒有明顯的分隔標(biāo)志。藏文分詞領(lǐng)域的主要困難在于詞義消歧、命名實體識別。藏文自動分詞技術(shù)主要有以下4類:

      ①通過最小匹配或最大匹配、正向匹配或逆向匹配方法切分字符串的機械分詞方法;

      ②根據(jù)字符串的語義、句法信息進行詞性標(biāo)注的基于規(guī)則的分詞方法;

      ③通過匹配方法然后將統(tǒng)計語言模型引入分詞過程的基于統(tǒng)計的分詞方法;

      ④基于統(tǒng)計與規(guī)則相結(jié)合的方法,目前使用最為廣泛的是第四種方法。

      2.3 剔除符號和停用詞

      在文本預(yù)處理過程中,會剔除掉對分類結(jié)果沒有實際意義的詞語和符號,比如藏文文本中存在的一些特殊符號、標(biāo)點符號以及數(shù)字等。通過構(gòu)造停用詞表剔除掉這些對文本分類無意義的詞項,利用已建好的藏文語料庫,使用公式n/N來計算權(quán)重,(n表示文檔中出現(xiàn)詞w的文檔數(shù),N表示總的文檔數(shù)),把其中權(quán)重高過某一閾值的詞列入停用詞表,閾值將由具體實驗確定。

      2.4 藏文文本分類特征工程

      對于計算機而言,它不能夠識別普通的文本中的字符串所要表達的信息,因此必須對文本中的字符串進行處理,這樣的過程稱為文本表示。藏文文本一般以音節(jié)為特征單位,按照一定的描述模型對文本進行表示,使機器能夠?qū)ξ谋具M行處理和運算。

      2.4.1 文本表示

      在藏文文本分類過程中,主要采用向量空間模型進行文本表示。向量空間模型以空間上的相似度表達語義的相似度,表示如下:[V(d)=((t1,a1),(t2,a2),...,(tn,an))],其中,[ti]為文檔 d 中的特征項,[ai] 為[ti] 的特征值,一般取為詞頻的函數(shù)。有了這樣的表示以后,就可以用分類器對樣本分類。

      2.4.2 文本特征選擇

      藏文語料文本經(jīng)過處理,從文本中產(chǎn)生的特征數(shù)量可能非常龐大,特征空間的維數(shù)會高達幾萬維甚至幾十萬維。如果用這些特征向量來進行分類訓(xùn)練,不但會占用很大的存儲資源,造成時間和空間的浪費,而且還會極大地影響分類算法的運行速度和降低分類準(zhǔn)確度。為此可構(gòu)造一個評價函數(shù),通過實驗設(shè)定一個閾值α,當(dāng)評估分數(shù)低于閾值α就予以刪除,高于閾值α的若干特征項重新組成一個新的低維特征空間。利用特征評價函數(shù)來計算每個特征的重要程度。目前,在藏文文本分類的研究過程中,常被運用的特征選擇評估函數(shù)有逆文檔頻率(TF-IDF)、文檔頻率(DF)、互信息(MI)、信息增益(IG)、c2統(tǒng)計(CHI)、期望交叉熵(ECE)等。

      大量的實驗結(jié)果表明,過高的特征維數(shù)會導(dǎo)致時間空間復(fù)雜度急劇增加,造成更大的計算代價;特征項維數(shù)過低則可能造成文檔重要信息的丟失,對文本的分類效果造成影響。所以如何高效地選擇和提取特征,進行文本特征表示需要綜合多種算法,反復(fù)實驗。

      2.5 分類器的選擇與訓(xùn)練

      現(xiàn)階段,有關(guān)中英文的文本分類模型種類很多,實際應(yīng)用也相當(dāng)成熟,在藏文文本分類研究領(lǐng)域,最近幾年藏文文本分類技術(shù)研究的成果見表1所示。

      表1實驗中針對實際語料,選用特定特征選擇算法進行特征降維和提取有效特征,基于淺層機器學(xué)習(xí)模型進行文本分類,可以看出將多種算法集成的分類模型可以有效提升分類效果。但這些算法大都需要人工參與定制規(guī)則,并且分類模型泛化能力較低。樸素貝葉斯算法簡單,分類效果穩(wěn)定;所需估算的參數(shù)少,但此算法適用于小規(guī)模數(shù)據(jù)的訓(xùn)練,且需要假設(shè)屬性之間相互獨立,而實際中往往難以成立。支持向量機可用于高維數(shù)據(jù)的計算,但對缺失數(shù)據(jù)較敏感;針對非線性問題沒有通用的解決方案。近年來興起的深度神經(jīng)網(wǎng)絡(luò)具有較強的并行處理能力,自學(xué)習(xí)能力強,能解決復(fù)雜的非線性關(guān)系,具有記憶的功能,但是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中需預(yù)先確定大量參數(shù),且所得信息高度編碼不易被解讀,輸出結(jié)果難以解釋。

      綜合分析以上算法的優(yōu)缺點,本文選用K近鄰(KNN)、高斯貝葉斯(Gaussian NB)兩種淺層機器學(xué)習(xí)模型算法和多層感知機(MLP)、深度可分離卷積(SepCNN)兩種神經(jīng)網(wǎng)絡(luò)模型進行分類實驗,整理實驗數(shù)據(jù),得到表2。

      從表2實驗數(shù)據(jù)可以看出,在大規(guī)模數(shù)據(jù)集下,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型比基于淺層機器學(xué)習(xí)的單一模型分類效果要好,避免了煩瑣的人工特征工程,節(jié)省了部分人力開銷。因此研究文本分類,其方法與模型的選擇和要解決的問題及問題的規(guī)模有關(guān),根據(jù)文本分類的各個流程采取對應(yīng)的解決辦法,是當(dāng)前藏文文本分類研究的重要方向。

      2.6 分類結(jié)果的評價與反饋

      模型最終常用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值來對分類器的性能進行綜合評價。假設(shè)只有兩類樣本,即正例(positive)和負例(negative)。TP表示將實際正類預(yù)測為正類預(yù)測正確的數(shù)值,F(xiàn)N表示將實際正類預(yù)測為負類預(yù)測錯誤的數(shù)值,F(xiàn)P表示將實際負類預(yù)測為正類預(yù)測錯誤的數(shù)值,TN表示將實際負類預(yù)測為負類預(yù)測正確的數(shù)值[13]。形成表3如下所示。

      表中AB模式:第二個符號表示預(yù)測的類別,第一個表示預(yù)測結(jié)果對了(True)還是錯了(False)。分類準(zhǔn)確率(accuracy):分類器正確分類的樣本數(shù)與總樣本數(shù)之比, 精確率(Precision)反映了模型判定的正例中真正正例的比重,召回率(Recall)反映了總正例中被模型正確判定正例的比重[13]。F值是精確率和召回率的調(diào)和平均。各測評標(biāo)準(zhǔn)如表4所示。

      3 面臨的問題與挑戰(zhàn)

      目前藏文文本分類技術(shù)依舊面臨著諸多問題與挑戰(zhàn)。由于藏文信息處理技術(shù)缺乏統(tǒng)一規(guī)范化的標(biāo)準(zhǔn),導(dǎo)致部分網(wǎng)頁藏文資源字符編碼方式不統(tǒng)一,使得計算機不能有效處理藏文字符;現(xiàn)階段該領(lǐng)域還未能研究出較為成熟的分詞技術(shù);藏文文本分類的相關(guān)技術(shù)大都借鑒漢語、英語的處理方法,針對藏語自身的特點和規(guī)律研究欠缺;近年來發(fā)展較成熟的word2vec詞向量預(yù)訓(xùn)練模型在藏文方面的遷移應(yīng)用研究尚淺;藏文信息方面不僅缺少開源語料,也缺少基于深度學(xué)習(xí)取得的成果,這些問題都制約了藏文文本分類技術(shù)的研究與發(fā)展。

      4 結(jié)束語

      本文總結(jié)了到目前為止藏文文本分類技術(shù)的研究現(xiàn)狀,分析了當(dāng)前研究所面臨的問題與困難,并針對問題的解決和未來的研究提出了建設(shè)性的建議。藏文文本分類系統(tǒng)和其他語種的文本分類系統(tǒng)相比還存在著很大的差距,對于藏文自身的語言特點,適用于大語種的研究方法并不能完全適用于藏文的研究。因此,對藏文在文本分類的基本理論和處理模型上進行針對性的創(chuàng)新是我們未來的研究方向。后續(xù)希望研究者能夠不斷對比各種分類技術(shù)并且參考各領(lǐng)域最新的文本分類的研究成果,在深度學(xué)習(xí)方法上,尋求突破,探討實踐出更加優(yōu)化的藏文文本分類系統(tǒng)。

      參考文獻:

      [1] 賈會強,李永宏.藏文文本分類器的設(shè)計與實現(xiàn)[J].科技致富向?qū)В?010(12):30-31.

      [2] 才讓加.藏語語料庫加工方法研究[J].計算機工程與應(yīng)用,2011,47(6):138-139,146.

      [3] 才讓加,吉太加.藏語語料庫的詞性分類方法研究[J].青海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2005,27(4):112-114.

      [4] 孟祥和.藏文網(wǎng)站話題發(fā)現(xiàn)與跟蹤技術(shù)研究[D].西北民族大學(xué),2013.

      [5] 袁斌.藏文微博情感分類研究與實現(xiàn)[D].西北民族大學(xué),2016.

      [6] 周登.基于N-Gram模型的藏文文本分類技術(shù)研究[D].西北民族大學(xué),2010.

      [7] 安見才讓,拉毛措,孫琦龍.互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設(shè)計[J].微處理機,2017,38(2):56-58,63.

      [8] 胥桂仙,向春丞,翁彧,等.基于欄目的藏文網(wǎng)頁文本自動分類方法[J].中文信息學(xué)報,2011,25(4):20-23.

      [9] 群諾,賈宏云.基于Logistic回歸模型的藏文文本分類研究與實現(xiàn)[J].信息與電腦(理論版),2018(5):70-73.

      [10] 賈宏云,群諾,蘇慧婧,等.基于SVM藏文文本分類的研究與實現(xiàn)[J].電子技術(shù)與軟件工程,2018(9):144-146.

      [11] 賈宏云.基于AdaBoost模型的藏文文本分類研究與實現(xiàn)[D].西藏大學(xué),2019.

      [12] 王莉莉,楊鴻武,宋志蒙.基于多分類器的藏文文本分類方法[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2020,40(1):102-110.

      [13] 鄭雅文. 基于特征選擇和支持向量機的乳腺癌診斷研究[D].太原理工大學(xué),2019.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      機器學(xué)習(xí)特征選擇
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      怀安县| 大埔县| 麻栗坡县| 九龙城区| 额敏县| 七台河市| 浑源县| 桦南县| 安徽省| 开平市| 城口县| 安多县| 会理县| 古蔺县| 营山县| 澄江县| 丰原市| 金塔县| 余庆县| 夹江县| 修武县| 来安县| 秦皇岛市| 胶州市| 翁牛特旗| 凤翔县| 淮阳县| 额尔古纳市| 高清| 张家界市| 灌南县| 广西| 布拖县| 仙游县| 宁南县| 贵德县| 南丰县| 平顺县| 滨海县| 九龙县| 北宁市|