• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機(jī)森林算法的對外漢語文本可讀性評估*

    2019-07-29 08:43:34楊文娣曾致中
    中國教育信息化 2019年14期
    關(guān)鍵詞:特征文本

    楊文娣,曾致中

    (華中師范大學(xué) 國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心,湖北 武漢430079)

    一、引言

    發(fā)展閱讀能力是學(xué)習(xí)語言的重要組成部分[1][2],閱讀材料對發(fā)展閱讀能力的重要性不言而喻。為了確保閱讀材料符合潛在讀者的熟練程度,準(zhǔn)確預(yù)測L2(第二語言)學(xué)習(xí)者閱讀材料的可讀性對于教育工作者、作者、出版商等非常重要[3]。然而對L2學(xué)習(xí)者和教師而言,預(yù)測閱讀材料的難度非常耗時且常常帶有主觀性。隨著自然語言處理與機(jī)器學(xué)習(xí)的發(fā)展,文本可讀性的研究也隨之進(jìn)步,并可以在一定程度上解決這一問題。

    可讀性是文本材料中影響讀者理解、閱讀速度和對材料感興趣程度的所有要素之和[4]。影響文本可讀性的因素可分為主觀因素和客觀因素兩大方面,其中主觀因素主要指讀者因素,如讀者自身的閱讀水平,客觀因素是指那些脫離具體對象、不因人的主觀意志為轉(zhuǎn)移、一切實(shí)際存在的影響文本易讀性的因素的總和[5]。

    與可讀性研究歷史悠久的英語不同[6][10],中文的可讀性分析只有少數(shù)研究[11][12]。對外漢語 (Chinese as a Foreign Language)文本可讀性評估是中文可讀性研究的重要分支,至今為止,對外漢語文本可讀性評估的研究大都針對客觀因素,且大致可以分為兩類:

    1.基于傳統(tǒng)文本特征的可讀性公式方法研究

    “可讀性公式只是一個通過回歸分析得出的數(shù)學(xué)公式”[9],它“通??梢越o出數(shù)字得分以評價書或者篇章型閱讀材料的難易度,并可以按照其難易程度進(jìn)行排序”[13],是一種“預(yù)測性的手段”[14]。在對外漢語領(lǐng)域中,該研究方法包含但不限于以下成果:①王蕾針對初中級日韓學(xué)生制定了一個可讀性公式[15];②楊金余研制了高級精讀教材的可讀性公式[16];③郭望皓制定了對外漢語文本可讀性公式[5];④左虹和朱勇針對中級歐美留學(xué)生制定了一個可讀性公式[17]。

    2.基于機(jī)器學(xué)習(xí)的可讀性評估

    首先提取可讀性相關(guān)指標(biāo),使用特征向量對文本進(jìn)行表示,然后應(yīng)用機(jī)器學(xué)習(xí)中的算法,在訓(xùn)練集上進(jìn)行訓(xùn)練后得到分類模型,最后將測試集輸入該分類模型并預(yù)測測試集文本對應(yīng)的可讀性等級。隨著信息技術(shù)的發(fā)展,可讀性分析領(lǐng)域的學(xué)者們逐漸意識到基于機(jī)器學(xué)習(xí)的文本分類可以評估文本的可讀性,而且也從相關(guān)研究中了解到,單獨(dú)使用傳統(tǒng)的可讀性公式并不可靠[18][23]。在對外漢語可讀性評估研究中應(yīng)用機(jī)器學(xué)習(xí)方法的成果相對較少,具有代表性的成果有我國臺灣地區(qū)學(xué)者YAOTING SUNG等人提出的 “基于多層次語言特征與CEFR相結(jié)合”的分類方法:首先對外漢語專家教師團(tuán)隊(duì)將1,578個對外漢語文本分類到適當(dāng)?shù)腃EFR(歐洲語言共同框架)級別;然后從文本中提取30個對外漢語可讀性特征,并使用以F-scores為依據(jù)的重要性對特征進(jìn)行排序;最后,SVM分類器通過將特征順序地集成到模型中以優(yōu)化性能而訓(xùn)練得到;該方法得到了精度為74.97%、相鄰準(zhǔn)確率為99.62%的對外漢語文本可讀性評估模型[24]。

    本研究收集了6個系列的教材,整理得到文章共計(jì)578篇,使用文本分析工具并編寫代碼從基礎(chǔ)特征、詞性特征、等級特征和語法特征這四個維度提取特征共計(jì)86個,在訓(xùn)練集上使用隨機(jī)森林算法進(jìn)行訓(xùn)練,并在測試集上進(jìn)行性能評估,得到了精度為65.51%、相鄰準(zhǔn)確率為92.52%的分類模型。

    二、數(shù)據(jù)

    1.數(shù)據(jù)收集

    劉珣[25]指出新一代對外漢語教材的編寫應(yīng)參考以下四條原則:①以熟練運(yùn)用為導(dǎo)向,以培養(yǎng)交際能力為基本目標(biāo);②以學(xué)生為中心,較好地體現(xiàn)語言習(xí)得的過程和規(guī)律;③堅(jiān)持并不斷發(fā)展結(jié)構(gòu)、功能、文化相結(jié)合的原則;④教材的現(xiàn)代化與立體化。

    我們參考以上原則,選取了表1中6個系列的對外漢語教材。這6個系列教材在網(wǎng)絡(luò)上只能找到影印版PDF,有的甚至不能找到完整的影印版PDF(以下簡稱PDF版),遇到這種情況時我們使用掃描儀對教材進(jìn)行掃描得到對應(yīng)電子版(以下簡稱掃描版)。緊接著我們使用光學(xué)字符識別(Optical Character Recognition,以下簡稱OCR)工具對教材PDF版和掃描版進(jìn)行文字識別,并將識別出來的內(nèi)容存儲在txt格式的文件中。

    表1 中、高級對外漢語教材系列

    然而這些txt格式的文件不能直接作為數(shù)據(jù)集使用,因?yàn)镺CR工具識別得到的文字并不能保證100%的準(zhǔn)確率,并且PDF版和掃描版中存在著大量的插圖、頁碼、表格等干擾信息。所以必須要對這些txt文件進(jìn)行數(shù)據(jù)處理,以保證數(shù)據(jù)的有效性。

    2.數(shù)據(jù)處理

    在數(shù)據(jù)處理的過程中我們進(jìn)行了3次人工排錯:第一次檢查排版格式,去除多余的換行符、空格;第二次通讀全文與原文對比,排除明顯的文字錯誤;第二次檢查易錯誤識別的文字,如“拔”(易錯誤識別為“撥”)、“王”(易錯誤識別為“玉”)等會因字形相似導(dǎo)致OCR工具錯誤識別的文字。在人工排錯中發(fā)現(xiàn)《漢語閱讀教程》中有22篇文章是表單形式的應(yīng)用文,這些文章重點(diǎn)在于教會L2學(xué)習(xí)者掌握漢語在日常中的應(yīng)用。這些應(yīng)用文漢字?jǐn)?shù)量較少且不是連續(xù)的句子、段落,不適用于作為本研究的數(shù)據(jù)集,所以從數(shù)據(jù)集中剔除了這些文章,得到的中、高級對外漢語教材系列統(tǒng)計(jì)表如表2所示。

    表2 中、高級對外漢語教材系列數(shù)據(jù)統(tǒng)計(jì)表

    3.數(shù)據(jù)集打標(biāo)簽與劃分

    由于原始數(shù)據(jù)集中包含有中級上冊(M1)、中級下冊(M2)、高級上冊(H1)和高級下冊(H2)這四個由易到難的等級,所以筆者就以樣本本身所在的等級為樣本標(biāo)簽,如《故都的秋》這篇文章來自《大學(xué)漢語高級精讀》(下),即高級下冊,所以樣本《故都的秋》的標(biāo)簽為高級下冊(H2),其他文章以此類推。

    通常,我們通過測試集來測試分類器的泛化能力,因此,我們需要將數(shù)據(jù)集劃分成訓(xùn)練集和測試集兩部分。其中訓(xùn)練集參與特征選擇、分類器訓(xùn)練等步驟,測試集只參與最終分類器泛化能力評估。為了保證訓(xùn)練集和測試集數(shù)據(jù)分布的一致性,我們在578篇文章中隨機(jī)抽取測試集,并按照訓(xùn)練集:測試集=7:3的比例劃分?jǐn)?shù)據(jù)集,得到訓(xùn)練集數(shù)據(jù)404個、測試集數(shù)據(jù)174個。

    三、特征工程

    1.特征提取

    眾所周知,中文文本沒有英文空格這種天然的詞邊界標(biāo)志。所以想要分析中文就要進(jìn)行中文分詞,簡單地說,中文分詞就是要由機(jī)器在中文文本的詞與詞之間自動加上空格[26]。詞性是詞的句法功能類別,在各種中文的自然語言處理過程中,幾乎都要進(jìn)行詞性標(biāo)注[27]。由于詞匯也是本研究中重要的研究對象,所以在對數(shù)據(jù)集進(jìn)行特征提取之前首先需要進(jìn)行分詞和詞性標(biāo)注?,F(xiàn)有的中文分詞、詞性標(biāo)注的工具有很多,其中,由大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室研發(fā)的NLPIR漢語分詞系統(tǒng)是國內(nèi)深受業(yè)界好評的自然語言處理平臺,主要功能包括中文的分詞、詞性標(biāo)注、命名實(shí)體識別、關(guān)鍵詞提取等。并且NLPIR漢語分詞系統(tǒng)還支持多種編碼、多種操作系統(tǒng),同時能夠兼容多種開發(fā)語言和平臺。

    本文根據(jù)對外漢語的特點(diǎn)編寫代碼,提取了適用于對外漢語文本可讀性評估的特征,包括基礎(chǔ)特征、等級特征、詞性特征、語法特征這四個維度的特征共計(jì)86個。接下來我們詳細(xì)介紹這四個維度的特征:

    (1)基礎(chǔ)特征

    基礎(chǔ)特征指文章中較為淺顯且易于提取的特征?;A(chǔ)特征最初廣泛使用在可讀性公式的研究中[28]。其中,金凱德(Flesch-Kincaid)公式是微軟辦公軟件Word的內(nèi)置可讀性公式[10]。本文根據(jù)英文可讀性公式、對外漢語可讀性公式的研究成果,提取了21個基礎(chǔ)特征,如表3所示。

    表3 基礎(chǔ)特征

    (2)詞性特征

    詞的語言學(xué)特征在表征文本方面也是至關(guān)重要的,例如不同詞性的詞對文本的表征能力是不同的[29]。所以,我們使用PyNLPIR(NLPIR漢語分詞系統(tǒng)提供的Python接口)進(jìn)行詞性標(biāo)注。NLPIR漢語分詞系統(tǒng)提供的《計(jì)算所漢語詞性標(biāo)記集》分別有一類22個、二類66個、三類11個(共計(jì)99個),基本滿足了本研究提取詞性特征的需求,本文提取了所有的一類詞性(如表4所示)以及國內(nèi)外第二語言文本可讀性評估重要特征(如表5所示),共計(jì)34個,但后期將特征全部提取出來后發(fā)現(xiàn) “字符串”特征值全部為0,所以該特征無意義,因此去除這一特征,詞性特征最終有33個。

    表4 詞性特征表1

    表5 詞性特征表2

    (3)等級特征

    在等級特征提取的過程中,我們用到了以下標(biāo)準(zhǔn):《國際漢語教學(xué)通用課程大綱》(2013年修訂版)(以下簡稱《大綱》)中的《常用漢字表(一-六級)》《常用漢語詞語表(一-六級)》(以下簡稱分別為《漢字等級表》《詞語等級表》)?!洞缶V》由孔子學(xué)院總部組織研制,用于梳理對外漢語教學(xué)課程目標(biāo)與內(nèi)容,旨在為漢語教學(xué)機(jī)構(gòu)和教師在制訂教學(xué)計(jì)劃、測評L2學(xué)習(xí)者語言掌握能力、編寫教材等眾多方面提供參考依據(jù)和標(biāo)準(zhǔn)?!洞缶V》中的《漢字等級表》《詞語等級表》對于將漢語作為L2學(xué)習(xí)者而言是標(biāo)準(zhǔn)等級字詞表,在對外漢語教學(xué)領(lǐng)域具有普適性、權(quán)威性[30]。我們參考國內(nèi)外第二語言文本可讀性特征指標(biāo)提取的等級特征如表6所示。

    (4)語法特征

    表6 等級特征表

    圖1 語法樹結(jié)構(gòu)層次圖

    以上“基礎(chǔ)特征”“詞性特征”“等級特征”都是基于統(tǒng)計(jì)的特征,并沒有提取語義、語法等層次的特征。試想一下,在學(xué)習(xí)英語時,即使在所有單詞都掌握了的情況下,如果句子的語法復(fù)雜,我們?nèi)匀粫@句英文一知半解,無法真正掌握句子的意思。同樣,一個語法結(jié)構(gòu)復(fù)雜的中文句子亦會對L2學(xué)習(xí)者造成困惑,即這個句子的難度較高、可讀性較低。所以接下來著重介紹一下“語法特征”的提取。我們采用斯坦福NLP小組研發(fā)的斯坦福解析器進(jìn)行對外漢語文本的語法分析,具體工具使用的是NLTK提供的斯坦福語法解析器的python接口。該工具可以將一句話分析成語法樹,將句子結(jié)構(gòu)用圖形表示,代表了句子的推導(dǎo)結(jié)果,可用于分析句子語法結(jié)構(gòu)。簡單來說,語法樹就是按照某一規(guī)則進(jìn)行推導(dǎo)后形成的樹狀圖,樹狀圖的層級是指將語法分析的結(jié)果轉(zhuǎn)換為樹狀圖后各節(jié)點(diǎn)的層次,以此類推[31]。語法分析樹的結(jié)構(gòu)層次如圖1所示,接下來我們根據(jù)語法樹的分析結(jié)果提取了語法特征12個,如表7所示。

    表7 語法特征表

    2.特征預(yù)處理

    將以上86個特征提取完畢后發(fā)現(xiàn),特征數(shù)據(jù)差異較大,如特征“總字次”的取值區(qū)間為[109,4621],特征“語法分析樹平均節(jié)點(diǎn)數(shù)”的取值區(qū)間為[39.493151,180.6],所以在對特征進(jìn)行特征選擇之前,需要對特征進(jìn)行數(shù)據(jù)預(yù)處理。本研究中采用了區(qū)間縮放法,公式表達(dá)為:

    采用區(qū)間縮放法后,每個特征的取值范圍都在[0,1]區(qū)間,避免了由于特征取值范圍差異巨大而影響后期的特征選擇、分類器訓(xùn)練。

    3.特征選擇

    特征選擇定義如下:給定一組候選特征,選擇出在某個分類器下最佳的子集[32]。特征選擇可以去除無關(guān)特征和冗余特征,防止分類器過擬合[33]、泛化能力降低。此過程不僅可以通過減少需要收集的特征數(shù)量來降低計(jì)算成本,而且在某些情況下,由于樣本大小有限,它還可以提高分類器性能[34]。

    想要在初始特征集中找到一個合適的特征子集,最直接的方式就是遍歷所有特征子集,即窮舉搜索,但這樣會消耗大量的計(jì)算資源,一般在計(jì)算上是不可行的。常見的特征選擇方法大致可分成嵌入式(Filter)、過濾式(Wrapper)和包裹式(Embeded)三種。

    嵌入式特征選擇將特征選擇過程與分類器訓(xùn)練過程同步進(jìn)行,兩者在同一優(yōu)化過程中完成;過濾式特征選擇與后續(xù)分類器無關(guān),相當(dāng)于先對初始特征集進(jìn)行“過濾”,再用“過濾”后得到的特征子集來訓(xùn)練模型,具有選擇快速等優(yōu)勢;與過濾式特征選擇不同,包裹式特征選擇直接將最終要使用的分類器的性能指標(biāo)作為評價特征子集的標(biāo)準(zhǔn),一般情況下,包裹式特征選擇的最終分類器性能比過濾式特征選擇的效果更好,但是由于包裹式特征選擇過程中多次訓(xùn)練分類器,其計(jì)算開銷也要比過濾式特征選擇大得多。目前包裹式特征選擇多與過濾式特征選擇相結(jié)合輔助特征選擇[33]。在本研究中我們采用了過濾式特征選擇中的卡方檢驗(yàn)法。

    卡方檢驗(yàn)(Chi-Square Test,CHI)是一種用途很廣的假設(shè)檢驗(yàn)方法,在文本分類中可以用于表示特征f與類別c的相關(guān)性,先假設(shè)f與c相互獨(dú)立,然后通過比較理論值與實(shí)際值的偏差,來體現(xiàn)f與c的相關(guān)程度。其根本思想就是在于比較理論值和實(shí)際值的吻合程度或擬合優(yōu)度問題。特征f與類別c的卡方統(tǒng)計(jì)量如公式2所示。

    其中:N是樣本總數(shù);A是屬于類別c且包含特征f的樣本頻率;B是不屬于類別c但包含特征f的樣本頻率;C是屬于類別c但不包含特征f的樣本頻率;D是不屬于類別c且不包含特征f的樣本頻率。

    我們使用sklearn featureselection庫的SelectKBest類結(jié)合卡方檢驗(yàn)來計(jì)算每個非負(fù)特征和分類(M1、M2、H1、H2,共計(jì)四類)之間的卡方統(tǒng)計(jì)量,該統(tǒng)計(jì)量可以檢驗(yàn)測量特征與分類之間的依賴關(guān)系,我們可以通過這個方法將獨(dú)立于類的特征“過濾”。

    四、隨機(jī)森林算法

    傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法有很多,如決策樹、支持向量機(jī)、貝葉斯、K近鄰等,但存在單個分類器的性能提升有限以及過擬合的問題。集成學(xué)習(xí)不同于傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法,它通過集成多個分類器來提高分類性能,集成學(xué)習(xí)算法中的隨機(jī)森林算法以簡單高效著稱。

    圖2 隨機(jī)森林算法示意圖

    隨機(jī)森林是基于決策樹的一種非參數(shù)集成學(xué)習(xí)分類算法,只需通過對給定樣本的學(xué)習(xí)訓(xùn)練分類規(guī)則,并不需要先驗(yàn)知識[35]。其中隨機(jī)森林分類的基本思想是:使用bootstrap抽樣從訓(xùn)練集全集D中抽取出k個樣本;這k個樣本分別建立k個決策樹模型,將測試集數(shù)據(jù)輸入這k個決策樹模型后會得到k個分類結(jié)果;最后通過投票表決預(yù)測其最終分類。算法示意如圖2所示。

    五、實(shí)驗(yàn)

    1.實(shí)驗(yàn)設(shè)計(jì)

    本文實(shí)驗(yàn)主要分為四大模塊。

    (1)數(shù)據(jù)

    數(shù)據(jù)收集:選取《大學(xué)漢語精讀》《漢語閱讀教程》《實(shí)踐感悟漢語》(包括《實(shí)踐漢語》和《感悟漢語》兩套)《漢語閱讀與寫作教程》《成功之路》《發(fā)展?jié)h語》等六個中、高級對外漢語教材系列;使用OCR工具、掃描儀將以上六個系列教材的影印版PDF文件、紙質(zhì)書籍轉(zhuǎn)化為存儲在txt格式文件中的電子版,獲取共計(jì)600篇文章。

    數(shù)據(jù)處理:三次人工排錯、去除22篇不適用于進(jìn)行特征提取的文章,最終整理出共計(jì)578篇校對后的文章。具體文章數(shù)據(jù)統(tǒng)計(jì)詳見表2。

    數(shù)據(jù)集打標(biāo)簽與劃分:將數(shù)據(jù)集打亂后按照訓(xùn)練集:測試集=7:3的比例劃分?jǐn)?shù)據(jù)集,得到訓(xùn)練集數(shù)據(jù)404個、測試集數(shù)據(jù)174個。

    (2)特征工程

    特征提?。菏褂肞yNLPIR對文章數(shù)據(jù)進(jìn)行分詞、編寫python代碼提取基礎(chǔ)特征、等級特征、詞性特征、語法特征四個維度的特征共計(jì)86個,具體特征詳見表 3-表 7。

    特征預(yù)處理:使用區(qū)間縮放法對所有特征進(jìn)行區(qū)間縮放,使每個特征值都分布在[0,1]區(qū)間,詳見公式1。

    特征選擇:使用過濾式特征選擇中的卡方檢驗(yàn)“過濾”得到卡方值在平均值以上的特征。

    (3)分類器訓(xùn)練

    將經(jīng)過特征工程的訓(xùn)練集輸入隨機(jī)森林分類算法中,訓(xùn)練出分類器。

    (4)性能評估

    將測試集輸入上一步得到的分類器中進(jìn)行性能測試,使用精度(Acc)、相鄰準(zhǔn)確度(±Acc)、查準(zhǔn)率(precision)、查全率(recall)、F1 值(F1-score)這 5 個指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評估。

    綜上所述,對基于隨機(jī)森林的外漢語文本可讀性評估的整體流程如圖3所示。

    圖3 基于隨機(jī)森林算法的對外漢語文本可讀性評估整體流程圖

    2.評價指標(biāo)

    文本可讀性的評估與具體的應(yīng)用場景有關(guān),不同的應(yīng)用場景有不同評價指標(biāo),本次實(shí)驗(yàn)采用了以下五個可以定量的評價指標(biāo):

    (1)精度(Acc)

    評價一個分類模型常用的指標(biāo)就是精度,精度也是最為直觀的指標(biāo),精度的計(jì)算公式為:

    其中 I(·)表示指示函數(shù),當(dāng)·為真時 I(·)取值為 1,當(dāng)·為假時I(·)取值為0,簡單來說,精度等于所有參與預(yù)測的樣本總數(shù)中預(yù)測正確的樣本數(shù)所占的比例。一般情況下精度越高表示分類器性能越好,但過于籠統(tǒng)粗糙,因此還需要相鄰準(zhǔn)確度、查準(zhǔn)率、查全率和F1值等指標(biāo)來輔助。

    (2)相鄰準(zhǔn)確度(±Acc)

    文本可讀性的評估與其他的分類不盡相同,比如水果的分類,蘋果被錯誤地預(yù)測為香蕉,錯了就是錯了,因?yàn)樘O果和香蕉之間沒有遞進(jìn)關(guān)系。而文本可讀性的等級是存在遞進(jìn)關(guān)系的,以本研究的四個等級舉例(M1、M2、H1、H2), 比如一篇真實(shí)可讀性等級為 H2 的文章被分類器錯誤地預(yù)測為H1和被錯誤地預(yù)測為M1是不同的。雖然從精度方面考慮,兩者的情況是一樣的,但是同樣是誤判,被誤判為H1要比被誤判為M1要好得多,所以使用相鄰準(zhǔn)確度作為評價指標(biāo)之一是十分有必要的。

    (3)查準(zhǔn)率(precision,又稱準(zhǔn)確率)和查全率(recall,又稱召回率)

    這兩個評價指標(biāo)在實(shí)際研究中經(jīng)常被使用。然而查準(zhǔn)率和查全率是一對互相矛盾的評價指標(biāo),當(dāng)其中一個值上升時,通常情況下,另一個值會對應(yīng)下降。查準(zhǔn)率和查全率可以通過分類情況混淆矩陣計(jì)算得出,混淆矩陣如表8所示。

    表8 混淆矩陣

    其中,TP表示真正例,F(xiàn)N表示假反例,F(xiàn)P表示假正例,TN表示真反例。

    則查準(zhǔn)率和查全率的計(jì)算公式分別如下:

    (4)F1值(F1-score)

    由于查準(zhǔn)率和查全率往往此長彼消,所以又引入了Fβ-score,這是一種將查全率和查準(zhǔn)率結(jié)合起來的性能評價指標(biāo),更能從整體上對性能進(jìn)行評價,其計(jì)算公式如下:

    其中,β表示對查準(zhǔn)率的加權(quán)系數(shù),用于調(diào)整查準(zhǔn)率在F1-score中的影響力,β一般取值為1,則對應(yīng)的公式為:

    3.實(shí)驗(yàn)結(jié)果與分析

    我們完成上一小節(jié)中的實(shí)驗(yàn)步驟訓(xùn)練好分類器后,將事先劃分出來的測試集輸入分類器,得到的實(shí)驗(yàn)結(jié)果如表9所示。

    表9 基于隨機(jī)森林算法的對外漢語文本可讀性評估結(jié)果

    從表9可以看出,通過隨機(jī)森林算法,文本可讀性評估四分類(M1、M2、H1、H2)中單類查準(zhǔn)率最高的是 H2,達(dá)到了0.81,單類查準(zhǔn)率最低的是M1,為0.60,但M1的查全率為四類中最高的,達(dá)到了0.85??傮w上說,此次四分類的精度為65.51%、相鄰準(zhǔn)確度達(dá)到了92.52%。

    六、總結(jié)

    隨著自然語言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等相關(guān)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的對外漢語文本可讀性評估逐漸成為研究熱點(diǎn)。機(jī)器學(xué)習(xí)從使用的個體分類器數(shù)量上來說又可以分為單分類器機(jī)器學(xué)習(xí)和集成學(xué)習(xí),集成學(xué)習(xí)中的隨機(jī)森林算法更是以易于理解、性能優(yōu)異著稱,在世界上多個數(shù)據(jù)挖掘競賽上嶄露頭角。因此,本文提出了基于隨機(jī)森林算法的對外漢語文本可讀性評估研究。

    由于數(shù)據(jù)的稀缺性,本文中使用的數(shù)據(jù)集相對較小,在小數(shù)據(jù)集上提取了基礎(chǔ)特征、等級特征、詞性特征、語法特征這四個維度的特征共計(jì)86個。進(jìn)行了Filter特征選擇后使用訓(xùn)練集訓(xùn)練隨機(jī)森林分類器,使用測試集進(jìn)行了性能評估,得到了精度為65.51%、相鄰準(zhǔn)確度為92.52%的對外漢語文本可讀性評估模型。本研究也為同類型的實(shí)驗(yàn)提供了新的方向,可以在接下來的研究中嘗試使用隨機(jī)森林等集成學(xué)習(xí)進(jìn)行對外漢語文本可讀性評估。

    猜你喜歡
    特征文本
    抓住特征巧觀察
    新型冠狀病毒及其流行病學(xué)特征認(rèn)識
    初中群文閱讀的文本選擇及組織
    甘肅教育(2020年8期)2020-06-11 06:10:02
    如何表達(dá)“特征”
    在808DA上文本顯示的改善
    不忠誠的四個特征
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    抓住特征巧觀察
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
    人間(2015年20期)2016-01-04 12:47:10
    夜夜夜夜夜久久久久| 夜夜爽天天搞| 久久中文字幕一级| 精品福利永久在线观看| 国产精品久久视频播放| 欧美乱妇无乱码| 免费不卡黄色视频| 午夜成年电影在线免费观看| 在线播放国产精品三级| 高潮久久久久久久久久久不卡| 久久ye,这里只有精品| av网站在线播放免费| 国产男女内射视频| 久久久久久亚洲精品国产蜜桃av| 三级毛片av免费| 国产国语露脸激情在线看| 日韩一卡2卡3卡4卡2021年| 日韩一卡2卡3卡4卡2021年| 亚洲精品乱久久久久久| 亚洲综合色网址| 国产高清videossex| 精品第一国产精品| 国产成人av激情在线播放| 丁香六月欧美| 欧美 亚洲 国产 日韩一| 日韩欧美国产一区二区入口| 成人亚洲精品一区在线观看| av片东京热男人的天堂| 国产在视频线精品| 国产真人三级小视频在线观看| 久久中文字幕人妻熟女| 成年女人毛片免费观看观看9 | 欧美黑人精品巨大| 桃红色精品国产亚洲av| 高潮久久久久久久久久久不卡| 成人特级黄色片久久久久久久| 久久精品国产亚洲av香蕉五月 | 超碰97精品在线观看| 18禁国产床啪视频网站| 夜夜爽天天搞| 久久午夜亚洲精品久久| 在线播放国产精品三级| 国产高清videossex| 亚洲成人手机| 成年版毛片免费区| 欧美亚洲日本最大视频资源| 精品久久久久久,| 91精品三级在线观看| 涩涩av久久男人的天堂| 他把我摸到了高潮在线观看| 五月开心婷婷网| 交换朋友夫妻互换小说| 午夜精品在线福利| 国产区一区二久久| 亚洲人成伊人成综合网2020| 国产区一区二久久| 国产亚洲欧美精品永久| 久久ye,这里只有精品| 免费一级毛片在线播放高清视频 | videosex国产| 99国产综合亚洲精品| 桃红色精品国产亚洲av| 欧美人与性动交α欧美精品济南到| 久久这里只有精品19| 免费在线观看黄色视频的| 女人被狂操c到高潮| 大码成人一级视频| 国内久久婷婷六月综合欲色啪| 看黄色毛片网站| 一区二区三区国产精品乱码| 亚洲午夜理论影院| 国产精品98久久久久久宅男小说| 99久久人妻综合| 国产免费av片在线观看野外av| 极品教师在线免费播放| 久久中文字幕一级| 性色av乱码一区二区三区2| 欧美日韩中文字幕国产精品一区二区三区 | 精品视频人人做人人爽| 十八禁网站免费在线| 免费女性裸体啪啪无遮挡网站| 嫁个100分男人电影在线观看| 免费在线观看亚洲国产| 搡老乐熟女国产| 精品卡一卡二卡四卡免费| 又紧又爽又黄一区二区| 精品人妻1区二区| 久久中文看片网| 在线看a的网站| 日本一区二区免费在线视频| 精品高清国产在线一区| 国产xxxxx性猛交| 男女下面插进去视频免费观看| 校园春色视频在线观看| 热re99久久精品国产66热6| 亚洲熟妇中文字幕五十中出 | 99国产精品99久久久久| 男女午夜视频在线观看| 欧美精品人与动牲交sv欧美| 一级毛片女人18水好多| 人人妻,人人澡人人爽秒播| 俄罗斯特黄特色一大片| 免费av中文字幕在线| 久久香蕉精品热| 捣出白浆h1v1| 777米奇影视久久| 老熟妇乱子伦视频在线观看| 老汉色av国产亚洲站长工具| 国产成人欧美在线观看 | 香蕉国产在线看| 亚洲精品av麻豆狂野| 欧美+亚洲+日韩+国产| 精品久久久久久久毛片微露脸| 99热网站在线观看| 国产乱人伦免费视频| 国产精品.久久久| 男女床上黄色一级片免费看| 99香蕉大伊视频| 亚洲成人手机| 日韩欧美一区二区三区在线观看 | av不卡在线播放| 在线视频色国产色| av超薄肉色丝袜交足视频| 久久午夜综合久久蜜桃| 久久久久久久国产电影| 国产成人精品无人区| 久久久久精品国产欧美久久久| 丰满饥渴人妻一区二区三| 亚洲精品美女久久av网站| 视频区图区小说| 亚洲一区二区三区不卡视频| 丰满的人妻完整版| 国产欧美日韩一区二区精品| 中文字幕精品免费在线观看视频| 一区福利在线观看| 操出白浆在线播放| 激情在线观看视频在线高清 | 看黄色毛片网站| 在线观看一区二区三区激情| 最新的欧美精品一区二区| 日日夜夜操网爽| tube8黄色片| 电影成人av| 黄色怎么调成土黄色| av天堂在线播放| 男女免费视频国产| 黄片播放在线免费| 亚洲国产精品sss在线观看 | 日韩欧美在线二视频 | 99热网站在线观看| 欧美日韩av久久| 人妻一区二区av| 日本一区二区免费在线视频| 少妇 在线观看| 亚洲熟妇中文字幕五十中出 | 香蕉久久夜色| 成年动漫av网址| 亚洲色图 男人天堂 中文字幕| 亚洲中文日韩欧美视频| 精品国产一区二区三区四区第35| 亚洲人成电影免费在线| 岛国在线观看网站| 亚洲成人国产一区在线观看| 国产成人免费观看mmmm| 成人特级黄色片久久久久久久| 日韩三级视频一区二区三区| 高清av免费在线| 又紧又爽又黄一区二区| 俄罗斯特黄特色一大片| 国内久久婷婷六月综合欲色啪| 每晚都被弄得嗷嗷叫到高潮| 99国产精品一区二区蜜桃av | 天天添夜夜摸| 精品一区二区三区四区五区乱码| 婷婷丁香在线五月| 精品国产乱子伦一区二区三区| 亚洲午夜精品一区,二区,三区| 精品久久久久久,| 久久人妻福利社区极品人妻图片| 中文字幕人妻熟女乱码| 黑人欧美特级aaaaaa片| 亚洲色图av天堂| 韩国精品一区二区三区| 成人免费观看视频高清| 一边摸一边抽搐一进一小说 | 午夜免费成人在线视频| 国产不卡一卡二| 亚洲中文av在线| 18在线观看网站| 精品久久蜜臀av无| 欧美乱码精品一区二区三区| 人人妻,人人澡人人爽秒播| 久久久国产精品麻豆| 人人妻人人澡人人看| 黄色毛片三级朝国网站| 国产成人欧美| 亚洲成av片中文字幕在线观看| 男人的好看免费观看在线视频 | av福利片在线| 免费一级毛片在线播放高清视频 | 人人妻人人添人人爽欧美一区卜| 精品一区二区三卡| 性少妇av在线| 成人av一区二区三区在线看| 一级,二级,三级黄色视频| 啦啦啦视频在线资源免费观看| 国产成人系列免费观看| 一进一出抽搐动态| 国产99白浆流出| 天堂中文最新版在线下载| 久久久久久久久免费视频了| 人妻 亚洲 视频| 国产精品美女特级片免费视频播放器 | 亚洲成a人片在线一区二区| 亚洲欧美精品综合一区二区三区| 国产亚洲欧美在线一区二区| av天堂久久9| 精品人妻1区二区| 亚洲人成电影观看| 免费日韩欧美在线观看| 亚洲av日韩精品久久久久久密| 免费av中文字幕在线| 久久精品国产a三级三级三级| 最近最新免费中文字幕在线| av电影中文网址| 深夜精品福利| 在线播放国产精品三级| 亚洲国产毛片av蜜桃av| 欧美人与性动交α欧美精品济南到| 色老头精品视频在线观看| 亚洲熟妇熟女久久| 久久ye,这里只有精品| 午夜影院日韩av| 欧美成狂野欧美在线观看| 老司机深夜福利视频在线观看| 在线免费观看的www视频| 丝袜人妻中文字幕| 人人澡人人妻人| 日韩成人在线观看一区二区三区| 国产成人av教育| 一级a爱视频在线免费观看| 露出奶头的视频| 亚洲欧洲精品一区二区精品久久久| 韩国精品一区二区三区| 久久香蕉激情| 在线观看www视频免费| 少妇裸体淫交视频免费看高清 | 一本综合久久免费| 亚洲精品粉嫩美女一区| 法律面前人人平等表现在哪些方面| 国产在线一区二区三区精| 久久精品亚洲av国产电影网| 欧美精品亚洲一区二区| 午夜亚洲福利在线播放| 久久精品国产综合久久久| 亚洲,欧美精品.| 中文字幕色久视频| 精品人妻1区二区| 两性夫妻黄色片| 成年版毛片免费区| 最近最新中文字幕大全免费视频| 成人永久免费在线观看视频| 视频区欧美日本亚洲| 国产高清国产精品国产三级| 精品视频人人做人人爽| 99久久综合精品五月天人人| www.自偷自拍.com| 欧美成狂野欧美在线观看| 曰老女人黄片| 亚洲国产精品一区二区三区在线| 在线国产一区二区在线| 亚洲熟妇熟女久久| 高潮久久久久久久久久久不卡| 久久亚洲精品不卡| 校园春色视频在线观看| 天天影视国产精品| 亚洲成a人片在线一区二区| 久久久精品区二区三区| 国产精品一区二区在线观看99| 在线观看免费日韩欧美大片| 成年女人毛片免费观看观看9 | 黄色女人牲交| 操出白浆在线播放| 国产成人精品久久二区二区免费| 亚洲少妇的诱惑av| 人成视频在线观看免费观看| 国产成人欧美在线观看 | 欧美激情高清一区二区三区| 高清av免费在线| 热re99久久精品国产66热6| 黄色视频不卡| 亚洲人成电影观看| 色尼玛亚洲综合影院| 中文亚洲av片在线观看爽 | 亚洲欧美日韩高清在线视频| 999久久久国产精品视频| 国产精品av久久久久免费| 成人三级做爰电影| 亚洲精品成人av观看孕妇| 天堂动漫精品| 免费不卡黄色视频| 精品福利观看| 国产精品二区激情视频| 久久这里只有精品19| 下体分泌物呈黄色| 99国产精品免费福利视频| 精品久久久久久电影网| 下体分泌物呈黄色| 亚洲精品粉嫩美女一区| 精品午夜福利视频在线观看一区| 国产乱人伦免费视频| 久久久水蜜桃国产精品网| 亚洲成国产人片在线观看| 欧美人与性动交α欧美软件| 日韩欧美免费精品| 欧美乱色亚洲激情| 亚洲九九香蕉| 亚洲一区二区三区欧美精品| www日本在线高清视频| 亚洲人成77777在线视频| 高潮久久久久久久久久久不卡| 91麻豆精品激情在线观看国产 | 色婷婷久久久亚洲欧美| 性色av乱码一区二区三区2| 精品国产国语对白av| 五月开心婷婷网| 精品国内亚洲2022精品成人 | 人妻久久中文字幕网| 99国产极品粉嫩在线观看| 别揉我奶头~嗯~啊~动态视频| 热re99久久精品国产66热6| 18在线观看网站| 国产精品一区二区精品视频观看| 亚洲精品中文字幕一二三四区| 美国免费a级毛片| 国产欧美亚洲国产| e午夜精品久久久久久久| 国产亚洲精品一区二区www | 别揉我奶头~嗯~啊~动态视频| 欧美日韩av久久| 成人亚洲精品一区在线观看| 成人18禁在线播放| 超碰97精品在线观看| 一夜夜www| 两个人看的免费小视频| 国产精品影院久久| 桃红色精品国产亚洲av| 天天躁日日躁夜夜躁夜夜| 天堂动漫精品| 国产精品亚洲av一区麻豆| 亚洲三区欧美一区| 午夜福利免费观看在线| 成年女人毛片免费观看观看9 | 日韩欧美三级三区| 50天的宝宝边吃奶边哭怎么回事| 久久久久精品人妻al黑| 欧美最黄视频在线播放免费 | 极品教师在线免费播放| 高清欧美精品videossex| 黄色视频,在线免费观看| 精品高清国产在线一区| 极品教师在线免费播放| 不卡av一区二区三区| 性色av乱码一区二区三区2| 热re99久久国产66热| 黄色女人牲交| 精品电影一区二区在线| 免费在线观看完整版高清| 国产精品秋霞免费鲁丝片| 欧美日韩精品网址| 电影成人av| 国产精品98久久久久久宅男小说| 18在线观看网站| 中文亚洲av片在线观看爽 | 曰老女人黄片| 这个男人来自地球电影免费观看| 精品一区二区三区视频在线观看免费 | 久久国产精品大桥未久av| 精品高清国产在线一区| 精品国产乱码久久久久久男人| 无限看片的www在线观看| 黄频高清免费视频| 777久久人妻少妇嫩草av网站| a级毛片在线看网站| 水蜜桃什么品种好| 超色免费av| 欧美成人午夜精品| 麻豆国产av国片精品| 老司机靠b影院| 亚洲一卡2卡3卡4卡5卡精品中文| 老熟女久久久| 少妇的丰满在线观看| 亚洲欧美色中文字幕在线| 久久精品国产99精品国产亚洲性色 | www.精华液| 久久精品aⅴ一区二区三区四区| www.熟女人妻精品国产| 高清视频免费观看一区二区| 国产成人免费无遮挡视频| 日韩熟女老妇一区二区性免费视频| 午夜日韩欧美国产| 中文字幕另类日韩欧美亚洲嫩草| 两性午夜刺激爽爽歪歪视频在线观看 | 久久精品91无色码中文字幕| 亚洲熟女毛片儿| 成年人黄色毛片网站| 老司机靠b影院| 国产国语露脸激情在线看| 午夜免费成人在线视频| 老司机福利观看| 日韩精品免费视频一区二区三区| 91大片在线观看| 99re6热这里在线精品视频| 看免费av毛片| 极品教师在线免费播放| 老熟妇乱子伦视频在线观看| 国产精品偷伦视频观看了| 妹子高潮喷水视频| 三级毛片av免费| 午夜免费成人在线视频| 校园春色视频在线观看| 午夜福利,免费看| 精品国产乱子伦一区二区三区| 五月开心婷婷网| 欧美乱码精品一区二区三区| 欧美在线一区亚洲| 亚洲欧美激情在线| 99精品久久久久人妻精品| 国产在线一区二区三区精| 18禁裸乳无遮挡动漫免费视频| av在线播放免费不卡| 男女高潮啪啪啪动态图| 国产一区二区三区综合在线观看| 亚洲欧美一区二区三区久久| 高清黄色对白视频在线免费看| 变态另类成人亚洲欧美熟女 | 色精品久久人妻99蜜桃| 久久久久久免费高清国产稀缺| 精品熟女少妇八av免费久了| 精品久久久久久,| 麻豆国产av国片精品| 建设人人有责人人尽责人人享有的| 一夜夜www| 免费不卡黄色视频| 亚洲欧洲精品一区二区精品久久久| 日本五十路高清| 一边摸一边抽搐一进一小说 | 深夜精品福利| 欧美大码av| 久热这里只有精品99| www.精华液| 亚洲片人在线观看| 操美女的视频在线观看| 天天躁夜夜躁狠狠躁躁| 99香蕉大伊视频| 一进一出抽搐gif免费好疼 | 精品一区二区三区视频在线观看免费 | 在线观看免费午夜福利视频| 国精品久久久久久国模美| 午夜福利一区二区在线看| 在线观看免费午夜福利视频| 天堂俺去俺来也www色官网| 国产精品av久久久久免费| 亚洲精品av麻豆狂野| 亚洲成av片中文字幕在线观看| 高清在线国产一区| 国产不卡一卡二| 可以免费在线观看a视频的电影网站| 婷婷精品国产亚洲av在线 | 一进一出抽搐gif免费好疼 | 两人在一起打扑克的视频| 好男人电影高清在线观看| 99热国产这里只有精品6| 国产一区二区三区视频了| 嫁个100分男人电影在线观看| 变态另类成人亚洲欧美熟女 | 亚洲美女黄片视频| 国产激情久久老熟女| 欧美黄色片欧美黄色片| 在线观看舔阴道视频| 免费人成视频x8x8入口观看| 一区二区三区激情视频| x7x7x7水蜜桃| 国产蜜桃级精品一区二区三区 | 午夜亚洲福利在线播放| 亚洲欧美激情在线| 精品久久久久久电影网| 80岁老熟妇乱子伦牲交| 一级毛片精品| 狠狠狠狠99中文字幕| 动漫黄色视频在线观看| 国产亚洲欧美98| 他把我摸到了高潮在线观看| 热re99久久国产66热| 狠狠狠狠99中文字幕| 在线观看www视频免费| 无人区码免费观看不卡| 精品人妻在线不人妻| 国产激情欧美一区二区| 欧美日韩乱码在线| 亚洲精品成人av观看孕妇| 日本一区二区免费在线视频| 一a级毛片在线观看| 国产精品一区二区免费欧美| 香蕉丝袜av| 欧美激情久久久久久爽电影 | 国产亚洲精品久久久久5区| 国产精品免费视频内射| 女警被强在线播放| 国产不卡一卡二| 人人澡人人妻人| 日韩欧美免费精品| 动漫黄色视频在线观看| 亚洲精品乱久久久久久| avwww免费| 久久久久国产一级毛片高清牌| 少妇 在线观看| 亚洲国产欧美日韩在线播放| 免费人成视频x8x8入口观看| 亚洲av成人一区二区三| 99精品欧美一区二区三区四区| 国产高清国产精品国产三级| 国产av一区二区精品久久| 日韩欧美在线二视频 | 人人妻人人澡人人看| 国产深夜福利视频在线观看| 国产麻豆69| 午夜影院日韩av| 欧美一级毛片孕妇| 精品一区二区三卡| 国产精品久久电影中文字幕 | 午夜精品在线福利| 12—13女人毛片做爰片一| 别揉我奶头~嗯~啊~动态视频| 18禁观看日本| 日本撒尿小便嘘嘘汇集6| 天天躁狠狠躁夜夜躁狠狠躁| 成人三级做爰电影| 国产高清激情床上av| 午夜成年电影在线免费观看| 啦啦啦 在线观看视频| 美女国产高潮福利片在线看| 日本一区二区免费在线视频| 国产蜜桃级精品一区二区三区 | 亚洲五月天丁香| 18禁观看日本| 黄色丝袜av网址大全| 黄色视频,在线免费观看| 日韩中文字幕欧美一区二区| 亚洲成国产人片在线观看| www.999成人在线观看| 超碰成人久久| 国产欧美日韩一区二区精品| 日韩精品免费视频一区二区三区| 看片在线看免费视频| 亚洲黑人精品在线| 老熟女久久久| 久久热在线av| 久久精品国产亚洲av高清一级| 午夜视频精品福利| 免费av中文字幕在线| 国产精品自产拍在线观看55亚洲 | av片东京热男人的天堂| 人人妻人人爽人人添夜夜欢视频| 免费日韩欧美在线观看| 99热国产这里只有精品6| 国产免费av片在线观看野外av| 亚洲欧美一区二区三区久久| 欧美乱妇无乱码| 亚洲国产看品久久| 丝袜美足系列| 久久精品亚洲av国产电影网| 亚洲国产毛片av蜜桃av| 国产激情欧美一区二区| 一级,二级,三级黄色视频| 男女午夜视频在线观看| 国产精品一区二区免费欧美| 最近最新中文字幕大全免费视频| 大型黄色视频在线免费观看| av天堂久久9| 少妇裸体淫交视频免费看高清 | av在线播放免费不卡| 免费一级毛片在线播放高清视频 | 99国产精品一区二区蜜桃av | 国内久久婷婷六月综合欲色啪| 99精国产麻豆久久婷婷| 热re99久久精品国产66热6| 人妻久久中文字幕网| 色94色欧美一区二区| 久久久精品区二区三区| 国产亚洲欧美精品永久| 免费高清在线观看日韩| 超碰97精品在线观看| www.精华液| 丝袜美腿诱惑在线| 女人被躁到高潮嗷嗷叫费观| 伦理电影免费视频| 日本a在线网址| 日韩制服丝袜自拍偷拍| 淫妇啪啪啪对白视频| 国产成人精品久久二区二区91| 老熟女久久久| 我的亚洲天堂| 啪啪无遮挡十八禁网站| 国产亚洲精品第一综合不卡| 精品国内亚洲2022精品成人 | 国产精品国产高清国产av | 久久久精品免费免费高清| 日韩免费高清中文字幕av| 久99久视频精品免费| 欧美日韩中文字幕国产精品一区二区三区 | 国产欧美日韩一区二区精品| 国产av一区二区精品久久| 一本大道久久a久久精品| 女警被强在线播放|