王萍 OAE信息科技有限公司
辜向東 重慶大學(xué)
【提 要】本研究采用了三種數(shù)據(jù)挖掘方法,對大學(xué)英語六級(以下簡稱“六級”)、雅思、托福閱讀文本進行對比。運用Coh-Metrix對所收集的340篇三項考試的閱讀文本進行特征提取,共獲取106個文本特征,其中有43個被選為預(yù)測變量。然后分別訓(xùn)練決策樹、邏輯回歸、樸素貝葉斯模型對三項考試閱讀文本進行分類。根據(jù)分類精確率、召回率、F1和ROC面積等指標對模型進行評估。結(jié)果表明,所選的43個文本特征能有效區(qū)分三項考試的閱讀文本,分類準確率達到90.29%。在三種模型中,決策樹的分類效果最好。研究發(fā)現(xiàn),六級、雅思、托??荚嚨拈喿x文本在詞匯、短語、句子和語篇層面存在諸多差異。研究結(jié)果有望在分數(shù)解釋、測試材料選擇、文本改編、計算機自適應(yīng)測試和考試對接等方面對三項考試,甚至更廣泛的語言測試領(lǐng)域產(chǎn)生實質(zhì)性影響。
閱讀理解作為語言學(xué)習(xí)的重要技能之一,在外語考試中一直占據(jù)較大比重。閱讀理解測試的難度一直是語言測試研究者關(guān)注的重要議題(楊惠中、Weir 1998),試題難度控制也是試題開發(fā)工作的重要步驟(楊惠中、金艷2018),只有難度適宜的試題才能測出考生真實的語言水平(Green 2014)。語言測試領(lǐng)域?qū)﹂喿x理解試題難度的研究較多,然而現(xiàn)有研究多集中于對閱讀理解試題中單項選擇題題目難度的研究(如Freedle&Kostin 1991,1992,1993,1996,1999;Perkins,Gupta&Tammana 1995;Rupp,Garcia&Jamieson 2001;Gao& Rogers2011;Aryadoust& Goh2014;Aryadoust,Alizadeh&Mehran 2016),對閱讀文本本身的關(guān)注相對較少(江進林、韓寶成2018),而閱讀文本難度在一定程度上直接影響閱讀理解試題的整體難度。六級、雅思、托福分別是國內(nèi)外大規(guī)模、高風(fēng)險的英語考試,對比這三項考試閱讀測試文本難度的異同有助于形成對這三項考試的關(guān)聯(lián)論證,推動我國語言測試開發(fā)與研究的國際化。
對英語文本難度的研究由來已久,文本難度研究方法大致可分為以下四種:基于文本易讀度公式的方法、基于自然語言處理技術(shù)的方法、基于信息計算與應(yīng)用的方法、數(shù)據(jù)挖掘方法。
基于文本易讀度公式,此類方法主要是采用文本易讀度公式來測量文本的易讀度,如常見的弗萊士易讀度(Flesch Reading Ease),計算出來的值介于0到100之間,數(shù)值越高,表明文本越易讀。弗萊士-金凱德年級水平(Flesch-Kincaid Grade Level)計算出的值為對應(yīng)的年級,即處于該年級的學(xué)生應(yīng)該具備閱讀相應(yīng)難度級別文本的能力。上述文本易讀度公式用于測量文本難度時簡單易操作。然而,此類方法主要是對表層的語言形式進行量化,而文本閱讀理解涉及眾多層面,如文本加工過程中的心理認知因素(Carroll 2000;Gao&Rogers 2011;Schütze 2016)。因此,易讀度公式不能全面表征文本難度(刑富坤2007;江進林、韓寶成 2018)。
基于自然語言處理技術(shù),很多學(xué)者嘗試將自然語言處理技術(shù)納入文本難度的測量中,如Lu(2010)基于自然語言處理技術(shù)進行句子邊界識別、分詞、詞性標注及句法分析,開發(fā)了二語句法復(fù)雜度分析器(L2 Syntactic Complexity Analyzer)。該分析工具提取語言單位長度、句子復(fù)雜度、從屬子句使用量、并列結(jié)構(gòu)使用量、特定短語結(jié)構(gòu)等五個類別的文本復(fù)雜度測量指標,對文本的句法復(fù)雜度進行全面詳細的測量(陸小飛、許琪2016)。然而,除了句法復(fù)雜度之外,文本難度還應(yīng)包括詞匯復(fù)雜度、語義復(fù)雜度等其他層面的難度因素。因此,句法復(fù)雜度的分析結(jié)果需要與其他文本層面復(fù)雜度的分析結(jié)果相結(jié)合,從而得出相對全面的文本難度指標。
基于信息計算與應(yīng)用技術(shù),很多學(xué)者將信息熵(Shannon 1948)引入文本復(fù)雜度的測量(如Juola 1998, 2008;Kockelman 2009;Febres&Jaffé 2017;Zhu&Lei 2018),信息熵越大表明文本所含的信息越多,文本越復(fù)雜。如Zhu&Lei(2018)分析了Hansard語料庫中英國議會的演講語料,通過計算不同時期語料的信息熵來分析其所反映的英國社會文化復(fù)雜度的歷時變化。刑富坤、程東元、濮建忠(2008)通過計算詞匯、句子、語篇層面的信息熵來測量文本復(fù)雜度,并開發(fā)了基于信息論的文本易讀度測量系統(tǒng)(Informationbased Reada-bility Measuring System,IMRS)。將信息論與信息計算技術(shù)融入文本復(fù)雜度的測量超出了傳統(tǒng)的主要關(guān)注文本表層信息如詞長、句長、詞頻等范疇的文本復(fù)雜度測量,為文本復(fù)雜度的測量與研究提供了新思路。
基于數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘能高效處理大規(guī)模數(shù)據(jù),從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和知識(Gorunescu 2011)。由于此類方法以數(shù)據(jù)為驅(qū)動,無需對變量之間的關(guān)系做出預(yù)設(shè),對數(shù)據(jù)的分布也沒有嚴格要求(Perkins et al.1995;Keith 2006;Aryadoust 2015),越來越多的學(xué)者嘗試將數(shù)據(jù)挖掘技術(shù)應(yīng)用于文本復(fù)雜度研究。如付宇博(2018)用一系列文本特征如文章的總詞數(shù)、詞族、平均句子長度、從句數(shù)量等,通過構(gòu)建決策樹模型對文本難度進行預(yù)測,其預(yù)測準確率達92.5%,但尚未有研究將此類技術(shù)應(yīng)用于三項考試的閱讀文本難度對比研究。
本研究將采用數(shù)據(jù)挖掘方法對比研究六級、雅思、托福閱讀文本的難度,主要解決以下三個研究問題:1)哪些文本難度特征能否有效區(qū)分六級、雅思、托福閱讀文本?2)在這些區(qū)別性文本特征上,上述三項考試的閱讀文本有何差異?3)在本文所使用的決策樹、邏輯回歸、樸素貝葉斯三種數(shù)據(jù)挖掘方法中,哪種方法最有效?
本研究收集了從2006年至2016年1六級真題閱讀理解文本132篇,劍橋雅思真題4-12冊閱讀文本134篇,托福網(wǎng)上練習(xí)TPO 1-50閱讀文本74篇。
決策樹、邏輯回歸、樸素貝葉斯這三種方法是數(shù)據(jù)挖掘中最常用的分類算法,簡單易操作且模型結(jié)果易解釋(Aryadoust&Goh 2014;Meng et al.2017)。因此,本文將采用這三種方法對三項考試閱讀文本進行自動分類。對于模型評估,本文采用常用的指標準確率(accuracy)、召回率(recall)、精確度(precision)、F1、ROC 面積等。
研究使用的工具有Coh-Metrix和WEKA。Coh-Metrix是自動文本分析工具,能對文本進行11個模塊的分析。這些模塊包括描述性統(tǒng)計量、文本易讀性主成分得分、指稱銜接、潛語義分析、詞匯多樣性、連詞、情景模式、句法復(fù)雜度、句法型式密度、詞匯信息、可讀性(McNamara et al.2014;江進林2016)。研究使用Coh-Metrix提取一系列用于自動文本分類的文本特征。
WEKA是較為成熟的數(shù)據(jù)挖掘工具,可以實現(xiàn)分類、聚類、關(guān)聯(lián)規(guī)則分析等數(shù)據(jù)挖掘任務(wù),具備特征選擇以及結(jié)果可視化等功能,操作簡單(Mark et al.2016)。研究將使用WEKA進行數(shù)據(jù)挖掘?qū)嶒灐?/p>
如圖1所示,研究首先收集了六級、雅思、托福閱讀文本,并做了相應(yīng)的預(yù)處理,如刪除原文中個別詞語的中文釋義、改正拼寫錯誤、刪除空格等。然后用Coh-Metrix對收集到的文本進行分析,共得到106個文本特征。因特征過多會影響模型的性能,也可能導(dǎo)致模型不易解釋,故本研究從上述106個特征中選取43個特征(見表1)用于文本自動分類,選擇的主要依據(jù)是已有文獻基礎(chǔ),尤其是關(guān)于文本加工過程所涉及的認知因素、文本易讀度、文本分析等相關(guān)研究,例如McNamara等(2014)發(fā)現(xiàn)文本包含的已知信息多,有助于文本的加工,因此新舊信息比這個文本特征被選用;Khalifa&Weir(2009)指出語義更具體的詞語容易激活讀者對該詞語的心理意象,因此有助于文本的理解,于是詞匯語義具體性這個特征被選用。本研究使用數(shù)據(jù)挖掘工具WEKA 3.9進行文本分類。
圖1 研究步驟
表1 三項考試閱讀文本的43個特征及平均值
本節(jié)將分別詳細報告三種數(shù)據(jù)挖掘方法所得出的分類結(jié)果,然后選出分類效果最佳的模型。
如表2所示,決策樹分類的準確率達90.29%,即在所有樣本中,90.29%的樣本被正確分類;召回率達90.3%,即在所有正樣本中,90.3%的正樣本被正確分類,僅9.7%的正樣本被錯誤地識別為負樣本;精確度達90.4%,表明所有被識別為正樣本的數(shù)據(jù)中,被正確識別的正樣本占90.4%,原本為負樣本卻被錯誤地識別為正樣本的數(shù)據(jù)僅9.6%;F1值和ROC面積分別為0.903和0.942,均非常接近1,表明分類結(jié)果較準確,決策樹分類器的性能相當(dāng)好。
具體對比三項考試閱讀文本的分類結(jié)果發(fā)現(xiàn),六級閱讀文本分類的召回率(93.9%)、精確度(96.9%)、F1值(0.954)最高,其次為雅思閱讀文本(分別是89.6%,86.3%,0.879),最后是托福閱讀文本(分別是85.1%,86.3%,0.857)。值得特別一提的是,三項考試閱讀文本分類結(jié)果中,ROC面積均大于0.92,表明分類效果相當(dāng)好。由此可見,在三項考試的閱讀文本分類中,六級閱讀文本的分類效果最好,雅思閱讀文本次之,最后是托福閱讀文本。
表2 決策樹分類結(jié)果
如表3所示,邏輯回歸分類的準確率為78.82%,召回率為78.8%,精確度為78.7%,F(xiàn)1值為0.787,ROC面積為0.911。上述指標表明邏輯回歸的分類效果不理想。對比三項考試閱讀文本的分類結(jié)果發(fā)現(xiàn),除ROC面積外,六級閱讀文本和雅思閱讀文本的各項分類指標比較接近,而托福閱讀文本的各項分類指標則遠低于前兩項考試閱讀文本。由此可見,六級閱讀文本和雅思閱讀文本的分類結(jié)果相當(dāng),托福閱讀文本的分類結(jié)果較差。
表3 邏輯回歸分類結(jié)果
如表4所示,樸素貝葉斯分類的準確率為88.52%,召回率為88.5%,精確度為90.2%,F(xiàn)1值為0.882,ROC面積為0.955。上述指標表明,樸素貝葉斯的分類效果較好。
具體對比三項考試閱讀文本分類結(jié)果發(fā)現(xiàn),六級閱讀文本分類的召回率(100%)和托福閱讀文本分類的召回率(94.6%)遠高于雅思閱讀文本分類的召回率(73.9%);雅思閱讀文本分類的精確度(100%)遠高于六級閱讀文本(84.1%)和托福閱讀文本(83.3%);六級閱讀文本分類的F1值(0.913)和ROC面積最高(0.983),托福閱讀文本次之,最后是雅思閱讀文本。上述模型評估指標表明,在樸素貝葉斯分類結(jié)果中,三項考試閱讀文本的分類效果沒有呈現(xiàn)明顯的優(yōu)劣趨勢。
表4 樸素貝葉斯分類結(jié)果
由表5可以看出,決策樹和樸素貝葉斯的各項指標較接近,且二者都遠高于邏輯回歸;樸素貝葉斯的ROC面積最大,決策樹次之,最后是邏輯回歸。綜合上述模型評估指標發(fā)現(xiàn),決策樹的分類效果最佳,樸素貝葉斯次之,最后是邏輯回歸。
由分類效果最好的決策樹文本分類結(jié)果可以看出,本研究所考查的43個文本特征確實能夠非常準確地將六級、雅思和托福的閱讀文本區(qū)分出來。換言之,三項考試的閱讀文本在上述43個文本特征上存在差異。
表5 數(shù)據(jù)分類結(jié)果對比
本研究的數(shù)據(jù)分析結(jié)果表明,三項考試的閱讀文本在本文所選取的43個文本特征上存在差異,這些文本特征可以分為詞匯、短語、句法、語篇四個層面,下文將從上述四個層面對本研究的數(shù)據(jù)分析結(jié)果進行討論。
在詞匯層面,從表1可以看出,雅思閱讀文本的詞匯(78.95)比六級(0.74)和托福(0.67)多樣;托福閱讀文本的詞義具體性最高(0.41),而六級閱讀文本的詞義具體性最低(-0.06);較之雅思(450.43)和托福(560.16),六級閱讀文本的實詞熟悉度最低(69.75);雅思閱讀詞匯具象性(110.32)遠低于六級(406.31)和托福(421.59);雅思閱讀詞匯豐富性(116.80)遠低于六級(431.85)和托福(426.69);與六級(1.89)和托福(1.93)相比,雅思閱讀文本的詞匯上下義關(guān)系指標顯示,雅思閱讀文本使用了更多語義具體的詞匯(9.09)。
在短語層面上,與六級和托福相比,雅思閱讀文本的名詞短語、動詞短語、副詞短語、介詞短語少很多;相反,雅思閱讀文本的動名詞短語比六級和托福多得多(15.63<21.26<213.70),其不定式短語比六級和托福多得多(12.69<19.32<92.45),其否定結(jié)構(gòu)也比六級和托福多(5.47<9.31<14.83)。
在句子層面上,雅思閱讀文本的句子中左鑲嵌結(jié)構(gòu)比六級和托福少(1.94<5.33<5.87);雅思閱讀文本的無主體被動結(jié)構(gòu)最多(16.88),托福閱讀文本次之(11.35),六級閱讀文本的無主體被動結(jié)構(gòu)最少(6.79)。
在語篇層面上,與六級閱讀文本(84.60)和托福閱讀文本(89.10)相比,雅思閱讀文本(50.50)的連接詞總數(shù)較前兩者少;雅思閱讀文本的邏輯連接詞比六級和托福少,但其時間性連接詞和否定連接詞較其他兩者多,其弗萊士易讀度指標比其他兩者低。
本文采用三種數(shù)據(jù)挖掘方法,對六級、雅思、托福閱讀文本進行對比,運用Coh-Metrix對所收集的340篇三項考試的閱讀文本進行特征提取,共獲取106個文本特征,其中有43個被選為預(yù)測變量。然后分別訓(xùn)練決策樹、邏輯回歸、樸素貝葉斯模型對三項考試閱讀文本進行分類。根據(jù)分類精確率、召回率、F1和ROC面積等指標對模型進行評估。結(jié)果表明,所選的43個文本特征能有效區(qū)分三項考試的閱讀文本,分類準確率達到90.29%。在三種模型中,決策樹的分類效果最好,樸素貝葉斯次之,最后是邏輯回歸。研究發(fā)現(xiàn),六級、雅思、托福考試的閱讀文本在詞匯、短語、句子和語篇層面存在諸多具體的差異。探明這些差異,有助于試題開發(fā)者進一步明確三項考試閱讀文本的不同,在分數(shù)解釋、測試材料選擇、文本改編、計算機自適應(yīng)測試和考試對接等方面對三項考試,甚至更廣泛的語言測試領(lǐng)域產(chǎn)生實質(zhì)性的影響。此外,本文嘗試數(shù)據(jù)挖掘方法,有望為相關(guān)研究提供思路和方法上的參考。
注釋:
1 因2006年大學(xué)英語四、六級改革,至2016年有10年的時間跨度,2006年也是托福網(wǎng)考全面實施的一年,因此本文選用了2006-2016年三項考試的閱讀文本進行對比研究。