【摘要】信息化教學(xué)條件下實(shí)現(xiàn)英文文本難度的自動(dòng)化測(cè)量對(duì)于豐富教學(xué)資源,優(yōu)化教學(xué)過(guò)程,促進(jìn)外語(yǔ)教學(xué)都有著重要意義。該文介紹了一種新型的英文文本難度測(cè)量方法,該方法擺脫了傳統(tǒng)方法中僅僅依靠詞長(zhǎng)、句長(zhǎng)等變量進(jìn)行測(cè)量的局限,通過(guò)英語(yǔ)文本的信息計(jì)算實(shí)現(xiàn)文本難度的自動(dòng)測(cè)量,實(shí)驗(yàn)結(jié)果表明該方法的測(cè)量準(zhǔn)確性明顯優(yōu)于傳統(tǒng)方法。此外,還研制開(kāi)發(fā)出面向用戶使用的英文文本難度自動(dòng)測(cè)量系統(tǒng)IRMS(Information-based Readability Measuring System),實(shí)現(xiàn)了文本難度的自動(dòng)測(cè)量。
【關(guān)鍵字】文本難度;自動(dòng)測(cè)量;外語(yǔ)教學(xué);語(yǔ)言技術(shù);系統(tǒng)開(kāi)發(fā)
【中圖分類(lèi)號(hào)】G434 【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097(2008)06—0079—07
一 引言
外語(yǔ)教學(xué)一直都是教育技術(shù)最為關(guān)心的領(lǐng)域之一,利用先進(jìn)的信息技術(shù)手段優(yōu)化外語(yǔ)教學(xué)過(guò)程,豐富外語(yǔ)教學(xué)資源,提高外語(yǔ)教學(xué)效率和效果,也一直是現(xiàn)代教育技術(shù)追求的目標(biāo)[1]。尤其是在互聯(lián)網(wǎng)出現(xiàn)之后,網(wǎng)絡(luò)資源的極大豐富和信息技術(shù)手段的快速發(fā)展,更為教育技術(shù)搭建了更為寬廣的舞臺(tái),同時(shí)也對(duì)教育技術(shù)提出了更高的要求[2]。在這種背景下,如何利用信息技術(shù)手段,高效地收集、處理、應(yīng)用各類(lèi)文本資源,更好地為外語(yǔ)教學(xué)服務(wù),成為教育技術(shù)研究的重要課題之一。在這其中,高精度地自動(dòng)判定英語(yǔ)語(yǔ)篇難度,從而將豐富但又繁雜的英語(yǔ)文本資源進(jìn)行有序化處理,轉(zhuǎn)變?yōu)榭晒┙虒W(xué)使用的教學(xué)資源又是此類(lèi)研究的重要內(nèi)容之一。
二 文本難度自動(dòng)測(cè)量的研究意義
英文文本難度研究發(fā)端于教學(xué)需要,第一個(gè)文本難度測(cè)量公式就是為了滿足美國(guó)高中理科教師的需要而研制開(kāi)發(fā)的[3]。這些教師希望能夠?qū)砜平滩牡恼Z(yǔ)言難度進(jìn)行測(cè)量和控制,從而使教材中的語(yǔ)言簡(jiǎn)單明了,以減少由于語(yǔ)言而給學(xué)生帶來(lái)的學(xué)習(xí)困難。
文本難度研究對(duì)于教學(xué)的主要貢獻(xiàn)就是它能夠促進(jìn)個(gè)性化教學(xué)和自主學(xué)習(xí)的開(kāi)展。個(gè)性化教學(xué)的目標(biāo)是要能夠根據(jù)每一名學(xué)習(xí)者的具體學(xué)習(xí)水平、認(rèn)知特點(diǎn)等,提供特定的教學(xué)和輔導(dǎo),從而開(kāi)展針對(duì)性教學(xué),提高教學(xué)效率。在傳統(tǒng)的大班閱讀教學(xué)中,同一年級(jí)的學(xué)習(xí)者都使用同樣的閱讀材料,很難體現(xiàn)出學(xué)習(xí)者之間的差異。根據(jù)前蘇聯(lián)著名心理學(xué)家Vygotsky的最近發(fā)展區(qū)理論[4](Zone of Proximal Development,簡(jiǎn)稱(chēng)ZPD),在教學(xué)時(shí),應(yīng)該首先確定教學(xué)材料的難度,選擇難度稍高于學(xué)習(xí)者當(dāng)前水平的教學(xué)材料,這樣的教學(xué)就會(huì)發(fā)生在學(xué)生的最近發(fā)展區(qū)內(nèi),其效率最高,效果最佳。對(duì)于以學(xué)生為主體的自主性學(xué)習(xí)而言,文本難度研究會(huì)為學(xué)習(xí)者提供更加豐富和有針對(duì)性的閱讀材料,幫助學(xué)習(xí)者有效開(kāi)展自主學(xué)習(xí),提高學(xué)習(xí)效果。
近年來(lái),隨著網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)大量的文本資源,如何有效地對(duì)這些真實(shí)文本進(jìn)行文本難度測(cè)量和標(biāo)注,從而為閱讀教學(xué)提供適合的真實(shí)文本正成為研究熱點(diǎn)。美國(guó)卡耐基-梅隆大學(xué)的語(yǔ)言技術(shù)學(xué)院正在開(kāi)展的REAP(REAder-specific Practice)項(xiàng)目(http://www.lti.cs.cmu.edu)就是基于網(wǎng)絡(luò)文本,通過(guò)開(kāi)發(fā)適合網(wǎng)絡(luò)文本的文本難度測(cè)量模式,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)文本的自動(dòng)難度測(cè)定和劃分,并將難度標(biāo)注后的文本有針對(duì)性地用于教學(xué),該項(xiàng)目受到了美國(guó)教育部的資助,并已經(jīng)取得了階段性的成果[5]。
文本難度的研究成果除了在教學(xué)領(lǐng)域內(nèi)得到廣泛應(yīng)用外,在其他領(lǐng)域也得到應(yīng)用,例如在測(cè)量軍事訓(xùn)練手冊(cè)、保險(xiǎn)條約、借貸合同、新聞報(bào)道等的文本難度方面都有文本難度公式的參與[6]。Flesh-Kincaid文本難度測(cè)量公式就是美國(guó)國(guó)防部使用的標(biāo)準(zhǔn)文本難度測(cè)量公式,并且該公式也被內(nèi)置于Microsoftreg; Office Word ,幫助用戶自動(dòng)測(cè)量英文文本難度指數(shù)[7]。
總結(jié)文本難度的研究意義具體可以體現(xiàn)在以下幾個(gè)方面:
1有利于更加科學(xué)規(guī)范地選擇教學(xué)材料。用戶可以利用文本難度測(cè)量系統(tǒng),大規(guī)模地對(duì)教學(xué)材料進(jìn)行測(cè)量,然后對(duì)各個(gè)難度范圍內(nèi)的材料進(jìn)行選擇,這樣既可以提高選材效率,又提高了選材的科學(xué)性。
2有利于更加科學(xué)合理地開(kāi)展教材評(píng)價(jià)。用戶可以利用文本難度測(cè)量系統(tǒng)對(duì)現(xiàn)有的教材難度進(jìn)行測(cè)量,并結(jié)合實(shí)際應(yīng)用,對(duì)現(xiàn)有教材進(jìn)行評(píng)價(jià)和改進(jìn)。
3有利于其他非英語(yǔ)語(yǔ)種開(kāi)展文本難度研究。本課題采用的基于信息計(jì)算的研究方法是以往任何文本難度研究所沒(méi)有采取過(guò)的,是對(duì)傳統(tǒng)研究方法的一種突破。同時(shí),這種方法具有普適性,即其他非英語(yǔ)語(yǔ)言同樣可以利用這種方法開(kāi)展本語(yǔ)種的文本難度研究。
4有利于優(yōu)化教學(xué)過(guò)程。文本難度測(cè)量系統(tǒng)的開(kāi)發(fā)不僅可以對(duì)教材選擇和評(píng)價(jià)提供幫助,同時(shí)也會(huì)對(duì)學(xué)習(xí)者評(píng)估自我學(xué)習(xí)能力,尤其是閱讀理解能力提供輔助作用,從而支持以學(xué)習(xí)者為中心的個(gè)性化學(xué)習(xí)方式,優(yōu)化整個(gè)教學(xué)過(guò)程,提高教學(xué)效率。
5有利于豐富和優(yōu)化網(wǎng)絡(luò)教學(xué)資源。網(wǎng)絡(luò)存在的大量文本資源必須經(jīng)過(guò)有序化處理之后才能夠成為真正的可被利用的資源,文本難度測(cè)量系統(tǒng)可以從文本的難度等級(jí)分類(lèi)方面為網(wǎng)絡(luò)資源的有序化做出貢獻(xiàn),從而使網(wǎng)絡(luò)教學(xué)資源更加豐富和優(yōu)化。
總之,文本難度的自動(dòng)測(cè)量研究是輔助現(xiàn)代外語(yǔ)教學(xué),尤其是支持自主性學(xué)習(xí)的重要輔助手段,同時(shí)也是為其他相關(guān)領(lǐng)域服務(wù)的基礎(chǔ)性研究工作,該研究工作的開(kāi)展必然會(huì)對(duì)現(xiàn)代教學(xué)工作以及其他相關(guān)工作起到重要的推動(dòng)作用。
三 文本難度自動(dòng)測(cè)量的相關(guān)研究工作
1國(guó)外研究開(kāi)發(fā)情況
英語(yǔ)文本難度研究開(kāi)展最多也最為成熟的國(guó)家是美國(guó)。美國(guó)在1923年就開(kāi)發(fā)出第一個(gè)文本難度測(cè)量公式,其后文本難度研究發(fā)展迅速,大量的文本難度公式紛紛出現(xiàn)。其研究可以分為三個(gè)階段:
(1) 20世紀(jì)20年代至20世紀(jì)50年代:在這個(gè)階段,文本難度的測(cè)量主要依靠手工進(jìn)行,研究者通過(guò)手工抽樣文本并統(tǒng)計(jì)文本的特征,從而提煉出測(cè)量公式。由于受到手工限制,取樣范圍有限,測(cè)量公式粗糙,測(cè)量準(zhǔn)確性低。
(2) 20世紀(jì)50年代至20世紀(jì)90年代:在這個(gè)階段,文本難度研究對(duì)象與計(jì)算機(jī)前階段基本相同,主要是教材、手冊(cè)、合同等類(lèi)型的文本,研究方法也是沿襲傳統(tǒng)方法,但是有了計(jì)算機(jī)支持,可以進(jìn)行大規(guī)模計(jì)算,提高了測(cè)量結(jié)果的準(zhǔn)確性。
(3) 20世紀(jì)90年代至今:在這個(gè)階段,文本難度的研究受到網(wǎng)絡(luò)發(fā)展的深刻影響,文本難度的研究對(duì)象得到了相應(yīng)擴(kuò)展,從原有的傳統(tǒng)形式的文本發(fā)展到海量的網(wǎng)絡(luò)文本,傳統(tǒng)研究方法也有了進(jìn)一步創(chuàng)新。其重要代表就是由美國(guó)教育部資助,卡耐基-梅隆大學(xué)主持開(kāi)展的REAP項(xiàng)目研究。
2 國(guó)內(nèi)研究開(kāi)發(fā)狀況
由于中國(guó)國(guó)內(nèi)有大量的英語(yǔ)學(xué)習(xí)者,所以英語(yǔ)文本難度的研究也備受關(guān)注[8]。重慶大學(xué)根據(jù)Flesh Reading Ease公式開(kāi)發(fā)出文本難度測(cè)量應(yīng)用系統(tǒng),并在該系統(tǒng)中增加了不同難度等級(jí)(大學(xué)英語(yǔ)四級(jí)、大學(xué)英語(yǔ)六級(jí)等)詞匯的統(tǒng)計(jì)分析功能[9]。國(guó)內(nèi)有些研究者利用語(yǔ)料庫(kù)檢索軟件和國(guó)外傳統(tǒng)的文本難度測(cè)量公式,針對(duì)教材、閱讀測(cè)試文本等進(jìn)行文本難度測(cè)評(píng)[10] [11] [12]。
3 對(duì)國(guó)內(nèi)研究的評(píng)價(jià)
盡管文本難度的研究在我國(guó)受到眾多關(guān)注,但真正由我國(guó)研制開(kāi)發(fā)的文本難度測(cè)量模型和工具卻還沒(méi)有見(jiàn)到報(bào)道。在過(guò)去的研究中,國(guó)內(nèi)大部分研究者采用了美國(guó)Flesh Reading Ease 公式作為測(cè)量文本難度的公式,結(jié)論分析也都是基于該公式的評(píng)估標(biāo)準(zhǔn)。但由于該公式的自身局限性,以及該公式是針對(duì)美國(guó)人的閱讀能力和特點(diǎn)而構(gòu)建的,完全將其照搬到我國(guó)的文本難度測(cè)量中,而不考慮中國(guó)學(xué)習(xí)者在學(xué)習(xí)英語(yǔ)過(guò)程中的實(shí)際情況,必然會(huì)造成測(cè)量結(jié)果的不可靠。
4 傳統(tǒng)研究中存在的不足
國(guó)內(nèi)外有關(guān)文本難度自動(dòng)測(cè)量的研究雖然取得了很多成果,并研制開(kāi)發(fā)出諸多文本難度測(cè)量公式,但由于傳統(tǒng)研究方法的局限性,其研究成果也存在很多的不足,主要表現(xiàn)在:
(1) 測(cè)量準(zhǔn)確性不高:傳統(tǒng)測(cè)量公式只是簡(jiǎn)單地利用詞長(zhǎng)、句長(zhǎng)或是詞匯的難度分布來(lái)測(cè)量文本難度,而沒(méi)有深入探究語(yǔ)言的內(nèi)部規(guī)律對(duì)于文本難度的影響,因此其測(cè)量結(jié)果的準(zhǔn)確性不可避免地受到嚴(yán)重影響。
(2) 測(cè)量變量缺失:傳統(tǒng)測(cè)量沒(méi)有能夠?qū)㈤喿x環(huán)境因素與讀者因素對(duì)于文本難度的影響考慮在內(nèi),因此造成測(cè)量變量的缺失。
(3) 應(yīng)用范圍狹?。簜鹘y(tǒng)測(cè)量公式都有著專(zhuān)屬的應(yīng)用領(lǐng)域,超出這個(gè)領(lǐng)域就難以保證測(cè)量結(jié)果的準(zhǔn)確性。
以上這些不足在本研究中都給予了關(guān)注并獲得了較好的解決。(1)本研究利用自然語(yǔ)言處理技術(shù),使用信息計(jì)算的方法對(duì)文本的難度進(jìn)行測(cè)量,這種方法更加符合閱讀規(guī)律,更能夠反映文本難度特征,因此測(cè)量準(zhǔn)確性得到了提高,這從實(shí)驗(yàn)報(bào)告中可以明確看出;(2)本研究利用語(yǔ)料庫(kù)構(gòu)建能夠反映讀者語(yǔ)言使用特征的統(tǒng)計(jì)語(yǔ)言模型,利用文本信息量反映閱讀時(shí)間對(duì)于文本難度的影響,利用二元接續(xù)關(guān)系反映語(yǔ)序?qū)τ谖谋倦y度的影響,這些都是傳統(tǒng)研究中缺失的測(cè)量變量;(3)本研究的測(cè)試對(duì)象不僅包括傳統(tǒng)研究可以測(cè)試的規(guī)則文本,還包括傳統(tǒng)研究難以測(cè)量的短文本、語(yǔ)序混亂文本、文法錯(cuò)誤文本等,擴(kuò)大了難度測(cè)量的應(yīng)用范圍。這些工作都使得本研究具有傳統(tǒng)研究所不具有的特點(diǎn)。
四 基于統(tǒng)計(jì)語(yǔ)言模型的文本難度測(cè)量方法
針對(duì)傳統(tǒng)研究中存在的問(wèn)題,我們認(rèn)為,要提高文本難度自動(dòng)測(cè)量的準(zhǔn)確性和適用范圍就必須從研究方法層面有所突破,必須拋棄單純依靠詞長(zhǎng)、句長(zhǎng)、詞語(yǔ)難度分布等變量進(jìn)行文本難度測(cè)量的研究取向,利用依靠新的研究方法解決傳統(tǒng)研究不能夠解決的諸多問(wèn)題。本課題中采用了基于信息計(jì)算的研究方法開(kāi)展文本難度自動(dòng)測(cè)量的研究工作。
1 信息論簡(jiǎn)介
信息計(jì)算的理論基礎(chǔ)是信息論,信息論創(chuàng)始人香農(nóng)在概率統(tǒng)計(jì)的基礎(chǔ)上給出了信息的定義,其內(nèi)容是:“信息是消除了的不確定性” [13]。這一定義是從信息對(duì)信宿的作用的角度做出的,具有相對(duì)性、功能性和量化性特征,并在自然語(yǔ)言處理中得到廣泛應(yīng)用。對(duì)于文本難度的自動(dòng)測(cè)量而言,我們認(rèn)為如果能夠定量的對(duì)文本的信息進(jìn)行測(cè)量,那么就可以根據(jù)文本信息量的大小就對(duì)文本難度進(jìn)行估計(jì),而這種根據(jù)文本信息量的難度估計(jì)更符合人的認(rèn)知規(guī)律,也符合實(shí)際閱讀經(jīng)驗(yàn),因此從理論基礎(chǔ)和方法論上要優(yōu)越于傳統(tǒng)的簡(jiǎn)單測(cè)量詞長(zhǎng)、句長(zhǎng)的方法。
2 信息論在自然語(yǔ)言處理中的應(yīng)用
基于信息計(jì)算的文本難度測(cè)量模型就是根據(jù)以上三個(gè)信息變量,在訓(xùn)練語(yǔ)料的統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)上構(gòu)建出來(lái)的。
上述方法中建立的2元統(tǒng)計(jì)語(yǔ)言模型以及提出的3個(gè)信息變量在研究方法的層面較好地解決了傳統(tǒng)研究中忽視語(yǔ)序因素、讀者因素和環(huán)境因素對(duì)于文本難度影響的問(wèn)題,將語(yǔ)序、讀者與環(huán)境都納入到了測(cè)量之中,提高了測(cè)量模型的效果,也擴(kuò)大了測(cè)量范圍。
4 研究路線
本研究采用了目前自然語(yǔ)言處理研究領(lǐng)域主流的基于統(tǒng)計(jì)語(yǔ)言模型的研究方法,依靠大量的語(yǔ)料資源構(gòu)建語(yǔ)言模型,然后根據(jù)語(yǔ)言模型在人工標(biāo)注好的訓(xùn)練語(yǔ)料上進(jìn)行文本難度測(cè)量模型的訓(xùn)練,最后開(kāi)發(fā)出面向用戶的文本難度測(cè)量應(yīng)用系統(tǒng)。
具體過(guò)程是,首先利用BROWN、LOB、FROWN、FLOB等四個(gè)總計(jì)400萬(wàn)詞的平衡語(yǔ)料庫(kù)構(gòu)建n元(n=1,2,3)概率語(yǔ)言模型,并計(jì)算出所有n元組的信息量;然后選擇《新概念英語(yǔ)》(1-4冊(cè))[14]的所有文本作為訓(xùn)練語(yǔ)料,根據(jù)教材使用說(shuō)明,按照教材中語(yǔ)篇的不同冊(cè)次、篇次,將所有語(yǔ)篇?jiǎng)澐譃椴煌碾y度等級(jí)并予以標(biāo)注;利用信息計(jì)算方法和自然語(yǔ)言處理技術(shù),確立詞熵、句熵、語(yǔ)篇信息量等概念,并在訓(xùn)練語(yǔ)料上對(duì)這些變量進(jìn)行測(cè)量;對(duì)測(cè)量結(jié)果進(jìn)行分析,得出這些變量與文本難度之間的相關(guān)性關(guān)系,從而確定與文本難度最為相關(guān)的測(cè)量變量;然后利用訓(xùn)練語(yǔ)料的測(cè)量數(shù)據(jù)和最小二乘法,構(gòu)建不同語(yǔ)言模型下的文本難度測(cè)量公式;最后利用Visual Studio .NET2005開(kāi)發(fā)環(huán)境開(kāi)發(fā)出面向用戶的文本難度測(cè)量應(yīng)用系統(tǒng),并對(duì)測(cè)試語(yǔ)料進(jìn)行測(cè)試,檢驗(yàn)文本難度測(cè)量模型的可靠性和準(zhǔn)確性。
主要路線圖如下:
5 測(cè)量系統(tǒng)的效果檢驗(yàn)
為了測(cè)試本課題的文本難度測(cè)量模型的測(cè)量準(zhǔn)確性和適用性,我們選定了《大學(xué)英語(yǔ)》(1-6冊(cè))作為測(cè)試語(yǔ)料,對(duì)模型進(jìn)行檢驗(yàn)。
(1) 測(cè)試步驟
● 根據(jù)測(cè)試語(yǔ)料的類(lèi)型對(duì)其進(jìn)行難度標(biāo)注,區(qū)分出不同的難度等級(jí)
● 利用本課題開(kāi)發(fā)出的文本難度測(cè)試模型對(duì)測(cè)試語(yǔ)料進(jìn)行測(cè)量,得出文本難度系數(shù)
● 對(duì)文本難度系數(shù)和測(cè)試文本的難度等級(jí)進(jìn)行相關(guān)性分析,計(jì)算二者之間的Pearson相關(guān)系數(shù)和顯著性水平(sig.=0.01)
● 與傳統(tǒng)測(cè)量公式(本課題選用ARI測(cè)試公式)進(jìn)行對(duì)比研究,比較二者結(jié)果與難度等級(jí)的相關(guān)性水平
(2) 測(cè)試結(jié)果
注:表中“本課題模型測(cè)量值”與“ARI公式測(cè)量值”都是沒(méi)有進(jìn)行歸一化的測(cè)量值,由于各自公式所選取的測(cè)量基準(zhǔn)不同,因此測(cè)量值的絕對(duì)數(shù)值是不同的,但是我們關(guān)注的是測(cè)量值的相對(duì)數(shù)值,例如,第二冊(cè)相對(duì)第一冊(cè)難度提升了多少,整體的難度分布是什么樣的,與人工確定的難度等級(jí)相關(guān)性如何,從這個(gè)角度講二者盡管在絕對(duì)數(shù)值上不在同一個(gè)數(shù)量級(jí),但從相對(duì)數(shù)值上而言是具有比較基礎(chǔ)的。如果需要將二者放在同一個(gè)數(shù)量級(jí)進(jìn)行比較,那么只需分別對(duì)二者進(jìn)行歸一化處理即可。
從以上對(duì)大學(xué)英語(yǔ)(1-6冊(cè))測(cè)試語(yǔ)料的測(cè)量結(jié)果中可以看出:本課題模型的測(cè)量結(jié)果與難度等級(jí)的相關(guān)性(0.849)要遠(yuǎn)遠(yuǎn)高于ARI模型的測(cè)量結(jié)果(0.580),表明本課題的模型測(cè)量出的難度分值與預(yù)估的難度等級(jí)具有高度相關(guān)性,其相關(guān)性高于傳統(tǒng)的ARI測(cè)量模型,也就說(shuō)明,本課題模型在測(cè)量教材難度等級(jí)方面比傳統(tǒng)測(cè)量模型具有更高的準(zhǔn)確性。
五 應(yīng)用系統(tǒng)介紹
1 測(cè)量流程
下圖給出了利用IRMS系統(tǒng)進(jìn)行文本難度測(cè)量的整個(gè)過(guò)程。
程序啟動(dòng)后,首先進(jìn)入初始化頁(yè)面,選擇需要加載的語(yǔ)言模型,選擇后進(jìn)入程序主頁(yè)面,開(kāi)始語(yǔ)篇的文本難度測(cè)量工作。在主頁(yè)面中,首先選擇需要測(cè)評(píng)的語(yǔ)篇,然后進(jìn)行語(yǔ)篇信息參數(shù)以及語(yǔ)篇難度的統(tǒng)計(jì)分析,分析結(jié)果顯示在右側(cè)窗體內(nèi)。如果需要對(duì)另外一篇文檔進(jìn)行操作,則重新選擇文件,其后操作同上。
2 用戶界面介紹
(1) 初始化頁(yè)面
初始化界面的主要功能是向用戶提供備選的語(yǔ)言模型,用戶根據(jù)語(yǔ)言模型的特點(diǎn)和任務(wù)需要進(jìn)行選擇,然后加載程序,本系統(tǒng)默認(rèn)使用2元模型進(jìn)行語(yǔ)篇文本難度測(cè)評(píng)。
(2) 主程序界面
● 2元模型系統(tǒng)文本測(cè)試前的頁(yè)面
● 2元模型系統(tǒng)文本測(cè)試后頁(yè)面
在主程序頁(yè)面,用戶可以對(duì)文本進(jìn)行文本難度測(cè)量,測(cè)量結(jié)果包括難度系數(shù)以及適合讀者群,還包括文本的基本信息參數(shù),如詞型數(shù)、類(lèi)型數(shù)、句子數(shù)、詞熵、句熵、語(yǔ)篇信息量等參數(shù)值,以及每個(gè)2元組的信息量及其在語(yǔ)篇中的出現(xiàn)次數(shù),此外,系統(tǒng)還提供了傳統(tǒng)測(cè)量模型ARI(Automated Readability Index)的測(cè)量結(jié)果,以便比較使用。
六 結(jié)語(yǔ)
本課題以信息計(jì)算為基礎(chǔ),在總結(jié)和分析傳統(tǒng)文本難度研究的基礎(chǔ)上,研制出新的文本難度測(cè)量模型,并開(kāi)發(fā)出相應(yīng)的測(cè)量系統(tǒng),為文本難度的研究提供了一套新的思路和方法,所研制出的測(cè)量模型在測(cè)量準(zhǔn)確性、適用范圍等方面都超過(guò)了傳統(tǒng)文本難度測(cè)量公式,具有較強(qiáng)的理論意義和實(shí)用價(jià)值,為深度利用網(wǎng)絡(luò)資源,開(kāi)發(fā)信息化的外語(yǔ)教學(xué)系統(tǒng)提供了重要支持。
參考文獻(xiàn)
[1] 邢富坤. 語(yǔ)料庫(kù):值得教育技術(shù)學(xué)關(guān)注的新型學(xué)習(xí)資源[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2006,(2).
[2] 邢富坤. Web語(yǔ)料庫(kù)及其特征初探--與傳統(tǒng)語(yǔ)料庫(kù)的對(duì)比研究[J]. 外語(yǔ)電化教學(xué),2006,(2).
[3] Beverly L. Zakaluk and S.Jay Samuels. Readability: It's Past, Present Future[J]. The International Reading Association, 1988.
[4] Vygotsky,L.Mind and society [M]. Cambridge, MA: Harvard University Press, 1978.
[5] Kevyn Collins-Thompson and Jamie Callan. A Language Modeling Approach to Predicting Reading Difficulty [J]. In Proceedings of the HLT/NAACL 2004 Conference Boston, 2004.
[6] Klare. A Second Look at the Validity of Readability Formulas [J]. Journal of Reading Behaviour, 1976.
[7] FrymE. A readability formula that saves time [J]. Journal of Readingm1990.
[8] 李紹山. 易讀性研究概述[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào), 2000, (4).
[9] 晏生宏. 英文易讀度測(cè)量程序開(kāi)發(fā)探索. 重慶大學(xué)學(xué)報(bào)[J]. m2005, (2).
[10] 錢(qián)毓芳,顧群超. 大學(xué)英語(yǔ)易讀性的調(diào)查[J].浙江師大學(xué)報(bào)(社會(huì)科學(xué)版), 1999, (3).
[11] 林錚. 英文易讀性的測(cè)定[J].外語(yǔ)教學(xué)與研究,1995,(4).
[12] 解晶. 大學(xué)英語(yǔ)四、六級(jí)考試和研究生入學(xué)考試中閱讀理解的對(duì)比分析[J].大連海事大學(xué),2001,(2).
[13] 常迥. 信息理論基礎(chǔ)[M]. 清華大學(xué)出版社,1993.
[14] Alexander,L.G.何其莘. 新概念英語(yǔ)(新版)(1-4)[M]. 外語(yǔ)教學(xué)與研究出版社,2005.