◎ 吳 邊 肖 敏
上海市中小學(xué)漢語分級閱讀標(biāo)準(zhǔn)研制項(xiàng)目于2013 年12 月正式啟動,截至2016 年上半年完成第一階段任務(wù),形成一系列成果,并出版階段性成果《上海市中小學(xué)漢語分級閱讀標(biāo)準(zhǔn)研究報告——閱讀能力分級》一書。在此基礎(chǔ)之上,項(xiàng)目團(tuán)隊(duì)繼續(xù)開展影響漢語閱讀文本分級的相關(guān)指標(biāo)研究,旨在提出影響漢語文本難易度的量化指標(biāo),初步形成一個文本分級評估模型,嘗試探索建設(shè)一套利用信息技術(shù)支撐的線上漢語文本自動分級系統(tǒng)。
一套通用的文本分級系統(tǒng)不僅可以為學(xué)生尋找最適合其閱讀能力的閱讀材料,實(shí)現(xiàn)“個性化閱讀文本推薦”,而且在信息檢索系統(tǒng)中可以對檢索結(jié)果進(jìn)行難易排序,將更易于理解的內(nèi)容以較高順位提供給使用者。更重要的是,將文本分級標(biāo)準(zhǔn)與第一階段完成的閱讀能力分級標(biāo)準(zhǔn)結(jié)合,形成完善的閱讀分級標(biāo)準(zhǔn),可以為上海市中小學(xué)生漢語閱讀能力測評、中小學(xué)語文教材配套閱讀資源的選擇等提供量化依據(jù),也可以為漢語分級閱讀書目的推出提供支持,從而有效推動上海市中小學(xué)生的閱讀活動,進(jìn)一步促進(jìn)學(xué)生閱讀素養(yǎng)的提升。
文本自動分級的研究目標(biāo)是利用分級量化模型為待分級文本進(jìn)行文本難易級別評估,以實(shí)現(xiàn)對中小學(xué)閱讀文本提供與專家主觀分級較為一致的自動化分級標(biāo)注。本研究是上海市中小學(xué)漢語分級閱讀標(biāo)準(zhǔn)研制項(xiàng)目的一部分。本研究選取一批典型文本,參照模型利用系統(tǒng)對典型文本進(jìn)行量化分級標(biāo)定,并構(gòu)建相應(yīng)的閱讀學(xué)習(xí)平臺進(jìn)行數(shù)據(jù)采集及實(shí)證研究,運(yùn)用相關(guān)統(tǒng)計(jì)方法對文本的分級標(biāo)定以及學(xué)生分級閱讀數(shù)據(jù)進(jìn)行分析和比較,不斷修正模型,借此獲得一套通用的文本分級標(biāo)準(zhǔn)。
文本難易度分級常常被視為一個文本分類問題,即以分級別的方式來劃分文本閱讀的難易程度。文本難易度分級已經(jīng)是業(yè)界長期以來在持續(xù)研究的問題,對其比較系統(tǒng)的研究已經(jīng)發(fā)展近百年,但目前仍然談不上是一個被解決的問題。文本難易度分級從時間跨度上主要可以分為以下四個階段。
20 世紀(jì)20 年代的研究者們主要關(guān)注詞匯控制,即從詞匯的結(jié)構(gòu)難度、內(nèi)容或功能多樣性、使用范圍等方面考慮設(shè)計(jì)一個詞匯難度標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)的優(yōu)劣主要依賴于專家的經(jīng)驗(yàn)和相關(guān)性分析指標(biāo)。基于這種詞匯表可以對文本的難度作簡單的判斷。
20 世紀(jì)30 年代到70 年代期間,研究者們開始關(guān)注大量的文本因素,并嘗試使用可讀性公式以實(shí)現(xiàn)更準(zhǔn)確的文本難易度分級。從沃格爾(Vogel)和沃什伯恩(Washburne)在1928年設(shè)計(jì)Winnetka 公式開始,到1981 年可讀性評估公式的數(shù)量就超過200 個。其中比較有名的是Dale-Chall 公式和Flesch 公式。前者使用句長和詞匯難度來評估文本難易度;而后者則使用平均句長和平均單詞音節(jié)數(shù)來度量文本難易度。
事實(shí)上,后續(xù)的研究表明單單考慮詞匯度量對于文本難易度分級來說是不充分的;而各種有效可讀性公式的廣泛運(yùn)用則從側(cè)面證明結(jié)構(gòu)度量確實(shí)對文本難易度分級有幫助。
在20 世紀(jì)80 年代和90 年代,受認(rèn)知理論的啟發(fā),研究者傾向于認(rèn)為文本難易度的概念更多的與文本語義結(jié)構(gòu)有關(guān)。研究者開始關(guān)注文本的內(nèi)容組織、連貫性、凝聚性等語義結(jié)構(gòu)特點(diǎn),他們不認(rèn)為難的文章含有難詞是因?yàn)樗鼈冇懻摰氖浅橄蟮膯栴},容易的文章使用一般的單詞是因?yàn)樗鼈兲幚淼氖蔷唧w的經(jīng)驗(yàn)。研究者將聯(lián)結(jié)理論、構(gòu)思圖式理論、原型理論以及擴(kuò)散激活理論等引入研究中,用來解釋人是如何在長期記憶中存儲和檢索信息的。
近十幾年來,隨著計(jì)算機(jī)性能的提升以及自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,文本難易度研究又有了新進(jìn)展。得益于詞性標(biāo)注、語法分析、連貫度分析等新興的自然語言處理技術(shù),研究者能深入地挖掘文本語法和語義的結(jié)構(gòu)信息,并設(shè)計(jì)出更多的文本難易度評價特征。此外,諸如支持向量機(jī)、樸素貝葉斯、對率回歸等機(jī)器學(xué)習(xí)新技術(shù)也被用于新的文本難易度評估方法。
文本自動分級技術(shù)主要是利用文本難易度的量化指標(biāo)建立文本自動分級模型,對文本進(jìn)行自動化的分級評估。因此,文本自動分級技術(shù)應(yīng)包含兩個方面的研究任務(wù):①研究并提出決定文本難易度的量化指標(biāo);②研究如何綜合各種量化指標(biāo),建立模型,確定文本分級標(biāo)注。
經(jīng)過大量的文獻(xiàn)研究和技術(shù)分析,可以得到以下結(jié)論:傳統(tǒng)的文本自動分級方法都是僅關(guān)注語義單元的熟悉程度和語法的復(fù)雜程度,所提取的特征并不足以反映出文本的難易程度。我們嘗試通過使用機(jī)器學(xué)習(xí)和自然語言處理的前沿方法,提取有效特征——語句復(fù)雜度指標(biāo),研究該特征對于文本難易度的描述能力,并實(shí)驗(yàn)驗(yàn)證。首先對大量文本進(jìn)行人工難易度的標(biāo)定,然后利用神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練,最終利用訓(xùn)練得出的語言模型對文本難易度進(jìn)行直接標(biāo)定。而選取語句復(fù)雜度作為指標(biāo)的理由是:語句是組成文本的基本單元,可將文本可讀性評估簡化為文本平均語句復(fù)雜度評估。
深度學(xué)習(xí)是一種表示學(xué)習(xí)方法,是人工神經(jīng)網(wǎng)絡(luò)的一個分支;具有深度網(wǎng)絡(luò)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最早的網(wǎng)絡(luò)模型。深度學(xué)習(xí)可以避免繁瑣的人工特征抽取,有效地利用無監(jiān)督數(shù)據(jù),并且具有優(yōu)秀的泛化能力,因此非常適用于解決自然語言處理領(lǐng)域一系列難題。
首先,由于語言本身的高維特性,傳統(tǒng)的自然語言處理系統(tǒng)往往需要復(fù)雜的語言學(xué)知識以便手工提取分類特征。而利用深度學(xué)習(xí),則可以通過構(gòu)造神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練來自動學(xué)習(xí)用于解決自然語言處理領(lǐng)域的問題所需的特征。其次,在自然語言處理領(lǐng)域,無標(biāo)簽數(shù)據(jù)可輕易大量獲得,而有標(biāo)簽數(shù)據(jù)則相對稀少且昂貴,深度學(xué)習(xí)則剛好可以利用大量的無標(biāo)簽數(shù)據(jù)來獲取特征。最后,自然語言處理領(lǐng)域的許多問題往往相互之間具有非常強(qiáng)的關(guān)聯(lián)性,深度學(xué)習(xí)可以在特征抽取層面構(gòu)造統(tǒng)一的模型以同時處理這些問題,并通過多任務(wù)學(xué)習(xí)的方法在模型中對其關(guān)聯(lián)性進(jìn)行建模,從而獲得更好的性能。
在自然語言處理中,語言模型是一個非常重要的基礎(chǔ)性工具。我們可以從多個角度去理解語言模型和文本可讀性,其中較為有代表性的一個角度就是:基于語言模型的文本可讀性是對語言確定性的計(jì)算。在具體研究中,我們常希望將語言進(jìn)行建模,用量化方式來衡量某個語料庫的確定性(或可預(yù)測性)。
在計(jì)算語言模型時,我們將每個語句視為一個詞匯序列,確定性則是要回答“當(dāng)一個模型觀察到一個詞序列中的前(t–1)個詞之后,能否準(zhǔn)確預(yù)測出第t個詞”這一個問題。即如果一個語言集合所包含的語言較為簡單,則我們可以認(rèn)為其語句序列較為可預(yù)測,在觀察到前若干個詞之后,能夠?qū)⒅蟛懦霈F(xiàn)的下一個詞較為確定地鎖定在若干個候選者之中;而對于一個含有大量較復(fù)雜語句的語料庫來說,則觀察到某一語句中的前(t–1)個詞后,預(yù)測其之后的第t個詞則依舊非常困難。
傳統(tǒng)語言模型是指基于n-gram 模型構(gòu)建的,但n-gram 模型存在著一個兩難問題:如果參數(shù)取得越大,其所需的計(jì)算量與特征空間的稀疏度會越大;反之如果n取得較小,模型無法使用序列中距離較遠(yuǎn)的信息,這將導(dǎo)致模型預(yù)測并不準(zhǔn)確。
所幸在神經(jīng)網(wǎng)絡(luò)語言模型中,序列中的詞被參數(shù)化為連續(xù)的實(shí)數(shù)向量,并將其作為神經(jīng)網(wǎng)絡(luò)的輸入來解決n-gram 模型中數(shù)據(jù)稀疏性的問題。這些參數(shù)也將作為模型訓(xùn)練中的一部分進(jìn)行學(xué)習(xí)。而循環(huán)神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)語言模型中的應(yīng)用,大幅度地提高模型在長序列上學(xué)習(xí)相關(guān)上下文的能力。
如圖1 所示,本文采用一個基于長短期記憶神經(jīng)網(wǎng)絡(luò)的語句復(fù)雜度評估模型,該模型由一層詞嵌入層、兩層 LSTM 層以及一層Softmax 層構(gòu)成。其中,詞嵌入層用于將每個詞嵌入連續(xù)的實(shí)數(shù)向量空間;LSTM 層用于處理詞序列與記住歷史信息;Softmax 層用于獲得輸入詞序列中每個詞對應(yīng)的概率,該概率將會用于語句復(fù)雜度的計(jì)算之中。這樣一來,訓(xùn)練樣本中的每個詞、詞序列、歷史信息、輸入詞序列中每個詞對應(yīng)的概率等信息都被綜合在一起以得到一個語言模型。之后,我們就可以量化計(jì)算“語句復(fù)雜度”這一指標(biāo)。
圖1 “語句復(fù)雜度”評估模型
本研究中進(jìn)行的所有實(shí)驗(yàn)都是基于PyTorch及其子模塊所編寫的。
本研究共選取兩個來源的數(shù)據(jù)集:①國內(nèi)應(yīng)用最為廣泛的四個版本語文課程教材作為本實(shí)驗(yàn)?zāi)P偷恼Z料庫(去除詩歌和古文);②由專家遴選的60 本經(jīng)典圖書。
其中,選擇語文教材作為訓(xùn)練樣本的原因有以下三點(diǎn)。
(1)教材覆蓋區(qū)域、人群廣泛,具有一定代表性。
(2)教材符合一定的文本難度遞增規(guī)則,具有較高可分辨性。
(3)教材是由相關(guān)領(lǐng)域的專家組完成編撰的,具有權(quán)威性。
在模型訓(xùn)練之前,所有課文都進(jìn)行分句與分詞的預(yù)處理。句子長度方面,本研究選取數(shù)據(jù)集中長度大于或等于2 個字符且小于或等于128 個字符的所有句子,僅少量句子長度超過128 字符(小于1%)。預(yù)處理后,合并所有數(shù)據(jù)用于模型訓(xùn)練。
另外,還需對訓(xùn)練集進(jìn)行采樣處理,這是因?yàn)樵趯?shí)際學(xué)習(xí)中,各個學(xué)期的教材都是以一個學(xué)期時間為單位進(jìn)行學(xué)習(xí)的。也就是說,不論每個學(xué)期的教材課文文本量為多少,學(xué)生所付出的學(xué)習(xí)時間大致相同。其中,低年級的課文語句數(shù)量較少,那么該年級的學(xué)生在同一句話上所花費(fèi)的時間自然會更多。為在模型訓(xùn)練中反映這一現(xiàn)象并且平衡各年級語句數(shù)量,本研究采用蒙特卡洛采樣法,重新平衡各個年級中句子數(shù)量在訓(xùn)練集中的分布。
在實(shí)驗(yàn)中,我們所選取的教材都服從以下兩個假設(shè)。
(1)假設(shè)課文難度的評判主體是已學(xué)習(xí)過所有課文的學(xué)生,因此語言模型將所有年級的課文作為學(xué)習(xí)數(shù)據(jù)。
(2)假設(shè)每個學(xué)期內(nèi)的課文難度大致保持一致,而不同學(xué)期的課文難度與年級符合一定程度的線性增長關(guān)系,且由年級序列號決定(即一年級第一學(xué)期難度為1,以此類推)。
利用訓(xùn)練好的最佳語言模型,分別測量四種教材中課文的語句復(fù)雜度,結(jié)果如圖2 所示。從圖2 中不難發(fā)現(xiàn),難度等級與語句平均復(fù)雜度有著很強(qiáng)的相關(guān)性(詳見表1),除A 教材為+0.788 外,其余三種教材課文平均語句復(fù)雜度與難度等級的相關(guān)性都達(dá)到+0.86 以上,并且四套教材之間還存在著較強(qiáng)的相似度。
圖 2 基于神經(jīng)網(wǎng)絡(luò)的語句復(fù)雜度模型——四套教材的實(shí)驗(yàn)結(jié)果
表1 教材中語句復(fù)雜度與難度等級的皮爾遜相關(guān)性結(jié)果
為進(jìn)行對比,我們還使用SRILM 工具來構(gòu)建傳統(tǒng)的n-gram 語言模型,在使用相同訓(xùn)練集數(shù)據(jù)訓(xùn)練得到語言模型后,同樣對各版本教材進(jìn)行語句復(fù)雜度的測量,并標(biāo)記為KN 3-gram。具體實(shí)驗(yàn)結(jié)果可見圖3。
圖 3 基于KN 3-gram 的語句復(fù)雜度模型——四套教材的實(shí)驗(yàn)結(jié)果
從表1 中可以看出,KN 3-gram 模型得到的結(jié)果,其各教材的相關(guān)性均低于本模型,甚至在A 教材中的相關(guān)系數(shù)只有+0.356。在圖3中可以更為直觀地看出差別。本研究認(rèn)為這是由于n-gram 模型單純地基于統(tǒng)計(jì)頻率,無法抽取語句更多的相關(guān)特征所導(dǎo)致的。該對比結(jié)果在一定程度上展示語句復(fù)雜度對課文難度等級具有指導(dǎo)性意義。
此外,本研究還使用專家推薦的60 本經(jīng)典圖書用于驗(yàn)證模型的有效性:一方面,由19位相關(guān)專家為60 本圖書做主觀難易打分,并取平均值;另一方面,使用本文方法測量60本圖書的文本難易度。結(jié)果表明,文本難易度打分與專家主觀打分基本一致。
從上述實(shí)驗(yàn)結(jié)果可以看出,本研究所采用的基于神經(jīng)網(wǎng)絡(luò)的語句復(fù)雜度評估模型能夠較好地提取文本難易度特征,可以進(jìn)一步確定語句復(fù)雜度對于課文的難度等級有著很強(qiáng)的指導(dǎo)性價值,同時語句復(fù)雜度對于文本可讀性評估任務(wù)來說是一個擁有良好指向性的指標(biāo)。