張慶翔,張 瑩
(上海大學(xué) 文學(xué)院,上海 200436)
文本可讀性,也稱為“易讀性”,一般是指文本易于閱讀和理解的程度或性質(zhì)。王蕾把國(guó)際中文教育領(lǐng)域的可讀性定義為:漢語(yǔ)閱讀材料的難易度,是否適合某種水平的某一類漢語(yǔ)第二語(yǔ)言學(xué)習(xí)者的閱讀[1]。文本可讀性既要對(duì)閱讀材料的難度或可讀性進(jìn)行測(cè)評(píng),也要對(duì)讀者的閱讀能力進(jìn)行測(cè)評(píng)。因此,在研究國(guó)際中文教育領(lǐng)域的可讀性問(wèn)題時(shí),不僅要考慮到閱讀者的水平,還要考慮到他們的語(yǔ)言文化背景,如是否為漢字文化圈國(guó)家、是否為華僑等因素。
可讀性研究起源于美國(guó),國(guó)內(nèi)最早應(yīng)用于英語(yǔ)教學(xué)領(lǐng)域。文本可讀性的研究思路是對(duì)閱讀材料的難度進(jìn)行客觀評(píng)價(jià),通過(guò)建立一套實(shí)用、易操作的文本可讀性評(píng)估體系,以實(shí)現(xiàn)在教學(xué)中幫助選取與學(xué)習(xí)者水平相適應(yīng)的語(yǔ)料以及預(yù)測(cè)語(yǔ)料難度的目的,并可直接作用于建立分級(jí)閱讀標(biāo)準(zhǔn)或分級(jí)閱讀系統(tǒng)。
在國(guó)際中文教育領(lǐng)域中,張寧志最早嘗試運(yùn)用量化方法來(lái)衡量教材難易度,作者定量分析了29 部國(guó)際中文教育教材語(yǔ)料的平均句長(zhǎng),研究發(fā)現(xiàn),句長(zhǎng)和非常用詞比率都是影響漢語(yǔ)文本閱讀難度的重要因素[2]。這是國(guó)際中文教育領(lǐng)域最早的關(guān)于可讀性的相關(guān)研究。王蕾則構(gòu)擬了第一個(gè)文本可讀性公式[3],并引起了一些學(xué)者對(duì)文本可讀性研究的關(guān)注,由此產(chǎn)生了一些根據(jù)差異性文本來(lái)構(gòu)建適用于不同范圍的可讀性公式的成果。隨著研究方法的更新和交叉學(xué)科成果的介入,一些學(xué)者突破了國(guó)際中文教育領(lǐng)域可讀性研究的范式,創(chuàng)造性地采用樸素貝葉斯和支持向量機(jī)等學(xué)習(xí)算法,通過(guò)建立數(shù)學(xué)模型來(lái)評(píng)價(jià)文本可讀性,為國(guó)際中文教育領(lǐng)域的文本可讀性研究提供了新的思路和方法??梢哉f(shuō),通過(guò)梳理國(guó)際中文教育文本可讀性的相關(guān)研究成果,不僅能夠了解文本可讀性的研究脈絡(luò)、研究方法,而且有助于開(kāi)辟新的研究思路。
國(guó)際中文教育領(lǐng)域的文本可讀性研究主要集中在三個(gè)方面:歸納影響難度的文本特征因素、測(cè)定特征因素對(duì)難度的影響力、依據(jù)設(shè)定的標(biāo)準(zhǔn)定量考察語(yǔ)料文本難度。其中,定量分析將模糊的因素用具體的數(shù)據(jù)來(lái)表示,從而達(dá)到分析比較的目的,它成為研究文本難度的必要手段,可讀性公式則是定量研究語(yǔ)料文本難度的最直接形式。
文本可讀性研究的重點(diǎn)是選擇文本特征,按照選定的參考標(biāo)準(zhǔn)統(tǒng)計(jì)影響文本難度的特征變量是建立可讀性公式的關(guān)鍵。按照文本特征因素在研究階段中所起的作用,可以將其分為三類:預(yù)測(cè)特征變量、有效預(yù)測(cè)特征變量和結(jié)果特征變量。在研究初始階段,系統(tǒng)性預(yù)設(shè)的文本特征因素即為預(yù)測(cè)變量。在調(diào)查實(shí)驗(yàn)過(guò)程中,能夠賦值或者對(duì)研究目的起作用的變量即為有效預(yù)測(cè)變量。有效預(yù)測(cè)變量經(jīng)過(guò)賦值和回歸分析后,剔除對(duì)文本可讀性不產(chǎn)生影響或影響極小的成分,在可讀性公式中保留下來(lái),影響閱讀難度的有效預(yù)測(cè)變量即為結(jié)果變量。
基于回歸分析的可讀性公式研究中的文本特征,主要涉及字、詞、句、語(yǔ)法和篇章層面。由于各種可讀性公式在研究目的、研究對(duì)象、分析手段或研究者知識(shí)背景等方面會(huì)有所不同,因此,在文本特征的選擇和排除上也存在一定差異。對(duì)可讀性公式研究中所涉及的文本因素進(jìn)行統(tǒng)計(jì),與字相關(guān)的文本特征有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、字種數(shù)、簡(jiǎn)單字?jǐn)?shù)(甲級(jí)字?jǐn)?shù))、字均筆畫數(shù)、非重復(fù)字均筆畫數(shù)、字頻、漢字部件數(shù)、丙級(jí)/丁級(jí)/超綱字?jǐn)?shù)等;與詞相關(guān)的文本特征有總詞數(shù)(固定詞組數(shù))、非重復(fù)詞數(shù)(相異詞比)、簡(jiǎn)單詞數(shù)(甲級(jí)詞數(shù))、詞頻、平均詞長(zhǎng)、難詞比(丙級(jí)/丁級(jí)/超綱詞占總詞比)、實(shí)虛詞比、實(shí)詞密度、虛詞數(shù)、丙級(jí)/丁級(jí)/超綱詞數(shù)等,這些特征因素體現(xiàn)了詞的數(shù)量、類別、難度和差異性;與句相關(guān)的文本特征有句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)、分句數(shù)、分句均字?jǐn)?shù)、分句均詞數(shù)、語(yǔ)法點(diǎn)難度、平均句長(zhǎng)、篇長(zhǎng)、名詞短語(yǔ)比率。在選取字和詞層面的文本特征時(shí),所依據(jù)的標(biāo)準(zhǔn)一般是2001 年發(fā)布的《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》。由于項(xiàng)目統(tǒng)計(jì)復(fù)雜,語(yǔ)法和篇章層面的文本特征較少被提及,與語(yǔ)法相關(guān)的文本特征只出現(xiàn)丙級(jí)以上語(yǔ)法項(xiàng)目1 項(xiàng),主要是根據(jù)《對(duì)外漢語(yǔ)教學(xué)初級(jí)階段教學(xué)大綱》確定其難度,依據(jù)《漢語(yǔ)水平等級(jí)標(biāo)準(zhǔn)與語(yǔ)法等級(jí)大綱》確定其項(xiàng)目等級(jí);與篇章相關(guān)的文本特征有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)兩項(xiàng),以《實(shí)用現(xiàn)代漢語(yǔ)語(yǔ)法》為選取標(biāo)準(zhǔn)。2021 年,《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》頒布,將會(huì)對(duì)今后研究中文本特征的選用和分析產(chǎn)生一定影響。
文本特征對(duì)可讀性的影響具有不同的權(quán)重,在以往的研究中,對(duì)文本可讀性產(chǎn)生影響的特征主要集中在字、詞和句層面,語(yǔ)法和篇章的層面的影響因素相對(duì)較少。鄒紅建、楊爾弘考察了《新編漢語(yǔ)報(bào)刊閱讀教程》的難易度,認(rèn)為通用詞覆蓋率、文本長(zhǎng)度值對(duì)文本難易度產(chǎn)生了重要影響[4](P378)。李燕、張英偉對(duì)《博雅漢語(yǔ)(中級(jí)沖刺篇Ⅰ)》的語(yǔ)料難度進(jìn)行了定量分析,研究顯示,平均句長(zhǎng)、每百字含非常用字?jǐn)?shù)和文學(xué)性修辭表達(dá)手法,是影響教材語(yǔ)料可讀性的重要變量[5]。郭望皓、宿飛鴻通過(guò)問(wèn)卷調(diào)查的方式,根據(jù)不同級(jí)別學(xué)習(xí)者的回答,加權(quán)得出了影響漢語(yǔ)文本難度因素的權(quán)重系數(shù)矩陣[6]。王鴻濱對(duì)漢語(yǔ)可讀性公式進(jìn)行了對(duì)比研究,認(rèn)為產(chǎn)生影響的文本特征主要為漢字難度、詞匯難度和句子難度,其中,詞匯難度多基于大綱對(duì)詞匯等級(jí)的劃分,句子難度多以句長(zhǎng)為依據(jù)[7]。張寧志認(rèn)為,句子數(shù)、平均句長(zhǎng)和甲乙兩級(jí)以外的非常用詞,是影響語(yǔ)料可讀性的重要變量[2]。吳佩考察了影響漢語(yǔ)句子復(fù)雜性的通用句法特征,為文本可讀性研究在句法層面上的指標(biāo)選擇提供了依據(jù)[8]。可見(jiàn),文本特征的選用和測(cè)定是可讀性公式研究的重點(diǎn)和難點(diǎn)。目前,這方面仍然存在需要改進(jìn)之處,牛士偉曾指出了其中的一些問(wèn)題,如同一語(yǔ)言層面特征不同、相同特征的統(tǒng)計(jì)方法不一、某些層面上的特征可以合并等[9]。
可讀性公式是針對(duì)某種閱讀文本,將所有影響閱讀難度的、可量化的文本特征因素綜合起來(lái),所制定的一個(gè)評(píng)價(jià)文本難易程度的公式,它能夠直觀地定量分析文本難度?;谖谋咎卣鞯目勺x性公式研究的典型范式,是通過(guò)選取相關(guān)文本特征作為變量,采用完型填空、回答問(wèn)題等被試參與的實(shí)驗(yàn)方法,或者對(duì)教材中的相關(guān)文本特征變量進(jìn)行直接量化,通過(guò)采用多元線性回歸公式的擬測(cè)算法,構(gòu)建出多種表征閱讀文本難度的多元線性公式。選取不同的文本特征變量會(huì)造成公式表達(dá)的差異,根據(jù)不同特征變量的組合情況,需要從幾個(gè)公式中選取擬合優(yōu)度最高的一個(gè)公式,并將它確定為最終衡量文本難度的可讀性公式。有些公式計(jì)算的是文本可讀性,有些公式則統(tǒng)計(jì)可讀性的難度,這是兩個(gè)相反的指標(biāo),但都反映了文本語(yǔ)料的復(fù)雜程度。國(guó)際中文教育領(lǐng)域產(chǎn)生了一批較有影響力的可讀性公式的研究成果,通過(guò)梳理、分析這些成果,可以管窺文本可讀性公式研究的思路和方法。
王蕾以初中級(jí)日韓留學(xué)生記敘性漢語(yǔ)文本語(yǔ)料難度為研究對(duì)象,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為標(biāo)準(zhǔn),進(jìn)行字、詞等層面的文本特征劃分與統(tǒng)計(jì)。該文以《對(duì)外漢語(yǔ)教學(xué)初級(jí)階段教學(xué)大綱》為依據(jù)來(lái)確定句子層面的文本特征,以《實(shí)用現(xiàn)代漢語(yǔ)語(yǔ)法》為依據(jù)來(lái)確定篇章層面的文本特征,在這一基礎(chǔ)上,考察了《標(biāo)準(zhǔn)漢語(yǔ)教程》《新世紀(jì)漢語(yǔ)》的語(yǔ)料難度與文本可讀性。在作者所設(shè)置的涉及字、詞、句和篇章層面的16 項(xiàng)文本特征因素中,字層面的特征有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、非重復(fù)字均筆畫數(shù)和簡(jiǎn)單字?jǐn)?shù),詞層面的特征有總詞數(shù)、非重復(fù)詞數(shù)、簡(jiǎn)單詞數(shù)和虛詞數(shù),句層面的特征包括句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)、分句數(shù)、分句均字?jǐn)?shù)、分句均詞數(shù)和語(yǔ)法點(diǎn)難度(后3 項(xiàng)只見(jiàn)于該研究),篇章層面的特征僅有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)1 項(xiàng)。具有有效性的特征因素共有9 項(xiàng),它們分別是:非重復(fù)字?jǐn)?shù)、非重復(fù)字均筆畫數(shù)、總詞數(shù)、簡(jiǎn)單詞數(shù)、虛詞數(shù)、句子數(shù)、分句數(shù)、語(yǔ)法點(diǎn)難度、標(biāo)志詞數(shù),其中,有4 項(xiàng)對(duì)文本可讀性產(chǎn)生了影響,分別是詞層面的總詞數(shù)、簡(jiǎn)單詞數(shù)、虛詞數(shù)與句層面的分句數(shù)。其可讀性公式為:Y=72.749-0.462X3+0.802X4-7.515X5+2.446X7,其中,Y為可讀性分?jǐn)?shù),X3為總詞數(shù),X4為簡(jiǎn)單詞數(shù),X5為虛詞數(shù),X7為分句數(shù)。該公式的擬合優(yōu)度檢驗(yàn)值是0.803,簡(jiǎn)單詞數(shù)和分句數(shù)與可讀性正相關(guān),總詞數(shù)和虛詞數(shù)與可讀性負(fù)相關(guān),虛詞數(shù)X5相對(duì)影響較大[3]。
楊金余以高級(jí)漢語(yǔ)精讀教材《現(xiàn)代漢語(yǔ)高級(jí)教程》《漢語(yǔ)精讀課本》《博雅漢語(yǔ)(高級(jí)飛翔篇Ⅰ)》為研究對(duì)象,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》為依據(jù),確定漢字的使用頻率、固定詞組數(shù)和丙級(jí)/丁級(jí)/超綱詞語(yǔ)數(shù);以《漢語(yǔ)水平等級(jí)標(biāo)準(zhǔn)與語(yǔ)法等級(jí)大綱》為標(biāo)準(zhǔn),確定語(yǔ)法項(xiàng)目等級(jí),構(gòu)擬出具有5 項(xiàng)特征的可讀性公式。與其他研究有所不同,該研究的預(yù)測(cè)變量、有效變量和結(jié)果變量具有一致性,預(yù)測(cè)變量全部成為影響可讀性的因素。其特征變量包括字層面的丙級(jí)/丁級(jí)/超綱字?jǐn)?shù)、詞層面的總詞數(shù)和丙級(jí)/丁級(jí)/超綱詞數(shù),句層面的平均句長(zhǎng)與語(yǔ)法層面的丙級(jí)以上語(yǔ)法項(xiàng)目,其中,丙級(jí)/丁級(jí)/超綱字?jǐn)?shù)、丙級(jí)/丁級(jí)/超綱詞數(shù)和丙級(jí)以上語(yǔ)法項(xiàng)目作為影響可讀性的變量,只在該研究中使用過(guò)。作者所構(gòu)擬的可讀性難度公式為:Y =0.95X1+0.975(X2+X3)+X4+X5,其中,Y 為難度系數(shù),X1為平均每百字丙級(jí)/丁級(jí)/超綱字?jǐn)?shù),X2為平均每百字丙級(jí)/丁級(jí)/超綱詞數(shù),X3為平均每百字固定詞組數(shù),X4為平均句長(zhǎng),X5為平均每百字丙級(jí)以上語(yǔ)法項(xiàng)目數(shù)。所有變量均與可讀性難度成正相關(guān),并且影響程度大致相同[10]。
郭望皓從《博雅漢語(yǔ)》中選取28 篇課文作為語(yǔ)料,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為難度劃分的標(biāo)準(zhǔn),將字、詞、句等層面的8 項(xiàng)特征設(shè)置為預(yù)測(cè)變量。其中,字層面的預(yù)測(cè)特征變量是字種數(shù)、字均筆畫數(shù)和字頻,詞層面的預(yù)測(cè)特征變量是詞頻、平均詞長(zhǎng)和實(shí)虛詞比,句層面的預(yù)測(cè)特征變量是平均句長(zhǎng)和篇長(zhǎng),篇章層面的預(yù)測(cè)特征變量?jī)H有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)1 項(xiàng)。值得注意的是,字頻、詞頻、實(shí)虛詞比和篇長(zhǎng)4 項(xiàng)變量只見(jiàn)于該研究。8 項(xiàng)預(yù)測(cè)變量經(jīng)分析后產(chǎn)生有效性的是字種數(shù)、實(shí)虛詞比和平均句長(zhǎng),它們都影響了文本難度,進(jìn)入公式成為結(jié)果變量。作者所構(gòu)擬的可讀性公式為:Y =-11.946 +0.123X1+0.198X2+0.811X3,其中,Y 為文本可讀性難度,X1是平均句長(zhǎng),X2是表漢字難度的字種數(shù),X3是表詞匯難度的實(shí)虛詞比。該公式的擬合優(yōu)度檢驗(yàn)值調(diào)整后為0.906,3 項(xiàng)特征變量均與可讀難度成正相關(guān),實(shí)虛詞比的影響力略大[11]。
左虹、朱勇以中級(jí)歐美留學(xué)生漢語(yǔ)教材《新實(shí)用漢語(yǔ)課本》為研究對(duì)象,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為標(biāo)準(zhǔn),考察字頻、甲級(jí)字?jǐn)?shù)、甲級(jí)詞數(shù)和難詞比。在對(duì)教師問(wèn)卷調(diào)查和對(duì)歐美學(xué)生完形填空測(cè)試的基礎(chǔ)上,設(shè)置了9 項(xiàng)預(yù)測(cè)特征變量。其中,字層面的預(yù)測(cè)特征變量有簡(jiǎn)單字?jǐn)?shù)、字均筆畫數(shù)和漢字部件數(shù),詞層面的預(yù)測(cè)特征變量有簡(jiǎn)單詞數(shù)、平均詞長(zhǎng)、難詞比和虛詞數(shù),句層面的預(yù)測(cè)特征變量有句均字?jǐn)?shù)和平均詞數(shù)。這些預(yù)測(cè)特征變量經(jīng)分析后,除了漢字部件數(shù)外都是有效變量,能夠在回歸方程中影響文本可讀性的特征變量則只有字層面的簡(jiǎn)單字?jǐn)?shù)(甲級(jí)字?jǐn)?shù))和詞層面的難詞比、虛詞數(shù)3項(xiàng)。經(jīng)過(guò)多元線性回歸分析,作者建立了一個(gè)針對(duì)中級(jí)歐美留學(xué)生的可讀性公式:Y =23.646 +0.485X2-125.931X3-0.647X1,其中,Y 為文本可讀性分?jǐn)?shù),X1為虛詞數(shù),X2為甲級(jí)字?jǐn)?shù),X3為難詞比。該公式的擬合優(yōu)度檢驗(yàn)值為0.795。在3 項(xiàng)特征變量中,甲級(jí)字?jǐn)?shù)與可讀性成正相關(guān),虛詞數(shù)、難詞比與可讀性成負(fù)相關(guān);甲級(jí)字?jǐn)?shù)和虛詞數(shù)對(duì)可讀性的影響極小,難詞比對(duì)可讀性的影響極大[12]。
龍李琴以初中級(jí)泰越留學(xué)生漢語(yǔ)閱讀為研究對(duì)象,從《成功之路》系列教材中隨機(jī)選取了16 段語(yǔ)料,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為字、詞層面的劃分與統(tǒng)計(jì)標(biāo)準(zhǔn),根據(jù)不同文本特征變量的組合情況,設(shè)置了涉及字、詞和句的11 項(xiàng)預(yù)測(cè)特征變量。字層面的預(yù)測(cè)特征變量包括總字?jǐn)?shù)、非復(fù)現(xiàn)字?jǐn)?shù)、非復(fù)現(xiàn)字均筆畫數(shù)和簡(jiǎn)單字?jǐn)?shù),詞層面的預(yù)測(cè)特征變量包括簡(jiǎn)單詞數(shù)、難詞比和虛詞數(shù),句層面的預(yù)測(cè)特征變量包括句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)和分句數(shù)。排除非復(fù)現(xiàn)字?jǐn)?shù)、簡(jiǎn)單詞數(shù)、句子數(shù)和句均字?jǐn)?shù)4 項(xiàng)后得出有效預(yù)測(cè)特征,其中,總字?jǐn)?shù)、非復(fù)現(xiàn)字均筆畫數(shù)和句均詞數(shù)3 項(xiàng)影響了文本難度,選取擬合優(yōu)度最高的一個(gè)公式作為衡量文本難度的可讀性成果,從而構(gòu)建出可讀性公式:Y =11.343 +0.052X1-1.313X2-0.216X3,其中,Y 為可讀性分?jǐn)?shù),X1為漢字總數(shù),X2為非復(fù)現(xiàn)字平均筆畫數(shù),X3為句平均詞數(shù)。該公式的擬合優(yōu)度檢驗(yàn)值為0.689,漢字總數(shù)與文本可讀性正相關(guān),非復(fù)現(xiàn)字平均筆畫數(shù)、句平均詞數(shù)與可讀性負(fù)相關(guān),其中,非復(fù)現(xiàn)字平均筆畫數(shù)這一特征對(duì)可讀性的影響最大[13]。
江新等學(xué)者以HSK高級(jí)閱讀測(cè)試材料為研究對(duì)象,以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為統(tǒng)計(jì)標(biāo)準(zhǔn),設(shè)置了涉及字、詞、句和篇章層面的14 項(xiàng)預(yù)測(cè)特征變量。字層面的預(yù)測(cè)特征變量有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、簡(jiǎn)單字?jǐn)?shù)和字均筆畫數(shù),詞層面的預(yù)測(cè)特征變量有總詞數(shù)、非重復(fù)詞數(shù)、難詞比、實(shí)詞密度和虛詞數(shù),句層面的預(yù)測(cè)特征變量有句子數(shù)、句均詞數(shù)和名詞短語(yǔ)比率,篇章層面的預(yù)測(cè)特征變量是標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)。值得注意的是,人稱代詞數(shù)只在該研究中被作為預(yù)測(cè)變量進(jìn)行考察。排除總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、總詞數(shù)、實(shí)詞密度和句子數(shù)5 項(xiàng)后,剩余9 項(xiàng)均是有效變量,其中,只有相異詞比和虛詞數(shù)2 項(xiàng)在回歸分析中影響了文本難度。作者所構(gòu)擬的可讀性公式為:Y =178.261-134.363X1-0.515X2,其中,Y 為可讀性分?jǐn)?shù),X1為不重復(fù)的相異詞比率,X2為虛詞數(shù)。該公式的擬合優(yōu)度檢驗(yàn)值為0.806,都與文本可讀性成負(fù)相關(guān),相異詞比對(duì)文本可讀性影響極大,虛詞數(shù)則對(duì)可讀性影響極小[14]。
從上述研究可以看出,對(duì)影響可讀性的文本特征的劃分及統(tǒng)計(jì),大都是以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》《漢語(yǔ)水平等級(jí)標(biāo)準(zhǔn)與語(yǔ)法等級(jí)大綱》等為參考依據(jù)。字層面表征漢字?jǐn)?shù)量和難度的特征基本都影響可讀性,其中,總字?jǐn)?shù)、字種數(shù)、非重復(fù)字均筆畫數(shù)、簡(jiǎn)單字?jǐn)?shù)和丙級(jí)/丁級(jí)/超綱字?jǐn)?shù)都在不同研究中成為影響可讀性的結(jié)果變量。詞層面的總詞數(shù)、非重復(fù)詞數(shù)、簡(jiǎn)單詞數(shù)、難詞比、實(shí)虛詞比、虛詞數(shù)和丙級(jí)/丁級(jí)/超綱詞數(shù),均是能夠影響可讀性的文本特征。句層面特征與句子的結(jié)構(gòu)和組成部分有關(guān),其中,分句數(shù)、分句均字?jǐn)?shù)、篇長(zhǎng)和名詞短語(yǔ)比率與可讀性有關(guān)。語(yǔ)法和篇章層面主要涉及到丙級(jí)以上語(yǔ)法項(xiàng)目、標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)3 項(xiàng)特征,其中,楊金余考察了語(yǔ)法層面中的丙級(jí)以上語(yǔ)法項(xiàng)目,并認(rèn)為它對(duì)文本可讀性產(chǎn)生影響;王蕾、江新等則著重分析了篇章層面的標(biāo)志詞數(shù)量和人稱代詞數(shù)量,并在驗(yàn)證后否定了這些變量對(duì)可讀性的影響作用。
文本可讀性研究量化分析的早期成果主要集中于公式的構(gòu)建,隨著研究方法的變化和研究手段的更新,基于分類模型的文本可讀性研究成為新的熱點(diǎn)。分類是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)基本問(wèn)題,文本分類已廣泛應(yīng)用于網(wǎng)絡(luò)信息過(guò)濾、信息檢索和信息推薦等多個(gè)方面??梢哉f(shuō),特征結(jié)合機(jī)器學(xué)習(xí)的可讀性評(píng)估方法是建立在文本分類的基礎(chǔ)上的,對(duì)數(shù)據(jù)計(jì)算技術(shù)要求較高,需要相關(guān)的學(xué)科專業(yè)給予技術(shù)支持。
機(jī)器學(xué)習(xí)法將文本的復(fù)雜特征表征為有關(guān)數(shù)據(jù),對(duì)各種與文本可讀性相關(guān)的指標(biāo)進(jìn)行計(jì)算,然后運(yùn)用機(jī)器學(xué)習(xí)中的分類方法訓(xùn)練得到可讀性分類器,再應(yīng)用分類器來(lái)判定文本所屬的可讀性級(jí)別。數(shù)據(jù)驅(qū)動(dòng)分類器學(xué)習(xí)的方法有很多,主要包括神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、支持向量機(jī)、樸素貝葉斯等,分類模型對(duì)于文本可讀性的預(yù)測(cè)效果要明顯好于傳統(tǒng)的公式方法。其中,支持向量機(jī)(SVM)和樸素貝葉斯(NB)是目前在可讀性預(yù)測(cè)領(lǐng)域中應(yīng)用比較廣泛的分類方法。支持向量機(jī)是按照監(jiān)督學(xué)習(xí)方式對(duì)相關(guān)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其模式識(shí)別可應(yīng)用于人像識(shí)別、文本分類和手寫字符識(shí)別等領(lǐng)域。樸素貝葉斯分類法在文字識(shí)別方面起著較為重要的作用,它建立在所有特征均相互獨(dú)立、互不影響的假設(shè)基礎(chǔ)上,對(duì)文本進(jìn)行特征選擇,并將未知的文字根據(jù)已有的規(guī)則予以分類。也就是說(shuō),該分類法屬于一種利用先驗(yàn)概率計(jì)算后驗(yàn)概率的學(xué)習(xí)算法。因此,不需通讀整篇文本,僅僅根據(jù)一些代表詞就能確定文章的主題。這種直觀的文本分類算法能夠達(dá)到較高的分類效率,并具有很好的可解釋性。
基于分類的使用特征、結(jié)合機(jī)器學(xué)習(xí)的文本可讀性評(píng)估,突破了國(guó)際中文教育領(lǐng)域可讀性研究的范式,創(chuàng)造性地采用學(xué)習(xí)算法,通過(guò)建立數(shù)學(xué)模型來(lái)評(píng)價(jià)文本可讀性,為該研究提供了新的思路和方法。目前的相關(guān)研究成果較少,并且研究者相對(duì)集中。楊純莉以《(新編)讀報(bào)紙,學(xué)中文——漢語(yǔ)報(bào)刊閱讀》初級(jí)、中級(jí)、準(zhǔn)高級(jí)和高級(jí)四個(gè)難度等級(jí)的262 篇教材文本為語(yǔ)料樣本,以《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻表》《現(xiàn)代漢語(yǔ)常用詞用法詞典(最新版)》《現(xiàn)代漢語(yǔ)新詞語(yǔ)詞典》《現(xiàn)代常用文言書面語(yǔ)》為考察標(biāo)準(zhǔn),從中篩選出8 個(gè)影響顯著的詞匯因素,然后采用樸素貝葉斯和支持向量機(jī)算法建立數(shù)學(xué)模型,對(duì)文本可讀性進(jìn)行了預(yù)測(cè)與驗(yàn)證[15]。孫未未以《HSK 詞匯等級(jí)標(biāo)準(zhǔn)大綱》①原文如此。這里的《HSK 詞匯等級(jí)標(biāo)準(zhǔn)大綱》即《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》。下同。為詞語(yǔ)維度的評(píng)判標(biāo)準(zhǔn),利用SVM 算法,對(duì)6 套國(guó)際中文教育教材的語(yǔ)料分別進(jìn)行分類和回歸建模,研究顯示,分類模型更適合對(duì)閱讀材料的可讀性進(jìn)行評(píng)估[16]。孫未未、夏菁、曾致中還運(yùn)用特征結(jié)合機(jī)器學(xué)習(xí)的方法,將《HSK詞匯等級(jí)標(biāo)準(zhǔn)大綱》和《HSK 詞性表》作為詞語(yǔ)等級(jí)評(píng)判的標(biāo)準(zhǔn),利用SVM 算法進(jìn)行分類和回歸建模,構(gòu)建了一個(gè)適用于小數(shù)據(jù)量對(duì)外漢語(yǔ)閱讀材料的可讀性評(píng)估模型[17]。楊文娣、曾致中提出了一種基于隨機(jī)森林算法的對(duì)外漢語(yǔ)文本可讀性自動(dòng)評(píng)估方法,利用NLPIR 漢語(yǔ)分詞系統(tǒng)所提供的《計(jì)算所漢語(yǔ)詞性標(biāo)記集》來(lái)提取詞性特征,依照《國(guó)際漢語(yǔ)教學(xué)通用課程大綱(2013 年修訂版)》中的《常用漢字表(一~六級(jí))》《常用漢語(yǔ)詞語(yǔ)表(一~六級(jí))》來(lái)提取等級(jí)特征,最終得出了精度為65.51%、相鄰準(zhǔn)確度為92.52%的對(duì)外漢語(yǔ)文本可讀性評(píng)估模型[18]。夏菁、孫未未先將文本進(jìn)行自然語(yǔ)言處理,依循《HSK 詞匯等級(jí)標(biāo)準(zhǔn)大綱》劃定6 套教材中不同等級(jí)的詞語(yǔ)及難易度,再經(jīng)過(guò)詞頻統(tǒng)計(jì)提取出每個(gè)特征的數(shù)量值并將其標(biāo)準(zhǔn)化,結(jié)合SVM 算法和特征選擇技術(shù),分別構(gòu)建和驗(yàn)證了詞語(yǔ)、語(yǔ)義、篇章和整體等不同向度特征的可讀性評(píng)估模型[19]。
就依據(jù)標(biāo)準(zhǔn)而言,上述學(xué)者在提取詞匯層面的文本特征時(shí),大多依據(jù)的是《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》,在《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》這一新標(biāo)準(zhǔn)頒布后,文本特征的提取和學(xué)習(xí)也會(huì)發(fā)生相應(yīng)改變。就研究材料而言,除楊純莉以《(新編)讀報(bào)紙,學(xué)中文——漢語(yǔ)報(bào)刊閱讀》為研究樣本外,孫未未等、楊文娣與曾致中、夏菁與孫未未所選取的研究材料《大學(xué)漢語(yǔ)精讀》《漢語(yǔ)閱讀教程》《實(shí)踐漢語(yǔ)》《感悟漢語(yǔ)》《漢語(yǔ)閱讀與寫作教程》《發(fā)展?jié)h語(yǔ)》和《成功之路》漢語(yǔ)系列等,均為漢語(yǔ)中高級(jí)教材,其語(yǔ)料具有高度的一致性,未涉及其他國(guó)際中文教育教材。
總之,基于特征結(jié)合機(jī)器學(xué)習(xí)的研究方法,主要是通過(guò)對(duì)標(biāo)注等級(jí)的語(yǔ)料庫(kù)進(jìn)行文本特征的學(xué)習(xí)來(lái)構(gòu)建分類模型。該研究的有效性取決于語(yǔ)料標(biāo)注的精度,難度等級(jí)納入的特征越多,則模型的預(yù)測(cè)效度越好,其研究的難點(diǎn)在于語(yǔ)料庫(kù)難度標(biāo)注的構(gòu)建是一個(gè)相對(duì)復(fù)雜的工作。就目前的研究來(lái)看,基于特征分類結(jié)合機(jī)器學(xué)習(xí)評(píng)估文本難度的方法,所選取的材料重合率較高,未能涵蓋大部分的國(guó)際中文教育教材,是否有必要擴(kuò)大研究材料的范圍,是否能夠?qū)⑵溲芯砍晒麘?yīng)用于各種語(yǔ)料難度的評(píng)估,還需要進(jìn)一步的探討。
綜上所述,國(guó)際中文教育領(lǐng)域可讀性研究一般應(yīng)用于對(duì)漢語(yǔ)文本難度進(jìn)行定量分析,目前的研究方法主要是基于文本特征的可讀性公式研究和基于分類模型的機(jī)器結(jié)合學(xué)習(xí)研究。
文本可讀性研究初步階段的成果集中于公式法,可讀性公式的構(gòu)建首先需要針對(duì)特定閱讀人群或文本語(yǔ)料,選取與可讀性密切相關(guān)的文本特征因素,然后建立各特征因素與可讀性級(jí)別之間的函數(shù)關(guān)系,通過(guò)量化手段客觀地評(píng)估文本閱讀難度。可讀性公式可以快速、直觀地獲得文本難度的分析結(jié)果,具有客觀性、簡(jiǎn)便性和經(jīng)濟(jì)性等優(yōu)點(diǎn),不僅為文本語(yǔ)料的難度測(cè)定提供了便利,也為教材編寫和教學(xué)設(shè)計(jì)提供了參考??勺x性公式的構(gòu)建既是傳統(tǒng)性公式的重要內(nèi)容,也為后來(lái)的可讀性研究奠定了基礎(chǔ)。隨著研究的不斷深入,近些年來(lái)又出現(xiàn)了基于分類模型的文本可讀性研究方法。它通常采用支持向量機(jī)和樸素貝葉斯等方法進(jìn)行模型的構(gòu)建,能夠涵蓋較多的文本因素,同時(shí),對(duì)可讀性的預(yù)測(cè)效果要優(yōu)于公式法。不過(guò),其構(gòu)建過(guò)程相對(duì)繁瑣復(fù)雜,一般需要交叉學(xué)科或者跨領(lǐng)域的合作,研究者既要對(duì)本體知識(shí)有較好的掌握,還需要具備較強(qiáng)的邏輯分析和編程能力,在操作層面具有一定的難度。在確定可讀性難度方面,分類模型體現(xiàn)出構(gòu)建難度大和分析準(zhǔn)確性高的特點(diǎn),具有較強(qiáng)的深入研究的可能性。
文本特征因素的選取和測(cè)定是可讀性研究的重點(diǎn)和難點(diǎn),字、詞、句層面的文本特征是影響可讀性的重要因素,字和詞特征的影響體現(xiàn)在數(shù)量、難度上,句子特征的影響以句長(zhǎng)為主。不同的研究者在選擇和分析文本特征時(shí)會(huì)各有側(cè)重,文本語(yǔ)料類型、研究目的或者學(xué)者背景的差異等,是造成特征選用多樣性的主要原因。無(wú)論是公式法還是分類法,在提取文本特征時(shí)都需要依據(jù)一定的標(biāo)準(zhǔn)對(duì)研究對(duì)象進(jìn)行數(shù)據(jù)處理,現(xiàn)有的研究基本上是將《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》《漢語(yǔ)水平等級(jí)標(biāo)準(zhǔn)與語(yǔ)法等級(jí)大綱》等作為特征選取的主要依據(jù)。2021 年7 月起頒布實(shí)施的《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》,是新時(shí)代的國(guó)家級(jí)標(biāo)準(zhǔn)和語(yǔ)言文字規(guī)范,是國(guó)際中文教育領(lǐng)域?qū)W習(xí)、教學(xué)、測(cè)試與評(píng)估的重要依據(jù),依托新標(biāo)準(zhǔn)的可讀性研究,在文本特征因素的選擇和分析上必然會(huì)發(fā)生較大變化。
就現(xiàn)有的研究成果而言,可讀性研究也存在著一定的局限性。首先是研究對(duì)象同質(zhì)化嚴(yán)重,研究材料以漢語(yǔ)教材為主,缺少對(duì)其他文本語(yǔ)料的評(píng)估分析,今后的研究可以將報(bào)刊資料、網(wǎng)頁(yè)信息、考試文本等語(yǔ)料納入研究對(duì)象,研究范圍需要橫向拓展,研究層次需要縱向延伸。其次,大部分研究立足于自建的語(yǔ)料庫(kù),在文本特征和標(biāo)準(zhǔn)的選取上缺乏統(tǒng)一性、規(guī)范性,不易推廣,有待于建立基于統(tǒng)一標(biāo)準(zhǔn)的研究規(guī)范。再次,研究方法較為單一,可讀性公式均采用多元線性回歸的方法,往往只考慮有限的可計(jì)量的文本特征,回歸方程所涉及的特征因素大都小于5 個(gè),無(wú)法涵蓋所有影響文本可讀性的特征變量。也就是說(shuō),簡(jiǎn)單地使用幾個(gè)文本因素進(jìn)行預(yù)測(cè),在有效性、適用性和可信度方面,可能會(huì)存在一定偏差。最后,可讀性公式中選取的文本特征因素多為字、詞或句子層面,由于歸類和分析的復(fù)雜性,大部分研究都不考慮語(yǔ)法、語(yǔ)義、篇章等變量,缺乏對(duì)語(yǔ)法、語(yǔ)篇等因素的深度挖掘。同時(shí),特征因素的選取具有一定的隨意性,缺乏統(tǒng)一的標(biāo)準(zhǔn)。針對(duì)這些問(wèn)題,學(xué)界應(yīng)采取切實(shí)可行的解決方案。比如,依托新標(biāo)準(zhǔn),將文本語(yǔ)料的詞匯等級(jí)信息及平均句長(zhǎng)、平均每百字句數(shù)等多種信息加以整合和量化,盡可能涵蓋更多的文本因素,并形成詞匯難度、句子難度、語(yǔ)法難度、語(yǔ)篇難度等穩(wěn)定的數(shù)據(jù)集。再如,關(guān)注閱讀主體的心理因素測(cè)查,對(duì)漢語(yǔ)教師和漢語(yǔ)學(xué)習(xí)者進(jìn)行問(wèn)卷調(diào)查,考察影響漢語(yǔ)文本可讀性的各因素的比重,按照影響程度重新確定加權(quán)系數(shù),進(jìn)而形成最終的可讀性評(píng)估模型,以拓展研究的廣度、挖掘研究的深度。總之,可讀性研究已取得豐碩的成果,隨著研究方法的更新、研究?jī)?nèi)容的深入,必將會(huì)出現(xiàn)評(píng)估結(jié)果更為精確、使用范圍更為廣泛、也更適合漢語(yǔ)文本的新的自動(dòng)評(píng)估方法。