李晨蕊
(國防科技大學(xué)國際關(guān)系學(xué)院 江蘇 南京 210039)
在這個信息爆炸的時(shí)代,如何在浩如煙海的文本數(shù)據(jù)中快速選擇所需的文本?這個問題使文本的自動化分析方法進(jìn)入大眾視野。文本易讀性是文本自動化分析的一項(xiàng)重要內(nèi)容。它的研究最開始是出于軍事目的——弗萊士(Flesch R.)為滿足軍事需要研究出文本易讀性公式。當(dāng)然除了軍事需要,相關(guān)研究還有其他重要的實(shí)踐意義。俄國學(xué)者米克(Я.А.Микк)[1]利用文本易讀性研究成果來確定學(xué)生對所給文本的理解能力,以提高教學(xué)質(zhì)量。如若可以對文本易讀性進(jìn)行準(zhǔn)確而高效的分析,俄語學(xué)習(xí)者便可以選擇難度適宜的文本進(jìn)行閱讀,提高語言學(xué)習(xí)效率。由此可見,文本易讀性的研究對語言學(xué)習(xí)、語言教育,甚至軍事等方面都有重要意義。
本文首先對文本易讀性的相關(guān)術(shù)語進(jìn)行區(qū)分,然后對俄語文本易讀性的研究歷史進(jìn)行回顧與總結(jié),明確今后的研究方向,以期能夠更深入地開展俄語文本易讀性研究。
文本復(fù)雜性通?;谖谋咀陨淼膬?nèi)在特性計(jì)算。相關(guān)變量可分為定距變量和定類變量。定距變量包括單詞長度、句子長度及長詞數(shù)量等變量;定類變量則包括文本的語法特征、語義特征、詞匯特征等變量。文本復(fù)雜性這一概念只與文本自身有關(guān),是文本的客觀屬性。[2]
文本難度通常由文本的客觀特征和主觀特征決定??陀^特征就是文本復(fù)雜性所研究的文本的自身特征;主觀特征則取決于讀者本身,它包括讀者的年齡、性別、背景知識等一系列特征。由于文本難度的概念包括客觀和主觀兩個方面,因此同樣復(fù)雜性的文本對于不同讀者而言,難度可能是不同的。正因?yàn)槠渲饔^參數(shù)大多數(shù)超出了語言學(xué)研究范圍,所以現(xiàn)階段缺乏合理的文本難度公式。[3]
文本易讀性,是由英語中的readability一詞翻譯而來。在俄語中文本易讀性這一概念具有多義性。一方面,該術(shù)語是指文本易于理解的程度,可通過測量句法難度、詞匯、主題表達(dá)的清晰程度等一系列變量計(jì)算;另一方面,也可以通過能夠理解該文本的讀者的平均受教育程度衡量。
如果將文本不利于理解的屬性視為文本難度,那么文本有利于理解的屬性即為文本可理解性。由此可見,影響文本可理解性和文本難度的因素是一致的,只是這些因素對這兩個屬性的影響效果相反。
文本易讀性的研究起始于英語文本。從20世紀(jì)20年代至今,英語文本易讀性的研究歷經(jīng)80多年而不衰,且日益受到關(guān)注。相較于英語文本易讀性的研究,該問題在俄語中的研究起步較晚。研究主要分為三個階段。
在這一階段,俄羅斯的語言學(xué)家重點(diǎn)關(guān)注文本的定距變量,提出對文中的字母、音節(jié)、語法詞素、單詞、詞組、句法結(jié)構(gòu)等進(jìn)行定量分析。其中,列斯基斯(Г.А.Лесскис)[4]重點(diǎn)關(guān)注了文本的句法難度。他開始研究文本中簡單句和復(fù)合句的數(shù)量,并將句子平均長度、簡單句平均長度、復(fù)合句平均長度等變量作為計(jì)算文本復(fù)雜性的定距變量。馬茨科夫斯基(М.С.Мацковский)[5]曾選取60名七年級學(xué)生參與實(shí)驗(yàn),實(shí)驗(yàn)者需對50篇政論體裁文本難度進(jìn)行評估,將其劃分為由易到難七個等級。在此數(shù)據(jù)的基礎(chǔ)上,馬茨科夫斯基定義了俄語文本難度公式:
其中:
Y——文本難度
X1——平均語句長度(單詞數(shù)除以語句數(shù))
X2——文本中包含三個及三個以上音節(jié)的單詞的比例
由于當(dāng)時(shí)文本易讀性的研究并未得到關(guān)注,文本材料數(shù)量受限,參與實(shí)驗(yàn)的人數(shù)不足,這個公式的合理性有待進(jìn)一步考量,但這個公式所選取的變量值得我們參考。
在這一階段,俄羅斯的語言學(xué)家開始將定距變量與定類變量結(jié)合。在對文本可理解性的研究中,米克提出文本可理解性的衡量主要基于句子中單詞的數(shù)量、單詞的“熟悉程度”、單詞的抽象性(文本中抽象單詞和具體單詞的比例)三個特征。其中,單詞“熟悉程度”的計(jì)算方法是憑借經(jīng)驗(yàn)將單詞劃分為六個等級進(jìn)行統(tǒng)計(jì)。單詞抽象性的計(jì)算方法共兩種:一是三級劃分法,即將單詞按抽象性分為三個等級進(jìn)行統(tǒng)計(jì);二是計(jì)算含抽象性詞素的單詞。除此之外,米克詳細(xì)闡釋了文本復(fù)雜性與文本難度的區(qū)別,提出了衡量文本復(fù)雜性的特征:文本的信息量、語句的復(fù)雜性、敘述的抽象性及文本結(jié)構(gòu)的明晰性。
圖爾達(dá)娃(Ю.А.Тулдава)提出了一個補(bǔ)充參數(shù)——文中多義詞的數(shù)量。她通過統(tǒng)計(jì)發(fā)現(xiàn),俄語中每個單詞平均擁有3.7個意義,其中動詞平均有4.6個意義,名詞平均有3.1個意義。除此之外,該學(xué)者定義了自己的文本復(fù)雜性公式[7]:
其中:
R(i,j)——文本復(fù)雜性
I——單詞平均長度(音節(jié)數(shù)除以單詞數(shù))
J——語句平均長度(單詞數(shù)除以語句數(shù))
在這一階段,俄羅斯語言學(xué)家深入研究了已確定的變量對文本易讀性的影響。其中,奧博爾涅娃首次嘗試將英語的弗萊士文本易讀性公式運(yùn)用于俄語。這一研究為俄語易讀性公式的研究做出突出貢獻(xiàn)。她將英語和俄語中的單詞平均長度進(jìn)行比較分析,發(fā)現(xiàn)俄語中單詞的平均長度為3.29個音節(jié),而英語中則為2.97個音節(jié)。由此,她開發(fā)出如下公式:
其中:
Y——文本易讀性
ASL——語句平均長度(單詞數(shù)除以語句數(shù))
ASW——單詞平均長度(音節(jié)數(shù)除以單詞數(shù))
這一階段的另一個特點(diǎn)是學(xué)者在不斷擴(kuò)大變量種類。其中,普什金娜(Е.С.Пушкина)[8]指出由于術(shù)語的抽象程度較高,會增加文本復(fù)雜性。葉爾馬科夫(А.Е.Ермаков)和普列什科(В.В.Плешко)[9]指出應(yīng)關(guān)注文本中的同音異義詞。克里奧尼(Н.К.Криони)、尼京(А.Д.Никин)及菲利波娃(А.В.Филиппова)[10]認(rèn)為可以通過語言結(jié)構(gòu)特征、敘述抽象性及文本信息量衡量文本復(fù)雜性。其中,語言結(jié)構(gòu)特征可以用如下變量衡量:長詞數(shù)量(三個音節(jié)以上為長詞)、包含長詞的句子比例、單詞平均長度、語句平均長度、副動詞和形動詞數(shù)量、包含副動詞和形動詞的句子比例、復(fù)合句所占比例。學(xué)者計(jì)算敘述抽象性的方式借鑒于米克計(jì)算含抽象性詞素的單詞所占文中單詞總數(shù)量的比例。文本信息量則體現(xiàn)在文中所引入的定義的數(shù)量。
什帕科夫斯基(Ю.Ф.Шпаковский)[11]在文本易讀性研究中提出如下變量:單詞長度、語句長度、文本長度、簡單句和復(fù)合句占全文的比例、每100個名詞中的具體名詞數(shù)量和抽象名詞數(shù)量及生詞比例等。隨后,什帕科夫斯基專注于分析化學(xué)教材的文本復(fù)雜性,并開發(fā)出化學(xué)教材文本難度公式。公式如下:
其中:
Y——高等學(xué)校化學(xué)教材文本難度
X1——長詞所占比例(含九個或九個以上字母的單詞)
X2——術(shù)語所占比例
X3——化學(xué)符號所占比例
這一階段的第三個特點(diǎn)是計(jì)算機(jī)程序廣泛應(yīng)用于文本易讀性研究。其中,別格京(И.В.Бегтин)將奧博爾涅娃提出的公式轉(zhuǎn)化為文本自動化分析在線工具(ru.readability.io/),這一公式還成為Microsoft Word內(nèi)置的俄語易讀性測量公式。葉爾馬科夫和普列什科在統(tǒng)計(jì)文本中的同音異義詞時(shí),提出應(yīng)開發(fā)俄語句法自動分析器用于抽取名詞短語和消歧。這一分析器已成為Russian Context Optimizer系統(tǒng)①的部件之一。在分析文本的句際聯(lián)系時(shí),指代消解是關(guān)鍵問題。當(dāng)代學(xué)者開始關(guān)注自動化提取先行詞和照應(yīng)語。托爾佩金(П.В.Толпегин)[12]研究的重點(diǎn)是俄語文本中第三人稱代詞自動消歧問題。學(xué)者嘗試實(shí)現(xiàn)自動化算法以確定先行詞和照應(yīng)語之間共指關(guān)系,建立了“一般前指代識別模型(MB)”與“特征空間和評價(jià)識別任務(wù)的共指消歧模型(DSE)”,其中DSE模型的準(zhǔn)確率達(dá)到83.05%。阿布拉莫夫(В.Е.Абрамов)等人[13]共同開發(fā)出用于解決“俄、英、德、法語文本分類”問題的計(jì)算機(jī)程序,為文本的自動化分析做出貢獻(xiàn)。
未來俄語文本易讀性的研究方法仍應(yīng)是通過構(gòu)建統(tǒng)計(jì)模型并利用編程的方法實(shí)現(xiàn)自動化分析。具體的研究步驟應(yīng)包括:構(gòu)建適用于文本易讀性研究的語料庫—選取特征變量—對變量進(jìn)行相關(guān)性分析—確定回歸方程—通過計(jì)算機(jī)程序?qū)崿F(xiàn)文本易讀性自動化分析。下一步的研究方向應(yīng)包括:擴(kuò)大變量種類、優(yōu)化統(tǒng)計(jì)模型、推廣研究成果。
今后的研究應(yīng)該擴(kuò)展研究范圍,將語法特征、語義特征、詞匯特征、體裁等的自動識別研究納入易讀性研究之中,擴(kuò)大特征變量種類,使易讀性研究更加深入和細(xì)致,進(jìn)一步提高易讀性測量的適用范圍和測量準(zhǔn)確性。
今后的研究中應(yīng)結(jié)合多元統(tǒng)計(jì)相關(guān)知識,探索更為精確的統(tǒng)計(jì)模型以提高擬合度。在建立統(tǒng)計(jì)模型時(shí),應(yīng)注意各變量之間是否出現(xiàn)多重共線性問題,并根據(jù)變量類型合理選擇回歸模型,科學(xué)地構(gòu)建和優(yōu)化統(tǒng)計(jì)模型,使其能更準(zhǔn)確地計(jì)算文本難度。
文本易讀性的研究是出于實(shí)用目的,因此研究不應(yīng)該脫離實(shí)際應(yīng)用。研究者要積極探索其理論在實(shí)際領(lǐng)域的價(jià)值,進(jìn)一步結(jié)合網(wǎng)絡(luò)資源,開發(fā)在線網(wǎng)絡(luò)服務(wù),將易讀性研究成果轉(zhuǎn)化為在線分析工具或計(jì)算機(jī)應(yīng)用的組成部分,推廣文本易讀性的研究成果,擴(kuò)大研究影響力。
文本易讀性研究這一課題具有十分重要的實(shí)踐意義。從俄語文本易讀性的研究歷史來看,利用統(tǒng)計(jì)模型和計(jì)算機(jī)編程的方法對此進(jìn)行研究無疑是一次有益的嘗試,這也應(yīng)是今后的努力方向。未來應(yīng)繼續(xù)加大研究深度,擴(kuò)展研究范圍,不斷推進(jìn)易讀性研究發(fā)展。
注釋:
①RCO 系統(tǒng)用來進(jìn)行文本信息分析與檢索,適用于Oracle數(shù)據(jù)管理系統(tǒng)。