劉波
摘 要 與英文的拼音文字相比,中文屬于表意文字,中文文本的詞之間并沒有空格分割,因此,要完成一篇閱讀最重要的過程就是學(xué)習(xí)詞的切分。詞的切分是指在閱讀過程中,將連續(xù)的語句切分成不同的部分,用以了解作者的思維,走進(jìn)作者的內(nèi)心世界。本文主要探究了中文閱讀中詞作為整體加工的心理學(xué)證據(jù)、中文詞切分機理的實驗研究以及詞切分在計算機科學(xué)中的研究。
關(guān)鍵詞 中文閱讀 詞切分 依據(jù) 眼動特性 認(rèn)知機理
中圖分類號:B842.5 文獻(xiàn)標(biāo)識碼:A
0前言
閱讀的認(rèn)知機理具有悠久的研究歷史以及豐富的歷史文獻(xiàn)。詞是語言中最小的能夠被獨立運用的單位。詞的切分是指在閱讀過程中,將連續(xù)的語句切分成不同的部分。如果將閱讀比作合抱之木,詞切分便是毫末;如果將閱讀比作九層之臺,詞切分便是類土。由此可見,詞切分在閱讀中的地位至關(guān)重要、無可替代。
1中文閱讀中詞作為整體加工的心理學(xué)依據(jù)
1.1詞優(yōu)效應(yīng)
實驗證明,單詞中的某一個字母比在一堆毫無意義的字符串中的相同字母更容易被人所記住。例如,與“odrw”中的d相比,被試者將更容易記住“Word”中的字母d,這種差異識別的現(xiàn)象就是詞優(yōu)效應(yīng)。無獨有偶,鄭兆明就曾證明中文閱讀中同樣也存在詞優(yōu)效應(yīng)。在字詞快速傳遞的情況下,他要求被試者在字詞快速傳遞的情況下,以最快的速度記住2個字,這兩字有時組成一個詞,有時不能組成詞。結(jié)果發(fā)現(xiàn),被試者對真詞條件的識別能力普遍高于非詞條件。
1.2詞的屬性對眼動模式的影響
閱讀時,讀者的眼睛需要通過不斷地移動方能獲取文本上的信息,觀文解字,理解作者的思維,理解文章的中心。閱讀中一系列的眼跳被統(tǒng)稱為眼動行為。對拼音文字的研究表明,閱讀時若去掉單詞之間的空格,就會大大增加讀者對單詞的識別能力,甚至?xí)绊懙阶x者對當(dāng)前閱讀詞的定位,增加讀者選擇眼跳目標(biāo)的困難,從而無法進(jìn)行眼動行為。在詞間加入空格對于早期讀者尤其是中文二語學(xué)者都具有非常重大意義。因為他們對中文的掌握能力并不高,而加入詞邊界信息后,則能夠促進(jìn)他們對詞的識別,在閱讀中文文本時,注視的時間也會更短。
1.3字間空格與詞間空格
詞是語言中最小的能夠被獨立運用的單位。對中文文本閱讀的研究表明,在詞與詞之間加入空格對被試者的閱讀效率并沒有影響,但在字與字之間加入空格后,被試者的閱讀速度都普遍得到下降。這表明,在中文的文本閱讀中,詞是作為一個統(tǒng)一的整體出現(xiàn)的,而字與字之間空格的出現(xiàn)破壞了這種整體,從而造成了被試者的閱讀效率下降。
2中文詞切分機理的實驗研究
2.1空格對中文詞切分的影響
上文筆者已簡單提過空格對詞的影響,但如果將空格直接插入文本中,又會對閱讀產(chǎn)生怎樣的影響呢?劉應(yīng)茂等人曾作出實驗證明詞間空格嚴(yán)重干擾了被試者的閱讀,因為最后結(jié)果表明,被試者的詞間空格的閱讀時間高于無空格條件下的閱讀時間。他認(rèn)為詞間空格的出現(xiàn)擾亂了讀者的閱讀習(xí)慣,延長了讀者的閱讀時間。之后,一些研究者也進(jìn)行了相關(guān)的眼動實驗,但他們卻得出了與劉應(yīng)茂完全相反的實驗結(jié)論,他們發(fā)現(xiàn)在詞與詞之間加入空格對被試者的閱讀效率并沒有影響,但在字與字之間加入空格后,被試者的閱讀速度都普遍得到下降。他們發(fā)現(xiàn)劉應(yīng)茂等人的實驗研究中每個句子僅有7個字,卻被組成了六個詞。所以干擾讀者閱讀的并非詞間空格而是字間空格。
2.2詞切分對眼動落點位置的影響
對眼動行為的研究表明,閱讀時讀者對詞首和詞尾的注視高于其對詞中央的注視概率。此次研究發(fā)現(xiàn),首次閱讀時讀者更偏好對詞首與詞中央中間位置的注視。在閱讀時,若將本文中的空格替換成為數(shù)字或字母,就會對閱讀產(chǎn)生干擾。winskel也發(fā)現(xiàn),在沒有空格的閱讀文本中,讀者的注意力的確更容易偏向詞首而非有空格時詞中間偏左的位置。
2.3詞切分在計算機科學(xué)中的研究
在信息技術(shù)飛速發(fā)展的今天,如何利用計算機對以文字形式進(jìn)行爆炸增長的信息進(jìn)行分類、處理,是當(dāng)前計算機領(lǐng)域所需要思考的。然而在利用計算機進(jìn)行信息處理時所面臨的一個瓶頸問題就是詞的切分。在計算機科學(xué)領(lǐng)域中,詞切分被稱為分詞?;谠~典的分詞系統(tǒng)是計算機科學(xué)分詞系統(tǒng)中的一種,它主要包括三個要素:詞典、掃描方式、匹配法則。其中,詞典要素最重要的是詞典機制,不同詞典機制的制定殊途同歸,最終都是為了提高詞切分的速度。匹配也是為了提高分詞的速度,對于匹配來說,當(dāng)前使用最為廣泛的是最大匹配和最小匹配兩種匹配原則。最大匹配是為確保詞典中詞串最長,最小匹配則是為確保切分時切分出的詞最少?;诮y(tǒng)計的分詞方法是利用字與字之間的互信息來實現(xiàn)的,因此也被稱為無詞典分詞法。文本庫中兩漢字相鄰出現(xiàn)的概率稱為互信息,兩個漢字相鄰的概率越小,其構(gòu)成詞匯的幾率也會越小。由于這種方式的分詞方法不需要借助詞典而只需要對文本字符的互信息進(jìn)行統(tǒng)計,因此其更適用于解決未登錄詞或歧義詞。
漢語文化源遠(yuǎn)流長、博大精深,因此在做詞匯切分時,我們很難找到一種方式或者規(guī)律適用于所有的詞匯。基于人工智能的切分困境在于如何使本規(guī)則庫包含所有的切分策略,如何使計算機在最短的時間內(nèi)使用誤差最小的切分方式?;诮y(tǒng)計的切分面臨的最大問題是當(dāng)前的模式難以依賴一種算法解決所有的切分問題?;谠~匯的切分面臨的最大困難在于難以組建一個完善的詞典。當(dāng)前的切分系統(tǒng)各有利弊,我們很難僅利用一種模型便實現(xiàn)對詞的切分。上述的三種切分系統(tǒng)雖然在一定程度上解決了一些問題,但其切分的精確度仍存在一定缺陷。
3結(jié)語
詞的切分是指在閱讀過程中,將連續(xù)的語句切分成不同的部分。理解中文閱讀中詞切分的認(rèn)知機理對閱讀具有非常重要的意義。詞切分認(rèn)知機理的研究符合當(dāng)前中文閱讀機理的要求,符合現(xiàn)代信息技術(shù)發(fā)展的要求。隨著詞切分機理研究的推進(jìn),中文詞的切分還將面臨出現(xiàn)各種各樣的問題,而解決這些問題的過程,我們也可以更好的理解詞切分的認(rèn)知機理。
參考文獻(xiàn)
[1] 梁菲菲.中文詞切分認(rèn)知機制的眼動研究[D].天津師范大學(xué),2013.
[2] 陳煥炎.詞頻和語義透明度對漢語閱讀詞切分的影響[D].福建師范大學(xué),2015.
[3] 陳景紅.中文詞切分及其對不同群體閱讀績效的比較研究[J].長春教育學(xué)院學(xué)報,2015 (3):32-33.
[4] 張?zhí)m蘭.漢語閱讀過程中心理詞加工機制的實驗研究[D].天津師范大學(xué),2012.