牛書杰 李 紅
摘要:文章簡(jiǎn)要回顧了基于案例的推理(Case-based reasoning,簡(jiǎn)稱CBR)機(jī)制和第二語(yǔ)言習(xí)得理論中“補(bǔ)缺假設(shè)”理論的語(yǔ)境觀,分析了CBR在雙語(yǔ)語(yǔ)境知識(shí)表征中應(yīng)用的可行性,并在此基礎(chǔ)上提出了雙語(yǔ)語(yǔ)境知識(shí)表征cBR系統(tǒng)的計(jì)算模型、算法和該系統(tǒng)的一般實(shí)現(xiàn)過(guò)程,是機(jī)器學(xué)習(xí)和人工智能理論在第二語(yǔ)言習(xí)得理論研究中應(yīng)用的初步探討,旨在給第二語(yǔ)言習(xí)得研究提供新的研究方法和視角。
關(guān)鍵詞:案例(CBR);推理;補(bǔ)缺假設(shè);認(rèn)知模擬;語(yǔ)境
中圖分類號(hào):H319
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1008-5831(2009)06-0144-05
對(duì)語(yǔ)言習(xí)得的研究是人類認(rèn)知過(guò)程研究的重要組成部分,也是近年人工智能領(lǐng)域非常重視的一個(gè)研究課題。國(guó)外相關(guān)文獻(xiàn)顯示,利用計(jì)算機(jī)嚴(yán)密的邏輯性和準(zhǔn)確性來(lái)模擬語(yǔ)言習(xí)得的認(rèn)知過(guò)程已經(jīng)成為重要的研究方式之一。不少研究者利用這一手段對(duì)語(yǔ)言的習(xí)得進(jìn)行了系統(tǒng)的研究。然而幾乎所有的研究都是以兒童母語(yǔ)習(xí)得為基礎(chǔ)進(jìn)行的。中國(guó)是世界上外語(yǔ)學(xué)習(xí)者最多的國(guó)家,將計(jì)算機(jī)科學(xué)相關(guān)理論引入第二語(yǔ)言習(xí)得研究,不但可以給這一領(lǐng)域帶來(lái)工具性的革命,而且對(duì)外語(yǔ)教和學(xué)也有指導(dǎo)意義。可是,由于學(xué)科設(shè)置等原因,國(guó)內(nèi)二語(yǔ)習(xí)得研究領(lǐng)域中,利用計(jì)算機(jī)模擬為手段的研究文獻(xiàn)目前還沒有看到。筆者基于“補(bǔ)缺假設(shè)”的語(yǔ)境觀,分析基于案例的推理(CBR)技術(shù)在模擬雙語(yǔ)語(yǔ)境知識(shí)中應(yīng)用的可行性,并在此基礎(chǔ)上提出雙語(yǔ)語(yǔ)境知識(shí)CBR系統(tǒng)的算法和一般實(shí)現(xiàn)過(guò)程。該雙語(yǔ)語(yǔ)境知識(shí)學(xué)習(xí)系統(tǒng)具有增量和自適應(yīng)性特征,具有一定的現(xiàn)實(shí)意義。
一、基于案例的推理
(一)CBR的產(chǎn)生
CBR是受認(rèn)知科學(xué)領(lǐng)域中對(duì)人類解決問(wèn)題策略研究的啟發(fā)而產(chǎn)生的。它類似于人類解決問(wèn)題方法中的啟發(fā)法,即憑借經(jīng)驗(yàn)解決新的、類似的問(wèn)題。CBR的基本概念最早由美國(guó)耶魯大學(xué)的Schank教授于20世紀(jì)80年代初提出,后來(lái)由他的學(xué)生Kolodner完善并開發(fā)出了第一個(gè)基于該概念的系統(tǒng)。
(二)CBR的基本結(jié)構(gòu)
基于案例推理系統(tǒng)主要由檢索系統(tǒng)、案例庫(kù)、案例改寫等核心部分構(gòu)成。其中,案例庫(kù)是過(guò)去問(wèn)題求解經(jīng)驗(yàn)的總和,為新的問(wèn)題求解提供支持,而新的求解結(jié)果也可以作為案例存儲(chǔ)在庫(kù)中,作為知識(shí)的積累。
(三)CBR的特點(diǎn)
跟其他人工智能的學(xué)習(xí)和推理機(jī)制不同的是,CBR依賴的不是某一領(lǐng)域泛化的世界知識(shí),而是將知識(shí)具體化、案例化,然后加以提取,并服務(wù)于新的情形,同時(shí)產(chǎn)生出新的知識(shí)片段(案例)。這樣以來(lái),不但提取和檢索方便,而且有利于知識(shí)的增量,克服了基于規(guī)則推理機(jī)制的知識(shí)獲取瓶頸。系統(tǒng)的準(zhǔn)確性也會(huì)隨著使用而提高,不會(huì)出現(xiàn)基于規(guī)則推理機(jī)制的規(guī)則沖突等現(xiàn)象。
二、“補(bǔ)缺假設(shè)”理論的語(yǔ)境觀
“補(bǔ)缺假設(shè)”是由王初明教授首次提出,并進(jìn)行了深入探討的一個(gè)全新的第二語(yǔ)言習(xí)得理論。該理論嘗試從語(yǔ)境的角度來(lái)廓清中國(guó)人學(xué)習(xí)外語(yǔ)的認(rèn)知機(jī)理。該假設(shè)認(rèn)為:“語(yǔ)言形式與語(yǔ)境知識(shí)的有機(jī)結(jié)合是語(yǔ)言正確流利使用的前提。由于外語(yǔ)環(huán)境缺少與外語(yǔ)表達(dá)方式匹配的真實(shí)語(yǔ)境,在外語(yǔ)理解、習(xí)得和使用的過(guò)程中,母語(yǔ)語(yǔ)境知識(shí)介入補(bǔ)缺,進(jìn)而激活與母語(yǔ)語(yǔ)境知識(shí)配套的母語(yǔ)表達(dá)式,母語(yǔ)遷移因此而發(fā)生?!?/p>
該假設(shè)區(qū)分了“內(nèi)部語(yǔ)境(intemal context)”和“外部語(yǔ)境(external context)”。外部語(yǔ)境是說(shuō)話發(fā)生的語(yǔ)言環(huán)境,包括物理環(huán)境和社會(huì)環(huán)境,比如,說(shuō)話的參與者、說(shuō)話的時(shí)間、地點(diǎn)等。內(nèi)部語(yǔ)境是外部語(yǔ)境在大腦中的表征。因?yàn)槟刚Z(yǔ)(L1)的習(xí)得是內(nèi)部語(yǔ)境和外部語(yǔ)境匹配的過(guò)程,所以二者有機(jī)結(jié)合,習(xí)得母語(yǔ)語(yǔ)言結(jié)構(gòu)的同時(shí)也習(xí)得了與之配套的語(yǔ)境知識(shí)。
但是,外語(yǔ)(L2)的學(xué)習(xí)則完全不同于母語(yǔ)的習(xí)得過(guò)程。外語(yǔ)學(xué)習(xí)多是在課堂上完成的,外語(yǔ)的外部語(yǔ)境幾乎為零。所以,外語(yǔ)的內(nèi)部語(yǔ)境和外部語(yǔ)境的匹配無(wú)法完成,從而造成斷裂。在使用外語(yǔ)交際時(shí),由于外語(yǔ)內(nèi)部語(yǔ)境知識(shí)的缺乏,引起母語(yǔ)語(yǔ)境知識(shí)的補(bǔ)缺,致使外語(yǔ)(英語(yǔ))的語(yǔ)言結(jié)構(gòu)和母語(yǔ)的語(yǔ)境知識(shí)結(jié)合,產(chǎn)生所謂的“漢式英語(yǔ)”。倘若連母語(yǔ)的語(yǔ)境知識(shí)也沒有得到激活,則會(huì)產(chǎn)生所謂的“啞巴英語(yǔ)”。
由于母語(yǔ)語(yǔ)境知識(shí)沒有被激活,加上英語(yǔ)語(yǔ)境知識(shí)的缺省,產(chǎn)生“啞巴英語(yǔ)”是顯而易見的。筆者試圖開發(fā)一個(gè)CBR系統(tǒng)來(lái)模擬雙語(yǔ)語(yǔ)境知識(shí)在大腦中的表征和“漢式英語(yǔ)”的產(chǎn)生過(guò)程,并以此來(lái)說(shuō)明“補(bǔ)缺假設(shè)”的解釋力,以期對(duì)該假設(shè)進(jìn)行相應(yīng)的評(píng)介。
三、基于CBR的雙語(yǔ)語(yǔ)境知識(shí)表征系統(tǒng)的可行性
(一)CBR是對(duì)基于規(guī)則推理的反動(dòng)
基于案例的推理是對(duì)基于規(guī)則的推理(rule-based reasoning,簡(jiǎn)稱RBR)的反動(dòng),它強(qiáng)調(diào)的是案例,而不是規(guī)則。它試圖從案例庫(kù)中檢索到可以應(yīng)用的相關(guān)案例,重新使用,或者做出適當(dāng)修改后加以應(yīng)用,同時(shí)產(chǎn)生出新的案例。基于案例的推理對(duì)于規(guī)則難于提取的研究領(lǐng)域很有幫助。例如,在社會(huì)科學(xué)的一些研究中,把研究對(duì)象規(guī)則化、數(shù)學(xué)模型化幾乎是無(wú)法做到的,而應(yīng)用CBR就比應(yīng)用RBR顯得要恰當(dāng),而且易于操作。
(二)雙語(yǔ)語(yǔ)境知識(shí)難以規(guī)則化
“補(bǔ)缺假設(shè)”的語(yǔ)境理論涉及的認(rèn)知過(guò)程是無(wú)法單純使用規(guī)則來(lái)描述的。語(yǔ)境本身就是一個(gè)動(dòng)態(tài)的過(guò)程。例如,外部語(yǔ)境就包含人物、地點(diǎn)、事件、話題、談話的正式程度、社交活動(dòng)等。這些因素又有各自不同的屬性,任何一個(gè)因素都會(huì)給系統(tǒng)帶來(lái)影響,而且內(nèi)部語(yǔ)境也涉及各種因素,比如說(shuō)話者和聽話者的意圖、文化背景知識(shí)等。它們與語(yǔ)言結(jié)構(gòu)相互作用、影響,使整個(gè)系統(tǒng)變得非常復(fù)雜。此外,外語(yǔ)學(xué)習(xí)的過(guò)程也是一個(gè)不斷變化的過(guò)程,學(xué)習(xí)者通過(guò)學(xué)習(xí),增進(jìn)語(yǔ)言結(jié)構(gòu)和語(yǔ)境知識(shí),從而提高外語(yǔ)水平。所以,試圖使用規(guī)則來(lái)描述語(yǔ)境知識(shí)的獲取和表征的方法很難達(dá)到預(yù)期的效果。
(三)語(yǔ)境知識(shí)案例化的優(yōu)勢(shì)
如前所述,CBR是對(duì)基于規(guī)則的推理的反動(dòng),語(yǔ)境知識(shí)在大腦中的表征是難以用規(guī)則來(lái)描述的,所以使用CBR思想來(lái)描述語(yǔ)境知識(shí)在大腦中的表征是恰當(dāng)?shù)?。案例化語(yǔ)境知識(shí)對(duì)于研究人類的內(nèi)隱記憶和語(yǔ)感也很有幫助。通過(guò)案例化,一個(gè)成功的CBR系統(tǒng)便可相對(duì)準(zhǔn)確地模擬人類的認(rèn)知過(guò)程,對(duì)于打開內(nèi)隱記憶和語(yǔ)感的黑箱將會(huì)起到重要的作用。
四、基于CBR的雙語(yǔ)語(yǔ)境知識(shí)表征系統(tǒng)
(一)系統(tǒng)概貌
通過(guò)建立一個(gè)CBR計(jì)算機(jī)模擬系統(tǒng),使該系統(tǒng)模擬人類內(nèi)部語(yǔ)境的認(rèn)知機(jī)理,將“補(bǔ)缺假設(shè)”的語(yǔ)境知識(shí)理論付諸實(shí)施,然后將該系統(tǒng)產(chǎn)生出的語(yǔ)言行為與外語(yǔ)學(xué)習(xí)者的真實(shí)語(yǔ)言產(chǎn)出進(jìn)行比較,從而反過(guò)來(lái)對(duì)模擬系統(tǒng)和理論本身進(jìn)行調(diào)整、評(píng)估。
為了將研究范圍具體化,筆者暫時(shí)將模擬系統(tǒng)中的內(nèi)部語(yǔ)境限定為母語(yǔ)語(yǔ)境知識(shí)的內(nèi)部表征。排除外語(yǔ)語(yǔ)境知識(shí)的原因是:“補(bǔ)缺假設(shè)”假定了外語(yǔ)內(nèi)部語(yǔ)境知識(shí)的缺省,在外語(yǔ)內(nèi)部語(yǔ)境知識(shí)被激活
的情況下,如果外語(yǔ)語(yǔ)境知識(shí)案例庫(kù)中有匹配的案例,則系統(tǒng)就不必到母語(yǔ)語(yǔ)境案例庫(kù)中檢索,也就無(wú)從補(bǔ)缺。
圖1是基于“補(bǔ)缺假設(shè)”語(yǔ)境知識(shí)理論的CBR系統(tǒng)的概貌。在真實(shí)的交際場(chǎng)景中,由于外語(yǔ)語(yǔ)境知識(shí)的完全或者部分缺失,外語(yǔ)學(xué)習(xí)者調(diào)用母語(yǔ)(漢語(yǔ))內(nèi)部語(yǔ)境知識(shí)補(bǔ)缺,結(jié)合英語(yǔ)表達(dá)式,產(chǎn)生出語(yǔ)言輸出,即“漢式英語(yǔ)”。如果該系統(tǒng)經(jīng)過(guò)訓(xùn)練的語(yǔ)言輸出與英語(yǔ)內(nèi)部語(yǔ)境知識(shí)缺失的學(xué)習(xí)者的語(yǔ)言輸出表現(xiàn)出顯著的相關(guān),則可以說(shuō)明“補(bǔ)缺假設(shè)”理論和該系統(tǒng)的有效性,反之,該理論或模擬系統(tǒng)被證偽。
(二)案例表示
該模擬系統(tǒng)中的一個(gè)案例實(shí)際上是母語(yǔ)內(nèi)部語(yǔ)境知識(shí)的單個(gè)片段。內(nèi)部語(yǔ)境是外部語(yǔ)境在大腦中的表征,涉及的因素有:話題(topical,以下簡(jiǎn)稱TO-Pi)、空間(spatial,以下簡(jiǎn)稱SP)、時(shí)間(temporal,以下簡(jiǎn)稱TP)、關(guān)系(relational,以下簡(jiǎn)稱RT)、參與者(partieipational,以下簡(jiǎn)稱PP)、文化規(guī)則、肢體語(yǔ)言以及參與者的性格、心情、文化水平等。這里只對(duì)前五種特征因素進(jìn)行案例表示,其余的因素在抽象系統(tǒng)中的影響相對(duì)較弱,所以暫不涉及。但是,需要說(shuō)明的是,當(dāng)系統(tǒng)隨著案例的增加變得龐大時(shí),就必須提高案例表征的顆粒度(granularity),考慮更多的特征因素。
一個(gè)有效的案例表示一般應(yīng)包括三個(gè)部分的內(nèi)容:案例發(fā)生的背景、案例的特點(diǎn)、解決方法或者結(jié)果。這里以漢語(yǔ)中一個(gè)典型的告別語(yǔ)境為例來(lái)說(shuō)明,為便于檢索,可以采用英語(yǔ)代碼來(lái)描述。案例的背景(話題)為“道別”,涉及四個(gè)方面:Default普適于任何場(chǎng)景;該語(yǔ)境表達(dá)一個(gè)交際的結(jié)束,可以應(yīng)用于正式(fml)或非正式(infml)語(yǔ)境;牽涉到的交際者超過(guò)兩個(gè)人;結(jié)果是激活漢語(yǔ)表達(dá)式“再見”。
“再見”的案例表示舉例:
[CASE 1
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communication;
RT:fml * infml;
PP:≥2 people;
SOLUTION:“再見”]
需要注意的是,當(dāng)案例庫(kù)增大時(shí),案例(語(yǔ)境)涉及的特征和因素就必須更加具體、更加復(fù)雜,否則很難區(qū)分兩個(gè)比較類似的語(yǔ)境,并進(jìn)而跟英語(yǔ)結(jié)構(gòu)表達(dá)式結(jié)合后產(chǎn)生的語(yǔ)言(英語(yǔ))輸出就不能對(duì)類似的語(yǔ)境進(jìn)行區(qū)分。這也和觀察到的現(xiàn)象相吻合:英語(yǔ)語(yǔ)境知識(shí)缺省的學(xué)習(xí)者在類似的語(yǔ)境下經(jīng)常重復(fù)使用同一個(gè)英語(yǔ)的表達(dá)式來(lái)交流,而這個(gè)表達(dá)式從漢語(yǔ)的意義角度看沒有問(wèn)題,但是從英語(yǔ)語(yǔ)境的角度看就不地道,甚至?xí)鹫`解。比如,英語(yǔ)常見的告別是“Byebye”,如果使用案例的特征表示,則如下所示。
[CASE#
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communication;
RT:infml;
PP:≥2 people;
SOLUTION:“Byebye"]
它跟漢語(yǔ)“再見”的案例表示的唯一區(qū)別在于:Byebye只能用于非正式的(infml)語(yǔ)境中,而“再見”在正式(fml)或非正式的語(yǔ)境中都可以使用。外語(yǔ)(英語(yǔ))語(yǔ)境知識(shí)缺省的情況導(dǎo)致了母語(yǔ)(漢語(yǔ))語(yǔ)境知識(shí)的補(bǔ)缺。所以,語(yǔ)境知識(shí)不完全的學(xué)習(xí)者即使在一個(gè)極其正式的場(chǎng)合道別時(shí),也會(huì)使用Byebye來(lái)結(jié)束交際任務(wù),從而造成不地道的表達(dá)。
(三)案例庫(kù)和案例修改
高頻的母語(yǔ)語(yǔ)境知識(shí)表示首先是案例庫(kù)中必須包括的內(nèi)容。例如,招呼(greeting)、抱怨(complai-ning)、道歉(apologizing)、命令(directing)等。如前文所述,案例庫(kù)超過(guò)一定規(guī)模時(shí),就必須更細(xì)化案例特征,以便增加區(qū)分度。根據(jù)頻率的高低還要對(duì)案例增加權(quán)重,并據(jù)此對(duì)案例庫(kù)中的案例進(jìn)行排序,以便以后檢索。
案例庫(kù)中除了單個(gè)的案例之外,還存儲(chǔ)有一些漢語(yǔ)語(yǔ)境知識(shí)的對(duì)應(yīng)英語(yǔ)語(yǔ)言產(chǎn)出。跟其他的CBR系統(tǒng)不同的是:其他系統(tǒng)把不匹配的案例經(jīng)過(guò)修改后直接存人案例庫(kù),而“補(bǔ)缺假設(shè)”的模擬系統(tǒng)則需要把最終的語(yǔ)言(英語(yǔ))輸出存入案例庫(kù),這樣一來(lái),案例庫(kù)中不僅有漢語(yǔ)語(yǔ)境知識(shí)的案例,還存儲(chǔ)了常用的跟漢語(yǔ)語(yǔ)境知識(shí)對(duì)應(yīng)的英語(yǔ)輸出(output)。這樣做的原因是:對(duì)中國(guó)的英語(yǔ)學(xué)習(xí)者來(lái)說(shuō),母語(yǔ)語(yǔ)境知識(shí)是一個(gè)相對(duì)穩(wěn)定的系統(tǒng),它的更新主要通過(guò)母語(yǔ)來(lái)實(shí)現(xiàn);這個(gè)系統(tǒng)模擬的是外語(yǔ)語(yǔ)境知識(shí)缺省的情況下外語(yǔ)的輸出情況,所以在母語(yǔ)語(yǔ)境知識(shí)CBR系統(tǒng)之外,必須有個(gè)英語(yǔ)結(jié)構(gòu)表達(dá)系統(tǒng),把漢語(yǔ)語(yǔ)境知識(shí)跟英語(yǔ)的表達(dá)式結(jié)合起來(lái)。語(yǔ)言輸出存入案例庫(kù)后,在以后的案例調(diào)用時(shí),就可以在案例庫(kù)中檢索匹配,直接進(jìn)行語(yǔ)言輸出。
“再見”案例修改后的表示:
[CASE 1 #
TOPi:Biding farewell;
FEATURES
SP:Default;
TP:Ending a communicatlon;
RT:fml * infml;
PP:≥2 people
;SOLUTION:”再見”;
PRODUCTION:"Byebye']
把母語(yǔ)語(yǔ)境知識(shí)跟外語(yǔ)語(yǔ)言結(jié)構(gòu)形式結(jié)合后的語(yǔ)言輸出存入案例庫(kù)是有心理現(xiàn)實(shí)(psychological plausibility)意義的,它能夠解釋外語(yǔ)學(xué)習(xí)過(guò)程中的幾個(gè)現(xiàn)象。首先,如果新的案例可以在案例庫(kù)中直接匹配到對(duì)應(yīng)的母語(yǔ)語(yǔ)境知識(shí)和英語(yǔ)輸出,那么英語(yǔ)產(chǎn)出就非???,這有助于解釋為什么大量的外語(yǔ)課堂練習(xí),盡管不一定在真實(shí)的語(yǔ)境下完成,對(duì)于學(xué)習(xí)者的流利度也是有幫助的。其次,它能夠解釋外語(yǔ)學(xué)習(xí)過(guò)程中的“石化(fossilization)”現(xiàn)象。該現(xiàn)象表現(xiàn)為:盡管外語(yǔ)學(xué)習(xí)者在語(yǔ)言應(yīng)用方面非常流利,但是他們可能在語(yǔ)音、句法、語(yǔ)用等方面表現(xiàn)出持續(xù)的錯(cuò)誤,而這些錯(cuò)誤是很難消除的,甚至是“永久性的”。從“補(bǔ)缺假設(shè)”理論模擬的CBR系統(tǒng)可以看出,母語(yǔ)語(yǔ)境知識(shí)跟外語(yǔ)語(yǔ)言結(jié)構(gòu)表達(dá)結(jié)合后的外語(yǔ)輸出一旦存入案例庫(kù),該表達(dá)的調(diào)用和激活就非常方便、快捷,而且很難從案例庫(kù)中消除,即表現(xiàn)為學(xué)習(xí)過(guò)程中的“石化”現(xiàn)象。
在前文特征提取的基礎(chǔ)上,案例的修改采用權(quán)值設(shè)定的方法,通過(guò)考慮特征頻率等因素來(lái)實(shí)現(xiàn)。這里可以采用神經(jīng)網(wǎng)絡(luò)中經(jīng)常用到的s曲線函數(shù)(sigmoid function)來(lái)設(shè)定案例權(quán)值,從而對(duì)案例庫(kù)中的案例進(jìn)行排序。
其中,Ranking為案例排序的權(quán)值;u代表案例被調(diào)用的次數(shù),所以,其取值范圍為[O,+∞]。因?yàn)?,S曲線函數(shù)為連續(xù)升函數(shù),所以,Ranking的對(duì)應(yīng)取值范圍也就是[0,1)??梢钥闯?,案例被調(diào)用的次數(shù)越多,對(duì)應(yīng)的排序值也越高;調(diào)用次數(shù)為0時(shí),對(duì)應(yīng)的排序值也是0。