劉 華
(暨南大學(xué) 海外華語(yǔ)研究中心,廣州 510610)
目前,國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)建設(shè)比較成熟,比較著名的如北京大學(xué)CCL 語(yǔ)料庫(kù)(含現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)和古漢語(yǔ)語(yǔ)料庫(kù))、國(guó)家語(yǔ)委平衡語(yǔ)料庫(kù)、國(guó)家語(yǔ)委監(jiān)測(cè)語(yǔ)料庫(kù)(包含平面媒體、網(wǎng)絡(luò)媒體、有聲媒體、教育教材、海外華語(yǔ)多種語(yǔ)料庫(kù))、北京語(yǔ)言大學(xué)BBC 語(yǔ)料庫(kù)等。雙語(yǔ)平行語(yǔ)料庫(kù)、口語(yǔ)語(yǔ)料庫(kù)、學(xué)習(xí)者中介語(yǔ)語(yǔ)料庫(kù)是今后語(yǔ)料庫(kù)建設(shè)和研究的重點(diǎn)。
其他地區(qū)或國(guó)家的漢語(yǔ)語(yǔ)料庫(kù)主要包括:臺(tái)灣“中研院”鄒嘉彥主持建設(shè)的“海峽兩岸暨香港、澳門語(yǔ)料庫(kù)”、新加坡國(guó)立大學(xué)王惠主持建設(shè)的“新加坡華語(yǔ)語(yǔ)料庫(kù)”、旅英學(xué)者肖忠華博士創(chuàng)建的“英國(guó)蘭卡斯特漢語(yǔ)語(yǔ)料庫(kù)——現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)、中文網(wǎng)絡(luò)語(yǔ)料庫(kù)和商務(wù)漢語(yǔ)語(yǔ)料庫(kù)”。
在華語(yǔ)語(yǔ)料庫(kù)建設(shè)方面,比較有特色的有暨南大學(xué)海外華語(yǔ)研究中心劉華主持開(kāi)發(fā)的“東南亞主要華文媒體(網(wǎng)站、報(bào)刊)語(yǔ)料庫(kù)、東南亞華文教材語(yǔ)料庫(kù)”,以及暨南大學(xué)王茂林主持建設(shè)的“東南亞華裔學(xué)習(xí)者作文語(yǔ)料庫(kù)、華裔學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)”等。
在全球華語(yǔ)大發(fā)展、大融合的背景下,面對(duì)漢語(yǔ)熱的機(jī)遇與挑戰(zhàn),建設(shè)全球華語(yǔ)語(yǔ)料庫(kù)是語(yǔ)料庫(kù)工作者責(zé)無(wú)旁貸的歷史使命。
目前,英語(yǔ)已經(jīng)建設(shè)有“國(guó)際英語(yǔ)語(yǔ)料庫(kù)(ICE)”,這是各國(guó)或地區(qū)英語(yǔ)語(yǔ)料的集合,相當(dāng)于英語(yǔ)國(guó)際變體的匯總,是全球英語(yǔ)變體的語(yǔ)料庫(kù)。全球華語(yǔ)語(yǔ)料庫(kù)也應(yīng)如此,廣泛收集全球各國(guó)或地區(qū)的漢語(yǔ)變體的語(yǔ)料。
但是,國(guó)內(nèi)外尚無(wú)大型通用的全球華語(yǔ)語(yǔ)料庫(kù),而主要是中國(guó)國(guó)內(nèi)的漢語(yǔ)語(yǔ)料庫(kù)。有一些華語(yǔ)語(yǔ)料庫(kù)也是區(qū)域性的,如鄒佳彥的“海峽兩岸暨香港、澳門語(yǔ)料庫(kù)”、王惠的新加坡華語(yǔ)語(yǔ)料庫(kù),缺乏從全球視角構(gòu)建全世界的華語(yǔ)語(yǔ)料庫(kù)。全球華語(yǔ)語(yǔ)料庫(kù)建成后,將會(huì)和國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)一起,互相補(bǔ)充,構(gòu)成全球漢語(yǔ)的語(yǔ)料庫(kù)一體化系統(tǒng)。
因?yàn)槭澜绺鞯卣f(shuō)漢語(yǔ)的主要還是華僑華人,所以漢語(yǔ)熱實(shí)質(zhì)上是華語(yǔ)熱。同時(shí)漢語(yǔ)研究必須走向全球,漢語(yǔ)的語(yǔ)音、詞匯和語(yǔ)法研究,若想從傳統(tǒng)的本體研究中取得新突破,就需要從全球華語(yǔ)的角度來(lái)重新進(jìn)行構(gòu)思。
海外華僑華人的華語(yǔ)研究是漢語(yǔ)研究全球化視野下的重要組成部分,漢語(yǔ)和華語(yǔ)的對(duì)比研究、全球不同華人社區(qū)華語(yǔ)差異研究、全球華語(yǔ)方言研究、跨境語(yǔ)言研究、全球華語(yǔ)語(yǔ)法研究都需要大規(guī)模的全球華語(yǔ)料庫(kù)來(lái)輔助。
漢語(yǔ)國(guó)際教育和漢語(yǔ)國(guó)際推廣,其中最主要的部分是華文教育和華語(yǔ)傳播。華文教育和華語(yǔ)傳播需要基于全球華語(yǔ)語(yǔ)料庫(kù)的研究結(jié)果,例如,華文教材的本土化、國(guó)別化詞表建設(shè)、華文教育用基本字詞表建設(shè)、華文教育多樣性研究等。特別是全球華語(yǔ)語(yǔ)料庫(kù)中的華文教材和華裔學(xué)習(xí)者作文、口語(yǔ)等子語(yǔ)料庫(kù),將為漢語(yǔ)國(guó)際教育提供最直接的數(shù)據(jù)基礎(chǔ)和理論支持。
語(yǔ)言、方言是文化最重要的載體和組成部分,是文化多樣性的體現(xiàn),是珍貴的非物質(zhì)文化遺產(chǎn),是不可再生的資源。搶救性收集和保存華語(yǔ)資源,是保護(hù)中華民族語(yǔ)言文化遺產(chǎn)迫在眉睫的重大歷史使命[1]。
全球華語(yǔ)語(yǔ)料庫(kù)不僅僅包含文本的語(yǔ)料,而且包含口語(yǔ)有聲數(shù)據(jù),以及語(yǔ)言生活場(chǎng)景的音視頻資源。這種多媒體形式的語(yǔ)言資源庫(kù),不僅僅為語(yǔ)言學(xué)研究提供數(shù)據(jù)支持,也為文化學(xué)、人類學(xué)、傳播學(xué)等提供數(shù)據(jù)參考。
全球華語(yǔ)語(yǔ)料庫(kù)在建設(shè)上有自己的特點(diǎn)、構(gòu)建方法和流程。需要從建設(shè)的基本原則、語(yǔ)料來(lái)源與獲取方法、語(yǔ)料構(gòu)成及比例、信息字段及存儲(chǔ)格式等方面考量。
語(yǔ)料庫(kù)建設(shè)的科學(xué)性首先體現(xiàn)在建庫(kù)的基本原則上。圍繞選擇語(yǔ)料來(lái)源的載體、題材、地域和語(yǔ)體以及語(yǔ)料的媒體形式,全球華語(yǔ)語(yǔ)料庫(kù)建設(shè)應(yīng)遵循以下基本原則。
1.華語(yǔ)語(yǔ)料來(lái)源樣式較少,載體、題材、體裁相對(duì)單一,需要因材取材
與國(guó)內(nèi)漢語(yǔ)語(yǔ)料來(lái)源多樣不同,華語(yǔ)語(yǔ)料的主要載體形式是華文網(wǎng)站、報(bào)刊、文學(xué)作品、教材、學(xué)習(xí)者作文、口語(yǔ)等,其中,華文網(wǎng)站、報(bào)刊、文學(xué)作品是主要來(lái)源。因此,全球華語(yǔ)語(yǔ)料庫(kù)無(wú)法像國(guó)內(nèi)語(yǔ)料庫(kù)那樣設(shè)定詳細(xì)的各種體裁、載體和題材的建庫(kù)原則,只能因材取材,集中于網(wǎng)站、報(bào)刊、文學(xué)作品等來(lái)源語(yǔ)料建庫(kù)。
2.華語(yǔ)語(yǔ)料來(lái)源地域分布不均,以東南亞華語(yǔ)為主,需要因地取材
全球華僑華人主要集中在東南亞各國(guó)。那里華人社區(qū)歷史悠久,成熟度較高,華語(yǔ)特色非常明顯,極具代表性。東南亞華語(yǔ)媒體,如華文網(wǎng)站、報(bào)刊、教材等比較發(fā)達(dá)成熟;東南亞華裔學(xué)生是華文教育乃至漢語(yǔ)國(guó)際教育的主體,其中介語(yǔ)作文和口語(yǔ),較有價(jià)值;華人社區(qū)大都保持說(shuō)華語(yǔ)或漢語(yǔ)方言的傳統(tǒng),漢語(yǔ)言文化認(rèn)同度較高,其口語(yǔ)語(yǔ)料價(jià)值也較高。[2]
其他大洲的國(guó)家的華人多為新移民,代表性不強(qiáng)。部分華文網(wǎng)站、報(bào)刊、文學(xué)作品可以作為語(yǔ)料來(lái)源。其中,歐美華人文學(xué)作品價(jià)值較高,是其代表;其華文教材、作文、口語(yǔ)來(lái)源的語(yǔ)料較少,價(jià)值較低。
因此,全球華語(yǔ)語(yǔ)料庫(kù)應(yīng)該以東南亞華語(yǔ)語(yǔ)料為主要語(yǔ)料來(lái)源,兼收其他大洲語(yǔ)料。東南亞華語(yǔ)語(yǔ)料來(lái)源廣泛多樣,書(shū)面語(yǔ)的網(wǎng)站、報(bào)刊、教材、作文和口語(yǔ)的真實(shí)生活場(chǎng)景調(diào)查語(yǔ)料是其主體;其他大洲則以書(shū)面語(yǔ)的網(wǎng)站、報(bào)刊、文學(xué)作品為主。
3.書(shū)面語(yǔ)、口語(yǔ)并重,和漢語(yǔ)語(yǔ)料庫(kù)相比,更重口語(yǔ)
華語(yǔ),特別是東南亞華語(yǔ),其特色在于口語(yǔ)?,F(xiàn)當(dāng)代漢語(yǔ)經(jīng)過(guò)演化,特別是建國(guó)以來(lái)的規(guī)范化之后,與古漢語(yǔ)、近代漢語(yǔ)的差異更加明顯,多樣性也有所減弱。而海外華語(yǔ)則保持了相對(duì)獨(dú)立的發(fā)展過(guò)程,華語(yǔ)及其方言流傳于海外,口語(yǔ)保持了近代漢語(yǔ)、甚至古漢語(yǔ)的很多因素。因此,海外華語(yǔ)的口語(yǔ)價(jià)值較大,而且從搶救性記錄和保存華語(yǔ)語(yǔ)言資源、保護(hù)民族語(yǔ)言文化遺產(chǎn)的歷史使命角度來(lái)看,口語(yǔ)理應(yīng)更受重視。
4.多用途、多媒體、富信息的語(yǔ)料庫(kù)建設(shè)理念
華語(yǔ)語(yǔ)料廣泛分布在海外,地域跨度大,重復(fù)性建設(shè)和驗(yàn)證較難。語(yǔ)料庫(kù)最好能設(shè)計(jì)為多用途,除了對(duì)普通的語(yǔ)言學(xué)研究提供數(shù)據(jù)支持之外,還應(yīng)對(duì)語(yǔ)言研究的細(xì)分領(lǐng)域,如漢語(yǔ)教學(xué)、社會(huì)語(yǔ)言學(xué)、方言學(xué)、語(yǔ)言地理學(xué),甚至跨學(xué)科的文化學(xué)、人類學(xué)、傳播學(xué)等多學(xué)科的研究提供數(shù)據(jù)支持。
因此,一次性建設(shè)后,全球華語(yǔ)語(yǔ)料庫(kù)應(yīng)該盡可能地附帶語(yǔ)言使用的各種語(yǔ)境信息,比如華語(yǔ)使用所處的社區(qū)環(huán)境,口語(yǔ)說(shuō)話人的肢體語(yǔ)言、人際交流情景等。這種多用途、富信息的特點(diǎn),決定了其語(yǔ)料的多來(lái)源、多媒體形式。除了傳統(tǒng)的書(shū)面語(yǔ)和口語(yǔ)形式外,還應(yīng)包括真實(shí)華語(yǔ)口語(yǔ)生活場(chǎng)景的音視頻。
傳統(tǒng)語(yǔ)料庫(kù)只包括書(shū)面語(yǔ)文本和口語(yǔ)有聲語(yǔ)料兩種。全球華語(yǔ)語(yǔ)料庫(kù)則應(yīng)通過(guò)文本、音頻、圖片、視頻等多種媒體形式,實(shí)態(tài)反映華語(yǔ)的語(yǔ)言生活,包括華文媒體語(yǔ)料庫(kù)、華語(yǔ)有聲數(shù)據(jù)庫(kù)、華語(yǔ)風(fēng)貌資源庫(kù)。與單一的傳統(tǒng)語(yǔ)料庫(kù)形式不同,該語(yǔ)料庫(kù)通過(guò)多種媒體形式全方位多角度展示華語(yǔ)風(fēng)貌,聲色并茂、圖文并茂,是“多媒體語(yǔ)言資源”理念的創(chuàng)新和實(shí)踐。[1]
總體上,東南亞華語(yǔ)語(yǔ)料約占全球華語(yǔ)語(yǔ)料庫(kù)的四分之三;亞洲其他國(guó)家,歐洲、美洲、非洲、大洋洲等則以其主要國(guó)家的主要媒體為主,合計(jì)約占四分之一。
1.華文網(wǎng)站、報(bào)刊
參考海外華語(yǔ)研究中心已經(jīng)完成的《海外主要華文媒體調(diào)查報(bào)告》,選取各國(guó)主要華語(yǔ)代表地區(qū)的,當(dāng)?shù)鼗?、本土化特色明顯,主流性的華文網(wǎng)站和報(bào)刊,收集近十年的語(yǔ)料。
網(wǎng)站和已經(jīng)在線的報(bào)刊,通過(guò)批量下載的方式完成,沒(méi)有上網(wǎng)的報(bào)刊與其編輯部聯(lián)系協(xié)商,直接拿到電子版,或者人工輸入完成。預(yù)計(jì)網(wǎng)站語(yǔ)料約一億字,報(bào)刊語(yǔ)料約兩億字。
2.海外華文文學(xué)作品
參考《世界華語(yǔ)文學(xué)大系》,選取各國(guó)代表性華語(yǔ)作家的代表性作品。其中體裁方面,以小說(shuō)為主。字?jǐn)?shù)預(yù)計(jì)約一億字。
3.真實(shí)華語(yǔ)口語(yǔ)場(chǎng)景的音視頻資源
以東南亞各國(guó)為主,每個(gè)國(guó)家根據(jù)省級(jí)行政單位設(shè)置調(diào)查點(diǎn),原則上“一省一點(diǎn)”。對(duì)于每個(gè)調(diào)查點(diǎn),采集其個(gè)人、家庭、重大節(jié)假日和大型聚會(huì)的口語(yǔ)生活場(chǎng)景的音視頻素材[3]。
個(gè)人口語(yǔ)生活場(chǎng)景調(diào)查。每個(gè)調(diào)查點(diǎn)均需要調(diào)查6 名華語(yǔ)發(fā)音人,主要通過(guò)定題朗讀、自選話題講述、多人任意話題對(duì)話等形式,錄音錄像,時(shí)長(zhǎng)約一小時(shí)。
家庭語(yǔ)言生活場(chǎng)景調(diào)查。選取兩個(gè)具有代表性的華人家庭(日常會(huì)話以華語(yǔ)為主),選擇一天中具有代表性的生活場(chǎng)景進(jìn)行錄像,如吃飯、聊天、家人聚會(huì)、購(gòu)物等日常生活,時(shí)長(zhǎng)約兩小時(shí)。
重大節(jié)假日、大型聚會(huì)語(yǔ)言生活場(chǎng)景調(diào)查。選擇華人社區(qū)典型的具有地方特色的重大節(jié)假日、大型聚會(huì)的語(yǔ)言生活場(chǎng)景,如春節(jié)、鬼節(jié)、教堂活動(dòng)、婚喪等,進(jìn)行錄像,時(shí)長(zhǎng)約兩小時(shí)。
預(yù)計(jì)總共200 個(gè)調(diào)查點(diǎn),其中東南亞160 個(gè)點(diǎn),其他州40個(gè)點(diǎn)。轉(zhuǎn)寫(xiě)后的文本預(yù)計(jì)每個(gè)調(diào)查點(diǎn) 10000 字(平均每分鐘音視頻大約30 個(gè)字[4],每個(gè)調(diào)查點(diǎn)共5 個(gè)小時(shí)錄音),總計(jì)約1000 小時(shí)音視頻,200 萬(wàn)字。
4.華文教材
華文教材以東南亞各國(guó)為主,基于“本土化、主流性、成套、公開(kāi)出版”原則,選取那些當(dāng)?shù)厝酥骶幍?、本土化特色?qiáng)、正式出版并且較大規(guī)模使用、各年級(jí)齊全成套的中小學(xué)華文教材,以及使用面廣、影響較大的補(bǔ)習(xí)教材和自編教材。共計(jì)約二十套,兩百本,兩百萬(wàn)字。[1]
5.華裔學(xué)習(xí)者作文與口語(yǔ)
華裔學(xué)習(xí)者作文主要收集學(xué)習(xí)漢語(yǔ)的華裔留學(xué)生的平時(shí)作文和考試作文,共約一千萬(wàn)字。
華裔學(xué)習(xí)者口語(yǔ)主要采集學(xué)習(xí)漢語(yǔ)的華裔留學(xué)生的日常對(duì)話、課堂口語(yǔ)和錄音室錄音,約一百萬(wàn)字。
華裔學(xué)生以暨南大學(xué)華文學(xué)院的學(xué)生為主,兼及其他高校的華裔學(xué)生以及海外華文學(xué)習(xí)者。
海外華語(yǔ)傳播的主要途徑是華文報(bào)刊,其次是華文網(wǎng)站和文學(xué)作品,再次是與華文教學(xué)相關(guān)的教材和作文。根據(jù)海外華語(yǔ)研究中心完成的《海外主要華文媒體調(diào)查》,東南亞的華文網(wǎng)站,約占華文網(wǎng)站總量的20%;東南亞的華文報(bào)刊約占華文報(bào)刊總量的25%。根據(jù)《世界華語(yǔ)文學(xué)大系》統(tǒng)計(jì)結(jié)果,東南亞華文文學(xué)作品約占世界華語(yǔ)文學(xué)作品總量的25%??紤]到東南亞華文媒體華語(yǔ)特色突出,我們將其加權(quán)3 倍,網(wǎng)站、報(bào)刊和文學(xué)作品中東南亞占比分別為60%和75%、75%。全球華裔的華文學(xué)習(xí)者中,約九成來(lái)自東南亞,因此東南亞學(xué)習(xí)者的作文和口語(yǔ)的占比也約為90%;另?yè)?jù)暨南大學(xué)華文學(xué)院蔡麗博士完成的《海外主要華文教材調(diào)查》,華文教材中東南亞的數(shù)量約占90%。東南亞華語(yǔ)口語(yǔ)特色非常明顯,極具代表性,因此,口語(yǔ)生活場(chǎng)景調(diào)查語(yǔ)料中東南亞占比也約為90%。見(jiàn)表1。
表1 全部庫(kù)比例
語(yǔ)料庫(kù)的字段設(shè)計(jì)和存儲(chǔ)格式?jīng)Q定了建設(shè)好的語(yǔ)料庫(kù)的用途和擴(kuò)展性[5]。
可擴(kuò)展標(biāo)記語(yǔ)言(XML)是一種提供數(shù)據(jù)描述格式的標(biāo)記語(yǔ)言。該語(yǔ)言跨越多個(gè)平臺(tái),能更準(zhǔn)確地進(jìn)行內(nèi)容聲明和獲得更有意義的搜索結(jié)果。此外,XML 讓數(shù)據(jù)與表示及處理分離開(kāi)來(lái),擴(kuò)展性強(qiáng)。
系統(tǒng)中 XML 的DTD(Document Type Definition,文件格式定義)定義如下:
DTD 說(shuō)明如下:
1.存儲(chǔ)采用utf-8 編碼格式。
2.根節(jié)點(diǎn) Article 包含兩個(gè)元素,Header 和Text。
3.
全球華語(yǔ)語(yǔ)料庫(kù)在建設(shè)的基礎(chǔ)工作完成后,還需要進(jìn)行深加工。比如:選取核心庫(kù),分詞標(biāo)注詞性、人工校對(duì),基本字詞信息統(tǒng)計(jì)等。
從海外華語(yǔ)傳播的效果來(lái)看,和華文教學(xué)相關(guān)的教材與學(xué)習(xí)者口語(yǔ),影響最大,最為直接,當(dāng)?shù)厝丝谡Z(yǔ)也是華語(yǔ)面貌的最直接體現(xiàn);而且,學(xué)習(xí)者口語(yǔ)和當(dāng)?shù)厝丝谡Z(yǔ),都是從全球華人語(yǔ)言的大數(shù)據(jù)中抽樣獲得的,抽樣比例本來(lái)很低。因此,核心庫(kù)中,教材、學(xué)習(xí)者口語(yǔ)、當(dāng)?shù)厝丝谡Z(yǔ)保持100%抽樣。
其次,學(xué)習(xí)者作文的華語(yǔ)傳播效果也比較好,抽樣比例本來(lái)也較低,但在核心庫(kù)中,作文按二分之一的比例抽樣。
網(wǎng)站、報(bào)刊和文學(xué)作品的語(yǔ)料共四億字,三者基數(shù)都較大,華語(yǔ)傳播的效果不如其他來(lái)源直接明顯,其核心庫(kù)就按十分之一的比例抽樣。見(jiàn)表2。
利用分詞軟件分詞、標(biāo)注詞性后,進(jìn)行人工校對(duì)。校對(duì)后,分詞準(zhǔn)確率控制在99.95%以上,詞性標(biāo)注準(zhǔn)確率控制在98%以上。
表2 核心庫(kù)比例
分詞和校對(duì)時(shí),特別需要注意華語(yǔ)特色詞語(yǔ)的分詞和詞性標(biāo)注問(wèn)題。例如,東南亞華語(yǔ)特色詞語(yǔ)“拿督、組屋、肉骨茶”等,可能會(huì)在分詞時(shí)被斷開(kāi),需要在分詞軟件的底表中預(yù)先補(bǔ)充;同時(shí),在校對(duì)時(shí)特別注意這些詞語(yǔ)的斷字切分和詞性標(biāo)注問(wèn)題。
統(tǒng)計(jì)漢字基本信息。包括語(yǔ)料庫(kù)及各子庫(kù)總的頻次、字種數(shù),每個(gè)字種在每個(gè)國(guó)家、每種媒體、每個(gè)子語(yǔ)料庫(kù)、總庫(kù)中的頻次、文本數(shù),漢字分類使用的統(tǒng)計(jì)(如規(guī)范字、異體字、繁體字等)等。
統(tǒng)計(jì)詞語(yǔ)基本信息。這些信息包括語(yǔ)料庫(kù)及各字庫(kù)總的頻次、詞種數(shù),每個(gè)詞種在每個(gè)國(guó)家、每種媒體、每個(gè)子語(yǔ)料庫(kù)、總庫(kù)中的頻次、文本數(shù),分詞性統(tǒng)計(jì)數(shù)據(jù)、詞性分布情況等。
針對(duì)音視頻文件及轉(zhuǎn)寫(xiě)后的文字材料,按句將文本文字與音視頻播放時(shí)間對(duì)應(yīng)起來(lái)。這樣有利于以后全文檢索時(shí),直接通過(guò)文字檢索到對(duì)應(yīng)的音視頻片段(對(duì)應(yīng)是播放起止時(shí)間點(diǎn))。
對(duì)于華裔學(xué)習(xí)者作文和口語(yǔ)語(yǔ)料庫(kù),參照北京語(yǔ)言大學(xué)HSK 語(yǔ)料庫(kù)偏誤標(biāo)注體系、標(biāo)注規(guī)則和操作方法,詳細(xì)進(jìn)行偏誤標(biāo)注,方便語(yǔ)言習(xí)得、語(yǔ)言教學(xué)研究者進(jìn)行偏誤分析和習(xí)得規(guī)律總結(jié)。[6]
基于網(wǎng)絡(luò)平臺(tái),全球華語(yǔ)語(yǔ)料庫(kù)可以包含一定的網(wǎng)格檢索功能。
根據(jù)需要,系統(tǒng)可自由定制子語(yǔ)料庫(kù),例如定制分載體或者媒體的語(yǔ)料子庫(kù):華文網(wǎng)絡(luò)語(yǔ)料庫(kù)、華文報(bào)刊語(yǔ)料庫(kù)、華文文學(xué)語(yǔ)料庫(kù)、華文教材語(yǔ)料庫(kù)、華文作文語(yǔ)料庫(kù)、華語(yǔ)口語(yǔ)語(yǔ)料庫(kù)等。也可以結(jié)合國(guó)家和載體或媒體定制子語(yǔ)料庫(kù),例如定制泰國(guó)小學(xué)華文教材子語(yǔ)料庫(kù)、美國(guó)華人家庭生活場(chǎng)景口語(yǔ)子語(yǔ)料庫(kù)等。
支持總語(yǔ)料庫(kù)及各子語(yǔ)料庫(kù)的漢字、詞語(yǔ)、詞性的使用情況檢索,例如頻次、文本數(shù)等。并且,檢索漢字或詞語(yǔ)時(shí),可同時(shí)列出其在總語(yǔ)料庫(kù)、各子語(yǔ)料庫(kù)中的詳細(xì)匯總數(shù)據(jù),方便研究者進(jìn)行對(duì)比研究,例如字詞的分語(yǔ)域?qū)Ρ妊芯俊?/p>
可以檢索任意字串或符號(hào),并且利用規(guī)則進(jìn)行高級(jí)檢索,例如“與、或、非”的檢索、距離檢索、組合檢索等。支持選擇子語(yǔ)料庫(kù)進(jìn)行基本檢索和高級(jí)檢索。也可以利用媒體定位,只檢索某種媒體的全文例句,例如,檢索“新加坡聯(lián)合早報(bào)”的例句。
構(gòu)建的真實(shí)華語(yǔ)口語(yǔ)生活場(chǎng)景語(yǔ)料庫(kù),除了對(duì)語(yǔ)言學(xué)研究提供一般數(shù)據(jù)支持之外,還對(duì)漢語(yǔ)教學(xué)、社會(huì)語(yǔ)言學(xué)、方言學(xué)、語(yǔ)言地理學(xué),甚至文化學(xué)、人類學(xué)、傳播學(xué)等多學(xué)科的研究都有重要的意義[1]。因此,這部分語(yǔ)料庫(kù)不僅僅需要提供基本字詞和全文檢索,還特別需要開(kāi)發(fā)音視頻資源點(diǎn)播系統(tǒng)。該系統(tǒng)主要包括如下功能:
1.樹(shù)狀列表檢索。樹(shù)狀列表以根節(jié)點(diǎn)和葉子節(jié)點(diǎn)形式連接,通過(guò)加減號(hào)展開(kāi)或收縮,收放自如,如可以一步步選擇“洲—國(guó)家—地區(qū)—調(diào)查點(diǎn)—發(fā)音主體—音視頻文件”。
2.文件名檢索。輸入字符串檢索音視頻文件名,例如,輸入“美國(guó)”,列出美國(guó)所有調(diào)查點(diǎn)及對(duì)應(yīng)的發(fā)音主體的音視頻文件;也可直接輸入調(diào)查點(diǎn)名、發(fā)音主體名或者音視頻文件名,支持模糊匹配的智能檢索,例如,輸入“張三”,將列出“張三說(shuō)話、張三李四對(duì)話、張三豐家庭會(huì)話”等音視頻文件。
3.全文檢索。輸入字符串,檢索到文本例句片段以及對(duì)應(yīng)的音頻流或視頻流(后臺(tái)已經(jīng)和文字流對(duì)應(yīng))中包含該字符串的音視頻文件,并且定位到音視頻文件中相應(yīng)的播放時(shí)間位置。例如,輸入“雅加達(dá)”,將檢索到文件“亞洲—印尼—雅加達(dá) 1—張三說(shuō)話.mp4”中 00:02:13 開(kāi)始,00:02:23 結(jié)束的一段視頻,其文字是“……我住在雅加達(dá)的東邊……”。
目前,我們已經(jīng)完成了3 億字的東南亞主要華文媒體(報(bào)紙、網(wǎng)絡(luò))語(yǔ)料庫(kù),完成了100 萬(wàn)字的東南亞小學(xué)華文教材語(yǔ)料庫(kù),建設(shè)了500萬(wàn)字的華裔學(xué)習(xí)者作文語(yǔ)料庫(kù)和50 萬(wàn)字的華裔學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù);并且,已完成上述語(yǔ)料庫(kù)的網(wǎng)絡(luò)檢索系統(tǒng)。
從已有語(yǔ)料的建設(shè)經(jīng)驗(yàn)來(lái)看,全球華語(yǔ)語(yǔ)料庫(kù)建設(shè)面臨的問(wèn)題和困難如下:
1.語(yǔ)料來(lái)源較單一,主要以華文媒體的網(wǎng)站和報(bào)紙語(yǔ)料為主;
2.海外華文網(wǎng)站訪問(wèn)的速度較慢,有時(shí)甚至打不開(kāi),且經(jīng)常有亂碼,繁體字內(nèi)容較多;
3.海外華文網(wǎng)站和報(bào)紙結(jié)構(gòu)混亂,照搬中國(guó)新聞?shì)^多,重復(fù)性新聞多,內(nèi)容質(zhì)量不高;
4.語(yǔ)料庫(kù)來(lái)源的紙版材料,如教材、文學(xué)作品、作文等,數(shù)量龐大,需要花費(fèi)大量的人力物力來(lái)輸入校對(duì);
5.口語(yǔ)的語(yǔ)料來(lái)源太少,海外錄音困難,方言?shī)A雜,轉(zhuǎn)寫(xiě)難度較高,費(fèi)時(shí)費(fèi)力。
接下來(lái),我們將全面開(kāi)展大規(guī)模的海外華人社區(qū)口語(yǔ)語(yǔ)言生活場(chǎng)景的調(diào)查與錄音錄像工作(已經(jīng)完成調(diào)查手冊(cè)和前期試點(diǎn)調(diào)查),同時(shí),將在全球范圍擴(kuò)充建設(shè)華文媒體、教材、文學(xué)、作文等各子語(yǔ)料庫(kù),特別是將重點(diǎn)加強(qiáng)海外華文文學(xué)作品的收集建庫(kù)工作。