劉 華
(暨南大學 海外華語研究中心,廣州 510610)
目前,國內漢語語料庫建設比較成熟,比較著名的如北京大學CCL 語料庫(含現(xiàn)代漢語語料庫和古漢語語料庫)、國家語委平衡語料庫、國家語委監(jiān)測語料庫(包含平面媒體、網(wǎng)絡媒體、有聲媒體、教育教材、海外華語多種語料庫)、北京語言大學BBC 語料庫等。雙語平行語料庫、口語語料庫、學習者中介語語料庫是今后語料庫建設和研究的重點。
其他地區(qū)或國家的漢語語料庫主要包括:臺灣“中研院”鄒嘉彥主持建設的“海峽兩岸暨香港、澳門語料庫”、新加坡國立大學王惠主持建設的“新加坡華語語料庫”、旅英學者肖忠華博士創(chuàng)建的“英國蘭卡斯特漢語語料庫——現(xiàn)代漢語平衡語料庫、中文網(wǎng)絡語料庫和商務漢語語料庫”。
在華語語料庫建設方面,比較有特色的有暨南大學海外華語研究中心劉華主持開發(fā)的“東南亞主要華文媒體(網(wǎng)站、報刊)語料庫、東南亞華文教材語料庫”,以及暨南大學王茂林主持建設的“東南亞華裔學習者作文語料庫、華裔學習者口語語料庫”等。
在全球華語大發(fā)展、大融合的背景下,面對漢語熱的機遇與挑戰(zhàn),建設全球華語語料庫是語料庫工作者責無旁貸的歷史使命。
目前,英語已經(jīng)建設有“國際英語語料庫(ICE)”,這是各國或地區(qū)英語語料的集合,相當于英語國際變體的匯總,是全球英語變體的語料庫。全球華語語料庫也應如此,廣泛收集全球各國或地區(qū)的漢語變體的語料。
但是,國內外尚無大型通用的全球華語語料庫,而主要是中國國內的漢語語料庫。有一些華語語料庫也是區(qū)域性的,如鄒佳彥的“海峽兩岸暨香港、澳門語料庫”、王惠的新加坡華語語料庫,缺乏從全球視角構建全世界的華語語料庫。全球華語語料庫建成后,將會和國內漢語語料庫一起,互相補充,構成全球漢語的語料庫一體化系統(tǒng)。
因為世界各地說漢語的主要還是華僑華人,所以漢語熱實質上是華語熱。同時漢語研究必須走向全球,漢語的語音、詞匯和語法研究,若想從傳統(tǒng)的本體研究中取得新突破,就需要從全球華語的角度來重新進行構思。
海外華僑華人的華語研究是漢語研究全球化視野下的重要組成部分,漢語和華語的對比研究、全球不同華人社區(qū)華語差異研究、全球華語方言研究、跨境語言研究、全球華語語法研究都需要大規(guī)模的全球華語料庫來輔助。
漢語國際教育和漢語國際推廣,其中最主要的部分是華文教育和華語傳播。華文教育和華語傳播需要基于全球華語語料庫的研究結果,例如,華文教材的本土化、國別化詞表建設、華文教育用基本字詞表建設、華文教育多樣性研究等。特別是全球華語語料庫中的華文教材和華裔學習者作文、口語等子語料庫,將為漢語國際教育提供最直接的數(shù)據(jù)基礎和理論支持。
語言、方言是文化最重要的載體和組成部分,是文化多樣性的體現(xiàn),是珍貴的非物質文化遺產(chǎn),是不可再生的資源。搶救性收集和保存華語資源,是保護中華民族語言文化遺產(chǎn)迫在眉睫的重大歷史使命[1]。
全球華語語料庫不僅僅包含文本的語料,而且包含口語有聲數(shù)據(jù),以及語言生活場景的音視頻資源。這種多媒體形式的語言資源庫,不僅僅為語言學研究提供數(shù)據(jù)支持,也為文化學、人類學、傳播學等提供數(shù)據(jù)參考。
全球華語語料庫在建設上有自己的特點、構建方法和流程。需要從建設的基本原則、語料來源與獲取方法、語料構成及比例、信息字段及存儲格式等方面考量。
語料庫建設的科學性首先體現(xiàn)在建庫的基本原則上。圍繞選擇語料來源的載體、題材、地域和語體以及語料的媒體形式,全球華語語料庫建設應遵循以下基本原則。
1.華語語料來源樣式較少,載體、題材、體裁相對單一,需要因材取材
與國內漢語語料來源多樣不同,華語語料的主要載體形式是華文網(wǎng)站、報刊、文學作品、教材、學習者作文、口語等,其中,華文網(wǎng)站、報刊、文學作品是主要來源。因此,全球華語語料庫無法像國內語料庫那樣設定詳細的各種體裁、載體和題材的建庫原則,只能因材取材,集中于網(wǎng)站、報刊、文學作品等來源語料建庫。
2.華語語料來源地域分布不均,以東南亞華語為主,需要因地取材
全球華僑華人主要集中在東南亞各國。那里華人社區(qū)歷史悠久,成熟度較高,華語特色非常明顯,極具代表性。東南亞華語媒體,如華文網(wǎng)站、報刊、教材等比較發(fā)達成熟;東南亞華裔學生是華文教育乃至漢語國際教育的主體,其中介語作文和口語,較有價值;華人社區(qū)大都保持說華語或漢語方言的傳統(tǒng),漢語言文化認同度較高,其口語語料價值也較高。[2]
其他大洲的國家的華人多為新移民,代表性不強。部分華文網(wǎng)站、報刊、文學作品可以作為語料來源。其中,歐美華人文學作品價值較高,是其代表;其華文教材、作文、口語來源的語料較少,價值較低。
因此,全球華語語料庫應該以東南亞華語語料為主要語料來源,兼收其他大洲語料。東南亞華語語料來源廣泛多樣,書面語的網(wǎng)站、報刊、教材、作文和口語的真實生活場景調查語料是其主體;其他大洲則以書面語的網(wǎng)站、報刊、文學作品為主。
3.書面語、口語并重,和漢語語料庫相比,更重口語
華語,特別是東南亞華語,其特色在于口語。現(xiàn)當代漢語經(jīng)過演化,特別是建國以來的規(guī)范化之后,與古漢語、近代漢語的差異更加明顯,多樣性也有所減弱。而海外華語則保持了相對獨立的發(fā)展過程,華語及其方言流傳于海外,口語保持了近代漢語、甚至古漢語的很多因素。因此,海外華語的口語價值較大,而且從搶救性記錄和保存華語語言資源、保護民族語言文化遺產(chǎn)的歷史使命角度來看,口語理應更受重視。
4.多用途、多媒體、富信息的語料庫建設理念
華語語料廣泛分布在海外,地域跨度大,重復性建設和驗證較難。語料庫最好能設計為多用途,除了對普通的語言學研究提供數(shù)據(jù)支持之外,還應對語言研究的細分領域,如漢語教學、社會語言學、方言學、語言地理學,甚至跨學科的文化學、人類學、傳播學等多學科的研究提供數(shù)據(jù)支持。
因此,一次性建設后,全球華語語料庫應該盡可能地附帶語言使用的各種語境信息,比如華語使用所處的社區(qū)環(huán)境,口語說話人的肢體語言、人際交流情景等。這種多用途、富信息的特點,決定了其語料的多來源、多媒體形式。除了傳統(tǒng)的書面語和口語形式外,還應包括真實華語口語生活場景的音視頻。
傳統(tǒng)語料庫只包括書面語文本和口語有聲語料兩種。全球華語語料庫則應通過文本、音頻、圖片、視頻等多種媒體形式,實態(tài)反映華語的語言生活,包括華文媒體語料庫、華語有聲數(shù)據(jù)庫、華語風貌資源庫。與單一的傳統(tǒng)語料庫形式不同,該語料庫通過多種媒體形式全方位多角度展示華語風貌,聲色并茂、圖文并茂,是“多媒體語言資源”理念的創(chuàng)新和實踐。[1]
總體上,東南亞華語語料約占全球華語語料庫的四分之三;亞洲其他國家,歐洲、美洲、非洲、大洋洲等則以其主要國家的主要媒體為主,合計約占四分之一。
1.華文網(wǎng)站、報刊
參考海外華語研究中心已經(jīng)完成的《海外主要華文媒體調查報告》,選取各國主要華語代表地區(qū)的,當?shù)鼗⒈就粱厣黠@,主流性的華文網(wǎng)站和報刊,收集近十年的語料。
網(wǎng)站和已經(jīng)在線的報刊,通過批量下載的方式完成,沒有上網(wǎng)的報刊與其編輯部聯(lián)系協(xié)商,直接拿到電子版,或者人工輸入完成。預計網(wǎng)站語料約一億字,報刊語料約兩億字。
2.海外華文文學作品
參考《世界華語文學大系》,選取各國代表性華語作家的代表性作品。其中體裁方面,以小說為主。字數(shù)預計約一億字。
3.真實華語口語場景的音視頻資源
以東南亞各國為主,每個國家根據(jù)省級行政單位設置調查點,原則上“一省一點”。對于每個調查點,采集其個人、家庭、重大節(jié)假日和大型聚會的口語生活場景的音視頻素材[3]。
個人口語生活場景調查。每個調查點均需要調查6 名華語發(fā)音人,主要通過定題朗讀、自選話題講述、多人任意話題對話等形式,錄音錄像,時長約一小時。
家庭語言生活場景調查。選取兩個具有代表性的華人家庭(日常會話以華語為主),選擇一天中具有代表性的生活場景進行錄像,如吃飯、聊天、家人聚會、購物等日常生活,時長約兩小時。
重大節(jié)假日、大型聚會語言生活場景調查。選擇華人社區(qū)典型的具有地方特色的重大節(jié)假日、大型聚會的語言生活場景,如春節(jié)、鬼節(jié)、教堂活動、婚喪等,進行錄像,時長約兩小時。
預計總共200 個調查點,其中東南亞160 個點,其他州40個點。轉寫后的文本預計每個調查點 10000 字(平均每分鐘音視頻大約30 個字[4],每個調查點共5 個小時錄音),總計約1000 小時音視頻,200 萬字。
4.華文教材
華文教材以東南亞各國為主,基于“本土化、主流性、成套、公開出版”原則,選取那些當?shù)厝酥骶幍?、本土化特色強、正式出版并且較大規(guī)模使用、各年級齊全成套的中小學華文教材,以及使用面廣、影響較大的補習教材和自編教材。共計約二十套,兩百本,兩百萬字。[1]
5.華裔學習者作文與口語
華裔學習者作文主要收集學習漢語的華裔留學生的平時作文和考試作文,共約一千萬字。
華裔學習者口語主要采集學習漢語的華裔留學生的日常對話、課堂口語和錄音室錄音,約一百萬字。
華裔學生以暨南大學華文學院的學生為主,兼及其他高校的華裔學生以及海外華文學習者。
海外華語傳播的主要途徑是華文報刊,其次是華文網(wǎng)站和文學作品,再次是與華文教學相關的教材和作文。根據(jù)海外華語研究中心完成的《海外主要華文媒體調查》,東南亞的華文網(wǎng)站,約占華文網(wǎng)站總量的20%;東南亞的華文報刊約占華文報刊總量的25%。根據(jù)《世界華語文學大系》統(tǒng)計結果,東南亞華文文學作品約占世界華語文學作品總量的25%。考慮到東南亞華文媒體華語特色突出,我們將其加權3 倍,網(wǎng)站、報刊和文學作品中東南亞占比分別為60%和75%、75%。全球華裔的華文學習者中,約九成來自東南亞,因此東南亞學習者的作文和口語的占比也約為90%;另據(jù)暨南大學華文學院蔡麗博士完成的《海外主要華文教材調查》,華文教材中東南亞的數(shù)量約占90%。東南亞華語口語特色非常明顯,極具代表性,因此,口語生活場景調查語料中東南亞占比也約為90%。見表1。
表1 全部庫比例
語料庫的字段設計和存儲格式?jīng)Q定了建設好的語料庫的用途和擴展性[5]。
可擴展標記語言(XML)是一種提供數(shù)據(jù)描述格式的標記語言。該語言跨越多個平臺,能更準確地進行內容聲明和獲得更有意義的搜索結果。此外,XML 讓數(shù)據(jù)與表示及處理分離開來,擴展性強。
系統(tǒng)中 XML 的DTD(Document Type Definition,文件格式定義)定義如下:
DTD 說明如下:
1.存儲采用utf-8 編碼格式。
2.根節(jié)點 Article 包含兩個元素,Header 和Text。
3.
全球華語語料庫在建設的基礎工作完成后,還需要進行深加工。比如:選取核心庫,分詞標注詞性、人工校對,基本字詞信息統(tǒng)計等。
從海外華語傳播的效果來看,和華文教學相關的教材與學習者口語,影響最大,最為直接,當?shù)厝丝谡Z也是華語面貌的最直接體現(xiàn);而且,學習者口語和當?shù)厝丝谡Z,都是從全球華人語言的大數(shù)據(jù)中抽樣獲得的,抽樣比例本來很低。因此,核心庫中,教材、學習者口語、當?shù)厝丝谡Z保持100%抽樣。
其次,學習者作文的華語傳播效果也比較好,抽樣比例本來也較低,但在核心庫中,作文按二分之一的比例抽樣。
網(wǎng)站、報刊和文學作品的語料共四億字,三者基數(shù)都較大,華語傳播的效果不如其他來源直接明顯,其核心庫就按十分之一的比例抽樣。見表2。
利用分詞軟件分詞、標注詞性后,進行人工校對。校對后,分詞準確率控制在99.95%以上,詞性標注準確率控制在98%以上。
表2 核心庫比例
分詞和校對時,特別需要注意華語特色詞語的分詞和詞性標注問題。例如,東南亞華語特色詞語“拿督、組屋、肉骨茶”等,可能會在分詞時被斷開,需要在分詞軟件的底表中預先補充;同時,在校對時特別注意這些詞語的斷字切分和詞性標注問題。
統(tǒng)計漢字基本信息。包括語料庫及各子庫總的頻次、字種數(shù),每個字種在每個國家、每種媒體、每個子語料庫、總庫中的頻次、文本數(shù),漢字分類使用的統(tǒng)計(如規(guī)范字、異體字、繁體字等)等。
統(tǒng)計詞語基本信息。這些信息包括語料庫及各字庫總的頻次、詞種數(shù),每個詞種在每個國家、每種媒體、每個子語料庫、總庫中的頻次、文本數(shù),分詞性統(tǒng)計數(shù)據(jù)、詞性分布情況等。
針對音視頻文件及轉寫后的文字材料,按句將文本文字與音視頻播放時間對應起來。這樣有利于以后全文檢索時,直接通過文字檢索到對應的音視頻片段(對應是播放起止時間點)。
對于華裔學習者作文和口語語料庫,參照北京語言大學HSK 語料庫偏誤標注體系、標注規(guī)則和操作方法,詳細進行偏誤標注,方便語言習得、語言教學研究者進行偏誤分析和習得規(guī)律總結。[6]
基于網(wǎng)絡平臺,全球華語語料庫可以包含一定的網(wǎng)格檢索功能。
根據(jù)需要,系統(tǒng)可自由定制子語料庫,例如定制分載體或者媒體的語料子庫:華文網(wǎng)絡語料庫、華文報刊語料庫、華文文學語料庫、華文教材語料庫、華文作文語料庫、華語口語語料庫等。也可以結合國家和載體或媒體定制子語料庫,例如定制泰國小學華文教材子語料庫、美國華人家庭生活場景口語子語料庫等。
支持總語料庫及各子語料庫的漢字、詞語、詞性的使用情況檢索,例如頻次、文本數(shù)等。并且,檢索漢字或詞語時,可同時列出其在總語料庫、各子語料庫中的詳細匯總數(shù)據(jù),方便研究者進行對比研究,例如字詞的分語域對比研究。
可以檢索任意字串或符號,并且利用規(guī)則進行高級檢索,例如“與、或、非”的檢索、距離檢索、組合檢索等。支持選擇子語料庫進行基本檢索和高級檢索。也可以利用媒體定位,只檢索某種媒體的全文例句,例如,檢索“新加坡聯(lián)合早報”的例句。
構建的真實華語口語生活場景語料庫,除了對語言學研究提供一般數(shù)據(jù)支持之外,還對漢語教學、社會語言學、方言學、語言地理學,甚至文化學、人類學、傳播學等多學科的研究都有重要的意義[1]。因此,這部分語料庫不僅僅需要提供基本字詞和全文檢索,還特別需要開發(fā)音視頻資源點播系統(tǒng)。該系統(tǒng)主要包括如下功能:
1.樹狀列表檢索。樹狀列表以根節(jié)點和葉子節(jié)點形式連接,通過加減號展開或收縮,收放自如,如可以一步步選擇“洲—國家—地區(qū)—調查點—發(fā)音主體—音視頻文件”。
2.文件名檢索。輸入字符串檢索音視頻文件名,例如,輸入“美國”,列出美國所有調查點及對應的發(fā)音主體的音視頻文件;也可直接輸入調查點名、發(fā)音主體名或者音視頻文件名,支持模糊匹配的智能檢索,例如,輸入“張三”,將列出“張三說話、張三李四對話、張三豐家庭會話”等音視頻文件。
3.全文檢索。輸入字符串,檢索到文本例句片段以及對應的音頻流或視頻流(后臺已經(jīng)和文字流對應)中包含該字符串的音視頻文件,并且定位到音視頻文件中相應的播放時間位置。例如,輸入“雅加達”,將檢索到文件“亞洲—印尼—雅加達 1—張三說話.mp4”中 00:02:13 開始,00:02:23 結束的一段視頻,其文字是“……我住在雅加達的東邊……”。
目前,我們已經(jīng)完成了3 億字的東南亞主要華文媒體(報紙、網(wǎng)絡)語料庫,完成了100 萬字的東南亞小學華文教材語料庫,建設了500萬字的華裔學習者作文語料庫和50 萬字的華裔學習者口語語料庫;并且,已完成上述語料庫的網(wǎng)絡檢索系統(tǒng)。
從已有語料的建設經(jīng)驗來看,全球華語語料庫建設面臨的問題和困難如下:
1.語料來源較單一,主要以華文媒體的網(wǎng)站和報紙語料為主;
2.海外華文網(wǎng)站訪問的速度較慢,有時甚至打不開,且經(jīng)常有亂碼,繁體字內容較多;
3.海外華文網(wǎng)站和報紙結構混亂,照搬中國新聞較多,重復性新聞多,內容質量不高;
4.語料庫來源的紙版材料,如教材、文學作品、作文等,數(shù)量龐大,需要花費大量的人力物力來輸入校對;
5.口語的語料來源太少,海外錄音困難,方言夾雜,轉寫難度較高,費時費力。
接下來,我們將全面開展大規(guī)模的海外華人社區(qū)口語語言生活場景的調查與錄音錄像工作(已經(jīng)完成調查手冊和前期試點調查),同時,將在全球范圍擴充建設華文媒體、教材、文學、作文等各子語料庫,特別是將重點加強海外華文文學作品的收集建庫工作。