范俊軍, 肖自輝
語(yǔ)種編碼是用代碼標(biāo)識(shí)語(yǔ)言名稱(chēng),給每種語(yǔ)言或方言建立唯一標(biāo)識(shí)碼,相當(dāng)于語(yǔ)言的身份證號(hào)碼。隨著語(yǔ)言處理技術(shù)的發(fā)展以及語(yǔ)言資源建設(shè)的推進(jìn),語(yǔ)種代碼的應(yīng)用越來(lái)越廣。開(kāi)發(fā)漢語(yǔ)方言和民族語(yǔ)的語(yǔ)料庫(kù)、數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)平臺(tái),建立語(yǔ)言數(shù)字檔案館、博物館,存儲(chǔ)和發(fā)布語(yǔ)言調(diào)查資料,檢索各種方言和民族語(yǔ)數(shù)據(jù)資料,都需要語(yǔ)言代碼來(lái)標(biāo)識(shí)和分類(lèi)。鑒于此,本文就我國(guó)語(yǔ)言和方言語(yǔ)種編碼的相關(guān)規(guī)范問(wèn)題進(jìn)行探討。
國(guó)際語(yǔ)種編碼標(biāo)準(zhǔn)是國(guó)際標(biāo)準(zhǔn)化組織發(fā)布的ISO 639語(yǔ)種代碼集,包括ISO 639-1、ISO 639-2、ISO 639-3、ISO 639- 4、ISO 639-5五個(gè)子集。ISO 639-1是二字母編碼集,用二字母代碼標(biāo)識(shí)了世界上主要的語(yǔ)言,如漢語(yǔ)(zh)、英語(yǔ)(en)、日語(yǔ)(ja)等等。二字母代碼是國(guó)際上較通行的官方語(yǔ)言簡(jiǎn)稱(chēng),不少圖書(shū)出版機(jī)構(gòu)、多語(yǔ)網(wǎng)站都用它作為語(yǔ)種標(biāo)識(shí)。但由于二字母代碼數(shù)量太少,難以覆蓋全世界語(yǔ)言,于是國(guó)際標(biāo)準(zhǔn)化組織在第一子集基礎(chǔ)上發(fā)布了ISO 639-2,提供了一些三字母代碼,以便標(biāo)識(shí)更多的語(yǔ)言。后來(lái)又采納了美國(guó)暑期語(yǔ)言學(xué)院(SIL)三字母編碼方案,發(fā)布了ISO 639-3子集,給世界所有語(yǔ)言分配三字母編碼。之后的ISO 639- 4制定語(yǔ)種編碼總則和代碼使用指南,ISO 639-5定義了153個(gè)三字母語(yǔ)系或語(yǔ)群代碼,如亞非語(yǔ)系afa、印歐語(yǔ)系ine,并規(guī)定了代碼層次標(biāo)識(shí)法,用代碼和冒號(hào)從左到右依次標(biāo)識(shí),如cau:cnn里的cau是高加索語(yǔ)系代碼,ccn是北高加索語(yǔ)的語(yǔ)種代碼。
第三部分子集是信息處理使用最廣的語(yǔ)種編碼子集。編碼范圍包括單個(gè)語(yǔ)言、大語(yǔ)言、集合語(yǔ)言、方言、用戶預(yù)留代碼、特殊代碼元素。其中單個(gè)語(yǔ)言是主體,包括:(1)活語(yǔ)言,即現(xiàn)在還有人說(shuō)的語(yǔ)言。(2)已滅絕語(yǔ)言,離現(xiàn)在不太久之前還使用、現(xiàn)在已無(wú)人說(shuō)的語(yǔ)言。(3)古語(yǔ),有文獻(xiàn)歷史確認(rèn)古代某個(gè)時(shí)期曾存在過(guò)但未流傳下來(lái)的語(yǔ)言。(4)歷史語(yǔ)言,某些現(xiàn)代語(yǔ)言在某個(gè)歷史階段的形式,如中古英語(yǔ)、上古漢語(yǔ)等。(5)人造語(yǔ)言,如手語(yǔ)、世界語(yǔ)等。
中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 4800采納和批準(zhǔn)ISO 639的情況是:(1)等同采納ISO 639-1:2005的二字母代碼。(2)等同采納ISO 639-2:1998的三字母代碼,每個(gè)語(yǔ)種有其對(duì)應(yīng)的用于術(shù)語(yǔ)學(xué)(T)和目錄學(xué)(B)的代碼,其中除23個(gè)語(yǔ)種的T代碼和B代碼不同外,其他語(yǔ)種的T代碼和B代碼均相同。(3)等同采納ISO 639-3:2007的三字母代碼。GB/T4880增加了每種語(yǔ)言的漢語(yǔ)名稱(chēng)和“按語(yǔ)種的漢語(yǔ)名稱(chēng)音序排序代碼表”。
我們發(fā)現(xiàn),ISO 639-3所設(shè)計(jì)的中國(guó)語(yǔ)言和方言代碼部分存在不足。一是我國(guó)個(gè)別少數(shù)民族語(yǔ)言和漢語(yǔ)方言沒(méi)有代碼。例如:作為單個(gè)語(yǔ)言的東柯?tīng)柨俗握Z(yǔ)、土爾克語(yǔ)、巴那語(yǔ)、蔡家語(yǔ)沒(méi)有代碼;基諾語(yǔ)、彝語(yǔ)、白語(yǔ)、土家語(yǔ)、苗語(yǔ)的方言有代碼,有些方言沒(méi)有代碼。漢語(yǔ)大方言五嶺土話沒(méi)有代碼。二是對(duì)我國(guó)境內(nèi)大語(yǔ)言、語(yǔ)言和方言劃分不夠明確。例如,漢語(yǔ)、苗語(yǔ)和壯語(yǔ)作為大語(yǔ)言,其他不是大語(yǔ)言的單個(gè)語(yǔ)言分出了幾個(gè)代碼,白語(yǔ)有中部白語(yǔ)bca、拉馬白語(yǔ)lay、碧江白語(yǔ)bfc、南部白語(yǔ)bfs等4個(gè)代碼。從單個(gè)語(yǔ)言來(lái)看,有的少數(shù)民族語(yǔ)言的次方言甚至土話有代碼,如苗語(yǔ)湘西方言東部土語(yǔ)muq;而有些語(yǔ)言的主要方言卻沒(méi)有代碼,如有閩北話、閩東話、閩南話、閩中話、莆仙話等5個(gè)代碼,但沒(méi)有閩方言代碼,而其他大方言湘、贛、粵、客、吳等分別只有1個(gè)代碼。這反映出ISO對(duì)我國(guó)語(yǔ)言和方言分類(lèi)的混亂,原因之一是ISO 639-3完全采用美國(guó)暑期語(yǔ)言學(xué)院的語(yǔ)言系屬分類(lèi),忽略了我國(guó)漢語(yǔ)方言和少數(shù)民族語(yǔ)言分區(qū)分類(lèi)的重要成果;原因之二是有關(guān)大語(yǔ)言、單個(gè)語(yǔ)言和方言的區(qū)分標(biāo)準(zhǔn)存在模糊性。另外,我國(guó)術(shù)語(yǔ)標(biāo)準(zhǔn)化委員會(huì)提出的GB/T4800方案,只是采納批準(zhǔn)ISO 639標(biāo)準(zhǔn),并沒(méi)有結(jié)合我國(guó)的語(yǔ)言國(guó)情和語(yǔ)言科學(xué)研究的成果制定一個(gè)有關(guān)語(yǔ)種代碼的國(guó)家標(biāo)準(zhǔn)。
制定我國(guó)語(yǔ)言和方言語(yǔ)種代碼集,首先要有一個(gè)語(yǔ)言和方言分類(lèi)清單,但迄今我們?nèi)匀狈@樣一個(gè)公認(rèn)清單。我國(guó)境內(nèi)究竟有多少種語(yǔ)言和方言,國(guó)內(nèi)和國(guó)外的分類(lèi)差異較大。國(guó)內(nèi)出版的《中國(guó)的語(yǔ)言》收錄了129種語(yǔ)言,《中國(guó)語(yǔ)言地圖集》(第二版)列有130種少數(shù)民族語(yǔ)言、17種漢語(yǔ)大方言、97個(gè)方言片、101個(gè)方言小片,《語(yǔ)言調(diào)查、語(yǔ)料記錄與立檔規(guī)范》列有少數(shù)民族語(yǔ)言、方言和次方言以及漢語(yǔ)方言、方言片、土語(yǔ)共234種。聯(lián)合國(guó)教科文組織《世界瀕危語(yǔ)言地圖》
僅中國(guó)的瀕危語(yǔ)言就有147種。美國(guó)《民族志:世界的語(yǔ)言》 (英文版)列出中國(guó)有321種少數(shù)民族語(yǔ)言、16種漢語(yǔ)方言和3種手勢(shì)語(yǔ),《中國(guó)140種語(yǔ)言全書(shū)》 (英文版)概述了中國(guó)的漢語(yǔ)和139種少數(shù)民族語(yǔ)言。語(yǔ)種數(shù)量不一致是一個(gè)亟待解決的問(wèn)題。另一個(gè)問(wèn)題是語(yǔ)言和方言劃分標(biāo)準(zhǔn)問(wèn)題。國(guó)外的劃分很寬松,有的完全以互通度來(lái)劃分,主觀性較大。例如,國(guó)外有位語(yǔ)言學(xué)者來(lái)中國(guó)做語(yǔ)言調(diào)研,錄下一種民族語(yǔ)言的方言話語(yǔ),拿到其他地方居民點(diǎn)讓說(shuō)其他方言的人聽(tīng)辨,聽(tīng)懂了就劃入同一種語(yǔ)言,聽(tīng)不懂就當(dāng)作一種獨(dú)立的語(yǔ)言,因而國(guó)外對(duì)中國(guó)語(yǔ)言的分類(lèi)僅彝語(yǔ)和苗語(yǔ)就分出了五六十種語(yǔ)言。但是,國(guó)內(nèi)的語(yǔ)言和方言劃分又似乎走了另一個(gè)極端,幾乎不考慮口語(yǔ)互通度的科學(xué)測(cè)定驗(yàn)證,也不夠重視語(yǔ)言的共性特征計(jì)量分析,有的僅憑殘缺的詞匯記錄資料就做出分類(lèi),或有意突出語(yǔ)言形式上的某些現(xiàn)象差異而分出一些語(yǔ)言?;ネǘ葴y(cè)定是區(qū)分語(yǔ)言和方言的重要原則和有效方法。能自然互通的幾種口語(yǔ)肯定是同一種語(yǔ)言,但不能互通的幾種口語(yǔ)不一定就是不同的語(yǔ)言。這條原則是科學(xué)和有效的。我們?cè)谡{(diào)查記錄云南盈江仙島話時(shí),曾邀請(qǐng)隴川戶撒鄉(xiāng)阿昌族大學(xué)生作助手,這位學(xué)生此前對(duì)仙島寨和仙島話毫無(wú)所知,但她和發(fā)音人一見(jiàn)面就完全可以通話,不存在交流障礙。這表明不能將仙島話作為一種語(yǔ)言,也不能把仙島話劃為同阿昌族戶撒話并列的阿昌語(yǔ)方言。同樣,云南玉溪市撒都話也不是一種語(yǔ)言,而是方言。只要不是先入為主,根據(jù)互通度原則設(shè)計(jì)測(cè)定,完全可以驗(yàn)證彝語(yǔ)、傈僳語(yǔ)、苗語(yǔ)、壯語(yǔ)、布依語(yǔ)的一些地方變體是方言,而不是單獨(dú)的語(yǔ)言。雖然語(yǔ)言的系屬分類(lèi)仁者見(jiàn)仁,但確定一個(gè)我國(guó)漢語(yǔ)方言和少數(shù)民族語(yǔ)言的規(guī)范清單是完全必要的,也是完全能夠做到的。
還有一個(gè)問(wèn)題是某些語(yǔ)言和方言名稱(chēng)較為雜亂,自稱(chēng)和他稱(chēng)哪個(gè)作為正名和別名,名稱(chēng)用何種拼音,用哪個(gè)漢字譯音,國(guó)內(nèi)學(xué)者、海外華裔學(xué)者、國(guó)外學(xué)者使用的名稱(chēng)各不相同。例如,布賡語(yǔ)、布甘語(yǔ)、毛南語(yǔ)、毛難語(yǔ)、東部裕固語(yǔ)、西部裕固語(yǔ)、堯乎爾語(yǔ)、恩格爾語(yǔ)、突厥語(yǔ)族的裕固語(yǔ)、蒙古語(yǔ)族的裕固語(yǔ)、客家話、客話、客方言、客家方言、客語(yǔ)、閩方言、閩語(yǔ)、臺(tái)語(yǔ)、壯侗語(yǔ)族、侗臺(tái)語(yǔ)族等等,沒(méi)有明確哪個(gè)作為規(guī)范的學(xué)名。
漢語(yǔ)方言和民族語(yǔ)的語(yǔ)種編碼應(yīng)考慮原則性、規(guī)范性和簡(jiǎn)便性。原則性就是遵循ISO 639- 4確立的編碼通則,如編碼范圍、語(yǔ)言分類(lèi)原則等等。規(guī)范性是在語(yǔ)種數(shù)量、語(yǔ)言分類(lèi)、語(yǔ)言命名和基本信息方面建立規(guī)范,對(duì)有爭(zhēng)議的問(wèn)題,應(yīng)選擇一種作為準(zhǔn)則。簡(jiǎn)便性是指語(yǔ)言分類(lèi)層次要簡(jiǎn)明,減少不必要代碼,便于資源分類(lèi)和檢索,同時(shí)保持代碼穩(wěn)定性,避免因分類(lèi)過(guò)細(xì)而不斷需要調(diào)整所導(dǎo)致的代碼變更。具體規(guī)范工作有以下四個(gè)方面。
從語(yǔ)言學(xué)角度看,語(yǔ)言譜系分類(lèi)可有多個(gè)層次,但作為語(yǔ)種代碼規(guī)范的分類(lèi)層次則不宜過(guò)多,用“語(yǔ)系—語(yǔ)族—語(yǔ)言—方言—次方言”五個(gè)層次較為合適。
取消“語(yǔ)支”層次,不采用“方言區(qū)”“方言片”“方言小片”“土語(yǔ)區(qū)”劃分,主要基于以下事實(shí):一是同語(yǔ)族的共性總體高于語(yǔ)支差異。二是ISO 639-5只采用了“語(yǔ)族(language family)”“語(yǔ)群(language group)”分類(lèi)概念來(lái)定義代碼,相當(dāng)于我國(guó)的語(yǔ)族分類(lèi)。三是我國(guó)少數(shù)民族語(yǔ)言的方言土語(yǔ)人口較少,分布地域范圍小,許多土語(yǔ)只是一些詞匯口音略有差異,沒(méi)必要分出多個(gè)層次。漢語(yǔ)方言也是一樣,同一方言片區(qū)內(nèi)部一致性較高,小片之間的共性遠(yuǎn)大于個(gè)性,許多漢語(yǔ)方言小片的劃分帶有主觀隨意性。例如,北方方言劃出許多小片,而南方粵方言就沒(méi)有劃分方言小片。無(wú)論從語(yǔ)言經(jīng)驗(yàn)還是語(yǔ)言事實(shí)來(lái)看,官話方言的方言小片內(nèi)部差異,與南方方言片的內(nèi)部差異不可同一而語(yǔ)。
根據(jù)ISO 639- 4確立的編碼原則,確定我國(guó)現(xiàn)存活語(yǔ)言、滅絕語(yǔ)言、古語(yǔ)、歷史語(yǔ)言、人造語(yǔ)等五類(lèi)語(yǔ)言的數(shù)量?;钫Z(yǔ)言還應(yīng)考慮哪些方言或次方言應(yīng)該編碼。漢語(yǔ)、苗語(yǔ)、瑤語(yǔ)、壯語(yǔ)、彝語(yǔ)作為大語(yǔ)言(macrolanguage)處理,它們的方言和次方言應(yīng)該編碼,其他語(yǔ)言只對(duì)方言層次編碼。目前需要對(duì)國(guó)內(nèi)和國(guó)外已有的中國(guó)語(yǔ)言分類(lèi)進(jìn)行驗(yàn)證,認(rèn)定一個(gè)權(quán)威的“語(yǔ)言—方言—次方言”三層次清單。美國(guó)《民族志》苗語(yǔ)、彝語(yǔ)、壯語(yǔ)分類(lèi)尤其需要驗(yàn)證。例如,該分類(lèi)的紅勉語(yǔ)族(即苗瑤語(yǔ)族)有39種語(yǔ)言,哪些是語(yǔ)言、哪些是方言,應(yīng)進(jìn)行驗(yàn)證和調(diào)整。近二三十年來(lái),國(guó)內(nèi)所有漢語(yǔ)方言土話以及少數(shù)民族語(yǔ)言及方言都得到了基本或充分的調(diào)查記錄,《少數(shù)民族語(yǔ)言簡(jiǎn)志叢書(shū)》出版了57種,《新發(fā)現(xiàn)語(yǔ)言叢書(shū)》有49種,《少數(shù)民族語(yǔ)言方言研究叢書(shū)》出版了10多種,國(guó)家語(yǔ)言資源保護(hù)工程調(diào)查記錄了1 700多個(gè)地點(diǎn)的語(yǔ)言和方言資料,國(guó)內(nèi)的研究完全能夠自主建立一個(gè)科學(xué)而權(quán)威的語(yǔ)言和方言語(yǔ)種清單。
我國(guó)所有語(yǔ)言和方言、次方言都應(yīng)有一個(gè)學(xué)名,包括中文標(biāo)準(zhǔn)名、拼音標(biāo)準(zhǔn)名、英文標(biāo)準(zhǔn)名,并遴選若干自稱(chēng)和他稱(chēng)別名。
1.擬定普通話標(biāo)準(zhǔn)名和拼音名
首先是擬定普通話標(biāo)準(zhǔn)名。單個(gè)語(yǔ)言用“××語(yǔ)”命名,如藏語(yǔ)、哈尼語(yǔ)、納西語(yǔ)、畬語(yǔ)??紤]個(gè)別語(yǔ)言名稱(chēng)“××語(yǔ)”會(huì)造成混亂,可以采用“××話”作為標(biāo)準(zhǔn)名,例如“標(biāo)語(yǔ)”容易與通用詞“標(biāo)語(yǔ)”混淆,可用“標(biāo)話”命名。
目前漢語(yǔ)方言和民族語(yǔ)方言的命名缺乏規(guī)范性。有的取省縣市簡(jiǎn)稱(chēng)或通用歷史名(或俗名)命名,有的用東西南北方位詞命名。例如:苗語(yǔ)川黔滇方言,藏語(yǔ)衛(wèi)藏方言,漢語(yǔ)粵方言、客家話,北部侗語(yǔ),等等。方言別名雖然可以有不同說(shuō)法,但學(xué)名應(yīng)規(guī)范。方言命名宜用“地點(diǎn)+方言”作為學(xué)名,前面可冠以語(yǔ)言名稱(chēng)。例如:湘方言,漢語(yǔ)湘方言,畬語(yǔ)羅浮方言。采用“侗語(yǔ)天懷方言”而不用“北部侗語(yǔ)”方位詞命名,可使名稱(chēng)更簡(jiǎn)明。
次方言建議不用“片”字命名,因?yàn)椤捌睂俚乩矸秶米?,不?yīng)當(dāng)作為語(yǔ)言或方言的通名。次方言宜用“××話”作為標(biāo)準(zhǔn)學(xué)名,專(zhuān)名部分最好以縣市名稱(chēng)的首字或特征字命名,也可以采用當(dāng)?shù)丶s定俗成的歷史名,而不建議用東南西北方位詞命名。次方言名稱(chēng)前面還可以加上語(yǔ)言和方言名稱(chēng)。例如,勉語(yǔ)優(yōu)勉方言土瑤話,苗語(yǔ)湘西方言凱里話,湘方言長(zhǎng)益話,粵方言四邑話。次方言采用這種表達(dá)比較清晰。
確定了普通話標(biāo)準(zhǔn)名以后,按普通話字面拼音擬定漢語(yǔ)拼音標(biāo)準(zhǔn)名。拼音標(biāo)準(zhǔn)名的書(shū)寫(xiě)遵照《漢語(yǔ)拼音正詞法規(guī)則》,不標(biāo)聲調(diào),專(zhuān)名和通名分開(kāi)書(shū)寫(xiě),各部分首字母大寫(xiě)。例如:白語(yǔ)Bai Yu、獨(dú)龍語(yǔ)Dulong Yu,粵方言Yue Fangyan,四邑話Siyi Hua。
2.確定英文標(biāo)準(zhǔn)名
我國(guó)境內(nèi)所有語(yǔ)言和方言、次方言應(yīng)有標(biāo)準(zhǔn)英文名稱(chēng),以利于國(guó)際傳播。英文標(biāo)準(zhǔn)名可按以下規(guī)則翻譯。
(1)語(yǔ)言用“專(zhuān)名+language”。專(zhuān)名部分有通用英文的,盡量采用通用英文名稱(chēng)。例如:
白語(yǔ) Bai Language 傈僳語(yǔ) Lisu Language
藏語(yǔ) Tibetan Language 維吾爾語(yǔ) Uighur Language
滿語(yǔ) Manchu Language 哈薩克語(yǔ) Kazak Language
(2)方言用“專(zhuān)名+Dialect”,漢語(yǔ)大方言俗稱(chēng)“×語(yǔ)”的,一律用“專(zhuān)名+Dialect”。例如:
湘方言/湘語(yǔ) Xiang Dialect 贛方言/贛語(yǔ) Gan Dialect
平話方言 Pinghua Dialect 五嶺方言 Wuling Dialect
阿昌語(yǔ)隴川方言 Longchuan Dialect, Achang Language
畬語(yǔ)羅浮方言 Luofu Dialect, She Language
(3)次方言用“專(zhuān)名+Subdialect”。具體次方言名稱(chēng),也可以用“話”譯音,不分寫(xiě)。例如:
川黔滇方言盤(pán)縣次方言 Panxian Subdialect, Chuanqiandian Dialect
粵方言四邑話 Siyihua / Siyi Subdialect, Yue Dialect
湘西方言凱里話 Kailihua, Xiangxi Dialect
(4)有時(shí)需要用到“方言片”概念時(shí),也譯為subdialect。例如:
五嶺方言湘南片 Xiangnan Subdialect, Wuling Dialect
粵語(yǔ)溝漏片 Goulou Subdialect, Yue Dialect
美國(guó)《民族志》的中國(guó)語(yǔ)言系屬分類(lèi)不盡合理,適當(dāng)調(diào)整是必要的。這種調(diào)整主要是語(yǔ)言、方言、次方言的分合。編碼主要針對(duì)語(yǔ)言和方言兩個(gè)層次,單個(gè)語(yǔ)言、大語(yǔ)言及其每種方言都應(yīng)編碼,次方言不編碼。我國(guó)行政區(qū)劃到基層村委會(huì)都有統(tǒng)計(jì)編碼,語(yǔ)言資源信息處理時(shí)結(jié)合行政區(qū)劃編碼,完全能精確分類(lèi)和定位,因而沒(méi)必要對(duì)次方言編碼,這樣可以減少編碼數(shù)量。國(guó)際標(biāo)準(zhǔn)化組織廢止了ISO 639-6四字母編碼,就是考慮到方言以下層次劃分主觀性較大,三字母碼位已經(jīng)夠用。
確定代碼應(yīng)考慮以下方面。一是保留和調(diào)整哪些ISO 639-3代碼。ISO 639-3分類(lèi)和國(guó)內(nèi)分類(lèi)一致的,包括名稱(chēng)不一致而分類(lèi)一致的,應(yīng)保留ISO 639-3編碼。分類(lèi)和國(guó)內(nèi)不一致的則有兩種情況:(1)國(guó)外單列為語(yǔ)言,而國(guó)內(nèi)不作為單個(gè)語(yǔ)言的,應(yīng)廢止代碼。(2)同一語(yǔ)言的方言數(shù)量,國(guó)外多于國(guó)內(nèi)分類(lèi)的,選取最接近國(guó)內(nèi)分類(lèi)的代碼,廢止多余代碼。例如:ISO 639-3將白語(yǔ)分4個(gè)方言,國(guó)內(nèi)分3個(gè)方言。
對(duì)于ISO 639-3有的語(yǔ)言及其方言都有編碼這種情況,語(yǔ)種代碼應(yīng)和標(biāo)準(zhǔn)方言使用同一個(gè)代碼。例如,彝語(yǔ)代碼iii,標(biāo)準(zhǔn)彝語(yǔ)的諾蘇方言同樣用iii代碼,而不是分出2個(gè)代碼。
ISO 639-3的中國(guó)語(yǔ)言和方言分類(lèi)代碼數(shù)量多于國(guó)內(nèi)的分類(lèi),因此調(diào)整分類(lèi)和選用代碼時(shí)應(yīng)盡量使用已經(jīng)用于中國(guó)語(yǔ)言和方言的代碼,即在中國(guó)語(yǔ)種已用的代碼范圍內(nèi),根據(jù)國(guó)內(nèi)的分類(lèi)調(diào)整代碼分配,這樣便于ISO 639-3版本更新。
我國(guó)出版的數(shù)百種漢語(yǔ)方言和少數(shù)民族語(yǔ)言調(diào)查報(bào)告和著作存在一個(gè)缺陷,就是關(guān)于語(yǔ)言分布和使用人口的數(shù)據(jù)比較籠統(tǒng),國(guó)內(nèi)迄今沒(méi)有任何機(jī)構(gòu)能提供我國(guó)語(yǔ)言、方言、次方言詳細(xì)分布地點(diǎn)和人口信息,并定期更新數(shù)據(jù),不少新著甚至還沿用一二十年前的數(shù)據(jù)??梢?jiàn),確定我國(guó)語(yǔ)言和方言語(yǔ)種清單,還應(yīng)確定清單的每種語(yǔ)言、方言、次方言的必要信息,而且這些信息應(yīng)采用元數(shù)據(jù)詞條的結(jié)構(gòu)化數(shù)據(jù)。美國(guó)《民族志》定義了編碼、系屬、本名、別名、人口、地點(diǎn)、活力狀況、方言、類(lèi)型、語(yǔ)言使用、語(yǔ)言發(fā)展、書(shū)面語(yǔ)、資源檢索、備注等14個(gè)元數(shù)據(jù)標(biāo)識(shí)每種語(yǔ)言的基本信息,這個(gè)做法值得借鑒。
語(yǔ)言或方言的分布地和使用人口這兩項(xiàng)基本數(shù)據(jù),應(yīng)根據(jù)語(yǔ)言、方言、次方言建立三級(jí)數(shù)據(jù)規(guī)范。漢語(yǔ)大方言的分布范圍至少應(yīng)列出地州市,次方言應(yīng)列出縣區(qū)范圍的數(shù)據(jù)。少數(shù)民族大語(yǔ)言至少應(yīng)列出地州市范圍,其他語(yǔ)言則根據(jù)人口數(shù)量,分級(jí)次列出縣、鄉(xiāng)、鎮(zhèn)、村分布。10萬(wàn)以上使用人口的語(yǔ)言應(yīng)列出分布的縣區(qū),10萬(wàn)以下人口的語(yǔ)言應(yīng)列出鄉(xiāng)鎮(zhèn),萬(wàn)人以下的語(yǔ)言應(yīng)列出鄉(xiāng)鎮(zhèn)村分布地。應(yīng)將語(yǔ)言和方言分布和使用的條目數(shù)據(jù)信息收集,作為語(yǔ)言調(diào)查記錄和研究的基本學(xué)術(shù)規(guī)范。
我國(guó)漢語(yǔ)方言、少數(shù)民族語(yǔ)言、語(yǔ)言技術(shù)領(lǐng)域已越來(lái)越重視資源集成和傳播,尤其在中國(guó)語(yǔ)言資源保護(hù)工程的推動(dòng)下,語(yǔ)言研究者、語(yǔ)文工作者、教師和研究生的語(yǔ)料數(shù)據(jù)積累意識(shí)普遍提高。因此,應(yīng)充分發(fā)揮語(yǔ)種代碼的作用,提升語(yǔ)言資源的集成和傳播效用。
七十年來(lái)我國(guó)開(kāi)展了幾次大規(guī)模的語(yǔ)言調(diào)查,出版了大量漢語(yǔ)方言和少數(shù)民族語(yǔ)言調(diào)研報(bào)告、研究著作、教材、工具書(shū)以及學(xué)位論文。由于圖書(shū)出版書(shū)號(hào)編碼只有中文等大語(yǔ)種二字母編碼(如中文圖書(shū)用CN),缺乏對(duì)內(nèi)容是漢語(yǔ)方言和民族語(yǔ)文獻(xiàn)標(biāo)識(shí),所以無(wú)法在已有文獻(xiàn)庫(kù)基礎(chǔ)上,對(duì)我國(guó)漢語(yǔ)方言和民族語(yǔ)文獻(xiàn)進(jìn)行數(shù)字集成和分類(lèi),不便于語(yǔ)言知識(shí)和語(yǔ)言資源的傳播檢索。圖書(shū)文獻(xiàn)、檔案文獻(xiàn)、博物館文獻(xiàn)的網(wǎng)絡(luò)信息檢索,應(yīng)在《都柏林核心元數(shù)據(jù)元素集》()基礎(chǔ)上,對(duì)語(yǔ)言元素language進(jìn)行擴(kuò)展定義,定義一個(gè)語(yǔ)言代碼擴(kuò)展元素或元素屬性language code是必要的?!吨袊?guó)圖書(shū)館分類(lèi)法》語(yǔ)言文字分類(lèi)號(hào),對(duì)我國(guó)漢語(yǔ)方言和少數(shù)民族語(yǔ)言的語(yǔ)種分類(lèi),也應(yīng)吸納語(yǔ)種代碼具體標(biāo)識(shí)和列目。
內(nèi)容涉及中國(guó)語(yǔ)言文字(含漢語(yǔ)方言和少數(shù)民族語(yǔ)言文字)的研究著作和學(xué)位論文,應(yīng)增加關(guān)于著作內(nèi)容語(yǔ)言的元數(shù)據(jù)信息頁(yè),至少應(yīng)在論文緒論或概述中標(biāo)識(shí)“語(yǔ)言標(biāo)準(zhǔn)中文名”“語(yǔ)言拼音名”“語(yǔ)言別名”“語(yǔ)言標(biāo)準(zhǔn)英文名”“語(yǔ)言代碼”“地點(diǎn)”“地點(diǎn)代碼”等重要元數(shù)據(jù)信息,這將大大提升圖書(shū)編目和數(shù)字圖書(shū)檔案資源檢索的效率。
語(yǔ)言田野工作應(yīng)體現(xiàn)語(yǔ)種代碼意識(shí),在漢語(yǔ)方言或少數(shù)民族語(yǔ)言田野調(diào)查和資料收集工作中,要樹(shù)立語(yǔ)種資料數(shù)據(jù)分類(lèi)和標(biāo)識(shí)觀念。通常而言,漢語(yǔ)方言和少數(shù)民族語(yǔ)言田野調(diào)查工作,會(huì)搜集、采集或錄制三類(lèi)資料:一是書(shū)面筆記資料,二是實(shí)地錄音資料,即音頻文件;三是實(shí)地錄像資料,即視頻文件;除此之外,還有一些實(shí)地拍攝的照片,即數(shù)字圖形文件。這些資料可能來(lái)自一個(gè)地點(diǎn)的一種或幾種語(yǔ)言和方言,也可能來(lái)自同一語(yǔ)言或方言的不同社區(qū)居民點(diǎn)、不同發(fā)音人和說(shuō)話人。實(shí)際上,不少漢語(yǔ)方言和民族語(yǔ)的調(diào)查都是幾個(gè)地點(diǎn)、幾種方言和多位發(fā)音人。三類(lèi)資料還包含字音、詞匯、句子、話語(yǔ)、文字、數(shù)據(jù)等六種資料。無(wú)論從資料匯集、分類(lèi)、分享來(lái)看,還是從調(diào)查資料的對(duì)比分析和研究利用來(lái)看,對(duì)這些語(yǔ)言調(diào)查資料以語(yǔ)種代碼為基準(zhǔn)進(jìn)行編碼和元數(shù)據(jù)標(biāo)識(shí),都是十分重要的。許多高校的語(yǔ)言學(xué)教師和研究生在學(xué)位論文研究和課題項(xiàng)目研究中采集的資料無(wú)法共享,其中原因之一是沒(méi)有建立基于語(yǔ)種代碼的各類(lèi)語(yǔ)言和方言資料的分類(lèi)標(biāo)識(shí)。因?yàn)闆](méi)有科學(xué)分類(lèi)標(biāo)識(shí)的碎片化電子文件,幾十個(gè)或上百個(gè)地點(diǎn)的幾千個(gè)方言字,幾千條詞語(yǔ),數(shù)百個(gè)句子、對(duì)話、語(yǔ)篇,連同word文檔,excel表格,圖片和音頻視頻文件,即使免費(fèi)公開(kāi),讀者也無(wú)法檢索和使用。
以語(yǔ)種代碼為基礎(chǔ),結(jié)合國(guó)家行政區(qū)劃代碼系統(tǒng),建立語(yǔ)言資源標(biāo)識(shí)代碼規(guī)范,是非常必要的。在目前沒(méi)有國(guó)家語(yǔ)種代碼標(biāo)準(zhǔn)的情況下,可暫以ISO 639-3為基礎(chǔ),根據(jù)各自調(diào)查的漢語(yǔ)方言和民族語(yǔ)情況進(jìn)行合并或調(diào)整,待有了國(guó)家標(biāo)準(zhǔn)以后也可轉(zhuǎn)換更新。國(guó)內(nèi)每個(gè)語(yǔ)言調(diào)查點(diǎn)的各種資料,都應(yīng)基于“語(yǔ)種代碼+統(tǒng)計(jì)區(qū)劃代碼”建立唯一標(biāo)識(shí),在此基礎(chǔ)上制定幾個(gè)語(yǔ)料類(lèi)別標(biāo)識(shí)碼,例如字(Z)、詞(W)、句(S)、語(yǔ)篇(T)。這樣一來(lái),所有地點(diǎn)、所有漢語(yǔ)方言和民族語(yǔ)的資料都可以簡(jiǎn)單快捷地進(jìn)行標(biāo)準(zhǔn)編碼。有了這種編碼,各種語(yǔ)言的調(diào)查記錄資料都可以快捷分類(lèi)標(biāo)識(shí),既方便自己利用,又方便圖書(shū)館、檔案館、資料室保存和收藏,容易實(shí)現(xiàn)資料共享,還能避免不必要的重復(fù)勞動(dòng),大大節(jié)省語(yǔ)言田野調(diào)查工作的人力、物力和財(cái)力。
這里的語(yǔ)言資源平臺(tái)主要指漢語(yǔ)方言(含海外漢語(yǔ)方言)和少數(shù)民族語(yǔ)言(含跨國(guó)界線分布的境外相同或相似語(yǔ)言)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù)。隨著數(shù)字生活的普及,有些省區(qū)在建立本土語(yǔ)言文字實(shí)體博物館的同時(shí),已經(jīng)開(kāi)發(fā)或正在開(kāi)發(fā)語(yǔ)言數(shù)字資源網(wǎng)絡(luò)平臺(tái),中國(guó)語(yǔ)言資源保護(hù)工程的展示平臺(tái)也開(kāi)通試用。
漢語(yǔ)方言和民族語(yǔ)的資源平臺(tái)都應(yīng)具有資源保存和維護(hù)、展示和檢索、特定用途服務(wù)以及資源接收和積累四大功能。在資源平臺(tái)或數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)和功能構(gòu)架中,資源數(shù)據(jù)都是建立在語(yǔ)種代碼分類(lèi)標(biāo)識(shí)基礎(chǔ)之上,語(yǔ)種代碼有著重要作用。建立語(yǔ)種代碼、區(qū)劃點(diǎn)代碼(含城鄉(xiāng)分類(lèi)代碼)、資源種類(lèi)代碼三維一體的數(shù)據(jù)編碼序列,能很好實(shí)現(xiàn)數(shù)據(jù)資源檢索瀏覽,如對(duì)語(yǔ)言名稱(chēng)、語(yǔ)言代碼、語(yǔ)言社區(qū)地點(diǎn)、方言關(guān)鍵字詞、民族文字關(guān)鍵字詞、普通話關(guān)鍵字詞、注音或標(biāo)音關(guān)鍵詞的單項(xiàng)和多重檢索以及同步多媒體瀏覽。
以語(yǔ)種代碼為主鍵的語(yǔ)料資源編碼數(shù)據(jù)構(gòu)架,有助于優(yōu)化數(shù)據(jù)表,擴(kuò)充字段和數(shù)據(jù)挖掘功能,提高資源數(shù)據(jù)庫(kù)運(yùn)行效率。例如,幾百上千調(diào)查點(diǎn)、幾百種語(yǔ)言和方言的字、詞、句樣本資料,可以整合為一個(gè)表單運(yùn)行,各種口述語(yǔ)篇也可以成為結(jié)構(gòu)化數(shù)據(jù),有利于提取字詞句和語(yǔ)篇特征,為語(yǔ)言計(jì)量分析提供廣泛的數(shù)據(jù)挖掘空間。又如,各地漢語(yǔ)方言和民族語(yǔ)的語(yǔ)言特征頻次和分布統(tǒng)計(jì),語(yǔ)言相關(guān)度統(tǒng)計(jì),同源詞統(tǒng)計(jì),語(yǔ)音對(duì)應(yīng)統(tǒng)計(jì),語(yǔ)音和詞匯類(lèi)型學(xué)統(tǒng)計(jì)等等。又如,以語(yǔ)種代碼為主鍵的三維一體編碼序列,也容易將地名數(shù)據(jù)和地圖地名數(shù)據(jù)關(guān)聯(lián),提取任意語(yǔ)言特征數(shù)據(jù),動(dòng)態(tài)繪制任意區(qū)域范圍的語(yǔ)言特征地域分布地圖,而傳統(tǒng)的語(yǔ)言地理靜態(tài)地圖只能人工給定有限語(yǔ)言特征,在數(shù)字地圖的底圖上逐頁(yè)標(biāo)注。再如,有了三維一體編碼數(shù)據(jù),容易與其他以地理地點(diǎn)為關(guān)鍵標(biāo)識(shí)的數(shù)據(jù)庫(kù)關(guān)聯(lián),進(jìn)行語(yǔ)言特征、地點(diǎn)、地理生態(tài)特征、文化特征以及更廣范圍的社會(huì)、經(jīng)濟(jì)、生態(tài)數(shù)據(jù)庫(kù)關(guān)聯(lián),進(jìn)行廣域的、跨學(xué)科的語(yǔ)言廣義相關(guān)性計(jì)量分析,揭示諸如語(yǔ)言、生態(tài)、文化、社群、生產(chǎn)、生活等方面多維度、多層次相關(guān)關(guān)系,同時(shí)便于建立國(guó)家語(yǔ)言社會(huì)生態(tài)數(shù)據(jù)監(jiān)測(cè)系統(tǒng)??梢?jiàn),對(duì)我國(guó)語(yǔ)言資源平臺(tái)建設(shè)來(lái)說(shuō),科學(xué)數(shù)據(jù)編碼體系將有力促進(jìn)語(yǔ)言學(xué)的創(chuàng)新和發(fā)展。
語(yǔ)言代碼作為標(biāo)識(shí),在多語(yǔ)音多文種社交平臺(tái)、通訊平臺(tái)和商業(yè)服務(wù)平臺(tái)信息處理中能發(fā)揮重要作用。我國(guó)有一百多種語(yǔ)言,雖然目前只有少數(shù)幾種語(yǔ)言進(jìn)入信息技術(shù)領(lǐng)域并發(fā)揮社會(huì)交流效能,但地州市區(qū)域有五六十萬(wàn)和上百萬(wàn)使用人口的民族語(yǔ)和方言,是具備信息處理和數(shù)字生活潛能的。目前除少數(shù)幾種漢語(yǔ)方言和民族文字能電腦文字錄入、文本翻譯、文語(yǔ)轉(zhuǎn)換、語(yǔ)文轉(zhuǎn)換等基本信息處理外,大多數(shù)有相當(dāng)人口規(guī)模的民族語(yǔ)還缺乏基本信息處理,因而面向這些語(yǔ)言文字信息處理有較多開(kāi)發(fā)空間,譬如基于語(yǔ)音智能的信息搜索和各種在線服務(wù)。建立多語(yǔ)種多文種機(jī)器學(xué)習(xí)音庫(kù)和文本庫(kù),支持各種算法模型的音庫(kù)和文本樹(shù)庫(kù),都要用語(yǔ)言代碼標(biāo)識(shí)各語(yǔ)種文種。移動(dòng)通訊用戶終端日常生活語(yǔ)音智能信息推送,有賴(lài)于建立數(shù)字生活交際域知識(shí)語(yǔ)義場(chǎng),大數(shù)據(jù)各種語(yǔ)言或方言信息識(shí)別,也有賴(lài)于語(yǔ)種代碼標(biāo)示訓(xùn)練數(shù)據(jù)。許多智能終端的語(yǔ)音智能支持都借助于專(zhuān)門(mén)語(yǔ)音智能芯片,而里面整合的多語(yǔ)種語(yǔ)音模塊也要借助語(yǔ)言代碼識(shí)別。至于在語(yǔ)言智能基礎(chǔ)訓(xùn)練資源采集中,語(yǔ)言代碼作為資源標(biāo)識(shí)則更是不可或缺。
綜上所述,我國(guó)語(yǔ)言和方言語(yǔ)種編碼規(guī)范看起來(lái)是一件小事,但它涉及語(yǔ)言分類(lèi),語(yǔ)言資源集成和傳播使用,語(yǔ)言研究和語(yǔ)言文字現(xiàn)代化等諸多方面,一件小事能促使我們打開(kāi)國(guó)際視野,增進(jìn)在語(yǔ)言學(xué)領(lǐng)域參與制定和修改國(guó)際標(biāo)準(zhǔn)的意識(shí),尤其是在關(guān)于我國(guó)自己語(yǔ)言文字的國(guó)際話語(yǔ)中能否走向世界和體現(xiàn)話語(yǔ)權(quán)。如此看來(lái),它就不是一件小事,我們應(yīng)當(dāng)努力。
:范俊軍,負(fù)責(zé)選題和三、四部份撰寫(xiě)及統(tǒng)稿修改;肖自輝,負(fù)責(zé)ISO 639-3中國(guó)語(yǔ)言的數(shù)據(jù)統(tǒng)計(jì)和本文一、二部分撰寫(xiě)。