[關(guān)鍵詞]華僑華人華語基本信息資源數(shù)據(jù)庫;語言數(shù)據(jù);數(shù)據(jù)類型;字段信息
[摘要]華僑華人華語基本信息資源數(shù)據(jù)庫的建設(shè)勢在必行。從構(gòu)成來看,該數(shù)據(jù)庫包含“華僑華人人口數(shù)據(jù)庫、華語相關(guān)語言政策規(guī)劃及華語使用數(shù)據(jù)庫、華語機(jī)構(gòu)數(shù)據(jù)庫”三個(gè)子庫。文章對各子庫所包含的數(shù)據(jù)類型、采集途徑、質(zhì)量管控、更新管理等內(nèi)容進(jìn)行了較為詳細(xì)的分析。此數(shù)據(jù)庫的建成使用,能在一定程度上解決目前海外華語及華文教學(xué)研究“家底不清”的問題。對于未來開展華語使用、華文教學(xué)、華僑華人等領(lǐng)域的跨學(xué)科研究,有較強(qiáng)的參考價(jià)值。
[中圖分類號(hào)]H08[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1674-8174(2021)04-0062-08
1.引言
語言是人類社會(huì)的重要資源。廣義的“語言資源”是指語言本體及其社會(huì)、文化等價(jià)值。狹義的“語言資源”是指語言信息處理用的各種語料庫和語言數(shù)據(jù)庫,以及各種語言詞典等(陳章太,2008)。語言資源本身也是語言數(shù)據(jù)②,應(yīng)屬“生產(chǎn)要素”范疇。集聚、管理語言數(shù)據(jù)并使其發(fā)揮最大作用,將成為未來社會(huì)發(fā)展生產(chǎn)的重要任務(wù)(李宇明,2020)。語言資源主要由語言本體和語言社會(huì)應(yīng)用兩部分構(gòu)成,其價(jià)值構(gòu)成可分為隱性價(jià)值和顯性價(jià)值。隱性價(jià)值主要是指語言本體的價(jià)值,包括語言記錄的文獻(xiàn)、資料,所承載的文化、信息等。顯性價(jià)值是語言本體價(jià)值的具體體現(xiàn),包括語言的使用人口、使用領(lǐng)域、社會(huì)交際作用、應(yīng)用效益等(陳章太,2008)。
隨著中國綜合實(shí)力和國際地位的提升,海外華語資源及所蘊(yùn)含的價(jià)值引起了學(xué)界的注意。郭熙等(2020)指出,海外華語資源指世界各地的華語,以及使用這些華語產(chǎn)生的言語作品、文獻(xiàn)、語言景觀等。其包括有形資源和無形資源,前者如華文文獻(xiàn)、語言景觀、傳統(tǒng)音像制品、信息化產(chǎn)品,后者如各地華語傳承人士心中的“故事”、諺謠及各種傳唱語言藝術(shù)等。上述定義關(guān)注的是華語本體資源及其所包含的隱性價(jià)值。而華語在海外的應(yīng)用資源及顯性價(jià)值,是本文的研究對象。具體而言,我們將通過建設(shè)華僑華人華語基本信息資源數(shù)據(jù)庫(下文簡稱“基本信息數(shù)據(jù)庫”),考察海外華語的使用人口、使用領(lǐng)域、傳播傳承路徑、華族認(rèn)同等內(nèi)容。
②“數(shù)據(jù)”是指對客觀事物、事件的記錄、描述,是可由人工或自動(dòng)化手段加以處理的數(shù)字、文字、圖形、圖像、聲音等符號(hào)的集合(鄭彥寧、化柏林,2011)。
2.建設(shè)意義
基本信息數(shù)據(jù)庫建設(shè)勢在必行?!度A僑華人研究報(bào)告(2020)》指出,華僑華人遍布全球各地,是中國最重要的海外資源。華僑華人的數(shù)量已從20世紀(jì)80年代的約2300萬增長到了2020年的約6000萬(莊國土,2020:24- 26)?;拘畔?shù)據(jù)庫建設(shè)可為且必為,主要原因可以從時(shí)代發(fā)展、國家戰(zhàn)略、華人需求三個(gè)層面進(jìn)行分析。
從時(shí)代發(fā)展來看,基本信息數(shù)據(jù)庫建設(shè)是未來人類社會(huì)語言應(yīng)用場景研究必備的基礎(chǔ)數(shù)據(jù)信息。21世紀(jì)的互聯(lián)網(wǎng)和大數(shù)據(jù)已深刻影響并逐步改變?nèi)祟惖纳?。近年來,在?G+ AI+大數(shù)據(jù)+落地應(yīng)用”的深度融合下,包括語言應(yīng)用的各種應(yīng)用場景將實(shí)現(xiàn)跨越式發(fā)展,全球華人社區(qū)也將藉由互聯(lián)網(wǎng)實(shí)現(xiàn)互融互通。華語應(yīng)用場景將既存在于現(xiàn)實(shí)生活,也存在于虛擬世界。如何更好地在現(xiàn)實(shí)或虛擬場景中使用華語,需要我們采集整理海外華語使用者分布及特征數(shù)據(jù)、華語使用與傳播的數(shù)據(jù),并建設(shè)相關(guān)信息資源庫。
從國家戰(zhàn)略來看,基本信息數(shù)據(jù)庫建設(shè)對于“一帶一路”倡議的實(shí)施,對于國家語言安全,對于漢語國際傳播等,都具有重要意義。華僑華人作為海外統(tǒng)一戰(zhàn)線的中堅(jiān)力量,是一帶一路沿線國家助力“五通”的重要推手。建設(shè)基本信息數(shù)據(jù)庫,便于我們動(dòng)態(tài)掌握海外華僑華人分布及其語言生活特征,更好地通過華僑華人與所在國民眾聯(lián)系溝通。
從華人需求來看,基本信息數(shù)據(jù)庫的建設(shè)對于了解海外華人社會(huì)的語言生態(tài),考察華僑華人對祖籍國語言及文化認(rèn)同等,也具有重要的參考價(jià)值。近年來海外漢語學(xué)習(xí)者低齡化趨勢明顯,且仍呈快速發(fā)展之態(tài)(李宇明,2018),而這其中有相當(dāng)一部分為華僑華人。調(diào)查采集相關(guān)數(shù)據(jù)信息,科學(xué)制定華語傳播及教育規(guī)劃,有助于海外華僑華人更好地傳承傳播族群語言文化。
3.基本信息數(shù)據(jù)庫的構(gòu)成
基本信息數(shù)據(jù)庫由3個(gè)子庫構(gòu)成,即“華僑華人人口數(shù)據(jù)庫(下文簡稱‘子庫1)”“華語相關(guān)語言政策規(guī)劃及華語使用數(shù)據(jù)庫(下文簡稱‘子庫2)”“華語機(jī)構(gòu)數(shù)據(jù)庫(下文簡稱‘子庫3)”。其所包含的具體資源信息如表1所示。
表1中3個(gè)子庫的設(shè)計(jì)理念主要參考了以往成果對華語性質(zhì)及傳承特點(diǎn)等的分析。華僑華人在海外諸國多屬于少數(shù)族群。少數(shù)族群語言文化的傳承受所在國強(qiáng)勢語言文化的影響,常處于弱勢甚至瀕危的境地。近年來,作為傳承語的海外華文教育、華人族群的語言文化認(rèn)同等問題引起了學(xué)界的討論(周明朗,2014;曹賢文,2014;李計(jì)偉、張翠玲,2019;李春風(fēng),2019)。郭熙(2015,2017)在長期關(guān)注海外華語和華文教育的基礎(chǔ)上,把海外華語定義為一種“祖語”,即“祖?zhèn)髦Z”,是社會(huì)主體語言之外作為語言文化傳承的祖輩語言。祖語具有“歷史性、象征性、資源性”的性質(zhì),以及“邊緣化、需要學(xué)習(xí)”的特點(diǎn),祖語傳承教育也是一個(gè)世界性難題。
在子庫具體內(nèi)容的設(shè)計(jì)方面,主要參考了聯(lián)合國教科文組織2003年發(fā)布的《語言活力與語言瀕?!罚↙anguage Vitality and Endangerment)文件,該文件所提出的語言活力評估體系包括9項(xiàng)評價(jià)指標(biāo)①,在少數(shù)族群語言研究領(lǐng)域具有廣泛的影響力。我們將該體系的評估指標(biāo)作為子庫信息采集的重要依據(jù),以保證數(shù)據(jù)庫資源收集整理的系統(tǒng)性和科學(xué)性②。子庫所包含的華語資源信息相輔相成,互相映證,可確保數(shù)據(jù)信息的真實(shí)性和準(zhǔn)確性。
4.基本信息數(shù)據(jù)庫的建設(shè)
基本信息數(shù)據(jù)庫建設(shè)的首要任務(wù)是數(shù)據(jù)的采集整理。本著“立足基礎(chǔ)、突出重點(diǎn)、切實(shí)可行”的原則,我們將數(shù)據(jù)采集分為“基礎(chǔ)數(shù)據(jù)”和“重點(diǎn)數(shù)據(jù)”兩個(gè)部分。各子庫采集的數(shù)據(jù)內(nèi)容及主要字段信息如表2所示。
4.1基礎(chǔ)數(shù)據(jù)的采集管理
近年來海外華僑華人的數(shù)量呈上升趨勢③,分布區(qū)域和籍貫結(jié)構(gòu)也有明顯變化(莊國土,2020:22-26),這些都會(huì)影響海外華語使用及華文教學(xué)。本次基礎(chǔ)數(shù)據(jù)采集的是海外華僑華人的人口數(shù)量(表2),此外還將嘗試對其中使用華語及漢語方言的人數(shù)和比例進(jìn)行估算。
目前海外華僑華人的數(shù)量無法精確統(tǒng)計(jì),只能依據(jù)相關(guān)材料進(jìn)行估算(莊國土,2020)。主要原因在于人口統(tǒng)計(jì)至少需要兩個(gè)條件:標(biāo)準(zhǔn)和機(jī)構(gòu)。目前我們對“華僑”“華人”的概念界定,尤其是“華人”的界定方面,缺乏統(tǒng)一明確的標(biāo)準(zhǔn)④。我國管理華僑華
①該體系包括9項(xiàng)指標(biāo):(1)語言代際傳承;(2)語言使用者的絕對人口;(3)語言使用者占總?cè)丝诘谋壤?(4)語言在現(xiàn)存語域的使用趨勢;(5)語言對新領(lǐng)域和媒體的反應(yīng);(6)語言教育和讀寫材料;(7)官方語言態(tài)度和語言政策;(8)語言族群的語言態(tài)度;(9)語言記錄材料的種類和質(zhì)量。
②具體來看,綜合“子庫1”中的各國華僑華人人口數(shù)據(jù),以及“子庫2”中華語使用情況調(diào)查的數(shù)據(jù),可以對“語言活力評估體系”中的指標(biāo)(2)和指標(biāo)(3),即“語言使用者的絕對人口”和“語言使用者占總?cè)丝诘谋壤边M(jìn)行估算和推斷?!白訋?”中的官方語言政策和民間語言規(guī)劃的數(shù)據(jù),可以作為考察指標(biāo)(7)和指標(biāo)(8)即“官方語言態(tài)度和語言政策”和“語言族群的語言態(tài)度”的參考資料?!白訋?”中的“華語使用”和“子庫3”中的“華語機(jī)構(gòu)”的相關(guān)數(shù)據(jù),可為考察指標(biāo)(4)、指標(biāo)(5)和指標(biāo)(6)即華語在傳統(tǒng)及新型領(lǐng)域和媒體中的使用情況,以及華文教學(xué)所用的材料等提供相關(guān)參考資料。
③《世界移民報(bào)告2020》(中文版)的數(shù)據(jù)顯示,2019年,中國是世界第三大國際移民來源國,居住于中國以外的移民人數(shù)達(dá)到1070萬,僅次于印度(1750萬)和墨西哥(1180萬)。
④在“華僑華人”的概念界定方面,《中華人民共和國歸僑僑眷權(quán)益保護(hù)法》指出,“華僑是指定居在國外的中國公民?!钡畎采剑?016:3)也指出,一些旅居他國的華僑具有中國和所在國雙重國籍,此類情況下華僑的界定還涉及到主體認(rèn)同、客體認(rèn)同等較為復(fù)雜的問題。國僑辦相關(guān)規(guī)定指出,“外籍華人是指已加入外國國籍的原中國公民及其外國籍后裔;中國公民的外國籍后裔”。其中“原中國公民”中“原”的時(shí)間界限以及“后裔”所指代際范圍均較為模糊,影響了華人人口的統(tǒng)計(jì)。為了對“華人”作出明晰的、可操作性強(qiáng)的界定,學(xué)界嘗試采用了綜合性的標(biāo)準(zhǔn),如李安山(2016:3)所提出的“ROOTS”標(biāo)準(zhǔn),但同時(shí)滿足這些標(biāo)準(zhǔn)的華人數(shù)量也只能大致估算,無法精確統(tǒng)計(jì)。
人事務(wù)的機(jī)構(gòu)單位有五家,各機(jī)構(gòu)所掌握的相關(guān)人口數(shù)據(jù)信息整合度較低(李安山,2016:95)。這些因素都影響了海外華僑華人數(shù)量的精確統(tǒng)計(jì)。
因此,本次海外華僑華人人口數(shù)據(jù)采集將以網(wǎng)絡(luò)資源和相關(guān)文獻(xiàn)中數(shù)據(jù)信息為主,推斷性估算、實(shí)地調(diào)研等方式為輔。具體而言,子庫1將以洲際國別為單位,以共時(shí)層面的數(shù)據(jù)為主,歷時(shí)層面為輔,采集整理各大洲各國華僑華人人口的數(shù)據(jù)信息。如歐美很多國家的統(tǒng)計(jì)局網(wǎng)站上都列出了近年來該國各族群的人口數(shù)據(jù)資料,部分海外大型華人社團(tuán)掌握了所在地區(qū)華族人口數(shù)據(jù)。相關(guān)研究文獻(xiàn)以國別或洲際為單位,對華僑華人人口及中國國際移民人口進(jìn)行了收集整理,部分文獻(xiàn)還根據(jù)歷時(shí)數(shù)據(jù)對共時(shí)的華僑華人人口數(shù)量做了推斷性估算,這些數(shù)據(jù)都具有很強(qiáng)的參考價(jià)值。我們將按國別對華僑華人人口數(shù)據(jù)進(jìn)行分類整理入庫,并標(biāo)注數(shù)據(jù)的來源渠道、計(jì)算方式等信息,此舉有助于甄別數(shù)據(jù)的準(zhǔn)確性,為今后的人口估算提供相關(guān)的數(shù)據(jù)資料。此外,我們還將根據(jù)實(shí)地調(diào)研所得的數(shù)據(jù)信息,嘗試對海外華僑華人中使用華語及漢語方言的人口和比例進(jìn)行估算。
4.2重點(diǎn)數(shù)據(jù)的采集管理
4.2.1華語相關(guān)語言政策規(guī)劃數(shù)據(jù)
華語相關(guān)語言政策規(guī)劃的數(shù)據(jù)采集所依據(jù)的字段信息主要包括“政策類別,時(shí)效范圍,具體內(nèi)容,實(shí)施場域、針對對象、實(shí)施效果”等。主要考察宏觀顯性語言政策和微觀隱性語言規(guī)劃(表2)。前者關(guān)注的是海外諸國政府及相關(guān)部門制定的、與華語使用和華文教育有關(guān)的、具有強(qiáng)制執(zhí)行力的語言政策。后者在考察各國各地區(qū)華語使用情況的基礎(chǔ)上,關(guān)注海外華人社區(qū)、社團(tuán)、學(xué)校、家庭等基層單位制定的,具有基層化、地方化、個(gè)體化特點(diǎn)的語言規(guī)劃。
之所以將海外華僑華人的微觀語言規(guī)劃納入數(shù)據(jù)采集的范圍,是因?yàn)樵谌A語視角下的語言規(guī)劃實(shí)施中,政府的力量已經(jīng)不占主導(dǎo)地位(郭熙,2009)。微觀語言規(guī)劃①是海外華僑華人為了適應(yīng)當(dāng)?shù)卣Z言環(huán)境、傳承族群語言等需求而制定的,作用范圍雖小,但效果明顯。郭熙(2009)將華語規(guī)劃主體概括為“聲望規(guī)劃、華語獲得規(guī)劃、開發(fā)利用規(guī)劃、華語傳播規(guī)劃”,強(qiáng)調(diào)聲望規(guī)劃是現(xiàn)階段華語規(guī)劃的核心。而Haarmann(1990)通過考察發(fā)現(xiàn),微觀層面的規(guī)劃主體(團(tuán)體及個(gè)人)對聲望規(guī)劃更易發(fā)揮實(shí)效。采集整理海外華僑華人微觀語言規(guī)劃的相關(guān)數(shù)據(jù)信息,有助于我們?nèi)媪私馊A語資源的顯性價(jià)值,預(yù)測其未來發(fā)展趨勢。
4.2.2華語使用數(shù)據(jù)
華語使用主要體現(xiàn)為華語的傳承和傳播。如前文表2所示,華語使用的數(shù)據(jù)信息的采集標(biāo)準(zhǔn)之一為“地域分布”。我們將綜合華僑華人人口的地域分布特征,參考全球華語社區(qū)“三圈說”(徐大明、王曉梅,2009),結(jié)合課題組在海外諸國實(shí)地調(diào)研所獲得的信息,采集整理海外華語社區(qū)語言使用等相關(guān)數(shù)據(jù)信息。
華語使用的數(shù)據(jù)采集標(biāo)準(zhǔn)之二為“使用場合”,主要考察華僑華人在不同“語言域”作的語言使用情況,以考察華語使用為主,漢語方言使用為輔。我們以華僑華人在宗教域、家庭域、工作域的語言使用為例加以說明。
在宗教域,我們將采集華僑華人參加宗教儀式、聆聽教義、成員交流時(shí)的華語使用和漢語方言使用的數(shù)據(jù)信息。在泰國、印尼、柬埔寨、緬甸、老撾、菲律賓等國都是非常重要的
①微觀語言規(guī)劃指的是商業(yè)、社會(huì)公共中介(agency)、群體或個(gè)人掌控的中介,制定出能被公認(rèn)為語言政策的東西,計(jì)劃利用并開發(fā)他們的語言資源;微觀語言規(guī)劃并不是某些較大宏觀政策的直接結(jié)果,而是對其自身需要、自身“語言問題”、自身對語言治理的要求所作出的一種回應(yīng)(周慶生,2010)。
②Fishman(1972:435-453)提出了“語言域”(domain)的概念。語言域是比言語社區(qū)更具體的語言組織和使用單位,其劃分主要是基于“參與者、地點(diǎn)、話題”三個(gè)參數(shù),在形式上體現(xiàn)為特定的社會(huì)空間,例如學(xué)校、家庭、工作單位、宗教場所、各級(jí)政府等。每個(gè)語言域都有自己的語言使用特點(diǎn),這些特點(diǎn)既有因語言域內(nèi)部管理所體現(xiàn)出的特點(diǎn),也有因外界力量影響而產(chǎn)生的特點(diǎn)。博納德·斯波斯基(2016)在《語言管理》一書中將“語言域”作為全書的核心概念,考察了家庭域、宗教域、工作域、公共域、學(xué)校域的語言管理情況,并在此基礎(chǔ)上建構(gòu)了語言管理理論模式,用于解釋人類的語言選擇現(xiàn)象。
社會(huì)力量甚至是政治力量。宗教語言政策能夠支持祖裔語言的維持,其作用不可小視(博納德·斯波斯基,2016:52)。曹云華(2002)指出東南亞華人如果要保持中華文化和本民族的文化認(rèn)同,提倡信仰華人傳統(tǒng)宗教如道教、大乘佛教、各種祖先崇拜等,可能是一個(gè)很好的選擇。我們在東南亞的實(shí)地考察也證實(shí)了上述觀點(diǎn)。
在家庭域,我們將調(diào)研華僑華人的家庭語言使用情況,重點(diǎn)采集華語使用及漢語方言使用的數(shù)據(jù)信息。海外華僑華人歷來重視家庭,華族新生代入學(xué)之前的語言發(fā)育情況幾乎完全取決于家庭語言交際格局。海外部分華僑華人家庭為了保持族群語言文化,堅(jiān)持在家中說華語或漢語方言。由于所在國語言政策不同,語言環(huán)境各異,華人家庭交際語言格局也較為復(fù)雜,需要按照國別和區(qū)域進(jìn)行調(diào)研及數(shù)據(jù)采集。
海外華人在世界各大洲建立了社區(qū),他們對全球的貢獻(xiàn)以經(jīng)濟(jì)為首(王賡武,2013:288-289)。因此在工作域,我們將通過問卷調(diào)查、訪談等方式,選取海外唐人街華人經(jīng)營的商鋪,以及具有一定知名度的大中型規(guī)模的華商企業(yè)、中資企業(yè)的海外分公司、中外合資企業(yè)進(jìn)行調(diào)研,采集華僑華人及其公司員工使用華語的場合、交際對象、內(nèi)容、頻率等信息。
華語使用的數(shù)據(jù)采集標(biāo)準(zhǔn)之三為“社會(huì)特征”。我們將結(jié)合子庫1即華僑華人人口數(shù)據(jù)庫所采集到的數(shù)據(jù)信息,考察華僑華人的性別、年齡、籍貫、居住環(huán)境、代際傳承、受教育程度、職業(yè)、宗教信仰、雙(多)語能力等社會(huì)特征因素對華語及漢語方言使用的影響。
4.2.3華語機(jī)構(gòu)數(shù)據(jù)
華語機(jī)構(gòu)是指由海外華僑華人創(chuàng)辦的,用于協(xié)調(diào)管理族群事務(wù)、傳承傳播族群語言文化、宣傳報(bào)道族群動(dòng)態(tài)信息等相關(guān)機(jī)構(gòu)。如被稱為“華社三寶”的華人社團(tuán)、華文媒體、華文學(xué)校等。華語機(jī)構(gòu)數(shù)據(jù)采集的字段信息主要包括機(jī)構(gòu)名稱,主辦方,成員構(gòu)成,職責(zé)功能,經(jīng)費(fèi)來源,發(fā)展沿革,社會(huì)影響等。在收集整理華語機(jī)構(gòu)基本數(shù)據(jù)信息的同時(shí),還將考察其在傳承傳播華族語言文化、建構(gòu)族群認(rèn)同中所發(fā)揮的具體作用。
4.3數(shù)據(jù)類型及質(zhì)量管控
4.3.1數(shù)據(jù)類型
基本信息數(shù)據(jù)庫的數(shù)據(jù)從獲取途徑來看,以公開數(shù)據(jù)和專有數(shù)據(jù)為主,自有數(shù)據(jù)為輔。從數(shù)據(jù)格式來看,公開、專有和自有數(shù)據(jù)均以非結(jié)構(gòu)化數(shù)據(jù)為主,包括各類辦公文檔、文本、圖片、XML,HTML、各類報(bào)表、圖像和音頻/視頻信息等。
公開數(shù)據(jù)的獲取途徑主要包括紙質(zhì)書刊和互聯(lián)網(wǎng)中的電子文獻(xiàn)及相關(guān)網(wǎng)站等,這方面的數(shù)據(jù)資源非常豐富,主要類型包括:1)海內(nèi)外出版的關(guān)于華僑華人社會(huì)基本信息、華語使用、華文教學(xué)等方面的書刊①??赏ㄟ^檢索關(guān)鍵詞等方式獲取數(shù)據(jù)庫所需的數(shù)據(jù)信息。2)相關(guān)網(wǎng)絡(luò)媒體及網(wǎng)站作??赏ㄟ^網(wǎng)絡(luò)數(shù)據(jù)挖掘和數(shù)據(jù)分析等方式獲取相關(guān)信息。
專有數(shù)據(jù)的獲取途徑主要包括政府等發(fā)布的數(shù)據(jù),以及高校研究機(jī)構(gòu)的數(shù)據(jù)庫等。前者如聯(lián)合國經(jīng)濟(jì)和社會(huì)事務(wù)部人口司的人口統(tǒng)計(jì)資料及報(bào)告書、聯(lián)合國移民署的報(bào)告、聯(lián)合國教科文組織發(fā)布的與語言教育相關(guān)的文件。我
①相關(guān)刊物如《華僑華人歷史研究》《南洋資料譯叢》《僑務(wù)工作研究》《八桂僑刊》《八桂僑史》《東南亞研究》《南亞研究》《南洋問題研究》《暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué))》《廈門大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》《世界民族》《世界歷史》《世界宗教研究》《華僑歷史》《華文教學(xué)與研究》《語言文字應(yīng)用》《語言戰(zhàn)略研究》《南方人口》《人口與經(jīng)濟(jì)》《中國人口科學(xué)》等。相關(guān)書籍如《華僑華人百科全書》、《華僑華人研究報(bào)告(藍(lán)皮書);中國與全球化智庫(CCG)的相關(guān)研究成果如《中國國際移民報(bào)告》《世界華商發(fā)展報(bào)告》《海外華僑華人專業(yè)人士報(bào)告》;中國與全球化智庫(CCG)與華僑大學(xué)聯(lián)合發(fā)布《搭橋引路:華僑華人與“一帶一路”》。年鑒如《世界華文教育年鑒》、《廣東年鑒》“僑務(wù)”專題、《世界杰出華人年鑒》等,以及與華僑華人及華語相關(guān)的會(huì)議文獻(xiàn)、學(xué)術(shù)報(bào)告、論文集等。海外華僑華人創(chuàng)立社團(tuán)、發(fā)展華文教育的專著和論文集等。
②網(wǎng)絡(luò)媒體如中新網(wǎng)的華人頻道、中國僑網(wǎng)、地方僑報(bào)、《人民日報(bào)(海外版)》,以及海外華文媒體,如新加坡《聯(lián)合早報(bào)》、馬來西亞《南洋商報(bào)》《星洲日報(bào)》《光華日報(bào)》、法國《歐洲時(shí)報(bào)》、意大利《歐華聯(lián)合時(shí)報(bào)》、西班牙《歐華報(bào)》、加拿大《環(huán)球華報(bào)》、美國《僑報(bào)》等。網(wǎng)站信息如世界人口網(wǎng)、中國僑網(wǎng)等國內(nèi)各級(jí)僑辦網(wǎng)站、海外華人民間社團(tuán)組織的網(wǎng)站、維基百科等網(wǎng)絡(luò)百科全書的信息等。
國駐外機(jī)構(gòu)官網(wǎng)對當(dāng)?shù)厝A僑華人信息的介紹等。海外華僑華人所在國語言管理及教育部門發(fā)布的語言政策及語言教育規(guī)劃的相關(guān)文件,歐美等國統(tǒng)計(jì)局發(fā)布的各族群人口普查數(shù)據(jù)、移民局發(fā)布的移民統(tǒng)計(jì)數(shù)據(jù),以及部分海外大型華人社團(tuán)掌握了一些華族人口數(shù)據(jù)。后者如暨南大學(xué)圖書館華僑華人文獻(xiàn)中心設(shè)有華僑華人文獻(xiàn)信息專題數(shù)據(jù)庫,五邑大學(xué)設(shè)有五邑華僑華人全文數(shù)據(jù)庫,新加坡國立大學(xué)設(shè)有海外華人特藏庫等,這些數(shù)據(jù)庫的建庫思路、模塊設(shè)置、數(shù)據(jù)來源、信息字段、呈現(xiàn)方式等也具有參考價(jià)值。
自有數(shù)據(jù)的獲取途徑主要包括課題組成員赴海外實(shí)地考察、訪談等獲取的數(shù)據(jù)。課題組成員曾多次赴海外調(diào)研講學(xué),獲得了較豐富的數(shù)據(jù)資料,與海外華僑華人建立了較密切的聯(lián)系。在此基礎(chǔ)上,項(xiàng)目組還將利用網(wǎng)絡(luò)通訊手段,就數(shù)據(jù)庫的相關(guān)問題對海外華僑華人進(jìn)行遠(yuǎn)程調(diào)研和訪談。
4.3.2數(shù)據(jù)質(zhì)量管控
數(shù)據(jù)質(zhì)量的主要評價(jià)維度包括準(zhǔn)確性(accuracy)、完整性(completeness)、一致性(consistency)、可訪問性(accessibility)和及時(shí)性(timeliness)等(朱揚(yáng)勇,2018:258- 259)。數(shù)據(jù)質(zhì)量與數(shù)據(jù)類型有關(guān)。如政府?dāng)?shù)據(jù)具有高價(jià)值密度性、可靠性、標(biāo)準(zhǔn)性、精確性等特點(diǎn)(朱揚(yáng)勇,2018:17-18)。學(xué)術(shù)期刊和高校研究機(jī)構(gòu)的數(shù)據(jù)庫的相關(guān)數(shù)據(jù)也具有較強(qiáng)的客觀性和準(zhǔn)確性。因此,我們的數(shù)據(jù)采集將以政府?dāng)?shù)據(jù)、書刊文獻(xiàn)等數(shù)據(jù)信息為主,估算推斷、訪談和實(shí)地調(diào)研為輔,將不同渠道獲取的數(shù)據(jù)加以驗(yàn)證,保證其真實(shí)準(zhǔn)確。
為保證數(shù)據(jù)及數(shù)據(jù)庫建設(shè)的質(zhì)量,課題組將草擬《數(shù)據(jù)采集及建庫手冊》。手冊共分為三部分,第一部分為“工作方案的整體設(shè)想”,將明確數(shù)據(jù)采集及調(diào)研的目的、洲際國別與地區(qū)、內(nèi)容、時(shí)間、對象、方法、進(jìn)度、流程、數(shù)據(jù)質(zhì)量的自查和抽查、數(shù)據(jù)的錄入、注意事項(xiàng)等內(nèi)容。第二部分為“任務(wù)分工”,將數(shù)據(jù)采集整理及調(diào)查的各項(xiàng)任務(wù)細(xì)化分解,明確成員職責(zé)。第三部分為“數(shù)據(jù)庫建設(shè)”,落實(shí)數(shù)據(jù)庫建設(shè)的設(shè)計(jì)思路、技術(shù)平臺(tái)、模塊呈現(xiàn)、管理更新、用戶反饋等步驟。
4.4建庫思路
在數(shù)據(jù)采集之后,如何進(jìn)行安全、便捷、高效的數(shù)據(jù)管理,并以這些數(shù)據(jù)為基礎(chǔ),開發(fā)出穩(wěn)定性好、擴(kuò)展性強(qiáng)的管理平臺(tái),定期對基本信息數(shù)據(jù)庫加以維護(hù)更新,也是我們需要關(guān)注的問題。
4.4.1建庫原則、流程與模塊呈現(xiàn)
基本信息數(shù)據(jù)庫的的設(shè)計(jì)及使用原則主要包括:實(shí)用性原則、獨(dú)立與完整性原則、面向?qū)ο蟮臄?shù)據(jù)庫設(shè)計(jì)原則、建庫與更新有機(jī)結(jié)合的原則,既要充分考慮數(shù)據(jù)有效共享的需求,也要保證數(shù)據(jù)訪問的合法性和安全性。
基本信息數(shù)據(jù)庫的建庫原則主要包括:數(shù)據(jù)安全存儲(chǔ)、信息清晰展示、界面便捷操作、用戶高效共享等。在數(shù)據(jù)輸入方面,將采集到的各類數(shù)據(jù)按照內(nèi)容特點(diǎn)進(jìn)行錄入。便于錄入員和管理員操作,同時(shí)盡量滿足用戶的查詢需求。
在數(shù)據(jù)庫建設(shè)方面,我們將與該領(lǐng)域?qū)I(yè)人員合作,制定建庫方案,詳細(xì)列出需求分析、概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)庫物理設(shè)計(jì)、數(shù)據(jù)庫實(shí)施、數(shù)據(jù)庫運(yùn)行和維護(hù)等方面所需的計(jì)算機(jī)技術(shù)及實(shí)施流程。
在子庫的呈現(xiàn)方式上,基本信息庫將以華僑華人人口、華語相關(guān)語言政策規(guī)劃、華語使用、華語機(jī)構(gòu)等為內(nèi)容模塊,從不同角度展示華僑華人及華語使用的基本信息。還將結(jié)合不同內(nèi)容模塊的特點(diǎn),開發(fā)出分國別分地區(qū)的全文檢索功能,以及相關(guān)復(fù)合檢索功能和聚類檢索功能。
4.4.2數(shù)據(jù)庫更新與管理
對于基本信息數(shù)據(jù)庫而言,數(shù)據(jù)挖掘和子庫管理都十分重要,不可偏廢。一方面,要實(shí)現(xiàn)穩(wěn)定存儲(chǔ)海量信息,便于檢索統(tǒng)計(jì),滿足各地用戶實(shí)時(shí)共享的需求。另一方面,基本信息庫所包含的數(shù)據(jù)都具有動(dòng)態(tài)性特征,因此我們既要保證資料數(shù)據(jù)的真實(shí)有效,也要做到定期維護(hù)管理,補(bǔ)充完善最新的數(shù)據(jù)資料,實(shí)現(xiàn)資源庫動(dòng)態(tài)更新。
4.5應(yīng)用前景
刁晏斌(2018)曾提出全球華語研究的“一二三”框架,即應(yīng)當(dāng)進(jìn)一步加強(qiáng)與突顯一個(gè)基本點(diǎn),即語言認(rèn)同;在本體層面加大力度進(jìn)行兩條線索的發(fā)掘與梳理,即全球華語從哪里來、向哪里去;此外,還要確立三個(gè)基本的著力點(diǎn),即語言規(guī)劃、語言保護(hù)和語言服務(wù)。基本信息數(shù)據(jù)庫所提供的相關(guān)數(shù)據(jù)信息是該研究框架的基石。利用數(shù)據(jù)庫收集的數(shù)據(jù)信息,我們至少可以展開以下應(yīng)用研究:
(1)華僑華人社區(qū)及語言生態(tài)研究。如新老華人社區(qū)語言使用的異同,華語或方言的流通度,華僑華人言語社區(qū)的類型及特點(diǎn)等。華語傳承傳播的機(jī)制及特點(diǎn)。
(2)華語機(jī)構(gòu)在傳承傳播華語中的作用。如華僑華人社團(tuán)、華文學(xué)校、華文媒體傳承傳播華語的方式及效果。華僑華人運(yùn)用自身多語及跨文化交際能力在華語傳承傳播中所發(fā)揮的作用。
(3)語言政策對華語傳承傳播的影響。如宏觀顯性的官方語言政策以及微觀隱性的民間語言規(guī)劃的內(nèi)容、特點(diǎn),對華語傳承傳播的影響等。
(4)華語使用與認(rèn)同建構(gòu)。如華僑華人的族群語言文化認(rèn)同、身份認(rèn)同的情況,以及影響認(rèn)同建構(gòu)與動(dòng)態(tài)變化的語言因素和社會(huì)因素等。
5.結(jié)語
以往學(xué)界主要關(guān)注華語資源的隱性價(jià)值即語言的本體價(jià)值,如海外華語文獻(xiàn)、教材的語言文化特點(diǎn)等。本文關(guān)注華語資源的顯性價(jià)值,主要包括海外華僑華人人口、華語使用、華語機(jī)構(gòu)、華語相關(guān)語言政策規(guī)劃等內(nèi)容,并建立基本信息數(shù)據(jù)庫,將其轉(zhuǎn)化為電子信息資源。
基本信息數(shù)據(jù)庫的建成和投入使用,可以在一定程度上解決目前海外華語及華文教育研究基礎(chǔ)信息數(shù)據(jù)匱乏即“家底不清”的問題。郭熙、王文豪(2018)指出,基本信息庫所包含的數(shù)據(jù)信息是開展華文教育的基礎(chǔ)和依據(jù)。此外,基本信息庫的數(shù)據(jù)信息對于我們綜合運(yùn)用社會(huì)語言學(xué)、人類學(xué)、民族學(xué)、教育學(xué)等學(xué)科的研究方法,開展華語生態(tài)、華文教學(xué)、華僑華人認(rèn)同等相關(guān)研究,也是大有裨益的。
無論是華語和華文教學(xué)研究,還是華語資源數(shù)據(jù)庫建設(shè),都需要跨學(xué)科視角。要建立“大華語”(李宇明,2017)和“大華文教育”(賈益民,2018),一方面需考察全球華語的使用,另一方面也需結(jié)合華語傳播的背景因素,此二者共同構(gòu)成海外華語語言生活的基本情況。因此,將跨學(xué)科的理論和方法應(yīng)用于基本信息庫建設(shè),可以使華語及華文教學(xué)研究具備大視野、廣視角、高站位,也可以提升研究的科學(xué)性、系統(tǒng)性、理論性。近年來在華僑華人研究領(lǐng)域,王賡武、李明歡、莊國土、李安山、張應(yīng)龍等學(xué)者,從社會(huì)學(xué)、人類學(xué)、民族學(xué)、國際關(guān)系學(xué)等視角出發(fā),對海外華僑華人的政治、經(jīng)濟(jì)、文化、人口等狀況做了細(xì)致考察分析。這些成果及其研究思路、方法和視角,對我們建設(shè)基本信息數(shù)據(jù)庫,具有很強(qiáng)的參考價(jià)值。
[參考文獻(xiàn)]
博納德·斯波斯基2016語言管理[M].北京:商務(wù)印書館.
曹賢文2014“繼承語”理論視角下的海外華文教學(xué)再考察[J].華文教學(xué)與研究(4).
曹云華2002宗教信仰對東南亞華人文化適應(yīng)的影響[J].華僑華人歷史研究(1).
陳章太2008論語言資源[J].語言文字應(yīng)用(1).
刁晏斌2018語言安全視角下的全球華語及其研究[J].云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)(3).
郭熙2009華語規(guī)劃論略[J].語言文字應(yīng)用(3).
——2015論漢語教學(xué)的三大分野[J].中國語文(5).
——2017論祖語與祖語傳承[J].語言戰(zhàn)略研究(3).
郭熙,劉慧,李計(jì)偉2020論海外華語資源的搶救性整理和保護(hù)[J].云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)(2).
郭熙,王文豪2018論華語研究與華文教育的銜接[J].語言文字應(yīng)用(2).
賈益民2018新時(shí)代世界華文教育發(fā)展理念探討[J].世界漢語教學(xué)(2).
李安山2016雙重國籍問題與海外僑胞權(quán)益保護(hù)[M].南京:江蘇人民出版社.
李春風(fēng)2019國內(nèi)語言傳承研究綜述[J].海外華文教育(1).
李計(jì)偉,張翠玲2019傳承語的保守性與東南亞華語特征[J].華文教學(xué)與研究(3).
李寧明2018海外漢語學(xué)習(xí)者低齡化的思考[J].世界漢語教學(xué)(3).
——2017大華語:全球華人的共同語[J].語言文字應(yīng)用(1).
王賡武2013華人與中國[M].上海:上海人民出版社.
徐大明,王曉梅2009全球華語社區(qū)說略[J].吉林大學(xué)社會(huì)科學(xué)學(xué)報(bào)(2).
鄭彥寧,化柏林2011數(shù)據(jù)、信息、知識(shí)與情報(bào)轉(zhuǎn)化關(guān)系的探討[J].情報(bào)理論與實(shí)踐(7).
周明朗2014語言認(rèn)同與華語傳承語教育[J].華文教學(xué)與研究(1).
周慶生2010語言規(guī)劃發(fā)展及微觀語言規(guī)劃[J].北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)(6).
朱揚(yáng)勇2018大數(shù)據(jù)資源[M].上海:上??茖W(xué)技術(shù)出版社.
Fishman 1972 Domains and the relationship between micro-and macrosociolinguistics [ A ]. In John J. Gumperz& Dell Hymes(eds.),Directions in sociolinguistics [C]. New York:Holt Rinehart and Winston.
Haannann 1990 Language planning in the light of a general theory of language:A methodological framework [J]. International Journal of the Sociology of Language(1).
Research on the Construction and Application of Basic Information Resource Database of Overseas Chinese People and Language
Liu Hui
(College of Chinese Language and Culture/National Center for Overseas HUAYU Research,Jinan University,Guangzhou,Guangdong 510610,China)
Key words:center for basic information resource database of overseas Chinese people and language;language data;data type;field information
Abstract:It is imperative to construct the basic information resource database of overseas Chinese people and language. In terms of composition,the database contains three sub- databases:database of overseas Chinese population,database of language policy and use of overseas Chinese language,and database of organizations for overseas Chinese language. This paper analyzes the data types,acquisition approaches,quality control,field information and update management of each database in detail. The construction and application of the database can solve the problem of unclear situation in the research and teaching of overseas Chinese to a certain extent. It is of great heuristic value for future interdisciplinary research on the overseas Chinese people as well as on the inheritance and teaching of overseas Chinese language.