王金海 孟子惠
摘? 要:本文基于認(rèn)知體驗(yàn)觀和多模態(tài)語(yǔ)言理論,結(jié)合少數(shù)民族語(yǔ)言檔案管理的特殊性,分析多模態(tài)民族語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)的必要性,探討多模態(tài)民族語(yǔ)言檔案數(shù)據(jù)庫(kù)的基本構(gòu)成,并以音頻語(yǔ)言檔案數(shù)據(jù)庫(kù)的建設(shè)為例,提出建設(shè)該類(lèi)檔案數(shù)據(jù)庫(kù)的基本步驟,以期對(duì)我國(guó)少數(shù)民族語(yǔ)言檔案管理工作和相關(guān)研究的開(kāi)展提供借鑒思路。
關(guān)鍵詞:認(rèn)知體驗(yàn)觀;檔案管理;少數(shù)民族語(yǔ)言檔案;多模態(tài)語(yǔ)言;檔案數(shù)據(jù)庫(kù)
Abstract: In this paper, basing on the theory of cognitive experience and multimodal language, combing with the particularity of minority language Archives management, analyzing of multimodal national language Archives database construction, the necessity of multimodal nation language basic structure of the database Archives, and audio language Archives for the construction of the database, for example, building the basic steps of the class Archives database, in order to minority language Archival management in our country and the development of related research to provide reference ideas.
Keywords: Cognitive experience view; Archives management; Archives of minority languages; Multimodal language;? Archive database
本文基于認(rèn)知體驗(yàn)觀和多模態(tài)語(yǔ)言理論對(duì)少數(shù)民族語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)的認(rèn)知基礎(chǔ)、必要性及具體建設(shè)等問(wèn)題展開(kāi)探討。
1 少數(shù)民族多模態(tài)語(yǔ)言檔案管理的必要性
據(jù)統(tǒng)計(jì),國(guó)內(nèi)現(xiàn)存民族語(yǔ)言達(dá)120余種之多,其中,有近30種還兼具文字使用,尤以維文、壯文、蒙文、藏文及哈薩克文等最具影響力。這些語(yǔ)言歷時(shí)悠久,底蘊(yùn)深厚,在本語(yǔ)族內(nèi)通常與漢語(yǔ)共存使用,并行不悖,較為廣泛地運(yùn)用于廣播傳媒、科教出版及公共管理等社會(huì)生活的眾多領(lǐng)域。
然而,研究顯示,我國(guó)境內(nèi)已有近50種民族語(yǔ)言處于嚴(yán)重瀕危,9種民族語(yǔ)言已經(jīng)消亡。[1]這無(wú)疑對(duì)少數(shù)民族文字檔案的管理提出了巨大挑戰(zhàn)??梢?jiàn),對(duì)少數(shù)民族特殊語(yǔ)言環(huán)境下非通用語(yǔ)言的檔案管理顯得格外重要。
當(dāng)前我國(guó)各少數(shù)民族地區(qū)的檔案管理機(jī)關(guān)多已開(kāi)展本民族文字檔案的收集和整理。但囿于少數(shù)民族地區(qū)語(yǔ)言和社會(huì)環(huán)境的特異性,相較通用語(yǔ)言檔案,民族語(yǔ)言檔案管理在多樣性上要求更高。
單純以文字形式保存的語(yǔ)言檔案,在精確性和可利用性上均存在一定弊端,這在一定程度上限制了少數(shù)民族語(yǔ)言檔案管理工作的有效開(kāi)展,勢(shì)必會(huì)對(duì)我國(guó)多民族文化的可持續(xù)保護(hù)和傳承產(chǎn)生不良影響。科學(xué)管理少數(shù)民族語(yǔ)言檔案既是我國(guó)語(yǔ)言檔案管理不可或缺的重要內(nèi)容,也是語(yǔ)言檔案管理的艱巨任務(wù)。
在各少數(shù)民族的語(yǔ)言檔案中,其中有一部分是以口頭形式呈現(xiàn),如口述的神話、傳說(shuō)、詩(shī)歌及諺語(yǔ)等,還有相當(dāng)部分則是以書(shū)面形式記錄,如正式出版的書(shū)籍、官方檔案及民間文書(shū)等。
到了近現(xiàn)代,部分語(yǔ)言文字檔案開(kāi)始以音視頻的形式出現(xiàn),主要涉及相關(guān)訪談、民族發(fā)展中成果的圖片影像資料整理等。音視頻格式的語(yǔ)言檔案資料在新時(shí)期檔案管理工作中已越來(lái)越多見(jiàn),但在早期語(yǔ)言文字檔案資料的管理中尚不多見(jiàn)。
早期檔案以口頭和書(shū)面形式居多,并有部分檔案面臨缺損或流失的問(wèn)題,亟待重新整理。對(duì)早期語(yǔ)言文字檔案的管理是民族檔案管理工作中最有價(jià)值,也最有難度的一部分。
考慮到少數(shù)民族語(yǔ)言文化的特殊性,單純口頭或書(shū)面的記錄既不利于相關(guān)檔案的精準(zhǔn)記錄,也不利于后期的有效利用和傳承。
筆者查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),在方言檔案建設(shè)方面,浙江方言語(yǔ)音檔案建設(shè)工程曾對(duì)68 個(gè)方言的語(yǔ)音、詞匯、說(shuō)唱及戲曲等方面建立了音視頻檔案庫(kù)。
相較民間口傳或文字記錄等傳統(tǒng)方言檔案記錄形式,音視頻檔案庫(kù)的建設(shè)無(wú)疑對(duì)搶救和完善方言資源和區(qū)域文化具有積極意義;在少數(shù)民族語(yǔ)言檔案建設(shè)方面,漢藏同源詞研究系統(tǒng)收錄了漢藏語(yǔ)系中包括少數(shù)民族語(yǔ)言在內(nèi)的12 種漢語(yǔ)方言和122 種語(yǔ)言中最具代表性的1500 余條詞匯,但僅以文字形式記錄。
中國(guó)社會(huì)科學(xué)院建設(shè)的漢語(yǔ)、蒙語(yǔ)、維語(yǔ)和藏語(yǔ)民族語(yǔ)言資料庫(kù)僅涉及781篇文章的文本信息,且多數(shù)年代久遠(yuǎn)的語(yǔ)言檔案存在語(yǔ)音信息不同程度的缺失等問(wèn)題,借助圖像、視頻等現(xiàn)代技術(shù)手段全方位展示語(yǔ)言檔案信息的管理形式顯著不足,這直接導(dǎo)致現(xiàn)有老舊語(yǔ)言文字檔案的精準(zhǔn)度和可利用度存在嚴(yán)重缺陷。[2]
相反,與傳統(tǒng)語(yǔ)言檔案不同,多模態(tài)語(yǔ)言檔案更強(qiáng)調(diào)不同模態(tài)語(yǔ)言間的整合關(guān)系,旨在通過(guò)搭建跨模態(tài)框架,借助多種感官體驗(yàn)的認(rèn)知疊加更精準(zhǔn)地記錄和傳播信息,使各模態(tài)間相互組配,相互促進(jìn),從而達(dá)到語(yǔ)言信息結(jié)構(gòu)的最優(yōu)存儲(chǔ)。因此,對(duì)民族語(yǔ)言檔案,特別是早期語(yǔ)言檔案信息的多模態(tài)存檔擴(kuò)容就顯得尤為必要。
加快少數(shù)民族語(yǔ)言檔案,特別是瀕危語(yǔ)言檔案的多模態(tài)檔案數(shù)據(jù)庫(kù)建設(shè),探索民族地區(qū)語(yǔ)言檔案管理的新模式,可以有效保護(hù)和搶救少數(shù)民族文化,從而使語(yǔ)言檔案資源能更好地服務(wù)社會(huì)文化發(fā)展。
總體上,目前我國(guó)少數(shù)民族多模態(tài)語(yǔ)言檔案建設(shè)尚處于探索階段,亟待完善。隨著現(xiàn)代信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的來(lái)臨,我國(guó)的檔案現(xiàn)代化建設(shè)不斷推進(jìn),這為由文字、圖片、音頻及視頻綜合架構(gòu)的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)提供了更多可能性。[3]
2 多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的基本構(gòu)成和建設(shè)
2.1 多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的基本構(gòu)成
2.1.1 文本數(shù)據(jù)庫(kù)。文本數(shù)據(jù)庫(kù)仍是民族語(yǔ)言檔案庫(kù)的基礎(chǔ),尤其是年代久遠(yuǎn)的文字檔案,應(yīng)盡量留存原始檔案,這類(lèi)語(yǔ)言檔案數(shù)據(jù)庫(kù)多以詞句、段落及屬性解析等文本信息的形式存在,主要激活視覺(jué)體驗(yàn)認(rèn)知。
2.1.2 圖像數(shù)據(jù)庫(kù)。圖像數(shù)據(jù)庫(kù)主要起到輔助文本檔案和音頻檔案的作用,例如對(duì)有關(guān)發(fā)音部位語(yǔ)言檔案信息的記錄,圖像便可以起到很有效的輔助作用。條件允許的前提下,所有文本子檔案庫(kù)也都應(yīng)建立對(duì)等圖像子檔案庫(kù)留作副本。這類(lèi)語(yǔ)言檔案數(shù)據(jù)庫(kù)亦主要激活視覺(jué)體驗(yàn)認(rèn)知。
2.1.3 音頻數(shù)據(jù)庫(kù)。音頻數(shù)據(jù)庫(kù)應(yīng)作為民族語(yǔ)言檔案數(shù)據(jù)的主要部分來(lái)創(chuàng)建,因其兼顧了語(yǔ)言檔案的存儲(chǔ)效率、存儲(chǔ)精準(zhǔn)性和保存持久性等方面的最佳平衡點(diǎn)。音頻數(shù)據(jù)庫(kù)尤其在記錄語(yǔ)言的語(yǔ)音信息方面顯得格外重要,如音位、語(yǔ)調(diào)、韻律等語(yǔ)音屬性檔案。
理想的音頻檔案數(shù)據(jù)庫(kù)應(yīng)實(shí)現(xiàn)通過(guò)語(yǔ)音快速檢索數(shù)據(jù)的功能,同時(shí)還應(yīng)該涵蓋本民族語(yǔ)言與普通話的雙向匹配。[4]條件允許的前提下,所有文本子檔案庫(kù)都應(yīng)建立對(duì)等音頻子檔案庫(kù)留作副本,這類(lèi)語(yǔ)言檔案數(shù)據(jù)庫(kù)主要激活聽(tīng)覺(jué)體驗(yàn)認(rèn)知。
2.1.4 視頻數(shù)據(jù)庫(kù)。視頻數(shù)據(jù)庫(kù)則通過(guò)字幕、發(fā)聲和圖像的互相補(bǔ)充,融合了視覺(jué)體驗(yàn)認(rèn)知和聽(tīng)覺(jué)體驗(yàn)認(rèn)知,使民族語(yǔ)言數(shù)據(jù)信息呈現(xiàn)得更清晰,可實(shí)現(xiàn)語(yǔ)言檔案的最優(yōu)集成化效果。這種多位一體的多模態(tài)語(yǔ)言檔案,彌合了相關(guān)語(yǔ)言檔案的失真問(wèn)題,可以使民族語(yǔ)言的內(nèi)涵及特征得到更好展現(xiàn)。
以上四類(lèi)子數(shù)據(jù)庫(kù)既相互獨(dú)立又相互補(bǔ)充,共同構(gòu)成了完整的民族語(yǔ)言檔案數(shù)據(jù)庫(kù)系統(tǒng)。多模態(tài)語(yǔ)言檔案建設(shè)可針對(duì)少數(shù)民族語(yǔ)言檔案的特殊性進(jìn)行全方面立體構(gòu)建,能更精準(zhǔn)、更多樣地展現(xiàn)語(yǔ)言檔案的信息內(nèi)涵。
2.2 建設(shè)步驟——以音頻數(shù)據(jù)庫(kù)為例
2.2.1 選取目標(biāo)語(yǔ)言材料。選取語(yǔ)言數(shù)據(jù)材料是語(yǔ)言檔案音頻數(shù)據(jù)庫(kù)建設(shè)的首要步驟,其中最核心的問(wèn)題是數(shù)據(jù)的典型性問(wèn)題。[5]
最具代表性的語(yǔ)言數(shù)據(jù)既能更準(zhǔn)確地反映相關(guān)類(lèi)屬語(yǔ)言檔案的典型特征,又能最大程度降低數(shù)據(jù)庫(kù)建設(shè)的成本,以最經(jīng)濟(jì)的數(shù)據(jù)樣本實(shí)現(xiàn)最大化的特征覆蓋。
如在設(shè)計(jì)詞表時(shí),可優(yōu)先選取雙音節(jié)詞,以便研究詞語(yǔ)的變調(diào)特征;在設(shè)計(jì)語(yǔ)篇朗讀材料時(shí),應(yīng)盡量涵蓋能反映韻律、音段等多特征在內(nèi)的多種句式。
2.2.2 建立發(fā)聲人信息檔案庫(kù)。發(fā)聲人語(yǔ)音的標(biāo)準(zhǔn)性是保證發(fā)聲人信息檔案庫(kù)科學(xué)性的關(guān)鍵。發(fā)聲人選取標(biāo)準(zhǔn)主要有三個(gè)方面:一是應(yīng)為常年生活在當(dāng)?shù)氐牡湫湍刚Z(yǔ)使用者,且固定家庭成員也應(yīng)為母語(yǔ)使用者;二是發(fā)聲人聽(tīng)力和發(fā)聲能力正常,無(wú)影響語(yǔ)音信息采集的相關(guān)疾病或缺陷;三是年齡段和性別分布相對(duì)平衡。
如在采集壯族歇后語(yǔ)語(yǔ)音數(shù)據(jù)時(shí),選取15-65歲間不同年齡段的本地母語(yǔ)使用者男女各10名,并進(jìn)行測(cè)試以確定發(fā)聲人發(fā)音符合要求。
2.2.3 采集語(yǔ)言數(shù)據(jù)。采集語(yǔ)言數(shù)據(jù)是建立語(yǔ)言檔案音頻數(shù)據(jù)庫(kù)的核心步驟,主要涉及采集地點(diǎn)的選取、采集設(shè)備的裝配及現(xiàn)場(chǎng)采集等關(guān)鍵問(wèn)題。傳統(tǒng)借助錄音筆的即時(shí)即地采集模式,雖相對(duì)便捷,但聲音質(zhì)量普遍不高,容易產(chǎn)生數(shù)據(jù)失真等問(wèn)題,從而影響語(yǔ)音數(shù)據(jù)的精準(zhǔn)性和后期可分析性。
因此,語(yǔ)言數(shù)據(jù)的采集應(yīng)在專(zhuān)業(yè)的場(chǎng)地由專(zhuān)業(yè)人員操作專(zhuān)業(yè)設(shè)備完成采集。除了聲音之外,還應(yīng)采集發(fā)聲人的表情和肢體動(dòng)作等輔助信息,優(yōu)化采集效果。
2.2.4 加工語(yǔ)言數(shù)據(jù)。這一步驟主要包括對(duì)采集數(shù)據(jù)的后期處理和校對(duì)歸檔兩部分。采集語(yǔ)言數(shù)據(jù)后,需要進(jìn)行后期處理,以保證數(shù)據(jù)的有效性,如刪除無(wú)效數(shù)據(jù)或?qū)Φ唾|(zhì)量音頻進(jìn)行降噪及削波等修繕處理等。此外,還要對(duì)采集數(shù)據(jù)進(jìn)行校對(duì)歸檔,確保數(shù)據(jù)信息的準(zhǔn)確性,如核驗(yàn)語(yǔ)音與目標(biāo)文本是否對(duì)應(yīng)、查缺補(bǔ)漏等。
2.2.5 管理和維護(hù)語(yǔ)言檔案。檔案的合理命名、編排及檢索對(duì)于語(yǔ)言檔案數(shù)據(jù)庫(kù)的集成化、高效化使用至關(guān)重要。如在對(duì)錄制的音頻數(shù)據(jù)命名時(shí)可包含發(fā)聲人的年齡、性別、材料名稱(chēng)、錄制時(shí)間及錄制地點(diǎn)等信息,以便快速識(shí)別和調(diào)取;鑒于多模態(tài)語(yǔ)言檔案的特殊性,定期對(duì)語(yǔ)言檔案實(shí)施維護(hù)也十分必要,如對(duì)損壞的音頻數(shù)據(jù)及時(shí)修復(fù)或補(bǔ)錄等。
參考文獻(xiàn):
[1]彭飛.基于格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)研究[J].北京檔案,2017(03): 26-28.
[2]石貞貞.符號(hào)學(xué)視域下多模態(tài)語(yǔ)言檔案建設(shè)研究.[J].山西檔案,2019(04): 84-86.
[3]劉永.檔案信息資源共享云體系建設(shè)的思考.[J].檔案管理,2017(06): 25-29.
[4]趙生輝,胡瑩.中國(guó)少數(shù)民族語(yǔ)言檔案雙語(yǔ)著錄規(guī)范研究[J].檔案管理,2019(02): 24-26.
[5]彭飛.澳大利亞少數(shù)民族語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)現(xiàn)狀及啟示[J].中國(guó)檔案,2019(11): 70-71.
(作者單位:王金海,廣西民族大學(xué)/鄭州航空工業(yè)管理學(xué)院;孟子惠,天津師范大學(xué)? 來(lái)稿日期:2020-12-19)