文 / 石貞貞
符號學視域下多模態(tài)語言檔案建設研究
文 / 石貞貞
隨著民族融合趨勢的加強,越來越多民族語言瀕危滅絕,記錄民族語言工作刻不容緩。現(xiàn)有語言檔案建設存在著搜索功能單一、缺少語音和圖像信息、資源不能共享、語言保真度低等問題?;诜枌W理論建設多模態(tài)語言檔案,建設多模態(tài)語言檔案館,包含字、圖、聲三位一體數(shù)據(jù)庫,可以最大程度保護、傳播、開發(fā)和利用瀕危語言。
符號學;多模態(tài);語言檔案
全球化背景下,中國的多元化語言日益趨于統(tǒng)一,眾多小語種瀕危。研究表明:“44種民族語言處于瀕危,9種已經(jīng)消亡?!盵1]但是目前關于保護瀕危語言的實踐活動還不夠深入,僅僅停留在學術層面對相關語言檔案文字材料進行撰寫、翻譯、注釋以及記錄。在這種保護層面上,入手點通常是語音、語法或者詞匯等某一個方面,而在整體研究上存在缺失;語言體系各個部分缺少必要聯(lián)系,缺乏相關度和統(tǒng)一性;其研究范式多憑借錄音或者文字,保護效果差強人意。
上海語言資源有聲檔案庫中僅存在上海不同區(qū)域使用的幾十個單音字;在中國科學院的多民族語言資料庫中,雖然建立了漢語、蒙語、維語和藏語的平行語料庫和形態(tài)庫,但這些資料僅是由781篇文章構成的文本信息?,F(xiàn)今國內(nèi)的語言檔案大多在不同程度上存在著語音原始情景信息的缺失,未曾嘗試用圖像或其它科技手段全方位地展示語言。就技術層而言,音頻和錄像等物理材料不夠理想,導致現(xiàn)存檔案保真度和清晰度還有待提升。
社會符號學認為語言是一種聽覺符號系統(tǒng),是人類在特定社會背景和歷史實踐中創(chuàng)造出來的富有獨特意義的表達系統(tǒng)。[2]因此,社會符號學認為,對于語言的研究不能局限于詞匯本身,還應當囊括非語言符號的語法,包含書面語、口語、圖表、音樂、圖像和動態(tài)影像等在內(nèi)的所有可以構建語言符號的資源。在符號學視角下,多種模態(tài)并非互相割裂,每種模態(tài)都屬于符號資源,最終將發(fā)展成為有意義、互相連接的網(wǎng)絡。此種意義還具有選擇性,所有模態(tài)或者模態(tài)之間的互動都可以表達獨特的意義。而這些多種模態(tài)的“符號語法”能夠使得人類建立起基于現(xiàn)實的心理圖像,并更好理解周圍發(fā)生的以及自身內(nèi)部經(jīng)驗。LIM認為,圖像語法包括四級單位,即作品(work)、圖式(figure)、情節(jié)(episode)和成員(member)。[3]而這四級單位是以語言符號作為構建的基礎。語言符號成為構建一切社會現(xiàn)實的基礎。
與傳統(tǒng)語言檔案相比,多模態(tài)語言檔案更加關注兩個問題:不同模態(tài)話語中各成分關系,嘗試建立跨模態(tài)關系框架,并對其進行分析;分析不同模態(tài)中的符號特征,并對不同模態(tài)中的語義進行清晰描述。多模態(tài)語言檔案建立并分析跨模態(tài)關系,第一步就是要對這種跨模態(tài)關系進行詳細統(tǒng)一的量化比較。通常而言,各模態(tài)符號特征的分析基礎往往是語義,如過程、情態(tài)等。
多模態(tài)的語境決定了符號活動語義選擇的多樣性。社會活動在不同語境下產(chǎn)生不同的語義需要,最終體現(xiàn)出截然不同的表達形式。因此建立多模態(tài)語言檔案數(shù)據(jù)庫有助于發(fā)現(xiàn)符號的類型規(guī)律,并據(jù)此改善話語行為:在一定語境下預測、引導并分析尚未出現(xiàn)的文化策略。另外,通過語音、圖像、文字等子數(shù)據(jù)庫建設,多模態(tài)語言檔案館可以完整、全面、立體呈現(xiàn)出該種語言特點,并深入挖掘此種語言背后的文化特征、社會意義。
與傳統(tǒng)數(shù)據(jù)庫不同,多模態(tài)語言檔案館所采集和保護的對象,將突破平面的紙質(zhì)文檔,試圖針對瀕危語言進行全方面立體全息錄入。[4]語言檔案在歷史發(fā)展中經(jīng)歷了兩次轉(zhuǎn)型。19世紀末期采用“描述語言學”——直接通過翻譯、聽寫、筆記等方法大量記錄語言。此方法不僅不利于傳播,用戶在查閱時,還存在諸多不便;另外在紙質(zhì)端,還存在著破損、受潮、遺失等問題,且保存成本高昂,需要投入巨大人力物力。這種文字檔案投入產(chǎn)出比較低,不利于常年實行。隨著科學技術的發(fā)展,人類可以使用多媒體等現(xiàn)代化技術對語言進行全面記錄,開始從“描述語言學”演變?yōu)椤坝涗浾Z言學”:將資料集中于PC端——方便用戶在任何時間、地點進行查閱,極大節(jié)省人力物力,并且資料不易遺失或損害。但現(xiàn)今對多媒體的利用還只停留在紙質(zhì)版的數(shù)字化,并沒有進一步利用多媒體進行語言資源的開發(fā)和保護。
多模態(tài)語言檔案數(shù)據(jù)庫不僅包括最為基礎的紙質(zhì)文檔數(shù)字化,而且包括視頻圖像和語音信息。用戶在利用多模態(tài)語言檔案數(shù)據(jù)庫查閱有關資料時,可以得到聲音、圖像、文字三位一體的全面信息,這將有利于語言的傳播和保護,讓語言分析變得更清晰、直觀,極大減少了誤差。
多模態(tài)數(shù)據(jù)庫的建立是包括錄音、攝像等多個系統(tǒng)與維度的立體構建過程。
1.調(diào)查設計材料。這一步驟中最為重要的是語言檔案數(shù)據(jù)庫的內(nèi)容選取。它必須選取具有代表性的語言或指定部分,概括出語音格局,在參考已有研究的基礎之上制定出每種語言特定的字表、詞表、句子和語篇。原則上所選的材料應為自然語言。在設計字表時,需要分為聲調(diào)、元音和輔音三個部分,盡量用小的語料庫覆蓋全部的語音及聲調(diào),縮小數(shù)據(jù)庫的冗雜。相較于字表的簡單,詞表優(yōu)先選用復雜的雙音節(jié)詞,方便研究語言的變調(diào);在句子和語篇設計方面有朗讀和表達部分。其中朗讀包括語言敘述的詩歌和民間故事;語篇部分要做好包括韻律、音段在內(nèi)的搭配,豐富句子多樣性;表達部分主要是“口述”,通過對一些常見話題的情景描述,記錄人與人交談或獨自表達時的語言數(shù)據(jù)。
2.建立發(fā)聲人信息檔案庫。這一步驟中最重要是要保證發(fā)聲人標準性。所采集的發(fā)聲人樣本應是將研究語言視為母語的當?shù)厝?、沒有長時間外出接觸其它語言,所共同生活的人也應使用同樣的語言,并且發(fā)聲人沒有患有影響聲音的疾病,聽力和發(fā)音器官都正常。
3.語言檔案采集。這是最關鍵的一環(huán)。傳統(tǒng)模式聲像采集中往往會出現(xiàn)錄音質(zhì)量不佳,數(shù)據(jù)失真的情況。為解決這個問題,錄音環(huán)境最好選在專業(yè)錄音棚,避免外界的干擾。另外,錄音還應該配有攝像頭和呼吸袋。這樣,我們除了聲音之外,還能捕捉發(fā)聲人的面部表情和嘴唇發(fā)聲的韻律,可以更好地對語言檔案進行采集。
4.語言檔案管理。對于龐雜的語料庫,管理需要經(jīng)過精心的設計;為了語音文件夾命名的規(guī)范化,我們可以進行有規(guī)律的編號與排列,以方便保存、分管與處理。
5.語言檔案分析。在分析之前,先要對所采集的數(shù)據(jù)進行過篩,如噪聲處理、長靜音空白和咳嗽聲等。另外,每次采集數(shù)據(jù)完畢后,都應該由發(fā)聲者或者另一位以研究語言為母語的人對錄音進行檢查,進行查漏補缺,隨后采用南開大學所研發(fā)的“桌上語音工作室”進行語音分析、測算和統(tǒng)計作圖。
相較于傳統(tǒng)的數(shù)據(jù)庫,多模態(tài)語言檔案數(shù)據(jù)庫不再局限于文本子數(shù)據(jù)庫,還包括語音子數(shù)據(jù)庫和圖像子數(shù)據(jù)庫兩個部分。
文本子數(shù)據(jù)庫為數(shù)據(jù)庫的基礎,主要目的是存放語言的字眼、詞句、段落等文本信息,并分析其屬性及相互之間的連接。
語音數(shù)據(jù)庫是數(shù)據(jù)庫最重要的部分,記錄了語言的語音信息及其語音屬性,涵括字眼、詞句、段落等的發(fā)音,以及在連讀情況下有無變調(diào)。語音特性比文本特性更為復雜,包括每一種語言獨特的音系特征、語調(diào)特征和字音特征。另外,在對語音數(shù)據(jù)庫分析后,人們可以通過語音進行檢索,迅速地找出該研究語言的變調(diào)、韻律等語音特點,可以更好地對研究語言和普通話進行雙向匹配。另外,語音檢索功能在數(shù)據(jù)庫的實際應用中,可以實現(xiàn)更好的用戶交互與體驗。
圖像子數(shù)據(jù)庫部分是對語音數(shù)據(jù)庫和文本數(shù)據(jù)庫的補充。通過發(fā)音人圖像的補充,可以使整個數(shù)據(jù)庫達到集成化效果。用戶在搜索數(shù)據(jù)庫中,不僅可以聽到聲音,看到文字,還能觀察發(fā)聲人的面部表情、體態(tài)等方面的視覺特征。這種三位一體的呈現(xiàn)方式,可以更加原汁原味體現(xiàn)方言內(nèi)涵及特征,避免創(chuàng)建數(shù)據(jù)庫過程中語言的失真問題,有效地對語言進行保護、管理、整合與利用。
這三個子數(shù)據(jù)庫互相獨立又互相影響,構成一個完整的、全新的數(shù)據(jù)庫。數(shù)據(jù)庫用戶可以分析、下載各類文件,輸出各類統(tǒng)計結果。
總體而言,符號學視角下多模態(tài)語言檔案建設還處于探索階段,現(xiàn)階段多數(shù)檔案建設還止步于文字的記錄和描述。胡壯麟教授曾在第十二屆全國功能語言學研討會上指出,“多模態(tài)”不僅有“科技含量”,還極具“難度”,實踐者需要“語言之外的涵養(yǎng)”??梢姡F(xiàn)階段進行多模態(tài)語言檔案的研究還存在著一定的難度。但是,在文化日益融合的今天,多模態(tài)語言檔案的建設是語言保護的必然趨勢。多模態(tài)語言檔案的研究不僅有助于瀕危語言的進一步保護,而且是對該類符號背后文化、意義、社會等人文核心問題的再次認知。構建多模態(tài)語言檔案建設最終將對社會整體的良性發(fā)展大有裨益。
[1]徐越.“浙江方言音檔”的構建及預期價值[J].浙江檔案,2012(1).
[2]李宇明.當今人類三大語言話題[J].云南師范大學學報(哲學社會科學版),2008(4).
[3]Spolsky,Bernard.Language Policy[M].Cambridge University Press,2004.
[4]張芳霖,湯曉良,謝雨菲.我國方言檔案式保護的SWOT分析[J].北京檔案,2016(2).
G270.7;H003
A
1005-9652(2017)04-0084-03
(責任編輯:虞志堅)
石貞貞(1982-),女,河南南陽人,南陽師范學院環(huán)境科學與旅游學院,研究方向:檔案管理。