黃成龍
(中國社會科學院民族學與人類學研究所 北京100081)
2018 年,國內外藏語研究在語言特征描寫與分析、語音描寫與語音演變研究、語音識別與合成、形態(tài)句法、自然語言處理、翻譯與語言應用研究等本體和應用研究方面發(fā)表了一些帶有前沿性的研究論文。本文擬從以下幾個方面簡要介紹2018年國內外藏語研究的前沿和最新動態(tài)。
2018年發(fā)表了4篇介紹文獻中藏語語音概貌、藏語研究現(xiàn)狀、展望與意義以及描寫藏語方言群語音特征、方言詞匯特征等方面的論文。
施向東在《<同文韻統(tǒng)>所見清初藏語概貌》一文中指出清代乾隆年間編撰成書的梵-藏-滿-漢對音工具書《同文韻統(tǒng)》,以藏文為樞紐聯(lián)通了梵-藏-滿-漢四種文字語音,為規(guī)范梵漢、藏漢、梵藏之間的對音提供了規(guī)則。該文通過此書提供的資料和線索,對清初藏語的概貌進行了探索[1]。
陳榮澤的《西藏民族大學的藏語研究:意義、內容與展望》回顧半個多世紀以來的藏學研究,認為藏語研究在科研、學科建設、教學中都有重要意義,應當重視藏語研究,通過積極推進科研隊伍建設、充分利用藏語資源、加強合作、加快人才培養(yǎng)、融入和搭建科研平臺等途徑加強藏語研究[2]。
鈴木博之的《康巴藏語崩波崗方言群及其語音特征》對康巴藏語的方言分類進行討論,并針對所謂的“南路次方言”進行重組,重新劃出“崩波崗方言群”。該方言群名稱源自藏族傳統(tǒng)地理區(qū)域,分布在康區(qū)南部,主要包括四川省甘孜州理塘縣、雅江縣、稻城縣及涼山州木里縣。通過與藏文的對比,此文闡明崩波崗方言群中的六個土話的語音概要和內部差異,以及與周邊其他方言群不同的特征[3]。
尹蔚彬的《夏爾巴話詞匯構造及特點》對我國西藏自治區(qū)聶拉木縣樟木鎮(zhèn)一帶的夏爾巴話詞匯進行了分析,提出夏爾巴話構詞分為復合、緊縮、附加和重疊法四種類型。同時,將其與拉薩話詞匯進行對比,認為夏爾巴話詞匯系統(tǒng)借詞多源,有一部分特色詞。上述特點支持其為藏語方言的一個土語[4]。
藏語語音描寫方面發(fā)表了4篇論文,包括清化鼻音、音系概況、新方言形成中的語音特征;語音歷史演變方面發(fā)表了3篇。
王雙成的《藏語的清化鼻音》指出藏語三大方言中,康方言及一些康方言和安多方言過渡地區(qū)的土語中存在常態(tài)鼻音和清化鼻音的對立,清化鼻音的來源是古藏語帶s-的鼻音組合sm-、sn-、s?-、s?-。同時,還從聲學特征、鼻腔氣流、語音信號等幾個方面對藏語常態(tài)鼻音、清化鼻音做了實驗分析,并對藏語清化鼻音的歷史來源及演變特征做了進一步探析[5]。
朗杰扎西的《松潘譯語(川一)語音現(xiàn)象初探》提出譯語所記錄的藏語音系可能系康方言為基礎的偏向書面語的藏語音系,而非學界目前推定的安多方言(農區(qū)話);清代至今300多年來松潘一帶藏語的某些語音已經(jīng)發(fā)生變化[6]。
昂色拉加的《藏語玉樹話(拉布)音系概況》通過對玉樹境內的稱多縣拉布鄉(xiāng)的調查,分析當?shù)胤窖缘穆曧嵳{系統(tǒng),指出其清、濁和半濁等聲母跟聲調共存且具有嚴格的對應關系,韻母結構相對簡單,部分聲母、韻母在多音節(jié)詞內有音變現(xiàn)象,可見,該方言的語音面貌整體呈現(xiàn)出一種過渡性的特征[7]。
楊大雪的《藏語若爾蓋話音系說明》從音系學和語音學的角度對若爾蓋話的音系進行描寫和分析。先簡要介紹當?shù)厝宋牡乩砗脱芯楷F(xiàn)狀,然后對聲母、韻母及音高模式進行描寫。最終認為若爾蓋話音節(jié)結構比較復雜,聲母和韻母比較多,沒有辨義的聲調,但是有固定的音高模式[8]。
楊大雪的《藏語若爾蓋話歷時音變概況》運用歷史比較法將若爾蓋話與藏文進行對比,觀察并總結其音變規(guī)律,具體描寫了若爾蓋話與藏文的語音對應情況,總體音變趨勢是音節(jié)結構趨向簡化,這樣的音變?yōu)槿魻柹w話帶來了一些同音詞,為保持原有的音位對立,若爾蓋話產生了一些補償機制。從演變階段來看,若爾蓋話很可能處于演變的中間階段,音節(jié)結構繼續(xù)簡化,并出現(xiàn)聲調萌芽跡象。這種演變的原因可能是由于濁音的清化;也可能是由于與周邊聲調語言,如西南官話和漢語普通話的接觸。具體的演變原因和機制,還有待進一步研究[9]。
比亞萊克(Bialek)在《原始藏語復輔音sL-和sR-與古藏語的歷史分期》在公元630 年代的文本中,早期的古藏語(EOT)一定有四個/s/+流音組成的復輔音:zr-、sr-、zl-和sl-。然而,在古藏語和古典藏語中,只發(fā)現(xiàn)sr-、zl-和sl-,而這些音都沒有在現(xiàn)代藏語口語中得到證實。為了找出早期古藏語的zr-怎么變化的,作者追蹤了古典藏語的sr-、zl-和sl-在現(xiàn)代方言中的反映。由于zland和sl發(fā)生了相互平行的變化,作者假設同樣的類推也適用于sr,以確定EOT開始zr-可能朝著什么方向發(fā)展。在重建了西部古代藏語(WAT)和安多藏語(AT)中最保守的方言的發(fā)展之后,他將這些發(fā)現(xiàn)與歷史事實并列,以幫助解釋藏語方言的現(xiàn)代分布。OT文獻中記錄的歷史事件,結合作者對古藏語早期語音變化的了解,確定重建變化年代的時間框架,從而使我們能夠構建古藏語的第一個嘗試性歷史分期[10]。
盧克斯(Elie Roux)和希爾特(Hélios Hildt)的《古典藏語音節(jié)分解算法描述與校驗》試圖在古典藏語中界定格式良好的音節(jié)邊界以進行拼寫檢查。音節(jié)的形式化使我們得以考察西部藏語與其他藏語語法書之間的細微差別。同時,作者對照他認為可靠的藏語詞典和《甘珠爾(Kangyur)》來檢查這些差異。研究了音節(jié)的分解方法,討論了模棱兩可的情況以及宗喀語音節(jié)的形成[11]。
語音識別與語音合成是當前國內外研究的熱點問題,藏語的識別與合成也非常活躍,這方面研究有11篇。
蘭義湧等人的《基于條件隨機場的藏文人名識別研究》首先分析了藏文人名的特點以及藏文人名識別的難點,在此基礎上,利用條件隨機場模型,分別提出了采用基于亞音節(jié)標注的藏文人名識別方法和分詞與詞性標注一體化的藏文人名識別方法[12]。
周雁、西繞多吉的《面向藏語聲紋識別的語料庫建設》結合藏語特點,設計、建立一個面向藏語聲紋識別的語料庫,包含文本相關、文本無關兩部分,文本語料來自新聞報刊、文學類、教育類、科技類、佛學類、歷史類和傳統(tǒng)文化五明類等文獻資料,為藏語的聲紋識別研究奠定一定的基礎[13]。
黃曉輝、李京、馬睿的《藏語口語語音語料庫的設計與研究》基于對普通語音語料庫構建方法的研究與分析,結合自然口語語音識別研究相關需求以及藏語自然口語語音的基本特點,研究設計了適用于藏語語音識別的口語語音語料庫建設方案以及相應的標注規(guī)范,并據(jù)此構建了時長50小時,包含音素、半音節(jié)、音節(jié)、藏文字以及語句共5層標注信息的藏語拉薩話口語語音語料庫。該語料庫在保留口語語音自然屬性的同時,對音素、半音節(jié)等常用語音建模單元也有均衡的覆蓋,為基于藏語口語語音數(shù)據(jù)的語音識別技術研究提供可靠的數(shù)據(jù)支撐[14]。
張夏夏和王蓓的《藏語拉薩話中焦點和疑問的韻律編碼方式》請8位藏語拉薩話母語人自然說出兩個目標句,包括疑問和陳述兩種語氣以及4種焦點條件(中性、句首、句中和句末焦點),通過音高、時長參數(shù)的聲學和統(tǒng)計分析,考察了拉薩話中焦點和疑問的韻律編碼方式。焦點在疑問句和陳述句中相同的編碼方式是:焦點詞音高升高、音域擴大且時長延長,而焦點前基本不變。不同的是:陳述句中焦點后有明顯的音高下降和音域壓縮,但疑問句中焦點后壓縮不穩(wěn)定。與相同焦點條件的陳述句相比,疑問語調整體有升高,焦點后的音高上升更穩(wěn)定;但焦點詞的音高在兩種語氣間沒有明顯區(qū)別。認為焦點后音高更多的是為了實現(xiàn)疑問語氣而升高,而不是為了突顯焦點而壓縮;焦點詞的音高不具備區(qū)別語氣的功能[15]。
拉巴頓珠等的《藏語同形異音詞的消歧方法研究》指出隨著藏語語音合成研究的深入,藏語同形異音詞的讀音問題成為影響合成系統(tǒng)自然度和可懂度的主要障礙。藏語同形異音詞與漢語中多音詞的性質有所不同,僅僅依靠詞典不一定能解決問題。該文從藏語本身獨有的語言規(guī)則和語音特點出發(fā),依據(jù)《藏漢大詞典》,在其所列出的常用藏語同形異音詞的基礎上,共收集整理了465個同形異音詞,然后從372320 個句子文本中統(tǒng)計出了同形異音詞在藏語文本中的出現(xiàn)頻率及不同讀音的使用頻率,并深度辨析了藏語同形異音詞的構詞形式、分類以及在具體文本中出現(xiàn)的形式,最后結合實例提出了具體的消歧方法及實驗結果,為語音合成系統(tǒng)的前端文本分析模塊提供了有力依據(jù)[16]。
卓嘎等的《藏語語音時域參數(shù)提取關鍵技術研究》介紹了藏語時域語音信號處理過程中的語音特征參數(shù)及其提取關鍵技術,包括短時平均能量、短時平均幅度、短時過零率、短時自相關函數(shù)和端點檢測等算法。分析了語音的時域特征參數(shù)在藏語語音分析中的實際應用[17]。
王德欣等的《基于LBG 的藏語字母識別算法研究》采用VQ 技術中LBG來實現(xiàn)對藏文字母的識別,并使用MATLAB R2014a 進行算法的仿真。此算法對已經(jīng)采集好的藏語30個字母的語音進行了語音預處理和端點檢測,并提取了MFCC 特征參數(shù),隨后開展識別工作[18]。
周楠等的《基于瓶頸特征的藏語拉薩話連續(xù)語音識別研究》基于從深度神經(jīng)網(wǎng)絡提取的瓶頸特征具有語音長時相關性和緊湊表示的特點,將瓶頸特征及其與MFCC 的復合特征用于藏語連續(xù)語音識別任務中,可以代替?zhèn)鹘y(tǒng)的MFCC特征進行GMMHMM聲學建模。在藏語拉薩話連續(xù)語音識別任務中的實驗表明,瓶頸特征的復合特征取得比深度神經(jīng)網(wǎng)絡后驗特征和單瓶頸特征更好的識別效果[19]。
都格草等的《基于譜減法的藏語語音減噪研究》認為語音信息的采集過程中難免會有各種噪聲的干擾,噪聲降低了語音的可懂度及清晰度,甚至嚴重影響語音處理的準確性和可靠性。譜減法是語音減噪中最常用的方法,該方法基于人的感覺特性,對語音短時幅度譜進行估計,適用于受加性噪聲污染的語音。該文通過統(tǒng)計分析譜減法的增益補償因子和過減因子參數(shù),研究基于譜減法的藏語語音減噪處理,并取得較為理想的實驗結果[20]。
黃曉輝、李京的《基于循環(huán)神經(jīng)網(wǎng)絡的藏語語音識別聲學模型》探索將循環(huán)神經(jīng)網(wǎng)絡和連接時序分類算法應用于藏語語音識別聲學建模,實現(xiàn)端到端的模型訓練。同時根據(jù)聲學模型輸入與輸出的關系,通過在隱含層輸出序列上引入時域卷積操作來對網(wǎng)絡隱含層時域展開步數(shù)進行約簡,從而有效提升模型的訓練與解碼效率。實驗結果顯示,與傳統(tǒng)基于隱馬爾可夫模型的聲學建模方法相比,循環(huán)神經(jīng)網(wǎng)絡模型在藏語拉薩話音素識別任務上具有更好的識別性能,而引入時域卷積操作的循環(huán)神經(jīng)網(wǎng)絡聲學模型在保持同等識別性能的情況下,擁有更高的訓練和解碼效率[21]。
趙悅等的《臨近最優(yōu)主動學習的藏語語音識別方法研究》基于主動學習的藏語拉薩話語音語料選擇方法,提出一種臨近最優(yōu)的批量樣本選擇目標函數(shù),并驗證其具有submodular函數(shù)性質。通過實驗驗證,該方法能夠使用較少的訓練數(shù)據(jù)保證語音識別模型的精度,從而減少人工標注語料的工作量[22]。
2018 年藏語形態(tài)句法方面的研究論文不多,只有3篇,包括多動詞謂語、示證以及差比等問題,每篇研究針對具體的范疇與結構,具有前沿性。
瞿靄堂、勁松的《藏語多動詞謂語句的認知基礎和模塊化》從類型學的視角,使用認知語言學的方法,對藏語的多動詞謂語句這類句子定性定義,并全面、系統(tǒng)、綜合地從內容上探討它的性質、特點和類型,從形式上探討它的模塊化及其語音變化方式,從歷史上探討它的形成和演變[23]。
蔡斯勒(Bettina Zeisler)的《別相信你自己沒熟練掌握的詞形變化——拉達克藏語的示證、言者態(tài)度與不確定性(admirativity)》指出言者可以從認知、示證和態(tài)度三個不同的“視角”概念化表達一種情景。在描述這些概念范疇以及語法化過程中,一個概念如何擴展到其他兩個概念因語言而異?,F(xiàn)代藏語,包括拉達克方言被認為有語法化的示證范疇。然而,由于藏語中說話人的態(tài)度與示證語法化為一個標記,而基于感知的知識與基于推理的知識具有共同特征,所以藏語的“示證”系統(tǒng)不同于類型學中常見的類型。以這一發(fā)展脈絡為起點,似乎在類型上相當罕見的“示證系統(tǒng)”是不承諾(或不確定)的詞匯標記:助詞h.dug[24]。
汪嵐的《德欽藏語的差比句》指出德欽藏語差比句的基本語序類型為“比較基準(St)+比較標記(M)+比較結果(A)”,不同的句式中語序會有不同的變化:在差比句的肯定形式中典型結構為St+M+S+A,否定形式與是非問形式的語序分別為S+St+M+(NEG)A(NEG)與St+M+S+(INTER)A(INTER)。差比標記由古藏語方位詞sɡa?(上面/在……上面)語法化而來[25]。
李永斌的《西藏小學雙語教學的銜接問題及對策——以拉薩市的調查為例》從拉薩市小學的調查出發(fā),討論西藏小學生學前階段的雙語基礎,小學階段的校園、家庭、生活的雙語特點及其水平等,分析并提出西藏小學雙語教學的銜接問題及相應對策。強調重視學前雙語教學尤其是學生普通話能力的提高;重視小學一至三年級普通話聽說與藏語讀寫能力的培養(yǎng)。注重寓教于樂,豐富不同年級學生的普通話交流。小學四至六年級應注重學生藏漢雙語特別是普通話讀寫能力的培養(yǎng)[26]。
甘永濤的《西藏雙語教育政策績效及其影響因素——基于拉薩、山南兩市10所中小學的調查》通過問卷調查、訪談、文獻法等研究方法選取西藏拉薩、山南兩市10所中小學為例,對以上指標進行分析,得到研究結果并發(fā)現(xiàn)問題,進而給出相應的政策建議,以完善雙語教育政策,實現(xiàn)少數(shù)民族雙語教育更高質量的發(fā)展[27]。
陳兵兵的《藏漢雙語專業(yè)學生藏文學習探索研究》運用文獻查閱、訪談和問卷調查研究方法,對物理學藏漢雙語專業(yè)學生在藏文學習能力方面進行了探索研究。文章首先介紹了甘孜藏區(qū)雙語教育現(xiàn)狀和雙語師資情況,然后根據(jù)問卷調查對雙語學生藏文學習能力現(xiàn)狀進行分析,找出原因,最后,結合學校的實際情況制定相應的解決對策。通過該文探索研究,期望找到理科雙語學生藏文學習的有效方法,為以后類似問題的研究提供一些經(jīng)驗[28]。
陳建林的《藏族學生英語三語寫作中母語和漢語作用研究》藏族學生英語三語(L3)習得受到母語藏語(L1)和第二語言漢語(L2)的雙重影響。以多語交互影響研究者提出的類型近似模型、第二語言主導模型和累積增強模型為理論基礎,收集L2水平不同的藏族L3學習者的作文語料,從流利度、詞匯豐富度和詞語錯誤率等三個維度對比分析。結果表明L1 和L2 在L3 寫作中發(fā)揮了不同的作用;L1 在作文構思階段發(fā)揮作用;L2 水平越高,詞匯錯誤率越低,但L2 水平在詞匯豐富度上并不具有區(qū)分力;教學媒介語對L3 也會產生一定影響。這一結論對于藏區(qū)英語教學具有一定的啟示[29]。
馬啟龍的《現(xiàn)狀、問題與改革:問診甘肅省藏區(qū)藏漢雙語教育》是一篇“藏漢雙語教育研討會”的綜述文章,認為甘肅省藏區(qū)藏漢雙語教育以藏語為主、以漢語為主和普通類三類教育模式并存;部分縣市的小學、中學的師生比例較低。指出了甘肅省藏區(qū)藏漢雙語教育存在的問題:雙語教師緊缺;雙語教師專業(yè)發(fā)展緩慢;雙語輔助教材匱乏;縣鄉(xiāng)差異明顯;高考升學錄取率低;鄉(xiāng)級學校硬件設施薄弱。分享了藏漢雙語教育實踐探索,即專門成立雙語協(xié)調機構;明確辦學定位、目標和特色;加強學校雙語文化建設工作;雙語教師專業(yè)發(fā)展的具體辦法;深入開展民族團結教育。提出了推進甘肅省藏區(qū)藏漢雙語教育改革的思路:深入推進義務教育均衡發(fā)展;進一步認識雙語教育的重要意義;解決雙語教師結構性短缺問題;加快雙語教材和教輔資料建設;加強雙語教研教改[30]。
徐蘇的《藏-漢-英三語視域下藏族學生英語教學模式探究》在“三語習得”視域下分析了藏族學生英語學習特征及現(xiàn)狀,提出了有針對性地開展以母語藏語為媒介語的英語教學策略,以及激發(fā)藏族學生英語學習動機和培養(yǎng)藏族學生多語言心理及多文化意識的途徑[31]。
王寶紅的《“御制五體清文鑒·漢藏文鑒專輯”中的藏語漢借詞》以《御制五體清文鑒·漢藏文鑒專輯》中所收藏文詞目中有不少借自漢語的詞,或含有漢語音譯的成分,這些藏語漢借詞或借用成分,有些在中古已出現(xiàn),有些則是元明以后進入藏語的。部分藏文詞語中既含滿語成分,又有漢語或藏語的成分,從而形成滿藏或滿藏漢“合璧詞”?!稘h藏文鑒專輯》中的藏語漢借詞或漢語成分的數(shù)量并不算多,從詞性來看,借用的詞語或構詞成分以名詞性成分居多,動詞借用甚少。藏語漢語詞有些是漢文化中獨有的詞語,所指事物是藏文化所缺少的。藏語在吸收漢語借詞時,會改造漢語的語音以適應藏語的語音系統(tǒng)。搜羅整理這些資料,分析這一時期藏語書面語吸收漢語的一些特點,有助于清代藏語書面語的研究,也有助于今人了解這一時期藏漢語交融的程度[32]。
李永斌的《藏漢語碼混用詞類與結構》指出藏漢語碼混用在詞類上,首先以名詞為主,其次是數(shù)詞和量詞,其他詞類的混用較少?;煊玫臐h語語碼在藏語句子中主要處在主語、謂語和賓語位置,相關后綴未見與所混用的漢語語碼結合表示語法關系,相關虛詞則可在混用語碼前后表示某種語法意義[33]。
周洋的《云南水磨房話的格標記及其來源》認為云南省香格里拉市三壩鄉(xiāng)安南村的水磨房話是一種詞匯系統(tǒng)以漢語為主、語法系統(tǒng)高度藏語化的混合語。水磨房話具有嚴格的OV 型基本語序和一套后置詞格標記系統(tǒng),主要標記的是施事-工具-從格、受事-與事格、伴隨格、替代格、比較格和處所格等六個大類。其格標記系統(tǒng)的形式來源以內部發(fā)展為主、外部借用為輔[34]。
自然語言處理也是當前的研究熱點之一,2018年自然語言處理(NLP)進一步在藏語研究中應用,共有12篇文章涉及這一領域。
李博涵等的《基于深度學習的藏文分詞方法》采用多種深度神經(jīng)網(wǎng)絡模型,包括循環(huán)神經(jīng)網(wǎng)絡(RNN)、雙向循環(huán)神經(jīng)網(wǎng)絡(Bi RNN)、層疊循環(huán)神經(jīng)網(wǎng)絡(Stacked RNN)、長短期記憶模型(LSTM)和編碼器—標注器長短期記憶模型(Encoder-Labeler LSTM)。多種模型在以法律文本、政府公文、新聞為主的分詞語料中進行實驗。實驗數(shù)據(jù)表明,編碼器—標注器長短期記憶模型得到的分詞結果最好,分詞準確率可以達到92.96%,召回率為93.30%,F(xiàn)值為93.13%[35]。
珠杰等的《論元角色的藏語語義角色標注研究》借鑒PropBank 標注規(guī)范和語義角色分析理論,探討了藏語語義角色標注問題。先按照PropBank標注規(guī)范對藏語簡單句進行了語義角色標注;然后,依據(jù)藏語動詞的語義類別,研究了藏文語義角色框架文件建設的可行性;最后,結合藏語動詞分析理論和格語法理論,在PropBank 標記基礎上研究了藏語特殊語義角色標記規(guī)范和標記方式[36]。
才華等的《論藏文格結構體及其語法功能》通過Fillmore 格語法與藏語傳統(tǒng)語法的比較研究,提出一種新的藏語語法單位即格結構體,并證實格結構體才是藏語句子最直接的組成成分的觀點。該研究對藏語語法研究和藏語自然語言處理具有一定的參考價值[37]。
萬福成等的《融合事件特征及語義角色標注的藏文信息抽取技術》在藏語短語句法分析的基礎上,融入功能語義信息線索,采用在藏語短語句法樹庫的基礎上加入語義角色標注的方法,并融合事件觸發(fā)詞信息,對藏文信息進行抽取,并通過實驗進行了對比分析。該文事件特征融合與已標注信息對藏文信息抽取有所幫助,該模型可以很好地應用于藏文信息抽取工作[38]。
仁青卓么的《藏語動詞短語結構類型統(tǒng)計研究》以藏語動詞短語的結構類型、語法規(guī)則、語義分析等內容為主,建立了一個以結構和句法特征為主,兼顧語法和語義信息的藏語動詞短語信息庫,運用語料分析軟件對提取的9962個藏語動詞短語進行了計量分析,通過分類、比較、分析,得出一個較為完整的短語結構功能分類體系[39]。
扎西吉等的《藏語判斷句的句法結構樹構建方法》指出句法分析的研究一直是中文信息處理的重要領域,也是自然語言處理中一個重要的基礎性任務。在機器翻譯、信息抽取、語義檢索和問答系統(tǒng)等很多的領域都有著廣泛的應用前景,并且對句法分析提出了迫切的需求。文章通過分析藏語判斷句的特征,構造了其句法樹生成規(guī)則,并通過PCFG解決句法歧義問題,即從歧義中選擇概率最大的句法結構,最后通過CYK 算法進行解碼自動生成判斷句句法結構樹[40]。
頭旦才讓等的《藏語依存樹庫的構建技術研究》在收集和整理1 萬句藏語分詞標注語料基礎上,研究了藏語依存樹庫構建技術和方法,根據(jù)指定的藏語依存句法標注集和藏語依存句法標注工具,建立了規(guī)模為1 萬句、詞語總數(shù)為119,510 個、平均句長為12 個詞的藏語依存樹庫,并對建立的藏語依存樹庫進行了詞類分布統(tǒng)計[41]。
尕藏扎西、安見才讓的《基于CYK的藏語句法分析器研究與實現(xiàn)》根據(jù)常用的藏文短語,總結出一套基于短語結構語法的藏文單句規(guī)則庫,然后在Windows 平臺上用C#實現(xiàn)基于CYK算法來分析和生成句法樹的藏語句法分析器。實驗結果表明,在人工標注的測試集上,藏語單句的句法分析準確率達到了81%[42]。
閆曉東、黃濤的《基于情感詞典的藏語文本句子情感分類》通過借鑒中文及英文情感分析中基于極性詞典的方法來對藏文句子文本進行情感分析。首先通過人工的方法構建了一個全面、高效的極性詞典,包括基礎詞詞典、否定詞詞典、雙重否定詞詞典、程度副詞詞典以及轉折詞詞典,將極性詞與修飾詞組合成極性短語作為極性計算的基本單元,并研究了轉折詞對句子情感極性的影響,提出了一種基于極性詞典的藏語文本句子情感分析方法。實驗結果表明,利用該文構建的詞典進行的傾向性分析效果良好[43]。
肖維霖的《基于文獻計量的藏語自然語言處理研究分析》通過以中國知網(wǎng)為數(shù)據(jù)源,下載了所有與藏語自然語言處理相關的文章,用文獻計量學的方法從論文數(shù)量規(guī)律、機構發(fā)展、主題研究、作者分析四個方面初步分析了我國在藏語自然語言處理方面的研究發(fā)展情況[44]。
才藏太等的《面向語言信息處理的藏語短語及其分類方法研究》在藏語短語與藏語句子的界線研究的基礎上,根據(jù)藏語信息處理的特點和要求,按照語法功能和便于計算機自動分析和處理的原則對短語進行分類,并規(guī)定了信息處理中藏語短語類別單位的標記代碼[45]。
完么扎西、尼瑪扎西的《現(xiàn)代藏語名詞性短語結構規(guī)則研究》在深入研究藏語語法的基礎上,通過對藏語真實語料的統(tǒng)計和分析,歸納了現(xiàn)代藏語名詞性短語的2種典型結構類型及9種具體組合模式,并面向藏語計算語言學的實際需求,借鑒現(xiàn)代漢語短語結構規(guī)則研究方法,嘗試以形式化的方式對現(xiàn)代藏語名詞性短語的整體性質及對其內部組成成分約束條件進行了全面的描述[46]。
翻譯涉及文獻、文學、電影、人名、地名等內容,這里僅介紹幾篇古藏文讀譯,人名譯名規(guī)范化方面的論文。語言應用研究包括語言使用現(xiàn)狀、語言接觸、語言習得等問題。
陳踐的《吐蕃古藏文讀譯窺見》從五個方面提供閱讀和翻譯古藏文文獻的參考意見,不僅注意古藏文相同發(fā)音部位舌根音不送氣清音與送氣清音、濁音可以交替,還要了解敦煌漢譯藏的文獻是解讀“舊詞”的最佳辭典。同時,她認為了解一些安多藏語對解讀古文獻有裨益,注重原文的歷史背景和譯文的邏輯關系,要勤向有生產經(jīng)驗的藏族同胞討教[47]。
巴德群珠的譯文《了解象雄語:最基本的途徑》在涉及藏學的文獻中不時會討論到象雄語,象雄語是否是一種死語言。當然從某種意義上說,只要還有人以任何方式使用一種語言,或者嘗試學習和使用一種語言,就不能視之為完全死亡。研究者要考慮的問題是:今天我們是否還有可能了解象雄語這種在7世紀或8世紀吐蕃西部象雄王國沒落前后綿延幾世紀的語言。試圖回答這一問題需要考慮這種語言早期存在的證據(jù),以及手稿傳承、詞匯量、藏緬語對比之中的問題,還要考慮專注于詞匯而非形態(tài)學,用《斯巴卓浦》來說明當前面臨的各種障礙。除了這些問題之外,在探索知識的過程中要秉持一定的樂觀精神[48]。
龍從軍、豆格才讓、劉匯丹的《漢-藏人名用字音譯規(guī)則研究》指出隨著信息技術的發(fā)展,藏文在互聯(lián)網(wǎng)上廣泛使用,政府主辦的報刊也逐漸有了網(wǎng)絡版,大量的漢文材料被翻譯成藏文。翻譯者在音譯漢文人名用字時,未能遵從統(tǒng)一的音譯規(guī)范,導致同一人名存在多種音譯形式。該文統(tǒng)計了五家藏文網(wǎng)站,發(fā)現(xiàn)一些公眾人物的人名用字音譯形式比較混亂,不但影響信息交流,而且不利于藏文自然語言處理。該文詳細分析了音譯混亂的原因,提出在漢-藏人名用字音譯時,需要制定一一對應的音譯原則;同時注重原則實踐的可行性和一致性。翻譯者在音譯漢-藏人名用字時必須嚴格遵從音譯原則;推行音譯原則還需要依靠相關政府機構和部門[49]。
仁增等的《藏語人名漢譯規(guī)范化研究》指出人名是特殊詞語,是一個民族文化的載體,其中蘊含著多種文化信息。因此,其翻譯不同于一般詞語的翻譯,應特殊對待。但進行藏語人名漢譯時,由于缺乏統(tǒng)一的譯寫規(guī)則與管理等原因,譯者各行其是,造成了一定的混亂,這既不利于交流和藏文化的健康發(fā)展,也不利于漢語文的規(guī)范。該文就此展開研究,對藏語人名漢譯及其規(guī)范化問題提出了自己的初步看法,旨在人名翻譯趨于規(guī)范[50]。
王富銀、史文潔的《云南省迪慶州藏族語言使用現(xiàn)狀調查研究》以云南省迪慶州的藏族為研究對象,從藏語、漢語方言和普通話使用情況、語言習得狀況、漢語學習途徑、學校語言教育狀況和語言態(tài)度五個方面,調查云南省迪慶州藏族的語言使用現(xiàn)狀。他們認為迪慶藏族尤其是年輕一代的藏語使用能力有弱化傾向,漢語在交際中的地位有所增強。造成這種現(xiàn)象的原因是多方面的,既有社會發(fā)展與民族雜居的因素,也有教育水平提高和語言態(tài)度轉變的因素。進行合理的少數(shù)民族語言規(guī)劃,釆取必要的語言政策和行動措施,是保護、扶持和促進少數(shù)民族語言傳承與發(fā)展的有效途徑[51]。
甘永濤等的《學生個性特征對藏語態(tài)度和習得的影響:四川省甘孜藏族自治州調查》從語言態(tài)度的角度,對學生語言習得中個體差異進行了實證分析。采用單因素方差分析(ANOVA)方法分析了個體特征對語言態(tài)度和語言學習的影響。最后,對語言態(tài)度和語言習得數(shù)據(jù)進行回歸分析[52]。
從2018年國內外藏語研究的最新動態(tài)和前沿問題研究來看,藏語研究在本體研究方面主要集中在語音的描寫和語音演變的研究上,詞匯、語法以及語言接觸方面研究成果較少。雙語教育、語音識別與合成、自然語言處理等應用研究越來越活躍,其成果越來越多。未來研究重點仍將是藏語語音識別與合成、機器翻譯、人工智能等領域,然而,藏語語音、詞匯、語法本體研究還需要進一步加強。