文|刁毅剛 趙東巖 賈愛霞
新華社少數(shù)民族語言新媒體工程標準規(guī)范研制綜述
文|刁毅剛 趙東巖 賈愛霞
《少數(shù)民族語言新媒體工程》(一期)依托分社維文、蒙文、藏文、朝鮮文和中英文新媒體產(chǎn)品加工與發(fā)布中心的建設工作,以進一步繁榮和發(fā)展少數(shù)民族文化事業(yè),推動社會主義文化大發(fā)展大繁榮,促進各民族團結與融合為目標,依托713實驗室新媒體創(chuàng)新工作,研發(fā)面向少數(shù)民族地區(qū)民文語言處理、新媒體創(chuàng)新、社會維穩(wěn)等應用環(huán)節(jié)的創(chuàng)新產(chǎn)品和共性技術模塊,增強少數(shù)民族地區(qū)、周邊中亞、東南亞和東亞鄰國地區(qū)的新聞信息集成服務能力,配合新疆、西藏、內(nèi)蒙古、吉林等地方政府做好地區(qū)維穩(wěn)工作。
《少數(shù)民族語言新媒體工程標準規(guī)范研制》是《少數(shù)民族語言新媒體工程》(一期)的一個子項,它是基于我國少數(shù)民族語言應用越來越廣泛、相關應用研發(fā)缺少統(tǒng)一規(guī)范的現(xiàn)狀,按照“需求主導、標準先行”的指導思想而提出的。本子項主要研制《少數(shù)民族語言新媒體工程》的標準體系和重要技術標準規(guī)范,開展民文新媒體標準體系和重要標準的編制工作,為研發(fā)面向少數(shù)民族地區(qū)民文語言處理、新媒體創(chuàng)新、社會維穩(wěn)等應用環(huán)節(jié)的創(chuàng)新產(chǎn)品提供堅實基礎,形成數(shù)據(jù)共享、應用復用的良好環(huán)境,提高相關產(chǎn)品的研發(fā)和應用成本。
根據(jù)《少數(shù)民族語言新媒體工程》(一期)的規(guī)劃和新華社新媒體應用的具體情況,本子項的主要目標是,建立《少數(shù)民族語言新媒體工程標準規(guī)范》的標準體系表,并選擇維吾爾文、藏文、蒙文和朝文四種影響力較大、應用較廣的少數(shù)民族文,研制需求較為緊迫的四種規(guī)范,并對少數(shù)民族語言的語音合成研究狀況進行調研。
基于以上背景,《少數(shù)民族語言新媒體工程標準規(guī)范研制》子項的具體研制內(nèi)容如下:基于維吾爾文、藏文、蒙文和朝文,編制《少數(shù)民族語言新媒體工程標準體系表》、制定《少數(shù)民族文字的新媒體終端顯示拼字符規(guī)范》《少數(shù)民族文字新媒體跨平臺編碼轉換規(guī)范》《少數(shù)民族文字新媒體系統(tǒng)界面術語規(guī)范》和《少數(shù)民族文字新媒體終端文字顯示規(guī)范》四項技術標準,并對《少數(shù)民族文字語音合成技術》形成調研報告。
《少數(shù)民族語言新媒體工程標準規(guī)范》的研制原則為采納國內(nèi)外最新的相關研究成果,結合少數(shù)民族語言在國內(nèi)外信息系統(tǒng)中的應用情況,與現(xiàn)行的國內(nèi)外技術標準盡量接軌,方便國內(nèi)少數(shù)民族語言信息系統(tǒng)、特別是新華社少數(shù)民族語言新媒體工程的應用。
《少數(shù)民族語言新媒體工程標準規(guī)范》的研制根據(jù)工程建設總體框架及相關技術,結合國內(nèi)外相關研究成果,提出我國少數(shù)民族語言新媒體工程建設的標準體系表,歸納總結工程建設中需要引用,制定和剪裁使用的標準規(guī)范,以保證今后在工程的建設和運維過程中正確配置和使用少數(shù)民族語言標準。
《少數(shù)民族語言新媒體工程標準體系表》根據(jù)少數(shù)民族語言新媒體工程建設總體框架及相關技術,結合國內(nèi)外相關研究成果,研制維、藏、蒙、朝四種少數(shù)民族語言在新華社新媒體應用環(huán)境下的相關軟件規(guī)范,歸納總結工程建設中需要引用、制定和剪裁使用的標準規(guī)范,并根據(jù)標準規(guī)范之間的內(nèi)在聯(lián)系,形成科學的有機整體,對新華社少數(shù)民族語言新媒體工程的相關應用起到規(guī)范、統(tǒng)一的作用,以期使相關少數(shù)民族語言的應用研發(fā)有章可循。本標準體系適用于新華社少數(shù)民族語言新媒體工程標準和規(guī)范的規(guī)劃、編制和修訂。
《少數(shù)民族文字的新媒體終端顯示拼字符規(guī)范》《少數(shù)民族文字新媒體跨平臺編碼轉換規(guī)范》《少數(shù)民族文字新媒體系統(tǒng)界面術語規(guī)范》和《少數(shù)民族文字新媒體終端文字顯示規(guī)范》四項技術規(guī)范,主要關注少數(shù)民族語言新媒體工程中最為基礎的文字編碼、系統(tǒng)界面術語、文字顯現(xiàn)等問題,研制相關規(guī)范。
隨著少數(shù)民族語言應用的深入,語音合成也逐漸引起人們的關注。鑒于該項技術尚不夠成熟,本課題在進行技術調研的基礎之上,形成《少數(shù)民族文字語音合成技術》調研報告。
4.1 《少數(shù)民族語言新媒體工程標準體系表》
《少數(shù)民族語言新媒體工程標準體系表》將新華社少數(shù)民族語言新媒體工程中特有的、目前和未來可能涉及到的軟件規(guī)范,如《少數(shù)民族語言新媒體工程終端顯示拼字符規(guī)范》《少數(shù)民族語言新媒體工程跨平臺編碼轉換規(guī)范》《少數(shù)民族語言新媒體工程界面術語規(guī)范》《少數(shù)民族語言新媒體工程終端文字顯示規(guī)范》《少數(shù)民族語言新媒體工程語音合成規(guī)范》等按照一定形式排列起來的圖表。該圖表目前涉及維吾爾文、藏文、蒙文和朝鮮文等四種語言的相關規(guī)范,具有一定的邏輯結構,反映各規(guī)范之間的關聯(lián)關系。該圖表還具有一定的擴展性,未來可包括更多少數(shù)民族語言、更多其他相關軟件規(guī)范,并形成有機邏輯整體。
《少數(shù)民族語言新媒體工程標準體系表》具體規(guī)范了體系表的范圍、參考模型、結構與層次、標準體系框架及框架明細表。
4.2 《少數(shù)民族文字新媒體跨平臺編碼轉換規(guī)范》
《少數(shù)民族文字新媒體跨平臺編碼轉換規(guī)范》規(guī)定了維吾爾文、藏文、蒙古文和朝鮮文的跨平臺編碼轉換方法和規(guī)定,適用于新華社少數(shù)民族語言新媒體系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文的信息處理。
維吾爾文跨平臺編碼規(guī)則:“新華社少數(shù)民族語言新媒體工程”中維吾爾文字符采用《信息技術 維吾爾文、哈薩克文、柯爾克孜文編碼字符集》(GB 21669-2008)中規(guī)定的編碼。采用其他編碼的內(nèi)容進行交換時轉換為上述規(guī)定的編碼。
藏文跨平臺編碼規(guī)則:“新華社少數(shù)民族語言新媒體工程”中的藏文字符采用《信息技術 信息交換用藏文編碼字符集 基本集》(GB 16959-1997)、《信息技術 藏文編碼字符集 擴充集A》(GB/T 20542-2006)、《信息技術 藏文編碼字符集 擴充集B》(GB/T 22238-2008)中規(guī)定的編碼。其他藏文編碼的內(nèi)容進行交換時應轉換為上述規(guī)定的編碼。信息檢索等系統(tǒng)應能夠處理信息交換用藏文編碼字符集基本集與擴充集A、B中不同編碼表示的字符。
蒙古文跨平臺編碼規(guī)則:“新華社少數(shù)民族語言新媒體工程”中蒙古文字符采用《信息技術 通用多八位編碼字符集(UCS)》(GB13000-2010)中規(guī)定的編碼,變形顯現(xiàn)表示應符合《信息技術 蒙古文變形顯現(xiàn)字符集和控制字符使用規(guī)則》(GB/T 26226-2010)中的規(guī)定。其他蒙古文編碼的內(nèi)容進行交換時應轉換為上述規(guī)定的編碼。
朝鮮文跨平臺編碼規(guī)則:“新華社少數(shù)民族語言新媒體工程”中朝鮮文字符采用《信息技術 通用多八位編碼字符集(UCS)》(GB 13000)中規(guī)定的編碼。采用《信息交換用朝鮮文字編碼字符集》(GB 12052-1989)編碼和其他編碼的內(nèi)容,進行交換時應轉換為上述中規(guī)定的編碼。
4.3 《少數(shù)民族語言新媒體工程界面術語規(guī)范》
本規(guī)范規(guī)定了新華社少數(shù)民族語言新媒體工程系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文應用軟件應使用的界面術語。
本規(guī)范依據(jù)軟件操作的類別,從邏輯上將常用系統(tǒng)界面術語分為9個類別,即操作系統(tǒng)類、通用類、文檔編輯類、WEB類、郵件類、電商類、音視頻類、閱讀類以及社交網(wǎng)絡類。每個類別還包含多個子類別,形成一個多層次的邏輯結構。本規(guī)范依次說明每個類別所包含的系統(tǒng)界面術語。對于每一個術語,給出其中、英文名稱和含義,然后以維、藏、蒙、朝次序依次給出對應文種的規(guī)范術語。
4.4 《少數(shù)民族語言新媒體工程終端文字顯示規(guī)范》
本規(guī)范規(guī)定了新華社少數(shù)民族語言新媒體工程系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文的字符終端顯示字形的要求。本規(guī)范適用于新華社少數(shù)民族語言新媒體工程系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文的信息處理。
終端顯示字形的基本要求:本規(guī)范規(guī)定了對顯示字庫、終端顯示字型質量和點陣尺寸的要求。
不同文種的混排:本規(guī)范規(guī)定了不同文種混排時對字符大小和字符相對位置的要求。
字體修飾效果:本規(guī)范規(guī)定了對維、藏、蒙、朝文字進行修飾處理(如空心字、溝邊字等)時的要求。
4.5 《少數(shù)民族語言新媒體工程終端顯示拼字符規(guī)范》
本規(guī)范規(guī)定了新華社少數(shù)民族語言新媒體工程系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文的組合字符的字形拼字方法和規(guī)定。本規(guī)范適用于新華社少數(shù)民族語言新媒體工程系統(tǒng)中維吾爾文、藏文、蒙古文和朝鮮文的信息處理。
維吾爾文拼字規(guī)則定義了維吾爾文字母各種顯現(xiàn)形式連接的方法:按照GB 21669-2008《信息技術 維吾爾文、哈薩克文、柯爾克孜文編碼字符集》中的規(guī)定,使用詞首、詞中、詞末等顯現(xiàn)形式顯示字符。字母變形顯現(xiàn)形式的字形應符合GB13000、GB 21669-2008以及相應的維吾爾文字型國家標準。并對組成詞時的拼接質量提出了要求。
藏文組合字符拼字規(guī)則:定義了藏文字母縱向組合的方法,規(guī)定了前導符與組合字符的縱向組合字的規(guī)則、組合字的基線位置、多字母組合的質量要求,以及與組合字符的要求。
蒙古文組合字符拼字規(guī)則:按照GB 25914-2010《信息技術 傳統(tǒng)蒙古文名義字符、變形顯現(xiàn)字符和控制字符使用規(guī)則》中的規(guī)定,使用詞首、詞中、詞末的顯現(xiàn)形式顯示字符,字母變形顯現(xiàn)形式的字形應符合GB13000、GB 25914-2010以及相應的蒙古文字型國家標準;并對組成詞時的拼接質量提出了要求。
朝鮮文字符拼字規(guī)則:一般不需要拼字。
4.6 《少數(shù)民族語言新媒體工程語音合成技術調研報告》
少數(shù)民族語音合成技術在文本分析、韻律分析、語音合成、語料庫建立等方面進行了廣泛的探索和研究,取得了可喜的成績,但是由于缺乏少數(shù)民族語言語音合成的通用技術規(guī)范,業(yè)界缺乏比較通用的針對藏語、蒙語、維語、朝鮮語等少數(shù)民族語言的語音合成軟件和技術,語音合成效果難以量化。本次少數(shù)民族語言新媒體工程項目對維、藏、蒙、朝等少數(shù)民族語言的語音合成形成了調研報告,如何研制針對少數(shù)民族語言的語音合成規(guī)范、如何對語音合成效果進行量化表示、如何開發(fā)業(yè)界通用的語音合成軟件這也是少數(shù)民族語言語音處理領域未來的重要研究方向之一。
本次研制的新華社《少數(shù)民族語言新媒體工程標準規(guī)范》搭建了少數(shù)民族語言新媒體工程標準體系的框架,為今后的相關標準研制提供了頂層設計依據(jù)。
本次研制的多項標準規(guī)范,可應用于新華社少數(shù)民族類應用平臺的相關軟件設計和研發(fā)過程中?!渡贁?shù)民族語言新媒體工程跨平臺編碼轉換規(guī)范》可用于規(guī)范基礎數(shù)據(jù)的編碼,防止舊編碼數(shù)據(jù)進入新系統(tǒng),帶來數(shù)據(jù)的不一致性和數(shù)據(jù)處理的復雜性,影響系統(tǒng)性能,加大系統(tǒng)研發(fā)成本?!渡贁?shù)民族語言新媒體工程界面術語規(guī)范》可用于規(guī)范相關少數(shù)民族類應用平臺的界面術語,使之具有更好的辨識性,降低用戶學習成本,提高生產(chǎn)效率?!渡贁?shù)民族語言新媒體工程終端文字顯示規(guī)范》和《少數(shù)民族語言新媒體工程終端顯示拼字符規(guī)范》可用于規(guī)范少數(shù)民族類應用的終端顯示和顯現(xiàn)效果,使之遵循專業(yè)和經(jīng)典的呈現(xiàn)效果,有利于少數(shù)民族語言的有效傳承,也同時提高相關信息應用的專業(yè)化程度和品牌影響力。
需要指出的是,此次研制的《少數(shù)民族語言新媒體工程標準規(guī)范》只是研制了較為基礎、應用急迫的幾個規(guī)范。隨著少數(shù)民族語言應用和信息技術的逐步發(fā)展,其他規(guī)范的研制可能會逐漸凸顯(如《少數(shù)民族語言信息搜索技術標準規(guī)范》等),有些規(guī)范還需要進行技術更新。
為了使此次研制的相關規(guī)范能夠適應并促進新華社的相關應用的研發(fā),我們初步建議以下的推廣計劃:
(1)調研新華社提供的相關少數(shù)民族語言應用和平臺,列出類別和數(shù)量。
(2)從上述應用和平臺中選擇一定比例,初步判定其中符合《少數(shù)民族語言新媒體工程標準規(guī)范》的情況,總結出實施《少數(shù)民族語言新媒體工程標準規(guī)范》的難度級別。
(3)選擇一些新的少數(shù)民族語言類應用,使之遵循《少數(shù)民族語言新媒體工程標準規(guī)范》,并跟蹤應用新標準的具體情況,如難度、對研發(fā)進程的影響,并進行綜合應用效果評審。
(4)根據(jù)試點應用情況,確定《少數(shù)民族語言新媒體工程標準規(guī)范》改進計劃和全面應用計劃。(作者單位:新華社通信技術局 北京大學計算機技術研究所)
(作者單位:新華社通信技術局北京大學計算機技術研究所)