【摘要】文章分析方言教學資源的建設和應用現(xiàn)狀,提出建立廣東方言教學資源元數(shù)據(jù)規(guī)范,探討基于語義網(wǎng)格的廣東方言教學資源網(wǎng)絡平臺的新模式,以更好地實現(xiàn)對方言教學資源數(shù)據(jù)的采集、監(jiān)測和分析,為方言資源的再度開發(fā)和利用提供廣泛的基礎平臺。
【關鍵詞】方言教學資源;元數(shù)據(jù);語義網(wǎng)格
【中圖分類號】G40-057 【文獻標識碼】B【論文編號】1009—8097(2010)07—0118—04
引言
語言是一種重要的資源,關系到社會經(jīng)濟文化的發(fā)展和人類文明的進步。人類的知識和經(jīng)驗體系,文化傳統(tǒng)、思維和智力發(fā)展、社會關系,都必須借助語言的傳播才能得到傳承和發(fā)展。廣東的方言資源,無論從地域分布、社會共享,還是利用價值方面看,在我國語言資源中占有重要地位,具有特殊的價值和作用。這一地區(qū)不僅有粵客閩三大漢語方言和其他眾多土話群,還有屬于苗瑤語族和壯侗語族的多種少數(shù)民族語言。
暨南大學漢語方言研究中心是國內首個專門研究漢語方言的省級重點科研基地,本項目組承擔基地重大項目“嶺南方言資源監(jiān)測及資源庫建設”(項目號:07JDTDXM74004),建設廣東方言教學資源網(wǎng)格平臺(以下簡稱GDFY-Grid)。項目建設過程中,我們根據(jù)語言資源的特點和應用需求,集聚多種類型的方言資源,采用語義網(wǎng)格的技術模式實現(xiàn)對廣東方言教學資源數(shù)據(jù)的采集、監(jiān)測和分析,為方言教學提供全新的網(wǎng)絡平臺,為了解語言省情和語言國情提供嶄新的管理手段和準確的數(shù)據(jù),對國家和省制定語言文化政策和發(fā)展戰(zhàn)略具有較高的現(xiàn)實價值。同時,通過GDFY-Grid的推廣應用,可以多途徑采集和集聚方言資源,為語言資源的再度開發(fā)和利用提供廣泛的基礎平臺。
一 相關研究分析
據(jù)我們調查,目前學術界還沒有一個集語言資源信息監(jiān)測、采集、分析等功能于一體的網(wǎng)絡教學平臺,已有的僅是一些具備單一功能的產(chǎn)品,主要可分為四大類:
1 基于語言研究的文本或文字符號的語料匯集與分析軟件
如美國SIL的field work系列軟件,中國社會科學院民族學與人類學研究所孫宏開、江狄開發(fā)的“漢藏同源詞比較系統(tǒng)”等;
2 基于語音分析的軟件
如美國SIL開發(fā)的sound analyzer,荷蘭阿姆斯特丹大學語音實驗室開發(fā)的praat,以及英國倫敦大學語言學系的語音分析軟件等;
3 基于語言研究的語言田野調查錄音軟件
如云南民族大學開發(fā)的phonal+,上海師范大學語言研究所的語言調查軟件(FWT)等;
4 語料數(shù)據(jù)庫
如中國科學院聲學研究所、中國社會科學院語言研究所聯(lián)合建立的“漢語語音識別資料庫”,中國社會科學院語言研究所的“現(xiàn)代漢語自然口語語料庫”、“自然對話語料庫”、“現(xiàn)代漢語方言自然口語語料庫”,北京語言大學的“漢語中介語語音語料庫”,國家語委語言文字應用研究所的“北方話語料庫”,復旦大學的“吳語聲調數(shù)據(jù)庫”,廣西大學的“壯語語料庫”,云南民族大學的“少數(shù)民族語音數(shù)據(jù)庫”等。
上述軟件系統(tǒng)可以在某些特定領域為使用者提供語言研究和初步語言技術分析所需要的一些實用功能,但在語言數(shù)據(jù)多樣性、采集便捷性、語料規(guī)范與標準、語音分析的實時性與動態(tài)性等方面,都沒有全方位地顧及。因而,上述軟件系統(tǒng)在語言研究的分布性、擴展性、共享性,以及宏觀語言決策應用和語言資源多途徑開發(fā)利用特性等方面,都存在不盡如人意的地方。
二 系統(tǒng)設計和功能實現(xiàn)
在GDFY-Grid設計中,考慮到方言采集的地域分布性和數(shù)據(jù)異構性,我們采用語義網(wǎng)格技術構建系統(tǒng)運行框架。
GDFY-Grid實現(xiàn)利用本體進行描述方言教學資源元數(shù)據(jù),建立有效的語言資源分類、采集、摘要、存儲、排重、聚類的標準與規(guī)范,通過中間件整合分布式異構數(shù)據(jù)庫資源,按照服務的形式對現(xiàn)有的方言教學資源進行封裝,對外提供統(tǒng)一的服務接口,屏蔽底層異構數(shù)據(jù)信息,從而構造基于Web的面向用戶的透明漢語教育服務環(huán)境,供各個方言采集節(jié)點實現(xiàn)方言資源收集,在不同地區(qū)的同一系統(tǒng)、系統(tǒng)與系統(tǒng)之間進行數(shù)據(jù)集成與數(shù)據(jù)互訪,全面實現(xiàn)對廣東語言資源數(shù)據(jù)的采集、監(jiān)測和分析。
該系統(tǒng)采用開放網(wǎng)格服務結構(Open Grid Service Architecture, OGSA)[1],基本結構(見圖1)分為用戶服務門戶、語義網(wǎng)格服務層、通用網(wǎng)格服務層、基礎設施層:
1 基礎設施層
基礎設施層提供基本的網(wǎng)絡支撐環(huán)境以及各種需要被共享的邏輯資源和物理資源,包括承載方言資源的服務器和網(wǎng)絡設備,以文字、圖片、音頻和視頻為載體的各類方言資源等,這些資源在存在形式、管理方式、共享方式、使用途徑以及應用方式等方面都體現(xiàn)出形態(tài)異構性、資源自主性和地理分布性等特點。
2 通用網(wǎng)格服務層
通用網(wǎng)格服務層是整個網(wǎng)格運行的基礎和關鍵部分,包括一組基于面向服務架構(Service-oriented Architecture,SOA)的中間件[2],為共享與協(xié)作等網(wǎng)格特性提供支持。消息中間件、服務聚合、數(shù)據(jù)中介服務、網(wǎng)格信息服務和可靠數(shù)據(jù)傳輸?shù)仁荊DFY-Grid的核心中間件。
3 語義網(wǎng)格服務層
語義網(wǎng)格服務層主要提供網(wǎng)格環(huán)境下的協(xié)作支持服務和資源共享服務。語義網(wǎng)格服務層包括方言資源本體服務、元數(shù)據(jù)服務、語義查詢分解服務、網(wǎng)格虛擬數(shù)據(jù)庫服務、結果處理與傳輸服務。
4 用戶服務門戶
用戶服務門戶面向廣東方言教學應用領域,主要提供與方言教學相關的服務,這些服務分布在各個網(wǎng)格節(jié)點,可以跨組織共享,從功能上可以分為以下幾種:
(1) 用戶管理
根據(jù)系統(tǒng)使用者目的不同,可分為系統(tǒng)管理員、方言發(fā)音人、資源采集人、語言研究者等角色。
(2) 自動生成語料調查表
針對特定的方言,依據(jù)方言發(fā)音人的語音特征和個人情況,系統(tǒng)動態(tài)生成合適的語料調查表,根據(jù)方言調查的特點,包含字、詞、句、語篇四種類型。資源采集人也可以在系統(tǒng)表的基礎上制作所需的調查表。調查表的命名按照特定的規(guī)則自動關聯(lián)生成,這樣既保證了數(shù)據(jù)的規(guī)范性,也便于數(shù)據(jù)的集中管理。
(3) 語音和視頻錄制
采集有聲方言資源有兩種方式:一是基于文本提示的有聲語料采集;二是無文本的自由采集[3]。前者主要適用于字、詞、句的采集,后者適用于各種實際場景的即時話語采集,一般圍繞特定的話題進行,語料本身構成一個意義整體。系統(tǒng)采用即時錄音,數(shù)據(jù)庫中專門有字段指向到所對應的聲音文件,解決了后期剪輯聲音文件的麻煩,也為數(shù)據(jù)庫檢索提供了方便。
(4) 數(shù)據(jù)處理和分析
語圖查看與分析功能對于有聲語料的質量監(jiān)控有很大的幫助作用。在比較分析國外幾種語音分析軟件后,我們選擇流行較廣的Praat程序,該軟件可提取包括音系、音素、單字調、詞語調式和變調、語調、形態(tài)、句式等方面的統(tǒng)計,同時還考慮選擇恰當?shù)臄?shù)學建模,提取語言系統(tǒng)的聲學特征和說話人聲特征,為方言數(shù)據(jù)的后期開發(fā)應用提供原始數(shù)據(jù)。
(5) 語料標注和資源入庫
在完成語音錄制和處理后,按照廣東方言教學資源元數(shù)據(jù)規(guī)范表,資源采集人對所采集的語料進行各項屬性標注并入庫到資源庫中。
以下為用戶服務門戶截圖:
三 關鍵技術的實現(xiàn)
在實際開發(fā)過程中,我們對幾個關鍵問題做了如下處理:
1 廣東方言教學資源網(wǎng)格平臺元數(shù)據(jù)規(guī)范的建立
目前,國際上有很多標準化組織致力于基于網(wǎng)絡的教育資源標準化的研究,并起草了一些相應規(guī)范,我們參照開放語言檔案社群(Open Language Archives Community,以下簡稱OLAC),在《都柏林核心集》15個元數(shù)據(jù)的基礎上所制定的語言資源檔案元數(shù)據(jù)集(OLAC Metadata Set),在此基礎上建立廣東方言教學資源元數(shù)據(jù)規(guī)范表,以下為部分重要字段:
如圖3所示,用戶在用戶服務門戶提出需求,傳遞給語義網(wǎng)格服務層,該層根據(jù)查詢需求傳送給語義查詢分解服務[5]。在語義查詢分解服務中,利用方言教育服務本體庫找到能提供所需數(shù)據(jù)的數(shù)據(jù)庫資源,將利用本體描述的查詢需求按照URL分發(fā)給元數(shù)據(jù)服務。元數(shù)據(jù)服務接收查詢分解服務傳送來的以本體概念描述的查詢需求,利用局部存儲的數(shù)據(jù)庫映射表將其轉換為局部數(shù)據(jù)庫可以直接執(zhí)行的SQL語句,并且將結果返回給結果處理和傳輸服務。GDFY-Grid中的數(shù)據(jù)庫映射表保存在數(shù)據(jù)庫資源端,其中詳細記錄了本體中的各個節(jié)點在數(shù)據(jù)庫中是表名還是字段名以及在局部數(shù)據(jù)庫中采用的名稱,這樣,元數(shù)據(jù)服務就可以方便地進行由本體概念到數(shù)據(jù)庫詞匯的轉換。結果處理和傳輸服務負責接收各個數(shù)據(jù)庫傳回的結果,并且將結果進行整合,將整合后的結果傳回語義網(wǎng)格服務,該層將處理好的資源進行加工處理,以個性化內容傳遞和呈現(xiàn)給用戶使用。
3 音標符號的錄入和顯示
GDFY-Grid中需處理大量的音標符號,對音標的輸入和顯示采用兩種方法并用:一是推薦安裝基于UNICODE編碼的“國際音標表”而設計的通用輸人法,二是從Window vista 和windows 7操作系統(tǒng)層面入手,調用API接口,通過系統(tǒng)的“字符映射表”補充國際音標表中未列的符號,這樣做可以不依賴任何外帶宇庫,便于數(shù)據(jù)交換。
五 結語
本文從方言教學資源發(fā)展應用的現(xiàn)狀出發(fā),指出現(xiàn)有方言軟件系統(tǒng)應用中的不足之處并應用語義網(wǎng)格技術架構了新型的網(wǎng)絡資源平臺。希望我們提出的基于語義網(wǎng)格的廣東方言教學資源網(wǎng)格平臺能夠吸引越來越多的對外漢語教學資源入庫和學習者使用。
參考文獻
[1][2] 都志輝,網(wǎng)格計算——支持全球化資源共享與協(xié)作的關鍵技術[M].武漢:華中科技大學出版社,2005:180-183.
[3] 范俊軍,鄒志超,田野之聲有聲語料采集軟件的研制[A].南方語言學[C].廣州:暨南大學出版社,2009:154-155.
[4] 范俊軍,廣東少數(shù)民族瀕危語言有聲語檔建設初探[A].暨南大學方言漢語方言研究中心編.廣東漢語方言研究的理論與實踐回憶論文資料集[C].廣州,2010:24-25.
[5] 李慶忠,王棟,關于語義網(wǎng)格環(huán)境中異構數(shù)據(jù)資源整合的研究[J].南京大學學報,2006,2.