【摘要】針對教育技術(shù)學科缺乏術(shù)語標準的現(xiàn)狀,該研究提出了一種借助計算機技術(shù)對大規(guī)模學術(shù)論文題錄信息進行術(shù)語使用情況調(diào)查并計算術(shù)語通用度的方法,該方法可以輔助教育技術(shù)學科術(shù)語標準化工作者從大量術(shù)語中選擇使用范圍廣、頻率高的術(shù)語,使得術(shù)語標準的制定得以建立在較為客觀的基礎(chǔ)上。
【關(guān)鍵詞】教育技術(shù);術(shù)語標準;通用度
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2008)02—0049—05
一 問題的提出
術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱。0 術(shù)語是各門學科、各個行業(yè)的專門用語,是各項標準中的重要組成部分,術(shù)語及其應用的規(guī)范化、標準化,是教學、科研、商務(wù)等各方面社會生活正常運行的重要保障,尤其在不同語言的交流中,術(shù)語的統(tǒng)一十分重要。
然而,目前教育技術(shù)學科甚至是整個教育學科尚未制定相關(guān)的術(shù)語標準,在術(shù)語標準化方面還處于落后狀態(tài)。在中國術(shù)語信息網(wǎng)中的“國家標準術(shù)語檢索系統(tǒng)” 0 中檢索“教育技術(shù)”、“電化教育”、“教學設(shè)計”等術(shù)語,返回結(jié)果均為零。因此,制定教育技術(shù)學科的術(shù)語標準,促進教育技術(shù)學科術(shù)語標準化進程,進而推動整個教育學科的術(shù)語標準化進程,是每個教育技術(shù)工作者義不容辭的責任。要制定教育技術(shù)學科術(shù)語標準,首要的工作就是將教育技術(shù)學科全部用過的術(shù)語搜集起來,然后從中挑選出規(guī)范的術(shù)語?!缎g(shù)語工作,原則與方法》0這一術(shù)語工作標準所提出的術(shù)語選擇方法中,其中一條就是“使用頻率較高、范圍較廣,已經(jīng)約定俗成的術(shù)語,沒有重要原因,即使是有不理想之處,也不宜輕易變更”。如果我們能將“頻率較高、范圍較廣”這一模糊的標準轉(zhuǎn)換為數(shù)值表示,將候選術(shù)語依數(shù)值大小由高到低排序,那么我們就容易選擇出規(guī)范的術(shù)語了。因此,本研究將采用術(shù)語通用度這一數(shù)值度量方法來綜合表示術(shù)語使用的頻率和范圍,并提出借助計算機技術(shù)計算術(shù)語通用度的方法,最終得到所有候選術(shù)語的術(shù)語通用度,以供教育技術(shù)學科術(shù)語標準化工作者使用。
二 相關(guān)概念
為了后面行文的方面,下面對本研究所涉及的重要概念和相關(guān)技術(shù)進行簡要介紹。
1 詞語的通用度
所謂詞語的通用度,是指詞語在語言應用的各個領(lǐng)域里常用性的綜合指標。0通用度兼顧到詞語的分布率和頻率兩個方面,并且把兩者有機地結(jié)合起來了。通用度概念中所說的“領(lǐng)域”,既可以指“空間”,也可以指“時間”,它既可指一個詞在共時的語言應用中各領(lǐng)域里的通用程度,也可指一個詞在歷時的各個時期里的語言應用中的通用程度?,F(xiàn)在我們假設(shè)把抽樣統(tǒng)計的全部語料分成k組,每組語料的數(shù)量大致相等。某一個詞在1,2,......,k組的出現(xiàn)次數(shù)分別為n1,n2,...,nk,那么這個詞的通用度定義為:
術(shù)語實際上就是某個學科領(lǐng)域所使用的“詞語”,詞語的通用度計算方法在某個獨特的學科領(lǐng)域可以用作術(shù)語的通用度計算。術(shù)語通用度兼顧到術(shù)語的分布率和頻率兩個方面,并且把兩者有機地結(jié)合起來,正好可以滿足我們在選擇術(shù)語時需綜合考慮術(shù)語使用的“頻率”、“范圍”兩方面的要求。
2 中文分詞
中文分詞是中文信息處理領(lǐng)域中的一項基礎(chǔ)技術(shù),一些比較簡單的分詞算法有正向最大匹配法、逆向最大匹配法、最大概率法等0。由于最大匹配分詞算法較為容易實現(xiàn),并且逆向最大匹配法的分詞準確率要高于正向最大匹配法,于是在本研究中筆者采用逆向最大匹配算法進行分詞操作。
3 術(shù)語提取算法
目前,術(shù)語提取算法主要有兩類,一類是結(jié)合術(shù)語部件庫的術(shù)語提取方法0,一類是基于統(tǒng)計學的術(shù)語提取方法0。筆者綜合了上述兩種術(shù)語提取方法,在分析已有教育技術(shù)領(lǐng)域術(shù)語結(jié)構(gòu)的基礎(chǔ)上總結(jié)出術(shù)語規(guī)則,并改進現(xiàn)有的統(tǒng)計算法,研制出了規(guī)則和統(tǒng)計相結(jié)合的術(shù)語提取算法。該術(shù)語提取算法的準確率為66.7%,召回率為76.7%,與現(xiàn)有的一些術(shù)語提取算法性能相近,可以較好的幫助研究者完成術(shù)語提取工作。限于篇幅,本文不能詳細描述該算法,將在另外的研究論文中專門論述。
三 研究過程
本研究過程包括教育技術(shù)學科相關(guān)文獻題錄信息下載與入庫、術(shù)語提取、術(shù)語通用度計算等環(huán)節(jié)。
我們要計算教育技術(shù)學科術(shù)語的通用度,首先要獲取教育技術(shù)學科的所有術(shù)語。學術(shù)期刊反映了某學科的最新進展和發(fā)展歷程,某學科的全部術(shù)語基本上都會在該學科的重要學術(shù)期刊中出現(xiàn)。因此,我們可以通過期刊論文來提取術(shù)語。期刊論文的基本信息即題錄包括了標題、摘要、關(guān)鍵詞等信息,這些信息包含了大量的術(shù)語,可以成為我們提取術(shù)語的理想語料,因此我們沒有必要通過期刊論文全文來提取術(shù)語,這樣可以大大減輕工作量。另外,術(shù)語通用度計算建立在大規(guī)模、有代表性的學科文獻語料中進行術(shù)語的使用頻率的統(tǒng)計基礎(chǔ)上,期刊論文的題錄信息正好可以成為計算術(shù)語通用度所需的語料,這是因為在文章的題錄信息如“標題”、“摘要”、“關(guān)鍵詞”等處出現(xiàn)的術(shù)語往往代表著這篇文章的主題,統(tǒng)計這些地方術(shù)語的出現(xiàn)頻率能夠代表術(shù)語的使用情況。由于《中國電化教育》雜志和《電化教育研究》雜志是教育技術(shù)學科領(lǐng)域創(chuàng)刊時間最早、最具權(quán)威性的綜合性學術(shù)期刊,于是我們選取這兩個雜志的論文題錄信息作為術(shù)語提取的語料和術(shù)語通用度計算的語料。
1 從期刊網(wǎng)下載題錄信息并導入數(shù)據(jù)庫
我們在中國知網(wǎng)(CNKI)的“中國期刊全文數(shù)據(jù)庫”中分別檢索刊名“中國電化教育”和“電化教育研究”,檢索的時間跨度為1999年至2006年,將得到這兩個雜志的全部題錄信息。然后將這些題錄信息包括標題、作者、年份、期次、摘要、關(guān)鍵詞等下載下來存儲到文本文件中。得到的文本文件的一個片斷如圖1所示。
原始的文獻題錄信息如圖1所示,各種信息混同在一起。這里要用到文本信息提取技術(shù),通過總結(jié)每類信息的呈現(xiàn)規(guī)則,如文獻標題以“題名”開始、關(guān)鍵詞信息以“中文關(guān)鍵詞”開始等,并用正則表達式將這些規(guī)則表達出來,以便計算機程序能夠理解這些規(guī)則。然后按照規(guī)則編寫計算機程序來批量處理這些題錄信息,將各種信息分項存儲到數(shù)據(jù)表中。
2 術(shù)語提取
在已經(jīng)導入數(shù)據(jù)庫的題錄信息中,部分題錄信息不夠完整,常常缺少摘要、關(guān)鍵詞等信息,并且還存在一些簡訊、評論的題錄這些,這些都通過一定的規(guī)則篩選過濾,最終得到2876篇論文的題錄信息記錄。然后采用自行研制的規(guī)則和統(tǒng)計相結(jié)合的術(shù)語提取算法來處理這些題錄信息,提取術(shù)語。經(jīng)術(shù)語提取程序的處理,并經(jīng)過人工對術(shù)語提取結(jié)果的校對,最后我們得到3244個術(shù)語。如此眾多的術(shù)語顯然不能全部作為教學技術(shù)學科的標準術(shù)語,而需要加以遴選,計算每個術(shù)語的通用度就是遴選的客觀標準。
3 術(shù)語通用度計算
在相關(guān)概念介紹中,我們已經(jīng)給出了術(shù)語通用度算法。在術(shù)語分布方面我們將兼顧空間分布和時間分布兩個方面,我們先按雜志分組,然后將一個雜志的文章按年度分組來計算術(shù)語的通用度,再用每個雜志中術(shù)語通用度進行術(shù)語通用度計算。這里以C1表示某術(shù)語T在《中國電化教育》雜志的題錄信息中計算得到的通用度,以C2表示該術(shù)語在《電化教育研究》雜志的題錄信息中計算得到的通用度,其中:
我們首先計算出每篇論文的題錄信息中術(shù)語的頻率,然后分雜志按年度統(tǒng)計得出每個術(shù)語的頻率,接著依據(jù)公式(2)、公式(3)分雜志計算得出每個術(shù)語在各個雜志中的通用度,最后依據(jù)公式(4)計算得出每個術(shù)語的通用度。
(1) 以單篇論文為單位計算術(shù)語頻率
要得到每篇論文的題錄信息中術(shù)語出現(xiàn)的頻率,我們必須以3244術(shù)語為詞表來對所有題錄信息進行分詞操作,從而得到“論文-術(shù)語頻率表”,其片段如表1所示。
(2) 按雜志、年度對文獻進行分組
通用度計算的一個重要環(huán)節(jié)就是按空間分布或時間分布對論文樣本進行分組,每組論文的數(shù)量大致相等。筆者在剔除缺少摘要或關(guān)鍵詞信息的論文以及簡訊、評論等非論文的基礎(chǔ)上按年度統(tǒng)計了《中國電化教育》和《電化教育研究》兩個雜志的論文數(shù)量,得到了表2所示的統(tǒng)計結(jié)果。
從表2中可以看出,如果把這兩個雜志每個年份的文章分組,顯然是不均勻的,且兩個雜志在論文總數(shù)上也相差較大。我們需要取出一些年份,以保持各個年份的文章數(shù)量相當、兩個雜志的文章數(shù)量相當,最后選定的年份如表3所示。
如表3所示,《中國電化教育》雜志剔除了2002年度、2003年度的論文,剩下三個年度的論文數(shù)量的標準差為11.15;《電化教育研究》雜志剔除了1999至2001年的論文,剩下五個年度的論文數(shù)量的標準差為10.63,并且論文總數(shù)與《中國電化教育》雜志的論文總數(shù)相當。
(3) 分雜志、按年度計算每個術(shù)語的頻率
依據(jù)表3的論文分組和表1的“論文-術(shù)語頻率”對每組論文中術(shù)語的頻率進行求和。這里筆者使用了T-SQL數(shù)據(jù)庫查詢語言在SQL-SERVER2000的查詢分析器中完成這一過程。
套用公式(2)、公式(3)、公式(4)完成術(shù)語通用度計算。
套用公式(2)、公式(3)、公式(4)進行計算,最終得到了每個術(shù)語的通用度,并形成了“術(shù)語-通用度數(shù)據(jù)表”,其片段如表4所示。
表4給出了通用度處在前10位的術(shù)語及其通用度。從這個10個術(shù)語中,我們可以看出教育技術(shù)學科所關(guān)注的主要領(lǐng)域如“教育技術(shù)”、“遠程教育”、“教育信息化”、“網(wǎng)絡(luò)教育”等,還可以看出教育技術(shù)學科的核心內(nèi)容如“教學設(shè)計”、“教學模式”、“資源”等,以及教育技術(shù)學科發(fā)展的推動因素“信息技術(shù)”。
四 研究結(jié)果與討論
1 按照通用度排序選取術(shù)語
將所有3244個術(shù)語依據(jù)通用度自大到小排序,我們選出前15%的術(shù)語(即前486個術(shù)語)作為教育技術(shù)學科術(shù)語標準中的候選術(shù)語。限于篇幅,我們僅列出前100個術(shù)語,如圖2所示。
筆者認為,與專家憑個人語感并借助一些專業(yè)書籍來選擇術(shù)語標準中的候選術(shù)語相比,按照通用度排序選取候選術(shù)語更為客觀、可靠,并提高了選取候選術(shù)語的效率。
2 關(guān)于“教育技術(shù)”與“電化教育”名稱之爭
在20世紀90年代初期,圍繞著專業(yè)課程體系的構(gòu)建,究竟是用“電化教育”的名稱還是采用“教育技術(shù)”的名稱展開了爭論。最后以1993年國家教委頒布普通高等學校本科專業(yè)目錄,將“電化教育專業(yè)”改為“教育技術(shù)學專業(yè)”結(jié)束。0從本研究對術(shù)語通用度的計算結(jié)果來看,“電化教育”這一術(shù)語的通用度位居前列,通用度為110.37,處在第21位,從這里可以看出“電化教育”這一術(shù)語仍具有較強的生命力,并未被“教育技術(shù)”徹底取代。不過“電化教育”的使用在不同的期刊中是極不均勻的,其中,該術(shù)語在《中國電化教育》雜志中的通用度只有7.88,而在《電化教育研究》雜志中的通用度為145.19,并且在歷年《電化教育研究》雜志中,“電化教育”的使用頻率分布如圖3所示。
從圖3可以看出,“電化教育”術(shù)語在《電化教育研究》中的使用頻率雖有波折,但是基本上維持一個較高的使用頻率,看來仍然有一批學者在使用“電化教育”這一術(shù)語。
3 術(shù)語標準的推廣應用與更新
術(shù)語標準一旦制定必須大力推廣使用,才能使標準為大家所接受,從而使標準真正發(fā)揮規(guī)范人們術(shù)語習慣的作用。推廣應用的一個重要方式就是在有影響力的教育技術(shù)學科教材如教育部高等學校教育技術(shù)學專業(yè)教學指導委員會組織編寫“教育技術(shù)學專業(yè)本科教材”中使用這些術(shù)語,另外一種方式就是編寫有影響力的工具書如教育技術(shù)學科詞典、教育技術(shù)百科全書來介紹標準中的術(shù)語。
學科在不斷發(fā)展,術(shù)語也在不斷發(fā)展,新的術(shù)語不斷涌現(xiàn),已有術(shù)語漸漸得不到使用,這就需要不斷更新術(shù)語標準,以保證標準中的術(shù)語與學科發(fā)展同步進行,才能使標準真正有效并能促進學科發(fā)展,否則只會阻礙學科發(fā)展。更新術(shù)語標準的一種方式就是持續(xù)關(guān)注教育技術(shù)學科的核心期刊,不斷分析學術(shù)論文,從中抽取術(shù)語,計算通用度,從而不斷選出新的使用廣泛的術(shù)語。
五 研究結(jié)論
本研究針對教育技術(shù)學科缺乏術(shù)語標準的現(xiàn)狀,提出一種借助計算機技術(shù)對在大規(guī)模的學術(shù)論文題錄信息中進行術(shù)語使用情況調(diào)查并計算術(shù)語通用度的方法,使得術(shù)語標準的制定得以建立在較為客觀的基礎(chǔ)上。當然,本研究并不能根本解決教學技術(shù)學科術(shù)語標準的制定問題,因為制定術(shù)語標準還要考慮其他方面的因素如術(shù)語的單名單義性、術(shù)語的派生性等0。在后續(xù)研究中,我們將進一步借助計算機技術(shù)來輔助術(shù)語標準工作人員來評價術(shù)語的單名單義性和派生性,并通過一定的文本挖掘技術(shù),為每個術(shù)語下定義和提供英文翻譯,從而最終完成制定術(shù)語標準所需的一系列計算機輔助技術(shù)的研制工作。
參考文獻
[1]中國標準研究院.中華人民共和國國家標準GB/T10112- 1999 術(shù)語工作, 原則與方法[S].1999.
[2]中國術(shù)語信息網(wǎng)(China Network for terminology). 國家標準術(shù)語檢索系統(tǒng)[DB/OL].
[3]尹斌庸,方世增. 詞頻統(tǒng)計的新概念和新方法[J]. 語言文字應用,1994,(2):69-75.
[4]吳云芳,穗志方,邱利坤等.信息科學與技術(shù)領(lǐng)域術(shù)語部件描述[J]. 語言文字應用,2003,(4):34-39.
[5]梁剛.基于機械分詞與統(tǒng)計學的新詞識別研究[J]. 情報理論與實踐,2005,(5):475-477.
[6]俞士汶.計算語言學概論[M].北京:商務(wù)印書館, 2003:121-128.
[7]李龍.加強史學研究,促進學科發(fā)展(一)——“教育技術(shù)史”學科初探[J]. 電化教育研究,2006,(11):3-8.