張 暉
(全國科學技術名詞審定委員會,北京 100717)
根據(jù)筆者2012年對全國20多個省市自治區(qū),100多家科研、教學、新聞出版、醫(yī)療等企事業(yè)單位的中、高級科技工作人員進行的相關調查發(fā)現(xiàn),超過90%接受書面訪談的受訪者對國家開展科技名詞規(guī)范化工作表示認同,認為這項工作對科技發(fā)展與交流具有基礎性作用。全國科學技術名詞審定委員會(以下簡稱全國科技名詞委)于近年專門成立宣傳與推廣部門,負責協(xié)調規(guī)范科技術語的宣傳與推廣工作,目前已基本形成以科技術語出版物、科技術語網絡服務、科技術語教育培訓為主體,注重發(fā)揮媒體作用的宣傳與推廣格局。
現(xiàn)階段,科技工作者對人性化科技服務的需求日益增長,給規(guī)范科技術語的推廣工作提出了更高的需求。例如,新聞出版行業(yè)《圖書質量管理規(guī)定》已明確規(guī)定:“工具書的科技條目、科技類教材、學習輔導書和其他科技圖書,使用科技術語不符合全國科技名詞審定委員會公布的規(guī)范詞計1個差錯?!保?]但現(xiàn)實問題是,新聞出版行業(yè)從業(yè)人員在編校實踐中,往往需要關注的不是規(guī)范的科技術語,而是隱藏在各類出版物中需要及時加以糾正的不規(guī)范的科技術語。但由于不規(guī)范的科技術語與規(guī)范的科技術語在構詞規(guī)則和用字規(guī)則上并無本質區(qū)別,因而往往依賴編輯人員或審稿專家自身的科技知識積累加以判別,使得規(guī)范科技術語的推廣成本很高,效果不甚理想。
筆者認為,規(guī)范科技術語的宣傳與推廣工作,如果著力解決此類面向實際應用的現(xiàn)實課題,可以達到事半功倍的效果。從實際應用的角度研發(fā)可以識別非規(guī)范術語的糾錯工具,運用于新聞出版、廣播電影電視、科技教育等領域,具有非常重要的現(xiàn)實意義。從現(xiàn)有技術上來講,糾錯工具本身的技術并不復雜,糾錯工具所依賴的規(guī)范詞異名庫的規(guī)模和質量,才是決定糾錯工具好與壞的核心指標。
異名,顧名思義,是指不同的名稱。從術語規(guī)范的角度出發(fā),“異名”是與“正名”相對的概念。全國科技名詞委制定的《科技名詞審定原則與方法》(以下簡稱《原則》)中對什么是“正名”,什么是“異名”,有著相應的界定:“一個概念有多個名稱時,應確定一個名稱為正名,其他為異名(包括‘全稱’‘簡稱’‘又稱’‘俗稱’‘曾稱’等)。其中,‘正名’為公布的規(guī)范名,‘全稱’‘簡稱’為與正名等效使用的名詞,‘又稱’為非推薦名,只允許在特殊情況和一定范圍內使用,‘俗稱’為非學術用語,‘曾稱’為已淘汰的舊名稱。”①之所以如此界定,是因為“科學技術名詞的規(guī)范和統(tǒng)一是一個漸進的研究過程,對那些目前暫時無法做到一詞一義的名詞,應采取在確定規(guī)范名的基礎上對其同義詞加以說明的方式,引導使用者逐步接受和正確使用規(guī)范名詞”[2]。簡而言之,《原則》中異名的產生,是通過漸進途徑爭取術語統(tǒng)一的變通之舉,其數(shù)量有限。
本文所探討建立的面向應用的規(guī)范詞異名庫所指的“異名”,是指與國家審定公布的規(guī)范科技術語“正名”表達相同概念,但詞形不同的非推薦名。其基本特征應該包括以下3點:(1)與“正名”指代相同概念;(2)與“正名”詞形有別;(3)不推薦使用。為了客觀認識異名的產生過程并加以收集,還應該認識到以下兩點:(1)異名應被書面語言或口頭語言明確記錄;(2)異名的數(shù)量難以預估或窮盡。由此可見,規(guī)范詞庫收集的異名與《原則》標注的異名有別,前者的初衷是用于開發(fā)實用工具,其異名數(shù)量需要達到一定的規(guī)模,而后者的初衷旨在通過漸進途徑促進術語規(guī)范,異名數(shù)量必然有限。
用于開發(fā)術語自動糾錯工具的規(guī)范詞異名庫,首先可以收選《原則》中所列舉的絕大多數(shù)異名類型,并給出明確的使用建議。據(jù)不完全統(tǒng)計,全國科技名詞委所審定公布的30萬條規(guī)范科學技術術語中,標注有《原則》所稱“異名”(含“全稱”“簡稱”“又稱”“曾稱”“俗稱”)的術語近15000條,其中85%標注的是“又稱”。規(guī)范詞異名庫在收選時,應該注意以下兩點:(1)因為“全稱”和“簡稱”與“正名”等效使用,所以可不作為“異名”對待。(2)其他名稱(如“又稱”“俗稱”“曾稱”等)或多或少在使用上受到限制,可以收入規(guī)范詞異名庫,但有必要依據(jù)不同的類型標注不同的使用建議(如“不推薦使用”“僅在限定范圍內使用”“不再使用”等)。
由于全國科技名詞委一直執(zhí)行比較嚴格的審定標準,為規(guī)范詞標注“異名”的情況屬于少數(shù)(約5%),如果僅僅依靠現(xiàn)有的“異名”資源來建立規(guī)范詞異名庫,其規(guī)模還不足以滿足糾錯工具的需要,因此還要重點收集整理通常意義上的“不規(guī)范詞”。這些詞應該已經在社會上使用,但未被全國科技名詞委選用為規(guī)范詞“正名”,也未按照《原則》的標準被標注為規(guī)范詞“異名”,依據(jù)規(guī)定不應該使用。當然,不規(guī)范詞作為規(guī)范詞的一種特殊“異名”類型,需要被標注比《原則》中異名更為苛刻的使用建議(如“建議更正”)。這類不規(guī)范詞的數(shù)量比《原則》所標注的異名數(shù)量要多,將在糾錯中扮演重要的角色。
根據(jù)科技術語審定工作的規(guī)律性認識,一個術語命名的最終確定需要經過收詞和審詞兩個階段。在收詞階段,從基本手段來看,可以分為人工收詞和自動抽取兩種。其中,自動抽取一般基于語料庫,采用自然語言處理技術進行。而在審詞階段,主要依賴人工審查。就收集整理規(guī)范詞的異名而言,同屬于科技術語規(guī)范工作范疇,同樣應該遵循收詞和審詞這兩個階段。
建立規(guī)范詞庫與規(guī)范詞異名庫的基礎有較大區(qū)別。全國科技名詞委所審定公布的每一個科技概念的定名及其內涵的確定,都凝聚了科技工作者的大量心血,經歷了一個非常漫長的研究過程,因此規(guī)范詞庫的建立是一個從無到有的積累過程。對于規(guī)范詞的異名而言,因其與規(guī)范詞形成對應關系,所指代的科技概念的范圍比較明確,從而可以將已經建成的規(guī)范詞庫作為參考庫,工作基礎較好。
由于規(guī)范詞的異名不具備科學性、單義性、系統(tǒng)性等規(guī)范詞所具有的優(yōu)良特性,所以規(guī)范詞異名的判定往往無法簡單運用與規(guī)范詞對立的特征來衡量,只應從語義、概念層面限定與規(guī)范詞形成等價關系。因此,在建立規(guī)范詞異名庫的最初設計中,要充分考慮規(guī)范詞異名庫建立的初衷是面向應用和作為參考資源的性質,不必強調其“權威性”或“完整性”,其準確性也不宜過分從嚴,應具有一定靈活度,而且允許在實踐中加以檢驗、修正和補充。
科技語料浩如煙海,根據(jù)需求選擇恰當和有效的語料是進行科技名詞語料分析的起點,也是很重要的基礎。用于規(guī)范詞異名研究的語料來源一般包括確定資源和非確定資源兩大類。確定語料主要是規(guī)范詞異名可能集中出現(xiàn)的語料,如各類公開出版的科技詞典(含同義詞詞典、近義詞詞典等)、科技文獻的術語表、期刊文獻的關鍵詞、主題詞庫等。非確定語料主要是指規(guī)范詞異名出現(xiàn)的概率未知的語料,包括科技文獻正文、百科網站、報紙等。
規(guī)范詞和規(guī)范詞異名并存的確定語料是最直觀和最易形成產出的語料。諸如同義詞詞典、近義詞詞典,或者主題詞表等。與此同時,可以利用內在而形成規(guī)范詞與規(guī)范詞異名相互對應關系的語料,是可能對收選規(guī)范詞異名有用的擴展語料。例如,很多中文非規(guī)范術語的產生是因為翻譯不準確,尤其是比較新的科技概念,其引進之初常常會伴生大量以訛傳訛的新定名形式,因而中文或英文的同義詞詞典也是可能用到的有利的擴展語料。總體而言,從確定語料(尤其是中英文完整的語料)中抽取規(guī)范詞異名,將是比較有效率的嘗試。
對非確定語料而言,百科類語料圍繞同一概念而展開,并借助相關概念進行擴展,同時經常包含“又稱”“也叫”“又叫作”“還稱”之類的標志性詞語,這些都可以作為抽取規(guī)范詞異名的重要來源。因而圍繞同一科技概念展開的語料,比其他粗淺涉及某一科技概念的語料更具價值,而且在后期審定中會減少對詞語所指代概念的誤判。相對于百科類語料而言,其他非確定語料的處理需要更多地分析每份語料的行文特征,其最終價值有賴于良好的規(guī)則和統(tǒng)計的設計,具有不確定性。
由此可見,確定語料比非確定語料對最終收詞的貢獻更加直觀,收詞的時間成本和后期的審定成本相對較低。而在非確定語料中,百科類語料比其他語料更具價值。因而,如果語料資源比較充足,可以以確定語料為主,非確定語料為輔;在非確定語料中,以百科類語料為主,其他語料為輔。
如前文所述,收選規(guī)范詞異名的核心原則就是確保與規(guī)范詞概念等價的詞。對于人工收詞和自動抽取而言,最大的區(qū)別就在于人工收詞取決于取詞操作實施者自身的規(guī)則設定,以及其個人或者參考資料對概念的理解或詮釋;而自動抽取則取決于相關統(tǒng)計和篩選規(guī)則的設定,近年來從信息處理的角度研究漢語詞匯、語法和語義研究日漸增多[3],主要涉及運用語料庫對大規(guī)模的自然語言進行調查和統(tǒng)計,建立統(tǒng)計語言模型,研究和應用基于統(tǒng)計的語言處理技術,進行信息檢索、文本分類、文本過濾、信息抽取等工作。
規(guī)范詞異名的自動抽取主要基于自然語言處理的相關理論。目前比較主流的實現(xiàn)方式,包括基于規(guī)則的方法和基于統(tǒng)計的方法兩種。其中,基于規(guī)則的方法是一種唯理主義方法,本質上是一種確定性的演繹推理方法。其優(yōu)點在于根據(jù)上下文對確定事件的定性描述,能充分利用現(xiàn)有的語言學成果。缺點是對于一些不確定的事件則顯得蒼白無力,同時規(guī)則之間的相容性和適用層次范圍都存在一些缺陷和限制。而基于統(tǒng)計的方法是一種經驗主義方法,其優(yōu)勢在于它的全部知識是通過對大規(guī)模語料庫進行必要的加工、分析后自動抽取出來的,因此可以獲得很好的一致性和很高的覆蓋率,對語言處理提供了較客觀的數(shù)據(jù)依據(jù)和可靠的質量保證?;诮y(tǒng)計的方法本質上是一種非確定性的定量推理方式,定量是基于概率的,因此其必然會掩蓋小概率事件的發(fā)生。有些統(tǒng)計方法無法解決的問題,利用規(guī)則卻很容易解決[4]。
筆者試圖從實際操作的層面,探討可能產生規(guī)范詞異名待審詞表的諸多路徑,所運用的技術基本都是規(guī)則和統(tǒng)計并舉的方法。當然,實現(xiàn)規(guī)范詞異名的自動抽取,其可能路徑遠不止以下三種。
路徑一:學科領域關聯(lián)
第1步:運用分詞、標注、文本分割、合并等語料自動加工技術,從語料庫中廣泛抽取候選詞條。
第2步:根據(jù)恰當?shù)膶W科分類法,利用術語在語料中詞頻分布變化程度的統(tǒng)計信息來檢驗術語的學科相關性,將候選詞條歸類至所屬學科領域(如三級學科)。
第3步:依據(jù)相同的學科分類法和技術手段,在相同的語料庫中,為規(guī)范詞劃分所屬學科領域(如三級學科)。
第4步:通過設定規(guī)則,對屬于同一分支學科的詞條進行詞形或語義相似度比較(如詞形差異、包含關系等)。
第5步:整理形成規(guī)范詞異名待審表。
路徑二:英文術語一詞多譯關聯(lián)
第1步:應用權威英漢詞典,對規(guī)范詞對應的英文術語中一詞多譯的英文詞素進行中文回譯,并將每一組可能的、由回譯的中文詞素組成的中文組合詞(無需進行語法審查),收入候選詞表1。
第2步:將候選詞表1中的候選詞分別在語料庫中抽取與候選詞表1詞條詞素相近且空間位置關系相對集中的相似分詞語料,收入候選詞表2。
第3步:對候選詞表1、2進行構詞法、語法等規(guī)則篩選,將符合構詞法的詞條作為候選詞表3。
第4步:對候選詞表3中的詞條在語料中進行嚴格匹配檢索,通過概率統(tǒng)計手段,將重現(xiàn)率達到一定閾限的詞條,納入規(guī)范詞異名待審詞表。
第5步:整理形成規(guī)范詞異名待審表。
路徑三:語義網絡②關聯(lián)
第1步:運用分詞、標注、文本分割、合并等語料自動加工技術,從語料庫中廣泛抽取候選詞條。
第2步:分析候選詞條及與其對應的規(guī)范詞,分析詞匯在語料中的語義網絡,通過各結點的關聯(lián)度,結合上下位概念、上下文相似度等,匹配并篩選可能意義相近的詞條。
第3步:整理形成規(guī)范詞異名待審表。
其中,路徑一源于規(guī)范詞和規(guī)范詞異名具有相同學科屬性的基本事實,以概念層次結構為基礎,選擇對概念層級相近的術語進行歸類,該技術已經比較成熟,可操作性較強,這一點在筆者所開展的科技新詞自動抽取試點工作中,已經得到部分驗證。但難點在于如何從相同領域的術語中匹配規(guī)范詞和規(guī)范詞異名,顯然單從詞形角度的匹配是遠遠不夠的,這方面還需要結合實踐進行理論研究,逐步完善方案。路徑二源于相當數(shù)量的規(guī)范詞異名產生于科技翻譯實踐的事實,選擇以英文一詞多譯作為關聯(lián)方式對近似術語進行歸類,其有賴于權威的英漢雙語詞典提供詞素的語義連結,前期技術驗證的周期會相對較長;路徑三源于規(guī)范詞和規(guī)范詞異名語義等價的本質屬性,以語義相關度進行關聯(lián),是比較高層次的語義網絡途徑,目前研究還不成熟,實施難度很大。
規(guī)范詞異名的人工收集,主要是參與人員根據(jù)自身知識積累,通過廣泛查閱各類科技語料進行。這一方式的優(yōu)點是收集和審查在很大程度上能同時進行,收詞準確率高,但可獲取的規(guī)范詞異名數(shù)量有限;缺點是取詞的過程受到的限制因素較多,比如參與人員的知識結構、精力集中程度,以及對語料涉獵廣度等。
規(guī)范詞異名的審查是在人工收集或自動抽取完成后必須經過的階段,也是確保詞條質量的重要保障。對于自動抽取而言,可以通過技術手段為規(guī)范詞異名待審詞表補充詞條相關信息(如上下文、參考文獻等)后,交由不同分支學科的專家進行審查,并允許審詞專家進行補充。
確保規(guī)范詞異名與規(guī)范詞在語義上等價,避免概念相互包含或交叉是人工收集和審查的重點。對于科技名詞規(guī)范化工作而言,人工收詞、審詞的經驗相對成熟,可借鑒的經驗比較多,比如學科名詞審定、新詞試點工作中所積累的經驗。
總而言之,規(guī)范詞異名庫的建立意義深遠,是新階段拓展科技名詞推廣應用思路的重要途徑。盡管科技工作者對規(guī)范詞異名數(shù)量和質量的需求不及規(guī)范詞嚴格,但由于相關理論和技術不甚成熟,以及規(guī)范詞異名難以窮盡的特性,因而決定了規(guī)范詞異名庫的建立和完善需要一個比較長的過程,具有不小的難度。筆者只是提出了基本設想和部分不太完善的實現(xiàn)路徑,對其中涉及的相關技術和模型還需在實踐中不斷改進,現(xiàn)有技術能否實現(xiàn)相關目標,還有待進一步的研究和檢驗。
注釋
①全國科學技術名詞審定委員會.科學技術名詞審定原則及方法。
②語義網絡(Semantic Network)的概念最早由美國心理學家、語言學家奎廉(M.R.Quillian)于1968年的《語義記憶》中提出,它是一種采用網絡形式表示人類知識的方法。在這個語義網絡描述圖中,代替概念的單位是節(jié)點,代替概念之間關系的則是節(jié)點間的連接弧。
[1]中華人民共和國新聞出版總署.圖書質量管理規(guī)定[M].北京:新聞出版總署,2004.
[2]鄔江.科學技術名詞審定工作中的同義詞問題初探[J].中國科技術語,2011(06):31-33.
[3]彭剛,劉巖.語料庫研究與應用綜述[J].黑龍江科技信息,2010(26):215.
[4]郭艷華,周昌樂.自然語言理解研究綜述[J].杭州電子工業(yè)學院學報,2000(01):58-65.