孫 迪(國家圖書館)
《中國分類主題詞表》(Web版)(以下簡稱《中分表》)通過互聯(lián)網提供詞表瀏覽、檢索和數(shù)據(jù)下載服務,提供B/S模式的圖書館業(yè)務支持,并能與OPAC進行對接。[1,2]《中分表》知識組織系統(tǒng)與服務平臺相關的建設還在不斷完善中,其自身尚存在需要規(guī)范化的細節(jié)問題。本文以學科主題詞為切入點,對《中分表》主題詞編制相關的問題進行總結與分析,并提出維護建議。
《中分表》收錄的主題詞從構成上分為兩大類:名稱主題詞、學科主題詞。與學科主題詞相關的一般問題包括術語的命名、著錄問題,外文單純參照詞問題,同義詞以及主題詞的更新等。
1.1.1 命名問題
主要涉及部分主題詞相關科學術語的命名問題,這與詞表本身的滯后性有關。如:“叢枝菌屬”應更新為枝瑚菌屬;[3]“藤屬”應更新為省藤屬。[4]此類命名問題已經對“叢枝菌根真菌”以及“藤本植物”相關文獻的編目標引工作產生了干擾,應及時糾正。
1.1.2 著錄問題
《中分表》存在部分學科主題詞的著錄錯誤,分為以下幾類。
(1)一般性錯誤。主要體現(xiàn)為字符的誤寫,如:“植物病源真菌”應為植物病原真菌、“柯達德測距測蘇率系統(tǒng)”應為柯達德測距測速率系統(tǒng)、“噴吐機器人”應為噴涂機器人。
(2)表外字相關問題。部分主題詞中的漢字為表外字,由此產生一些誤寫問題,如:“鴙形目”,鴙應為 (共鳥)(音 gong);[5]“(蚲)屬”,(蚲)應為 (鼠平)(音ping)。另有部分表外字以■顯示且未加注釋說明,如:“苯二氮■”與“苯甲二氮■”,應注以“■字形為(艸卓)”的說明。
(3)習慣性誤寫問題。個別主題詞含有罕見字,并伴隨有其他形式的誤寫,如:“瀉湖”是潟湖的習慣性誤寫。[6]
整體上看,《中分表》學科主題詞的外文單純參照詞是外文術語與英譯名的混合體,目前的版本存在部分錯誤;雖然不影響檢索等應用,但考慮到詞表關聯(lián)性的發(fā)展,對于該問題應予以重視。
1.2.1 參照詞的拼寫問題
(1)著錄錯誤。部分學科主題詞的外文單純參照詞著錄存在問題,應予以仔細梳理。如:“熱工測量”的外文參照詞Fhermal measurement有誤,應為Thermal measurement;“新石器時代考古”的外文參照詞Niolithic archaeology有誤,應為 Neolithic archaeology;“模擬試驗臺”的外文參照詞Simulator stants有誤,應為Simulator stands。
(2)參照詞不完整。部分主題詞的外文單純參照詞存在不完整的現(xiàn)象,如:“肉毒桿菌”的參照詞的完整形式應為Clostridium botulinum而非Clostridium,“胰腺癌”的參照詞的完整形式應為Pancreatic cancer而非 Cancer。
(3)術語調整導致的問題。部分參照詞相關的科學術語進行了調整,《中分表》仍沿用過時術語,應予以糾正。如:“嚙蟲目”的參照詞應更新為Psocoptera,替換 Corrodentia;[7]“綠豆”現(xiàn)已從菜豆屬(Phaseolus) 分離,歸入豇豆屬 (Vigna),[8]其參照詞應更新為Vigna radiata,替換Phaseolus radiatus。
1.2.2 參照詞的混用與不規(guī)范使用
(1)外文參照詞的混用。如:“沖壓機”的外文參照詞為 Punching defect,應修改為 Punching machine,原參照詞應與“沖壓缺陷”對應;“衡量指標”的外文參照詞Aviation industry應與“航空工業(yè)”對應;“朊病毒”的外文參照詞為Wikipedia(實為維基百科的英文),應修改為Prion。
(2)外文參照詞的不規(guī)范使用。如:“后評價”規(guī)范的外文參照詞應為Post valuation而非Behind valuation;“自然美”規(guī)范的外文參照詞應為Aesthetics of nature而非Natural beauty;厄爾尼諾規(guī)范的外文參照詞應為El Nin~o而非拼音Eerninuo。
(3)生物名稱類參照詞的規(guī)范問題。在《中分表》收錄的生物名稱類主題詞中,部分參照詞采用英文俗稱而非相應的拉丁學名,建議按照國際慣例進行替代。如:“紅厚殼”的參照詞應采用Calophyllum inophyllum,替代Alexandrianlaurel;“對蝦屬”的參照詞應采用Penaeus,替代Prawn。
1.2.3 參照詞的錯義重復問題
由于混用、錯用等原因,部分主題詞外文參照詞出現(xiàn)了重復,如:“可燃液體”的外文參照詞Flammableliquid有誤,與“易燃液體”相重,應修改為Combustible liquid;[9]“建筑業(yè)”的參照詞Building enterprises有誤,與“建筑企業(yè)”相重,應修改為Building industry;“光學計量”的參照詞Optical measurement有誤,與“光學測量”相重,應修改為Optical metrology。[10]
《中分表》收錄的學科主題詞存在同義現(xiàn)象,由此產生的冗余信息不利于詞表的健康發(fā)展,也會給文獻資源的書目控制帶來影響。究其原因,多數(shù)是由于對外文術語不同中譯名的識別不夠準確,亟需統(tǒng)一化處理。
1.3.1 同一類目的同義詞對
對應同一類名/類號的具有共指性的學科主題詞,可分為兩類。
(1)詞形相近。如:“葡萄糖苷酶”與“葡糖苷酶”的外文參照詞均為Glucosidase;“電流體力學”與“電流體動力學”的外文參照詞均為Electrohydrodynamics。
(2)詞形有異。如“空腔流動”與“空泡流”的外文參照詞均為Cavityflow。
對于上述同義詞對,應采取合并處理的方式,并在相關款目參照關系項中以“代/用”關系標識。
1.3.2 分屬上下級類目的同義詞對
分別對應于上、下級類名/類號的具有共指性的學科主題詞,亦可分為兩類。
(1)詞形相近。如:“作用力與反作用力定律”對應類號O3(力學),“作用與反作用定律”對應類號O301(牛頓定律、達朗伯原理),兩者的外文參照詞均為Action-reaction law;“遠程教育”對應類號G43(電化教育),“遠距離教育”對應類號G434(計算機化教學),兩者的外文參照詞均為Distanceeducation。
(2)詞形有異。如:“cc材料”對應類號TB33(復合材料),“碳/碳復合材料”對應類號TB333.2(非金屬基復合材料),兩者的外文參照詞均為Carbon-carbon composites;“利埃納爾方程”對應類號O175(微分方程、積分方程),“林納方程”對應類號O175.1(常微分方程),兩者的外文參照詞均為Li佴nard equation。
對于上述同義詞對,應采取合并處理的方式,并在相關款目參照關系項中以“代/用”關系標識,同時酌情刪除/保留上下級類目的類號。如:
遠程教育
Distance education
G43;G434
D遠距離教育
1.3.3 跨類目、大類的同義詞對
有些同義詞對會涉及不同的類目(非上下級關系)、大類,詞形也有一定差異,故需認真辨別、處理。
(1)跨類目同義詞對。如:“脈沖發(fā)生器”對應類號TN782,“脈沖信號發(fā)生器”對應類號TN914.2與TM935.4,兩者的外文參照詞均為 Pulse generator;[11]“數(shù)據(jù)采集系統(tǒng)”對應TP274+.2與TP311.13等類號,“數(shù)據(jù)獲得系統(tǒng)”對應類號TP752.1,兩者的外文參照詞均為Dataacquisitionsystem。
(2)跨大類同義詞對。如:“聚木糖酶”對應類號TS743+.14與TS745,“木聚糖酶”對應類號Q556+.2,兩者的外文參照詞均為Xylanase;“Liapunov指數(shù)”對應類號O175.13,“李雅普諾夫指數(shù)”對應類號F830.9,兩者的外文參照詞均為Lyapunovexponent。
對于上述同義詞對,除采取合并處理的方式并在相關款目參照關系項中以“代/用”關系標識外,應建立跨類目、大類的類號互見標識。如:
木聚糖酶
Xylanase
Q556+.2;|TS743+.14|;|TS745|
D聚木糖酶
此外,個別同義詞對應的類號缺少專指性,應作相應修正。如:“T細胞”與“T-淋巴細胞”的外文參照詞均為T-Lymphocytes,前者的對應類號為Q24(細胞形態(tài)學),專指性不強,建議以淋巴細胞的對應類號Q954.56+7替換。該同義詞對可作如下處理:
T-淋巴細胞
T-Lymphocytes
R322.2;|Q954.56+7|
D T細胞
1.3.4 “多對一”關系的同(近)義詞對
《中分表》中存在“多對一”關系的同義詞對,如:“腺嘌呤核苷3'5'環(huán)化磷酸”“環(huán)腺苷酸”與“環(huán)磷酸腺苷”,三者共指向Cyclic adenosinemonophosphate(cAMP);“動態(tài)性能”“動力性”“動力特性”“動特性”等主題詞的外文參照詞為Dynamic characteristics或Dynamic properties,意義相同或相近。均應進行去冗余化處理。
《中分表》規(guī)模較為龐大、編制時間較長,隨著各學科領域的飛速發(fā)展,一些學科主題詞也面臨著“與時俱進”的問題。為保證《中分表》的時效性,應該有針對性地加大陳舊性主題詞的更新力度。對于一些利用率低且有歧義傾向的主題詞應予以剔除,并以更為常用的形式代替。如:“水花”(對應類號X522(河流污染))應以“水華”替換;“群架”及相關主題詞(對應類號O187(代數(shù)幾何))應以“群概形”及相關術語替換。[12]對于一些使用頻次較高的入口詞、關鍵詞,應加快其主題詞化的轉換速度。下表展示了兩組共指性檢索詞在國家圖書館博士學位論文書目數(shù)據(jù)庫的使用頻次,可以看出,關鍵詞“幾丁質酶”與“轉座子”在CNMARC 6XX字段的出現(xiàn)次數(shù)較相應的主題詞更多、使用頻次更高,建議分別替換之。
表 共指性檢索詞使用頻次對比
此外,《中分表》還應根據(jù)具體學科、專業(yè)的發(fā)展動態(tài)提高“新詞”的引入比例(同時調整相關類目結構),特別是文獻數(shù)量多且缺乏規(guī)范控制的關鍵詞。以“生物信息學”為例,通過所有字段檢索(輔以文獻類型限定),在中國圖書館OPAC中可查詢到1,128條圖書與博士論文書目記錄,多數(shù)以受控詞“生物信息論”進行主題標引。而事實上,這涉及到兩個相對獨立的概念,不可混淆。因此,建議《中分表》將“生物信息學”增補為學科主題詞的同時添加相應類目,便于相關文獻組織與管理的規(guī)范化。
作為揭示和組織文獻的一種工具,分類號與主題詞的有機結合可以有效增強文獻資源的書目控制。
2.1.1 類目缺項問題
《中分表》中的個別類目存在類號(類名)缺失現(xiàn)象。如:“埃塞俄比亞抗意戰(zhàn)爭”對應類號K421.52(意阿戰(zhàn)爭 (1935-1936)),缺少同位類號(類名)。歷史上發(fā)生了兩次意阿戰(zhàn)爭,第一次為1895-1896年。[13]在有史可稽的情況下,不應拘泥于“文獻保證原則”,建議直接增加同位類號K421.51,同時將相關類名分別修正為第一次意阿戰(zhàn)爭與第二次意阿戰(zhàn)爭。
2.1.2 缺少類號互見
適用于不同類目的主題詞缺少互見類號,如:“唾液酸”對應類號Q481(口腔內的消化類目),其從屬“糖酸”,故應增加碳水化合物類目相關的互見類號Q53與O629.1;“瘢痕疙瘩”對應類號R619+.6(外科并發(fā)癥類目),其從屬“皮膚病”,應增加相關的互見類號。
2.1.3 類號錯置問題
《中分表》部分主題詞對應的分類號存在錯置現(xiàn)象,除著錄導致的錯誤外,更多的涉及知識結構問題。
(1)誤寫的錯置。如:“質體基因”對應類號O343.1,屬著錄錯誤,應改為Q343.1(基因理論類目)。
(2)上下級類目的類號錯置。如:“硝化細菌”對應類號Q939.11+1(硝化桿菌類目),而硝化桿菌實為硝化細菌的一個類群,應將后者歸入上位類,建議類號修改為Q939.1。
(3)跨類目、大類的類號錯置。此類錯置問題會影響文獻分類標引及相關的規(guī)范控制,應加大核查力度,進行嚴格的甄別、處理。① 跨類目類號錯置。如:“毒死蜱”對應類號TQ455.4+3(有機殺菌劑類目),實屬有機磷殺蟲劑,應改為TQ453.2+2;“甲基環(huán)氧乙烷”對應類號O623.623(羧酸酐類目),實為一類環(huán)氧化物,應修改為O623.42+5。② 大類類號錯置。如:“目連戲”對應類號I207.3(戲劇文學類目),實屬中國地方戲劇種,建議變更為J825;“高溫超導材料”對應類號TB35(耐高溫材料類目),實屬超導體范疇,建議變更為TM26。
(4)資料類分的類號錯置。此類錯置不會影響普通圖書的分類標引,但在對其他學術資料詳細復分時會產生影響。如:“楝科”對應類號+Q949.753.1(牻牛兒苗目),其現(xiàn)已歸屬無患子目,應作相應調整。
2.1.4 類號致歧問題
有些主題詞的概念涉及多個范疇(類目),但目前在《中分表》類號設置中常被忽視,這會在主題與分類標引工作中引發(fā)歧義性問題從而導致錯誤標引。如:“刺參”對應類號S567.5+3,屬于藥用作物,另有同名的海參綱動物種,為避免由于歧義導致的標引錯誤,建議增加類號Q959.269,同時添加/修改相應的類目注釋;“滸苔”對應類號Q914.82,屬古藻類,另有同名綠藻綱絲藻目的現(xiàn)生類群,建議增加類號Q949.21+3,同時添加/修改相應的類目注釋,從而避免由于歧義導致的標引錯誤。
《中分表》由宏觀結構(主表、通用復分表)和微觀結構(主題詞款目框、分類款目框)組成。本文以主題詞為切入點,對于主題詞款目框相關的微結構類問題進行簡要分析。
2.2.1 參照關系項的內容設置問題
主題詞款目框參照關系項包括:用Y、代D、屬S、族Z、參C等,《中分表》部分主題詞存在上下位詞、用/代等內容設置有誤的現(xiàn)象。
(1)上下位詞的設置問題。如:“氫解”是與“氫化”具有相關性的一類化學反應,不具從屬關系,[14]建議刪除其現(xiàn)有S關系詞,調整為C氫化;“珊瑚菌科”的直接下位詞設置有誤,“叢枝菌屬”(即枝瑚菌屬)已并入釘菇科,[15]建議進行調整。
(2)單純參照詞的設置問題。即錯誤或不合理的用/代關系的設置。① 同位類關系的替代。如:Y“虎耳草科”、D“繡球科”,兩者同屬雙子葉植物綱類目,各自具有分類學地位與獨立的檢索意義,不可相互替代。② 跨類目關系的替代。如:“幽門螺桿菌感染”與“幽門梗阻”“幽門狹窄”同被設置為“幽門疾病”的單純參照詞,而前者屬“螺桿菌感染”,涉及到不同的類目,應避免過于籠統(tǒng)的處理。③ 上下位詞的替代。如:“免疫響應”“免疫調控”“免疫分型”等詞均為免疫學范疇術語,在《中分表》中俱以“免疫學”替代,將會影響相關學術文獻內容揭示的準確性與專指性。
2.2.2 微結構設置相關的概念問題
《中分表》基于概念匹配的理念構建,在詞表結構設置上充分考慮到了語義的關聯(lián)性;但在某些微結構的概念設置方面應更加注重科學性。如:“豬科”對應的是動物分類學概念,當前款目框設置顯示其直接下位詞“豬”,并與豬在畜牧學方面相關的下位詞進行了直接關聯(lián)。本文建議從動物分類學的角度出發(fā),對豬科的下位詞進行重新調整(增加相關屬、種的主題詞等),以保證相關概念匹配的科學性與嚴謹性。
敘詞表的進一步規(guī)范處理需要借助自動分詞詞性標注、新詞發(fā)現(xiàn)、信息抽取、自動聚類等中文本體信息處理的最新方法和技術。[16]但在相當長的時間內,以《中分表》為代表的敘詞表的修訂與維護工作仍然離不開人工方式。鑒于此,筆者提出幾點《中分表》的維護建議。
除應保持職業(yè)敏感度、樹立認真踏實的工作作風、持續(xù)更新相關知識與技能以適應不斷發(fā)展的信息組織工作的需要之外,作為個體的編目、標引人員或是規(guī)范制作與維護人員,在《中分表》的使用與管理過程中應更加注重與自身專業(yè)特點相結合,能夠運用本專業(yè)領域的知識“鎖定”相關問題,并能善于總結、勤于歸納,為今后的聚類分析及數(shù)據(jù)的智能化處理提供經驗與借鑒。
《中分表》管理與維護工作的良性運轉有賴于與信息組織工作相關的各個團隊間的協(xié)作,因此,高效的溝通與回饋機制是不可或缺的。以文獻標引為例,不同類型文獻的標引工作組對于文獻標引深度、廣度的要求不一樣,這就要求與數(shù)據(jù)/規(guī)范維護相關的工作組及時溝通,后者進行相應的規(guī)范化處理后應及時將修正結果反饋至所有標引工作組,以避免可能引發(fā)的主題/標引錯誤;對于已經引發(fā)的主題/標引錯誤,數(shù)據(jù)/規(guī)范維護工件組在規(guī)范化處理后應結合實例通告相關標引工作組,以保證未來書目控制的質量以及《中分表》的使用效度。
《中分表》的編制與修訂是一項涉及各個學科領域的龐大工程,疏漏之處在所難免。雖然已有業(yè)內人士分析、總結《中分表》存在的問題,國家圖書館《中國圖書館分類法》組委會也會不定期發(fā)布相關修訂表,但由于種種原因,《中分表》中需要規(guī)范化的細節(jié)依然很多,尤其是其滯后性的一面亟需改變。因此,除了在文獻組織與管理行業(yè)內部不斷加強合作外,還應促成《中分表》相關的所有知識共同體間的更為廣泛與深入的合作?!吨袊鴪D書館分類法》組委會應與各學科領域的學術委員會及相關機構建立高效的共建機制,從具體領域入手,就主題詞及類目與結構的調整等方面制定詳細的準則并付諸實施,縮短相關類目的修訂周期。同時,本著開放關聯(lián)的原則,應積極吸納國內外在主題規(guī)范領域的研究成果(如全國科學技術名詞審定委員會發(fā)布的“術語在線”、國會圖書館主題規(guī)范的關聯(lián)數(shù)據(jù)服務等),不斷完善《中分表》知識組織、知識檢索、學科導航與實時更新的功能。在此基礎上,《中分表》與其他敘詞表及相關服務體系在語義與功能上的集成應該是未來的探索方向。