孫赟星
(哈爾濱市科學(xué)技術(shù)情報研究所,黑龍江 哈爾濱 150000)
檢索語言是信息檢索系統(tǒng)存貯與檢索所使用的共同語言。它是專門用來描述文獻的內(nèi)容特征、外表特征和表達情報提問的一種人工語言。由于自然語言不可避免地存在詞匯上的歧義性,語義上的歧解性,不便用于標(biāo)引和檢索工作,因此情報檢索領(lǐng)域出現(xiàn)了各種檢索語言。 檢索語言由具體的檢索標(biāo)識構(gòu)成。包括分類語言、主題語言和代碼語言。分類語言是以數(shù)字和字母相結(jié)合作為基本字符,以基本專業(yè)類目為基本詞匯,以類目的從屬關(guān)系來表達復(fù)雜概念的一類檢索語言。用分類語言來描述和表達文獻內(nèi)容的加工方法稱為分類法。
受控檢索語言是通過詞表對檢索語言中的同義詞、同音詞、多義詞、同形異義詞、近義詞等進行規(guī)范化處理,建立各詞之間的相互關(guān)系和位置。具體地說就是通過“用、代、屬、分、參”來限定各詞的語義和關(guān)系,通過詞族可了解一詞的上下位關(guān)系,通過用/代項可知道某詞的同義詞和近義詞,對于采用主題法對文獻進行主題標(biāo)引并使文獻按一定規(guī)律排列的加工過程來說,敘詞表起到了規(guī)范用詞的標(biāo)準(zhǔn)作用。
世界各大型情報機構(gòu)都有自己的主題詞表。例如:英國劍橋科學(xué)文摘CSA(Cambridge Scientific Abstracts)有主題詞表(Thesaurus),作為標(biāo)引和檢索的查詢工具。在我國,比較權(quán)威的是應(yīng)用分類法組織文獻信息的《中圖分類法》和應(yīng)用主題法組織文獻信息的《漢語主題詞表》,以及代表文獻處理發(fā)展方向——分類主題一體化的《中國分類主題詞表》。各個專業(yè)情報機構(gòu)依據(jù)專業(yè)資料的特殊性又相繼編制了各類專業(yè)詞表。據(jù)不完全統(tǒng)計,國內(nèi)已實際應(yīng)用的詞表有60多部,詞表容量超過1萬的有10部左右。我所《電子科技文摘》的編輯與組織就是依照《電子技術(shù)敘詞表》進行主題標(biāo)引的,同時建立的“電子科技文摘數(shù)據(jù)庫”也以該表作為檢索語言。
將敘詞表輸入到計算機中,應(yīng)用菜單技術(shù)制成電子版的多窗口聯(lián)動的顯示界面,可同時顯示一詞條的相關(guān)關(guān)系(如中英文對照、分類號、用詞代詞等),有利于機輔標(biāo)引時詞表的使用和詞表維護修訂。中國國防科技信息中心研制的圖書館業(yè)務(wù)子系統(tǒng)(LibMIS)中的“文獻著錄和標(biāo)引模塊”,采用了以《國防科學(xué)技術(shù)敘詞表》為主體的計算機輔助聯(lián)機標(biāo)引,依次通過“敘詞導(dǎo)航”提供查詢詞庫功能,通過“敘詞定位”反映敘詞詞族關(guān)系,“敘詞調(diào)整”使敘詞進入到標(biāo)引記錄,通過“增加自由詞”實現(xiàn)自由詞標(biāo)引。該中心2000年出版的電子版《國防科學(xué)技術(shù)敘詞表》擁有敘詞90000條,自由詞2000條,在詞表維護界面上可完全實現(xiàn)對詞表的增、刪、改以及對某詞條的范疇號、用代詞的界定。如此大容量的詞表若印刷成書,其厚度將難以想象。計算機的應(yīng)用以其高速度、大存儲容量為檢索語言的聯(lián)機顯示鋪平了道路。
《計算機世界》的在線標(biāo)引界面的敘詞與自由詞同時顯示為標(biāo)引人員提供了另一便利:自由詞庫也同敘詞庫一樣變得“透明”起來:標(biāo)引員甲標(biāo)引過的自由詞被存儲在詞庫中可供標(biāo)引員乙、丙參考使用;經(jīng)過一定周期的積累利用詞頻統(tǒng)計,可將高頻自由詞轉(zhuǎn)為敘詞。在這里計算機內(nèi)的自由詞庫為詞表的擴充起到了統(tǒng)計依據(jù)。
90年代初開始的自然語言處理以及檢索語言的機讀化和聯(lián)機化開始了檢索語言應(yīng)用的新紀元。1991年10月,美國情報學(xué)會(ASIS)在華盛頓舉行第54屆年會,會上討論了文獻處理技術(shù)的重點--檢索語言技術(shù)。在檢索語言機讀化方面走到前列的美國醫(yī)學(xué)圖書館和NASA的宇航情報中心介紹了他們的研究成果。以美國醫(yī)學(xué)圖書館主題表MeSH和宇航情報中心的NASA敘詞表及其支持的數(shù)據(jù)庫為代表的專業(yè)情報界的檢索系統(tǒng)歷經(jīng)10多年的應(yīng)用與不斷改進,發(fā)展成為今天占主流的基于控制語言(無論是主題詞表、敘詞表、關(guān)鍵詞表、自由詞表、中介詞表、停用詞表還是特例詞表)的機輔標(biāo)引和聯(lián)機檢索系統(tǒng)。
在國內(nèi),多年來情報界與計算機界的專家一直在探討利用計算機軟件技術(shù)實現(xiàn)文獻標(biāo)引、分類、編寫文摘的自動化。近年來我國情報界已研制成多個自動標(biāo)引系統(tǒng),例如北京大學(xué)的“漢語科技文獻自動標(biāo)引系統(tǒng)”、上海交通大學(xué)和上??萍记閳笱芯克献餮兄频摹爸形目萍嘉墨I的自動標(biāo)引系統(tǒng)”等堪稱為國內(nèi)水平的代表作。
眾所皆知,作為主題法(敘詞法)處理文獻依據(jù)的敘詞表為標(biāo)引提供了理論依據(jù);若將敘詞表顯示在檢索界面上將會為檢索用戶提供查詞依據(jù):根據(jù)檢索到文章的多少按照詞族表進行上位詞擴檢或下位詞縮減。這將要求用戶熟悉敘詞表的編制框架和編制原則。是否能讓用戶完全使用自然語言提問檢索呢?基于自然語言處理的檢索系統(tǒng)是國內(nèi)同行的另一個研究方向?!把堇[情報檢索系統(tǒng)”則是其中的一例。
傳統(tǒng)的情報檢索過程中用戶所能操縱與檢索的數(shù)據(jù)僅是實際存在于檢索系統(tǒng)中的數(shù)據(jù),這些數(shù)據(jù)稱為實數(shù)據(jù)。由實數(shù)據(jù)和邏輯推理功能相結(jié)合可得到一種新型檢索系統(tǒng)--演繹情報檢索系統(tǒng)。新系統(tǒng)所占實際物理空間與傳統(tǒng)情報檢索系統(tǒng)相差無幾,只是多了若干規(guī)則。正是由于這些規(guī)則,使系統(tǒng)實現(xiàn)推理,使用戶能檢索到?jīng)]有明顯存放著的虛數(shù)據(jù)。演繹情報檢索系統(tǒng)的特點是以自然語言為檢索語言,以自然語言為輸出檢索結(jié)果。而通常用敘詞表表示的上下位關(guān)系和用代關(guān)系等都利用程序設(shè)計語言將規(guī)則理解和表示。與一般的情報檢索系統(tǒng)相比,它除了有信息數(shù)據(jù)庫以外,還有一個檢索數(shù)據(jù)庫,此數(shù)據(jù)庫是由將情報檢索專家的知識和經(jīng)驗及應(yīng)用領(lǐng)域的知識歸納抽象成一系列程序子句構(gòu)成的,從而真正實現(xiàn)了智能化檢索?;谧匀徽Z言處理的檢索系統(tǒng)除了演繹情報檢索系統(tǒng),還有單漢字檢索系統(tǒng)、全文本檢索系統(tǒng)。
綜上所述,基于控制語言(詞表)的檢索系統(tǒng)和基于自然語言的檢索系統(tǒng)都在這10年中得到了蓬勃發(fā)展。有人預(yù)言,以控制詞匯(詞表)為基礎(chǔ)的模式向以自然語言的字(關(guān)鍵字)為基礎(chǔ)的模式轉(zhuǎn)變,是當(dāng)今檢索系統(tǒng)的發(fā)展趨向之一。但還有人聲明,受控語言的主導(dǎo)地位不會被取代,一種結(jié)構(gòu)良好的敘詞表能夠以任何方式支持主題標(biāo)引和檢索作業(yè),包括機輔標(biāo)引(或自動標(biāo)引)和全文檢索、自由詞檢索,都離不開各類詞表的支持。上面提到的單漢字檢索系統(tǒng)盡管沒有以敘詞表為基礎(chǔ)的人工標(biāo)引,但還需要“停用詞表”(Stop List)支持其自動抽取關(guān)鍵詞。
為了彌補無控制詞表的不足,單漢字檢索系統(tǒng)還需要建立后控詞表,一種不供標(biāo)引只供檢索用的詞表。當(dāng)檢索者為了查全某一主題的資料,而不了解相應(yīng)的同義詞和相關(guān)詞時,只需輸入一個自己以知的檢索詞,系統(tǒng)就能通過后控詞表自動將有關(guān)同義詞與相關(guān)詞納入檢索式,并用“或”邏輯連接在一起,從而提高查全率。配備后控制詞表是提高自然語言檢索效率的有效措施。
傳統(tǒng)的受控語言與自然語言共同使用,可起到優(yōu)勢互補的作用。這在國內(nèi)外已形成共識?!峨娮涌萍嘉恼返奈墨I加工、組織排序即采用此種方式:同時用分類號(范疇號)、敘詞(主題詞)、自由詞(關(guān)鍵詞)標(biāo)引一篇文獻,檢索時分類號、敘詞、自由詞皆為可檢索字段。有人將分類號、敘詞、自由詞合為一體的檢索方式稱為整體化檢索語言,實踐表明,整體化檢索語言是聯(lián)機檢索系統(tǒng)理想的語言。
[1]王偉新.BDS數(shù)據(jù)庫檢索[J].北京文獻服務(wù)處.
[2]杜元清.美國情報學(xué)會第54屆年會述略[J].情報理論與實踐,1992,(3),52-53.
[3]李惠芬,王永成.演繹情報檢索系統(tǒng)[J].情報學(xué)報,1992,11(1),5-10.