魏鳳萍 何益華 方 吉 黃 進(jìn)
機(jī)構(gòu)文獻(xiàn)檢索是開展學(xué)科服務(wù)和深度學(xué)科分析的基礎(chǔ),及時(shí)、快速地獲得完整、準(zhǔn)確的機(jī)構(gòu)文獻(xiàn)數(shù)據(jù)將有效提高學(xué)科服務(wù)工作效率。以Web of Science數(shù)據(jù)庫(下文簡稱WOS)為例,在實(shí)際的機(jī)構(gòu)文獻(xiàn)檢索中,有直接利用機(jī)構(gòu)名稱[1]何先美, 沈曉韻, 牟玉萍,等. 1999~2008年度上海交通大學(xué)科技論文統(tǒng)計(jì)與分析[J]. 上海交通大學(xué)學(xué)報(bào),2010,44(10):1470-1476.或郵政編碼進(jìn)行檢索[2]徐楠, 馬艷秋. 基于Web of Science中國民航大學(xué)科研論文收錄統(tǒng)計(jì)分析[J]. 圖書館工作與研究, 2010(3): 95-99.,也有采用機(jī)構(gòu)擴(kuò)展途徑[3]趙勇, 李晨英, 韓明杰. 中外高水平涉農(nóng)高校的學(xué)科結(jié)構(gòu)特征比較——基于QS世界大學(xué)農(nóng)業(yè)學(xué)科排名的科學(xué)計(jì)量學(xué)分析[J]. 情報(bào)雜志,2015,34(5):92-97.進(jìn)行檢索。而對于文獻(xiàn)檢索方法,有學(xué)者研究機(jī)構(gòu)名稱混淆[4]劉杰. SCI地址信息著錄的不規(guī)范性分析——以SCI收錄的北京大學(xué)文獻(xiàn)為例[J]. 中國科技期刊研究, 2005,16(6):848-849.、地址信息不規(guī)范的問題[5]丁海德, 龐芳芳, 李德成. SCI數(shù)據(jù)庫中地址信息著錄差異與錯(cuò)誤分析[J]. 現(xiàn)代情報(bào), 2008(4):173-174, 177.,還有提出機(jī)構(gòu)文獻(xiàn)檢索模式[6]梁桂英, 袁潤. 基于Web of Science數(shù)據(jù)庫的非特異性機(jī)構(gòu)論文檢索模式構(gòu)建[J]. 情報(bào)雜志,2015, 34(4):176-180, 175.和檢索式的構(gòu)造方法[7]苗艷榮. 機(jī)構(gòu)檢索在不同數(shù)據(jù)庫中的檢索方法及技巧[J]. 高校圖書館工作, 2015, 35(170):59-62.、步驟[8]謝群. 在Web of Science中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法研究[J]. 圖書館論壇, 2011, 31(1):155-157, 154.。但目前尚未有研究如何結(jié)合地址信息的特點(diǎn),優(yōu)化機(jī)構(gòu)文獻(xiàn)檢索策略的文獻(xiàn)。本文將分析WOS數(shù)據(jù)庫地址字段的結(jié)構(gòu)和屬性,介紹構(gòu)造基于地址檢索的機(jī)構(gòu)文獻(xiàn)檢索策略。
地址(AD)是WOS數(shù)據(jù)庫基本檢索字段,包含作者的工作單位、國家/地區(qū)、城市、街道、郵政編碼等多重信息。這些信息被單獨(dú)提取出來并分別構(gòu)成機(jī)構(gòu)(OO)、下屬機(jī)構(gòu)(SG)、街道地址(SA)、城市(CI)、省/州(PS)、國家/地區(qū)(CU)、郵政編碼(ZP)七個(gè)字段。因此,機(jī)構(gòu)和下屬機(jī)構(gòu)等雖然是獨(dú)立的檢索字段,但也可以看成是構(gòu)成地址字段的子字段。
根據(jù)文獻(xiàn)著錄的規(guī)則,地址字段可以描述為:機(jī)構(gòu),#[下屬機(jī)構(gòu)],#[街道地址],#城市[郵政編碼],#[省/州],#國家/地區(qū)。西文半角的逗號和空格作為間隔符用來連接兩個(gè)相鄰的子字段,間隔符在進(jìn)行字符串檢索時(shí)會被忽略,方括號用來表示字段的屬性。機(jī)構(gòu)、城市和國家地區(qū)三個(gè)字段沒有方括號,屬于基本字段或必備字段,是所有文獻(xiàn)地址必須具備的三要素。下屬機(jī)構(gòu)、街道、郵編、省/州等四個(gè)字段有方括號,說明這四項(xiàng)是可選字段或者非必要字段,文獻(xiàn)的地址里可能有其中的幾項(xiàng),也可能一項(xiàng)都沒有。
WOS遵循客觀照錄的原則從原文中轉(zhuǎn)錄、提取各子字段的信息,僅對單詞進(jìn)行一定的技術(shù)處理。如:不區(qū)分單詞大小寫,冠詞(a、an、the)和介詞(of、in、for)等被自動(dòng)忽略,and被用作邏輯與運(yùn)算符,機(jī)構(gòu)名稱中的and被替換成&。
此外,還為一些常用單詞建立映射,即用縮寫形式替代全拼,已建立映射且拼寫正確的單詞被轉(zhuǎn)換成縮寫形式,少數(shù)未建立映射的單詞也被轉(zhuǎn)錄成縮寫形式。如地址信息“Huazhong Univ Sci & Technol, Sch Management, Luoyu Rd 1037, Wuhan 430074, Hubei, Peoples R China”,Univ、Sci、Technol和Sch均采用縮寫形式,其中Univ、Sci和Sch已經(jīng)分別與University、Science和School建 立 映 射, 但Technol和Technololgy并不具有映射關(guān)系。因?yàn)闆]有進(jìn)行人工修正,原文地址中拼寫錯(cuò)誤的單詞被照錄。
OO(機(jī)構(gòu))和SG(下屬機(jī)構(gòu))兩個(gè)字段與機(jī)構(gòu)名稱直接相關(guān),正好對應(yīng)地址信息中的前兩項(xiàng):機(jī)構(gòu),#[下屬機(jī)構(gòu)]?!皺C(jī)構(gòu)”屬于必備字段,“下屬機(jī)構(gòu)”是可選字段,地址中不一定都具備。
部分機(jī)構(gòu)名稱出現(xiàn)錯(cuò)誤,一方面是論文發(fā)表時(shí)本身的錯(cuò)誤被直接照搬,另一方面就是數(shù)據(jù)庫公司在轉(zhuǎn)錄、識別的過程中產(chǎn)生的錯(cuò)誤[9]魏鳳萍, 何益華, 袁青. 基于Web of Science機(jī)構(gòu)標(biāo)引典型錯(cuò)誤及其維護(hù)策略[J]. 數(shù)字圖書館論壇,2018(5):46-51.。不規(guī)范或者錯(cuò)誤的機(jī)構(gòu)名稱有如下幾種類型:使用簡稱、拼寫不完整、單詞順序顛倒、機(jī)構(gòu)名稱用詞不規(guī)范、單詞拼寫錯(cuò)誤、機(jī)構(gòu)名稱缺失,使用漢語拼音直譯時(shí)缺少空格或拼寫錯(cuò)誤,參見表1。
表1 不規(guī)范的機(jī)構(gòu)名稱
地址信息中后五個(gè)字段都屬于地理位置信息,即:[街道地址],#城市[郵政編碼],#[省/州],#國家/地區(qū)。其中城市和國家是必備字段,原則上每條地址信息中都必須具備;街道、郵政編碼和省州屬可選字段,文獻(xiàn)地址中可能只有其中幾項(xiàng)或一項(xiàng)都沒有。
如表2所示的例子中都有城市和國家信息,部分有郵政編碼和省州信息,沒有街道地址信息。城市采用漢語拼音直譯,很可能出現(xiàn)如例1的使用不規(guī)范縮寫,例2平翹舌、例3的前后鼻音、例4的空格等問題;郵政編碼除可能缺省外,還會出現(xiàn)如例5和例6的使用錯(cuò)誤;省州基本采用漢語拼音直譯,除可能缺省外,其拼寫也容易出現(xiàn)錯(cuò)誤。
表2 地址中地理位置信息
機(jī)構(gòu)名稱決定科研成果的歸屬權(quán),是檢索機(jī)構(gòu)文獻(xiàn)最理想的關(guān)鍵詞[10]何建新, 胡方方. 論著者地址的情報(bào)價(jià)值[J]. 圖書情報(bào)工作, 1998(7):18-19, 42.。機(jī)構(gòu)是WOS地址字段的必備字段,每條地址信息中必須具備;下屬機(jī)構(gòu)、郵政編碼等屬于可選字段,不是每條地址信息中都具備。因此,為保證機(jī)構(gòu)文獻(xiàn)的檢全率,文獻(xiàn)檢索的選詞原則應(yīng)是以必備字段為主、以可選字段為輔,即以機(jī)構(gòu)、城市、國家/地區(qū)等信息為主,以郵政編碼、街道、省/州等信息為輔。
城市、省州和國家指代的地區(qū)范圍較大,獨(dú)立檢索時(shí)不足以專指某個(gè)機(jī)構(gòu),通常與機(jī)構(gòu)名稱一起使用,起限定或區(qū)分的作用。街道地址和郵政編碼表達(dá)的地理范圍相對較小,可能指向城市里的某個(gè)具體區(qū)域,若對機(jī)構(gòu)的指向性明確并且專指度高,可以作為獨(dú)立檢索詞使用。街道和郵政編碼不是必備字段,并非所有地址信息都會填寫,作為唯一檢索詞極易導(dǎo)致漏檢,建議僅作為輔助條件對其他檢索式和檢索詞進(jìn)行補(bǔ)充。此外,若同一個(gè)區(qū)域內(nèi)有多個(gè)機(jī)構(gòu)共用一個(gè)郵政編碼,如果作者存在誤用,其作為限定詞也可能產(chǎn)生誤檢。
WOS是基于英文內(nèi)核的數(shù)據(jù)庫檢索系統(tǒng),所有字段都采用英文或者阿拉伯?dāng)?shù)字描述。通過地址字段進(jìn)行檢索時(shí),檢索詞與地址的部分信息一致即認(rèn)為匹配成功。對中國機(jī)構(gòu)來說,其中文名稱可能具有較高的辨識度,但其英文名稱在檢索時(shí)則可能產(chǎn)生混淆[11]劉杰. SCI地址信息著錄的不規(guī)范性分析——以SCI收錄的北京大學(xué)文獻(xiàn)為例[J]. 中國科技期刊研究, 2005,16(6):848-849.。因此,利用機(jī)構(gòu)名稱進(jìn)行檢索,須核實(shí)其英文名稱是否具有較高的專指度,只有具備較高檢索專指度的英文名稱才能直接進(jìn)行檢索。
比如,輸入Wuhan University(武漢大學(xué))可能檢索到Wuhan University of Technology(武漢理工大學(xué))的文獻(xiàn),輸入Tsinghua University(清華大學(xué))可能檢索到National Tsing Hua University(臺灣清華大學(xué))等。對武漢大學(xué)與武漢理工大學(xué)等同在一個(gè)城市的易混淆機(jī)構(gòu),可以通過文獻(xiàn)集合理論進(jìn)行排除[12]梁桂英, 袁潤. 基于Web of Science數(shù)據(jù)庫的非特異性機(jī)構(gòu)論文檢索模式構(gòu)建[J]. 情報(bào)雜志,2015, 34(4):176-180, 175.;對于清華大學(xué)與臺灣清華大學(xué)等不在同一城市的易混淆機(jī)構(gòu),可以利用郵政編碼、城市或者地區(qū)信息進(jìn)行限定[13]苗艷榮. 機(jī)構(gòu)檢索在不同數(shù)據(jù)庫中的檢索方法及技巧[J]. 高校圖書館工作, 2015, 35(170):59-62.。
地址中除了存在因原文中作者的拼寫錯(cuò)誤被照錄或信息提取錯(cuò)誤等問題,還存在多種不規(guī)范的機(jī)構(gòu)名稱拼寫形式,在機(jī)構(gòu)文獻(xiàn)檢索中應(yīng)盡量實(shí)現(xiàn)這部分文獻(xiàn)的檢索。
表3 機(jī)構(gòu)名稱可能存在的問題與檢索策略
表3列出機(jī)構(gòu)名稱拼寫中可能存在的問題及其解決辦法,即:使用截詞符或通配符來匹配單詞的多種拼寫形式,用邏輯或列舉近義詞、同義詞等多種表達(dá),將名稱中的核心單詞作不同排列組合并將不同詞序組合去掉最后一個(gè)單詞,即可解決機(jī)構(gòu)名稱拼寫時(shí)詞序顛倒和部分單詞缺失的問題。
地址中,還可能出現(xiàn)機(jī)構(gòu)簡稱、曾用名、機(jī)構(gòu)名稱缺失等問題。對機(jī)構(gòu)簡稱和曾用名,都要確定其檢索專指度高,若沒有誤檢則直接作為檢索詞使用,否則就需要視情況增加城市、郵政編碼等作為限定條件。而機(jī)構(gòu)名稱缺失的情況多出現(xiàn)于具有一定規(guī)模、科研實(shí)力較強(qiáng)的附屬機(jī)構(gòu),較常見的有附屬醫(yī)院、大型實(shí)驗(yàn)室和研究中心等,可收集附屬單位的信息并逐個(gè)分析、檢索。
機(jī)構(gòu)文獻(xiàn)檢索可分為:準(zhǔn)備、調(diào)試和匯總?cè)齻€(gè)階段。準(zhǔn)備階段主要收集整理各類信息,如機(jī)構(gòu)官方英文名稱,機(jī)構(gòu)簡稱、曾用名,以及科研實(shí)力較強(qiáng)的附屬醫(yī)院、實(shí)驗(yàn)室等下屬機(jī)構(gòu)及相應(yīng)的英文名稱,并根據(jù)縮寫詞表將檢索詞轉(zhuǎn)換成恰當(dāng)?shù)目s寫形式。調(diào)試階段的工作最為復(fù)雜,專指度高的名稱直接用于檢索,并進(jìn)行截詞、去尾和排序等技術(shù)處理,以適應(yīng)可能出現(xiàn)的不同變體;不具備唯一性的名稱須增加適當(dāng)?shù)南薅l件,確保檢索結(jié)果不產(chǎn)生漏檢、誤檢。沒有命中文獻(xiàn)的檢索式可以直接舍棄,有命中文獻(xiàn)則暫定為有效檢索式。匯總階段要將從不同角度擬定的有效檢索式進(jìn)行精煉,去掉檢索結(jié)果被其他檢索式完全覆蓋的檢索式,最后用邏輯或?qū)⑺袡z索式連接、匯總,構(gòu)成機(jī)構(gòu)文獻(xiàn)檢索式。檢索流程參見圖1。
圖1 機(jī)構(gòu)文獻(xiàn)檢索流程
圖2 顯示對機(jī)構(gòu)名稱“Huazhong University of Science & Technology”中的“Hua”進(jìn)行截詞的過程。截詞的調(diào)試中,命中文獻(xiàn)數(shù)量增加表示匹配到新的變體形式,沒有變化意味著暫時(shí)沒有匹配到。
如出現(xiàn)新增文獻(xiàn),須對文獻(xiàn)仔細(xì)驗(yàn)證,確認(rèn)是否全部屬于目標(biāo)機(jī)構(gòu)。若確認(rèn)屬實(shí),說明該調(diào)試可行并且可繼續(xù);若出現(xiàn)其他機(jī)構(gòu)的干擾文獻(xiàn),說明調(diào)試范圍過大導(dǎo)致誤檢,應(yīng)放棄。但須注意,若新增文獻(xiàn)中既有其他機(jī)構(gòu)文獻(xiàn),也有目標(biāo)機(jī)構(gòu)文獻(xiàn),此時(shí)雖然應(yīng)停止繼續(xù)截詞,但要對新出現(xiàn)的目標(biāo)機(jī)構(gòu)文獻(xiàn)進(jìn)行研究,分析其特點(diǎn)和規(guī)律并寫出恰當(dāng)?shù)臋z索式。對特別容易混淆的機(jī)構(gòu)名稱,進(jìn)行限定后還要對檢索到的文獻(xiàn)進(jìn)行分析,部分文獻(xiàn)可能需要人工判斷,將非目標(biāo)機(jī)構(gòu)文獻(xiàn)做好記錄,便于從結(jié)果中排除。
筆者從規(guī)范名稱及其各種變體、機(jī)構(gòu)簡稱、醫(yī)學(xué)院與附屬醫(yī)院、實(shí)驗(yàn)室、曾用名等角度為華中科技大學(xué)編寫地址檢索式,2018年6月26日檢索結(jié)果如圖3所示。#1是規(guī)范的機(jī)構(gòu)名稱,#2是機(jī)構(gòu)擴(kuò)展檢索,#3是地址檢索,#4說明近五年華中科技大學(xué)有643篇SCI論文機(jī)構(gòu)名稱拼寫不規(guī)范,#5說明截止到檢索日華中科技大學(xué)有119篇論文尚未進(jìn)行機(jī)構(gòu)標(biāo)引,#6和#7說明規(guī)范的機(jī)構(gòu)名稱和機(jī)構(gòu)擴(kuò)展檢索被地址檢索完全覆蓋。
本文提出的機(jī)構(gòu)文獻(xiàn)檢索策略是華中科技大學(xué)圖書館多年進(jìn)行機(jī)構(gòu)文獻(xiàn)檢索的經(jīng)驗(yàn)總結(jié),融合Web of Science數(shù)據(jù)庫的信息處理特點(diǎn)、檢索功能和機(jī)構(gòu)的個(gè)性特征,對華中科技大學(xué)而言能有效彌補(bǔ)機(jī)構(gòu)擴(kuò)展檢索的不足,滿足本校對SCI論文數(shù)據(jù)的需求。不同機(jī)構(gòu)的歷史和發(fā)展各不相同,但數(shù)據(jù)庫地址信息轉(zhuǎn)換規(guī)則和檢索功能是相同的,機(jī)構(gòu)的不規(guī)范署名有相似之處,希望該檢索策略能為其他機(jī)構(gòu)提供借鑒和參考。
圖2 對“Hua”進(jìn)行截詞的過程(2018.6.24)
圖3 檢索效率測評(2018.6.26)