王英春,范紅月
(大連海事大學圖書館,遼寧 大連 116026)
美國《工程索引》(The Engineering Index,簡寫 EI),1884年由美國工程信息公司(Engineering Information Inc·)創(chuàng)辦,是一個主要收錄工程技術期刊文獻和會議文獻的大型國際權威檢索系統。《EI》發(fā)展至今,已有4種版本,即印刷版、光盤版、聯機版和網絡版。EI網絡版數據庫是目前全球最全面的工程檢索二次文獻數據庫,文獻來源于5 100多種工程類期刊、會議論文集和技術報告、數據庫涵蓋工程和應用科學領域的各學科。網上可以檢索到1969年至今的文獻,數據庫每周更新數據,以確保用戶可以跟蹤其所在領域的最新進展。
大學教師發(fā)表論文的情況,在一定程度上反映了學校的科研實力和技術水平,尤其是被世界一些著名檢索系統所收錄的論文,其數量和質量更是衡量學??蒲?、學術實力的重要標志之一。許多院校和科研單位在每年年終時都要檢索以本單位為第一作者單位發(fā)表的論文被Ei收錄的情況,以此來客觀評價大連海事大學的科研水平及發(fā)展狀況,為單位領導了解、掌握本單位的科研能力、修訂長期科研發(fā)展規(guī)劃提供參考和決策的依據。
在實際檢索中必須通過機構名稱(Author Affiliation)進行檢索,其檢索結果過于冗長,包含很多不需要的條目。常規(guī)的做法是人工檢查,逐條刪除多余的條目。面對數百篇甚至數千篇的論文檢索數據,如果由人工進行處理,通常需要數天時間,勞動強度極大,而且極易因為檢索人員的疲勞造成漏刪和誤刪的結果。筆者在對檢索處理工作進行分析研究的基礎上,研究出了一種檢索數據自動處理方法,并運用了一種常見的文件編輯軟件UltraEdit所具有Java腳本執(zhí)行功能。通過編寫腳本程序,實現了檢索條目自動刪除冗余信息、添加論文編號以及格式排版功能,極大地提高了論文檢索結果處理的速度和質量。
文章的方法是,從EI檢索到所查文章,選中后,以Plaint text format(ASCII)格式下載,并以.txt格式進行保存,然后用文本編輯器UltraEdit打開該文件,UltraEdit是一套功能強大的編輯器,能夠滿足大多數的編輯需要,支持用戶用Java指令編寫所需的腳本。下面分別介紹自動刪除特定條目和添加論文標號及格式排版的實現。
Ultra Edit的腳本通過嵌入的JavaScript引擎啟用。這允許用戶在享受完整JavaScript語言的強大和靈活的同時使用以下指定的命令與編輯器(應用程序對象命令)和在編輯器中打開的文檔(文檔對象命令)進行特別交互。在一個Ultra Edit的腳本中Ultra Edit.active Document所對應的就是當前打開的文檔,所有的操作針對該文檔完成。通過該文檔對象支持的find功能和deleteLine功能即可實現特定條目的刪除。下面以刪除全部檢索結果中Corresponding author這個條目為例來詳細介紹,流程圖見圖1。其簡要說明:①通過編寫代碼定義對應Corresponding author條目的字符串Str;②通過Ultra Edit.active Document對象的top函數將處理開始位置置于文檔起始行;③進入循環(huán)處理來刪除全部包含Corresponding author的條目;④循環(huán)中搜索過程首先利用Ultra Edit.active Document對象find Replace子對象的find函數尋找包含Corresponding author字符串的行;⑤再通過if語句判斷Ultra Edit.active Document對象的isFound函數返回值是否為真,如果為真,就代表找到了包含Corresponding author字符串的行;⑥通過Ultra Edit.active Document對象的delete Line函數刪除該行;⑦通過Ultra Edit.active Document對象的top函數返回文檔的起始行,重新開始搜索。需要注意的是第⑦步驟中代碼非常重要,如果不返回起始行而繼續(xù)往下搜索的話就會導致刪除行不正確。如果if語句判斷Ultra Edit.active Document對象的isFound函數返回值為假,則表示文檔中已經沒有包含Corresponding author字符串的行,執(zhí)行else語句中的代碼break結束循環(huán)。這樣就完成了對檢索結果中所有Corresponding author條目的自動刪除工作。
圖1 刪除特定條目算法流程圖
要刪除其他條目只需在腳本中復制上述代碼,將str=“Corresponding author”一行中的字符串改成對應條目的特定字符串即可,非常簡便、可操作性極強。
圖2 添加論文編號算法流程圖
原始檢索結果中通過
圖3 自動排版算法流程圖
接下來是自動排版的算法。①通過Ultra Edit.active Document對象的top函數將處理開始位置重新置于文檔起始行。②記錄行號的變量line Num的值賦為0。③進入循環(huán)處理,來給除檢索項編號外的所有行進行排版,循環(huán)通過Ultra Edit.active Document對象isEof函數判斷是否已經到了文檔的結尾,來作為循環(huán)結束條件。如果沒到文檔結尾,則執(zhí)行第④步,跳轉至lineNum所對應的行的第一列。④通過Ultra Edit.active Document對象的isChar函數判斷該行的第一個字符是否為[,如果是則代表該行是檢索項編號,無需處理,如果不是則執(zhí)行第⑤步。⑤Ultra Edit.active Document對象的write函數在該行寫入一個制表符,將該行縮進四個字符。⑥將行編號加一,繼續(xù)處理下一行。循環(huán)結束后就完成了對檢索結果的自動排版工作。
文章介紹了一種在EI中論文查收結果快速處理的方法。利用UltraEdit的腳本功能,編寫了自動刪除特定條目和添加論文標號及格式排版的功能,極大地提高了文獻檢索結果處理的自動化程度和速度。以本校為例,2009年度EI檢索總篇數近300篇,采用文章方法處理總耗時僅為47 s,而以往該項工作需耗時1天以上,還需要進行人工校核。本人對圖書館信息檢索自動化處理方面進行了有益的嘗試,相關人員可以根據需要編寫適當的腳本,提高工作效率,享受信息化和數字化帶來的便利。