陳偉 蘇婉瑩 周琴
〔摘 要〕[目的/意義]針對近年來圖書館查收查引報告需求逐年增加,自動化檢索系統容易出現數據質量問題,傳統手工操作費時費力的現狀,提出了一個新的查收查引報告工作流程,以便圖書館更好地開展查收查引服務,提高服務效率和質量。[方法/過程]將生產運營管理學中的順序移動法引入查收查引工作中,結合批量處理策略,重新構建查收查引報告工作流程。[結果/結論]該流程綜合利用圖書館現有軟件資源——Word、Excel和文獻管理軟件,發(fā)揮各軟件之長,實現批量檢索、批量編輯字段、快速插入引證文獻。這大大減少了檢索人員的重復性勞動,保障數據的準確性,為查收查引服務的研究與實踐提供有益參考。
〔關鍵詞〕查收查引;Word;Excel;文獻管理軟件;批量處理
DOI:10.3969/j.issn.1008-0821.2018.04.019
〔中圖分類號〕G252.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)04-0130-05
〔Abstract〕[Purpose/Significance]The requirement of database retrieving and data processing reports is increasing year by year.Data quality problems easily occur by the use of automatic retrieving system,but it takes more time and energy to handle the reports manually in the traditional way.Then a new workflow is put forward,aiming at libraries to provide better database retrieving and data processing service and enhance its quality and efficiency.[Method/Process]The sequential processing of production and operation management was introduced into the workflow.Combined with batch processing the new workflow was set up.[Result/Conclusion]The workflow comprehensively utilized the software resource of library including Word,Excel and reference management software.It also took full advantage of strengths of the software.Batch retrieving,batch editing fields and quickly inserting citations could be realized.As a result,repetitive operations were greatly decreased and data accuracy can be guaranteed,which provided beneficial reference for study and practice of database retrieving and data processing service.
〔Key words〕database retrieving and data processing;Word;Excel;reference management software;batch processing
查收查引是一項簽證性的信息服務工作,檢索人員需以公平、公正、客觀的原則,認真、負責的工作態(tài)度查證文章的收錄和引用信息。這些信息為科研立項、職稱評定、人才引進等活動提供必備的評價支撐數據。從服務的結果——查收查引報告中,不僅可以解讀文章作者的科研成果和學術影響力,還體現圖書館查收查引服務的質量和檢索人員的工作能力,因此其質量非常重要。近年來查收查引報告需求逐年增加,這給很多圖書館帶來了困難和挑戰(zhàn)。開發(fā)查收查引系統實現自動化檢索是提高工作效率的一種途徑,但由于數據庫誤標誤引、作者重名等原因,容易出現漏檢、誤檢、自引誤判等數據質量問題[1]。如何高效高質量地完成查收查引報告是圖書館檢索人員普遍關注的問題。
西安交通大學圖書館積極嘗試探索,從工作流程的角度改進了查收查引報告的工作流程,并結合常用軟件進行批量處理操作,從而有效地提高了查收查引報告的處理效率。本文將結合實踐,詳細闡述該操作流程及相關技巧,以供同行參考。
1 查收查引報告的研究現狀
面對不斷增長的查收查引報告需求,圖書館在如何提高檢索人員的工作效率方面做了很多研究,歸納起來有兩大類:
第一類是開發(fā)查收查引系統,實現自動化檢索。目前已有清華大學[2]、中國科學院[3]、CALIS技術中心和北京大學圖書館[4]開發(fā)了自動化系統,但并未能實現全自動化檢索,檢索過程中仍需要人工干預;也有高校[5-6]將機構知識庫與查收查引系統結合起來,這能有效地提高本校讀者的查收查引報告檢索效率,但對于校外讀者并不適用;也有針對查收查引工作流程中某一環(huán)節(jié)/某一部分進行研究,如PDF格式報告的自動生成[7]、針對SCI數據庫的查收報告自動出具系統三[8]。
計算機軟件輔助查收查引報告是檢索人員提高效率的另一個途徑。文獻管理軟件和Excel是常用軟件,例如中國科學技術大學圖書館研究用不同的文獻管理軟件提高查收查引的工作效率[9-11]。也有將辦公軟件Word[12]的查找替換功能應用于查收查引報告中。
據統計118所211高校中使用查收查引系統有20所左右[5]。大部分圖書館仍采用計算機軟件輔助或者傳統手工操作的方式處理查收查引報告,究其原因,每個圖書館的人力資源、資金狀況、查收查引需求量等情況不同,應對措施也有所差異。在計算機軟件輔助或手工處理查收查引報告時,基本采用直線式,每篇文章要逐一檢索收錄和引用,逐個處理檢索報告。但當面臨多個檢索報告或多項任務時,只考慮當前單個查收查引報告而逐篇進行檢索,這種做法雖然具有簡單和可行性高的優(yōu)點,但存在大量簡單的重復性操作,并且從整個工作流程來看,沒有考慮多個檢索任務、網絡狀況、檢索人員身兼多職等實際狀況,因此此類做法在工作量和執(zhí)行時間方面都有改進的空間。本文則針對這一突出問題,改進工作流程,將檢索報告的處理過程劃分為多個環(huán)節(jié),化整為零靈活執(zhí)行,使用常用軟件執(zhí)行批量處理操作,減少檢索人員重復的機械性勞動,提高查收查引報告的工作效率;同時將檢索人員的精力主要集中在引用部分,特別是他引的排除和判斷上,保證數據質量。
2 查收查引報告處理的整體思路
在生產運營管理學中,有一種生產過程的組織形式為——順序移動方式[13]。它是指一批零件在前道工序全部加工完畢后,整批轉移到后道工序進行加工。這種組織方式的優(yōu)點是每一個工序集中處理,工作效率高。針對多篇文章的查收查引報告,若將文章視為“零件”,采用順序移動方式,并結合批量處理操作,可大大減少檢索人員的重復性勞動。
基于批量處理策略處理查收查引報告與傳統的逐篇檢索的工作流程和操作方式完全不同,需對報告處理的過程和細節(jié)做全面、系統的考量。因此需從整體上重新設計和規(guī)劃工作流程,具體而言,包括以下幾個步驟:
1)接受讀者委托,確定檢索文獻清單。與讀者溝通伊始,解釋格式規(guī)范的或有收錄號的文獻清單有利于報告的快速完成,讀者可能給予支持。若讀者急需查收查引報告,但無文獻清單,檢索人員可輔助。
2)讀者填寫委托書,明確檢索需求。溝通的第二個關鍵問題是將讀者需求以填寫委托書的方式記錄下來,明確檢索和引用的數據庫、他引規(guī)則、排序方式、所需匯總數據等細節(jié)問題。這一環(huán)節(jié)是查收查引報告工作流程中的關鍵環(huán)節(jié),直接關系到報告的內容和有效性,后續(xù)環(huán)節(jié)都是在這一基礎上開展的。
3)批量檢索文章收錄,獲得被收錄文章列表。通過收錄號或者文章篇名等關鍵字段編輯成檢索式進行批量檢索。
4)按檢索需求搭建查收查引報告框架。基于文章收錄列表,通過批量處理操作編輯字段生成報告的收錄部分和引用框架。
5)集中插入引證文獻、分析他引。利用文獻管理軟件Endnote或者NoteExpress在引用框架的基礎上插入引證文獻,同時分析他引,補充數據。
6)統計、匯總數據完成報告。
3 批量處理查收查引報告的關鍵環(huán)節(jié)
查收查引報告工作流程中的每一步都會涉及一些關鍵性問題,只有對各個步驟的關鍵問題提前注意并妥善處理才能保障報告的高效處理。
3.1 批量檢索
3.1.1 編輯批量檢索式
筆者在實踐過程中,針對每一個讀者的查收查引報告建立了相應的Excel文件,并把不同環(huán)節(jié)的數據放在其不同的工作表中,例如給張三做查收查引報告,可將其文獻清單、收錄數據、報告框架、統計數據四個工作表匯集在一個名叫張三的Excel文件中,這便于存儲、分享和核實數據。
批量檢索之前,先用Excel提取收錄號或篇名等關鍵字段,再結合Word的替換功能編輯檢索式。方法如下:將格式如參考文獻般的文獻清單粘貼到對應的工作表中,得到一列數據,然后使用數據分列功能,提取每篇文獻的WOS入藏號/Accesssion Number/PubMed ID/篇名,單獨成一列。再將這一列關鍵字段粘貼到Word中,通過替換功能編寫檢索式。如提取的是收錄號,將收錄號之間的回車符號“^p”替換成“OR”即可;若提取的是篇名,則將篇名之間的回車符號“^p”替換成“”O(jiān)R“”,即把每個篇名精確檢索后再執(zhí)行邏輯或。應用上述檢索式,選擇對應的檢索途徑,如在SCI數據庫中有入藏號、Pubmed ID、篇名等檢索途徑,能快速獲得多篇文章的收錄結果。
3.1.2 比對核實并查缺補漏,獲得被收錄文章列表
批量檢索可提高檢索效率,避免了逐篇檢索時的費時費力。通過WOS入藏號/Accession Number等收錄號獲得的結果,即快速又準確,但使用PubMed ID或篇名批量檢索后可能漏檢。漏檢的原因之一可能是文章未被收錄或由于數據庫滯后尚未被收錄[14];原因之二是:SCI在標引數據時有遺漏PubMed ID字段現象,例如文獻:CARDIOVASCULAR DIABETOLOGY,2015卷:14 文獻號:6 DOI:10.1186/s12933-014-0165-0;另外篇名中如有特殊字符或拼寫錯誤也會漏檢。
補缺漏檢的文章之前,需比對核實確定哪一篇文章被遺漏??旖莸霓k法是預先利用Excel中的排序功能將文獻清單排序,批量檢索后也將檢索結果按同樣方式排序,再通過來源出版物和頁碼核實信息。同一篇名在數據庫中也可能出現兩條記錄[15],需謹慎挑選:文章訂正后的記錄可保留,若文章被撤銷,則都不予選擇。
漏檢的文章要進一步補缺。這里推薦“篇名專業(yè)詞+作者姓+合作者姓”這種檢索策略,可有效避免SCI、EI等數據庫對姓名不同著錄方式的干擾,通過提高查準率快速補漏。比對核實和查缺補漏可保證收錄數據的質量,將上述結果合并,按特定排序方式導出即獲得被收錄文章列表。
3.2 按讀者需求搭建查收查引報告框架
查收查引報告主要包括首頁結論、收錄部分和引用部分,其框架的搭建主要針對后兩部分,這一環(huán)節(jié)是整個流程中最重要的一個環(huán)節(jié)。重中之重是針對引用部分搭建框架,要分析哪些字段需要調整、修改;或需要增加哪些字段,之后根據需求再編輯插入內容。與傳統逐篇操作流程比較,這是一個新增的環(huán)節(jié),它可將讀者的需求轉化為報告中具體的字段,便于批量處理操作,減輕后續(xù)引用環(huán)節(jié)的工作量,為統計環(huán)節(jié)提供便利。
報告的收錄部分是基于文章的收錄列表生成的:將被收錄文章列表保存到Excel的收錄工作表中,這時在數據前方新增一列,填充序號,如圖1a所示。通過全選數據以列B排序可使同類字段集中在一起,刪除ISSN、IDS號等不必要字段所在的整行區(qū)域;再全選數據以序號列A排序,完成對收錄數據的精簡,生成報告的收錄部分。
與收錄相比,文章的引用做法不同,而且不同讀者對引用要求不同、他引定義不同,因此查詢文章的引用是相對獨立的。利用這些特點,可將讀者的需求提前預制在查收查引報告框架中。引用部分的框架,是以圖1a—被收錄文章列表的數據為基礎,經復制再批量處理修改而成,如圖1b所示。涉及的具體操作有:1)針對每篇被引文章的編號,使用排序和“拖拽”填充表格的方式實現批量修改:全選數據,先以列B排序,再將類似“第1條,共33條”字段所在的33個整行區(qū)域以列A排序,兩次排序使此類字段與文章排序方式一致有序化,然后在此區(qū)域的第一行輸入“被引文獻1”字樣,拖拽并以序列方式填充;2)針對被引頻次字段,需要移動至每篇被引文獻的末尾,故將其調整到“IDS號”字段位置:通過上述兩次排序的方法分別將“IDS號”和“Web of Science核心合集中的被引頻次”字段有序化,將后者復制粘貼到有序的“IDS號”字段區(qū)域即可;3)每篇被引文獻需要添加引證文獻,并且讀者有時需要他引頻次,故增加“他引頻次”和“引證文獻”字段:在“Web of Science核心合集中的被引頻次”集合行后的列C和列D的位置,分別輸入“他引頻次”和“引證文獻”兩個新字段,通過拖拽鼠標下拉填充。經過上述編輯,字段已經設定到位,全選數據以列A排序,就得引用部分的框架,如圖1b。這里,新增的序號列A有很好的標記作用,不僅可以標記每篇文章記錄之間的順序,而且通過兩次排序還可得到與文章排序方式一致的有序字段。需注意的是:排序必須是針對整個工作表或整行區(qū)域,否則數據會錯位。
如在EI收錄結果前方增加序號列,可將Detailed Record格式中的“Accession Number”批量添加至Citation格式中,得到有收錄號的簡潔數據。操作方法如下:依次導出檢索結果的Citation格式和Detail Record格式數據,保存到兩張工作表內,此時兩種格式下文章的順序是一致的。然后都在前方新增序號列,用前述兩次排序法將Citation格式中的“〈Record 序號〉”字段有序化、Detail Record格式中的“Accession Number”有序化。然后將有序的“Accession Number”復制粘貼至有序的“〈Record 序號〉”字段后,形成一一對應關系,至此,全選數據以序號列排序即可。
近年來讀者對查收查引報告的結論不僅僅局限于收錄篇數、引用次數等,有時還包括近五年的收錄篇數和他引次數、不同身份(第一作者、通訊作者)下的收錄和他引等,這增加了報告的處理難度,對檢索人員處理能力要求更高。實踐證明,檢索人員需根據讀者的需求,積極嘗試和探索,預先在Excel中整理數據、修改字段。報告框架的完善程度直接影響報告的質量和完成速度。
3.3 利用文獻管理軟件集中時間插入引證文獻并分析他引
將報告框架粘貼到Word中,還缺少每篇被引文獻的引證文獻、他引頻次等內容。在補充之前,可利用Word做一些準備工作。例如標題功能,將類似“被引文獻1”字段用格式刷批量標題化,然后選擇大綱視圖,這一模式能快速定位被引文獻,避免盲目滾動鼠標或翻頁查找;另外,從Excel表粘貼過來的報告框架含很多制表符,可通過Word中的替換功能批量清除。報告中的字段格式、字段間距等也都可以通過替換功能批量修改,這不僅大大減少了手工操作的工作量,而且使報告格式規(guī)范統一。
在實踐中,提取被收錄文章列表中的文章收錄號、編輯成檢索式并保存,以便隨時調用進行批量檢索、快速準確地返回到數據庫中收錄結果頁面。由于引用部分的框架來自于被收錄文章列表,調整數據庫中檢索結果的排序方式,很容易將Word中被引文獻與其數據庫中對應的引證文獻關聯起來。接下來是將引證文獻補充到Word的報告框架下,做到一一對應。
本文利用NoteExpress、Endnote生成引證文獻列表。當使用NoteExpress時,點擊鼠標將引證文獻題錄從數據庫導入軟件,再選擇輸出樣式,利用其格式化復制功能,可將選中的題錄補充到相應的“引證文獻”字段后。如用Endnote,需預先在Word“引證文獻”字段后插入連續(xù)分節(jié)符,然后將題錄通過Endnote導入Word,實現在不同的被引文獻后方插入對應的引證文獻。
從數據庫下載引證文獻題錄時,無論使用上述哪一種軟件每次都可導出500條,不受SCI數據庫平臺每頁50條翻頁的限制;逐一補充引證文獻看似工作量大,但實際使用文獻管理軟件時,點擊鼠標加鍵盤操作就可實現快速插入引證文獻,這比傳統的從數據庫復制粘貼容易很多也快很多;并且生成的引證文獻列表格式規(guī)范緊湊。從軟件導出題錄的過程中,NoteExpress單次可格式化復制1 000條題錄至Word,Endnote單次最多插入250條題錄至Word。從插入題錄數量及界面操作語言角度,NoteExpress的格式化復制功能不遜于Endnote插入題錄功能。
在查收查引報告委托書中,越來越多的讀者需要他引數字,這一環(huán)節(jié)工作量較大,比較費時。此處筆者有兩個建議:1)選擇網速快、干擾少的時間段,集中精力插入引證文獻,同時分析他引頻次,最大程度地減少外來因素的干擾。2)預先分析和了解合作者情況。以SCI數據庫為例,通過檢索結果的分析功能,提前分析作者字段,了解主要合作者及其分布,便于檢索人員在分析他引時快速、有效地識別合作者。
3.4 利用Excel統計分析數據完成報告
經過前面的步驟,每篇被引文獻的引用次數和他引頻次都已確證,最后統計總引用次數,總他引頻次。若手工逐篇統計,繁瑣還易出錯。利用Excel統計,既方便快捷,還準確無誤。方法與前面類似:將補充內容后的引用部分粘貼到Excel的統計工作表中,在前方新增一序號列,然后排序、分列和自動求和,可得被引頻次、他引頻次的累積和、及讀者需要的匯總數據。
在統計過程中有時會涉及查重,這時要結合Word進行操作。筆者曾做過一個用于創(chuàng)新團隊申請的查收查引報告,5位成員各提供了60篇左右的文章,共計300多篇。將個人的收錄和引用統計后,讀者提出需要團隊總發(fā)文量的收錄和引用。這其中有部分文章署名了兩位或多位成員,如按團隊統計,就涉及一個查重再統計的過程,鑒于文章數量較多,時間緊迫,手工查重不現實。這時采用的方法是:首先在Word中,將引用部分的回車符^p全部替換成制表符^t,將“被引文獻”替換為“^p被引文獻”,再將引用部分粘貼到Excel中。處理前,Word中的被引文獻及相關內容是以列的形式出現;處理后,每篇被引文獻及其相關字段內容在同一行的不同單元格中。這樣再分列和查重,就很容易找出這300多篇被引文獻中的標題重復項,將其對應的整行刪除后分列統計,查重統計難題迎刃而解。
4 效果和體會
西安交通大學圖書館采用批量處理處理查收查引報告,取得了較好的效果,檢索人員兼任學科館員,服務本校師生的同時,也為校外讀者做了大量的查收查引報告,報告完成量逐年遞增。其優(yōu)點主要體現在以下4個方面:
4.1 查收查引報告質量有保證
無論搭建框架環(huán)節(jié)還是統計環(huán)節(jié),都在Excel中進行,且在數據前方新增一序號列,這能有效地保證數據多而不亂,準確無誤地修改字段或統計數據;另外收錄環(huán)節(jié)有核實、引用環(huán)節(jié)的文獻管理軟件都能保證檢索人員的精力聚集在數據的準確性上。
4.2 工作效率較高
批量檢索比手工逐篇檢索效率高,且在流程中增加了報告框架搭建環(huán)節(jié),有利于后續(xù)環(huán)節(jié)批量處理也減輕了工作量;Word中的標題功能可快速定位數據;使用文獻管理軟件集中時間插入引證文獻則實現了引證文獻的快速插入。
4.3 靈活性高
該工作流程中的各個環(huán)節(jié)環(huán)環(huán)相扣,且每一個環(huán)節(jié)可按順序單獨進行。當檢索人員面對多個報告或任務時,檢索人員可根據報告截止時間、網速等因素因地制宜地執(zhí)行某個報告中的一個環(huán)節(jié),協調其它工作開展,這樣即將復雜的報告化整為零,也能充分利用碎片化的時間,工作目標性更強。
4.4 循環(huán)可逆性
針對特定讀者,其文章收錄和引用數據在Excel中存儲,文章的收錄號可重復使用,方便應對讀者潛在或未來的再次申請,便于查收查引報告的更新;針對一個報告,用收錄號編輯的檢索式可隨時調用批量檢索,能迅速返回到流程中的任一環(huán)節(jié),方便數據的核查。
5 結 語
本文基于生產運營管理學中的順序移動法,提出了一種新的查收查引報告工作流程。該流程以批量處理為基礎,充分利用圖書館軟件資源,將各軟件之長有機地融合在查收查引報告中:結合辦公軟件Word和Excel編輯檢索式進行批量檢索,通過Excel批量整理、插入和修改字段搭建報告框架,利用文獻管理軟件快速導入引證文獻。這不僅提高了工作效率,緩解了業(yè)務高峰時期檢索人員的壓力,也有效地滿足了文章數量上不斷增長、內容上不斷變化的查收查引報告需求,提高了服務質量。這種方法適用于文章數量較多,如幾十篇或上百篇的檢索報告,也非常適用于檢索人員兼任學科館員的圖書館,但不適用于文章篇數太少的檢索報告。
參考文獻
[1]馬芳珍.查收查引系統需求分析和設計要點探討[J].大學圖書館學報,2015,(4):80-84.
[2]戰(zhàn)玉華,程愛平,錢俊雯,等.代檢代查服務系統的開發(fā)及應用[J].圖書情報工作,2005,49(11):75-77.
[3]王學勤,郝丹,鄭菲,等.“查收查引報告自動生成系統”應用實踐研究[J].圖書情報工作,2014,58(16):131-137.
[4]馬芳珍,李峰,季梵,等.對CALIS查收查引系統的測試和應用效果評價[J].大學圖書館學報,2016,(2):97-102.
[5]侯瑞芳,陳嘉勇,周婕.查收查引服務優(yōu)化體系的構建與思考[J].圖書館建設,2015,(4):75-79.
[6]王曉丹,田永梅,孫雷.提高查收查引服務效率的實踐與探討——以哈爾濱工業(yè)大學圖書館為例[J].高校圖書館工作,2014,(4):55-56.
[7]闞洪海,趙杰.基于水晶報表的查收查引報告自動生成的設計與實現[J].現代情報,2017,37(4):129-133.
[8]孫發(fā),吳強.論文查收報告自動出具系統的設計與實現[J].現代情報,2016,36(4):105-109.
[9]樊亞芳,陳鍇.利用Excel和EndNote Web提高論文查收查引工作效率[J].圖書館雜志,2013,(1):32-34.
[10]樊亞芳.利用文獻管理軟件提高論文查收查引工作效率的實踐與應用[J].高校圖書館工作,2017,(2):63-66.
[11]張雪娟,樊亞芳.NoteExpress在論文查收查引工作中的應用[J].情報探索,2017,(6):45-49.
[12]何玉芳.Word查找替換功能在論文查收查引中的應用[J].高校圖書情報論壇,2015,(4):47-49.
[13]趙樹基.生產運營管理[M].北京:經濟日報出版社;2007:328-329.
[14]李桂影.基于Web of Science~(TM)新平臺的查收查引技巧分析[J].圖書館學刊,2015,(11):62-64.
[15]李莘,李雪婷.查收查引常見問題及解決技巧探討[J].圖書館建設,2015,(9):78-80.
(責任編輯:孫國雷)