馬云輝 周文云
(蘇州大學圖書館 江蘇蘇州 215006)
近年來,我國高校、科研院所、企事業(yè)單位資源日益豐富,政府高度重視創(chuàng)新,查收查引業(yè)務越來越錯綜復雜。諸如蘇州[1]等地區(qū),其查引服務體量在幾年內(nèi)增加了數(shù)十倍,服務對象涵蓋了“國家自然科學基金”“國家杰出青年科學基金”及其團隊等千余個,業(yè)務量平均年增長30%以上。傳統(tǒng)的查收查引服務模式已不能適應社會發(fā)展需要,現(xiàn)階段存在的發(fā)展局限主要有:用戶需求量大且多變,依靠手工檢索已不能滿足;沒有特定的受理業(yè)務渠道;缺少統(tǒng)計分析,不能緊密跟蹤科研評價動態(tài);多由查新站承擔查收查引服務職能,兩項服務同時處于高峰委托時段,科研需求繁復多樣與人力資源有限之間的矛盾凸顯;用戶、館員情感體驗均較差。因此,圖書館必須依靠其專業(yè)的館藏和人才資源開拓創(chuàng)新。本文將從查收查引現(xiàn)狀及存在的問題出發(fā),結(jié)合科研需求的實際情況,研究“互聯(lián)網(wǎng)+”業(yè)態(tài)下查收查引服務的平臺開發(fā)及優(yōu)化途徑,旨在更好地為區(qū)域科研發(fā)展提供支撐,并為創(chuàng)新聚力地區(qū)圖書館在科研服務方面提供借鑒經(jīng)驗。
我國有關(guān)查收查引方面的文獻,主要集中在:①自主開發(fā)或購買查收查引系統(tǒng),如北京大學馬芳珍等人評價CALIS查收查引系統(tǒng)[2];山東大學師曉青等人設(shè)計在線查收、查引和查新檢索系統(tǒng)[3];華北電力大學陳月從等人公開基于互聯(lián)網(wǎng)+技術(shù)(云平臺和移動終端)的自動查收查引方法[4]。②利用數(shù)據(jù)分析、文獻管理等比較成熟的計算機軟件,機構(gòu)庫自主開發(fā)查收查引軟件,如中國醫(yī)學科學院蔣君等人運用Excel和VBA實現(xiàn)論文查收查引工具[5];上海交通大學關(guān)智遠等人利用Java的Word文檔編輯庫docx4j結(jié)合自編程序分析數(shù)據(jù)、實現(xiàn)報告[6];中國科學技術(shù)大學張雪娟等人將Note Express應用于查收查引[7];蘭州大學劉艷民等開發(fā)基于機構(gòu)知識庫CSpace的查收查引功能[8]。③對查收查引服務流程或其中部分環(huán)節(jié)進行研究,如:北京郵電大學侯瑞芳等人對查收查引服務進行優(yōu)化[9];西安交通大學陳偉等人基于批量處理構(gòu)建查收查引報告工作流程[10]。
116所教育部認定的大學圖書館查新站中,使用Web系統(tǒng)處理業(yè)務的僅15所,如浙江大學、南京大學等,大部分圖書館仍采用郵件或當面受理委托單,利用手工檢索完成查收查引服務。
綜上所述,現(xiàn)有研究主要側(cè)重于查收查引的瓶頸問題分析、提高服務質(zhì)效的半自動或自動化途徑研究,系統(tǒng)在去自引計算、調(diào)用歷史等過程中多需人工干預,軟件輔助不適合批量處理業(yè)務,將機構(gòu)知識庫與查收查引相結(jié)合的又對校外讀者并不適用。因此,在探討服務質(zhì)效提升的同時,“互聯(lián)網(wǎng)+”業(yè)態(tài)下,面向查收查引自動化服務平臺開發(fā)及建立全方位優(yōu)化策略體系顯得尤為迫切。
當前,手機等智能設(shè)備給人們的生活帶來了翻天覆地的變化。如果將查收查引服務以易于接受的智能終端和個人電腦都能使用的Web形式呈現(xiàn)給讀者,僅用手機驗證碼或微信掃碼進入,不再區(qū)分校內(nèi)外讀者、作者本人還是代辦者,并進行更新狀態(tài)的微信或短信實時提醒,將更好地滿足時下人們手機不離手的社交習慣。
Web of Science等平臺數(shù)據(jù)庫目前都是采用IP限制用戶在校園訪問,使用云平臺后可以不受地域限制,將讀者歷次提交的文獻匯總建立機構(gòu)庫,方便檢索人員、用戶隨時隨地調(diào)用歷史數(shù)據(jù),需要增加的新文獻部分在進入校園網(wǎng)數(shù)據(jù)庫檢索后補充入庫,減少了每次提交、檢索等大量重復工作。雖然有高校開通API接口建立本校作者成果庫[11],但是該服務費用昂貴,且定期審核數(shù)據(jù)庫自動推送的文獻也只能覆蓋校內(nèi)讀者,不確定的文獻又需交由讀者認領(lǐng),這些讀者是否都需要檢索服務無法預知。因此,該平臺開發(fā)著重于讀者真實需求,建立一邊高效完成服務、一邊建立機構(gòu)成果庫的完善系統(tǒng)。
在查引過程中,檢索人員的精力主要集中在引用部分,特別是他引的判斷上,往往需要對照發(fā)表和施引文獻中的作者姓名、地址字段,將自引的文獻排除,一一手動甄別計算得出他引次數(shù)。當文獻較多時,利用數(shù)據(jù)庫分析工具,部分疑似自引的施引文獻則無法關(guān)聯(lián)顯示,仍然需要人工計算。因此,考慮采用基于作者姓名和地址片詞,將引文和發(fā)表論文中的信息進行模糊匹配計算,實現(xiàn)自動去除自引,提高結(jié)果的精確率。
平臺以用戶為中心,面向兩大層面:校內(nèi)外讀者。廣泛意義上的高校圖書館員,既包括從事查收查引工作的檢索員,又包含管理員以及一些需要統(tǒng)計分析數(shù)據(jù)的校內(nèi)人員(如人事、科研等部門)。平臺體系架構(gòu)如圖1所示。
3.3.1 云通訊實現(xiàn)手機號驗證碼或微信登錄、狀態(tài)更新自動提醒
圖1 平臺體系架構(gòu)圖
現(xiàn)有查引平臺主要采用輸入用戶名、一卡通、郵件和密碼登錄的方式[11-13],這些名稱密碼較為復雜,容易被遺忘。采用手機短信發(fā)送驗證碼、微信登錄等方式,并設(shè)置狀態(tài)更新提醒,能更好契合讀者的使用習慣。
短信服務(Short Message Service)由阿里云提供,支持快速發(fā)送短信驗證碼、短信通知等,短信驗證碼3秒可達并采用三網(wǎng)合一專屬通道[14],后端服務處理完成可回調(diào)通知用戶,進而減少用戶、Web前端和后端服務之間大量不必要的輪詢請求。
微信OAuth2.0授權(quán)登錄[15]目前支持authorization_code模式,適用于server端的應用。微信登錄獲取狀態(tài)更新提醒,需將web平臺嵌入微信公眾號,公眾號同時需被關(guān)注,或微信登錄同時綁定手機。
3.3.2 利用數(shù)據(jù)庫個性化功能和云平臺建立作者論文、查引報告庫
由于作者在Web of Science等平臺數(shù)據(jù)庫中收錄的論文和引文信息是不斷更新的,因此,系統(tǒng)必須根據(jù)數(shù)據(jù)變化更新作者論文庫。以Web of Science為例,其提供Web of Service Lite、AMR、Web Service Premium等幾種API接口[16],局限性主要在于批量查詢、大規(guī)模檢索、獲取多個字段信息均為收費項目,查新站需定期審核論文,如不成功,還需提供Web頁面交由用戶認領(lǐng)完論文再入庫。這些無疑都不能按讀者真正所需定向服務。
鑒于上述考慮,系統(tǒng)采用Web of Science等平臺自帶的個性化功能和論文標準導出格式,在完成查引工作的同時,租用云平臺來完成論文庫、報告庫的搭建。在作者下一次請求查引、更新論文時,在原有論文庫的基礎(chǔ)上,只需手動進入數(shù)據(jù)庫網(wǎng)站,將新發(fā)表需要補充的論文、引文,按規(guī)范格式下載并導入系統(tǒng),同時完成查引服務和論文、報告庫的更新。
進入Web of Science等網(wǎng)站時,查新站可免費注冊若干公共的賬號密碼,在校園網(wǎng)內(nèi),檢索員仍登錄該賬戶使用其定制功能,可將每位作者不同檢索日期的論文保存在數(shù)據(jù)庫的云端,再次登錄時,隨時調(diào)用獲取標記結(jié)果,亦能在線增減、新建論文,引文也隨著數(shù)據(jù)庫定時更新,可任意下載。以SCIE為例,其個性化調(diào)用云端結(jié)果、論文及引文的標準輸出格式如圖2和圖3所示。
圖2 SCIE個性化定制調(diào)用云端歷史
圖3 SCIE論文和引文的標準輸出格式
檢索完成后,將論文集、查引報告集按作者信息布置在云平臺上,用戶在任何有網(wǎng)絡(luò)的地方都可以調(diào)用歷史論文和檢索報告,之后再決定是否進行新的查引申請。系統(tǒng)搭建使用阿里云負載均衡服務SLB、內(nèi)容分發(fā)網(wǎng)絡(luò)CDN、云服務器ECS、對象存儲OSS、云數(shù)據(jù)庫RDS、云盾和云監(jiān)控等[17],如圖4所示。ECS、SLB負責對外http服務,CDN承擔靜態(tài)請求,云數(shù)據(jù)庫RDS存儲作者、論文及引文信息,OSS存儲報告文件等數(shù)據(jù),在云盾、云監(jiān)控的安全防護之下,可自動防御異常網(wǎng)絡(luò)攻擊。對數(shù)據(jù)庫網(wǎng)站獲取到的論文和引文,經(jīng)與SCIE、EI等不同數(shù)據(jù)庫、作者匹配分類,存放于論文庫中,當讀者、檢索員請求數(shù)據(jù)時,匹配其作者和數(shù)據(jù)庫信息,返回結(jié)果。對系統(tǒng)自動生成的查引報告也是相同方法處理。
圖4 云平臺建立作者論文、查引報告庫
3.3.3 基于片詞的模糊匹配算法自動去自引
傳統(tǒng)的查收查引過程中最費時費力的當屬去自引計算,需要一一比對每篇論文和施引文獻中的作者,部分文章的作者多達數(shù)十人。而Web of Science的分析工具,最大作者顯示數(shù)僅500條。施引文獻及其作者較多時,為達到精確去除自引的目的,只能靠肉眼逐個作者甄別,結(jié)果準確性很大程度上依賴于人工。
去自引的焦點問題還在于作者名在中英文表達方式上的差異。中文作者名的英文表述方式存在多種形式,如:張三,拼音表達可能存在ZhangSan、ZhangS、Sanzhang、San Zhang等,而字數(shù)在兩個以上的姓名的拼音表達可能性要增加更多。因為時間節(jié)點的不同,作者地址存在變動,同一作者名有可能存在多個單位的情況,同一單位也可能存在多個表達方式。只有將作者名和地址一同判斷,才有可能保證其結(jié)果的正確。
針對以上問題,平臺采用基于片詞的模糊匹配算法,將論文和引文標準文檔內(nèi)的作者、地址字段分割對比,自動去除自引。
以模糊數(shù)學為基礎(chǔ)的模式識別方法稱為模糊模式識別。模糊理論最早是由美國自動控制學家拉特飛·扎特于1965年提出[18-19]。模糊模式識別主要包括三步[20]:提取特征,首先從識別對象中提取與識別有關(guān)的特征,并度量這些特征。設(shè)X1,X2,……,Xn分別為每個特征的度量值,于是每個識別對象X就對應一個向量(X1,X2,……,Xn);建立標準類型的隸屬函數(shù),標準類型通常是論域U={(X1,X2,……,Xn)}的模糊集,Xi是識別對象的第i個特征;建立識別判決準則,確定某些歸屬原則,以判別識別對象屬于哪一個標準類型。
基于片詞的模糊匹配算法具體是將姓名和地址分別做片詞分割,然后計算各自與標準姓名和地址片詞之間的距離dn和da,通過加權(quán)求和每個片詞的距離得到匹配度mn和ma,分別和兩個閾值作比較,最終得出是否匹配成功的結(jié)論,以確定是否為自引。其中,是每個片詞的權(quán)值,權(quán)值大小的調(diào)整則取決于每個片詞在整個姓名或地址中的重要程度,具體如圖5所示。
圖5 基于片詞的模糊匹配算法自動去自引
以單篇文章引用數(shù)量較大(超過500條)為例,平臺自動上傳作者被收錄和引用的論文,輸入需要排除的第一作者英文姓名后開始解析。如圖6所示,基于片詞的模糊匹配解析實現(xiàn)了PDF文本的提取,分詞器將作者姓名、地址信息切分為英文語義的詞,存入索引。輸入篩選條件“Huang ZhaoHui”,對索引進行檢索,得到與該作者片詞相匹配的結(jié)果集。解析結(jié)果共包括3種:姓名相同,地址完全相同;姓名相同,地址部分相同;姓名相同,地址不同。該篇論文的第一作者單位并未變動過,所以只呈現(xiàn)姓名相同(地址完全相同)的自引解析結(jié)果。根據(jù)該結(jié)果,系統(tǒng)可統(tǒng)計該單獨作者的自引數(shù),再經(jīng)提取到的總引頻次數(shù)值減除后得到他引次數(shù),即排除掉論文作者本身的引用——自引。
系統(tǒng)在識別自引和他引問題上,除作者姓名外,將作者地址變動也考慮進去,必要時可進行人工干預,核查疑似匹配結(jié)果,提高去除自引的準確率(99.99%)。作者和論文數(shù)量越多,該方法優(yōu)勢越明顯,耗時(秒/分計)遠低于人工檢索方式(時計),且準確性能得到有效保證。
圖6 自引解析實例
在互聯(lián)網(wǎng)+技術(shù)高速發(fā)展、區(qū)域查收查引服務體量增長迅速、科研需求繁復多樣的大背景下,“互聯(lián)網(wǎng)+查收查引服務”自動化平臺的開發(fā)勢在必行,經(jīng)過業(yè)務實踐、讀者反饋、數(shù)據(jù)分析的反復論證、評估,基于以上平臺,制定了互聯(lián)網(wǎng)+環(huán)境下的優(yōu)化服務策略,即構(gòu)建平臺技術(shù)、平臺訪問、用戶、區(qū)域合作、資源等層面優(yōu)化的有機整體(如圖7所示)。
圖7 互聯(lián)網(wǎng)+環(huán)境下的優(yōu)化服務策略圖
由圖7可見,與以往系統(tǒng)相比,基于該平臺真正實現(xiàn)了查收查引服務優(yōu)化的良性循環(huán):①在平臺使用上,其可用性增強。PC和移動終端都能訪問,改變了只能在PC訪問的方式;無需注冊,只需手機、微信驗證登錄即可;平臺界面實時浮動語音、微場景、微視頻、客服機器人、人工客服等多種形式的使用指導,狀態(tài)更新又可自動跟蹤推送到讀者登錄使用的手機或微信,減少了檢索員重復解答、讀者多次咨詢的環(huán)節(jié);②在技術(shù)實現(xiàn)上,關(guān)鍵環(huán)節(jié)的人工干預顯著減少,論文和報告可重復利用,不再受IP限制??稍诙虝r間內(nèi)將海量電子論文的作者、地址字段同時進行配比自動去自引,結(jié)果準確,替代了大量繁復的手動計算,減輕了量大多變的業(yè)務壓力;租用云平臺建立了對應作者姓名、地址信息的論文、查引報告庫,讀者和工作人員均可隨時隨地調(diào)用歷史論文和報告,減少讀者反復提交、工作人員多次重復核實檢索論文的過程;在利用好歷史論文、報告的基礎(chǔ)上,如需增加新論文和引文,才涉及到人工從校園網(wǎng)進入數(shù)據(jù)庫檢索的部分,且平臺中的新文獻提交具有選項提示,避免出現(xiàn)讀者提供的論文清單常常與數(shù)據(jù)庫標準格式存在差異、需要手動糾正等問題;③在功能上,更加完善。平臺結(jié)合后臺數(shù)據(jù)的可視化分析工具,能緊密跟蹤科研和讀者動態(tài),為制定真正契合用戶需要的服務優(yōu)化策略提供量化依據(jù);業(yè)務受理高峰期,系統(tǒng)實時顯示接待狀態(tài),可自動為讀者推送分流建議,通過區(qū)域合作、資源共享等層面的優(yōu)化減輕接待壓力。但仍存在一定的發(fā)展空間。讀者發(fā)表論文、引文等更新數(shù)據(jù)需要在完成查引檢索后,批量對應上傳至系統(tǒng)進行去自引分析,結(jié)果的準確性主要依賴于初始數(shù)據(jù)。原始數(shù)據(jù)的獲取主要有在線導出和讀者提供等形式,讀者提供需要數(shù)據(jù)庫標準導出格式的文件,這一工作目前在選項提示、使用指導、微傳播中推廣,推廣效果受到讀者認知能力的影響,格式如不準確仍需檢索員手動操作,但實際也已經(jīng)減少了大部分歷史論文查詢的工作。
“互聯(lián)網(wǎng)+查收查引服務”自動化平臺的構(gòu)建與優(yōu)化策略較為科學。高校圖書館可立足科技查新站,依托自動化平臺,提高服務質(zhì)效,實現(xiàn)動態(tài)調(diào)整服務方案的科學化和智能化,并能兼顧地區(qū)科研創(chuàng)新聚力的發(fā)展需求。將來還可嘗試通過其獲得的數(shù)據(jù)建立模型,分別進行打分,再根據(jù)得分進行參考決策,實現(xiàn)服務方案的自我優(yōu)化管理。