(重慶市衛(wèi)生信息中心,重慶 401120)
科技查新是一項復雜的腦力智慧型勞動,其主要的工作是檢索相關文獻并從中分析出與委托人研究點的異同,為科研立題、成果評審等科技活動的新穎性評價提供科學依據(jù)[1-2]。一份高質(zhì)量查新報告的工作周期一般為3~5日[3]。為了提高查新人員的工作效率,減輕其工作負擔,各種查新系統(tǒng)的構(gòu)建與應用也越來越多。重慶市衛(wèi)生信息中心承擔了重慶市衛(wèi)健委科研項目立項查新工作,每年受理科技查新500~700項。該中心利用網(wǎng)絡爬蟲技術(shù)、全文檢索工具和智能算法對查新業(yè)務流程進行優(yōu)化,構(gòu)建了智能科技查詢系統(tǒng),進一步提高查新效率和質(zhì)量。
目前,國內(nèi)查新機構(gòu)基本上通過信息技術(shù)對查新工作流程進行了重構(gòu),實現(xiàn)了在線接收委托申請、審查申請委托、分派查新任務、查新、審核、提交查新報告等功能,建立了不同的查新管理平臺[4-6]。而且,許多學者還在不斷地對查新系統(tǒng)進行設計上的優(yōu)化研究,如:宋正陽等[7]提出了一種基于指標權(quán)重疊加的自適應分配模型的農(nóng)業(yè)科技文獻查新系統(tǒng),能夠一定程度地縮短任務分配時間,加速查新流程;溫慧明等[8]基于Solr搜索應用服務器構(gòu)建的科研查新系統(tǒng)實現(xiàn)了檢索查新和對比查看;王華等[9]在科技查新平臺模型中新增了質(zhì)量控制等功能。這些系統(tǒng)基于不同的信息化技術(shù)在不同程度上重新構(gòu)造了查新業(yè)務,規(guī)范了查新流程,提高了查新工作效率,同時也為查新業(yè)務的數(shù)據(jù)資源整合及智能化分析創(chuàng)造了基礎。但是,目前查新系統(tǒng)主要以查新課題、用戶管理、查新任務分配、查新課題委托等為主,如何根據(jù)課題信息自動搜索相關領域的基本知識概念,如何根據(jù)課題領域推薦相關檢索資源等相關報道較少見。
2018年,重慶市衛(wèi)生信息中心研發(fā)了一套智能科技查詢系統(tǒng)并發(fā)布于“重慶醫(yī)生”平臺。該系系統(tǒng)整體包含4大模塊:用戶模塊、查新員模塊、審核員模塊和系統(tǒng)模塊(見圖1)。1)用戶模塊:用戶可直接在線提交查新申請、跟蹤查新處理進程、反饋對查新結(jié)果的意見;2)查新員模塊:查新員負責查新申請書的受理、合同的簽訂、查新報告的撰寫,其中文獻檢索功能采用網(wǎng)絡爬蟲技術(shù)實現(xiàn)自動檢索,全文檢索功能采用Lucene檢索工具實現(xiàn)對查新申請書的重復性檢測,而且具有對比查看功能,可展示查新申請書和數(shù)據(jù)庫查新報告及文獻資料的重復內(nèi)容;3)審核員模塊:審核員負責查新報告的審核;4)系統(tǒng)模塊:實現(xiàn)對用戶、查新員、審核員的管理;采用智能算法實現(xiàn)查新任務自動分配;實現(xiàn)查新進度的跟蹤、提醒;用戶與查新員、查新員與審核員之間可通過公共信息交流平臺在線交流。
圖1 查新系統(tǒng)框圖
智能科技查詢系統(tǒng)基于“重慶醫(yī)生”平臺在技術(shù)上實現(xiàn)查新各階段的業(yè)務整合,實現(xiàn)文獻資料的自動采集歸類,實現(xiàn)查新服務共同體的數(shù)字化、自動化、智能化和交互性運營。整個系統(tǒng)的總體框架規(guī)劃如圖2所示。1)注冊服務。注冊服務用于各種共享服務資源的注冊,通過服務資源的發(fā)布—發(fā)現(xiàn)—訪問機制,實現(xiàn)服務資源共享。注冊服務包括對個人、查新人員、醫(yī)療衛(wèi)生術(shù)語的注冊管理服務。系統(tǒng)針對各類實體形成各類注冊庫(如個人注冊庫、知識庫等);2)查新存儲服務。查新存儲服務包括一系列存儲庫,用于存儲查詢申請書、查新報告、文獻資料信息,形成查新數(shù)據(jù)中心。查新存儲服務除了提供查新的訪問服務,也負責按查詢申請書相關性采集文獻資料,使其成為查新報告的基礎資料;3)查新服務。查新服務用于處理系統(tǒng)內(nèi)與數(shù)據(jù)定位和管理相關的復雜任務,是系統(tǒng)架構(gòu)的核心組件。該服務負責實現(xiàn)各功能模塊的互聯(lián)互通,利用“重慶醫(yī)生”平臺內(nèi)提供的組件和服務進行文獻資料的采集、知識庫的構(gòu)建等。查新服務主要包括索引服務、業(yè)務服務、數(shù)據(jù)服務、事務處理等組件;4)信息交換層。信息交換層主要包括支持系統(tǒng)平臺上服務與其它應用系統(tǒng)平臺之間低級別通信的通信總線服務,還可提供可在整個平臺中重復使用的通用軟件功能的公共服務。
圖2 系統(tǒng)架構(gòu)圖
用戶在PC端或手機中填寫、提交、查詢查新申請書。系統(tǒng)根據(jù)查新申請書自動檢索系統(tǒng)中數(shù)據(jù)倉庫和CNKI、萬方、維普、PubMed、ScienceDirect等中外文數(shù)據(jù)庫;根據(jù)查新申請書自動更新檢索知識庫;每年定期更新系統(tǒng)中數(shù)據(jù)倉庫的文獻資料;根據(jù)查新要求自動分配查新任務。查新人員根據(jù)檢索結(jié)果形成查新報告,并由“重慶醫(yī)生”平臺專家?guī)熘械膶<疫M行審核。具體流程圖見圖3。
圖3 系統(tǒng)流程圖
查新工作是以文獻檢索為基礎,面對海量的文獻資料,文獻檢索工作已經(jīng)成為了查新人員的一項繁重任務,以醫(yī)學類課題查新為例,每次至少檢索CBM、CNKI、萬方、維普等多個數(shù)據(jù)庫,檢索工作量較大,而且存在漏檢可能。同時,為了獲得所需的文獻資源,查新機構(gòu)每年都需支付一定費用給電子學術(shù)資源服務提供商,而每項查新工作都可能重復下載相關文獻資料,因此存在重復購買相同學術(shù)資源造成的浪費。
智能科技查詢系統(tǒng)利用網(wǎng)絡爬蟲技術(shù)實現(xiàn)了文獻資源的搜索和下載,該技術(shù)主要采用WebCollector+selenium+phantomjs技術(shù)實現(xiàn)(圖4)。1)利用基于詞或詞組長度和頻數(shù)的關鍵詞提取算法[10]在查新申請表中自動提取基本關鍵詞,以此為基礎結(jié)合查新點確定最終關鍵詞,然后利用數(shù)據(jù)庫模擬登錄及網(wǎng)絡爬蟲技術(shù)抓取需要的文獻資料[11],其中關鍵詞按“AND”“OR”“NOT”自動組合,并能根據(jù)各數(shù)據(jù)庫規(guī)則轉(zhuǎn)化檢索式形式;2)為了保證網(wǎng)絡中文獻資料抓取的效率、覆蓋率和準確率,智能科技查詢系統(tǒng)采用了向量空間模型的概念對網(wǎng)頁內(nèi)容和主題的相關度進行評估[12-13],根據(jù)相關程度進行抓取,且下載的文獻資料按檢索關鍵詞、檢索源地址、文獻資料信息、相關引用指標等保存到數(shù)據(jù)庫中,為后期查新工作提供數(shù)據(jù)依據(jù);3)為了便于查新人員進行分析,智能科技查詢系統(tǒng)對檢索得到的文獻資料按內(nèi)容相似度、影響因子等指標進行分類歸集[2,14],做到對比文獻時有針對性、可比性和準確性,方便對“查新點”進行新穎性判斷,同時也為自動生存查新報告提供了內(nèi)容基礎;4)通過建立自己的檢索知識庫(包含同義詞、縮寫詞、同義名、學名、通用名)實現(xiàn)智能檢索,如在“ATP6i—miRNA抑制劑對大鼠骨質(zhì)疏松的防治”查新申請表中,用戶提供的“ATP6i”這一關鍵詞為“TCIRG1”別名,通常稱之為“空泡型質(zhì)子泵”,系統(tǒng)在以“ATP6i”進行檢索時,自動檢出含“TCIRG1”和“空泡型質(zhì)子泵”的所有文獻,有效避免漏檢。同時,檢索知識庫通過內(nèi)置的詞典可以識別用戶自造詞(如自創(chuàng)的藥品名:開郁膠囊),避免出現(xiàn)檢索結(jié)果為零或數(shù)量極少的現(xiàn)象。
圖4 爬取流程
這些功能不僅有效提高了工作效率,而且在一定程度上彌補了查新人員、查詢審核專家自身信息獲取的有限性,為他們提供了充分的研究背景信息,降低了對查詢申請書的原創(chuàng)性、新穎性、影響力等方面的評價難度。
由于每一年的科研、項目申報、結(jié)項等在時間上比較集中,這導致查新機構(gòu)經(jīng)常會面臨查新申請“井噴”的問題,采用按照內(nèi)置規(guī)則自動分配給查新任務的任務分配系統(tǒng)是解決這個問題的有效辦法。但是,在進行查新任務自動分配時,不同系統(tǒng)考慮的影響因素不同,在效率提升方面還存在著值得商榷的地方。
智能科技查詢系統(tǒng)采用了采用自適應分配模型[14-15],按照客戶指標(項目類別、查新點數(shù)、查新時間要求、履行查新合同力度、學術(shù)水平)、查新員指標(查新熟練度、知識面廣度、單位時間可接受最大任務量、已分配任務量、客戶反饋情況)和查新審核專家指標(學術(shù)方向、學術(shù)水平、單位時間可接受最大任務量、已分配任務量)計算綜合權(quán)重后分配查新任務和查新審核任務。模型假設查新員共有n位,某一時間段內(nèi)系統(tǒng)提交了一份查新申請,則系統(tǒng)會根據(jù)式(1)計算出對應的結(jié)合權(quán)重Wi,然后分配任務。
(1)
式(1)中,i∈{1,2,…,n};m∈{1,2,3,4,5};j∈{1,2,3,4,5};k∈{1,2,3,4};A,B,C分別表示客戶指標、查新員指標和查新審核專家指標的不同層級的指標的權(quán)重。其中,所有指標權(quán)重值的設定規(guī)則為:有利于加快查新項目進入查新流程并提高查新工作效率的指標權(quán)重值大,相反則小。權(quán)重取值范圍為(0,1],且屬于同一級別的指標權(quán)重之和為1。
該算法建立了客戶關系庫,通過網(wǎng)絡爬蟲抓取客戶以往的學術(shù)成果,評價客戶學術(shù)水平,作為分配具有相應學術(shù)水平的查新審核專家的參考依據(jù),同時采用相同方法對審核專家學術(shù)方向和水平進行跟蹤維護(客戶查新申請中關鍵詞與審核專家學術(shù)方向的相關性越高,分配的可能性越大),避免專家資源的不合理使用。利用智能算法分配查新任務不但加速了查新流程,提高了客戶滿意度,同時避免了因數(shù)量驟升而導致的查新報告質(zhì)量下降的問題。
據(jù)統(tǒng)計,我國科研項目重復率高達40%[17]。為了降低查新申請書的重復率,智能科技查詢系統(tǒng)以數(shù)據(jù)庫中的累計的查新報告和文獻資料為基礎,利用Lucene檢索工具包對其進行全文檢索,若相關性得分高于30%則根據(jù)查重率進行排序展示[18-20],為判斷查新申請書的原創(chuàng)性提供依據(jù)。同時,通過檢索知識庫引入查詢單詞的近義詞或別稱,縮小了檢索盲區(qū)。
采用全文檢索工具能夠較為準確地計算查新申請書的查重率,可以通過對比查看功能來實現(xiàn)對重復內(nèi)容的詳細對比,有效地杜絕了項目的重復申報,滿足了項目流程管理的需求。
目前,智能科技查新系統(tǒng)已試運營,嘗試完成2019年科技查新項目700多項。針對用戶而言,很好地解決了原有手工填表時的表格填寫混亂的問題,解決了查新點提煉羅列過多、內(nèi)容寬泛、不具體等問題。在查新過程中,系統(tǒng)自動圍繞“查新點”,選擇數(shù)據(jù)庫,擬定檢索詞,制定檢索式,檢索并篩選文獻,做文獻分析對比,解決了查新報告質(zhì)量高低受到查新人員學科背景、知識結(jié)構(gòu)、溝通能力和理解能力的影響問題[21-22]。截至目前,該系統(tǒng)數(shù)據(jù)倉庫爬取相關文獻10040篇,其中學位論文6600篇,期刊論文2420篇,其他1020;中文文獻8534篇,外文文獻1506篇。文獻庫的建立節(jié)約了檢索時間,提高了檢索效率和檢索質(zhì)量,用戶從提交查新申請到收到查新報告,不超過2個工作日,查新部門工作在1周左右的時間完成超過去年同比41.6%的查新工作量。而且查新報告的質(zhì)量也受到了用戶和審核專家的好評。
考慮到查新工作不僅僅是向用戶提交一份查新報告,更重要的是幫助用戶提煉查新點,提供相關研究熱點。因此,后期計劃將在在把握項目內(nèi)容的基礎上,啟發(fā)或幫助用戶對查新點進行重新提煉、修正,使其既符合查新規(guī)范的要求,又能充分體現(xiàn)查新項目的新穎性。同時對查新不達標的用戶,把相關研究特點的文獻及建議推送給用戶,幫助用戶提升科研水平。
隨著信息技術(shù)的發(fā)展,查新系統(tǒng)會越來越智能化。實踐證明,智能科技查詢系統(tǒng)系統(tǒng)的應用使查新工作模式發(fā)生了根本性變化,從技術(shù)上實現(xiàn)了檢索工作的自動化,保證了檢索途徑、范圍及檢索表達式的全面性和準確性,同時實現(xiàn)了任務分配的智能化,避免了重復申報,保障了查新報告質(zhì)量的提升。