摘要:[目的/意義] 在科技查新實踐中,部分查新點所對應的檢索式包含大量檢索詞,若檢索結果中缺少合適文獻,對檢索式的進一步調整十分考驗查新員的檢索技巧。[方法/過程] 查新檢索式邏輯運算符選擇系統(tǒng)以文獻與查新點共同涉及內容的信息量來描述文獻對查新點新穎性的否定程度,即兩者的相關程度,并結合檢索、分析功能,采集關鍵詞在數據庫中的分布特征計算信息量,評估文獻相關性,評估結果可基于查新員反饋實時修正,最終反饋密切相關文獻對應的檢索式。[結果/結論] 實踐表明,該系統(tǒng)可輔助多種類型查新點的檢索策略制定,尤其適用于涉及關鍵詞較多的查新點。
關鍵詞:科技查新;文獻檢索;信息量
分類號:G252.7
引用格式:范午攸. 查新檢索式邏輯運算符選擇系統(tǒng)[J/OL]. 知識管理論壇, 2024, 9(1): 57-64 [引用日期]. http://www.kmf.ac.cn/p/377/. (Citation: Fan Wuyou. A Boolean Operator Selection System for Sci-tech Novelty Searching[J/OL]. Knowledge Management Forum, 2024, 9(1): 57-64 [cite date]. http://www.kmf.ac.cn/p/377/.)
1? 引言/Introduction
科技查新作為高校圖書館常規(guī)業(yè)務,支持學??蒲许椖苛㈨?、驗收、成果鑒定、申報獎勵等科學管理工作。科技查新流程通常需7—10個工作日[1]。其中,文獻檢索與查新結論的客觀性、準確性密切相關,也是耗時相對較多的環(huán)節(jié)。
近年的教育部高??萍疾樾聦徍藛T培訓中對查新檢索提出以下要求:①查新員提供的相關文獻可由其提供的檢索策略檢出;②查新的檢索結果需經查新員逐篇確認;③每個查新點應檢出10篇以上的相關文獻。此外,《科技查新技術規(guī)范》中要求根據查新點內容多角度構建檢索式。
為滿足上述需求,科技查新文獻檢索不僅需要準確構造檢索式,以反映查新項目的創(chuàng)新之處,還需在前一檢索式的基礎上進行調整,將檢索范圍擴展至內容與查新項目部分相同的文獻,同時保證檢索結果的數量適中、相關性強、角度全面?,F(xiàn)有研究已總結出多種檢索式調整方法[2],但較少涉及面對具體問題時的方法選擇[3],技術規(guī)范亦建議“反復試檢”,即不斷試錯。
本系統(tǒng)可在檢索詞確定的條件下,通過修改邏輯運算符調節(jié)檢索式,并完成試檢與檢索結果評估,從而協(xié)助查新員制定檢索策略,最終提升科技查新的工作效率。
2? 相關研究與研究目的/Related research and research purposes
2.1? 相關研究
由于查新工作的復雜性,使用計算機輔助科技查新一直是該領域的研究課題,其內涵與外延也幾經擴展。最初此類研究特指聯(lián)機檢索在查新中的應用,近年來則以查新項目管理系統(tǒng)為主,在報告生成方面也有一些研究。而在報告自動生成方面,早期的研究局限于調整格式,不涉及內容生成,但隨著計算機語義理解的發(fā)展,檢索式生成、結果分析與報告撰寫均成為可能。
檢索式生成原理相對固定,即將關鍵詞分為同義詞與非同義詞,前者以“邏輯或”連接,后者以“邏輯與”連接,并基于各數據庫的規(guī)范生成檢索策略式[4]。在檢索式生成的基礎上,通過數據接口或瀏覽器控制工具進行聯(lián)機檢索與去重,實現(xiàn)科技查新的自動檢索[5]。而將檢索式生成與關鍵詞抽取[6]或同義詞詞典[7]結合,可從查新點直接獲取檢索式,檢索與查新點內容一致的文獻。
關于檢索策略調整方面的研究較少,總體可分為兩種思路:①基于結果數量,逐步放寬檢索條件直至檢出相關文獻[3];②基于結果相關性,逐一嘗試檢索式直至檢出相關文獻[5]。
對于文獻相關性判定,現(xiàn)有研究存在多種方式,具體分為:①詞頻類,如基于關鍵詞在文獻題錄中的詞頻與所屬字段[8],或綜合考慮關鍵詞在數據庫中詞頻[7]的相關性分析;②內容類,如基于分類算法對查新點和相關文獻進行主題分類,之后進行比對[9],或基于聚類算法對檢索結果進行主題詞抽取,從而輔助查新員判斷[10],或基于語義相似度,直接計算查新點與相關文獻的相關性[5]。
此外,科技查新機構分為專精特定領域的專業(yè)類和不限定檢索范圍的綜合類[11],專業(yè)類機構所用系統(tǒng)的算法可能無法適用于其他學科。
2.2? 研究目的
筆者在現(xiàn)有的檢索式生成與自動檢索系統(tǒng)基礎上,對相關文獻選擇及系統(tǒng)工作流程進行改良,設計包含檢索功能的科技查新檢索策略調整系統(tǒng),以期解決面對復雜查新點時檢索式構建的效率問題。
現(xiàn)有研究主要將一篇文獻作為一個整體去衡量相關性。而在科技查新文獻檢索時,相比于研究主題的相似度,是否采用相同的技術細節(jié)更為重要,且查新實踐表明,查新項目使用其他領域技術的現(xiàn)象十分普遍。另一方面,查新文獻檢索需要可重復驗證的檢索式,這既是工作流程的需求也是報告審核的需求,但并非所有相關文獻選擇方法均能提供檢索式。
筆者從科技查新文獻檢索的目的出發(fā),提出以信息論中的定量指標“信息量”描述文獻對查新結論的貢獻程度,并通過文獻計量的方式計算這一指標,作為選擇相關文獻的依據。該指標具有如下優(yōu)點:①僅基于文中出現(xiàn)的關鍵詞,無關數量、位置,因此可通過檢索式對檢索結果的相關程度進行評估;②選定相關文獻后,會優(yōu)先推薦與已有相關文獻不同的結果,保證結果多角度;③僅依據關鍵詞組的詞頻計算,數據容易采集;④對局部細節(jié)的相似較為靈敏。
為充分發(fā)揮本方法的優(yōu)勢,筆者結合現(xiàn)有查新工作流程與查新員工作習慣,設計交互式系統(tǒng),系統(tǒng)依據查新點對應的檢索詞批量生成檢索式,經自動檢索,將數量適中、相關性強的檢索結果提交查新員確認,并通過交互界面,根據查新員反饋,實時修正列表,最終依據查新員確認無誤的檢索結果生成檢索式。
3? 基于信息量的文獻相關性排序/Literature relevance ranking based on amount of information
信息量源于信息論,是被廣泛應用于多個不同學科的定量指標。在信息與通訊領域中,信息量代表消息所包含的有意義內容的量值,與消息令人驚奇、意外的程度正相關[12],這一定義與新穎性十分相似。在自然語言處理中,信息量可作為基于文獻計量的文本相關性指標。
筆者參考上述性質,以信息量為中間變量,將科技查新的相關性問題轉化為文獻計量問題。
3.1? 查新中的相關性
科技查新可視為一項語義檢索任務:①檢索對象為“查新點”中的“實體”及實體間“語義關系”。例如,查新點“PRP原位治療慢性難愈合創(chuàng)面”中實體為“PRP”“原位治療”“慢性難愈合創(chuàng)面”,語義關系為“使用……治療”。②檢索結果為“比對文獻”及“重合部分”。其中,比對文獻指能證明或否定查新點新穎性的文獻,重合部分指比對文獻和查新點中同時出現(xiàn)、相互間語義關系也一致的一組實體。③實際工作中,查新員通過檢索實體所對應關鍵詞獲取報道該實體的文獻,通過人工閱讀獲得實體間的語義關系,并選擇與查新點相關性較強的文獻作為比對文獻。但在查新規(guī)范中,相關與密切相關均為定性指標,如何量化查新中的相關性并無標準。
筆者將“相關程度”定義為文獻對查新結論準確性的貢獻程度,該指標可通過引入“信息量”進行計算。
3.2? 信息量的含義
信息量的計算公式如公式(1)所示:
其中,P(x)為消息所傳遞事件的發(fā)生概率,此概率指基于已知信息估算的條件概率。
在查新工作中,消息指科研文獻或查新點,事件指其中報道的一項或多項技術,事件發(fā)生指技術可行,技術可通過實體及語義關系表示,已知信息指常識性的技術,文獻與查新點使用同一項常識性技術不影響查新結論。
筆者以文獻數為客觀標準,將報道次數大于閾值的術語或術語組合視為已知信息,閾值為人工確認文獻數的上限,如引言所述,查新檢索的結果數量需適中,數量超過上限時,雖然檢索結果可能與查新點同樣報道了檢索式所描述的內容,但并不以此為依據將其視為相關文獻,這與常識性技術的定義相似。
3.3? 文獻信息量與相關性
3.1節(jié)中指出,相關程度可通過信息量計算,具體而言,文獻與查新點重合部分的信息量越大,與其他比對文獻重合部分的信息量越小,越有助于提升查新結論準確性,證明如下:
依據教育部科技查新規(guī)范,查新點存在新穎性是指查新點中存在未被公開文獻報道的內容。而在查新報告結論部分,當比對文獻與查新點存在明顯差異時,認定查新點存在新穎性。
因此,證明新穎性的過程可表述為:依據IP>IE,證明IP>IT。其中IP為查新點信息量;IT為全數據庫文獻與查新點重合部分總信息量,IE為所有比對文獻與查新點重合部分總信息量。由于IE≤IT,上述證明存在誤差IT–IE,而IE與單篇比對文獻存在關系如公式(2)所示:
其中,Ki為第i篇比對文獻與查新點的重合部分,以下簡稱該文獻的技術要點,Ii為Ki的信息量。Ii'為第i篇文獻同時與查新點和前i–1篇文獻重合部分的信息量。
3.4? 基于文獻計量的信息量公式
信息量可通過關鍵詞及其組合的詞頻進行計算。
假定關鍵詞按詞組詞頻隨機分布,且結果盡可能接近獨立概率假設,對公式(1)進行近似可得公式(3):
其中,為Kx中的全部實體;為數據庫中報道的文獻數,≤T時視為0,T為3.2節(jié)所述閾值,實踐中通常取值在50至100之間;為的某一子集,表示與的補集,其中N為領域文獻總量,ps*為查新員對相關文獻在檢索結果中占比的估值。
當所有均存在或時,公式(3)結果無意義,此時Kx必然包含多項報道數量較少的技術,故人為規(guī)定,對這些技術的信息量取最大值,作為Kx的信息量,如公式(4)所示:
Ii'完整公式較為復雜,約分并刪去0項和極小項后可近似化簡為公式(5):
其中,Ki∩Kn表示Ki與Kn所含實體的交集。f(Ki∩Kn)=I(Ki∩Kn)的條件為:對于任意滿足j
公式(3)—公式(5)中所含數值通過文獻檢索獲取,其余N、T、ps*均為常量,由于最終目的是依據(Ii–Ii')進行排序,而–log2(ps*/N)通常大于I(Kx)中的其余項,故不設置具體數值,排序時先依據結果中–log2(ps*/N)的數量排序,再依據其余項之和排序。
4? 系統(tǒng)框架與實現(xiàn)/System design and implementation
前一節(jié)中,筆者將檢索結果的相關性問題經由信息量轉化為文獻計量問題。本節(jié)將介紹基于該算法的交互式邏輯運算符選擇系統(tǒng),該系統(tǒng)使用python開發(fā),整合了文獻自動檢索、信息量計算、檢索式生成3個主要功能,相比同類工具有半本地半聯(lián)機檢索、用戶交互、檢索式化簡這3項特色功能,系統(tǒng)運行流程如圖1所示:
4.1? 半本地半聯(lián)機檢索
本系統(tǒng)所用數據來源于各大期刊數據庫,但所需檢索頻率較高,為提升檢索效率,避免高頻訪問,系統(tǒng)建立本地索引輔助。共建立兩個索引:①文獻數索引,儲存各檢索式的檢索結果數;②題錄索引,儲存各檢索式的結果題錄,具體包括文獻的標準引用格式、篇名、關鍵詞、摘要。
在檢索時,將同義詞以OR連接并視為一個關鍵詞,之后對關鍵詞的所有組合方式按詞數正序排列,并依次嘗試:①在文獻數索引中檢索;②若其題錄索引收錄其子集,在題錄索引中檢索,并將結果存入文獻數索引;③進行聯(lián)機檢索,將結果存入文獻數索引,若可導出全部題錄,則將其導出并存入題錄索引。檢索完成后,對題錄索引進行合并、去重,依據其中的題錄數更新文獻數索引。
4.2? 用戶交互
本系統(tǒng)主要特色是依據選定的比對文獻調整后續(xù)文獻的排序,交互系統(tǒng)可充分發(fā)揮這一優(yōu)勢,并為查新員提供一定建議。
系統(tǒng)除接受查新員輸入的關鍵詞外,排序完成后會逐批顯示結果并與用戶交互,每次顯示一組相關程度最高的文獻題錄以及題錄對應的關鍵詞組合,詢問查新員關鍵詞在文中的含義和語義關系是否與查新點中一致,并基于反饋調整各組題錄的相關度。此外,系統(tǒng)實時檢查關鍵詞的使用狀況,當發(fā)現(xiàn)包含某關鍵詞的所有檢索式均不合適時,將停止操作并提醒查新員修改該關鍵詞。若每個關鍵詞或其同義詞均出現(xiàn)在查新員選定的文獻中,系統(tǒng)將提示檢索工作可以完成。
4.3? 檢索式化簡
本系統(tǒng)另一特色是比對文獻由對應檢索式給出,因此在查新員選擇完比對文獻后,系統(tǒng)可提供對應檢索式用于查新報告及后續(xù)審核。
方法具體為:將每組比對文獻對應的檢索式進行OR連接,之后進行化簡?;喕贏ND連接與OR連接的結合律,采用逐步法,每步枚舉所有可用的化簡方式,取化簡后并列最簡潔的檢索式進行下一步的化簡,直至獲得無法化簡的檢索式。該方法可保證查新檢索結果中包含全部比對文獻,且非比對文獻數量最少。
5? 實踐驗證/Experimental verification
為說明系統(tǒng)的工作流程與原理,本節(jié)以查新點“利用蒸發(fā)冷凝法結合原位高溫高壓氫化法制備氫化鎂”的中文文獻檢索為例,從系統(tǒng)流程與查新員工作流程來解釋系統(tǒng)的運行流程。
5.1? 系統(tǒng)內部的工作流程與原理
(1)對于查新員提供的關鍵詞:蒸發(fā)冷凝、原位、高溫高壓、氫化、氫化鎂以及氫化鎂的同義詞MgH2,依據同義詞OR連接,非同義詞AND連接的方式,生成31種符合條件的關鍵詞組合。并依據4.1節(jié)的流程在知網、萬方數據中進行檢索與去重, 獲取結果數量,如表1所示:
(2)對檢索出文獻的關鍵詞組合kx,結果數在閾值50以上的視為已知信息,信息量I(kx)=0。其余作為備選檢索式,逐篇計算I(kx)。
例如,“原位 蒸發(fā)冷凝”由“原位”和“蒸發(fā)冷凝”組成,代入公式(3)可得,I(原位 蒸發(fā)冷凝)=–log2(N(原位)?N(蒸發(fā)冷凝)?ps*/N)。N(原位)指關鍵詞“原位”的檢索結果數,數值見表1。又如,“原位 氫化 高溫高壓”中的關鍵詞可由3種方式分為兩組,其中“高溫高壓”與“原位 氫化”的結果數量乘積最大,表明此時組內關鍵詞間的相關性最強,分組方式最合理,故I(原位 氫化 高溫高壓)=–log2(N(高溫高壓)?N(原位 氫化)?ps*/N)。
(3)依據I(kx)從高至低的順序逐條提供kx'及對應文獻題錄,尋求用戶意見。反饋為無關的移出備選檢索式列表。直至用戶反饋為相關,將相關的kx'記錄為第1條相關檢索式K1'。
(4)逐篇計算備選檢索式的I2'(kx),Ii'(kx)是kx與前i–1條相關檢索式重合部分的信息量,由公式(5)計算。例如,K1'為“原位 氫化 高溫高壓 氫化鎂”,K1'與“氫化 蒸發(fā)冷凝 高溫高壓”重合部分為“氫化 高溫高壓”,故I2' (氫化 蒸發(fā)冷凝 高溫高壓)=I(氫化 高溫高壓),后者計算見步驟(3)。
(5)依據3.4節(jié)方法對I(kx)–I2'(kx)進行排序,重復步驟(3)、步驟(4)獲取K2,K3……。獲取第4組相關檢索式后,用戶反饋檢索完成,使用4.3節(jié)方法將K1–K4合并為最終檢索式。
5.2? 系統(tǒng)使用方法
與程序原理相比,人工處理的步驟相對簡單。
(1)查新員從查新點“利用蒸發(fā)冷凝法結合原位高溫高壓氫化法制備氫化鎂”中凝練出上述5個檢索詞與1個同義詞,由文本框輸入系統(tǒng),選擇“自動分析”。
(2)系統(tǒng)彈出提示,發(fā)現(xiàn)可能涉及“蒸發(fā)冷凝 高溫高壓 氫化”的文獻,并展示符合條件的文獻題錄與摘要。查新員確認上述關鍵詞在查新點中指“蒸發(fā)冷凝法結合高溫高壓氫化法”,但觀察發(fā)現(xiàn)文獻中“氫化”指“氫化物”,因此選擇“否”。
(3)系統(tǒng)再次彈出提示,發(fā)現(xiàn)可能涉及“原位 高溫高壓 氫化 氫化鎂”的文獻。核對后發(fā)現(xiàn)文獻報道了“原位高溫高壓氫化法制備氫化鎂”,與查新點一致,因此保存題錄用于撰寫查新報告,并在系統(tǒng)上選擇“是”。
(4)重復步驟(2)或步驟(3),直至保存的題錄數量達標,在系統(tǒng)提示檢索完成時選擇“是”,系統(tǒng)展示:((氫化 AND 高溫高壓 AND (氫化鎂 OR MgH2))) OR ((蒸發(fā)冷凝) AND ((氫化) OR (原位)))。
(5)刪除其中無意義的括號后,得到最終檢索式:(氫化 AND 高溫高壓 AND (氫化鎂 OR MgH2)) OR (蒸發(fā)冷凝 AND (氫化 OR 原位))。
5.3? 系統(tǒng)優(yōu)勢
相比傳統(tǒng)方法,本系統(tǒng)最大優(yōu)勢在于提供了一種易于使用且效率穩(wěn)定的檢索流程。
如前所述,查新檢索的目的是獲取結果數量適中、內容相關、角度全面的檢索式,方法主要是在已有檢索式的基礎上進行調整。難點則在于調整方法眾多,滿足條件的檢索式較少且缺少明顯特征。例如本節(jié)的查新點,除同義詞外共5個檢索詞,將其與1個OR運算符、3個AND運算符和括號進行組合,可構成6種結構的105種檢索式,在排除明顯不合理的檢索式后,仍有20余種意義明確的檢索式。但檢索后可知這105種檢索式的結果均不符合條件,需要替換關鍵詞或采用結構更為復雜的檢索式,此時備選檢索式的總量已經難以統(tǒng)計。
在實踐中,查新員通常不會對檢索式進行直接枚舉,而會根據自身判斷先嘗試若干檢索式,再根據結果的數量和相關性逐步調整,但仍可能出現(xiàn)反復調整依然無法獲得可用檢索式的情況。這是由于檢索式的小幅度調整也會大幅度影響檢索結果,但在對相關領域缺乏充分了解的情況下又很難預測具體的變化幅度。
而通過本系統(tǒng),查新員在確認6個檢索式對應的62篇文獻后就獲得了可用的檢索式,且最多只需確認9個檢索式對應的114篇文獻,即使無法獲得可用的檢索式,也能發(fā)現(xiàn)需要修改的檢索詞,大幅提升了查新檢索效率,對于不熟悉相關領域的查新員,這一提升的效果將更為明顯。此外,查新員只需對檢索結果是否描述了特定內容進行判斷,無需設計檢索策略、比較結果的相關程度或親自檢索文獻,在提升效率的同時也降低了整個流程的處理難度。
5.4? 適用范圍分析
除上述案例外,筆者還在生物、機械工程等領域的查新中進行測試,該系統(tǒng)均給出了有效的檢索結果。結果還表明,本系統(tǒng)不僅可以衡量檢索式與查新點的相關程度,還能基本排除關鍵詞間缺乏關聯(lián)的不合理檢索式,原因可能在于,高信息量檢索式出現(xiàn)結果是小概率事件,實際發(fā)生就意味著檢索式中關鍵詞間一定存在某種聯(lián)系。
但該系統(tǒng)同樣存在缺陷:①本節(jié)案例中使用的是查新員調整后的檢索詞,直接使用用戶提供的關鍵詞時,系統(tǒng)運行中通常會多次要求查新員對檢索詞進行修改,直至獲得恰當的關鍵詞,但這一過程中系統(tǒng)僅能指出需要修改的關鍵詞,無法提供更具體的意見;②算法依賴文獻檢索,因此對特定的查新點表現(xiàn)較差,例如一些工程領域的方法創(chuàng)新,技術要點通常不在題錄中體現(xiàn),或者部分查新項目所用關鍵詞存在嚴重歧義;③對于關鍵詞在3個以內的簡單查新點,人工檢索的效率通常已經很高,使用本系統(tǒng)也難以進一步提升。
6? 總結與展望/Summary and prospect
本系統(tǒng)已在科技查新工作中進行驗證,實踐發(fā)現(xiàn),對于涉及關鍵詞較多的查新點,例如組合運用多項技術的項目,該系統(tǒng)具有較好的適應性,通常能有效地給出合理的檢索策略,實現(xiàn)了系統(tǒng)開發(fā)的主要目的。對于關鍵詞較少的冷門研究,本系統(tǒng)亦可快速給出檢索策略或關鍵詞修改建議。但也存在5.4節(jié)所述的不足。
目前,人工智能語言模型在文獻摘要提取、翻譯、文獻內容比對、報告撰寫等其他科技查新所需的工作上展現(xiàn)了驚人的能力,而文獻檢索方面,則受版權與原理的多重限制,難以保證結果的高查全率,因此能與本系統(tǒng)形成很好的互補。所以與語言模型結合是本系統(tǒng)未來的主要改進方向,主要包括兩個方面:①文獻篩選后的自動比對與結論生成;②從查新點中抽取關鍵詞并發(fā)現(xiàn)同義詞。此外,還可以引入傳統(tǒng)模型對詞間語義關系進行計算,減少計算信息量時的誤差,進一步提升結果精度。
參考文獻/References:
鄂麗君. 高校圖書館科技查新服務調查與分析[J]. 情報雜志, 2012, 31(1): 180-184. (E L J. Investigation and analysis on sci-tech novelty search service of university libraries[J]. Journal of intelligence, 2012, 31(1): 180-184.)
張嵐, 張柏秋, 于非, 等. 探討科技查新中檢索策略式的制定[J]. 現(xiàn)代情報, 2008(10): 151-152,157. (ZHANG L, ZHANG B Q, YU F, et al. Discussion on formulation of search strategy in sci-tech novelty retrieval[J]. Journal of modern information, 2008(10): 151-152,157.)
周小茹, 鄭菲, 王彥兵. 基于技術特征的科技查新文獻檢索策略[J]. 知識管理論壇, 2018, 3(2): 61-72. (ZHOU X R, ZHENG F, WANG Y B. Search strategy of scientific and technical novelty search based on technological characteristics[J]. Knowledge management forum, 2018, 3(2): 61-72.)
羅思民, 洪凡, 謝秋梅. 科技查新檢索及撰寫報告工作平臺研究[J]. 圖書情報導刊, 2017, 2(5): 45-49. (LUO S M, HONG F, XIE Q M. Study on working platform for retrieval and report writing of sci-tech novelty search[J]. Journal of library and information science, 2017, 2(5): 45-49.)
黃孝倫, 王東, 譚濤, 等. 智能科技查新系統(tǒng)的設計與實現(xiàn)[J]. 計算機測量與控制, 2020, 28(2): 202-205. (HUANG X L, WANG D, TAN T, et al. Construction of intelligent novelty search system[J]. Computer measurement & control, 2020, 28(2): 202-205.)
王培霞, 余海, 陳力, 等. 科技查新中檢索詞智能抽取系統(tǒng)的設計與實現(xiàn)[J]. 現(xiàn)代圖書情報技術, 2016(11): 82-93. (WANG P X, YU H, CHEN L, et al. Using intelligent system to extract search terms for sci-tech novelty retrieval[J]. New technology of library and information service, 2016(11): 82-93.)
韋嶸暉, 王慶紅, 孫辛博, 等. 電力領域科技查新系統(tǒng)的設計與實現(xiàn)[J]. 電力大數據, 2020, 23(2): 46-52. (WEI R H, WANG Q H, SUN X B, et al. Design and implementation of the sci-tech novelty retrieval system for electric power field[J]. Power systems and big data, 2020, 23(2): 46-52.)
郝曉春, 李躍青, 付改俠, 等. 火炸藥科技查新系統(tǒng)的設計[J]. 科技與創(chuàng)新, 2021(22): 58-60. (HE X C, LI Y Q, FU G X, et al. Design of a novelty search system for explosives and explosives technology[J]. Science and technology & innovation, 2021(22): 58-60.)
姚俊良, 樂小虬. 科技查新點語義匹配方法研究[J]. 數據分析與知識發(fā)現(xiàn), 2019, 3(6): 50-56. (YAO J L, LE X Q. Semantic matching for sci-tech novelty retrieval[J]. Data analysis and knowledge discovery, 2019, 3(6): 50-56.)
馬林山, 郭磊. 基于主題模型(LDA)的查新輔助分析系統(tǒng)設計研究[J]. 現(xiàn)代情報, 2018, 38(2): 111-115. (MA L S, GUO L. Research on design of novelty retrieval aided analysis system based on LDA model[J]. Journal of modern information, 2018, 38(2): 111-115.)
吳超, 趙明華, 祝愨智, 等. 管道科技查新平臺的開發(fā)與實現(xiàn)[J]. 情報探索, 2017(11): 65-69. (WU C, ZHAO M H, ZHU Q Z, et al. Development and realization of pipeline sci-tech novelty retrieval platform[J]. Information research, 2017(11): 65-69.)
李白萍, 吳冬梅, 滑玉. 通信原理與技術[M]. 北京:人民郵電出版社, 2003: 5-6. (LI B P, WU D M, HUA Y. Communication principles and technologies[M]. Beijing: Posts & Telecom Press, 2003: 5-6.)
A Boolean Operator Selection System for Sci-tech Novelty Searching
Fan Wuyou
Shanghai Jiao Tong University Library, Shanghai 200240
Abstract: [Purpose/Significance] In the practice of sci-tech novelty search, the search formulas for some novelty search points contain a large number of search terms. When the search results do not include suitable literature, further adjustments to the search strategy will be difficult, and influenced by the retrieval skills of the searcher. [Method/Process] The Boolean Operator Selection System for Sci-tech Novelty Searching uses the amount of information of the content of novelty search points that is also reported by the literature to quantify the quality of novelty denied by the literature, the relevance of a literature to a novelty search point. And this system has retrieval, analysis, and interaction functions to counts the distribution characteristics of the search terms in each database, calculates the amount of information of the overlapping part in the literature and novelty search points, and evaluates the literature relevance. The evaluation will be automatically corrected based on feedback from the searcher. Finally, the system will generate a search formula based on maximizing the correlation of the results. [Result/Conclusion] Practical use has proven that the system can assist in making retrieval strategies of various types of novelty points, especially for novelty search points that involve a large number of search terms.
Keywords: sci-tech novelty searching? ? literature searching? ? amount of information
Author(s): Fan Wuyou, Librarian, Master, E-mail: fanwuyou@sjtu.edu.cn.
Received: 2023-09-04? ? Published: 2024-02-27