關(guān)鍵詞:LIMS,標準管理,互聯(lián)網(wǎng)爬蟲,DBN,自動采集與更新,智能匹配
DOI編碼:10.3969/j.issn.1002-5944.2024.12.024
保障人民群眾的食品藥品安全一直是食品藥品監(jiān)管的重點工作。近年來,各地政府積極支持基層食品藥品承檢機構(gòu)的檢測能力建設與發(fā)展。由于機構(gòu)改革的進行,各地組建了新的綜合性的實驗室,在實際運行過程中,基層的檢驗檢測機構(gòu)在標準管理方面往往面臨標準數(shù)據(jù)更新不及時、人工操作繁瑣等問題[1]。為了加強實驗室規(guī)范化管理,確保實驗結(jié)果準確可靠,基層檢驗機構(gòu)不斷深入發(fā)展實驗室信息管理系統(tǒng)(LIMS)的建設,促進了食藥檢行業(yè)中檢驗標準的信息化管理[2]。
結(jié)合工作的需要,我們通過引入互聯(lián)網(wǎng)爬蟲和DBN技術(shù),并在LIMS標準管理系統(tǒng)中進行研究與實踐,旨在通過該項技術(shù)創(chuàng)新提升標準管理的效率和智能化程度,研究通過以下兩方面進行。
1 利用精細化互聯(lián)網(wǎng)爬蟲實現(xiàn)標準自動采集與實時更新
1.1 精細化爬蟲設計
為了更高效地抓取和更新標準數(shù)據(jù),我們設計了一種精細化的互聯(lián)網(wǎng)爬蟲。該爬蟲不僅具備基本的網(wǎng)頁抓取功能,還能通過模擬登錄、處理驗證碼等高級技術(shù)應對數(shù)據(jù)源網(wǎng)站的反爬蟲機制。同時,我們利用多線程和異步處理技術(shù),大幅提高了數(shù)據(jù)抓取的速度和效率。
1.2 數(shù)據(jù)解析與清洗
爬蟲抓取的數(shù)據(jù)往往包含大量的HTML標簽和無關(guān)信息,因此需要進行精細化的數(shù)據(jù)解析和清洗。我們采用正則表達式、XPath和CSS選擇器等多種技術(shù),準確提取出所需的標準信息,并通過數(shù)據(jù)清洗算法去除重復、無效和錯誤數(shù)據(jù),確保最終存儲到數(shù)據(jù)庫中的數(shù)據(jù)是準確、完整和有效的。
1.3 實時更新機制
為了實現(xiàn)標準的實時更新,我們設計了一種基于時間戳和增量抓取的更新機制。爬蟲程序會定期檢查數(shù)據(jù)源網(wǎng)站上標準數(shù)據(jù)的更新時間戳,并與本地數(shù)據(jù)庫中存儲的時間戳進行對比。一旦發(fā)現(xiàn)新的更新,爬蟲會立即啟動增量抓取程序,只抓取新增或修改的數(shù)據(jù)部分,從而大大減少了數(shù)據(jù)抓取和更新的時間和資源消耗。
2 利用DBN構(gòu)建智能匹配模型實現(xiàn)標準智能推薦
在構(gòu)建LIMS軟件中的標準應用智能推薦系統(tǒng)時,我們將檢品名稱、檢品小類和檢驗類型作為最重要的要素,這些要素能夠直接關(guān)聯(lián)到實驗室工作中所使用的標準,因此它們對于生成準確的推薦至關(guān)重要。同時,最近使用的標準通常具有較高的推薦價值。以下是如何結(jié)合這些要素以及最近使用的標準來構(gòu)建智能推薦系統(tǒng)的簡要說明:
2.1 數(shù)據(jù)整合
首先,確保LIMS系統(tǒng)中包含了檢品名稱、檢品小類、檢驗類型以及與之相關(guān)聯(lián)的標準使用記錄。對于每個檢品,系統(tǒng)應該能夠追蹤其歷史檢驗記錄,包括所使用的標準。
2.2 特征工程
將檢品名稱、檢品小類和檢驗類型轉(zhuǎn)換為適合機器學習模型處理的特征。例如,可以使用獨熱編碼(One-Hot Encoding)處理類別數(shù)據(jù),或者使用詞嵌入技術(shù)處理文本數(shù)據(jù)。
對于最近使用的標準,可以引入時間衰減因子,以便在推薦時給予更近時間段內(nèi)的使用記錄更高的權(quán)重。
2.3 模型構(gòu)建
選擇適合的機器學習模型來捕捉特征與標準使用之間的關(guān)系??紤]到推薦的實時性和準確性要求,可以采用如矩陣分解、深度學習模型(如循環(huán)神經(jīng)網(wǎng)絡RNN處理序列數(shù)據(jù))等先進算法。
在模型訓練過程中,優(yōu)化目標應該是最大化準確地推薦與給定檢品名稱、檢品小類和檢驗類型相匹配的標準。
2.4 推薦邏輯
當用戶輸入檢品名稱、檢品小類和檢驗類型時,系統(tǒng)首先檢索與之最相關(guān)的歷史檢驗記錄。
接下來,根據(jù)最近使用的標準和其他相關(guān)因素(如標準的熱門程度、用戶的個性化偏好等),為當前檢品生成一個推薦標準列表。
最后,將推薦列表呈現(xiàn)給用戶,供其選擇和使用。
2.5 反饋循環(huán)與模型更新
用戶對推薦結(jié)果的反饋(如采用、忽略或提供新的建議)應被收集并用于模型的持續(xù)改進。
定期組織數(shù)據(jù)更新和模型重訓練,以確保推薦系統(tǒng)能夠跟上實驗室標準的變化和用戶需求的發(fā)展。
通過這種方式,LIMS軟件中的標準應用智能推薦系統(tǒng)能夠不斷適應實驗室工作的動態(tài)變化,為用戶提供更加高效和準確的支持。
3 應用效果與展望
通過實際應用驗證,我們發(fā)現(xiàn)這兩項創(chuàng)新點在LIMS標準管理中取得了顯著的效果提升。精細化的互聯(lián)網(wǎng)爬蟲技術(shù)大大提高了標準數(shù)據(jù)的采集效率和更新及時性,而DBN智能匹配模型則為用戶提供了精準、個性化的標準推薦服務[3]。同時新的標準管理模式可以實現(xiàn)對藥品、食品等行業(yè)的標準方法目錄查詢和電子文檔無紙化管理,標準分類整理、受控、發(fā)放、查新、修訂、變更、作廢回收等環(huán)節(jié)[4-6],建立標準數(shù)據(jù)庫并結(jié)合信息化的科學管理模式[7-9]。展望未來,我們將繼續(xù)探索更多先進的技術(shù)和方法在LIMS標準管理中的應用潛力,如利用自然語言處理技術(shù)對標準文本進行更深入的分析和理解,以及結(jié)合用戶反饋數(shù)據(jù)對智能匹配模型進行持續(xù)優(yōu)化和迭代,為信息管理提供電子終端服務等[10 -11]。相信隨著技術(shù)的不斷進步和創(chuàng)新應用的深入拓展,LIMS系統(tǒng)中的標準管理將迎來更加智能化、高效化的新時代。
作者簡介
劉薇,本科,主管藥師,研究方向為食品藥品標準管理與實驗室質(zhì)量管理。
王琪,通信作者,本科,主管藥師,研究方向為實驗室質(zhì)量管理與食品藥品檢驗檢測。
涂堅,本科,高級工程師,研究方向為實驗室軟件系統(tǒng)開發(fā)與設計。
(責任編輯:張瑞洋)