一、前言
隨著人工智能技術的飛速發(fā)展,大模型技術已成為研究的焦點。大模型作為一種神經(jīng)網(wǎng)絡模型,擁有數(shù)十億乃至數(shù)萬億級別的參數(shù)量,具備執(zhí)行復雜自然語言理解、圖像識別、語音合成等任務的能力。它能夠自動解析海量文本,精準查詢并匯總信息,撰寫高質量文章,還能進行復雜對話交互,極大地提升了工作效率與使用體驗。大模型技術的進步,為提高藥品安全性、優(yōu)化監(jiān)管手段提供了新契機,也預示著藥品智慧監(jiān)管即將邁人全新階段。
二、人工智能技術
在人工智能技術持續(xù)演進的大背景下,大語言模型正日益凸顯其關鍵地位,逐漸成為人工智能領域的核心技術以及備受矚目的研究方向。大模型技術廣泛應用于自然語言處理、計算機視覺、語音識別等多個領域。在自然語言處理領域,被大量應用于智能客服、文本生成和情感分析等任務。在計算機視覺領域,實現(xiàn)了圖像分類、目標檢測和圖像生成等任務的高精度處理。在語音識別與合成領域,顯著提升了語音轉文本及文本轉語音的準確性。在技術演進歷程中,知識相關技術歷經(jīng)了知識表示、知識融合和動態(tài)增強等不同發(fā)展階段。Bordes等人[提出了TransE模型,首次將知識圖譜嵌人低維向量空間,支持實體關系的可計算性推理,啟發(fā)了知識圖譜與深度學習的結合。Lewis等人提出RAG框架,將非參數(shù)化外部知識檢索與生成模型結合,驗證知識增強對生成質量的提升。DeepSeek Team3通過組相對策略優(yōu)化(GroupRelativePolicy Optimization,GRPO)算法實現(xiàn)知識推理能力增強,推動知識增強與強化學習的深度結合。
三、藥品監(jiān)管與AI應用現(xiàn)狀
(一)藥品監(jiān)管概述
國務院辦公廳《關于全面深化藥品醫(yī)療器械監(jiān)管改革促進醫(yī)藥產(chǎn)業(yè)高質量發(fā)展的意見》(國辦發(fā)【2023]9號)提出構建“智能監(jiān)管新基建”戰(zhàn)略,以監(jiān)管科技創(chuàng)新破解“質量一效率一創(chuàng)新”三元悖論。文件圍繞藥品全生命周期監(jiān)管,推進監(jiān)管數(shù)字化轉型,利用人工智能、大數(shù)據(jù)等提升效能。明確要建立“風險一效益”動態(tài)評估模型,將AI輔助決策系統(tǒng)嵌入全流程:研發(fā)階段評估臨床試驗方案,生產(chǎn)環(huán)節(jié)監(jiān)控質量,流通領域追蹤流向,上市后分析不良反應并預警,以提升監(jiān)管智能化、精準化水平。值得關注的是,現(xiàn)行監(jiān)管體系存在著動態(tài)監(jiān)管與知識更新效率失衡、數(shù)據(jù)安全與隱私保護矛盾、專業(yè)問答的精準性與合規(guī)性挑戰(zhàn)等核心痛點,具體來說有以下兩點。第一,動態(tài)監(jiān)管與知識更新效率失衡:藥品監(jiān)管法規(guī)、技術指南等更新頻率較高,給藥品監(jiān)管帶來了巨大挑戰(zhàn)。數(shù)據(jù)安全與隱私保護矛盾:藥品研發(fā)數(shù)據(jù)、不良反應數(shù)據(jù)等信息均涉及商業(yè)機密與患者隱私,而云端傳輸面臨重重風險。第二,專業(yè)問答的精準性與合規(guī)性挑戰(zhàn):藥品監(jiān)管問答必須同時兼顧法律嚴謹性與醫(yī)學準確性。法律嚴謹性要求能精準匹配《中華人民共和國藥品管理法》條款及司法解釋(如藥品安全委員會對于“重大風險”的判定標準)。醫(yī)學準確性則涵蓋藥代動力學參數(shù)、不良反應因果關系評估等專業(yè)領域,錯誤回答極有可能引發(fā)監(jiān)管處罰或臨床風險。
圖1藥品監(jiān)管問答系統(tǒng)架構
(二)AI應用現(xiàn)狀
近年來,AI技術在藥品監(jiān)管領域取得了一定的進展。GrayM等人4創(chuàng)新性地利用BERT模型實現(xiàn)跨格式藥物標簽文檔的自動標準化分類,首次驗證了AI在監(jiān)管文檔結構化整合中的高效性和泛化能力,為全球藥物安全審查提供了統(tǒng)一的信息處理框架。WuL等人5開發(fā)了RxBERT,針對FDA藥物標簽文檔預訓練的領域專用AI模型。此模型在藥物不良反應識別和標簽分類任務中顯著優(yōu)于通用NLP模型,首次驗證了定制化語言模型在提升藥物監(jiān)管文本分析效率和準確性上的可行性。
美國食品藥品監(jiān)督管理局(FoodandDrugAdministration,F(xiàn)DA)制定了《關于使用人工智能支持藥物及生物制品監(jiān)管決策的考慮》,提出了七步風險評估框架,指導行業(yè)在藥物全生命周期中合理使用人工智能輔助監(jiān)管決策,強調數(shù)據(jù)質量、模型透明度及風險適配驗證,并鼓勵利益相關方與監(jiān)管機構早期溝通以確保AI應用的可信度與安全性。國家藥品監(jiān)督管理局積極推進藥品監(jiān)管現(xiàn)代化,通過構建由“大平臺、大系統(tǒng)、大數(shù)據(jù)”組成的智慧監(jiān)管平臺,成功實現(xiàn)藥品全生命周期的高效管理。
四、智能問答系統(tǒng)
(一)業(yè)務需求
在藥品監(jiān)管數(shù)字化轉型進程中,智能問答系統(tǒng)作為人工智能技術的關鍵應用載體,已成為優(yōu)化企業(yè)服務、提升監(jiān)管效能的重要工具,其需求體現(xiàn)在三個方面。
一是法規(guī)與政策咨詢的自動化響應需求。智能問答系統(tǒng)要實現(xiàn)對監(jiān)管法規(guī)的動態(tài)解析與精準匹配。通過構建垂直領域大語言模型,并嵌人《藥品管理法》《疫苗管理法》《藥品經(jīng)營質量管理規(guī)范》等法規(guī)知識庫,結合自然語言處理技術,系統(tǒng)能夠自動解答企業(yè)在注冊申報流程、審評標準、合規(guī)性要求等方面的疑問。此外,系統(tǒng)還需具備多輪對話引導功能(如借助預設問題模板輔助企業(yè)完成材料補正),從而提升咨詢服務的規(guī)范性與效率。
二是審評審批流程的智能化輔助需求。系統(tǒng)需深度融入藥品全生命周期監(jiān)管場景,達成審評材料的自動化處理與決策支持,具體包含:形式審查自動化,依靠大語言模型對電子申報材料進行合規(guī)性審查,自動甄別文件缺失、數(shù)據(jù)邏輯矛盾等問題,進而生成《不予受理通知書》或《補正通知書》草稿;關鍵信息提取,運用結構化處理技術,從藥品注冊資料中精準提煉成分、用途、檢驗結果等核心數(shù)據(jù),助力審評人員快速定位風險點;歷史數(shù)據(jù)比對,利用AI文本比對功能,分析企業(yè)補充材料與原申報內容的差異,提示審評重點,有效減少重復性勞動。
三是多維度數(shù)據(jù)融合與風險預警需求。通過整合藥品研發(fā)、臨床、注冊、生產(chǎn)、經(jīng)營全流程的數(shù)據(jù),匯聚品種檔案、企業(yè)信用檔案、上市后監(jiān)管、投訴舉報、不良反應報告等結構化與非結構化數(shù)據(jù),實現(xiàn)全鏈條風險預警與精準監(jiān)管。
(二)系統(tǒng)設計
根據(jù)藥品監(jiān)管的業(yè)務需求,提出了基于本地化知識增強的藥品監(jiān)管問答系統(tǒng)架構,如圖1所示,系統(tǒng)采用模塊化設計,主要由知識庫構建子系統(tǒng)與智能問答子系統(tǒng)兩大部分組成,通過分層處理機制實現(xiàn)法規(guī)數(shù)據(jù)的智能解析與精準服務輸出。
圖2技術架構
知識庫構建子系統(tǒng)首先對接多源異構監(jiān)管數(shù)據(jù),包括國家藥品監(jiān)督管理局(NMPA)發(fā)布的法規(guī)文件(《藥品注冊管理辦法》《藥品生產(chǎn)監(jiān)督管理辦法》等)、企業(yè)提交的藥品生產(chǎn)工藝文檔以及結構化數(shù)據(jù)庫中的不良反應監(jiān)測報告。針對藥品監(jiān)管文本的特性,切分前可采用OCR技術解析PDF文件,并通過基于規(guī)則的正則表達式抽取法規(guī)條款的元數(shù)據(jù)(如頒布日期、效力狀態(tài)、適用對象等),也可采用語義分塊算法將文檔按最小監(jiān)管單元切割,以確保知識片段的獨立性與可檢索性。最后對塊進行向量化,并存到向量數(shù)據(jù)庫中。
智能問答子系統(tǒng)能夠部署本地化大語言模型作為生成引擎,以此構建端到端的閉環(huán)服務流程。當用戶提交自然語言形式的查詢時,系統(tǒng)首先會對用戶輸入的文本進行向量化處理。隨后,系統(tǒng)會利用向量化后的結果對向量數(shù)據(jù)庫發(fā)起查詢,從而獲取與提問信息相關的上下文內容。之后,系統(tǒng)會將所獲取的上下文與用戶的提問進行合并,將合并后的結果作為輸入傳遞給本地化大語言模型。最終,大語言模型會基于此輸入生成相應的答案并返給用戶。
(三)原型實現(xiàn)
AnythingLLM作為一款高效、可定制的開源知識管理與問答系統(tǒng),它能將各類文檔、資源或內容片段轉化為大語言模型聊天時可用的相關上下文,為用戶提供準確全面的回答。Ollama是開源的大型語言模型服務工具,支持用戶在自身硬件環(huán)境中便捷地部署和使用大規(guī)模預訓練模型,主要通過在Docker容器內對大型語言模型進行部署與管理,助力用戶快速在本地運行模型。DeepSeek作為國內首個全面對標GPT-4技術架構的AI大模型,其系列覆蓋從7B到超千億參數(shù)的完整模型矩陣,在數(shù)學推理、代碼生成、多輪對話等核心能力上達國際領先水平,已衍生出DeepSeek-R1、DeepSeek-V2、DeepSeek-V3 等多個版本,廣泛應用于智能客服、教育輔助、金融分析等垂直領域。
本系統(tǒng)原型由知識庫構建子系統(tǒng)和智能問答子系統(tǒng)構成,其核心借助AnythingLLM技術棧,實現(xiàn)知識增強生成的全流程。同時,充分利用Ollama、DeepSeek等開源項目資源,采用Python語言進行定制化開發(fā),技術架構如圖2所示。
知識庫構建子系統(tǒng)選用Lancedb向量庫。智能問答子系統(tǒng)的核心處理單元運用Ollama框架,實現(xiàn)模型推理全生命周期管理。借助Ollama提供的接口,系統(tǒng)能夠動態(tài)加載DeepSeek大語言模型。當用戶提交自然語言查詢時,系統(tǒng)會先對查詢文本進行量化處理,隨后在Lancedb向量庫中執(zhí)行查詢操作。查詢結果將被輸入DeepSeek模型進行領域適配性生成,最終輸出結果會通過AnythingLLM服務返回至用戶。
藥品監(jiān)管智能問答系統(tǒng)借助DeepSeek大模型提供的基礎生成能力,得以處理復雜的語言任務。系統(tǒng)通過知識增強技術,不斷更新和完善知識儲備,確保所提供信息的準確性與及時性。此外,系統(tǒng)還可通過精心設計的提示詞,進一步提升對特定藥品監(jiān)管任務的適配性,從而更高效精準地服務于藥品監(jiān)管工作。
表1案例對比
為檢驗系統(tǒng)原型的有效性,本文針對知識增強前后開展了案例對比測試,結果見表1。經(jīng)知識增強后的系統(tǒng)能夠更專業(yè)地回應相關問題,顯著提升了回答的專業(yè)精準度,有力地驗證了系統(tǒng)原型在知識增強策略下的積極效用。
五、結語
本文深入剖析了藥品監(jiān)管領域所面臨的痛點以及現(xiàn)有方案存在的局限性,進而提出了一種基于RAG和AI大模型的知識增強型智能問答系統(tǒng)。通過實踐驗證了基于Ollama、DeepSeek和AnythingLLM等開源項目開發(fā)智能問答系統(tǒng)的可行性。該系統(tǒng)能夠切實有效地滿足藥品監(jiān)管領域對于高精度、高安全性問答的需求,為實現(xiàn)智能化合規(guī)提供了切實可行的落地路徑。展望未來研究方向,本地部署雖可滿足藥品監(jiān)管數(shù)據(jù)的合規(guī)要求,但會導致硬件成本上升,因此需要在隱私保護與效率之間進行權衡。此外,后續(xù)還將進一步構建藥品監(jiān)管知識圖譜,以增強系統(tǒng)的推理能力,推動該領域的持續(xù)發(fā)展與完善。
參考文獻
[1]Bordes A.Usunier N,Garcia-Duran A,et al.Translating Embeddings for Modeling Multi-relational Data[J].Curran Associates Inc,2013(26):2787-2795.
[2]Lewis P,Perez E,Piktus A,etal.Retrieval-Augmented
Generation for Knowledge-Intensive NLP Tasks[J].2020 (33):9459-9474.
[3]DeepSeek Team.(2025).DeepSeek-R1:Enhancingreasoning capabilitiesof largelanguagemodelsviareinforcementlearning[EB/ OL].(2025-01-22)[2025-01-30].https://arxiv.0rg/abs/2501.12948.
[4]Gray M,Xu J,Tong W,et al.Classifying free texts into predefined sections using AI in regulatory documents: acase study with drug labeling documents[J].Chem Res Toxicol,2023,36(08):1290-1299.
[5]WuL,GrayYM,Dang O.et al.RxBERT:enhancing drug labeling textmining and analysiswith AI language modeling[J].Exp Biol Med,2023,248(21):1937-1943.
[6]FDA.Considerations forthe Use of Artificial IntelligenceTo Support Regulatory Decision-Making for Drugand Biological Products [EB/0L].(2025-01-06)[2025-01-20].https://www.fda.gov/regulatoryinformation/search-fda-guidance-documents/considerations-useartificial-intelligence-support-regulatory-decision-making-drugand-biological.
[7]國家藥品監(jiān)督管理局.國家藥品監(jiān)督管理局關于加快推進藥品智慧監(jiān)管的行動計劃[EB/0L].(2019-05-24)[2025-01-20].https:/www.nmpa.gov.cn/xxgk/fgwj/gzwj/gzwjzh/20190524175201644.html.
基金項目:江蘇省藥品監(jiān)督管理局2023年度藥品監(jiān)管科學科研計劃“藥品監(jiān)管領域數(shù)據(jù)治理體系研究”項目(項目編號:202311)
作者單位:江蘇省藥品監(jiān)督管理局信息中心
責任編輯:張津平 尚丹