摘要:[目的/意義]藥用植物是中醫(yī)藥學(xué)的核心資源之一,加強(qiáng)藥用植物信息組織與電子化利用,對(duì)中醫(yī)藥的傳承與發(fā)展具有重要意義。[方法/過程]首先構(gòu)建藥用植物知識(shí)圖譜的模式層,然后對(duì)比《中國(guó)藥典》一部、TCMID、PPBC、CTD等多個(gè)數(shù)據(jù)庫(kù),篩選出265種藥用植物,整合多源異構(gòu)數(shù)據(jù),利用Neo4j構(gòu)建多模態(tài)藥用植物知識(shí)圖譜。在此基礎(chǔ)上,利用AC自動(dòng)機(jī)進(jìn)行用戶問句實(shí)體識(shí)別,利用TextCNN完成問句意圖識(shí)別,實(shí)現(xiàn)基于文本的智能回答功能;通過對(duì)比VGG、ResNet、DenseNet、MobileNet、EfficientNet等6個(gè)圖像識(shí)別模型,優(yōu)先選擇EfficientNet-B3模型實(shí)現(xiàn)基于圖像智能問答功能,并引入數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑方法提升圖像識(shí)別效率,最終利用Python語言PyQt庫(kù)實(shí)現(xiàn)藥用植物問答系統(tǒng)。[結(jié)果/結(jié)論]構(gòu)建一個(gè)包括藥用植物及各植物藥方、藥材、化合物、圖像的多模態(tài)知識(shí)圖譜,包含340 772個(gè)實(shí)體和2 530 067條關(guān)系,基于此構(gòu)建藥用植物智能問答系統(tǒng),可根據(jù)用戶的自然語言提問和圖片提問反饋查詢結(jié)果,實(shí)驗(yàn)結(jié)果表明系統(tǒng)的圖像識(shí)別準(zhǔn)確率達(dá)到83.53%。
關(guān)鍵詞:多模態(tài);知識(shí)圖譜;智能問答;藥用植物
分類號(hào):TP391;R284.1
引用格式:趙豆豆, 王宇駿, 劉蕤, 等. 基于多模態(tài)知識(shí)圖譜的藥用植物智能問答系統(tǒng)構(gòu)建[J/OL]. 知識(shí)管理論壇, 2024, 9(5): 487-504 [引用日期]. http://www.kmf.ac.cn/p/408/. (Citation: Zhao Doudou, Wang Yujun, Liu Rui, et al. Construction of Intelligent Qamp;A System for Medicinal Plant Based on Multimodal Knowledge Graph[J/OL]. Knowledge Management Forum, 2024, 9(5): 487-504 [cite date]. http://www.kmf.ac.cn/p/408/.)
中醫(yī)藥是中華民族智慧的瑰寶,藥用植物作為中藥的重要組成部分,是中醫(yī)藥學(xué)的核心資源之一。我國(guó)是世界上藥用植物資源最為豐富的國(guó)家之一,加強(qiáng)藥用植物的信息組織和知識(shí)推理,不僅有助于理解傳統(tǒng)中醫(yī)中藥的作用機(jī)理,而且對(duì)促進(jìn)藥物創(chuàng)新以及新藥研發(fā)具有重要的理論意義[1]。
知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化描述[2]。它將結(jié)構(gòu)化的信息進(jìn)行整合和表示,幫助人們更好地理解和利用知識(shí)。其中,多模態(tài)知識(shí)圖譜可以對(duì)多種模態(tài)實(shí)體進(jìn)行關(guān)聯(lián)[3],為高效利用多模態(tài)數(shù)據(jù)提供解決方法[4]。藥用植物信息呈現(xiàn)多源、異構(gòu)的特征,涉及豐富的圖像、文本等多模態(tài)數(shù)據(jù)[5]。然而,有關(guān)藥用植物多模態(tài)知識(shí)圖譜構(gòu)建及相關(guān)智能問答系統(tǒng)開發(fā)的研究鮮見報(bào)道?;诙嗄B(tài)藥用植物知識(shí)圖譜實(shí)現(xiàn)智能問答,不僅能夠響應(yīng)用戶的自然語言查詢需求,一站式呈現(xiàn)藥用植物的文本、圖像信息,還能夠?qū)λ幱弥参锏木珳?zhǔn)鑒定起到必要的輔助作用。
鑒于此,筆者以藥用植物為研究對(duì)象,借鑒現(xiàn)有研究,對(duì)藥用植物的化學(xué)成分、藥材、藥方等文本信息與圖像信息進(jìn)行整合組織,構(gòu)建藥用植物多模態(tài)知識(shí)圖譜;設(shè)計(jì)并實(shí)現(xiàn)智能問答系統(tǒng),探索藥用植物領(lǐng)域多模態(tài)知識(shí)服務(wù)一站式實(shí)現(xiàn)路徑,為藥用植物智能查詢與精準(zhǔn)鑒定提供必要方法與有效工具,提高領(lǐng)域知識(shí)的利用效率。
1" 相關(guān)研究/Related research
1.1" 藥用植物知識(shí)圖譜構(gòu)建相關(guān)研究
在藥用植物知識(shí)圖譜構(gòu)建領(lǐng)域,現(xiàn)有研究針對(duì)藥用植物的品種、產(chǎn)地[6]、基因組[7]開發(fā)了相關(guān)知識(shí)圖譜。王運(yùn)乾采用自下而上的方法構(gòu)建了藥用植物知識(shí)圖譜PlantKG,其中包括植物品種、產(chǎn)地、經(jīng)濟(jì)用途、特征等共74 475個(gè)節(jié)點(diǎn)和641 986條關(guān)系[6];Y. Wu等通過手工對(duì)齊中西醫(yī)癥狀,整合了對(duì)應(yīng)的499種草藥以及相關(guān)的疾病、草藥成分及靶基因等信息,建立了一個(gè)大型異質(zhì)網(wǎng)絡(luò),將中醫(yī)藥與現(xiàn)代醫(yī)學(xué)融為一體,以指導(dǎo)藥物發(fā)現(xiàn)[8];F. Meng等分析和組織了160個(gè)植物、195個(gè)基因組和255種草藥信息,構(gòu)建一個(gè)全面、可免費(fèi)訪問的藥用植物資源,為用戶提供植物基因組分析服務(wù)[9];香港浸會(huì)大學(xué)中醫(yī)藥學(xué)院推出藥用植物圖像數(shù)據(jù)庫(kù)(library.hkbu.edu.hk/electronic/libdbs/mpd/),其中包括千余種藥用植物的名稱、歸類、分布和屬性等信息;藥用植物數(shù)據(jù)庫(kù)(db.cngb.org/mpdb/)組織多維度、多層次的藥用植物研究數(shù)據(jù),建立了一個(gè)評(píng)估藥用植物種質(zhì)資源和培育新品種的數(shù)據(jù)庫(kù)。以上研究整合藥用植物相關(guān)信息,對(duì)本研究具有借鑒意義。
1.2" 基于知識(shí)圖譜的問答系統(tǒng)相關(guān)研究
基于知識(shí)圖譜的問答實(shí)現(xiàn)方法包括基于模板匹配的問答、基于統(tǒng)計(jì)的問答、基于深度學(xué)習(xí)的問答方法等[10-12]。早期的問答系統(tǒng)主要利用人工編寫的語法和語義規(guī)則來解析問題和答案,如BASEBALL[13]和LUNAR[14]。這類系統(tǒng)雖然能夠處理一些特定領(lǐng)域的問題,但是缺乏通用性和可擴(kuò)展性,而且需要大量的人工干預(yù),對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的回答效果并不理想。
隨著互聯(lián)網(wǎng)的迅速發(fā)展和信息體量的激增,基于規(guī)則的問答系統(tǒng)逐漸被基于統(tǒng)計(jì)的問答系統(tǒng)所取代?;诮y(tǒng)計(jì)的問答系統(tǒng)利用機(jī)器學(xué)習(xí)和自然語言處理的技術(shù),從大規(guī)模的文本語料中自動(dòng)學(xué)習(xí)問題和答案之間的映射關(guān)系(如IBMWatson[15])。這種系統(tǒng)具有更好的魯棒性和泛化能力,但是也面臨著數(shù)據(jù)稀疏、噪聲干擾、語義理解等挑戰(zhàn)。
近年來,深度學(xué)習(xí)方法被廣泛應(yīng)用于問答系統(tǒng)的相關(guān)任務(wù)中[16]。吳浩鋒構(gòu)建基于知識(shí)圖譜的食療健康問答機(jī)器人,采用樸素貝葉斯預(yù)排序以及CNN排序?qū)W習(xí)的方式提高返回答案的準(zhǔn)確度[17];劉璐構(gòu)建基于知識(shí)圖譜的政府采購(gòu)智能問答系統(tǒng),提出一種基于TextCNN-Attention的問句分類模型,用于判斷用戶的提問意圖[18];李彥昉構(gòu)建基于知識(shí)圖譜的糖尿病問答系統(tǒng),采用基于BERT-BiLSTM-CRF模型的命名實(shí)體識(shí)別算法,提取其中的關(guān)鍵詞對(duì)用戶問句進(jìn)行識(shí)別[19];張淼在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制以解決深層次語義特征提取不足的問題,這使得卷積神經(jīng)網(wǎng)絡(luò)能夠獲取更多提問語句和屬性文本之間的語義聯(lián)系[20];C. Raffel等提出了T5模型,它是一種基于Transformer的通用文本到文本轉(zhuǎn)換模型,可以用于問答任務(wù),并在各種自然語言處理任務(wù)中獲得最先進(jìn)的結(jié)果[21];J. Mandar等改進(jìn)了BERT模型,提出SpanBERT模型,通過對(duì)跨度(Span)進(jìn)行建模,進(jìn)一步提高問答任務(wù)的性能[22]。
1.3" 研究現(xiàn)狀述評(píng)
綜上所述,學(xué)術(shù)界和工業(yè)界在藥用植物相關(guān)的知識(shí)圖譜和問答系統(tǒng)領(lǐng)域取得了豐碩的研究成果。同時(shí),已有研究仍存在進(jìn)一步拓展的空間:①藥用植物的圖像信息有助于研究人員更直觀和系統(tǒng)地認(rèn)識(shí)植物特征,現(xiàn)有的藥用植物知識(shí)圖譜研究主要是對(duì)藥用植物相關(guān)文本信息的整合,這類知識(shí)圖譜未考慮到藥用植物的多模態(tài)特征,難以滿足多模態(tài)數(shù)據(jù)涌現(xiàn)下產(chǎn)生的跨模態(tài)檢索需求;②在問答系統(tǒng)領(lǐng)域,探索藥用植物領(lǐng)域智能問答系統(tǒng)設(shè)計(jì)的研究少見報(bào)道,這極大地限制了相關(guān)信息(如藥材、藥方等)的便利獲??;③尚未實(shí)現(xiàn)藥用植物文本、圖像一站式問答,未能提供藥用植物多模態(tài)問答服務(wù)。
針對(duì)以上不足,本研究主要包括如下內(nèi)容:①?gòu)乃幱弥参锒嗄B(tài)數(shù)據(jù)出發(fā),根據(jù)領(lǐng)域資源特征和用戶需求,構(gòu)建高質(zhì)量藥用植物知識(shí)圖譜;②基于領(lǐng)域知識(shí)圖譜,開發(fā)藥用植物智能問答系統(tǒng);③探索現(xiàn)有圖像識(shí)別模型應(yīng)用于藥用植物圖像問答的可行性,并驗(yàn)證多模態(tài)問答系統(tǒng)的適用性。
2" 藥用植物智能問答系統(tǒng)設(shè)計(jì)/Design of intelligent Qamp;A system for medicinal plants
本文以實(shí)現(xiàn)藥用植物多模態(tài)問答服務(wù)為目標(biāo),對(duì)領(lǐng)域數(shù)據(jù)特征及系統(tǒng)的具體功能進(jìn)行分析,由此構(gòu)建藥用植物智能問答系統(tǒng)。系統(tǒng)需要實(shí)現(xiàn)以下目標(biāo):①多源異構(gòu)的藥用植物數(shù)據(jù)整合。對(duì)不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行整理,建立數(shù)據(jù)間的語義關(guān)聯(lián),以便將不同結(jié)構(gòu)的數(shù)據(jù)以統(tǒng)一的形式作為回答返回給用戶。②文本問答。用戶使用自然語言進(jìn)行提問,系統(tǒng)對(duì)問句進(jìn)行語義分析并返回對(duì)應(yīng)答案。③圖片問答。系統(tǒng)識(shí)別用戶上傳的圖片,根據(jù)識(shí)別結(jié)果查詢數(shù)據(jù)庫(kù)并返回藥用植物相關(guān)信息。
根據(jù)系統(tǒng)需求分析,藥用植物智能問答系統(tǒng)架構(gòu)設(shè)計(jì)見圖1。該系統(tǒng)主要包括3個(gè)部分,即藥用植物多模態(tài)知識(shí)圖譜構(gòu)建、智能問答功能實(shí)現(xiàn)、系統(tǒng)交互界面。
2.1" 藥用植物知識(shí)圖譜構(gòu)建
首先,需要確定藥用植物知識(shí)圖譜數(shù)據(jù)項(xiàng)及數(shù)據(jù)來源。通過借鑒現(xiàn)有中醫(yī)藥相關(guān)知識(shí)圖譜本體設(shè)計(jì),確定本文藥用植物知識(shí)圖譜模式層。在此基礎(chǔ)上,從多個(gè)權(quán)威的醫(yī)藥數(shù)據(jù)庫(kù)中采集植物相關(guān)的文本、圖像數(shù)據(jù),包括植物的學(xué)名、相關(guān)藥材藥方信息等。然后利用數(shù)據(jù)處理工具對(duì)收集的結(jié)構(gòu)化、半結(jié)構(gòu)化文本信息進(jìn)行清洗與組織,以藥用植物唯一的拉丁學(xué)名作為依據(jù),對(duì)不同來源數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)齊。最后,將整理好的數(shù)據(jù)利用Neo4j的import工具導(dǎo)入至Neo4j圖數(shù)據(jù)庫(kù)中,完成多模態(tài)藥用植物知識(shí)圖譜的構(gòu)建。
2.2" 智能問答系統(tǒng)功能實(shí)現(xiàn)
智能問答是系統(tǒng)的核心模塊,該模塊根據(jù)用戶輸入的問題,對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行查詢,并將文字或圖像結(jié)果返回給用戶。具體而言,在用戶輸入文本信息時(shí),系統(tǒng)會(huì)根據(jù)用戶輸入,利用AC自動(dòng)機(jī)識(shí)別用戶輸入語句中包含的藥用植物或者藥方實(shí)體,利用Text-CNN模型進(jìn)行推理并識(shí)別用戶意圖,基于Cypher語句進(jìn)行查詢;在用戶輸入圖像(如某一植物的圖片)信息時(shí),系統(tǒng)則會(huì)調(diào)用圖像識(shí)別模型,對(duì)上傳的植物圖像進(jìn)行特征提取和匹配,并調(diào)用Cypher語句查詢相關(guān)植物信息。最后,將查詢結(jié)果利用模板包裝后,通過系統(tǒng)交互界面返回給用戶。
3" 多模態(tài)藥用植物知識(shí)圖譜構(gòu)建/Construction of multimodal knowledge graph of medicinal plants
筆者選擇自上而下的方式構(gòu)建多模態(tài)知識(shí)圖譜,采用七步法構(gòu)建藥用植物知識(shí)圖譜的模式層[23]:①定義領(lǐng)域和范疇;②考察復(fù)用現(xiàn)有知識(shí)本體的可能性;③列出知識(shí)本體中的重要術(shù)語;④定義類和類的等級(jí)體系;⑤定義類的屬性;⑥定義屬性的分面;⑦創(chuàng)建實(shí)例。通過Python獲取實(shí)例層數(shù)據(jù),經(jīng)過處理解析將數(shù)據(jù)存儲(chǔ)在Neo4j圖數(shù)據(jù)庫(kù)中。
3.1" 藥用植物知識(shí)圖譜模式層設(shè)計(jì)
藥用植物知識(shí)圖譜模式層旨在將藥用植物與其藥用概念系統(tǒng)地組織起來,從而描述并揭示藥用植物與相關(guān)醫(yī)學(xué)概念及概念關(guān)系。中醫(yī)藥學(xué)語言系統(tǒng)(TCM Language System, TCMLS)是面向中醫(yī)藥領(lǐng)域較為成熟的規(guī)范化頂層本體,建立了規(guī)范化的中醫(yī)藥術(shù)語體系,提供所有中醫(yī)藥學(xué)概念的一致性框架[24]。遵循盡量復(fù)用現(xiàn)有本體模型的原則,筆者借鑒部分TCMLS本體中的已有概念和語義關(guān)系,結(jié)合已有藥用植物數(shù)據(jù)庫(kù)[8]信息內(nèi)容,確定5類核心概念,即“藥用植物”“藥材”“藥方”“化合物”“植物圖像”。
在此基礎(chǔ)上,進(jìn)一步確定類的屬性。通過具體分析核心概念確定其自身屬性,并定義相關(guān)類的關(guān)系屬性[25]。①藥用植物:原料藥材,可以通過提取或利用其部分或全部植物組織制備藥材;②藥方:包括名稱、劑量、用法、用量等詳細(xì)內(nèi)容,藥方通常由藥材配制;③藥材:用于中藥治療的原材料,可來源于藥用植物,且經(jīng)過配制后形成具體藥方;④化合物:藥用植物中所含有的具有藥理活性的化合物,每個(gè)化合物在Mesh中都有唯一編碼;⑤植物圖像:展示藥用植物外貌、特征。根據(jù)對(duì)核心概念內(nèi)涵分析,基本確立“藥用植物”“藥方”“藥材”“植物圖像”自身屬性,得到6類概念與概念之間的相互關(guān)系:藥用植物→可制成→藥材、藥用植物→含有→化合物、藥用植物→展示→植物圖像、藥材→所屬藥方→藥方、藥材→原材料→藥用植物、藥方→成分→藥材等。根據(jù)以上工作構(gòu)建模式層,如圖2所示。
3.2" 藥用植物知識(shí)圖譜數(shù)據(jù)層設(shè)計(jì)
3.2.1" 多模態(tài)數(shù)據(jù)采集與預(yù)處理
筆者選取2015年版《中華人民共和國(guó)藥典》一部、中醫(yī)藥綜合數(shù)據(jù)庫(kù)(Traditional Chinese Medicines Integrated Database,TCMID)、天然產(chǎn)物活性和物種來源數(shù)據(jù)庫(kù)(Natural Product Activity and Species Source Database,NPASS)、比較毒物基因組學(xué)數(shù)據(jù)庫(kù)(Comparative Toxicogenomics Database,CTD)[26-29]以及中國(guó)植物圖像庫(kù)(Plant Photo Bank of China, PPBC)作為數(shù)據(jù)源(見表1)。以植物的拉丁學(xué)名作為唯一依據(jù),比對(duì)所有數(shù)據(jù)源中數(shù)據(jù)類目齊全的藥用植物品種,共篩選得到265種藥用植物。
根據(jù)植物的拉丁學(xué)名,利用Python從《中國(guó)藥典》一部電子版、TCMID、NPASS、CTD、PPBC中獲取藥用植物結(jié)構(gòu)化、半結(jié)構(gòu)化以及圖像數(shù)據(jù),經(jīng)解析和去重后得到5類實(shí)體及其屬性信息,如表2所示。
3.2.2" 藥用植物知識(shí)融合
以上述方法獲得的多源異構(gòu)藥用植物數(shù)據(jù)需要進(jìn)行知識(shí)融合。筆者以藥用植物拉丁學(xué)名進(jìn)行實(shí)體鏈接,關(guān)聯(lián)不同來源的同一實(shí)體。根據(jù)不同概念之間的關(guān)聯(lián)信息,定義6類關(guān)系,如表3所示。
3.2.3" 藥用植物知識(shí)存儲(chǔ)
筆者利用Neo4j存儲(chǔ)藥用植物知識(shí)。Neo4j是一個(gè)非結(jié)構(gòu)化的高性能圖數(shù)據(jù)庫(kù),通過Cypher語言可以直觀呈現(xiàn)實(shí)體間的關(guān)聯(lián)關(guān)系,為用戶呈現(xiàn)更易于理解和交互的知識(shí)[30]。具體使用Neo4j的import工具將存儲(chǔ)在csv文件中的實(shí)體、關(guān)系數(shù)據(jù)批量存入到圖數(shù)據(jù)庫(kù)中,共存儲(chǔ)實(shí)體340 772個(gè),關(guān)系2 530 067條。
4" 藥用植物問答功能實(shí)現(xiàn)/Realization of Qamp;A function of medicinal plants
4.1" 文本問答功能
4.1.1" 問句實(shí)體識(shí)別
命名實(shí)體識(shí)別旨在語句中快速、準(zhǔn)確地提取出有意義的實(shí)體[31]。目前,在中醫(yī)藥研究領(lǐng)域主要采用基于字典與規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法實(shí)現(xiàn)實(shí)體識(shí)別[32-34]。本研究的藥用植物智能問答功能實(shí)現(xiàn)主要針對(duì)包含單個(gè)實(shí)體的提問語句做出回答,實(shí)體識(shí)別功能只需識(shí)別出提問語句中包含的、指定范圍內(nèi)的藥用植物、藥材、藥方等實(shí)體,因此可以通過基于字典與規(guī)則的命名實(shí)體識(shí)別方法實(shí)現(xiàn)問句實(shí)體識(shí)別。筆者選用AC自動(dòng)機(jī)識(shí)別用戶提問語句中是否存在藥用植物實(shí)體[35],將上文中處理后獲得的藥用植物、藥方、藥材的名稱作為關(guān)鍵詞構(gòu)建Trie樹。
4.1.2" 問句意圖識(shí)別
意圖識(shí)別是實(shí)現(xiàn)文本問答功能的關(guān)鍵步驟,其目的在于判斷用戶提問屬于哪一類預(yù)設(shè)的問句分類,每一類問句分類對(duì)應(yīng)著Cypher查詢語句模板。通過對(duì)用戶提問意圖的判斷,選擇相應(yīng)的Cypher查詢語句。為了提高意圖識(shí)別的準(zhǔn)確率和靈活性,筆者選擇基于深度學(xué)習(xí)的TextCNN模型[36],按照上文構(gòu)建的概念間關(guān)系設(shè)置問句分類。由于缺乏藥用植物意圖識(shí)別數(shù)據(jù)集,筆者采用自建數(shù)據(jù)集的方式對(duì)模型進(jìn)行訓(xùn)練與評(píng)估。
(1)問句意圖識(shí)別語料生成。根據(jù)多模態(tài)藥用植物知識(shí)圖譜中的關(guān)系設(shè)置6類問句,自建數(shù)據(jù)集中包含提問語料共638 446條,按照8:1:1的比例切分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集。問句數(shù)據(jù)集信息如表4所示:
(2)問句意圖識(shí)別實(shí)驗(yàn)。
·實(shí)驗(yàn)環(huán)境。TextCNN模型每批次數(shù)據(jù)量(batch_size)設(shè)置為128,學(xué)習(xí)率為1e-3,卷積核大?。╧nerl_size)設(shè)置為2、3、4,卷積核數(shù)(filter_num)設(shè)置為256,迭代次數(shù)(epoch_num)設(shè)置為10,字向量維度數(shù)(embedding_size)設(shè)置為100,采取隨機(jī)失活,驗(yàn)證集loss超過1000batch沒有下降則提前結(jié)束訓(xùn)練。
·問句意圖識(shí)別實(shí)驗(yàn)結(jié)果與分析。在訓(xùn)練第一個(gè)epoch時(shí),由于檢驗(yàn)到超過1000batch訓(xùn)練效果未提升,程序自動(dòng)停止運(yùn)行并保存當(dāng)前模型參數(shù)。這說明使用TextCNN模型不到一個(gè)epoch便達(dá)到了理想的意圖識(shí)別能力。經(jīng)測(cè)試數(shù)據(jù)集檢驗(yàn),此時(shí)模型的精確率(P)、召回率(R)、F1值分別為99.70%、99.95%、99.96%,各問題類別的精確率、召回率、F1值如表5所示。
通過實(shí)驗(yàn)發(fā)現(xiàn),在用戶提問語句中出現(xiàn)錯(cuò)別字、提問語句較為簡(jiǎn)短的情況下,TextCNN模型依然能較為準(zhǔn)確地返回預(yù)測(cè)的意圖類別。
4.1.3" 文本提問答案生成
從用戶的提問語句中識(shí)別出關(guān)鍵實(shí)體和用戶的提問意圖之后,需要對(duì)問句類型構(gòu)造Cypher查詢語句以支持圖數(shù)據(jù)庫(kù)查詢。各問句類別對(duì)應(yīng)的Cypher語句查詢模板見表6,’##’為替換實(shí)體名稱。
4.2" 圖像問答功能
在知識(shí)圖譜構(gòu)建階段,筆者共采集103 265張藥用植物圖片。將該數(shù)據(jù)集按照8:1:1的比例隨機(jī)切分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,用作后續(xù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與評(píng)估。在此基礎(chǔ)上開展2組對(duì)比試驗(yàn)以優(yōu)選人工智能圖像識(shí)別模型。對(duì)比實(shí)驗(yàn)均使用Python語言,Pytorch版本為1.13.0,CUDA版本為12.0,訓(xùn)練顯卡為NVIDIA GeForce RTX 3090。
4.2.1" 圖像識(shí)別模型對(duì)比實(shí)驗(yàn)
隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,各類型的卷積神經(jīng)網(wǎng)絡(luò)開始被廣泛運(yùn)用于植物、中藥材的圖像識(shí)別中,其中效果較好且較為常見的有VGG、ResNet、DenseNet、MobileNet、EfficientNet等[37-41]。由于遷移學(xué)習(xí)能夠?yàn)橛?xùn)練過的網(wǎng)絡(luò)各層權(quán)重賦予新的網(wǎng)絡(luò)[42],因此,筆者使用遷移學(xué)習(xí)結(jié)合以上6種模型以期得到更理想的效果。
以圖像識(shí)別常用模型ResNet50為例,首先對(duì)預(yù)訓(xùn)練的ResNet50模型與基準(zhǔn)ResNet50模型進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證遷移學(xué)習(xí)在藥用植物圖像識(shí)別任務(wù)上的有效性;然后開展VGG16、ResNet34、ResNet50、DenseNet121、MobileNetV2、EfficientNet-B0模型對(duì)比實(shí)驗(yàn),以優(yōu)選圖像識(shí)別模型用于后續(xù)的藥用植物智能問答系統(tǒng)構(gòu)建。
(1)預(yù)訓(xùn)練ResNet50模型與基準(zhǔn)ResNet50模型對(duì)比實(shí)驗(yàn)。預(yù)訓(xùn)練ResNet50模型與基準(zhǔn)ResNet50模型訓(xùn)練軟硬件參數(shù)相同,激活函數(shù)為Relu,優(yōu)化器為Adam,學(xué)習(xí)率設(shè)置為0.001,批處理量batch_size設(shè)置為64,迭代次數(shù)epoch設(shè)置為100,驗(yàn)證集loss超過20個(gè)epoch未改善則提前終止訓(xùn)練。訓(xùn)練準(zhǔn)確率(Accuracy)與訓(xùn)練步數(shù)(Step)關(guān)系曲線見圖3,驗(yàn)證準(zhǔn)確率與訓(xùn)練步數(shù)關(guān)系曲線見圖4。實(shí)驗(yàn)結(jié)果顯示,經(jīng)過預(yù)訓(xùn)練(Pretrained)的模型相較于基準(zhǔn)(Baseline)模型的圖像識(shí)別準(zhǔn)確率有較大提升,因此圖像識(shí)別后續(xù)實(shí)驗(yàn)均基于預(yù)訓(xùn)練模型。
(2)6種圖像識(shí)別模型對(duì)比實(shí)驗(yàn)。為了減少網(wǎng)絡(luò)規(guī)模對(duì)6種圖像識(shí)別模型對(duì)比實(shí)驗(yàn)的影響,選取各模型大小較為相近的版本,分別為:VGG16、ResNet34、ResNet50、DenseNet121、MobileNetV2、EfficientNet-B0?;谧越▓D像數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,驗(yàn)證集loss超過20個(gè)epoch未改善則提前終止訓(xùn)練。
訓(xùn)練準(zhǔn)確率(Accuracy)與訓(xùn)練步數(shù)(Step)關(guān)系曲線見圖5,驗(yàn)證準(zhǔn)確率與訓(xùn)練步數(shù)關(guān)系曲線見圖6。實(shí)驗(yàn)結(jié)果顯示,除去MobileNetV2,其他網(wǎng)絡(luò)均有良好的訓(xùn)練準(zhǔn)確率。而從驗(yàn)證準(zhǔn)確率可以看出,在藥用植物圖像識(shí)別任務(wù)中網(wǎng)絡(luò)深度不斷增加,其驗(yàn)證準(zhǔn)確率也隨之提升,驗(yàn)證準(zhǔn)確率最高的模型為EfficientNet-B0。不僅如此,EfficientNet-B0模型理論參數(shù)量與訓(xùn)練時(shí)間遠(yuǎn)少于準(zhǔn)確率與其接近的ResNet50和DenseNet121。各模型訓(xùn)練準(zhǔn)確率與驗(yàn)證準(zhǔn)確率見表8。
基于對(duì)比實(shí)驗(yàn)得出的結(jié)果,筆者選用EfficientNet作為基本模型,在此基礎(chǔ)上進(jìn)行優(yōu)化,提高模型對(duì)藥用植物圖像的識(shí)別能力。
4.2.2" 圖像識(shí)別效果改進(jìn)
為了提高對(duì)用戶上傳藥用植物圖像的識(shí)別準(zhǔn)確率,為領(lǐng)域鑒別藥用植物的工作提供更好的輔助作用,筆者從數(shù)據(jù)增強(qiáng)、優(yōu)選EfficientNet版本、引入標(biāo)簽平滑3個(gè)方面進(jìn)一步提升圖像識(shí)別的準(zhǔn)確率。
(1)數(shù)據(jù)增強(qiáng)。通過數(shù)據(jù)增強(qiáng)(data augmentation)的方式能夠擴(kuò)充數(shù)據(jù)集的豐富度與數(shù)據(jù)量,優(yōu)化模型性能[43]。筆者根據(jù)藥用植物數(shù)據(jù)集的特點(diǎn),采用隨機(jī)剪切再調(diào)整、隨機(jī)旋轉(zhuǎn)、隨機(jī)水平翻折3種方式擴(kuò)充圖像數(shù)據(jù)集。將EfficientNet-B0基于原數(shù)據(jù)集與增強(qiáng)數(shù)據(jù)集分別進(jìn)行訓(xùn)練,其驗(yàn)證準(zhǔn)確率由69.72%提高至80.92%。驗(yàn)證準(zhǔn)確率與訓(xùn)練步數(shù)關(guān)系曲線見圖7。結(jié)果表明,經(jīng)過數(shù)據(jù)增強(qiáng)得到的藥用植物數(shù)據(jù)集能夠更準(zhǔn)確地反映不同種類的藥用植物特征,從而提高訓(xùn)練網(wǎng)絡(luò)的識(shí)別性能。
(2)優(yōu)選EfficientNet版本。雖然EfficientNet-B0到B7在ImageNet上的識(shí)別效果越來越好,但其對(duì)硬件要求更高,且訓(xùn)練時(shí)的計(jì)算量也大幅增加。因此,筆者選擇圖像識(shí)別準(zhǔn)確率較高、計(jì)算參數(shù)量盡可能小的版本做進(jìn)一步改進(jìn)。出于識(shí)別速度與硬件要求的考量,本文暫不考慮EfficientNet-B5、EfficientNet-B6與EfficientNet-B7模型。基于數(shù)據(jù)增強(qiáng)的藥用植物圖像數(shù)據(jù)集對(duì)EfficientNet-B0到B4進(jìn)行測(cè)試,訓(xùn)練準(zhǔn)確率與訓(xùn)練步數(shù)關(guān)系曲線見圖8,驗(yàn)證準(zhǔn)確率與訓(xùn)練步數(shù)關(guān)系曲線見圖9。
由實(shí)驗(yàn)結(jié)果可知,EfficientNet-B3相對(duì)于EfficientNet-B0到EfficientNet-B2在訓(xùn)練準(zhǔn)確率與驗(yàn)證準(zhǔn)確率上均有一定提升,而EfficientNet-B4反而出現(xiàn)了準(zhǔn)確率下降的情況。因此,最終選取EfficientNet-B3用于圖像識(shí)別任務(wù)。EfficientNet-B0到B4訓(xùn)練準(zhǔn)確率與驗(yàn)證準(zhǔn)確率如表9所示:
(3)標(biāo)簽平滑。標(biāo)簽平滑(label smoothing)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種正則化方法,主要用于分類問題[44]。藥用植物圖像數(shù)據(jù)集中存在無效照片(如藥用植物指示牌等),且圖像數(shù)據(jù)集體量巨大,難以通過人工或者基于規(guī)則的方法將無效照片完全剔除。標(biāo)簽平滑能夠防止在訓(xùn)練過程中模型過擬合問題,增強(qiáng)模型的抗噪能力。筆者將標(biāo)簽平滑引入EfficientNet-B3中,并基于增強(qiáng)數(shù)據(jù)集測(cè)試不同平滑因子下EfficientNet-B3的識(shí)別能力有何變化,依據(jù)測(cè)試結(jié)果選擇對(duì)模型提升效果最好的平滑因子值。EfficientNet-B3網(wǎng)絡(luò)在不同平滑因子下的訓(xùn)練準(zhǔn)確率與驗(yàn)證準(zhǔn)確率見表10,實(shí)驗(yàn)結(jié)果表明,平滑因子設(shè)置為0.2時(shí)效果最好,驗(yàn)證準(zhǔn)確率由83.41%提升至84.25%。因此筆者將平滑因子設(shè)置為0.2,將標(biāo)簽平滑引入EfficientNet-B3進(jìn)行測(cè)試,最終將藥用植物圖像識(shí)別的準(zhǔn)確率提高至83.53%。
5" 藥用植物智能問答系統(tǒng)/Intelligent Qamp;A system for medicinal plants
筆者使用Neo4j構(gòu)建藥用植物多模態(tài)知識(shí)圖譜,使用Python的PyQt庫(kù)實(shí)現(xiàn)智能問答流程,利用Pycharm實(shí)現(xiàn)智能問答系統(tǒng)開發(fā)。系統(tǒng)基于Windows10x64,處理器為Intel(R)Core(TM)i5-12490F。
5.1" 實(shí)例分析
用戶打開系統(tǒng)后顯示的默認(rèn)頁(yè)面為系統(tǒng)首頁(yè),見圖10(a)。在頁(yè)面下方以文本的方式對(duì)本系統(tǒng)進(jìn)行簡(jiǎn)要介紹,并設(shè)置系統(tǒng)使用FAQ內(nèi)容,加快用戶對(duì)系統(tǒng)的熟悉進(jìn)程。系統(tǒng)圖片提問界面、文本提問界面分別如圖10(b)、圖10(c)所示。
5.1.1" 文本提問實(shí)例分析
用戶可以在首頁(yè)或“文本提問”界面直接提出問題,系統(tǒng)將通過AC自動(dòng)機(jī)識(shí)別問句中的領(lǐng)域?qū)嶓w,利用Text-CNN模型識(shí)別用戶意圖,轉(zhuǎn)換為Cypher語句查詢藥用植物知識(shí)圖譜,并將結(jié)果用模板包裝后返回給用戶,文本查詢功能主要實(shí)現(xiàn)以下5種詢問方式:①藥材信息查詢。用戶可以查詢藥用植物可被制成哪些藥材,系統(tǒng)將提供相關(guān)的信息,如圖11(a)查詢植物“牛膝”可被制成哪些藥材。②圖像信息查詢。用戶可以通過文本輸入獲取有關(guān)藥用植物的圖片,以便更直觀地了解植物的外形特征,見圖11(b)。③藥方成分信息查詢。用戶可以查詢特定藥方中所涵蓋的藥材,系統(tǒng)將返回藥方成分的詳細(xì)信息,包括每種成分的作用和用量,如圖11(c)查詢藥方“升麻散”含有的藥材。④藥方信息查詢。用戶可以查詢藥用植物相關(guān)的可制藥方,系統(tǒng)將提供相關(guān)的信息和建議,如圖11(d)查詢藥材“艾葉”可制成的藥方有哪些。⑤化合物信息查詢。用戶可以查詢特定植物中所包含的化合物信息,如圖11(e)查詢植物“牛膝”包含哪些有效化合物成分。
5.1.2" "藥用植物圖像查詢實(shí)例分析
圖像查詢模塊負(fù)責(zé)處理用戶上傳的圖片,通過EfficientNet-B3模型識(shí)別植物特征,并提取知識(shí)圖譜中植物的相關(guān)信息返回給用戶。如圖12導(dǎo)入植物“益智”的圖片,系統(tǒng)返回“益智”的學(xué)名信息以及可制成的相關(guān)藥材信息。
5.2" 系統(tǒng)評(píng)價(jià)
為了對(duì)藥用植物智能問答系統(tǒng)返回答案的準(zhǔn)確率進(jìn)行測(cè)評(píng),筆者收集10組測(cè)評(píng)樣本數(shù)據(jù),分別來自10位被試。其中,4人為信息管理專業(yè)師生,4人為中國(guó)醫(yī)學(xué)科學(xué)院中醫(yī)藥領(lǐng)域研究人員,2人為醫(yī)藥行業(yè)從業(yè)人員。具體操作如下:為被試每人提供10張藥用植物圖片、10個(gè)藥用植物相關(guān)問題,利用本系統(tǒng)依次輸入文本問題與圖片進(jìn)行智能問答,要求被試記錄系統(tǒng)生成正確答案的數(shù)量,對(duì)本系統(tǒng)進(jìn)行測(cè)評(píng)。
以被試LJL為例,被試提供的領(lǐng)域問題與藥用植物圖片分別見表11、圖13。
在測(cè)試的共100張圖片和100個(gè)領(lǐng)域問題數(shù)據(jù)集中,經(jīng)過用戶對(duì)系統(tǒng)返回答案進(jìn)行評(píng)價(jià),有72張圖片的返回答案與75個(gè)領(lǐng)域問題的返回答案被評(píng)價(jià)為準(zhǔn)確。根據(jù)上述測(cè)試結(jié)果,得出此系統(tǒng)問答功能的平均回答準(zhǔn)確率為73.5%,其中文本回答準(zhǔn)確率為75%,圖片回答準(zhǔn)確率為72%。
通過上述分析,此系統(tǒng)智能問答系統(tǒng)仍存在提升空間,其中主要不足之處在于:①包含的藥用植物種類較少,已有藥用植物的文本數(shù)據(jù)以及種子、枝葉圖片等數(shù)據(jù)還不夠豐富;②預(yù)設(shè)問題種類不全。未來將在已有數(shù)據(jù)的基礎(chǔ)上,定期對(duì)領(lǐng)域研究成果進(jìn)行整理,用于擴(kuò)充藥用植物知識(shí)圖譜實(shí)體信息,并進(jìn)一步增加藥用植物藥理信息、基因組信息等類目,豐富多模態(tài)藥用植物知識(shí)圖譜;對(duì)于圖譜中存在的獨(dú)立節(jié)點(diǎn),將參考相關(guān)研究完善其關(guān)系信息,以確保所構(gòu)建的知識(shí)圖譜能夠及時(shí)反映最新的研究成果和數(shù)據(jù)信息,進(jìn)一步完善知識(shí)圖譜中所包含的植物相關(guān)信息,豐富植物圖片類型以提高模型識(shí)別效果,進(jìn)一步改進(jìn)問答功能的效果。
6" 總結(jié)與展望/Summary and prospects
藥用植物數(shù)據(jù)來源眾多、結(jié)構(gòu)不一,但鮮有研究專門針對(duì)藥用植物多模態(tài)數(shù)據(jù)進(jìn)行整合與組織,提供藥用植物一站式智能問答平臺(tái)。針對(duì)這一現(xiàn)狀,筆者首先根據(jù)領(lǐng)域本體七步法設(shè)計(jì)了多模態(tài)藥用植物知識(shí)模式層,然后通過網(wǎng)絡(luò)爬蟲從5類醫(yī)藥領(lǐng)域?qū)I(yè)數(shù)據(jù)庫(kù)中獲取了藥用植物的結(jié)構(gòu)化、半結(jié)構(gòu)化的文本以及圖像數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗、處理后構(gòu)建多模態(tài)知識(shí)圖譜,其中包含340 772個(gè)實(shí)體以及2 530 067條關(guān)系。在此基礎(chǔ)上,利用AC自動(dòng)機(jī)和TextCNN模型實(shí)現(xiàn)文本問答功能,利用EfficientNet-B3模型優(yōu)化后實(shí)現(xiàn)圖像問答功能。最后基于PyQt庫(kù)實(shí)現(xiàn)藥用植物智能問答系統(tǒng)客戶端,該系統(tǒng)能夠解析不同模態(tài)的用戶提問數(shù)據(jù),并返回用戶查詢結(jié)果,輔助用戶查詢藥用植物相關(guān)的藥材、藥方、化合物、圖像信息,可以輔助藥用植物鑒定及植物藥的開發(fā)與利用。
本文仍存在以下局限與不足:①知識(shí)圖譜模式層有待完善。本文主要整合藥用植物的配方材料、化學(xué)、圖像等信息類目,未來將進(jìn)一步增加藥用植物藥理信息、基因組信息等類目,豐富多模態(tài)藥用植物知識(shí)圖譜。②智能問答系統(tǒng)提供的問句類別有限。目前僅針對(duì)概念間的關(guān)系設(shè)計(jì)6類問句,還應(yīng)擴(kuò)充問答模板,開發(fā)連續(xù)提問連續(xù)作答功能,提升用戶體驗(yàn)。
參考文獻(xiàn)/References:
[1] 郝二偉, 謝安然, 韋棪婷, 等. 瀾湄五國(guó)傳統(tǒng)藥用植物防治蟲媒傳染病研究概況[J]. 中國(guó)中藥雜志, 2021, 46(24): 6303-6311. (HAO E W, XIE A R, WEI Y T, et al. Traditional medicinal plants for arthropod-borne diseases of five countries in Lancang-Mekong region: a review[J]. China journal of Chinese materia medica, 2021, 46(24): 6303-6311.)
[2] 徐增林, 盛泳潘, 賀麗榮, 等. 知識(shí)圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2016, 45(4): 589-606. (XU Z L, SHENG Y P, HE L R, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.)
[3] 翟東升, 婁瑩, 闞慧敏, 等. 基于多源異構(gòu)數(shù)據(jù)的中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(9): 146-158. (ZHAI D S, LOU Y, KAN H M, et al. Constructing TCM knowledge graph with multi-source heterogeneous data[J]. Data analysis and knowledge discovery, 2023, 7(9): 146-158.)
[4] 陳燁, 周剛, 盧記倉(cāng). 多模態(tài)知識(shí)圖譜構(gòu)建與應(yīng)用研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(12): 3535-3543. (CHEN Y, ZHOU G, LU J C. Survey on construction and application research for multi-modal knowledge graphs[J]. Application research of computers, 2021, 38(12): 3535-3543.)
[5] 王松, 李正鈞, 楊濤, 等.中醫(yī)藥知識(shí)圖譜研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 南京中醫(yī)藥大學(xué)學(xué)報(bào), 2022, 38(3): 272-278. (WANG S, LI Z J, YANG T, et al. Current status and development trend of knowledge graph research in traditional Chinese medicine[J]. Journal of Nanjing University of Traditional Chinese Medicine, 2022, 38(3): 272-278.)
[6] 王運(yùn)乾. 植物知識(shí)圖譜PlantKG的構(gòu)建研究及應(yīng)用[D]. 貴陽(yáng): 貴州大學(xué), 2021. (WANG Y Q. Construction research and application of plant knowledge graph PlantKG[D]. Guiyang: Guizhou University, 2021.)
[7] ZHU X, GU Y, XIAO Z. HerbKG: constructing a herbal-molecular medicine knowledge graph using a two-stage framework based on deep transfer learning[J]. Frontiers in genetics, 2022, 13:799349.
[8] WU Y, ZHANG F, YANG K, et al. SymMap: an integrative database of traditional Chinese medicine enhanced by symptom mapping[J]. Nucleic Acids Research, 2019, 47:1110-1117.
[9] MENG F, TANG Q, CHU T, et al. TCMPG: an integrative database for traditional Chinese medicine plant genomes[J]. Horticulture research, 2022, 9:uhac060.
[10] 李賀, 劉嘉宇, 李世鈺, 等.基于疾病知識(shí)圖譜的自動(dòng)問答系統(tǒng)優(yōu)化研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2021, 5(5): 115-126. (LI H, LIU J Y, LI S Y, et al. Optimizing automatic question answering system based on disease knowledge graph[J]. Data analysis and knowledge discovery, 2021, 5(5): 115-126.
[11] FADER A, ZETTLEMOYER L, ETZIONI O. Open question answering over curated and extracted knowledge bases[C]// Proceedings of the 20th ACM SIGKDD international conference on knowledge discovery and data mining. New York: Association for Computing Machinery, 2014:1156-1165.
[12] WU W Q, ZHU Z F, LU Q, et al. Introducing external knowledge to answer questions with implicit temporal constraints over knowledge base[J]. Future internet, 2020, 12(3): 45.
[13] GREEN B F, WOLF A K, CHOMSKY C L, et al. Baseball: an automatic question-answerer[C]//Proceedings of the IRE-AIEE-ACM ‘61 (Western). New York: Association for Computing Machinery, 1986:545-549.
[14] WOODS W A. Lunar rocks in natural English: explorations in natural language question answering[M]. Amsterdam: Linguistic Structures Processing, 1977.
[15] FERRUCCI D A, BROWN E W, CHU-CARROLL J, et al. Building watson: an overview of the DeepQA project [J]. Computer Science, 2010, 31(3): 59-79.
[16] 姚元杰, 龔毅光, 劉佳, 等.基于深度學(xué)習(xí)的智能問答系統(tǒng)綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2023, 32(4): 1-15. (YAO Y J, GONG Y G, LIU J, et al. Survey on intelligent question answering system based on deep learning[J]. Computer systems amp; applications, 2023, 32(4): 1-15.)
[17] 吳浩鋒. 基于知識(shí)圖譜的食療健康問答機(jī)器人的研究與實(shí)現(xiàn)[D]. 上海:華東師范大學(xué), 2021. (WU H F. Research and implementation of food therapy health Qamp;A robot base on knowledge graph[D]. Shanghai: East China Normal University, 2021.)
[18] 劉璐. 基于知識(shí)圖譜的政府采購(gòu)智能問答系統(tǒng)研究與實(shí)現(xiàn)[D]. 重慶: 重慶理工大學(xué), 2022. (LIU L. Research and implementation of government procurement question answering system based on knowledge graph[D]. Chongqing: Chongqing University of Technology, 2022.)
[19] 李彥昉. 基于知識(shí)圖譜的糖尿病問答系統(tǒng)的研究與應(yīng)用[D]. 太原:中北大學(xué), 2022. (LI Y F. Based on knowledge graph research and application of diabetes question-answering system[D]. Taiyuan: North University of China, 2022.)
[20] 張淼. 基于中文知識(shí)圖譜的智能問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 武漢:華中師范大學(xué), 2018. (ZHANG M. Design and implementation of intelligent Qamp;A system based on Chinese knowledge graph[D]. Wuhan: Central China Normal University, 2018.)
[21] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The journal of machine learning research, 2020, 21(1): 5485-5551.
[22] MANDAR J, DANQI C, YINHAN L, et al. SpanBERT: improving pre-training by representing and predicting spans[J]. Transactions of the association for computational linguistics, 2020, 8: 64-77.
[23] NOY N F, MCGUINESS D L. Ontology development 101: a guide to creating your first ontology[EB/OL]. [2024-03-12]. https://protege.stanford.edu/publications/ontology_development/ontology101.pdf.
[24] 于彤, 崔蒙, 李海燕, 等.中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架: 一個(gè)面向中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體[J]. 中國(guó)數(shù)字醫(yī)學(xué), 2014, 9(1): 44-47. (YU T, CUI M, LI H Y, et al. Semantic network framework of traditional Chinese medicine language system: an upper-level ontology for traditional Chinese medicine[J]. China digital medicine, 2014, 9(1): 44-47.)
[25] 劉麗紅, 賈李蓉, 朱彥, 等.中藥子領(lǐng)域核心概念本體模型構(gòu)建研究[J]. 中國(guó)中醫(yī)藥信息雜志, 2018, 25(11): 95-98. (LIU L H, JIA L R, ZHU Y, et al. Construction od ontological modeling for core concepts of TCM subdomain[J]. Chinese journal of information on traditional Chinese medicine, 2018, 25(11): 95-98.)
[26] 國(guó)家藥典委員會(huì).中華人民共和國(guó)藥典: 一部[M]. 北京: 中國(guó)醫(yī)藥科技出版社, 2015. (Chinese Pharmacopoeia Commission. Pharmacopoeia of the People’s Republic of China: 1[M]. Beijing: China Medical Science Press, 2015.)
[27] XUE R, FANG Z, ZHANG M, et al. TCMID: traditional Chinese medicine integrative database for herb molecular mechanism analysis[J]. Nucleic acids research, 2012, 41(D1): 1089-1095.
[28] ZENG X, ZHANG P, HE W, et al. NPASS: natural product activity and species source database for natural product research, discovery and tool development[J]. Nucleic acids research, 2018, 46(D1): 1217-1222.
[29] DAVIS A P, GRONDIN C J, JOHNSON R J, et al. Comparative toxicogenomics database (CTD): update 2021 [J]. Nucleic acids research, 2020, 49(D1): 1138-1143.
[30] 張維沖, 王芳, 黃毅. 基于圖數(shù)據(jù)庫(kù)的貴州省大數(shù)據(jù)政策知識(shí)建模研究[J]. 數(shù)字圖書館論壇, 2020(4): 30-38. (ZHANG W C, WANG F, HUANG Y. Knowledge modeling of big data policy in Guizhou province based on graph database[J]. Digital library forum, 2020(4): 30-38.)
[31] 王世奇, 劉智鋒, 王繼民. 學(xué)者畫像研究綜述[J]. 圖書情報(bào)工作, 2022, 66(20): 73-81. (WANG S Q, LIU Z F, WANG J M. A review of scholar profiling research[J]. Library and information service, 2022, 66(20): 73-81.)
[32] MIKHEEV A, GROVER C, MOENS M. Description of the LTG system used for MUC-7[C]//Proceedings of 7th message understanding conference. Fairfax: ALC, 1998.
[33] YU S, BAI S, WU P. Description of the Kent Ridge Digital Labs system used for MUC-7[C]//Proceedings of 7th message understanding conference, Fairfax: ALC, 1998.
[34] PENG N, DREDZE M. Improving named entity recognition for Chinese social media with word segmentation representation learning[C]//Proceedings of the 54th annual meeting of the association for computational linguistics. Berlin: Association for Computational Linguistics, 2016: 149-155.
[35] 王若佳, 趙常煜, 王繼民. 中文電子病歷的分詞及實(shí)體識(shí)別研究[J]. 圖書情報(bào)工作, 2019, 63(2): 34-42. (WANG R J, ZHAO C Y, WANG J M. Healthcare data mining: word segmentation and named entity recognition in Chinese electronic medical record[J]. Library and information service, 2019, 63(2): 34-42.)
[36]KIM Y. Convolutional neural networks for sentence classification[EB/OL]. Eprint Arxiv, 2014[2024-04-09]. https://doi.org/10.48550/arXiv.1408.5882.
[37] SIMONYAN K, ZISSERMAN A J C. Very deep convolutional networks for large-scale image recognition[EB/OL]. Eprint Arxiv, 2014[2024-04-09]. https://doi.org/10.48550/arXiv.1409.1556.
[38] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016.
[39] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on computer vision and pattern recognition. Piscataway: IEEE, 2017.
[40] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. Eprint Arxiv, 2017[2024-04-09]. https://doi.org/10.48550/arXiv.1704.04861.
[41] TAN M, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. Eprint Arxiv, 2019[2024-04-09]. https://doi.org/10.48550/arXiv.1905.11946.
[42] 黃兆培, 張峰源, 趙金明, 等.情感識(shí)別中的遷移學(xué)習(xí)問題綜述[J]. 信號(hào)處理, 2023, 39(4): 588-615. (HUANG Y P, ZHANG F Y, ZHAO J M, et al. A survey of transfer learning problems in emotion recognition[J]. Journal of signal processing, 2023, 39(4): 588-615.)
[43] EKIN D C, BARRET Z, DANDELION M, et al. AutoAugment: learning augmentation strategies from data[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Piscataway: IEEE, 2019:113-123.
[44] MULLER R, KORNBLITH S, HINTON G. When does label smoothing help? [C]//33rd Conference on neural information processing systems. Red Hook: Curran Associates Inc., 2019.
作者貢獻(xiàn)說明/Author contributions:
趙豆豆:數(shù)據(jù)收集與對(duì)齊,知識(shí)圖譜構(gòu)建,論文撰寫與修改;
王宇駿:?jiǎn)柎鹣到y(tǒng)構(gòu)建及實(shí)驗(yàn),論文撰寫;
劉" 蕤:研究設(shè)計(jì),研究?jī)?nèi)容與結(jié)構(gòu)修改;
劉" 昶:研究數(shù)據(jù)補(bǔ)正,提出研究思路與框架。
Construction of Intelligent Qamp;A System for Medicinal Plant Based on Multimodal Knowledge Graph
Zhao Doudou1,2" Wang Yujun1" Liu Rui1" Liu Chang3
1School of Information Management, Central China Normal University, Wuhan 430079
2Shaanxi Institute of Science and Technology Information, Xi’an 710054
3The Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences, Beijing 100193
Abstract: [Purpose/Significance] Medicinal plants are one of the core resources of Chinese medicine, and strengthening the organization and electronic utilization of medicinal plant information is of great significance to the inheritance and development of Chinese medicine. [Method/Process] In this paper, the pattern layer of the knowledge graph of medicinal plants were constructed, and then 265 medicinal plants were screened out by comparing multiple databases such as Chinese Pharmacopoeia, TCMID, PPBC and CTD, and multi-source heterogeneous data were integrated, and Neo4j was used to construct a multimodal knowledge graph of medicinal plants. On this basis, AC automaton was used to recognize the user’s question entity and TextCNN was used to complete the question intent recognition, so as to realize the text-based intelligent answer function. By comparing six image recognition models such as VGG, ResNet, DenseNet, MobileNet, and EfficientNet, the EfficientNet-B3 model is preferred to realize the image-based intelligent question and answer function, and introduced data enhancement and label smoothing methods to improve the image recognition efficiency, and finally used the Python language PyQt library to realize the medicinal plant question answering system. [Result/Conclusion] A multimodal knowledge graph including medicinal plants and various botanical formulas, medicinal materials, compounds and images is constructed, including 340 772 entities and 2 530 067 relationships. Based on this, an intelligent question-answering system for medicinal plants is constructed, which can feedback on the query results according to the user’s natural language questions and picture questions, and the experimental results show that the image recognition accuracy of the system reaches 83.53%.
Keywords: multimodality" " knowledge graph" " Intelligent Qamp;A" " medicinal plants
Author(s): Zhao Doudou, master candidate; Wang Yujun, master candidate; Liu Rui, PhD, graduate supervisor, corresponding author, E-mail: liuruiccnu@hotmail.com; Liu Chang, PhD, doctoral supervisor.
Received: 2024-01-09" " Published: 2024-10-29