摘要:[目的/意義]深入分析AI4Science中的實驗方案,通過分析科技文獻中的實驗方案,揭示AI技術(shù)在科研方法、工具和手段中的應(yīng)用,為科研工作者提供新的研究視角。[方法/過程]首先,利用本體建模技術(shù),實現(xiàn)不同學(xué)科領(lǐng)域?qū)嶒灧椒ㄅc實驗原理的統(tǒng)一知識建模,在本體建模的基礎(chǔ)上構(gòu)建有機太陽能電池領(lǐng)域知識圖譜。然后,在領(lǐng)域知識圖譜中挖掘?qū)嶓w之間關(guān)系,實現(xiàn)實驗方案智能化推薦。[結(jié)果/結(jié)論] 結(jié)合圖嵌入表征技術(shù)Graph2vec和大模型語義嵌入表征GPT embedding,提出一種全新的知識圖譜語義融合的實驗方案推薦算法—GraphGPT Net,在Recall@20推薦核心指標上表現(xiàn)最為出色,達到了0.0299,能夠證明知識圖譜在實驗方案推薦領(lǐng)域的有效性以及GraphGPT Net在推薦實驗方案方面的顯著能力。
關(guān)鍵詞:知識圖譜;有機太陽能電池;實驗方案;推薦系統(tǒng)
分類號:G202
引用格式:張凱, 石棲. 基于知識圖譜的實驗方案推薦研究——以有機太陽能電池為例[J/OL]. 知識管理論壇, 2024, 9(5): 448-459 [引用日期]. http://www.kmf.ac.cn/p/405/. (Citation: Zhang Kai, Shi Qi. Experimental Scheme Recommendation Based on Knowledge Graph: A Case Study of Organic Solar Cells[J/OL]. Knowledge Management Forum, 2024, 9(5): 448-459 [cite date]. http://www.kmf.ac.cn/p/405/.)
數(shù)百年以來,科學(xué)研究的發(fā)現(xiàn)都是基于科學(xué)假設(shè)生成與驗證的循環(huán)過程產(chǎn)生的,在科研全流程中,科學(xué)知識的獲取、科學(xué)假設(shè)的提出和實驗方案的推薦生成都可以由AI來完成[1]。因此在當(dāng)前AI4Sicence的大背景下,知識服務(wù)機構(gòu)如何利用人工智能的方法更好地加速科研流程、助力科學(xué)發(fā)現(xiàn)、推動科研進展,成為當(dāng)下知識服務(wù)機構(gòu)的研究熱點。
在目前的實驗科學(xué)研究范式中,科研人員一般采用“試錯法”逐條探索實驗的合成條件,科研效率低下??蒲腥藛T需要付出巨大的時間成本閱讀大量的論文以獲取其中的實驗方法,且對整個實驗的流程和細節(jié)掌握不充分,需要反復(fù)閱讀論文才能復(fù)現(xiàn)實驗結(jié)果。因此,實驗方法的推薦系統(tǒng)對科研人員而言具有很大的作用,能夠幫助他們快速獲取實驗方法的思路,組織實驗設(shè)計的流程,極大地縮短科研實驗設(shè)計階段的時間。
本文旨在以科技文獻為數(shù)據(jù)源,基于AI技術(shù)助力實驗學(xué)科高效篩選、推薦最具有可行性的實驗方案,力圖縮小科研人員的查找范圍,節(jié)省科研人員的實驗準備時間,進而提高科研效率。
1" 研究綜述/Literature review
知識圖譜(knowledge graph, KG)最早由谷歌在2012年提出,用于增強其搜索引擎的功能。知識圖譜G=(V, E)是一個有向圖,其節(jié)點是實體,邊是(headentity, relation, tailentity)的三元組。每一條邊表示為lt;eh, r, etgt;,揭示了從頭實體到尾實體的關(guān)系r[2]。例如,(YaoMing, live_in, Shanghai)表示了姚明居住在上海這一事實。知識圖譜的本質(zhì)是一種解釋實體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實世界的事物及其相互關(guān)系進行形式化的描述[3]。目前,知識圖譜已經(jīng)被廣泛應(yīng)用在搜索引擎、問答系統(tǒng)、推薦系統(tǒng)[4]等多個領(lǐng)域,用來降低信息的粒度,幫助人們更精準地獲取所需要的知識。
為了解決信息過載(information overload)的問題,人們提出了推薦系統(tǒng)(recommendation system),通過用戶的歷史行為或者用戶的興趣偏好來生成推薦算法,再運用推薦算法來產(chǎn)生用戶可能感興趣的項目列表。
推薦算法的任務(wù)是向給定的用戶推薦一個或一系列未觀察過的項目,其過程可以表述為如下步驟:首先,系統(tǒng)學(xué)習(xí)目標用戶ui和候選項vj的向量化表征ui和vj;然后,系統(tǒng)學(xué)習(xí)一個評分函數(shù),對ui對vj的偏好進行建模;最終,通過用戶對項目的偏好分數(shù)進行排序來生成推薦結(jié)果。推薦系統(tǒng)作為解決信息過載問題的有效手段,已經(jīng)被廣泛應(yīng)用在興趣點(point of interest, POIs)[5]、新聞[6]、交通[7]、教育[8]等多個領(lǐng)域。
傳統(tǒng)的協(xié)同過濾算法認為,為特定用戶找到其真正感興趣的內(nèi)容的方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的項目推薦給此用戶[9]。協(xié)同過濾一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標用戶的最近鄰用戶對商品評價的加權(quán)評價值來預(yù)測目標用戶對特定商品的喜好程度,從而根據(jù)這一喜好程度來對目標用戶進行推薦。一種常見的做法是將用戶與商品一起轉(zhuǎn)化為通用的向量,并將其輸入到有監(jiān)督學(xué)習(xí)(supervised learning, SL)模型中,具有代表性的模型有因子分解機(factorization machines,F(xiàn)M)[10]、中性因子分解機(neutral factorization machines,NFM)[11]等。
盡管這些方法提供了強大的性能,但其不足之處在于沒有考慮項目之間的關(guān)聯(lián)關(guān)系,從而無法準確表達用戶的偏好。為了解決協(xié)同過濾算法的局限性,將知識圖譜作為輔助信息引入到推薦算法逐漸成為眾多學(xué)者關(guān)注的研究熱點。知識圖譜中的節(jié)點表示實體,有向邊表示實體之間的關(guān)系,包含了用戶和項目的信息和關(guān)聯(lián)關(guān)系,可以更好地捕獲用戶偏好。此外,還可以將用戶和用戶側(cè)信息集成到圖譜中,構(gòu)建協(xié)同知識圖譜(collaborative knowledge graph, CKG),從而更精準地捕獲用戶與項目之間的關(guān)系以及用戶的偏好。
基于知識圖譜的推薦系統(tǒng)算法主要可以分為:基于嵌入的方法、基于路徑的方法和基于傳播的方法。①基于嵌入的方法使用知識圖譜中的信息來豐富用戶或項目的表示,如基于知識圖譜的協(xié)同過濾(collaborative filtering with knowledge-graph,CFKG)[12]、協(xié)同知識嵌入(collaborative knowledge base embedding,CKE)[13]等。這種方法通過知識圖譜嵌入將知識圖譜中的實體和關(guān)系表征為低維向量,保留了知識圖譜原有的結(jié)構(gòu)。知識圖譜嵌入的方法主要是基于平移距離模型,包括TransE[14]、TransH[15]、TransR[16]、TransD[17]和TranSparse[18],進行特征表示。②基于路徑的方法(如RKGE[19])通過構(gòu)建用戶項目圖并利用圖中實體的連接關(guān)系,學(xué)習(xí)用戶到項目的路徑之間的連接相似性進行推薦。這種方法主要的挑戰(zhàn)是如何設(shè)計合理的路徑和如何為實體間的連接關(guān)系建模。③基于傳播的方法整合實體和關(guān)系的語義表示以及連接信息,聚合知識圖譜中多跳鄰居節(jié)點的嵌入來深化實體表示,如Ripple Net[20]、KGAT(knowledge graph attention network)[21]等。然后,獲得用戶和項目的豐富表示,并預(yù)測用戶的偏好。
在先前研究的基礎(chǔ)上進行綜合評估,筆者提出了一種創(chuàng)新性算法——GraphGPT Net,旨在改進現(xiàn)有基于知識圖譜的推薦算法在深層語義表達上的不足。具體而言,該算法整合知識圖譜和大規(guī)模模型的語義嵌入技術(shù),通過結(jié)合圖嵌入方法Graph2vec與大規(guī)模模型的GPT embedding,有效實現(xiàn)實驗方案的向量化描述。進而,應(yīng)用余弦相似度計算為每位用戶推薦與其歷史瀏覽實驗方案高度相關(guān)的Top5實驗方案。本研究實現(xiàn)了基于圖語義融合的推薦機制,可以為識別相似實驗方案提供有效的方法。
2" 研究路線/Research route
本文的研究框架見圖1,主要分為以下兩個部分:
(1)實驗方案知識抽取與建模。在論文和專利數(shù)據(jù)的基礎(chǔ)上,首先進行有機太陽能電池領(lǐng)域Schema本體建模獲取相關(guān)本體Schema[22]。按照知識抽取、知識融合、知識校驗和知識存儲的構(gòu)建流程,利用實體抽取、實體消歧、關(guān)系抽取、知識鏈接、本體及實體對齊等技術(shù),將文獻數(shù)據(jù)中抽取出的實驗方法知識表示為三元組形式,并建立“概念—實體—屬性—關(guān)系”等數(shù)據(jù)模型,進而形成有機太陽能電池實驗方案知識圖譜。
(2)基于知識圖譜的實驗方案智能推薦研究。筆者聚焦于基于知識圖譜的有機太陽能電池實驗方案智能推薦機制的開發(fā),利用協(xié)同過濾[11]、基于路徑[19]、基于傳播[20]的推薦算法在知識圖譜中挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系;通過將實體之間的關(guān)聯(lián)關(guān)系與用戶數(shù)據(jù)進行融合,實現(xiàn)實驗方案智能化推薦。在現(xiàn)有算法框架的基礎(chǔ)上,進一步結(jié)合圖嵌入技術(shù)Graph2vec與大規(guī)模模型語義嵌入GPT embedding,提出了創(chuàng)新的實驗方案推薦算法——GraphGPT Net。該算法通過圖語義融合技術(shù),可以有效推進實驗方案推薦系統(tǒng)的發(fā)展。
3" 實驗方案知識抽取與建模/Experimental scheme knowledge extraction and modeling
筆者基于科技文獻構(gòu)建一個知識抽取—建模—服務(wù)的智能化系統(tǒng),利用AI驅(qū)動的知識自動抽取技術(shù)從科技文獻中解析出大量細粒度創(chuàng)新方法,利用知識圖譜技術(shù)對不同類型和來源的方法知識進行組織和建模以形成創(chuàng)新方法知識圖譜,作為推理發(fā)現(xiàn)的底層知識基礎(chǔ)設(shè)施。
3.1" 科學(xué)實驗本體建模
首先,將科學(xué)實驗定義為研究問題和實驗方案兩大部分,而核心的實驗方案下分實驗方法、實驗步驟、實驗元素、實驗結(jié)果共4個大類,同時將科學(xué)實驗核心的實驗?zāi)繕?、實驗原理和實驗來源等設(shè)置為實驗方案對應(yīng)的屬性,實驗元素下分實驗涉及的材料、試劑、儀器、條件和數(shù)據(jù),具體如圖2所示:
3.1.1" 實驗方法
有機太陽能電池(organic solar cell, OSC)的實驗方法分為五大類,其中器件的制備方法可進一步細分為活性層的制備方法、界面層的制備方法和電極的制備方法,每種方法的屬性都包括方法類型、方法描述,器件結(jié)構(gòu)經(jīng)過咨詢專家只設(shè)定類型,而無具體的方法描述,如圖3所示:
3.1.2" 實驗元素
實驗元素建模為材料、試劑、儀器和數(shù)據(jù),其中材料包括電極材料、活性層材料和界面層材料,而活性層材料又分為給體材料和受體材料,界面層材料包括空穴傳輸層材料和電子傳輸層材料,數(shù)據(jù)分為數(shù)據(jù)描述和光伏性能測試結(jié)果,該結(jié)果包括OSC性能測試最核心的4個指標[23],即能量轉(zhuǎn)換效率(power conversion efficiency, PCE)、開路電壓(open circuit voltage, Voc)、短路電流密度(Short-circuit current density, Jsc)和填充因子(Fill factor, FF),如圖4所示:
3.1.3" 實驗步驟
有機太陽能電池(OSC)的實驗步驟分為器件制備類和性能測試類兩種實驗步驟,其中器件制備類又分為正置器件制備和倒置器件制備,具體如圖5所示:
3.2" 科學(xué)實驗知識圖譜構(gòu)建
選取的OSC領(lǐng)域的數(shù)據(jù)包括期刊論文和專利。經(jīng)過專家咨詢,筆者將OSC分為五大類,分別是單質(zhì)結(jié)有機太陽能電池、異質(zhì)結(jié)有機太陽能電池和染料敏化太陽能電池,并在專家指導(dǎo)下分別構(gòu)建期刊論文檢索式(見表1),共計獲取期刊論文3 369篇,均來自材料領(lǐng)域的英文頂刊,將在Web of Science平臺上下載的PDF原文作為待標數(shù)據(jù)集;專利來自IncoPat專利數(shù)據(jù)庫,包括中國、德國、日本等14個國家和組織的421篇三方專利。經(jīng)過專家遴選,最終確定1 810篇論文和123篇專利共1 933篇文獻作為人工標注數(shù)據(jù)集。
經(jīng)過本體建模、實例構(gòu)建和知識圖譜創(chuàng)建,最終獲得34類節(jié)點和7類關(guān)系(見圖6和圖7),在Neo4j中導(dǎo)入數(shù)據(jù)后,共有24 348個節(jié)點和123 642個關(guān)系。
4" 基于知識圖譜的實驗方案智能推薦研究/Research on intelligent recommendation of experimental scheme based on knowledge graph
筆者在構(gòu)建出的有機太陽能電池實驗方案知識圖譜基礎(chǔ)上,基于AI技術(shù)助力實驗學(xué)科高效篩選、推薦最具有可行性的實驗方案,力圖縮小科研人員的查找范圍,節(jié)省科研人員的實驗準備時間,進而提高科研效率。
4.1" 實驗方案推薦數(shù)據(jù)集
本文所用的數(shù)據(jù)集如下:SolarCell_KG包含1 810個有機太陽能領(lǐng)域論文中的實驗方案項目和1 000個與這些實驗方案交互過的用戶信息。用戶與實驗方案的交互為隱性反饋,對于其中每個實驗方案,標簽為1表示用戶對該項目很感興趣,并對每個用戶的未交互集進行抽樣,選取等量實驗方案;標記為0表示該用戶對該項目不感興趣。
筆者構(gòu)建的有機太陽能電池知識圖譜融合用戶與實驗方案的交互數(shù)據(jù)后得到SolarCell_KG,其具體的數(shù)據(jù)量如表2所示:
4.2" 對比實驗
將用戶與項目的交互數(shù)據(jù)分為訓(xùn)練集和測試集。對于測試集中的每個用戶,將用戶未與之交互的所有項視為負項。然后,每個算法輸出用戶除了訓(xùn)練集中的正例外項目的偏好分數(shù)。為了評估Top-K推薦和偏好排序的有效性,筆者采用了兩種常用的評價指標[24]:前K項召回率(Recall@K)和前K項歸一化折損累計增益(NDCG@K)。默認情況下,設(shè)置K=20,計算得到測試集中所有用戶的平均指標得分,使用以下模型進行實驗對比:
(1)FM[10]:一個標準的因式分解模型,其中考慮了輸入之間的二階特征交互。將用戶的id、物品及其知識(即與之相關(guān)的實體)視為輸入特征。
(2)NFM[11]:一種最先進的因式分解模型,它將FM包含在神經(jīng)網(wǎng)絡(luò)中。特別地,該方法在輸入特征上使用了一個隱藏層。
(3)BPRMF[25](Bayesian personalized ranking matrix factorization):通過學(xué)習(xí)用戶和物品的潛在特征向量,來建模用戶對物品的偏好,進而進行個性化推薦。BPRMF 的獨特之處在于,它采用了基于排名的訓(xùn)練方法,旨在優(yōu)化模型使用戶感興趣的內(nèi)容排名更高。。
(4)ECFKG[26](enhanced collaborative filtering for knowledge graphs):結(jié)合協(xié)同過濾和知識圖譜嵌入技術(shù),以改善推薦的準確性和個性化程度。其旨在解決傳統(tǒng)協(xié)同過濾算法在處理冷啟動問題、數(shù)據(jù)稀疏性和推薦的解釋性方面的不足。
(5)CKE[27](collaborative knowledge enhanced recommendation):一種典型的基于正則化的方法,它利用TransR派生的語義嵌入來增強矩陣分解。
(6)KGAT[21]:一種基于圖神經(jīng)網(wǎng)絡(luò)的推薦模型,具有圖注意力網(wǎng)絡(luò)的特性。KGAT 將知識圖譜和用戶—物品圖的混合結(jié)構(gòu)作為協(xié)同知識圖譜,引入注意力機制,用于區(qū)分圖中不同鄰居節(jié)點的重要性。
(7)Graph2vec[28]:一種用于學(xué)習(xí)圖表示的算法,旨在將整個圖映射到一個向量空間中。通過考慮圖的子結(jié)構(gòu)來捕獲圖的全局屬性,類似于詞嵌入技術(shù)(如Word2Vec)在文本處理中的應(yīng)用。Graph2vec算法首先識別出圖中的重要子結(jié)構(gòu),然后使用這些子結(jié)構(gòu)作為序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而生成圖的低維度、密集向量表示。
(8)GPT詞嵌入[29]技術(shù):通過預(yù)訓(xùn)練的生成式預(yù)訓(xùn)練變換器(GPT)模型為文本數(shù)據(jù)生成密集的向量表示。該技術(shù)利用GPT模型的深層語義理解能力,將文本轉(zhuǎn)換為固定長度的向量。這些向量捕獲了文本的上下文信息和語義特征,使得文本數(shù)據(jù)可以被應(yīng)用于各種下游機器學(xué)習(xí)任務(wù),包括文本分類、情感分析和文本相似性比較,提高了處理效率和效果。
對于FM與NFM,設(shè)置隱藏層為[64, 32, 16];對于ECFKG,設(shè)置訓(xùn)練集batch_size=2 048,測試集batch_size=10 000;對于 CKE,設(shè)置L2正則器權(quán)重lambda=e-5;對于KGAT,設(shè)置深度為2,卷積層為[64, 32, 16],agg = bi-interaction,lap = random-walk。所有模型的向量維度為128,學(xué)習(xí)率為0.000 1,訓(xùn)練epoch=1 000。此外,執(zhí)行早停(early stopping)策略,如果驗證集上的Recall@20在連續(xù)10個epoch中沒有增加,則執(zhí)行早停策略。
實驗的硬件與軟件設(shè)置如下:
· Operation System:Linux
· RAM:32G
· CPU:Intel(R) Xeon(R) CPU E5-2683 v4
· GPU:Nvidia RTX 3090 - 24G
· SSD:50G
· Software:NVIDIA CUDA 11.7, Python 3.8, Pytorch 1.13.1, Numpy 1.18
實驗方案推薦實驗結(jié)果如表3所示:
從表3可以得出如下結(jié)論:
(1)協(xié)同過濾算法:NFM算法在Recall@20和NDCG@20方面表現(xiàn)出色,分別為0.025 4和0.058 7,F(xiàn)M算法也表現(xiàn)良好,分別為0.022 0和0.041 9。這表明這兩種傳統(tǒng)的協(xié)同過濾算法在推薦任務(wù)中具有良好的性能,尤其是在Recall@20指標上。
(2) BPRMF算法:在Recall@20和NDCG@20上表現(xiàn)一般,分別為0.013 7 和0.021 2。這表明BPRMF在推薦任務(wù)中表現(xiàn)一般。
(3)基于知識圖譜的算法:KGAT算法在Recall@20和NDCG@20上表現(xiàn)較差,分別為0.012 8和0.018 9。這表明基于知識圖譜的方法在這兩個指標下的性能較低,可能需要進一步改進。CKE算法在Recall@20和NDCG@20方面表現(xiàn)較好,分別為0.019 3和0.0228,這表明它在推薦任務(wù)中具有較高的性能。ECFKG算法在Recall@20和NDCG@20上都表現(xiàn)良好,分別為0.019 8和0.021 5。
(4)GraphGPT Net:在Recall@20上表現(xiàn)最為出色,達到了0.029 9,超越了基線算法中表現(xiàn)最好的算法NFM。這表明知識圖譜與實驗方案語義融合的推薦算法在推薦任務(wù)中具有更好的效果,尤其在提高Recall@20方面表現(xiàn)出色,在NDCG@20上優(yōu)于所有基于知識圖譜的算法,但與協(xié)同過濾算法相比還有一定的差距。
綜合考慮,本實驗結(jié)果強調(diào)了不同推薦算法在不同指標下的性能差異。傳統(tǒng)的協(xié)同過濾算法(如FM、NFM)在多數(shù)情況下表現(xiàn)出色?;谥R圖譜的算法總體來看表現(xiàn)不佳,這可能是由于知識圖譜中的實體和關(guān)系稀疏,算法可能難以捕捉足夠的上下文信息來進行有效的推薦。CKE和KGAT在Recall@20和NDCG@20方面都表現(xiàn)良好。選擇最適合特定推薦任務(wù)的算法取決于具體情況,可能需要進一步的研究和實驗。
針對基于知識圖譜的推薦算法存在的限制,筆者提出了一種知識圖譜與實驗方案語義融合的推薦算法。該算法旨在克服現(xiàn)有方法的局限性,通過更深層次的語義融合技術(shù),優(yōu)化推薦結(jié)果的準確性和相關(guān)性。實驗結(jié)果顯示,相比傳統(tǒng)算法和基于知識圖譜的算法,筆者提出的GraphGPT Net算法在Recall@20關(guān)鍵性能評估指標上展現(xiàn)出更優(yōu)的效果。筆者對GraphGPT Net在不同推薦個數(shù)下的表現(xiàn)結(jié)果進行實驗(見圖8),發(fā)現(xiàn)隨著推薦個數(shù)K值的增加,算法的Recall和NDCG指標持續(xù)提升。這證明了筆者提出的知識圖譜與實驗方案語義融合的推薦算法的優(yōu)越性,強調(diào)了為特定推薦任務(wù)精心選擇和設(shè)計算法的重要性,同時也指出通過進一步的研究和實驗來不斷完善推薦系統(tǒng)的必要性。
5" 研究總結(jié)與展望/Research summary and prospects
筆者首先在論文和專利數(shù)據(jù)的基礎(chǔ)上,進行有機太陽能電池領(lǐng)域Schema本體建模。在本體框架的基礎(chǔ)上,按照知識抽取、知識融合、知識校驗和知識存儲的構(gòu)建流程,利用實體抽取、實體消歧、關(guān)系抽取、知識鏈接、本體及實體對齊等技術(shù),將文獻數(shù)據(jù)中抽取出的實驗方法知識表示為三元組形式,并建立“概念—實體—屬性—關(guān)系”等數(shù)據(jù)模型,進而形成有機太陽能電池實驗方案知識圖譜。
基于有機太陽能電池實驗方案知識圖譜,筆者利用協(xié)同過濾、基于路徑、基于傳播的推薦算法在知識圖譜中挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系;通過將實體之間的關(guān)聯(lián)關(guān)系與用戶數(shù)據(jù)進行融合,實現(xiàn)實驗方案智能化推薦。推薦算法對比實驗的結(jié)果顯示筆者提出的GraphGPT Net在Recall@20指標上表現(xiàn)最為出色,可以有效地對實驗方案進行推薦。本文的創(chuàng)新點如下:①圖嵌入技術(shù)與大模型語義嵌入的融合。通過結(jié)合圖嵌入表征技術(shù)Graph2vec和大模型語義嵌入表征GPT embedding,本文提出了一種新的實驗方案推薦算法——GraphGPT Net。這種融合不僅優(yōu)化了實驗方案的向量化表示,而且通過融合圖語義和大模型的深度學(xué)習(xí)能力,提升了推薦系統(tǒng)的智能化水平。②知識圖譜語義融合的實驗方案推薦。本文提出的GraphGPT Net算法實現(xiàn)了知識圖譜語義融合的實驗方案推薦。不同于傳統(tǒng)的論文和專利推薦,本文構(gòu)建了實驗方案的本體架構(gòu);在此基礎(chǔ)上不僅能夠識別出與特定實驗方案相似的方案,還能夠更準確地理解和處理復(fù)雜的實驗方案推薦問題,從而提供更為精確和個性化的推薦結(jié)果。
本文的局限性在于:①只標注了1 933篇論文專利,得到的知識圖譜實體和關(guān)系數(shù)量較少,知識圖譜有待進一步擴充。后續(xù)考慮通過大語言模型,對文本中顯性與隱性的知識進行分析、推理,從中抽取出實驗方法、實驗原理、研究問題和解決方案等不同類型的知識元素,進一步擴充有機太陽能電池實驗方案知識圖譜。②只討論了基于知識圖譜的推薦,還可以基于大語言模型按照有機太陽能電池實驗步驟,根據(jù)提示學(xué)習(xí)設(shè)計prompt推薦實驗方案,并通過微調(diào)或者注入本地知識庫的方法,進一步優(yōu)化推薦結(jié)果。
致謝/Acknowledgement:
感謝中國科學(xué)院成都文獻情報中心胡正銀老師的團隊對本研究在數(shù)據(jù)和技術(shù)上的大力支持。
參考文獻/References:
[1] 孫蒙鴿, 黃雨馨, 韓濤, 等. 科研智能化新趨勢下知識服務(wù)的挑戰(zhàn)與機遇[J]. 情報雜志, 2022, 41(6): 173-181, 107. (SUN M G, HUANG Y X, HAN T, et al. Challenges and opportunities of knowledge service under the new trend of intelligent scientific research [J]. Journal of information technology, 2022, 41(6): 173-181, 107.)
[2] GUO Q, ZHUANG F, QIN C, et al. A survey on knowledge graph-based recommender systems[J]. IEEE transactions on knowledge and data engineering, 2022, 34(8): 3549-3568.
[3] 徐增林, 盛泳潘, 賀麗榮, 等. 知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報, 2016, 45(4): 589-606. (XU Z L, SHENG Y P, HE L R. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.)
[4] DIOMEDI D, HOGAN A. Question answering over knowledge graphs with neural machine translation and entity linking[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2107.02865.
[5] XI D, ZHUANG F, LIU Y, et al. Modelling of bi-directional spatio-temporal dependence and users’ dynamic preferences for missing POI check-in identification[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2112.15285.
[6] WANG H, ZHANG F, XIE X, et al. DKN: deep knowledge-aware network for news recommendation[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1801.08284.
[7] LIU H, TONG Y, HAN J, et al. Incorporating multi-source urban data for personalized and context-aware multi-modal transportation recommendation[J]. IEEE transactions on knowledge and data engineering, 2022, 34(2): 723-735.
[8] HUANG Z, LIU Q, ZHAI C, et al. Exploring multi-objective exercise recommendations in online education systems [C]//Proceedings of the 28th ACM international conference on information and knowledge management. New York: Association for Computing Machinery, 2019:1261-1270.
[9] SHI Y, LARSON M, HANJALIC A. Collaborative filtering beyond the user-item matrix: a survey of the state of the art and future challenges[J]. ACM computing surveys, 2014, 47(1): 1-45.
[10] RENDLE S. Factorization machines [C]// Proceedings of IEEE international conference on data mining. Sydney: IEEE, 2010: 995-1000.
[11] HE X, CHUA T S .Neural factorization machines for sparse predictive analytics[J]. ACM SIGIR forum, 2017, 51(cd): 355-364.
[12] ZHANG Y, AI Q, CHEN X, et al. Learning over knowledge-base embeddings for recommendation[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1803.06540.
[13] ZHANG F, YUAN N J, LIAN D, et al. Collaborative knowledge base embedding for recommender systems[C]// Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining(KDD ‘16)., New York: Association for Computing Machiner, 2016: 353-362.
[14] BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th international conference on neural information processing systems - Volume 2 (NIPS’13).New York: Curran Associates Inc, 2016: 2787-2795.
[15] WANG Z, ZHANG J, FENG J, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI conference on artificial intelligence(AAAI’14). Quebec: AAAI Press, 2014: 1112-1119.
[16] LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI conference on artificial intelligence. Austin: AAAI Press, 2015: 2181-2187.
[17] JI G, HE S, XU L, et al. Knowledge Graph Embedding via Dynamic Mapping Matrix[C]//Proceedings of the 53rd annual meeting of the Association for Computational Linguistics and the 7th international joint conference on natural language processing (Volume 1: Long Papers). Beijing: Association for Computational Linguistics, 2015: 687-696.
[18] JI G, LIU K, HE S, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI conference on artificial intelligence. Phoenix: AAAI Press, 2016: 985-991.
[19] SUN Z, YANG J, ZHANG J, et al. Recurrent knowledge graph embedding for effective recommendation[C]//Proceedings of the 12th ACM conference on recommender systems. Vancouver: ACM, 2018: 297-305.
[20] WANG H, ZHANG F, WANG J, et al. RippleNet: propagating user preferences on the knowledge graph for recommender systems[C]//Proceedings of the 27th ACM international conference on information and knowledge management (CIKM ‘18). New York: Association for Computing Machinery, 2018: 417-426.
[21] WANG X, HE X, CAO Y, et al. KGAT: knowledge graph attention network for recommendation[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery amp; data mining (KDD ‘19). New York: Association for Computing Machinery, 2019: 950-958.
[22] 呂爽. 基于敘詞表的醫(yī)學(xué)領(lǐng)域本體的構(gòu)建研究[D]. 長春:吉林大學(xué), 2011. (Lü S. Research on the construction of medical domain ontology based on thesaurus[D]. Changchun: Jilin University, 2011.)
[23] 嚴婷婷. 高效三元有機太陽能電池的制備及性能研究[D]. 寧波:中國科學(xué)院大學(xué)(中國科學(xué)院寧波材料技術(shù)與工程研究所), 2022. (YAN T T. Preparation and properties of high efficiency terpolymer solar cells[D]. Ningbo: University of Chinese Academy of Sciences (Ningbo Institute of Materials Technology and Engineering, Chinese Academy of Sciences), 2022.)
[24] HE X, LIAO L, ZHANG H, et al. Neural collaborative filtering[C]//Proceedings of the 26th international conference on World Wide Web (WWW ‘17). Perth: International World Wide Web Conferences Steering Committee, 2017: 173-182.
[25] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th conference on uncertainty in artificial intelligence (UAI ‘09). Arlington: AUAI Press, 2019, 452-461.
[26] AI Q, AZIZI V, CHEN X, et al. Learning heterogeneous knowledge base embeddings for explainable recommendation[J]. Algorithms, 2018, 11(9): 132-137.
[27] ZHANG F, YUAN N J, LIAN D, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (KDD ‘16). New York: Association for Computing Machinery, 2016: 353-362.
[28] NARAYANAN A, CHANDRAMOHAN M, VENKATESAN R, et al. Graph2vec: learning distributed representations of graphs[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1707.05005.
[29] DAI D, SUN Y, DONG L, et al. Why can GPT learn in-context? language models implicitly perform gradient descent as meta-optimizers[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2212.10559.
作者貢獻說明/Author contributions:
張" 凱:撰寫論文,基于論文數(shù)據(jù)進行技術(shù)分析;
石" 棲:構(gòu)建數(shù)據(jù)庫,提出修改意見。
Experimental Scheme Recommendation Based on Knowledge Graph: A Case Study of Organic Solar Cells
Zhang Kai1,2" Shi Qi2,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
3National Science Library (Chengdu), Chinese Academy of Sciences, Chengdu 610299
Abstract: [Purpose/Significance] Currently, the paradigm of data-intensive scientific discovery in scientific research is evolving towards intelligence. AI-driven scientific research (AI4Science) is becoming the engine of technological innovation and a new paradigm for scientific research. This study will delve into the experimental schemes within AI4Science, revealing the application of AI technology in research methods, tools, and means through the analysis of experimental schemes in scientific literature, providing new research perspectives for scientific researchers. [Method/Process] ① Knowledge extraction and modeling of the experimental scheme. Ontology modeling technology was used to realize the unified knowledge modeling of experimental methods and experimental principles in different subject areas. The domain knowledge graph of organic solar cells was constructed on the basis of ontology modeling. ② Research on intelligent recommendation of the experimental scheme based on the knowledge graph. The relationship between entities was mined in the domain knowledge graph to realize the intelligent recommendation of the experimental scheme. [Result/Conclusion] On the basis of Graph2vec representation technology and GPT embedding representation, GraphGPT Net is proposed as a new algorithm for knowledge graph semantic integration of the experimental scheme. The best performance is achieved on Recall@20 with a score of 0.0299, which proves its remarkable ability to recommend experimental schemes.
Keywords: knowledge graph; organic solar cells; experimental scheme; recommendation system
Fund project(s): This work is supported by the National Social Science Fund of China titled “Supporting AI4Science Science Library Knowledge Service Content Research” (Grant No. 22BTQ019) and Chinese Academy of Sciences Literature and Information Capacity Building Project titled “‘Smart data +AI’ Supporting Scientific Innovation Experimental Method Inference Discovery Research” (Grant No. E329090905).
Author(s): Zhang Kai, master candidate, E-mail: zhangkai@mail.las.ac.cn; Shi Qi, master candidate.
Received: 2024-03-04" " Published: 2024-09-19