【摘要】 目的 為人工智能模型應(yīng)用于骨質(zhì)疏松癥臨床診療的效用提供實(shí)證依據(jù)。方法 選取原發(fā)性骨質(zhì)疏松癥診療指南核心章節(jié),由10位骨科醫(yī)師從準(zhǔn)確性、全面性、可解釋性、臨床應(yīng)用性4個(gè)維度對(duì)ChatGPT和DeepSeek的回答內(nèi)容與指南標(biāo)準(zhǔn)對(duì)比評(píng)分,并結(jié)合臨床骨密度檢測(cè)結(jié)果,評(píng)估模型決策的準(zhǔn)確性與科學(xué)性。結(jié)果 10位骨科醫(yī)師評(píng)分一致性較高。DeepSeek準(zhǔn)確性評(píng)分高于ChatGPT,在藥物管理及參數(shù)解析方面更精準(zhǔn)契合指南更新要點(diǎn)。2種模型全面性及可解釋性評(píng)分雖無統(tǒng)計(jì)學(xué)差異,但DeepSeek通過整合藥物假期管理、FLS協(xié)作模式及OSTA篩查工具構(gòu)建多維評(píng)估框架,并采用圖表提升信息呈現(xiàn)效率。DeepSeek臨床應(yīng)用性評(píng)分優(yōu)于ChatGPT,其建立的決策路徑與全周期監(jiān)測(cè)體系有效縮短臨床決策時(shí)耗。臨床骨密度檢測(cè)分析顯示,ChatGPT僅提供基礎(chǔ)診療框架,而DeepSeek具有更完整的指南依從性和臨床適用性。結(jié)論 AI能提升骨質(zhì)疏松癥臨床決策效率和質(zhì)量,DeepSeek解讀的表現(xiàn)比ChatGPT更優(yōu)異。
【關(guān)鍵詞】 人工智能模型;骨質(zhì)疏松癥;DeepSeek;ChatGPT;精準(zhǔn)醫(yī)療
Comparative analysis of two artificial intelligence models for the diagnosis and treatment guidelines of primary osteoporosis and the interpretation of clinical bone mineral density examination
HU Chaofeng, ZHENG Songtao, CHEN Ruiqiang, LI Shangfu
(Department of Spinal Surgery, the Third Affiliated Hospital of Sun Yat-sen University, Guangzhou 510630, China)
Corresponding author: LI Shangfu, E-mail: lishangfu@mail.sysu.edu.cn
【Abstract】 Objective To provide empirical evidence for the application of artificial intelligence model in the clinical diagnosis and treatment of osteoporosis. Methods The core chapters of the guidelines for the diagnosis and treatment of primary osteoporosis were selected, and 10 orthopedic surgeons compared the answers of ChatGPT and DeepSeek with the guidelines from the four dimensions of accuracy, comprehensiveness, interpretability, and clinical applicability. Combined with the results of clinical bone mineral density test, the accuracy and scientificity of the model decision-making were evaluated. Results The scores of 10 orthopedic surgeons were consistent. The accuracy score of DeepSeek was significantly higher than that of ChatGPT, and DeepSeek was more accurate in drug management and parameter analysis, which conformed to the key points of guideline update. Although there was no statistical difference in comprehensiveness and interpretability score, DeepSeek built a multidimensional evaluation framework by integrating drug leave management, FLS collaboration mode and OSTA screening tools, and used charts to improve the efficiency of information presentation. The clinical application score of DeepSeek was better than that of ChatGPT, and its decision-making path and full-cycle monitoring system effectively shortened the time consumption of clinical decision-making. Clinical bone mineral density analysis showed that ChatGPT only provided a basic diagnosis and treatment framework, while DeepSeek showed a more complete guideline compliance and clinical applicability. Conclusion AI can improve the efficiency and quality of clinical decision-making in osteoporosis, and the performance of DeepSeek interpretation is better than that of ChatGPT.
【Key words】 Artificial intelligence model; Osteoporosis; DeepSeek; ChatGPT; Precision medicine
隨著全球人口老齡化的加劇,原發(fā)性骨質(zhì)疏松癥作為全球性公共衛(wèi)生問題挑戰(zhàn)日益嚴(yán)峻,據(jù)估計(jì),骨質(zhì)疏松全球患病率約為19.7%[1],已成為患者致殘及死亡的重要因素[2]。由于診療指南不斷更新[3],診療標(biāo)準(zhǔn)也逐步向多方面風(fēng)險(xiǎn)評(píng)估、精準(zhǔn)化藥物選擇及動(dòng)態(tài)監(jiān)測(cè)方向發(fā)展。然而,由于指南內(nèi)容復(fù)雜且涉及多學(xué)科交叉[4-5],相關(guān)媒體及網(wǎng)絡(luò)的骨質(zhì)疏松信息良莠不齊,如何高效準(zhǔn)確解讀指南及臨床骨密度檢查結(jié)果已成為臨床實(shí)踐及大眾科普的迫切需求。
近年來,人工智能(artificial intelligence, AI)在醫(yī)學(xué)相關(guān)領(lǐng)域中的應(yīng)用也越來越廣泛[6-7]。在牙科放射學(xué)領(lǐng)域,AI影像系統(tǒng)可精準(zhǔn)識(shí)別齲齒及牙科植入物,推動(dòng)個(gè)性化口腔健康管理模式的革新[8]。在高等教育領(lǐng)域,AI驅(qū)動(dòng)的教學(xué)評(píng)估體系已成為跨學(xué)科知識(shí)轉(zhuǎn)化的例子[9]。在骨質(zhì)疏松領(lǐng)域,AI應(yīng)用已涵蓋抗骨質(zhì)疏松藥物研發(fā)的分子模擬[10]、電子健康記錄的骨折風(fēng)險(xiǎn)預(yù)測(cè)模型[11]及骨質(zhì)疏松性椎體骨折識(shí)別等方面[12-13],其高靈敏度和低假陰性率的特性有效優(yōu)化了臨床工作流程[14]。AI通過結(jié)構(gòu)化知識(shí)提取與動(dòng)態(tài)循證更新機(jī)制,為骨質(zhì)疏松癥標(biāo)準(zhǔn)化診療路徑的優(yōu)化提供解決方案[15]。目前,ChatGPT 4.0與DeepSeek-R1作為代表性模型展示了各自的技術(shù)特征。ChatGPT依托GPT-4架構(gòu)實(shí)現(xiàn)多語言通用性,但其知識(shí)時(shí)效性受到訓(xùn)練數(shù)據(jù)截止周期的限制,在動(dòng)態(tài)醫(yī)學(xué)知識(shí)整合方面存在一定局限[16-17]。DeepSeek作為中文領(lǐng)域優(yōu)化的大語言模型,其私有化部署特性與實(shí)時(shí)知識(shí)更新機(jī)制,在醫(yī)療數(shù)據(jù)安全與臨床場(chǎng)景適配方面具有顯著優(yōu)勢(shì)[18]。盡管可解釋性AI評(píng)估框架已在醫(yī)學(xué)其他領(lǐng)域建立了較為完善的方法論體系[8, 19-20],但針對(duì)臨床骨質(zhì)疏松癥診療的準(zhǔn)確性和科學(xué)性評(píng)價(jià)方面仍屬空白。
本研究擬對(duì)比ChatGPT和DeepSeek 2種模型在原發(fā)性骨質(zhì)疏松癥診療指南解讀中的適用性,并利用臨床骨密度檢查結(jié)果驗(yàn)證AI對(duì)骨質(zhì)疏松癥診療的準(zhǔn)確性與科學(xué)性。同時(shí),探討AI技術(shù)如何融入臨床骨質(zhì)疏松癥診療及決策,旨在為構(gòu)建“DNA”(Doctor-Nurse-AI)模式,通過整合醫(yī)生、護(hù)士和AI技術(shù)的優(yōu)勢(shì),優(yōu)化醫(yī)療流程、提升診療效率和患者護(hù)理質(zhì)量,推動(dòng)骨質(zhì)疏松癥分級(jí)診療體系智能化轉(zhuǎn)型提供理論依據(jù)。
1 對(duì)象與方法
1.1 研究對(duì)象
本研究以ChatGPT 4.0和DeepSeek-R1 2種人工智能模型針對(duì)《原發(fā)性骨質(zhì)疏松癥診療指南(2022)》(以下簡(jiǎn)稱指南)生成的問答內(nèi)容為研究對(duì)象。
1.2 研究方法
針對(duì)指南,向2種人工智能模型提問,選取10名經(jīng)驗(yàn)豐富且熟悉指南的骨科醫(yī)師,從4個(gè)維度對(duì)2種模型回答結(jié)果與指南進(jìn)行系統(tǒng)性對(duì)比分析:準(zhǔn)確性、全面性、可解釋性、臨床應(yīng)用性。再通過臨床實(shí)例驗(yàn)證其回答,并與臨床骨密度檢查結(jié)果進(jìn)行對(duì)比。研究方法及流程見圖1。
1.3 問題選擇
本研究圍繞指南的核心臨床實(shí)踐需求,確保問題集兼具指南依從性、臨床實(shí)用性與知識(shí)挑戰(zhàn)性,從骨質(zhì)疏松癥的診斷標(biāo)準(zhǔn)、防治措施、骨折危險(xiǎn)因素及風(fēng)險(xiǎn)評(píng)估、鑒別診斷和抗骨質(zhì)疏松癥藥物5個(gè)方面進(jìn)行提問。對(duì)2種人工智能模型賦予具有豐富臨床經(jīng)驗(yàn)并了解指南的骨科醫(yī)師的角色。
問題1:幫我解讀一下原發(fā)性骨質(zhì)疏松癥診療指南(2022)中關(guān)于骨質(zhì)疏松癥診斷標(biāo)準(zhǔn)。
問題2:幫我解讀一下原發(fā)性骨質(zhì)疏松癥診療指南(2022)中關(guān)于骨質(zhì)疏松癥防治措施。
問題3:幫我解讀一下原發(fā)性骨質(zhì)疏松癥診療指南(2022)中關(guān)于骨質(zhì)疏松癥骨折危險(xiǎn)因素及風(fēng)險(xiǎn)評(píng)估。
問題4:幫我解讀一下原發(fā)性骨質(zhì)疏松癥診療指南(2022)中關(guān)于骨質(zhì)疏松癥的鑒別診斷。
問題5:幫我解讀一下原發(fā)性骨質(zhì)疏松癥診療指南(2022)中關(guān)于抗骨質(zhì)疏松癥藥物。
1.4 統(tǒng)計(jì)學(xué)方法
采用SPSS 27.0進(jìn)行數(shù)據(jù)分析,針對(duì)10位骨科醫(yī)師對(duì)ChatGPT和DeepSeek模型在5個(gè)臨床問題上的評(píng)分結(jié)果(每位醫(yī)師對(duì)同一問題的2種模型評(píng)分形成50對(duì)配對(duì)數(shù)據(jù)),采用Wilcoxon符號(hào)秩和檢驗(yàn)進(jìn)行組間比較。由于某些評(píng)分者的評(píng)分分布極端,如部分評(píng)分為1或5,常規(guī)的評(píng)分者間一致性檢驗(yàn)不適用[21],因此本研究將評(píng)分者間的評(píng)分一致性分成3個(gè)等級(jí):完全一致(評(píng)分為5),基本一致(評(píng)分為2、3、4),完全不一致(評(píng)分為1),通過計(jì)算百分率評(píng)估一致性情況。所有檢驗(yàn)以雙側(cè)P lt; 0.05為差異有統(tǒng)計(jì)學(xué)意義。
2 結(jié) 果
2.1 10位骨科醫(yī)師基本情況及評(píng)估結(jié)果的一致性
10名骨科醫(yī)師均來自三甲醫(yī)院,具有博士學(xué)歷和較豐富的臨床診療經(jīng)驗(yàn),見表1。10位骨科醫(yī)師對(duì)2種模型回答情況的評(píng)分見表2。骨科醫(yī)師之間的評(píng)分一致性均較高,見圖2。
2.2 2種模型回答結(jié)果對(duì)比分析
2.2.1 準(zhǔn)確性
ChatGPT與DeepSeek在回答原發(fā)性骨質(zhì)疏松癥診療指南相關(guān)問題時(shí),均展現(xiàn)了較高的準(zhǔn)確性,但兩者的準(zhǔn)確性評(píng)分存在差異(Z = -3.62,P =
0.001),見圖3A,骨科醫(yī)師對(duì)DeepSeek的回答的準(zhǔn)確性認(rèn)可度更高。具體而言,ChatGPT雖然能覆蓋骨密度閾值判定等基礎(chǔ)診斷標(biāo)準(zhǔn),并對(duì)抗骨質(zhì)疏松癥藥物進(jìn)行基本分類,但在一些關(guān)鍵細(xì)節(jié)的表述上仍存在模糊性。相比之下,DeepSeek在關(guān)鍵細(xì)節(jié)的處理上更貼合指南精細(xì)化要求。此外,DeepSeek還明確了中國人群FRAX?骨折風(fēng)險(xiǎn)干預(yù)閾值的地域化調(diào)整,即主要骨折概率達(dá)到7%或以上時(shí)需采取干預(yù)措施。在抗骨質(zhì)疏松癥藥物分類方面,DeepSeek不僅詳細(xì)闡述了羅莫珠單抗在臨床應(yīng)用中對(duì)心血管事件風(fēng)險(xiǎn)的監(jiān)測(cè)要求,還規(guī)范了停藥后雙膦酸鹽的序貫治療方案,與指南的更新要點(diǎn)保持高度一致。對(duì)回答結(jié)果進(jìn)一步分析發(fā)現(xiàn),DeepSeek在復(fù)雜參數(shù)解析和動(dòng)態(tài)決策支持方面具有一定優(yōu)勢(shì),特別是在風(fēng)險(xiǎn)分層工具的本土化應(yīng)用以及藥物序貫治療邏輯的精準(zhǔn)匹配方面更為突出。準(zhǔn)確度更高的AI模型能夠幫助臨床醫(yī)師快速獲取最新指南的核心標(biāo)準(zhǔn),減少因信息遺漏導(dǎo)致的診療偏差,尤其在涉及Z值、FRAX?骨折風(fēng)險(xiǎn)閾值等復(fù)雜參數(shù)的應(yīng)用時(shí),能夠提供更精準(zhǔn)的臨床決策支持。
2.2.2 全面性
2種模型在指南內(nèi)容覆蓋全面性方面的評(píng)分差異沒有統(tǒng)計(jì)學(xué)意義(Z = -1.65,P = 0.092),見圖3B。ChatGPT雖然能夠概述個(gè)體化治療原則,但在關(guān)鍵內(nèi)容的深度解析上仍存在不足。例如,其對(duì)FLS流程、OSTA與FRAX?聯(lián)合篩查的階梯式策略缺乏詳細(xì)說明,這可能影響指南在臨床實(shí)踐中的有效落地。而DeepSeek在全面性覆蓋方面仍存在一定的優(yōu)勢(shì)。例如,在指南的系統(tǒng)性整合方面,DeepSeek表現(xiàn)更為突出,其防治措施描述不僅涵蓋基礎(chǔ)干預(yù),如鈣劑補(bǔ)充和運(yùn)動(dòng)處方,還完整納入了藥物假期管理,包括雙膦酸鹽5年療程后的風(fēng)險(xiǎn)評(píng)估。此外,該模型對(duì)骨折聯(lián)絡(luò)服務(wù)(fracture liaison service,F(xiàn)LS)這一多學(xué)科協(xié)作模式進(jìn)行了詳細(xì)解析,并覆蓋了基層醫(yī)療機(jī)構(gòu)的分級(jí)診療路徑,使指南應(yīng)用更加系統(tǒng)化和具有可操作性。在風(fēng)險(xiǎn)評(píng)估維度,DeepSeek不僅提及了FRAX?模型,還補(bǔ)充了亞洲人骨質(zhì)疏松自我篩查工具(Osteoporosis Self-Assessment Tool for Asians,OSTA)的臨床應(yīng)用,以及骨轉(zhuǎn)換標(biāo)志物動(dòng)態(tài)監(jiān)測(cè)的價(jià)值。此外,該模型還能識(shí)別中國人群的特異性危險(xiǎn)因素,如握力lt;18 kg和慢性腰痛史,從而形成更為全面的多維評(píng)估框架。
2.2.3 可解釋性
ChatGPT與DeepSeek在指南解讀的可解釋性方面的表現(xiàn)無統(tǒng)計(jì)學(xué)差異(Z = -0.51,P = 0.614),見圖3C。但在結(jié)構(gòu)化信息的呈現(xiàn)方式上,二者展現(xiàn)出不同的特征。ChatGPT雖然能夠系統(tǒng)列舉鑒別診斷條目,并能分點(diǎn)描述7種繼發(fā)性骨質(zhì)疏松病因,但在信息提煉上存在不足。同時(shí),在部分術(shù)語解釋上更傾向于病理機(jī)制理論,而非臨床實(shí)踐。與之相比,DeepSeek在解讀指南時(shí)更傾向于通過臨床場(chǎng)景化工具提升可讀性。此外,DeepSeek構(gòu)建了流程圖來直觀展示診斷路徑,如基于骨密度T值和脆性骨折史的風(fēng)險(xiǎn)分級(jí)流程,從而優(yōu)化了信息提取效率。在術(shù)語解釋方面,DeepSeek的描述更貼合臨床決策語境。例如,其對(duì)序貫治療的定義明確指向藥物轉(zhuǎn)換的最佳時(shí)機(jī),而迫在眉睫的骨折風(fēng)險(xiǎn)也給出了量化標(biāo)準(zhǔn),使臨床應(yīng)用更具指導(dǎo)性。
2.2.4 臨床應(yīng)用性
臨床應(yīng)用性是臨床醫(yī)師最為關(guān)心的一個(gè)指標(biāo),AI技術(shù)不僅需要具備高準(zhǔn)確性、全面性和可解釋性,更重要的是能夠順暢融入臨床工作流程,切實(shí)提升醫(yī)師的診療效率并確保醫(yī)療決策的安全性和可靠性。ChatGPT與DeepSeek在臨床應(yīng)用性的評(píng)分存在差異(Z = -3.13,P = 0.001),見圖3D,骨科醫(yī)師對(duì)DeepSeek的臨床實(shí)踐價(jià)值認(rèn)可度更高,這種差異主要體現(xiàn)在臨床場(chǎng)景適配性和動(dòng)態(tài)管理支持方面。ChatGPT雖然能夠系統(tǒng)分類抗骨質(zhì)疏松藥物,但在特殊人群劑量調(diào)整方面缺乏針對(duì)性指導(dǎo)。相比之下,DeepSeek不僅能夠?qū)⒅改辖ㄗh轉(zhuǎn)化為可操作的決策路徑,例如在腎功能不全患者中優(yōu)先推薦唑來膦酸而不是地舒單抗,還能細(xì)化圍手術(shù)期藥物的管理方案,包括雙膦酸鹽停藥時(shí)機(jī)及術(shù)后抗骨質(zhì)疏松治療的銜接策略。此外,該模型構(gòu)建了涵蓋一線用藥選擇、極高風(fēng)險(xiǎn)強(qiáng)化治療以及長期監(jiān)測(cè)調(diào)整的全周期管理框架。在動(dòng)態(tài)監(jiān)測(cè)方面,DeepSeek建議每年進(jìn)行骨密度復(fù)查,并結(jié)合骨轉(zhuǎn)換標(biāo)志物檢測(cè),同時(shí)強(qiáng)調(diào)了地舒單抗停藥后椎體骨折反跳的風(fēng)險(xiǎn)及相應(yīng)的預(yù)防策略,與指南的精細(xì)化要求高度一致。
2個(gè)模型具體比較結(jié)果詳見表3。
2.3 臨床實(shí)例驗(yàn)證
提問內(nèi)容:女性患者,年齡75歲,身高153 cm,體重53 kg;腰椎L1骨密度為0.600 g/cm2,腰椎L2骨密度為0.668 g/cm2,腰椎L3骨密度為0.634 g/cm2,腰椎L4骨密度為0.604 g/cm2,請(qǐng)問這位患者的診斷是什么?有什么治療和預(yù)防的建議?
在骨質(zhì)疏松癥臨床診斷的規(guī)范性方面,ChatGPT依據(jù)于世界衛(wèi)生組織推薦的T-score標(biāo)準(zhǔn)(診斷閾值≤-2.5),計(jì)算出平均T值-3.12,符合基本診斷要求。然而,該模型的分析存在兩方面不足。首先,未納入Z值評(píng)估體系,忽略了不同年齡群體在骨密度判定上的差異。其次,未提及繼發(fā)性骨質(zhì)疏松的鑒別診斷,與2022版《原發(fā)性骨質(zhì)疏松癥診療指南》的要求存在一定差距。指南明確指出,當(dāng)Z值≤-2.0時(shí),應(yīng)進(jìn)一步排查內(nèi)分泌和代謝性疾病,例如甲狀腺功能亢進(jìn)或維生素D缺乏,以鑒別繼發(fā)性骨質(zhì)疏松的可能性。與之對(duì)比,DeepSeek展現(xiàn)出更完整的診斷邏輯,不僅系統(tǒng)計(jì)算了各椎體的Z值,例如L3和L4均≤-2.0,還針對(duì)性地建議開展血清鈣、甲狀旁腺激素和甲狀腺功能等實(shí)驗(yàn)室檢驗(yàn),以進(jìn)一步完善鑒別診斷。這種診斷流程與指南規(guī)范高度一致,提升了對(duì)潛在繼發(fā)性因素的識(shí)別能力。此外,DeepSeek嚴(yán)格遵循指南分層管理原則,強(qiáng)調(diào)嚴(yán)重骨質(zhì)疏松癥的診斷需結(jié)合患者的脆性骨折史進(jìn)行病情分級(jí),這一做法對(duì)于制定階梯化治療方案具有重要的臨床指導(dǎo)價(jià)值,能夠確保高風(fēng)險(xiǎn)患者獲得更精準(zhǔn)的干預(yù)措施。
在治療策略的完整性方面,雖然ChatGPT正確推薦了雙膦酸鹽、地舒單抗等一線抗骨質(zhì)疏松藥物和基礎(chǔ)的營養(yǎng)補(bǔ)充方案,但其分析中存在3個(gè)關(guān)鍵遺漏。首先,未明確藥物使用的周期,例如未指出雙膦酸鹽的標(biāo)準(zhǔn)療程應(yīng)為3~5年。其次,未界定特立帕肽的適用條件,未提及該藥物應(yīng)僅用于嚴(yán)重骨質(zhì)疏松或骨折高風(fēng)險(xiǎn)患者。最后,缺乏對(duì)藥物禁忌證的詳細(xì)說明。反觀DeepSeek的治療建議更加符合循證醫(yī)學(xué)的原則。該模型明確指出,雙膦酸鹽的使用需評(píng)估患者的腎功能和胃腸道耐受性,并推薦將地舒單抗作為腎功能不全患者的首選藥物。對(duì)于特立帕肽,DeepSeek嚴(yán)格限制其用于嚴(yán)重病例,并推薦其治療療程不超過2年。此外,在營養(yǎng)干預(yù)方面,DeepSeek特別強(qiáng)調(diào)動(dòng)態(tài)監(jiān)測(cè)血清1, 25(OH)2D3水平,并建議目標(biāo)值應(yīng)≥30 ng/mL,符合骨質(zhì)疏松癥個(gè)體化治療的要求。DeepSeek還在診療流程中引入了Z值異常時(shí)優(yōu)先排查繼發(fā)性骨質(zhì)疏松的臨床路徑,進(jìn)一步確保了治療的全面性和針對(duì)性,并且有助于為患者提供更為精準(zhǔn)和個(gè)性化的治療方案。
在疾病管理的科學(xué)性方面,雖然ChatGPT提出的基礎(chǔ)預(yù)防措施具有一定合理性,但未納入國際通用的FRAX?骨折風(fēng)險(xiǎn)評(píng)估工具,也未強(qiáng)調(diào)指南推薦的高危人群篩查策略,例如65歲以上女性應(yīng)常規(guī)進(jìn)行骨密度檢測(cè)等建議。相比之下,DeepSeek的防控體系更為系統(tǒng)化,采用FRAX?工具量化10年骨折風(fēng)險(xiǎn),嚴(yán)格執(zhí)行年齡分層篩查標(biāo)準(zhǔn),并對(duì)跌倒預(yù)防措施進(jìn)行細(xì)化,包括居家環(huán)境改造和輔助器具的使用。此外,DeepSeek特別提醒在長期管理過程中,如地舒單抗需要持續(xù)給藥,避免因患者自主停藥而導(dǎo)致的骨量丟失反彈,這一提醒對(duì)提高患者依從性具有重要的臨床意義。
3 討 論
本研究對(duì)比了2種代表性的人工智能模型在原發(fā)性骨質(zhì)疏松癥診療指南解讀和臨床實(shí)例驗(yàn)證中的表現(xiàn),觀察兩者對(duì)于臨床實(shí)際工作的應(yīng)用價(jià)值。結(jié)果顯示,兩者都能通過高效的信息整合提升骨質(zhì)疏松癥的診療效率,人工智能模型解讀與臨床骨密度檢查的實(shí)際診斷報(bào)告的結(jié)果亦基本吻合。在指南解讀方面,10位骨科醫(yī)師在4個(gè)維度的評(píng)分一致性高,DeepSeek在準(zhǔn)確性和臨床應(yīng)用性上比ChatGPT更優(yōu)。而全面性和可解釋性方面無統(tǒng)計(jì)學(xué)差異,這可能與樣本量限制或評(píng)分尺度趨中性有關(guān),還可能受評(píng)分者對(duì)可視化工具偏好差異或部分場(chǎng)景下文本解釋等效性的影響。兩者對(duì)解讀指南結(jié)果的差異主要可能是因?yàn)槠錂C(jī)制不同,DeepSeek可結(jié)合患者的數(shù)據(jù)進(jìn)行精準(zhǔn)分析,還能夠直接調(diào)用醫(yī)學(xué)數(shù)據(jù)庫等;而ChatGPT主要依賴已有的訓(xùn)練數(shù)據(jù),更擅長語言理解和對(duì)話等。本研究通過臨床實(shí)例驗(yàn)證的結(jié)果顯示,相較于ChatGPT的基礎(chǔ)性診療框架,DeepSeek展現(xiàn)出更為完整的指南依從性和臨床適用性。這種系統(tǒng)性、全周期的疾病管理框架,有助于提高骨科醫(yī)師臨床決策的精準(zhǔn)性和效率,從而優(yōu)化骨質(zhì)疏松癥患者的長期治療效果。因此,AI能夠輔助醫(yī)師診治骨質(zhì)疏松癥,提升臨床效率和決策質(zhì)量,DeepSeek在原發(fā)性骨質(zhì)疏松癥診療指南及臨床骨密度檢查中解讀的表現(xiàn)比ChatGPT更優(yōu)異。
人工智能目前已廣泛應(yīng)用于骨質(zhì)疏松癥診療研究領(lǐng)域。Ferizi等[22]的研究結(jié)果顯示,AI通過基于MRI影像特征的機(jī)器學(xué)習(xí)預(yù)測(cè)模型可以對(duì)MRI數(shù)據(jù)進(jìn)行分析后預(yù)測(cè)脆性骨折。本研究通過AI對(duì)骨密度、FRAX?骨折風(fēng)險(xiǎn)預(yù)測(cè)和OSTA初篩進(jìn)行了更全面的評(píng)估。此外,Kruse等[20]的研究表明機(jī)器通過學(xué)習(xí)可以預(yù)測(cè)髖部骨折的風(fēng)險(xiǎn),其研究?jī)r(jià)值主要體現(xiàn)為特定解剖部位的風(fēng)險(xiǎn)預(yù)警。本研究亦提示DeepSeek在預(yù)測(cè)骨質(zhì)疏松性骨折方面有更好的表現(xiàn),為骨質(zhì)疏松癥的預(yù)測(cè)及相關(guān)預(yù)防措施的開展提供了新途徑。與Scanlan等[23]的研究相比,本研究對(duì)臨床應(yīng)用性方面進(jìn)行了驗(yàn)證,而Scanlan等介紹的方法可能僅適合作為骨質(zhì)疏松癥早期診斷的人群篩查。
然而,AI醫(yī)療化進(jìn)程仍面臨多重挑戰(zhàn)。首先,盡管AI能夠根據(jù)現(xiàn)有的骨質(zhì)疏松癥指南提供決策支持,但由于指南不斷發(fā)展,要求模型也要持續(xù)迭代[24]。若AI更新滯后可能會(huì)影響其臨床適用性[25]。其次,AI模型的有效性依賴于大量個(gè)人健康數(shù)據(jù)的收集與處理,數(shù)據(jù)依賴性可能會(huì)引發(fā)患者隱私風(fēng)險(xiǎn)[26]。在醫(yī)療全流程中,必須確保數(shù)據(jù)的安全性和患者的隱私得到充分保護(hù),防止數(shù)據(jù)泄露或?yàn)E用[27-29]。隨著AI在骨質(zhì)疏松癥臨床中的深入應(yīng)用,AI系統(tǒng)的臨床決策失誤的責(zé)任界定也需要符合相關(guān)倫理和法律[30]。因此,未來當(dāng)AI 模型融入骨質(zhì)疏松癥診療時(shí),AI生成的建議雖能輔助診療,但仍然無法完全替代醫(yī)師的專業(yè)判斷,最終決策還是需要依賴醫(yī)師的臨床經(jīng)驗(yàn)與綜合分析。
未來若能將AI模型嵌入骨質(zhì)疏松癥醫(yī)療信息系統(tǒng)來構(gòu)建預(yù)警網(wǎng)絡(luò),例如能夠在電子病歷實(shí)時(shí)監(jiān)測(cè)骨代謝指標(biāo)異常波動(dòng),通過可穿戴設(shè)備的數(shù)據(jù)來預(yù)判跌倒風(fēng)險(xiǎn),并在區(qū)域醫(yī)療網(wǎng)絡(luò)中建立分級(jí)診療決策樹[27],將顯著提高骨質(zhì)疏松癥的早期檢出率并為患者提供動(dòng)態(tài)健康管理的支持。而AI模型經(jīng)過訓(xùn)練后,在基層醫(yī)師接診骨質(zhì)疏松患者時(shí),AI可同時(shí)完成風(fēng)險(xiǎn)評(píng)估、禁忌篩查和治療推薦;三級(jí)醫(yī)院專家則能通過AI預(yù)篩的復(fù)雜病例開展深度會(huì)診[31],能夠大大提高醫(yī)療效率[32]。目前,AI在醫(yī)學(xué)領(lǐng)域呈現(xiàn)出專業(yè)化與泛化能力的互補(bǔ)態(tài)勢(shì)。DeepSeek模型在精準(zhǔn)醫(yī)療領(lǐng)域展現(xiàn)出獨(dú)特優(yōu)勢(shì)[33],其階梯式篩查算法能融合FRAX?骨折風(fēng)險(xiǎn)預(yù)測(cè)與OSTA初篩特性,在保證骨質(zhì)疏松癥診斷準(zhǔn)確性的同時(shí)提升篩查效率。相較而言,ChatGPT憑借其強(qiáng)大的自然語言處理能力,能夠成為骨質(zhì)疏松癥患者對(duì)話式的健康助手[34],能動(dòng)態(tài)解析骨質(zhì)疏松癥相關(guān)的專業(yè)術(shù)語并為不同文化程度患者生成科普內(nèi)容[35-36]。
本研究亦存在一定的局限性,首先,研究只選取了10位骨科醫(yī)師對(duì)AI模型回答的問題進(jìn)行評(píng)分,評(píng)分的人數(shù)可能稍顯不足。另外,研究還應(yīng)評(píng)估將AI模型整合到骨質(zhì)疏松癥診療過程中的準(zhǔn)確性以及對(duì)工作效率提升的作用。
綜上所述,本研究結(jié)果表明,DeepSeek比ChatGPT在原發(fā)性骨質(zhì)疏松癥診療指南及臨床骨密度檢查結(jié)果的解讀中表現(xiàn)更為優(yōu)異,有望在未來成為一種輔助骨質(zhì)疏松癥診療的工具。當(dāng)AI模型融入骨質(zhì)疏松癥診療中時(shí),應(yīng)注重AI算力和骨科醫(yī)師的臨床經(jīng)驗(yàn),始終堅(jiān)持以人為主導(dǎo)的決策機(jī)制,將骨科醫(yī)師的臨床經(jīng)驗(yàn)作為診療決策的核心依據(jù),通過構(gòu)建“DNA”模式,為患者提供更加個(gè)性化的診療服務(wù)及提升臨床的診療效率。
利益沖突聲明:本研究未受到企業(yè)、公司等第三方資助,不存在潛在利益沖突。
參 考 文 獻(xiàn)
[1] LIU Y, HUANG X, TANG K, et al. Prevalence of osteoporosis and associated factors among Chinese adults: a systematic review and modelling study[J]. J Glob Health, 2025, 15: 04009. DOI: 10.7189/jogh.15.04009.
[2] WANG H S, KARNIK S J, MARGETTS T J, et al. Mind gaps and bone snaps: exploring the connection between Alzheimer’s disease and osteoporosis[J]. Curr Osteoporos Rep, 2024,
22(5): 483-494. DOI: 10.1007/s11914-023-00851-1.
[3] 中華醫(yī)學(xué)會(huì)骨質(zhì)疏松和骨礦鹽疾病分會(huì). 原發(fā)性骨質(zhì)疏松癥診療指南(2022) [J]. 中國全科醫(yī)學(xué), 2023, 26(14): 1671-91. DOI: 10.12114/j.issn.1007-9572.2023.0121.
Chinese Society of Osteoporosis and Bone Mineral Research. Guidelines for the Diagnosis and Treatment of Primary Osteoporosis (2022)[J]. Chin Gen Prac, 2023, 26(14): 1671-1691. DOI: 10.12114/j.issn.1007-9572.2023.0121.
[4] SONG M, ELSON J, BASTOLA D. Digital age transformation in patient-physician communication: 25-year narrative review (1999-2023)[J]. J Med Internet Res, 2025, 27: e60512. DOI: 10.2196/60512.
[5] KARAM L, PACCOU J. Management of adverse skeletal effects following bariatric surgery procedures in people living with obesity[J]. Curr Osteoporos Rep, 2025, 23(1): 11. DOI: 10.1007/s11914-025-00902-9.
[6] CONROY G, MALLAPATY S. How China created AI model DeepSeek and shocked the world[J]. Nature, 2025, 638(8050): 300-301. DOI: 10.1038/d41586-025-00259-0.
[7] GIBNEY E. China’s cheap, open AI model DeepSeek thrills scientists[J]. Nature, 2025, 638(8049): 13-14. DOI: 10.1038/d41586-025-00229-6.
[8] PUTRA R H, DOI C, YODA N, et al. Current applications and development of artificial intelligence for digital dental radiography[J]. Dentomaxillofac Radiol, 2022, 51(1): 20210197. DOI: 10.1259/dmfr.20210197.
[9] SYMEOU L, LOUCA L, KAVADELLA A, et al. Development of evidence-based guidelines for the integration of generative AI in university education through a multidisciplinary, consensus-based approach[J]. Eur J Dent Educ, 2025. DOI: 10.1111/eje.13069.
[10] LEI C, SONG J H, LI S, et al. Advances in materials-based therapeutic strategies against osteoporosis[J]. Biomaterials, 2023, 296: 122066. DOI: 10.1016/j.biomaterials.2023.122066.
[11] KHANNA V V, CHADAGA K, SAMPATHILA N, et al. A decision support system for osteoporosis risk prediction using machine learning and explainable artificial intelligence[J]. Heliyon, 2023, 9(12): e22456. DOI: 10.1016/j.heliyon.2023.e22456.
[12] SHEN L, GAO C, HU S, et al. Using artificial intelligence to diagnose osteoporotic vertebral fractures on plain radiographs[J]. J Bone Miner Res, 2023, 38(9): 1278-1287. DOI: 10.1002/jbmr.4879.
[13] TSAI D J, LIN C, LIN C S, et al. Artificial intelligence-enabled chest X-ray classifies osteoporosis and identifies mortality risk[J]. J Med Syst, 2024, 48(1): 12. DOI: 10.1007/s10916-023-02030-2.
[14] FERIZI U, HONIG S, CHANG G. Artificial intelligence, osteoporosis and fragility fractures[J]. Curr Opin Rheumatol,
2019, 31(4): 368-375. DOI: 10.1097/BOR.0000000000000607.
[15] GATINEAU G, SHEVROJA E, VENDRAMI C, et al. Development and reporting of artificial intelligence in osteoporosis
management[J]. J Bone Miner Res, 2024, 39(11): 1553-1573. DOI: 10.1093/jbmr/zjae131.
[16] ERDEN Y, TEMEL M H, BA?CIER F. Artificial intelligence insights into osteoporosis: assessing ChatGPT’s information quality and readability[J]. Arch Osteoporos, 2024, 19(1): 17. DOI: 10.1007/s11657-024-01376-5.
[17] CHOUDHURY A, SHAMSZARE H. The impact of performance expectancy, workload, risk, and satisfaction on trust in ChatGPT: cross-sectional survey analysis[J]. JMIR Hum Factors, 2024, 11: e55399. DOI: 10.2196/55399.
[18] KAYAALP M E, PRILL R, SEZGIN E A, et al. DeepSeek versus ChatGPT: multimodal artificial intelligence revolutionizing scientific discovery. From language editing to autonomous content generation-redefining innovation in research and practice[J]. Knee Surg Sports Traumatol Arthrosc, 2025. DOI: 10.1002/ksa.12628.
[19] JIN W, LI X, FATEHI M, et al. Guidelines and evaluation of clinical explainable AI in medical image analysis[J]. Med Image Anal, 2023, 84: 102684. DOI: 10.1016/j.media.2022.102684.
[20] KRUSE C, EIKEN P, VESTERGAARD P. Machine learning principles can improve hip fracture prediction[J]. Calcif Tissue Int, 2017, 100(4): 348-360. DOI: 10.1007/s00223-017-0238-7.
[21] 黎超, 陳優(yōu)美, 段亞妮,等. 生成式人工智能在生成影像學(xué)報(bào)告方面的表現(xiàn)評(píng)估 [J]. 新醫(yī)學(xué), 2024, 55(11): 853-860. DOI: 10.3969/j.issn.0253-9802.2024.11.001.
LI C, CHEN Y M, DUAN Y N, et al. Evaluation of the performance of generative artificial intelligence in generating radiology reports[J]. J New Med, 2024, 55(11): 853-860. DOI: 10.3969/j.issn.0253-9802.2024.11.001.
[22] FERIZI U, BESSER H, HYSI P, et al. Artificial intelligence applied to osteoporosis: a performance comparison of machine learning algorithms in predicting fragility fractures from MRI
data[J]. J Magn Reson Imaging, 2019, 49(4): 1029-1038. DOI: 10.1002/jmri.26280.
[23] SCANLAN J, LI F F, UMNOVA O, et al. Detection of osteoporosis from percussion responses using an electronic stethoscope and machine learning[J]. Bioengineering, 2018,
5(4): 107. DOI: 10.3390/bioengineering5040107.
[24] LAI H, GE L, SUN M, et al. Assessing the risk of bias in randomized clinical trials with large language models[J]. JAMA Netw Open, 2024, 7(5): e2412687. DOI: 10.1001/jamanetworkopen.2024.12687.
[25] KANJEE Z, CROWE B, RODMAN A. Accuracy of a generative artificial intelligence model in a complex diagnostic challenge[J]. JAMA, 2023, 330(1): 78-80. DOI: 10.1001/jama.2023.8288.
[26] ZHU L, LAI Y, MOU W, et al. ChatGPT’s ability to generate realistic experimental images poses a new challenge to academic integrity[J]. J Hematol Oncol, 2024, 17(1): 27. DOI: 10.1186/s13045-024-01543-8.
[27] PENG Y, MALIN B A, ROUSSEAU J F, et al. From GPT to DeepSeek: significant gaps remain in realizing AI in
healthcare[J]. J Biomed Inform, 2025, 163: 104791. DOI: 10.1016/j.jbi.2025.104791.
[28] JEYARAMAN M, BALAJI S, JEYARAMAN N, et al. Unraveling the ethical enigma: artificial intelligence in healthcare[J]. Cureus, 2023, 15(8): e43262. DOI: 10.7759/cureus.43262.
[29] PETERS V, BAUMGARTNER M, FROESE S, et al. Risk and potential of ChatGPT in scientific publishing[J]. J Inher Metab Disea, 2023, 46(6): 1005-1006. DOI: 10.1002/jimd.12666.
[30] MELLO M M, GUHA N. ChatGPT and physicians’ malpractice risk[J]. JAMA Health Forum, 2023, 4(5): e231938. DOI: 10.1001/jamahealthforum.2023.1938.
[31] XU T, WENG H, LIU F, et al. Current status of ChatGPT use in medical education: potentials, challenges, and strategies[J]. J Med Internet Res, 2024, 26: e57896. DOI: 10.2196/57896.
[32] 祁冬, 姚傳順, 胡淑敏, 等.人工智能在冠狀動(dòng)脈CT血管成像圖像后處理和冠狀動(dòng)脈狹窄診斷中的應(yīng)用[J]. 江蘇大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2023, 33(4): 323-327, 332. DOI: 10.13312/j.issn.1671-7783.y220147.
Qi D, YAO C S, HU S M, et al. The value of artificial intelligence in post-processing coronary CTA images and diagnosing coronary artery stenosis[J]. J Jiangsu Univ(Med Ed), 2023, 33(4): 323-327, 332. DOI: 10.13312/j.issn.1671-7783.y220147.
[33] NORMILE D. Chinese firm’s large language model makes a splash[J]. Science, 2025, 387(6731): 238. DOI: 10.1126/science.adv9836.
[34] LIM Z W, PUSHPANATHAN K, YEW S M E, et al. Benchmarking large language models’ performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard[J]. EBioMedicine, 2023, 95: 104770. DOI: 10.1016/j.ebiom.2023.104770.
[35] PREIKSAITIS C, ROSE C. Opportunities, challenges, and future directions of generative artificial intelligence in medical education: scoping review[J]. JMIR Med Educ, 2023, 9: e48785. DOI: 10.2196/48785.
[36] GAN W, OUYANG J, LI H, et al. Integrating ChatGPT in orthopedic education for medical undergraduates: randomized controlled trial[J]. J Med Internet Res, 2024, 26: e57037. DOI: 10.2196/57037.
(責(zé)任編輯:鄭巧蘭)