[摘要]目的 本研究旨在比較3種生成式人工智能技術(shù)(GAI)在中文語境下口腔醫(yī)學領(lǐng)域的應(yīng)用價值及其存在的問題,從而為其應(yīng)用提供參考依據(jù)。方法 本研究設(shè)計了36個涵盞口腔醫(yī)學各專業(yè)的問題,包括病歷撰寫、專業(yè)知識解答、文章翻譯潤色等多個方面。將這些問題分別輸入至ChatGPT4-turbo、Gemini (2024.2)和文心一言4.0進行回答,邀請3名經(jīng)驗豐富的口腔醫(yī)師采用盲評法對答案進行四級李斯特量表評估,對GAI在不同應(yīng)用場景的使用價值進行評價。結(jié)果 在臨床文書撰寫和圖片制作方面,Gemini 45分,文心一言38分,ChatGPT 33分;在科研輔助方面,Gemini 45分,文心一言39分,ChatGPT 35分;在教學輔助能力方面,文心一言54分,Gemini 50分,ChatGPT 48分;在患者咨詢和導診方面,Gemini 78分,文心一言59分,ChatGPT 48分。在總分方面,Gemini 218分,文心一言190分,ChatGPT 164分。在應(yīng)用場景評價中,得分最高的3項為文章翻譯潤色、醫(yī)患溝通文案撰寫和科普宣傳文案撰寫,分別為26、23、23分;得分最低的2項為指定文獻的搜索匯報和圖片生成,分別為13和12分。結(jié)論 中文語境下在口腔醫(yī)學領(lǐng)域應(yīng)用價值從高到低依次為Gemini、文心一言和ChatGPT??傮w來看,GAI在翻譯潤色、醫(yī)患溝通文案撰寫和科普文章撰寫方面有較大的應(yīng)用價值,在指定文獻的搜索匯報和圖片生成方面的應(yīng)用價值最低。
[關(guān)鍵詞]生成式人工智能,Gemini;文心一言;ChatGPT;口腔醫(yī)學
[中圖分類號]R78[文獻標志碼]A[doi]10.7518/hxkq.2024.2024144
隨著生成式人工智能(generative artificial intelligence,GAI)技術(shù)的快速發(fā)展,其在醫(yī)療領(lǐng)域的應(yīng)用日益廣泛,包括提高論文寫作效率、分析數(shù)據(jù)、個性化醫(yī)療、協(xié)助臨床工作以及醫(yī)學教育等多個方面。在臨床實踐中,GAI能夠協(xié)助醫(yī)護人員完善醫(yī)療文書、放射檢查等工作,簡化流程,提高效率。同時,患者也能通過GAI獲得即時的醫(yī)學咨詢。在科研方面,GAI已成為一種強大的工具,特別對于非英語母語的研究人員,能顯著提升論文寫作的質(zhì)量和效率。在醫(yī)學教育領(lǐng)域,GAI不僅為醫(yī)學生提供強大的助學支持,還能協(xié)助教師進行教學設(shè)計和文書生成。然而,GAI技術(shù)的應(yīng)用仍面臨不少挑戰(zhàn)。由于數(shù)據(jù)集時效性和信息真實性等問題,GAI提供的答案并非完全準確,需要用戶謹慎鑒別和判斷。此外,如何界定GAI輔助與學術(shù)剽竊的界限等,也是當前亟待解決的問題。
目前,市場上GAII具眾多,技術(shù)水平各異,如何選擇合適的工具以獲得最佳幫助尚無定論。鑒于此,本研究選取了3種知名的GAI工具,分別為ChatGPT4-turbo、Gemini (2024.2)、文心一言40,對其在中文語境下口腔醫(yī)學領(lǐng)域的應(yīng)用表現(xiàn)進行分析,為后續(xù)研究和實踐提供參考依據(jù)。
1材料和方法
1.13種GAI在口腔醫(yī)學多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)比較
研究設(shè)計了36個問題,旨在考察GAI在口腔醫(yī)學多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)。這些問題涵蓋了口腔頜面外科學、牙體牙髓病學、牙周病學、黏膜病學、口腔修復(fù)學、口腔種植學、正畸學等口腔醫(yī)學所有專業(yè)方向,并根據(jù)其應(yīng)用場景分為四類,分別為臨床實踐(7個)、科研工作(7個)、教學工作(12個)、患者咨詢及導診(10個)。這些問題涉及病歷撰寫、專業(yè)知識解答、文章翻譯潤色等多個方面。通過這些問題來評估3種GAI在口腔醫(yī)學領(lǐng)域的專業(yè)知識掌握程度,并驗證其在提高醫(yī)生工作效率以及為患者提供咨詢和導診服務(wù)方面的潛力。
采用ChatGPT4-turbo、Gemini (2024.2)以及文心一言4.0分別對這36個問題進行回答。選取臨床經(jīng)驗在10年以上的3名口腔醫(yī)師獨立采用盲法進行評估。
1.2評估方法
本研究采用一份四級李斯特量表對GAI的回答進行綜合評價。評價系統(tǒng)包括一份3種GAI在相關(guān)問題中回答表現(xiàn)的四級李斯特量表,以及一份GAI在不同應(yīng)用場景中使用價值的調(diào)查表。
李斯特量表評分規(guī)則:根據(jù)其完整性、專業(yè)性和可讀性等方面進行綜合評分,分數(shù)范圍為0-3分,其中3分代表最佳表現(xiàn),2分則代表中等表現(xiàn),1分代表最差表現(xiàn);若答案中存在可能導致嚴重不良后果(如錯誤決策、錯誤操作、引發(fā)并發(fā)癥或危及患者)的錯誤、虛構(gòu)或誤解等風險因素,則該項得分為0分。若某問題的多個答案表現(xiàn)相近,可賦予相同分數(shù)(如3項均給2分)。最終,各問題得分累加形成總評價分數(shù),用于各大類及總體表現(xiàn)的對比分析,以得出最終評價結(jié)論。
在此基礎(chǔ)上,由上述3名醫(yī)生對GAI在不同應(yīng)用場景中的使用價值進行評分。滿分為10分,分數(shù)越高則視為在該條件中幫助越大,并將3位醫(yī)生的評分相加獲得最終結(jié)果。
2結(jié)果
2.13種GAI在口腔醫(yī)學多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)比較
2.1.1臨床文書撰寫和圖片制作
在臨床文書撰寫和圖片制作方面,3種GAI的應(yīng)用價值評分從高到低分別為Gemini、文心一言、ChatGPT(表1)。
2.1.2科研輔助能力
在科研輔助方面,3種GAI的應(yīng)用價值評分從高到低分別為Germini、文心一言、ChatGPT(表2)。
2.1.3教學輔助能力
在教學輔助方面,3種GAI的應(yīng)用價值評分從高到低分別為:文心一言、Gemini和ChatGPT(表3)。
2.1.4患者咨詢和導診
在患者咨詢和導診方面,3種GAI的應(yīng)用價值評分從高到低分別為Gemini、文心一言、ChatG-PT(表4)。
2.1.5總分
3種GAI在不同問題類別中的總分見表5,在口腔相關(guān)領(lǐng)域應(yīng)用價值由高到低依次為Gemini、文心一言、ChatGPT。
2.2GAI在不同應(yīng)用場景中使用價值的調(diào)查
GAI在不同應(yīng)用場景的價值評分見表6。得分最高的3項為文章翻譯潤色、醫(yī)患溝通文案撰寫和科普文章文案撰寫,分別為26、23、23分;得分最低的2項為指定文獻的搜索匯報和圖片生成,分別為13和12分。
3討論
近年來,GAI在自然語言處理領(lǐng)域取得了突破性進展,展現(xiàn)出與人類流暢對話和生成連貫文本的能力,并在生物醫(yī)學領(lǐng)域引起了廣泛關(guān)注。眾多研究者致力于探索人工智能工具在醫(yī)學臨床、科研、教學等領(lǐng)域的應(yīng)用,取得了豐富的成果。多種GAI模型已在口腔醫(yī)學領(lǐng)域得到初步應(yīng)用。然而,且前并未見GAI在口腔醫(yī)學領(lǐng)域應(yīng)用價值的研究。鑒于此,本研究選取了國內(nèi)外具有代表性的3種GAI模型進行測試,旨在探究它們在口腔醫(yī)療領(lǐng)域中的最佳應(yīng)用效果。
ChatGPT作為OpenAI公司于2022年底推出的大型語言模型聊天機器人,以GAI為技術(shù)基礎(chǔ),已廣泛應(yīng)用于對話系統(tǒng)、文本摘要和機器翻譯等領(lǐng)域。ChatGPT的出現(xiàn)標志著自然語言處理領(lǐng)域的一大飛躍。2023年2月,谷歌推出了自己的GAI模型Bard,同年12月,谷歌發(fā)布了新型多模態(tài)模型Gemini,并開始了與Bard的整合與升級,并在2024年2月正式將Bard模型改名為Gemini。在國內(nèi),GAI領(lǐng)域仍處于追趕階段。多家廠商紛紛宣布推出自己的人工智能大語言模型,其中百度于2023年8月開放訪問的文心一言大語言模型備受矚目。為全面評估各模型性能,本文將上述3種模型應(yīng)用于口腔醫(yī)學領(lǐng)域,對其進行比較和分析,驗證其與專業(yè)醫(yī)生專業(yè)能力、思維方式等方面的差異。
醫(yī)患溝通是臨床工作中非常重要的環(huán)節(jié),直接關(guān)系到診療過程能否順利推進,良好的醫(yī)患溝通能力是每一名口腔醫(yī)生都應(yīng)該具備的專業(yè)素養(yǎng)。但在日常工作中,由于患者數(shù)量龐大,醫(yī)生有時無法做到充分的醫(yī)患溝通。此外,醫(yī)生還需要承擔部分宣傳、科普、病歷書寫等一系列任務(wù),這都將分散醫(yī)生真正投入治療的時間與精力。隨著GAI的逐步發(fā)展,通過這一工具減輕口腔醫(yī)生工作量的可能性逐步提升,為此本研究設(shè)置了一系列問題以驗證可行性。結(jié)果表明:在涉及文案撰寫生成的題目中,文心一言表現(xiàn)最佳(2項第一、1項并列第一、2項第二),這可能與其有中文訓練、擁有最佳的中文支持度有關(guān)。然而,在臨床方向的總體評分中,文心一言仍低予Gemini,因為文心一言在一道圖片生成題目和一道信息搜索題目中均得分較低,而Gemini則在這兩個問題中均獲得了最高分。這可能與文心一言多模態(tài)能力不足、無法聯(lián)網(wǎng)搜索有關(guān)。雖然文心一言能夠根據(jù)關(guān)鍵詞生成一些簡單的圖片,但這些圖片可靠性不高。其主要原因是無法聯(lián)網(wǎng)搜索導致文心一言只能依賴其內(nèi)置的數(shù)據(jù)庫,因其數(shù)據(jù)庫在內(nèi)容量、時效性等方面尚存在問題,致使文心一言的部分答案不系統(tǒng)、不準確與不適用。
在科研工作中,文獻的精準檢索與閱讀是開展研究工作的基礎(chǔ)之一,借助人工智能工具快速完成文獻篩選與內(nèi)容閱讀能夠極大提高科研前期工作效率。本研究的結(jié)果顯示:人工智能工具確實可以協(xié)助科研工作者完成部分前期文獻搜集閱讀工作,在指定方向的論文檢索中,ChatGPT能夠根據(jù)關(guān)鍵詞在PubMed網(wǎng)上檢索相關(guān)論文并提供鏈接,Genmini則能夠從更多的網(wǎng)站中檢索內(nèi)容,兩者也能在一定程度上完成相關(guān)文獻內(nèi)容的閱讀、翻譯與總結(jié),對于科研工作者可提供部分幫助。由于無法聯(lián)網(wǎng)搜索,文心一言只能夠從其內(nèi)置數(shù)據(jù)庫中檢索內(nèi)容,而這種非及時更新的搜索結(jié)果很難真正幫助到研究人員。與此同時,無法聯(lián)網(wǎng)也意味著對于指定論文的檢索、閱讀、翻譯與總結(jié)等任務(wù)幾乎無法完成。
撰寫綜述和課題申請書也是重要的科研工作,因此,本研究設(shè)計了相關(guān)測試。結(jié)果表明,在內(nèi)容撰寫方面,無論是綜述還是課題申請書,三者都無法直接生成完整的、可用的內(nèi)容,而只能以大綱的形式完成回答。經(jīng)過評估,3種GAI生成大綱均有一定的參考價值,可為科研工作者提供一定的指導和幫助。在上述場景中,Oemini的表現(xiàn)最佳。
研究人員在論文寫作時為了完成一篇高水平的文章常需要花費更多的時間在潤色和翻譯等語言工作,這對于非英語母語的人來說往往意味著花費更多的時間。GAI為此提供了新的方法,本研究采用中文文獻輸入GAI中進行文章潤色,結(jié)果顯示文心一言完成最好,其內(nèi)容可以基本滿足文章投稿的要求。
教學工作常從教案書寫與教學PPT的制作開始,與上文中文案撰寫與提綱設(shè)計的題目類似,GAI的回答依舊有一定的參考價值,文心一言在這一部分中依舊憑借高中文支持度表現(xiàn)最佳。值得注意的是,在涉及到專業(yè)相關(guān)知識的簡單問題中,GAI雖然可以完成簡單的答疑工作,但其回答中仍不時存在錯誤,不能替代教師的工作,在使用時需要特別謹慎。在涉及到邏輯推斷和比較的問題中,3種GAI均表現(xiàn)不佳。在涉及到圖片生成的題目中,針對明確規(guī)定了要求的圖片,僅Gemini在網(wǎng)絡(luò)中找到了合適的模板并成功繪制出具有應(yīng)用價值的圖片,這再次驗證了其多模態(tài)的優(yōu)勢。
對于患者來說,優(yōu)質(zhì)的診前咨詢能夠最大程度地減少由于選錯醫(yī)院或科室而帶來的時間成本,也有助于患者和家屬加強對疾病、治療和預(yù)后的了解。GAI全天候在線、及時回復(fù)、較低使用成本的優(yōu)勢能夠為滿足患者及時診療的需求提供新的選擇。與第一部分研究結(jié)果類似,在文案生成類的題目中,文心一言與Gemini均表現(xiàn)良好。但當涉及到邏輯推斷與比較時(如醫(yī)院選擇、導醫(yī)、治療方案咨詢等),文心一言往往不能得出最合理的答案,而Gemuu的回答仍具有較高的參考價值。
綜上所述,在中文環(huán)境下口腔醫(yī)學領(lǐng)域的應(yīng)用中,3種GAI的總體使用價值從高到低依次為Gemini、文心一言、ChatGPT。Gemini在專業(yè)知識介紹、信息檢索、文獻檢索與翻譯、圖片生成方面表現(xiàn)最佳,在各類文案、大綱生成方面的問題,其能力也僅稍弱于文心一言。這與其較高的中文支持度、優(yōu)秀的多模態(tài)性能及強大的互聯(lián)網(wǎng)搜索能力相關(guān)。文心一言在涉及到中文文案內(nèi)容生成、中英文互譯的題目中表現(xiàn)出色,該部分評分高于Gemini,但是由于文心一言多模態(tài)能力較弱且尚未開放聯(lián)網(wǎng)搜索功能,其在涉及圖片生成及無法從其數(shù)據(jù)庫中獲得答案的題目時表現(xiàn)不佳。ChatGPT總體來看對于中文的支持度并不高,與其他2種GAI相比優(yōu)勢并不突出。
在上述研究基礎(chǔ)上,本研究還對GAI在口腔醫(yī)學各應(yīng)用場景中的使用價值進行了調(diào)查,結(jié)果顯示:在醫(yī)療文書書寫方面,GAI能夠提取關(guān)鍵信息并完善基本結(jié)構(gòu),具體細節(jié)經(jīng)醫(yī)務(wù)人員校對修改后即可使用。在醫(yī)患溝通文案撰寫環(huán)節(jié),GAI能較系統(tǒng)、全面地提供信息,基本滿足患者需求,經(jīng)醫(yī)務(wù)人員微調(diào)后即可使用。在科普宣傳方面,OAI能全面撰寫相關(guān)內(nèi)容并提供圖片供參考,語法邏輯通順,易于閱讀。然而,在圖片生成方面,3種GAI中僅Gemini可通過互聯(lián)網(wǎng)直接引用部分圖片,但仍有待完善。在專業(yè)知識問答環(huán)節(jié)中,GAI提供的內(nèi)容具有一定的參考價值,但可靠性仍存在一定問題,需要專業(yè)人員認真校對。文獻檢索匯報方面,GAI整體表現(xiàn)較差,甚至存在無法檢索或虛構(gòu)的情況,缺乏實用價值。在文章翻譯潤色方面,GAI表現(xiàn)良好,尤其是文心一言,對研究者具有實際價值。在項目申請撰寫、教學設(shè)計和醫(yī)療咨詢導診方面,GAI雖能提供一定的參考,但內(nèi)容中可能存在的紕漏及虛構(gòu),需使用者認真查證。
總體來看,GAI在醫(yī)患溝通、科普宣傳與文獻翻譯潤色方面能提供較大幫助;在涉及專業(yè)知識及實際操作的領(lǐng)域,其幫助有限,僅可作為參考。因此,在使用GAI時,特別是在涉及專業(yè)知識的方面,使用者需保持警惕,審慎對待其生成的內(nèi)容。
目前人工智能評價體系可以分為客觀評價和主觀評價。前者包括準確性、速度、可靠性和靈活性等。這些指標能夠直接反映人工智能系統(tǒng)在處理任務(wù)時的性能和質(zhì)量。后者則包括界面的友好性、功能的實用性、系統(tǒng)的穩(wěn)定性以及整體的用戶體驗等,能夠集中反映人工智能系統(tǒng)在特定場景的應(yīng)用價值。本研究的目的是比較3種GAI在中文語境下口腔醫(yī)學領(lǐng)域的應(yīng)用價值及其存在的問題,因此選擇了主觀評價方案。具體來說,本研究選用了李斯特量表對3種人工智能工具進行評價。李斯特量表是由美國社會心理學家倫斯·李斯特(Rensis Likert)于1932年提出的,它是一種評分加總式量表,其設(shè)計目的是測量態(tài)度、看法或者感受等。李斯特量表最初是為心理學和社會科學研究設(shè)計的,但其評分和衡量態(tài)度的機制近年來被廣泛用于軟件和人工智能工具的評價。
雖然本研究證明了GAI在口腔醫(yī)學領(lǐng)域的廣闊應(yīng)用前景,但也應(yīng)注意,GAI在倫理和學術(shù)不端方面存在的問題日益凸顯。這主要源于其強大的內(nèi)容生成能力和可能帶來的誤導性影響。本研究的結(jié)果也證明了這一點,對于少數(shù)問題,GAI生成的內(nèi)容可能不準確或誤導用戶。在學術(shù)不端方面,GAI的濫用也已成為一個不能忽視的問題。一些學生和研究人員可能利用AII具進行論文和課程作業(yè)的抄襲,這不僅損害了學術(shù)誠信,也阻礙了知識的創(chuàng)新和進步。因此,針對GAI在口腔醫(yī)學的應(yīng)用,必須通過加強倫理考量、建立嚴格的學術(shù)規(guī)范和監(jiān)管機制、加強跨學科合作與交流以及關(guān)注可持續(xù)發(fā)展等方法,才能確保GAI的健康發(fā)展。另外,人工智能模型發(fā)展迅速,不斷更新,但模型的版本之間具有連貫性,讀者依舊可以參考本研究對更新內(nèi)容進行評估,選取合適的模型使用。
綜上所述,在口腔醫(yī)學領(lǐng)域應(yīng)用價值從高到低依次為Gemini、文心一言、ChatGPT??傮w來看,GAI在翻譯潤色、醫(yī)患溝通文案撰寫和科普文章撰寫方面有較大的應(yīng)用價值,在指定文獻的搜索匯報和圖片生成方面的應(yīng)用價值最低。
利益沖突聲明:作者聲明本文無利益沖突。