摘 要:本文從生成式人工智能視角出發(fā),研究ChatGPT-4o在醫(yī)學(xué)論文同行評(píng)議中的應(yīng)用潛力與局限性,通過對(duì)2021—2023年間投稿至《內(nèi)科理論與實(shí)踐》雜志的50篇醫(yī)學(xué)論文進(jìn)行評(píng)審,并與38位醫(yī)學(xué)專家的評(píng)審意見進(jìn)行對(duì)比發(fā)現(xiàn),盡管生成式人工智能能夠提供一致性較高的評(píng)審意見并提高評(píng)審效率,但在專業(yè)領(lǐng)域知識(shí)的深度和廣度上仍存在不足,難以完全替代人類審稿人的專業(yè)判斷,今后,應(yīng)進(jìn)一步優(yōu)化AI技術(shù)并制定明確的規(guī)范和標(biāo)準(zhǔn),以確保其發(fā)揮最大作用。
關(guān)鍵詞: ChatGPT;醫(yī)學(xué)論文;同行評(píng)議;潛力與局限
中圖分類號(hào): G237. 5 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1672-8122 (2025) 02-0064-06
基金項(xiàng)目:上海市高??萍计诳芯炕痦?xiàng)目:“生成式人工智能在醫(yī)學(xué)論文同行評(píng)議中的實(shí)證研究”(SHGX2024A09);上海交通大學(xué)期刊中心期刊發(fā)展研究基金項(xiàng)目:“感染病學(xué)領(lǐng)域撤回論文特征及其被引用情況分析”(QK-A-2024016)。
人工智能(Artificial Intelligence)和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步推動(dòng)了包括學(xué)術(shù)界在內(nèi)的各個(gè)領(lǐng)域發(fā)展。自2022年11月OpenAI公司的ChatGPT向公眾開放以來,已經(jīng)被應(yīng)用在各種不同場(chǎng)合。ChatGPT能夠分析和回答問題,并且無需經(jīng)過專門訓(xùn)練或?qū)W習(xí)就能通過一些國家的執(zhí)業(yè)醫(yī)師資格考試。Sabry通過ChatGPT分析1例急性有機(jī)磷中毒的臨床病例發(fā)現(xiàn), ChatGPT能夠回答該病例的所有相關(guān)問題[1]。Laha的研究認(rèn)為大型語言模型可能成為胃腸病學(xué)領(lǐng)域研究的有用工具[2]。Gupta等要求ChatGPT針對(duì)整形外科的12個(gè)不同主題提出系統(tǒng)綜述想法,其整體準(zhǔn)確率為55%[3]。Johnson比較了ChatGPT與NCI (National Cancer Institute)關(guān)于腫瘤學(xué)問題回答的準(zhǔn)確性,經(jīng)專家評(píng)審, NCI的準(zhǔn)確性總體一致率為100%, ChatGPT為96. 9%[4]??傊斯ぶ悄芡ㄟ^識(shí)別大量數(shù)據(jù)及其相關(guān)性來產(chǎn)生醫(yī)學(xué)領(lǐng)域的新見解,這表明其有助于醫(yī)學(xué)教育的發(fā)展,也有助于醫(yī)學(xué)臨床決策。
近年來,科學(xué)研究成果的數(shù)量和出版速度的迅速增長給同行評(píng)議帶來了挑戰(zhàn)[5]。特別是在時(shí)間限制和同行評(píng)議質(zhì)量保證方面,評(píng)審者面臨著日益沉重的負(fù)擔(dān)。如何在保證同行評(píng)議質(zhì)量的同時(shí),減輕評(píng)審者的壓力,提高工作效率,成為當(dāng)前亟需解決的問題。就醫(yī)學(xué)論文評(píng)審員而言,他們的選擇容易受到多種主客觀因素的影響,且由于專業(yè)背景、學(xué)術(shù)水平、研究興趣、審稿經(jīng)驗(yàn)?zāi)酥羵€(gè)人主觀傾向都存在差異,對(duì)于同一篇論文,不同的評(píng)審人會(huì)給出截然不同的評(píng)審結(jié)果[6]。對(duì)于醫(yī)學(xué)期刊而言,由于醫(yī)學(xué)論文直接關(guān)系到人類的疾病和健康問題,對(duì)于評(píng)審結(jié)果的嚴(yán)謹(jǐn)性和公正性要求往往較高。世界醫(yī)學(xué)編輯協(xié)會(huì)(World Association of Medical Editor)指出, ChatGPT可用于稿件評(píng)審環(huán)節(jié)[7]。AI模型是工具,不應(yīng)取代評(píng)審人的專業(yè)知識(shí)和判斷,但能夠幫助評(píng)審人提高評(píng)審質(zhì)量,幫助內(nèi)容把關(guān),并針對(duì)論文的特定部分提供有意義的反饋[8]。ChatGPT等生成式AI能夠處理大量文本,并為單個(gè)句子和文檔提供準(zhǔn)確的語言使用指標(biāo),當(dāng)作為評(píng)審人的補(bǔ)充和輔助工具時(shí),有助于提高科學(xué)期刊的整體質(zhì)量和公平性[9]。
目前,學(xué)界對(duì)生成式AI在醫(yī)學(xué)論文評(píng)審中的應(yīng)用研究較少,為探索其應(yīng)用潛力和局限性,并為未來的應(yīng)用提供實(shí)證依據(jù)和參考建議,本研究采用ChatGPT-4o對(duì)50篇醫(yī)學(xué)論文進(jìn)行評(píng)審,并與醫(yī)學(xué)專家的評(píng)審意見進(jìn)行對(duì)比分析,深入探究ChatGPT在醫(yī)學(xué)研究評(píng)審中的潛力和局限性。
一、材料與方法
(一)研究對(duì)象
篩選2021—2023年間投稿至《內(nèi)科理論與實(shí)踐》雜志并經(jīng)過雙盲評(píng)審后結(jié)果為錄用或退稿的論文共50篇,包括論著、綜述、病例報(bào)告3種欄目形式,分別為22篇、19篇和9篇,其中論著類論文錄用稿11篇,退稿11篇;綜述類論文錄用稿12篇,退稿7篇;病例報(bào)告類論文錄用稿7篇,退稿2篇。論文涉及消化、呼吸、心血管、腎臟、內(nèi)分泌、血液、神經(jīng)等多個(gè)內(nèi)科學(xué)科。共38位評(píng)審人,其中3位評(píng)審篇數(shù)為3篇, 6位評(píng)審篇數(shù)為2篇,其余均評(píng)審1篇。納入標(biāo)準(zhǔn): 1.評(píng)審人為高級(jí)職稱醫(yī)學(xué)專家,在其領(lǐng)域擁有豐富的研究經(jīng)驗(yàn)和較高的學(xué)術(shù)地位,評(píng)審結(jié)果為錄用或退稿; 2.評(píng)審意見全面且內(nèi)容詳細(xì),條理清楚。排除標(biāo)準(zhǔn): 1.論文形式不屬于論著、綜述或病例報(bào)告; 2.評(píng)審意見簡(jiǎn)短或無描述內(nèi)容。
(二)研究方法
首先,按照《內(nèi)科理論與實(shí)踐》雜志采用的論文評(píng)審模式,對(duì)ChatGPT的評(píng)審?fù)瑯訉?shí)行評(píng)分制,并附帶詳盡具體的評(píng)審意見。其次,采用交互式問答的方式通過ChatGPT-4o對(duì)每篇論文進(jìn)行評(píng)審,上傳論文前刪除作者及其單位等信息以及其他敏感內(nèi)容,記錄評(píng)審結(jié)果,與評(píng)審人意見進(jìn)行對(duì)比,比較相似點(diǎn)和不同點(diǎn)。最后,評(píng)審人和ChatGPT-4o對(duì)所有論文針對(duì)不同欄目形式,從15個(gè)維度進(jìn)行評(píng)分,每個(gè)維度設(shè)定分值為0~5分,總分75分,具體見表1。
交互式問答具體采取兩個(gè)步驟:首先賦予ChatGPT-4o一個(gè)身份,然后根據(jù)每篇論文所屬專業(yè)分別在對(duì)話框輸入指令。例如,“你現(xiàn)在是一位心血管/消化/血液……醫(yī)學(xué)領(lǐng)域的知名權(quán)威專家,請(qǐng)根據(jù)你的專業(yè)知識(shí)對(duì)文章的科學(xué)性、創(chuàng)新性、合理性從以下15個(gè)維度公平公正地評(píng)分,每項(xiàng)0~ 5分,并附帶詳盡具體的意見和建議?!逼浯?,將每篇論文的各項(xiàng)評(píng)分及總分錄入Excel表中。
(三)統(tǒng)計(jì)學(xué)方法
借助SPSS 22. 0對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析,采用Pearson相關(guān)系數(shù)對(duì)審稿人評(píng)分和ChatGPT評(píng)分總分進(jìn)行一致性分析,并參考Kappa系數(shù)對(duì)15個(gè)維度評(píng)審人評(píng)分和ChatGPT評(píng)分的一致性進(jìn)行分析, Kappa系數(shù)0. 81~1. 00為高一致性, 0. 61~ 0. 80為較高一致性, 0. 41~ 0. 60為中等一致性, 0. 21 ~ 0. 40為較低一致性, 0~0. 20為較差一致性。以P<0. 05為差異具有統(tǒng)計(jì)學(xué)意義。
二、結(jié) 果
(一)審稿人和ChatGPT-4o對(duì)論文的評(píng)分比較
ChatGPT-4o的評(píng)分普遍比評(píng)審人高。ChatGPT-4o評(píng)分最低是54分,最高是75分,大多數(shù)在60分以上;審稿人評(píng)分最低29分,最高71分。ChatGPT-4o的評(píng)分波動(dòng)較小,一般每個(gè)維度都在3分以上,而評(píng)審人對(duì)某一維度評(píng)分會(huì)低于3分,甚至為0分。不同評(píng)審人的評(píng)分在不同維度和不同論文之間存在較大差異。審稿人和ChatGPT-4o對(duì)論文的評(píng)分總分情況見表2。
(二)審稿人評(píng)分和ChatGPT-4o評(píng)分的一致性比較
對(duì)審稿人評(píng)分和ChatGPT-4o評(píng)分進(jìn)行一致性分析, Pearson相關(guān)系數(shù)為0. 85, P = 0. 0001,表明兩者整體一致性較好。
對(duì)15個(gè)維度審稿人評(píng)分和ChatGPT-4o評(píng)分的一致性分析,結(jié)果見表3。維度1、2和8 Kappa系數(shù)均超過了0. 6,表明這3個(gè)維度一致性較高。即在“研究是否明確和重要”(論著)、“綜述的范圍是否明確”(綜述)、“病例是否具有獨(dú)特性”(病例報(bào)告)等方面通?;诿鞔_的標(biāo)準(zhǔn)或特征進(jìn)行評(píng)估。因此,審稿人和ChatGPT-4o的評(píng)分較一致。維度3、4、5、7、9、10、11和12一致性中等。這表明“研究設(shè)計(jì)是否合理”(論著)、“是否有新觀點(diǎn)”(綜述)以及“病例描述是否清晰詳細(xì)”(病例報(bào)告)等方面需要根據(jù)研究或病例的實(shí)際情況進(jìn)行綜合判斷,涉及的專業(yè)性較強(qiáng),有更多的主觀判斷或復(fù)雜因素。維度6、13、15一致性較低,表明“結(jié)果是否清晰展示”(論著)和“是否對(duì)不同研究的結(jié)果進(jìn)行比較和綜合”(綜述)等的標(biāo)準(zhǔn)不統(tǒng)一,對(duì)結(jié)果關(guān)注的傾向不同?!爸委煼椒ㄊ欠窈线m”(病例報(bào)告)涉及的專業(yè)性較強(qiáng)。維度14的Kappa系數(shù)為0. 2,一致性較差?!靶g(shù)語使用是否準(zhǔn)確”這一方面因術(shù)語定義的多樣性、對(duì)專業(yè)背景的要求和知識(shí)差異等導(dǎo)致不一致性較差。
(三)針對(duì)不同欄目論文評(píng)審人和ChatGPT-4o評(píng)審差異實(shí)證比較
分別選取論著、綜述、病例報(bào)告各2篇(錄用稿1篇,退稿1篇),對(duì)每篇論文評(píng)審人和ChatGPT-4o評(píng)審意見差異進(jìn)行對(duì)比??紤]到ChatGPT-4o評(píng)審意見的篇幅過長,刪除對(duì)論文的優(yōu)點(diǎn)評(píng)價(jià)內(nèi)容,僅展示需要改進(jìn)部分的建議。
1.論著論文評(píng)審差異實(shí)證分析
論文27,評(píng)審人評(píng)分為47分,評(píng)審結(jié)果為退稿, ChatGPT-4o評(píng)分為67分。在多個(gè)關(guān)鍵維度上,如研究設(shè)計(jì)、設(shè)計(jì)合理性、研究結(jié)果清晰度和結(jié)果解釋等方面,評(píng)審人指出了論文存在設(shè)計(jì)缺陷、結(jié)果重疊較多以及缺乏臨床意義等不足,并據(jù)此提出了退稿意見。ChatGPT-4o則在這些方面給出了較高的評(píng)分,認(rèn)為研究設(shè)計(jì)明確、設(shè)計(jì)合理、研究結(jié)果清晰且解釋合理。
論文33,評(píng)審人評(píng)分為70分,評(píng)審結(jié)果為錄用, ChatGPT-4o評(píng)分為71分。評(píng)審人普遍認(rèn)可論文的臨床意義和刊載價(jià)值,同時(shí),還提出了一些具體的改進(jìn)建議,如通過詳細(xì)說明病人的臨床資料、補(bǔ)充說明具體的搶救措施、增加樣本量和進(jìn)行多中心研究等方式,提高論文的學(xué)術(shù)水平和可信度。ChatGPT-4o的意見與評(píng)審人相似,也強(qiáng)調(diào)了論文的臨床價(jià)值和重要性,同時(shí),提出了一些具體的建議,如詳細(xì)描述統(tǒng)計(jì)方法、增加圖表說明、結(jié)合更多預(yù)測(cè)工具提高預(yù)測(cè)準(zhǔn)確性等,以進(jìn)一步提升論文的質(zhì)量和可讀性。
2.綜述論文評(píng)審差異實(shí)證分析
論文5,評(píng)審人評(píng)分為47分,評(píng)審結(jié)果為退稿, ChatGPT-4o評(píng)分為64分。被退稿的主要原因是評(píng)審人認(rèn)為研究內(nèi)容簡(jiǎn)單、文章標(biāo)題與內(nèi)容不符,綜述內(nèi)容與發(fā)病機(jī)制幾乎無關(guān),對(duì)同行參考價(jià)值不大。ChatGPT-4o則強(qiáng)調(diào)文章的結(jié)構(gòu)和可讀性,注重簡(jiǎn)化語句來提高文章的精煉度和流暢性,增加圖表以便直觀地理解數(shù)據(jù)。
論文7,評(píng)審人評(píng)分為61分,評(píng)審結(jié)果為錄用, ChatGPT-4o評(píng)分為66分。評(píng)審人主要關(guān)注論文內(nèi)容的清晰度、具體數(shù)據(jù)的補(bǔ)充、基因變化的描述以及目的明確性等方面,并對(duì)此提出了一些具體的改進(jìn)建議,同時(shí),還多次建議增加未來研究方向,以增強(qiáng)論文的應(yīng)用價(jià)值。ChatGPT-4o對(duì)論文的整體評(píng)價(jià)較高,認(rèn)為內(nèi)容全面、邏輯清晰、結(jié)構(gòu)合理,并給出了較高的評(píng)分,也提出了一些改進(jìn)建議,如增加近三年的研究文獻(xiàn)引用量,以增強(qiáng)文章的前沿性,增加對(duì)圖表數(shù)據(jù)的深入分析、簡(jiǎn)化冗長句子等,以提升論文的質(zhì)量和可讀性。
3.病例報(bào)告論文評(píng)審差異實(shí)證分析
論文47,評(píng)審人評(píng)分為56分,評(píng)審結(jié)果為退稿, ChatGPT-4o評(píng)分為68分。在這篇論文中,評(píng)審人提出疾病名稱應(yīng)規(guī)范和準(zhǔn)確,應(yīng)提供更加詳細(xì)的檢查結(jié)果用以診斷和鑒別診斷。針對(duì)討論部分的具體錯(cuò)誤,評(píng)審人側(cè)重于內(nèi)容的準(zhǔn)確性和科學(xué)性,提出的改進(jìn)方向更具體。ChatGPT-4o的意見更為宏觀,強(qiáng)調(diào)內(nèi)容的可讀性,提出應(yīng)從總體結(jié)構(gòu)和表達(dá)方式方面進(jìn)行改進(jìn)。
論文49,評(píng)審人評(píng)分為68分,評(píng)審結(jié)果為錄用, ChatGPT-4o評(píng)分為68分。評(píng)審人主要關(guān)注論文的臨床意義、診療步驟的清晰度、支持的證據(jù)以及未來研究方向等方面。ChatGPT-4o則更注重論文的全面性和邏輯性,認(rèn)為論文的文獻(xiàn)綜述較全面,但部分內(nèi)容存在重復(fù)問題。此外, ChatGPT-4o也建議文章增加對(duì)未來研究方向的探討。
三、生成式AI在醫(yī)學(xué)論文評(píng)審中的優(yōu)勢(shì)和不足
(一)優(yōu)勢(shì)
1.生成和處理大量文本的能力
文本生成是AI和自然語言處理的重要研究領(lǐng)域,為AI生成內(nèi)容的快速發(fā)展提供了關(guān)鍵技術(shù)支撐[10]。文本生成是指基于自然語言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),通過訓(xùn)練模型學(xué)習(xí)語言規(guī)則,自動(dòng)生成符合語法和語義要求的文本。生成式AI能夠在較短的時(shí)間內(nèi)處理大量文本信息,分析并評(píng)估論文的多個(gè)維度,包括研究設(shè)計(jì)、數(shù)據(jù)質(zhì)量、創(chuàng)新性、學(xué)術(shù)價(jià)值等[11]。醫(yī)學(xué)論文內(nèi)容繁多且復(fù)雜,生成式AI能夠快速閱讀、理解并提供詳細(xì)反饋,能提取關(guān)鍵信息,并識(shí)別其中的核心觀點(diǎn)和結(jié)論,不僅包括對(duì)文章內(nèi)容的理解,還涵蓋對(duì)數(shù)據(jù)和實(shí)驗(yàn)結(jié)果的詳細(xì)分析,從而大幅提高了評(píng)審的效率。
2.提供客觀一致的評(píng)審標(biāo)準(zhǔn)
目前,醫(yī)學(xué)論文的評(píng)審過程雖然存在不足,但其重要性毋庸置疑。生成式AI能夠依據(jù)固定的算法和標(biāo)準(zhǔn),增強(qiáng)評(píng)審的一致性和公正性,這有助于減少因評(píng)審人背景、經(jīng)驗(yàn)和研究方向的不同導(dǎo)致評(píng)審結(jié)果產(chǎn)生主觀偏差,從而保證學(xué)術(shù)評(píng)審的公正性[12]。
3.輔助審稿人提高評(píng)審質(zhì)量
Saad選取21篇經(jīng)過同行評(píng)議的研究文章,分別由兩位人類評(píng)審員以及ChatGPT的3. 5和4. 0版本進(jìn)行評(píng)審,采用5級(jí)李克特量表比較人類和AI的評(píng)審結(jié)果,結(jié)果顯示, ChatGPT 3. 5與人類評(píng)審員評(píng)分之間的相關(guān)性具有顯著差異,但ChatGPT 4. 0則不然[13]。本研究對(duì)50篇論文進(jìn)行評(píng)審人和AI打分一致性分析, Pearson相關(guān)系數(shù)為0. 85。進(jìn)一步對(duì)15個(gè)維度審稿人評(píng)分和ChatGPT-4o評(píng)分的一致性分析顯示,維度1、2和8一致性較高,維度3、4、5、7、9、10、11和12一致性中等,維度6、13、15一致性較低,維度14一致性較差。雖然生成式AI不能完全取代審稿人的專業(yè)知識(shí)和判斷,但可以識(shí)別論文的邏輯錯(cuò)誤、語言問題和數(shù)據(jù)不足等,如指出論文中的數(shù)據(jù)分析方法是否恰當(dāng)、結(jié)果展示是否清晰、討論部分是否合理,從而幫助審稿人全面地理解論文,提高評(píng)審的準(zhǔn)確性和質(zhì)量。
4.有助于優(yōu)化評(píng)審流程
生成式AI可通過自動(dòng)篩選、分類和初步評(píng)估論文,從而優(yōu)化評(píng)審流程。例如, AI能夠識(shí)別和過濾掉不符合期刊或會(huì)議基本要求的論文,從而減輕審稿人的評(píng)審壓力[14]。ChatGPT-4o在篩選和分類文獻(xiàn)時(shí),其速度比人類評(píng)審快了21倍,并且在敏感性和負(fù)面預(yù)測(cè)值方面表現(xiàn)優(yōu)異[15]。生成式AI能夠根據(jù)設(shè)定的評(píng)審標(biāo)準(zhǔn)進(jìn)行初步評(píng)估,提供關(guān)于論文質(zhì)量和創(chuàng)新性的初步意見,使審稿人有更多時(shí)間和精力關(guān)注論文的學(xué)術(shù)內(nèi)容和創(chuàng)新點(diǎn),顯著提高評(píng)審效率,縮短論文的評(píng)審周期[16]。生成式人工智能技術(shù)的應(yīng)用使得更多論文能夠在較短時(shí)間內(nèi)得到評(píng)審和反饋,從而加快了研究成果的傳播和應(yīng)用。這對(duì)于快速發(fā)展的醫(yī)學(xué)研究領(lǐng)域尤為重要,有助于推動(dòng)科學(xué)進(jìn)步和技術(shù)創(chuàng)新。
(二)不足
1.醫(yī)學(xué)專業(yè)領(lǐng)域知識(shí)的不足
2.存在生成帶有偏見或不準(zhǔn)確評(píng)審意見的情況
ChatGPT-4o必須依賴其知識(shí)生成答案,所以會(huì)受到訓(xùn)練偏差的強(qiáng)烈影響。此外,當(dāng)ChatGPT無法明確識(shí)別具體問題的答案時(shí)可能會(huì)出現(xiàn)錯(cuò)誤。Bahak[17]對(duì)ChatGPT作為問答系統(tǒng)進(jìn)行了全面分析,探討了包括回答幻覺、問題復(fù)雜性以及上下文的影響。結(jié)果顯示, ChatGPT在回答較簡(jiǎn)單的事實(shí)性問題時(shí)表現(xiàn)出色,然而,對(duì)于較復(fù)雜的“如何”和“為什么”類型問題,依然有待提高。
3.安全和隱私方面的風(fēng)險(xiǎn)
生成式AI模型能夠訓(xùn)練于多模態(tài)患者數(shù)據(jù),但是,收集和處理敏感患者數(shù)據(jù)以及模型訓(xùn)練、模型構(gòu)建和生成型AI系統(tǒng)實(shí)施的任務(wù)中都會(huì)存在潛在的安全和隱私風(fēng)險(xiǎn)。由于醫(yī)療數(shù)據(jù)本身具有高度敏感的特性,任何風(fēng)險(xiǎn)都會(huì)帶來嚴(yán)重后果。這不僅包括數(shù)據(jù)泄露,還涉及患者信任的喪失和對(duì)醫(yī)療機(jī)構(gòu)可靠性的質(zhì)疑[18]。即使是數(shù)據(jù)中的匿名化模式,如果模型在訓(xùn)練后處理不當(dāng),也可能重新識(shí)別個(gè)體。例如,醫(yī)學(xué)圖像分析,由于訓(xùn)練過程中使用了大量圖像數(shù)據(jù),匿名后的醫(yī)學(xué)圖像也可能借助人工智能的圖像分析功能再次被識(shí)別[19]。
4.道德和學(xué)術(shù)誠信方面的挑戰(zhàn)
生成式AI的發(fā)展與應(yīng)用也帶來了道德和學(xué)術(shù)誠信方面的挑戰(zhàn)。例如,要確保AI模型在評(píng)審過程中不偏袒任何作者或機(jī)構(gòu),就要對(duì)其訓(xùn)練數(shù)據(jù)和算法設(shè)計(jì)進(jìn)行慎重選擇,以避免潛在的偏見。訓(xùn)練數(shù)據(jù)應(yīng)涵蓋多樣化的來源,確保模型不會(huì)偏向特定的機(jī)構(gòu)或國家。此外,透明的算法設(shè)計(jì)和開放的模型審查機(jī)制有助于檢測(cè)和糾正可能存在的偏見[14]。為了預(yù)防AI模型的評(píng)審結(jié)果被用于操縱學(xué)術(shù)評(píng)價(jià)體系,應(yīng)制定嚴(yán)格的監(jiān)管和使用規(guī)范,確保AI評(píng)審結(jié)果的公正和可靠。此外,還需充分考慮其道德和學(xué)術(shù)誠信問題,確保AI技術(shù)的應(yīng)用符合倫理標(biāo)準(zhǔn),保護(hù)研究者的權(quán)益和隱私[16]。
5.技術(shù)和實(shí)施方面的限制
目前,生成式AI在同行評(píng)議中的應(yīng)用仍處于初級(jí)階段,面臨著技術(shù)和實(shí)施方面的限制。例如,確保AI模型與現(xiàn)有學(xué)術(shù)出版系統(tǒng)的無縫集成,涉及到技術(shù)兼容性和數(shù)據(jù)互操作性問題[20]。為了對(duì)AI模型的評(píng)審結(jié)果進(jìn)行有效的驗(yàn)證和評(píng)估,必須采用多樣化的數(shù)據(jù)集和多樣的應(yīng)用場(chǎng)景來進(jìn)行測(cè)試,對(duì)AI模型進(jìn)行多層次驗(yàn)證,以評(píng)估其在不同領(lǐng)域和不同類型論文中的表現(xiàn),還要將AI評(píng)審結(jié)果與人類評(píng)審員的結(jié)果進(jìn)行對(duì)比分析,評(píng)估一致性和差異性[21]。通過定期的反饋和調(diào)整,優(yōu)化AI模型的評(píng)審能力,包括對(duì)高質(zhì)量論文的識(shí)別能力(敏感性)以及排除低質(zhì)量論文的能力(特異性),確保其評(píng)審結(jié)果的有效性。
四、結(jié) 語
生成式AI能夠在短時(shí)間內(nèi)處理大量文本,識(shí)別邏輯錯(cuò)誤、語言問題和數(shù)據(jù)不足等常見問題,幫助審稿人更全面地評(píng)估論文的質(zhì)量,從而縮短評(píng)審周期,并通過自動(dòng)化篩選和分類,確保更多高質(zhì)量的醫(yī)學(xué)研究成果得以及時(shí)發(fā)表,其一致性和客觀性有助于減少因評(píng)審人背景差異導(dǎo)致的主觀偏差,確保評(píng)審結(jié)果的公正性和可靠性。
然而,生成式AI在醫(yī)學(xué)專業(yè)領(lǐng)域的深度理解上仍有明顯不足,特別是在評(píng)估研究設(shè)計(jì)的科學(xué)性、臨床意義和創(chuàng)新性等方面,難以完全替代人類審稿人的專業(yè)知識(shí)和判斷。此外,安全和隱私風(fēng)險(xiǎn)也是不容忽視的問題。為確保AI技術(shù)的應(yīng)用符合倫理標(biāo)準(zhǔn),必須建立健全的監(jiān)管機(jī)制,發(fā)揮生成式AI優(yōu)勢(shì),形成更加高效、公正的評(píng)審體系。
參考文獻(xiàn):
[1] Sabry Abdel-Messih M, Kamel Boulos MN. ChatGPT in clinical toxicology [ J]. JMIR Med Educ, 2023,9:e46876.
[2] Lahat A,Shachar E,Avidan B,et al. Evaluating the use of large language model in identifying top research questions in gastroenterology [J]. Sci Rep, 2023,13(1):4164.
[3] Gupta R,Park JB,Bisht C,et al. Expanding cosmetic plastic surgery research with ChatGPT[J]. Aesthet Surg J,2023,43(8):930-937.
[4] Johnson SB,King AJ,Warner EL,et al. Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information[J]. JNCI Cancer Spectr,2023,7(2):pkad015.
[5] 王賢文,張光耀.負(fù)責(zé)任同行評(píng)議:何謂、何以與何為[J].中國科技期刊研究,2022,33(8):1035-1040.
[6] 朱琳峰,李楠,張婷婷.學(xué)術(shù)期刊同行評(píng)議的問題及效率與質(zhì)量提升策略[J].中國科技期刊研究, 2021,32(8):990-997.
[7] World Association of Medical Editors. Chatbots,Generative AI,and Scholarly Manuscripts. WAME Recommendations on Chatbots and Generative Artificial Intelligence in Relation to Scholarly Publications[EB/ OL]. [2023 - 05 - 31]. https:/ / wame. org/ page3. php? id=106.
[8] Kacena MA,Plotkin LI,F(xiàn)ehrenbacher JC. The Use of Artificial Intelligence in Writing Scientific Review Articles[J]. Curr Osteoporos Rep,2024,22(1):115-121.
[9] Yang JF,Jin HY,Tang RX,et al. Harnessing the power of LLMs in practice: a survey on ChatGPT an d beyond[EB/ OL]. [2024- 04- 26]. https:/ / dl. acm. org/ doi/10. 1 145/3649506.
[10] 李冰,楊鵬,孫元康,等.人工智能文本生成的進(jìn)展與挑戰(zhàn)[J].信息與電子工程前沿(英文版)[J]. 2024,25(1):64-83.
[11] 萬小軍.智能文本生成:進(jìn)展與挑戰(zhàn)[J].大數(shù)據(jù), 2023,9(2):99-109.
[12] Mayer c. Navigating the new frontier of generative AI in peer review and academic writing[EB/ OL].[2024 - 04 - 30]. https:/ / uen. pressbooks. pub/ teachingandgenerativeai/ chapter/ navigating - the -new-frontier-of-generative-ai-in-peer-reviewand-academic-writing/ .
[13] Saad A,Jenko N,Ariyaratne S,et al. Exploring the potential of ChatGPT in the peer review process: An observational study[J]. Diabetes Metab Syndr,202 4,18(2):102946.
[14] Alshami A,Elsayed M,Ali E. Harnessing the power of ChatGPT for automating systematic review process: methodology, case study, limitations, and future directions[J]. Systems,2023,11(7):351.
[15] Issaiy M,Ghanaati H,Kolahi S,et al. Methodological insights into ChatGPT’s screening performance in systematic reviews[J]. BMC Med Res Methodol, 2024,24(1):78.
[16] Verharen JP. ChatGPT identifies gender disparities in scientific peer review [ J]. Elife, 2023 ( 12): RP 90230.
[17] Bahak H,Taheri F. Evaluating ChatGPT as a question answering system: a comprehensive analysis and comparison with existing models[EB/ OL]. https:/ / arxiv. org/ abs/2312. 07592,2023-12-11.
[18] Thirunavukarasu AJ,Ting DS,Elangovan K,et al. Large language models in medicine[J]. Nat Med, 2023,29(8):1930-1940.
[19] Kim BN,Dolz J,Jodoin PM,et al. Privacy-net: an adversarial approach for identity - obfuscated segmentation of medical images[J]. IEEE Trans Med Imaging,2021,40(7):1737-1749.
[20] Miao J,Thongprayoon C,Suppadungsuk S,et al. Ethical dilemmas in using AI for academic writing and an example framework for peer review in nephrology academia: a narrative review[J]. Clin Prac t,2023,14(1):89-105.
[21] Brod S, Widyadari A. Peer review week 2023: AI, peer-review,and the future of scientific publishing[EB/ OL]. [2023-09-28]. https:/ / royalsociety. org/ blog/2023/09/ ai-and-the-future-of-scholarlypublishing-2/ .
[責(zé)任編輯:李慕荷]