〔摘要〕目的 探討利用大型語(yǔ)言模型ChatGPT聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域中研究熱點(diǎn)的可行性,旨在加速該領(lǐng)域科學(xué)研究的進(jìn)程。方法 首先選定該領(lǐng)域的六個(gè)關(guān)鍵課題,通過(guò)提問(wèn)引導(dǎo)ChatGPT自動(dòng)生成每個(gè)課題中最緊迫或最重要的五個(gè)研究熱點(diǎn);然后組織六名臨床醫(yī)學(xué)教育管理人員利用五分李克特量表對(duì)ChatGPT生成的研究熱點(diǎn)從針對(duì)性、人文性、辯證性、拓展性和獨(dú)創(chuàng)性五個(gè)維度進(jìn)行評(píng)估;最后根據(jù)描述性統(tǒng)計(jì)、評(píng)分相似性、指標(biāo)相關(guān)性對(duì)評(píng)估結(jié)果進(jìn)行多角度分析。結(jié)果 ChatGPT生成的研究熱點(diǎn)在課題的針對(duì)性方面表現(xiàn)優(yōu)異,在人文性、辯證性和拓展性方面的表現(xiàn)也令人滿意,但在獨(dú)創(chuàng)性方面則表現(xiàn)一般。結(jié)論 ChatGPT可以作為聚焦臨床醫(yī)學(xué)教育管理中研究熱點(diǎn)的輔助工具,但仍需更多努力來(lái)增強(qiáng)其所生成的研究熱點(diǎn)的獨(dú)創(chuàng)性。而在運(yùn)用ChatGPT聚焦研究熱點(diǎn)時(shí),存在著一系列倫理風(fēng)險(xiǎn),包括數(shù)據(jù)的虛假與濫用、算法的歧視與偏見(jiàn)、學(xué)術(shù)的失信與失范。研究者從技術(shù)層面可整合多種大型語(yǔ)言模型的聚焦結(jié)果,利用數(shù)據(jù)和算法多樣性,規(guī)避倫理風(fēng)險(xiǎn);從應(yīng)用層面可利用個(gè)體鑒別和群體論證等手段,以批判性思維謹(jǐn)慎審視,規(guī)避倫理風(fēng)險(xiǎn)。
〔關(guān)鍵詞〕臨床醫(yī)學(xué)教育管理;研究熱點(diǎn);大型語(yǔ)言模型;倫理風(fēng)險(xiǎn);規(guī)避進(jìn)路
〔中圖分類號(hào)〕R-052 〔文獻(xiàn)標(biāo)志碼〕A 〔文章編號(hào)〕1001-8565(2024)09-1108-11
DOI: 10. 12026/j. issn. 1001-8565. 2024. 09. 14
*基金項(xiàng)目:國(guó)家自然科學(xué)基金區(qū)域聯(lián)合重點(diǎn)項(xiàng)目“跨網(wǎng)絡(luò)跨媒體兩岸熱點(diǎn)事件的智能挖掘與推薦”(U21A20472);福建省本科高校教育教學(xué)研究項(xiàng)目(重大項(xiàng)目)“‘校-院-院’臨床教學(xué)共同體‘多元一體互融’的構(gòu)建與實(shí)踐”(FBJY20230235)
Feasibility and ethical considerations of ChatGPT focusing on research hotspots in clinical medical education management
ZENG Jialin1, SU Ping2, HUANG Fangwan3
(1. Department of Clinical Medicine, Fujian Medical University, Fuzhou 350108, China;2. Fujian Medical University Union Clinical College, Fuzhou 350001, China;3. College of Computer and Data Science, Fuzhou University, Fuzhou 350108, China)
Abstract: Objective:To explore the feasibility of using the large-scale language model ChatGPT to focus on research hotspots in the field of clinical medical education management, aiming to accelerate the scientific research process in this field.Methods:First, six key topics in the field were selected, and ChatGPT was guided to automatically generate the five most urgent or important research hotspots in each topic through questioning. Then, six clinical medical education managers were organized to use the five-point Likert scale to evaluate the research hotspots generated by ChatGPT from five dimensions, including pertinence, humanity, dialectics,expansion, and originality. Finally, the evaluation results were analyzed from multiple perspectives based on descriptive statistics, score similarity, and indicator correlation.Results:The research hotspots generated by ChatGPT performed excellently in terms of topic specificity, and were also satisfactory in terms of humanistic,dialectical, and expansive aspects, but performed mediocrely in terms of originality.Conclusion:ChatGPT can serve as an auxiliary tool to focus on research hotspots in clinical medical education management, but more efforts are still needed to enhance the originality of the research hotspots it generates. However, when using ChatGPT to focus on research hotspots, there are a series of ethical risks, including 1 and abusive data,discrimination and bias in algorithms, as well as academic dishonesty and misconduct. From the technical perspective, researchers can integrate the focused results of multiple large-scale language models, and utilize data and algorithm diversity to avoid ethical risks. From the application perspective, individual identification,group argumentation, and other means can be utilized, and carefully examined with critical thinking to avoid ethical risks.
Keywords: clinical medical education management; research hotspot; large-scale language model; ethical risk; evasive route
為推動(dòng)臨床醫(yī)學(xué)教育管理的持續(xù)發(fā)展,準(zhǔn)確聚焦最關(guān)鍵或最有價(jià)值的研究熱點(diǎn)顯得格外重要?,F(xiàn)有的做法是通過(guò)查閱大量的參考文獻(xiàn)或走訪專家來(lái)取得共識(shí),不僅費(fèi)時(shí)費(fèi)力,而且可能無(wú)法涵蓋潛在研究熱點(diǎn)的全部范圍。近年來(lái),隨著自然語(yǔ)言處理技術(shù)的迅猛發(fā)展,大型語(yǔ)言模型(large language model,LLM)在諸多領(lǐng)域中展現(xiàn)出強(qiáng)大的應(yīng)用能力,包括教育領(lǐng)域和醫(yī)療領(lǐng)域等[1-5]。目前在兩者交叉的領(lǐng)域——醫(yī)學(xué)教育管理領(lǐng)域尚未發(fā)現(xiàn)此方面的研究。本文探索了利用LLM模型——ChatGPT,聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域中研究熱點(diǎn)的可行性,并討論了運(yùn)用該工具的倫理風(fēng)險(xiǎn)與規(guī)避進(jìn)路。借助LLM的最新進(jìn)展,希望挖掘出臨床醫(yī)學(xué)教育管理領(lǐng)域中最緊迫或最重要的研究問(wèn)題,加快該領(lǐng)域科學(xué)研究的進(jìn)程。
1 研究背景
LLM是一種知識(shí)增強(qiáng)型預(yù)訓(xùn)練語(yǔ)言模型,它憑借Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)、上下文學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí),擁有跨領(lǐng)域知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話方式理解與執(zhí)行任務(wù),可以高效地幫助用戶獲取信息、知識(shí)和靈感[6]。LLM具有模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大、泛化性強(qiáng)、遷移性好和知識(shí)涌現(xiàn)能力等特點(diǎn)[7]。與LLM交互的一種常見(jiàn)方法是用戶設(shè)計(jì)并提供特定的提示文本,以指導(dǎo)LLM生成所需的響應(yīng)或完成特定任務(wù),因此LLM可以作為回答問(wèn)題、提供解釋和支持決策過(guò)程的有效工具[8]。
在LLM的眾多應(yīng)用中,研究熱點(diǎn)挖掘格外引人注目。在心臟病學(xué)領(lǐng)域,Gala等[9]認(rèn)為L(zhǎng)LM可以幫助臨床醫(yī)生了解最新的心臟病學(xué)進(jìn)展。該研究同時(shí)也指出了LLM的局限性在于難以解釋可能影響醫(yī)療實(shí)踐的文化或情感因素。Cascella等[10]探討了ChatGPT在公共衛(wèi)生主題的推理能力。該研究指出雖然ChatGPT的有些回答可能是模式化的,并且其邏輯可能依賴于用戶的輸入,但它的確可以用于探索文獻(xiàn)和產(chǎn)生新的研究假設(shè)。
在其他學(xué)科的研究中,已有部分評(píng)估方法被使用。例如,Lahat等[11]利用ChatGPT自動(dòng)生成胃腸病學(xué)中需要優(yōu)先考慮的研究問(wèn)題。該研究使用SPSS Explore函數(shù)比較了專家們的評(píng)分均值和標(biāo)準(zhǔn)差,并使用類內(nèi)相關(guān)系數(shù)衡量了專家評(píng)分之間的相關(guān)性。Tang等[12]系統(tǒng)地研究了ChatGPT在阿爾茨海默病、腎病、食道癌、神經(jīng)系統(tǒng)疾病、皮膚病和心力衰竭六個(gè)臨床領(lǐng)域進(jìn)行醫(yī)學(xué)證據(jù)總結(jié)的能力和局限性。該研究邀請(qǐng)領(lǐng)域?qū)<沂褂梦宸掷羁颂亓勘碓u(píng)估ChatGPT總結(jié)醫(yī)學(xué)文獻(xiàn)的質(zhì)量。曼-惠特尼U檢驗(yàn)被用于評(píng)估ChatGPT生成的摘要和人類撰寫(xiě)的摘要之間的差異。類似的,王卓等[13]通過(guò)五分李克特量表、測(cè)驗(yàn)試卷和訪談表等形式評(píng)估ChatGPT對(duì)研究生學(xué)術(shù)閱讀能力的影響。描述性統(tǒng)計(jì)和獨(dú)立樣本t檢驗(yàn)被用于描述實(shí)驗(yàn)組和對(duì)照組的差異。綜上所述,目前評(píng)估ChatGPT聚焦研究熱點(diǎn)性能的手段較為簡(jiǎn)單且主要基于統(tǒng)計(jì)學(xué),尚未有研究結(jié)合數(shù)據(jù)挖掘中的相關(guān)性分析和相似性度量等手段。因此,本研究將進(jìn)一步探索更多樣化的評(píng)估手段來(lái)多角度評(píng)估ChatGPT聚焦臨床醫(yī)學(xué)教育管理中研究熱點(diǎn)的可行性。
2 研究設(shè)計(jì)
2. 1 選定研究課題
為了準(zhǔn)確地評(píng)價(jià)ChatGPT在聚焦臨床醫(yī)學(xué)教育管理中研究熱點(diǎn)方面的能力,助力高素質(zhì)醫(yī)學(xué)人才培養(yǎng),結(jié)合國(guó)務(wù)院辦公廳2020年發(fā)布的《國(guó)務(wù)院辦公廳關(guān)于加快醫(yī)學(xué)教育創(chuàng)新發(fā)展的指導(dǎo)意見(jiàn)》,本文關(guān)注了該領(lǐng)域的六個(gè)重要課題:①如何健全臨床教學(xué)體系;②如何加強(qiáng)臨床師資隊(duì)伍建設(shè);③如何加強(qiáng)專業(yè)、課程、學(xué)科和學(xué)位點(diǎn)建設(shè);④教學(xué)醫(yī)院如何落實(shí)并深化醫(yī)教協(xié)同;⑤如何加強(qiáng)教育教學(xué)信息化建設(shè);⑥如何在臨床教學(xué)中融入人文素質(zhì)教育。
2. 2 生成研究熱點(diǎn)
2023年8月利用ChatGPT自動(dòng)生成上述課題的研究熱點(diǎn)。具體做法是以問(wèn)答的方式,首先輸入合適的問(wèn)題引導(dǎo),然后要求ChatGPT自動(dòng)為每個(gè)課題生成五個(gè)最緊迫或最重要的研究熱點(diǎn)。本文采用的輸入提示是“請(qǐng)針對(duì)……這一課題,搜索最新文獻(xiàn)并挖掘出目前最緊迫或最重要的五個(gè)研究熱點(diǎn)”。為了消除先前對(duì)話的潛在偏差,需要為每個(gè)課題啟動(dòng)一個(gè)新線程,并確保生成的響應(yīng)與當(dāng)前提示直接相關(guān)[14]。
ChatGPT為課題1——如何健全臨床教學(xué)體系,生成的五個(gè)研究熱點(diǎn)(Q01~Q05)是:①如何制定清晰的教學(xué)目標(biāo),以明確培養(yǎng)目標(biāo)和期望,確保教學(xué)與實(shí)踐相結(jié)合,使學(xué)生掌握到實(shí)際應(yīng)用中的知識(shí)和技能?②如何建立全面的教學(xué)計(jì)劃,以提供系統(tǒng)化、有條理的教學(xué)內(nèi)容,涵蓋基礎(chǔ)知識(shí)、臨床技能、溝通與協(xié)作等方面,注重培養(yǎng)學(xué)生的綜合素養(yǎng)?③如何優(yōu)化教學(xué)方法,結(jié)合多種教學(xué)方法,如案例分析、模擬操作、團(tuán)隊(duì)合作等,培養(yǎng)學(xué)生的問(wèn)題解決能力和批判性思維?④如何加強(qiáng)實(shí)踐環(huán)節(jié),以提供充足的臨床實(shí)踐機(jī)會(huì),包括實(shí)習(xí)、實(shí)訓(xùn)和臨床實(shí)習(xí)等,讓學(xué)生親身參與實(shí)際醫(yī)療工作,并與臨床專業(yè)人員合作?⑤如何引入創(chuàng)新教學(xué)技術(shù),利用現(xiàn)代技術(shù)手段,如虛擬現(xiàn)實(shí)、遠(yuǎn)程教學(xué)等,提供更多學(xué)習(xí)資源和交流平臺(tái),拓寬學(xué)生的學(xué)習(xí)途徑和機(jī)會(huì)?
ChatGPT為課題2——如何加強(qiáng)臨床師資隊(duì)伍建設(shè),生成的五個(gè)研究熱點(diǎn)(Q06~Q10)是:①如何加強(qiáng)臨床師資培訓(xùn),以提供系統(tǒng)化、持續(xù)性的培訓(xùn)計(jì)劃,包括臨床技能培訓(xùn)、教學(xué)能力培養(yǎng)和科研能力提升等方面,提高臨床師資的專業(yè)水平和綜合素質(zhì)?②如何搭建專業(yè)交流平臺(tái),以鼓勵(lì)臨床師資分享經(jīng)驗(yàn)和教學(xué)資源,促進(jìn)師資之間的合作與學(xué)習(xí)?③如何增加教學(xué)實(shí)踐機(jī)會(huì),例如臨床培訓(xùn)基地和模擬病例教學(xué),讓臨床師資能夠在真實(shí)場(chǎng)景中實(shí)踐和提高教學(xué)水平?④如何建立健全評(píng)估體系,通過(guò)定期提供評(píng)估結(jié)果反饋、指導(dǎo)和激勵(lì),幫助臨床師資不斷提升自身的教學(xué)能力和專業(yè)水平,提高其工作積極性和敬業(yè)精神?⑤如何參與學(xué)科研究合作,為臨床師資提供科研項(xiàng)目、經(jīng)費(fèi)和資源支持,鼓勵(lì)參與科學(xué)研究,培養(yǎng)科研思維和創(chuàng)新能力,參與跨學(xué)科的合作與研究,促進(jìn)醫(yī)學(xué)領(lǐng)域的創(chuàng)新和發(fā)展?
ChatGPT為課題3——如何加強(qiáng)專業(yè)、課程、學(xué)科和學(xué)位點(diǎn)建設(shè),生成的五個(gè)研究熱點(diǎn)(Q11~Q15)是:①如何優(yōu)化課程設(shè)置,根據(jù)醫(yī)學(xué)教育的需求和發(fā)展趨勢(shì),及時(shí)更新和調(diào)整課程設(shè)置,注重培養(yǎng)學(xué)生的實(shí)踐能力和創(chuàng)新思維,提高教學(xué)質(zhì)量和適應(yīng)性?②如何強(qiáng)化專業(yè)建設(shè),加強(qiáng)專業(yè)的學(xué)科基礎(chǔ)和學(xué)科交叉融合,完善專業(yè)教學(xué)大綱和教材,提高專業(yè)教育的針對(duì)性和實(shí)用性?③如何提升學(xué)科水平,加強(qiáng)學(xué)科建設(shè),引進(jìn)高水平的學(xué)科帶頭人和優(yōu)秀教師,推進(jìn)學(xué)科交流和合作,提高學(xué)科研究和教學(xué)水平?④如何提升學(xué)位點(diǎn)水平,加強(qiáng)學(xué)位點(diǎn)建設(shè),提高碩士和博士學(xué)位點(diǎn)的教育質(zhì)量和研究水平,增加學(xué)位點(diǎn)的數(shù)量和影響力?⑤如何加強(qiáng)評(píng)價(jià)和認(rèn)證,建立科學(xué)、公正的評(píng)價(jià)標(biāo)準(zhǔn)和認(rèn)證機(jī)制,對(duì)專業(yè)、課程、學(xué)科和學(xué)位點(diǎn)進(jìn)行評(píng)估和認(rèn)證,確保其質(zhì)量和水平?
ChatGPT為課題4——教學(xué)醫(yī)院如何落實(shí)并深化醫(yī)教協(xié)同,生成的五個(gè)研究熱點(diǎn)(Q16~Q20)是:①如何建立醫(yī)教管理機(jī)構(gòu),明確醫(yī)教協(xié)同的組織架構(gòu)和責(zé)任分工,負(fù)責(zé)協(xié)調(diào)醫(yī)院與教學(xué)任務(wù)之間的銜接和協(xié)作?②如何制定醫(yī)教協(xié)同計(jì)劃,明確醫(yī)院與教學(xué)任務(wù)的目標(biāo)、任務(wù)和時(shí)間表,確保醫(yī)教協(xié)同的順利執(zhí)行?③如何配備教學(xué)指導(dǎo)崗位,負(fù)責(zé)指導(dǎo)學(xué)生的臨床實(shí)習(xí)和實(shí)踐操作,確保學(xué)生在醫(yī)院得到充分的實(shí)踐機(jī)會(huì)和指導(dǎo)?④如何加強(qiáng)教師培訓(xùn)與評(píng)價(jià),提高教師的教學(xué)水平和臨床指導(dǎo)能力,建立科學(xué)、公正的教學(xué)評(píng)價(jià)機(jī)制,激勵(lì)教師積極參與醫(yī)教協(xié)同工作?⑤如何促進(jìn)教學(xué)科研合作,推動(dòng)醫(yī)院與教學(xué)任務(wù)之間的科研合作,鼓勵(lì)教師參與臨床研究項(xiàng)目,將科研成果應(yīng)用于教學(xué)中,提升醫(yī)學(xué)人才培養(yǎng)的質(zhì)量與水平?
ChatGPT為課題5——如何加強(qiáng)教育教學(xué)信息化建設(shè),生成的五個(gè)研究熱點(diǎn)(Q21~Q25)是:①如何建設(shè)在線教學(xué)平臺(tái),搭建在線教學(xué)平臺(tái),提供各類課程資源、教學(xué)資料和學(xué)習(xí)工具,方便學(xué)生隨時(shí)隨地獲取相關(guān)知識(shí)和信息?②如何創(chuàng)新教學(xué)方法,結(jié)合信息技術(shù)手段,開(kāi)展多媒體教學(xué)、虛擬仿真實(shí)驗(yàn)和遠(yuǎn)程教育等創(chuàng)新教學(xué)方法,提高教學(xué)效果和學(xué)習(xí)體驗(yàn)?③如何引入遠(yuǎn)程教學(xué)資源,利用視頻會(huì)議、網(wǎng)絡(luò)直播等技術(shù)手段,引入優(yōu)質(zhì)遠(yuǎn)程教學(xué)資源,擴(kuò)大師資和學(xué)科資源的覆蓋范圍,提供多樣化的學(xué)習(xí)機(jī)會(huì)?④如何提供在線學(xué)習(xí)支持,為學(xué)生提供在線輔導(dǎo)、問(wèn)題解答、在線討論、遠(yuǎn)程實(shí)踐等學(xué)習(xí)方式,促進(jìn)學(xué)習(xí)互動(dòng)與交流?⑤如何實(shí)現(xiàn)數(shù)據(jù)化教學(xué)管理,建立教學(xué)數(shù)據(jù)管理系統(tǒng),收集和分析學(xué)生學(xué)習(xí)情況、教學(xué)效果等數(shù)據(jù),通過(guò)數(shù)據(jù)分析提供個(gè)性化的學(xué)習(xí)指導(dǎo)和教學(xué)改進(jìn)?
ChatGPT為課題6——如何在臨床教學(xué)中融入人文素質(zhì)教育,生成的五個(gè)研究熱點(diǎn)(Q26~Q30)是:①如何采用跨學(xué)科教育模式,通過(guò)與其他學(xué)科的融合來(lái)促進(jìn)人文素質(zhì)教育在臨床教學(xué)中的應(yīng)用,如探索與人文學(xué)科(如社會(huì)學(xué)、心理學(xué))的合作?②如何完善人文素質(zhì)評(píng)價(jià)體系,客觀評(píng)價(jià)醫(yī)學(xué)生的人文素質(zhì),以及人文素質(zhì)對(duì)臨床實(shí)踐的影響,探索建立科學(xué)、可行的評(píng)價(jià)指標(biāo)和工具?③如何提升教師人文素養(yǎng),關(guān)注教師人文素養(yǎng)的培訓(xùn)和發(fā)展,提升教師在人文領(lǐng)域的專業(yè)能力和教學(xué)水平?④如何加快教材與資源建設(shè),開(kāi)發(fā)與臨床教學(xué)中人文素質(zhì)教育相適應(yīng)的教材和教育資源,如智能化溝通模擬系統(tǒng),提供醫(yī)生與患者之間各種交流場(chǎng)景的模擬訓(xùn)練?⑤如何加強(qiáng)社會(huì)參與與合作,促進(jìn)醫(yī)學(xué)院校與社會(huì)、醫(yī)療機(jī)構(gòu)以及患者之間的合作,以培養(yǎng)具備人文關(guān)懷能力的醫(yī)學(xué)人才?
2. 3 評(píng)估研究熱點(diǎn)
為了全面評(píng)估ChatGPT能否作為聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域研究熱點(diǎn)的有效工具,本文邀請(qǐng)了六位具有豐富相關(guān)工作經(jīng)驗(yàn)的臨床醫(yī)學(xué)教育管理人員對(duì)這些研究熱點(diǎn)進(jìn)行了多維度評(píng)估,評(píng)估人員的基本情況見(jiàn)表1。
每位評(píng)估人員被要求對(duì)每個(gè)研究熱點(diǎn),從針對(duì)性、人文性、辯證性、拓展性和獨(dú)創(chuàng)性等維度進(jìn)行評(píng)分。具體說(shuō)明如下:
①針對(duì)性反映了該研究熱點(diǎn)針對(duì)某些特定情況、需求或目標(biāo)的程度。一個(gè)針對(duì)性強(qiáng)的研究熱點(diǎn)能夠直接針對(duì)所涉及的課題,提供明確的答案或解決方法。
②人文性反映了該研究熱點(diǎn)所涉及的人類文化、價(jià)值觀、道德觀念、社會(huì)關(guān)系等方面的特點(diǎn)或影響。研究熱點(diǎn)的人文性可以影響問(wèn)題的解決方式、社會(huì)影響以及與問(wèn)題相關(guān)的倫理和道德考量。
③辯證性反映了該研究熱點(diǎn)從多個(gè)角度進(jìn)行分析和思考的能力。它強(qiáng)調(diào)從整體和相互關(guān)系的角度來(lái)看待問(wèn)題,而不是只關(guān)注問(wèn)題的表面現(xiàn)象。
④拓展性反映了研究熱點(diǎn)的潛力和廣泛適用性。一個(gè)拓展性好的研究熱點(diǎn)能夠引發(fā)更多的思考和討論,有助于探索不同的觀點(diǎn)、角度和解決方案。
⑤獨(dú)創(chuàng)性反映了該研究熱點(diǎn)的創(chuàng)新程度。一個(gè)獨(dú)創(chuàng)性好的研究熱點(diǎn)是與眾不同的、具有新穎性的、能夠打破常規(guī)思維模式,引發(fā)新的思考和創(chuàng)意。
采用五分李克特量表進(jìn)行評(píng)價(jià),5分表示優(yōu)秀,4分表示良好,3分表示中等,2分表示及格,1分表示不及格。為了直觀的展示評(píng)分結(jié)果,采用雷達(dá)圖可視化了六位評(píng)估人員對(duì)于30個(gè)研究熱點(diǎn)(Q01~Q30)根據(jù)某個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)的分?jǐn)?shù)(見(jiàn)圖1)。圖中最外圈的環(huán)代表5分,越內(nèi)圈的環(huán)代表得分越低。圖中不同線型代表了不同評(píng)估人員的評(píng)分結(jié)果。
3 數(shù)據(jù)分析
統(tǒng)計(jì)顯示,量表的Cronbach’s α系數(shù)為0.950> 0.8,表明量表信度較高。通過(guò)該量表能較真實(shí)可靠地反映ChatGPT聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域研究熱點(diǎn)的能力。
基于此,從以下三個(gè)方面對(duì)六位評(píng)估人員的評(píng)分結(jié)果進(jìn)行數(shù)據(jù)分析:①描述性統(tǒng)計(jì);②評(píng)估人員的評(píng)分相似性;③評(píng)價(jià)指標(biāo)的等級(jí)相關(guān)性。數(shù)據(jù)分析工具采用IBM SPSS Statistical Package Version 25和Python 3.10。
3. 1 描述性統(tǒng)計(jì)
以評(píng)價(jià)指標(biāo)、評(píng)估人員、課題為列屬性構(gòu)造三張?jiān)u分表并進(jìn)行描述性統(tǒng)計(jì)。具體而言,當(dāng)以評(píng)價(jià)指標(biāo)為列屬性時(shí),每列表示的是六位評(píng)估人員對(duì)30個(gè)研究熱點(diǎn)的該指標(biāo)進(jìn)行評(píng)分的分?jǐn)?shù),即樣本數(shù)為180。而當(dāng)以評(píng)估人員為列屬性時(shí),每列表示的是該人員對(duì)于30個(gè)研究熱點(diǎn)從5個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)分的分?jǐn)?shù),即樣本數(shù)為150。最后當(dāng)以課題為列屬性時(shí),每列表示的六位評(píng)估人員對(duì)該課題下的5個(gè)研究熱點(diǎn)從5個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)分的分?jǐn)?shù),即樣本數(shù)為150。描述性統(tǒng)計(jì)結(jié)果見(jiàn)表2、表3和表4。
3. 2 評(píng)估人員的評(píng)分相似性
在數(shù)據(jù)挖掘領(lǐng)域,“散度”被廣泛用于檢測(cè)評(píng)估人員評(píng)分的相似性。Corduast[15]提出利用KL散度(Kullback-Leibler Divergence)以檢測(cè)評(píng)價(jià)者對(duì)一組項(xiàng)目評(píng)分的相似性,該測(cè)試采用7分李克特量表來(lái)評(píng)分。Westland[16]則采用JS散度(JensenShannon Divergence)來(lái)衡量李克特評(píng)分與被調(diào)查者信念假設(shè)之間的差異。JS散度是KL散度的改進(jìn)版,KL散度是不對(duì)稱的,而JS散度是對(duì)稱的,對(duì)相似度的判別更確切?;诖?,采用JS散度計(jì)算評(píng)估人員評(píng)分的相似性。利用以評(píng)估人員為列屬性構(gòu)造的評(píng)分表計(jì)算任意兩位評(píng)估員的評(píng)分向量之間的JS散度。JS散度的取值介于0~1之間,其值越小表示越相似。采用熱圖可視化了結(jié)果(見(jiàn)圖2),顏色越深表示評(píng)估人員之間的評(píng)分越相似。任意兩位評(píng)估員之間的JS散度若低于平均值,則色塊中的數(shù)值用白色表示;否則數(shù)值用黑色表示。
3. 3 評(píng)價(jià)指標(biāo)的等級(jí)相關(guān)性
由于分?jǐn)?shù)為等級(jí)變量,所以在統(tǒng)計(jì)相關(guān)性時(shí),應(yīng)采用等級(jí)相關(guān)(Rank Correlation),這是一種非參數(shù)統(tǒng)計(jì)方法。常用的等級(jí)相關(guān)系數(shù)有斯皮爾曼相關(guān)系數(shù)、肯德?tīng)枽酉禂?shù)。它們均是一種秩相關(guān)系數(shù),秩可以理解為原始數(shù)據(jù)的排序位置。斯皮爾曼相關(guān)系數(shù)通過(guò)秩差的平方和來(lái)評(píng)估相關(guān)關(guān)系,而肯德?tīng)枽酉禂?shù)則是基于同序?qū)彤愋驅(qū)Φ膫€(gè)數(shù)來(lái)衡量相關(guān)性的強(qiáng)弱。無(wú)論是斯皮爾曼相關(guān)系數(shù)還是肯德?tīng)枽酉禂?shù),當(dāng)系數(shù)大于零時(shí),表示正相關(guān),反之則表示負(fù)相關(guān)。系數(shù)的絕對(duì)值越接近1表示相關(guān)性越強(qiáng)。
利用以評(píng)價(jià)指標(biāo)為列屬性構(gòu)造的評(píng)分表計(jì)算任意兩個(gè)評(píng)價(jià)指標(biāo)的相關(guān)系數(shù)。首先建立兩個(gè)假設(shè):原假設(shè)(兩個(gè)指標(biāo)之間不存在相關(guān)性)和備擇假設(shè)(兩個(gè)指標(biāo)之間存在相關(guān)性)。顯著性水平可用來(lái)衡量對(duì)原假設(shè)的拒絕程度。本文將顯著性水平設(shè)置為0.01。這意味著如果計(jì)算得到的顯著性值P≤0.01,則拒絕原假設(shè),認(rèn)為兩個(gè)指標(biāo)之間具有相關(guān)性。表5和表6展示了評(píng)價(jià)指標(biāo)兩兩之間的斯皮爾曼相關(guān)系數(shù)和肯德?tīng)枽酉禂?shù)。上述分析都通過(guò)了顯著性檢驗(yàn),所有系數(shù)的P值(雙尾或單尾)均小于0.01,說(shuō)明相關(guān)性分析具有統(tǒng)計(jì)學(xué)意義。
4 結(jié)果討論
4. 1 描述性統(tǒng)計(jì)的討論
第一,ChatGPT生成的研究熱點(diǎn)在針對(duì)性方面表現(xiàn)優(yōu)異,在人文性、辯證性和拓展性方面的表現(xiàn)也令人滿意,但在獨(dú)創(chuàng)性方面則表現(xiàn)一般。根據(jù)表2的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn):
①針對(duì)性的平均得分為4.17,且四分位數(shù)在所有評(píng)價(jià)指標(biāo)中最高。這表明評(píng)估人員普遍認(rèn)為ChatGPT生成的研究熱點(diǎn)與給定的課題之間具有很強(qiáng)的針對(duì)性。這得益于ChatGPT已經(jīng)接受了大量文本的訓(xùn)練,因此它非常擅長(zhǎng)使用人類語(yǔ)言清晰地描述問(wèn)題[17]。
②獨(dú)創(chuàng)性的平均得分為3.58,且四分位數(shù)在所有評(píng)價(jià)指標(biāo)中最低。這表明評(píng)估人員普遍認(rèn)為Chat‐GPT生成的研究熱點(diǎn)基本屬于研究人員已經(jīng)考慮的研究范疇。換句話說(shuō),ChatGPT創(chuàng)新或創(chuàng)造能力仍然有限,該結(jié)論也和ChatGPT在挖掘其他領(lǐng)域研究熱點(diǎn)的結(jié)論類似[11]。這意味著在挖掘新穎的研究熱點(diǎn)方面,仍然需要借助人類的智慧和靈感。
③人文性、辯證性、拓展性的平均得分介于3.89~3.98之間且中位數(shù)為4。這說(shuō)明評(píng)估人員也比較認(rèn)可ChatGPT在人文性、辯證性和拓展性的表現(xiàn)。但需要指出的是辯證性的平均得分具有較大的標(biāo)準(zhǔn)差且四分位間距為2,表明不同評(píng)估人員對(duì)于該指標(biāo)給出的分?jǐn)?shù)的波動(dòng)程度較大。
第二,評(píng)估人員對(duì)于ChatGPT作為聚焦研究熱點(diǎn)有效工具的認(rèn)同度較高,但認(rèn)可的角度會(huì)有所不同。根據(jù)表3的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn):
①評(píng)估員4給出的平均分最低(僅為3.19),而其他人員給出的平均分均超過(guò)3.6,最高接近4.4。這說(shuō)明絕大多數(shù)評(píng)估人員對(duì)于ChatGPT作為聚焦研究熱點(diǎn)有效工具的認(rèn)同度較高。
②圖3進(jìn)一步展示了每個(gè)評(píng)估人員基于30個(gè)研究熱點(diǎn)給出的某個(gè)評(píng)價(jià)指標(biāo)的平均分?jǐn)?shù)??梢园l(fā)現(xiàn),對(duì)于ChatGPT提出的研究熱點(diǎn),評(píng)估員6在針對(duì)性和辯證性方面的認(rèn)可度最高,而評(píng)估員3則在人文性、拓展性和獨(dú)創(chuàng)性方面的認(rèn)可度最高。這說(shuō)明評(píng)估人員對(duì)于認(rèn)可ChatGPT能力的角度會(huì)有所不同。
第三,ChatGPT對(duì)各課題的平均表現(xiàn)較為一致,但針對(duì)不同評(píng)價(jià)維度的表現(xiàn)仍存在差異。根據(jù)表4的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn):
①各個(gè)課題的平均得分和標(biāo)準(zhǔn)差都非常接近,說(shuō)明ChatGPT對(duì)各課題具有一定的平均表現(xiàn),存在泛化性。這意味著ChatGPT在臨床醫(yī)學(xué)教育管理領(lǐng)域其他課題的表現(xiàn)也可以借鑒本文的結(jié)果。
②圖4進(jìn)一步展示了每個(gè)指標(biāo)在所有課題的平均得分??梢园l(fā)現(xiàn),在針對(duì)性和人文性方面,ChatGPT在課題6的表現(xiàn)最好;在辯證性、拓展性和獨(dú)創(chuàng)性方面,ChatGPT則分別在課題2、課題3和課題5表現(xiàn)最好。
課題6本身針對(duì)的就是人文素質(zhì)教育,所以ChatGPT在針對(duì)性和人文性方面的表現(xiàn)更容易獲得評(píng)估者的認(rèn)可。課題2涉及臨床師資隊(duì)伍建設(shè)、教師的學(xué)歷與能力、引進(jìn)與培養(yǎng)、數(shù)量與質(zhì)量、穩(wěn)定與流動(dòng)等多種辯證關(guān)系,因此ChatGPT易挖掘出具有辯證性的研究熱點(diǎn)。課題3涉及醫(yī)學(xué)專業(yè)、課程、學(xué)科、學(xué)位點(diǎn)建設(shè),鑒于當(dāng)前醫(yī)學(xué)人才培養(yǎng)目標(biāo)具有一定國(guó)際視野,并與國(guó)家戰(zhàn)略方向一致,ChatGPT善于抓取該領(lǐng)域國(guó)際國(guó)內(nèi)規(guī)劃建設(shè)內(nèi)容、優(yōu)秀案例及現(xiàn)有政策等,由此可整合生成具有拓展性的研究熱點(diǎn)。課題5涉及醫(yī)學(xué)教育教學(xué)的信息化建設(shè),隨著信息技術(shù)(如虛擬仿真、元宇宙、人機(jī)協(xié)同)的迅猛發(fā)展,此方面的研究進(jìn)展更新較快,因此ChatGPT比較容易生成出評(píng)估人員認(rèn)可的具有獨(dú)創(chuàng)性的研究熱點(diǎn)。
4. 2 評(píng)估人員評(píng)分相似性的討論
根據(jù)圖2可以發(fā)現(xiàn):
①評(píng)估人員兩兩之間的JS散度介于0~0.057之間。由于JS散度值越小表示越相似,因此可以認(rèn)為評(píng)估人員對(duì)ChatGPT的評(píng)價(jià)具有非常高的統(tǒng)一性。
②評(píng)估員1和其他人員的評(píng)分相似度較低,這主要是由于評(píng)估員1打分的波動(dòng)性較大造成的。從表3可以看出評(píng)估員1的評(píng)分標(biāo)準(zhǔn)差明顯高于其他評(píng)估員。
③評(píng)估員3、評(píng)估員5和評(píng)估員6與其他人員的評(píng)分相似度較高,說(shuō)明評(píng)估人員均較為認(rèn)可他們的打分。從表3可以發(fā)現(xiàn)他們給出的平均分均大于4,這再一次說(shuō)明評(píng)估人員對(duì)于ChatGPT作為聚焦研究熱點(diǎn)有效工具的認(rèn)同度較高。
4. 3 評(píng)價(jià)指標(biāo)等級(jí)相關(guān)性的討論
根據(jù)表5和表6可以得到以下結(jié)論:
①兩種等級(jí)相關(guān)系數(shù)均反映出針對(duì)性和獨(dú)創(chuàng)性之間的相關(guān)性最低。這意味著即使ChatGPT可以針對(duì)課題很好地聚焦研究熱點(diǎn),但是該熱點(diǎn)的原創(chuàng)性并不高。這和前面描述性統(tǒng)計(jì)的結(jié)論不謀而合。ChatGPT雖然能夠處理大量的信息和數(shù)據(jù),但其思維方式和決策能力仍然受限于人類所設(shè)定的算法和規(guī)則。所以在聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域中具有創(chuàng)新性的研究熱點(diǎn)時(shí),人類的創(chuàng)造創(chuàng)新能力仍然是不可替代的。
②兩種等級(jí)相關(guān)系數(shù)均反映出人文性和辯證性之間的相關(guān)度高于與其他屬性的相關(guān)度。這說(shuō)明辯證思維需要有人文精神的滋養(yǎng)。在解決實(shí)際問(wèn)題時(shí),秉持人文精神,會(huì)對(duì)很多事情有更深刻的見(jiàn)解。在聚焦臨床醫(yī)學(xué)教育管理的研究熱點(diǎn)時(shí),辯證性體現(xiàn)了用發(fā)展、變化的觀點(diǎn)來(lái)看待、分析事物,而人文性則有助于在變化中尋找出路,在矛盾中尋找突破。
③兩種等級(jí)相關(guān)系數(shù)均反映出獨(dú)創(chuàng)性和辯證性、人文性之間具有一定的相關(guān)性。眾所周知,辯證思維包含抽象與具體、正向與逆向、發(fā)散與收斂、求同與求異等矛盾運(yùn)動(dòng),易產(chǎn)生創(chuàng)新性觀點(diǎn)[18]。而獨(dú)創(chuàng)性與人文性的相關(guān)恰恰說(shuō)明人類之所以比AI機(jī)器人具有更高的獨(dú)創(chuàng)性,正是由于人類具有更高的人文倫理素養(yǎng)。ChatGPT雖然經(jīng)過(guò)了大規(guī)模的訓(xùn)練,但是仍可能存在著無(wú)法理解和處理自然語(yǔ)言中蘊(yùn)含的文化背景及自覺(jué)遵循倫理綱常的局限性。
5 倫理風(fēng)險(xiǎn)與規(guī)避進(jìn)路
需要注意的是,ChatGPT 為臨床醫(yī)學(xué)教育管理挖掘有價(jià)值的研究熱點(diǎn)的同時(shí),也帶來(lái)一系列倫理風(fēng)險(xiǎn),主要包括:數(shù)據(jù)的虛假與濫用、算法的歧視與偏見(jiàn)、學(xué)術(shù)的失信與失范[19-22]。首先,ChatGPT 是一個(gè)通過(guò)在大規(guī)?;ヂ?lián)網(wǎng)文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練得到的問(wèn)答模型,互聯(lián)網(wǎng)上充斥著大量的虛假信息,目前尚未有監(jiān)管機(jī)制可以有效監(jiān)測(cè)其訓(xùn)練數(shù)據(jù)的真實(shí)性和數(shù)據(jù)濫用的程度[23];其次,ChatGPT的訓(xùn)練過(guò)程蘊(yùn)含著算法設(shè)計(jì)者的思想意識(shí),且依賴的語(yǔ)料庫(kù)來(lái)自于不同國(guó)家,數(shù)據(jù)量并不均衡,所以國(guó)情、種族和文化的差異會(huì)造成機(jī)器算法的歧視與偏見(jiàn),這可能會(huì)導(dǎo)致ChatGPT為研究者提供錯(cuò)誤指引[24];最后,ChatGPT提供的信息可能會(huì)涉及知識(shí)產(chǎn)權(quán)問(wèn)題。由于ChatGPT可基于人類反饋進(jìn)行自我學(xué)習(xí),因此其他學(xué)者與ChatGPT的對(duì)話有可能會(huì)被其記錄并作為訓(xùn)練數(shù)據(jù)[25]。這會(huì)導(dǎo)致ChatGPT將其他學(xué)者未經(jīng)發(fā)表的觀點(diǎn)作為答復(fù)反饋給提問(wèn)相關(guān)問(wèn)題的研究者[26]。研究者若未經(jīng)授權(quán)使用他人的研究成果,可能會(huì)引發(fā)學(xué)術(shù)不端的質(zhì)疑。
因此,研究者利用ChatGPT聚焦研究熱點(diǎn)時(shí),應(yīng)注意規(guī)避倫理風(fēng)險(xiǎn)。可以從技術(shù)和應(yīng)用兩個(gè)層面尋找規(guī)避路徑。從技術(shù)層面,研究者可利用OpenAI提供的最新網(wǎng)頁(yè)瀏覽插件,要求ChatGPT從網(wǎng)絡(luò)實(shí)時(shí)提取最新數(shù)據(jù)并提供信息來(lái)源,可在一定程度上避免數(shù)據(jù)濫用和虛假數(shù)據(jù)[27]。此外,除了OpenAI的GPT系列之外,還有許多成熟的大語(yǔ)言模型,如微軟的Gorilla、谷歌的PaLM、Meta的LLaMA、百度的文小言、阿里的通義千問(wèn)、科大訊飛的星火認(rèn)知等。國(guó)外的大語(yǔ)言模型以英文語(yǔ)料庫(kù)為訓(xùn)練數(shù)據(jù)的主要來(lái)源,對(duì)中文文獻(xiàn)的覆蓋廣度和深度不夠[28]。而國(guó)內(nèi)成熟的大語(yǔ)言模型則可以很好地彌補(bǔ)此項(xiàng)不足[29]。鑒于各大語(yǔ)言模型選用的數(shù)據(jù)集存在一定的差異,通過(guò)增加數(shù)據(jù)集和模型的多樣性,可以在一定程度上避免算法的歧視與偏見(jiàn)問(wèn)題。研究人員可以使用多種大語(yǔ)言模型聚焦臨床醫(yī)學(xué)教育管理的研究熱點(diǎn),整合各模型生成的研究熱點(diǎn),從而提升聚焦性能,優(yōu)化用戶體驗(yàn)。
在應(yīng)用層面,研究者針對(duì)大語(yǔ)言模型聚焦的研究熱點(diǎn),應(yīng)進(jìn)行人工鑒別和處理。首先,研究者應(yīng)夯實(shí)專業(yè)知識(shí),提升學(xué)術(shù)閱讀數(shù)量和質(zhì)量,培養(yǎng)學(xué)術(shù)辨析能力,保持獨(dú)立思考能力,以批判性思維認(rèn)真審視生成的研究熱點(diǎn),不能直接生搬硬套;其次,研究員應(yīng)掌握醫(yī)學(xué)倫理法規(guī)、政策和規(guī)范等方面的知識(shí),學(xué)習(xí)如何對(duì)研究熱點(diǎn)的敏感信息進(jìn)行脫敏處理,避免泄露個(gè)人或機(jī)構(gòu)的隱私。在使用他人的研究成果時(shí),應(yīng)確保已經(jīng)獲得了相應(yīng)的授權(quán),避免侵犯他人的知識(shí)產(chǎn)權(quán)。上述工作完成后,研究者還可邀請(qǐng)相關(guān)領(lǐng)域的專家、學(xué)者參與論證,以評(píng)估研究熱點(diǎn)的學(xué)術(shù)正確性、倫理規(guī)范性和研究?jī)r(jià)值度。
6 結(jié)語(yǔ)
臨床醫(yī)學(xué)教育具有學(xué)科專業(yè)綜合性、教育模式終身性、教育標(biāo)準(zhǔn)國(guó)際性、培養(yǎng)要求職業(yè)性、教育成本高值性等一系列特性,教育管理過(guò)程難度大,周期長(zhǎng),相關(guān)研究亟待智能化手段的參與。本文的研究證明了ChatGPT在臨床醫(yī)學(xué)教育管理研究中的應(yīng)用價(jià)值。ChatGPT作為一種人工智能模型,可以通過(guò)自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等技術(shù),對(duì)臨床醫(yī)學(xué)教育管理的大量文獻(xiàn)進(jìn)行深度挖掘、分析和總結(jié),因此它的確可以成為輔助研究人員聚焦臨床醫(yī)學(xué)教育管理領(lǐng)域中最關(guān)鍵或最有價(jià)值的研究熱點(diǎn)的有力輔助工具,加速研究進(jìn)程。
統(tǒng)計(jì)結(jié)果表明ChatGPT生成的研究熱點(diǎn)在課題的針對(duì)性方面表現(xiàn)優(yōu)異,在人文性、辯證性和拓展性方面的表現(xiàn)也令人滿意,但在獨(dú)創(chuàng)性方向則表現(xiàn)一般。這主要是因?yàn)镃hatGPT是基于已有的數(shù)據(jù)進(jìn)行訓(xùn)練,而不是從空白狀態(tài)開(kāi)始創(chuàng)作。因此在生成回復(fù)時(shí)更傾向于重復(fù)和模仿已學(xué)習(xí)過(guò)的內(nèi)容,而不太可能產(chǎn)生全新的、原創(chuàng)性的想法。這意味著在挖掘新穎的研究熱點(diǎn)方面,仍然需要借助人類的智慧和靈感。
此外,在借助ChatGPT聚焦研究熱點(diǎn)時(shí),存在著一系列的倫理風(fēng)險(xiǎn)。研究者既不能生搬硬套,也不必因噎廢食。人工智能技術(shù)介入教育領(lǐng)域已勢(shì)不可擋,研究者必須積極面對(duì)ChatGPT帶來(lái)的學(xué)術(shù)倫理挑戰(zhàn),采取有效的規(guī)避手段,促進(jìn)教育人工智能理性發(fā)展。
在未來(lái)的研究中,可以從以下幾點(diǎn)展開(kāi)研究:一是參與評(píng)價(jià)人員雖具有一定相關(guān)的工作經(jīng)驗(yàn),但權(quán)威性及研究領(lǐng)域覆蓋面略顯不足,為了更好地驗(yàn)證本文的觀點(diǎn),未來(lái)的研究應(yīng)該涉及更大、更多樣化的專家小組。二是ChatGPT聚焦研究熱點(diǎn)的性能評(píng)估目前僅依賴于參評(píng)人員的主觀評(píng)分,可能存在一定的偏差和可變性。未來(lái)的研究可以考慮使用更客觀的指標(biāo),如根據(jù)相似研究課題的學(xué)術(shù)論文的數(shù)量、影響因子和引用頻率進(jìn)行評(píng)估。三是本研究對(duì)每個(gè)課題僅使用了一套提示。對(duì)于大語(yǔ)言模型而言,設(shè)計(jì)提示是非常重要的。好的提示可以引導(dǎo)模型生成有用、準(zhǔn)確的回答,而不好的提示可能產(chǎn)生含糊不清、語(yǔ)義不明的結(jié)果。因此,設(shè)計(jì)提示需要考慮語(yǔ)法結(jié)構(gòu)、使用的詞匯、上下文信息等因素。未來(lái)可以采用更多不同提示進(jìn)行實(shí)驗(yàn),以便更全面地評(píng)估ChatGPT聚焦研究熱點(diǎn)的能力。
〔參考文獻(xiàn)〕
[1]MIN B, ROSS H, SULEM E, et al. Recent ad‐vances in natural language processing via large pre-trained language models: a survey[J]. ACM Computing Surveys, 2023,56(2):1-40.
[2]吳蘭岸,閆寒冰,黃發(fā)良,等.大型語(yǔ)言模型在高等教育中的應(yīng)用分析與現(xiàn)實(shí)挑戰(zhàn)[J].現(xiàn)代教育技術(shù),2023,33(8):29-37. WU L A, YAN H B, HUANG F L, et al. The application analysis and realistic challenge of large language models in higher education[J]. Modern Educational Technology,2023,33(8):29-37.
[3]代翔,郭麗君. ChatGPT介入高等教育的方式、風(fēng)險(xiǎn)及應(yīng)對(duì)策略[J]. 高教探索,2023(5):12-17. DAI X, GUO L J. Ways, risks and strategies of us‐ing ChatGPT to intervene in higher education[J]. Higher Education Exploration,2023(5):12-17.
[4]羅云梅,劉雪梅. ChatGPT對(duì)學(xué)術(shù)出版?zhèn)惱淼挠绊慬J]. 醫(yī)學(xué)與哲學(xué),2023,44(12):25-28. LUO Y M, LIU X M. Impact of ChatGPT on the ethics in academic publication[J]. Medicine and Philosophy,2023,44(12):25-28.
[5]THIRUNAVUKARASU A J, TING D S J,ELANGOVAN K, et al. Large language models in medicine[J]. Nature Medicine, 2023(29):1930-1940.
[6]HU L, LIU Z, ZHAO Z, et al. A survey of knowledge enhanced pre-trained language models[J]. IEEE Transactions on Knowledge and Data Engineering, 2023:1-19.
[7]WEI J, TAY Y, BOMMASANI R, et al. Emergent abilities of large language models[J]. Transactions on Machine Learning Research,2022(8):1-30.
[8]戴嶺,趙曉偉,祝智庭. 智慧問(wèn)學(xué):基于ChatGPT的對(duì)話式學(xué)習(xí)新模式[J]. 開(kāi)放教育研究,2023,29(6):42-51. DAI L, ZHAO X W, ZHU Z T. A new inquiry learning: conversational learning with ChatGPT[J]. Open Education Research,2023,29(6):42-51.
[9]GALA D, MAKARYUS A N. The utility of lan‐guage models in cardiology: a narrative review of the benefits and concerns of ChatGPT-4[J]. In‐ternational Journal of Environmental Research and Public Health, 2023, 20(15): 6438.
[10]CASCELLA M, MONTOMOLI J, BELLINI V, et al. Evaluating the feasibility of ChatGPT in healthcare: an analysis of multiple clinical and re‐search scenarios[J]. Journal of Medical Systems,2023, 47(1): 33.
[11]LAHAT A, SHACHAR E, AVIDAN B, et al. Evaluating the use of large language model in identifying top research questions in gastroenterol‐ogy[J]. Scientific Reports, 2023, 13(1): 4164.
[12]TANG L, SUN Z, IDNAY B, et al. Evaluating large language models on medical evidence summari‐zation[J]. Digital Medicine, 2023, 6(1): 158.
[13]王卓,馬洋珍,楊現(xiàn)民,等. ChatGPT類閱讀平臺(tái)對(duì)研究生學(xué)術(shù)閱讀能力的影響[J]. 開(kāi)放教育研究,2023,29(6):60-68. WANG Z, MA Y Z, YANG X M, et al. Im‐pact of ChatGPT-based reading platforms on the academic reading ability of graduate students[J]. Open Education Research,2023,29(6):60-68.
[14]LAHAT A, SHACHAR E, AVIDAN B, et al. Evaluating the utility of a large language model in answering common patients’ gastrointestinal health-related questions: are we there yet?[J]. Diagnostics, 2023, 13(11): 1950.
[15]CORDUAS M. Assessing similarity of rating dis‐tributions by Kullback-Leibler divergence[M]// Classification and Multivariate Analysis for Com‐plex Data Structures. Springer, Berlin, Heidel‐ berg, 2010: 221-228.
[16]WESTLAND J C. Information loss and bias in likert survey responses[J]. PloS One, 2022, 17(7): e0271949.
[17]RAY P P. ChatGPT: A comprehensive review on background, applications, key challenges,bias, ethics, limitations and future scope[J]. In‐ternet of Things and Cyber-Physical Systems,2023, 3:121-154.
[18]李佃來(lái). 從形式邏輯到辯證邏輯:思維創(chuàng)新的重要前提[J]. 探索與爭(zhēng)鳴,2023(1):43-46. LI D L. From formal logic to dialectical logic:the important premise of thinking innovation[J]. Exploration and Free Views,2023(1):43-46.
[19]王佑鎂,王旦,梁煒怡,等. ChatGPT教育應(yīng)用的倫理風(fēng)險(xiǎn)與規(guī)避進(jìn)路[J]. 開(kāi)放教育研究,2023,29(2):26-35. WANG Y M, WANG D, LIANG W Y, et al. Ethical risks and avoidance approaches of Chat‐GPT in educational application[J]. Open Educa‐tion Research,2023,29(2):26-35.
[20]李東洋,劉秦民. 論ChatGPT在醫(yī)學(xué)領(lǐng)域可能帶來(lái)的倫理風(fēng)險(xiǎn)與防范路徑[J]. 中國(guó)醫(yī)學(xué)倫理學(xué),2023,36(10):1067-1073. LI D Y, LIU Q M. On the possible ethical risks and corresponding prevention paths of ChatGPT in the medical field[J]. Chinese Medical Ethics,2023,36(10):1067-1073.
[21]蔣雪穎,劉欣. 生成式人工智能技術(shù)下的學(xué)術(shù)生產(chǎn)與出版:變革、失范與路徑[J]. 數(shù)字圖書(shū)館論壇,2023,19(5):64-71. JIANG X Y, LIU X. Scholarly production and publishing under generative AI: changes, disor‐der, and path[J]. Digital Library Forum,2023,19(5):64-71.
[22]劉佳麗,廖懷高. 論生成式人工智能學(xué)術(shù)倫理風(fēng)險(xiǎn)規(guī)制[J]. 沈陽(yáng)工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2023,19(4):83-89,123. LIU J L, LIAO H G. On the regulation of aca‐demic ethical risks in generative artificial intelli‐gence[J]. Journal of Shenyang Institute of Engineer‐ing (Social Science),2023,19(4):83-89,123.
[23]朱嘉珺.生成式人工智能虛假有害信息規(guī)制的挑戰(zhàn)與應(yīng)對(duì):以ChatGPT的應(yīng)用為引[J].比較法研究,2023(5):34-54. ZHU J. To regulate the disinformation brought by generative artificial intelligence as exemplified by the application of ChatGPT: challenges and possible solutions[J]. Journal of Comparative Law,2023(5):34-54.
[24]LI W, HWANG K, CHOI J, et al. A compara‐tive study on discrimination issues in large lan‐guage models[J]. Journal of Intelligence and In‐formation Systems, 2023, 29(3): 125-144.
[25]劉智鋒,吳亞平,王繼民. 人工智能生成內(nèi)容技術(shù)對(duì)知識(shí)生產(chǎn)與傳播的影響[J]. 情報(bào)雜志,2023,42(7):123-130. LIU Z F, WU Y P, WANG J M. The impact of artificial intelligence generated content technologies on knowledge production and dissemination[J]. Journal of Intelligence,2023,42(7):123-130.
[26]周書(shū)環(huán). 聊天機(jī)器人的法律人格爭(zhēng)議與傳播侵權(quán)責(zé)任研究:基于ChatGPT場(chǎng)景視角[J]. 南京社會(huì)科學(xué),2023(6):90-99. ZHOU S H. Research on the legal personality controversy and propagation infringement liability of chatbots: based on the ChatGPT context[J]. Nanjing Journal of Social Sciences,2023(6): 90-99.
[27]GOZALO-BRIZUELA R, GARRIDO-MERCHáN E C. ChatGPT is not all you need: a state of the art review of large generative AI models[J]. GRACE:Global Review of AI Community Ethics, 2023, 1(1):1-23.
[28]鮑彤,章成志. ChatGPT中文信息抽取能力測(cè)評(píng):以三種典型的抽取任務(wù)為例[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(9):1-11. BAO T, ZHANG C Z. Extracting Chinese information with ChatGPT: an empirical study by three typical tasks[J]. Data Analysis and Knowledge Discovery,2023,7(9):1-11.
[29]張華平,李林翰,李春錦. ChatGPT中文性能測(cè)評(píng)與風(fēng)險(xiǎn)應(yīng)對(duì)[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(3):16-25. ZHANG H P, LI L H, LI C J. ChatGPT perfor‐mance evaluation on Chinese language and risk measures[J]. Data Analysis and Knowledge Dis‐covery,2023,7(3):16-25.