閔棟
在人工智能的引領(lǐng)下,新一輪科技革命和產(chǎn)業(yè)變革已經(jīng)展開。
當2016年IBM的人工智能(AI)“沃森”學習海量醫(yī)學論文后,在人類醫(yī)生們對一名病人束手無策的情況下,10分鐘內(nèi)判斷出病人得的是罕見白血病,并給出了治療方案,人工智能給醫(yī)療領(lǐng)域帶來的就不僅是沖擊,還有無限可能的未來。
AI“思考”出針對每一個病人的單獨的結(jié)論,是基于它運轉(zhuǎn)的規(guī)則不是事先輸入的程序,而是依托龐大的后臺數(shù)據(jù)庫。在人工智能領(lǐng)域,這被稱為“深度學習”。作為AI領(lǐng)域的重要技術(shù),深度學習是從數(shù)據(jù)中學習,而大模型則是通過使用大量的模型來訓練數(shù)據(jù),可以說是深度學習模型。
2023年風靡全球的ChatGPT,就是大模型的經(jīng)典范例,其已應用于多個醫(yī)療場景,在病歷書寫、報告生成、病例歸納、輔助診療等醫(yī)療服務領(lǐng)域已有應用,未來將進一步支持病歷記錄、醫(yī)療咨詢、患者管理、學術(shù)交流等醫(yī)療場景,為患者、醫(yī)生和研究人員提供高效、智能的解決方案。
截至目前,在醫(yī)療領(lǐng)域的國產(chǎn)大模型數(shù)量不少于40個。
就技術(shù)而言,大模型本質(zhì)基本相同,通過對大量數(shù)據(jù)的學習和分析,提取出隱藏在數(shù)據(jù)中的規(guī)律和特征,如醫(yī)療大模型重點支持醫(yī)學圖像識別和分析、醫(yī)療數(shù)據(jù)分析和預測,實現(xiàn)更準確、高效的醫(yī)療診斷和治療。
大模型因側(cè)重點不一樣,如開源或閉源,后續(xù)發(fā)展各有特色。互聯(lián)網(wǎng)巨頭騰訊、百度、京東等的大模型開發(fā),涵蓋藥物研發(fā)、智慧診療、醫(yī)療設備運維、醫(yī)院管理等多個領(lǐng)域。其中,京東健康正式發(fā)布面向醫(yī)療健康行業(yè)的大模型“京醫(yī)千詢”,以京東言犀通用大模型為基礎,開發(fā)覆蓋全流程醫(yī)療需求、實現(xiàn)智能決策、支持多模態(tài)的醫(yī)療大模型;華為云與廣州金域醫(yī)學正式簽署盤古大模型戰(zhàn)略合作協(xié)議,雙方將合力打造醫(yī)檢行業(yè)AI大模型,驅(qū)動醫(yī)學檢驗全鏈條多場景的智能化;醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的醫(yī)療大語言模型——MedGPT,能夠支持循序漸進多輪問診,引導患者收集足夠的診斷決策因素,保證后續(xù)診斷有效,在與三甲主治醫(yī)生診斷相比中,已達到96%的一致性。
從技術(shù)實現(xiàn)方面來看,一類是直接開發(fā)形成的醫(yī)療大模型,如醫(yī)聯(lián)的MedGPT、深睿醫(yī)療的Deepwise MetAI等;另一類是基于通用大模型而進一步訓練形成垂類行業(yè)大模型,如華為云盤古大模型、京東健康“京醫(yī)千詢”、科大訊飛的“星火認知”等。各大模型應用根據(jù)自身既有業(yè)務基礎進一步深化應用場景,呈現(xiàn)出差異化發(fā)展特點。
由于是產(chǎn)業(yè)發(fā)展早期,國內(nèi)大模型產(chǎn)業(yè)對標ChatGPT同步發(fā)展,目前處于跟進復刻的階段,創(chuàng)新性總體偏弱。當國內(nèi)大模型技術(shù)積累達到一定階段,不同應用定位的模型優(yōu)勢將會在產(chǎn)業(yè)中顯現(xiàn)出來,呈現(xiàn)出差異化。
國外多數(shù)公司采用直接在基礎模型開發(fā)具備多樣性的應用,相對聚焦且貼合行業(yè)痛點,可以有效規(guī)避通用大模型的同質(zhì)化。現(xiàn)階段通用大模型雖在同質(zhì)化發(fā)展,但已顯現(xiàn)出垂直領(lǐng)域大模型在應用端的差異化創(chuàng)新突破。
差異化發(fā)展是大模型商業(yè)落地的主要途徑。用戶對于大模型產(chǎn)品的需求側(cè)重點各有不同,如需求強弱、單一或綜合功能要求等,會根據(jù)最切實的需要來適配大模型產(chǎn)品。同時,大模型數(shù)據(jù)分析、代碼編寫等能力對于用戶自身素質(zhì)也有一定門檻。因此,大模型提供者落地的主要場景不同,角色定位各有差異。各大互聯(lián)網(wǎng)公司在用戶端各有固定場景,如騰訊在社交、百度在搜索、京東在購物等。
讓大模型成為一個好用的工具,在交付用戶之前,還要通過一個考試。當前模型應用效果測評方式多樣,工具化、智能化的綜合評價體系已具備雛形。
大模型是由海量數(shù)據(jù)和算法組成的復雜系統(tǒng),在訓練和推理過程中會考慮很多因素。通過大模型測評能夠更好了解模型的性能和特點,評估使用價值和意義,明確局限性和潛在風險等,公平、客觀、直觀地感知大模型真正的效果,支持用戶選擇合適的大模型。
模型測評基準是通用人工智能的基石,需要同步探索構(gòu)建測試集和測試方法。國內(nèi)圍繞大模型測試集,各類機構(gòu)紛紛入場,如真格基金構(gòu)建了大模型測試集Z-Bench;清華大學、上海交通大學和愛丁堡大學合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。依托多種評測數(shù)據(jù)集,進一步形成針對不同維度的測評方法。
由于大模型發(fā)展太快,國際上對于大模型測評目前尚無絕對標準?!堵槭±砉た萍荚u論》的一個評測相對全面,從研發(fā)、商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等方面檢測大模型的全面能力。其評測使用的測試集包含600道題目,覆蓋了語言專項、數(shù)學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標簽,并針對問題的豐富性和多樣性做了優(yōu)化。
另外,國際數(shù)據(jù)公司IDC的測評,是將大模型分為三層,服務生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應用,對每一層的能力都提供測評,主要考察指標為算法模型、通用能力、創(chuàng)新能力、平臺能力、安全可解釋、大模型的應用行業(yè),以及配套服務和大模型生態(tài)等,具體包括36項細分維度的評估標準。
在醫(yī)療健康大模型評測方法演進中,谷歌和DeepMind進行了較為全面的實踐。2023年7月12日,谷歌和DeepMind的科研人員在《自然》雜志上發(fā)表了研究,通過MultiMedQA(美國醫(yī)師執(zhí)照試題)評估基準,評估大語言模型在編碼臨床知識方面的表現(xiàn),并詳解了谷歌醫(yī)療大模型Med-PaLM的進化過程。
國內(nèi)大模型產(chǎn)業(yè)對標ChatGPT同步發(fā)展,目前處于跟進復刻的階段,創(chuàng)新性總體偏弱。圖/視覺中國
首先,構(gòu)建了全新的美國醫(yī)師執(zhí)照試題評估基準,專門用于評估大語言模型在編碼臨床知識方面的表現(xiàn)。該基準結(jié)合了六個現(xiàn)有醫(yī)療問答數(shù)據(jù)集(MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU),涵蓋臨床知識、醫(yī)學研究和患者問答等多個方面,以及一個全新的在線搜索醫(yī)療問題庫數(shù)據(jù)集HealthSearchQA,旨在從多方面把AI培養(yǎng)成一名合格的醫(yī)生。其次,依托MultiMedQA,形成基于人類評估的框架模型,包括事實、理解、推理,以及可能的偏見等多個維度。
谷歌大型語言模型PaLM(Pathways Language Model)及其變體Flan-PaLM評估顯示,F(xiàn)lan-PaLM在MedQA的多項選擇題上表現(xiàn)出色,準確率為67.6%,比之前的技術(shù)水平高出17%以上,但它對病人醫(yī)療問題的回答卻暴露出關(guān)鍵的差距。然而,經(jīng)過指令提示調(diào)整產(chǎn)生的Med-PaLM,一組臨床醫(yī)生對其回答的評分為92.6%,與現(xiàn)實中臨床醫(yī)生的水平(92.9%)相當。
在上述谷歌評測中,安全性、公平性和偏見方面的評估內(nèi)容尚不完全。隨著模型規(guī)模的擴大和提示詞的調(diào)整,其理解能力、知識回憶和推理能力均有所提高,顯示出醫(yī)學領(lǐng)域的潛在實用性。
綜合來看,較為全面的評測主要由技術(shù)能力、行業(yè)服務能力、合規(guī)及安全四個維度組成。其中,技術(shù)應包括穩(wěn)定性、效率、效果等;行業(yè)服務能力應關(guān)注應用效果、成本可控、服務完整等;合規(guī)主要考慮數(shù)據(jù)、模型、應用治理能力;安全應確保大模型應用的全生命周期可控。
醫(yī)療服務嚴謹復雜,將大模型運用到臨床應用前,應通過相對完備的標準測試,對不同大模型性能和效果進行評估比較,幫助用戶選擇適合自己需求的大模型。
因此,評估標準需綜合患者、消費者、大模型研究人員、臨床醫(yī)生、社會科學家、倫理學家、政策制定者和其他利益相關(guān)方之間的共識。
可以說,標準化工作,是促進醫(yī)療健康行業(yè)大模型從“作坊式”走向“工業(yè)化”的關(guān)鍵。
從標準化角度看,目前,全球知名的人工智能標準化組織主要有四個,分別是ISO/IEC JTC1(國際標準化組織和國際電工委員會第一聯(lián)合技術(shù)委員會)、ISO(國際標準化組)、IEC(國際電工委員會)和ITU(國際電信聯(lián)盟)。
其中,ISO/IEC JTC1在人工智能領(lǐng)域的標準化工作已有20多年的歷史,并于2018年4月成立人工智能分技術(shù)委員會(SC42),圍繞基礎標準、計算方法、可信賴和社會關(guān)注等方面開展國際標準化工作;ISO與人工智能標準化研究上的工作主要集中在工業(yè)機器人、智能金融、智能駕駛?cè)箢I(lǐng)域;IEC主要在可穿戴設備領(lǐng)域開展人工智能標準化工作;從2016年起,ITU開展人工智能標準化研究,提出了人工智能和物聯(lián)網(wǎng)、機器學習等領(lǐng)域的標準化項目。
中國高度重視新一代人工智能發(fā)展,2020年7月,國家標準委、中央網(wǎng)信辦等五部門共同發(fā)布《國家新一代人工智能標準體系建設指南》,主要包括基礎共性、支撐技術(shù)與產(chǎn)品、基礎軟硬件平臺、關(guān)鍵通用技術(shù)、關(guān)鍵領(lǐng)域技術(shù)、產(chǎn)品和服務、行業(yè)應用、安全與倫理八部分。
圍繞醫(yī)療健康領(lǐng)域,中國信通院依托中國通信標準化協(xié)會、互聯(lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟,關(guān)注醫(yī)療健康行業(yè)大模型的總體技術(shù)框架、應用服務能力、合成服務治理及安全管理能力等四個方面,發(fā)布醫(yī)療健康行業(yè)大模型領(lǐng)域的系列標準,推動人工智能技術(shù)與醫(yī)療健康的深度融合。
其中,《醫(yī)療健康行業(yè)大模型應用技術(shù)要求》中“第1部分:醫(yī)院側(cè)醫(yī)療服務”、《醫(yī)療健康行業(yè)大模型應用技術(shù)要求》的“第2部分:患者側(cè)醫(yī)療服務”,這兩項標準針對門診、急診、住院等不同臨床場景中醫(yī)生、護士、患者等不同角色所進行的活動,定義醫(yī)療健康行業(yè)大模型在醫(yī)療服務應具備的功能,規(guī)范大模型的實際落地應用能力。
同時,通過規(guī)范模態(tài)支持數(shù)量,語言任務、視覺任務、語音任務、跨模態(tài)任務等不同模態(tài)的任務支持度,語言理解、文書生成、多輪主動交互等基本能力,明確醫(yī)療大模型的醫(yī)療服務的應用優(yōu)勢及業(yè)務范圍,支持醫(yī)療健康服務效率及質(zhì)量的提升。
此外,通過規(guī)范軟硬件、數(shù)據(jù)、算法模型、應用等方面的安全要求及易用性、穩(wěn)定性、魯棒性、公平性、可解釋性、可審查性等模型服務要求,保障醫(yī)療健康信息安全及大模型的服務可靠性。
可以預見,人工智能將在醫(yī)療領(lǐng)域,能夠提高醫(yī)生效率,滿足更多患者需求,推動優(yōu)質(zhì)醫(yī)療資源擴容下沉,應對醫(yī)療資源短缺的全球共同難題。醫(yī)療大模型聚焦嚴肅且謹慎的醫(yī)療場景,對錯誤的容忍度更低,對準確性和安全性要求更高。研制并推廣大模型技術(shù)在醫(yī)療健康領(lǐng)域應用的相關(guān)標準,將大幅降低醫(yī)療健康大模型應用的研發(fā)門檻和創(chuàng)新成本,助力醫(yī)療健康行業(yè)的數(shù)字化轉(zhuǎn)型,提升醫(yī)療服務效率,讓優(yōu)質(zhì)醫(yī)療資源觸達更多患者群體。
大模型在醫(yī)療健康領(lǐng)域應用所面臨的挑戰(zhàn)和難題是基本一致的,業(yè)界亟須搭建良好的公共服務生態(tài)環(huán)境促進良性發(fā)展。
筆者認為,一是需要大量訓練數(shù)據(jù)和計算資源,醫(yī)療數(shù)據(jù)的獲取和處理比較困難,應用過程中應重點關(guān)注數(shù)據(jù)合規(guī);二是大模型的結(jié)果和決策相對難以解釋和理解,涉及科技倫理治理的工作;三是大模型的安全性和隱私保護是后續(xù)規(guī)?;瘧玫幕厩疤?,醫(yī)療數(shù)據(jù)涉及個人隱私和敏感信息,需采取相應的措施來保護數(shù)據(jù)安全。大模型走向應用落地時,在保障產(chǎn)品好用、可用、易用前提下,應契合場景的核心痛點,發(fā)展核心優(yōu)勢,支持后續(xù)差異化發(fā)展。
對標準體系的建立,中國亦不能落于人后。標準體系建設貫穿醫(yī)療健康行業(yè)大模型應用的全生命周期,涉及規(guī)劃論證、科研生產(chǎn)、使用管理等多個部門,是復雜的系統(tǒng)工程,需要人工智能技術(shù)與衛(wèi)生健康兩個領(lǐng)域傾力協(xié)作配合,相互銜接、互為補充與支撐,以期盡快建立國家標準、行業(yè)標準。
筆者建議,從國家層面,推動標準應用試點示范。也就是依托人工智能標準體系,以“優(yōu)勢先行、成熟先用、應用牽引”為原則,通過重點標準的先試先行,總結(jié)提煉可借鑒、可復制、可推廣的實踐經(jīng)驗,以點帶面拓展標準應用深度和廣度,持續(xù)推動大模型技術(shù)在醫(yī)療健康領(lǐng)域的應用,為醫(yī)療健康服務數(shù)字化轉(zhuǎn)型及智能化發(fā)展奠定基礎。
另外,重視數(shù)據(jù)資源安全防護。從技術(shù)層面看,大模型技術(shù)在醫(yī)療健康領(lǐng)域應用有利于提高診斷治療效率,但也存在數(shù)據(jù)泄露、模型被篡改破壞導致診療輔助決策誤判等情況,要加強對數(shù)據(jù)資源的安全防護。通過技術(shù)、標準與規(guī)范等方式排除系統(tǒng)遭黑客攻擊、程序被修改而導致錯誤內(nèi)容輸出等的可能性。
從過往經(jīng)驗看,技術(shù)跑馬快行時,要有倫理作為束縛的韁繩。大模型技術(shù)在醫(yī)療健康領(lǐng)域的發(fā)展尤其要注意科技倫理風險,由人工智能算法所帶來的偏見歧視、責任缺失、技術(shù)失控、隱私侵犯等倫理問題在醫(yī)療健康領(lǐng)域?qū)l(fā)嚴重后果,要加強對醫(yī)療健康大模型的科技倫理治理工作,由產(chǎn)學研用各方聯(lián)合開發(fā)科技倫理治理工具,引導醫(yī)療健康大模型有序、安全發(fā)展。
(編輯:王?。?/p>