〔摘要〕醫(yī)學診斷的思維過程需要綜合判斷與分析判斷。然而在這兩種判斷過程中,人類的思維有著難以避免的局限性。而隨著人工智能技術的發(fā)展,符號主義和連接主義能夠在一些方面有效彌補人類思維的缺陷,作出更準確的診斷判斷,但他們也有各自的局限性。可以想見,符號主義與連接主義的融合發(fā)展將助力提升醫(yī)學輔助診斷能力。但是有關連接主義人工智能的運用依然存在準確度和透明性、可解釋性之間的矛盾,由于其透明性和可解釋性不足,產生了對人工智能的諸多擔憂。通過梳理醫(yī)學診斷的思維流程、整理人工智能各流派之間的差異以及人工智能背后的語義哲學和真理觀念的變革,可在一定程度上紓解對人工智能運用的倫理擔憂,推動人工智能在醫(yī)學診斷領域的實際運用。
〔關鍵詞〕人工智能;醫(yī)學診斷;哲學分析;醫(yī)學倫理
〔中圖分類號〕R-052 〔文獻標志碼〕A 〔文章編號〕1001-8565(2024)09-1037-09
DOI: 10. 12026/j. issn. 1001-8565. 2024. 09. 04
*基金項目:中國醫(yī)學科學院醫(yī)學與健康科技創(chuàng)新工程“臨床醫(yī)學數據整合與分析平臺”(2021-I2M-1-001)
Ethical discussions and philosophical reflections on the application of artificial intelligence-assisted diagnosis
LI Jiaming1, ZHANG Xi2, YANG Li1, WU Ziwei3, HOU Li1
(1. Institute of Medical Information/Medical Library, Chinese Academy of Medical Sciences Peking Union Medical College, Beijing 100020, China;2. Department of Philosophy, Sun Yat-sen University, Guangzhou 510275, China;3. School of Public Health, Zhejiang University School of Medicine, Hangzhou 310058, China)
Abstract: The thinking process of medical diagnosis requires a comprehensive and analytical judgment. However, in both judgment processes, human thinking has inevitable limitations. With the development of artificial intelligence (AI) technology, symbolism and connectionism can effectively compensate for the deficiencies of human thinking in some respects, making more accurate diagnostic judgments, but they also have their limitations. It is conceivable that the integration and development of symbolism and connectionism will assist in enhancing the capabilities of medical-assisted diagnosis. However, there is still a tension between accuracy, transparency, and interpretability regarding the application of connectionism in AI, and many concerns about AI have arisen due to its lack of transparency and interpretability. By sorting out the thought process of medical diagnosis, organizing the differences among various AI paradigms and the changes in semantic philosophy and truth concepts behind AI, ethical concerns about the application of AI can be alleviated to a certain extent, and the practical application of AI in the field of medical diagnosis can be promoted.
Keywords: artificial intelligence; medical diagnosis; philosophical analysis; medical ethics
0 引言
近幾年,人工智能在數據量、算力、算法與法律規(guī)制上都取得了顯著的進展。以ChatGPT為代表的大型語言模型一經推出便驚艷各界。在醫(yī)學中,診斷作為確定患者健康問題的性質、原因和疾病步驟在醫(yī)療行為中至關重要。治療、預后、預防等一系列醫(yī)療行為都圍繞著診斷展開。因此,人工智能與醫(yī)學診斷結合有著巨大的潛在應用價值,例如,有研究使用深度學習人工智能模型全自動分割主動脈夾層的CTA影像效果出色[1],還有研究構建出乳腺密度自動分類評估的深度學習語言模型,可顯著提高乳腺癌病理診斷的準確性[2]。盡管這些研究充滿希望,但人工智能在醫(yī)學診斷中的應用并沒有如科學家與工程師們最初預測的那樣迅速廣泛普及。
這一現象的背后有多重原因。其中就包括,透明性與可解釋性的倫理擔憂。政策制定者面對主體責任不清和不可控的輸出無的放矢,患者對于人工智能在醫(yī)學診斷中的決策過程的不透明性感到不安,而醫(yī)生和決策者則面臨著如何信任并有效地使用這些技術的挑戰(zhàn)。另一方面,面對“黑盒系統(tǒng)”,我們的認識論思考似乎還不足夠充分。這些系統(tǒng)的內部工作方式對于大多數使用者而言難以理解,但輸出的結果可以影響人對病情的認知與判斷。在醫(yī)療行為中,每一次判斷都是性命攸關的,人們不得不對其是否勝任輔助診斷這一任務產生懷疑。
本研究旨在從哲學的角度對醫(yī)學診斷與人工智能在這一領域的應用進行深入分析,以期緩解倫理擔憂并探討人工智能在醫(yī)學診斷中的潛力。
1 判斷的醫(yī)學之舞:解析現代醫(yī)學診斷的復雜性
1. 1 診斷是一種科學判斷
由美國國立醫(yī)學圖書館(National Library of Medicine, NLM)編制并維護的醫(yī)學主題詞表(Medical Subject Headings, MeSH)將“診斷”解釋為“判定一種疾病或病癥的性質,或者將某種疾病或病癥與另一種進行區(qū)分。評估可能通過體格檢查、實驗室檢查等方式進行??梢栽O計計算機程序以增強決策流程?!痹凇冬F代漢語詞典》中,診斷的第一項釋義為“診視病人而判斷其病癥”?!吨嗅t(yī)診斷學》教材中,傳統(tǒng)醫(yī)學將診斷描述為:“通過對患者的詢問、檢查,以掌握病情資料,進而對患者的健康狀態(tài)和病變本質進行辨識,并做出概括性判斷。”可以看出,古今中外,都將診斷這一行為歸納為一種以“判斷”為核心步驟的過程。由于健康與疾病這一對范疇的定義本身就帶有價值判斷,在醫(yī)學人文層面不可否認這樣的判斷也包含價值判斷因素,但從科學角度來看,這樣的判斷主要是依據患者的癥狀與醫(yī)學知識而進行的事實判斷。
整體而言診斷是醫(yī)療流程的中心環(huán)節(jié)(圖1),而診斷這個過程是以判斷為界限的。界限之前是包括經驗在內的醫(yī)學知識、收集到的各種檢查信息,后面則是實踐:無病則預防,有病則治療。抽象而言,現代語境中的“診斷”可以被理解為在醫(yī)學領域中一種基于經驗的科學判斷。這里的經驗不僅僅包含來自直接的患者接觸和治療的感性經驗,還包括對醫(yī)學文獻、研究成果和不斷更新的醫(yī)學知識等原理的整體把握。
1. 2 印象診斷與確診
從認識論角度,知識由判斷組成。判斷可以根據思維過程的不同分為兩大類:分析判斷與綜合判斷。分析著眼于認識對象,將認識對象分解為各個要素,各個要素不能超越認識對象的本身,謂詞并沒有為主詞增添新的東西。而綜合則將各個要素有機地組織起來,將經驗獲取來的謂詞加到主詞上去,形成一個統(tǒng)一的整體。醫(yī)學診斷相較于生活中的一般判斷更為精密與復雜,而綜合與分析是診斷這一個思維過程的兩個方面。在診斷的初步階段,醫(yī)生會與患者交流現病史。結合主訴、可見的癥狀和體格檢查與其他經驗尋找診斷的線索,進行初步的猜測,形成總體的印象診斷。這是一個啟發(fā)式的階段,目標一是盡可能地覆蓋可能的病種,二是盡量縮小可能的診斷范圍,得出的結論是“人可能有某病”。
產生了印象診斷后,醫(yī)生會進行更深入的分析,以驗證或進一步地細化確診。這一階段依賴實驗室檢查、影像檢查等輔助檢查手段來豐富臨床證據,也依賴于主診醫(yī)生個人對醫(yī)學概念記憶的精準性,依靠“某病有某些特征”來對印象診斷進行嚴謹的推理驗證。目標是力求準確。這兩個階段起到支配性作用的判斷形式分別是綜合判斷與分析判斷。
1. 3 臨床診斷思維中人的局限性
在《診斷學》教材中,“臨床診斷思維”被認為是與各種操作技能同等重要的一種思維技能。臨床診斷思維對醫(yī)生提出了很高的要求:醫(yī)生通過科學的邏輯思維,結合掌握的疾病知識,對所獲取的各種資料進行分析、評價、整理,以達到提出診斷的目的。任何醫(yī)生的臨床診斷思維,都需要在終身學習和臨床實踐中積累經驗、不斷提高。人類思維在診斷中至少有兩種局限性:知識容量有限與信息過載、注意力偏向與情感偏見。除此之外,在臨床實踐中面對大量患者的醫(yī)生還要額外承擔有限問診時間帶來的壓力,有可能會降低判斷的準確性。這些局限性作用于整個思維過程中,造成的結果可能是誤診或者漏診。這些人類醫(yī)生思維過程中的局限性亟須人工智能的協助。
1. 3. 1 知識容量有限
作為一名臨床醫(yī)生,接受了系統(tǒng)的醫(yī)學教育和專業(yè)培訓后,專業(yè)知識雖然要超過一般人,但與醫(yī)學共同體相比,知識容量終究有限,認識不到事物的全部要素,不一定能得出科學的綜合結果。對知識的不完全理解可能會將檢查引導向一個錯誤的方向,從而造成誤診;而對非高頻知識的遺漏則可能會導致醫(yī)生沒有意識到某種疾病的可能性,造成漏診。
在臨床工作中,醫(yī)生需要處理多種模態(tài)的信息,包括豐富的病歷資料、各種醫(yī)學檢查結果、患者描述的癥狀等。這些信息往往多模態(tài)且大量存在的。醫(yī)生需要從中篩選出關鍵信息進行分析和評估。然而,這種大量、多模態(tài)信息的處理可能導致醫(yī)生無法抓住其中的重點,面臨信息過載的挑戰(zhàn)。處理信息的負擔可能導致醫(yī)生思維中的信息不完整,難以全面地分析和綜合所有的信息,增加了誤診或漏診的風險。
1. 3. 2 注意力偏向與情感偏見
在醫(yī)療專業(yè)化和分科化的發(fā)展背景下,醫(yī)生可能更傾向于專注于自己擅長或熟悉的領域,而對其他領域的信息不夠敏感,容易忽略掉一些重要線索。這種偏向可能導致在跨學科或跨領域的診斷中存在一定錯漏。醫(yī)生還可能基于自身過往的成功經驗或對某些病癥的熟悉程度,而過度依賴這些經驗,將其套用到新的病例中,忽視了新情況的特殊性。這種錯誤的經驗套用可能會導致對病情的錯誤理解和診斷,增加誤診或漏診的風險。
1. 3. 3 時間壓力
由于優(yōu)質醫(yī)療資源的集中,大型醫(yī)院的運行一直以來都是超負荷的。醫(yī)生分配給每一名患者的面診時間都十分有限。即便是最基本的數學計算,在極度緊張的情況下,也可能出錯。在醫(yī)學診斷中,醫(yī)生需要進行更為復雜的推理和判斷。時間限制可能會對醫(yī)生的推理能力產生負面影響。時間緊迫可能使醫(yī)生急于作出決策,導致推理過程過于匆忙,不夠深入和細致。這可能導致對患者病情的不完全理解或遺漏重要線索。時間壓力還可能使醫(yī)生在診斷過程中難以充分利用所有可用信息,而只能專注于一些顯著的或直觀的癥狀或檢查結果,進而忽略了其他可能關鍵的信息。醫(yī)生在極為有限的時間內很難對所有可能的診斷方案進行全面地思考和評估。這可能會限制醫(yī)生對病情的全面認識,增加誤診或漏診的風險。
2 不同流派人工智能在診斷中的應用及評價
符號主義(symbolism)、連接主義(connectionism)、行為主義(behaviorism)是目前人工智能領域的三種主要流派[3]。這三種流派對于如何實現人工智能各自有其不同的理解:符號主義是人工智能的早期主流,其核心理念是通過使用符號和規(guī)則來表示知識,從而進行智能推理,提供相對較高的數學可解釋性;連接主義則是通過研究神經網絡間的連接機制與學習算法實現智能,更注重靈活的知識表示和學習能力;行為主義則強調對可觀察行為進行信息感知,其認為智能行為是從與環(huán)境交互的過程中對感知結果作出相應行為,即智能取決于對外界環(huán)境的自適應能力。在不同時期和應用背景下,人工智能的研究和發(fā)展一直在不斷演變,而在醫(yī)學診斷領域也逐漸凸顯出相應的優(yōu)勢和局限。其中行為主義自1948年提出以來,其發(fā)展速度和重視程度遠不如符號主義和連接主義。以下將圍繞符號主義和連接主義這兩種具有代表性的思想流派在醫(yī)學輔助診斷中的應用及其相對優(yōu)勢進行探討:
2. 1 符號主義人工智能在醫(yī)學診斷領域的實踐
符號主義強調邏輯推理和知識表示,因此符號主義人工智能進行醫(yī)學診斷的原理屬于分析判斷。專家系統(tǒng)是符號主義的代表算法之一,它的開發(fā)為人工智能應用于醫(yī)學診斷領域奠定了重要基礎,彼時在某些細分領域。專家系統(tǒng)在醫(yī)學輔助診斷中的貢獻在于其對復雜醫(yī)學知識的形式化表示和系統(tǒng)化推理,使得復雜的醫(yī)學知識更具結構化和標準化,獨立的知識庫和規(guī)則集使得專家系統(tǒng)在通過模擬專業(yè)醫(yī)生的診斷決策過程中,能為醫(yī)生提供更為客觀的、標準化的輔助診斷結果。相較于臨床醫(yī)生,專家系統(tǒng)不受感情、疲勞或主觀人為偏見的影響,能夠在短時間內處理大量的信息,提高了醫(yī)學診斷的效率。
在醫(yī)療領域,MYCIN是早期比較具有代表性的專家系統(tǒng)。這個系統(tǒng)判斷是否有需要治療的感染情況存在,為醫(yī)生提供關于可能感染的細菌和藥物的建議,將其診斷結果與人類專家的診斷結果進行比較,結果顯示MYCIN的準確性相當接近斯坦福大學感染性疾病專家的準確性[4]。 MYCIN的出現為其他用于臨床輔助診斷的專家系統(tǒng)的研發(fā)提供了框架基礎和重要經驗,如用于解釋肺功能測試數據以支持肺部疾病診斷的專家系統(tǒng)PUFF、用于皮膚癌輔助診斷的專家系統(tǒng)等[5]。
互聯網時代,隨著信息量急劇增加,知識的形式化表示變得越來越重要。知識圖譜的出現能夠提供更強的對復雜知識的理解和推理能力,通過圖形結構對實體和關系進行符號化表示,在醫(yī)學領域,知識圖譜極大地發(fā)揮了對多模態(tài)醫(yī)學知識的整合和表示作用,能更清晰地揭示疾病、藥物、表型等之間的聯系,結合患者的臨床信息和病史,通過圖譜內容進行臨床病例推理,這種推理過程有助于醫(yī)生更全面、系統(tǒng)地診斷疾病,甚至有助于醫(yī)務人員發(fā)現和理解疾病之間的潛在關聯,從而在一定程度上避免了從醫(yī)人員的注意力偏向和經驗依賴等不足,為臨床科學發(fā)現提供新可能。
然而,盡管符號主義人工智能在醫(yī)學診斷的一些應用中取得了成功,但在面對復雜、動態(tài)和真實世界的醫(yī)學問題時,符號主義仍存在一些不足,如在面對處理大規(guī)模的復雜、模糊或難以形式化的醫(yī)學知識時,通過定義符號和規(guī)則表示醫(yī)學知識的方法需要耗費更多人力去編碼規(guī)則和輸入大量的先驗醫(yī)學知識;此外,由于符號主義往往不具備從經驗中學習的能力,導致其在面對真實世界出現的具有不確定性的新問題時,輸出的結果可能不盡如人意。
2. 2 連接主義人工智能在醫(yī)學診斷領域的實踐
隨著時間的推移,連接主義人工智能的興起逐漸彌補了符號主義在處理大規(guī)模數據和學習復雜模式上的不足,使得人工智能研究更加全面多樣。
連接主義的人工智能相比于符號主義更擅長綜合判斷。連接主義模擬了神經網絡,機器學習作為連接主義的代表算法,其早期在醫(yī)學輔助診斷中主要被應用于處理生物信號,如心電圖、腦電圖等,使用傳統(tǒng)機器學習算法根據心電圖數據實現心臟病分類、自動檢測異常等,能提供臨床醫(yī)生對心臟病、腦疾病等的診斷支持。
由于計算能力的顯著提高和大數據的普及,連接主義對神經網絡理論的研究更進一步。以深度學習為代表的人工智能具有更為高效的對大規(guī)模醫(yī)學數據的自主學習與處理能力,能夠通過大量醫(yī)學數據的訓練和模型優(yōu)化,迅速學習新的醫(yī)學知識和模式,以獲得對新型臨床問題的準確識別能力,如對疾病異常病變的識別或發(fā)病風險的推斷等,例如有研究應用卷積神經網絡算法,開發(fā)出一種能夠自動檢測視網膜眼底病變的系統(tǒng),它能夠從視網膜圖像大數據中自動學習提取隱含的疾病診斷特征,自動檢測視網膜眼底照片中糖尿病視網膜病變和糖尿病性黃斑水腫,評估檢測結果顯示,該系統(tǒng)在識別糖尿病性視網膜病變等眼疾方面表現出色[6];有研究開發(fā)了一種名為PANDA的人工智能用于胰腺癌檢測的深度學習方法,通過非增強CT即可高精度地檢測和分類胰腺病變,并且在真實世界的多場景病變檢測驗證中顯示出高達92.9%的靈敏度和99.9%的特異度,該結果使得PANDA系統(tǒng)有望成為臨床大規(guī)模胰腺癌篩查的新工具[7]。由此可見,現階段的連接主義人工智能為醫(yī)生的決策提供了充足的醫(yī)學知識支撐、靈敏準確的影像識別等方面的輔助,在一定程度上提高了臨床診斷的效率和準確度,減輕了醫(yī)生的工作負擔,甚至有助于減少臨床疾病的誤診與漏診率。
基于神經網絡的大語言模型等新興連接主義人工智能的崛起再一次為醫(yī)學診斷領域提供了新的機遇,但與此同時,新技術的產生必然在客觀上帶來新的問題,例如大語言模型會產生“幻覺”,即其生成的內容可能并非基于現實,而是創(chuàng)造了一個看似可信但完全不正確的虛假信息[8]。此外,連接主義人工智能還存在其他局限,特別是其決策過程的不透明性和解釋困難問題,以及面臨大規(guī)模數據訓練模型的挑戰(zhàn)和對模型泛化能力的考慮等問題,仍有待進一步深入思考和解決。
2. 3 結合連接主義與符號主義人工智能的嘗試
符號主義和連接主義作為人工智能的兩大主要流派,兩者在不同問題和應用場景中發(fā)揮著各自的獨特優(yōu)勢。符號主義對規(guī)則和符號的表示使得知識的推理過程更為透明,在臨床應用中,醫(yī)生可以更容易理解模型的決策過程,從而提高信任度;而連接主義在處理大規(guī)模、復雜的醫(yī)學問題上的優(yōu)勢使其迅速成為當前醫(yī)學圖像診斷等領域的研究和應用熱點。如果符號主義和連接主義之間可以結合,那么我們可以展望,將連接主義與符號主義結合起來可能是一種更為合理的策略。有學者認為兩者間的融合具有哲學基底,并提出可能的范式[9]。在通用領域,已經有一些理論方法在某種程度上達成了兩種范式的結合。如采用基于專家知識的方法,利用規(guī)則或基于符號的人工智能系統(tǒng)融合深度學習模型和專家知識,以達到對深度學習模型進行解釋的目的[10],另一項研究則是將連接主義人工智能融入符號主義人工智能的構建流程:知識圖譜的構建依賴于文本關系的抽取,李敬燦等[11]的研究提出使用大型語言模型來完成這個過程。
在醫(yī)學領域,診斷的綜合判斷階段,連接主義人工智能可以充分發(fā)揮優(yōu)勢,結合多模態(tài)信息,對患者的病情進行快速綜合性評估和初步診斷,而后在分析判斷的階段運用符號主義人工智能驗證連接主義綜合判斷的結果,篩選掉盡量多的“幻覺”并表示出推理過程,讓臨床輔助決策的過程透明、結果可信賴。這種結合可以提高診斷的準確性和可信度,有助于高效完成初步診斷。如起初基于符號主義的IBM認知計算平臺“沃森”,歷經幾十年迭代更新,在結合了連接主義的深度卷積神經網絡后獲得了更強的數據分析與挖掘能力,在某些細分疾病領域上已經可與頂尖醫(yī)生媲美[12]。
3 醫(yī)學人工智能的倫理擔憂及其背后的哲學思維變革
3. 1 透明性與可解釋性成為人工智能治理的熱點
《新一代人工智能倫理規(guī)范》由國家新一代人工智能治理專業(yè)委員會于2021年頒布。此規(guī)范將提升透明性、可解釋性、可理解性等原則作為人工智能研發(fā)的規(guī)范;其后于2023年由國家人工智能標準化總體組、全國信標委人工智能分委會頒布的《人工智能倫理治理標準化指南》更是進一步細化提出數據可解釋性、特征可解釋性、模型可解釋性和邏輯可解釋性的要求。
透明性的基本組成要素包含“信息的可獲取” 。人工智能的透明性問題包含算法的不透明、數據集的不透明以及訓練策略的不透明。算法透明化問題也會給模型的可理解或可解釋性帶來挑戰(zhàn)。人工智能的可解釋性或解釋性一般被分為Interpretability和Explainability兩種不同的概念。在發(fā)表的中文文章中,兩種可解釋常被混用??山忉屝裕╥nterpretability)通常著眼于AI模型的內部工作原理。指的是人工智能模型或系統(tǒng)的內部結構、操作方式以及輸出結果在本身的框架內是可理解和可解釋的程度。這種解釋性不一定需要能夠被外部解釋或說明,其關注的是AI系統(tǒng)內部的邏輯和運作是否可被理解。而可解釋性(explainability)則更加關注人類能夠理解和解釋的方面。它指的是人工智能系統(tǒng)的決策過程、輸出結果以及模型的預測能夠被解釋和說明給非技術人員,即使這些人員沒有深入的技術專業(yè)知識,也能理解模型做出某種預測或決策的原因。
3. 2 透明性與可解釋性問題的成因
包含深度神經網絡的連接主義人工智能模型結構有高度非線性的特點,其透明性與可解釋性問題在某種程度上是數據的高維度、復雜的代碼和可變決策邏輯的產物。模型中抽象出的向量既無法用人類語言閱讀,也無法與現實中的事物一一對應。
人工智能模型的透明性與可解釋性問題還有一部分來自商業(yè)競爭、國家安全或隱私保護。算法和數據集的相關信息由于這些原因通常難以獲得。如OpenAI并未公布ChatGPT的核心算法和訓練人工智能所使用的數據庫,一些研究者已經對此表示擔憂或質疑,如擔心算法和數據中存在的偏倚。另外,有一些已經在運營中的人工智能應用產品,在設計之初并沒有充分考慮透明性與可解釋性問題。在系統(tǒng)開發(fā)之后的運維階段添加這些特性是十分困難的。
3. 3 透明性與可解釋性的技術解決方法及其局限性
面對人工智能的透明性與可解釋性問題,一些研究從工程技術角度提出了一些解決方法。陳沖等[13]將這些方法總結為圍繞模型內在的可解釋性、基于歸因的解釋和非歸因的解釋三個方面。例如回歸模型、決策樹、K臨近等簡單機器學習模型,具有可被人類觀察算法運行能力的可解釋性?;跉w因的可解釋方法根據輸入特征對輸出結果的重要性對其賦予“歸因值”。實現方法包括基于反向傳播、基于擾動和基于沙普利值等。而基于非歸因的方法有概念激活向量、基于實例和基于注意力等。
然而這些方法并不能從根本上解決人們對模型透明性與可解釋性的擔憂。對于內在可解釋性的方法,使用上述的簡單機器學習模型構建內在可解釋模型時,一旦數據維度、規(guī)則集的規(guī)模等超過了一定限制,則無法提供可被人類理解的可解釋性。目前較為流行的歸因解釋方法則會累積自上層神經元傳遞的錯誤,后果是解釋結果的不盡如人意?;诜菤w因的解釋方法分別被用于不同的待解釋模型。如概念激活向量主要適用于使用卷積神經網絡等深度學習模型進行圖像分類等任務的場景,其作用在于揭示對結果產生重要作用的某些概念。概念的定義可能是主觀的,并且可能因人而異。不同的領域專家或研究者可能會給出不同的概念定義,這可能會影響到概念激活向量方法的解釋結果的一致性和可靠性。且這種方法主要用于解釋模型在某個概念上的決策,但它無法提供關于模型整體行為的全面解釋。模型的決策可以受到多種因素的影響,而概念激活向量只能解釋其中的一部分;基于實例的解釋是一種類比方法,不能捕捉模型整體的決策邏輯和對抽象概念的理解;基于注意力機制的解釋可能不總是完全反映模型的決策邏輯,特別是對于復雜模型和任務而言。
除了這些方法本身,使可解釋技術方法效果受到制約的還有一些社會因素。如目前的可解釋性評價指標缺乏,且并沒有一個被廣泛使用的指標來評價人工智能模型的透明性與可解釋性[14]。此外,可解釋人工智能生成的解釋會揭示出底層模型和參與模型構建的數據,其中可能包含參與模型訓練的用戶信息。
3. 4 透明性與可解釋性風險的表現與哲學實質
深度學習的興起,讓特征提取不再受限于領域專家的人力勞動。相比分治策略,端到端學習方式更容易獲得全局最優(yōu)解?;谏窠浘W絡的人工智能模型面對復雜任務的性能突飛猛進,可以擁有很高的預測性能。但是端到端的模型難以用人類可理解的方式解釋從輸入到輸出之間像一個黑盒,只能看到其輸出結果,對其過程卻無法認知。決策者往往不愿意根據沒有解釋的決策而采取行動。對黑盒輸出的風險擔憂集中表現為其結果不容易獲得其意在輔助的決策者的理解,更難得到決策者信任。
從哲學角度而言,透明性與可解釋性問題體現出人們對不能完全控制人工智能技術的焦慮,本質上是對人的主體地位的擔憂。哲學家鄧曉芒說:“人們發(fā)現人工智能的發(fā)展開始有超越人類、控制人類和傷害人類的危險趨勢,長此以往,我們生活的這個地球上將沒有人類生存的空間,而只有‘機器人’。從發(fā)展前景來看,它們必將取代人類、奴役人類,甚至消滅人類。[15]”這種擔憂確有其合理性。人工智能的發(fā)展確實帶來一些風險,比如解放人的腦力的同時,也使人腦越來越“遲鈍”。但人工智能的發(fā)展是第三次科技革命的結果,是人的能力的延伸,是作為主體的人在認識客觀規(guī)律的基礎上,發(fā)揮主觀能動性的產物。因此從本質上來說,人工智能永遠不具有主體性。在醫(yī)療診斷實踐中,一些基于數據驅動的、透明性與可解釋性不強的人工智能臨床運用只是輔助診斷,不僅不會排除醫(yī)療診斷這一行為的主體的倫理責任,還能解放診斷主體的腦力,做出更有效率、更準確的診斷及其他醫(yī)療決策。
當然,技術的進步確有一些負外部性因素。馬克思認為:“在我們這個時代,每一種事物好像都包含有自己的反面……我們的一切發(fā)明和進步,似乎結果是使物質力量成為有智慧的生命,而人的生命則化為愚鈍的物質力量?!盵16]
但是,馬克思認為這不是技術本身的問題,而是生產力與生產關系的矛盾導致的。馬克思諷刺那些倒退論者,認為他們是“可憐的”。因此只要建立完善的社會公共制度,合理分配現實的利益關系,就能充分發(fā)揮人工智能的解放力量。
3. 5 人工智能造成主體性危機的認識論分析
人是主體,人工智能是工具,人在實踐中對工具的運用,往往促進人對自身的認識。對于透明性與可解釋性的要求,一定程度上促進了人對自身認識規(guī)律的理解。
人工智能的黑箱運作方式背后折射出的是人的認識規(guī)律。人工智能不能理解符號的意義,正如在塞爾的著名思想實驗中文屋中所說,屋子里的純句法塞爾在理解屋外傳遞來的中文時,只能根據規(guī)則來進行映射。博登[17]也認為“從原理上講,同一個形式體系可以映射到幾個不同的領域中去,所以(人們)就可以用它回答有關其中任一領域的問題。然而就其本身而言,它可能是無意義的,就像從屋中的塞爾的觀點來看,中文符號是無意義的一樣。”屋內的塞爾并不理解屋外傳遞進來的中文的含義,不理解中文的含義,這就是說計算機系統(tǒng)是純句法的,不能理解符號的含義,“塞爾看來,任何電子計算機都不可能真的處理符號,也不可能真的指稱或解釋任何東西”[17],主要是不能理解人類理智中的因果聯系,據此,塞爾認為只有人類的生物大腦才能產生出智能,計算機不可能有智能。他說“大腦顯然具有這種因果能力,而計算機不具有?!庇捎诳梢栽谟嬎銠C中模擬大腦的組織形式,所以更確切地說,是神經蛋白具有這種能力,而金屬和硅不具有:“大腦物質的生物化學特性成為關鍵所在?!盵17]
若依照這種觀點,計算機發(fā)展出更接近人的智能是不可能的,這似乎無法解釋正在蓬勃發(fā)展的人工智能技術。
這種解釋的困境背后其實是由哲學思維的不同所導致的。傳統(tǒng)認識論基本上是真理的符合論,認為人的認識與外界對象相符合則為真,不符合則為假。在符號學中,假定符號和符號所指稱的對象一致。如果從這種觀點來看,人工智能確實不能有人的智能。在維特根斯坦后期的《哲學研究》中,只要符號在整個符號體系中保持一定的位置,人與人之間的“語言游戲”就能進行,正如維特根斯坦[18]的“甲蟲之喻”:“假定每個人都有一個裝著某種東西的盒子:我們把這種東西稱之為‘甲蟲’。誰也不能窺視其他任何一個人的盒子,而且每個人都說他只是通過看到他的甲蟲才知道甲蟲是什么——此時完全可能每個人盒子里都裝著一些不同的東西。甚至還可以想象裝著不斷變化著的東西——但是假定‘甲蟲’這個詞在這些人的語言中有一種用法呢?如果有的話,它不會用作一件東西的名稱。盒子里的東西在該語言游戲中根本沒有位置;甚至作為某種東西也不行,因為盒子甚至可能是空的。不,盒子里的東西可以被完全‘約簡’;它被消去了,無論它是什么。”
最后,維特根斯坦得出結論:“如果我們以‘對象和名稱’的模式來解釋感覺表達式的語法,那么,對象就會由于不相干而不被考慮?!盵18]在感覺中的表達式可以消去感覺的對象,那么在任何符號中也可以消除符號的對象,這就是人類語言的運作方式,當然也可以成為人工智能的運作方式。
另一方面,休謨[19]已經說明,因果關系的概念是值得懷疑的。歸納是通過已知推出未知,歸納方法既是推出科學結論的方法,也是證實真理的手段,沒有歸納,人類將不能獲得有新內容的真知識。然而不同于演繹的邏輯,在演繹中只要前提是正確的,遵循正確的推導方法,那么結論就一定是正確的。在歸納中,即使假定前提是正確的,也根據正確的歸納推理去推導結論,推出來的結論也可能是錯誤的。休謨針對歸納的特點,直接對歸納的合理性發(fā)出詰難:歸納推理不能被演繹證明,因為歸納是可錯的,并且歸納推理同樣不能被歸納所證明,因為這是一個循環(huán)論證。休謨甚至認為歸納就是一種人的心理習慣:“習慣是人類生活中的偉大指南。只有這個原則才能使我們的經驗對我們有用,使我們能期待將來出現一連串事件,與過去出現的事件相似。”
運用習慣來說明人的認識的真理性,顯然不利于解釋科學的真理性何以可能。其實在人工智能輔助診斷中,患者往往不要求診斷主體進行完全的解釋,只要診斷過程是最低限度的可理解的,就能滿足要求。而關于第一種可解釋性,問題的根源也許出于目前對人類思維規(guī)律認識的不足。而就目前人工智能的實踐來說,在醫(yī)學診斷方面,人工智能往往能夠在總結大量經驗,從而得出的綜合判斷的方面表現比人類更好,這在其判斷正確的概率越來越高方面可以得到體現。例如,有研究[20]證明大語言模型ChatGPT在沒有任何專業(yè)培訓情況下,在美國執(zhí)業(yè)醫(yī)師資格考試中取得了合格或接近合格的成績,這將是人工智能在臨床醫(yī)學領域走向成熟的一個顯著里程碑。
我們不能知道歸納的基礎,甚至人類都不能保證因果關系的根據,那么也就不能要求人工智能理解這種因果性。而所謂歸納真理也不過是概率真理。正如卡爾納普[21]所說:“這就是一種當假定前提為真而其結論并非邏輯必然地導出的推理,這樣的推理必須用我們所稱謂的‘邏輯概率’或‘歸納概率’的一定的度數來表達?!?/p>
這就是邏輯經驗主義者所提出的,與以往的真理觀不同的概率真理觀。這種概率并不是統(tǒng)計學上的概率:“我想概率可以被看作是一種部分的蘊涵。如果證據是如此強,以至于假說邏輯地由它導出——邏輯地被它蘊涵——則有一極端的情況,在那里概率是1(概率為1也在其他場合中發(fā)生。不過這是那里發(fā)生的一個特殊場合)。類似地,如果證據邏輯地蘊涵一個假說的否定,則這個假說的邏輯概率為0?!盵21]
概率邏輯是一種科學的思維方法,也是一種驗證歸納的方法,以往的真理符合論不過是其中的一個特例,因果在其中不是一種必然聯系,也是一種概率。人工智能模型并不一定要可解釋才有用。目前的人工智能能力直接去“學習”人的邏輯難度很大,因此當前更多是嘗試如何在建模型過程中融入人工經驗,從而使得模型的產出與專家判斷更吻合,比如對模型決策提供端到端的解釋。一項隨機對照試驗[22]表明,真正更能影響醫(yī)生決策的是輔助診斷人工智能的準確率,而非可解釋性。至少目前的這些可解釋性方法并不能減輕錯誤輸出帶來的危害。
4 結語
人工智能的發(fā)展還有很大空間,在醫(yī)學診斷領域的未來發(fā)展中,需要盡可能達到一種準確性與透明性、可解釋性的平衡。關于人工智能本身的倫理和哲學擔憂還有很多,但縱觀歷史,新事物(新工具)的產生總是會影響人們已有的世界觀,甚至顛覆人們過去習以為常的思維方式,但是隨著對事物的不斷研究討論,人們思維方式也會發(fā)生相應的變革。人工智能是人的本性的外化,理論的發(fā)展有時是滯后的,需要在深入研究中突破,但是技術的力量是客觀的、現實的。上述對人的思維的哲學思考,是對有關人工智能在應用方面其中一些擔憂的紓解。
從醫(yī)學診斷實踐來看,現實往往比理論更需要新的工具、新的方法,通常可以采取一定的權宜之計。人類對因果關系的討論還在發(fā)展中,對人工智能可解釋性的理解還有長足的進步空間,但是每一個實踐中的個案都是有限的,可以說,科學共同體的知識是無限的,但具體的醫(yī)生的知識儲備是有限的。莊子說:“吾生也有涯,而知也無涯,以有涯隨無涯?!盵23]在具體的醫(yī)療實踐中,面對患者復雜的癥狀,有限的知識儲備不僅可能“殆己”,甚至可“殆病人”。這時,為了實用的目的,就不得不依賴更高概率的算法。
〔參考文獻〕
[1]CAO L, SHI R, GE Y, et al. Fully automatic segmentation of type B aortic dissection from CTA images enabled by deep learning [J]. Euro‐pean Journal of Radiology, 2019, 121: 108713.
[2]LOPEZ-ALMAZAN H, JAVIER PéREZBENITO F, LARROZA A, et al. A deep learn‐ing framework to classify breast density with noisy labels regularization [J]. Computer Methods and Programs in Biomedicine, 2022, 221: 106885.
[3]蔡恒進. 行為主義、聯結主義和符號主義的貫通[J]. 上海師范大學學報(哲學社會科學版),2020, 49(4): 87-96. CAI H J. Consistence of behaviorism,connection‐ism and symbolism [J]. Journal of Shanghai Nor‐mal University(Philosophy and Social Sciences Edition), 2020, 49(4): 87-96.
[4]YU V L, BUCHANAN B G, SHORTLIFFE E H, et al. Evaluating the performance of a computer-based consultant [J]. Comput Pro‐grams Biomed, 1979, 9(1): 95-102.
[5]AIKINS J S, KUNZ J C, SHORTLIFFE E H, et al. PUFF: an expert system for interpretation of pulmonary function data [J]. Computers and biomedical research, an international journal,1983, 16(3): 199-208.
[6]GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning al‐gorithm for detection of diabetic retinopathy in retinal fundus photographs [J]. Jama, 2016, 316(22): 2402-2410.
[7]CAO K, XIA Y, YAO J, et al. Large-scale pan‐creatic cancer detection via non-contrast CT and deep learning [J]. Nature medicine, 2023, 29(12): 3033-3043.
[8]SHEN Y, HEACOCK L, ELIAS J, et al. Chat‐GPT and other large language models are doubleedged swords [J]. Radiology, 2023, 307(2):e230163.
[9]殷杰, 董佳蓉. 人工智能的語境論范式探析[J]. 自然辯證法通訊, 2011, 33(4): 16-23. YIN J, DONG J R. The contextualist paradigm of artificial intelligence [J]. Journal of Dialectics of Nature, 2011, 33(4): 16-23.
[10]ZHO P. Interpretability of machine intelligence in medical lmage computing and multimodal learn‐ing for clinical decision support [M]. New York:Springer, 2019.
[11]李敬燦, 肖萃林, 覃曉婷, 等. 基于大語言模型與語義增強的文本關系抽取算法 [J]. 計算機工程, 2024, 50(4): 87-94. LI J C, XIAO C L, QIN X T, et al. Textrelation-extraction algorithm based on largelanguage model and semantic enhancement [J]. Computer Engineering, 2024, 50(4): 87-94.
[12]顧險峰. 人工智能的歷史回顧和發(fā)展現狀 [J].自然雜志, 2016, 38(3): 157-166. GU X F. Historical review and current develop‐ment of artificial intelligence [J]. Chinese Journal of Nature, 2016, 38(3): 157-166.
[13]陳沖, 陳杰, 張慧, 等. 深度學習可解釋性綜述[J]. 計算機科學, 2023, 50(5): 52-63. CHEN C, CHEN J, ZHANG H, et al. Review on Interpretability of Deep Learning [J]. Com‐puter Science, 2023, 50(5): 52-63.
[14]邢穎. 基于可解釋性人工智能的軟件工程技術方法綜述 [J]. 計算機科學, 2023, 50(5): 3-11. XING Y. Review of software engineering tech‐niques and methods based on explainable artificial intelligence [J]. Computer Science, 2023, 50(5): 3-11.
[15]鄧曉芒. 人工智能的本質 [J]. 山東社會科學,2022(12): 39-46. DENG X M. The Essence of Artificial Intelli‐gence [J]. Shandong Social Sciences, 2022(12): 39-46.
[16]卡爾·馬克思. 在《人民報》創(chuàng)刊紀念會上的演說(1856年4月14日) [M]// 馬克思恩格斯選集.北京:人民出版社,2012: 776.
[17]M·A·博登. 人工智能哲學 [M].上海: 上海譯文出版社, 2006.
[18]維特根斯坦. 哲學研究 [M].北京: 商務印書館, 1996.
[19]休謨. 人類理智研究 [M]. 北京: 商務印書館,1999.
[20]KUNG T H, CHEATHAM M, MEDENILLA A, et al. Performance of ChatGPT on USMLE:potential for AI-assisted medical education using large language models [J]. PLoS Digit Health,2023, 2(2): e0000198.
[21]卡爾納普. 科學哲學導論 [M]. 北京: 中國人民大學出版社, 2007.
[22]JABBOUR S, FOUHEY D, SHEPARD S, et al. Measuring the impact of AI in the diagnosis of hospitalized patients: a randomized clinical vi‐gnette survey study [J]. JAMA, 2023, 330(23): 2275-2284.
[23]莊子今注今譯 [M].陳鼓應,注譯. 北京:商務印書館, 2007.