郭 麗,江 暢,王 俊
(南京郵電大學(xué) 地理與生物信息學(xué)院,南京 210023)
醫(yī)學(xué)統(tǒng)計學(xué)是生物醫(yī)學(xué)工程專業(yè)人才培養(yǎng)的重要理論基礎(chǔ)課程。隨著數(shù)理統(tǒng)計學(xué)的發(fā)展,新概念和新方法不斷涌現(xiàn),并已在生物學(xué)和醫(yī)學(xué)領(lǐng)域中得到廣泛應(yīng)用。研究可知,這是一門理論性要求很強(qiáng)的學(xué)科,當(dāng)前生物醫(yī)學(xué)研究問題日益復(fù)雜,變量強(qiáng)度關(guān)聯(lián)逐漸增加,高通量測序數(shù)據(jù)規(guī)模則越來越大,致使實(shí)現(xiàn)原有計算方法成為亟待解決的研究問題。而基于計算機(jī)語言的統(tǒng)計軟件正日漸趨于完善和成熟,即使得快速、高效解決這些統(tǒng)計學(xué)問題成為可能。
醫(yī)學(xué)統(tǒng)計學(xué)是在高等數(shù)學(xué)和概率論等課程的基礎(chǔ)上,在具有一定生物醫(yī)學(xué)背景下開設(shè)的專業(yè)基礎(chǔ)課程。其中包含了對核酸(DNA和RNA)、蛋白序列和結(jié)構(gòu)信息,以及臨床治療信息的獲取、整理、存儲、分析和解釋等內(nèi)容,用于闡述和揭示生物體在生理病理狀態(tài)下的分子機(jī)制和演化規(guī)律。本課程的開設(shè),有助于培養(yǎng)學(xué)生對實(shí)驗(yàn)設(shè)計和統(tǒng)計方法在生物醫(yī)學(xué)大數(shù)據(jù)中的熟練運(yùn)用。同時也有助于培養(yǎng)學(xué)生分析問題和解決問題的技能,對學(xué)生以后從事相關(guān)科研和管理工作具有重要的能力提升作用。通過對生物醫(yī)學(xué)大數(shù)據(jù)的挖掘和篩選,可以為患者提供最優(yōu)的診斷和治療方案,還能對未來的生活方式做出前瞻性指導(dǎo)。R語言是大數(shù)據(jù)研究者常用的編程語言,主要用于數(shù)據(jù)統(tǒng)計分析、結(jié)果可視化、數(shù)據(jù)深度挖掘等,現(xiàn)已廣泛應(yīng)用于生物醫(yī)學(xué)工程和生物信息學(xué)等科研領(lǐng)域。R語言具有比Excel和Spass更強(qiáng)的數(shù)據(jù)分析和圖形可視化能力,是一種更適合在生物醫(yī)學(xué)工程專業(yè)本科教學(xué)中使用的統(tǒng)計學(xué)分析軟件。目前,將R語言應(yīng)用在醫(yī)學(xué)統(tǒng)計學(xué)中的教學(xué)嘗試仍處于初始階段。因此,如何將R軟件融入醫(yī)學(xué)統(tǒng)計學(xué)教學(xué),借助其突出的統(tǒng)計分析與可視化優(yōu)勢、再和本專業(yè)學(xué)生所具有的基礎(chǔ)編程能力相結(jié)合,還需要更多的研究和探索。
統(tǒng)計學(xué)分析是傳統(tǒng)生物學(xué)、現(xiàn)代分子生物學(xué)和醫(yī)學(xué)研究中不可缺少的一部分,通過數(shù)據(jù)同質(zhì)性和變異性的數(shù)量表現(xiàn),經(jīng)過觀察、對比、分析,將隱藏在生物問題中的規(guī)律性進(jìn)行剖析并揭示各規(guī)律間的必然性,用于指導(dǎo)生物醫(yī)學(xué)科研中的理論和實(shí)踐。統(tǒng)計理論是建立在抽象的數(shù)學(xué)假設(shè)基礎(chǔ)上,運(yùn)用統(tǒng)計學(xué)原理,根據(jù)數(shù)據(jù)特點(diǎn),選用合理的統(tǒng)計學(xué)方法進(jìn)行分析,最終得到結(jié)果可靠的科學(xué)結(jié)論。在實(shí)際醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)過程中,仍存在一些普遍性問題。首先是在有限的課時要求下,僅用一學(xué)期的時間學(xué)習(xí)這門課,由于過多強(qiáng)調(diào)理論講解,容易忽視學(xué)生統(tǒng)計思維和數(shù)據(jù)分析處理能力的聯(lián)合培養(yǎng)。其次、在理論課學(xué)習(xí)過程中、且沒有使用軟件的前提下,老師對例題進(jìn)行講解時,學(xué)生容易感到枯燥,手動計算錯誤率偏高,且費(fèi)時。
通過調(diào)研分析醫(yī)學(xué)統(tǒng)計學(xué)學(xué)科特點(diǎn)顯示,基礎(chǔ)理論與實(shí)際應(yīng)用聯(lián)系緊密,但前者的掌握多處于劣勢。只重視實(shí)踐而輕理論則易導(dǎo)致學(xué)生知其然而不知其所以然。如果將R語言引入到醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)中,就可以有效地緩解這一點(diǎn),能更直觀靈活地分析大數(shù)據(jù),且重復(fù)性高、可操作性強(qiáng),既可強(qiáng)化學(xué)生的統(tǒng)計思維,又能增強(qiáng)學(xué)生動手編程能力。教學(xué)實(shí)踐證明,將R語言應(yīng)用到醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)中,可以大大增加課堂教學(xué)的信息量,使學(xué)生能更加專注于生物醫(yī)學(xué)問題的分析和聯(lián)系,實(shí)現(xiàn)精確計算,并提高課堂教學(xué)效率。
R語言具有強(qiáng)大的數(shù)據(jù)統(tǒng)計和圖形展示功能,并且是開源免費(fèi)下載、且會對版本進(jìn)行定期更新,同時R語言還包括有眾多科研人員后續(xù)不斷研發(fā)的豐富軟件包資源。再者,R語言與Rstudio的聯(lián)合使用,使科研工作者對R語言的運(yùn)用更是得心應(yīng)手。最后,R語言具有強(qiáng)大的圖形處理能力,除了基礎(chǔ)作圖外,還可以通過ggplot2軟件包等進(jìn)行圖層疊加和個性化設(shè)計繪圖,更好地將數(shù)據(jù)結(jié)果呈現(xiàn)出來。這些優(yōu)勢使R語言在醫(yī)學(xué)統(tǒng)計學(xué)中的運(yùn)用成為必然,而且將R語言運(yùn)用到醫(yī)學(xué)統(tǒng)計學(xué)的教學(xué)實(shí)踐也是一個合適且值得推薦的方法。
根據(jù)生物醫(yī)學(xué)工程專業(yè)教學(xué)的特點(diǎn),結(jié)合癌癥治療數(shù)據(jù)分析,設(shè)計以下教學(xué)案列。
由于醫(yī)學(xué)統(tǒng)計學(xué)的教學(xué)內(nèi)容有許多抽象的概念,比如樣本統(tǒng)計分布、統(tǒng)計檢驗(yàn)原理等。這些內(nèi)容通過課堂講解往往難以使學(xué)生建立比較清晰的認(rèn)知,致使教學(xué)效果欠佳。此時,則可以用R語言的數(shù)據(jù)模擬和圖形可視化來演示此過程。具體實(shí)現(xiàn)過程詳見如下:
分別設(shè)置不同的樣本抽樣次數(shù)(200、400、600、800、1000)來計算樣本的均值、中位數(shù)、標(biāo)準(zhǔn)差、方差并記錄,見表1。同時,生成不同抽取次數(shù)的樣本分布圖(見圖1),此外還計算了抽取1000次的樣本分布與理論抽樣分布之間的關(guān)系(見圖2)。
表1 不同次數(shù)抽樣結(jié)果比較(正態(tài)分布)Tab.1 Comparison of results of different sampling times(normal distribution)
圖1 不同次數(shù)抽樣分布比較(正態(tài)分布)Fig.1 Comparison of sampling distribution with different times(normal distribution)
圖2 從總樣本中隨機(jī)抽取1000次與理論值比較圖Fig.2 Comparison diagram of the values by random sampling 1000 times from the total samples and theoretical values
從這個教學(xué)案例中,能夠直觀地通過R語言分析和可視化過程,形象地將學(xué)生難于區(qū)分的標(biāo)準(zhǔn)誤和標(biāo)準(zhǔn)差概念進(jìn)行展示。其次,又通過不同抽取樣本次數(shù)進(jìn)行數(shù)據(jù)模擬比較。綜上所述,均能鍛煉學(xué)生對樣本進(jìn)行描述性統(tǒng)計分析的能力。
配對樣本檢驗(yàn)是檢驗(yàn)來自同一總體抽取的成對樣本間差異是否為零。下面將以某種藥物臨床治療前后病人腫瘤尺寸大小數(shù)據(jù)分析為例進(jìn)行示例說明配對樣本檢驗(yàn)。若藥物對病人治療是有效的,就可以判斷得知多數(shù)病人接受藥物治療后,腫瘤尺寸將顯著縮小。具體實(shí)現(xiàn)過程詳見如下:
#讀取癌癥病人接受某臨床藥物治療前后腫瘤體積數(shù)據(jù)
#添加顯著性水平
通過R語言可視化,可以得到此種藥物在治療病人前后,2組間病人的腫瘤體積已明顯縮小(0.0011),說明藥物對腫瘤病人的治療是有效的,參見圖3。
圖3 配對樣本t檢驗(yàn)顯示某種藥物治療后病人腫瘤體積顯著縮小Fig.3 Paired sample t-test shows that the tumor volume of the patients decreased significantly after drug treatment
通過教學(xué)案例2,使生物醫(yī)學(xué)工程專業(yè)的學(xué)生在生物醫(yī)藥數(shù)據(jù)背景下,進(jìn)一步熟悉理解配對樣本檢驗(yàn)的原理,從而加深了對樣本配對檢驗(yàn)的概念理解和原理掌握。
在醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)中,對課程中的核心概念進(jìn)行R語言演示和可視化的過程,可以幫助學(xué)生理解抽象的概念和理論。在此過程中,注意只要求學(xué)生通過使用相關(guān)R語言程序進(jìn)行參數(shù)調(diào)整實(shí)現(xiàn)統(tǒng)計分析,不要求學(xué)生過多掌握復(fù)雜編程和可視化,發(fā)揮R語言用于輔助教學(xué)的長足優(yōu)勢。此外,在教學(xué)過程中,通常不要求學(xué)生對統(tǒng)計理論的推導(dǎo)進(jìn)行掌握,更多的是對這些基本概念的理解和相關(guān)統(tǒng)計理論在生物醫(yī)學(xué)領(lǐng)域中的靈活運(yùn)用,正確使用統(tǒng)計學(xué)方法,為科研和醫(yī)學(xué)研究服務(wù)。在醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)過程中,R語言教學(xué)對生物醫(yī)學(xué)工程學(xué)生的培養(yǎng),可使其具備扎實(shí)的生物醫(yī)學(xué)理論知識和靈活的分析技巧,從而可以為大醫(yī)療行業(yè)人才培養(yǎng)和輸送提供了解決方案。
將R語言與生物醫(yī)學(xué)工程專業(yè)的課程教學(xué)有機(jī)結(jié)合,通過具體項(xiàng)目實(shí)踐,有利于節(jié)省時間和精力,不僅充分提升了學(xué)習(xí)效果,還增加了學(xué)生的學(xué)習(xí)興趣。學(xué)生通過對統(tǒng)計軟件的熟練掌握和應(yīng)用,能夠更好地培養(yǎng)統(tǒng)計思維和數(shù)據(jù)處理能力,進(jìn)一步加深對生物統(tǒng)計學(xué)基礎(chǔ)原理和方法的掌握和理解,提升學(xué)生綜合技能素質(zhì)與自主學(xué)習(xí)水平。R語言是編程語言工具,醫(yī)學(xué)統(tǒng)計學(xué)是應(yīng)用基礎(chǔ),R語言在醫(yī)學(xué)統(tǒng)計學(xué)中的教學(xué)實(shí)踐和探索還在繼續(xù)。根據(jù)生物醫(yī)學(xué)工程專業(yè)學(xué)生的學(xué)科特點(diǎn),需要適時根據(jù)需求調(diào)整更新教學(xué)案例和方法,進(jìn)一步完善R語言教學(xué)的方式方法,致力于把學(xué)生培養(yǎng)成為具有扎實(shí)統(tǒng)計理論和較強(qiáng)醫(yī)學(xué)項(xiàng)目分析能力的高素質(zhì)人才。