摘要:選取SAS和MATLAB作為課程所用軟件,通過結(jié)合具體的生物信息學(xué)研究實例學(xué)習(xí),了解及掌握統(tǒng)計分析軟件SAS和軟件MATLAB的用法,為今后生物信息學(xué)軟件的使用打好基礎(chǔ)。
關(guān)鍵詞:統(tǒng)計分析;SAS;MATLAB;生物信息學(xué)
生物信息學(xué)(Bioinformatics)是伴隨著人類基因組計劃而興起的一門新興的交叉學(xué)科。它的出現(xiàn)在促使生物學(xué)和醫(yī)學(xué)的研究向處理高通量數(shù)據(jù)需求發(fā)展的同時,又引入了眾多復(fù)雜的統(tǒng)計學(xué)方法。然而,西班牙學(xué)者Emili和Carles撰文指出2001年nature登載的181篇研究論文中,38%的文章至少有一處統(tǒng)計錯誤。顯然,即使高水平研究論文也存在統(tǒng)計學(xué)問題,這就提醒我們在進行統(tǒng)計分析教學(xué)的時候要嚴格把握好各種統(tǒng)計概念,選擇合適的統(tǒng)計分析軟件。
1、課程內(nèi)容選擇
統(tǒng)計學(xué)軟件是我們應(yīng)用統(tǒng)計方法不可缺少的工具。時下統(tǒng)計學(xué)軟件名目繁多,各具特色,諸如SAS、SPSS、TSP、Excel、Eviews、Statistica、Minitab等等。
在數(shù)據(jù)處理和統(tǒng)計分析方面,統(tǒng)計分析系統(tǒng)(Statistics Analysis System,SAS)已經(jīng)成為國際上的標準軟件系統(tǒng)。尤其在教育、科研領(lǐng)域,SAS軟件已成為專業(yè)研究人員進行統(tǒng)計分析的標準軟件。SAS系統(tǒng)由多個功能模塊組合而成,其基本部分是BASE SAS模塊。除此之外,還包含以下不同的模塊:SAS/STAT(統(tǒng)計分析模塊)、SAS/GRAPH(繪圖模塊)、SAS/QC(質(zhì)量控制模塊)、SAS/ETS(經(jīng)濟計量學(xué)和時間序列分析模塊)、SAS/OR(運籌學(xué)模塊)等等。
MATLAB(Matrix Laboratory)是一種解釋性執(zhí)行語言,具有強大的計算、仿真、繪圖等功能。它使用簡單,擴充方便,具有豐富的函數(shù)庫(工具箱),計算的功能實現(xiàn)比較簡單,因此逐漸成為大學(xué)生學(xué)習(xí)研究必不可少的分析軟件。盡管MATLAB的功能非常強大,而且生物信息學(xué)專業(yè)學(xué)生大部分的基礎(chǔ)、專業(yè)課程都涉及到相應(yīng)的MATLAB軟件使用,但是卻沒有專門對其統(tǒng)計方法的使用介紹。
綜上所述,SAS在專業(yè)領(lǐng)域應(yīng)用很多,幾乎作為醫(yī)學(xué)統(tǒng)計學(xué)必學(xué)軟件;MATLAB擁有強大的函數(shù)功能,結(jié)合生物信息學(xué)專業(yè)學(xué)生現(xiàn)有知識結(jié)構(gòu)和將來研究學(xué)習(xí)、工作的需求,我們選取這兩種軟件作為課程內(nèi)容。鑒于本課程許多內(nèi)容涉及的數(shù)學(xué)問題和計算較復(fù)雜,并且要結(jié)合計算機軟件來完成,因此根據(jù)本學(xué)科的特點和學(xué)生的實際情況探索一個有效的教學(xué)方法,有助于學(xué)生掌握好這個工具。通過近兩年教學(xué)工作中積累的一些經(jīng)驗,我們已經(jīng)形成了一套較為完整的授課體系。
2、課程基本框架
《SAS統(tǒng)計分析與MATLAB應(yīng)用》是我院生物信息學(xué)專業(yè)一門特色的實踐性基礎(chǔ)課,是研究在生物信息學(xué)中如何應(yīng)用SAS和MATLAB軟件的學(xué)科。它需要學(xué)生在掌握了扎實的概率論與數(shù)理統(tǒng)計、生物統(tǒng)計和多元統(tǒng)計理論的基礎(chǔ)上,進一步實現(xiàn)計算機軟件的掌握。近年來隨著計算機的發(fā)展和應(yīng)用的普及,這門學(xué)科將成為科學(xué)研究和生產(chǎn)實踐中數(shù)據(jù)分析的一種重要手段。通過本課程的學(xué)習(xí),主要任務(wù)是使學(xué)生掌握SAS和MATLAB的基本語法、功能及統(tǒng)計應(yīng)用,能夠熟練運用這兩個軟件解決實際的生物信息學(xué)問題,為今后生物信息學(xué)軟件的使用打好基礎(chǔ)。具體課程內(nèi)容安排包括:
SAS方面:①SAS系統(tǒng)概述,包括SAS窗口系統(tǒng)的使用方法,SAS程序的編寫、修改和運行;②數(shù)據(jù)集的建立和整理:利用viewtable編輯數(shù)據(jù)集;利用DATA語句的傳統(tǒng)數(shù)據(jù)步程序;外部數(shù)據(jù)文件的讀取;③SAS實用過程(如PRINT、FORMAT、TRANSPOSE等)和數(shù)值資料統(tǒng)計描述(如MEANS、FREQ、UNIVARIAT等);④數(shù)值資料的統(tǒng)計推斷(進行t檢驗的MEANS、TTEST過程,方差分析的ANOVA、GLM過程);⑤相關(guān)和回歸分析(CORR、REG、LOGISTIC過程);⑥多元統(tǒng)計分析的聚類分析(CLUSTER、TREE過程),主成分分析(PRINCOMP過程)和因子分析(FACTOR過程)。
MATLAB方面:①MATLAB數(shù)值計算,包括矩陣和數(shù)組的運算;②數(shù)據(jù)結(jié)構(gòu)和全局變量,程序結(jié)構(gòu),程序流控制,以及M文件的調(diào)試;③MATLAB中的計算結(jié)果的可視化和高級圖形處理,包括二維圖形的繪制,三維圖形的繪制;④常見概率分布,樣本的統(tǒng)計描述以及回歸分析函數(shù)。
3、授課方式探討
傳統(tǒng)的SAS以及MATLAB教學(xué)傾向于基礎(chǔ)理論知識的講解,并且實驗教學(xué)中采納的案例大多是農(nóng)業(yè)、環(huán)境或者動物實驗的數(shù)據(jù),對于依托醫(yī)學(xué)的生物信息學(xué)專業(yè)學(xué)生來說,并不是他們興趣所在。由于生物信息學(xué)專業(yè)的建立只有短短幾年,學(xué)生在沒開專業(yè)課之前對于生物信息學(xué)的了解寥寥無幾。他們更關(guān)注于這個專業(yè)將來能夠從事什么工作,發(fā)展前景如何?因此,我們在教學(xué)過程中針對這種情況,有的放矢的選擇醫(yī)學(xué),尤其是生物信息學(xué)方向的已發(fā)表案例數(shù)據(jù)來進行講解,甚至作為學(xué)生實驗課的習(xí)題。在學(xué)習(xí)中初步把生物信息學(xué)的一些專業(yè)知識滲透給學(xué)生,較好的激發(fā)他們的學(xué)習(xí)興趣。
比如,我們講解聚類分析的時候采用的數(shù)據(jù)是基因芯片數(shù)據(jù)。講解這個案例之前可以給學(xué)生介紹:現(xiàn)代功能基因組學(xué)研究的一個重大突破就是基因芯片技術(shù),它產(chǎn)生了大量的表達譜數(shù)據(jù),為生物統(tǒng)計、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等生物信息學(xué)方法研究提出了具有挑戰(zhàn)意義的課題;對于基因芯片數(shù)據(jù)的分析可以采用有監(jiān)督學(xué)習(xí)方法(比如特征選擇算法),另外也可以采用無監(jiān)督學(xué)習(xí)方法,其中典型的代表就是聚類。這里我們可以采用SAS系統(tǒng)里面的聚類分析CLUSTER過程實現(xiàn),也可以通過MATLAB直接調(diào)用cluster函數(shù)實現(xiàn)。通過這種講解,一方面引入了生物信息學(xué)的知識點,另一方面經(jīng)過橫向?qū)Ρ?,使學(xué)生可以輕松認識到兩種軟件的異同之處,加深知識的理解。
這種實例在我們?nèi)粘5膶W(xué)習(xí)研究工作中會經(jīng)常遇到,世上無難事,只怕有心人,要注意積累,把平時閱讀的文獻資料信息收集整理起來,有效地與課堂教學(xué)結(jié)合,不但活躍了課堂氣氛,還能有效的調(diào)動學(xué)生學(xué)習(xí)的積極性,改善學(xué)生面對成堆的數(shù)據(jù)和統(tǒng)計理論而疲勞的思維。
4、教學(xué)過程體會
本課程融合了多門比較復(fù)雜的統(tǒng)計學(xué)理論,雖然軟件的實現(xiàn)過程相對簡單,但是需要學(xué)生掌握的理論知識較多,非常有必要開設(shè)在高等數(shù)學(xué)、生物統(tǒng)計和多元統(tǒng)計等課程結(jié)束后,而我們也正是按照這種思路進行的,節(jié)省了本就不富裕的課堂理論教學(xué)時間。另外,由于SAS與MATLAB都是非常龐大的分析軟件,擁有面向各個研究領(lǐng)域的模塊,因此不同的內(nèi)容需要分別精講、略講,培養(yǎng)學(xué)生自主學(xué)習(xí)的能力。
參考文獻:
[1] 董大鈞.SAS統(tǒng)計分析應(yīng)用[M]. 北京:電子工業(yè)出版社,2009.
[2] 黃燕,吳平等.SAS統(tǒng)計分析及應(yīng)用[M]. 北京:機械工業(yè)出版社,2007.
[3] 陳桂明,戚紅雨,潘偉等.MATLAB數(shù)理統(tǒng)計(6.X)[M]. 北京:科學(xué)出版社,2002.
[4] 張玉華,潘燕,李橋等.醫(yī)學(xué)研究生SAS統(tǒng)計分析軟件教學(xué)的探索與實踐[J]. 中國衛(wèi)生統(tǒng)計.2006,23(5):466-467.
作者簡介:
呂洪超(1981~),山東無棣人,碩士,助教,研究方向:生物信息學(xué)