廣西民族師范學(xué)院化學(xué)與生物工程學(xué)院 汪國海
隨著經(jīng)濟(jì)社會的快速發(fā)展,生物學(xué)實驗數(shù)據(jù)的收集方法更趨向于綜合化和復(fù)雜化,致使獲得的實驗數(shù)據(jù)信息呈現(xiàn)爆發(fā)式增長并不斷積累,對深度挖掘?qū)嶒灁?shù)據(jù)的軟件和數(shù)據(jù)可視化的需求越來越高。將R 語言應(yīng)用于生物統(tǒng)計圖形的可視化中,既能滿足學(xué)生對數(shù)據(jù)可視化分析的需求,又能提高學(xué)生對實驗數(shù)據(jù)動態(tài)變化的理解和課程興趣。
生物統(tǒng)計學(xué)是一門理論知識豐富且實踐性很強(qiáng)的課程,其主要以概率論、線性代數(shù)為基礎(chǔ)推斷并解釋生物學(xué)現(xiàn)象,該課程的開設(shè)有利于培養(yǎng)學(xué)生分析和解決實際生物學(xué)問題的能力,為后期數(shù)據(jù)分析和科研能力的提升打下堅實的基礎(chǔ)[1]。但由于生物統(tǒng)計學(xué)課程公式推導(dǎo)復(fù)雜,對學(xué)生的數(shù)學(xué)基礎(chǔ)要求高,易使學(xué)生缺少興趣[2];同時隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,實驗數(shù)據(jù)的類型和收集方法更傾向于綜合化和復(fù)雜化,對數(shù)據(jù)挖掘的深度和圖形可視化的要求越來越高,需要不斷的引入新的數(shù)據(jù)分析軟件才能全面綜合的反映出實驗數(shù)據(jù)的動態(tài)變化。
R 語言是一個能兼容多種類型的數(shù)據(jù)格式并具備交互式的數(shù)據(jù)分析能力的開源軟件[3],尤其是強(qiáng)大的擴(kuò)展能力和豐富的功能選項,使其能獨立完成不同類型的生物統(tǒng)計數(shù)據(jù)分析和可視化過程,降低了不同軟件間的頻繁切換程度[4]。ggplot2 是R 語言中最為強(qiáng)大的作圖程序包,其核心理念是將繪圖與數(shù)據(jù)分離,數(shù)據(jù)相關(guān)的繪圖與數(shù)據(jù)無關(guān)的繪圖分離,是按圖層作圖,同時它保有命令式作圖的調(diào)整函數(shù),使其更具靈活性,繪制出來的圖形美觀,同時避免繁瑣細(xì)節(jié),從而使數(shù)據(jù)分析者更能將注意力集中于數(shù)據(jù)分析本身[5]。本文通過使用R 語言中的ggplot2 程序包實現(xiàn)生物統(tǒng)計學(xué)常見圖形的可視化過程,并附上相關(guān)的代碼以便為生物統(tǒng)計學(xué)的課程發(fā)展與改革提供參考。
條形圖由一組寬度相同,高度與頻數(shù)成比例的長方形組成,表示研究對象數(shù)據(jù)的大小,如圖1 所示。
圖1 嚙齒動物對不同微生境中種子的搬運(yùn)率Fig.1 .Seed transport rates of rodents in different microhabitats
代碼如下:
散點圖是指在回歸分析中將兩組數(shù)據(jù)構(gòu)成的多個坐標(biāo)點標(biāo)記在直角坐標(biāo)系中,可以用來描述2 個連續(xù)型變量間的關(guān)系即因變量與自變量的變化關(guān)系,并對數(shù)據(jù)點進(jìn)行擬合,如圖2 所示。
圖2 單性木蘭幼苗密度與巖石裸露率間的關(guān)系Fig.2 Relationship between seedling density and rock exposure
代碼如下:
小提琴圖用于展示多組數(shù)據(jù)的分布狀態(tài)及概率密度,因其形狀酷似小提琴而得名,是優(yōu)于箱線圖的一種統(tǒng)計圖形。它結(jié)合了箱線圖與密度圖的特征,是核密度圖以鏡像的方式在箱線圖上的疊加,圖中的白點代表中位數(shù),黑色的豎條狀為數(shù)據(jù)的下四分位點到上四分位點,兩側(cè)的細(xì)黑線代表95%置信區(qū)間,外部曲線形狀為核密度估計,如圖3 所示。
圖3 不同處理下種子續(xù)存變化Fig.3 Changes of seed survival under different treatments
代碼如下:
面積圖顯示每個數(shù)值所占大小隨類別變化的趨勢,可顯示部分與整體的關(guān)系。使用面積圖可以分析不同年份間果實數(shù)量的分布情況進(jìn)而了解植物的物候變化及其種群發(fā)展?jié)撃埽鐖D4 所示。
圖4 不同年份間植物果實數(shù)量變化Fig.4 Changes of fruit quantity in different years
代碼如下:
4.ggplot(cd,aes(x=Year,y=Sea))+geom_area(colou r="black",fill="blue",alpha=0.2)#繪制基礎(chǔ)圖形并設(shè)置相應(yīng)的參數(shù)
二維密度圖顯示了兩個數(shù)值變量之間的關(guān)系,一個在x 軸上表示,另一個在Y 軸上表示,與散點圖類似,然后計算二維空間中特定區(qū)域內(nèi)的觀測數(shù),并用顏色梯度表示,如圖5 所示。
圖5 單性木蘭空間分布圖Fig.5 Spatial distribution of monosexual magnolias
代碼如下:
使用R 語言可對類別型變量和連續(xù)型變量進(jìn)行深度分析的同時繪制出精美的圖形,一直是科研工作者追求的目標(biāo)。美觀且實用的可視化圖形含有大量的信息,在提高科研工作效率的同時還能不斷豐富作圖代碼。但在生物統(tǒng)計學(xué)課程中使用R 語言進(jìn)行教學(xué)時,還需要考慮學(xué)生的前期基礎(chǔ)和個人的思維習(xí)慣,不斷因材施教提高學(xué)生對R 語言可視化圖形代碼的理解和實際應(yīng)用能力。
引用
[1] 童婷,劉春燕,謝文華,等.生物統(tǒng)計學(xué)混合教學(xué)模式的探索與實踐[J].科技文匯,2021,29:62-64.
[2] 關(guān)天霞,張有富,張芬琴.“生物統(tǒng)計學(xué)”課堂教學(xué)和考核體系改革的探索[J].教育教學(xué)論壇,2021(19):89-92.
[3] 張哲,張豪.淺談R語言在生物統(tǒng)計學(xué)教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2013(27): 54-55.
[4] 張智杰,牛青山.R語言在法庭科學(xué)DNA檢驗中的應(yīng)用現(xiàn)狀[J].中國法醫(yī)學(xué)雜志,2021,36(6):637-637+645.
[5] 袁佳.R語言及ggplot2在環(huán)境空氣監(jiān)測數(shù)據(jù)可視化中的應(yīng)用[J].中國高新技術(shù)企業(yè),2015(16):88-91.