劉楨 于岸洲
摘要:生物信息學(xué)是現(xiàn)代生物學(xué)、計算機科學(xué)和數(shù)學(xué)的交叉學(xué)科,主要通過數(shù)學(xué)方法借助計算機對生物數(shù)據(jù)進行科學(xué)分析,相對于傳統(tǒng)實驗方法更高效、更具有邏輯性。本文主要以Linux系統(tǒng)的衍生系統(tǒng)——Ubuntu系統(tǒng)為分析系統(tǒng),介紹如何配置最適合于生物信息學(xué)分析的計算機環(huán)境。
關(guān)鍵詞:生物信息學(xué);分析環(huán)境配置;Ubuntu系統(tǒng);生物數(shù)據(jù)分析
生物信息學(xué)是研究生物信息的采集、處理、存儲、傳播,分析和解釋等各方面的學(xué)科,是生命科學(xué)和計算機科學(xué)相結(jié)合形成的一門新學(xué)科。它通過綜合利用生物學(xué),計算機科學(xué)和信息技術(shù)而揭示繁雜的生物數(shù)據(jù)所蘊含的生物學(xué)意義。ubuntu系統(tǒng)基于Debian發(fā)行版和GNOME桌面環(huán)境。它的目標(biāo)在于為用戶提供一個最新的、相對穩(wěn)定的主要由自由軟件構(gòu)成的操作系統(tǒng),可免費使用,并帶有社團及專業(yè)支持。本文介紹了如何借助Ubuntu系統(tǒng),配置較優(yōu)的生物信息學(xué)分析環(huán)境。
1 生物信息分析環(huán)境的配置
1.1 安裝win+Ubuntu雙系統(tǒng)
第一步:進入程序員管理空間Win + X,在管理磁盤欄目下面選擇二進制空間完好且較大的空間進行分配。將分配空間進行二進制碼壓縮,選擇60*1024MB的二進制空間壓縮。然后產(chǎn)生黑色可用空間。
第二步:同樣在程序員空間下進入電源選項,修改原來在windows系統(tǒng)下的電源功能。將原來的默認(rèn)值修改為關(guān)閉快速啟動的值,保證在安裝Ubuntu系統(tǒng)后的grub正常運行。最后使用wq方式保存當(dāng)前安裝。也可以進入DOS環(huán)境編譯修改win的設(shè)置。
第三步:在DOS環(huán)境中restart個人終端。通過快捷鍵進入bios空間。進入方式依據(jù)PC型號不同而不同,進入系統(tǒng)bios后將U盤啟動調(diào)整為最優(yōu)先項目,設(shè)置后再次restart切換進入ubuntu安裝界面。進入ubuntu主界面后在U盤中找到刻錄的ISO文件雙擊打開ubuntu安裝文件,完成默認(rèn)設(shè)置。[1]
第四步:在Ubuntu下創(chuàng)建新的二進制空間,以add方式創(chuàng)建四個新的分區(qū)空間,分區(qū)空間以之前分配的60*1024MB為基準(zhǔn)。首先將10*1024MB分配為基礎(chǔ)二進制空間,又在基礎(chǔ)二進制空間上,添加20*1024MB作為空間的起始部分。通過布爾轉(zhuǎn)換設(shè)置空間的日志及邏輯分區(qū),將剩下的空間全部作為銜接雙系統(tǒng)的swap邏輯空間。
切換回windows系統(tǒng)設(shè)置引導(dǎo)內(nèi)容,保證兩個系統(tǒng)在開機中有選擇性進入欄目。在DOS下進入/boot編譯設(shè)置,將引導(dǎo)路徑設(shè)置為由windows下主導(dǎo)的路徑。restart終端,進入Win10下的EasyBCD完成最后的引導(dǎo)設(shè)置。在進入add新條目欄目下選擇Linux/BSD操作系統(tǒng),在“驅(qū)動器”欄目選擇接近200M的Linux分區(qū),點添加條目。
1.2 修改gcc
為了將Ubuntu系統(tǒng)配置為適合生物信息分析系統(tǒng),方便編譯生物信息分析軟件,需要修改gcc,通常計算機內(nèi)置gcc為以下:
Lrwx 1 root root 7 2018.02.18 22:45:31 /usr/bin/ect/gcc>gcc4.6
rwxrxrx 1 root root 2215423 2018.02.18 22:45:31 /usr/bin/etc/gcc4.4
rwxx 1 root root 214369 2018.02.18 22:45:31 /usr/bin/etc/gcc4.5
rwxrxrx 1 root root 336547 2018.02.18 22:45:31 /usr/bin/etc/gcc4.6
由上面顯示可以看出默認(rèn)安裝的是gcc4.6,現(xiàn)在來改成gcc4.4:
(1)rmdir pgcc-4.6 /usr/bin/etc/gcc。將這個連接的軟性設(shè)置刪除
(2)terminal:sudo rmdir r /usr/bin/etc/gcc & chown /usr/bin/etc/gcc 770
(3)創(chuàng)建一個軟連接,指向gcc4.4[2]
(4)terminal:sudo ln s /usr/bin/etc/gcc4.4 /usr/bin/etc/gcc
(5)terminal using:gcc v
(6)使用內(nèi)建 specs
目標(biāo):i686linuxgnu
配置為:
../src/configurevwithpkgversion='wksngbusgkxhjkg/Ubuntu/Linaro4.4.611ubuntu2'withbugurlPATH=$PATH&file:///usr/share/doc/gcc4.4/README.Bugsenabl,fortran,objc,objc++prefix=/usr/shufkgu/kgihgfnue/programsuffix=4.4/dhiajsd/ighugriuenableshared/dajcunduewithsystemzlib libexecdir=/usr/lib withoutfdcuekshuf/cbiutgk/lognu/logout/ttext=posix/PATH:bashrc>>sifhu/ubuntu/clude/c++/4.4libdir=/usr/lib/longus/ubutnu/usr/bin/etcenableclocale=gnutdcxxdebugenableobjcgc/snculsi/enabletargets=all/prefix/disablewerrorwitharch32=i686withtune=genericenablechecking=release/ubuntubuild=i686linuxgnuhost=i686linuxgnu target=i686linuxgnu
2 軟件安裝與編譯
2.1 Fastx_toolkit
高通量測序數(shù)據(jù)下載后的原始fastq文件,包含4行,其中一行為質(zhì)量值,另外一行則為對應(yīng)序列,我們都了解高通量的數(shù)據(jù)處理首先要進行質(zhì)量控制[3],這些過程包括去接頭、過濾低質(zhì)量reads、去除低質(zhì)量的3和5端,去除N較多的reads等,而針對高通量測序數(shù)據(jù)的質(zhì)控軟件也有很多,一般使用Fastxtoolkit,下載如下:
fastx_toolkit0.0.13.2.tar.bz2libgtextutils0.6.1.tar.bz2
tar zxvflibgtextutils0.6.1.tar.bz2
cd libgtextutils0.6.1
./configure && make && sudo make install
Export PATH PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH
cd ../fastx_toolkit sudo make install
2.2 TopHat安裝
TopHat是一個快速將RNASeq數(shù)據(jù)剪接映射的程序,它將讀段大小分散成不同的小片段,對每個小片段進行重新建模,再根據(jù)空位罰分機制將小片段和參考基因組上的片段進行比對。在片段長度足夠小的時候會增加非特異性比對次數(shù),所以需要設(shè)置最小片段的最大長度限制。通常大基因組物種選擇長讀段測序,設(shè)置較大最小片段的最大長度,小基因組物種則反之。
直接下載適合于Linux x86_64的二進制文件,解壓縮即可使用。
http:tophat.cbcb.umd.edu/downloads/tophat2.0.8b.Linux_x86_64.tar.gz
需要注意,很多接頭序列比較長,應(yīng)搞清楚具體實驗時的接頭長度。通常情況下,我們需要將接頭之間的序列進行比對和過濾。
3 結(jié)論
生物信息的環(huán)境配置首先要將原Ubuntu系統(tǒng)的g++/gcc進行修改,這樣可以將權(quán)限及操作環(huán)境修改為最適合生物信息分析的狀態(tài)。
軟件安裝上,使用Fastx_toolkit和比對軟件可以對各種測序結(jié)果進行數(shù)據(jù)分析。
Tophat可以將數(shù)據(jù)進行動態(tài)映射,保證數(shù)據(jù)分析的快速性。
參考文獻:
[1]郭敏,張東林,劉艷軍,彭永東,王建濤,付志新,董淑珍,劉錚鑄,鞏元芳,李祥龍.藍(lán)狐MITFM基因序列擴增及生物信息學(xué)分析[J].中國畜牧獸醫(yī),2018(01):4756.
[2]湯莊力,王添,肖生祥,王曉鵬.表皮松解性掌跖角化病一家系KRT9基因突變檢測及生物信息學(xué)分析[J].中國麻風(fēng)皮膚病雜志,2017,33(12):709711+716.
[3]羅文奇.計算機技術(shù)在生物信息學(xué)研究中的應(yīng)用分析[J].中國管理信息化,2017,20(20):151152.