羅 靜 初
(北京大學(xué) 生命科學(xué)學(xué)院,北京大學(xué)生物信息中心,北京 100871)
Abstract:An article entitled “Application examples of EMBOSS sequence analysis program”has been published in the Chinese Journal of Bioinformatics(Volume19,Issue 1,2021).It made a description of the European Molecular Biology Open Software Suite (EMBOSS).Initiated in the late 1990s by the European Molecular Biology Network (EMBnet),EMBOSS is an international collaborative project mainly among European countries.It is one of the critical open source bioinformatics software packages with popular tools used in the bioinformatics field.Based on the author’s own experience,this article tries to look back the ins and outs of the EMBOSS project,to trace the route that the EMBnet was born and became an international organization,and to have an overview of the contribution that EMBnet made to the development,service,education,and training of bioinformatics.Hopefully,it may give readers,especially the younger generations,some hints about the birth and growth of bioinformatics in early days.
Keywords:Bioinformatics;Bioinformatics software;EMBOSS;EMBnet
二十世紀(jì)九十年代誕生的國際互聯(lián)網(wǎng)(Internet),為信息時代的到來奠定了基礎(chǔ),也催生了生物信息學(xué)這一交叉學(xué)科。DNA雙螺旋結(jié)構(gòu)模型的提出、遺傳密碼的破譯,以及蛋白質(zhì)三維空間結(jié)構(gòu)的測定,開創(chuàng)了從分子水平上探索生命規(guī)律的新時代。DNA測序技術(shù)的成熟和產(chǎn)業(yè)化,為人類基因組計(jì)劃的實(shí)施提供了技術(shù)儲備。
就在生命科學(xué)研究高速發(fā)展的同時,計(jì)算機(jī)科學(xué)技術(shù)也取得了突飛猛進(jìn)的發(fā)展。計(jì)算機(jī)在生命科學(xué)領(lǐng)域中的應(yīng)用,可追溯到二十世紀(jì)八十年代。《核酸研究》(Nucleic Acids Research,NAR)半月刊于1982、1984和1986年第1期出版專輯,刊登分子生物學(xué)數(shù)據(jù)庫以及核酸和蛋白質(zhì)序列分析文章。1985年,《計(jì)算機(jī)在生物學(xué)中應(yīng)用》(Computer Application to Biosciences,CABIOS)創(chuàng)刊,標(biāo)志著計(jì)算機(jī)在生命科學(xué)領(lǐng)域中的應(yīng)用日趨成熟。而生物信息學(xué)作為一個學(xué)科,則誕生于二十世紀(jì)九十年代。1988年,美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)創(chuàng)建時,英文“生物信息學(xué)”(Bioinformatics)這一術(shù)語尚未廣泛使用。生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫PubMed檢索結(jié)果表明,“Bioinformatics”在文獻(xiàn)雜志中廣泛使用,始于二十世紀(jì)九十年代初。1994年,歐洲生物信息學(xué)研究所(European Institute of Bioinformatics,EBI)成立時,生物信息學(xué)作為一門新興學(xué)科,已悄然而生。1998年,CABIOS正式改名為《生物信息學(xué)》(Bioinformatics),并成為當(dāng)前生物信息學(xué)權(quán)威雜志之一。
實(shí)際上,生物信息學(xué)和計(jì)算生物學(xué)這兩個學(xué)科很難嚴(yán)格區(qū)分,英語“Bioinformatics”和“Computational Biology”這兩個術(shù)語也經(jīng)常混用。PubMed醫(yī)學(xué)主題詞(Medical Subject Headings,MeSH)數(shù)據(jù)庫(https://www.nlm.nih.gov/mesh/)就把Bioinformatics與Computational Biology列在同一個條目中。國際計(jì)算生物學(xué)學(xué)會(International Society for Computational Biology,ISCB)官方網(wǎng)站(https://www.iscb.org/)則稱ISCB為“計(jì)算生物學(xué)和生物信息學(xué)一級專業(yè)學(xué)會”(Leading Professional Society for Computational Biology and Bioinformatics)。十分有趣的是,ISCB的官方期刊有兩個,一個就是Bioinformatics,另一個則是Public Library of Sciences (PLOS)Computational Biology。
作為一門新興學(xué)科,要給生物信息學(xué)下一個嚴(yán)格的定義,似乎并不容易。若以目前較為流行的組學(xué)數(shù)據(jù)為研究對象,則可以大體描述如下。以核酸、蛋白質(zhì)等生物大分子數(shù)據(jù)為主要研究對象,以基因組、轉(zhuǎn)錄組、蛋白組、代謝組等組學(xué)數(shù)據(jù)和文獻(xiàn)資料為主要研究基礎(chǔ),以計(jì)算機(jī)為主要研究工具,以計(jì)算機(jī)網(wǎng)絡(luò)為主要研究環(huán)境,構(gòu)建各種類型的數(shù)據(jù)庫,開發(fā)新一代生物信息軟件,對浩如煙海的原始數(shù)據(jù)進(jìn)行存儲、管理、注釋、加工和提取生物信息,用于藥物設(shè)計(jì)、疾病診治、品種改良和環(huán)境治理等領(lǐng)域。同時,利用數(shù)理統(tǒng)計(jì)、模式識別、神經(jīng)網(wǎng)絡(luò)、遺傳算法、支持向量機(jī)和隱馬氏模型等各種理論和方法,結(jié)合分子生物學(xué)、遺傳學(xué)和基因組學(xué)等生命科學(xué)各領(lǐng)域研究成果,對大量生物信息進(jìn)行查詢、搜索、比較、分析,從中獲取基因和基因組復(fù)制、轉(zhuǎn)錄、翻譯、修飾和調(diào)控等理性知識,探索生命起源、生物進(jìn)化及細(xì)胞、器官、個體和群體的發(fā)生、發(fā)育、發(fā)展等生命科學(xué)中重大問題,搞清它們的基本規(guī)律和時空聯(lián)系。
不言而喻,生物信息學(xué)軟件在生物信息學(xué)領(lǐng)域中具有無可替代的特殊地位。首先,生物信息軟件的研究開發(fā)本身就是生物信息學(xué)領(lǐng)域的重要組成部分;而所開發(fā)和集成的各種軟件工具、應(yīng)用程序和分析平臺,為核酸和蛋白質(zhì)序列和結(jié)構(gòu)以及高通量組學(xué)數(shù)據(jù)的分析提供了必不可少的手段。
生物信息軟件開發(fā)包括許多方面,核酸和蛋白質(zhì)序列分析軟件的開發(fā)起步較早。1977年,英國劍橋醫(yī)學(xué)研究委員會(Medical Research Council,MRC)分子生物學(xué)實(shí)驗(yàn)室(Laboratory of Molecular Biology,LMB)Rodger Staden在NAR上發(fā)表題為“利用計(jì)算機(jī)處理序列數(shù)據(jù)”(Sequence data handling by computer)的文章,開創(chuàng)了生物信息軟件開發(fā)和集成的先河[1]。文章介紹了他編寫的核酸和蛋白質(zhì)序列分析程序,包括序列存儲、編輯、轉(zhuǎn)換,限制性內(nèi)切酶搜索、密碼子使用頻率統(tǒng)計(jì)、序列相似性比較等。程序采用人機(jī)交互運(yùn)行模式,在內(nèi)存僅為28 kb的PDP11/45小型計(jì)算機(jī)上可處理長達(dá)6 000 bp的DNA序列。以后20多年,他一直致力于生物信息軟件編寫,完成了分子生物學(xué)領(lǐng)域第一個免費(fèi)軟件包Staden的開發(fā)。序列裝配是該軟件包的主要模塊之一,在早期基因組測序和裝配中起了重要作用。2004年Staden退休,該軟件包由他年輕的同事James Bonfield繼續(xù)維護(hù)(http://staden.sourceforge.net/)。
1997年,筆者在英國倫敦癌癥研究基金會(Imperial Cancer Research Fund,ICRF)從事合作研究期間,有幸參觀了MRC實(shí)驗(yàn)室,拜訪了Staden博士。2002年,James Bonfield博士應(yīng)邀在北京大學(xué)舉辦的生物信息培訓(xùn)班上介紹了Staden軟件包。值得一提的是,英國劍橋MRC實(shí)驗(yàn)室是國際知名分子生物學(xué)研究機(jī)構(gòu),弗雷德里克·桑格(Frederick Sanger)、弗朗西斯·克里克(Francis Crick)、詹姆斯·沃特森(James Watson)、馬克斯·佩魯茨(Max Peruts)、約翰·肯德魯(John Kendrew)、悉尼·布倫納(Sydney Brenner)和約翰·薩爾斯頓(John Sulston)等十多位著名諾貝爾獎獲得者曾在MRC工作。約翰·薩爾斯頓是人類基因組計(jì)劃英國團(tuán)隊(duì)的主要負(fù)責(zé)人,2002年獲諾貝爾生理獎,筆者有幸參加了在英國基因組園區(qū)舉辦的慶祝會(見圖1)。
圖1 約翰·薩爾斯頓同事祝賀其榮獲諾貝爾獎Fig.1 Sir John Sulston at the party after the announcement of the 2002 Nobel Prize
微型計(jì)算機(jī)(簡稱微型機(jī),Microcomputer)的普及,使計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用得到了長足的進(jìn)步?;谖⑿蜋C(jī)的序列分析軟件于八十年代中期開始使用,后來發(fā)展成DNAStar、PCGene、MacVector等商業(yè)軟件。1986年,美國亞利桑那大學(xué)分子生物學(xué)教授David Mount應(yīng)邀為北京大學(xué)生物系(1993年改名為生命科學(xué)學(xué)院)舉辦為期一個月的生物技術(shù)和基因工程講習(xí)班,帶來了他編寫的程序DNA Management (DM),作為DNA和蛋白質(zhì)序列分析工具。DM基于微型機(jī)編寫,當(dāng)時北京大學(xué)生物系僅有一臺處理器為Intel 8086的微型機(jī),配有512 K內(nèi)存、10 M硬盤和兩個軟盤驅(qū)動器,外帶12英寸單色顯示器。程序DM成功安裝在這臺微型機(jī)上。Mount教授還帶來了一盒軟盤,每張軟盤容量為360 kb,存放了核酸序列數(shù)據(jù)庫GenBank和蛋白質(zhì)序列數(shù)據(jù)庫(Protein Information Resource,PIR)。
程序DM采用交互式會話菜單,使用相當(dāng)方便,除用文本方式輸出分析結(jié)果外,還可繪制簡單的圖形,如環(huán)形質(zhì)粒DNA限制性內(nèi)切酶位點(diǎn)等。軍事醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所吳加金研究員全程參加了該講習(xí)班。隨后的幾年,他領(lǐng)導(dǎo)的團(tuán)隊(duì)編寫了基于微型機(jī)的序列分析軟件“金鑰匙”(Goldkey),填補(bǔ)了國內(nèi)生物信息領(lǐng)域軟件開發(fā)的空白[2]。Mount教授編著的“Bioinformatics:Sequence and Genome Analysis”2001年由美國冷泉港出版社(Cold Spring Harbor Laboratory Press)出版,2002年由科學(xué)出版社購買版權(quán)并以影印本形式出版。復(fù)旦大學(xué)鐘楊主譯的中譯本于2003年由高等教育出版社出版。2004年,本書第2版出版;2006年,同濟(jì)大學(xué)曹志偉將第1章翻譯成中文,由科學(xué)出版社出版了本書第2版的中文導(dǎo)讀版。
九十年代以來,微型計(jì)算機(jī)很快普及到科研究機(jī)構(gòu)、大專院校、乃至千家萬戶?;谖⑿蜋C(jī)的生物信息軟件不斷涌現(xiàn)。除DNAStar、MacVector等一些商業(yè)軟件外,不少由學(xué)術(shù)單位編寫的軟件可免費(fèi)下載和使用,如序列編輯、顯示和分析軟件BioEdit、多序列比對軟件ClustalW、系統(tǒng)樹構(gòu)建軟件MEGA等。與此同時,基于UNIX的開源操作系統(tǒng)Linux日趨成熟,而基于Linux系統(tǒng)的軟件逐步成為生物信息領(lǐng)域的主流軟件,例如數(shù)據(jù)庫搜索軟件BLAST和FASTA,基因組序列裝配軟件PHRED/PHRAP、基因結(jié)構(gòu)預(yù)測軟件GenScan和GeneID等,其中最為著名的是歐洲分子生物學(xué)開放軟件包(European Molecular Biology Open Software Suite,EMBOSS)。
EMBOSS軟件包的誕生有一個鮮為人知的故事。二十世紀(jì)八十年代,美國Wisconsin大學(xué)遺傳計(jì)算研究組(Genetics Computing Group)開發(fā)了分子生物學(xué)軟件包GCG[3]。該軟件包起初基于多用戶小型機(jī)系統(tǒng)Vax/VMS開發(fā),在一臺服務(wù)器上安裝后,多個用戶可同時使用,后來移植到Unix平臺。GCG整合了許多常用序列分析工具,功能相當(dāng)齊全,美國和歐洲不少科研機(jī)構(gòu)和高等院校均購買并安裝了該商業(yè)軟件,供本單位研究人員使用。經(jīng)過多年開發(fā)和商業(yè)化運(yùn)行,上世紀(jì)八十年代至九十年代中期,GCG軟件包成為歐美各國最為流行的基于Unix服務(wù)器的多用戶序列分析軟件。由于GCG軟件包實(shí)際上是許多已發(fā)表算法的實(shí)現(xiàn)或現(xiàn)有程序的整合,發(fā)行初期,其源代碼對外公開。歐洲生物信息學(xué)網(wǎng)絡(luò)組織(European Molecular Biology Network,EMBnet)等許多學(xué)術(shù)機(jī)構(gòu)和個人在此基礎(chǔ)上進(jìn)行了二次開發(fā),增加了許多新程序,形成了名為EGCG的軟件包。EGCG最初的含義為歐洲(European)GCG,后來,因?yàn)閰⒓娱_發(fā)的人員不再限于歐洲國家,該軟件包的名字也就改為擴(kuò)充的(Extended)GCG。
九十年代末,由于人員變更和商業(yè)模式的改變,GCG軟件包不再公開源代碼,EGCG開發(fā)不得不終止。為此,EGCG的主要開發(fā)者Peter Rice和Alan Bleasby等決定另起爐灶,拋開GCG而自行開發(fā)另一套分子生物學(xué)軟件包,即EMBOSS軟件包。這一計(jì)劃得到了EMBnet成員的大力支持和積極參與?;谇捌贓GCG軟件包現(xiàn)有基礎(chǔ),EMBOSS項(xiàng)目很快取得了實(shí)質(zhì)性進(jìn)展。1999年4月,Peter Rice在北京大學(xué)舉辦的講習(xí)班上演示了EMBOSS的第一個程序seqret。
之后不久,基于Needleman-Wunsch動態(tài)規(guī)劃算法的全局比對程序needle,基于Smith-Waterman算法的局部比對程序water,以及點(diǎn)陣圖可視化序列比對程序dottup和dotmatcher等程序也很快完成?;贕enBank/EMBL等核酸序列數(shù)據(jù)庫、PIR和Swiss-Prot等蛋白質(zhì)序列數(shù)據(jù)庫的格式轉(zhuǎn)換和序列特征信息提取等一系列程序?yàn)橛脩籼峁┝藰O大方便,而字串統(tǒng)計(jì)、密碼子分析、酶切位點(diǎn)鑒定、重復(fù)序列識別和CpG島預(yù)測等核酸序列分析程序,以及組分統(tǒng)計(jì)、跨膜螺旋識別和二級結(jié)構(gòu)預(yù)測等蛋白質(zhì)序列分析程序,則是EMBOSS軟件包最具特色的核酸和蛋白質(zhì)序列分析程序。本世紀(jì)初,Peter Rice領(lǐng)導(dǎo)的EMBOSS研發(fā)團(tuán)隊(duì)受聘于歐洲生物信息學(xué)研究所,完成了該軟件包的主要開發(fā)和集成,編寫了系統(tǒng)的幫助文檔[4]。2009年,Peter Rice領(lǐng)導(dǎo)的EMBOSS團(tuán)隊(duì)得到英國生物技術(shù)和生物科學(xué)研究委員會(Biotechnology and Biological Science Research Council,BBSRC)資助,繼續(xù)進(jìn)行EMBOSS軟件包的開發(fā)(見圖2)。
圖2 EMBOSS軟件包的主要開發(fā)者和EMBOSS彩繪圖標(biāo)Fig.2 Major developers of EMBOSS(Peter Rice and Alan Bleasby)and the EMBOSS logo in color painting
除了EMBOSS開發(fā)團(tuán)隊(duì)自行編寫的程序外,EMBOSS還整合了不少其它常用生物信息軟件包,如基于隱馬爾可夫模型的蛋白質(zhì)結(jié)構(gòu)域序列譜構(gòu)建和結(jié)構(gòu)域識別軟件包HEMMER、系統(tǒng)發(fā)育分析軟件包Phylip及RNA二級結(jié)構(gòu)分析和預(yù)測軟件包VIENNA等。2016年發(fā)布的EMBOSS 6.6.0版包括300多個程序,十多個類別,是生物信息領(lǐng)域內(nèi)容最為豐富、功能最為齊全的序列分析軟件包,同時包括JEMBOSS、PISE、wEMBOSS、mEMBOSS等多個Web接口程序,均可免費(fèi)下載安裝(見圖3)。
圖3 EMBOSS軟件包主頁(http://emboss.open-bio.org/)Fig.3 Main website of the EMBOSS software package
顯而易見,EMBOSS軟件包的誕生,得益于歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBnet。EMBnet成立于1988年(https://www.embnet.org/wp/about/history/),主要發(fā)起單位為德國歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory,EMBL),英國Daresbury國家實(shí)驗(yàn)室,以及法國、荷蘭和瑞典等幾個西歐發(fā)達(dá)國家從事計(jì)算機(jī)在分子生物學(xué)中應(yīng)用的學(xué)術(shù)機(jī)構(gòu)和高等院校。EMBL位于德國海德堡,是歐洲重要分子生物學(xué)實(shí)驗(yàn)室,由歐盟各國政府提供經(jīng)費(fèi)支持。1989年五月,當(dāng)時的14個歐盟成員國都加入了EMBnet。
1991年,EMBnet獲歐盟生物技術(shù)研究領(lǐng)域創(chuàng)新、開發(fā)和增長(Biotechnology Research for Innovation,Development and Growth in Europe,BRIDGE)框架計(jì)劃資助,進(jìn)入了快速發(fā)展時期。九十年代中期,EMBnet成員單位達(dá)到28個,包括英國、德國、瑞士等西歐國家,波蘭、斯洛伐克和匈牙利等東歐國家,以及以色列和土耳其等。在教育部和學(xué)校領(lǐng)導(dǎo)的大力支持下,北京大學(xué)蛋白質(zhì)工程和植物基因工程(現(xiàn)更名為蛋白質(zhì)和植物基因研究)重點(diǎn)實(shí)驗(yàn)室于1996年加入EMBnet,同年加入的還有澳大利亞國家基因組信息服務(wù)中心(Australian National Genomic Information Service,ANGIS)和俄羅斯莫斯科州立大學(xué)。此后,南非、加拿大、印度、古巴等世界各大洲許多國家也紛紛加入EMBnet。1998年EMBnet成立十周年時,已經(jīng)發(fā)展到37個成員單位(見圖4)。
圖4 歐洲分子生物學(xué)網(wǎng)絡(luò)組織節(jié)點(diǎn)分布(1997年)Fig.4 Distribution of EMBnet nodes (1997)
EMBnet成員單位稱節(jié)點(diǎn)(Node),按成員單位的性質(zhì)分為國家節(jié)點(diǎn)(National Node)和專業(yè)節(jié)點(diǎn)(Specialist Node)兩類。根據(jù)EMBnet章程,每個國家只能有一個國家節(jié)點(diǎn),由政府部門推薦本國從事計(jì)算生物學(xué)的學(xué)術(shù)機(jī)構(gòu)或高等院校,并向EMBnet提出申請,在EMBnet年會上由全體成員無記名投票,得票超過三分之二者通過,成為新的成員。每個成員單位指派一名代表,稱節(jié)點(diǎn)負(fù)責(zé)人(Node Manager)。
由于人力資源、經(jīng)費(fèi)來源、硬件設(shè)施、網(wǎng)絡(luò)環(huán)境和所在單位支持程度的差別,不同國家節(jié)點(diǎn)的情況各不相同。其中影響和貢獻(xiàn)較大的有英國、荷蘭、瑞士、瑞典和意大利等幾個國家節(jié)點(diǎn)。英國的國家節(jié)點(diǎn)為Daresbury國家實(shí)驗(yàn)室的SeqNet項(xiàng)目組,負(fù)責(zé)人為Alan Bleasby,也是EGCG和EMBOSS項(xiàng)目的主要開發(fā)者之一。荷蘭的國家節(jié)點(diǎn)為內(nèi)梅根大學(xué)(University of Nijmegen),負(fù)責(zé)人為Jack Leunissen。由于EMBnet注冊在荷蘭,荷蘭節(jié)點(diǎn)也承擔(dān)財(cái)務(wù)管理等日常事務(wù)(見表1)。
表1 歐洲分子生物學(xué)網(wǎng)絡(luò)組織國家節(jié)點(diǎn)(1998年)Table 1 National nodes of EMBnet(1998)
此外,EMBnet也不定期聘請一些兼職教員,為各成員單位舉辦各種類型的培訓(xùn)班、講習(xí)班。如英國劍橋大學(xué)的David Judge,英國愛丁堡大學(xué)的Frank Wright等。
EMBnet規(guī)定,每個國家除一個國家節(jié)點(diǎn)外,可以設(shè)立一個或多個專業(yè)節(jié)點(diǎn)(Specialist Node)。截止1998年,EMBNet專業(yè)節(jié)點(diǎn)共有9個(見表2)。和國家節(jié)點(diǎn)一樣,專業(yè)節(jié)點(diǎn)也指派一名節(jié)點(diǎn)負(fù)責(zé)人。專業(yè)節(jié)點(diǎn)中影響較大的有歐洲生物信息學(xué)研究所EBI(https://www.ebi.ac.uk/)和桑格研究所(Sanger Institute,https://www.sanger.ac.uk/)。EBI是歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL設(shè)在英國的分部,建于劍橋南部小鎮(zhèn)辛克斯頓基因組高新園區(qū)內(nèi),與桑格研究所毗鄰。英國人類基因組圖譜項(xiàng)目資源中心(Human Genome Mapping Project Resource Center)也設(shè)在該園區(qū)內(nèi)。
表2 歐洲分子生物學(xué)網(wǎng)絡(luò)組織成員專業(yè)節(jié)點(diǎn)(1998年)Table 2 Specialist nodes of EMBnet(1998)
EBI基于EMBL原有幾個計(jì)算生物學(xué)和生物信息學(xué)研究組擴(kuò)充而成,是歐洲最大的生物信息學(xué)研究、開發(fā)和服務(wù)機(jī)構(gòu)。1981年,由EMBL創(chuàng)建的核酸序列數(shù)據(jù)庫(EMBL Data Library,簡稱EMBL)正式發(fā)布[5]。蛋白質(zhì)結(jié)構(gòu)分析、預(yù)測和設(shè)計(jì)是EMBL另一個重要學(xué)研究方向,知名學(xué)者Chris Sander任研究組負(fù)責(zé)人。上世紀(jì)八十年代至九十年代,系統(tǒng)分析了當(dāng)時蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Protein Data Bank,PDB)已經(jīng)測定的結(jié)構(gòu),構(gòu)建了一系列蛋白質(zhì)結(jié)構(gòu)相關(guān)數(shù)據(jù)庫。
桑格研究所建于1992年,主要經(jīng)費(fèi)由英國生物醫(yī)學(xué)慈善機(jī)構(gòu)惠康信托基金會(Wellcome Trust,https://wellcome.ac.uk/)提供,是英國最大的基因組測序中心,承擔(dān)了人類基因組計(jì)劃30%測序任務(wù)。1999圣誕節(jié)前夕,桑格研究所宣布完成22號染色體測序,這也是人類基因組計(jì)劃最先完成測序裝配的第一條染色體。桑格研究所和EBI同在辛克斯頓的基因組園區(qū)內(nèi),為數(shù)據(jù)共享和項(xiàng)目合作提供了極大便利,著名基因組數(shù)據(jù)庫和分析系統(tǒng)ENSEMBL(http://www.ensembl.org/)就是兩個單位合作的結(jié)果。
EMBnet設(shè)有執(zhí)行委員會(Executive Board),委員會由四名成員組成,除主席和秘書外,還設(shè)有一名成員負(fù)責(zé)財(cái)務(wù)。EMBnet日常事務(wù)由執(zhí)委會主席通過郵件組與節(jié)點(diǎn)負(fù)責(zé)人商定。執(zhí)委會由全體成員在年會上無記名投票選舉產(chǎn)生,執(zhí)委會分工由四名成員商定。除執(zhí)委會外,另設(shè)公共事務(wù)(Publicity and Public Relation)、教育培訓(xùn)(Education and Training)和技術(shù)管理(Technical Management)三個委員會,每個委員會也各由四位成員組成。無論是國家節(jié)點(diǎn)或?qū)I(yè)節(jié)點(diǎn)負(fù)責(zé)人,均可競選執(zhí)委會和其它三個委員會委員。
EMBnet每年舉行一次年會,年會時間地點(diǎn)由節(jié)點(diǎn)負(fù)責(zé)人提出申請,經(jīng)全體成員討論通過后確定,通常是在各成員單位所在國家和城市輪流舉行。不論是國家節(jié)點(diǎn)還是專業(yè)節(jié)點(diǎn),每個成員單位每年繳納1 000歐元會費(fèi),主要用于舉辦年會的交通食宿等費(fèi)用。通常,舉辦年會的同時,也舉行生物信息學(xué)學(xué)術(shù)討論會或?qū)n}培訓(xùn)班。
EMBnet的宗旨,是把分散在各國的計(jì)算生物學(xué)領(lǐng)域人力物力組織在一起,為本國和其它國家提供數(shù)據(jù)庫和軟件等生物信息資源服務(wù)。值得一提的是,EGCG及其后續(xù)的EMBOSS項(xiàng)目,就是EMBNet各成員單位之間合作的典范。EMBnet的另一個合作項(xiàng)目,就是基于文本的數(shù)據(jù)庫信息檢索系統(tǒng)SRS[6]。SRS的英文原文是Sequence Retrieval System,直譯為序列提取系統(tǒng),主要開發(fā)者為EMBL的Thure Etzold。SRS免費(fèi)提供所有學(xué)術(shù)單位,最初用于檢索EMBL和GenBank等核酸序列數(shù)據(jù)庫、PIR和Swiss-Prot等蛋白質(zhì)序列數(shù)據(jù)庫等以文本形式保存的序列和注釋信息。通過對數(shù)據(jù)庫條目中的關(guān)鍵詞建立索引,以瀏覽器界面提供簡單檢索和高級檢索功能。用戶可通過蛋白名、基因名、物種名等基本信息,以及序列條目中的大量注釋信息,快速高效地對某個或幾個數(shù)據(jù)庫進(jìn)行檢索。SRS后來擴(kuò)充到PubMed文獻(xiàn)摘要數(shù)據(jù)庫、Pfam,PRINTS和 Prosite等蛋白質(zhì)結(jié)構(gòu)域和功能位點(diǎn)數(shù)據(jù)庫,PDB,DSSP,HSSP和FSSP等蛋白質(zhì)結(jié)構(gòu)和分類數(shù)據(jù)庫。有的SRS服務(wù)器上安裝的數(shù)據(jù)庫多達(dá)幾十個乃至上百個。EBI成立后,Etzold帶領(lǐng)的SRS開發(fā)團(tuán)隊(duì)從德國海德堡搬到英國辛克斯頓,繼續(xù)進(jìn)行開發(fā)。九十年代末,許多EMBnet節(jié)點(diǎn)都安裝了SRS系統(tǒng)[7]。鑒于許多生物技術(shù)和藥物開發(fā)公司對SRS系統(tǒng)的需求,上世紀(jì)末,SRS開發(fā)團(tuán)隊(duì)成立了軟件開發(fā)公司,SRS也成了商業(yè)軟件,最新版的SRS 8.0不再免費(fèi)提供學(xué)術(shù)單位,包括EBI在內(nèi)的大部分SRS服務(wù)器不得不終止服務(wù)。
EMBnet的另外一個重要任務(wù),是舉辦各種類型的講習(xí)班、培訓(xùn)班,除了培訓(xùn)數(shù)據(jù)庫和軟件開發(fā)等生物信息領(lǐng)域?qū)I(yè)人員外,也為從事分子生物學(xué)實(shí)驗(yàn)的最終用戶進(jìn)行培訓(xùn)。例如上面提到的開源軟件Staden和商業(yè)軟件GCG,以及數(shù)據(jù)庫檢索系統(tǒng)SRS等。1997-1999年,筆者以學(xué)生身份,先后參加了Alan Bleasby在英國Daresbury國家實(shí)驗(yàn)室舉辦的網(wǎng)絡(luò)資源講習(xí)班、David Judge在劍橋大學(xué)舉辦的序列分析培訓(xùn)班、James Bonfiled在劍橋MRC-Lab舉辦的Staden軟件包安裝使用培訓(xùn)班,以及Thure Etzold在EBI舉辦的SRS系統(tǒng)管理員培訓(xùn)班,為筆者日后舉辦多次生物信息培訓(xùn)班和開設(shè)“實(shí)用生物信息技術(shù)”課程積累了經(jīng)驗(yàn)[8]。
自1994年起,EMBnet不定期出版EMBnet新聞(EMBnet.news)網(wǎng)絡(luò)刊物,并于2010年更名為EMBnet雜志(EMBnet.journal,https://journal.embnet.org/),報(bào)道各節(jié)點(diǎn)硬件和網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)庫和軟件開發(fā)、教育和培訓(xùn)等進(jìn)展,介紹網(wǎng)絡(luò)生物信息資源和生物信息軟件使用經(jīng)驗(yàn)。該網(wǎng)絡(luò)刊物提供的生物信息數(shù)據(jù)庫和軟件使用快速指南(https://www.embnet.org/wp/quick-guides/),至今依然是生物信息初學(xué)者的簡明手冊(見表3)。
表3 EMBnet快速指南Table 3 EMBnet Quick Guides
2012年,EMBNet加入了國際生物信息學(xué)教育和培訓(xùn)組織(Global Organization for Bioinformatics Learning,Education and Training,GOBLET)[9]。作為該組織的主要成員之一,EMBnet為國際生物信息學(xué)的教育培訓(xùn)發(fā)揮了重要作用(https://www.mygoblet.org/)。本世紀(jì)初,英國倫敦大學(xué)專業(yè)節(jié)點(diǎn)負(fù)責(zé)人Terresa Attwood受聘英國曼徹斯特大學(xué),繼續(xù)進(jìn)行生物信息數(shù)據(jù)庫和軟件開發(fā)。她為GOBLET編寫了生物信息學(xué)詳盡指南(https://www.embnet.org/wp/critical-guides/),詳細(xì)介紹蛋白質(zhì)序列數(shù)據(jù)庫UniProt和neXtProt、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB,以及生物信息領(lǐng)域中最常用的序列相似性數(shù)據(jù)庫搜索系統(tǒng)BLAST(見表4)。
表4 EMBnet詳盡指南Table 4 EMBnet Critical Guides
2000年2月,由EMBnet主辦的期刊生物信息學(xué)簡報(bào)(Briefings in Bioinformatics,BiB)正式出版,主編為資深生物信息學(xué)家Martin Bishop,包括筆者在內(nèi)的許多EMBnet節(jié)點(diǎn)負(fù)責(zé)人應(yīng)聘為編委會成員(https://academic.oup.com/bib)。2017年,中國科學(xué)院北京基因組研究所章張應(yīng)邀擔(dān)任亞洲地區(qū)副主編。該雜志主要刊登生物信息軟件和數(shù)據(jù)庫等綜述,介紹生物信息領(lǐng)域最新進(jìn)展,是生物信息學(xué)領(lǐng)域極具影響力的重要雜志。
EMBnet成員單位的首要任務(wù)是為本國分子生物領(lǐng)域提供基本的生物信息資源服務(wù)。1996年10月,北京大學(xué)蛋白質(zhì)工程和植物基因工程重點(diǎn)實(shí)驗(yàn)室加入EMBnet后,該重點(diǎn)實(shí)驗(yàn)室主任兼國家863生物領(lǐng)域蛋白質(zhì)工程專家組組長顧孝誠教授積極推動與北大計(jì)算中心和北大圖書館學(xué)術(shù)文獻(xiàn)中心合作,建立了北京大學(xué)生物信息中心(Center for Bioinformatics,CBI),開始通過計(jì)算機(jī)網(wǎng)絡(luò),為國內(nèi)用戶提供數(shù)據(jù)庫資源和軟件工具等服務(wù)。1997年9月,EMBnet年會在意大利巴利(Bari)召開,作為EMBnet中國節(jié)點(diǎn)負(fù)責(zé)人,筆者第一次參加這次年會,結(jié)識了英國節(jié)點(diǎn)負(fù)責(zé)人Alan Bleasby、荷蘭節(jié)點(diǎn)負(fù)責(zé)人Jack Leunissen、SRS主要開發(fā)者Thure Etzold等多名歐洲生物信息學(xué)領(lǐng)域早期研究開發(fā)人員。
獲EMBnet資助,1998年4月在北大舉辦首次生物信息講習(xí)班,來自全國各地的近百名學(xué)員參加了培訓(xùn),Alan Bleasby、Jack Leunissen和ThureEtzold等五位EMBnet節(jié)點(diǎn)負(fù)責(zé)人和兼職教師應(yīng)邀擔(dān)任培訓(xùn)班教師。1998年10月,EMBnet十周年紀(jì)念會在英國辛克斯頓EBI召開,應(yīng)會議主持人Peter Rice邀請,筆者在會上播放了講習(xí)班實(shí)況錄像,給與會者留下了深刻印象。獲國際遺傳工程和生物技術(shù)中心(ICGEB)資助,1999年4月在北大舉辦第2期生物信息講習(xí)班班,10位EMBnet節(jié)點(diǎn)負(fù)責(zé)人和兼職教員為培訓(xùn)班學(xué)員做報(bào)告或講課。年過六旬的著名理論物理學(xué)家郝柏林院士以學(xué)生身份全程參加了該講習(xí)班,并于講習(xí)班后不久撰寫了“建議盡快組建國家級的生物醫(yī)學(xué)信息中心”的院士建議,和夫人張淑譽(yù)老師一起編寫了國內(nèi)第一本生物信息學(xué)書籍《生物信息學(xué)手冊》。
2000年9月,獲國家自然科學(xué)基金委員會資助,以國家863生物領(lǐng)域首席專家強(qiáng)伯勤院士為團(tuán)長的中國生物信息學(xué)代表團(tuán)參加了在瑞士洛桑舉行的EMBnet年會,訪問了瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)、Swiss-Prot數(shù)據(jù)庫、羅氏公司和蘇黎世聯(lián)邦理工學(xué)院。瑞士在生物信息學(xué)領(lǐng)域中有著特殊地位,蛋白質(zhì)序列數(shù)據(jù)庫Swiss-Prot于1986年誕生于瑞士日內(nèi)瓦。SIB構(gòu)建的蛋白質(zhì)分析專家系統(tǒng)(Expert of Protein Analysis System,ExPASy)則是重要生物信息資源網(wǎng)站,收集了幾百個生物信息數(shù)據(jù)庫和軟件工具網(wǎng)址。鑒于網(wǎng)絡(luò)帶寬限制,歐洲以外其它國家訪問該網(wǎng)站受到一定影響。為此,ExPASy在拉美、澳大利亞等地設(shè)有鏡像。這次訪問的直接結(jié)果,就是與瑞士生物信息研究所商定,ExPASy亞洲鏡像就設(shè)在北大生物信息中心,為國內(nèi)用戶提供了極大方便。
二十多年來,作為EMBnet國家節(jié)點(diǎn),北大生物信息中心得到國家教育和科研計(jì)算機(jī)網(wǎng)(CERNET)的大力支持,在生物信息資源建設(shè)、人才培訓(xùn)和基礎(chǔ)教學(xué),以及數(shù)據(jù)庫和軟件開發(fā)等方面做了一些工作[10]。
值得高興的是,中國科學(xué)院北京基因組研究所大數(shù)據(jù)中心(BIGD,https://bigd.big.ac.cn/)于2016年成立,并于2019年成為國家基因組科學(xué)數(shù)據(jù)中心,而基因組所于同年加掛“國家生物信息中心”牌子。EMBnet國家節(jié)點(diǎn)的任務(wù),正在由該所年輕的生物信息學(xué)團(tuán)隊(duì)承擔(dān)[11]。
作為一門交叉學(xué)科,生物信息學(xué)的誕生還不到三十年。最近十多年來,隨著新一代基因組測序技術(shù)的誕生,高通量組學(xué)數(shù)據(jù)快速積累,ENSEMBL等各種類型的基因組數(shù)據(jù)庫紛紛上網(wǎng),Bowtie和 BWA等各種組學(xué)數(shù)據(jù)分析軟件也不斷涌現(xiàn)。作為以傳統(tǒng)的單個基因或基因家族、單個蛋白或蛋白家族為主要分析對象的EMBOSS軟件包,盡管它在組學(xué)數(shù)據(jù)分析中無能為力,但由組學(xué)數(shù)據(jù)分析得到的靶標(biāo)基因或蛋白的深入分析依然離不開該軟件包中的大量工具。目前,EMBOSS軟件包開發(fā)項(xiàng)目已經(jīng)結(jié)束,該項(xiàng)目主要負(fù)責(zé)人Peter Rice受聘于AXIOMEDIX公司,擔(dān)任客戶部主任(https://axiomedix.com/about/team/)。作為EMBOSS軟件包的主要開發(fā)者,Peter Rice仍然負(fù)責(zé)維護(hù)該軟件包。作為開源軟件,EMBOSS的維護(hù)開發(fā)需要生物信息領(lǐng)域中的同行共同努力。
本世紀(jì)初,鑒于EBI和NCBI等國際生物信息中心提供的生物信息資源越來越多,部分歐洲國家不再在人力物力上繼續(xù)支持EMBnet國家節(jié)點(diǎn),德國、瑞士、英國、比利時等國家節(jié)點(diǎn)先后退出EMBnet。最近幾年,根據(jù)歐洲和世界各國的實(shí)際情況,EMBnet組織模式作了調(diào)整,有條件的成員單位可繼續(xù)以國家節(jié)點(diǎn)方式保留會員資格,同時也吸收生物信息學(xué)研究團(tuán)體和個人為為團(tuán)體或個人會員。希望國內(nèi)生物信息領(lǐng)域有志者積極參與,為國際國內(nèi)生物信息學(xué)特別是生物信息資源服務(wù)和教育培訓(xùn)做出應(yīng)有的貢獻(xiàn)。
致 謝
感謝鮑一明、朱偉民、章張等人對本文的修改意見。2021年10月,中國科學(xué)院北京基因組研究所(國家生物信息中心)成為EMBnet中國節(jié)點(diǎn),鮑一明博士擔(dān)任節(jié)點(diǎn)負(fù)責(zé)人。