在霸王龍化石中找到的蛋白質(zhì),跟在雞身上找到最為相似。如果這個結(jié)論能夠經(jīng)受數(shù)據(jù)公開的考驗,不僅能證明恐龍和雞本是一家,連“侏羅紀公園”的建立也指日可待。
不止約翰#8226;阿薩拉(John Asara)一人會對MOR2598的蛋白質(zhì)成分感到好奇。其他的好奇者中,一些人等著確定恐龍和小雞的關(guān)系,還有的人在等著看笑話。
MO R 2 5 9 8是一塊鴨嘴龍骨化石的編號,這只鴨嘴龍大約死于8千萬年前。早在兩年前,阿薩拉這位質(zhì)譜分析專家就曾同一位古生物學家瑪麗#8226;施魏策爾(Mary Schweitzer)合作,針對一塊編號為MOR1125的霸王龍股骨化石得出結(jié)論:它里面所含的蛋白,同雞的膠原蛋白質(zhì)相似。這篇論文發(fā)表于《科學》雜志,但卻因為生物學實驗過程當中數(shù)據(jù)的嚴謹性不足招致非議。
這次,兩人轉(zhuǎn)而針對MOR2598做起同樣的工作。他們鍥而不舍的態(tài)度,比起科學研究本身來,更像是在追求某種證明。
恐龍骨里的雞膠原
2009年5月,新的論文發(fā)表于《科學》雜志,證明的結(jié)果是:與MOR2598中所提取的膠原蛋白最接近的,正是之前被懷疑數(shù)據(jù)有問題的霸王龍化石MOR1125中提取出的蛋白。這等于重申了恐龍與鳥類有親緣關(guān)系的結(jié)論,讓當初另外兩位科學家提出的關(guān)于恐龍蛋白遭到實驗室污染的質(zhì)疑再次成為科學界關(guān)注的焦點。
2 0 0 8年秋季,西雅圖弗雷德哈欽森癌癥研究中心的馬丁#8226;麥克托什(Martin cIntosh)和計算生物學家馬修#8226;菲茨吉(Matthew Fitzgibbon)根據(jù)阿薩拉所公布的MOR1125研究數(shù)據(jù)進行再次運算,發(fā)現(xiàn)了鴕鳥的血紅蛋白肽。兩人因此懷疑阿薩拉的霸王龍的實驗是在被鴕鳥分子污染的環(huán)境中進行的:“實驗可能使用了一些帶有鴕鳥蛋白的試管或者滴管。這樣一來,發(fā)現(xiàn)的霸王龍蛋白當然可以同雞匹配——因為那本來就來自另一只鳥?!?/p>
阿薩拉對此辯解說,麥克托什所指的血紅蛋白肽其實可以同30多種鳥類相匹配,“他之所以單挑鴕鳥來說事,大概是因為知道我曾做過相關(guān)研究?!睕r且,鴕鳥和霸王龍的實驗相隔一年有半,其間還進行過其他1500多例質(zhì)譜分析,實驗結(jié)果中都未曾出現(xiàn)任何鴕鳥血紅蛋白。
學界并不是無端地對阿薩拉的結(jié)論抱有懷疑,實際上,恐龍和小雞曖昧不清的親緣在古生物學界總不乏勁爆的消息。早在130年前,達爾文“進化論”的擁躉之一赫胥黎就提出鳥類是由恐龍進化而來的觀點,這個推論驚世駭俗,但一直缺少分子生物學上的證據(jù)支持。人們還從來沒有得到過任何來自恐龍的真正蛋白樣本,1994年,一篇后來臭名昭著的論文聲稱已經(jīng)恢復了恐龍的DNA,結(jié)果表明只是一場實驗室污染。因此,當2007年4月阿薩拉和施魏策爾的論文發(fā)表時,學界瘋狂了。
阿薩拉利用一種酶來對這種灰色粉末進行試驗,然后放入一臺洗衣機大小的質(zhì)譜儀當中。1小時后,樣本的分子成分以數(shù)據(jù)形式顯示出來。他隨即在論文中宣布:“利用質(zhì)譜儀檢測,我們在MOR1125的骨頭碎片當中發(fā)現(xiàn)了7個保存完好的蛋白質(zhì)片段。其中,5段片段所含的膠原蛋白同鳥類特別是雞的蛋白相匹配?!?/p>
這一發(fā)現(xiàn)立即成為新聞頭條。首先,這是科學家第一次在分子水平對恐龍和雞的親緣關(guān)系做出肯定的答復。其次,更進一步來說,這也首次證明了化石中的蛋白能夠存活上千萬年。一些媒體忍不住開始描繪科幻故事中的情節(jié),英國《衛(wèi)報》稱:“這項研究暗示,有朝一日科學家將克隆出恐龍,重現(xiàn)侏羅紀公園?!?/p>
但在短短16個月內(nèi)出現(xiàn)了多個質(zhì)疑的聲音。許多研究者開始對阿薩拉的數(shù)據(jù)產(chǎn)生疑問,并懷疑膠原蛋白是否真能完好無損地存活至今。馬里蘭大學生物信息學和計算生物學中心主任史蒂芬#8226;莎爾茲伯格(Steven Salzberg)表示:“如果你得出了非同尋常的結(jié)論,首先我們必須要看到非同尋常的證據(jù)”。
面對眾多質(zhì)疑,阿薩拉也勉強承認,其中有一個蛋白質(zhì)片段的統(tǒng)計數(shù)據(jù),用來當作證明他們的發(fā)現(xiàn)的證據(jù),“確實不夠有力”。作為最激烈的質(zhì)疑者,加州大學圣地亞哥計算生物學家帕維#8226;帕夫納(Pavel Pevzner)對其余的六個蛋白質(zhì)片段也不信任,強烈要求阿薩拉公布所有數(shù)據(jù)。他將阿薩拉比成一個觀看猴子敲打鍵盤的小男孩:“猴子無意中打出了七個單詞,于是,他就發(fā)表了一篇文章《瞧,我的猴子會拼寫》!”
“蛋白質(zhì)”詞典
帕夫納的懷疑基于阿薩拉的蛋白質(zhì)檢測。蛋白質(zhì)是一種含有氨基酸鏈的普通分子。這些氨基酸通常以字母命名,比如P代表脯氨酸,G代表甘氨酸。某個生物體的“蛋白質(zhì)組”是指該生物體所含有蛋白質(zhì)的集合,就如同一本由單詞(蛋白質(zhì))和字母(氨基酸)組成的詞典。想象一本6千8百萬年前的詞典,里面有成千上萬個字母,組成了不同長度的字母串。這些字母串最后組成的文章,就是MOR1125這個霸王龍蛋白標本。而質(zhì)譜儀在其中的作用是讀出這些字母串,再同詞典上的單詞相對照。
當所有字母被認定和排序后,就可以去不同物種的蛋白質(zhì)詞典中翻查了。因為霸王龍蛋白質(zhì)還沒有經(jīng)過此類排序,也便沒有自己的“詞典”,阿薩拉不得不在現(xiàn)代動物數(shù)據(jù)庫當中尋找與霸王龍蛋白最為匹配的蛋白序列。
阿薩拉在原始文件中聲稱,他們可以確定MOR1125當中的7個多肽,其中5個與雞膠原蛋白非常接近,其次是青蛙和蠑螈。這暗示著,比起現(xiàn)代的爬行動物和兩棲動物,霸王龍同鳥類關(guān)系更近。
但帕夫納發(fā)現(xiàn),論文中只引用了7段質(zhì)譜數(shù)據(jù)。那些無法與數(shù)據(jù)庫匹配的數(shù)以萬計的“垃圾”質(zhì)譜數(shù)據(jù)卻不見蹤影。沒有它們,這7段質(zhì)譜的測出是否出于純粹的偶然便無法知曉。帕夫納認為,阿薩拉的發(fā)現(xiàn)“也許只是偽造的數(shù)據(jù),隨機混雜在其他字母當中”。
為此帕夫納另著一篇文章對其進行批判,發(fā)表在2008年8月的《科學》雜志上。這篇文章抨擊阿薩拉的計算沒有任何統(tǒng)計學意義,并且再次要求公布剩下的“垃圾”質(zhì)譜數(shù)據(jù)。
不被公開的“垃圾數(shù)據(jù)”
阿薩拉堅持將自己置于整場戰(zhàn)斗的對立面,拒絕出示質(zhì)譜檢測數(shù)據(jù)。他抱怨,研究人員是在依靠出版物來保持其學術(shù)資金和地位。在還有潛在發(fā)現(xiàn)未被揭示前,就公布質(zhì)譜數(shù)據(jù),意味著自己的科研成果讓他人白撈。
但帕夫納頑固地維護自己作為“計算生物學家”的立場。他認為,實驗數(shù)據(jù)的公開是為了保證學術(shù)嚴謹,在“計算生物學”研究興起的今天尤其應當如此。
近年,由于生物學的數(shù)據(jù)量和復雜性,大規(guī)模計算模擬技術(shù)正逐漸代替觀察和實驗,來應付14個月就會翻一番的基因研究數(shù)據(jù)。根據(jù)美國國家衛(wèi)生研究所(NIH)的定義,計算生物學是“一門開發(fā)和應用數(shù)據(jù)分析及理論的方法、數(shù)學建模和計算機仿真技術(shù),用于生物學、行為學和社會群體系統(tǒng)的研究的學科”。利用質(zhì)譜儀對蛋白質(zhì)成分進行測定就屬于計算生物學的內(nèi)容范疇??梢哉f,計算生物學已經(jīng)成為生物學研究中的基本方法,在新的生物學發(fā)現(xiàn)前面,數(shù)據(jù)正確與否、是否有統(tǒng)計學意義,比以往任何時期都更具有決定性的作用。
“在一些基礎(chǔ)生物學領(lǐng)域,比如DNA測序,幾乎找不到一定需要生物學家來完成的工作,”帕夫納說,“只要會計算就夠了?!彼救艘苍鴮iT開發(fā)過針對質(zhì)譜研究中蛋白質(zhì)的解碼算法。因此,當他受《科學》之托,對阿薩拉的論文進行出版前的審查工作時,就敢下斷言:“論文作者對運算其實一竅不通?!?/p>
現(xiàn)在,阿薩拉對待數(shù)據(jù)的輕率態(tài)度更令帕夫納憤怒,因此他強烈要求阿薩拉公開全部實驗數(shù)據(jù):“讓質(zhì)譜儀來看看,猴子是否真會拼寫?!?/p>
事實上,真的有許多“猴子”被證明其實是文盲。學術(shù)造假將技術(shù)問題延伸至倫理領(lǐng)域,其中以韓國“首席科學家”、“克隆之父”黃禹錫的造假事件最為轟動。2005年5月,黃禹錫宣布成功利用11名不同疾病患者身上的體細胞克隆出早期胚胎,后來被證明論文數(shù)據(jù)屬于故意捏造。
2008年的秋季,阿薩拉終于讓步,向帕夫納提供了在線備份。這樣,他的所有48216個質(zhì)譜數(shù)據(jù)便毫無保留地攤開在網(wǎng)絡(luò)上。而正是通過對這些質(zhì)譜結(jié)果的再運算,麥克托什在兩周內(nèi)就得出了實驗室被鴕鳥分子污染的懷疑。
鑒于這種懷疑,阿薩拉在鴨嘴龍化石MOR2598的蛋白質(zhì)實驗中,進行了嚴格的無菌操作,最后得出了與之前一樣的結(jié)論。盡管阿薩拉捍衛(wèi)了自己的數(shù)據(jù)真實,但在更廣泛的意義上,讓任何人都有權(quán)對實驗過程進行重復,帕夫納的堅持從頭至尾都是正確的。
Tips:
MOR1125蛋白質(zhì)譜分析過程
1 從恐龍化石中提取多肽
瑪麗#8226;施魏策爾得到了霸王龍股骨化石MOR1125,送到約翰#8226;阿薩拉處做質(zhì)譜分析。阿薩拉用一種酶來將提取的樣本中的蛋白質(zhì)打破,變成分子量較小的多肽,然后送進儀器分離。
2 分離成片段
用來分離蛋白質(zhì)分子的儀器被稱為質(zhì)譜儀。將分離出來的多肽按照質(zhì)量分類,然后進一步使之斷裂,得到的每一個蛋白質(zhì)片段的數(shù)字描述被稱為質(zhì)譜數(shù)據(jù),阿薩拉的樣品得到48000個質(zhì)譜數(shù)據(jù)。
3 選擇數(shù)據(jù)
得出的氨基酸序列將使用特殊的算法進行確認和排序。阿薩拉再根據(jù)這些結(jié)果,與已知動物的氨基酸序列比較,尋找與發(fā)現(xiàn)霸王龍樣本相近的序列。
4 可匹配的多肽
據(jù)阿薩拉的算法, 與7種蛋白質(zhì)片段最匹配的是雞的膠原蛋白。后來,當數(shù)據(jù)公布后,研究人員使用不同的算法,找到了另外一個相近的蛋白序列——鴕鳥的血紅蛋白肽。