尤嘉琮,劉 瑋,張麗儀,林志祥,呂 鵬,阮 繼*
(1. 中華醫(yī)學(xué)會雜志社《風(fēng)濕病與自身免疫(英文)》編輯部醫(yī)學(xué)期刊知識挖掘與服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京100052;2. 中山大學(xué)腫瘤防治中心《Cancer Communications》編輯部 廣東廣州510060; 3. 中華醫(yī)學(xué)會雜志社《癌癥發(fā)生與治療(英文)》編輯部醫(yī)學(xué)期刊知識挖掘與服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京100052)
近年來,隨著圖像處理軟件和文獻(xiàn)數(shù)據(jù)庫的日益發(fā)展,論文中的學(xué)術(shù)不端問題逐漸暴露出來。國內(nèi)外出現(xiàn)大批因?qū)嶒?yàn)數(shù)據(jù)造假、圖片篡改和偽造、欺詐性署名、虛假同行評議等行為而撤稿的事件,這些學(xué)術(shù)不端行為造成的危害無疑是巨大的,極大地浪費(fèi)了學(xué)術(shù)資源、敗壞了學(xué)術(shù)環(huán)境、造成了嚴(yán)重的學(xué)術(shù)不公,導(dǎo)致了社會對學(xué)術(shù)界的信任危機(jī)[1]。在這些學(xué)術(shù)不端行為中,圖片篡改和偽造等學(xué)術(shù)不端的問題較為突出。2016年微生物學(xué)家Sunnyvale圖片分析顧問Elisabeth Bik帶領(lǐng)團(tuán)隊(duì),對1995—2014年發(fā)表在 40種期刊上的20621篇論文的圖像進(jìn)行了篩選和分析,發(fā)現(xiàn)3.8%的論文中的圖片存在問題,其中至少1/2表現(xiàn)出故意操縱的特征[2]。2018年該團(tuán)隊(duì)再次發(fā)表了對細(xì)胞分子生物學(xué)領(lǐng)域期刊的研究結(jié)果,分析了2009—2016年發(fā)表在Molecular and Cellular Biology上的960篇論文,其中59篇(6.1%)論文中存在不當(dāng)復(fù)制的圖片,導(dǎo)致了41次更正、5次撤回和13次未處理[3]。這些數(shù)據(jù)一經(jīng)發(fā)布,在學(xué)術(shù)界甚至社會中引發(fā)了巨大反響和討論,讓人們對論文中圖片的真實(shí)性產(chǎn)生懷疑,嚴(yán)重影響了學(xué)術(shù)界的聲譽(yù)。
但是,目前對于圖片學(xué)術(shù)不端行為的甄別方法還十分稀少,大多依靠期刊編輯在收稿時對論文圖片直接觀察進(jìn)行比對和鑒別,這種比對方式只能對圖片的篡改或重復(fù)使用進(jìn)行鑒別,采用的方法也大多是將圖片放大,檢查是否存在顏色過渡時模糊、扭曲等現(xiàn)象,對比各組間和不同時間點(diǎn)的圖片特征結(jié)果確定是否存在混用[4]。也可使用Photoshop、JPEGsnoop等軟件中的工具進(jìn)行人工比對。這種方式固然有效,但只能發(fā)現(xiàn)一些使用較為低級的方法處理過的圖片,且耗費(fèi)大量的人力和時間,收效甚微。不僅如此,圖片的篡改包括合成、變種、潤飾、增強(qiáng)、計算機(jī)生成、繪制等[5]多種方式。隨著圖像處理軟件的日益發(fā)展,圖片處理越來越精細(xì),上述方法已不能滿足甄別圖片學(xué)術(shù)不端的需要。
有研究者[6]提出使用開放科學(xué)計劃OSID(open science identity)中的SAYS(scientist at your system)系統(tǒng)工具包對論文的圖片進(jìn)行鑒別。開放科學(xué)計劃是一項(xiàng)面向?qū)W術(shù)期刊的開放科學(xué)公益計劃,借助SAYS系統(tǒng)工具,為每篇論文標(biāo)注唯一OSID標(biāo)識碼,構(gòu)建供科研工作者互動交流的平臺[7]。但是,該方法有一定的局限性,若已發(fā)表的論文所在期刊未加入OSID,則無法將論文中的圖片加入數(shù)據(jù)庫,不能用來鑒別待發(fā)表的論文。而且,部分學(xué)科因其特殊性,圖片的重復(fù)性很低,可能少有自身圖片重復(fù)使用的問題,較少涉及抄襲其他論文中的圖片內(nèi)容,如果出現(xiàn)這種情況,該方法則無法鑒別,所以不能解決所有問題。
Bik等[3]報道,Molecular and cellular biology雜志中因圖片學(xué)術(shù)不端問題而撤稿的論文約占撤稿論文的10%,約占雜志發(fā)表論文總數(shù)的0.5%,若該比例具有代表性,將有大量論文在發(fā)表后撤稿。論文發(fā)表后,雜志編輯平均需要用6h解決論文中的圖像問題;但在論文發(fā)表之前,編輯平均只需用30min對論文中的圖片進(jìn)行篩選與修改,既可減少論文發(fā)表后可能出現(xiàn)的問題,又可節(jié)省編輯在論文發(fā)表后因修改圖像問題而耗費(fèi)的大量時間。為了避免發(fā)生圖片學(xué)術(shù)不端現(xiàn)象,國際上各大出版社都進(jìn)行了許多努力和嘗試。目前,Wiley出版社開發(fā)了一款A(yù)I圖像處理軟件(Image Checks),并宣布將推出“圖像審查服務(wù)”[8]。Wiley出版社的一些期刊的編輯部應(yīng)用該軟件在投稿論文的初審階段對圖片進(jìn)行檢查,幫助編輯甄別圖片是否存在學(xué)術(shù)不端現(xiàn)象;同時,要求作者在論文投稿時提交原始數(shù)據(jù)和圖片,以便編輯檢查。
本文對Wiley出版社的AI圖像處理軟件的工作原理及應(yīng)用進(jìn)行介紹,分析和討論了該軟件的優(yōu)勢與不足,為期刊編輯準(zhǔn)確又高效地甄別圖片學(xué)術(shù)不端提供參考。
該圖像處理軟件主要用于圖像完整的科技論文中的圖片檢查,如生命科學(xué)和醫(yī)學(xué)等,首先應(yīng)用于Wiley出版社出版的Journal of Cellular Biochemistry和Journal of Cellular Physiology雜志[9]。該軟件具有準(zhǔn)確、集中、優(yōu)化、可擴(kuò)展和專業(yè)驅(qū)動的特點(diǎn),可以在稿件的初審階段幫助編輯對論文中的圖片進(jìn)行檢查,以便及時發(fā)現(xiàn)和修正出現(xiàn)的問題。許多國際期刊,如Journal of Cell Biology及EMBO出版社旗下的The EMBO Journal、EMBO Reports、EMBO Molecular Medicine等,采用了一種新的圖片深度查證流程,即圖片數(shù)據(jù)完整性分析(data integrity analysis),由專業(yè)人員對圖片進(jìn)行系統(tǒng)性分析,結(jié)果發(fā)現(xiàn)有20%~30%的稿件的圖片存在不同的問題[10],該軟件的采用,提高了期刊編輯對圖片數(shù)據(jù)的分析能力,更高效地檢查出圖片中可能存在的問題。
Wiley出版的一些期刊要求2020年7月以后投稿的作者在提交稿件時,需要提供未經(jīng)處理的原始凝膠電泳圖像,出版社將原始圖像存檔,如果后續(xù)需要參考原始數(shù)據(jù),可能會使用這些原始圖像,并寫信向作者咨詢。
Image Checks的工作原理與編輯收稿后對圖像的分析和處理流程基本相同。作者投稿后,Image Checks對稿件中的圖像進(jìn)行干預(yù),使用Visual Studio和Photoshop等專業(yè)圖像處理軟件檢測圖片是否存在剪切、拼接、翻轉(zhuǎn)、移接、調(diào)整對比度等處理。為確保圖像分析的專業(yè)性,由相關(guān)學(xué)科專家對圖片進(jìn)行分析,且參與度大于或等于專業(yè)軟件Photoshop。Image Checks軟件設(shè)計團(tuán)隊(duì)可根據(jù)使用者的需要,在檢測前、檢測中和檢測后分別提供分析和技術(shù)支持服務(wù)。目前,主要對生命科學(xué)和醫(yī)學(xué)領(lǐng)域的稿件進(jìn)行驗(yàn)證,范圍是接收初審或接收待修改的稿件中的圖片、顯微照片和凝膠印記圖像。
編輯在接收到作者提交的稿件、原始記錄和原始圖片后,首先對稿件進(jìn)行編號,然后使用Image Checks軟件對稿件中的圖片進(jìn)行分析,最后出具分析報告供編輯、作者參考和對稿件進(jìn)行修改。圖片分析過程主要包括3個階段。
①預(yù)檢測和分析:對稿件進(jìn)行預(yù)檢測和分析,首先鑒定稿件內(nèi)容,然后使用Image Checks分析稿件中的圖像,最后通過目測或Photoshop對圖像進(jìn)行 檢測。
②正式檢測和分析:根據(jù)雜志社對稿件中圖片的要求檢查圖片,如清晰度、格式等,再按照圖像優(yōu)化軟件的參數(shù)檢查圖片,如常用的處理是對比度的調(diào)整等,以便于徹底檢查圖像是否存在人為處理等學(xué)術(shù)不端行為。
③檢測和分析后:根據(jù)已有的標(biāo)準(zhǔn)創(chuàng)建分析報告,也可根據(jù)作者或編輯的要求定制分析報告。在報告中根據(jù)學(xué)術(shù)不端的類型對可能存在問題的圖片進(jìn)行分類,標(biāo)注出可能存在問題的具體位置和對問題的詳細(xì)描述,并且提出相應(yīng)的修改建議。而且報告是可以分享的,編輯可通過電子郵件將審查報告分享給稿件的利益相關(guān)者,進(jìn)一步溝通或跟進(jìn)修改進(jìn)度,以便于編輯跟蹤和管理稿件數(shù)據(jù),提高工作效率和工作 質(zhì)量。
Image Checks軟件工作流程示意圖如圖1所示。
圖1 Image Checks軟件工作流程示意圖 Fig.1 Schematic diagram of Image Checks software workflow
較為常見的圖片學(xué)術(shù)不端行為是一圖多用或?qū)υ紙D片稍加處理后重復(fù)使用。如圖2所示,稿件中的圖片描述為:橙皮素減少LPS誘導(dǎo)的小鼠股骨骨質(zhì)流失,小鼠在第9天被安樂死,并使用顯微CT和3D重建掃描它們的股骨遠(yuǎn)端。圖像經(jīng)檢查發(fā)現(xiàn)“橙皮素(Hesperetin) ”和“脂多糖(LPS)+橙皮素”的圖像相同,這是不可能的現(xiàn)象,因此判斷存在圖像重復(fù)使用的情況。
圖2 稿件中出現(xiàn)的一圖多用 Fig.2 Repeated use of one image in manuscript
免疫印跡和凝膠成像結(jié)果是生物學(xué)和醫(yī)學(xué)稿件中最為常見的數(shù)據(jù),也是出現(xiàn)圖片學(xué)術(shù)問題最多的數(shù)據(jù)類型。最為常見的問題是作者有意或無意地通過有選擇地剪切、翻轉(zhuǎn)、重新排序和重用相同的源圖像或不相關(guān)的圖像來表示不同的結(jié)果。蛋白質(zhì)免疫印跡結(jié)果的一圖多用如圖3所示,2張圖片中GAPDH的條帶相同,但分別標(biāo)注的蛋白卻是不同,因此判斷存在圖片學(xué)術(shù)不端行為。
圖3 蛋白質(zhì)免疫印跡結(jié)果的一圖多用 Fig.3 Repeated use of one image of Western blot results
圖像拼接是指通過不當(dāng)?shù)募舨?、抹除、?fù)制、旋轉(zhuǎn)、縮放、拼湊等方式,對圖像進(jìn)行篡改或者修改、重組圖片的部分內(nèi)容得到想要的、但并不存在的結(jié)果數(shù)據(jù)圖像,屬于圖片學(xué)術(shù)不端行為[11]。圖像檢查軟件通 過調(diào)整圖片的亮度/對比度、級別和曲線的變化來分析圖像,判斷是否存在圖像拼接行為。如圖4所示,結(jié)果顯示AFT4和MTHFD2圖像中,2組條帶之間有明顯的直線(使用粗框和箭頭突出顯示),表明存在剪接。直接通過肉眼觀察很難辨別出ATF4圖像中條帶間的拼接痕跡,但使用圖像檢查軟件能夠快速、準(zhǔn)確地分析出拼接位置。
圖4 圖像拼接的鑒別結(jié)果 Fig.4 Identification result of image splicing
圖像分辨率較低雖然不屬于圖片學(xué)術(shù)不端行為,但是對圖像檢查和論文的發(fā)表存在一定影響,因此也需要讓作者進(jìn)行修改或重新提交。如圖5所示,圖像檢查軟件通過調(diào)整圖片的亮度、對比度和曲線來分析圖像。然而,由于作者所提供數(shù)據(jù)圖片的圖像分辨率較低(用粗框突出顯示),很難得出分析結(jié)果,無法鑒 別圖片是否存在學(xué)術(shù)不端問題。因此,應(yīng)要求作者提供更高分辨率的圖像和原始數(shù)據(jù)(免疫印跡/凝膠圖像)進(jìn)行重新分析和驗(yàn)證。
圖5 圖片的圖像分辨率較低而無法進(jìn)行分析 Fig.5 Unable analysis due to low image resolution of picture
綜上所述,圖像分析軟件能夠?qū)Ω寮胁煌瑘D片類型的常見錯誤很好地進(jìn)行鑒別,可幫助編輯對稿件中的圖片進(jìn)行高效、準(zhǔn)確地審查。
近年來,大量論文因存在學(xué)術(shù)不端行為而被撤稿,造成了非常惡劣的社會影響,引起了學(xué)術(shù)界和期刊界的廣泛關(guān)注。Wiley、PLOS、Elsevier、Nature等多個國際期刊出版社旗下的期刊也增加了投稿同時提交數(shù)據(jù)原始圖片的新要求。相關(guān)機(jī)構(gòu)也推出各種防范措施,研發(fā)檢測圖片造假和篡改的系統(tǒng),如美國科研誠信辦公室(The Office of Research Integrity,ORI)開發(fā)的“Droplets”、艾普蕾(iPlagiarism)公司研發(fā)的貓圖鷹圖像造假檢測系統(tǒng)、Mike Rossner創(chuàng)辦的IDI(Image Data Integrity)系統(tǒng)。百度等科技公司還開放和提供圖片剽竊檢測系統(tǒng)[12]。
Wiley出版社也研發(fā)了AI圖片分析系統(tǒng)并已投入使用,要求作者投稿時同時提交稿件及數(shù)據(jù)的原始圖片,軟件隨即對稿件和數(shù)據(jù)圖片進(jìn)行分析并出具分析報告,編輯可以根據(jù)報告對稿件進(jìn)行評估,聯(lián)系作者對稿件進(jìn)行修改,不但大幅減少了編輯或?qū)I(yè)審核人員對論文中圖片的審核時間,同時也提高了問題圖像的檢出率和準(zhǔn)確性。
目前圖像分析軟件還存在一些不足之處。在一些學(xué)科中,雖然研究結(jié)果的可重復(fù)性比較小,但如果研究內(nèi)容相似,數(shù)據(jù)結(jié)果也可能存在抄襲或一圖多用現(xiàn)象。圖像分析軟件目前只能根據(jù)作者提供的原始圖片進(jìn)行分析,還無法將稿件中的圖片與已發(fā)表或已經(jīng)投稿過的其他稿件的圖片進(jìn)行比對分析。所以,需要建立一個相關(guān)的圖片數(shù)據(jù)庫,將不同期刊已出版的論文圖片錄入數(shù)據(jù)圖,以供軟件進(jìn)行比對分析。Elsevier與柏林洪堡大學(xué)在2018年宣布根據(jù)被撤稿論文中的圖片建立一個數(shù)據(jù)庫[13]。Journal of Cell Biology鼓勵作者共享數(shù)據(jù),并于2008年發(fā)布了專為存儲生命科學(xué)領(lǐng)域論文原始圖片的在線存儲系統(tǒng)JCB DataViewer,未來將與其他存儲生命科學(xué)領(lǐng)域圖片數(shù)據(jù)的公共存儲系統(tǒng)合并[14]。隨著AI圖像識別技術(shù)的提升及論文數(shù)據(jù)庫的完善,存在數(shù)據(jù)和圖片學(xué)術(shù)不端的論文會逐漸被曝光,進(jìn)而遏制學(xué)術(shù)不端行為的發(fā)生,營造和維護(hù)公平、公正、良好的學(xué)術(shù)環(huán)境。■