人工智能有助于科研人員快速總結(jié)研究成果,但也伴隨著風(fēng)險(xiǎn)。
在薩姆 · 羅德里克斯(Sam Rodriques)還是一名神經(jīng)生物學(xué)的研究生時(shí),他突然意識(shí)到了科學(xué)存在一種基本的局限性。他說:“即使研究人員已經(jīng)得出了理解人類細(xì)胞或大腦所需的所有信息,我也不確定我們是否能知曉這件事,因?yàn)闆]有人有能力理解或閱讀所有的文獻(xiàn)并獲得全面的觀點(diǎn)?!?/p>
5年后,羅德里克斯說,借助人工智能(AI),他離解決這個(gè)問題更近了一步。2024年9月,他和他在美國(guó)初創(chuàng)公司未來之家(FutureHouse)的團(tuán)隊(duì)宣布,他們開發(fā)了一套基于人工智能的系統(tǒng),可以在幾分鐘內(nèi)生成比維基百科頁面更準(zhǔn)確的科學(xué)知識(shí)綜述。該團(tuán)隊(duì)迅速生成了大約17 000個(gè)人類基因的維基百科式詞條,其中大部分在此前都沒有詳細(xì)的百科頁面。
羅德里克斯并非唯一一個(gè)借助人工智能來協(xié)助科學(xué)總結(jié)的人。數(shù)十年來,學(xué)者們一直試圖加快將研究成果匯編成綜述的繁重工作?!八鼈兲L(zhǎng)了,整理時(shí)的工作量大得驚人,而且往往在撰寫時(shí)已經(jīng)過時(shí)。”英國(guó)倫敦國(guó)王學(xué)院從事研究綜合學(xué)的伊恩·馬歇爾(Iain Marshall)表示。不過,隨著世界對(duì)大語言模型(這些生成式人工智能程序是ChatGPT等工具的基礎(chǔ))的興趣激增,人們對(duì)綜述任務(wù)自動(dòng)化產(chǎn)生了新的興趣。
某些更為新型的基于人工智能的科學(xué)搜索引擎已經(jīng)可以通過查找、分類和總結(jié)出版物來幫助人們撰寫陳述性文獻(xiàn)綜述(對(duì)各類研究的書面回顧)。不過,它們還不能自己生成高質(zhì)量的綜述。綜述中最艱巨的挑戰(zhàn)是被視為“黃金標(biāo)準(zhǔn)”的系統(tǒng)綜述,它包含嚴(yán)格的論文搜索和評(píng)估程序,通常還需要進(jìn)行薈萃分析來綜合結(jié)果。大多數(shù)研究人員都認(rèn)為,這些綜述距離完全自動(dòng)化還有很長(zhǎng)的路要走。“我相信我們最終會(huì)實(shí)現(xiàn)這個(gè)目標(biāo),”位于澳大利亞黃金海岸市的邦德大學(xué)的證據(jù)和系統(tǒng)綜述專家保羅·格拉西烏(Paul Glasziou)表示,“但我沒法兒告訴你這要等到10年后還是100年后?!?/p>
然而,與此同時(shí),研究人員也擔(dān)心人工智能工具可能會(huì)催生出更草率、不準(zhǔn)確或是誤導(dǎo)性的綜述,進(jìn)而污染文獻(xiàn)。倫敦大學(xué)學(xué)院研究證據(jù)綜合的詹姆斯·托馬斯(James Thomas)表示:“我們擔(dān)心的是,幾十年來有關(guān)如何進(jìn)行有效證據(jù)綜合的研究會(huì)遭到破壞?!?/p>
計(jì)算機(jī)輔助綜述
幾十年來,計(jì)算機(jī)軟件一直在幫助研究人員搜索和解析研究文獻(xiàn)。早在大語言模型出現(xiàn)之前,科學(xué)家就已經(jīng)在使用機(jī)器學(xué)習(xí)和其他算法來幫助識(shí)別特定的研究或是快速地從論文中提取發(fā)現(xiàn)。但是,ChatGPT等系統(tǒng)的出現(xiàn)引發(fā)了人們對(duì)于將大語言模型與其他軟件相結(jié)合來加速這一過程的狂熱興趣。
研究人員指出,直接要求ChatGPT(或任何其他人工智能聊天機(jī)器人)從零開始撰寫一篇學(xué)術(shù)文獻(xiàn)綜述是過于天真的行為。這些大語言模型通過大量的文本訓(xùn)練來生成內(nèi)容,但是大多數(shù)商業(yè)人工智能公司都不會(huì)透露這些模型的訓(xùn)練數(shù)據(jù)。馬歇爾表示,如果要求像ChatGPT這樣的大語言模型對(duì)某一主題的研究做綜述,它們可能會(huì)采用可信的學(xué)術(shù)研究、不準(zhǔn)確的博客文章以及天知道哪里來的其他信息?!八鼈儫o法權(quán)衡哪些是最相關(guān)、最高質(zhì)量的文獻(xiàn)。”馬歇爾說。而且,由于大語言模型的工作原理是通過反復(fù)生成統(tǒng)計(jì)上“看起來可信的”的詞語來響應(yīng)提問,因此它們會(huì)對(duì)同一個(gè)問題產(chǎn)生不同的回答,還會(huì)出現(xiàn)“幻覺”式錯(cuò)誤,包括聲名狼藉的捏造式學(xué)術(shù)參考文獻(xiàn)。馬歇爾表示:“沒有一種流程符合研究綜述的最佳實(shí)踐標(biāo)準(zhǔn)。”
一種更復(fù)雜的流程是將一組預(yù)選論文的語料庫上傳到大語言模型,并要求它僅基于這些文獻(xiàn)提取見解。這種“檢索增強(qiáng)生成”方法似乎可以減少幻覺現(xiàn)象,但無法完全避免。這一過程還可以設(shè)置為讓大語言模型對(duì)其信息來源作引用標(biāo)注。
這也是像“共識(shí)”(Consensus)和“引導(dǎo)”(Elicit)這樣的專業(yè)人工智能科學(xué)搜索引擎的基礎(chǔ)?!耙龑?dǎo)”總部位于美國(guó)加州奧克蘭,能夠搜索約1.25億篇論文;位于馬薩諸塞州波士頓的“共識(shí)”公司則能夠搜索超過2億篇論文。大多數(shù)公司并不透露其系統(tǒng)運(yùn)行的具體細(xì)節(jié),但通常會(huì)將用戶的問題轉(zhuǎn)化為計(jì)算機(jī)在“語義學(xué)者”(Semantic Scholar)和“公共醫(yī)療”(PubMed)等學(xué)術(shù)數(shù)據(jù)庫的搜索,并返回相關(guān)度最高的結(jié)果。
然后,大語言模型會(huì)對(duì)每項(xiàng)研究進(jìn)行總結(jié),并將其綜合為一個(gè)注明出處的答案;用戶可以通過各種選項(xiàng)來篩選出他們希望包含的研究成果。新加坡管理大學(xué)數(shù)據(jù)服務(wù)部門負(fù)責(zé)人、人工智能工具主題博客作者亞倫 · 鄭(Aaron Tay)說:“至少它們引用的內(nèi)容是完全真實(shí)的?!?/p>
丹麥歐登塞南丹麥大學(xué)的博士后研究員穆什塔克·比拉爾(Mushtaq Bilal)表示,這些工具“肯定可以讓你的閱讀和寫作過程變得更高效”。比拉爾為學(xué)者提供人工智能工具方面的培訓(xùn),并設(shè)計(jì)了自己的人工智能工具“研究搭檔”(Research Kick)。又例如,另一款名為“科學(xué)引用”(Scite)的人工智能系統(tǒng)可以快速生成支持或反駁某種主張的論文的詳細(xì)分類?!耙龑?dǎo)”等其他系統(tǒng)還可以從論文的不同部分(方法、結(jié)論等)提取見解。比拉爾表示:“你可以將大量勞動(dòng)外包出去。”
但是,比拉爾說,大多數(shù)人工智能科學(xué)搜索引擎都無法自動(dòng)生成準(zhǔn)確的文獻(xiàn)綜述。它們的輸出結(jié)果更像是“一個(gè)本科生熬夜整理出的幾篇論文的要點(diǎn)”。他說,研究人員最好將這些工具用于優(yōu)化綜述流程的某些部分。“引導(dǎo)”公司的工程主管詹姆斯·布雷迪(James Brady)表示,該公司的用戶用該產(chǎn)品擴(kuò)充綜述的各步驟,“效果很好”。
包括“引導(dǎo)”在內(nèi)的數(shù)款工具的另一個(gè)局限是,它們只能搜索開放獲取的論文和摘要,而非文章的全文。比拉爾指出,很多研究文獻(xiàn)都是付費(fèi)的,而且搜索全文需要耗費(fèi)大量的計(jì)算資源。“讓人工智能應(yīng)用程序搜索數(shù)百萬篇文章的全文會(huì)耗費(fèi)大量時(shí)間,成本也會(huì)高到無法承受?!彼f。
全文搜索
錢對(duì)于羅德里克斯來說不是問題。他手頭的資金非常充裕,因?yàn)槲挥诩又菖f金山的非營(yíng)利公司“未來之家”得到了谷歌前首席執(zhí)行官埃里克·施密特(Eric Schmidt)和其他投資者的支持。“未來之家”成立于2023年,旨在利用人工智能實(shí)現(xiàn)研究任務(wù)的自動(dòng)化。
2024年9月,羅德里克斯和他的團(tuán)隊(duì)發(fā)布了未來之家的開源人工智能原型系統(tǒng)“論文問答2”(PaperQA2)。每當(dāng)“論文問答2”收到一次查詢,就會(huì)在多個(gè)學(xué)術(shù)數(shù)據(jù)庫中搜索相關(guān)論文,并嘗試訪問開放存取和付費(fèi)內(nèi)容的全文。隨后,系統(tǒng)會(huì)識(shí)別和總結(jié)相關(guān)度最高的要素。他提到,“論文問答2”的運(yùn)行成本較高,部分原因在于它處理的是論文全文。
在測(cè)試該系統(tǒng)時(shí),未來之家團(tuán)隊(duì)用它生成了關(guān)于多種單個(gè)人類基因的維基百科式文章。隨后,他們將這些文章中的幾百條由人工智能撰寫的陳述語句,以及維基百科上針對(duì)同一主題的(人類撰寫的)真實(shí)文章中的陳述語句,交給一個(gè)由博士和博士后生物學(xué)家組成的盲評(píng)小組。該小組發(fā)現(xiàn),與人工智能工具生成的內(nèi)容相比,真人撰寫的文章中包含的“推理錯(cuò)誤”——引用內(nèi)容未能充分支持論點(diǎn)的情況——是前者的兩倍。由于該工具在這方面的表現(xiàn)優(yōu)于人類,研究小組將其論文命名為“語言智能體實(shí)現(xiàn)了科學(xué)知識(shí)的超人綜合”。
亞倫 · 鄭表示,與傳統(tǒng)搜索引擎相比,“論文問答2”和另一款名為“潛思”(Undermind)的工具需要更長(zhǎng)的時(shí)間(幾分鐘而不是幾秒鐘)才能返回結(jié)果,因?yàn)樗鼈冞M(jìn)行的是更復(fù)雜的搜索,例如利用初始搜索的結(jié)果來追蹤其他引文和關(guān)鍵短語。他表示:“這一切意味著計(jì)算成本非常高,速度也非常慢,但搜索質(zhì)量卻大大提高了。”
系統(tǒng)綜述的挑戰(zhàn)
文獻(xiàn)的敘述性綜述已經(jīng)夠難寫了,但系統(tǒng)綜述更難寫,后者可能需要花費(fèi)數(shù)月甚至數(shù)年的時(shí)間才能完成。
根據(jù)格拉西烏團(tuán)隊(duì)的分析,完成一份系統(tǒng)綜述至少涉及25個(gè)細(xì)致的步驟。在對(duì)文獻(xiàn)進(jìn)行梳理之后,研究人員必須對(duì)長(zhǎng)名單進(jìn)行篩選,找出相關(guān)性最高的論文,然后提取數(shù)據(jù),篩查研究中可能存在的偏差,并對(duì)結(jié)果進(jìn)行綜合。(其中許多步驟還要由另一名研究人員重復(fù)執(zhí)行,以檢查是否存在不一致之處。)這種方法費(fèi)力且耗時(shí),但因其嚴(yán)格、透明和可重復(fù)性,在醫(yī)學(xué)等領(lǐng)域被認(rèn)為是值得一做的,因?yàn)榕R床醫(yī)生會(huì)依據(jù)其結(jié)果來指導(dǎo)治療病人的重要決策。
2019年,在ChatGPT問世之前,格拉西烏和他的同事們就已嘗試創(chuàng)造一項(xiàng)科學(xué)領(lǐng)域的世界紀(jì)錄:在兩周內(nèi)完成一份系統(tǒng)綜述。當(dāng)時(shí),他和馬歇爾、托馬斯等人已經(jīng)開發(fā)出了一些計(jì)算機(jī)工具,以減少所需要的時(shí)間。當(dāng)時(shí)可用的軟件包括“機(jī)器人搜索”(RobotSearch),這是一種經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型,可以從一系列研究中快速識(shí)別隨機(jī)試驗(yàn)。另一款人工智能系統(tǒng)“機(jī)器評(píng)議員”(RobotReviewer)則可以幫助評(píng)估某項(xiàng)研究是否因未做充分盲法試驗(yàn)等因素而存在偏倚風(fēng)險(xiǎn)。“所有的這些都是減少系統(tǒng)綜述寫作時(shí)間的重要小工具。”格拉西烏表示。
這一挑戰(zhàn)于2019年1月21日周一上午9:30開始計(jì)時(shí),在總計(jì)9個(gè)工作日后,團(tuán)隊(duì)在2月1日周五的午餐時(shí)間完成了任務(wù)?!拔铱杉?dòng)了?!碑?dāng)時(shí)在邦德大學(xué)主持這項(xiàng)研究、現(xiàn)任職于英國(guó)牛津大學(xué)的流行病學(xué)家安娜 · 梅 · 斯科特(Anna Mae Scott)說。眾人用蛋糕慶祝了這項(xiàng)成就。此后,團(tuán)隊(duì)將這一紀(jì)錄縮短到了5天。
這個(gè)過程是否還能更快?其他研究人員也一直在努力實(shí)現(xiàn)系統(tǒng)綜述各個(gè)環(huán)節(jié)的自動(dòng)化。2015年,格拉西烏成立了“系統(tǒng)綜述自動(dòng)化國(guó)際協(xié)作組織”,這個(gè)小眾團(tuán)體也很符合自身定位,產(chǎn)出了若干篇關(guān)于系統(tǒng)綜述自動(dòng)化工具的系統(tǒng)綜述。但馬歇爾表示,即便如此,“仍然沒有多少(工具)被廣泛接受。這取決于技術(shù)的成熟度”。
“引導(dǎo)”是聲稱其工具可幫助完成系統(tǒng)綜述,而非僅僅是敘述性綜述的公司之一。布雷迪表示,該公司的系統(tǒng)并不能一鍵生成系統(tǒng)綜述,但確實(shí)實(shí)現(xiàn)了一些步驟的自動(dòng)化,包括篩選論文以及提取數(shù)據(jù)和見解。布雷迪指出,大多數(shù)使用“引導(dǎo)”撰寫系統(tǒng)綜述的研究者都上傳了他們使用其他搜索技術(shù)找到的相關(guān)論文。
系統(tǒng)綜述愛好者擔(dān)心人工智能工具可能無法滿足研究的兩個(gè)基本標(biāo)準(zhǔn):透明性和可重復(fù)性?!叭绻铱床坏剿褂玫姆椒ǎ敲此筒皇且黄到y(tǒng)綜述,只是一篇普通的綜述文章?!辟Z斯汀·克拉克(Justin Clark)表示。他是格拉西烏團(tuán)隊(duì)的一員,負(fù)責(zé)開發(fā)綜述自動(dòng)化工具。布雷迪說,研究者上傳到“引導(dǎo)”網(wǎng)站上的論文就是“出色、透明的”初始文獻(xiàn)記錄?!爸劣诳芍貜?fù)性,我們不能保證在重復(fù)相同步驟時(shí),結(jié)果始終完全一致,但我們致力于在合理的范圍內(nèi)實(shí)現(xiàn)這一點(diǎn)?!彼a(bǔ)充說,透明性和可重復(fù)性會(huì)是公司改進(jìn)系統(tǒng)時(shí)的關(guān)注重點(diǎn)。
綜述領(lǐng)域的專家表示,希望看到更多關(guān)于人工智能文獻(xiàn)綜述輔助工具系統(tǒng)的準(zhǔn)確性和可重復(fù)性的公開評(píng)估研究。“開發(fā)好用的工具和嘗試新事物真的很有趣,”克拉克說,“但進(jìn)行一項(xiàng)嚴(yán)謹(jǐn)?shù)脑u(píng)估研究卻是相當(dāng)艱巨的任務(wù)。”
2024年早些時(shí)候,克拉克牽頭,對(duì)使用生成式人工智能工具輔助做系統(tǒng)綜述的研究做了一次系統(tǒng)綜述。他和他的團(tuán)隊(duì)發(fā)現(xiàn),只有15項(xiàng)已發(fā)表的研究對(duì)人工智能的表現(xiàn)與人類的表現(xiàn)做了充分的比較。那些尚未發(fā)表或尚未經(jīng)過同行評(píng)審的結(jié)果表明,這些人工智能系統(tǒng)可以從上傳的研究中提取部分?jǐn)?shù)據(jù),并評(píng)估臨床試驗(yàn)的偏倚風(fēng)險(xiǎn)?!霸陂喿x和評(píng)估論文方面,人工智能系統(tǒng)似乎沒什么問題,”克拉克表示,“但在其他任務(wù)上都表現(xiàn)得非常糟糕,包括設(shè)計(jì)和執(zhí)行全面的文獻(xiàn)檢索?!保ìF(xiàn)有的計(jì)算機(jī)軟件已經(jīng)可以通過薈萃分析完成數(shù)據(jù)綜合的最后一步。)
格拉西烏和他的團(tuán)隊(duì)仍在努力通過改進(jìn)工具來縮短綜述產(chǎn)出所需的時(shí)間,這些工具可以在他們命名為“證據(jù)綜述加速器”的網(wǎng)站上找到?!斑@不會(huì)成為一件前無古人后無來者的大事,而是每年都會(huì)讓綜述產(chǎn)出變得越來越快?!备窭鳛躅A(yù)測(cè)道。例如,在2022年,該團(tuán)隊(duì)發(fā)布了一款名為“方法向?qū)А保∕ethods Wizard)的計(jì)算機(jī)化工具,該工具會(huì)向用戶詢問一系列有關(guān)其研究方法的問題,然后在不使用人工智能的情況下為他們編寫一份研究方案。
匆忙趕制的綜述?
信息綜合的自動(dòng)化也伴隨著風(fēng)險(xiǎn)。多年來,研究人員一直清楚,許多系統(tǒng)綜述存在冗余或質(zhì)量差的問題,而人工智能可能會(huì)加劇這些問題。部分作者可能在有意或無意中使用人工智能工具快速完成一篇并未遵循嚴(yán)格程序或是包含低質(zhì)量研究的綜述,從而得出誤導(dǎo)性的結(jié)果。
格拉西烏說,與此形成對(duì)比的是,人工智能也可以鼓勵(lì)研究人員對(duì)以前發(fā)表的文獻(xiàn)進(jìn)行快速檢查,而原本他們是不會(huì)有閑心這么做的。“人工智能可能會(huì)提高他們的研究水平。”他說。布雷迪則表示,在未來,人工智能工具可以通過識(shí)別諸如P值操縱(一種數(shù)據(jù)操縱形式)等蛛絲馬跡,幫助標(biāo)記和過濾掉低質(zhì)量的論文。
格拉西烏認(rèn)為這種情況是兩種力量的平衡:人工智能工具可以幫助科學(xué)家產(chǎn)出高質(zhì)量的綜述,但也可能會(huì)助長(zhǎng)劣質(zhì)綜述的產(chǎn)生?!拔也恢肋@對(duì)已發(fā)表文獻(xiàn)的總體影響會(huì)是如何?!?/p>
有些人認(rèn)為,綜合和理解全球知識(shí)的能力不應(yīng)該完全掌握在不透明、以盈利為目的的公司手中??死讼M吹椒菭I(yíng)利組織開發(fā)并仔細(xì)測(cè)試人工智能工具。近期,英國(guó)的兩家資助機(jī)構(gòu)宣布將向證據(jù)綜合系統(tǒng)投資7000多萬美元,他和其他研究人員對(duì)此表示歡迎。“我們只是希望保持謹(jǐn)慎和小心,”克拉克說,“我們想要確保(技術(shù))輔助提供給我們的答案是正確的?!?/p>
資料來源 Nature