菲力
人形機(jī)器人拿著畫筆站在畫架前進(jìn)行創(chuàng)作,圖像由AI生成
生成式AI及背后的科技巨頭,正張著血盆大口,對古老的出版行業(yè)虎視眈眈。
今年4月,美媒爆出Facebook母公司Meta一份內(nèi)部會議記錄,原來,早在一年前,Meta內(nèi)部幾乎每天都開會討論如何獲取更多數(shù)據(jù),來訓(xùn)練人工智能模型。在這份文件中,公眾得以窺見科技巨頭如何看待書籍、知識和數(shù)據(jù),以及其中隱含的微妙態(tài)度。根據(jù)會議記錄,Meta的生成式人工智能負(fù)責(zé)人Ahmad Al-Dahle告訴高管們,公司已經(jīng)使用了互聯(lián)網(wǎng)上幾乎所有的英文書籍、詩歌和散文來訓(xùn)練模型,因此正在尋找新的訓(xùn)練材料來源。
他們清楚一點,AI在未經(jīng)授權(quán)的情況下,已經(jīng)窮盡了素材,如果要引用更多,必然意味著潛在的訴訟風(fēng)險。律師指出了其中的道德問題,高管們卻沉默了。
其中一則錄音顯示,與會者討論收購全球五大出版商之一的美國西蒙與舒斯特公司(Simon&Schuster),或者以每本書10美元的價格,取得新書的全部授權(quán)。但方案未能落實,原因很簡單,相關(guān)的知識產(chǎn)權(quán)還是一片空白,AI還可以厚著臉皮肆無忌憚地挪用。
去年11月,加利福尼亞州聯(lián)邦法官文斯·查布里亞(Vince Chhabria)駁回眾多作家對Meta未經(jīng)許可就用其書籍訓(xùn)練AI的指控。這向他們傳遞了一個信息,在知識產(chǎn)權(quán)混亂的當(dāng)下,還有灰色操作的余地。
但無可否認(rèn),當(dāng)下,各大AI巨頭,正在為高質(zhì)量文本的追逐蓄勢待發(fā)。擁有優(yōu)質(zhì)內(nèi)容的傳統(tǒng)出版行業(yè),正是其瞄準(zhǔn)的目標(biāo)。我們來到了一個關(guān)鍵的歷史節(jié)點,圍繞書籍這種人類引以為傲的智慧結(jié)晶,更多的撕扯、博弈將會展開。盡管科幻電影對AI的想象無窮無盡,但現(xiàn)實的發(fā)展還是超出了人們的預(yù)期。就像紐扣和紐扣洞、罐頭和開瓶器不是同時出現(xiàn)的,世界的格局不是一蹴而就的,在問題找到答案之前,難免經(jīng)歷混亂與遐想、博弈與突圍。
Meta公司
美國西蒙與舒斯特公司
Epoch(人工智能研究機(jī)構(gòu))預(yù)測,到2026年,所有高質(zhì)量可用數(shù)據(jù)都可能被耗盡。
“Word,你是個成熟的軟件了,該學(xué)會自己碼字了?!边@話剛出口沒多久,鍵盤俠們還在為自己的幽默感沾沾自喜。OpenAI、ChatGPT和Sora、Midjourney的先后誕生,就一口氣取代了人們對Word、Excel和PPT的全部期待:自己碼字、自己統(tǒng)計數(shù)據(jù),自己生成影像,甚至自己討好甲方。
一個人工智能領(lǐng)域的基本常識:AI不是生來就這么聰明的,不論ChatGPT還是OpenAI,模型只是模型。要使其具備可持續(xù)進(jìn)化的智能,“數(shù)據(jù)堆肥”是關(guān)鍵的一步。在這一點上,人工智能和人的嬰兒時期是相似的,都要依靠外界的輸入,建立起自身最初的認(rèn)知基礎(chǔ)。2022年11月,ChatGPT橫空出世,人工智能領(lǐng)域的數(shù)據(jù)饑渴被徹底引爆。快速成長中的人工智能對數(shù)據(jù)調(diào)用的需求,已經(jīng)遠(yuǎn)超科學(xué)家們的投喂速度—孩子嗷嗷待哺。
一年之后,《紐約時報》狀告OpenAI和微軟侵犯其版權(quán),宣稱其出版的數(shù)百萬篇文章被用于訓(xùn)練OpenAI旗下的聊天機(jī)器人。這些機(jī)器人作為人類社會新的信息來源,與新聞機(jī)構(gòu)展開了直接競爭?!都~約時報》表示,如果新聞機(jī)構(gòu)無法制作和保護(hù)獨立的新聞報道,將會造成AI無法填補(bǔ)的真空。此話不假。但更切實的理由是,人工智能站在巨人的肩膀上,卻沒向巨人付費(fèi)。
第一個為“巨人”付費(fèi)的公司是谷歌。2024年初,法國競爭管理局表示,谷歌在未經(jīng)允許的情況下,使用了法國出版商和新聞機(jī)構(gòu)的內(nèi)容訓(xùn)練大模型Gemini,對此處以2.5億歐元的罰款,由此結(jié)束了互聯(lián)網(wǎng)漫長時間以來免費(fèi)的午餐。
Meta全球合作伙伴和內(nèi)容副總裁Nick Grudin表示:“唯一阻礙我們達(dá)到ChatGPT水平的因素就是數(shù)據(jù)量?!绷鞒龅腗eta內(nèi)部會議記錄顯示,高層早就開始商議收購出版巨頭西蒙與舒斯特公司,以廉價獲取更多書籍、詩歌和文章來訓(xùn)練旗下的人工智能產(chǎn)品。流出的資料還顯示,當(dāng)時參會的成員中,有人曾表示在未經(jīng)許可的情況下使用更多文本,哪怕有被起訴的風(fēng)險,也是值得的。
約翰內(nèi)斯·古騰堡正在檢查用活字印刷的樣張
這場毫無武德可言的現(xiàn)代戰(zhàn)爭正在進(jìn)入白熱化。
即便如此,Epoch(人工智能研究機(jī)構(gòu))預(yù)測,到2026年,所有高質(zhì)量可用數(shù)據(jù)都可能被耗盡。但屆時,人工智能可能已經(jīng)在巨人肩膀上完成了自身從0到1的起步。這之后,就像人成年之后,一切經(jīng)驗的取得得靠自己,而不是他人喂養(yǎng)。比如,由人工智能模仿人類生成文本,再用這些文本訓(xùn)練人工智能的“合成數(shù)據(jù)”,似乎是一個可行的選擇。但也有研究人員表示,這些近親繁殖而來的數(shù)據(jù),或許最終導(dǎo)致“哈布斯堡詛咒”,讓最終的輸出缺乏多樣性,讓偏見永遠(yuǎn)是偏見。
包括新聞機(jī)構(gòu)、出版社在內(nèi)的一大批傳統(tǒng)媒介,對待人工智能的態(tài)度不可謂不惶恐。新技術(shù)的出現(xiàn)有其蠻不講理的一面,但也有其勢不可擋的生命力的另一面。從印刷機(jī)到人工智能,歷史從不創(chuàng)新,只是一再重演。
讓我們回想15世紀(jì),活字印刷機(jī)剛剛面世的時刻,約翰內(nèi)斯·古騰堡將印刷生產(chǎn)能力從每小時5頁提升到25頁,使圖書得以廣泛普及,但也遭到了手抄員和教會的花式推諉。一直等到半個世紀(jì)之后,印刷機(jī)才被廣泛接受,并重塑了現(xiàn)代出版業(yè)。
美國伊利諾伊大學(xué)的學(xué)生Hart是古騰堡的后繼者之一。1971年,Hart獲得了學(xué)校材料研究實驗室中Xerox Sigma V大型計算機(jī)的使用權(quán)限,并預(yù)見計算機(jī)將會普及,于是決定將紙本書籍電子化,以供人們自由閱讀。很長一段時間內(nèi),西方文明中的文學(xué)作品、期刊,甚至比如樂譜之類的非文本作品,都是依靠“古騰堡計劃”的志愿者們手動錄入的。這一計劃不失為對文明遺產(chǎn)的一種存續(xù)與保護(hù),但至于流傳和普及,“閱讀”仍是一個難以企及的門檻。
今天,古騰堡計劃中的60000本電子作品已經(jīng)全部進(jìn)入公域版權(quán)。麻省理工學(xué)院計劃運(yùn)用AI生成語音,將其中5000本作品轉(zhuǎn)化為免費(fèi)、開源的有聲書,以更便捷的方式提供給所有人,包括視障人士。這一回,得益于日新月異的人工智能技術(shù),如今串接大型語言模型的有聲書呈現(xiàn),已經(jīng)能夠以低成本支援多種聲線,斷句與標(biāo)點符號停頓,甚至音調(diào)、情緒等副語言,都與真人朗讀相差無幾。
2022年歐美科技大廠大裁員,導(dǎo)致大量科技人才擁入AI賽道,之后就迎來了2023年的AI大爆發(fā)。
有聲作品的接受門檻要比紙本低得多,某種程度上,這也是在與當(dāng)今的新聞機(jī)構(gòu)和出版社做競爭—競爭人們的注意力與時間。對此,出版從業(yè)者的做法是:打不過就加入,紛紛開發(fā)有聲產(chǎn)品,但人工配音的成本不可謂不高昂。2023年1月的世界數(shù)位圖書會議上,全球有聲內(nèi)容負(fù)責(zé)人Bar-Kar表示,使用AI能夠協(xié)助出版業(yè)者以較低成本出版有聲書。若銷售狀況良好,出版業(yè)者可再次請真人配音員重新錄制有聲書。這種服務(wù)與合作的態(tài)度,顯然要比“不經(jīng)允許直接挪用”得體許多。
這一切改變都指向一個結(jié)果:屬于21世紀(jì)的“古騰堡時刻”正在來到。很快,人們或許可以在家務(wù)的碎片時間里完成一部古典名著的閱讀。和15世紀(jì)的活字印刷一樣,知識的落差將再一次被抹平。
日本女作家九段理江
如果說出版社和新聞機(jī)構(gòu)面對人工智能的恐慌,還只是未能分得一杯羹的忿恨,那么創(chuàng)作者面臨被取代的威脅,存在的價值受到質(zhì)疑,則是一種更深切的恐懼了。
說來也蹊蹺,2022年歐美科技大廠大裁員,導(dǎo)致大量科技人才擁入AI賽道,之后就迎來了2023年的AI大爆發(fā)。平面設(shè)計師、翻譯工作者、文案工作者甚至作家和畫家,人人自危。起點和終點,都是人類社會的智力再分配,過程中,每個個體都將重新思考關(guān)于價值的定義。
2024年初,在面對人工智能惶恐、迷茫、抵觸的暗流中,有一個聲音躍出水面。日本女作家九段理江憑借小說《東京都同情塔》獲得日本文學(xué)大獎芥川獎,作品中5%的文字直接取自現(xiàn)實中的生成式人工智能。九段理江表示,盡管人工智能表述的精準(zhǔn)度仍不理想,但只要稍作調(diào)整,就可以很好地融入。質(zhì)疑和贊許一樣洶涌,對錯沒有定論,唯一可以肯定的是,這絕不是人工智能第一次或最后一次介入人類的藝術(shù)創(chuàng)作。
中國的“AICG藝術(shù)家”陳哲,在使用Midjourney創(chuàng)作時也遇到了“不精準(zhǔn)”的問題。他發(fā)現(xiàn)這位掌握了人類海量數(shù)據(jù)的賽博巨人不是那么好馴服的,偶爾也會產(chǎn)出一些奇奇怪怪的事物,比如三只手的人、長了羽毛的馬等。但陳哲認(rèn)為,這種不精準(zhǔn)恰是現(xiàn)階段AI眼中的物理世界的反映。何不讓這種天馬行空,成為藝術(shù)的一種?在那些描繪異想場域的作品中,AI的作用不僅是提高效率,而是作為創(chuàng)意者參與靈感的啟發(fā)。
在一次知識版權(quán)大會上,曾有觀眾請教律師:未來什么樣的技能,是人工智能難以取代人類的?律師道:背鍋。
雖是調(diào)侃,但換個角度解讀也不無道理。“錯誤”何嘗不是人類智力成果的一種特殊沉淀?它與想象力同源。深度學(xué)習(xí)本就是為了塑造一個從容量到性能有遠(yuǎn)超人腦的超級智能,人類在機(jī)器擅長的領(lǐng)域過多踟躕并無益處。比如翻譯,不同語言之間的互相轉(zhuǎn)譯正在被人工智能全面取代,但要實現(xiàn)“信達(dá)雅”的理想仍脫離不了人類智力的再創(chuàng)造,而如果要翻譯詩,則需要再斟酌著去犯一些美麗的語法“錯誤”。
從版權(quán)劫掠到技術(shù)合作,再到創(chuàng)意啟發(fā),以O(shè)penAI為代表的人工智能新勢力,就像一個調(diào)皮的孩子,不停地拆著盲盒。但盲盒里的所有,無非是人性的放大器,幫助人類,再一次,向內(nèi)打開。
特約編輯姜雯 jw@nfcmag.com