胡成潔
大語(yǔ)言模型(Large Language Model,LLM)是指使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,可以生成自然語(yǔ)言文本或理解語(yǔ)言文本的含義。大語(yǔ)言模型可以處理多種自然語(yǔ)言任務(wù),如文本分類(lèi)、問(wèn)答、對(duì)話等,是通向人工智能的一條重要途徑。目前,全球著名的大語(yǔ)言模型有GPT、LaMDA和Sora等。
出版作為一種知識(shí)生產(chǎn)和傳播的實(shí)踐活動(dòng),關(guān)乎人類(lèi)文明的傳承與發(fā)展。隨著技術(shù)的不斷發(fā)展,LLM在各行各業(yè)的應(yīng)用日益廣泛,出版業(yè)也面臨著新的機(jī)遇與挑戰(zhàn)。
大語(yǔ)言模型在內(nèi)容創(chuàng)作中的應(yīng)用
文本生成是LLM的核心功能之一,除了可以用于生成創(chuàng)意,為創(chuàng)作者提供新的創(chuàng)作思路外,還可以根據(jù)輸入的文本或主題生成新的文章、詩(shī)歌、圖畫(huà)甚至視頻。在生成文本時(shí),模型會(huì)結(jié)合輸入的上下文信息,并根據(jù)學(xué)習(xí)到的語(yǔ)言模式和語(yǔ)義規(guī)律預(yù)測(cè)下一個(gè)單詞或句子,通過(guò)不斷迭代,生成連貫、流暢的內(nèi)容。
LLM通過(guò)大規(guī)模的文本數(shù)據(jù)預(yù)訓(xùn)練和深度學(xué)習(xí)算法生成文本。在預(yù)訓(xùn)練階段,模型會(huì)利用大規(guī)模的文本數(shù)據(jù)集,如已出版的書(shū)籍、網(wǎng)頁(yè)文本等,學(xué)習(xí)語(yǔ)言的結(jié)構(gòu)和語(yǔ)義。通過(guò)自監(jiān)督學(xué)習(xí)技術(shù),預(yù)測(cè)文本中的下一個(gè)單詞或句子,從而學(xué)習(xí)文本的內(nèi)在規(guī)律和語(yǔ)言模式。完成預(yù)訓(xùn)練后,LLM通常會(huì)進(jìn)行微調(diào),以適應(yīng)特定的任務(wù)或領(lǐng)域。微調(diào)是指在一個(gè)特定的數(shù)據(jù)集上進(jìn)一步訓(xùn)練模型,使其更好地完成特定的任務(wù)。例如,針對(duì)文學(xué)作品創(chuàng)作的模型可能會(huì)在大量的文學(xué)作品數(shù)據(jù)集上進(jìn)行微調(diào),以生成符合特定文學(xué)風(fēng)格和主題的文本。生成文本后,LLM會(huì)輸出結(jié)果供用戶(hù)使用。用戶(hù)可以對(duì)生成的文本進(jìn)行評(píng)估和調(diào)優(yōu),如修改詞匯、調(diào)整語(yǔ)法結(jié)構(gòu)等,以滿足特定的需求。此外,用戶(hù)還可以提供反饋信息,幫助模型不斷改進(jìn)和優(yōu)化。
翻譯也是內(nèi)容創(chuàng)作的一種形式。在翻譯的過(guò)程中,LLM可以作為輔助翻譯工具,為翻譯人員提供語(yǔ)言建議和翻譯結(jié)果參考,幫助譯者更快地理解原文的意思和表達(dá)方式,使譯者將更多精力運(yùn)用于提升譯文的準(zhǔn)確性、流暢性和滿足讀者的閱讀需求,從而提高翻譯效率和質(zhì)量。
內(nèi)容創(chuàng)作是一個(gè)不斷迭代和改進(jìn)的過(guò)程。LLM可以根據(jù)用戶(hù)的反饋和需求進(jìn)行更新和優(yōu)化,以提高生成文本的質(zhì)量和準(zhǔn)確度。通過(guò)不斷的訓(xùn)練和調(diào)優(yōu),模型可以逐漸提高內(nèi)容創(chuàng)作能力,更好地滿足用戶(hù)的需求。這種模型的出現(xiàn)改變了傳統(tǒng)的創(chuàng)作方式,提高了創(chuàng)作效率,并為創(chuàng)作者提供了更多的可能性。
在LLM的輔助下,內(nèi)容創(chuàng)作變得更加簡(jiǎn)單、快捷。然而,隨著互聯(lián)網(wǎng)和人工智能的發(fā)展,內(nèi)容創(chuàng)作的重要性日益凸顯。信息爆炸和信息過(guò)載是互聯(lián)網(wǎng)時(shí)代出現(xiàn)的新問(wèn)題,而優(yōu)質(zhì)內(nèi)容創(chuàng)作可以幫助用戶(hù)篩選、過(guò)濾、整理信息,提供有價(jià)值、高質(zhì)量的內(nèi)容。出版業(yè)在傳播知識(shí)和文化方面扮演著重要的角色,傳播優(yōu)質(zhì)內(nèi)容是出版社的安身立命之本。
內(nèi)容創(chuàng)作是出版的基礎(chǔ),優(yōu)質(zhì)的內(nèi)容是吸引讀者、增加銷(xiāo)售量和提高出版社聲譽(yù)的關(guān)鍵。只有通過(guò)優(yōu)秀的作品滿足讀者的需求,提供有價(jià)值的知識(shí)和信息,才能吸引更多讀者,提高出版社的聲譽(yù)和地位。出版社只有不斷推出讀者喜愛(ài)的作品,才能在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出。
大語(yǔ)言模型在編輯工作中的應(yīng)用
編輯工作包括檢查內(nèi)容和格式、提出修改意見(jiàn)和建議、調(diào)整和優(yōu)化結(jié)構(gòu)、校對(duì)和校正錯(cuò)誤、保護(hù)版權(quán)和知識(shí)產(chǎn)權(quán)、協(xié)調(diào)出版流程等。以往這些工作均由人工完成,如編輯負(fù)責(zé)對(duì)文稿進(jìn)行審閱、修改和整理,校對(duì)人員負(fù)責(zé)校對(duì),以確保文稿的質(zhì)量和完整性。由于編校人員的經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)背景不同,對(duì)書(shū)稿的理解存在差異,識(shí)別出的文稿問(wèn)題也各不相同。根據(jù)國(guó)家新聞出版署頒布的《圖書(shū)質(zhì)量管理規(guī)定》,差錯(cuò)率不超過(guò)1/10000的圖書(shū),其編校質(zhì)量方屬合格。在編輯環(huán)節(jié)引入相關(guān)的人工智能工具,利用LLM檢測(cè)文本中的語(yǔ)法錯(cuò)誤和拼寫(xiě)錯(cuò)誤,根據(jù)語(yǔ)言模型和語(yǔ)法規(guī)則對(duì)文本進(jìn)行分析和優(yōu)化,提出更加合理和準(zhǔn)確的修改建議,可以進(jìn)一步減少錯(cuò)誤和疏漏,在減輕編輯工作壓力的同時(shí)提高編輯質(zhì)量。
從國(guó)內(nèi)外的實(shí)踐經(jīng)驗(yàn)看,通過(guò)分析語(yǔ)句的語(yǔ)法結(jié)構(gòu)和上下文信息,模型可以識(shí)別并糾正錯(cuò)誤,使文稿表達(dá)更加準(zhǔn)確和規(guī)范。通過(guò)LLM,可以分析文本的語(yǔ)言風(fēng)格和表達(dá)方式,并提供優(yōu)化建議。例如,模型可以檢測(cè)文本中的重復(fù)詞匯、冗長(zhǎng)句子,并提出簡(jiǎn)潔明了的改進(jìn)方案,使文本更具吸引力和可讀性。LLM甚至可以分析文本的語(yǔ)言風(fēng)格和表達(dá)方式,并提供優(yōu)化建議,使內(nèi)容更符合讀者的閱讀習(xí)慣。
LLM的情感分析功能可以檢測(cè)文本的情感傾向。基于預(yù)設(shè)的規(guī)則或訓(xùn)練好的模型,LLM可以識(shí)別出帶有不當(dāng)情感色彩的內(nèi)容。通過(guò)設(shè)定關(guān)鍵詞黑名單或規(guī)則,LLM可以檢測(cè)并標(biāo)記文稿中不合規(guī)的內(nèi)容。除了文本內(nèi)容外,LLM還可以結(jié)合圖像識(shí)別技術(shù),對(duì)圖像內(nèi)容進(jìn)行審核,高效發(fā)現(xiàn)并過(guò)濾圖像中的不良內(nèi)容。通常情況下,LLM對(duì)內(nèi)容的審核是作為人工審核的輔助而出現(xiàn)的,模型對(duì)可能存在問(wèn)題的內(nèi)容進(jìn)行標(biāo)記,并提交給編校人員進(jìn)一步確認(rèn)和處理。
對(duì)于比較緊急的出版任務(wù)來(lái)說(shuō),LLM擁有獨(dú)特的優(yōu)勢(shì)。LLM可以根據(jù)語(yǔ)言模型和語(yǔ)法規(guī)則對(duì)文本進(jìn)行分析和優(yōu)化,為編輯提供修改建議。LLM可以并行處理多個(gè)任務(wù),同時(shí)進(jìn)行文本處理、校對(duì)、排版等工作,不受時(shí)間和空間的限制,從而大大縮短圖書(shū)的出版周期。
大語(yǔ)言模型在圖書(shū)營(yíng)銷(xiāo)中的應(yīng)用
在圖書(shū)信息發(fā)布環(huán)節(jié),LLM不僅可以根據(jù)圖書(shū)內(nèi)容自動(dòng)生成簡(jiǎn)潔明了的圖書(shū)簡(jiǎn)介,還可以根據(jù)圖書(shū)內(nèi)容生成書(shū)評(píng)和個(gè)性化的推薦語(yǔ),幫助讀者快速了解圖書(shū)內(nèi)容。
在導(dǎo)購(gòu)環(huán)節(jié),LLM可以分析用戶(hù)的閱讀行為數(shù)據(jù),包括閱讀過(guò) 的書(shū)籍、喜歡的作者、感興趣的主題、閱讀時(shí)長(zhǎng)、閱讀頻率、停留時(shí)間等。通過(guò)分析用戶(hù)的閱讀行為數(shù)據(jù),模型可以了解用戶(hù)的閱讀習(xí)慣和閱讀偏好,從而為其提供個(gè)性化的內(nèi)容推薦服務(wù)。這種個(gè)性化推薦可以提高讀者的滿意度,提升其閱讀體驗(yàn),進(jìn)而促進(jìn)圖書(shū)的銷(xiāo)售。
通過(guò)自然語(yǔ)言處理技術(shù),LLM可以模擬人類(lèi)對(duì)話,為用戶(hù)解答問(wèn)題、提供建議,并引導(dǎo)用戶(hù)進(jìn)行圖書(shū)購(gòu)買(mǎi)和閱讀。LLM可以通過(guò)社交情感分析技術(shù)識(shí)別用戶(hù)的情感表達(dá)和交互行為,通過(guò)分析用戶(hù)發(fā)布的文本內(nèi)容、表情符號(hào)、圖片等,識(shí)別用戶(hù)的情感狀態(tài)和情緒變化,從而實(shí)現(xiàn)更加智能化的情感交互,提高讀者的參與度。例如,讀者可以向LLM詢(xún)問(wèn)圖書(shū)的內(nèi)容、作者、出版時(shí)間等信息,可以與LLM討論寫(xiě)作技巧,甚至可以邀請(qǐng)LLM與其共同創(chuàng)作書(shū)評(píng)、續(xù)寫(xiě)情節(jié)等。相比傳統(tǒng)的客服,LLM客服系統(tǒng)更“聰明”,有助于提高用戶(hù)的滿意度和忠誠(chéng)度。
在批發(fā)層面,圖書(shū)發(fā)行后,LLM可以分析大量的銷(xiāo)售數(shù)據(jù),包括銷(xiāo)售額、銷(xiāo)售渠道、銷(xiāo)售地區(qū)、銷(xiāo)售時(shí)間等信息。通過(guò)對(duì)歷史銷(xiāo)售數(shù)據(jù)和市場(chǎng)動(dòng)態(tài)的分析,模型可以預(yù)測(cè)圖書(shū)未來(lái)的銷(xiāo)售趨勢(shì)和市場(chǎng)需求變化,為出版社制定銷(xiāo)售策略提供參考。
在終端層面,通過(guò)自然語(yǔ)言處理技術(shù),LLM可以對(duì)用戶(hù)發(fā)布的評(píng)論、評(píng)分和情感表達(dá)等進(jìn)行語(yǔ)義分析和情感分析,從而進(jìn)一步了解用戶(hù)的偏好,優(yōu)化推薦結(jié)果。LLM可以分析讀者的購(gòu)買(mǎi)行為、反饋和評(píng)論,為出版社提供有針對(duì)性的建議和改進(jìn)方案。通過(guò)LLM,可以進(jìn)一步了解讀者的偏好和需求,從而預(yù)測(cè)未來(lái)的市場(chǎng)趨勢(shì),制定更加有效的營(yíng)銷(xiāo)策略。同時(shí),通過(guò)分析用戶(hù)的社交媒體行為,推送用戶(hù)感興趣的圖書(shū)廣告和宣傳信息,可以潛移默化地提高圖書(shū)的曝光度和知名度。
大語(yǔ)言模型在版權(quán)領(lǐng)域的應(yīng)用
LLM的發(fā)展在帶來(lái)諸多便利的同時(shí),也引發(fā)了一系列版權(quán)問(wèn)題。人工智能生成作品是指由人工智能程序或系統(tǒng)創(chuàng)作的作品,對(duì)于人工智能生成作品的版權(quán)歸屬問(wèn)題,目前尚未形成統(tǒng)一的認(rèn)識(shí)。根據(jù)傳統(tǒng)的著作權(quán)相關(guān)法律法規(guī),只有自然人才能成為著作權(quán)人,而人工智能程序并非自然人,因此不能直接享有著作權(quán)。美國(guó)版權(quán)局認(rèn)為,如果人工智能程序或系統(tǒng)是在人類(lèi)的指導(dǎo)和控制下創(chuàng)作作品的,那么該作品的著作權(quán)屬于人類(lèi)。歐盟版權(quán)指令則規(guī)定,如果人工智能程序或系統(tǒng)是在沒(méi)有任何人類(lèi)干預(yù)的情況下創(chuàng)作作品的,那么該作品的著作權(quán)屬于該程序或系統(tǒng)的開(kāi)發(fā)者。
隨著LLM的廣泛應(yīng)用,其生成作品的版權(quán)歸屬問(wèn)題變得更加復(fù)雜。LLM生成作品的創(chuàng)作過(guò)程往往是復(fù)雜和難以界定的,難以區(qū)分人類(lèi)和LLM在創(chuàng)作過(guò)程中的作用。傳統(tǒng)的版權(quán)判別方式難以有效識(shí)別和判定人工智能技術(shù)帶來(lái)的版權(quán)侵權(quán)行為。例如,LLM可以快速生成大量作品,這些作品可能與現(xiàn)有的作品存在相似性,但又難以被認(rèn)定為完全相同。LLM生成的內(nèi)容可能是通過(guò)深度學(xué)習(xí)等技術(shù)自動(dòng)生成的,難以追溯到具體的創(chuàng)作者。傳統(tǒng)的版權(quán)判別方式通常依賴(lài)于創(chuàng)作者的身份和版權(quán)登記等信息,而LLM生成內(nèi)容往往缺乏明確的創(chuàng)作者身份,創(chuàng)作來(lái)源模糊,使得版權(quán)歸屬難以確認(rèn)。LLM生成的內(nèi)容可能與已有作品的相似度非常高,但LLM能夠使生成的內(nèi)容有所變化,即便它實(shí)際上要表達(dá)的意思與原創(chuàng)作品幾乎一致。傳統(tǒng)的版權(quán)判別方式通常依賴(lài)于對(duì)比兩個(gè)作品的相似度,難以判別抄襲痕跡。這種自動(dòng)文本生成技術(shù)增加了版權(quán)保護(hù)的難度,使得版權(quán)侵權(quán)現(xiàn)象更加隱蔽和普遍。人工智能技術(shù)具有高度的復(fù)雜性和不確定性,傳統(tǒng)的版權(quán)判別方式難以準(zhǔn)確判定LLM生成的內(nèi)容是否侵權(quán),使得識(shí)別和追蹤侵權(quán)行為變得更加困難。此外,在實(shí)踐中,版權(quán)維權(quán)通常需要通過(guò)人工審核和訴訟程序,存在維權(quán)速度跟不上侵權(quán)速度的問(wèn)題。
傳統(tǒng)的版權(quán)法律框架可能無(wú)法及時(shí)跟進(jìn)人工智能領(lǐng)域的技術(shù)變化,導(dǎo)致在法律適用性上存在不足。然而這個(gè)問(wèn)題的解決之道,可能就在人工智能技術(shù)本身。LLM可以被應(yīng)用于版權(quán)管理的各個(gè)環(huán)節(jié),如版權(quán)登記、版權(quán)監(jiān)測(cè)、版權(quán)維權(quán)、版權(quán)交易等。LLM可以自動(dòng)識(shí)別和提取作品中的版權(quán)信息,生成版權(quán)登記申請(qǐng)表,提高版權(quán)登記的效率;可以輔助審查版權(quán)登記申請(qǐng),識(shí)別作品的類(lèi)型、作者、創(chuàng)作時(shí)間等信息,并對(duì)作品的原創(chuàng)性進(jìn)行初步判斷,提高版權(quán)審查的效率和準(zhǔn)確性;可以對(duì)版權(quán)登記數(shù)據(jù)進(jìn)行分類(lèi)、整理、分析,并提供版權(quán)數(shù)據(jù)檢索;可以監(jiān)測(cè)網(wǎng)絡(luò)上的版權(quán)侵權(quán)行為,自動(dòng)識(shí)別和匹配網(wǎng)絡(luò)上的作品,并向版權(quán)權(quán)利人發(fā)送侵權(quán)預(yù)警;可以分析版權(quán)侵權(quán)案件,自動(dòng)分析作品的相似性,提供版權(quán)維權(quán)的證據(jù),提高版權(quán)維權(quán)的效率;可以通過(guò)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)侵權(quán)行為的發(fā)生概率和趨勢(shì),幫助版權(quán)所有者制定相應(yīng)的維權(quán)策略;通過(guò)智能化的數(shù)據(jù)分析和決策系統(tǒng),可以為版權(quán)所有者提供有針對(duì)性的維權(quán)建議,幫助其更好地保護(hù)作品的版權(quán);還可以構(gòu)建版權(quán)交易平臺(tái),自動(dòng)匹配版權(quán)需求方和版權(quán)供給方,并提供版權(quán)交易撮合服務(wù),提高版權(quán)交易的效率。
對(duì)于出版業(yè)來(lái)說(shuō),應(yīng)對(duì)LLM帶來(lái)的版權(quán)問(wèn)題做兩手準(zhǔn)備。一方面,重視人工智能生成作品的著作權(quán)歸屬問(wèn)題,以及探索如何解決LLM帶來(lái)的版權(quán)問(wèn)題;另一方面,加強(qiáng)對(duì)人工智能版權(quán)監(jiān)測(cè)工具的應(yīng)用,提高對(duì)侵權(quán)行為的識(shí)別效率。為此,出版業(yè)可以加強(qiáng)與技術(shù)企業(yè)、版權(quán)組織等的交流與合作,共享信息資源、技術(shù)經(jīng)驗(yàn)和行業(yè)信息,形成合力,共同推動(dòng)版權(quán)保護(hù)工作的開(kāi)展。
大語(yǔ)言模型對(duì)人類(lèi)社會(huì)產(chǎn)生了深遠(yuǎn)的影響,給出版業(yè)帶來(lái)了前所未有的變革,對(duì)傳統(tǒng)的出版業(yè)生態(tài)和相關(guān)從業(yè)人員造成了一定的沖擊。例如,一些重復(fù)性工作可能被LLM取代,增加了相關(guān)從業(yè)人員的壓力;內(nèi)容生產(chǎn)速度大幅加快,使得市場(chǎng)競(jìng)爭(zhēng)更加激烈。隨著LLM在出版業(yè)中的應(yīng)用日益廣泛,讀者對(duì)圖書(shū)產(chǎn)品提出了更高的要求。相關(guān)主體應(yīng)充分認(rèn)識(shí)到LLM的價(jià)值,緊跟時(shí)代步伐,讓LLM在出版業(yè)發(fā)揮更大的作用。
(作者單位:經(jīng)濟(jì)科學(xué)出版社)