【摘 要】以“荀子”“AI太炎”等為代表的古籍整理出版領(lǐng)域人工智能大模型的發(fā)布和應(yīng)用,不僅意味著人工智能大模型正朝著專業(yè)垂直細(xì)分領(lǐng)域發(fā)展,同時(shí)也為貫通古籍整理出版上、中、下游各環(huán)節(jié),加速古籍智慧化轉(zhuǎn)型升級提供重要機(jī)遇。研究發(fā)現(xiàn),人工智能大模型在古籍整理出版領(lǐng)域主要有專業(yè)領(lǐng)域服務(wù)場景、學(xué)術(shù)知識服務(wù)場景、大眾開放服務(wù)場景三大應(yīng)用場景,以及資源層面、技術(shù)層面兩大現(xiàn)實(shí)難題?;诖颂岢鼋鉀Q策略,即加快推進(jìn)多方跨界協(xié)作,合力解決資源難題;全面強(qiáng)化行業(yè)規(guī)范發(fā)展,有效解決技術(shù)難題。
【關(guān) 鍵 詞】人工智能大模型;技術(shù)創(chuàng)新;古籍整理出版;古籍智慧化
【作者單位】王忠田,中南大學(xué)中國村落文化研究中心。
【基金項(xiàng)目】國家社科基金重大項(xiàng)目(19ZDA191)的階段性研究成果;中南大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2021zzts0015)的階段性研究成果。
【中圖分類號】G239.2;G206 【文獻(xiàn)標(biāo)識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.04.006
2022年4月,中共中央辦公廳、國務(wù)院辦公廳聯(lián)合印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》(以下簡稱“《意見》”)并明確指出,要發(fā)揮科技保護(hù)支撐作用,推動(dòng)古籍保護(hù)關(guān)鍵技術(shù)突破和修復(fù)設(shè)備研發(fā),積極開展古籍文本結(jié)構(gòu)化、知識體系化、利用智能化的研究和實(shí)踐,這為人工智能時(shí)代的古籍整理出版工作指明方向。目前,人工智能技術(shù)在古籍整理出版領(lǐng)域大有可為,且已經(jīng)取得不俗成績,如古聯(lián)公司在籍合網(wǎng)上線的古籍智能整理平臺、北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室研發(fā)的“識典古籍”平臺以及上海辭書出版社研發(fā)運(yùn)營的聚典數(shù)據(jù)開放平臺等都是古籍?dāng)?shù)字化乃至智能化整理出版的代表。在以人工智能技術(shù)為代表的新一代高精尖技術(shù)迅猛發(fā)展和多領(lǐng)域滲透的當(dāng)下,加快推動(dòng)“人工智能+古籍整理出版”融合發(fā)展已經(jīng)成為行業(yè)發(fā)展的重要趨勢。
一、人工智能大模型及其主要功能特征
人工智能大模型主要指擁有超大規(guī)模參數(shù)(一般在十億及以上)和超強(qiáng)計(jì)算資源的機(jī)器學(xué)習(xí)模型,能即時(shí)、高效地處理各類數(shù)據(jù),完成各種指令下的復(fù)雜任務(wù)(自然語言處理、圖像識別等)。從自然語言處理的研究角度來看,人工智能大模型的構(gòu)建并非一蹴而就,而是經(jīng)過技術(shù)不斷迭代升級后的成果?;赥ransformer的自然語言處理模型,在大規(guī)模語料庫預(yù)訓(xùn)練和海量標(biāo)注數(shù)據(jù)的微調(diào)作用下,能更好地適應(yīng)特定的自然語言處理任務(wù),具有極強(qiáng)的語言理解和內(nèi)容生成能力,這是人工智能大模型更具智慧和應(yīng)用前景的重要原因。人工智能大模型的功能特征具體包括以下三個(gè)方面。
第一,智能爬取和自主監(jiān)督學(xué)習(xí)。相較以往的網(wǎng)絡(luò)爬蟲(數(shù)據(jù)爬取工具)而言,生成式AI賦能的大模型在數(shù)據(jù)爬取方面更加智能,不僅可以大范圍爬取公開可用的網(wǎng)絡(luò)數(shù)據(jù)(數(shù)據(jù)挖掘、網(wǎng)頁數(shù)據(jù)復(fù)制/拍照、網(wǎng)站鏡像),還能通過算法規(guī)制提高目標(biāo)數(shù)據(jù)的精確性,為大模型提供更多的理想數(shù)據(jù)資源。2023年8月,OpenAI在官網(wǎng)介紹了新的數(shù)據(jù)爬取工具GPTBot并指出,該工具可能會用于改進(jìn)未來的模型,因?yàn)槠洳粌H能主動(dòng)收集網(wǎng)絡(luò)公開數(shù)據(jù),還能過濾需要付費(fèi)的內(nèi)容來源、涉及個(gè)人身份信息的消息來源以及違反規(guī)定的文本來源,進(jìn)而提高大模型預(yù)訓(xùn)練數(shù)據(jù)內(nèi)容的準(zhǔn)確性。此外,利用Transformer轉(zhuǎn)換器技術(shù),人工智能大模型還能在缺乏人工標(biāo)注數(shù)據(jù)的情況下自主監(jiān)督學(xué)習(xí),通過算法和算力的支撐讓海量數(shù)據(jù)進(jìn)行模擬場景試驗(yàn)并不斷優(yōu)化權(quán)重,從而為后續(xù)的內(nèi)容生成與輸出提供保障。
第二,降本增效和多領(lǐng)域微調(diào)通用。與以往的系統(tǒng)或模型不同的是,人工智能大模型更加智慧,無須人工標(biāo)注和清洗數(shù)據(jù),因而成本大幅降低。另外,人工智能大模型可以并行處理輸入序列中的所有信息,其性能和精度較以往的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等模型更佳,任務(wù)處理時(shí)效顯著提升。不僅如此,基礎(chǔ)模型體量龐大,匯集各類數(shù)據(jù)資源,且具有跨領(lǐng)域知識特征,可以通過微調(diào)手段,以極低成本有針對性地進(jìn)行數(shù)據(jù)訓(xùn)練,從而適應(yīng)不同領(lǐng)域的任務(wù)需求,這為其邁入多領(lǐng)域通用階段提供了重要支持。就2023年初至今國內(nèi)相關(guān)機(jī)構(gòu)研發(fā)的數(shù)百個(gè)人工智能大模型來看,其涉及但不限于教育、文化、科技等多個(gè)行業(yè)領(lǐng)域,文心一言、智海—三樂、書生、紫東·太初等都是典型代表。
第三,語言理解和按需生成內(nèi)容。人工智能大模型最出彩的功能特征,無疑是強(qiáng)大的語言理解能力和按需生成內(nèi)容的能力。以火爆全球的ChatGPT為例,RLHF是其基礎(chǔ)模型的核心技術(shù)之一,主要是指“人為干預(yù)AI對數(shù)據(jù)的分析,通過收集數(shù)據(jù)、訓(xùn)練獎(jiǎng)勵(lì)模型、利用PPO來強(qiáng)化學(xué)習(xí)算法,最終獲得模擬人腦思維、實(shí)現(xiàn)最優(yōu)選擇、不斷優(yōu)化答案的結(jié)果”。此外,得益于生成式AI技術(shù)賦能,現(xiàn)階段的大模型已經(jīng)從過去的推理、判斷(如人臉識別、無人駕駛),進(jìn)階到可生成語言、文本等,隨著人工智能大模型的技術(shù)性能、數(shù)據(jù)規(guī)模進(jìn)一步迭代和擴(kuò)大,其應(yīng)用前景和功能作用必將更勝以往。
二、人工智能大模型在古籍整理出版領(lǐng)域的應(yīng)用場景
1.專業(yè)領(lǐng)域服務(wù)場景——以智能編校工具提升工作效率
人工智能大模型在古籍整理出版領(lǐng)域的應(yīng)用,主要是通過相關(guān)智能工具的研發(fā)使用和大模型系統(tǒng)的自主生成功能,為古籍整理出版專業(yè)工作提速增效。長期以來,古籍整理出版工作由于引文多、典故多、生字多等原因,極其耗費(fèi)人力、物力和財(cái)力,且進(jìn)度緩慢。盡管以古聯(lián)公司為代表的專業(yè)機(jī)構(gòu)借助人工智能技術(shù)開發(fā)相關(guān)工具包和平臺,在古籍OCR識別、自動(dòng)標(biāo)點(diǎn)等方面發(fā)揮重要作用,但仍有較大限制,如不少平臺智能化水平一般,便捷性、實(shí)效性以及準(zhǔn)確率還需提升。人工智能大模型的問世及其在古籍整理出版領(lǐng)域的應(yīng)用可解決這一痛點(diǎn)問題。例如,通過包括《四庫全書》在內(nèi)的超40億字的大型混合預(yù)料數(shù)據(jù)訓(xùn)練,“荀子”大模型具有古籍智能標(biāo)引、古籍信息抽取、古籍高質(zhì)量翻譯、古籍閱讀理解等功能,加之大模型本身具有更容易理解人類語言模糊性的特性,因此,其在實(shí)踐應(yīng)用中可衍生各種智能工具包,為專業(yè)對象提供智能編校、自動(dòng)分類、智能標(biāo)引等高質(zhì)量服務(wù)。
不僅如此,由于人工智能大模型具有多模態(tài)轉(zhuǎn)換功能,其還能支持古籍領(lǐng)域?qū)I(yè)人員靈活定義和管理任意“通感”任務(wù)。例如,經(jīng)過專業(yè)數(shù)據(jù)“飼喂”和自主學(xué)習(xí),人工智能大模型可自主識別、精準(zhǔn)提煉包含圖片、文字、音視頻等在內(nèi)的各種古籍資源信息,并在專業(yè)人員的指令下高效率、高質(zhì)量地開展古籍整理出版工作??傊?,對專業(yè)領(lǐng)域而言,人工智能大模型在提高古籍整理出版工作時(shí)效性和質(zhì)量方面具有強(qiáng)大的服務(wù)性能和應(yīng)用優(yōu)勢。
2.學(xué)術(shù)知識服務(wù)場景——以個(gè)性微調(diào)手段強(qiáng)化研究實(shí)效
除專業(yè)領(lǐng)域服務(wù)場景外,人工智能大模型應(yīng)用于古籍整理出版領(lǐng)域還能進(jìn)一步滿足學(xué)術(shù)知識服務(wù)場景需要,為古籍研究和后續(xù)的開發(fā)利用提供強(qiáng)力支撐。目前已發(fā)布的“荀子”“AI太炎”等古籍領(lǐng)域?qū)I(yè)大模型主要致力于滿足學(xué)術(shù)知識服務(wù)場景需求。例如,古籍相關(guān)領(lǐng)域的專家學(xué)者可借助人工智能大模型完成古籍詞法分析、古籍實(shí)體識別、古籍知識關(guān)系抽取與知識圖譜構(gòu)建、古籍文本分類與匹配、古籍研究內(nèi)容生成等研究工作,加速學(xué)術(shù)成果產(chǎn)出。南京農(nóng)業(yè)大學(xué)信息管理學(xué)院王東波教授及其研究團(tuán)隊(duì)和古聯(lián)公司在推出“荀子”大模型的同時(shí)還發(fā)布了基座模型,可供用戶根據(jù)自身的學(xué)術(shù)需求和研究任務(wù),使用本地訓(xùn)練語料微調(diào)“荀子”大模型,讓用戶在古籍下游處理任務(wù)上獲得更優(yōu)越的服務(wù)性能和使用體驗(yàn)。
由此可見,人工智能大模型的實(shí)踐應(yīng)用和微調(diào)設(shè)置,可滿足不同專業(yè)細(xì)分領(lǐng)域的個(gè)性化任務(wù)需求,如利用大模型的內(nèi)容生成功能構(gòu)建學(xué)術(shù)研究網(wǎng)絡(luò)、自主輸出文本摘要、智能繪制學(xué)術(shù)圖表等,這不僅意味著通用型人工智能大模型的未來發(fā)展前景巨大,也為古籍細(xì)分學(xué)術(shù)研究提供了更多支持。隨著專注于古籍整理出版領(lǐng)域的人工智能大模型的不斷迭代升級,其服務(wù)性能和應(yīng)用場景將得到進(jìn)一步優(yōu)化和拓延,真正滿足個(gè)性化學(xué)術(shù)研究需求,為古籍研究和價(jià)值挖掘提供強(qiáng)勢支撐。值得一提的是,在這一過程中,人工智能大模型僅僅是一個(gè)應(yīng)用工具,雖然能幫助學(xué)術(shù)工作者更好地開展古籍研究工作,但仍需要使用人員恪守技術(shù)規(guī)范,盡可能避免學(xué)術(shù)不端問題的出現(xiàn)。
3.大眾開放服務(wù)場景——以活化開發(fā)利用提升價(jià)值效益
以往,作為古籍整理出版下游環(huán)節(jié)的古籍資源開發(fā)利用成效極為有限,其價(jià)值效益并未得到全面挖掘,與“傳之于眾”的理想目標(biāo)仍有一段距離。人工智能大模型的問世或可緩解甚至解決這一不足,真正實(shí)現(xiàn)“兩創(chuàng)”初衷。目前發(fā)布的人工智能大模型多以ToC模式與大眾直接交互,可根據(jù)個(gè)人需求提供開放性、定制性服務(wù),這對古籍資源的活化利用和多元推廣具有重要促進(jìn)作用。目前,“荀子”大模型除了在古籍處理與研究方面表現(xiàn)出優(yōu)越性能,還具備詩歌生成、個(gè)性問答等功能,可為大眾讀者及古籍愛好者提供智慧閱讀與內(nèi)容生成服務(wù)。古聯(lián)公司在“荀子”發(fā)布會上表示,未來將致力于古籍大模型的多場景應(yīng)用和各領(lǐng)域推廣,除古籍整理、數(shù)字化等專業(yè)服務(wù)外,還會積極布局人工智能寫作、人工智能教學(xué)、數(shù)字文娛等市場領(lǐng)域。據(jù)了解,今日頭條、抖音等互聯(lián)網(wǎng)公司的開發(fā)、測試團(tuán)隊(duì)已經(jīng)涉足“古籍?dāng)?shù)字化平臺”開發(fā)領(lǐng)域,目標(biāo)直指互聯(lián)網(wǎng)前端應(yīng)用,以期加速古籍資源的活化開發(fā)和商業(yè)化利用。從這個(gè)角度來看,在人工智能大模型的強(qiáng)勢賦能下,古籍整理出版的商業(yè)化、市場化和大眾化發(fā)展趨勢將愈發(fā)鮮明,不僅會成為面向大眾的智慧閱讀平臺,助力古籍資源活化開發(fā)和全球推廣,還會通過跨領(lǐng)域、跨行業(yè)、跨地區(qū)協(xié)作構(gòu)建古籍整理出版產(chǎn)業(yè)鏈,以更加豐富、多元的商業(yè)應(yīng)用場景進(jìn)一步釋放古籍資源的價(jià)值效益。
三、人工智能大模型在古籍整理出版領(lǐng)域的現(xiàn)實(shí)難題
1.資源層面:數(shù)據(jù)成本高、人才缺失、資金投入大
盡管人工智能大模型的問世和應(yīng)用為古籍整理出版提供了諸多便利,但也存在現(xiàn)實(shí)掣肘。一是高質(zhì)量專業(yè)數(shù)據(jù)成本高昂。人工智能大模型尤其是專注于古籍整理出版領(lǐng)域的大模型,對高質(zhì)量專業(yè)數(shù)據(jù)資源的需求量巨大、訓(xùn)練成本極高。以“荀子”大模型為例,其作為古籍專業(yè)領(lǐng)域的智能大模型,雖已投喂40億字大型混合語料數(shù)據(jù),但仍有不足,主要是“高質(zhì)量精加工數(shù)據(jù)資源的缺乏所致”。此外,“荀子”大模型的數(shù)據(jù)資源主要來自團(tuán)隊(duì)從2013年至今積累的大量標(biāo)注、精加工語料庫,這一過程耗時(shí)久、要求高,需要專業(yè)人員付出極大努力,時(shí)間、人力、物力成本極大。二是專業(yè)人才缺失。人工智能大模型應(yīng)用于古籍整理出版領(lǐng)域,既需要懂技術(shù)的優(yōu)質(zhì)人才,也需要懂古籍的專業(yè)人才,還需要懂運(yùn)營的優(yōu)秀人才,才能在數(shù)據(jù)標(biāo)注與加工、參數(shù)調(diào)優(yōu)和優(yōu)化、場景應(yīng)用和推廣等方面發(fā)揮實(shí)效。據(jù)王東波教授介紹,“荀子”大模型研發(fā)團(tuán)隊(duì)雖然涵蓋計(jì)算機(jī)、信息管理、語言學(xué)、古典文獻(xiàn)學(xué)以及目錄學(xué)等各個(gè)領(lǐng)域的專業(yè)人才,但仍有不足,未來還需進(jìn)一步擴(kuò)大和優(yōu)化人才結(jié)構(gòu)。三是資金投入大。目前,ChatGPT、文心一言等通用型人工智能大模型的資金投入都是天文數(shù)字,更不用說古籍整理出版專業(yè)領(lǐng)域的模型構(gòu)建和實(shí)踐運(yùn)用。有業(yè)內(nèi)人士指出,相對于通用型大模型而言,專業(yè)垂直領(lǐng)域的大模型所需的研發(fā)成本更大,但實(shí)際應(yīng)用場景更小,極容易造成“入不敷出”的局面。
2.技術(shù)層面:模型構(gòu)建要求高、配套研發(fā)難度大、技術(shù)應(yīng)用難題多
盡管古籍整理出版垂直領(lǐng)域的大模型較通用型大模型在解決行業(yè)問題方面更具優(yōu)勢和針對性,但其技術(shù)要求更高。一方面,大模型作為大算力和強(qiáng)算法結(jié)合的產(chǎn)物,對硬件設(shè)備和軟件技術(shù)的要求極高。從這個(gè)角度來看,無論是構(gòu)建古籍整理出版垂直領(lǐng)域的人工智能大模型,還是引入通用型人工智能大模型,都需要研發(fā)團(tuán)隊(duì)著力解決算力、算法層面的技術(shù)難題。不僅如此,要想確保大模型的優(yōu)良性能,需要不斷優(yōu)化和調(diào)整技術(shù)方案,這對現(xiàn)階段的古籍整理出版領(lǐng)域而言也是一個(gè)現(xiàn)實(shí)難題。另一方面,人工智能大模型應(yīng)用于古籍整理出版領(lǐng)域,需要技術(shù)團(tuán)隊(duì)配套研發(fā)系列工具包,如專注于數(shù)據(jù)集爬取的專業(yè)爬蟲和針對古籍領(lǐng)域的專業(yè)技術(shù)方案等,這對古籍垂直領(lǐng)域而言更是一個(gè)不小挑戰(zhàn)。
除模型構(gòu)建和配套研發(fā)問題外,古籍整理出版領(lǐng)域的技術(shù)應(yīng)用難題也有待解決。一是技術(shù)應(yīng)用場景仍較模糊。以“荀子”為代表的古籍整理出版垂直領(lǐng)域的人工智能大模型雖已規(guī)劃了多個(gè)技術(shù)應(yīng)用場景,如人工智能教育、人工智能文化產(chǎn)業(yè)等,但大多較為泛化,缺乏具體部署,加上模型本身就專注于古籍處理與研究領(lǐng)域,技術(shù)應(yīng)用場景極為受限。二是技術(shù)規(guī)范應(yīng)用問題。目前,無論是垂直領(lǐng)域的大模型還是通用領(lǐng)域的大模型,技術(shù)迭代性和成熟度仍有不足,稍有不慎極易出現(xiàn)技術(shù)濫用現(xiàn)象,引發(fā)社會信任危機(jī)和行業(yè)版權(quán)糾紛。此外,人工智能大模型潛在的技術(shù)弊端可能會導(dǎo)致虛假內(nèi)容生成問題,這對古籍整理出版領(lǐng)域也是一個(gè)潛在的巨大威脅。
四、人工智能大模型助力古籍整理出版的建議
1.加快推進(jìn)多方跨界協(xié)作,合力解決資源難題
首先,古籍整理出版領(lǐng)域的人工智能大模型技術(shù)研發(fā)團(tuán)隊(duì)可與專業(yè)機(jī)構(gòu)、權(quán)威公司合作,依靠技術(shù)和資源有效互補(bǔ)解決高質(zhì)量專業(yè)數(shù)據(jù)規(guī)模小、獲取成本高等現(xiàn)實(shí)難題。例如,相關(guān)技術(shù)團(tuán)隊(duì)在古籍垂直大模型構(gòu)建過程中可與國家圖書館等公共機(jī)構(gòu)以及古聯(lián)公司達(dá)成跨界合作,以自身技術(shù)優(yōu)勢進(jìn)行資源置換,以此獲得大規(guī)模、高質(zhì)量的古籍?dāng)?shù)據(jù)資源,達(dá)到降本增效目的。相關(guān)技術(shù)團(tuán)隊(duì)還可與古籍研究領(lǐng)域的專家建立合作關(guān)系,獲取專業(yè)、權(quán)威、珍貴的古籍?dāng)?shù)據(jù)資源,為模型構(gòu)建提供助力。例如,在2023年11月舉辦的世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,有文化遺產(chǎn)保護(hù)領(lǐng)域的專家提出,愿意提供相關(guān)數(shù)據(jù),希望未來能夠?qū)⒋竽P团c自己研究的垂直領(lǐng)域相結(jié)合。從這個(gè)角度來看,技術(shù)團(tuán)隊(duì)只有與行業(yè)機(jī)構(gòu)、數(shù)據(jù)既有者建立跨界合作機(jī)制,以技術(shù)優(yōu)勢置換海量、權(quán)威的數(shù)據(jù)資源,才能在合理管控成本的同時(shí)實(shí)現(xiàn)互惠共贏目標(biāo)。
其次,人才是第一生產(chǎn)力,面對古籍整理出版領(lǐng)域人工智能大模型復(fù)合人才短缺的難題,應(yīng)該從兩個(gè)方面著手解決。一是建立跨學(xué)科通力合作機(jī)制。隨著人工智能大模型的快速發(fā)展及其在古籍整理出版領(lǐng)域的廣泛應(yīng)用,必將開辟全新的交叉學(xué)科領(lǐng)域,這也意味著高校古典文獻(xiàn)學(xué)等相關(guān)專業(yè)應(yīng)加大與技術(shù)企業(yè)、研發(fā)機(jī)構(gòu)的合作力度,共同培養(yǎng)兼具專業(yè)素養(yǎng)、技術(shù)素養(yǎng)和職業(yè)素養(yǎng)的綜合應(yīng)用型人才。此外,在古籍整理出版大模型構(gòu)建和應(yīng)用過程中,研發(fā)團(tuán)隊(duì)還應(yīng)注重與人文社科學(xué)研究者等通力合作,以“眾包”機(jī)制吸引更多專業(yè)人士積極參與,解決人才不足的難題。例如,古聯(lián)公司早在2018年便上線國內(nèi)第一個(gè)大規(guī)模古籍整理在線眾包平臺,目前注冊用戶近萬人,為古籍整理出版工作的提質(zhì)增效發(fā)揮了重要作用。古籍整理出版大模型在實(shí)踐應(yīng)用中亦可學(xué)習(xí)這一運(yùn)行機(jī)制,獲得更多古籍文獻(xiàn)學(xué)領(lǐng)域?qū)<覍W(xué)者、在校師生及廣大研究團(tuán)隊(duì)的支持,以社會多元人才力量的積極參與,為人工智能大模型在古籍整理出版領(lǐng)域的落地應(yīng)用和全面發(fā)展保駕護(hù)航。
最后,針對資金難題,古籍整理出版大模型研發(fā)團(tuán)隊(duì)既要積極尋求國家和行業(yè)相關(guān)部門的資金支持,也要主動(dòng)接洽優(yōu)質(zhì)市場企業(yè)并獲得一定資助。一方面,在古籍整理出版大模型研發(fā)過程中,團(tuán)隊(duì)可申報(bào)國家和行業(yè)的重大專項(xiàng)資金支持,如“荀子”大模型便得到國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識庫構(gòu)建及應(yīng)用研究”的有力支持;“AI太炎”大模型得到國家語委重大項(xiàng)目“古籍整理智能化關(guān)鍵技術(shù)研究”的大力資助。此外,研發(fā)團(tuán)隊(duì)還可與市場頭部企業(yè)接洽,以古籍整理出版領(lǐng)域大模型的市場前景和預(yù)期成效來獲取資助,拓寬資金來源渠道。例如,北京大學(xué)數(shù)字人文研究中心主任王軍及其團(tuán)隊(duì)在“識典古籍”平臺項(xiàng)目建設(shè)過程中便得到了字節(jié)跳動(dòng)公司的資金、技術(shù)和人才支持。
2.全面強(qiáng)化行業(yè)規(guī)范發(fā)展,有效解決技術(shù)難題
在古籍整理出版領(lǐng)域的大模型建設(shè)過程中,技術(shù)團(tuán)隊(duì)可加強(qiáng)對國內(nèi)外專業(yè)垂直領(lǐng)域大模型建設(shè)經(jīng)驗(yàn)的學(xué)習(xí)和借鑒,也可向?qū)I(yè)技術(shù)公司等尋求幫助和指導(dǎo)。例如,在“荀子”“AI太炎”等古籍垂直領(lǐng)域人工智能大模型的研發(fā)和構(gòu)建過程中,其團(tuán)隊(duì)便參考和學(xué)習(xí)國內(nèi)外頂尖科技公司的模型開發(fā)經(jīng)驗(yàn),本著“取其精華,去其糟粕”原則,對它們的技術(shù)方案和運(yùn)行機(jī)制進(jìn)行提煉和活用。不僅如此,古籍整理出版領(lǐng)域大模型研發(fā)團(tuán)隊(duì)還可向?qū)I(yè)技術(shù)公司尋求幫助和技術(shù)指導(dǎo)。例如,2023年8月,高等教育出版社聯(lián)合浙江大學(xué)、阿里云、華院計(jì)算等多方機(jī)構(gòu)共同發(fā)布教育垂直領(lǐng)域人工智能大模型“智?!龢贰?,該模型主要以阿里云的“通義千問”通用模型為研發(fā)基礎(chǔ),有效降低出版機(jī)構(gòu)研發(fā)專業(yè)垂直領(lǐng)域大模型的難度,這對研發(fā)古籍整理出版垂直領(lǐng)域大模型無疑具有重要啟示。
在人工智能大模型應(yīng)用于古籍整理出版領(lǐng)域的當(dāng)下,要高度重視和全面強(qiáng)化行業(yè)發(fā)展規(guī)范,為技術(shù)合理使用提供有效保障。一是進(jìn)一步拓延技術(shù)應(yīng)用場景,加速古籍整理出版大模型的多元推廣和效益增值。技術(shù)研發(fā)方和合作方應(yīng)根據(jù)古籍整理出版領(lǐng)域的多元需求和人工智能大模型的發(fā)展前景,加快延伸古籍大模型的應(yīng)用范圍,如文化、教育等行業(yè)領(lǐng)域,以大模型的技術(shù)性能和功能作用配套開發(fā)數(shù)字人、游戲、文旅文創(chuàng)、古籍教學(xué)、古籍閱讀等細(xì)分場景,實(shí)現(xiàn)古籍資源的價(jià)值效益最大化目標(biāo)。在這一過程中,應(yīng)注意調(diào)和古籍整理出版工作公益性、開放性價(jià)值導(dǎo)向和人工智能大模型商業(yè)化、市場化應(yīng)用趨勢之間的矛盾沖突?!吨袊斯ぶ悄艽竽P偷貓D研究報(bào)告》顯示,我國自2020年進(jìn)入大模型快速發(fā)展階段,目前已形成龐大的大模型技術(shù)產(chǎn)業(yè)群,并沿著產(chǎn)業(yè)化路徑開啟商用征程。然而,古籍整理出版本就是一項(xiàng)以公益性為主導(dǎo)的文化傳承與創(chuàng)新工作,這與人工智能大模型的發(fā)展應(yīng)用趨勢存在本質(zhì)差異。因此,在人工智能大模型應(yīng)用于古籍整理出版領(lǐng)域的未來,如何兼顧和平衡其公益性和商業(yè)性屬性,又應(yīng)該構(gòu)建怎樣的控制與管理模式,都需要學(xué)業(yè)界高度重視并給出科學(xué)、合理的解決方案。二是進(jìn)一步強(qiáng)化技術(shù)應(yīng)用規(guī)范,以多主體、多維度協(xié)同共建大模型時(shí)代古籍整理出版的“防火墻”和“安全線”。從法律層面來看,以古籍整理出版相關(guān)機(jī)構(gòu)、高??蒲袌F(tuán)隊(duì)為代表的技術(shù)研發(fā)方在模型構(gòu)建、數(shù)據(jù)爬取、內(nèi)容生成和用戶服務(wù)等環(huán)節(jié)都需遵循相關(guān)法律法規(guī),如古籍大模型研發(fā)和應(yīng)用團(tuán)隊(duì)?wèi)?yīng)依據(jù)《生成式人工智能服務(wù)管理辦法》的相關(guān)要求規(guī)范使用人工智能及相關(guān)技術(shù)。從行業(yè)層面來看,古籍整理出版上、中、下游各環(huán)節(jié)在應(yīng)用人工智能大模型的同時(shí)要共同做好版權(quán)保護(hù)工作,避免因?yàn)榧夹g(shù)濫用導(dǎo)致的行業(yè)發(fā)展危機(jī)和用戶信任危機(jī)。從技術(shù)層面來看,大模型研發(fā)方和技術(shù)合作方應(yīng)針對古籍整理出版工作的重要性和特殊性,在專業(yè)垂直大模型基礎(chǔ)上研發(fā)更敏感、更高級、更專業(yè)的技術(shù)方案和應(yīng)用工具,同時(shí)在模型訓(xùn)練方面做好古籍?dāng)?shù)據(jù)標(biāo)注工作,盡可能避免版權(quán)侵權(quán)問題的發(fā)生。此外,還可引入第三方監(jiān)督管理機(jī)制,如與第三方技術(shù)公司合作,對古籍整理出版人工智能大模型的訓(xùn)練數(shù)據(jù)、生成內(nèi)容、用戶信息等進(jìn)行輔助保護(hù)和有效監(jiān)管。
|參考文獻(xiàn)|
[1]黃洛鋒,陳艷芳,孔云. 高質(zhì)量做好新時(shí)代古籍文獻(xiàn)整理出版工作的思考[J]. 出版廣角,2022(23):61-64.
[2]韓春磊,姚嘯華,張宏玲,等. 新時(shí)代古籍智慧化服務(wù)實(shí)踐探討:以古典小說續(xù)作研究場景為例[J]. 圖書館雜志,2023(12):58-68.
[3]聶慧超. 出版人站上大模型風(fēng)口[N]. 中國出版?zhèn)髅缴虉?bào),2023-12-22.
[4]劉挺. 從ChatGPT談大語言模型及其應(yīng)用[J]. 語言戰(zhàn)略研究,2023(5):14-18.
[5]段涵. 人工智能技術(shù)群落與古籍文獻(xiàn)整理出版思考[J]. 出版廣角,2023(12):48-52.
[6]韓業(yè)庭. 當(dāng)古籍修復(fù)遇上人工智能[N]. 光明日報(bào),2022-04-11.
[7]李晨. 與“荀子”對話:古籍版ChatGPT發(fā)布[N]. 中國科學(xué)報(bào),2023-12-15.