隨著大語言模型等AI技術的快速發(fā)展,考古學界開始重新思考理解考古文獻的方式。從早期的自然語言處理技術到今天的多模態(tài)模型,考古信息挖掘的工具與范式正在經(jīng)歷根本性的變革。
考古學是一門與“碎片”共處的學科,信息的缺失、模糊與異質(zhì)性是常態(tài)。在面對數(shù)以萬計的發(fā)掘報告、圖錄、田野筆記與檔案材料時,如何從這些非結構化文本中提取出可計算、可檢索、可推理的知識,一直是人文計算領域的重大挑戰(zhàn)。
考古學的數(shù)字化困境與信息提取的需求
作為一門擁有數(shù)百年傳統(tǒng)的學科,考古學一直以來都面臨著一種特殊的挑戰(zhàn),壓力也在不斷累積:世界各地的考古機構和博物館在過去一兩個世紀中積累了大量發(fā)掘報告、調(diào)查簡報、學術期刊、圖錄、田野筆記和檔案文件。然而,它們并未因此成為真正“可用”的數(shù)據(jù)資源。絕大多數(shù)已電子化的文本內(nèi)容依然處于非結構化狀態(tài),缺乏統(tǒng)一的格式、術語體系和檢索機制,散落于不同機構、語言和出版渠道之間。這種既存在又難以利用的信息,被稱為“暗數(shù)據(jù)”(darkdata)—它們不僅數(shù)量龐大,而且往往承載著最關鍵的原始發(fā)現(xiàn)與細節(jié),卻因技術與體制限制,被長期埋沒在文本堆中[1]。此外,它們的寫作風格往往缺乏標準,行文自由,結構不一。即使已經(jīng)數(shù)字化,仍因缺乏元數(shù)據(jù)與語義標注,難以通過常規(guī)搜索工具定位、比對或綜合利用。
傳統(tǒng)的信息檢索方法主要依賴關鍵詞匹配,在這樣的語境下顯得格外無力。關鍵詞搜索要求術語的一致性,但考古文本中往往充斥著同義詞、變體拼寫、地區(qū)性稱謂乃至年代敘述的不統(tǒng)一。研究者能找到提到某個詞的文檔,卻很難馬上探索其與其他概念之間的邏輯關聯(lián)。比如,“陶罐”與“陶瓷器”“龍山時代”與“晚期新石器時代”等詞匯,在不同報告中可能以不同方式表達,造成檢索的嚴重遺漏。此外,關鍵詞搜索無法理解上下文關系,無法識別“陶罐出土于西安臨潼區(qū)2號墓”這樣的陳述背后的結構與意義。這也使得傳統(tǒng)檢索只能支持“信息定位”(找到某個詞出現(xiàn)在哪兒),而無法實現(xiàn)“知識發(fā)現(xiàn)”(理解不同資料之間的隱含聯(lián)系與意義)[2]
此外,考古研究真正關心的問題,遠遠超出了術語查找的范疇。學者往往希望追問的是:“A遺址出土的器物,是否與B遺址在風格、年代、材質(zhì)上存在關聯(lián)?這是否暗示了文化互動或貿(mào)易路線?”這類問題本質(zhì)上要求系統(tǒng)性地提取、比對、關聯(lián)來自數(shù)百份報告的信息碎片,并在此基礎上建立推理。這顯然已經(jīng)超出傳統(tǒng)信息檢索工具的能力。
面對這種困境,人工智能(AI)提供了一個潛在的突破口,尤其是近年來大語言模型(largelanguagemodels,LLM)技術的發(fā)展,讓我們得以重新“閱讀”這些舊文獻。它不僅能識別文本中的人物、地點、時間、器物等關鍵實體,還能分析實體之間的語義關系,構建出結構化的知識網(wǎng)絡。某種意義上,AI就像一把“數(shù)字探鏟”,能逐層發(fā)掘積壓在文獻堆中的語義地層,將文字還原為可操作、可推理的數(shù)據(jù)[3]。這種轉(zhuǎn)變的意義不僅在于提升處理速度,更在于提供了一種全新的研究方法一它讓碎片化的信息重新組合為整體,從而為跨區(qū)域、跨時期、跨語言的考古研究打開了新的可能性。
前大語言模型時代的技術探索與基礎
在大語言模型風靡之前,自然語言處理(naturallanguageprocessing,NLP)已經(jīng)在考古和歷史文獻處理中發(fā)揮作用。雖然早期模型遠不如今天智能,但不少關鍵概念和技術路線正是在這一時期建立,對推動人文學科的數(shù)據(jù)化和結構化進程至關重要[4-6]。早在2000年代初,歐洲和英國的考古數(shù)字項目便開始嘗試將文本挖掘技術引入報告管理與語義索引工作中。2007年前后,英國的Archaeotools項目首次大規(guī)模嘗試用關鍵詞提取和文本分類模型(如支持向量機)為考古灰色文獻建立內(nèi)容索引,輔助元數(shù)據(jù)檢索[7]。
這一時期,命名實體識別(namedentityrecognition,NER)是其中應用最廣的技術之一[。它的核心目標是識別文本中具有特定意義的“實體”,如人名、地名、時間、組織名或特定術語。在考古報告中,NER可自動從非結構化文本中提取如“2號墓”“灰陶罐”這樣的詞匯,并將它們標注為“歷史時期”“地點”“器物”等類別。這一過程使機器能夠理解文本中的“關鍵詞”,并據(jù)此生成結構化的元數(shù)據(jù),例如報告涉及的考古文化、遺址位置、出土遺物類型等,為文獻的搜索、分類和對比分析提供基礎。
在此基礎上,關系抽?。╮elationextraction,RE)則進一步識別實體之間的語義關系。例如在“陶罐出土于2號墓”這樣的句子中,RE能構建出一個三元組:[陶罐]-出土于-[2號墓]。這使得文本信息不僅是“名詞列表”,更包含了句法和語義層面的聯(lián)系,可用于構建知識圖譜或數(shù)據(jù)庫,支持復雜的查詢和推理任務。
除了微觀的實體和關系之外,研究者也嘗試用主題建模(topicmodeling)來識別大規(guī)模語料中的潛在主題結構。最常用的方法是潛在狄利克雷分配(1atentDirichletallocation,LDA),一種無監(jiān)督的概率模型。它的目標是將文獻表示為若干主題的概率組合,而每個主題則由一組高頻詞構成。在考古語料中,LDA可幫助識別出研究焦點(如“土坑墓”“青銅器”“文化交流”),揭示學術趨勢演變,甚至發(fā)現(xiàn)文本中未顯性的知識聚類。
但是,這些傳統(tǒng)方法都面臨相似的技術瓶頸。首先是對高質(zhì)量人工標注數(shù)據(jù)的依賴。以NER為例,要訓練出一個可靠模型,需要大量文本由領域?qū)<疫M行逐詞標注,明確哪些詞是地點、哪類屬于器物等。但考古文本往往術語專業(yè)、風格不一,大規(guī)模標注既困難又成本高昂,嚴重限制了模型性能。
其次,傳統(tǒng)模型的泛化能力有限。像CRF(conditionalrandom fields)、SVM(supportvectormachines)等主流算法,往往只能在特定語料上表現(xiàn)良好[8]。一旦面對風格迥異的文本、地區(qū)性的術語或跨語言材料,模型容易失效,難以遷移和復用。缺乏上下文建模能力、難以處理歧義、無法自動吸收語義知識,是其共同短板。
盡管早期技術存在種種限制,它們?nèi)粤粝铝藢氋F的遺產(chǎn)。首先,這些方法促使考古學界開始正視非結構化文獻的整理問題,從“寫文本”轉(zhuǎn)向“建數(shù)據(jù)”的思維方式。研究者不再僅僅關注報告內(nèi)容的描述,而是在意如何從中提取可復用的信息結構。今天,大語言模型能較為自然地理解“仰韶文化陶罐”和“戰(zhàn)國中晚期土坑墓”的含義,并提供背景解釋,這背后依賴的,正是十余年來領域?qū)<覀冊谡Z料標注、本體構建和知識表達上的持續(xù)積累。那些看似原始的規(guī)則提取與詞典匹配,構成了今天智能問答和語義搜索的基礎結構。對人文學科而言,大模型帶來的變革是顯著的,但更應看到:真正深耕本領域的系統(tǒng),仍離不開一套扎實的、來自早期時代的語義地基。
大語言模型驅(qū)動考古文獻挖掘與研究的范式轉(zhuǎn)移
如果說傳統(tǒng)自然語言處理(NLP)方法是在現(xiàn)有范式下對考古文獻進行輔助處理,大語言模型(LLM)的出現(xiàn),則標志著一種根本性的范式轉(zhuǎn)移。它不僅提高了自動處理文本的能力,更在深層語義理解、跨模態(tài)協(xié)同與知識生成方面,為考古學帶來了全新的操作邏輯。這種轉(zhuǎn)變,不只是工具性能的線性提升,重點在于推動對“信息如何轉(zhuǎn)化為知識”這一基礎問題的重構。
首先,大語言模型的核心優(yōu)勢,在于其通過上下文嵌入(contextualembeddings)所實現(xiàn)的語義表征能力。傳統(tǒng)模型通常將詞語視作孤立的符號,其表示固定而不考慮語境,而LLM采用的Transformer架構能夠為同一詞語在不同語境中生成動態(tài)、差異化的向量表達。研究表明,DeepMind的Ithaca模型在修復古希臘銘文時,能夠根據(jù)周圍文字片段準確補全破損文字,并結合上下文判斷銘文的出土地點與書寫年代。Ithaca在沒有專門為該任務設計的人工標注庫時,可以恢復 62% 的銘文缺失內(nèi)容,并將出土地域的預測誤差控制在數(shù)十年范圍內(nèi),從而展示了上下文嵌入對文獻修復與背景重建的重要作用[9]
考古學家使用Ithaca模型修復損壞的碑文該碑文[InscriptionesGraecae,第1卷,第3版,第4號文件,B面(IGI34B)]記錄了有關雅典衛(wèi)城的法令,可追溯到公元前485年(Marsyas書信博物館藏)。
阿舒爾班尼帕圖書館藏K.8737號石碑的背面上面刻有IqqurIppus系列(26)中的語句。阿卡德語由于楔形文字復雜的語音性質(zhì),在缺乏上下文時非常難以閱讀。
在考古文本處理中的另一項關鍵能力是零樣本/小樣本學習(zero-shot/few-shotlearning)。以往要訓練模型識別一種器物類型,需要數(shù)百份人工標注數(shù)據(jù)。如今,類似GPT-4或開源Llama這樣的預訓練模型,僅憑幾個示例就能完成器物分類或地層信息提取。研究人員利用神經(jīng)機器翻譯模型,將蘇美爾-阿卡德楔形文字自動翻譯為英文,且在僅用轉(zhuǎn)寫文本示例的情況下,BLEU4得分即達37.5,比傳統(tǒng)基準高出近10點,證明了零樣本/小樣本學習在資源稀缺領域的實用性[10]
信息檢索與問答系統(tǒng)方面,LLM的表現(xiàn)已遠超傳統(tǒng)關鍵詞匹配。考古學家可以用自然語言提出開放性問題,例如:“青銅時代晚期地中海東部存在哪些文化交流證據(jù)?”這樣的查詢往往不會在任何一篇單一文獻中以完全匹配的語言出現(xiàn)。傳統(tǒng)系統(tǒng)可能無法生成有用結果,而LLM驅(qū)動的語義檢索系統(tǒng),則可以理解問題的意圖,分解關鍵詞,并在海量文獻中提取相關段落、整合信息并生成回答。在此基礎上,ChatGPT-4被應用于佛羅倫薩梅迪奇王朝王室檔案的數(shù)字化信件目錄:研究者將已有的信件摘要輸入ChatGPT-4,系統(tǒng)自動生成更細粒度的關鍵詞與主題標簽,并基于文檔嵌人構建交互式知識圖譜。該系統(tǒng)支持以“誰在何地做了什么”的方式瀏覽數(shù)千封信件,極大提升了檔案檢索與關聯(lián)發(fā)現(xiàn)效率,并為史料間的潛在關聯(lián)提供了全新視角[]。此外,LLM可以針對不同受眾生成定制化摘要。博物館藏品編目往往耗時耗力,研究者使用Llama模型,從策展人對藏品的描述中自動提取關鍵詞,與人工標注互補,顯著提升了在線藏品系統(tǒng)的可檢索性。這一做法不僅縮短了報告篩查時間,也為公眾與管理者提供了多層次的文案輸出,滿足了不同閱讀需求。
這種范式轉(zhuǎn)移的影響,早已突破文本理解的范疇。在遙感考古、圖像識別、文獻匹配、報告結構化等多個環(huán)節(jié)中,LLM與多模態(tài)AI的結合使模型可以理解圖像與文本之間的對應關系,識別報告頁面上的線圖并配對文字描述,自動生成可查詢的數(shù)據(jù)庫。這種將“出版物”還原為“數(shù)據(jù)模型”的過程,或許將成為未來考古出版體系的一項基本步驟。LLM的革命性,并不只在于更快地完成既有任務,而在于打開了原本不存在的問題空間,讓考古學能夠從碎片化、異質(zhì)化、非結構化的文獻世界中,逐步構建出一個語義聯(lián)通、可計算分析的知識圖譜。這一轉(zhuǎn)變,不僅改變了“我們?nèi)绾翁幚砦谋尽?,更可能改變“我們?nèi)绾握J識過去”。
挑戰(zhàn)、風險與應對策略
在經(jīng)歷了從關鍵詞檢索到傳統(tǒng)NLP技術的漸進式發(fā)展之后,LLM正以前所未有的深度和廣度介入考古研究。盡管其帶來的技術飛躍令人矚目,但任何強大的工具都伴隨著潛在的風險。LLM在考古信息挖掘中的應用,仍面臨一系列復雜而深刻的內(nèi)在挑戰(zhàn)。從數(shù)據(jù)質(zhì)量、模型能力、倫理風險到基礎設施,這些問題不僅考驗技術的邊界,更對整個學科的運行邏輯和知識生產(chǎn)方式提出了新的要求。
最根本的障礙之一,仍然是數(shù)據(jù)本身。大量的考古報告仍以掃描圖像或PDF的形式保存,其通過光學字符識別(OCR)得到的文本往往錯誤頻出,如數(shù)字與字母的混淆、段落結構喪失、術語拼寫不一致等[10]。這些看似細微的錯誤,對LLM的文本生成與信息提取能力構成致命干擾,甚至可能在下游任務中演化為系統(tǒng)性誤讀。更棘手的是,考古學的術語體系本就高度異質(zhì):同一種器物或遺跡結構,可能在不同語境下有截然不同的稱謂,而LLM對這種術語變體的理解并不穩(wěn)定。加之許多重要文獻仍被鎖定在版權保護之下,限制了大規(guī)模語料庫的構建與開放訓練,這些因素共同形成了信息挖掘的瓶頸
另一方面,模型本身的行為也并不總是可控的。LLM的“幻覺”(hallucination)問題,即生成聽起來合理卻完全虛假的內(nèi)容,在考古學這類對事實精準性要求極高的領域尤其危險[12]。一個虛構的考古發(fā)現(xiàn)、一處捏造的時間地點配對,足以導致研究路徑的誤導。這種現(xiàn)象與考古學家面對模糊、殘缺文獻所做的精細分析背道而馳。因此,無論是用于文本摘要、語義檢索,還是用于更具探索性的假設生成,AI的每一次輸出都必須在領域?qū)<业谋O(jiān)督下被審慎評估。這—“人在回路(human-in-the-loop)”的機制,不是可選項,而應被視為學術責任的基本要求。
此外,模型還可能在不知不覺中延續(xù)已有的社會偏見和學術框架。訓練數(shù)據(jù)中的殖民主義遺產(chǎn)、性別刻板印象、對主流文化的過度關注,都會被模型吸收并再生產(chǎn)[3]。例如,在解釋跨文化交流或技術傳播時,模型可能自動偏向于“單向輸入-被動接受”的敘事邏輯,而忽視復雜的互動性和在地視角。這類偏見的再生產(chǎn)不僅誤導理解,更可能在無意中強化已有的不平等話語結構。
出路何在?當前最值得倡導的應用模式,是人機共生的研究結構。在這種模式下,AI是認知延伸,不是獨立決策者。它處理我們無法直接應對的大規(guī)模異質(zhì)數(shù)據(jù),而人類學者則承擔起批判性思維與價值判斷的責任。這種協(xié)同合作,既保留了學術研究的嚴謹與創(chuàng)造力,又充分發(fā)揮了AI在處理信息爆炸中的技術優(yōu)勢。
同時,考古學界亟須從根本上重塑其數(shù)據(jù)文化。擁抱FAIR原則(可發(fā)現(xiàn)、可訪問、可互操作、可重用)不僅是技術性的選擇,更是制度與文化的轉(zhuǎn)型。這意味著,出版機構應當鼓勵開放獲取,數(shù)據(jù)發(fā)布應獲得正式學術承認,研究者之間應建立共享而非封閉的合作機制。只有基礎數(shù)據(jù)質(zhì)量足夠高、結構規(guī)范統(tǒng)一,AI才可能真正成為高質(zhì)量知識生成的伙伴。
未來的研究方向已初現(xiàn)端倪。領域?qū)S肔LM、多模態(tài)AI系統(tǒng)、AI輔助的學術評審機制,這些都將逐步推動考古學邁向更復雜、更具協(xié)同性的知識生產(chǎn)體系。但這一進程能否實現(xiàn)其潛力,不僅取決于模型參數(shù)或計算能力,更取決于我們?nèi)绾螛嫿ㄖ贫刃员U稀惱砜蚣芘c開放文化。
換言之,大語言模型是一項潛能巨大的技術,但它是否能改變考古學,并不取決于模型本身的“聰明”,而取決于考古學者如何理解和使用。這既是一個技術命題,更是一場關于學科未來方向的集體抉擇。在人機共建的時代,我們所面對的不僅是數(shù)據(jù)的挑戰(zhàn),更是對知識如何生成、如何共享、如何解釋的根本性反思。這正是AI介入考古學所真正帶來的革命。
[1] Huggett J. Capturing the silences in digital archaeological knowledge. Information,2020,11(5): 278.
[2] Ciccone G. ChatGPT as a digital assistant for archaeology: Insights from the smart anomaly detection assistant development. Heritage, 2024,7(10): 5428-5445.
[3]Gatiglia G.Managing artificial intelligence in archeology:An overview.Journal of Cultural Heritage,2025,71: 225-233.
[4]BrandsenA,Verberne S,Lambers K,et al. Can bert dig it? Named entity recognition for information retrieval in the archaeology domain. Journal on Computing and Cultural Heritage,2022,15(3):1-18.
[5]Richards JD. Text mining in archaeology: Extracting information fromarchaeological reports//Barcelo JA,Bogdanovic I.Mathematics and archaeology. Boca Raton: CRC Press, 2015: 254-268.
[6]VlachidisA, TudhopeD,WansleebenM.Knowledge-based named entityrecognitionof archaeological conceptsin Dutch//Garoufallou E, Ovalle-Perandones MA.Metadata and semantic research. Cham: Springer International Publishing,2021:53-64.
[7]WrightHE,EvansT,GreenKL.NLPandarchaeology:Aview from a digital archive //Gonzalez-Perez C,Martin-Rodilla P, Pereira-Farina M. Discourse and argumentation in archaeology. Cham :Springer Nature,2023: 215-228.
[8]BrandsenA,Verberne S,Wansleeben M, etal.Creatingadataset for named entity recognition in the archaeology domain//Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2020:4573-4577.
[9]Assael Y, Sommerschield T, Shillingford B, et al.Restoring and attributing ancient texts using deep neural networks. Nature, 2022, 603(7900):280-283.
[10]Gutherz G,Gordin S,SaenzL,etal.TranslatingAkkadian to English with neural machine translation. PNAS Nexus,2023,2(5). https://dx.doi.org/10.1093/pnasnexus/pgad096.
[11] Toth G M,Albrecht R, Pruski C. Explainable AI, LLM, and digitized archival cultural heritage:A case study of the grand ducal archive of the medici.AI amp; Society, 2025.https://doi.org/10.1007/ s00146-025-02238-5.
[12] Reusens M, Adams A, Baesens B. Large language models to make museum archive collections more accessible.AI amp; SOCIETY, 2025. https://doi.0rg/10.1007/s00146-025-02227-8.
關鍵詞:考古信息挖掘AI考古自然語言處理(NLP)大語言模型(LLM)文本結構化