羅 婷
信息技術(shù)的發(fā)展為人文科學(xué)研究帶來新機(jī)遇、新挑戰(zhàn)。由信息技術(shù)創(chuàng)新帶來的學(xué)習(xí)成本的降低,以及越來越多的人文研究輔助工具被推出,一方面,不斷吸引新研究者將信息技術(shù)融合進(jìn)人文科學(xué)的研究中,另一方面,也不斷促進(jìn)著人文學(xué)科與信息技術(shù)領(lǐng)域乃至學(xué)科的不斷交叉與融合①黃水清,劉瀏,王東波.計(jì)算人文的發(fā)展及展望[J].科技情報(bào)研究,2021(4):1-12。。因此,人文科學(xué)研究的視野得以拓展,人文科學(xué)的轉(zhuǎn)型得以發(fā)展,信息技術(shù)起著至關(guān)重要的作用。本文以人文語料的數(shù)字化研究為例,從人文語料的數(shù)字化處理、數(shù)字化分析及挖掘兩個(gè)層面整理了信息技術(shù)與人文科學(xué)研究結(jié)合的整體共性理論方法與實(shí)現(xiàn)途徑,以梳理數(shù)字化人文研究中技術(shù)層面的發(fā)展現(xiàn)狀與研究態(tài)勢(shì),并為缺少技術(shù)背景的人文科學(xué)研究人員提供理論與技術(shù)建議。
數(shù)字人文(Digital Humanities,DH)的概念是信息化的產(chǎn)物②SCHREIBMAN S,SIEMENSR,UNSWORTH J.A Companion to Digital Humanities[M].New Jersey:Blackwell Press,2004:1-3.,是為了區(qū)分信息技術(shù)應(yīng)用于人文學(xué)科的研究與人文語料的信息化存儲(chǔ)③葉穎.頻度演化視角下國(guó)內(nèi)外數(shù)字人文研究可視化分析[J].圖書館研究與工作,2021(2):55-59。,換句話說,就是以數(shù)字化的方式和手段來研究人文問題。數(shù)字人文研究的發(fā)展正隨著信息技術(shù)的更新而不斷變化,從人文計(jì)算④KIRSCHENBAUM M G.What is digital humanities and what’s it doing in English departments?[J].ADE bulletin,2010(120):55-61.以計(jì)算機(jī)技術(shù)對(duì)人文語料進(jìn)行數(shù)字化處理,到人文學(xué)科研究對(duì)象的數(shù)字化存儲(chǔ)、整合、索引、分析以及語料庫(kù)的構(gòu)建,再到信息技術(shù)驅(qū)動(dòng)下的人文學(xué)術(shù)研究的實(shí)踐轉(zhuǎn)向、新合作模式。信息技術(shù)作為人文學(xué)科的研究工具已然成為數(shù)字人文的中心被應(yīng)用到現(xiàn)代與古典語言、語言學(xué)、文學(xué)、歷史學(xué)等人文領(lǐng)域的分析、研究和教學(xué)之中。數(shù)字人文中信息技術(shù)的運(yùn)用,使得人文學(xué)科的研究正由定性分析轉(zhuǎn)向定量分析。相較于傳統(tǒng)的采用自然語言論證的定性分析,定量分析強(qiáng)調(diào)基于客觀真實(shí)的數(shù)據(jù)所作出的事實(shí)判斷,依靠數(shù)學(xué)模型、計(jì)算機(jī)模型描述、分析人文學(xué)科研究對(duì)象之間的關(guān)系⑤陳偉.定量分析:大數(shù)據(jù)背景下語言哲學(xué)研究方法論[J].浙江社會(huì)科學(xué),2021(6):110-116+160。。因此,定量分析法所取得的研究結(jié)果所受爭(zhēng)議更小,也更具可靠性。
如圖1所示,數(shù)字化的人文研究范式從傳統(tǒng)人文研究演化而來,將人文學(xué)科的方法論與信息技術(shù)工具相結(jié)合。以基于語料的數(shù)字化人文研究為例,對(duì)于特定問題的研究一般依靠相關(guān)語料材料,通過一定技術(shù)方法、過程從而得出結(jié)論,可以概括為問題定義、語料收集及處理、技術(shù)實(shí)現(xiàn)、問題求解和結(jié)果評(píng)價(jià)及呈現(xiàn)五個(gè)階段⑥黃水清.人文計(jì)算與數(shù)字人文:概念、問題、范式及關(guān)鍵環(huán)節(jié)[J].圖書館建設(shè),2019(5):68-78。。在這五個(gè)階段中,信息技術(shù)被廣泛應(yīng)用于語料的收集及處理、分析及挖掘并對(duì)問題求解、結(jié)果最終展示的過程中,人文與信息技術(shù)結(jié)合的數(shù)字化研究過程實(shí)際上就是將人文研究所需的素材由數(shù)字化存儲(chǔ)之后,以數(shù)據(jù)來驅(qū)動(dòng)研究,最終以數(shù)字化的形式展現(xiàn)研究結(jié)論。
圖1 數(shù)字人文研究的流程與技術(shù)
從數(shù)字化處理的角度來說,以光學(xué)字符識(shí)別、網(wǎng)絡(luò)爬蟲為主的語料收集技術(shù)整合與人文研究主題相關(guān)的素材,并存儲(chǔ)為可由計(jì)算機(jī)處理的數(shù)字文本等,從而提高人文語料收集、存儲(chǔ)的效率。以文本分詞、自然語言處理為主的語料轉(zhuǎn)換技術(shù)通過將人文科學(xué)研究中非結(jié)構(gòu)化的數(shù)字文本語料數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的特征向量、模型,實(shí)現(xiàn)以定量分析的視角來觀察、處理和解決人文科學(xué)研究中的問題。數(shù)字化處理所涉及的技術(shù)可以獨(dú)立出來,通用于不同人文領(lǐng)域的研究,這是數(shù)字化人文研究的數(shù)據(jù)資源建設(shè)階段,也可看成是數(shù)字化人文研究中的基礎(chǔ)設(shè)施建設(shè)階段。
從數(shù)字化分析及挖掘的角度來說,以自然語言處理、數(shù)據(jù)可視化、語料庫(kù)為主的語料分析技術(shù)與人文研究緊密結(jié)合,穿插進(jìn)研究的不同階段之中。人文語料的數(shù)字化分析與挖掘研究,圍繞不同人文領(lǐng)域則各有側(cè)重。如文學(xué)或語言學(xué)偏重于利用文本處理技術(shù),常使用自然語言處理中的主題識(shí)別、情感分析等模型對(duì)文本進(jìn)行分析,或結(jié)合語料庫(kù)工具開展研究;歷史學(xué)則關(guān)注實(shí)體對(duì)象的時(shí)空及相互關(guān)系的呈現(xiàn),往往基于社會(huì)網(wǎng)絡(luò)、空間地理可視化等技術(shù)構(gòu)建新型人文可視化數(shù)據(jù)庫(kù)①劉圣嬰,王麗華,劉煒,等.數(shù)字人文的研究范式與平臺(tái)建設(shè)[J].圖書情報(bào)知識(shí),2022(1):6-29。。
語料的數(shù)字化處理分為兩個(gè)階段:首先,將非數(shù)字化的文本以數(shù)字化形式存儲(chǔ),如紙質(zhì)檔案數(shù)字化錄入;其次,非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為能夠直接被計(jì)算機(jī)統(tǒng)計(jì)、運(yùn)算的結(jié)構(gòu)化數(shù)學(xué)模型。
1.檔案文字識(shí)別
將圖書館、博物館、檔案館等的紙質(zhì)版圖書、報(bào)紙、雜志、歷史文獻(xiàn)檔案資料等進(jìn)行數(shù)字化存儲(chǔ),與人工錄入相比,采用光學(xué)字符識(shí)別(OCR,Optical Character Recognition)技術(shù)錄入可以提高文字錄入效率。OCR技術(shù)對(duì)圖像中的文字進(jìn)行檢測(cè)并識(shí)別出文字內(nèi)容,是人工智能和計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一②李陽娟.漢字識(shí)別技術(shù)的研究進(jìn)展分析[J].科技和產(chǎn)業(yè),2022(4):180-187。。目前,基于深度學(xué)習(xí)的OCR技術(shù)已成為文字識(shí)別領(lǐng)域的主流,如圖2所示,識(shí)別流程包含圖像預(yù)處理、文字檢測(cè)、識(shí)別和后處理三個(gè)步驟,其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于提取圖像特征,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)將CNN輸出的特征序列轉(zhuǎn)換為輸出,序列識(shí)別(CTC)整合最終識(shí)別結(jié)果。
圖2 基于深度學(xué)習(xí)的OCR技術(shù)流程
OCR技術(shù)的實(shí)現(xiàn)有OCR接口和OCR軟件。OCR接口需在代碼中調(diào)用運(yùn)行,OCRSpace(https://ocr.space/)、百度的通用文字識(shí)別API(https://ai.baidu.com/tech/ocr/general/)和PaddleOCR(https://github.com/PaddlePaddle/PaddleOCR/)都是常用的OCR接口,對(duì)于以圖片或PDF格式保存的語料,提供了區(qū)域檢測(cè)、豎排識(shí)別、公式及表格識(shí)別等專業(yè)功能,且支持包括英、中、法、德在內(nèi)的多種語言的文字識(shí)別。OCR軟件面向沒有編程基礎(chǔ)的研究人員,國(guó)產(chǎn)的OCR軟件如PandaOCR(https://github.com/miaomiaosoft/PandaOCR/)和天若OCR(https://ocr.tianruo.net/),在底層也是借用上述的OCR接口,將接口的調(diào)用封裝進(jìn)圖形界面中,同時(shí)提供可插拔的接口選取方式,對(duì)沒有技術(shù)背景的使用者更為友好,也更適用于不同業(yè)務(wù)場(chǎng)景。
2.網(wǎng)絡(luò)語料獲取
網(wǎng)絡(luò)爬蟲是一種網(wǎng)頁(yè)數(shù)據(jù)的自動(dòng)化獲取技術(shù),近年來,有越來越多的人文研究基于網(wǎng)絡(luò)語料展開③賀文照,李德鳳,何元建.“中國(guó)夢(mèng)”英譯的歷時(shí)演變與共時(shí)差異——基于網(wǎng)絡(luò)語料的考察[J].外國(guó)語文,2017(1):110-118。④焦新平,敖鋒.基于語料庫(kù)的軍事微博話語研究——以@軍報(bào)記者為例[J].外語研究,2018(1):8-12+74。⑤沈淑花.順應(yīng)理論視域下社會(huì)化媒體的語言選擇——基于微博的語料分析[J].出版廣角,2018(3):71-73。,網(wǎng)絡(luò)爬蟲已然成為人文研究中不可或缺的網(wǎng)絡(luò)語料收集方式。網(wǎng)絡(luò)爬蟲本質(zhì)上是一個(gè)自動(dòng)化的腳本程序,從給定的網(wǎng)絡(luò)地址上下載整個(gè)網(wǎng)頁(yè)的源代碼文件,再依據(jù)某種策略從該網(wǎng)頁(yè)文件中提取指定的數(shù)據(jù)。網(wǎng)絡(luò)語料爬蟲可使用Python語言編程實(shí)現(xiàn),通過Python中的requests(https://requests.readthedocs.io/)、selenium庫(kù)(http://www.selenium.org.cn/)請(qǐng)求并下載網(wǎng)頁(yè)文件,緊接著使用pyquery(https://pythonhosted.org/pyquery/)、beautifulsoup庫(kù)(https://www.crummy.com/software/BeautifulSoup/)解析源碼文件并提取指定的語料,最后將語料保存至文檔或數(shù)據(jù)庫(kù)中。隨著網(wǎng)絡(luò)爬蟲技術(shù)在非計(jì)算機(jī)領(lǐng)域的使用需求增高,八爪魚(https://www.bazhuayu.com/)、Spiderflow(https://www.spiderflow.org/)、后羿采集器(https://www.houyicaiji.com/)等爬蟲集成工具逐漸被推出,它們支持以圖形化方式定義爬蟲流程,無需代碼即可使用爬蟲。
使用數(shù)學(xué)模型、計(jì)算機(jī)模型的語料分析與挖掘,數(shù)字化轉(zhuǎn)換是必不可少的語料預(yù)處理步驟。根據(jù)研究目的的不同,在對(duì)語料進(jìn)行分詞和清洗的基礎(chǔ)上,還可以語料轉(zhuǎn)化為特征向量供進(jìn)一步分析處理。
1.文本分詞
在英文中,計(jì)算機(jī)能夠利用詞語之間的空格來辨別每一個(gè)單詞,但是在中文,或者如泰語等某些小語種中,詞與詞之間沒有任何標(biāo)識(shí)來進(jìn)行劃分,因此在處理這類語言的語料之前,需要利用分詞工具對(duì)語料進(jìn)行詞劃分。
文本分詞需借助編程實(shí)現(xiàn),表2比較了的三類應(yīng)用較為廣泛、針對(duì)不同語種的分詞工具。文本分詞中,將沒有被收錄在分詞詞典中但必須切分出來的詞稱為未登錄詞。Jieba①Github.“Jieba”(Chinese for“to stutter”)Chinese text segmentation[EB/OL].(2020-02-15)[2022-09-01].https://github.com/fxsjy/jieba/.采用基于漢字成詞能力的隱馬爾可夫模型(Hidden Markov Model,HMM)②Hao-Zheng Li,Zhi-Qiang Liu,Xiang-Hua Zhu.Hidden Markov models with factored Gaussian mixtures densities[J].Pattern Recognition,2005(11).處理未登錄詞,且支持自定義分詞詞典。pkuseg(https://github.com/lancopku/pkuseg-python/)提供了面向新聞、網(wǎng)絡(luò)、醫(yī)藥、旅游領(lǐng)域的分詞模型,并且支持用戶自主訓(xùn)練領(lǐng)域分詞模型。CoreNLP(https://github.com/stanfordnlp/CoreNLP/)支持多語言名詞,適合用作平行語料對(duì)比。
表2中,詞性標(biāo)注即為分詞結(jié)果中的每個(gè)單詞標(biāo)注名詞、動(dòng)詞或形容詞。去停用詞指的是從語料中去除人類語言中包含的沒有什么實(shí)際含義的功能詞,如 英 文 的'the'、'is'、'at'、'which'、'on',中 文 的“且”“與”“乃”等,以節(jié)省存儲(chǔ)空間和提高語料處理效率。
表2 基于Python的分詞工具比較
盡管分詞算法已日趨成熟,但當(dāng)分詞被實(shí)際應(yīng)用于人文研究時(shí),一些特定領(lǐng)域的未收錄詞往往不會(huì)被切分出來。在國(guó)內(nèi),學(xué)者們通過構(gòu)建領(lǐng)域詞庫(kù)或訓(xùn)練模型的方式來解決這類問題,如胡昊天等③胡昊天,鄧三鴻,張逸勤,等.數(shù)字人文視角下的非物質(zhì)文化遺產(chǎn)文本自動(dòng)分詞及應(yīng)用研究[J].圖書館雜志,2022(8):76-83。構(gòu)建非遺文本領(lǐng)域詞表和全文分詞語料庫(kù),對(duì)非遺文本詞匯分布情況進(jìn)行了分析挖掘;張琪等④張琪,江川,紀(jì)有書,等.面向多領(lǐng)域先秦典籍的分詞詞性一體化自動(dòng)標(biāo)注模型構(gòu)建[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021(3):2-11。基于深度學(xué)習(xí)方法的古籍分詞詞性一體化標(biāo)注技術(shù),構(gòu)建覆蓋多領(lǐng)域古籍的自動(dòng)標(biāo)注模型。
在分詞的同時(shí)還需對(duì)語料進(jìn)行清洗,語料清洗解決的是語料中存在中文簡(jiǎn)體繁體混用、標(biāo)點(diǎn)符號(hào)全半角混用或重復(fù)使用、包含特殊表情符號(hào)等問題。使用Microsoft Word、文本整理器等文本編輯工具提供的替換功能,或Notepad++、EmEditor等提供的正則表達(dá)式來匹配替換方式,就可以快速地完成語料清洗。若還要將語料進(jìn)行進(jìn)一步標(biāo)準(zhǔn)化處理,則需對(duì)語料進(jìn)行去停用詞、去除標(biāo)點(diǎn)等深度清洗。
3.語料的標(biāo)準(zhǔn)化特征提取
在人文研究結(jié)合信息技術(shù)的文本語料分析中,往往離不開自然語言處理(Natural Language Processing,NLP)技術(shù)的運(yùn)用。NLP技術(shù)通過模型接收自然語言即語料,并轉(zhuǎn)譯和分析語料。經(jīng)過標(biāo)準(zhǔn)化特征提取后的語料,才能符合模型的接收要求,詞袋模型、TF-IDF和word2vec模型被用于對(duì)語料作特征提取及標(biāo)準(zhǔn)化處理。
詞袋模型(Bag-of-words)統(tǒng)計(jì)語料中單詞出現(xiàn)的次數(shù),設(shè)存在語料集合D,包含M個(gè)文檔,單詞總數(shù)為N,為每個(gè)單詞設(shè)唯一索引,可構(gòu)成一個(gè)包含N個(gè)單詞的詞典。每個(gè)文檔使用一個(gè)長(zhǎng)度為N的向量表示,若某個(gè)單詞出現(xiàn)在該文檔中,向量中對(duì)應(yīng)的位置用1表示該單詞出現(xiàn),否則為0,M個(gè)文檔就可構(gòu)建M個(gè)長(zhǎng)度為N的向量。在詞袋模型中,只要是詞典中出現(xiàn)的詞,無論出現(xiàn)多少次,在向量中都只算成1次,提取出的信息有限,因此還會(huì)使用TF-IDF(term frequency-inverse document frequency)提取出單詞的詞頻。詞頻(term frequency,TF)指的是某個(gè)單詞在該文檔中出現(xiàn)頻率的歸一化處理,公式如下:
逆文本頻率(inverse document frequency,IDF)反映了一個(gè)詞在所有文本中出現(xiàn)的頻率,如果一個(gè)詞在很多的文本中出現(xiàn),那么它的IDF值應(yīng)該低,公式如下:
TF-IDF傾向于過濾掉常見的單詞,保留重要的單詞,TF-IDF值越大說明這個(gè)詞越重要,也可以說這個(gè)詞是關(guān)鍵詞。Python中scikit-learn庫(kù)(https://scikit-learn.org/)的CountVectorizer類和TfidfTransformer類可實(shí)現(xiàn)對(duì)已分詞的語料進(jìn)行詞袋化和TFIDF計(jì)算,生成語料的詞特征向量,并由此對(duì)語料作進(jìn)一步的分類或聚類分析。
上述兩種特征提取只關(guān)心文本中單詞出現(xiàn)的情況,提取出的詞特征向量中每個(gè)元素順序與原來文本中單詞出現(xiàn)的順序沒有關(guān)系。但在遣詞造句時(shí),句子中相近詞之間是有聯(lián)系的,因此Google團(tuán)隊(duì)提出word2vec算法,其設(shè)計(jì)思想是用詞來預(yù)測(cè)詞①M(fèi)ikolov T,Sutskever I,Chen K,Corrado G,Dean J.Dis-tributed Representations of Words and Phrases and their Compositionality[J].Advances in Neural Information Pro-cessing Systems,2013(26):3111-3119.。word2vec的工作目標(biāo)如圖3所示,w(t)為目標(biāo)詞,其上下文詞匯為w(t-r)、…、w(t-1)、w(t+1)、…、w(t+r)。在word2vec模型中,使用子模型Skip-gram預(yù)測(cè)w(t)周圍上下文,而如果是利用w(t)的上下文來預(yù)測(cè)w(t)本身,則使用CBOW模型②熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2015(1):43-48。。word2vec相較IF-IDF,實(shí)現(xiàn)方式更為復(fù)雜,暫無封裝好的軟件庫(kù),需手動(dòng)編程實(shí)現(xiàn),但經(jīng)過實(shí)驗(yàn),word2vec在文本分類中取得了較好的分類效果③Francis N.Problemsofassembling and computerizing large corpora[C].Computer Corporain English Language Research.Bergen:Norwegian Computing Centreforthe Humanities,1982:7-24。,許多數(shù)字化人文研究中都有word2vec模型的運(yùn)用。
圖3 Skip-gram模型和CBOW模型
近年來,國(guó)內(nèi)外學(xué)者已將大量的數(shù)字化、社會(huì)網(wǎng)絡(luò)相關(guān)概念和計(jì)算方法融合進(jìn)人文學(xué)科的相關(guān)研究中,如計(jì)量分析、機(jī)器學(xué)習(xí)、空間地理可視化等。
1.語料信息自動(dòng)抽取
語料信息自動(dòng)抽取指從大量的語料中快速提取特征信息和主題,基于NLP技術(shù)的語料信息抽取可加快人工檢查文本內(nèi)容的效率。上節(jié)介紹的特征詞組提取模型word2vec和TF-IDF,可以實(shí)現(xiàn)詞粒度的語料特征提取。TextRank④Mihalcea R,Tarau P.TextRank:Bringing order into texts[C].Association for Computational Linguistics,2004.是實(shí)現(xiàn)句粒度的語料自動(dòng)摘要算法,它將語料拆分成句子,利用句子中單詞的共現(xiàn)關(guān)系構(gòu)建語料網(wǎng)絡(luò)圖,單詞即網(wǎng)絡(luò)圖的節(jié)點(diǎn),由一定算法對(duì)節(jié)點(diǎn)作權(quán)值排序,將權(quán)值高的節(jié)點(diǎn)與相鄰詞組組合成關(guān)鍵句子。Python中的textrank4zh庫(kù)(https://github.com/letiantian/TextRank4ZH/)封裝了TextRank算法,提供文檔關(guān)鍵詞提取、關(guān)鍵短語提取以及摘要生成的功能。主題抽取常用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,它是D.M.Blei于2003年提出的文檔主題生成模型,通過無監(jiān)督的方式抽取語料庫(kù)中隱含的主題信息⑤Latent Dirichlet Allocation[J].DAVID M.B,ANDREWY.N,MICHAEL I.J.Journal of machine learning re-search,2003(4/5):993-1022.。
研究人員從語料中自動(dòng)化地濃縮文檔關(guān)鍵信息,基于文檔關(guān)鍵詞、主題開展人文分析已是近年來的研究趨勢(shì)。如譚富強(qiáng)等⑥譚富強(qiáng),凌珊.優(yōu)秀傳統(tǒng)文化教育對(duì)學(xué)生知識(shí)生產(chǎn)影響實(shí)證研究——基于自然語言處理的分析[J].江西理工大學(xué)學(xué)報(bào),2020(4):104-112。使用TextRank與word2Vec從課程教學(xué)感受中抽取關(guān)鍵詞、關(guān)鍵短語,分析中國(guó)優(yōu)秀傳統(tǒng)文化教育對(duì)學(xué)生知識(shí)生產(chǎn)的影響;張辰麟(2022)①?gòu)埑谨?基于自然語言處理技術(shù)的專門用途漢語教材快速編寫模式研究[J].大理大學(xué)學(xué)報(bào),2022(7):96-103。任常青.數(shù)字人文視角下縣志作物類物產(chǎn)實(shí)體識(shí)別研究——以雄安縣志為例[J].信息與電腦(理論版),2022(1):74-76?;谛畔⒆詣?dòng)抽取技術(shù),提出“話語—詞匯”的專門用途漢語教材快速編寫模式;研究者還將信息自動(dòng)抽取技術(shù)運(yùn)用于歷史古籍語料的研究中,利用所抽取的關(guān)鍵信息對(duì)古籍的紀(jì)事主題作挖掘與分析②秦賀然,王東波.數(shù)字人文下的先秦古漢語關(guān)鍵詞抽取應(yīng)用——以《春秋經(jīng)傳》為例[J].圖書館雜志,2020(11):97-105。③朱琳,馮慧敏,劉銘,等.數(shù)字人文視域下秦漢簡(jiǎn)牘文本挖掘研究——以里耶秦簡(jiǎn)牘(一、二卷)為例[J].渭南師范學(xué)院學(xué)報(bào),2022(6):86-93。。
2.情感分析
NLP技術(shù)還被用于分析語料的情感信息,將語料的情感態(tài)度劃分為積極、消極以及中性三種。情感分析中的預(yù)訓(xùn)練模型是指用數(shù)據(jù)集已經(jīng)訓(xùn)練好的模型,通過對(duì)預(yù)訓(xùn)練模型的微調(diào),可以實(shí)現(xiàn)較好的情感分類結(jié)果④王婷,楊文忠.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021(12):11-24。,其中經(jīng)典的BERT模型⑤Devlin J,Chang M W,Lee K,et al.Bert:Pre training of deep bidirectional transformers for language understanding[DB/OL].(2018-10-11)[2022-04-29].https://arxiv.org/abs/1810.04805.在人文研究中被頻繁的使用。黃紫荊等(2022)⑥黃紫荊,邱玉倩,沈彤,等.數(shù)字人文視角下的《拉貝日記》情感識(shí)別與分析[J].圖書館論壇,2022(5):1-10?;贐ERT分析《貝拉日記》的情感分布特征、變化趨勢(shì)和對(duì)不同人物的情感傾向;姜育彥等(2020)⑦姜育彥,李雅茹.基于數(shù)字人文視角的“情感——時(shí)空”模型探析[J].農(nóng)業(yè)圖書情報(bào)學(xué)報(bào),2020(6):23-33。將唐朝詩(shī)詞名家的情感變遷與時(shí)空鏈接,構(gòu)建“情感—時(shí)空”模型;張衛(wèi)等⑧張衛(wèi),王昊,鄧三鴻,等.面向數(shù)字人文的古詩(shī)文本情感術(shù)語抽取與應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2021(4):113-131。通過對(duì)古詩(shī)文本作情感分析及情感術(shù)語抽取,擴(kuò)展寄托情感的新意象。
在python中BERT的運(yùn)行需基于tensorflow環(huán)境(https://pypi.org/project/tensorflow/),BERT官網(wǎng)(https://github.com/google-research/bert/)中有專門支持中文的BERT預(yù)訓(xùn)練模型。BERT的使用包含兩個(gè)階段:預(yù)訓(xùn)練和Fine-tuning,預(yù)訓(xùn)練階段與Word2Vec類似,F(xiàn)ine-tuning指后續(xù)遷移到其他任務(wù)中需要進(jìn)行的微調(diào)。情感分析也可借助集成工具來完成,如基于預(yù)訓(xùn)練模型SKEP(https://arxiv.org/abs/2005.05635)的情感分析工具Senta(https://gitee.com/baidu/Senta/)、統(tǒng)計(jì)中文實(shí)體描述的實(shí)體情感知識(shí)庫(kù)SentiBridge(https://github.com/rainarch/Senti-Bridge/)。
情感分析屬于NLP中的分類任務(wù),以召回率(REC)、準(zhǔn)確率(PRE)和F1指數(shù)來作為評(píng)價(jià)指標(biāo)。REC值描述系統(tǒng)正確抽取的結(jié)果占所有可能正確結(jié)果的比例;PRE值描述系統(tǒng)正確抽取的結(jié)果占所有抽取結(jié)果的比例。為了綜合評(píng)價(jià)系統(tǒng)的性能,通常還計(jì)算召回率和準(zhǔn)確率的加權(quán)幾何平均值,即F1值,計(jì)算公式如下⑨孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(6):42-47。:
新型人文可視化數(shù)據(jù)庫(kù)可將與某一事件、典籍等相關(guān)的語料數(shù)據(jù)與檢索字符一一對(duì)應(yīng),對(duì)人文數(shù)據(jù)進(jìn)行模塊化、結(jié)構(gòu)化的劃分及存儲(chǔ)。人文可視化數(shù)據(jù)庫(kù)的構(gòu)建分為兩個(gè)方面,第一是對(duì)語料的處理,包括人工結(jié)合著分詞、NLP技術(shù)對(duì)語料中句子、詞語切分等基礎(chǔ)性加工,以及實(shí)體標(biāo)注等進(jìn)一步處理;第二是數(shù)據(jù)庫(kù)平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn),包括系統(tǒng)架構(gòu)、檢索框架的設(shè)計(jì),數(shù)據(jù)庫(kù)請(qǐng)求和響應(yīng)的實(shí)現(xiàn),人文數(shù)據(jù)可視化等。
1.實(shí)體識(shí)別與標(biāo)注
實(shí)體識(shí)別的目的是自動(dòng)化抽取語料中明確的實(shí)體對(duì)象,實(shí)體類型包括人名、地名、機(jī)構(gòu)名以及其他可定義的實(shí)體類型,這是人文數(shù)據(jù)庫(kù)構(gòu)建的重要環(huán)節(jié)。在實(shí)體定義的過程中,可以為實(shí)體指定唯一的編號(hào),并由此補(bǔ)充別名、GIS地點(diǎn)等信息。鄭童哲恒等(2022)⑩鄭童哲恒,李斌,馮敏萱,等.歷史典籍的結(jié)構(gòu)化探索——《史記·列傳》數(shù)字人文知識(shí)庫(kù)的構(gòu)建與可視化研究[J/OL].大數(shù)據(jù)2022:1-20。將《史記·列傳》構(gòu)建成數(shù)字人文知識(shí)可視化庫(kù)中就將人名、地名定義為實(shí)體,設(shè)置唯一的ID標(biāo)識(shí)實(shí)體,每個(gè)實(shí)體生成對(duì)應(yīng)的人名表或地名表。也可借助NLP技術(shù),從大規(guī)模文本中識(shí)別自動(dòng)并標(biāo)注實(shí)體。NLP中的實(shí)體識(shí)別包括兩個(gè)任務(wù):實(shí)體的邊界識(shí)別和確定實(shí)體的類型,邊界識(shí)別可采用BMEO標(biāo)注法或BIO標(biāo)注法,自動(dòng)識(shí)別模型有CRF和Bi-LSTM-CRF等。任常青(2022)?在基于Bi-LSTMCRF模型對(duì)雄安地方志中作物物產(chǎn)名稱和信息的實(shí)體標(biāo)注中,PRE、REC、F1值均能達(dá)到85%左右。被定義好的實(shí)體還可以拿來作統(tǒng)計(jì)分析、關(guān)系網(wǎng)絡(luò)分析或空間分析,將分析結(jié)果由可視化展示。關(guān)系網(wǎng)絡(luò)有密度和廣度,密度指聯(lián)系越緊密的實(shí)體同現(xiàn)次數(shù)越多,廣度指實(shí)體擁有的同現(xiàn)對(duì)數(shù)量。
2.數(shù)據(jù)庫(kù)平臺(tái)構(gòu)建及可視化展現(xiàn)
完整的數(shù)據(jù)庫(kù)平臺(tái)包交互層、邏輯處理層和存儲(chǔ)層。交互層面向平臺(tái)用戶,提供以檢索為核心功能的平臺(tái)看板,并輔以可視化技術(shù)展現(xiàn)數(shù)據(jù)庫(kù)信息,展現(xiàn)形式有統(tǒng)計(jì)圖表、VR、AR和GIS;邏輯處理層銜接交互層和存儲(chǔ)層,響應(yīng)并處理用戶由交互層發(fā)來的請(qǐng)求。存儲(chǔ)層利用關(guān)系型數(shù)據(jù)庫(kù),將檢索關(guān)鍵詞與數(shù)據(jù)庫(kù)資源、實(shí)體對(duì)應(yīng),實(shí)現(xiàn)文本字符匹配檢索、實(shí)體檢索、實(shí)體關(guān)聯(lián)原文定位、關(guān)聯(lián)實(shí)體檢索等檢索功能。數(shù)據(jù)庫(kù)平臺(tái)的構(gòu)建需使用網(wǎng)頁(yè)開發(fā)技術(shù)如HTML、JavaScript以及數(shù)據(jù)庫(kù)技術(shù)如MySql、SQL Server來完成。
語料庫(kù)概念由Francis提出,他認(rèn)為語料庫(kù)是一個(gè)用于語言分析的文本集合,對(duì)某一種語言、方言或語言的某一方面具有代表性①黃水清,王東波.國(guó)內(nèi)語料庫(kù)研究綜述[J].信息資源管理學(xué)報(bào),2021(3):4-17+87。。語料庫(kù)技術(shù)與人文研究緊密結(jié)合,種類由單一的語料庫(kù)逐漸發(fā)展到多語種的平行語料庫(kù)、小語種語料庫(kù)和民族語言語料庫(kù)。
語料庫(kù)工具分為語料索引和語料對(duì)齊兩類。語料索引指對(duì)語料中的詞、句或結(jié)構(gòu)進(jìn)行檢索,可以獲得詞頻、詞表、關(guān)鍵詞等統(tǒng)計(jì)信息,以展開對(duì)語料的分析②王菲,王天竹.語料庫(kù)檢索軟件的功能與特點(diǎn)對(duì)比研究——以WordSmith Tools 6.0與AntConc3.2.4為例[J].信息與電腦(理論版),2021(17):10-12。。AntCont(http://www.laurenceanthony.net/software/antconc/)、ParaConc(https://paraconc.com/)等常用的語料索引工具一般都提供詞語檢索、關(guān)鍵詞表生成、統(tǒng)計(jì)詞頻和關(guān)鍵詞等功能。AntCont支持正則表達(dá)式,可以實(shí)現(xiàn)定制化檢索。ParaConc具有語料對(duì)齊、平行文本預(yù)覽功能,更適用于對(duì)比分析、語言學(xué)習(xí)和研究。語料對(duì)齊將雙語或多語文本的平行對(duì)齊,一般以“一對(duì)一”對(duì)齊為主,也存在“一對(duì)二”或“一對(duì)多”平行文本的對(duì)齊。對(duì)齊分有段落對(duì)齊、句句對(duì)齊,對(duì)齊好的語料轉(zhuǎn)為翻譯記憶交換(TMX)格式的語料,在瀏覽器上運(yùn)行的Tmxmall(https://www.tmxmall.com/)、借助計(jì)算機(jī)輔助翻譯(Computer aided translation,CAT)技 術(shù) 的Transmate(https://www.jeemaa.com/home/)都提供了較好的圖形操作方式,能夠便捷的完成語料對(duì)齊。
將人文與語料庫(kù)技術(shù)結(jié)合的研究路線可以在構(gòu)建雙語、多語語料庫(kù)基礎(chǔ)上,開展進(jìn)一步的研究。在國(guó)內(nèi),許多漢語與其他語言的雙語語料集被構(gòu)建③博恩(SISOUMANGBOUANGEUN).老—漢雙語語料庫(kù)系統(tǒng)構(gòu)建研究[D].昆明:昆明理工大學(xué),2018。④巴桑卓瑪.藏漢雙語平行語料庫(kù)構(gòu)建方法及關(guān)鍵技術(shù)研究[D].拉薩:西藏大學(xué),2018。,其中不乏針對(duì)某些特定領(lǐng)域的雙語語料庫(kù)⑤蔡強(qiáng),張建平.學(xué)術(shù)期刊論文摘要漢英雙語語料庫(kù)的建設(shè)與應(yīng)用[J].前沿,2014(Z1):200-201。⑥于淑芳.皖西紅色文化雙語語料庫(kù)的構(gòu)建及應(yīng)用[J].皖西學(xué)院學(xué)報(bào),2022(1):10-14。,這些語料庫(kù)的是指導(dǎo)翻譯教學(xué)、分析翻譯特征以及分析文化的海內(nèi)外影響力的基礎(chǔ)。
建立領(lǐng)域詞表和詞典編纂也是人文結(jié)合語料庫(kù)的研究熱點(diǎn)之一,領(lǐng)域語料庫(kù)可為領(lǐng)域詞典選詞立目提供客觀依據(jù),提高詞典釋義的完備性和準(zhǔn)確度,并且提供真實(shí)而具有代表性的例證⑦王均松,田建國(guó).詞典編纂的語料庫(kù)方法[J].鄭州航空工業(yè)管理學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2013(1):71-73。。有學(xué)者提出了面向語料庫(kù)機(jī)助辭書編纂系統(tǒng)⑧張永偉,顧曰國(guó),胡欽諳,等.面向語料庫(kù)機(jī)助辭書編纂系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].辭書研究,2021(4):32-44+126。,也有許多面向漢語辭書編纂的大型通用語料庫(kù)被構(gòu)建⑨唐萌.面向漢語辭書編纂的大型通用語料庫(kù)構(gòu)建研究[D].煙臺(tái):魯東大學(xué),2015。,應(yīng)用語料庫(kù)是詞典編纂的發(fā)展趨勢(shì)。