閆瀅鈺,汶東震,張冬瑜,林鴻飛
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
古代詩人擅長(zhǎng)用詩歌理解世界和記錄生活,中國(guó)古典詩歌作為中華民族傳統(tǒng)文化的重要載體,被認(rèn)為是中國(guó)古代人類智慧與文化的結(jié)晶。詩歌是詩人物我相接、思維傳達(dá)的產(chǎn)物,很大程度上體現(xiàn)著我國(guó)古代詩人的個(gè)性,并且蘊(yùn)含著詩人的情感。同樣,詩人的性格也極大地影響著詩歌的寫作主題與風(fēng)格。只有對(duì)詩人的性格有科學(xué)的掌握才能更好地輔助對(duì)詩歌的理解。隨著自然語言處理領(lǐng)域的發(fā)展,通過對(duì)大量文本的情感進(jìn)行挖掘,判斷個(gè)體性格的研究已經(jīng)成為該領(lǐng)域的熱點(diǎn)研究問題,并推進(jìn)了計(jì)算機(jī)科學(xué)和心理學(xué)領(lǐng)域的共同發(fā)展。詩歌文化也是我國(guó)素質(zhì)教育的重要部分,通過分析古詩并結(jié)合心理學(xué)理論模型研究詩人的人格特質(zhì),可以對(duì)人們理解中國(guó)古代詩人、研究詩詞提供極大幫助,有助于傳統(tǒng)文化教育的發(fā)展,對(duì)詩詞的傳承起到很好地輔助作用。
近年來,學(xué)者開始圍繞與古代詩歌有關(guān)的課題展開研究。其中,對(duì)古詩的情感鑒賞以及探究詩人的人格特質(zhì)一直是品析詩文化研究的重要內(nèi)容,也是數(shù)字人文近年來研究的熱點(diǎn)方向,但目前相關(guān)的研究還處于起步階段。與其他文學(xué)作品相比,詩歌文體的語言簡(jiǎn)明精煉,而在內(nèi)容上又表現(xiàn)出濃重的抒情色彩,情感緊湊和豐富。當(dāng)前的情感分析研究語料多集中在新聞評(píng)論、商品評(píng)論、社會(huì)傳媒評(píng)論、個(gè)人博文等,對(duì)古詩的研究則相對(duì)較少。前人提出了一些詩歌情感分析的方法,但是對(duì)情感的分析僅限于詩歌層面,目前還沒有面向詩人的分析研究?,F(xiàn)階段人格分析任務(wù)的研究主要對(duì)人們?cè)谏缃卉浖ㄈ缥⒉?、推特等)上發(fā)表的言論及用戶行為進(jìn)行分析,從而反映用戶的人格特質(zhì)。其中人格研究者關(guān)注與支持最多的一種理論模型,即大五人格模型,被廣泛應(yīng)用于分析人格特質(zhì)的任務(wù)中。中國(guó)古代詩歌作品同樣可以看作是古代詩人用來表達(dá)自身想法與情感的“微博”。大五人格被證明在世界主要區(qū)域都具有穩(wěn)健性,對(duì)詩人進(jìn)行大五人格的分析,可以對(duì)中國(guó)古代詩人有更深刻的認(rèn)識(shí)。
然而,在自然語言處理領(lǐng)域,鮮有類似的工作發(fā)表,并且也沒有可用的語料庫。這顯然阻礙了該領(lǐng)域工作的進(jìn)展。在中華文化發(fā)展的歷史長(zhǎng)河中,歷代詩人留下的佳作不計(jì)其數(shù),這使得人們只能通過一個(gè)詩人的部分經(jīng)典詩歌對(duì)詩人進(jìn)行分析,當(dāng)詩人的詩歌數(shù)目比較多時(shí),有必要引入自然語言處理相關(guān)技術(shù)對(duì)詩人人格進(jìn)行分析。同時(shí),詩人創(chuàng)作詩歌時(shí),常?;谀承┑奶貏e的主題和情緒。詩歌的主題對(duì)于詩歌的情感具有決定性的影響。因此,分析詩歌的主題,就是對(duì)詩歌的語義進(jìn)行全面的把握,這對(duì)于詩人的人格分析、詩歌生成都具有一定的意義,同時(shí)也有助于從數(shù)字科學(xué)的角度來分析和了解詩人的詩歌創(chuàng)作意圖,反應(yīng)詩人性格。
本文研究工作主要內(nèi)容如下:
(1)目前計(jì)算機(jī)領(lǐng)域關(guān)于古代文學(xué)的工作集中于分析詩詞而不是詩人,并且沒有學(xué)者開展對(duì)詩人進(jìn)行人格特質(zhì)分析的任務(wù)。為填補(bǔ)此類任務(wù)的空白,本文構(gòu)建了一個(gè)針對(duì)唐宋兩代詩人的大五人格數(shù)據(jù)集,用于支撐對(duì)古代詩人的人格特質(zhì)分析任務(wù)。
(2)由于詩歌寫作主題極大程度地反應(yīng)了詩人性格和情感,本文提出結(jié)合主題模型的詩人大五人格分析方法,并應(yīng)用于詩人畫像構(gòu)建。實(shí)驗(yàn)證明,本文方法可以提高對(duì)詩人人格特質(zhì)預(yù)測(cè)的準(zhǔn)確性與科學(xué)性。
最早對(duì)古詩詞的計(jì)算分析起源于20 世紀(jì)90 年代。在對(duì)古詩詞語料庫的構(gòu)建方面,劉巖斌等[1]建立了我國(guó)第一個(gè)利用電腦進(jìn)行古代詩詞研究的系統(tǒng),提供了詞匯、韻律、文體等相關(guān)功能。在詩歌分析方面,學(xué)者們提出了一些詩歌分類與情感分析的方法,諸雨辰等[2]將文本分類任務(wù)引入唐詩研究,Tang 等[3]結(jié)合CNN和GRU 提取唐代詩歌特征,并對(duì)其進(jìn)行情感分析。
對(duì)古代詩人的研究主要集中在人文學(xué)科領(lǐng)域,學(xué)者們偏向于對(duì)某一具體詩人的性格,或?qū)ζ淠骋蛔髌愤M(jìn)行獨(dú)立的分析,如李貞[4]結(jié)合杜甫的人生經(jīng)歷分析了杜甫的性格,夏妍月[5]從《古風(fēng)五十九首》中分析李白的悲劇蘊(yùn)藉。這體現(xiàn)出了傳統(tǒng)的人文科學(xué)的許多研究方法傾向于從單一方面或單一作品分析思考和寫作得出結(jié)論,缺乏一定的科學(xué)性和完整性。利用現(xiàn)有的計(jì)算機(jī)技術(shù),可以極大影響到傳統(tǒng)的人文學(xué)科,可以更科學(xué)和全面地了解古代詩人。
自20 世紀(jì)90 年代,心理學(xué)界提出了大五人格理論[6]之后,大五人格模型得到了廣泛的關(guān)注,它抓住了大部分現(xiàn)有的人格特質(zhì)的共同性和共通性,在不同年齡、文化和性別中具有普遍性。大五人格包括開放性、外傾性、神經(jīng)質(zhì)性、盡責(zé)性和宜人性五方面的人格特質(zhì),開放性反映了個(gè)體對(duì)知識(shí)的好奇心、創(chuàng)造力;外傾性反映了個(gè)體自信、善于交際的特性;神經(jīng)質(zhì)性反映了個(gè)體對(duì)沖動(dòng)的控制力較差;盡責(zé)性反映了個(gè)體的自律性,傾向于細(xì)心規(guī)劃而不是無計(jì)劃地行動(dòng);宜人性反映了個(gè)體對(duì)同情和合作的傾向性。大五人格為各行各業(yè)的研究者提供了一個(gè)系統(tǒng)的人格描述模型。雖然大五人格最早是由西方學(xué)者根據(jù)詞匯學(xué)方法和聚類統(tǒng)計(jì)方法提出來的人格特質(zhì)模型,但是過去十幾年對(duì)大五人格模型的跨文化研究表明,大五人格模型同樣適用于其他國(guó)家,具有跨語言、跨文化和跨評(píng)定者的穩(wěn)健特質(zhì),在世界主要國(guó)家和地區(qū)具有普適性,這使得大五人格模型被心理學(xué)家普遍接受[7]。早期獲取大五人格信息采用的是傳統(tǒng)的問卷方式,時(shí)效性很低。后來人們開始運(yùn)用機(jī)器學(xué)習(xí)等手段預(yù)測(cè)人的性格,使得越來越多其他行業(yè)的研究人員將大五人格與自己的研究相結(jié)合。比如在分析人格特質(zhì)的任務(wù)上,Lin 等[8]基于大五模型的不同特征和測(cè)量方法,應(yīng)用經(jīng)典的機(jī)器學(xué)習(xí)模型研究了Facebook用戶個(gè)性特征的可預(yù)測(cè)性。目前還沒有研究將古代詩人與大五人格進(jìn)行結(jié)合,借助機(jī)器學(xué)習(xí)并結(jié)合現(xiàn)代心理學(xué)對(duì)古代詩人的人格特質(zhì)進(jìn)行科學(xué)解讀,而這是本文要解決的一個(gè)重點(diǎn)任務(wù)。
本實(shí)驗(yàn)的數(shù)據(jù)庫選取唐朝和宋朝的詩人進(jìn)行構(gòu)建,因?yàn)樘瞥退纬脑姼枧c詩人相關(guān)記載和相關(guān)史料相比其他朝代的更加完整,有利于對(duì)古代詩人大五人格的標(biāo)注工作。本文首先收集了唐代和宋代的詩人與詩歌,原始數(shù)據(jù)來自Github 上名為chinese-poetry 的開源數(shù)據(jù)庫①https://github.com/Chinese-porty/Chines-porty,此項(xiàng)目整理了中華古典詩集與文集,包含 5.5萬首唐詩、26 萬首宋詩、2.1 萬首宋詞和其他古典文集。此數(shù)據(jù)庫通過 JSON 格式存儲(chǔ)詩歌,格式如圖1。
圖1 原始數(shù)據(jù)格式Fig.1 Format of original data
本文使用了針對(duì)古漢語的開源分詞器甲言②https://github.com/jiaeyan/Jiayan對(duì)古詩進(jìn)行預(yù)分詞,其主要包含正向最大匹配分詞和預(yù)訓(xùn)練的隱馬爾可夫模型來分詞兩種方式。
數(shù)據(jù)清洗分兩步,得到詩歌的分詞結(jié)果后首先刪除不完整、有錯(cuò)誤和重復(fù)的詩歌數(shù)據(jù)。第二步對(duì)語料庫進(jìn)行篩選,首先去除無作者信息的詩歌(如作者名為無名氏、不詳或缺名),同時(shí)去除一些朝代的禮樂歌詞(如郊廟朝會(huì)歌辭),為了保證數(shù)據(jù)集的科學(xué)性與可用性,提高數(shù)據(jù)集標(biāo)注的質(zhì)量,同時(shí)提高模型學(xué)習(xí)的準(zhǔn)確性,本文選擇詩歌作品數(shù)目在30 以上的唐宋詩人進(jìn)行標(biāo)注,避免某些詩人的語料過少,導(dǎo)致對(duì)詩人人格的不合理預(yù)測(cè),并刪去目前無記載或記載較少的作者。最后,數(shù)據(jù)清洗后的語料庫共包含581 名作者創(chuàng)作的246 458 首詩,后續(xù)將對(duì)233 個(gè)唐代詩人以及348 個(gè)宋代詩人進(jìn)行標(biāo)注工作。表1 展示了語料庫中詩人的基本統(tǒng)計(jì)信息。
表1 語料庫中詩人的基本統(tǒng)計(jì)信息Table 1 Statistical information of poets in the corpus
表2 詩人大五人格評(píng)級(jí)標(biāo)準(zhǔn)Table 2 Big Five personality rating standards for poets
本文邀請(qǐng)了兩名漢語國(guó)際教育碩士生以及一名計(jì)算機(jī)技術(shù)碩士生擔(dān)任標(biāo)注員。將大五人格每個(gè)維度分為五個(gè)評(píng)分等級(jí)。分別表示詩人在該人格維度上的評(píng)價(jià)為極差的(1 分)、較差的(2 分)、一般的(3 分)、較好的(4 分)、或極好的(5 分)。標(biāo)注時(shí)結(jié)合詩人詩歌作品、詩歌主題、作者史料和作者生平經(jīng)歷進(jìn)行標(biāo)注。有關(guān)詩人的史料記載與相關(guān)信息來自百度百科①https://baike.baidu.com/、知網(wǎng)②https://www.cnki.net/、萬方③https://g.wanfangdata.com.cn/index.htm、古詩文網(wǎng)④https://www.gushiwen.cn/以及中國(guó)歷代人物傳記數(shù)據(jù)庫⑤https://projects.iq.harvard.edu/chinesecbdb(CBDB)中詩人的相關(guān)信息以及對(duì)詩人性格的評(píng)價(jià)。同時(shí)參考唐宋詩人相關(guān)的出版書籍,比如林庚先生的《唐詩綜論》[9],張學(xué)淳的《唐宋詩人故事》[10],王運(yùn)熙的《中國(guó)古代文論管窺》[11]等含有唐宋詩人人格特質(zhì)描述的相關(guān)章節(jié),同時(shí)統(tǒng)計(jì)每個(gè)詩人的高頻詞為參考依據(jù)輔助標(biāo)注工作。
標(biāo)注期間為保證數(shù)據(jù)集的標(biāo)注質(zhì)量,標(biāo)注工作的整體流程分為試驗(yàn)標(biāo)注階段和正式標(biāo)注階段兩個(gè)階段。在試驗(yàn)標(biāo)注階段,標(biāo)注人員主要熟悉標(biāo)注的規(guī)則以及流程,每位標(biāo)注人員在待標(biāo)注數(shù)據(jù)中隨機(jī)抽取50 條進(jìn)行標(biāo)注。通過本階段的標(biāo)注結(jié)果,著重討論標(biāo)注結(jié)果不一致的部分,討論解決方法并合理更新標(biāo)注規(guī)則,當(dāng)三位標(biāo)注員對(duì)標(biāo)注結(jié)果達(dá)到較高的一致性并且完善了標(biāo)注規(guī)則之后,進(jìn)入正式標(biāo)注階段。
在正式標(biāo)注階段,每一個(gè)詩人的大五人格評(píng)分先由一名漢語國(guó)際教育碩士生以及一名計(jì)算機(jī)技術(shù)碩士生進(jìn)行標(biāo)注。標(biāo)注者之間的一致或意見分歧程度的大小選用Kappa 系數(shù)[12]來衡量,Kappa 系數(shù)是一種廣泛使用于衡量標(biāo)注者之間評(píng)分一致性的指標(biāo)。在正式標(biāo)注階段,兩位標(biāo)注員的Kappa 值達(dá)到了80.36%,這表明了整個(gè)數(shù)據(jù)集上評(píng)分的高度一致性,同時(shí)反映了該數(shù)據(jù)集的標(biāo)注結(jié)果的可靠性。對(duì)于標(biāo)注不一致的地方,由標(biāo)注員共同討論并由第三位標(biāo)注員進(jìn)行仲裁。
唐代和宋代大五人格每個(gè)維度的均值如圖2 所示。唐代的詩人們大多心系國(guó)家,充滿著想求取功名的心態(tài),渴望建功立業(yè),所以唐朝詩人的盡責(zé)性普遍較高。同時(shí),唐代詩人性格豪放,隨心所欲,在人生的坎坷之路上仍能保持熱情,總體體現(xiàn)出較高外傾性。宋代作為中國(guó)文學(xué)歷史上的又一高峰,十分重視文治教化。在這個(gè)哲學(xué)氣氛濃厚,大多數(shù)文人為探尋真理進(jìn)行思辨的社會(huì),哲學(xué)和美學(xué)相互作用,總體體現(xiàn)出宋代詩人較高的開放性。另外,宋詞主題多為傷春悲秋、離愁別緒、風(fēng)花雪月、兒女情長(zhǎng)等,也體現(xiàn)出了宋代詩人較高的神經(jīng)質(zhì)性。
圖2 詩人大五人格分布均值情況Fig.2 Mean distribution of poets' Big Five personalities
本文構(gòu)建的數(shù)據(jù)集有助于古代詩人的畫像構(gòu)建,幫助解決詩人自然屬性識(shí)別特別是人格特質(zhì)方面的問題,幫助走出傳統(tǒng)人文學(xué)界只針對(duì)單一詩人,單一題材或者單一詩歌風(fēng)格的定性研究,同時(shí)可以用于輔助風(fēng)格可控的詩歌生成,多方面地推動(dòng)數(shù)字人文領(lǐng)域的發(fā)展。
從上述數(shù)據(jù)標(biāo)注過程可以看到,詩人的作品是其生平經(jīng)歷、人生態(tài)度以及處世哲學(xué)的反映。詩人的不同人生階段中發(fā)表的詩歌往往是對(duì)詩人本身特性的映照。因此本文提出一個(gè)主題增強(qiáng)的詩人大五人格預(yù)測(cè)模型,基于多視角特征以及多任務(wù)學(xué)習(xí)方法并結(jié)合詩篇信息對(duì)詩人的大五人格特性進(jìn)行建模。
如圖3 所示,模型分為三個(gè)部分,第一個(gè)部分是作者特征嵌入矩陣,用于對(duì)作者生平特征進(jìn)行學(xué)習(xí)。第二個(gè)部分是利用基于預(yù)訓(xùn)練語言模型的詩詞分析器抽取作者全部詩文語義特征。第三個(gè)部分為在詩歌語料庫上訓(xùn)練的主題模型,用來獲得當(dāng)前詩文的主題特征信息。最終三種特征向量以拼接方式進(jìn)行特征融合,獨(dú)立的五個(gè)大五人格特征強(qiáng)度分類器會(huì)對(duì)作者的大五人格屬性特質(zhì)進(jìn)行預(yù)測(cè)。
圖3 主題增強(qiáng)的詩人大五人格預(yù)測(cè)模型Fig.3 Model of poet's Big Five personality analysis with theme enhancement
具體而言,在作者特征嵌入部分,以唐、宋兩代詩人名錄為詞表構(gòu)建嵌入矩陣。此處假定作者為Ai∈VA,其中VA表示當(dāng)前數(shù)據(jù)庫收錄的所有作者,包括當(dāng)前數(shù)據(jù)集中收錄的作者名稱以及一個(gè)特殊符號(hào)<UNK>,該符號(hào)用于表示數(shù)據(jù)集之外的所有作者(即Out of Vocabulary情形),用于處理未經(jīng)收錄的詩人的情況。即當(dāng)Ai?VA時(shí)有Ai=<UNK>。此處設(shè)置一個(gè)用于學(xué)習(xí)作者特征的作者嵌入矩陣EA,其中有EA∈R|VA|×dA,即每個(gè)作者的表示向量為一個(gè)dA維的實(shí)數(shù)向量。此處本文約定EA(·)表示獲取指定作者表示向量的操作,則當(dāng)前作者Vi的表示向量fA如公式(1)所示,在模型學(xué)習(xí)階段參與作者文風(fēng)特征的記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)。
作者詩文特征抽取部分,本文采用在四庫全書數(shù)據(jù)上基礎(chǔ)上預(yù)訓(xùn)練的語言模型“sikubert”來獲取古詩文表達(dá)的深度語義特征表示。本文將作者的所有詩文拼接為一個(gè)篇章作為作者生平的作品表示TAi。TAi為包含n個(gè)單詞的長(zhǎng)文本,TAi=[w1,w2,…,wj,…,wn],其中文本中第個(gè)j單詞為wj。此處本文約定BERT(·)為獲取指定文本在BERT 模型下的特征向量表示。則作者的生平作品的深度語義表示特征向量fs可以通過公式(2)所示表示。在進(jìn)行輸入時(shí)本文遵循Bert 模型的輸入格式,在作者作品文本上拼接<CLS>和<SEP>確保語言模型正確性,則最終輸入BERT 模型中的文本格式為。
具體而言,在拼接作者詩文進(jìn)行輸入時(shí),首先按照作者詩文發(fā)布的時(shí)間進(jìn)行分桶處理,同時(shí)為了避免在使用預(yù)訓(xùn)練BERT 模型處理輸入文本時(shí)的超長(zhǎng)問題,同一個(gè)作者的不同分桶拼接的詩文總長(zhǎng)度小于512 字符。同一作者的不同分桶輸入最終通過作者特征嵌入向量fA進(jìn)行進(jìn)行統(tǒng)一學(xué)習(xí),確保同一作者的詩文特征學(xué)習(xí)過程的穩(wěn)定。
而主題模型部分,本文首先在整個(gè)唐、宋古詩文數(shù)據(jù)語料庫上對(duì)古代詩歌文本進(jìn)行主題模型的訓(xùn)練。主題模型部分本文選用隱狄利克雷分布模型(LDA)作為詩歌主題特征的獲取方式,此處預(yù)訓(xùn)練的模型記為L(zhǎng)DAp,簡(jiǎn)化的主題模型可以視為一個(gè)輸入文本到主題特征的映射函數(shù)LDAP(TAi),因此可以得知針對(duì)古代詩歌作者分析時(shí),作者生平作品的主題特征表示向量可通過公式(3)得到:
其中fT∈R1×dT,即dT表示當(dāng)前對(duì)作者詩文主題分析時(shí)的主題數(shù)目,fT涵蓋了作者生平所有詩文的總體主題特征,對(duì)應(yīng)在dT維的主題空間上。最后,在特征融合階段本文使用谷歌提出Wide&Deep 方法,將三種視角的特征進(jìn)行拼接作為作者人格特質(zhì)預(yù)測(cè)的多視角融合的特征向量:
針對(duì)五種人格特質(zhì),采用5 個(gè)獨(dú)立的分類層來預(yù)測(cè)人格特質(zhì)的5 個(gè)等級(jí),此處約定分類權(quán)重矩陣We,Wo,Wa,Wn,Wc,分別表示外傾性、開放性、宜人性、神經(jīng)質(zhì)以及盡責(zé)性五種人格特質(zhì)的分類權(quán)重。均有W∈Rdf×5,其中df=|fbig5|,即用于人格特質(zhì)預(yù)測(cè)的特征向量的維度。而上文提到,本文將5 種人格特質(zhì)劃分為5 個(gè)等級(jí)進(jìn)行預(yù)測(cè)以更細(xì)粒度方式對(duì)詩人人格特質(zhì)進(jìn)行建模,因此權(quán)重W的第二維度對(duì)應(yīng)為5 作為分類輸出等級(jí),則如公式5 所示,假定當(dāng)前人格特質(zhì)預(yù)測(cè)目標(biāo)為yp,其對(duì)應(yīng)的分類權(quán)重為Wp∈{We,Wo,Wa,Wn,Wc},則在此基礎(chǔ)上結(jié)合Softmax 非線性映射對(duì)結(jié)果進(jìn)行變換可以得到最終人格特質(zhì)的5 個(gè)等級(jí)預(yù)測(cè)概率。
而訓(xùn)練階段,本文使用交叉熵?fù)p失函數(shù)進(jìn)行人格特征等級(jí)的監(jiān)督學(xué)習(xí),每個(gè)人格特質(zhì)分別使用交叉熵函數(shù)對(duì)當(dāng)前特質(zhì)繼續(xù)訓(xùn)練,如公式6 所示:
可以看到,在進(jìn)行人格特質(zhì)預(yù)測(cè)時(shí)本文使用同樣的特征向量fbig5,搭配不同的分類權(quán)重參數(shù)對(duì)相應(yīng)的人格特質(zhì)進(jìn)行預(yù)測(cè)。5 種人格特質(zhì)預(yù)測(cè)任務(wù)之間的訓(xùn)練和預(yù)測(cè)過程相互獨(dú)立。但詩人的5 種人格特質(zhì)相互之間存在著一定的約束和影響,因此單一地進(jìn)行模型訓(xùn)練是不可取的。因此在最終的人格特質(zhì)預(yù)測(cè)訓(xùn)練過程中本文引入了多任務(wù)學(xué)習(xí)方法。本文在分析大量詩歌文本基礎(chǔ)上,對(duì)詩人不同人格特質(zhì)在詩歌體裁的文學(xué)作品中的體現(xiàn)程度進(jìn)行了加權(quán)劃分,結(jié)合這樣的權(quán)重,本文對(duì)5 種人格特質(zhì)的預(yù)測(cè)損失函數(shù)進(jìn)行了融合,得到最終的綜合人格特質(zhì)損失lbig5,最終的損失函數(shù)如公式7 所示:
詩人大五人格數(shù)據(jù)集強(qiáng)度等級(jí)分為依次遞進(jìn)的5 個(gè)類別,因此評(píng)價(jià)指標(biāo)方面本文使用準(zhǔn)確度(Accuracy)作為模型預(yù)測(cè)效果的評(píng)估方法。此處假定樣本總量為N,針對(duì)五種人格特質(zhì)中任一特質(zhì)進(jìn)行預(yù)測(cè)時(shí)正確預(yù)測(cè)等級(jí)的數(shù)目分別為:C1,C2,C3,C4和C5,分別對(duì)應(yīng)一個(gè)人格特質(zhì)中預(yù)測(cè)正確的樣本數(shù)目。則準(zhǔn)確度分?jǐn)?shù)計(jì)算方式如公式8 所示:
本文使用SIKU-BERT①https://github.com/hsc748NLP/SikuBERT-for-digital-humanities-and-classical-Chinese-information-processing作為預(yù)訓(xùn)練語言模型,該模型對(duì)于古文語料有著更好的理解和表示能力。主題向量通過gensim 庫中的LDA 模型工具包進(jìn)行生成。本實(shí)驗(yàn)設(shè)置訓(xùn)練集和測(cè)試集的比例為8∶2。對(duì)比實(shí)驗(yàn)部分,本文選取國(guó)內(nèi)外大五人格特質(zhì)預(yù)測(cè)分析研究的相關(guān)工作,由于部分工作尚未進(jìn)行開源,因此本文根據(jù)論文對(duì)方法的描述對(duì)其實(shí)驗(yàn)方案進(jìn)行了復(fù)現(xiàn),并在本文提出的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證本文方案的合理性。
機(jī)器學(xué)習(xí)模型部分,本文選用Ramon 等[17]的實(shí)驗(yàn)方案作為基礎(chǔ)的基線實(shí)驗(yàn)進(jìn)行結(jié)果對(duì)比。其方案在數(shù)據(jù)采集基礎(chǔ)上構(gòu)建了文本的特征表示,并在此基礎(chǔ)上結(jié)合線性回歸、邏輯回歸和決策樹模型進(jìn)行人格特質(zhì)分類的研究。Rudi 等[18]基于支持向量機(jī)模型構(gòu)建了人格特質(zhì)分類模型,此處本文同樣基于這一模型復(fù)現(xiàn)進(jìn)行結(jié)果對(duì)比。Michael 等[8]基于梯度提升決策樹模型,研究大五人格特質(zhì)分類問題,在myPersonality 數(shù)據(jù)集上達(dá)到了最優(yōu)的效果。而深度模型方面,Ren 等[19]構(gòu)建基于文本特征,結(jié)合卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)構(gòu)建分類模型研究人格特質(zhì)預(yù)測(cè)任務(wù),此處本文復(fù)現(xiàn)了作者的方法,并在本文提出的數(shù)據(jù)集上進(jìn)行了測(cè)試。此外,為了對(duì)比的公平,本文去除復(fù)雜的神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)結(jié)構(gòu),使用詞向量平均以及多層感知機(jī)方式構(gòu)建作者詩文的特征表示。
機(jī)器學(xué)習(xí)模型部分參照現(xiàn)有研究選用詞頻-逆文檔頻率(tf-idf)作為模型輸入特征[20],針對(duì)每個(gè)人格維度獨(dú)立訓(xùn)練模型進(jìn)行學(xué)習(xí)。深度模型部分本文使用預(yù)訓(xùn)練模型的分詞器對(duì)古詩文進(jìn)行分詞并使用相同的詞嵌入向量獲取詩文的表示特征,以便于對(duì)比的公平。主題向量會(huì)與模型抽取得到的特征向量拼接,之后針對(duì)不同的人格維度通過線性層進(jìn)行分類。
深度學(xué)習(xí)模型分詞器和詞嵌入向量部分與siku-bert 模型保持一致,本文從預(yù)訓(xùn)練的語言模型中抽取了已經(jīng)訓(xùn)練好的詞向量特征,并使用相同的分詞器對(duì)詩文進(jìn)行分詞。深度學(xué)習(xí)模型訓(xùn)練優(yōu)化器使用AdamW,學(xué)習(xí)率保持在1×10-4,使用混合精度訓(xùn)練保證訓(xùn)練效率和顯存占用的均衡。深度模型的多任務(wù)學(xué)習(xí)過程與本文提出模型保持一致,損失融合部分不同人格維度的權(quán)重設(shè)置通過本文實(shí)驗(yàn)驗(yàn)證。
在權(quán)重選擇部分,本文將交叉驗(yàn)證策略與隨機(jī)搜索(random search)策略相結(jié)合。模型驗(yàn)證時(shí),本文使用五折交叉驗(yàn)證方法對(duì)模型進(jìn)行驗(yàn)證評(píng)估。數(shù)據(jù)集劃分中相應(yīng)將訓(xùn)練集等分為五份,分別訓(xùn)練模型并交叉驗(yàn)證。并在選擇達(dá)到最好結(jié)果的模型在測(cè)試集數(shù)據(jù)上進(jìn)行測(cè)試以評(píng)估最優(yōu)模型。在交叉驗(yàn)證階段,本文使用網(wǎng)格搜索對(duì)五項(xiàng)人格特質(zhì)權(quán)重進(jìn)行選擇,權(quán)重范圍限制為0~1,權(quán)重步長(zhǎng)為0.1。在五項(xiàng)人格特質(zhì)權(quán)重組合中,每次訓(xùn)練隨機(jī)使用一種組合進(jìn)行模型訓(xùn)練效果的驗(yàn)證。最終得到外傾、開放、宜人、神經(jīng)質(zhì)、盡責(zé)分別采用0.2、0.2、0.3、0.1、0.2 時(shí)能夠得到最穩(wěn)定的訓(xùn)練結(jié)果。
詩歌主題對(duì)于詩人情感傾向分析十分重要,本文提出主題增強(qiáng)的詩人大五人格預(yù)測(cè)模型以及對(duì)比模型中均對(duì)主題特征向量的重要性進(jìn)行了分析。因此本文針對(duì)主題數(shù)目這一參數(shù)進(jìn)行分析。在整個(gè)詩歌語料庫上結(jié)合LDA 模型構(gòu)建主題模型,使用UMass 指標(biāo)[21]計(jì)算共現(xiàn)分?jǐn)?shù)如公式9、10 所示:
其中,V是一組主題詞,?表示平滑因子。D(x,y)統(tǒng)計(jì)包含單詞x和y的文檔數(shù)量,D(x)統(tǒng)計(jì)包含x的文檔數(shù)量。并設(shè)置10~500 的不同主題數(shù)目,實(shí)驗(yàn)結(jié)果如圖4 所示,可以看到當(dāng)主題數(shù)目為50 時(shí)能夠取得最好的共現(xiàn)分?jǐn)?shù)指標(biāo),因此本文在構(gòu)建模型過程中使用50 作為主題數(shù)目參數(shù)。
圖4 主題模型不同主題數(shù)共現(xiàn)分?jǐn)?shù)Fig.4 Number of scores for different topics
機(jī)器學(xué)習(xí)模型部分的實(shí)驗(yàn)結(jié)果如圖5 所示,其中柱狀圖部分為不同機(jī)器學(xué)習(xí)模型對(duì)于5 種人格特質(zhì)的預(yù)測(cè)結(jié)果。背景的陰影堆積面積高度表示當(dāng)前模型和特征結(jié)合預(yù)測(cè)結(jié)果的平均值情況,圖中左側(cè)縱軸對(duì)應(yīng)柱狀圖數(shù)值,右側(cè)縱軸對(duì)應(yīng)折線圖數(shù)值。從圖5 中平均值的面積堆積圖可以看到,從左向右整體趨勢(shì)表現(xiàn)出向上增長(zhǎng)特性,說明詩文的主題特征向量對(duì)于詩人人格特質(zhì)建模有著重要影響。
圖5 機(jī)器學(xué)習(xí)基線模型結(jié)果Fig.5 Machine learning baseline model results
深度學(xué)習(xí)基線模型結(jié)果如圖6 所示,對(duì)比可以看出,相比于傳統(tǒng)tf-idf 抽取的文本稀疏編碼特征向量,預(yù)訓(xùn)練模型中獲取的稠密向量在文本語義編碼效果上效果更好。整體來看卷積神經(jīng)網(wǎng)絡(luò)在深度語義建模方面效果相對(duì)更好,而循環(huán)神經(jīng)網(wǎng)絡(luò)相對(duì)較差。原因在于在構(gòu)建作者粒度的詩文向量表示時(shí),直接使用了文本詞向量的平均池化結(jié)果作為特征,對(duì)于詩文的順序結(jié)構(gòu)有所破壞。未來可以針對(duì)這一問題進(jìn)行進(jìn)一步的探究。最后整體來看深度學(xué)習(xí)基線模型的平均結(jié)果的分?jǐn)?shù)情況,隨著LDA 特征的加入,模型對(duì)于人格特質(zhì)預(yù)測(cè)的結(jié)果會(huì)有較大的提升。
圖6 深度學(xué)習(xí)基線模型結(jié)果Fig.6 Deep learning baseline model results
本文提出的主題增強(qiáng)的詩人大五人格預(yù)測(cè)模型表現(xiàn)結(jié)果如表3 所示。表3 匯總了對(duì)比的基線模型與本文提出模型的全部平均結(jié)果,可以直觀看出,詩人所有詩文的主題特征向量被加入時(shí),模型對(duì)于其大五人格特質(zhì)的預(yù)測(cè)能力會(huì)相應(yīng)地提高,表明提取詩歌主題作為特征加入模型對(duì)預(yù)測(cè)詩人人格特質(zhì)任務(wù)的重要性。
表3 大五人格預(yù)測(cè)模型表現(xiàn)結(jié)果Table 3 The performances of the Big Five personalities prediction model
最后,如圖7 所示,本文進(jìn)行了模型結(jié)構(gòu)的消融實(shí)驗(yàn)。圖中文本方法表示僅使用siku-bert作為詩文深度語義表示的抽取器,預(yù)訓(xùn)練模型本身參數(shù)不參與微調(diào),僅微調(diào)人格特質(zhì)分類層參數(shù),作為預(yù)訓(xùn)練模型在本文數(shù)據(jù)集上的基線模型結(jié)果。
圖7 模型消融實(shí)驗(yàn)結(jié)果Fig.7 Results of ablation study
而文本+LDA 方法與深度模型基線實(shí)驗(yàn)設(shè)置一致,獲取到文本特征之后與主題特征拼接再進(jìn)行人格特質(zhì)預(yù)測(cè)。文本+作者則是結(jié)合作者表示向量作為預(yù)測(cè)特征。最后為本文完整模型,即融合了多視角特征和多任務(wù)學(xué)習(xí)方法的主題增強(qiáng)詩人大五人格預(yù)測(cè)模型??梢钥吹剑Y(jié)合主題特征的確能夠?qū)υ娙巳烁裉刭|(zhì)預(yù)測(cè)產(chǎn)生貢獻(xiàn)。而單純加入作者特征嵌入特征時(shí),模型在建模預(yù)測(cè)時(shí)表現(xiàn)出不穩(wěn)定的情況。當(dāng)融合三種視角特征時(shí),模型取得綜合最優(yōu)效果。
在本文針對(duì)詩人具體形象進(jìn)行分析時(shí),選取了唐代詩人李白和宋代詩人王安禮,結(jié)合其詩文文本內(nèi)容和大五人格維度分?jǐn)?shù),對(duì)其人格特質(zhì)和創(chuàng)作主題進(jìn)行畫像建模。
圖8 對(duì)宋代詩人王安禮的作者形象進(jìn)行了描繪。從作者的詩文主題詞云可以看出,詩歌以贈(zèng)答友人詩居多,體現(xiàn)出較高的外傾性。通過模型給出的大五人格預(yù)測(cè)分?jǐn)?shù)得以看出,雖王安禮生平遭多人彈劾,但在外傾性方面仍表現(xiàn)出很高的特質(zhì)分?jǐn)?shù),憂國(guó)憂民的鐵骨柔情也反映出高的宜人性。這為研究王安禮的生平提供了全新的視角。
圖8 宋代詩人王安禮詩人畫像Fig.8 Wang Anli's persona
從圖9 詩人作品主題詞云可以看出,其作品大多抒懷壯志,誦清風(fēng)明月,徜徉天地和美酒。體現(xiàn)出詩人豪放不羈恣意灑脫的情懷。在大五人格預(yù)測(cè)分?jǐn)?shù)方面也進(jìn)一步體現(xiàn)了其較高的外傾和宜人特性。
圖9 唐代詩人李白詩人畫像Fig.9 Li Bai's persona
在古代詩人大五人格分析工具基礎(chǔ)上,本文能夠更加細(xì)致地構(gòu)建古代詩人的人格特質(zhì)形象,為進(jìn)一步窺探作者生平,分析作者隱式情感特性提供了新的思路與工具。
大五人格是分析建模人格特質(zhì)的有力工具,本文結(jié)合大五人格特質(zhì)理論,面向中國(guó)古代詩人群體基于詩歌作品構(gòu)建其大五人格特質(zhì)畫像。本文首先收集了唐宋兩朝詩人作品,通過數(shù)據(jù)整理后邀請(qǐng)相關(guān)專業(yè)人員進(jìn)行詩人大五人格特質(zhì)的標(biāo)注。其次,本文在標(biāo)注數(shù)據(jù)上實(shí)現(xiàn)了常見的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)預(yù)測(cè)方法,對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行全面評(píng)估。最后,本文重點(diǎn)針對(duì)詩歌主題對(duì)于詩人人格特質(zhì)預(yù)測(cè)影響進(jìn)行了研究,并以此提出主題增強(qiáng)的大五人格預(yù)測(cè)模型。
本文研究表明,詩人生平所譜寫作品的主題是詩人性格各方面的良好映照。與當(dāng)代人格分析,尤其是基于社交網(wǎng)絡(luò)技術(shù)的人格特質(zhì)分析的相關(guān)工作相對(duì)比可以看到,古代詩人的人格特質(zhì)更為直白和外顯,詩人不同時(shí)期的作品往往直接反映著其思想形態(tài)和情緒波動(dòng)等特性。詩人所采用的借物喻情等寫作手法特征也能夠直接通過深度語義理解的方式進(jìn)行捕獲。而相比之下,當(dāng)前人格分析研究面臨的情感、態(tài)度以及觀點(diǎn)的隱式表述問題更為突出,需要結(jié)合深度語義模型以及相關(guān)語料庫進(jìn)行更進(jìn)一步進(jìn)行分析。