顧磊
摘 要
明清小說歷經(jīng)數(shù)百的流傳,已成為中華民族的文化瑰寶,而針對明清小說文本的知識(shí)抽取則是信息社會(huì)時(shí)代下古籍?dāng)?shù)字化研究的重要方式。本文首先介紹了文本知識(shí)抽取方法的研究現(xiàn)狀,其次就當(dāng)前明清小說文本知識(shí)抽取方法研究中存在的問題進(jìn)行了探討。
關(guān)鍵詞
小說文本;知識(shí)抽取;中文分詞;命名實(shí)體識(shí)別
中圖分類號(hào): TP391.1? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 10 . 04
0 引言
明清小說的作者多出生或生活在江浙皖一帶,與這一地區(qū)有著不解之緣。例如:《西游記》作者吳承恩江蘇漣水人,后定居在江蘇淮安;《儒林外史》作者吳敬梓安徽全椒人,后遷居至今日的江蘇南京;《三國演義》作者羅貫中則出生于浙江杭州。由于小說作者的生活背景,這些明清小說內(nèi)容多就地取材于當(dāng)?shù)氐纳鐣?huì)生活,反映了明清時(shí)期江浙皖地區(qū)的社會(huì)百態(tài),例如《紅樓夢》中的金陵指的就是江蘇南京。因此明清小說在中國文化史和文學(xué)史上有著極其重要的地位,作為一種文化藝術(shù)的形式存在,小說表達(dá)了當(dāng)時(shí)的社會(huì)愿望,更傳播了積極向上的道德精神[1]。當(dāng)今社會(huì)是互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能的時(shí)代,在這樣的時(shí)代背景下,如何利用智能技術(shù)進(jìn)一步挖掘與研究這些小說的價(jià)值,并讓其煥發(fā)出新的生命力,將是古籍?dāng)?shù)字化工作者研究的新的挑戰(zhàn),而首要的任務(wù)就是抽取明清小說文本中的知識(shí)。文本知識(shí)的抽取是知識(shí)庫或知識(shí)圖譜構(gòu)建的基石,有利于搭建真正面向普通型用戶和專家型用戶的明清小說智能信息檢索平臺(tái);而其意義不僅在于對中華文化的保護(hù)與弘揚(yáng),而且有助于為社會(huì)大眾提供信息咨詢及服務(wù)化功能。
1 文本知識(shí)抽取方法的研究現(xiàn)狀
明清小說多為電子文本形式,而文本中知識(shí)的抽取如圖1所示,主要分為:分詞與詞性標(biāo)注、命名實(shí)體識(shí)別和實(shí)體間關(guān)系抽取等三個(gè)步驟。一個(gè)小說的電子文本先經(jīng)過分詞與詞性標(biāo)注,形成標(biāo)注后的文本,再從該標(biāo)注文本中提取相關(guān)實(shí)體,即所謂的命名實(shí)體識(shí)別,依據(jù)上下文環(huán)境再找出實(shí)體間的相互關(guān)聯(lián),即關(guān)系抽取,最后以實(shí)體及實(shí)體間關(guān)系為基礎(chǔ),構(gòu)建小說知識(shí)庫。
首先,分詞與詞性標(biāo)注是知識(shí)抽取的第一步。分詞是指將一個(gè)句子中的字符切分為詞的過程,而詞性標(biāo)注則是為句中每個(gè)詞賦予一個(gè)詞性[2],分詞與詞性標(biāo)注是中文信息處理的重要技術(shù)之一。傳統(tǒng)的分詞與詞性標(biāo)注方法大致有三種,即基于詞典的方法,基于統(tǒng)計(jì)的方法和基于規(guī)則的方法[3]。例如:文獻(xiàn)[4]利用分詞詞典建立Hash表,并利用最大匹配算法進(jìn)行中文分詞;文獻(xiàn)[5]提出了統(tǒng)計(jì)方法與詞典方法相結(jié)合的中文分詞方法,該方法具有較好的領(lǐng)域自適應(yīng)性;而文獻(xiàn)[6]則利用統(tǒng)計(jì)和規(guī)則兩者結(jié)合來進(jìn)行漢語語義分析,從而實(shí)現(xiàn)對詞語詞性的標(biāo)注。其次,命名實(shí)體識(shí)別是知識(shí)抽取的第二步。命名實(shí)體識(shí)別的主要任務(wù)是從文本中將人名、地名、時(shí)間、年份等專有名稱和有意義的詞語找出并歸類[7]。傳統(tǒng)的命名實(shí)體識(shí)別方法多是基于統(tǒng)計(jì)學(xué)習(xí)的,例如:文獻(xiàn)[8]在分析詞語前綴、后綴以及其他組合的基礎(chǔ)上,利用條件隨機(jī)場來進(jìn)行中文命名實(shí)體識(shí)別。文獻(xiàn)[9]提出了一種基于層疊條件隨機(jī)場模型的中文命名實(shí)體自動(dòng)識(shí)別算法。最后,實(shí)體間關(guān)系的抽取是知識(shí)抽取的第三步。實(shí)體間關(guān)系抽取的目的是從語言文本中辨別出若干個(gè)實(shí)體間所存在的語義關(guān)系[10]。同樣地,傳統(tǒng)的實(shí)體間關(guān)系抽取依然是以統(tǒng)計(jì)學(xué)習(xí)方法為主,例如:文獻(xiàn)[11]將實(shí)體關(guān)系分為包含與非包含兩類,并利用條件隨機(jī)場模型進(jìn)行關(guān)系的抽取。
近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的知識(shí)抽取方法逐漸有替代傳統(tǒng)方法的趨勢,各種基于深度神經(jīng)網(wǎng)絡(luò)模型的中文分詞與詞性標(biāo)注方法、中文命名實(shí)體識(shí)別方法和實(shí)體間關(guān)系抽取方法層出不窮。這里僅以近三年的一些文獻(xiàn)中的方法為例。2017年,文獻(xiàn)[12]提出了一種用于中文分詞的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型的特點(diǎn)是以長短時(shí)記憶網(wǎng)絡(luò)作為模型的隱藏層;文獻(xiàn)[13]針對詞特征錯(cuò)誤較多的問題,提出了字特征和詞特征相結(jié)合的深度學(xué)習(xí)模型,從而提高了中文命名實(shí)體識(shí)別的正確率;文獻(xiàn)[14]提出了一種適合多語言文本實(shí)體間關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型,該模型是對基于單語言注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)和擴(kuò)展。2018年,文獻(xiàn)[15]提出了一種簡單而有效的sequence-to-sequence長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型,該模型在對中文文本進(jìn)行分詞的同時(shí),還可以進(jìn)行詞性標(biāo)注,屬于一種分詞與詞性標(biāo)注聯(lián)合模型;文獻(xiàn)[16]探討了深度神經(jīng)網(wǎng)絡(luò)在片段級(jí)中文命名實(shí)體識(shí)別中的應(yīng)用;文獻(xiàn)[17]提出了一種基于注意力機(jī)制的膠囊深度神經(jīng)網(wǎng)絡(luò)模型,并借助多示例和多標(biāo)記學(xué)習(xí)方法來實(shí)現(xiàn)實(shí)體關(guān)系的抽取。2019年,文獻(xiàn)[18]針對雙向長短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)處理中文分詞時(shí)輸入特征不夠豐富、語義不全等問題,提出了一種可用于中文分詞的膨脹卷積神經(jīng)網(wǎng)絡(luò)模型;文獻(xiàn)[19]提出了一種雙重對抗遷移神經(jīng)網(wǎng)絡(luò)模型,并用于命名實(shí)體識(shí)別中;文獻(xiàn)[20]提出了一種新的深度神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)端到端實(shí)體間關(guān)系抽取,而這種神經(jīng)網(wǎng)絡(luò)模型可以利用基于n-gram的注意力機(jī)制來獲取相互間有關(guān)聯(lián)的實(shí)體。
2 當(dāng)前存在的問題
基于上節(jié)對文本知識(shí)抽取相關(guān)方法研究現(xiàn)狀的總結(jié),我們可以看出盡管當(dāng)前知識(shí)抽取的研究如火如荼,但是針對明清小說文本的知識(shí)抽取研究仍然存在如下一些問題:
(1)明清小說中使用的語言多為古白話文,這與現(xiàn)代漢語有所不同,而當(dāng)前的知識(shí)抽取方法或模型主要是以現(xiàn)代漢語文本作為語料庫或訓(xùn)練樣本集的,并不能直接適用或完全適用于明清小說文本的處理上。
(2)基于明清小說語言模式的語料庫,即分詞語料庫、已標(biāo)注詞性的語料庫、已標(biāo)注命名實(shí)體的語料庫和實(shí)體關(guān)系語料庫,都比較少或都不夠成熟。構(gòu)建這些語料庫將會(huì)是今后研究的重點(diǎn)。
(3)當(dāng)前的命名實(shí)體識(shí)別和實(shí)體間關(guān)系的抽取多針對結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),而明清小說本文一般屬于非結(jié)構(gòu)化數(shù)據(jù),其處理的難度遠(yuǎn)高于結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),因此這將是今后文本知識(shí)抽取相關(guān)方法或模型的研究中面臨的巨大挑戰(zhàn)。
3 結(jié)論
針對明清小說文本的知識(shí)抽取研究還處于初級(jí)階段,缺少實(shí)用性和通用性強(qiáng)的方法或模型。如何借助當(dāng)前現(xiàn)代漢語文本知識(shí)抽取方法研究的已有成果,將是相關(guān)工作的研究者們亟須解決的重要問題。相信隨著今后研究工作的深入展開,明清小說知識(shí)抽取方法上的豐碩成果定會(huì)為相關(guān)知識(shí)圖譜的構(gòu)建以及智能信息檢索平臺(tái)的搭建打下堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn)
[1]韓亮.淺析明清小說及其在中國文化歷史上的重要地位[J].商情,2017,(32):259.
[2]楊世超.古漢語分詞與詞性標(biāo)注方法研究[D].華北理工大學(xué),唐山,2018.
[3]梁喜濤,顧磊.中文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,(2):175-180.
[4]張海營.全二分快速自動(dòng)分詞算法構(gòu)建[J].現(xiàn)代圖書情報(bào)技術(shù),2007,(4):52-55.
[5]張梅山,鄧知龍,車萬翔,等.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào),2012,(2):8-12.
[6]陳小芳,張桂平,蔡?hào)|風(fēng),等.基于統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語術(shù)語語義分析方法[C].第六屆全國信息檢索學(xué)術(shù)會(huì)議,黑龍江牡丹江,中國,2010:488-495.
[7]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,(6):42-47.
[8]Aaron L.F. Han, Derek F. Wong, Lidia S. Chao, Chinese named entity recognition with conditional random fields in the light of Chinese characteristics[C].Proceedings of Intelligent Information Systems Symposium, Warsaw, Poland, 2013:57-68.
[9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006,(5):804-809.
[10]武文雅,陳鈺楓,徐金安,等.中文實(shí)體關(guān)系抽取研究綜述[J].計(jì)算機(jī)與現(xiàn)代化,2018,(8):21-27.
[11]黃鑫,朱巧明,錢龍華,等.基于特征組合的中文實(shí)體關(guān)系抽取[J].微電子學(xué)與計(jì)算機(jī),2010,(4):198-200.
[12]胡婕,張俊馳.雙向循環(huán)網(wǎng)絡(luò)中文分詞模型[J].小型微型計(jì)算機(jī)系統(tǒng),2017,(3):522-526.
[13]張海楠,伍大勇,劉悅.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2017,(4):28-35.
[14]Yankai Lin, Zhiyuan Liu, Maosong Sun, Neural relation extraction with multi-lingual attention[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017:34-43.
[15]Meishan Zhan, Nan Yu, Guohong Fu, A simple and effective neural model for joint word segmentation and POS tagging[J].IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018,26(9): 1528-1538.
[16]王蕾,謝云,周俊生等,基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2018,(3):84-90.
[17]Ningyu Zhang, Shumin Deng, Zhanling Sun, et.al., Attention-based capsule networks with dynamic routing for relation extraction[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018:986-992.
[18]王星,李超,陳吉.基于膨脹卷積神經(jīng)網(wǎng)絡(luò)模型的中文分詞方法[J].中文信息學(xué)報(bào),2019,(9):24-30.
[19]Joey Tianyi Zhou, Hao Zhang, Di Jin, et.al., Dual adversarial neural transfer for low-resource named entity recognition[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:3461-3471.
[20]Bayu Distiawan Trisedya, Gerhard Weikum, Jianzhong Qi, et.al., Neural relation extraction for knowledge base enrichment[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:229-240.