• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      命名實(shí)體識別在數(shù)字人文中的應(yīng)用
      ——基于ETL的實(shí)現(xiàn)*

      2020-05-12 07:51:06朱武信夏翠娟
      圖書館論壇 2020年5期
      關(guān)鍵詞:知識庫命名詞典

      朱武信,夏翠娟

      0 引言

      命名實(shí)體識別NER(Named Entity Recognition)是自然語言處理NLP(Natural Language Processing)組成部分,是指從文本中提取出命名實(shí)體,而命名實(shí)體是指人名、地名、時間等信息。圖書館用NER進(jìn)行數(shù)據(jù)挖掘,從摘要、正文提取大量的命名實(shí)體,為構(gòu)建知識圖譜、支持?jǐn)?shù)字人文研究和服務(wù)打下了基礎(chǔ)。學(xué)界在命名實(shí)體應(yīng)用方面做了很多研究,提出了規(guī)則提取、關(guān)系提取、正則提取、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等方法。

      上海圖書館(以下簡稱“上圖”)有大量數(shù)字化館藏資源,其挖掘離不開NER技術(shù)的推動。上圖在構(gòu)建數(shù)字人文平臺初期,便使用了各種工具與方法進(jìn)行數(shù)據(jù)加工,包括OpenRefine、基于Python的正則提取等,解決了一些問題,但也存在不足:一是識別效率低、人工成本高;二是識別的內(nèi)容僅僅是文本,后續(xù)若要和其他數(shù)據(jù)進(jìn)行關(guān)聯(lián),還需投入更多人力、物力和時間。為解決上述問題,本研究研發(fā)基于數(shù)字人文與漢語言處理包HANLP(Han Language Processing)技術(shù)的命名實(shí)體識別工具。HANLP是一個在github平臺上開放的NLP開源工具包,開發(fā)語言是JAVA,提供中文分詞、詞性標(biāo)注、命名實(shí)體識別、依存句法分析等功能。本研究主要采用隱馬爾夫(HMM)模型進(jìn)行分詞模型訓(xùn)練、最短路分詞和依存句法分析中基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器。

      命名實(shí)體識別工具的詞典源于上圖的數(shù)字人文知識庫。選用之有3個原因:(1)NER要提取的實(shí)體信息與數(shù)字人文所定義的人名、地名、時間、事件不謀而合。(2)2014年以來,上圖通過本體建模方法搭建了多個數(shù)字人文平臺與知識庫,有大量的數(shù)據(jù)基礎(chǔ)。上圖數(shù)字人文平臺在功能上分為兩類:一類是家譜知識服務(wù)平臺、盛宣懷檔案知識庫等以提供文獻(xiàn)服務(wù)為主的文獻(xiàn)知識庫;另一類是人名、地名、時間、事件為一體的基礎(chǔ)知識庫。本研究選擇作為詞典的知識庫指的是上圖數(shù)字人文基礎(chǔ)知識庫。(3)上圖的數(shù)據(jù)是關(guān)聯(lián)數(shù)據(jù),具有語義性,將其作為詞典,則命名實(shí)體識別的結(jié)果也具有關(guān)聯(lián)數(shù)據(jù)的特性,可以通過本體獲取更多相關(guān)信息。

      本研究結(jié)合數(shù)字人文與NER,研發(fā)基于關(guān)聯(lián)數(shù)據(jù)的命名實(shí)體識別工具,并對文本進(jìn)行數(shù)據(jù)挖掘,提取相關(guān)人名、地名等實(shí)體信息,優(yōu)化上圖ETL流程。

      1 現(xiàn)狀調(diào)研

      關(guān)聯(lián)數(shù)據(jù)概念于2006年由蒂姆·伯納斯-李提出[1],其時互聯(lián)網(wǎng)上已發(fā)布大量數(shù)據(jù)集。國內(nèi)外大學(xué)、圖書館通過數(shù)字人文構(gòu)建了知識庫與知識圖譜,比較著名的有哈佛大學(xué)中國歷代人物傳記資料庫(CBDB)、基于維基百科的DBpedia、OCLC的虛擬國際規(guī)范檔、復(fù)旦大學(xué)中國歷史地理信息(CHGIS)系統(tǒng)、上海圖書館數(shù)字人文開放平臺等。上圖在數(shù)字人文領(lǐng)域的探索取得較多成果,比如構(gòu)建家譜知識服務(wù)平臺,提供人物、地名、時間相關(guān)的基礎(chǔ)知識平臺。2017 年上圖搭建人名規(guī)范知識庫,運(yùn)用關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布了近130 萬人名實(shí)體;地名基礎(chǔ)數(shù)據(jù)包含1,800余個縣與縣級以上的地名;2019年發(fā)布上海地名志信息,包括2,264條馬路三元組。目前這些實(shí)體已經(jīng)對外開放服務(wù)。

      命名實(shí)體識別技術(shù)在數(shù)字人文中的應(yīng)用,國外起步較早,2011年研發(fā)了名為DBpedia Spotlight的 NER 工具。Palo 基于 DBpedia Spotlight 工具,通過質(zhì)量測量方法與DBpedia本體進(jìn)行文本自動標(biāo)注[2],驗證了利用實(shí)體進(jìn)行命名實(shí)體識別的可行性,該工具在互聯(lián)網(wǎng)上開放給大眾使用。Ferragina等發(fā)布基于TagMe算法,以維基百科實(shí)體為基礎(chǔ),實(shí)現(xiàn)快速標(biāo)注文本短語的工具,標(biāo)注結(jié)果信息豐富且與維基百科信息互相關(guān)聯(lián)[3],但所用知識庫僅支持英語。Usbeck 等提出將AGDISTIS 方法用于命名實(shí)體識別,以標(biāo)簽與HITS 算法進(jìn)行提取[4]。Speck等研發(fā)FOX 工具,通過實(shí)體關(guān)聯(lián)技術(shù)與EL 算法,實(shí)現(xiàn)文本轉(zhuǎn)換,提取出RDF(Resource Descripition Framework)數(shù)據(jù),F(xiàn)值(F-Measure)達(dá)95.23%[5]。張海楠、Lample 等提出運(yùn)用神經(jīng)網(wǎng)絡(luò)來解決NER 問題,通過非監(jiān)督學(xué)習(xí)進(jìn)行識別,以降低人工成本[6-7],此方法雖然識別度高,但提取的文本僅是字符串,缺少語義性與關(guān)聯(lián)性。

      上述命名實(shí)體識別工具雖然識別效果較好,具有借鑒作用,但無法滿足上圖所需場景:一是上述工具的詞典與上圖需要加工的歷史人文數(shù)據(jù)不匹配;二是識別工具要根據(jù)人名、地名、時間、事件、自定義標(biāo)簽等進(jìn)行識別;三是識別結(jié)果應(yīng)是關(guān)聯(lián)數(shù)據(jù),與上圖已有關(guān)聯(lián)數(shù)據(jù)形成關(guān)聯(lián)。

      2 命名實(shí)體識別工具需求與設(shè)計

      2.1 命名實(shí)體識別系統(tǒng)需求

      上圖在眾多基礎(chǔ)知識庫與服務(wù)平臺的建設(shè)實(shí)施過程中,通過OpenRefine工具與人工處理的方法,對大量文本進(jìn)行數(shù)據(jù)加工與實(shí)體提取,取得了一定成果,但需要耗費(fèi)大量人力、時間,尤其是在處理新數(shù)據(jù)時,人名、地名實(shí)體重復(fù)出現(xiàn),需要再次加工。為優(yōu)化數(shù)據(jù)處理流程,降低成本,加快數(shù)據(jù)處理速度,快速將識別結(jié)果轉(zhuǎn)為關(guān)聯(lián)數(shù)據(jù),本研究基于上圖基礎(chǔ)語義知識庫,在ETL加工環(huán)節(jié)增加命名實(shí)體識別功能。其主要特征有:對中文文本進(jìn)行實(shí)體識別,命名實(shí)體識別詞典基于上圖數(shù)字人文基礎(chǔ)知識庫;識別實(shí)體與上圖數(shù)字人文知識庫的關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián);可識別不同類別的實(shí)體,包括人名、地名、機(jī)構(gòu)、姓氏等,可自定義新的分類。

      圖1 命名實(shí)體識別系統(tǒng)架構(gòu)圖

      2.2 系統(tǒng)架構(gòu)設(shè)計

      本研究開發(fā)的命名實(shí)體識別系統(tǒng)以上圖已有關(guān)聯(lián)數(shù)據(jù)作為識別詞典,通過命名實(shí)體識別算法對文本中的內(nèi)容進(jìn)行識別,識別結(jié)果與上圖關(guān)聯(lián)數(shù)據(jù)進(jìn)行對應(yīng)。系統(tǒng)架構(gòu)見圖1。

      (1)輸入層。輸入層以需識別的文本為輸入?yún)?shù),通常是文獻(xiàn)中的摘要、正文信息。在輸入層對識別內(nèi)容的標(biāo)簽進(jìn)行預(yù)選擇,如人名、地名、姓氏,以此根據(jù)不同需求進(jìn)行特定內(nèi)容的識別。

      (2)識別層。識別層是命名實(shí)體識別的核心模塊,通過關(guān)聯(lián)技術(shù)的本體模塊與命名實(shí)體識別算法模塊的結(jié)合,實(shí)現(xiàn)對輸入文本的識別。由于識別結(jié)果是關(guān)聯(lián)數(shù)據(jù),一定程度上解決部分命名實(shí)體識別工具識別結(jié)果僅是字符串的問題,具有關(guān)系發(fā)現(xiàn)的特性。由于是在上圖已知數(shù)據(jù)源中識別,精準(zhǔn)的識別對命名實(shí)體消歧起到了改善作用。

      (3)輸出層。輸出層包括識別結(jié)果的展示與下載。當(dāng)識別完成后,會展示文本的識別結(jié)果,展示結(jié)果添加了關(guān)聯(lián)數(shù)據(jù)的URI。通過URI,此文本與上圖的數(shù)據(jù)形成關(guān)聯(lián),可通過上圖API接口獲取更多的內(nèi)容信息。

      2.3 識別詞典設(shè)計

      本研究使用的識別詞典主要來自上圖,包括人名規(guī)范庫、地理名詞表、上海歷史文化年譜,3個知識庫分別對應(yīng)數(shù)據(jù)中的人名、地名、事件。使用上圖知識庫的主要原因包括:(1)上圖知識庫數(shù)據(jù)采用語義網(wǎng)RDF框架,通過三元組形式構(gòu)建本體。正因為以本體作為詞典進(jìn)行識別,識別結(jié)果也是本體。(2)上圖人名規(guī)范庫的人名本體有130萬個,來源于上圖館藏。因為上圖搭建了大數(shù)據(jù)級別的人名關(guān)聯(lián)數(shù)據(jù),所以能作為命名實(shí)體識別的詞典。(3)上圖知識庫是開放的,提供通用API接口,支持JSON、XML等格式,調(diào)用方便,兼容性好。關(guān)聯(lián)數(shù)據(jù)的特征是每個本體都有一個URI標(biāo)示,數(shù)據(jù)以三元組形式進(jìn)行描述。將本體作為識別詞典,當(dāng)識別的實(shí)體與本體形成關(guān)聯(lián),則能通過關(guān)聯(lián)數(shù)據(jù)的本體結(jié)構(gòu),獲取文本之外的信息。例如,識別出一個人名實(shí)體,通過關(guān)聯(lián)數(shù)據(jù)就可以獲取此人的籍貫、朝代、年齡等信息。通過關(guān)聯(lián)獲取的信息,一方面豐富了識別內(nèi)容,另一方面也為識別結(jié)果的消歧提供了依據(jù)。

      2.4 命名實(shí)體識別功能設(shè)計

      本研究命名實(shí)體識別流程見圖2。下文結(jié)合樣例對上述過程進(jìn)行說明。

      (1)定義詞典。識別前,首先引入2部詞典作為語料:1998 年的人民日報語料庫和上圖關(guān)聯(lián)數(shù)據(jù)詞典。上圖關(guān)聯(lián)數(shù)據(jù)詞典包含人名、機(jī)構(gòu)、姓氏3部分,其中人名詞典收錄近130萬個人名、607個姓氏、42個機(jī)構(gòu)。

      (2)中文分詞。中文分詞通過HANLP提供的基于隱馬爾可夫模型的HMM-Bigram模型對輸入文本進(jìn)行分詞。使用HANLP 的主要原因是,其對命名實(shí)體識別、機(jī)器學(xué)習(xí)算法進(jìn)行封裝,使用便捷。例如,“長江劇場位于黃河路35號,原名卡爾登大戲院”這段話,通過分詞得到的結(jié)果是“長江劇場/名詞……卡爾登大戲院/名詞”。

      (3)句法分析。句法分析使用HANLP提供的基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器,依存句法分析是對文本的內(nèi)容進(jìn)行關(guān)系標(biāo)注。語文關(guān)系有15種,包括主謂關(guān)系、動賓關(guān)系、間賓關(guān)系等。引入句法分析主要是為了進(jìn)行過濾操作。例如,“長江劇場位于黃河路35號”在未引入詞典的情況下,通過中文分詞會提取到“長江,劇場”,通過依存句法分析可知,“長江”與“劇場”是定中關(guān)系,排除了“長江”這個識別結(jié)果。

      (4)結(jié)果處理。結(jié)果處理包含結(jié)果過濾與數(shù)據(jù)關(guān)聯(lián)。結(jié)果過濾主要是將中文分詞的結(jié)果與句法分析的結(jié)果進(jìn)行過濾,進(jìn)一步提高實(shí)體結(jié)果準(zhǔn)確性。數(shù)據(jù)關(guān)聯(lián)是將識別的結(jié)果與上圖本體一一匹配與關(guān)聯(lián),可通過上圖API接口獲取更多相關(guān)信息[8]。

      圖2 命名實(shí)體識別流程圖

      圖3 關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實(shí)現(xiàn)圖

      圖4 命名實(shí)體識別偽代碼

      3 命名實(shí)體識別工具的實(shí)現(xiàn)

      3.1 命名實(shí)體識別的實(shí)現(xiàn)

      (1)關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實(shí)現(xiàn)。關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換方法的實(shí)現(xiàn)見圖3。圖3以人名為例,首先從RDF數(shù)據(jù)中提取人名的名稱與URI,將其按詞典的要求進(jìn)行轉(zhuǎn)換,再通過HANLP提供的自定義詞典方法將命名實(shí)體添加到詞典。提取人名的作用是使其成為詞典的語料,URI的作用是保留關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)性,最終的識別結(jié)果可以通過URI來獲取關(guān)聯(lián)數(shù)據(jù)的其他信息。

      (2)命名實(shí)體識別實(shí)現(xiàn)。其偽代碼見圖4。以文本A的輸入為例,先加載關(guān)聯(lián)數(shù)據(jù)詞典,通過詞典識別方法對輸入文本進(jìn)行命名實(shí)體識別,得到基于詞典的命名實(shí)體識別結(jié)果B;再通過依存句法分析文本A獲得結(jié)果C,結(jié)果C主要記錄的是定中名詞與狀中名詞,以此在結(jié)果B中排除狀中名詞與定中名詞,最終生成的就是經(jīng)命名實(shí)體識別得到的實(shí)體。

      3.2 NER工具效果

      圖5展示的是基于年華人名詞典的NER識別結(jié)果。該詞典包含出身年月介于1840-1950年的7萬多個名人。選用年華人名詞典的主要原因是其時間與輸入事件的時間吻合,通過此詞典可提高結(jié)果的準(zhǔn)確率與召回率。圖5中,以橙色標(biāo)注的是識別出的實(shí)體,其中數(shù)字代表識別對應(yīng)的個數(shù),通過單擊實(shí)體,可以跳轉(zhuǎn)到上圖人名規(guī)范庫的對應(yīng)實(shí)體,從而獲取此實(shí)體更詳細(xì)的信息。

      圖5 實(shí)體識別功能展示圖

      3.3 實(shí)體識別工具效果對比

      對上圖命名實(shí)體識別工具(簡稱“上圖識別工具”)、人工方法、BosonNLP工具的處理結(jié)果進(jìn)行比較,共用10組數(shù)據(jù)。綜合來看,上圖識別工具在降低少量準(zhǔn)確率的前提下,可以對文本進(jìn)行快速處理,這是人工方法無法比擬的。上圖識別工具識別的結(jié)果是關(guān)聯(lián)數(shù)據(jù),其豐富性、關(guān)聯(lián)性、可挖掘性遠(yuǎn)勝于人工與BosonNLP所識別的結(jié)果。三者的識別效果見表1。

      表1 實(shí)體識別效果對比

      4 結(jié)論及展望

      上圖研發(fā)的命名實(shí)體識別工具在ETL數(shù)據(jù)處理過程中起到了很大作用,彌補(bǔ)了上圖沒有命名實(shí)體識別的短板,主要特色包括:(1)實(shí)現(xiàn)了基于數(shù)字人文詞典的命名實(shí)體識別,識別的實(shí)體不再是簡單的字符串,而是關(guān)聯(lián)數(shù)據(jù)。關(guān)聯(lián)技術(shù)與命名實(shí)體識別技術(shù)形成互補(bǔ),使命名實(shí)體識別可以在更多文本中挖掘關(guān)聯(lián)數(shù)據(jù),提升了識別結(jié)果的質(zhì)量。(2)命名實(shí)體識別加強(qiáng)了ETL功能,數(shù)據(jù)處理效果得到改善。在大量文本中,通過NER工具可以快速識別其中的實(shí)體,在其識別的基礎(chǔ)上加入部分人工,可以更高效率地獲得高質(zhì)量數(shù)據(jù)。

      本研究的命名實(shí)體識別工具也有需要改進(jìn)的地方:(1)基于已知數(shù)據(jù)進(jìn)行挖掘,把不在詞典中的命名實(shí)體過濾了,在今后的功能設(shè)計中應(yīng)引入新的工作流來處理這些被過濾的命名實(shí)體。這樣既能對這些命名實(shí)體進(jìn)行發(fā)現(xiàn),又能將其轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)。(2)中文詞性分析上有欠缺,文本挖掘中實(shí)體的詞性分析還需要重新梳理,縮小范圍,以提高實(shí)體識別的準(zhǔn)確度。

      猜你喜歡
      知識庫命名詞典
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      《胡言詞典》(合集版)刊行
      阿城市| 华容县| 长沙市| 甘洛县| 兴国县| 林周县| 邢台县| 团风县| 沽源县| 平定县| 泰兴市| 益阳市| 晋江市| 金秀| 鹤庆县| 镇巴县| 赞皇县| 康保县| 龙州县| 长白| 昆明市| 惠水县| 通化市| 桃园市| 潞城市| 石景山区| 四子王旗| 廊坊市| 犍为县| 锡林浩特市| 巴马| 芜湖县| 莱芜市| 司法| 新安县| 长寿区| 周口市| 文山县| 沽源县| 开平市| 奎屯市|