• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞性標(biāo)注規(guī)則的馬鈴薯文獻(xiàn)信息抽取方法

    2023-10-12 09:45:44王騰陽(yáng)趙小丹胡林
    科學(xué)技術(shù)與工程 2023年27期
    關(guān)鍵詞:規(guī)則文本信息

    王騰陽(yáng),趙小丹,胡林

    (中國(guó)農(nóng)業(yè)科學(xué)院,農(nóng)業(yè)信息研究所,北京 100081)

    馬鈴薯是中國(guó)第四大糧食作物,除了能夠兼做糧食、蔬菜和飼料,還有很多加工用途,產(chǎn)業(yè)鏈較長(zhǎng),有很大的潛力增產(chǎn)增收[1]。馬鈴薯育種研究人員育成新品種后會(huì)以論文的形式發(fā)布研究成果,內(nèi)容通常包括馬鈴薯新品種的選育過(guò)程、特征特性、抗病性、品質(zhì)分析等[2]。由于論文采用自然語(yǔ)言編寫(xiě),缺少結(jié)構(gòu)化的表述信息,積累了大量的非結(jié)構(gòu)化文本數(shù)據(jù),因此大規(guī)模的育種文獻(xiàn)給人工整理品種數(shù)據(jù)帶來(lái)了極大的挑戰(zhàn)[3]。因此,亟需利用自然語(yǔ)言處理等技術(shù)自動(dòng)分析馬鈴薯育種文獻(xiàn)文本,抽取文本中的品種名、親本、株高株型、抗病性等屬性。這些信息可以用來(lái)搭建馬鈴薯遺傳育種數(shù)據(jù)庫(kù),為馬鈴薯智能育種決策提供基礎(chǔ)服務(wù)。

    信息抽取指的是從自然語(yǔ)言文本中抽取指定類(lèi)型的實(shí)體、屬性等信息,并形成結(jié)構(gòu)化數(shù)據(jù)的文本處理技術(shù)[4]。張萌等[5]對(duì)城市軌道交通安全事件案例的自由文本制定知識(shí)元屬性、構(gòu)建詞庫(kù),并對(duì)文本進(jìn)行分詞,利用正則表達(dá)式抽取事件信息,但因其抽取規(guī)則制定不完善,部分知識(shí)元抽取效果不理想。譚永濱等[6]研究提取交通微博文本信息的方法,提出基于線(xiàn)性參照方法構(gòu)建位置表達(dá)模式庫(kù),并將模式庫(kù)表達(dá)為T(mén)rie樹(shù),利用有限狀態(tài)機(jī)匹配微博文本中位置表達(dá)模式,識(shí)別并提取微博文本中的位置信息,其錯(cuò)誤結(jié)果主要來(lái)自未登錄地名與模式不確定性。劉時(shí)翔[7]研究半結(jié)構(gòu)化金融文本信息抽取,用正則表達(dá)式抽取電話(huà)號(hào)碼等簡(jiǎn)單項(xiàng)信息,利用行文格式、分隔符號(hào)等特點(diǎn),用隱含馬爾柯夫模型(hidden Markov model,HMM)模型抽取復(fù)雜項(xiàng)信息,造成抽取結(jié)果錯(cuò)誤的因素有文本塊的邊界難以劃分,大量過(guò)渡數(shù)據(jù)使文本塊數(shù)據(jù)連續(xù)性較差,合同結(jié)構(gòu)隨意性較大等。Feng等[8]提出基于主題識(shí)別和命名實(shí)體識(shí)別的信息抽取方法,提取新冠疫情通報(bào)文本信息的風(fēng)險(xiǎn)區(qū)域和疫情軌跡信息。Martin[9]研究使用深度學(xué)習(xí)的方法識(shí)別企業(yè)發(fā)票的結(jié)構(gòu)化文本,為企業(yè)節(jié)約人工提取成本。

    雖然馬鈴薯育種文獻(xiàn)文本描述形式多樣,但論文作者對(duì)馬鈴薯特征特性的描述有規(guī)律可循,如“株高50 cm左右”“干物質(zhì)含量15.4%”“皮色淡黃”“肉色白色”等,目標(biāo)詞可以歸類(lèi)為某一具體詞性,并且相對(duì)于實(shí)體間的關(guān)系,任務(wù)更專(zhuān)注于提取實(shí)體的屬性值,所以可使用自然語(yǔ)言處理的方法,將待處理文本進(jìn)行分詞,對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注,根據(jù)語(yǔ)句中的詞性獲取目標(biāo)詞。因此,現(xiàn)面向馬鈴薯種質(zhì)資源領(lǐng)域,基于文本處理的分詞和詞性標(biāo)注結(jié)果,編寫(xiě)規(guī)則庫(kù),根據(jù)規(guī)則對(duì)符合詞性的目標(biāo)詞實(shí)現(xiàn)快速匹配,據(jù)此提出基于詞性標(biāo)注和規(guī)則庫(kù)的馬鈴薯育種文獻(xiàn)信息抽取模型,以期實(shí)現(xiàn)馬鈴薯育種文獻(xiàn)中的種質(zhì)資源信息結(jié)構(gòu)化。

    1 文獻(xiàn)信息抽取

    1.1 實(shí)驗(yàn)環(huán)境

    本實(shí)驗(yàn)編程語(yǔ)言使用Python 3.8。自然語(yǔ)言處理技術(shù)使用HanLP[10],包括中文分詞、詞性標(biāo)注等。具體實(shí)驗(yàn)流程如下文所述。

    1.2 數(shù)據(jù)預(yù)處理

    PDF文檔分為兩類(lèi),一類(lèi)是文字內(nèi)容可以完整讀取的正常文檔;另一類(lèi)是文字讀取與預(yù)期不符的文檔。文字讀取與預(yù)期不符的情況包括但不限于數(shù)字被符號(hào)代替、段落的行順序錯(cuò)亂等。雖然光學(xué)字符識(shí)別(optical character recognition,OCR)可以實(shí)現(xiàn)該類(lèi)文檔的文本化,但由于期刊論文正文存在左右排版方式,使用OCR自上而下地識(shí)別會(huì)造成文字順序混亂。因此需要先分割文檔圖像的各個(gè)文本塊,將分割出的圖片按閱讀順序排序,通過(guò)OCR獲取圖片內(nèi)的文字并進(jìn)行匯總。

    首先將待處理的PDF文檔頁(yè)面轉(zhuǎn)化為文字為白色、背景為黑色的反二值圖像,使用游程平滑算法將文字連通,形成連通圖。游程平滑算法[11]可以應(yīng)用于文檔圖像分割處理,該算法對(duì)一行(列)上的兩個(gè)黑色像素點(diǎn)間的距離進(jìn)行判斷,如果兩個(gè)相鄰黑色像素點(diǎn)間空白像素的個(gè)數(shù)小于設(shè)定的閾值時(shí),就將這兩點(diǎn)之間的空白像素點(diǎn)全部填黑。當(dāng)算法的水平閾值Thor=3、垂直閾值Tver=3時(shí),運(yùn)行效果如圖1所示。

    圖1 游程平滑算法示意圖

    通過(guò)開(kāi)源計(jì)算機(jī)視覺(jué)庫(kù)(OpenCV)中的相關(guān)方法,檢測(cè)經(jīng)過(guò)游程平滑算法處理后的圖像中各個(gè)連通圖的矩形邊框,獲得其邊緣坐標(biāo)。根據(jù)得到的坐標(biāo),截取源PDF文檔頁(yè)面圖像中的對(duì)應(yīng)位置,按照從左到右、從上到下的順序,依次命名保存文字圖像,作為OCR文字識(shí)別的輸入源。處理流程如圖2所示,最終得到的文本塊分割結(jié)果,用矩形邊框標(biāo)注。

    圖2 處理文獻(xiàn)過(guò)程圖

    由于直接提取PDF文檔或通過(guò)OCR文字識(shí)別提取文檔均存在全角字符、語(yǔ)句中存在多余換行符以及文字間存在多余空格等問(wèn)題,因此需要先將文本內(nèi)容按順序進(jìn)行如下處理:①全角字符轉(zhuǎn)化為半角字符;②去除文字之間多余空格;③刪除文字內(nèi)換行符。

    1.3 基于詞性標(biāo)注和規(guī)則庫(kù)的信息抽取方法設(shè)計(jì)

    規(guī)則庫(kù)使用Json格式保存在文件。每一對(duì)鍵值對(duì)中,鍵表示抽取項(xiàng)的名稱(chēng),值表示抽取項(xiàng)的規(guī)則。規(guī)則的設(shè)計(jì)包含下面五類(lèi):①關(guān)鍵詞;②按照詞性標(biāo)注的抽取規(guī)則;③目標(biāo)詞中的屏蔽詞;④抽取關(guān)鍵詞所在關(guān)鍵句中不允許出現(xiàn)的詞;⑤提供預(yù)設(shè)詞進(jìn)行匹配(以鍵值對(duì)表示,鍵表示匹配原始文本中的詞,值表示抽取結(jié)果中展示的詞)。

    使用關(guān)鍵詞結(jié)合正則表達(dá)式,獲取目標(biāo)抽取項(xiàng)所在語(yǔ)句,在獲取的所有語(yǔ)句列表中,刪除包含不允許出現(xiàn)的詞的語(yǔ)句,隨后對(duì)語(yǔ)句進(jìn)行分詞、詞性標(biāo)注,通過(guò)抽取規(guī)則定位關(guān)鍵詞位置和目標(biāo)抽取項(xiàng)位置。對(duì)于一些表述不規(guī)律、不能使用分詞和詞性標(biāo)注方法獲取的,例如,抗病性只有抗、不抗、高抗等幾種表述,但由于其表述時(shí)有多種疾病混在一起,很難通過(guò)分詞的方法來(lái)獲取,這種情況使用匹配預(yù)設(shè)詞并結(jié)合判斷目標(biāo)項(xiàng)與預(yù)設(shè)詞的距離之間的距離的方法獲取目標(biāo)項(xiàng)。信息抽取流程圖如圖3所示。

    圖3 信息抽取流程圖

    1.3.1 關(guān)鍵詞規(guī)則設(shè)計(jì)

    關(guān)鍵詞用于在待抽取文本中提取目標(biāo)項(xiàng)所在語(yǔ)句,根據(jù)關(guān)鍵詞的位置,在語(yǔ)句中使用基于詞性標(biāo)注規(guī)則和預(yù)設(shè)詞的方法實(shí)現(xiàn)抽取目標(biāo)項(xiàng)。用戶(hù)建立關(guān)鍵詞庫(kù),需要根據(jù)提取項(xiàng),在待提取文本中找到相關(guān)表述。用戶(hù)在人工校對(duì)提取結(jié)果時(shí)若發(fā)現(xiàn)抽取項(xiàng)的新關(guān)鍵詞,可以將其添加至關(guān)鍵詞庫(kù),從而優(yōu)化提取效果。使用正則表達(dá)式獲取關(guān)鍵詞所在語(yǔ)句,具體方法為從關(guān)鍵詞開(kāi)始向前(后)直到達(dá)到20個(gè)文字或者遇到標(biāo)點(diǎn)符號(hào)為止。本文使用關(guān)鍵詞定位抽取項(xiàng)所在文本句,對(duì)于關(guān)鍵詞規(guī)則的設(shè)計(jì),考慮如下幾種情況:①關(guān)鍵詞之間是“或”的關(guān)系;②關(guān)鍵詞之間是“與”的關(guān)系;③關(guān)鍵詞之間是互斥的關(guān)系;④關(guān)鍵詞之間是上述幾種關(guān)系結(jié)合的關(guān)系。

    關(guān)鍵詞規(guī)則如“A(BC,D,^E)/F/G”,表示提取的文本句需要符合包含A或F或G;在包含A的情況下,需要滿(mǎn)足同時(shí)包含B或C,以及包含D,但不能包含E。目標(biāo)提取項(xiàng)所在句可能涉及多個(gè)不同的關(guān)鍵詞,在上述示例規(guī)則中,A、F、G稱(chēng)為主關(guān)鍵詞,每一個(gè)主關(guān)鍵詞后面允許加括號(hào),括號(hào)內(nèi)的詞稱(chēng)為次關(guān)鍵詞,與主關(guān)鍵詞的關(guān)系和“邏輯與”相同,表示提取語(yǔ)句需要同時(shí)包含主關(guān)鍵詞和所有的次關(guān)鍵詞。主關(guān)鍵詞之間以 “/”分割,次關(guān)鍵詞之間以 “”分割,與“邏輯或”相同。用“^”符號(hào)表示不允許提取語(yǔ)句中包含的關(guān)鍵詞。

    1.3.2 分詞與詞性標(biāo)注

    分詞與詞性標(biāo)注使用HanLP自然語(yǔ)言處理工具包。首先將提取的關(guān)鍵詞語(yǔ)句進(jìn)行分詞。在進(jìn)行詞性標(biāo)注前,對(duì)分詞結(jié)果進(jìn)行預(yù)處理有利于后續(xù)的信息抽取過(guò)程。

    對(duì)分詞結(jié)果的預(yù)處理主要為合并部分分詞內(nèi)容。例如,中國(guó)馬鈴薯品種的命名方式大多為“X薯X號(hào)”,在分詞時(shí)通常會(huì)將品種名中的“X薯”和“X號(hào)”分開(kāi),在進(jìn)行信息抽取前將其合并會(huì)提高抽取的準(zhǔn)確率。同理,對(duì)單引號(hào)、雙引號(hào)等內(nèi)部無(wú)需分詞的內(nèi)容統(tǒng)一進(jìn)行合并,可以有效改善抽取效果。另外,需要添加關(guān)鍵詞到自定義詞典,防止關(guān)鍵詞被分詞影響后續(xù)抽取過(guò)程。

    詞性標(biāo)注使用CTB(chinese treebank)標(biāo)注集(表1)[12],結(jié)合自定義詞庫(kù)對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注。

    表1 部分CTB詞性標(biāo)注集

    1.3.3 基于詞性標(biāo)注的規(guī)則庫(kù)設(shè)計(jì)

    規(guī)則基于分詞和詞性標(biāo)注結(jié)果制定,在規(guī)則中,每一個(gè)匹配項(xiàng)使用CTB詞性標(biāo)注集中的標(biāo)簽代替。每一條規(guī)則都要包含作為提取依據(jù)的關(guān)鍵詞和需要提取的目標(biāo)詞。關(guān)鍵詞使用“KEYWORD”代替,目標(biāo)詞使用“TARGET”代替,用“ANY”代替兩個(gè)標(biāo)簽間任意數(shù)量、任意詞性的標(biāo)簽。抽取規(guī)則允許在同一位置有多種詞性標(biāo)簽,標(biāo)簽間用“/”分割,因?yàn)槟繕?biāo)詞有可能被分詞,采用的解決方法是在規(guī)則中使用多個(gè)“TARGET”標(biāo)簽,在抽取完成后將抽取的多個(gè)“TARGET”進(jìn)行合并得到抽取結(jié)果?!癟ARGET”標(biāo)簽設(shè)計(jì)為可以指定特定的詞性標(biāo)簽或不允許為某個(gè)特定詞性標(biāo)簽。語(yǔ)法同關(guān)鍵詞的設(shè)計(jì)類(lèi)似,指定特定的標(biāo)簽間用“/”分割;在標(biāo)簽前加“^”符號(hào)表示不允許抽取某個(gè)特定標(biāo)簽。

    抽取過(guò)程如下:①定位在規(guī)則中關(guān)鍵詞和目標(biāo)詞的所在位置;②定位關(guān)鍵詞在分詞結(jié)果中的位置;③迭代檢查詞性標(biāo)注結(jié)果是否符合規(guī)則;④合并、返回抽取結(jié)果。

    設(shè)關(guān)鍵詞在分詞結(jié)果的位置為Pt,在規(guī)則中的位置為Pr,以規(guī)則中包含的元素個(gè)數(shù)N作為迭代次數(shù),用i表示,即i=0,1,2,…,N-1。

    詞性標(biāo)注結(jié)果中迭代索引映射為

    Index=Pt-Pr+i

    (1)

    每次迭代都要判斷詞性標(biāo)注結(jié)果是否符合規(guī)則,具體的判斷依據(jù)有:①索引是否位于有效范圍內(nèi);②詞性標(biāo)注結(jié)果是否在規(guī)則內(nèi);③索引是否為特殊情況(例如:索引為關(guān)鍵詞位置時(shí),不要求②成立)。當(dāng)不滿(mǎn)足上述條件時(shí),跳出迭代并返回空字符串。抽取數(shù)據(jù)文本樣式如圖4所示(關(guān)鍵詞以加粗斜體表示)。

    部分抽取語(yǔ)句示例如表2所示,在“原語(yǔ)句”列中,關(guān)鍵詞為加粗字體。

    1.3.4 基于預(yù)設(shè)詞的抽取規(guī)則設(shè)計(jì)

    在馬鈴薯育種文獻(xiàn)中,對(duì)于如抗病性的表述方法比較多樣,使用詞性標(biāo)注的抽取方法不能滿(mǎn)足需求,但需要提取的目標(biāo)詞的表述較為統(tǒng)一。例如“抗晚疫病、PVX、PVY”,單純使用詞性標(biāo)注的方法雖然可以獲得該品種對(duì)晚疫病的抗性結(jié)果,但對(duì)PVX和PVY的抗性難以制定規(guī)則獲得相關(guān)表述;又如“植株抗晚疫病、感輕花葉和重花葉病毒病”和“晚疫病:高抗”兩種表述中,若只根據(jù)第二種表述制定規(guī)則“關(guān)鍵詞(KEYWORD),標(biāo)點(diǎn)符號(hào)(PU),目標(biāo)詞(TARGET)”,則在第一句明顯會(huì)匹配錯(cuò)誤的結(jié)果,對(duì)于此類(lèi)使用詞性標(biāo)注規(guī)則方法難以提取,且需要提取的目標(biāo)詞表述較為統(tǒng)一的語(yǔ)句,使用基于預(yù)設(shè)詞的抽取方法。

    預(yù)設(shè)詞使用鍵值對(duì)保存,鍵用于保存關(guān)鍵詞語(yǔ)句中的匹配詞,值用于保存給用戶(hù)輸出結(jié)果的詞。

    抽取過(guò)程如下:①獲取關(guān)鍵詞、預(yù)設(shè)詞在句中位置;②在語(yǔ)句中所有的預(yù)設(shè)詞里,尋找距離關(guān)鍵詞最近的一個(gè),添加進(jìn)結(jié)果集。

    1.3.5 抽取結(jié)果的匯總與清洗

    完成通過(guò)基于詞性標(biāo)注和基于預(yù)設(shè)詞的兩種抽取方法后,將兩種抽取結(jié)果添加進(jìn)一個(gè)集合中進(jìn)行匯總。通過(guò)詞性標(biāo)注的抽取方法可能將不相關(guān)的詞也統(tǒng)計(jì)入抽取結(jié)果,因此需要將匯總后的抽取結(jié)果匹配規(guī)則庫(kù)中的違禁詞進(jìn)行篩選,從而得到更加準(zhǔn)確的抽取結(jié)果。

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 數(shù)據(jù)來(lái)源與評(píng)價(jià)標(biāo)準(zhǔn)

    測(cè)試集為馬鈴薯育種文獻(xiàn)115篇,文獻(xiàn)為PDF格式,通過(guò)人工標(biāo)注抽取項(xiàng)和正確的抽取結(jié)果,針對(duì)每篇文獻(xiàn)內(nèi)容包含的馬鈴薯品種名稱(chēng)、親本、株型株高、皮色肉色、抗病性等共20個(gè)數(shù)據(jù)項(xiàng)進(jìn)行信息抽取實(shí)驗(yàn)。由于部分文獻(xiàn)中不包含全部抽取項(xiàng),因此抽取項(xiàng)數(shù)目總計(jì)1 490項(xiàng)。由于文獻(xiàn)來(lái)自不同的年代,作者對(duì)馬鈴薯性狀描述的側(cè)重點(diǎn)不同,大部分文獻(xiàn)不包含全部的20個(gè)抽取項(xiàng)。測(cè)試集文獻(xiàn)的抽取項(xiàng)數(shù)目分布如圖5所示。

    圖5 測(cè)試集抽取項(xiàng)數(shù)目分布

    文本信息抽取總共分為四種情況:TP表示文本中有數(shù)據(jù),并且成功抽取到數(shù)據(jù);FP表示文本中缺失數(shù)據(jù),但抽取到了數(shù)據(jù);TN表示文本中缺失數(shù)據(jù),也沒(méi)有抽取到數(shù)據(jù);FN表示文本中有數(shù)據(jù),但沒(méi)有抽取到數(shù)據(jù)。以精確率P、召回率R和F作為性能評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算公式[13]為

    (2)

    (3)

    (4)

    2.2 方法結(jié)果對(duì)比

    為了進(jìn)一步驗(yàn)證本文方法的有效性,使用了傳統(tǒng)信息抽取方法作為對(duì)比。作為對(duì)比的基于普通規(guī)則的傳統(tǒng)信息抽取方法與本文基于詞性標(biāo)注和預(yù)設(shè)詞信息抽取方法的文本預(yù)處理、關(guān)鍵詞與規(guī)則庫(kù)的處理方式相同,主要區(qū)別在于信息抽取部分。傳統(tǒng)信息抽取方法使用正則表達(dá)式定位關(guān)鍵詞,以某個(gè)指定字符作為邊界,截取關(guān)鍵詞到指定字符范圍之間的內(nèi)容作為抽取結(jié)果。各方法的抽取結(jié)果統(tǒng)計(jì)見(jiàn)表3。

    表3 抽取結(jié)果統(tǒng)計(jì)

    在普通規(guī)則方法中,抽取成功的比率達(dá)87.38%,能夠有效抽取信息,但其準(zhǔn)確率僅為53.89%,表明該方法提取有近一半不需要的干擾信息?;谠~性標(biāo)注規(guī)則中,抽取成功的。普通規(guī)則的抽取方法使用正則表達(dá)式提取目標(biāo)信息,該方法的局限性在于注重于語(yǔ)句的字?jǐn)?shù)、結(jié)構(gòu)是否合規(guī),缺少對(duì)文本內(nèi)容的判斷,導(dǎo)致提取到過(guò)多的無(wú)效信息。本文使用的基于詞性標(biāo)注規(guī)則彌補(bǔ)了普通規(guī)則的缺陷,使用詞性標(biāo)注判斷文本內(nèi)容是否有效,達(dá)到去除無(wú)效信息的效果。

    本文抽取結(jié)果評(píng)價(jià)如圖6所示,由圖6可知,不論是基于詞性標(biāo)注規(guī)則還是基于預(yù)設(shè)詞的抽取方法,召回率接近甚至達(dá)到100%,但準(zhǔn)確率在基于詞性標(biāo)注規(guī)則中為82%,在基于預(yù)設(shè)詞中為84%,本文所使用的基于詞性標(biāo)注規(guī)則的方法能夠有效提取馬鈴薯育種文獻(xiàn)中所需信息,但提取出不需要的結(jié)果的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)提取失敗結(jié)果的數(shù)量。

    圖6 信息抽取結(jié)果評(píng)價(jià)

    通過(guò)分析提取結(jié)果得知,提取失敗的原因主要有以下幾種。

    (1)分詞結(jié)果不準(zhǔn)確;在分詞時(shí),有時(shí)會(huì)存在目標(biāo)詞被分詞和不被分詞兩種情況,在制定規(guī)則時(shí)會(huì)針對(duì)兩種情況分別制定,例如,在處理品種名“晉薯1號(hào)”時(shí),會(huì)將其分詞為“晉”“薯”和“1號(hào)”三個(gè)部分;但在處理“威芋3號(hào)”時(shí),會(huì)將其分為“威芋”和“3號(hào)”兩個(gè)部分,導(dǎo)致在規(guī)則的制定和分詞結(jié)果的預(yù)處理上難以進(jìn)行處理從而無(wú)法準(zhǔn)確提取品種名。

    (2)文獻(xiàn)中涉及的品種不止一個(gè),還涉及對(duì)其親本的描述;在有些文獻(xiàn)中提到其親本信息,例如在“天薯13號(hào)[14]”的描述文獻(xiàn)中,不僅有對(duì)“天薯13號(hào)”的特征描述,還存在對(duì)其母本和父本的株型、高度、淀粉含量和皮色肉色等特征的描述,模型會(huì)將其特征描述全部提取作為結(jié)果,對(duì)正確的結(jié)果造成干擾,因此造成召回率不變,準(zhǔn)確率降低。

    (3)部分文獻(xiàn)所屬的期刊在排版中,存在有其他文章的頁(yè)面,導(dǎo)致提取到其他文章中的內(nèi)容。

    (4)部分年代較為久遠(yuǎn)的育種文獻(xiàn),文檔信息化程度較差,不論是直接提取PDF文檔文字,還是使用OCR對(duì)其內(nèi)容進(jìn)行文字識(shí)別,文字提取效果均不理想,造成文獻(xiàn)信息提取效果較差。

    3 結(jié)論

    以馬鈴薯育種文獻(xiàn)為對(duì)象,提出一種基于詞性標(biāo)注和規(guī)則庫(kù)的信息抽取模型,結(jié)果表明,總體正確率達(dá)82.97%,召回率達(dá)99.73%,F值為90.58%,因?yàn)槌槿〗Y(jié)果需要人工進(jìn)行校對(duì)再輸入進(jìn)育種數(shù)據(jù)庫(kù),所以希望模型在具有較高的準(zhǔn)確率的同時(shí),擁有更高的召回率,從而能減輕人工錄入的工作量,因此本文使用的抽取模型能夠有效提取文獻(xiàn)內(nèi)信息。該模型的重點(diǎn)在于分析分詞與詞性標(biāo)注結(jié)果,因此該抽取模型具有通用性,只需編寫(xiě)所需規(guī)則庫(kù),就能應(yīng)用到其他領(lǐng)域的抽取任務(wù)。該模型不僅能完成文本內(nèi)容的信息抽取,而且還實(shí)現(xiàn)了文本圖片的文本塊分割,根據(jù)頁(yè)面閱讀順序進(jìn)行排序,使用OCR文本識(shí)別提取文字內(nèi)容完成信息抽取。通過(guò)分析抽取結(jié)果,得出造成抽取錯(cuò)誤的原因主要有以下幾種。

    (1)分詞結(jié)果不準(zhǔn)確。

    (2)論文中涉及的品種不止一個(gè),作者也對(duì)其親本品種有所描述,造成抽取結(jié)果中有其他品種的屬性信息。

    (3)期刊將其他文章與待抽取文章排版到同一頁(yè)面,抽取到其他文章的信息。

    (4)提取PDF文件內(nèi)文字與預(yù)期不符等。

    未來(lái)將實(shí)現(xiàn)通過(guò)識(shí)別抽取屬性與主體間的關(guān)系,抽取論文內(nèi)所有主體的屬性信息,提高抽取準(zhǔn)確率的同時(shí),獲得更多品種的種質(zhì)資源數(shù)據(jù);針對(duì)農(nóng)業(yè)領(lǐng)域訓(xùn)練或微調(diào)分詞和詞性標(biāo)注模型,改善語(yǔ)句分詞效果,進(jìn)而提高信息抽取的準(zhǔn)確性。

    猜你喜歡
    規(guī)則文本信息
    撐竿跳規(guī)則的制定
    數(shù)獨(dú)的規(guī)則和演變
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    讓規(guī)則不規(guī)則
    Coco薇(2017年11期)2018-01-03 20:59:57
    訂閱信息
    中華手工(2017年2期)2017-06-06 23:00:31
    TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
    文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
    展會(huì)信息
    如何快速走進(jìn)文本
    国产三级黄色录像| 男女床上黄色一级片免费看| 叶爱在线成人免费视频播放| tocl精华| 欧美国产日韩亚洲一区| 免费一级毛片在线播放高清视频| 日本黄大片高清| 欧美av亚洲av综合av国产av| 黄频高清免费视频| aaaaa片日本免费| 午夜精品一区二区三区免费看| av免费在线观看网站| 又粗又爽又猛毛片免费看| 久久精品aⅴ一区二区三区四区| 亚洲av电影在线进入| 久久午夜亚洲精品久久| 两性夫妻黄色片| 国产精品久久视频播放| 成人av在线播放网站| 国产精品美女特级片免费视频播放器 | 国内久久婷婷六月综合欲色啪| www.精华液| 成人18禁在线播放| 日韩欧美 国产精品| 黑人巨大精品欧美一区二区mp4| 岛国在线观看网站| 蜜桃久久精品国产亚洲av| 中文字幕高清在线视频| 免费人成视频x8x8入口观看| 亚洲欧美日韩无卡精品| 国产黄片美女视频| 亚洲成人免费电影在线观看| 国产高清视频在线播放一区| 精品久久久久久,| 国产精品香港三级国产av潘金莲| 精品人妻1区二区| 欧美中文日本在线观看视频| 欧美中文日本在线观看视频| 国产人伦9x9x在线观看| 久久 成人 亚洲| 欧洲精品卡2卡3卡4卡5卡区| 高潮久久久久久久久久久不卡| 久久久精品大字幕| 国产亚洲精品综合一区在线观看 | 久久精品aⅴ一区二区三区四区| 免费av毛片视频| 在线观看日韩欧美| 精品无人区乱码1区二区| 青草久久国产| 亚洲人与动物交配视频| 可以在线观看的亚洲视频| 久久久国产成人免费| 女警被强在线播放| 亚洲av电影不卡..在线观看| 日韩欧美国产在线观看| 久久久久久久久中文| 色老头精品视频在线观看| 国产一级毛片七仙女欲春2| 亚洲自拍偷在线| 欧美午夜高清在线| 琪琪午夜伦伦电影理论片6080| 岛国在线免费视频观看| 亚洲成人久久爱视频| 日韩欧美在线二视频| 久久精品亚洲精品国产色婷小说| 黄色 视频免费看| 久久国产乱子伦精品免费另类| 舔av片在线| 老司机午夜十八禁免费视频| 日本熟妇午夜| 美女大奶头视频| 久久人妻福利社区极品人妻图片| 欧美3d第一页| 又黄又爽又免费观看的视频| 亚洲精品久久成人aⅴ小说| cao死你这个sao货| 91老司机精品| 国产男靠女视频免费网站| 女生性感内裤真人,穿戴方法视频| 麻豆国产av国片精品| 看免费av毛片| 男人舔女人的私密视频| a级毛片a级免费在线| 99久久精品国产亚洲精品| 一本综合久久免费| 男女做爰动态图高潮gif福利片| 亚洲黑人精品在线| 国内久久婷婷六月综合欲色啪| 黄色成人免费大全| 19禁男女啪啪无遮挡网站| 国产成人av教育| 日韩欧美在线乱码| 亚洲国产精品999在线| 一夜夜www| 老司机午夜福利在线观看视频| 99国产精品一区二区三区| 亚洲国产精品sss在线观看| 国产伦人伦偷精品视频| 天堂影院成人在线观看| 天天躁夜夜躁狠狠躁躁| 51午夜福利影视在线观看| 成熟少妇高潮喷水视频| 亚洲 欧美 日韩 在线 免费| 久久久久久国产a免费观看| 亚洲成人久久爱视频| 亚洲国产欧美网| 欧美又色又爽又黄视频| 精品免费久久久久久久清纯| 午夜老司机福利片| 欧美一级a爱片免费观看看 | 国产午夜精品久久久久久| 亚洲av成人av| 国产成人精品久久二区二区91| 在线观看免费日韩欧美大片| 女人被狂操c到高潮| 久久人妻av系列| 亚洲午夜理论影院| 妹子高潮喷水视频| 国产免费av片在线观看野外av| 亚洲熟妇熟女久久| 99riav亚洲国产免费| 中文字幕精品亚洲无线码一区| 老司机福利观看| 日日摸夜夜添夜夜添小说| 国产乱人伦免费视频| 欧美一区二区精品小视频在线| 啦啦啦免费观看视频1| 久久久水蜜桃国产精品网| 无人区码免费观看不卡| 亚洲va日本ⅴa欧美va伊人久久| 在线观看一区二区三区| 麻豆国产av国片精品| 欧美日本视频| 99久久精品热视频| 毛片女人毛片| 在线国产一区二区在线| 五月伊人婷婷丁香| 午夜精品在线福利| 黑人操中国人逼视频| 亚洲熟妇熟女久久| 亚洲一区高清亚洲精品| 国产精品久久久久久久电影 | 中文字幕av在线有码专区| 91成年电影在线观看| 99国产综合亚洲精品| 可以在线观看的亚洲视频| 欧美成人免费av一区二区三区| 精品久久久久久久久久免费视频| 又黄又爽又免费观看的视频| 欧美日本亚洲视频在线播放| 久久香蕉国产精品| 高清毛片免费观看视频网站| 国产成人啪精品午夜网站| 无限看片的www在线观看| 神马国产精品三级电影在线观看 | 欧美日韩亚洲国产一区二区在线观看| 国产精品亚洲美女久久久| 18禁观看日本| 亚洲熟妇中文字幕五十中出| 在线观看午夜福利视频| 国产成人啪精品午夜网站| 日韩国内少妇激情av| 国产男靠女视频免费网站| 九九热线精品视视频播放| 欧美人与性动交α欧美精品济南到| 亚洲中文日韩欧美视频| 国产精品久久久久久精品电影| 1024手机看黄色片| 国产伦在线观看视频一区| 美女午夜性视频免费| 91国产中文字幕| 午夜日韩欧美国产| 免费在线观看完整版高清| 99久久国产精品久久久| 女同久久另类99精品国产91| 欧美一区二区国产精品久久精品 | 神马国产精品三级电影在线观看 | 国产高清视频在线播放一区| a级毛片在线看网站| 啦啦啦观看免费观看视频高清| 国产野战对白在线观看| 亚洲色图 男人天堂 中文字幕| 韩国av一区二区三区四区| 少妇被粗大的猛进出69影院| 亚洲一区高清亚洲精品| 精品国产亚洲在线| 一夜夜www| 黄色a级毛片大全视频| 无遮挡黄片免费观看| 免费看十八禁软件| 国产精品亚洲美女久久久| 1024香蕉在线观看| 少妇的丰满在线观看| 欧美三级亚洲精品| 露出奶头的视频| 国产精品美女特级片免费视频播放器 | 国产亚洲精品综合一区在线观看 | aaaaa片日本免费| 亚洲国产日韩欧美精品在线观看 | 欧美成人免费av一区二区三区| 国内精品一区二区在线观看| 午夜免费成人在线视频| 麻豆久久精品国产亚洲av| 久久天堂一区二区三区四区| а√天堂www在线а√下载| 色综合欧美亚洲国产小说| 色老头精品视频在线观看| 中文字幕人成人乱码亚洲影| 国产黄a三级三级三级人| 午夜福利在线观看吧| 色尼玛亚洲综合影院| 亚洲专区国产一区二区| avwww免费| 亚洲黑人精品在线| 欧美国产日韩亚洲一区| 国语自产精品视频在线第100页| 国内揄拍国产精品人妻在线| 久久久久久久精品吃奶| 99热这里只有精品一区 | 国产成人啪精品午夜网站| 欧美日韩精品网址| 成人三级黄色视频| 久99久视频精品免费| 成人国产综合亚洲| 国产一区二区激情短视频| 亚洲精品国产一区二区精华液| 悠悠久久av| 国产成人精品久久二区二区91| 欧美最黄视频在线播放免费| 亚洲美女视频黄频| 亚洲欧美激情综合另类| 国产亚洲av高清不卡| 午夜福利在线在线| 波多野结衣高清作品| 99久久综合精品五月天人人| 神马国产精品三级电影在线观看 | 亚洲专区中文字幕在线| 久久精品91无色码中文字幕| 欧美日本视频| 国产av不卡久久| 一卡2卡三卡四卡精品乱码亚洲| 午夜视频精品福利| 18禁裸乳无遮挡免费网站照片| 黑人操中国人逼视频| 国产91精品成人一区二区三区| 色精品久久人妻99蜜桃| 欧美最黄视频在线播放免费| 国产精品av视频在线免费观看| 免费在线观看黄色视频的| 熟妇人妻久久中文字幕3abv| 国产主播在线观看一区二区| 午夜老司机福利片| 亚洲 欧美 日韩 在线 免费| 久久久久久大精品| 级片在线观看| av欧美777| 99热6这里只有精品| 全区人妻精品视频| 亚洲七黄色美女视频| 久久 成人 亚洲| 91麻豆精品激情在线观看国产| 两人在一起打扑克的视频| 亚洲国产高清在线一区二区三| 亚洲精品中文字幕一二三四区| 脱女人内裤的视频| 丰满人妻一区二区三区视频av | 亚洲一码二码三码区别大吗| 欧美精品亚洲一区二区| 狠狠狠狠99中文字幕| 国内久久婷婷六月综合欲色啪| 国产一级毛片七仙女欲春2| 一级黄色大片毛片| 精品第一国产精品| 国产亚洲精品久久久久久毛片| 国产不卡一卡二| 黄色视频,在线免费观看| 久久草成人影院| 亚洲av五月六月丁香网| 一进一出好大好爽视频| 欧美乱妇无乱码| 黄色毛片三级朝国网站| 国产三级在线视频| 免费人成视频x8x8入口观看| 黄频高清免费视频| 中文字幕精品亚洲无线码一区| 欧美 亚洲 国产 日韩一| 免费av毛片视频| 国产视频内射| 熟女电影av网| 视频区欧美日本亚洲| 欧美丝袜亚洲另类 | 母亲3免费完整高清在线观看| 国产又黄又爽又无遮挡在线| 午夜福利在线在线| 1024视频免费在线观看| 高潮久久久久久久久久久不卡| 亚洲 国产 在线| 欧美性猛交╳xxx乱大交人| 国产单亲对白刺激| 国产精品一区二区三区四区免费观看 | 久久精品91蜜桃| 国产爱豆传媒在线观看 | 午夜老司机福利片| 黑人操中国人逼视频| 成人三级黄色视频| 国产精品久久久久久精品电影| 免费高清视频大片| 精品久久久久久久毛片微露脸| 黄频高清免费视频| 18美女黄网站色大片免费观看| 中文字幕精品亚洲无线码一区| 一个人观看的视频www高清免费观看 | 全区人妻精品视频| 国产成人系列免费观看| www日本在线高清视频| 日韩高清综合在线| 天天躁夜夜躁狠狠躁躁| 少妇粗大呻吟视频| 欧美日韩国产亚洲二区| 老熟妇乱子伦视频在线观看| 亚洲人成网站在线播放欧美日韩| 免费在线观看影片大全网站| 午夜福利在线在线| 国产91精品成人一区二区三区| 长腿黑丝高跟| 日日干狠狠操夜夜爽| 最近在线观看免费完整版| 国产区一区二久久| 99热这里只有是精品50| 99国产精品一区二区三区| 亚洲中文字幕一区二区三区有码在线看 | 成年人黄色毛片网站| 欧美中文日本在线观看视频| 两个人看的免费小视频| 国产精品亚洲美女久久久| 动漫黄色视频在线观看| 丁香欧美五月| 国产一区二区激情短视频| 国产精品 国内视频| 午夜老司机福利片| 亚洲第一电影网av| 99热这里只有是精品50| 老熟妇乱子伦视频在线观看| 午夜免费成人在线视频| 欧美黑人欧美精品刺激| 久久久久久久精品吃奶| 曰老女人黄片| 国产男靠女视频免费网站| 88av欧美| 老鸭窝网址在线观看| 99热6这里只有精品| 九色国产91popny在线| 曰老女人黄片| 久久国产乱子伦精品免费另类| 99在线人妻在线中文字幕| 亚洲国产欧美一区二区综合| 免费看日本二区| 99国产精品99久久久久| 麻豆成人av在线观看| 91麻豆精品激情在线观看国产| 天堂√8在线中文| 九九热线精品视视频播放| 国产成年人精品一区二区| 精品不卡国产一区二区三区| 精品不卡国产一区二区三区| 久久国产精品影院| 国产精品国产高清国产av| 黄色 视频免费看| 久久精品国产清高在天天线| 色播亚洲综合网| 久久久国产成人精品二区| 亚洲成av人片在线播放无| 亚洲 欧美 日韩 在线 免费| 久久久久久久精品吃奶| 亚洲欧美日韩东京热| 九九热线精品视视频播放| 久久 成人 亚洲| 亚洲成人国产一区在线观看| 午夜久久久久精精品| 欧美黑人精品巨大| 国内精品一区二区在线观看| 91成年电影在线观看| 国产又黄又爽又无遮挡在线| 国产精品乱码一区二三区的特点| 久热爱精品视频在线9| 亚洲成a人片在线一区二区| 国内精品久久久久久久电影| 午夜老司机福利片| 真人做人爱边吃奶动态| 少妇粗大呻吟视频| 天堂√8在线中文| 久久性视频一级片| 国产av一区在线观看免费| 99re在线观看精品视频| 国产区一区二久久| 啦啦啦免费观看视频1| 又爽又黄无遮挡网站| 2021天堂中文幕一二区在线观| 99热6这里只有精品| 神马国产精品三级电影在线观看 | 夜夜看夜夜爽夜夜摸| 欧美成人一区二区免费高清观看 | 黄色女人牲交| 亚洲欧洲精品一区二区精品久久久| 国产免费av片在线观看野外av| 黄色丝袜av网址大全| 午夜免费观看网址| 久久热在线av| 波多野结衣高清作品| 黄色a级毛片大全视频| 美女高潮喷水抽搐中文字幕| 50天的宝宝边吃奶边哭怎么回事| 免费高清视频大片| 国产av麻豆久久久久久久| 长腿黑丝高跟| 国产成人精品久久二区二区免费| 国产一区二区三区在线臀色熟女| 欧美乱码精品一区二区三区| 欧美日韩乱码在线| 精品福利观看| 这个男人来自地球电影免费观看| 身体一侧抽搐| 亚洲成人久久爱视频| 亚洲全国av大片| 99久久国产精品久久久| 国产男靠女视频免费网站| 欧美中文日本在线观看视频| 久久亚洲精品不卡| 伦理电影免费视频| 99热只有精品国产| 啦啦啦韩国在线观看视频| 琪琪午夜伦伦电影理论片6080| 精品久久久久久久人妻蜜臀av| 琪琪午夜伦伦电影理论片6080| 亚洲成av人片在线播放无| 日韩欧美免费精品| 日韩精品中文字幕看吧| 色精品久久人妻99蜜桃| 成人特级黄色片久久久久久久| 精品日产1卡2卡| 亚洲成人久久性| 无人区码免费观看不卡| 日韩精品青青久久久久久| 欧美色欧美亚洲另类二区| 精品电影一区二区在线| 午夜老司机福利片| 丁香欧美五月| 国产人伦9x9x在线观看| 亚洲成人国产一区在线观看| 成人一区二区视频在线观看| 精品久久久久久久毛片微露脸| 在线观看舔阴道视频| 日本免费a在线| www日本在线高清视频| 1024视频免费在线观看| 999久久久精品免费观看国产| 真人一进一出gif抽搐免费| 日韩欧美 国产精品| 亚洲人成电影免费在线| 精品人妻1区二区| 亚洲免费av在线视频| 国产不卡一卡二| 一本精品99久久精品77| 日本精品一区二区三区蜜桃| 亚洲av中文字字幕乱码综合| 久久人妻福利社区极品人妻图片| 婷婷亚洲欧美| 在线观看午夜福利视频| 99久久久亚洲精品蜜臀av| 1024手机看黄色片| 国内少妇人妻偷人精品xxx网站 | 日日摸夜夜添夜夜添小说| 亚洲性夜色夜夜综合| 熟妇人妻久久中文字幕3abv| 久久亚洲真实| 麻豆久久精品国产亚洲av| bbb黄色大片| 男女午夜视频在线观看| 熟女少妇亚洲综合色aaa.| 久久中文看片网| 亚洲在线自拍视频| or卡值多少钱| 国产精品国产高清国产av| 午夜福利视频1000在线观看| 男人舔女人的私密视频| 国产成人欧美在线观看| 国产av一区二区精品久久| 亚洲av成人精品一区久久| 国产精品九九99| 搡老熟女国产l中国老女人| 欧美成人性av电影在线观看| 女同久久另类99精品国产91| 99精品久久久久人妻精品| 亚洲自拍偷在线| 国产成人啪精品午夜网站| 精品乱码久久久久久99久播| 麻豆一二三区av精品| 国产亚洲精品久久久久5区| 久热爱精品视频在线9| 别揉我奶头~嗯~啊~动态视频| 亚洲精品在线观看二区| 久久伊人香网站| 一二三四社区在线视频社区8| 中文资源天堂在线| 老鸭窝网址在线观看| 麻豆久久精品国产亚洲av| 桃色一区二区三区在线观看| 在线永久观看黄色视频| 成人一区二区视频在线观看| а√天堂www在线а√下载| 在线a可以看的网站| 久9热在线精品视频| 亚洲精品一区av在线观看| 欧美成人免费av一区二区三区| 亚洲激情在线av| 日日爽夜夜爽网站| 搡老妇女老女人老熟妇| 午夜两性在线视频| 99久久精品国产亚洲精品| 日韩精品免费视频一区二区三区| 国产精品一区二区免费欧美| or卡值多少钱| 又紧又爽又黄一区二区| 国产精品美女特级片免费视频播放器 | 美女免费视频网站| 久久国产精品人妻蜜桃| 亚洲人成77777在线视频| 国产精品一区二区三区四区免费观看 | 国产成年人精品一区二区| 亚洲人成电影免费在线| 久久香蕉精品热| 国产精品日韩av在线免费观看| 男女那种视频在线观看| 久久精品91蜜桃| 19禁男女啪啪无遮挡网站| 狂野欧美白嫩少妇大欣赏| 欧美性长视频在线观看| 亚洲,欧美精品.| 午夜老司机福利片| 老汉色∧v一级毛片| 男女视频在线观看网站免费 | 亚洲狠狠婷婷综合久久图片| 国产亚洲精品综合一区在线观看 | 男男h啪啪无遮挡| 国产精品爽爽va在线观看网站| netflix在线观看网站| 听说在线观看完整版免费高清| 欧美高清成人免费视频www| 听说在线观看完整版免费高清| 好看av亚洲va欧美ⅴa在| 在线观看美女被高潮喷水网站 | 欧美绝顶高潮抽搐喷水| 国产精品av久久久久免费| 欧美乱码精品一区二区三区| 香蕉丝袜av| 国产精品国产高清国产av| 日韩大码丰满熟妇| 午夜影院日韩av| 精品久久久久久久久久免费视频| 舔av片在线| 国产精品一区二区精品视频观看| 欧美日韩福利视频一区二区| av在线播放免费不卡| 亚洲 欧美一区二区三区| 国产精品久久久久久人妻精品电影| 999久久久国产精品视频| 国内久久婷婷六月综合欲色啪| 久久精品综合一区二区三区| 欧美精品亚洲一区二区| 三级毛片av免费| 18禁国产床啪视频网站| 国产亚洲精品一区二区www| 十八禁人妻一区二区| 亚洲欧美日韩无卡精品| 亚洲 欧美一区二区三区| 夜夜爽天天搞| 婷婷精品国产亚洲av在线| 午夜久久久久精精品| 国产亚洲精品久久久久5区| 黄色 视频免费看| 欧美中文综合在线视频| 国产精品自产拍在线观看55亚洲| 亚洲欧美精品综合一区二区三区| 国产成人一区二区三区免费视频网站| 久久精品国产清高在天天线| 搞女人的毛片| 精品欧美国产一区二区三| 啦啦啦免费观看视频1| 看片在线看免费视频| 亚洲五月天丁香| 99国产极品粉嫩在线观看| 制服人妻中文乱码| 91av网站免费观看| 色哟哟哟哟哟哟| 亚洲av电影不卡..在线观看| 国产精品日韩av在线免费观看| 女同久久另类99精品国产91| 免费看日本二区| 国产亚洲欧美在线一区二区| 一二三四在线观看免费中文在| 欧美丝袜亚洲另类 | 精品国产乱子伦一区二区三区| 好男人电影高清在线观看| 三级毛片av免费| 色在线成人网| 日韩欧美国产在线观看| 色综合站精品国产| 欧美日韩精品网址| 后天国语完整版免费观看| 午夜福利在线在线| 狂野欧美激情性xxxx| 久久精品夜夜夜夜夜久久蜜豆 | 国产精品99久久99久久久不卡| 一本久久中文字幕| 久久久久久人人人人人|