• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多模態(tài)公文的結(jié)構(gòu)知識(shí)抽取與組織研究

    2022-06-25 13:16:48徐瑞麟耿伯英劉樹衎
    關(guān)鍵詞:知識(shí)結(jié)構(gòu)文檔模態(tài)

    徐瑞麟, 耿伯英, 劉樹衎

    (1. 海軍工程大學(xué)電子工程學(xué)院, 湖北 武漢 430033; 2. 中國(guó)人民解放軍91001部隊(duì), 北京 100036;3. 東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 江蘇 南京 211189)

    0 引 言

    目前,以司法機(jī)器人等為代表的面向規(guī)范性文本的智能問答應(yīng)用實(shí)踐中,最普遍使用的方式是針對(duì)常見問題(frequently asked questions, FAQ)構(gòu)建問答對(duì),但所構(gòu)建的問答對(duì)難以涵蓋所有的問題。同時(shí),基于知識(shí)庫(kù)問答(knowledge based question answering, KBQA)的方法也存在解答效率低的問題。由于法律法規(guī)和政策文件等文檔數(shù)據(jù)條目清晰,法理邏輯和思想路線等內(nèi)涵蘊(yùn)藏于文檔結(jié)構(gòu)中,因此針對(duì)文檔的結(jié)構(gòu)知識(shí)抽取和組織研究成為了一個(gè)值得探索的方向。然而,此類文檔數(shù)據(jù)一般通過網(wǎng)頁(yè)、電子文檔、掃描件等非結(jié)構(gòu)化的形式被獲取到,如何將此類非結(jié)構(gòu)化文檔轉(zhuǎn)換成為結(jié)構(gòu)化的、層次邏輯清晰的文檔,成為了一個(gè)重要的研究課題。

    以知識(shí)圖譜為代表的知識(shí)網(wǎng)絡(luò)是最通用的知識(shí)結(jié)構(gòu)化表示形式,例如FreeBase、DBpedia和YAGO等。這些大規(guī)模知識(shí)庫(kù)一般通過實(shí)體識(shí)別和關(guān)系抽取等技術(shù),從文本中大量抽取“實(shí)體,關(guān)系,實(shí)體”的三元組知識(shí)而構(gòu)建。然而,此類知識(shí)圖譜往往存在關(guān)系稀疏、結(jié)構(gòu)上缺乏層次性等特點(diǎn),難以形成與人類知識(shí)組織相似的知識(shí)體系,無法針對(duì)智能問答等下游任務(wù)提供技術(shù)支撐。為解決三元組知識(shí)結(jié)構(gòu)邏輯性不強(qiáng)的問題,本文對(duì)文檔的結(jié)構(gòu)知識(shí)抽取與組織展開研究,將文檔各級(jí)標(biāo)題、摘要、作者、成文時(shí)間、文檔編號(hào)等要素稱為文檔的知識(shí)結(jié)構(gòu)要素。通過將上述文檔知識(shí)結(jié)構(gòu)要素按照文檔的結(jié)構(gòu)邏輯組織起來,更有利于厘清文檔知識(shí)的層次邏輯,并建立知識(shí)體系。

    在文檔的結(jié)構(gòu)信息抽取任務(wù)中,傳統(tǒng)方法大多面向文本單一模態(tài),采用基于規(guī)則的方法或基于自然語言處理(natural language processing, NLP)的方法實(shí)現(xiàn)。文獻(xiàn)[8]利用正則表達(dá)式實(shí)現(xiàn)對(duì)金融公告文檔中章節(jié)標(biāo)題的抽取。文獻(xiàn)[9]針對(duì)法律裁判文書構(gòu)建規(guī)則,將非結(jié)構(gòu)化的裁判文書轉(zhuǎn)換成結(jié)構(gòu)化的XML格式文檔。文獻(xiàn)[10]提出了一種基于雙向長(zhǎng)短記憶(bidirectional long short-term memory, BiLSTM)網(wǎng)絡(luò)和條件隨機(jī)域(conditional random field, CRF)模型的端到端模型,以從庭審筆錄中抽取證據(jù)信息。文獻(xiàn)[11]研究了利用命名實(shí)體識(shí)別和關(guān)系抽取方法從病歷中抽取結(jié)構(gòu)信息的方法。文獻(xiàn)[12]設(shè)計(jì)了一種結(jié)合規(guī)則和NLP模型的文檔結(jié)構(gòu)信息抽取方法。文獻(xiàn)[13]提出了一種基于隱馬爾可夫模型方法和深度神經(jīng)網(wǎng)絡(luò)的文檔版面分析方法。然而,這些文本模態(tài)的方法沒有考慮文檔的視覺特征,無法有效利用文檔標(biāo)題等視覺特征明顯的關(guān)鍵要素。

    視覺豐富文檔分析(visually-rich document analysis, VRDA)任務(wù)旨在對(duì)文檔頁(yè)面圖像或PDF文檔進(jìn)行分析,以識(shí)別文檔中的標(biāo)題、插圖、表格、公式等各類結(jié)構(gòu)要素。該任務(wù)與文檔的知識(shí)結(jié)構(gòu)抽取具有相似性。為了實(shí)現(xiàn)對(duì)視覺豐富文檔(visually-rich documents, VRDs)的結(jié)構(gòu)信息抽取,文獻(xiàn)[14]針對(duì)銀行文檔頁(yè)面提出了一種先進(jìn)行光學(xué)字符識(shí)別(optical character recognition, OCR),再通過NLP模型抽取文檔結(jié)構(gòu)信息的方法;文獻(xiàn)[15]提出了一種從VRDs中提取信息的通用方法,將文檔頁(yè)面分割為不同語義區(qū)域進(jìn)行信息抽取;文獻(xiàn)[16]提出了一種端到端的多模態(tài)全卷積網(wǎng)絡(luò);文獻(xiàn)[17]提出了結(jié)合文檔中文本與視覺信息的圖卷積模型;文獻(xiàn)[18]提出了大規(guī)模預(yù)訓(xùn)練語言模型與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合的抽取方法。LayoutLM及其改進(jìn)模型則將文本模態(tài)和圖像模態(tài)結(jié)合起來,以更好地抽取文檔結(jié)構(gòu)信息。

    上述模型和方法大多聚焦于商業(yè)領(lǐng)域文檔,對(duì)公文這一具有規(guī)范成文規(guī)則且應(yīng)用廣泛的文檔類型鮮有研究。并且,目前的研究和應(yīng)用局限于抽取知識(shí)結(jié)構(gòu)要素,而沒有將知識(shí)結(jié)構(gòu)要素按照文檔的結(jié)構(gòu)邏輯組織起來。因此,為了解決知識(shí)結(jié)構(gòu)要素的抽取和組織中存在的問題,本文以公文為研究對(duì)象,構(gòu)建文本和圖像多模態(tài)公文文檔數(shù)據(jù)集,在文本模態(tài)通過構(gòu)建規(guī)則抽取知識(shí)結(jié)構(gòu)要素,在圖像模態(tài)利用目標(biāo)檢測(cè)和OCR抽取知識(shí)結(jié)構(gòu)要素;并提出多模態(tài)知識(shí)結(jié)構(gòu)要素抽取模型,將文本和圖像兩個(gè)模態(tài)的抽取結(jié)果綜合考慮,得到最終的抽取結(jié)果。本文利用所抽取出知識(shí)結(jié)構(gòu)要素的層次結(jié)構(gòu)特征,將非結(jié)構(gòu)化的公文文檔按結(jié)構(gòu)邏輯組織形成文檔結(jié)構(gòu)樹并構(gòu)建結(jié)構(gòu)化的文檔網(wǎng)絡(luò)。實(shí)驗(yàn)驗(yàn)證了對(duì)多模態(tài)文檔知識(shí)結(jié)構(gòu)要素抽取和組織的有效性。

    本文的主要貢獻(xiàn)如下:① 針對(duì)目前鮮有研究的公文結(jié)構(gòu)知識(shí)要素抽取問題,提出一個(gè)多模態(tài)公文結(jié)構(gòu)知識(shí)要素抽取模型;② 設(shè)計(jì)文檔結(jié)構(gòu)樹(document structure tree, DST)模型,將抽取的知識(shí)結(jié)構(gòu)要素組織形成結(jié)構(gòu)化圖網(wǎng)絡(luò);③ 構(gòu)建多模態(tài)公文文檔數(shù)據(jù)集,填補(bǔ)了多模態(tài)公文文檔的數(shù)據(jù)空白。

    1 多模態(tài)公文知識(shí)結(jié)構(gòu)要素抽取

    本文以公文為例(本文所稱公文,是指依據(jù)文獻(xiàn)[21-22]中的規(guī)定所擬制的機(jī)關(guān)公文),從文本和圖像兩個(gè)模態(tài)分析抽取公文知識(shí)結(jié)構(gòu)要素的方法。由于書籍、論文、技術(shù)報(bào)告和法律法規(guī)文檔中的知識(shí)結(jié)構(gòu)要素同樣具備與公文類似的規(guī)律性特征,因此也可以采用相同方法實(shí)現(xiàn)抽取。

    1.1 文本模態(tài)的知識(shí)結(jié)構(gòu)要素抽取

    文本模態(tài)的公文文檔知識(shí)結(jié)構(gòu)要素抽取,即從無結(jié)構(gòu)的公文文本中抽取“正文標(biāo)題、一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題、密級(jí)、緊急程度、發(fā)文機(jī)關(guān)標(biāo)志、發(fā)文字號(hào)、主送機(jī)關(guān)、抄送機(jī)關(guān)”等要素。由于公文文檔具有嚴(yán)格的成文標(biāo)準(zhǔn),因此可以通過建立規(guī)則實(shí)現(xiàn)知識(shí)結(jié)構(gòu)要素的抽取。

    1.1.1 公文知識(shí)結(jié)構(gòu)要素的規(guī)則分析

    文獻(xiàn)[21-22](以下簡(jiǎn)稱“《標(biāo)準(zhǔn)》”)對(duì)公文的各級(jí)標(biāo)題進(jìn)行了規(guī)定,這些標(biāo)題具備典型的上下級(jí)層次關(guān)系,且按照“數(shù)詞+特殊符號(hào)”的方式進(jìn)行編號(hào)。因此,通過分析這些編號(hào)模式并建立詞典(見表1),可以實(shí)現(xiàn)對(duì)一級(jí)、二級(jí)、三級(jí)標(biāo)題的識(shí)別。

    表1 公文各級(jí)標(biāo)題的編號(hào)方法

    此外,依據(jù)機(jī)關(guān)公文的行文和用語習(xí)慣,可以得到表2所示的公文常用的其他形式的各級(jí)標(biāo)題編號(hào)方法。

    表2 公文各級(jí)標(biāo)題的其他編號(hào)方法

    類似地,對(duì)于密級(jí)、緊急程度、發(fā)文字號(hào)、主送機(jī)關(guān)等其他各類結(jié)構(gòu)要素,從文本的角度看,可以分析和歸納為表3所示的識(shí)別規(guī)則。

    表3 公文知識(shí)結(jié)構(gòu)要素的抽取規(guī)則

    1.1.2 公文知識(shí)結(jié)構(gòu)要素的抽取流程

    (1) 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理包括文本清洗和文本分句兩個(gè)部分。文本清洗,即清除不符合格式規(guī)范的換行符、空符、縮進(jìn)和英文標(biāo)點(diǎn)等字符的過程。文本分句,首先以換行符為標(biāo)志,將文本所成自然段進(jìn)行分割并賦予標(biāo)簽,隨后在分段的基礎(chǔ)上,以中文常用句終標(biāo)點(diǎn)(如句號(hào)、感嘆號(hào)、省略號(hào)等)為標(biāo)志對(duì)段落進(jìn)行語句分割并賦予標(biāo)簽。數(shù)據(jù)預(yù)處理算法如算法1所示。

    算法 1 數(shù)據(jù)預(yù)處理輸入 公文文本數(shù)據(jù)Document輸出 賦標(biāo)簽的句子集Sentences1 lines ← readlines(Docunment)2 for line in lines do3 Paragraph ← line.strip(‘tab’)4 end for5 for para in Paragraph do6 Sentences←Paragraph[para].cut(punctuation)7 end for8 return Sentences

    通過數(shù)據(jù)預(yù)處理,使得整篇數(shù)據(jù)文本轉(zhuǎn)化為以句子為單位、每個(gè)句子由標(biāo)簽索引的自由文本集合={(,),(,),…,(,)},其中(,)表示文中每一個(gè)句子所被賦予的唯一標(biāo)簽,也即該句位于文中第自然段的第句。

    (2) 建立抽取規(guī)則

    由于《標(biāo)準(zhǔn)》在文本層級(jí)上對(duì)各級(jí)標(biāo)題的規(guī)定嚴(yán)格到了具體的字符級(jí)別,因此可以簡(jiǎn)單地認(rèn)定,對(duì)文本中的每個(gè)語句,僅需遍歷前文所構(gòu)建的標(biāo)題詞典,若存在匹配的文本對(duì)象,則記錄其所處級(jí)別和語句的坐標(biāo)位置。各級(jí)標(biāo)題識(shí)別算法如算法2所示。

    算法 2 各級(jí)標(biāo)題識(shí)別輸入 賦標(biāo)簽的句子集Sentences輸出 Sentencse中各級(jí)標(biāo)題的位置坐標(biāo)Position1 for paragraph in Sentences do2 for sentence in paragraph do3 for heading in Dictionary do4 if heading in sentence then5 Position←[Index(paragraph),Index(sentence)]6 end if7 end for8 end for9 end for

    算法2中Dictionary代表前述的5類標(biāo)題詞典;Index(·)函數(shù)的功能是返回當(dāng)前對(duì)象所在列表的標(biāo)號(hào)。

    在上述過程中,將識(shí)別得到的各級(jí)標(biāo)題整理得到兩種基本類型:一是具有明顯級(jí)別特征的一級(jí)、二級(jí)、三級(jí)和四級(jí)標(biāo)題,分別記錄于表Position_1,Position_2,Position_3,Position_4中;二是其他難以確定級(jí)別的標(biāo)題,記錄于表Position_0中。

    通過分析《標(biāo)準(zhǔn)》的具體規(guī)定,以及給出的若干樣例,分析考慮單署公文、聯(lián)署公文、信函、通知、命令等各類格式的盡可能多的成文情形,以及可能出現(xiàn)的識(shí)別歧義情況。因此,從標(biāo)點(diǎn)符號(hào)、縮進(jìn)、句長(zhǎng)、相對(duì)位置等方面入手,歸納建立文檔描述要素的識(shí)別規(guī)則。知識(shí)結(jié)構(gòu)要素的抽取算法如算法3所示。

    算法 3 知識(shí)結(jié)構(gòu)要素的抽取輸入 賦標(biāo)簽的句子集Sentences輸出 知識(shí)結(jié)構(gòu)要素集合{密級(jí)、緊急程度、發(fā)文字號(hào)、主送機(jī)關(guān)、抄送機(jī)關(guān)、正文標(biāo)題}1 for paragraph in Sentences do2 for sentence in paragraph do3 if “×密” in sentence then4 密級(jí) ← sentence5 end if6 if “×急” in sentence then7 緊急程度 ← sentence8 end if9 if “〔 ” in sentence and “〔 ” in sentence do

    10 if “簽發(fā)人:” in sentence do11 發(fā)文字號(hào) ← sentence[: sentence.find(“號(hào)”)]12 elif sentence.endswith(“號(hào)”) do13 發(fā)文字號(hào) ←sentence[sentence.rfind(“”)+1:]14 elif “” in sentence:15 發(fā)文字號(hào) ← sentence[: sentence.find(“”)]16 else 發(fā)文字號(hào) ← sentence17 end if18 end if19if (sentence.endswith(“:”) and Index(paragraph)<=8) or (“主送:” in sentence) do20 主送機(jī)關(guān) ← sentence21 end if22 if “抄送:” in sentence do23 抄送機(jī)關(guān)← sentence24 if 發(fā)文字號(hào) and 主送機(jī)關(guān) do # 判斷是否存在25 ifIndex(paragraph[Index(發(fā)文字號(hào))])

    算法3中find(·)函數(shù)的功能是返回左起第一個(gè)與對(duì)象字符匹配字符的標(biāo)號(hào),endswith(·)函數(shù)的功能是判斷字符串是否以對(duì)象字符結(jié)尾,rfind(·)函數(shù)的功能是返回右起第一個(gè)與對(duì)象字符匹配字符的標(biāo)號(hào),“”表示空格符。

    通過前述算法構(gòu)建的規(guī)則,對(duì)以句子為單位的公文字符串進(jìn)行操作,即可實(shí)現(xiàn)對(duì)符合《標(biāo)準(zhǔn)》規(guī)定的文檔知識(shí)結(jié)構(gòu)要素的抽取。

    1.2 圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取

    人在判斷所閱讀的文本屬于何種類別時(shí),除了從語義上分析外,人的視覺也在文本閱讀中起到了直接作用。計(jì)算機(jī)在模擬人的閱讀過程時(shí),也可以模擬人的視覺角度對(duì)文檔進(jìn)行分析。

    在文本模態(tài),基于規(guī)則的抽取方法依賴于規(guī)范性的文本數(shù)據(jù),容錯(cuò)性能有限,尤其對(duì)于識(shí)別規(guī)則復(fù)雜的文檔描述要素,在文本數(shù)據(jù)存在不規(guī)范性的情況下,所構(gòu)建的規(guī)則無法保證知識(shí)結(jié)構(gòu)要素抽取的準(zhǔn)確性。同時(shí),文檔的字體、字號(hào)、文字顏色和相對(duì)位置特征無法通過文本表現(xiàn)出來,也就需要考慮在語義分析之外,加入視覺分析手段,以提升知識(shí)結(jié)構(gòu)要素抽取的容錯(cuò)能力。

    基于計(jì)算機(jī)視覺(computer visualization, CV)的知識(shí)結(jié)構(gòu)要素抽取,是OCR與目標(biāo)檢測(cè)兩類計(jì)算機(jī)視覺任務(wù)的組合應(yīng)用。具體而言,就是先通過目標(biāo)檢測(cè),判斷找到要素所在區(qū)域并判斷要素的類別,再?gòu)倪@些區(qū)域中識(shí)別出文檔要素所對(duì)應(yīng)的文本內(nèi)容。

    圖1是圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型的基本結(jié)構(gòu),該模型由目標(biāo)檢測(cè)模塊和OCR模塊兩部分構(gòu)成。對(duì)于圖像模態(tài)的文檔數(shù)據(jù),例如文檔的掃描件或PDF格式的文檔,將其轉(zhuǎn)化為圖像處理。目標(biāo)檢測(cè)模塊使用目標(biāo)檢測(cè)算法YOLO v4網(wǎng)絡(luò)模型。YOLO v4充分借鑒了深度殘差網(wǎng)絡(luò)(deep residual network, ResNet)、稠密卷積網(wǎng)絡(luò)(dense convolutional network, DenseNet)和特征金字塔(featur pyramid networks, FPN)的思想,在識(shí)別準(zhǔn)確性和識(shí)別速度上都達(dá)到了目前目標(biāo)檢測(cè)領(lǐng)域的領(lǐng)先水平。OCR模塊使用經(jīng)漢字符和拉丁字符預(yù)訓(xùn)練的Tesseract-OCR開源識(shí)別引擎。

    圖1 圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型Fig.1 Structural elements of knowledge extraction in image modal

    當(dāng)圖像模態(tài)的文檔數(shù)據(jù)輸入后,目標(biāo)檢測(cè)模塊進(jìn)行多目標(biāo)識(shí)別,輸出圖像中各目標(biāo)(文檔要素)的視覺特征向量=(,,,,,),其中表示目標(biāo)的要素類型標(biāo)簽,表示目標(biāo)屬于該類要素的概率,,,,是目標(biāo)所在位置的邊界框坐標(biāo),分別表示中心點(diǎn)(,),寬度和高度。隨后,OCR模塊將根據(jù)向量中的邊界框坐標(biāo)分割圖像區(qū)域,并按區(qū)域進(jìn)行OCR識(shí)別,讀出各要素的具體內(nèi)容。通過上述兩個(gè)模塊的操作,即得到了圖像模態(tài)的文檔數(shù)據(jù)中知識(shí)結(jié)構(gòu)要素的類型和文本內(nèi)容。

    1.3 多模態(tài)知識(shí)結(jié)構(gòu)要素抽取

    由于單一模態(tài)的抽取在面對(duì)不同類知識(shí)結(jié)構(gòu)要素時(shí)的效果表現(xiàn)存在優(yōu)劣差異,因此需要從兩個(gè)模態(tài)出發(fā),同時(shí)考慮兩個(gè)模態(tài)的抽取結(jié)果,補(bǔ)足單一模態(tài)抽取的容錯(cuò)性問題,以改善知識(shí)結(jié)構(gòu)要素的抽取質(zhì)量。

    圖2是基于跨模態(tài)分析的知識(shí)結(jié)構(gòu)要素抽取模型的總體結(jié)構(gòu),其中兩類知識(shí)結(jié)構(gòu)要素抽取模型分別對(duì)兩個(gè)模態(tài)的文檔數(shù)據(jù)進(jìn)行抽取,隨后綜合兩類模型對(duì)不同文檔要素的抽取能力,對(duì)兩類模型的抽取結(jié)果進(jìn)行綜合考量,通過訓(xùn)練得到?jīng)Q策表,利用決策表在不同情況下?lián)駜?yōu)采納,優(yōu)化知識(shí)結(jié)構(gòu)要素抽取結(jié)果。

    圖2 多模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型Fig.2 Multi-modal document knowledge structural elements extraction model

    對(duì)于知識(shí)結(jié)構(gòu)要素,設(shè)文本模態(tài)的抽取結(jié)果為One-Hot表示的向量_text,圖像模態(tài)的抽取結(jié)果為One-Hot表示的向量_image,若文檔知識(shí)結(jié)構(gòu)要素的總數(shù)為,要素類別總數(shù)為,則兩個(gè)模態(tài)抽取結(jié)果的所有可能組合共種。若設(shè)×2矩陣為決策矩陣,=[1,2]×2,其中每行表示一種抽取結(jié)果組合。設(shè)中第行表示“文本模態(tài)對(duì)要素的抽取結(jié)果為第類,圖像模態(tài)對(duì)同一要素的抽取結(jié)果為第類”的情況,其中=×。若文本模態(tài)的抽取結(jié)果正確而圖像模態(tài)的抽取結(jié)果不正確,則令1=1,2=0,反之則令1=0,2=1,若兩個(gè)模態(tài)的抽取結(jié)果均正確,則令1=2=05這樣,對(duì)于要素,兩個(gè)模態(tài)最終的抽取結(jié)果為=1_text+2_image。經(jīng)過一定樣本訓(xùn)練后得到后,對(duì)于輸入的兩個(gè)模態(tài)的抽取結(jié)果(第類和第類),只需查矩陣的第×行,加權(quán)求和即得最終的抽取結(jié)果。

    2 公文知識(shí)結(jié)構(gòu)要素的組織

    2.1 公文知識(shí)結(jié)構(gòu)要素組織問題分析

    前文構(gòu)建的知識(shí)結(jié)構(gòu)要素抽取模型實(shí)現(xiàn)了對(duì)文檔知識(shí)結(jié)構(gòu)要素類別的識(shí)別,但是并沒有明確要素之間,尤其是各級(jí)標(biāo)題之間的并列關(guān)系和包含關(guān)系,沒有形成層次性的文檔結(jié)構(gòu)。

    從人的行文和閱讀習(xí)慣出發(fā),要解決各級(jí)標(biāo)題之間的相互關(guān)系問題,僅需考慮各級(jí)標(biāo)題在全文中的出現(xiàn)順序。在屬于“包含”關(guān)系的各級(jí)標(biāo)題間,先出現(xiàn)的標(biāo)題級(jí)別一定高于后出現(xiàn)的標(biāo)題級(jí)別;在屬于“并列”關(guān)系的同級(jí)標(biāo)題間,在文中出現(xiàn)的先后順序亦可反映其關(guān)系。概括地說,就是通過各級(jí)標(biāo)題在文中出現(xiàn)的先后順序,解決屬于“包含”關(guān)系的各級(jí)標(biāo)題間的分級(jí)問題和屬于“并列”關(guān)系的各級(jí)標(biāo)題間的排序問題。

    算法1實(shí)現(xiàn)了將自由文本集合轉(zhuǎn)換成為具有“段落標(biāo)號(hào)+段內(nèi)分句標(biāo)號(hào)”標(biāo)簽結(jié)構(gòu)的句子集合。段落標(biāo)號(hào)越小,說明該句所在段落在前;段內(nèi)分句標(biāo)號(hào)越小,說明該句在段內(nèi)的順序在前。這種分句方式體現(xiàn)著明顯的先后關(guān)系,也就為解決文本結(jié)構(gòu)化問題提供了參考和依據(jù)。

    2.2 公文知識(shí)結(jié)構(gòu)要素組織的數(shù)學(xué)模型

    樹是不包含簡(jiǎn)單回路的無向或有向連通圖。有根樹是一個(gè)頂點(diǎn)被指定為根,每一條邊都指向遠(yuǎn)離或趨近根的方向的樹。排序有根樹是每個(gè)分支節(jié)點(diǎn)的所有子節(jié)點(diǎn)按照從左至右排序的有根樹。

    精確子圖枚舉樹(exact subgraph enumeration tree, ESU-Tree)是為解決網(wǎng)絡(luò)模體識(shí)別問題所設(shè)計(jì)的結(jié)構(gòu)模型。該模型用于搜索網(wǎng)絡(luò)中指定規(guī)模的子圖。由于ESU-Tree的結(jié)構(gòu)設(shè)計(jì)能夠較好地反映層次和結(jié)構(gòu)關(guān)系,因此在ESU-Tree的基礎(chǔ)上,本文針對(duì)文檔的層次化表示問題設(shè)計(jì)了一種樹形結(jié)構(gòu),該結(jié)構(gòu)在本文中稱為DST,如圖3所示。

    圖3 DST模型Fig.3 DST model

    DST是一顆有向有根樹,其特點(diǎn)如下:

    (1) 每個(gè)子代節(jié)點(diǎn)都指向各自的親代節(jié)點(diǎn);

    (2) 根節(jié)點(diǎn)位于第0層,全樹層數(shù)為4,深度為4,高度為5;

    (3) 第4層全為葉子結(jié)點(diǎn);

    (4) 節(jié)點(diǎn)具有權(quán)重而邊沒有權(quán)重,且節(jié)點(diǎn)權(quán)重由(前權(quán),后權(quán))兩部分組成,比較權(quán)重時(shí)優(yōu)先比較前權(quán),前權(quán)相等時(shí)比較后權(quán);

    (5) 左節(jié)點(diǎn)權(quán)重小于右節(jié)點(diǎn),親代節(jié)點(diǎn)權(quán)重小于子代節(jié)點(diǎn)。

    將一個(gè)節(jié)點(diǎn)的親代節(jié)點(diǎn)的同層右節(jié)點(diǎn)定義為該節(jié)點(diǎn)的右親節(jié)點(diǎn)。類似地,將一個(gè)節(jié)點(diǎn)的親代節(jié)點(diǎn)的同層左節(jié)點(diǎn)定義為該節(jié)點(diǎn)的左親節(jié)點(diǎn)。

    用表示親節(jié)點(diǎn),表示子節(jié)點(diǎn),LP標(biāo)志左親節(jié)點(diǎn),RP表示右親節(jié)點(diǎn),ST表示子樹,DST表示整顆DST,RST表示相對(duì)于ST的右子樹,表示標(biāo)題級(jí)別,用“←”表示“賦值為”weight(·)表示節(jié)點(diǎn)權(quán)重。顯然,分析DST的特點(diǎn),可以歸納出以下3條基本性質(zhì)。

    在DST的任意一顆子樹內(nèi),存在如下的權(quán)重關(guān)系:

    weight()

    對(duì)DST中的任意節(jié)點(diǎn)node,存在?node∈DST,?ST?DST,←Root(ST),RP←Root(RST)。若weight()

    對(duì)DST中的任意節(jié)點(diǎn)node,其層級(jí)歸屬滿足?node∈DST,?,,且=+1;若min weight()

    DST的建立順序和遍歷順序與中文閱讀順序一致,基本按照“根節(jié)點(diǎn)→相對(duì)左節(jié)點(diǎn)→相對(duì)右節(jié)點(diǎn)”的順序進(jìn)行。其建立問題可以抽象為下述的表示形式。

    已知:① 部分節(jié)點(diǎn)(各級(jí)標(biāo)題的節(jié)點(diǎn))所屬層;② 各節(jié)點(diǎn)權(quán)重。

    求解:① 各節(jié)點(diǎn)的親子關(guān)系;② 部分節(jié)點(diǎn)(其他標(biāo)題的節(jié)點(diǎn))歸屬。

    根據(jù)性質(zhì)1和性質(zhì)2所述規(guī)則,通過比較節(jié)點(diǎn)權(quán)重的大小關(guān)系,可以完成各級(jí)節(jié)點(diǎn)之間并列和歸屬關(guān)系的確定。需要注意的是,在比較權(quán)重時(shí),應(yīng)當(dāng)按照定義,優(yōu)先比較節(jié)點(diǎn)的前權(quán),也即節(jié)點(diǎn)標(biāo)簽的第一個(gè)坐標(biāo)值,當(dāng)前權(quán)相同時(shí),再比較第二個(gè)坐標(biāo)值。

    實(shí)際上,一個(gè)DST就是結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)的一個(gè)子網(wǎng),或是知識(shí)結(jié)構(gòu)要素圖譜(網(wǎng)絡(luò))中的一個(gè)子圖。在大量文檔數(shù)據(jù)支持的情況下,結(jié)合主題識(shí)別和關(guān)鍵詞抽取,通過DST(文檔子圖)的聚類,就具備了構(gòu)建大規(guī)模文檔知識(shí)網(wǎng)絡(luò)的基礎(chǔ)。

    2.3 公文知識(shí)結(jié)構(gòu)要素組織的數(shù)據(jù)結(jié)構(gòu)

    使計(jì)算機(jī)實(shí)現(xiàn)對(duì)文檔知識(shí)結(jié)構(gòu)要素的組織,需要考慮對(duì)前述DST模型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì)。而進(jìn)行設(shè)計(jì)的主要問題是要在計(jì)算機(jī)中實(shí)現(xiàn)“親節(jié)點(diǎn)<子節(jié)點(diǎn)<右親節(jié)點(diǎn)”的關(guān)系判定。要完成這一任務(wù),需要從左至右、自頂向下地訪問每個(gè)節(jié)點(diǎn),判斷左右級(jí)、上下級(jí)節(jié)點(diǎn)(子樹)之間的并列和包含關(guān)系。

    對(duì)于不等式“親節(jié)點(diǎn)<子節(jié)點(diǎn)<右親節(jié)點(diǎn)”,考慮條件不完備的情況,由于采用自頂向下遍歷,因而親節(jié)點(diǎn)一定在子節(jié)點(diǎn)之前得到訪問,即不等式左端一定成立,故僅需考慮右端條件不完備的情況,即右親節(jié)點(diǎn)(右子樹)不存在的情況。

    顯然,若采用分類討論方法,單獨(dú)為右親節(jié)點(diǎn)不存在的情況追加補(bǔ)充規(guī)則的成本較高,因此,考慮構(gòu)造使得不等式右端恒成立的條件以適應(yīng)原規(guī)則,而非建立新規(guī)則。為此引入絕對(duì)右子樹(absolute right subtree, ARS)的概念。

    ARS是根節(jié)點(diǎn)權(quán)重為充分大數(shù),子節(jié)點(diǎn)為空的DST。其實(shí)際上是所在層最右端的一個(gè)權(quán)重充分大的葉子節(jié)點(diǎn),只參與權(quán)重比較,但不會(huì)被訪問。

    由于第4層屬于四級(jí)標(biāo)題項(xiàng),均為葉子結(jié)點(diǎn),子樹為空,因此僅需在第1、2、3層建立ARS。并且,通過設(shè)置遍歷條件,可以使得ARS參加權(quán)重比較而不被訪問,這就解決了右親節(jié)點(diǎn)不存在的情況。

    例如,圖4所示的節(jié)點(diǎn)權(quán)重是2019年政府工作報(bào)告的文檔結(jié)構(gòu)要素所建立的DST的一部分。顯然,對(duì)于節(jié)點(diǎn)的所有子節(jié)點(diǎn)到,都沒有右親節(jié)點(diǎn),而使得性質(zhì)1不再成立。為了確保性質(zhì)1恒成立,則weight(ARS)應(yīng)當(dāng)是一個(gè)充分大數(shù)。本文將16進(jìn)制數(shù)0×3F3F3F3F設(shè)置為該充分大數(shù),該數(shù)值既避免了數(shù)據(jù)溢出,又與32位整型數(shù)據(jù)最大值0×7FFFFFFF同處于10量級(jí)。由于ARS的引入,使得子節(jié)點(diǎn)到的右親節(jié)點(diǎn)成為了,權(quán)重為充分大數(shù)0×3F3F3F3F;而其左親節(jié)點(diǎn)的權(quán)重為38;進(jìn)而使不等式38

    圖4 ARSFig.4 ARS

    因此,DST的最小數(shù)據(jù)單元就是一個(gè)包含根節(jié)點(diǎn)屬性和所有子節(jié)點(diǎn)屬性的結(jié)構(gòu)體,并通過遞歸定義,即可實(shí)現(xiàn)DST的構(gòu)建。

    3 多模態(tài)公文數(shù)據(jù)集構(gòu)建

    在VRDA任務(wù)中,目前已經(jīng)公開的單模態(tài)和多模態(tài)數(shù)據(jù)集主要集中在商業(yè)文檔和科學(xué)文獻(xiàn)數(shù)據(jù)上。文獻(xiàn)[29]構(gòu)建了一個(gè)圖像模態(tài)的大規(guī)模文檔數(shù)據(jù)集PubLayNet,文獻(xiàn)[30]構(gòu)建了一個(gè)多模態(tài)的科學(xué)文獻(xiàn)數(shù)據(jù)集DocBank。文獻(xiàn)[31]和文獻(xiàn)[32]中分別使用了各自獲得的圖像模態(tài)公文文檔,但并沒有將數(shù)據(jù)公開。因此,目前針對(duì)公文的公開多模態(tài)文檔數(shù)據(jù)集仍是一個(gè)空白。

    為了填補(bǔ)多模態(tài)公文文檔分析任務(wù)中的數(shù)據(jù)空白,并驗(yàn)證本文提出模型的有效性,本文從國(guó)務(wù)院政策文件庫(kù)以網(wǎng)頁(yè)文本格式獲取公文文檔,經(jīng)數(shù)據(jù)清洗后,設(shè)計(jì)符合《標(biāo)準(zhǔn)》規(guī)定的LaTeX模板并將無格式的網(wǎng)頁(yè)文本批量排版編譯為PDF文檔,隨后轉(zhuǎn)換為圖像模態(tài)的文檔數(shù)據(jù)。本文將構(gòu)建的多模態(tài)公文文檔數(shù)據(jù)集命名為GovDoc-CN,并將該數(shù)據(jù)集開源發(fā)布。流程如圖5所示。

    圖5 GovDoc-CN數(shù)據(jù)集的數(shù)據(jù)處理流程Fig.5 Data processing flow of GovDoc-CN

    本文共標(biāo)注了6 816個(gè)文檔頁(yè)面,“發(fā)文機(jī)關(guān)標(biāo)志、發(fā)文字號(hào)、正文標(biāo)題、主送機(jī)關(guān)、一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題、發(fā)文機(jī)關(guān)、成文日期和正文”10類共29 942個(gè)文檔知識(shí)結(jié)構(gòu)要素。數(shù)據(jù)集統(tǒng)計(jì)信息如表4所示。

    表4 數(shù)據(jù)集統(tǒng)計(jì)信息

    4 實(shí)驗(yàn)與分析

    4.1 公文知識(shí)結(jié)構(gòu)要素抽取

    本文中基于計(jì)算機(jī)視覺的文檔要素實(shí)體抽取,將YOLO v4模型的學(xué)習(xí)率設(shè)置為2e-5,Batchsize設(shè)置為64,迭代次數(shù)26 000,訓(xùn)練集包括4 090個(gè)文檔頁(yè)面,驗(yàn)證集包括2 045個(gè)文檔頁(yè)面,測(cè)試集包括690個(gè)文檔頁(yè)面。

    為評(píng)價(jià)模型的抽取效果,用TP表示“實(shí)際為正例,預(yù)測(cè)為正例”的數(shù)量;用FP表示“實(shí)際為負(fù)例,預(yù)測(cè)為正例”的數(shù)量;用FN表示“實(shí)際為正例,預(yù)測(cè)為負(fù)例”的數(shù)量;用TN表示“實(shí)際為負(fù)例,預(yù)測(cè)為負(fù)例”的數(shù)量。

    于是,定義模型的精確率為

    Precision=TP/(TP+FP)

    (1)

    定義模型的召回率為

    Recall=TP/(TP+FN)

    (2)

    模型的精確率反映了模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,因此也稱查準(zhǔn)率。模型的召回率反映了模型預(yù)測(cè)全面性,因此也稱查全率。

    為了使用一個(gè)綜合考慮“查準(zhǔn)”與“查全”的指標(biāo),本文使用1分?jǐn)?shù)評(píng)估抽取模型的效果,其計(jì)算方法為

    (3)

    在同一測(cè)試集下,基于規(guī)則的知識(shí)結(jié)構(gòu)要素抽取方法和基于計(jì)算機(jī)視覺的知識(shí)結(jié)構(gòu)要素抽取方法取得的結(jié)果如表5所示。

    表5 知識(shí)結(jié)構(gòu)要素抽取結(jié)果

    在表5中,A表示方法1為基于規(guī)則的抽取方法;B表示方法2為基于計(jì)算機(jī)視覺的抽取方法;C表示方法3為方法1與方法2的組合運(yùn)用。

    通過表5可知,基于規(guī)則的抽取方法(文本模態(tài))和基于計(jì)算機(jī)視覺的抽取方法(圖像模態(tài))在知識(shí)結(jié)構(gòu)要素抽取上的效果表現(xiàn)互為補(bǔ)充。在1分?jǐn)?shù)表現(xiàn)上,多模態(tài)抽取方法相比文本或圖像單一模態(tài)的抽取方法分別提升了10.80%和10.83%,各類要素的抽取效果也為最優(yōu),證明了本文所提出的多模態(tài)文檔知識(shí)結(jié)構(gòu)要素抽取方法的有效性,與單一模態(tài)的抽取方法相比具有明顯的效果提升。

    4.2 公文知識(shí)結(jié)構(gòu)要素的組織與管理

    本文從GovDoc-CN數(shù)據(jù)集中隨機(jī)選擇了1 000篇公文文檔,利用第2節(jié)提出的知識(shí)結(jié)構(gòu)要素組織方法,將每篇文檔抽取的知識(shí)結(jié)構(gòu)要素組織形成DST,再將DST利用“發(fā)文機(jī)關(guān)”建立文檔關(guān)聯(lián),最后存儲(chǔ)至Neo4j數(shù)據(jù)庫(kù)中,得到了如圖6所示的結(jié)構(gòu)化文檔知識(shí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)共包含22 377個(gè)節(jié)點(diǎn)(要素實(shí)體), 22 621條邊(要素實(shí)體間關(guān)系)。

    利用圖數(shù)據(jù)庫(kù)管理系統(tǒng),可以對(duì)構(gòu)建的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)進(jìn)行管理。例如,用戶使用Cypher語句:

    MATCH (:發(fā)文機(jī)關(guān){name:“科技部”}) RETURN

    其中,為“發(fā)文機(jī)關(guān)”。即可查詢到圖7所示的共33篇科技部發(fā)文。類似地,利用Neo4j等圖數(shù)據(jù)庫(kù)管理系統(tǒng),可以通過創(chuàng)建、刪除、合并實(shí)體和關(guān)系等操作,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)中結(jié)構(gòu)要素實(shí)體以及它們之間關(guān)系的管理。

    圖6 大規(guī)模DSTs構(gòu)建的文檔網(wǎng)絡(luò)Fig.6 Document network built from large scale DSTs

    圖7 以“科技部”為關(guān)鍵詞檢索到的文檔Fig.7 Documents retrieved with the keyword “Ministry of Science and Technology”

    綜上所述,本文通過對(duì)文檔知識(shí)結(jié)構(gòu)要素的抽取、組織和管理設(shè)計(jì)并進(jìn)行實(shí)驗(yàn),證明了本文提出的多模態(tài)抽取方法的有效性;通過構(gòu)建公文文檔的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò),分析了本文提出的DST模型在知識(shí)組織和管理方面進(jìn)行應(yīng)用的可行性和有效性。

    5 結(jié) 論

    本文以公文為例,提出了從多模態(tài)文檔中抽取知識(shí)結(jié)構(gòu)要素并組織生成結(jié)構(gòu)化知識(shí)圖的方法。在文本模態(tài),本文針對(duì)公文文檔的擬制標(biāo)準(zhǔn)和行文特點(diǎn),提出了公文知識(shí)結(jié)構(gòu)要素的抽取規(guī)則,實(shí)現(xiàn)了對(duì)公文文檔中知識(shí)結(jié)構(gòu)要素的抽取。在圖像模態(tài),本文利用目標(biāo)檢測(cè)和OCR方法,對(duì)基于規(guī)則抽取方法的短板弱項(xiàng)進(jìn)行補(bǔ)足。同時(shí),本文提出了一個(gè)多模態(tài)文檔知識(shí)要素抽取框架,利用決策表實(shí)現(xiàn)多模態(tài)知識(shí)結(jié)構(gòu)要素抽取結(jié)果的擇優(yōu)。經(jīng)實(shí)驗(yàn)驗(yàn)證,多模態(tài)抽取方法在1分?jǐn)?shù)上從單一模態(tài)的0.835 0和0.834 7提升到了0.943 0。同時(shí),本文提出了DST模型,按照文檔的結(jié)構(gòu)邏輯實(shí)現(xiàn)了對(duì)知識(shí)結(jié)構(gòu)要素的組織,并將得到的結(jié)構(gòu)化文檔輸入圖數(shù)據(jù)庫(kù)進(jìn)行管理。實(shí)驗(yàn)結(jié)果證明,本文提出的知識(shí)結(jié)構(gòu)要素抽取與組織方法具有良好的效果表現(xiàn),在解決目前基于三元組知識(shí)構(gòu)建的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)邏輯性弱的問題,以及文檔智能問答、公文自動(dòng)化管理等方面具有重要的研究和應(yīng)用價(jià)值。

    猜你喜歡
    知識(shí)結(jié)構(gòu)文檔模態(tài)
    有人一聲不吭向你扔了個(gè)文檔
    把握核心概念 優(yōu)化知識(shí)結(jié)構(gòu)
    物理之友(2020年12期)2020-07-16 05:39:18
    我國(guó)正當(dāng)防衛(wèi)研究的網(wǎng)絡(luò)知識(shí)結(jié)構(gòu)與核心脈絡(luò)
    法大研究生(2019年2期)2019-11-16 00:39:26
    概率統(tǒng)計(jì)知識(shí)結(jié)構(gòu)與方法拓展
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    基于九因子模型的新手教師TPACK知識(shí)結(jié)構(gòu)分析
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    两个人的视频大全免费| av女优亚洲男人天堂| 欧美成人午夜免费资源| 少妇高潮的动态图| 草草在线视频免费看| 99九九线精品视频在线观看视频| 99热这里只有是精品在线观看| 99热这里只有是精品50| 亚洲第一区二区三区不卡| 最新中文字幕久久久久| 91久久精品国产一区二区三区| 在现免费观看毛片| 亚洲国产精品国产精品| 免费av不卡在线播放| 欧美亚洲 丝袜 人妻 在线| 又粗又硬又长又爽又黄的视频| 18禁裸乳无遮挡免费网站照片| 成年av动漫网址| 久久精品国产亚洲av涩爱| 神马国产精品三级电影在线观看| 国产视频首页在线观看| 国产黄色视频一区二区在线观看| 国产探花在线观看一区二区| 久久久久久九九精品二区国产| 国产精品人妻久久久影院| videossex国产| 免费黄网站久久成人精品| 亚洲最大成人中文| 成人国产麻豆网| 久久99热这里只频精品6学生| 久久精品国产亚洲网站| 小蜜桃在线观看免费完整版高清| 男的添女的下面高潮视频| 五月玫瑰六月丁香| 简卡轻食公司| 色5月婷婷丁香| 久久99精品国语久久久| 校园人妻丝袜中文字幕| 亚洲精品乱码久久久v下载方式| 久久久久国产网址| 国产精品秋霞免费鲁丝片| 久久97久久精品| 成人二区视频| 白带黄色成豆腐渣| 国产伦精品一区二区三区视频9| av在线播放精品| 久久精品久久久久久久性| 欧美高清成人免费视频www| 亚洲激情五月婷婷啪啪| 少妇裸体淫交视频免费看高清| 韩国高清视频一区二区三区| 熟女av电影| 蜜臀久久99精品久久宅男| 成人特级av手机在线观看| 黄色视频在线播放观看不卡| 欧美日本视频| 精品国产乱码久久久久久小说| 日日摸夜夜添夜夜爱| 国产精品蜜桃在线观看| 国产高清不卡午夜福利| 99热网站在线观看| 在线 av 中文字幕| 欧美潮喷喷水| 免费看a级黄色片| 久久久精品欧美日韩精品| 亚洲精品成人av观看孕妇| 免费看不卡的av| 男人舔奶头视频| 综合色av麻豆| 欧美 日韩 精品 国产| 91狼人影院| 一区二区三区精品91| 搡老乐熟女国产| 麻豆精品久久久久久蜜桃| 91精品一卡2卡3卡4卡| 日产精品乱码卡一卡2卡三| 狂野欧美激情性xxxx在线观看| 少妇人妻精品综合一区二区| 在线精品无人区一区二区三 | 国产精品精品国产色婷婷| 欧美xxxx性猛交bbbb| 免费av观看视频| 亚洲真实伦在线观看| 听说在线观看完整版免费高清| 国产乱来视频区| 中国美白少妇内射xxxbb| 国产精品偷伦视频观看了| 欧美性感艳星| 国产精品伦人一区二区| freevideosex欧美| 超碰av人人做人人爽久久| 女人被狂操c到高潮| 搞女人的毛片| 国产成人91sexporn| 能在线免费看毛片的网站| 最近最新中文字幕大全电影3| 夜夜看夜夜爽夜夜摸| 亚洲国产欧美在线一区| 97精品久久久久久久久久精品| 国产在线男女| 欧美三级亚洲精品| 亚洲欧美日韩无卡精品| 一级片'在线观看视频| 色婷婷久久久亚洲欧美| 日韩在线高清观看一区二区三区| 99热国产这里只有精品6| av卡一久久| 尤物成人国产欧美一区二区三区| 欧美xxⅹ黑人| av在线天堂中文字幕| 亚洲成人一二三区av| www.av在线官网国产| 精品久久久久久电影网| 国产 精品1| kizo精华| 亚洲怡红院男人天堂| 精品久久久精品久久久| 亚洲av中文字字幕乱码综合| 久久精品国产自在天天线| 一个人观看的视频www高清免费观看| 尤物成人国产欧美一区二区三区| 久久热精品热| 69人妻影院| 久久精品国产鲁丝片午夜精品| 高清午夜精品一区二区三区| 亚洲怡红院男人天堂| 啦啦啦中文免费视频观看日本| 少妇丰满av| 日产精品乱码卡一卡2卡三| 国产伦精品一区二区三区视频9| 久久6这里有精品| 91精品国产九色| 又黄又爽又刺激的免费视频.| av在线亚洲专区| 全区人妻精品视频| 哪个播放器可以免费观看大片| 777米奇影视久久| 一二三四中文在线观看免费高清| 少妇 在线观看| 亚洲三级黄色毛片| 在线a可以看的网站| 亚洲成人中文字幕在线播放| 最近最新中文字幕免费大全7| 国产精品麻豆人妻色哟哟久久| 99久久九九国产精品国产免费| 久久99蜜桃精品久久| 久久久精品欧美日韩精品| 最近的中文字幕免费完整| 久久久久久久国产电影| 色综合色国产| 男女啪啪激烈高潮av片| 日韩人妻高清精品专区| 高清在线视频一区二区三区| 尾随美女入室| 久久精品人妻少妇| 亚州av有码| av卡一久久| 亚洲欧美中文字幕日韩二区| 中文字幕免费在线视频6| 97超碰精品成人国产| 国产午夜福利久久久久久| 搡女人真爽免费视频火全软件| 听说在线观看完整版免费高清| 国产精品熟女久久久久浪| 亚洲久久久久久中文字幕| 精品一区二区三卡| 99视频精品全部免费 在线| 少妇被粗大猛烈的视频| 久久久久久久午夜电影| 国产片特级美女逼逼视频| 又黄又爽又刺激的免费视频.| 亚洲经典国产精华液单| 搡老乐熟女国产| 亚洲美女搞黄在线观看| 亚洲精品日韩在线中文字幕| 久久午夜福利片| 秋霞伦理黄片| 久久久久精品久久久久真实原创| 国产淫片久久久久久久久| 麻豆成人av视频| 99久久精品热视频| 天堂俺去俺来也www色官网| 亚洲经典国产精华液单| 久久影院123| 蜜桃久久精品国产亚洲av| 成人毛片60女人毛片免费| 我要看日韩黄色一级片| 又黄又爽又刺激的免费视频.| 日产精品乱码卡一卡2卡三| 美女内射精品一级片tv| 中国美白少妇内射xxxbb| www.色视频.com| 亚洲欧美一区二区三区国产| 成人亚洲欧美一区二区av| 亚洲国产欧美人成| 涩涩av久久男人的天堂| 欧美日韩视频精品一区| 狂野欧美白嫩少妇大欣赏| 黄色配什么色好看| 91久久精品国产一区二区三区| 亚洲不卡免费看| 男的添女的下面高潮视频| 欧美激情在线99| 久久久久久久亚洲中文字幕| 欧美bdsm另类| 天堂俺去俺来也www色官网| 国产av码专区亚洲av| 一级二级三级毛片免费看| 新久久久久国产一级毛片| 汤姆久久久久久久影院中文字幕| 一本一本综合久久| 国产白丝娇喘喷水9色精品| 久久久久久国产a免费观看| 午夜精品国产一区二区电影 | 777米奇影视久久| 免费看日本二区| 天堂中文最新版在线下载 | 免费少妇av软件| 日韩欧美精品v在线| 美女cb高潮喷水在线观看| 人人妻人人看人人澡| 日本wwww免费看| 亚洲人与动物交配视频| 肉色欧美久久久久久久蜜桃 | 最近中文字幕2019免费版| 久久久精品欧美日韩精品| 久久久久久久久久久丰满| 精品国产露脸久久av麻豆| 国产高清国产精品国产三级 | 你懂的网址亚洲精品在线观看| 国产视频首页在线观看| 中文字幕人妻熟人妻熟丝袜美| 婷婷色麻豆天堂久久| 久久精品久久精品一区二区三区| 亚洲欧美成人精品一区二区| 大码成人一级视频| 成人鲁丝片一二三区免费| 天堂中文最新版在线下载 | 久久久精品免费免费高清| 国产精品福利在线免费观看| 春色校园在线视频观看| 国产精品.久久久| 久久久精品94久久精品| 国产日韩欧美在线精品| 国产一区二区在线观看日韩| 欧美丝袜亚洲另类| 1000部很黄的大片| 丝袜美腿在线中文| kizo精华| 国产黄a三级三级三级人| 99热这里只有精品一区| 国产午夜精品久久久久久一区二区三区| 亚洲欧美清纯卡通| 看十八女毛片水多多多| 亚洲av电影在线观看一区二区三区 | 亚洲一区二区三区欧美精品 | 国产极品天堂在线| 国产淫片久久久久久久久| 亚洲成色77777| av在线天堂中文字幕| 黄色欧美视频在线观看| 成人国产av品久久久| 国产欧美亚洲国产| 综合色丁香网| 欧美日本视频| 亚洲精品国产色婷婷电影| 中文在线观看免费www的网站| 国产 一区精品| 亚洲欧美中文字幕日韩二区| 寂寞人妻少妇视频99o| 男男h啪啪无遮挡| 97超碰精品成人国产| 大码成人一级视频| 日本黄色片子视频| 亚洲色图av天堂| 一个人看的www免费观看视频| 国产伦理片在线播放av一区| 午夜福利在线在线| 日韩强制内射视频| 人妻系列 视频| 日日摸夜夜添夜夜添av毛片| 少妇人妻一区二区三区视频| 好男人视频免费观看在线| 夜夜爽夜夜爽视频| 亚洲一区二区三区欧美精品 | 国产精品99久久99久久久不卡 | 亚洲精品一二三| 成人黄色视频免费在线看| 国产免费一区二区三区四区乱码| tube8黄色片| 又大又黄又爽视频免费| 免费看日本二区| 亚洲精品日韩在线中文字幕| 狂野欧美白嫩少妇大欣赏| 天堂中文最新版在线下载 | 亚洲在久久综合| 国产国拍精品亚洲av在线观看| 新久久久久国产一级毛片| 亚洲精品成人久久久久久| 亚洲精品成人av观看孕妇| 三级国产精品欧美在线观看| 婷婷色综合www| 国产白丝娇喘喷水9色精品| 在线观看美女被高潮喷水网站| 人妻 亚洲 视频| 一本色道久久久久久精品综合| 欧美成人午夜免费资源| 日韩精品有码人妻一区| 香蕉精品网在线| 汤姆久久久久久久影院中文字幕| 亚洲精品成人av观看孕妇| 国产高潮美女av| 18禁裸乳无遮挡免费网站照片| 国产精品一区二区三区四区免费观看| 久久精品久久精品一区二区三区| 亚洲最大成人中文| 国精品久久久久久国模美| 在线播放无遮挡| 亚洲国产欧美人成| 80岁老熟妇乱子伦牲交| 激情五月婷婷亚洲| 欧美高清成人免费视频www| 国产精品三级大全| 日韩欧美一区视频在线观看 | 一区二区av电影网| 日本三级黄在线观看| 少妇被粗大猛烈的视频| 亚洲人成网站在线播| 亚洲成人中文字幕在线播放| 中文字幕亚洲精品专区| 日韩伦理黄色片| 欧美丝袜亚洲另类| 一区二区三区精品91| 午夜激情福利司机影院| 久久久午夜欧美精品| 亚洲欧美一区二区三区国产| 午夜日本视频在线| 日韩欧美精品免费久久| 国产久久久一区二区三区| 人妻系列 视频| 精品少妇黑人巨大在线播放| 大话2 男鬼变身卡| 久久久国产一区二区| 国内精品宾馆在线| 国产又色又爽无遮挡免| 26uuu在线亚洲综合色| 一二三四中文在线观看免费高清| 99热这里只有是精品在线观看| av福利片在线观看| 亚洲精品成人久久久久久| 国产精品久久久久久av不卡| 亚洲三级黄色毛片| 美女主播在线视频| 国产片特级美女逼逼视频| 伊人久久精品亚洲午夜| 亚洲国产欧美在线一区| 亚洲精品456在线播放app| 99视频精品全部免费 在线| 国产精品女同一区二区软件| 国产 一区 欧美 日韩| 亚洲怡红院男人天堂| 九九爱精品视频在线观看| 26uuu在线亚洲综合色| 国产欧美日韩一区二区三区在线 | 日韩一区二区三区影片| 91aial.com中文字幕在线观看| 天堂俺去俺来也www色官网| freevideosex欧美| 成年免费大片在线观看| 97人妻精品一区二区三区麻豆| 亚洲伊人久久精品综合| 丰满少妇做爰视频| 午夜视频国产福利| 最新中文字幕久久久久| videossex国产| 欧美97在线视频| 欧美日韩在线观看h| 欧美日韩国产mv在线观看视频 | 日日摸夜夜添夜夜添av毛片| 99热网站在线观看| 人妻系列 视频| 亚洲第一区二区三区不卡| 嫩草影院新地址| 国产色婷婷99| av免费观看日本| 人妻少妇偷人精品九色| 色综合色国产| 夫妻午夜视频| av在线app专区| 国产一区二区三区av在线| 热99国产精品久久久久久7| 欧美日韩综合久久久久久| 最后的刺客免费高清国语| 在线天堂最新版资源| 毛片女人毛片| 亚洲精品aⅴ在线观看| 乱系列少妇在线播放| 亚洲精品自拍成人| 国产精品久久久久久精品古装| 亚洲自拍偷在线| 亚洲精品456在线播放app| 日韩伦理黄色片| 久久精品国产a三级三级三级| 亚洲综合色惰| 大又大粗又爽又黄少妇毛片口| 日韩av免费高清视频| 美女被艹到高潮喷水动态| 成人特级av手机在线观看| 欧美日本视频| 久久6这里有精品| 亚洲经典国产精华液单| 亚洲四区av| 国产高潮美女av| 97精品久久久久久久久久精品| 日产精品乱码卡一卡2卡三| 又爽又黄无遮挡网站| 看非洲黑人一级黄片| 别揉我奶头 嗯啊视频| 久久久久久伊人网av| 免费少妇av软件| 97在线视频观看| 亚洲无线观看免费| 久久97久久精品| .国产精品久久| 婷婷色综合www| 午夜福利网站1000一区二区三区| 91精品伊人久久大香线蕉| 亚洲在久久综合| 久久久久久久午夜电影| 久久精品国产亚洲av天美| 亚洲精品日韩在线中文字幕| videossex国产| 国产精品不卡视频一区二区| 99久久中文字幕三级久久日本| 久久久久久久大尺度免费视频| av在线观看视频网站免费| 免费看av在线观看网站| 免费播放大片免费观看视频在线观看| av黄色大香蕉| 国国产精品蜜臀av免费| 亚洲在久久综合| 嫩草影院入口| 亚洲欧美一区二区三区黑人 | 一区二区三区乱码不卡18| 永久网站在线| 国产乱来视频区| 美女主播在线视频| 观看免费一级毛片| 一级毛片电影观看| 久久久久国产网址| 18禁裸乳无遮挡免费网站照片| 欧美区成人在线视频| 国产成人免费无遮挡视频| 国产毛片在线视频| 大码成人一级视频| av在线老鸭窝| 免费电影在线观看免费观看| 在线亚洲精品国产二区图片欧美 | 亚洲一级一片aⅴ在线观看| 午夜精品国产一区二区电影 | 免费观看性生交大片5| 熟女av电影| 一级毛片电影观看| 日韩欧美一区视频在线观看 | 久久鲁丝午夜福利片| 偷拍熟女少妇极品色| 少妇的逼水好多| 亚洲国产欧美在线一区| 亚洲av国产av综合av卡| 午夜激情福利司机影院| 少妇丰满av| 99热这里只有是精品50| 亚洲av电影在线观看一区二区三区 | 亚洲av福利一区| 免费看不卡的av| 欧美zozozo另类| 免费观看av网站的网址| a级毛色黄片| 亚洲欧美成人综合另类久久久| 国产 一区 欧美 日韩| 一级毛片电影观看| 伦理电影大哥的女人| 日本欧美国产在线视频| 自拍偷自拍亚洲精品老妇| 国产爽快片一区二区三区| 亚洲一级一片aⅴ在线观看| 国产午夜精品一二区理论片| 国产成人免费无遮挡视频| 成年女人看的毛片在线观看| 青春草国产在线视频| 日本午夜av视频| 久久久a久久爽久久v久久| 国产视频首页在线观看| 亚洲av二区三区四区| 中文乱码字字幕精品一区二区三区| 一区二区三区精品91| 国产在线一区二区三区精| 日本猛色少妇xxxxx猛交久久| 日日摸夜夜添夜夜添av毛片| 97热精品久久久久久| 在线观看av片永久免费下载| 精品99又大又爽又粗少妇毛片| 亚洲av福利一区| 人妻一区二区av| 亚洲婷婷狠狠爱综合网| 国内少妇人妻偷人精品xxx网站| 国产精品久久久久久久久免| 国产精品人妻久久久影院| 国产毛片在线视频| 久久久久九九精品影院| 一区二区三区精品91| 尤物成人国产欧美一区二区三区| 综合色av麻豆| av天堂中文字幕网| 国产中年淑女户外野战色| 日韩不卡一区二区三区视频在线| av专区在线播放| 女人十人毛片免费观看3o分钟| 国内精品美女久久久久久| 麻豆精品久久久久久蜜桃| 亚洲综合色惰| 欧美老熟妇乱子伦牲交| 精品久久久精品久久久| 只有这里有精品99| 老女人水多毛片| 国产亚洲最大av| 网址你懂的国产日韩在线| 亚洲欧美一区二区三区国产| 国产精品av视频在线免费观看| 国产伦精品一区二区三区四那| 亚洲aⅴ乱码一区二区在线播放| 永久免费av网站大全| 亚洲精品456在线播放app| 五月玫瑰六月丁香| 亚洲最大成人中文| 精品一区二区三区视频在线| 少妇被粗大猛烈的视频| 久久这里有精品视频免费| 国产av国产精品国产| 国产女主播在线喷水免费视频网站| 又爽又黄无遮挡网站| 大码成人一级视频| 成人高潮视频无遮挡免费网站| 国产老妇伦熟女老妇高清| 国产 一区精品| 日韩视频在线欧美| 免费观看无遮挡的男女| 日韩人妻高清精品专区| 久久精品国产鲁丝片午夜精品| 久久ye,这里只有精品| 欧美日韩综合久久久久久| 99热这里只有是精品在线观看| 久久久久久伊人网av| 中文资源天堂在线| 国产亚洲av嫩草精品影院| 欧美日韩视频精品一区| 男人添女人高潮全过程视频| 国产成人免费无遮挡视频| 日韩一本色道免费dvd| 久久精品国产a三级三级三级| 国产精品爽爽va在线观看网站| 夫妻性生交免费视频一级片| 99热这里只有是精品在线观看| 网址你懂的国产日韩在线| 欧美xxxx性猛交bbbb| 国产成人91sexporn| 亚洲无线观看免费| 亚洲av免费高清在线观看| 哪个播放器可以免费观看大片| 男人添女人高潮全过程视频| 色播亚洲综合网| 日韩人妻高清精品专区| 极品少妇高潮喷水抽搐| 欧美日韩视频高清一区二区三区二| 国产午夜福利久久久久久| 亚洲av不卡在线观看| 久久久久久伊人网av| 男人添女人高潮全过程视频| av在线天堂中文字幕| 下体分泌物呈黄色| 国产免费福利视频在线观看| 97在线视频观看| www.av在线官网国产| 99久国产av精品国产电影| 男女啪啪激烈高潮av片| 免费看日本二区| 菩萨蛮人人尽说江南好唐韦庄| 欧美3d第一页| 99久久精品热视频| 在线观看人妻少妇| 国产视频首页在线观看| 黄色日韩在线| 熟女人妻精品中文字幕| 精华霜和精华液先用哪个| 国产成人a区在线观看| 搡老乐熟女国产| 国产男女超爽视频在线观看| 精品人妻熟女av久视频| 欧美bdsm另类| 免费人成在线观看视频色| 国产高清有码在线观看视频| av在线蜜桃| 免费看av在线观看网站| 一区二区av电影网| 秋霞伦理黄片| av在线播放精品| 插逼视频在线观看| 五月天丁香电影| 免费观看a级毛片全部| 日本一本二区三区精品| 深爱激情五月婷婷| 美女脱内裤让男人舔精品视频| 亚洲精品第二区| 日韩伦理黄色片| 又黄又爽又刺激的免费视频.|