• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    表格單元格分類的端到端不完全監(jiān)督方法*

    2023-05-12 02:25:46郝昕毓周建濤
    計算機與數(shù)字工程 2023年1期
    關(guān)鍵詞:單元格表格修正

    郝昕毓 周建濤 王 昊

    (1.內(nèi)蒙古大學計算機學院 呼和浩特 010021)(2.生態(tài)大數(shù)據(jù)教育部工程研究中心 呼和浩特 010021)

    1 引言

    隨著大數(shù)據(jù)時代的來臨,海量數(shù)據(jù)中蘊含巨大的價值,處理和挖掘海量數(shù)據(jù)并有效的獲取其潛藏價值成為當下關(guān)注的焦點問題之一。同時在互聯(lián)網(wǎng)高度發(fā)展下,海量數(shù)據(jù)中有80%以上的非結(jié)構(gòu)化數(shù)據(jù)。雖然傳統(tǒng)的數(shù)據(jù)處理方法在處理結(jié)構(gòu)化數(shù)據(jù)方面較為有效,也能處理大數(shù)據(jù)的部分特征,但對非結(jié)構(gòu)化數(shù)據(jù),因其靈活性和多樣性,結(jié)構(gòu)化數(shù)據(jù)的方法可能不完全適用,必須進行改造[1]。因此面向非結(jié)構(gòu)化數(shù)據(jù)的處理方法成為數(shù)據(jù)處理領(lǐng)域研究的重點與難點之一。

    表格作為典型的高價值密度非結(jié)構(gòu)化數(shù)據(jù)被廣泛運用在內(nèi)容管理上。根據(jù)Cafarella 等的調(diào)查[2],互聯(lián)網(wǎng)上有大量未被管理的表格數(shù)據(jù),這些數(shù)據(jù)中包含各種領(lǐng)域大量有價值的信息,將其進行識別、提取和集成是一個極有價值的任務(wù)。但由于表格主要是為人類用戶的使用而設(shè)計,用戶可以自由設(shè)計表格結(jié)構(gòu)和內(nèi)容[3],雖然為數(shù)據(jù)管理帶來了極大的靈活和便利,但也導致表格總伴隨著大量不同的格式、布局和元數(shù)據(jù),很大程度上影響了其機器可讀性和可重用性,導致嚴重的數(shù)據(jù)孤島問題,使得有效大規(guī)模識別、集成和運用表格數(shù)據(jù)變得困難[4]。因此準確、自動地識別表格是表格數(shù)據(jù)進一步集成和運用的關(guān)鍵步驟。機器學習為自動表格識別提供了新思路,但其步驟多且獨立影響識別結(jié)果,只有將獨立的模塊整合為端到端任務(wù),并合理加入人的判斷,才能更好地將識別結(jié)果運用在下游任務(wù)上。

    據(jù)此,本文為了將各種結(jié)構(gòu)和展示類型的表格數(shù)據(jù)識別,提出了一種用于表格單元格分類的端到端不完全監(jiān)督方法。該方法將表格識別任務(wù)建模為單元格分類任務(wù),主要包括以下兩個模塊:

    1)表格單元格特征化模塊:該模塊根據(jù)基于視覺可見的單元格特征化方案對輸入的表格進行特征提取,以適應(yīng)各種類型、結(jié)構(gòu)和語言的表格。

    2)不完全監(jiān)督分類模型模塊:該模塊分成三個步驟:(1)使用特征化的單元格作為訓練數(shù)據(jù),通過監(jiān)督模型進行模型訓練,包括訓練前的欠采樣處理和訓練后對未標記數(shù)據(jù)進行分類。(2)對分類結(jié)果通過基于規(guī)則的算法進行修正來減輕單元格分類易出錯的缺點。(3)將結(jié)果交給人類用戶進行修正,并在修正后將修正的部分加入到模型訓練數(shù)據(jù)中來提高不同場景下模型的適應(yīng)性。

    同時本文將所提出的端到端不完全監(jiān)督方法實現(xiàn)為web 工具,用戶通過表格可視化界面來確認和修改分類結(jié)果,并通過輸出來得到包含分類結(jié)果的表格數(shù)據(jù)。

    綜上,經(jīng)過實驗和模擬表明,本文提出的方法在兼顧通用性的同時能夠保證一定程度單元格分類的準確率。同時端到端方法和工具在便于用戶修正的同時,還能有效地提取結(jié)果,便于結(jié)果進一步運用在下游任務(wù)上。

    2 相關(guān)工作

    根據(jù)Hurst 給出的定義,從表格生成機器可讀結(jié)構(gòu)化數(shù)據(jù)的方法應(yīng)包括五個步驟[5],本文研究其中的一個:功能分析,識別表中相同功能的區(qū)域或單元格集合。

    一些學者在表格結(jié)構(gòu)的假設(shè)下進行功能分析。如毛等針對縱向表格實現(xiàn)表格行屬性的識別[6]。Dou等識別和提取“可擴展組”的固定格式[7]。Chen等著重于行標題的識別[8]。但這類基于假設(shè)的功能識別具有不能擴展到任意結(jié)構(gòu)表格的不足。一些學者不進行假設(shè),而將其建模為分類任務(wù),文獻[9~10]將表格功能分析建模為塊檢測,將表格區(qū)域按照不同功能進行分類。該類方法可以擴展到任意結(jié)構(gòu),但具有邊界識別困難和距離函數(shù)難確定的特點。文獻[11~13]將表格功能識別建模為單元格分類,該類方法同樣可以識別任意結(jié)構(gòu)且無需考慮邊界,但單元格被單獨考慮,出現(xiàn)錯誤的可能會更高。

    在表格分類任務(wù)中,特征的選取是量化表格類別差異的重點。一些學者人工選取特征[6,11,14~15],另一些學者把特征表示為向量或矩陣[9,12~13]。但這些方案都選擇了大量的強特征,如單元格樣式特征、字體特征和語言特征等,這些特征僅在特定的場景下適用,無法覆蓋各種媒介、語言和展示方式的表格。

    從分類模型的角度來看,目前主要使用的方法為無監(jiān)督方法[9]、監(jiān)督方法[11~13]和半監(jiān)督方法[14]。無監(jiān)督方法實現(xiàn)了自動化但缺乏人的判斷,監(jiān)督方法消耗大量的人力用于生成高質(zhì)量標注,同時一旦領(lǐng)域變更就需要重新標注數(shù)據(jù)和訓練模型。半監(jiān)督方法節(jié)約一定的人力成本并保證了模型的遷移能力,但無法保證結(jié)果的完全正確,無法將結(jié)果直接運用在下游任務(wù)上。

    本文為了使模型的通用性更強,便于將結(jié)果運用在下游任務(wù)上,將表格識別建模為單元格分類任務(wù),并在特征無法通用、單元格分類易出錯、分類結(jié)果無法直接運用這三個問題上進行了改進。

    3 表格單元格特征化模塊

    本節(jié)針對特征無法適用任意結(jié)構(gòu)、語言和類型表格的情況,設(shè)計了基于視覺可見的特征選取方案來提高分類模型的通用性。同時通過該模塊可以將任意電子表格轉(zhuǎn)化成相應(yīng)的特征文件用于模型的訓練和預(yù)測。

    3.1 表格單元格的定義

    本文將表格定義為從左上第一個非空單元格到右下最后一個非空單元格依次選取的一維序列,如式(1)。

    其中:ci(i=1,2,3,…,n)表示第i個非空單元格,每一個非空單元格都是一個m元組。

    為非空單元格所包含的第j個特征。

    3.2 表格單元格的特征

    表格有多種表現(xiàn)形式,如電子表格、表格圖片和web 表格等。但并不是每類表格數(shù)據(jù)都包含大量的附加格式特征,像CSV文件和表格圖片等大多數(shù)形式的表格,其附加的特征數(shù)量有限或者較難準確的提取出來。在這種情況下,如果通過大量附加特征訓練模型就會導致當數(shù)據(jù)為無格式或者附加格式較少的時候,單元格的分類會被大概率誤判,同樣的,如果使用較少的附加特征進行訓練,復雜的表格往往分類結(jié)果就會比較差。

    因此,本文在前人特征選?。?1,16]的基礎(chǔ)上設(shè)計了與展示方式和表格復雜度無關(guān)的單元格特征和鄰域特征。單元格特征篩選了前人研究中與表格展示方式、結(jié)構(gòu)、語言無關(guān)的特征。鄰域特征新設(shè)計了局部鄰域特征和行列鄰域特征。局部鄰域特征將單元格的鄰域設(shè)計成3*3 的包圍盒,獲取這些單元格的數(shù)據(jù)格式特征。如圖1 所示,C 代表某個單元格,N則是其局部鄰域的選取范圍。

    圖1 單元格鄰域特征

    行列鄰域特征考慮該單元格較遠的特征,如同行、同列的數(shù)據(jù)格式特征和內(nèi)容特征的統(tǒng)計。這樣的鄰域特征同時考慮到周邊和較遠范圍的鄰域特征,使得單元格的鄰域特征更為全面。具體的特征如表1所示。

    表1 表格單元格特征

    4 不完全監(jiān)督分類模型模塊

    由于表格功能識別被建模為單元格分類任務(wù),單元格在分類過程中被單獨考慮,相比其他的功能識別算法結(jié)果更分散且更容易出錯,同時結(jié)果也無法直接運用。本節(jié)針對這兩個問題提出了不完全監(jiān)督分類模型模塊。

    4.1 單元格分類建模

    本文的目標是給定一個表格,用一組確定的標簽對每個非空單元格進行分類。在單元格的類別選擇上,本文針對Koci等提出的模型進行了修改[17]。在Koci等的模型中,對于任意非空單元格共有7 個分類,分別是數(shù)據(jù)(Data)、表頭(Header:H)、數(shù)據(jù)派生(Derived)、組表頭(GroupHeader:G)、標題(Ti?tle)、注釋(Note)和其他(Other)。本文在該模型的基礎(chǔ)上對幾個分類進行合并處理。首先,Data 和Derived 合并為Data(D),因為無論是聚合還是數(shù)據(jù)都是數(shù)據(jù)的一種。Title 和Note 合并為Metadata(M),它們共同為表格數(shù)據(jù)識別提供了線索,在結(jié)構(gòu)識別上同屬于附加信息。Other 被忽略,因為對于結(jié)構(gòu)識別來說這些數(shù)據(jù)相當于是噪聲點。據(jù)此,表格單元格的類別可以表示為一個一維序列,如式(2)所示。

    其中ri{D,H,G,M},(i=1,2,3,…,n) 是非空單元格ci的類別。

    4.2 不完全監(jiān)督分類模型

    不完全監(jiān)督(incomplete supervision)主要指模型的訓練數(shù)據(jù)中有些數(shù)據(jù)有標注有些沒有。主要的方法有主動學習和半監(jiān)督學習,主動學習是將部分結(jié)果交與人工審核,并把審核結(jié)果加到已標注數(shù)據(jù)中再重新訓練模型。半監(jiān)督學習則是讓模型不依賴外界的交互,自動利用未標記樣本來提高模型的學習能力[18]。但對于表格單元格分類,主動學習可能會導致用戶的標注成本更大,半監(jiān)督學習則無法保證結(jié)果的完全正確,因此這兩種方法都無法很好地將結(jié)果直接運用在下游任務(wù)上。

    據(jù)此,本文提出了一個不同于主動學習和半監(jiān)督學習的不完全監(jiān)督方法。具體來說,該方法首先通過基于規(guī)則的修正算法減輕了單元格分類易出錯且分類結(jié)果零散的問題,然后將修正后的分類結(jié)果交給人類用戶進行修正,并將修正部分加入到模型的訓練數(shù)據(jù)中。由于人類修正后的數(shù)據(jù)準確率相對較高,以此作為模型的訓練數(shù)據(jù)會比半監(jiān)督方法更為準確。該方法不僅能在一定程度上提高模型在不同場景下的適應(yīng)性,還便于用戶將修正后的結(jié)果直接用在下游任務(wù)如數(shù)據(jù)集成上。

    4.2.1 基于規(guī)則的修正算法

    在修正之前,首先將所有的單元格先按行索引再按列索引重新進行排列,以還原表格中的空間結(jié)構(gòu)。單元格在此處也被簡化為三元組,其中n為該表格的單元格個數(shù)。同時也可以通過將其元組中的特征提取,轉(zhuǎn)化成二維坐標的形式去表示一個單元格。其公式如式(3)所示:

    本文設(shè)計的基于空間規(guī)則的修正算法如下:

    算法1 基于規(guī)則的修正算法

    輸入包含預(yù)測結(jié)果的原始表格table

    輸出修正預(yù)測結(jié)果后的表格tableexchange

    1.newRange=[]//新建修正結(jié)果連續(xù)范圍的數(shù)組

    2.range=getRange(table)//提取表格的連續(xù)范圍

    3.for i in range{

    4.oneLine=judgeOneLine(range[i],range[i+1])

    5.if oneLine=True{

    6.index=min(range[i],range[i+1])//取最小值下標

    7.label=getLabel(range[index],table)//規(guī)則修正

    8.range[index].label=label

    9.isCombine,new=combine(range[i],range[i+1])

    10.if iscombine=True{

    11.newRange.append(new)}}}

    12.tableexchange=updateTable(table,newRange)

    算法1~2 行提取每個范圍的開始、結(jié)束坐標和分類標簽。算法3~5 行判斷兩個序列是否在同行,只有在同行才進行基于規(guī)則的修正。算法6 行取出長度較短的序列,因為較短的序列更有可能出現(xiàn)問題。算法7~8 行根據(jù)規(guī)則確定是否進行修正,具體算法如下。

    首先分別根據(jù)該序列所在行列計算出行列各自類別單元格的所占比例,然后將行列比例合并作為該序列在每一類上被選中的概率。接著通過一系列規(guī)則對這些概率進行增加或減少。針對數(shù)據(jù)指定的規(guī)則為數(shù)據(jù)單元格不與表頭、元數(shù)據(jù)同行;針對組表頭的規(guī)則為組表頭不與表頭、元數(shù)據(jù)同行;組表頭在同行少于數(shù)據(jù);組表頭一般在左側(cè)。如果違反規(guī)則就相應(yīng)的減少該序列被選中為該類的概率,符合規(guī)則就增加選擇該類的概率。最終判斷完成后選擇概率最大的分類作為該序列最終的分類。

    算法9~12 行將結(jié)果更新到表格中,最終輸出的表格單元格分類數(shù)組即為修正算法修正的結(jié)果。

    由于算法將表格劃分成由單行相同功能分類的單元格組成的序列,因此需要預(yù)留出存放每個序列起點、終點坐標的數(shù)組,空間復雜度為On。時間復雜度上,最壞的情況下表格的每個單元格都要統(tǒng)計其同行、同列的單元格情況,并對其進行相應(yīng)的規(guī)則判斷,時間復雜度為On2,在最好的情況下每行都有且只有一個序列,只需判斷一次,因此時間復雜度為On。

    4.2.2 基于人類用戶的修正方法

    基于規(guī)則的分類算法得出結(jié)果后,方法會把結(jié)果提交給用戶進行再修正,同時將用戶修正的部分作為新的訓練數(shù)據(jù)參與到模型訓練中,來提高模型在不同場景下的適應(yīng)性。為了便于用戶觀察和修正分類結(jié)果,本文實現(xiàn)了一個用于修正結(jié)果的web工具。可視化界面如圖2 所示:其中圖片的顏色并不是數(shù)據(jù)所攜帶的,而是為了讓用戶更直觀地對結(jié)果進行判斷而增加的顏色。黃色(第8 行)對應(yīng)表頭,粉色(第4~6 行)對應(yīng)元數(shù)據(jù),藍色(第10 行)對應(yīng)組表頭,綠色(12~14 行)對應(yīng)數(shù)據(jù)。用戶可以通過該頁面中工具欄的工具對相應(yīng)選中區(qū)域的單元格類型進行修改,通過保存功能可以導出相應(yīng)的攜帶標注文件的表格數(shù)據(jù)并把修改的部分增加到訓練數(shù)據(jù)集中。

    圖2 可視化人類用戶修正界面

    5 端到端方法和實現(xiàn)的工具

    本節(jié)針對分類結(jié)果不能直接運用的情況,將提出的端到端不完全監(jiān)督方法實現(xiàn)為工具。端到端在不同的領(lǐng)域下有不同的含義,在本文中,端到端是指將方法的兩個模塊通過串聯(lián)的方式整合成一個端到端任務(wù),用戶輸入待預(yù)測的電子表格即可通過方法獲得預(yù)測后帶標記的電子表格,這樣既便于用戶使用,使其無需關(guān)心流程內(nèi)部的參數(shù)調(diào)整和模型再訓練過程,也利于結(jié)果進一步運用在下游任務(wù)。流程如圖3所示。

    圖3 端到端工具執(zhí)行流程

    其中粗體部分是本文的主要貢獻點,其余的步驟是為了完成端到端流程所必須的步驟,而下劃線的標記數(shù)據(jù)則是會持久化到硬盤,每次執(zhí)行時都會從硬盤讀取該數(shù)據(jù)作為模型的訓練數(shù)據(jù)。

    6 實驗結(jié)果與分析

    為了便于表格結(jié)構(gòu)解析,本文選取了一個特殊的表格:電子表格,其是表格數(shù)據(jù)在計算機中讀取的一般形式,具有明確直接可讀的布局結(jié)構(gòu)和數(shù)據(jù)信息,各種形式的表格都能通過各種技術(shù)轉(zhuǎn)為電子表格[10]。

    6.1 數(shù)據(jù)集

    實驗的數(shù)據(jù)集采用DECO 數(shù)據(jù)集[17],該數(shù)據(jù)集由854 個對單元格的類別完成標注的電子表格組成。本文去除了15 張過于龐大且樣式單一的表格,對其余的表格通過表格特征化模塊進行特征提取,最終得到的標記數(shù)據(jù)為839張表格,共1115561條標記數(shù)據(jù),每個標記數(shù)據(jù)都是表格中的一個特征化后的單元格。

    6.2 基于規(guī)則的欠采樣處理

    統(tǒng)計發(fā)現(xiàn)DECO 數(shù)據(jù)集中D 類別所占的比重過高,會造成數(shù)據(jù)類別不平衡而導致模型對D類別具有更高的傾向性,而使得分類效果在其他類別上較差。因此本文通過一個基于規(guī)則的半隨機欠采樣進行不平衡數(shù)據(jù)處理。具體來說,在采樣時將所有D 以外的類別單元格都視為一類,數(shù)量記為m,對D 的前m個和后m個進行采樣,中間隨機采樣m個。采樣后類別將大致平衡為m:3m,大大減少了D類單元格的數(shù)量,且全局來看不會丟失過多信息。處理后的數(shù)據(jù)由原先的1115561 條數(shù)據(jù)縮減到了124007條數(shù)據(jù)。

    6.3 評價指標

    本文在評價模型效果時,除了使用常用于分類任務(wù)的指標:平衡F 分數(shù)(F1-score:F1),還引入了常用在不平衡數(shù)據(jù)多分類任務(wù)上的評價指標,Mac?ro-F1和Micro-F1[19]。

    6.4 實驗與分析

    本文的實驗環(huán)境為4.2GHz CPU,32GB 內(nèi)存,在Windows 10 操作系統(tǒng)下,使用JDK1.8 和Py?thon3.8.12完成,分類模型采用sklearn的分類模型。

    6.4.1 實驗情況和分析

    為了驗證提出方法的有效性,本文進行的實驗將一些常見的多分類算法作為基線模型,將本文提出的方法在相應(yīng)的基線模型進行驗證。本文測試的分類模型,如決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、多層感知機(Multilayer Percep?tron,MLP)和K最近鄰(k-Nearest Neighbor,KNN)。

    本文在劃分訓練集和測試集時與文獻[13]相同,選擇按文檔進行分割,即將單個表格視為最小的拆分單元,因為按單元格拆分可能導致模型提前學習到數(shù)據(jù)的特點而造成數(shù)據(jù)泄露。訓練集和測試集分別為80%和20%,同時僅在訓練集上進行欠采樣來減少初始訓練數(shù)據(jù)個數(shù),測試集讀取整表來模擬真實情況。實驗時將隨機種子固定為某值(7、15 和39),重復進行三輪實驗并取平均值。最終訓練集和測試集的平均單元格個數(shù)分別為101055 和188444。同時將修正算法中各個規(guī)則的權(quán)重設(shè)置為0.1,即符合或者違反規(guī)則會相應(yīng)的增減10%的概率。基線方法(方法后加B)為基線分類器在22個特征下(移除行列鄰域特征),并除去基于規(guī)則修正和人工修正的部分。實驗結(jié)果如表2 所示,評價指標單位為%。

    表2 實驗結(jié)果

    經(jīng)過實驗得出,通過本文提出的方法可以在一定程度上提升基分類器的性能,對于H、M 類型的提升效果較為明顯。整體效果最好的模型是RF,提升最明顯的是KNN。但無論是基線分類器還是改進后的方法,其在M 和G上的結(jié)果都不理想。導致M 不理想的原因可能是其高自由度導致的。由于本文將表格的標題和注釋進行了合并,雖然減少了類別的數(shù)量但也導致M 類的單元格可以出現(xiàn)在表格的任意位置,導致模型無法很好地判斷M的特征。而G 可能是因為其與D、H 的特征區(qū)分不明顯而導致分類器難以識別。經(jīng)統(tǒng)計原始數(shù)據(jù),存在G類型的單元格并不在表格左側(cè),而是作為獨立的行,這也是影響分類效果的一個因素。經(jīng)過對比統(tǒng)計,G 類型的單元格數(shù)量過少也是導致分類結(jié)果較差的一個因素。

    實驗后我們將結(jié)果最好的RF與使用相同數(shù)據(jù)集的Ghasemi-Gol 等[13]和Gonsior[14]等在RF 下的表現(xiàn)進行了對比,對比結(jié)果如表3所示。

    表3 實驗結(jié)果

    經(jīng)過對比發(fā)現(xiàn),本文的方法在M 和D上要略優(yōu)于對比的模型,H 與相差不大,在G 上則較差,這是因為本文為了提高模型的通用性而沒有使用風格特征和語言特征,但對于G 類型的單元格來說,風格特征和語言特征可能是將其與其他類型單元格區(qū)分開的關(guān)鍵特征。但本文提出的方法由于不使用風格特征和語言特征,可以在多種表現(xiàn)形式和不同語言的表格上獲得相同的表現(xiàn),提高了模型的通用性,這是對比的模型所不具備的特點。

    6.4.2 修正算法實驗分析

    通過分析實驗結(jié)果,分類錯誤的情況一般為以下兩種:錯誤的單元格與同行兩側(cè)正確的單元格分類:1)不同;2)相同。由于算法將單行內(nèi)連續(xù)的同類別單元格組成序列,再判斷是否存在錯誤分類的單元格,據(jù)此該算法可以較好地處理1)的情況。如果錯誤的單元格組成的序列較短,算法對于2)的情況也可以處理。但對于單行為一個序列且其中存在一個或多個錯誤單元格的情況,算法無法將錯誤的單元格與正確的單元格分開,這也是G類型的單元格在修正算法之后仍然較差的可能原因。

    但本算法仍然可以覆蓋一般情況下單元格分類錯誤的情況,同時也在一定程度上緩解了單元格分類易出錯而導致錯誤單元格排列較為零散,不利于用戶修正的問題。實驗統(tǒng)計了修正前和修正后每個序列內(nèi)單元格個數(shù)小于2且整行個數(shù)大于2的單元格,即零散單元格總數(shù)的情況,結(jié)果如表4 所示。

    表4 修改前后零散單元格個數(shù)

    經(jīng)過對比,本文提出的基于規(guī)則的修正算法在各個分類器上都使得分類結(jié)果的零散單元格個數(shù)有不同程度的下降,能在一定程度上緩解單元格分類易出錯和因此導致的錯誤分類較為零散的問題,這有利于人類用戶更好地對結(jié)果進行檢查和修正。

    6.4.3 實驗結(jié)果分析

    總體來說,本文的特征選取方法和基于空間的修正算法能在一定程度上提高各分類器在表格單元格分類上的效果,其中Macro-F1 和Micro-F1 兩個指標在RF上取得了最好的結(jié)果。對于其中某些表格,其全表的F1 能達到100%,可能是因為對于結(jié)構(gòu)簡單的表格,如第一行為H,后面的行為D,模型很容易判斷出各單元格的類型。

    表格數(shù)據(jù)類別不平衡的情況在修正算法和采樣算法的共同作用下有所緩解,但方法還是有很大的傾向性,M 類型和G 類型的單元格其F1 值還是比較低,可能是當前去除了樣式特征和語言特征的特征選取方案并不能很好地描述出這些單元格的特點。

    7 結(jié)語

    本文針對表格數(shù)據(jù)研究了一種用于表格單元格分類的端到端不完全監(jiān)督方法。1)選取了兼容多種不同表示形式表格數(shù)據(jù)的基于視覺可見的特征,并通過表格特征化模塊對表格數(shù)據(jù)進行特征提取。2)通過基于規(guī)則的修正算法緩解了單元格分類易出錯的問題,讓用戶能更有效地對結(jié)果進行修正。再將修改的數(shù)據(jù)加入模型的訓練集中,以提高模型在后續(xù)分類任務(wù)上的效果。最后將提出的方法實現(xiàn)為可視化工具,讓用戶直觀進行修改,并即時獲得分類結(jié)果,使用戶便捷地將結(jié)果用于下游任務(wù)。實驗結(jié)果表明,本文提出的端到端不完全監(jiān)督方法在增加了模型通用性的情況下,還能在一定程度上保持一定的分類效果,也在一定程度上增加了分類結(jié)果的可用性。

    未來的工作我們考慮:1)通過修改分類模型的權(quán)重函數(shù),使得少數(shù)類的權(quán)重更大。2)嘗試引入代價敏感學習對表格單元格進行分類,以改進G類別F1較低的情況。

    猜你喜歡
    單元格表格修正
    Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
    《現(xiàn)代臨床醫(yī)學》來稿表格要求
    修正這一天
    快樂語文(2021年35期)2022-01-18 06:05:30
    玩轉(zhuǎn)方格
    玩轉(zhuǎn)方格
    統(tǒng)計表格的要求
    統(tǒng)計表格的要求
    統(tǒng)計表格的要求
    合同解釋、合同補充與合同修正
    法律方法(2019年4期)2019-11-16 01:07:28
    淺談Excel中常見統(tǒng)計個數(shù)函數(shù)的用法
    西部皮革(2018年6期)2018-05-07 06:41:07
    中文字幕久久专区| av播播在线观看一区| 亚洲无线观看免费| 有码 亚洲区| 七月丁香在线播放| 久久99蜜桃精品久久| 国产在线免费精品| 亚洲三级黄色毛片| 丝瓜视频免费看黄片| 一级黄片播放器| 亚洲精品久久午夜乱码| 一级片'在线观看视频| 日韩三级伦理在线观看| 国产成人精品婷婷| 各种免费的搞黄视频| 日本黄色日本黄色录像| 少妇猛男粗大的猛烈进出视频| 欧美另类一区| 国产欧美另类精品又又久久亚洲欧美| 精品国产乱码久久久久久小说| 国产精品成人在线| 人体艺术视频欧美日本| 国产精品人妻久久久久久| 中文字幕人妻熟人妻熟丝袜美| 王馨瑶露胸无遮挡在线观看| 亚洲情色 制服丝袜| 爱豆传媒免费全集在线观看| √禁漫天堂资源中文www| 久久久久久伊人网av| 一区在线观看完整版| 国产成人精品无人区| 天天躁夜夜躁狠狠久久av| 久久女婷五月综合色啪小说| 国产av精品麻豆| 久久精品国产鲁丝片午夜精品| 在线观看美女被高潮喷水网站| 日韩av在线免费看完整版不卡| 日韩av在线免费看完整版不卡| 国产精品一国产av| 久久久午夜欧美精品| 色网站视频免费| 精品熟女少妇av免费看| 欧美xxxx性猛交bbbb| 啦啦啦视频在线资源免费观看| 国产高清国产精品国产三级| 国产精品国产三级国产av玫瑰| 国国产精品蜜臀av免费| 中文欧美无线码| 精品人妻偷拍中文字幕| 高清黄色对白视频在线免费看| 免费高清在线观看日韩| 免费黄频网站在线观看国产| 国产无遮挡羞羞视频在线观看| 大香蕉97超碰在线| 国模一区二区三区四区视频| 日韩中文字幕视频在线看片| 最新的欧美精品一区二区| 成年美女黄网站色视频大全免费 | 免费黄频网站在线观看国产| 国产精品女同一区二区软件| 日韩强制内射视频| 一级a做视频免费观看| 天堂俺去俺来也www色官网| 亚洲av免费高清在线观看| 婷婷色综合www| 欧美精品国产亚洲| 又粗又硬又长又爽又黄的视频| 久久人人爽人人爽人人片va| 免费播放大片免费观看视频在线观看| 亚洲综合色惰| 高清午夜精品一区二区三区| 亚洲精品日韩在线中文字幕| 欧美精品一区二区免费开放| 极品人妻少妇av视频| 最新中文字幕久久久久| 中文欧美无线码| 国产乱人偷精品视频| 国产视频内射| 亚洲五月色婷婷综合| 久久国产亚洲av麻豆专区| 亚洲情色 制服丝袜| 国产熟女午夜一区二区三区 | 亚洲精品久久午夜乱码| 91在线精品国自产拍蜜月| 婷婷色综合www| 一本久久精品| 成年人午夜在线观看视频| 成年人午夜在线观看视频| 日韩一区二区三区影片| 国产日韩欧美亚洲二区| 国产在线一区二区三区精| 国产欧美日韩一区二区三区在线 | 高清欧美精品videossex| 午夜激情福利司机影院| 少妇 在线观看| 久久精品夜色国产| 午夜激情av网站| 一边摸一边做爽爽视频免费| 老熟女久久久| 中文字幕制服av| 国产黄色视频一区二区在线观看| 在线 av 中文字幕| 少妇猛男粗大的猛烈进出视频| 免费久久久久久久精品成人欧美视频 | 欧美xxxx性猛交bbbb| 热99国产精品久久久久久7| 99久国产av精品国产电影| 一本大道久久a久久精品| 热re99久久国产66热| 美女cb高潮喷水在线观看| 一本久久精品| 一本久久精品| 国产在视频线精品| 精品久久久久久久久亚洲| 国产国拍精品亚洲av在线观看| 久久久国产欧美日韩av| 如何舔出高潮| 亚洲国产精品一区三区| 国产免费视频播放在线视频| 能在线免费看毛片的网站| 亚洲国产最新在线播放| 一区二区三区免费毛片| 九色亚洲精品在线播放| 91精品国产九色| 久久狼人影院| 欧美日本中文国产一区发布| 免费av不卡在线播放| 少妇被粗大的猛进出69影院 | 少妇的逼好多水| 久久国产亚洲av麻豆专区| 三级国产精品片| av不卡在线播放| 夜夜骑夜夜射夜夜干| 黑人欧美特级aaaaaa片| 国产精品秋霞免费鲁丝片| 成人国产麻豆网| 少妇被粗大猛烈的视频| 一本色道久久久久久精品综合| 一级二级三级毛片免费看| av天堂久久9| xxx大片免费视频| 亚洲欧美精品自产自拍| 天堂中文最新版在线下载| 在线观看免费日韩欧美大片 | 免费人成在线观看视频色| 国产成人精品一,二区| 香蕉精品网在线| 99热这里只有是精品在线观看| 成人二区视频| 啦啦啦啦在线视频资源| 国内精品宾馆在线| 久久精品久久精品一区二区三区| 美女国产高潮福利片在线看| 在线观看www视频免费| 如何舔出高潮| 夜夜爽夜夜爽视频| 国产色婷婷99| 精品人妻熟女av久视频| 国产免费一区二区三区四区乱码| 美女内射精品一级片tv| 免费黄色在线免费观看| 亚洲成人一二三区av| 99久久综合免费| 国产视频内射| 狂野欧美激情性bbbbbb| 国产日韩欧美亚洲二区| 日韩,欧美,国产一区二区三区| 五月开心婷婷网| .国产精品久久| 日韩熟女老妇一区二区性免费视频| 国产av精品麻豆| 久久久午夜欧美精品| 91国产中文字幕| 久久女婷五月综合色啪小说| 欧美日韩视频精品一区| 最新中文字幕久久久久| 爱豆传媒免费全集在线观看| 久久影院123| 国产成人aa在线观看| 一边摸一边做爽爽视频免费| 91久久精品国产一区二区成人| 日韩免费高清中文字幕av| 秋霞在线观看毛片| 晚上一个人看的免费电影| 亚洲成人一二三区av| 日韩亚洲欧美综合| 黑人巨大精品欧美一区二区蜜桃 | 男女啪啪激烈高潮av片| 日日撸夜夜添| 精品少妇久久久久久888优播| 国产日韩一区二区三区精品不卡 | 成人综合一区亚洲| 国产色爽女视频免费观看| 亚洲高清免费不卡视频| 18禁在线无遮挡免费观看视频| 婷婷色av中文字幕| 人人妻人人爽人人添夜夜欢视频| 一本大道久久a久久精品| 亚洲av免费高清在线观看| 丰满少妇做爰视频| 欧美日韩av久久| 国产深夜福利视频在线观看| 午夜激情福利司机影院| 亚洲欧美中文字幕日韩二区| 狂野欧美白嫩少妇大欣赏| 国产69精品久久久久777片| 国产爽快片一区二区三区| 久久精品国产鲁丝片午夜精品| 亚洲少妇的诱惑av| 黄色欧美视频在线观看| 午夜激情福利司机影院| 少妇熟女欧美另类| 午夜激情av网站| 男人爽女人下面视频在线观看| 丝袜脚勾引网站| 亚洲精品一区蜜桃| 成人综合一区亚洲| 亚洲性久久影院| av.在线天堂| 欧美日本中文国产一区发布| 亚洲成人av在线免费| 国产精品秋霞免费鲁丝片| 亚洲综合色网址| 精品久久久久久久久av| 色婷婷av一区二区三区视频| av在线观看视频网站免费| 日本vs欧美在线观看视频| 国产黄片视频在线免费观看| 性色avwww在线观看| 国产高清有码在线观看视频| 丰满迷人的少妇在线观看| 亚洲精品国产av成人精品| 亚洲美女搞黄在线观看| 国产又色又爽无遮挡免| 黑人巨大精品欧美一区二区蜜桃 | 成人毛片a级毛片在线播放| 中国美白少妇内射xxxbb| 久热久热在线精品观看| 丰满少妇做爰视频| 亚洲人成网站在线播| 在线播放无遮挡| 成人毛片60女人毛片免费| 精品国产一区二区三区久久久樱花| 国产男女内射视频| 成人漫画全彩无遮挡| 亚洲国产最新在线播放| 亚洲美女搞黄在线观看| 亚洲性久久影院| 免费高清在线观看视频在线观看| 美女国产视频在线观看| 两个人免费观看高清视频| 九九爱精品视频在线观看| 草草在线视频免费看| 九九久久精品国产亚洲av麻豆| 卡戴珊不雅视频在线播放| 亚洲国产欧美日韩在线播放| 十八禁网站网址无遮挡| 看非洲黑人一级黄片| 丰满少妇做爰视频| 久久久久久久亚洲中文字幕| 两个人的视频大全免费| 男女边吃奶边做爰视频| 青春草国产在线视频| 欧美激情国产日韩精品一区| av福利片在线| 亚洲情色 制服丝袜| 一本久久精品| 在线亚洲精品国产二区图片欧美 | 亚洲人与动物交配视频| 亚洲av福利一区| 3wmmmm亚洲av在线观看| 中文欧美无线码| 亚洲av.av天堂| 欧美人与性动交α欧美精品济南到 | 亚洲国产精品国产精品| 欧美+日韩+精品| 日韩一本色道免费dvd| 国产精品三级大全| 日本av手机在线免费观看| 美女国产高潮福利片在线看| 欧美日韩亚洲高清精品| 不卡视频在线观看欧美| 久久久亚洲精品成人影院| 男女免费视频国产| 久久毛片免费看一区二区三区| 亚洲成人av在线免费| 免费观看a级毛片全部| 色哟哟·www| 国精品久久久久久国模美| 亚洲av免费高清在线观看| 欧美3d第一页| 99久久精品一区二区三区| 久久精品人人爽人人爽视色| 亚洲精品亚洲一区二区| 精品国产乱码久久久久久小说| 国产片内射在线| 99久久综合免费| 亚洲国产欧美日韩在线播放| av网站免费在线观看视频| 国产精品一区二区三区四区免费观看| 亚洲人与动物交配视频| 日韩成人av中文字幕在线观看| 国产精品一区二区在线不卡| av电影中文网址| 亚洲综合精品二区| 人人妻人人添人人爽欧美一区卜| 久久久久精品性色| 久久国产亚洲av麻豆专区| 亚洲成人手机| 国产亚洲最大av| 中文字幕av电影在线播放| 亚洲综合色惰| 爱豆传媒免费全集在线观看| 成年人午夜在线观看视频| 久久精品熟女亚洲av麻豆精品| 亚洲欧美一区二区三区黑人 | 国产一区二区在线观看日韩| 国产综合精华液| freevideosex欧美| 建设人人有责人人尽责人人享有的| 亚洲av成人精品一二三区| 母亲3免费完整高清在线观看 | 欧美日韩国产mv在线观看视频| 亚洲av在线观看美女高潮| www.av在线官网国产| 80岁老熟妇乱子伦牲交| 18在线观看网站| 中文字幕最新亚洲高清| 国产精品一区www在线观看| 一级黄片播放器| 久久精品国产亚洲av涩爱| 亚洲国产av新网站| 亚洲成人手机| 中文字幕久久专区| 伊人亚洲综合成人网| 最近最新中文字幕免费大全7| 少妇高潮的动态图| 国产精品久久久久成人av| 黄色毛片三级朝国网站| 亚洲人与动物交配视频| 亚洲欧美一区二区三区国产| 国产精品麻豆人妻色哟哟久久| 国产成人freesex在线| 美女主播在线视频| 搡老乐熟女国产| 成人影院久久| 一本大道久久a久久精品| 国产在线一区二区三区精| 欧美日韩亚洲高清精品| 伊人久久精品亚洲午夜| 超色免费av| 亚洲欧洲精品一区二区精品久久久 | 韩国av在线不卡| 中文字幕久久专区| 亚洲av欧美aⅴ国产| 一级片'在线观看视频| 下体分泌物呈黄色| 老熟女久久久| 九九在线视频观看精品| 日韩中字成人| 久久青草综合色| 久久 成人 亚洲| 丁香六月天网| 欧美最新免费一区二区三区| 亚洲av.av天堂| 91精品国产国语对白视频| 久久精品国产亚洲av天美| 免费av不卡在线播放| 爱豆传媒免费全集在线观看| 热re99久久国产66热| 欧美精品高潮呻吟av久久| 免费高清在线观看视频在线观看| 久久精品久久精品一区二区三区| 亚洲精品国产av蜜桃| 亚洲av不卡在线观看| 国产成人一区二区在线| 2022亚洲国产成人精品| 久久午夜综合久久蜜桃| 国内精品宾馆在线| 乱码一卡2卡4卡精品| 欧美人与善性xxx| 亚洲国产精品专区欧美| 日韩制服骚丝袜av| 汤姆久久久久久久影院中文字幕| 亚洲精品乱久久久久久| 黄色毛片三级朝国网站| 欧美丝袜亚洲另类| 另类亚洲欧美激情| 成人免费观看视频高清| 边亲边吃奶的免费视频| 日本vs欧美在线观看视频| 99久国产av精品国产电影| 人妻一区二区av| 一区二区av电影网| 丰满迷人的少妇在线观看| 狠狠精品人妻久久久久久综合| 寂寞人妻少妇视频99o| 亚洲精品乱码久久久久久按摩| 卡戴珊不雅视频在线播放| 九色亚洲精品在线播放| 中文字幕制服av| 成人亚洲欧美一区二区av| 国产成人免费观看mmmm| 曰老女人黄片| 十八禁网站网址无遮挡| 国产国语露脸激情在线看| 一二三四中文在线观看免费高清| 老司机影院成人| 在线观看免费视频网站a站| 亚洲经典国产精华液单| 久久久久人妻精品一区果冻| 久久久国产欧美日韩av| 国产又色又爽无遮挡免| 国产成人91sexporn| 国产日韩欧美视频二区| 国产白丝娇喘喷水9色精品| 精品久久蜜臀av无| 久久国内精品自在自线图片| 日本欧美国产在线视频| av不卡在线播放| 女性被躁到高潮视频| 午夜影院在线不卡| 日韩av在线免费看完整版不卡| 午夜免费鲁丝| 国产色婷婷99| 午夜av观看不卡| 欧美另类一区| 国产黄色视频一区二区在线观看| 久久av网站| 国产精品人妻久久久影院| 午夜免费鲁丝| 亚洲精品一区蜜桃| 亚洲第一区二区三区不卡| 精品午夜福利在线看| 搡老乐熟女国产| 高清黄色对白视频在线免费看| xxx大片免费视频| 亚洲精品日本国产第一区| 亚洲国产精品999| 男人添女人高潮全过程视频| 中文天堂在线官网| 免费观看无遮挡的男女| 亚洲欧美色中文字幕在线| 国产精品成人在线| 黄片播放在线免费| 亚洲人成网站在线观看播放| 久久精品国产亚洲av天美| 99视频精品全部免费 在线| 亚洲欧洲国产日韩| 黄色视频在线播放观看不卡| 国产伦理片在线播放av一区| 国产成人午夜福利电影在线观看| 久久久久精品久久久久真实原创| 最近手机中文字幕大全| 欧美精品高潮呻吟av久久| 亚洲精品亚洲一区二区| 十分钟在线观看高清视频www| 最后的刺客免费高清国语| 天天影视国产精品| 欧美精品人与动牲交sv欧美| 18禁在线无遮挡免费观看视频| 美女视频免费永久观看网站| 亚洲激情五月婷婷啪啪| 九色成人免费人妻av| 最近2019中文字幕mv第一页| 欧美老熟妇乱子伦牲交| 最新的欧美精品一区二区| 欧美精品国产亚洲| 91成人精品电影| 成人毛片a级毛片在线播放| 一二三四中文在线观看免费高清| 免费看不卡的av| 日本免费在线观看一区| 夫妻性生交免费视频一级片| 日本爱情动作片www.在线观看| 国产毛片在线视频| 草草在线视频免费看| 亚洲精品av麻豆狂野| 精品少妇黑人巨大在线播放| 少妇丰满av| 99九九在线精品视频| 精品一品国产午夜福利视频| 一区在线观看完整版| 夜夜骑夜夜射夜夜干| 国产高清三级在线| 国产午夜精品久久久久久一区二区三区| 国产老妇伦熟女老妇高清| 三上悠亚av全集在线观看| 国产女主播在线喷水免费视频网站| 亚洲一级一片aⅴ在线观看| 最近手机中文字幕大全| 精品酒店卫生间| 亚洲欧美成人综合另类久久久| 香蕉精品网在线| 人体艺术视频欧美日本| 最近中文字幕2019免费版| 国产一区亚洲一区在线观看| 亚洲精品中文字幕在线视频| 日产精品乱码卡一卡2卡三| 精品人妻熟女av久视频| 国产成人一区二区在线| 777米奇影视久久| 欧美少妇被猛烈插入视频| 久久精品国产亚洲av天美| 成人毛片a级毛片在线播放| 人妻夜夜爽99麻豆av| 色婷婷久久久亚洲欧美| 插逼视频在线观看| 国模一区二区三区四区视频| 看十八女毛片水多多多| 一边亲一边摸免费视频| 精品久久久噜噜| av在线观看视频网站免费| 亚洲精品av麻豆狂野| 五月开心婷婷网| 毛片一级片免费看久久久久| 成年人免费黄色播放视频| 成人18禁高潮啪啪吃奶动态图 | 日韩成人伦理影院| 成人18禁高潮啪啪吃奶动态图 | 99热这里只有精品一区| 久久久久久久久久久久大奶| 国产免费视频播放在线视频| 久久鲁丝午夜福利片| 国产高清有码在线观看视频| 少妇 在线观看| 91午夜精品亚洲一区二区三区| 18禁在线无遮挡免费观看视频| 少妇的逼水好多| 日韩熟女老妇一区二区性免费视频| 中文字幕人妻丝袜制服| 亚洲伊人久久精品综合| 婷婷色综合www| 精品人妻在线不人妻| 又粗又硬又长又爽又黄的视频| 亚洲av综合色区一区| 天堂中文最新版在线下载| 天美传媒精品一区二区| 久久精品国产亚洲av涩爱| 大码成人一级视频| 99热这里只有精品一区| 免费播放大片免费观看视频在线观看| 久久国内精品自在自线图片| 女人久久www免费人成看片| 91精品伊人久久大香线蕉| 日日摸夜夜添夜夜添av毛片| 视频中文字幕在线观看| a级片在线免费高清观看视频| 国产国拍精品亚洲av在线观看| 人妻 亚洲 视频| 九色成人免费人妻av| 热99久久久久精品小说推荐| 青春草亚洲视频在线观看| 国产成人一区二区在线| 最近中文字幕高清免费大全6| 久久鲁丝午夜福利片| 大片免费播放器 马上看| 肉色欧美久久久久久久蜜桃| 国产老妇伦熟女老妇高清| 99久久精品国产国产毛片| 欧美最新免费一区二区三区| 2021少妇久久久久久久久久久| 人成视频在线观看免费观看| 免费黄色在线免费观看| 亚洲精品,欧美精品| 精品一区二区三区视频在线| 日日摸夜夜添夜夜添av毛片| 亚洲情色 制服丝袜| 中文字幕久久专区| 99热国产这里只有精品6| 另类精品久久| 天天躁夜夜躁狠狠久久av| 一本久久精品| 日本黄大片高清| videossex国产| 国产探花极品一区二区| 日韩三级伦理在线观看| 久久狼人影院| 婷婷色综合大香蕉| 午夜激情av网站| 亚洲av国产av综合av卡| 老司机亚洲免费影院| 国产高清不卡午夜福利| 亚洲四区av| 国产男女超爽视频在线观看| 久久99热这里只频精品6学生| 久久久久久久亚洲中文字幕| 大片电影免费在线观看免费| 亚洲国产精品国产精品| 精品久久久久久久久亚洲| 国产深夜福利视频在线观看| 国产一区二区三区av在线| 少妇 在线观看| 成人亚洲欧美一区二区av| 搡老乐熟女国产| 精品视频人人做人人爽| 亚洲国产精品专区欧美| 男人添女人高潮全过程视频| 亚洲av男天堂| 成人二区视频| 美女脱内裤让男人舔精品视频| 久久国内精品自在自线图片| .国产精品久久| 一级二级三级毛片免费看| 日韩视频在线欧美| 中文欧美无线码| 欧美精品亚洲一区二区| 国产高清不卡午夜福利| 久久久久网色| 免费观看在线日韩| 亚洲欧美日韩卡通动漫| 欧美日韩综合久久久久久| 黄色毛片三级朝国网站| 中国美白少妇内射xxxbb| 国精品久久久久久国模美|