郝昕毓 周建濤 王 昊
(1.內(nèi)蒙古大學計算機學院 呼和浩特 010021)(2.生態(tài)大數(shù)據(jù)教育部工程研究中心 呼和浩特 010021)
隨著大數(shù)據(jù)時代的來臨,海量數(shù)據(jù)中蘊含巨大的價值,處理和挖掘海量數(shù)據(jù)并有效的獲取其潛藏價值成為當下關(guān)注的焦點問題之一。同時在互聯(lián)網(wǎng)高度發(fā)展下,海量數(shù)據(jù)中有80%以上的非結(jié)構(gòu)化數(shù)據(jù)。雖然傳統(tǒng)的數(shù)據(jù)處理方法在處理結(jié)構(gòu)化數(shù)據(jù)方面較為有效,也能處理大數(shù)據(jù)的部分特征,但對非結(jié)構(gòu)化數(shù)據(jù),因其靈活性和多樣性,結(jié)構(gòu)化數(shù)據(jù)的方法可能不完全適用,必須進行改造[1]。因此面向非結(jié)構(gòu)化數(shù)據(jù)的處理方法成為數(shù)據(jù)處理領(lǐng)域研究的重點與難點之一。
表格作為典型的高價值密度非結(jié)構(gòu)化數(shù)據(jù)被廣泛運用在內(nèi)容管理上。根據(jù)Cafarella 等的調(diào)查[2],互聯(lián)網(wǎng)上有大量未被管理的表格數(shù)據(jù),這些數(shù)據(jù)中包含各種領(lǐng)域大量有價值的信息,將其進行識別、提取和集成是一個極有價值的任務(wù)。但由于表格主要是為人類用戶的使用而設(shè)計,用戶可以自由設(shè)計表格結(jié)構(gòu)和內(nèi)容[3],雖然為數(shù)據(jù)管理帶來了極大的靈活和便利,但也導致表格總伴隨著大量不同的格式、布局和元數(shù)據(jù),很大程度上影響了其機器可讀性和可重用性,導致嚴重的數(shù)據(jù)孤島問題,使得有效大規(guī)模識別、集成和運用表格數(shù)據(jù)變得困難[4]。因此準確、自動地識別表格是表格數(shù)據(jù)進一步集成和運用的關(guān)鍵步驟。機器學習為自動表格識別提供了新思路,但其步驟多且獨立影響識別結(jié)果,只有將獨立的模塊整合為端到端任務(wù),并合理加入人的判斷,才能更好地將識別結(jié)果運用在下游任務(wù)上。
據(jù)此,本文為了將各種結(jié)構(gòu)和展示類型的表格數(shù)據(jù)識別,提出了一種用于表格單元格分類的端到端不完全監(jiān)督方法。該方法將表格識別任務(wù)建模為單元格分類任務(wù),主要包括以下兩個模塊:
1)表格單元格特征化模塊:該模塊根據(jù)基于視覺可見的單元格特征化方案對輸入的表格進行特征提取,以適應(yīng)各種類型、結(jié)構(gòu)和語言的表格。
2)不完全監(jiān)督分類模型模塊:該模塊分成三個步驟:(1)使用特征化的單元格作為訓練數(shù)據(jù),通過監(jiān)督模型進行模型訓練,包括訓練前的欠采樣處理和訓練后對未標記數(shù)據(jù)進行分類。(2)對分類結(jié)果通過基于規(guī)則的算法進行修正來減輕單元格分類易出錯的缺點。(3)將結(jié)果交給人類用戶進行修正,并在修正后將修正的部分加入到模型訓練數(shù)據(jù)中來提高不同場景下模型的適應(yīng)性。
同時本文將所提出的端到端不完全監(jiān)督方法實現(xiàn)為web 工具,用戶通過表格可視化界面來確認和修改分類結(jié)果,并通過輸出來得到包含分類結(jié)果的表格數(shù)據(jù)。
綜上,經(jīng)過實驗和模擬表明,本文提出的方法在兼顧通用性的同時能夠保證一定程度單元格分類的準確率。同時端到端方法和工具在便于用戶修正的同時,還能有效地提取結(jié)果,便于結(jié)果進一步運用在下游任務(wù)上。
根據(jù)Hurst 給出的定義,從表格生成機器可讀結(jié)構(gòu)化數(shù)據(jù)的方法應(yīng)包括五個步驟[5],本文研究其中的一個:功能分析,識別表中相同功能的區(qū)域或單元格集合。
一些學者在表格結(jié)構(gòu)的假設(shè)下進行功能分析。如毛等針對縱向表格實現(xiàn)表格行屬性的識別[6]。Dou等識別和提取“可擴展組”的固定格式[7]。Chen等著重于行標題的識別[8]。但這類基于假設(shè)的功能識別具有不能擴展到任意結(jié)構(gòu)表格的不足。一些學者不進行假設(shè),而將其建模為分類任務(wù),文獻[9~10]將表格功能分析建模為塊檢測,將表格區(qū)域按照不同功能進行分類。該類方法可以擴展到任意結(jié)構(gòu),但具有邊界識別困難和距離函數(shù)難確定的特點。文獻[11~13]將表格功能識別建模為單元格分類,該類方法同樣可以識別任意結(jié)構(gòu)且無需考慮邊界,但單元格被單獨考慮,出現(xiàn)錯誤的可能會更高。
在表格分類任務(wù)中,特征的選取是量化表格類別差異的重點。一些學者人工選取特征[6,11,14~15],另一些學者把特征表示為向量或矩陣[9,12~13]。但這些方案都選擇了大量的強特征,如單元格樣式特征、字體特征和語言特征等,這些特征僅在特定的場景下適用,無法覆蓋各種媒介、語言和展示方式的表格。
從分類模型的角度來看,目前主要使用的方法為無監(jiān)督方法[9]、監(jiān)督方法[11~13]和半監(jiān)督方法[14]。無監(jiān)督方法實現(xiàn)了自動化但缺乏人的判斷,監(jiān)督方法消耗大量的人力用于生成高質(zhì)量標注,同時一旦領(lǐng)域變更就需要重新標注數(shù)據(jù)和訓練模型。半監(jiān)督方法節(jié)約一定的人力成本并保證了模型的遷移能力,但無法保證結(jié)果的完全正確,無法將結(jié)果直接運用在下游任務(wù)上。
本文為了使模型的通用性更強,便于將結(jié)果運用在下游任務(wù)上,將表格識別建模為單元格分類任務(wù),并在特征無法通用、單元格分類易出錯、分類結(jié)果無法直接運用這三個問題上進行了改進。
本節(jié)針對特征無法適用任意結(jié)構(gòu)、語言和類型表格的情況,設(shè)計了基于視覺可見的特征選取方案來提高分類模型的通用性。同時通過該模塊可以將任意電子表格轉(zhuǎn)化成相應(yīng)的特征文件用于模型的訓練和預(yù)測。
本文將表格定義為從左上第一個非空單元格到右下最后一個非空單元格依次選取的一維序列,如式(1)。
其中:ci(i=1,2,3,…,n)表示第i個非空單元格,每一個非空單元格都是一個m元組。
為非空單元格所包含的第j個特征。
表格有多種表現(xiàn)形式,如電子表格、表格圖片和web 表格等。但并不是每類表格數(shù)據(jù)都包含大量的附加格式特征,像CSV文件和表格圖片等大多數(shù)形式的表格,其附加的特征數(shù)量有限或者較難準確的提取出來。在這種情況下,如果通過大量附加特征訓練模型就會導致當數(shù)據(jù)為無格式或者附加格式較少的時候,單元格的分類會被大概率誤判,同樣的,如果使用較少的附加特征進行訓練,復雜的表格往往分類結(jié)果就會比較差。
因此,本文在前人特征選?。?1,16]的基礎(chǔ)上設(shè)計了與展示方式和表格復雜度無關(guān)的單元格特征和鄰域特征。單元格特征篩選了前人研究中與表格展示方式、結(jié)構(gòu)、語言無關(guān)的特征。鄰域特征新設(shè)計了局部鄰域特征和行列鄰域特征。局部鄰域特征將單元格的鄰域設(shè)計成3*3 的包圍盒,獲取這些單元格的數(shù)據(jù)格式特征。如圖1 所示,C 代表某個單元格,N則是其局部鄰域的選取范圍。
圖1 單元格鄰域特征
行列鄰域特征考慮該單元格較遠的特征,如同行、同列的數(shù)據(jù)格式特征和內(nèi)容特征的統(tǒng)計。這樣的鄰域特征同時考慮到周邊和較遠范圍的鄰域特征,使得單元格的鄰域特征更為全面。具體的特征如表1所示。
表1 表格單元格特征
由于表格功能識別被建模為單元格分類任務(wù),單元格在分類過程中被單獨考慮,相比其他的功能識別算法結(jié)果更分散且更容易出錯,同時結(jié)果也無法直接運用。本節(jié)針對這兩個問題提出了不完全監(jiān)督分類模型模塊。
本文的目標是給定一個表格,用一組確定的標簽對每個非空單元格進行分類。在單元格的類別選擇上,本文針對Koci等提出的模型進行了修改[17]。在Koci等的模型中,對于任意非空單元格共有7 個分類,分別是數(shù)據(jù)(Data)、表頭(Header:H)、數(shù)據(jù)派生(Derived)、組表頭(GroupHeader:G)、標題(Ti?tle)、注釋(Note)和其他(Other)。本文在該模型的基礎(chǔ)上對幾個分類進行合并處理。首先,Data 和Derived 合并為Data(D),因為無論是聚合還是數(shù)據(jù)都是數(shù)據(jù)的一種。Title 和Note 合并為Metadata(M),它們共同為表格數(shù)據(jù)識別提供了線索,在結(jié)構(gòu)識別上同屬于附加信息。Other 被忽略,因為對于結(jié)構(gòu)識別來說這些數(shù)據(jù)相當于是噪聲點。據(jù)此,表格單元格的類別可以表示為一個一維序列,如式(2)所示。
其中ri{D,H,G,M},(i=1,2,3,…,n) 是非空單元格ci的類別。
不完全監(jiān)督(incomplete supervision)主要指模型的訓練數(shù)據(jù)中有些數(shù)據(jù)有標注有些沒有。主要的方法有主動學習和半監(jiān)督學習,主動學習是將部分結(jié)果交與人工審核,并把審核結(jié)果加到已標注數(shù)據(jù)中再重新訓練模型。半監(jiān)督學習則是讓模型不依賴外界的交互,自動利用未標記樣本來提高模型的學習能力[18]。但對于表格單元格分類,主動學習可能會導致用戶的標注成本更大,半監(jiān)督學習則無法保證結(jié)果的完全正確,因此這兩種方法都無法很好地將結(jié)果直接運用在下游任務(wù)上。
據(jù)此,本文提出了一個不同于主動學習和半監(jiān)督學習的不完全監(jiān)督方法。具體來說,該方法首先通過基于規(guī)則的修正算法減輕了單元格分類易出錯且分類結(jié)果零散的問題,然后將修正后的分類結(jié)果交給人類用戶進行修正,并將修正部分加入到模型的訓練數(shù)據(jù)中。由于人類修正后的數(shù)據(jù)準確率相對較高,以此作為模型的訓練數(shù)據(jù)會比半監(jiān)督方法更為準確。該方法不僅能在一定程度上提高模型在不同場景下的適應(yīng)性,還便于用戶將修正后的結(jié)果直接用在下游任務(wù)如數(shù)據(jù)集成上。
4.2.1 基于規(guī)則的修正算法
在修正之前,首先將所有的單元格先按行索引再按列索引重新進行排列,以還原表格中的空間結(jié)構(gòu)。單元格在此處也被簡化為三元組,其中n為該表格的單元格個數(shù)。同時也可以通過將其元組中的特征提取,轉(zhuǎn)化成二維坐標的形式去表示一個單元格。其公式如式(3)所示:
本文設(shè)計的基于空間規(guī)則的修正算法如下:
算法1 基于規(guī)則的修正算法
輸入包含預(yù)測結(jié)果的原始表格table
輸出修正預(yù)測結(jié)果后的表格tableexchange
1.newRange=[]//新建修正結(jié)果連續(xù)范圍的數(shù)組
2.range=getRange(table)//提取表格的連續(xù)范圍
3.for i in range{
4.oneLine=judgeOneLine(range[i],range[i+1])
5.if oneLine=True{
6.index=min(range[i],range[i+1])//取最小值下標
7.label=getLabel(range[index],table)//規(guī)則修正
8.range[index].label=label
9.isCombine,new=combine(range[i],range[i+1])
10.if iscombine=True{
11.newRange.append(new)}}}
12.tableexchange=updateTable(table,newRange)
算法1~2 行提取每個范圍的開始、結(jié)束坐標和分類標簽。算法3~5 行判斷兩個序列是否在同行,只有在同行才進行基于規(guī)則的修正。算法6 行取出長度較短的序列,因為較短的序列更有可能出現(xiàn)問題。算法7~8 行根據(jù)規(guī)則確定是否進行修正,具體算法如下。
首先分別根據(jù)該序列所在行列計算出行列各自類別單元格的所占比例,然后將行列比例合并作為該序列在每一類上被選中的概率。接著通過一系列規(guī)則對這些概率進行增加或減少。針對數(shù)據(jù)指定的規(guī)則為數(shù)據(jù)單元格不與表頭、元數(shù)據(jù)同行;針對組表頭的規(guī)則為組表頭不與表頭、元數(shù)據(jù)同行;組表頭在同行少于數(shù)據(jù);組表頭一般在左側(cè)。如果違反規(guī)則就相應(yīng)的減少該序列被選中為該類的概率,符合規(guī)則就增加選擇該類的概率。最終判斷完成后選擇概率最大的分類作為該序列最終的分類。
算法9~12 行將結(jié)果更新到表格中,最終輸出的表格單元格分類數(shù)組即為修正算法修正的結(jié)果。
由于算法將表格劃分成由單行相同功能分類的單元格組成的序列,因此需要預(yù)留出存放每個序列起點、終點坐標的數(shù)組,空間復雜度為On。時間復雜度上,最壞的情況下表格的每個單元格都要統(tǒng)計其同行、同列的單元格情況,并對其進行相應(yīng)的規(guī)則判斷,時間復雜度為On2,在最好的情況下每行都有且只有一個序列,只需判斷一次,因此時間復雜度為On。
4.2.2 基于人類用戶的修正方法
基于規(guī)則的分類算法得出結(jié)果后,方法會把結(jié)果提交給用戶進行再修正,同時將用戶修正的部分作為新的訓練數(shù)據(jù)參與到模型訓練中,來提高模型在不同場景下的適應(yīng)性。為了便于用戶觀察和修正分類結(jié)果,本文實現(xiàn)了一個用于修正結(jié)果的web工具。可視化界面如圖2 所示:其中圖片的顏色并不是數(shù)據(jù)所攜帶的,而是為了讓用戶更直觀地對結(jié)果進行判斷而增加的顏色。黃色(第8 行)對應(yīng)表頭,粉色(第4~6 行)對應(yīng)元數(shù)據(jù),藍色(第10 行)對應(yīng)組表頭,綠色(12~14 行)對應(yīng)數(shù)據(jù)。用戶可以通過該頁面中工具欄的工具對相應(yīng)選中區(qū)域的單元格類型進行修改,通過保存功能可以導出相應(yīng)的攜帶標注文件的表格數(shù)據(jù)并把修改的部分增加到訓練數(shù)據(jù)集中。
圖2 可視化人類用戶修正界面
本節(jié)針對分類結(jié)果不能直接運用的情況,將提出的端到端不完全監(jiān)督方法實現(xiàn)為工具。端到端在不同的領(lǐng)域下有不同的含義,在本文中,端到端是指將方法的兩個模塊通過串聯(lián)的方式整合成一個端到端任務(wù),用戶輸入待預(yù)測的電子表格即可通過方法獲得預(yù)測后帶標記的電子表格,這樣既便于用戶使用,使其無需關(guān)心流程內(nèi)部的參數(shù)調(diào)整和模型再訓練過程,也利于結(jié)果進一步運用在下游任務(wù)。流程如圖3所示。
圖3 端到端工具執(zhí)行流程
其中粗體部分是本文的主要貢獻點,其余的步驟是為了完成端到端流程所必須的步驟,而下劃線的標記數(shù)據(jù)則是會持久化到硬盤,每次執(zhí)行時都會從硬盤讀取該數(shù)據(jù)作為模型的訓練數(shù)據(jù)。
為了便于表格結(jié)構(gòu)解析,本文選取了一個特殊的表格:電子表格,其是表格數(shù)據(jù)在計算機中讀取的一般形式,具有明確直接可讀的布局結(jié)構(gòu)和數(shù)據(jù)信息,各種形式的表格都能通過各種技術(shù)轉(zhuǎn)為電子表格[10]。
實驗的數(shù)據(jù)集采用DECO 數(shù)據(jù)集[17],該數(shù)據(jù)集由854 個對單元格的類別完成標注的電子表格組成。本文去除了15 張過于龐大且樣式單一的表格,對其余的表格通過表格特征化模塊進行特征提取,最終得到的標記數(shù)據(jù)為839張表格,共1115561條標記數(shù)據(jù),每個標記數(shù)據(jù)都是表格中的一個特征化后的單元格。
統(tǒng)計發(fā)現(xiàn)DECO 數(shù)據(jù)集中D 類別所占的比重過高,會造成數(shù)據(jù)類別不平衡而導致模型對D類別具有更高的傾向性,而使得分類效果在其他類別上較差。因此本文通過一個基于規(guī)則的半隨機欠采樣進行不平衡數(shù)據(jù)處理。具體來說,在采樣時將所有D 以外的類別單元格都視為一類,數(shù)量記為m,對D 的前m個和后m個進行采樣,中間隨機采樣m個。采樣后類別將大致平衡為m:3m,大大減少了D類單元格的數(shù)量,且全局來看不會丟失過多信息。處理后的數(shù)據(jù)由原先的1115561 條數(shù)據(jù)縮減到了124007條數(shù)據(jù)。
本文在評價模型效果時,除了使用常用于分類任務(wù)的指標:平衡F 分數(shù)(F1-score:F1),還引入了常用在不平衡數(shù)據(jù)多分類任務(wù)上的評價指標,Mac?ro-F1和Micro-F1[19]。
本文的實驗環(huán)境為4.2GHz CPU,32GB 內(nèi)存,在Windows 10 操作系統(tǒng)下,使用JDK1.8 和Py?thon3.8.12完成,分類模型采用sklearn的分類模型。
6.4.1 實驗情況和分析
為了驗證提出方法的有效性,本文進行的實驗將一些常見的多分類算法作為基線模型,將本文提出的方法在相應(yīng)的基線模型進行驗證。本文測試的分類模型,如決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、多層感知機(Multilayer Percep?tron,MLP)和K最近鄰(k-Nearest Neighbor,KNN)。
本文在劃分訓練集和測試集時與文獻[13]相同,選擇按文檔進行分割,即將單個表格視為最小的拆分單元,因為按單元格拆分可能導致模型提前學習到數(shù)據(jù)的特點而造成數(shù)據(jù)泄露。訓練集和測試集分別為80%和20%,同時僅在訓練集上進行欠采樣來減少初始訓練數(shù)據(jù)個數(shù),測試集讀取整表來模擬真實情況。實驗時將隨機種子固定為某值(7、15 和39),重復進行三輪實驗并取平均值。最終訓練集和測試集的平均單元格個數(shù)分別為101055 和188444。同時將修正算法中各個規(guī)則的權(quán)重設(shè)置為0.1,即符合或者違反規(guī)則會相應(yīng)的增減10%的概率。基線方法(方法后加B)為基線分類器在22個特征下(移除行列鄰域特征),并除去基于規(guī)則修正和人工修正的部分。實驗結(jié)果如表2 所示,評價指標單位為%。
表2 實驗結(jié)果
經(jīng)過實驗得出,通過本文提出的方法可以在一定程度上提升基分類器的性能,對于H、M 類型的提升效果較為明顯。整體效果最好的模型是RF,提升最明顯的是KNN。但無論是基線分類器還是改進后的方法,其在M 和G上的結(jié)果都不理想。導致M 不理想的原因可能是其高自由度導致的。由于本文將表格的標題和注釋進行了合并,雖然減少了類別的數(shù)量但也導致M 類的單元格可以出現(xiàn)在表格的任意位置,導致模型無法很好地判斷M的特征。而G 可能是因為其與D、H 的特征區(qū)分不明顯而導致分類器難以識別。經(jīng)統(tǒng)計原始數(shù)據(jù),存在G類型的單元格并不在表格左側(cè),而是作為獨立的行,這也是影響分類效果的一個因素。經(jīng)過對比統(tǒng)計,G 類型的單元格數(shù)量過少也是導致分類結(jié)果較差的一個因素。
實驗后我們將結(jié)果最好的RF與使用相同數(shù)據(jù)集的Ghasemi-Gol 等[13]和Gonsior[14]等在RF 下的表現(xiàn)進行了對比,對比結(jié)果如表3所示。
表3 實驗結(jié)果
經(jīng)過對比發(fā)現(xiàn),本文的方法在M 和D上要略優(yōu)于對比的模型,H 與相差不大,在G 上則較差,這是因為本文為了提高模型的通用性而沒有使用風格特征和語言特征,但對于G 類型的單元格來說,風格特征和語言特征可能是將其與其他類型單元格區(qū)分開的關(guān)鍵特征。但本文提出的方法由于不使用風格特征和語言特征,可以在多種表現(xiàn)形式和不同語言的表格上獲得相同的表現(xiàn),提高了模型的通用性,這是對比的模型所不具備的特點。
6.4.2 修正算法實驗分析
通過分析實驗結(jié)果,分類錯誤的情況一般為以下兩種:錯誤的單元格與同行兩側(cè)正確的單元格分類:1)不同;2)相同。由于算法將單行內(nèi)連續(xù)的同類別單元格組成序列,再判斷是否存在錯誤分類的單元格,據(jù)此該算法可以較好地處理1)的情況。如果錯誤的單元格組成的序列較短,算法對于2)的情況也可以處理。但對于單行為一個序列且其中存在一個或多個錯誤單元格的情況,算法無法將錯誤的單元格與正確的單元格分開,這也是G類型的單元格在修正算法之后仍然較差的可能原因。
但本算法仍然可以覆蓋一般情況下單元格分類錯誤的情況,同時也在一定程度上緩解了單元格分類易出錯而導致錯誤單元格排列較為零散,不利于用戶修正的問題。實驗統(tǒng)計了修正前和修正后每個序列內(nèi)單元格個數(shù)小于2且整行個數(shù)大于2的單元格,即零散單元格總數(shù)的情況,結(jié)果如表4 所示。
表4 修改前后零散單元格個數(shù)
經(jīng)過對比,本文提出的基于規(guī)則的修正算法在各個分類器上都使得分類結(jié)果的零散單元格個數(shù)有不同程度的下降,能在一定程度上緩解單元格分類易出錯和因此導致的錯誤分類較為零散的問題,這有利于人類用戶更好地對結(jié)果進行檢查和修正。
6.4.3 實驗結(jié)果分析
總體來說,本文的特征選取方法和基于空間的修正算法能在一定程度上提高各分類器在表格單元格分類上的效果,其中Macro-F1 和Micro-F1 兩個指標在RF上取得了最好的結(jié)果。對于其中某些表格,其全表的F1 能達到100%,可能是因為對于結(jié)構(gòu)簡單的表格,如第一行為H,后面的行為D,模型很容易判斷出各單元格的類型。
表格數(shù)據(jù)類別不平衡的情況在修正算法和采樣算法的共同作用下有所緩解,但方法還是有很大的傾向性,M 類型和G 類型的單元格其F1 值還是比較低,可能是當前去除了樣式特征和語言特征的特征選取方案并不能很好地描述出這些單元格的特點。
本文針對表格數(shù)據(jù)研究了一種用于表格單元格分類的端到端不完全監(jiān)督方法。1)選取了兼容多種不同表示形式表格數(shù)據(jù)的基于視覺可見的特征,并通過表格特征化模塊對表格數(shù)據(jù)進行特征提取。2)通過基于規(guī)則的修正算法緩解了單元格分類易出錯的問題,讓用戶能更有效地對結(jié)果進行修正。再將修改的數(shù)據(jù)加入模型的訓練集中,以提高模型在后續(xù)分類任務(wù)上的效果。最后將提出的方法實現(xiàn)為可視化工具,讓用戶直觀進行修改,并即時獲得分類結(jié)果,使用戶便捷地將結(jié)果用于下游任務(wù)。實驗結(jié)果表明,本文提出的端到端不完全監(jiān)督方法在增加了模型通用性的情況下,還能在一定程度上保持一定的分類效果,也在一定程度上增加了分類結(jié)果的可用性。
未來的工作我們考慮:1)通過修改分類模型的權(quán)重函數(shù),使得少數(shù)類的權(quán)重更大。2)嘗試引入代價敏感學習對表格單元格進行分類,以改進G類別F1較低的情況。