• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    采用改進重采樣和BRF方法的定義抽取研究

    2011-06-14 03:34:50顧宏斌
    中文信息學報 2011年3期
    關鍵詞:正例反例術語

    潘 湑, 顧宏斌

    (南京航空航天大學 民航學院,江蘇 南京 210016)

    1 簡介

    隨著國內航空業(yè)的發(fā)展,對于民航從業(yè)人員的培訓需求迅速增長。當前各種培訓材料主要來源于各種技術文檔和維護手冊,而針對特定目的的培訓教材和考核試題則完全由培訓教員手動編寫。術語可以是單個的詞或者短語,其定義是培訓素材中可以用來描述術語所描述的事物的本質特點、作用、發(fā)生原因、位置、成分結構,或者其來源、形成情況等的句子[1]。這樣的句子不僅包含了可用于培訓教材的認知型信息,而且其結構很適合作為考核題庫以及領域本體系統(tǒng)的備選資料。

    現有的定義抽取技術主要用于在自動問答系統(tǒng)中抽取答案,抽取的定義限于表達‘what is’和‘who is’類型的知識,利用的語料一般是使用給定術語詞匯從搜索引擎或者語料庫中抓取的相關文本信息。抽取的一般步驟是先用規(guī)則匹配方法獲取候選定義句,之后用分類的方法作進一步劃分以提高準確率,或者用排序的方法選出得分較高的句子作為給定術語的定義。

    本文的目標是從航空民航專業(yè)語料庫中識別出所有包含航空、民航專業(yè)術語定義的單句,和現有的定義抽取技術的目標相比有一些不同之處。首先是要求獲得語料中所有的包含術語定義的單句,而不是給定術語的定義句;其次,要求可以獲得類型多種多樣的定義句,而不僅僅是‘what is’和‘who is’類型;再次,要求抽取的結果能夠達到盡可能高的召回率和準確率,而不僅僅是保證排序較高的少數幾個句子的準確性;最后,現有方法大多利用經初步篩選后的語料中包含的詞語的出現頻率來計算排序分值,這種方法既不利于按領域劃分術語定義也不利于保證最終結果中術語定義的時效性。由此可見,現有的定義抽取方法無法滿足本文的要求,因此本文提出了一種完全依靠分類方法來進行發(fā)現語料中的所有專業(yè)術語定義的方法。

    本文的以后的內容安排如下: 第2節(jié)介紹了近年來國內外對于各種術語定義抽取方法的研究和應用,并在最后提出了本文所使用方法的基本思想。第3節(jié)介紹了本文實驗所采用的語料庫的情況以及本文實驗的一些設計。第4節(jié)首先在本文實驗的語料庫上進行了僅使用BRF方法的實驗,之后介紹了本文提出的基于實例距離分布信息的過采樣方法的實驗。第5節(jié)是全文的結論。

    2 研究現狀

    2.1 用于自動問答系統(tǒng)的定義抽取

    當前用于自動問答系統(tǒng)的定義抽取,大多先用規(guī)則匹配方法獲取候選定義句。使用的規(guī)則模板大致分為兩類,一類是硬匹配模式(Hard Patterns)[2-3],另一類為柔性模式(Soft Pattern)[4-5]。大部分針對英文語料的實驗,主要針對系動詞和核心動詞建立模版;而在中文研究中,采用的模版包含了除核心動詞外的其他一些詞匯,同時,在目前所見的研究中,均為硬匹配模版,模式的數量一般在5~8個之間。

    而柔性模式,則是從大量正例文本中通過結合詞匯片段和語言學標注,結合概率模型和上下文順序來獲取不同層次的模式[6],這種方法在一些信息抽取項目中已被廣泛應用[7]。

    在分類階段所使用的方法包括了大多數已知的分類方法,如K-臨近(Knn)法、樸素貝葉斯(Na?ve Bayes)法、支持向量機(Svm)方法等。從報告的結果看,在針對斯拉夫語的實驗中,單純是用機器學習方法而不使用規(guī)則模式的時候,準確率最低只有不到9%(正例:反例為1∶1),而綜合了規(guī)則模板和多分類器的方法則可以達到20%的準確率[8-9]。而在針對英語的實驗中,綜合了機器學習方法和模式規(guī)則的方法效果較好,在定義句占訓練語料58.1%的實驗中,可以達到85%以上的準確率。但是,采用不同核的SVM 效果差異較大,徑向基(Radial Base Function, RBF)核效果最好,而線性核的效果甚至不如樸素貝葉斯方法[10]。

    排序的方法主要見于李航和張榕的論文[2-3],排位越高的句子,越傾向于認為是定義。張榕利用詞在術語和非術語語料中的出現頻率來定義詞和句子的隸屬度;李航等使用句子的基本名詞短語為特征,用Svm方法排序。在選取排序前三的結果進行比較時,前者在中文語料上達到83%的準確率,后者在包含16.5%的定義句的英文語料上達到88%的準確率。

    2.2 使用分類方法的定義抽取

    近期也有學者開始用處理不平衡數據分類的方法作為單一步驟來處理術語定義分類的問題。當一個數據集中的一個類別包含的實例數量遠遠小于其他類別時,這個數據集被認為是不平衡的。本文使用的語料庫中,定義句的數量遠遠少于非定義句,可以被認為是一種二分類的不平衡數據集[11-12]。在現實世界中,存在很多類似的問題如網絡入侵檢測[13]、利用衛(wèi)星圖像進行原油泄漏檢測[14]、罕見疾病診斷、飛機故障檢測等。在面對這樣的極不平衡數據時,一般的分類器極難準確預測作為少數類的正例。

    處理不平衡數據分類問題的策略主要有兩類。其一是對原始數據集進行重采樣[16-19],既可以對少數類數據進行過采樣,也可以對多數類數據進行欠采樣,直至達到一個能夠獲得較好分類結果的數據分布[20]。其二是通過給不同的類別設置不同的誤分類代價來提高分類敏感的學習方法的分類性能[21-23]。

    重采樣技術在將數據交給分類器處理前先對數據分布進行調整,達到合適分布。其中最簡單的方法是進行隨機的過采樣和欠采樣[17],前者隨機的復制正例加入到少數類中,后者隨機的從多數類中去除反例,但是前者會導致過擬合的問題,而后者會去除數據中很多重要信息。為了解決這些問題,近年來相關研究人員針對重采樣方法進行了諸多改進。

    Chawla等人于2002年設計了過采樣技術SMOTE(Synthetic Minority Over-Sampling TEchnique)[19],通過在兩個相鄰正例之間生成一個合成實例來對少數類進行過采樣,可以在一定程度上避免過采樣算法中的過學習問題。但是在處理高偏問題時效果有限,因為高偏問題中少數類往往過于稀疏,從而導致少數類和多數類最終混雜在一起。

    Han等人,于2005年在SMOTE的基礎上進行改進,提出了Borderline-SMOTE技術[24],將正例劃分為噪聲、邊界、安全三個區(qū)域,采用和SMOTE相同的過采樣方法,但是只對邊界域中的少數類進行過采樣。

    Chumphol Bunkhumpornpat等人于2009年,對SMOTE做了進一步改進,提出了Safe-Level-SMOTE技術[25],通過計算一個少數類實例的safe level,來確定不同的過采樣合成實例的生成位置。該方法可以得到比SMOTE和Borderline-SMOTE更高的準確率。

    改進欠采樣的方法有Condensed Nearest Neighbor[26]、Neighborhood Cleaning Rule[27]、One-sided Selection[17]、Tomek Link等[28]。這些方法通過一些方法,找出邊界樣本和噪音樣本,有選擇地去掉對分類作用不大,即遠離分類邊界或者引起數據重疊的多數類樣本,并將其從大類中去掉,只留下安全樣本和小類樣本作為分類器的訓練集。通常改進的欠采樣方法得到的分類效果比隨機欠采樣理想一些。

    Bagging(Bootstrap AGGregatING)算法[29]是一種集成學習(ensemble learning)技術[30],該算法在訓練階段,各學習器的訓練集由原始訓練集利用可重復采樣(bootstrap sampling)技術獲得,訓練集的規(guī)模通常與原始訓練集相當。原始訓練集中的某些實例可能在新的訓練集中出現多次,而另一些實例可能不出現。Bagging可以顯著提高不穩(wěn)定的分類器的泛化能力。大部分集成學習算法在生成多個獨立的分類器之后,通常是對所有的分類器的結果進行聚合,因此很多研究者嘗試使用大規(guī)模的集成來解決問題。BRF方法是在Bagging基礎上發(fā)展起來的,利用可放回的重采樣方法以不平衡數據為基礎獲得平衡訓練集的集成學習技術[15]。

    本文采用完全依靠分類的方法來解決定義抽取的問題,首先使用基于實例距離分布信息改進的過樣方法調整語料的不平衡分布,之后結合隨機欠采樣方法構建多個平衡訓練集用以訓練C4.5決策樹,之后使用BRF方法獲得C4.5決策樹分類結果的聚合。該方法既獲益于重采樣方法對數據分布的調整,又獲益于Bagging方法對不穩(wěn)定分類器性能的提升。

    3 實驗設計

    3.1 語料庫建設

    本文使用的語料庫及其預處理過程和文獻[31]相同,由4本航空專業(yè)教材構成,總計16 627個句子,其中包含1 359個定義句或包含定義的句子。如果以定義句為正例,非定義句為反例,則正例占實例總數的約8%,正例與反例的數量比是1∶11.2,是一種極不平衡的數據集。

    3.2 分類器

    本文的實驗使用新西蘭懷卡托大學開發(fā)的懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,WEKA)中的J48算法來構建分類樹,這是C4.5算法的一個變種。

    3.3 評價指標

    本文的實驗使用的評價方法包括召回率(Recall)、準確率(Precision)、F-measure,定義如下:

    F-measure中β的取值由實驗中召回率和準確率的重要性來決定,當β取值為1的時候(F1指標),認為召回率和準確率同等重要;當β取值為2的時候(F2指標),認為召回率比準確率更加重要。

    3.4 特征選擇和權重設置

    本文使用詞袋模型作為文本表達方式,使用的特征為經哈爾濱工業(yè)大學LTP中文處理平臺分詞得到的中文詞[32]。使用詞匯的TF×IDF(詞頻×逆文檔頻率)作為特征的權重。

    通過以前的研究表明,使用IG(Information Gain)或者CHI(開方檢驗)方法可以在使用較少數量的特征時,依然能夠保證分類器的性能[31],本文最終使用IG作為本文實驗的特征選擇依據。如圖1 所示(針對單顆樹選取不同比例的特征對結果的影響圖),分別給出了使用隨機重采樣技術和本文提出的改進重采樣技術情況下,在選用占總特征數不同比例的特征時單個分類器分類結果F2指標的變化情況。兩組實驗分別使用對原始數據集進行50次重采樣得到的數據作為訓練集,以原始數據集作為測試集,實驗結果取平均值。實驗結果表明,使用IG作為特征選擇方法,單個分類器的F2評價指標隨著選用特征的數量不同而變化。從選用特征數量為特征總數的1%開始,F2指標逐步提高。當選用特征數量達到特征總數的30%~40%時,F2指標達到最高值,隨后F2指標開始下降。之后的實驗均按照IG方法選取占總數35%的特征進行實驗。

    圖1 單顆C4.5樹使用不同比例特征時的結果

    4 使用隨機重采樣的方法及改進

    4.1 采用BRF方法的實驗

    如前所述,本文使用的術語定義語料庫是一種極不平衡的數據集,所以在該數據集上應用任何一種分類方法時,必須考慮到這種實例分布的特殊性帶來的影響。本文首先按照ukasz Kobyliński等人[15]的方法建立基礎實驗,僅作兩點改動,一是用C4.5決策樹代替CART樹,二是用信息增益(Information Gain)方法進行特征選擇。

    該實驗結果如圖2所示,實驗結果同時表明了在使用Bagging方法處理航空領域術語定義抽取問題時,聚合結果和參與聚合的樹的數量之間的變化關系。由于使用偶數顆樹進行聚合時,投票結果中會出現對有些實例的正例判決得票數和反例判決得票數相等的情況,圖中將這類實例稱為未定實例,并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。從該圖可以看出,在樹的數量少于30時,聚合結果隨著樹的數量的增長快速提高,并達到59%的F1-measure成績和73%的F2-measure成績。但是在樹的數量超過30以后,聚合結果不能繼續(xù)提高。所以當處理大規(guī)模的術語定義抽取問題,需要兼顧模型的性能和訓練速度時,選用的聚合樹的數量可以定在30顆左右。

    圖2 聚合樹數量和F-measure的對應關系

    4.2 語料庫實例距離分布分析

    本文使用實例間的歐氏距離分析航空領域術語定義語料庫的實例分布,存在以下特點:

    1) 如圖3(a)所示,語料庫中的反例到最近的10個反例和最近的10個正例的距離均值集中在0.75~5.5之間,且大多數反例到最近的反例和到正例的距離均值相同或者很接近,僅有少量反例到反例的距離均值明顯小于到正例的距離均值,但是沒有反例到反例的距離均值小于到正例的距離均值。如圖3(b)所示,反例到最近的10個反例距離的方差密集分布于0.25~1.75之間,而反例到最近的10個正例距離的方差則密集分布在0到0.2之間。由此可見每個反例到最近10個正例和反例的平均距離很接近,但是到反例的距離在其均值附近的變化幅度遠大于到正例的距離。距離每個反例最近的10個實例中,依然是反例占多數。

    圖3 反例到最近的10個實例的距離分布

    2) 如圖4(a)所示,語料庫中的大部分正例到最近的10個正例的歐氏距離密集分布于1~2.5之間,且大多數正例到最近的正例和到反例的距離均值相同或者很接近,僅有少量正例到正例的距離均值明顯大于到反例的距離均值。如圖4(b)所示大部分正例到最近的10個正例距離的方差方法密集分布于0.3~0.8之間,而到最近的10個反例的距離方差密集分布于0~0.1之間。語料庫中正例到最近的10個正例的距離均值和到最近的10個反例的距離均值非常接近,而正例到最近的10個正例的距離方差遠遠大于最近的10個正例的距離方差。大部分正例的10個最近鄰實例中,依然是正例占多數,并且呈現出正例和反例間隔出現的情況。同時,也存在少量實例的10個最近鄰實例都是反例的情況。

    圖4 正例到最近10個實例的距離方差

    3) 如圖5所示,(a)是語料庫中少數類的正例到最近的10個正例的距離均值—數量的對應分布,表明全部正例的35.7%(485個)到最近10個正例的距離均值在1.20~1.425之間,而到10個最近正例的距離均值在0.975~1.875之間的正例更是占到總數的89%(1 210個),這是一個密集分布區(qū)。(b)是語料庫中少數類的正例到最近的10個反例的距離均值—數量的對應分布,表明全部正例的33.6%(456個)到最近的10個反例的距離均值在1.20~1.425之間,而到10個最近反例距離均值在0.975~1.875之間的正例更是占到總數的84.5%(1 149個)。這表明單個正例到10個最近鄰實例,不論是同類實例還是異類實例,均集中在0.975~1.875之間,這個區(qū)域將成為本文下一步進行過采樣處理的重點區(qū)域。

    圖5 正例到最近10個最近實例的距離均值的分布

    4.3 基于實例距離分布信息改進的重采樣方法

    基于以上對術語定義數據集中實例間距離的分析,本文對隨機重采樣算法做如下改進:

    定義1: 假設整個術語定義數據集中的實例總數為T,少數類實例總數為m,其中一個實例Pi到另一個同類實例Pj的距離為Dij,1

    定義2: 設數據集中的少數類實例Pi(1

    1) 對于少數類中的每個實例Pi,在T中計算它的5個近鄰實例并按照距離由小到大的順序排列于隊列Pi-5NN中。

    2) 如果Pi與Pi-5NN中首個實例構成一個不安全實例對或者中等安全實例對,則Pi不參與合成新樣本,其Pi-SYN為空,否則從Pi-5NN中逐個取出實例并與Pi比較。

    3) 如當前Pi-5NNk實例為正例,且〈Pi,Pk〉為安全實例對或者中等安全實例對(非首個近鄰實例時),將Pi-5NNk加入Pi-SYN;如果當前Pi-5NNk實例為反例,則檢查Pi-5NN剩余實例(含當前實例)中反例的占比和分布,如果反例的占比大于等于50%或者最近的連續(xù)的25%實例均為反例,則終止為當前Pi挑選新的合成實例集實例,否則跳過當前反例,重復步驟3)直到Pi-5NN為空。

    4) 當確定了少數類實例的Pi-SYN后,將開始生成新的少數類合成樣本。本文使用數據僅包含數值型特征,合成實例包含的特征用與SMOTE相同的方法確定,但是采用新的隨機數生成方法如下。

    定義3: 假定Pi為當前少數類實例;Pcur為Pi-SYN中的當前候選合成實例;Ppre為Pi-SYN中位于Pcur之前的實例并滿足以下條件: 在Pi-5NN中,Ppre到Pcur之間不存在異類實例且Pi-SYN中不存在比Ppre更靠前的實例Ppre′在Pi-5NN中到Pcur之間也不存在異類實例。

    令Pcur到Pi的距離為Dcur,Ppre到Pi的距離為Dpre。圖5(a)將少數類實例到最近的同類實例的距離均值從近到遠劃分為等距離的10檔,表示為Level1~Level10,Dpre落在第Leveli檔中,Dcur落在第Levelj檔中。令Xpre為從Level1~Leveli包含的實例數量占少數類實例總數的比例,Xcur為從Level1~Levelj包含的實例數量占少數類實例總數的比例,則令合成新樣本過程中的隨機數取為rand[Xpre,Xcur]。

    5) 在對多數類實例進行欠采樣前,去除反例中到最近10個同類實例的距離均值超過9.0的所有實例。去除反例中最近的10個實例中正例數量超過絕對多數的所有實例。

    4.4 采用改進重采樣方法的實驗結果

    經過以上處理后,少數類實例被過采樣約1.8倍,之后再用可放回的重采樣方法生成多個訓練集。每個訓練集中的少數類實例數量和多數類實例數量相等,且都為過采樣后少數類實例的數量。用以上訓練集訓練C4.5決策樹,用全部數據集作為測試集,用投票法獲取最終結果。由于使用偶數顆樹進行聚合時,投票結果中會出現對有些實例的正例判決得票數和反例判決得票數相等的情況,圖中將這類實例稱為未定實例,并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。實驗結果如圖6所示,在僅使用10顆聚合樹并將所有未定實例劃歸正例的情況下,就達到了F1-measure=0.658、F2-measure=0.78的最佳成績,比使用隨機采樣的Bagging方法的最好成績各提高了約5%。隨后,聚合成績有所下降,但是F1-measure穩(wěn)定在0.63~0.64之間,F2-measure穩(wěn)定在0.75~0.76之間。但是與隨機采樣的Bagging方法的結果不同的是,后者的實驗結果中,將未定實例劃歸反例可以獲得更好的成績,但是改進后的實驗中將未定實例劃歸正例可以獲得更好的成績。

    圖6 聚合樹數量和F-measure對應關系

    通過以上諸多實驗表明,在本文使用的語料的特征空間中,定義句比非定義句表現出更強的聚集性,并呈現出定義句的絕對稀疏性和在特定區(qū)域的相對密集分布。因此,本文的過采樣方法傾向于將合成樣本的生成位置確定在擁有更多可以構成安全實例對正例近鄰的區(qū)域,通過合成樣本有效強化了原數據集中的正例密集區(qū)域的分布。同時,本文在合成新樣本時對于夾雜在少數類近鄰中的零星多數類實例的處理方法,使得合成樣本能夠進一步鞏固原有少數類實例密集區(qū)域的邊界。最后,本文去除了部分距離較遠的多數類實例。通過以上方法,一方面調整了數據集中正反例的數量比,另一方面強化了正例的分布區(qū)域,配合之后的隨機采樣方法,構建了多個平衡訓練集用于訓練決策樹。實驗結果證明該方法比使用隨機欠采樣的Bagging方法更加有效。

    5 結論

    本文的實驗表明,采用基于實例距離分布信息改進的重采樣方法對比隨機重采樣方法,能夠有效的調整數據集分布,并提高Bagging方法的分類性能,是應對不平衡數據分類的有效方法。但是由于不同的數據集的數據分布情況差異較大,必須根據相應的數據分布特點來確定重采樣策略。

    本文的實驗同時表明,用處理不平衡數據分類的方法來處理術語定義抽取問題是一種可行的思路,能夠將原有用于評價分類器的諸多評價指標引入到術語定義抽取領域。但是也面臨很多問題,如特征數量很多,導致樣本的特征空間是一種高維的稀疏空間,這也會極大的影響分類性能,這是我們下一步研究的重點之一。

    [1] 馮志偉. 現代術語學引論[M],語言文化出版社,1997: 31-34.

    [2] Jun Xu, Yunbo Cao, Hang Li, Min zhao. Ranking Definitions with Supervised Learning Methods[C]//Proc. 14th International World Wide Web Conference Committee, Chiba, Japan: 2005: 811-819.

    [3] 張榕. 術語定義抽取、聚類與術語識別研究[D]. 北京: 北京語言文化大學, 2006.

    [4] Hang Cui, Min-Yen Kan, Tat-Seng Chua. Soft pattern matching models for definitional question answering[J]. ACM Transactions on Information Systems (TOIS), 2007, 25 (2): 8-es.

    [5] H. Cui, M. Kan, and T. Chua. Generic soft pattern models for definitional question answering[C]//Proc. SIGIR’05, Salvador, Brazil: 2005: 384-391.

    [6] Hang Cui, Min-Yen Kan, Tat-Seng Chua: Unsupervised learning of soft patterns for generating definitions from online news[C]//Proc. 13th international conference on World Wide Web, New York, NY, USA: 2004: 90-99.

    [7] Eugene Agichtein and Luis Gravano. Snowball: Extracting relations from large plain-text collections[C]//Proc. the Fifth ACM International Conference on Digital Libraries, San Antonio, Texas, USA: 2000: 85-94.

    [9] Przepiórkowski, A., Marcińczuk, M., Degórski..: Dealing with small, noisy and imbalanced data: Machine learning or manual grammars?[C]//Proc. TSD2008, Brno, Czech Republic: September 2008.

    [10] Ismail Fahmi and Gosse Bouma. Learning to identify definitions using syntactic features[C]//Proc. the EACL workshop on Learning Structured Information in Natural Language Applications, Trento, Italy: 2006.

    [11] Chawla, N., Japkowicz, N., Kolcz, A. Editorial: Special Issue on Learning from Imbalanced Data Sets[N]. SIGKDD Explorations 6(1), 1-6 2004.

    [12] Prati, R., Batista, G., Monard, M. Class Imbalances versus Class Overlapping: an Analysis of a Learning System Behavior[C]//Proc. MICAI(2004). Heidelberg: Springer, 2004: LNAI 2972, 312-321.

    [13] Fan, W., Miller, M., Stolfo, S., Lee, W., Chan, P. Using Artificial Anomalies to Detect Unknown and Known Network Intrusions[C]//Proc. ICDM 2001, San Jose, CA, USA: 2001: 123-130.

    [14] Kubat, M., Holte, R., Matwin, S. Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J]. Machine Learning 30, 1998, 2-3: 195-215.

    [16] Japkowicz, N. The Class Imbalance Problem: Significance and Strategies[C]//Proc. IC-AI 2000, Las Vegas, NV, USA: 2000 :111-117.

    [17] Kubat, M., Matwin, S. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection[C]//Proc. ICML 1997, Morgan Kaufmann, Nashville: 1997: 179-186.

    [18] Lewis, D., Catlett, J. Uncertainty Sampling for Supervised Learning[C]//Proc. ICML 1994, Morgan Kaufmann, New Brunswick: 1994: 148-156.

    [19] N.V.Chawla, K. W. Bowyer. L.O.Hall, and W.P.Kegelmeyer. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

    [20] G. M. Weiss and F. Provost. The effect of class distribution on classifier learning: An empirical study[R]. Computer Science Department, Rutgers University,. 2001.

    [21] Domingos, P. Metacost: A General Method for Making Classifiers Cost-sensitive[C]//Proc. ACM SIGKDD 1999, San Diego: 1999: 155-164.

    [22] Fan, W., Salvatore, S., Zhang, J., Chan, P. AdaCost: misclassification cost-sensitive boosting.[C]//Proc. ICML 1999, Bled, Slovenia: 1999: 97-105.

    [23] Pazzani, M., Merz, C., Murphy, P., Ali, K., Hume, T., Brunk, C. Reducing Misclassification Costs.[C]//Proc. ICML 1994, Morgan Kaufmann, San Francisco: 1994: 217-225.

    [24] Han, H., Wang, W., Mao, B. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.[C]//Proc. ICIC2005, LNCS 3644, Springer, Heidelberg: 2005: 878-887.

    [25] Chumphol Bunkhumpornpat, Krung Sinapiromsaran and Chidchanok Lursinsap. Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling Technique for Handling the Class Imbalanced Problem[C]//Proc., PAKDD 2009, Springer Berlin/Heidelber: 2009: 475-482.

    [26] Hart, PE. The Condensed Nearest Neighbor Rule[J]. IEEE Transactions on Information Theory.1968, 14(3):515-516.

    [27] Laurikkala, Jorma. Improving Identification of Difficult Small Classes by Balancing Class Distribution[R]. Department of Computer and Information Science, University of Tampere, Finland. 2001.

    [28] Tomek, I. Two Modifications of CNN.[J].IEEE Transactions on Systems Man and Communications.1976,6(6): 769-772.

    [29] Breiman, L, Bagging predictors[J]. Machine Learning, 2002, 26(2), 123-140.

    [30] Dietterich TG. Machine Learning Research: Four current directions[J]. AI Magazine, 1997,18(4): 97-136.

    [31] 潘湑,顧宏斌,孫嬋娟. 使用分類方法的航空領域術語定義識別[C]//Proc. CCPR2009, Nanjing, China: 2009 : 663-669.

    [32] Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization[C]//Proc. COLING-ACL06, Sydney, Australia: 2006: 545-552.

    猜你喜歡
    正例反例術語
    小學生舉例表現與概念理解的相關性研究
    幾個存在反例的數學猜想
    基于概念形成的教學研究
    活用反例擴大教學成果
    利用學具構造一道幾何反例圖形
    高中數學概率教學中的誤區(qū)與應對策略分析
    “絕不”與“決不”的區(qū)別
    政工學刊(2015年6期)2015-01-10 19:21:15
    對稱不等式的不對稱
    數學教學(2013年3期)2013-05-15 06:27:38
    有感于幾個術語的定名與應用
    從術語學基本模型的演變看術語學的發(fā)展趨勢
    亚洲一级一片aⅴ在线观看| 在线免费十八禁| 久久久久久久大尺度免费视频| 亚洲三级黄色毛片| 亚洲国产高清在线一区二区三| 欧美日韩视频精品一区| 一级a做视频免费观看| 插阴视频在线观看视频| 美女视频免费永久观看网站| 国产欧美日韩精品一区二区| 亚洲欧美精品自产自拍| 少妇人妻久久综合中文| 天美传媒精品一区二区| 少妇 在线观看| 乱码一卡2卡4卡精品| h日本视频在线播放| 免费观看a级毛片全部| 美女xxoo啪啪120秒动态图| 成年人午夜在线观看视频| 少妇精品久久久久久久| 亚洲中文av在线| 欧美日韩在线观看h| 亚洲精品日本国产第一区| 建设人人有责人人尽责人人享有的 | 99热6这里只有精品| 精品一区二区三卡| 亚洲欧美精品自产自拍| 亚洲一级一片aⅴ在线观看| 国模一区二区三区四区视频| 久久久久久人妻| 日本黄色日本黄色录像| 亚洲欧美日韩无卡精品| 亚洲av电影在线观看一区二区三区| 国产精品一区www在线观看| 日韩视频在线欧美| 制服丝袜香蕉在线| 久久久久视频综合| 日韩免费高清中文字幕av| 伊人久久国产一区二区| 一个人看的www免费观看视频| 国产一区二区在线观看日韩| av在线播放精品| 嘟嘟电影网在线观看| 高清视频免费观看一区二区| 免费人妻精品一区二区三区视频| 激情 狠狠 欧美| 免费黄色在线免费观看| 日韩欧美一区视频在线观看 | 在线观看三级黄色| 精品久久久精品久久久| videos熟女内射| 亚洲成人av在线免费| 草草在线视频免费看| 国产成人免费无遮挡视频| 如何舔出高潮| 久久久久国产网址| 日韩中字成人| 亚洲aⅴ乱码一区二区在线播放| 欧美日韩亚洲高清精品| 免费看光身美女| 亚洲成人中文字幕在线播放| 精品少妇久久久久久888优播| 午夜激情福利司机影院| 午夜免费男女啪啪视频观看| 亚洲精品亚洲一区二区| 国产精品爽爽va在线观看网站| 狂野欧美白嫩少妇大欣赏| 80岁老熟妇乱子伦牲交| 亚洲精品视频女| av一本久久久久| 99热6这里只有精品| 在线播放无遮挡| 国产亚洲5aaaaa淫片| 亚洲国产精品一区三区| 免费看av在线观看网站| 久久鲁丝午夜福利片| 亚洲成人中文字幕在线播放| 91精品国产国语对白视频| 99热这里只有精品一区| 亚洲色图av天堂| 少妇人妻久久综合中文| 美女cb高潮喷水在线观看| 国产成人a区在线观看| 成年美女黄网站色视频大全免费 | 亚洲欧美成人综合另类久久久| av卡一久久| 99久久人妻综合| 欧美日韩综合久久久久久| 各种免费的搞黄视频| 一本一本综合久久| 男女无遮挡免费网站观看| 在线观看av片永久免费下载| 免费久久久久久久精品成人欧美视频 | 国产成人a区在线观看| 成人毛片60女人毛片免费| 男女边吃奶边做爰视频| 99热6这里只有精品| 尾随美女入室| 精华霜和精华液先用哪个| 久久97久久精品| 亚洲精品乱码久久久v下载方式| 99视频精品全部免费 在线| 一本色道久久久久久精品综合| 日本欧美国产在线视频| 久久国产精品男人的天堂亚洲 | 中文字幕制服av| h日本视频在线播放| 国产成人免费观看mmmm| 国产亚洲精品久久久com| 男人添女人高潮全过程视频| 中文字幕av成人在线电影| 国产精品爽爽va在线观看网站| 啦啦啦啦在线视频资源| 国产精品一区二区三区四区免费观看| 国产精品av视频在线免费观看| av国产久精品久网站免费入址| 一级爰片在线观看| 久久久久久九九精品二区国产| 狂野欧美激情性xxxx在线观看| 国产精品伦人一区二区| 女性生殖器流出的白浆| 中国三级夫妇交换| 国产 精品1| 色5月婷婷丁香| 精品国产乱码久久久久久小说| 久久精品久久精品一区二区三区| av在线app专区| 高清黄色对白视频在线免费看 | 人妻系列 视频| 99国产精品免费福利视频| 亚洲欧洲国产日韩| 亚洲av免费高清在线观看| 99久久精品一区二区三区| 国产黄频视频在线观看| 啦啦啦视频在线资源免费观看| av黄色大香蕉| 边亲边吃奶的免费视频| 欧美性感艳星| 免费黄网站久久成人精品| 99视频精品全部免费 在线| 2018国产大陆天天弄谢| 在线免费观看不下载黄p国产| 国产伦在线观看视频一区| 在线观看一区二区三区| 最近手机中文字幕大全| 欧美变态另类bdsm刘玥| 观看av在线不卡| 97热精品久久久久久| 国产成人a区在线观看| 亚洲精品视频女| av国产精品久久久久影院| 色哟哟·www| 国产69精品久久久久777片| 国产在线免费精品| 亚洲自偷自拍三级| 国产视频内射| 人人妻人人澡人人爽人人夜夜| av又黄又爽大尺度在线免费看| 久久精品夜色国产| 色综合色国产| 黑人高潮一二区| 一级黄片播放器| 大香蕉久久网| 18禁裸乳无遮挡动漫免费视频| 最近2019中文字幕mv第一页| 亚洲欧美日韩东京热| 日韩大片免费观看网站| 少妇 在线观看| 女人久久www免费人成看片| 久久久久视频综合| 美女高潮的动态| av福利片在线观看| 有码 亚洲区| 18禁动态无遮挡网站| 全区人妻精品视频| 国产亚洲最大av| 国产91av在线免费观看| 午夜福利网站1000一区二区三区| 偷拍熟女少妇极品色| 成人二区视频| 国产av精品麻豆| 伦理电影免费视频| 欧美高清性xxxxhd video| 交换朋友夫妻互换小说| 女人十人毛片免费观看3o分钟| 国产免费又黄又爽又色| 欧美精品一区二区免费开放| 精品久久久精品久久久| 熟女av电影| 亚洲伊人久久精品综合| 亚洲欧美一区二区三区国产| 伦理电影大哥的女人| 自拍欧美九色日韩亚洲蝌蚪91 | 国产探花极品一区二区| 中国三级夫妇交换| 美女高潮的动态| 日本免费在线观看一区| 一级毛片电影观看| av线在线观看网站| 亚洲精品自拍成人| 美女福利国产在线 | 成人国产av品久久久| 国产成人a∨麻豆精品| 男女无遮挡免费网站观看| 哪个播放器可以免费观看大片| 最近手机中文字幕大全| 伦精品一区二区三区| 一本—道久久a久久精品蜜桃钙片| 国产精品一二三区在线看| 国产男女超爽视频在线观看| 亚洲精品国产成人久久av| 高清毛片免费看| 亚洲精品亚洲一区二区| 丰满少妇做爰视频| 高清视频免费观看一区二区| 国产欧美另类精品又又久久亚洲欧美| 亚洲av综合色区一区| 亚洲第一区二区三区不卡| 美女xxoo啪啪120秒动态图| 久久久a久久爽久久v久久| 久久99精品国语久久久| 99久久精品国产国产毛片| 91狼人影院| 国产欧美另类精品又又久久亚洲欧美| 国产精品久久久久久久久免| 国产女主播在线喷水免费视频网站| 高清不卡的av网站| 国产午夜精品一二区理论片| 国产精品一及| 国产69精品久久久久777片| 午夜福利在线观看免费完整高清在| 午夜免费鲁丝| av专区在线播放| 草草在线视频免费看| 久久人人爽人人片av| 欧美日韩综合久久久久久| 国产精品女同一区二区软件| 国产高清三级在线| 欧美bdsm另类| 久久久久性生活片| 男女免费视频国产| 在线观看免费高清a一片| 亚洲av中文字字幕乱码综合| 亚洲综合色惰| 啦啦啦啦在线视频资源| 91久久精品电影网| 午夜老司机福利剧场| 人妻一区二区av| 大码成人一级视频| 亚洲人成网站在线播| 22中文网久久字幕| 成人无遮挡网站| 国产伦理片在线播放av一区| 国产亚洲91精品色在线| 99久久人妻综合| 日本与韩国留学比较| 国产精品熟女久久久久浪| 岛国毛片在线播放| 在线观看国产h片| 亚洲国产毛片av蜜桃av| 欧美日韩精品成人综合77777| 亚洲欧美中文字幕日韩二区| 99视频精品全部免费 在线| 色视频在线一区二区三区| 欧美97在线视频| 亚洲欧洲国产日韩| 国产精品久久久久久精品古装| 国产免费一级a男人的天堂| 国产精品久久久久久av不卡| 亚洲在久久综合| 高清av免费在线| 亚洲不卡免费看| 亚洲美女黄色视频免费看| 国产淫片久久久久久久久| 夫妻性生交免费视频一级片| 久久综合国产亚洲精品| 男人添女人高潮全过程视频| 美女国产视频在线观看| 91精品国产九色| 男人舔奶头视频| 日本欧美国产在线视频| 国产高清不卡午夜福利| 黄色怎么调成土黄色| h视频一区二区三区| 日日撸夜夜添| 国产爽快片一区二区三区| 国产极品天堂在线| 久久久久精品性色| 久久人妻熟女aⅴ| 91精品伊人久久大香线蕉| 高清视频免费观看一区二区| 一级毛片电影观看| 大又大粗又爽又黄少妇毛片口| 九九久久精品国产亚洲av麻豆| 男人狂女人下面高潮的视频| 91久久精品电影网| 国内精品宾馆在线| 国产男女超爽视频在线观看| 欧美zozozo另类| 日日摸夜夜添夜夜添av毛片| 亚洲国产欧美人成| 男人添女人高潮全过程视频| 各种免费的搞黄视频| 国产久久久一区二区三区| 成人黄色视频免费在线看| 国产黄色视频一区二区在线观看| 亚洲第一区二区三区不卡| 好男人视频免费观看在线| 一个人看视频在线观看www免费| 黑人猛操日本美女一级片| 国产精品爽爽va在线观看网站| 黄色欧美视频在线观看| 亚洲一级一片aⅴ在线观看| 丝瓜视频免费看黄片| 亚洲美女黄色视频免费看| 免费黄色在线免费观看| 久久久久久九九精品二区国产| 国产精品久久久久成人av| 看十八女毛片水多多多| 久久精品久久精品一区二区三区| 国产成人一区二区在线| 久久ye,这里只有精品| 成人一区二区视频在线观看| 亚洲精品色激情综合| 极品少妇高潮喷水抽搐| 少妇人妻 视频| 韩国高清视频一区二区三区| 男女啪啪激烈高潮av片| 久久久久网色| 永久网站在线| 美女cb高潮喷水在线观看| 久久久久久久久久人人人人人人| 一二三四中文在线观看免费高清| www.av在线官网国产| 校园人妻丝袜中文字幕| 99re6热这里在线精品视频| 成人漫画全彩无遮挡| 少妇的逼水好多| 国产成人精品婷婷| 国产一区有黄有色的免费视频| 亚洲国产av新网站| 欧美成人午夜免费资源| 久久精品国产自在天天线| 香蕉精品网在线| 中文欧美无线码| 建设人人有责人人尽责人人享有的 | 国国产精品蜜臀av免费| a级一级毛片免费在线观看| 国产男女内射视频| 国产欧美日韩精品一区二区| 日韩av免费高清视频| 99热这里只有是精品50| 中国三级夫妇交换| 国产精品麻豆人妻色哟哟久久| 色吧在线观看| 中文在线观看免费www的网站| 日本vs欧美在线观看视频 | 国产av精品麻豆| 国模一区二区三区四区视频| 人体艺术视频欧美日本| 性色avwww在线观看| 亚洲成色77777| 嫩草影院入口| 亚洲av二区三区四区| 91精品伊人久久大香线蕉| 性高湖久久久久久久久免费观看| 欧美zozozo另类| 精品酒店卫生间| 卡戴珊不雅视频在线播放| 看十八女毛片水多多多| videossex国产| 欧美区成人在线视频| 午夜福利影视在线免费观看| 亚洲国产高清在线一区二区三| 日韩免费高清中文字幕av| 高清午夜精品一区二区三区| 国内精品宾馆在线| 中文天堂在线官网| 在线免费观看不下载黄p国产| 国产黄色免费在线视频| 性色av一级| 成人黄色视频免费在线看| 香蕉精品网在线| 欧美bdsm另类| 亚洲精品一区蜜桃| 久久久久久久久大av| 尤物成人国产欧美一区二区三区| 成人国产av品久久久| 成人二区视频| 久久精品久久久久久噜噜老黄| 欧美极品一区二区三区四区| 免费播放大片免费观看视频在线观看| 99久久人妻综合| 高清日韩中文字幕在线| 国产高清三级在线| 九色成人免费人妻av| 久久婷婷青草| 久久久精品94久久精品| 久久亚洲国产成人精品v| 少妇裸体淫交视频免费看高清| 欧美老熟妇乱子伦牲交| 久久精品久久精品一区二区三区| 一个人看的www免费观看视频| 日韩欧美精品免费久久| 国产成人精品久久久久久| 日韩亚洲欧美综合| 午夜福利高清视频| 秋霞在线观看毛片| 深夜a级毛片| 欧美3d第一页| 日韩不卡一区二区三区视频在线| 老师上课跳d突然被开到最大视频| 一本—道久久a久久精品蜜桃钙片| 欧美一级a爱片免费观看看| 精品久久国产蜜桃| 91狼人影院| 国产av国产精品国产| 久久久久久久久久久免费av| 午夜福利影视在线免费观看| 91久久精品电影网| 成年免费大片在线观看| 美女主播在线视频| 新久久久久国产一级毛片| 亚洲自偷自拍三级| 久久久欧美国产精品| 一级二级三级毛片免费看| 伊人久久精品亚洲午夜| 国模一区二区三区四区视频| 成人毛片60女人毛片免费| 97精品久久久久久久久久精品| 亚洲真实伦在线观看| 国产v大片淫在线免费观看| 亚洲欧洲国产日韩| 亚洲第一av免费看| 搡老乐熟女国产| 99re6热这里在线精品视频| 卡戴珊不雅视频在线播放| 插逼视频在线观看| 国产黄色视频一区二区在线观看| 精品人妻视频免费看| 中文字幕制服av| av免费在线看不卡| 亚洲丝袜综合中文字幕| 免费大片18禁| 国产白丝娇喘喷水9色精品| 亚洲欧美清纯卡通| 在线观看av片永久免费下载| 国产精品伦人一区二区| 久久久久久久久大av| 免费人成在线观看视频色| 久久ye,这里只有精品| 亚洲最大成人中文| 丰满少妇做爰视频| 中文字幕av成人在线电影| 婷婷色av中文字幕| 亚洲国产精品专区欧美| h视频一区二区三区| 久久人人爽av亚洲精品天堂 | 亚洲精品日本国产第一区| 男人舔奶头视频| 欧美日韩亚洲高清精品| 精品久久久久久久久av| 国产精品国产av在线观看| 深爱激情五月婷婷| h日本视频在线播放| 在现免费观看毛片| 黄片无遮挡物在线观看| 国产深夜福利视频在线观看| av免费在线看不卡| 人人妻人人看人人澡| 日本av手机在线免费观看| 免费av不卡在线播放| 老司机影院成人| 婷婷色麻豆天堂久久| 特大巨黑吊av在线直播| 日韩中文字幕视频在线看片 | 大片免费播放器 马上看| 男女免费视频国产| 热re99久久精品国产66热6| 菩萨蛮人人尽说江南好唐韦庄| 久久国产精品男人的天堂亚洲 | 欧美区成人在线视频| 熟女人妻精品中文字幕| 精品久久久久久久久亚洲| 一个人免费看片子| 99九九线精品视频在线观看视频| 黑丝袜美女国产一区| 国产 精品1| 观看av在线不卡| 国产色爽女视频免费观看| 狂野欧美激情性xxxx在线观看| 五月开心婷婷网| 2021少妇久久久久久久久久久| 免费高清在线观看视频在线观看| 久久精品国产亚洲av天美| 少妇的逼好多水| 一个人看视频在线观看www免费| 一本久久精品| 这个男人来自地球电影免费观看 | 成年女人在线观看亚洲视频| 校园人妻丝袜中文字幕| 免费观看av网站的网址| 日韩一区二区三区影片| 日本vs欧美在线观看视频 | 蜜臀久久99精品久久宅男| 99热这里只有精品一区| 精品久久国产蜜桃| 免费大片黄手机在线观看| 高清欧美精品videossex| av在线观看视频网站免费| 亚洲精品一区蜜桃| 狂野欧美激情性xxxx在线观看| h日本视频在线播放| 在线免费十八禁| 婷婷色综合大香蕉| 日韩电影二区| 欧美一区二区亚洲| 人体艺术视频欧美日本| 三级国产精品片| 菩萨蛮人人尽说江南好唐韦庄| 午夜视频国产福利| av卡一久久| 日韩av不卡免费在线播放| 纯流量卡能插随身wifi吗| 国产亚洲欧美精品永久| 人妻制服诱惑在线中文字幕| 亚洲国产精品成人久久小说| 精品国产乱码久久久久久小说| 男人添女人高潮全过程视频| 亚洲色图综合在线观看| 边亲边吃奶的免费视频| 中文字幕免费在线视频6| 七月丁香在线播放| 中国美白少妇内射xxxbb| 插阴视频在线观看视频| 街头女战士在线观看网站| 新久久久久国产一级毛片| 久久影院123| 在线天堂最新版资源| 成年免费大片在线观看| 国产欧美另类精品又又久久亚洲欧美| 亚洲在久久综合| 老司机影院成人| 最黄视频免费看| 亚洲丝袜综合中文字幕| 毛片一级片免费看久久久久| 交换朋友夫妻互换小说| 亚洲美女搞黄在线观看| 国产亚洲午夜精品一区二区久久| 亚洲经典国产精华液单| 亚洲精品成人av观看孕妇| 久久久成人免费电影| 80岁老熟妇乱子伦牲交| 欧美日韩国产mv在线观看视频 | 97在线人人人人妻| 美女xxoo啪啪120秒动态图| 日本免费在线观看一区| 国产一级毛片在线| 又粗又硬又长又爽又黄的视频| 国产在线视频一区二区| 简卡轻食公司| 99久久精品热视频| 日日摸夜夜添夜夜添av毛片| av不卡在线播放| 久久国产乱子免费精品| 夜夜爽夜夜爽视频| 在线观看免费高清a一片| 亚洲精品日韩在线中文字幕| 中文字幕人妻熟人妻熟丝袜美| 亚洲av电影在线观看一区二区三区| 肉色欧美久久久久久久蜜桃| 成人二区视频| 麻豆国产97在线/欧美| 伦理电影大哥的女人| 秋霞在线观看毛片| 日韩中文字幕视频在线看片 | 久久久色成人| 日韩中字成人| 国产精品国产av在线观看| 日韩免费高清中文字幕av| 亚洲熟女精品中文字幕| 99久久精品一区二区三区| 成人无遮挡网站| 国产真实伦视频高清在线观看| 国产淫语在线视频| 啦啦啦视频在线资源免费观看| 亚洲激情五月婷婷啪啪| 精品人妻一区二区三区麻豆| 天美传媒精品一区二区| 在线观看av片永久免费下载| videos熟女内射| 日本爱情动作片www.在线观看| 国产永久视频网站| 精品亚洲成国产av| 精品少妇久久久久久888优播| 精品人妻偷拍中文字幕| 亚洲精品乱码久久久v下载方式| 国产精品精品国产色婷婷| 寂寞人妻少妇视频99o| 熟妇人妻不卡中文字幕| 国产精品爽爽va在线观看网站| 亚洲第一区二区三区不卡| 国产91av在线免费观看| 成人18禁高潮啪啪吃奶动态图 | 久久精品熟女亚洲av麻豆精品| 嫩草影院入口| 国产真实伦视频高清在线观看| 午夜免费观看性视频| 午夜福利影视在线免费观看| 3wmmmm亚洲av在线观看| 国产成人午夜福利电影在线观看| 午夜福利影视在线免费观看| 欧美bdsm另类| 中国美白少妇内射xxxbb| 国产淫片久久久久久久久|