蘇江文
(福建億榕信息技術(shù)有限公司,福建福州 350003)
深度學(xué)習(xí)描述了待學(xué)習(xí)數(shù)據(jù)樣本的表示層次規(guī)律及內(nèi)在表現(xiàn)形式,在實際學(xué)習(xí)過程中,已獲取的聲音、圖像、文字等數(shù)據(jù)信息,能夠為應(yīng)用指令提供更加可行的執(zhí)行方向。其最終處理目標是讓機器具備像人一樣的學(xué)習(xí)分析能力,從而使數(shù)據(jù)信息的識別流程逐漸趨于完善[1-2]??偟膩碚f,深度學(xué)習(xí)是一個相對較為復(fù)雜的機器學(xué)習(xí)算法,在圖像、語音等信息識別方面具備較強的實際應(yīng)用價值。
遠程監(jiān)督關(guān)系抽取是一種極為有效的語句提取方法,可在數(shù)據(jù)應(yīng)用框架的基礎(chǔ)上,對所有信息參量的具體釋義行為進行詳細描述[3]。然而隨著實體化遠程監(jiān)督語句數(shù)值量水平的提升,個別語言信息的實際分辨能力開始不斷下降,易導(dǎo)致識別等待時間的無限延長。為解決此問題,詞義型抽取手段在非編碼條件的作用下,對所有遠程監(jiān)督語句進行逐一定義,再聯(lián)合既定的解碼模板,分析其中所隱藏的詞義條件,然而該方法的執(zhí)行速率過慢,易造成語句信息的大量堆積。為避免上述情況的發(fā)生,引入深度學(xué)習(xí)理論,設(shè)計一種新型的遠程監(jiān)督關(guān)系抽取方法,在關(guān)系三元組、數(shù)據(jù)標注信息等多項應(yīng)用條件的作用下,確定與待抽取標簽匹配的語句學(xué)習(xí)行為,實現(xiàn)對句子級別特征的準確定義。
在遠程監(jiān)督方法中,必須假設(shè)兩個關(guān)系實體在學(xué)習(xí)知識庫中存在某種聯(lián)系,且包含這兩個實體的描述語句都能描述這種原始的信息關(guān)系。遠程監(jiān)督方法與詞義型抽取手段一樣,不需要大量人工標注數(shù)據(jù)集,就能實現(xiàn)對種子模板質(zhì)量問題的研究,但在既定解析時間內(nèi),后者的抽取速度明顯低于前者[4-5]。通過上述分析可知,基于深度學(xué)習(xí)遠程監(jiān)督關(guān)系的構(gòu)建主要分為如下兩個步驟:第一步,獲取與詞義語句相關(guān)的關(guān)系三元組;第二步,對所有語義文本中的數(shù)據(jù)信息進行標注處理。圖1 為遠程監(jiān)督方法實踐流程。
圖1 遠程監(jiān)督方法實踐流程
關(guān)系三元組描述了遠程監(jiān)督關(guān)系語句的實際連接形式,可在已知監(jiān)督方法實踐流程的基礎(chǔ)上,確定特殊學(xué)習(xí)節(jié)點所具備的數(shù)據(jù)承載能力,從而確定最終抽取指令的實際操作步長值。在不考慮其他干擾條件的情況下,關(guān)系三元組獲取結(jié)果受到遠程監(jiān)督關(guān)系語句輸出量、語句調(diào)度步長值兩項物理量的直接影響[6-7]。遠程監(jiān)督關(guān)系語句輸出量常表示為χn,在深度學(xué)習(xí)權(quán)限值等于n的情況下,待抽取的語義數(shù)據(jù)越多,最終計算所得的關(guān)系三元組定義量也就越精準。語句調(diào)度步長值常表示為β,一般情況下,該項物理量的數(shù)值水平越高最終抽取處理所得的關(guān)系三元組信息總量也就越大。聯(lián)立上述物理量,可將關(guān)系三元組獲取結(jié)果表示為:
其中,emin代表最小的遠程監(jiān)督語句抽取系數(shù);emax代表最大的遠程監(jiān)督語句抽取系數(shù);代表語句定義權(quán)限量;ΔW代表單位時間內(nèi)的監(jiān)督語句傳輸變化數(shù)值。
待學(xué)習(xí)數(shù)據(jù)標注操作需要同時進行句子級別特征定義、多示例條件選擇、分類查詢3 個處理流程。其中,句子級別特征定義可為不同遠程監(jiān)督關(guān)系數(shù)據(jù)匹配不同的實體輸入模型,并可借助字符級別權(quán)限,將所有加權(quán)輸入信息整合到一起,最后形成獨立的句子級特征向量條件。多示例條件選擇可將同一個句子級別注意力轉(zhuǎn)移給多個不同的語句權(quán)重量,再通過間接性屏蔽的方式,調(diào)取遠程監(jiān)督關(guān)系語句中的待學(xué)習(xí)詞匯信息[8-9]。分類查詢分別對應(yīng)多個不同的深度學(xué)習(xí)型函數(shù),可在句子級別特征條件的支持下,實現(xiàn)對待抽取語句標簽的實時定義。設(shè)w1、w2、w3分別代表3 個不同的待學(xué)習(xí)數(shù)據(jù)信息參量,T代表單位抽取時長,聯(lián)立式(1),可將待學(xué)習(xí)數(shù)據(jù)的標注結(jié)果表示為:
其中,U代表遠程監(jiān)督關(guān)系語句在單位時間內(nèi)的最大定義量;代表語句傳輸均值。
在遠程監(jiān)督關(guān)系抽取數(shù)據(jù)集的支持下,按照監(jiān)督框架搭建、句子級別特征定義、待抽取標簽學(xué)習(xí)的處理流程,實現(xiàn)基于深度學(xué)習(xí)遠程監(jiān)督關(guān)系抽取方法的順利應(yīng)用。
基于深度學(xué)習(xí)的遠程監(jiān)督關(guān)系語句抽取框架由語句級特征、深度學(xué)習(xí)注意、多標簽分類三部分共同組成。其中,語句級特征包含S、H 兩類應(yīng)用型抽取關(guān)系節(jié)點,前者能夠直接調(diào)取與遠程監(jiān)督方法相關(guān)的關(guān)系三元組參量,并可在不違背深度學(xué)習(xí)法則的基礎(chǔ)上,確定語義數(shù)據(jù)的實際應(yīng)用能力;后者可在接收語義數(shù)據(jù)信息的同時,建立與深度學(xué)習(xí)節(jié)點的物理連接,從而實現(xiàn)對遠程監(jiān)督關(guān)系語句的傳輸與調(diào)度[10-11]。深度學(xué)習(xí)注意單元中只包含一種N 型抽取關(guān)系節(jié)點,可在已知頭標簽、過渡標簽、尾標簽劃分需求的同時,完成對遠程監(jiān)督關(guān)系語句調(diào)取規(guī)則的構(gòu)建。圖2 為監(jiān)督框架結(jié)構(gòu)。
圖2 監(jiān)督框架結(jié)構(gòu)
句子級別特征是指應(yīng)用分布式行為,構(gòu)造遠程監(jiān)督關(guān)系語句的深度學(xué)習(xí)法則??山柚O(jiān)督框架提取語句信息中的高級特征,并將其整合成既定的數(shù)據(jù)連接形式[12-13]。一般情況下,語句字符級別注意力能夠與監(jiān)督條件加權(quán)值保持實時對應(yīng)關(guān)系,且每個時間步長量的詞級特征都可在既定抽取時間內(nèi)始終保持一致。在語句文本中,除了特定符號信息之外,所有字符之間均保持緊密相連狀態(tài),且始終沒有明顯的詞性邊界,因此很難將語句數(shù)據(jù)直接提取出來[14]。大多數(shù)遠程監(jiān)督關(guān)系語句均由字符組信息組合而成,且其組合的復(fù)雜程度越高,最終定義所得的句子級別特征量也就越清晰。設(shè)l0代表與遠程監(jiān)督關(guān)系語句相關(guān)的最小分布式行為常數(shù)項,f代表深度學(xué)習(xí)算法的實際作用權(quán)限量,聯(lián)立式(2),可將遠程監(jiān)督關(guān)系的句子級別特征定義為:
在傳統(tǒng)的遠程監(jiān)督關(guān)系學(xué)習(xí)方法中,可用一個語句示例表示一個真實的數(shù)據(jù)對象,且該示例與表示該示例對象相關(guān)類別權(quán)限的學(xué)習(xí)標簽始終保持對應(yīng)關(guān)系。一般情況下,一個訓(xùn)練集只能由一類帶有已知標簽的示例信息數(shù)據(jù)共同組成,通過對已有標簽的訓(xùn)練集樣本進行學(xué)習(xí)處理,可以得到一個目標應(yīng)用函數(shù),在語句信息實際抽取過程中,以此函數(shù)來正確分類未知的信息示例標簽,能夠?qū)崿F(xiàn)對單示例標簽語句結(jié)構(gòu)體的準確學(xué)習(xí)[15-16]。在一個數(shù)據(jù)參量組別中,待抽取的遠程監(jiān)督關(guān)系語句信息越多,學(xué)習(xí)標簽所具備的實際應(yīng)用能力也就越強,反之則越弱。設(shè)υ0代表與語句特征參量相關(guān)的最小標簽學(xué)習(xí)系數(shù),υn代表與語句特征參量相關(guān)的最大標簽學(xué)習(xí)系數(shù),聯(lián)立式(3),可將遠程監(jiān)督關(guān)系語句的待抽取標簽學(xué)習(xí)行為定義為:
其中,χ代表監(jiān)督關(guān)系語句的遠程監(jiān)督系數(shù);i代表語句數(shù)據(jù)的實際抽取步長值;Dˉ代表語句數(shù)據(jù)在單位時間內(nèi)的傳輸均值。至此,實現(xiàn)各項系數(shù)應(yīng)用指標的計算與處理,在深度學(xué)習(xí)理論的支持下,完成遠程監(jiān)督關(guān)系抽取方法的搭建。
為驗證基于深度學(xué)習(xí)遠程監(jiān)督關(guān)系抽取方法的實際應(yīng)用能力,設(shè)計如下對比實驗。在相同語句傳輸環(huán)境中,截取兩組數(shù)量級水平相等的待識別數(shù)據(jù)信息作為實驗組、對照組實驗對象,其中實驗組控制主機搭載基于深度學(xué)習(xí)的遠程監(jiān)督關(guān)系抽取方法,對照組控制主機搭載詞義型抽取手段。
表1 反映了實驗參數(shù)設(shè)置情況,出于應(yīng)用公平性考慮,除所使用抽取控制行為不同外,實驗組、對照組實驗參數(shù)始終保持一致。
表1 實驗參數(shù)設(shè)置表
已知遠程監(jiān)督語句的可同時調(diào)度量能夠反映學(xué)習(xí)主機對語言處理信息的準確提取能力,一般情況下,可同時調(diào)度量越大,學(xué)習(xí)主機對于語言處理信息的準確提取能力也就越強,反之則越弱。
表2 記錄了實驗組、對照組遠程監(jiān)督語句可同時調(diào)度量的實際變化情況。
表2 遠程監(jiān)督語句可同時調(diào)度量對比
分析表2 可知,隨著實驗時間的延長,實驗組遠程監(jiān)督語句可同時調(diào)度量保持先上升再穩(wěn)定的變化趨勢,且實驗前期的上升幅度明顯大于實驗中后期,全局最大值達到了8.5×1011T。對照組遠程監(jiān)督語句可同時調(diào)度量則在一段時間的穩(wěn)定狀態(tài)后,開始出現(xiàn)持續(xù)性下降的變化狀態(tài),全局最大值僅能達到4.2×1011T,與實驗組極大值相比,下降了4.3×1011T。綜上可知,應(yīng)用基于深度學(xué)習(xí)的抽取方法后,遠程監(jiān)督語句可同時調(diào)度量出現(xiàn)了明顯增大的變化趨勢,能夠有效提高學(xué)習(xí)主機對語言處理信息的準確提取能力。
語句分辨等待時間反映了學(xué)習(xí)主機對于遠程監(jiān)督語句中實體語義關(guān)系的實際判定能力,一般情況下,分辨等待時間越短,學(xué)習(xí)主機對于遠程監(jiān)督語句中實體語義關(guān)系的判定能力越強,反之則越弱。圖3反映了實驗組、對照組語句分辨等待時間的實際變化情況。
圖3 語句分辨等待時間對比
分析圖3 可知,在語句信息量水平相同的情況下,實驗組分辨等待時間的數(shù)值水平明顯低于對照組。從極值角度來看,實驗組最大值為5.7 min,與對照組最大值7.4 min 相比,下降了1.7 min。綜上可知,應(yīng)用基于深度學(xué)習(xí)的抽取方法后,語句分辨等待時間得到了有效控制,能夠增強學(xué)習(xí)主機對于遠程監(jiān)督語句中實體語義關(guān)系的實際判定能力。
為了解決傳統(tǒng)方法存在的執(zhí)行速率過慢,易造成語句信息大量堆積的問題,提出基于深度學(xué)習(xí)的遠程監(jiān)督關(guān)系抽取方法。與詞義型抽取手段相比,基于深度學(xué)習(xí)的遠程監(jiān)督關(guān)系抽取方法可在關(guān)系三元組條件的作用下,實現(xiàn)對待抽取標簽的學(xué)習(xí)與處理。從實用性角度來看,語句分辨等待時間的縮短能夠促進遠程監(jiān)督語句可同時調(diào)度量的增大,可在準確提取語言處理信息的同時,實現(xiàn)對實體語義關(guān)系的有效判定。