• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的Web信息抽取模型研究與應(yīng)用

    2019-10-20 14:53:51俞鑫吳明暉
    計算機時代 2019年9期
    關(guān)鍵詞:深度學(xué)習(xí)

    俞鑫 吳明暉

    摘? 要: Web網(wǎng)頁中包含了大量異構(gòu)的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),如何準(zhǔn)確地從這些網(wǎng)頁中提取有價值的信息顯得極其重要。文章基于深度學(xué)習(xí),結(jié)合BERT構(gòu)建了一種新型的BERT+BiLSTM+CRF信息抽取模型,實驗結(jié)果表明了該方法的有效性。

    關(guān)鍵詞: 深度學(xué)習(xí); 信息抽取模型; Web; BERT+BiLSTM+CRF

    中圖分類號:TP391? ? ? ? ? 文獻標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)09-30-03

    Research and application of deep learning based Web information extraction model

    Yu Xin, Wu Minghui

    (Computer and Computing Science School, Zhejiang University City College, Hangzhou 310015, China)

    Abstract: Web pages contain large amount of heterogeneous semi-structured or unstructured data, and how to accurately extract valuable information from web pages is extremely important. With the help of deep learning, this paper proposes a new BERT+BiLSTM+CRF information extraction model. The experimental results show the effectiveness of the proposed method.

    Key words: deep learning; information extraction model; Web; BERT+BiLSTM+CRF

    0 引言

    伴隨著互聯(lián)技術(shù)的迅猛發(fā)展,網(wǎng)上的數(shù)據(jù)總量呈指數(shù)增長。互聯(lián)網(wǎng)Web網(wǎng)頁中的海量數(shù)據(jù)包含了大量有價值的信息。因此,如何準(zhǔn)確地從網(wǎng)頁中抽取有價值的信息變得越來越重要。然而,由于不同網(wǎng)頁的結(jié)構(gòu)差異和數(shù)據(jù)格式不同,大多數(shù)網(wǎng)頁都顯示半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。如何有效地從網(wǎng)頁中提取所需信息一直是互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)的關(guān)鍵問題之一。

    信息抽取是自然語言處理領(lǐng)域的一個子領(lǐng)域。近年來,深度學(xué)習(xí)也在被大量應(yīng)用到自然語言處理(NLP)相關(guān)領(lǐng)域,并取得了重大突破。使用深度學(xué)習(xí)的方法,可以自動地學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出。

    本文提出了一種基于深度學(xué)習(xí)的BERT+BiLSTM+CRF的Web信息抽取模型,并在高校教師的個人主頁信息抽取中得到應(yīng)用。

    1 Web信息抽取模型及實現(xiàn)

    1.1 模型概況

    首先通過網(wǎng)絡(luò)爬蟲獲取教師個人主頁內(nèi)容,對內(nèi)容按一定規(guī)則進行處理,對部分教師簡介的標(biāo)記,制作成訓(xùn)練集和驗證集,經(jīng)過深度學(xué)習(xí)模型訓(xùn)練,實現(xiàn)自動對同類型的其他Web頁面進行結(jié)構(gòu)化目標(biāo)信息抽取。

    圖1是一個非結(jié)構(gòu)化的教師個人主頁簡介,頁面中目標(biāo)信息字段有教師姓名,性別,職務(wù),學(xué)歷,人才層次,榮譽和獲得獎勵等。目標(biāo)是將這些目標(biāo)信息準(zhǔn)確地提取出來。

    1.2 數(shù)據(jù)預(yù)處理和實體定義

    通過網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)之后需要對數(shù)據(jù)預(yù)處理,去除文本中大量無意義的空格和空行。將文本按句劃分,每句一行,長度不超過LSTM設(shè)置的最大長度。

    下一步進行數(shù)據(jù)標(biāo)注。通過標(biāo)注數(shù)據(jù)明確哪些信息需要被抽取和數(shù)據(jù)之間的聯(lián)系,構(gòu)建出用于模型訓(xùn)練的數(shù)據(jù)集。

    本文使用BIO標(biāo)注:將每個字標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示該字是實體X的開頭,“I-X” 表示該字是實體X的中間部分,“O”表示不是需要識別實體。例如:教授標(biāo)記為“教 B-TIT 授 I-TIT”。具體實體標(biāo)簽定義見表1。待抽取網(wǎng)頁如圖1。

    1.3 模型構(gòu)建

    所構(gòu)建的BERT+BiLSTM+CRF模型,包括一個BERT Embedding層,一個BiLSTM層和一個CRF層,模型結(jié)構(gòu)如圖2所示。

    ⑴ BERT Embedding層,將輸入的句子通過Tokenize轉(zhuǎn)化成數(shù)字id,輸入BERT Embedding層提取特征,生成輸入向量。BERT是Devlin等人提出了一種新語言表示模型[1],其目標(biāo)是通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來預(yù)訓(xùn)練深度雙向表示。在實際使用中需要一個額外的輸出層來微調(diào)預(yù)先訓(xùn)練的BERT表示。

    ⑵ BiLSTM層,輸入為了BERT Embedding層生成的輸入向量。將向量序列一個向前的LSTM和一個向后的LSTM,把這兩個LSTM在隱藏層進行拼接成為BiLSTM[2],經(jīng)過全連接輸出一個長度為標(biāo)簽數(shù)量的一個向量。BiLSTM綜合考慮了過去的特征(正向過程提?。┖臀磥淼奶卣鳎嫦蜻^程提?。苊饬藘H僅使用單向LSTM在對語句進行建立模型時會遇到無法獲取從后到前信息的問題,通過BiLSTM可以更好的捕捉雙向的語義依賴。

    ⑶ CRF層,使用crf_log_likelihood對LSTM輸出向量進行序列標(biāo)記,計算標(biāo)簽概率值。因為不同字之間存在相互關(guān)聯(lián),標(biāo)記符號之間也會相互作用,比如O后面就不能接I等。CRF[3]可以使用句子級標(biāo)記信息,并對兩個不同標(biāo)記間的關(guān)聯(lián)進行建模。

    2 實驗

    2.1 模型實現(xiàn)與訓(xùn)練

    基于TensorFlow框架對該模型進行了算法實現(xiàn)。

    數(shù)據(jù)集包括2384條句子,按6:4劃分成訓(xùn)練集和測試集。參數(shù)設(shè)置為:單向LSTM 長度為100,BiLSTM的長度為200,LSTM的Cell使用CoupledInputForgetGateLSTMCell[4];學(xué)習(xí)率為0.001,Dropout為0.5;優(yōu)化器選擇Adam;Batch size為128,在GPU上訓(xùn)練200輪。

    2.2 模型應(yīng)用

    訓(xùn)練好模型后,使用該模型來對網(wǎng)頁信息進行目標(biāo)數(shù)據(jù)抽取,應(yīng)用案例如圖3所示。

    2.3 實驗結(jié)果對比分析

    為了驗證所提出模型的效果,與一般的BiLSTM+CRF模型[5]進行了對比實驗,采用Precision(P)、Recall(R)和F1 Score(F1)作為模型效果評價標(biāo)準(zhǔn)。

    模型1為本文所研究的BERT+BiLSTM+CRF模型,模型2為一般的BiLSTM+CRF模型。在模型2中沒有模型1的BERT Embedding層,而是傳統(tǒng)的Char Embedding,字向量使用隨機初始化的方式獲得。兩種模型實驗結(jié)果如表2所示。

    由表2可以看出,除LVL和EDU標(biāo)簽之外,其余7種標(biāo)簽在BERT+BiLSTM+CRF模型中F1值更高,且EDU標(biāo)簽F1值相差僅1.02%。整體上使用Bert模型能夠有效提高信息抽取率,F(xiàn)1整體提高約3%。

    3 結(jié)束語

    本文提出了一種基于深度學(xué)習(xí)的BERT+BiLSTM+CRF的Web信息抽取模型,并使用TensorFlow框架和BERT對該模型進行了算法實現(xiàn)。通過實驗對比分析,驗證了模型的有效性,并在高校教師個人主頁信息抽取中得到了實際應(yīng)用。

    參考文獻(References):

    [1] Devlin J,Chang M,Lee K,et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.2018.

    [2] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation,1997.9(8):1735-1780

    [3] Lafferty J D,Mccallum A,Pereira F,et al.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C].international conference on machine learning,2001: 282-289

    [4] Greff K,Srivastava R K,Koutnik J,et al. LSTM:A Search Space Odyssey[J]. IEEE Transactions on Neural Networks. 2017.28(10):2222-2232

    [5] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J].arXiv preprint arXiv:1508.01991, 2015.

    猜你喜歡
    深度學(xué)習(xí)
    從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
    面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
    基于自動智能分類器的圖書館亂架圖書檢測
    搭建深度學(xué)習(xí)的三級階梯
    有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
    利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
    考試周刊(2016年94期)2016-12-12 12:15:04
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    梁平县| 集安市| 三河市| 济南市| 朝阳市| 烟台市| 荣昌县| 巴青县| 庆阳市| 潞西市| 星座| 原平市| 将乐县| 政和县| 芜湖市| 太谷县| 邻水| 佛山市| 上杭县| 三明市| 西吉县| 周至县| 沽源县| 万安县| 闸北区| 江孜县| 南丹县| 诸暨市| 陕西省| 盐山县| 建昌县| 长顺县| 茌平县| 芮城县| 镇雄县| 江山市| 巧家县| 青冈县| 淅川县| 岫岩| 海宁市|