• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)知識資源表示學習模型

    2016-11-02 06:43:14朱國進李承前
    智能計算機與應(yīng)用 2016年3期
    關(guān)鍵詞:解題文本模型

    朱國進,李承前

    (東華大學計算機科學與技術(shù)學院,上?!?01620)

    網(wǎng)絡(luò)知識資源表示學習模型

    朱國進,李承前

    (東華大學計算機科學與技術(shù)學院,上海201620)

    隨著電子計算機技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)知識資源呈爆炸式增長,人們往往不能有效地獲取、利用所需的網(wǎng)絡(luò)知識資源。為了更好地利用網(wǎng)絡(luò)知識資源,需要應(yīng)用自動化、智能化的數(shù)據(jù)挖掘、信息提取方法。Web文檔作為網(wǎng)絡(luò)知識資源的一種載體,有著自然語言非結(jié)構(gòu)化的特點,所以在運用聚類、分類等挖掘技術(shù)進行文本挖掘之前,需要將Web文檔轉(zhuǎn)化為機器學習算法可以理解的格式,即將文本數(shù)據(jù)轉(zhuǎn)換成數(shù)值數(shù)據(jù)。針對現(xiàn)有常用文本表示方法的局限性,本文提出了一種基于命名實體和詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示學習模型。并在算法知識領(lǐng)域內(nèi)進行實現(xiàn)與應(yīng)用探索,包括網(wǎng)絡(luò)解題報告的聚類和對網(wǎng)絡(luò)解題報告的搜索,實驗結(jié)果顯示本文提出的方法在這些任務(wù)上取得了較好的效果。

    文本表示;命名實體識別;條件隨機場;算法知識;詞向量

    0 引 言

    近年來計算機的普及和互聯(lián)網(wǎng)技術(shù)的飛躍發(fā)展使得信息的生產(chǎn)和傳播變得簡便快捷,大量的網(wǎng)絡(luò)知識資源開始涌現(xiàn)。顧名思義,網(wǎng)絡(luò)知識資源就是網(wǎng)絡(luò)中含有知識的信息資源,在互聯(lián)網(wǎng)上往往以網(wǎng)頁的形式出現(xiàn),在經(jīng)過爬取、預處理、正文提取[1]等過程之后,會以自然語言文本的形式存在,其中蘊含有人們想要獲取的知識。例如,ACM國際大學生程序設(shè)計競賽(International Collegiate Programming Contest,ICPC)的解題報告就是這樣一種網(wǎng)絡(luò)知識資源,具體就是人們針對程序算法設(shè)計競賽中題目的解題心得記錄,其中包含了豐富的算法知識。在ACM參賽隊員的訓練和數(shù)據(jù)結(jié)構(gòu)算法課程的教學中,往往有這樣的需求:需要通過一個知識點搜索相關(guān)的題目及其網(wǎng)絡(luò)解題報告,或者通過給定的一篇解題報告搜索在算法知識上相關(guān)的解題報告。例如希望通過搜索“動態(tài)規(guī)劃”這個知識點來從網(wǎng)絡(luò)獲得關(guān)于動態(tài)規(guī)劃的競賽題目的解題報告。

    正因為存在著上述的種種需求,需要對網(wǎng)絡(luò)知識資源中的知識進行挖掘,但目前自動化、智能化的數(shù)據(jù)挖掘技術(shù)往往都離不開利用機器學習算法進行模型訓練,而此時首先發(fā)生的就是要將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為機器學習算法可以理解的形式。也就是說,在進一步應(yīng)用機器學習算法之前,需要有一個網(wǎng)絡(luò)知識資源到文本再到數(shù)字向量表示的轉(zhuǎn)化過程。詞袋法(Bag of word,BOW)是表示一個文件的基本方法。該法重點是以文檔中的每個詞語的計數(shù)形成的頻率向量去表示文檔。這種文檔表示法則可稱為一個向量空間模型(VSM)[2]。但卻仍需指出,詞袋法/向量空間模型表示法有其自己的限制:表示向量的維度過高,損失了與相鄰單詞的相關(guān)性,而且也損失了文檔中詞語之間存在的語義關(guān)系。詞語加權(quán)方法用于分配適當?shù)臋?quán)重給各個詞語,以增強文本分類的最終呈現(xiàn)[3-4]。Razavi等人使用潛在狄利克雷分布LDA(Latent Dirichlet Allocation)降低空間維度,從主題角度表示文檔,優(yōu)化了文檔表示質(zhì)量[5]。Jain等人使用小波擴撒,在短文本表示上取得了不錯的表現(xiàn)[6]。Hsieh等人使用神經(jīng)網(wǎng)絡(luò)學習詞向量的表示更趨完善地進行文檔表示,在讀者情感分類任務(wù)上獲得了良好實效[7]。Harish等人用聚類之后的詞語頻率向量表示文檔,取得了較好的效果[8]。傳統(tǒng)的文本表示方法如One-Hot表示[2]和TFIDF(詞頻-逆文檔頻率)[9]常常只是簡單的詞頻統(tǒng)計,割裂了詞與上下文之間的聯(lián)系,具有一定局限性,不能很好地利用文本中的語法、語義信息。而流行的LDA主題模型雖然能一定程度反映文檔的主題結(jié)構(gòu),但卻不能有效表示文本中的知識。

    針對以上問題,本文提出一種基于命名實體與詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示方法,能從知識的角度對網(wǎng)絡(luò)資源進行表示,并且更好地利用文本的語法,語義信息,充分挖掘詞與上下文的關(guān)系。最后,利用本文所提出的模型方法,實現(xiàn)了網(wǎng)絡(luò)解題報告的聚類和搜索應(yīng)用,實驗取得了較好的效果。

    1 背景介紹

    1.1命名實體識別

    命名實體識別是信息提取的子任務(wù),意在從自然語言文本中尋找實體的位置和對實體進行正確的分類。命名實體識別是許多自然語言處理應(yīng)用不可或缺的一部分,例如問答系統(tǒng),機器翻譯等。

    傳統(tǒng)的通用命名實體識別任務(wù)主要是識別出待處理文本中三大類(實體類、時間類和數(shù)字類),七小類(人名、機構(gòu)名、地名、時間、日期、貨幣、和百分比)命名實體。領(lǐng)域命名實體識別是針對特殊的應(yīng)用領(lǐng)域與文本體裁中特定類型的命名實體,有產(chǎn)品名稱實體,基因名稱實體等相關(guān)的研究[10]。

    命名實體識別基本上可分為3種方法:基于規(guī)則的、基于詞典的和基于統(tǒng)計的。其中,基于統(tǒng)計的條件隨機場模型(conditional random field,CRF)是由Lafferty在2001年提出的一種典型的判別式模型[11-12]。實現(xiàn)中,可在觀測序列的基礎(chǔ)上對目標序列進行建模,是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型,條件隨機場的參數(shù)化一般模型為:

    其中,x為觀測序列,y為標記序列,Z(x)是歸一化因子,F(xiàn)為特征函數(shù),λ是需要訓練學習的參數(shù)。模型常使用BFGS優(yōu)化算法進行訓練,解碼時用維特比算法輸出標記序列。

    條件隨機場模型既具有判別式模型的優(yōu)點,又具有產(chǎn)生式模型考慮到上下文標記間的轉(zhuǎn)移概率,以序列化形式進行全局參數(shù)優(yōu)化和解碼的特點,解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標記偏見問題。本文將規(guī)則和詞典作為一種特征與統(tǒng)計方法結(jié)合,使用條件隨機場模型應(yīng)用在知識實體識別中。

    1.2詞向量

    分布式表示(Distributed representation)最早是由Hinton在1986年的論文中提出的一種低維實數(shù)向量[13]。例如[0.792,-0.177,-0.107,0.109,-0.542,…],維度以50維和100維比較常見。Distributed representation用來表示詞,通常被稱為“Word Representation”或“Word Embedding”,中文譯稱“詞向量”[14]。這種表示法的優(yōu)點在于可以讓相似的詞在距離上更為接近,能體現(xiàn)出詞與詞之間、詞與上下文之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。Bengio等人在2001年提出神經(jīng)網(wǎng)絡(luò)語言模型(NNLM),在用神經(jīng)網(wǎng)絡(luò)對N-gram語言模型實施建模過程的同時獲得詞向量。Mikolov等提出的Word2vec用CBOW模型和Skip-gram模型獲取上下文相關(guān)詞向量,對NNLM進行了優(yōu)化,從而在大規(guī)模語料訓練上處理得到了更好的性能和表示效果。綜合以上研究分析,本文將選用開源word2vec實現(xiàn)gensim作為實驗工具進行詞向量訓練。

    2 網(wǎng)絡(luò)知識資源表示方法

    2.1模型總體框架圖

    命名實體識別的條件隨機場模型可以通過對詞性特征和組合特征的選取,并優(yōu)質(zhì)利用文本中的語義和語法信息,從而高效識別并標記出文本中的知識。詞向量作為一種深度學習的副產(chǎn)品,在神經(jīng)網(wǎng)絡(luò)對語言模型的建模過程中,獲得一種單詞在向量空間上的表示,與潛在語義分析(Latent Semantic Index,LSI)、潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)的經(jīng)典過程相比[15],詞向量利用詞的上下文,語義信息更加地豐富,能夠更好地對詞進行表示。所以,在本文中提出了一種基于命名實體和詞向量相結(jié)合的網(wǎng)絡(luò)知識資源深層表示學習模型,模型框圖如圖1所示。

    圖1 模型總體框架圖Fig.1 General framework of the model

    模型輸入為網(wǎng)絡(luò)知識資源,經(jīng)過爬蟲爬取、網(wǎng)頁正文提取等過程轉(zhuǎn)化為文檔集合。圖1的左半部分通過條件隨機場在訓練語料的學習得到命名實體標注器,從而提取文檔中人們所關(guān)心的知識實體。圖1的右半部分通過在領(lǐng)域語料上對神經(jīng)網(wǎng)絡(luò)skip-gram模型進行訓練獲得詞向量的良好表示,最后將兩者進行加權(quán)平均,由此而獲得文檔的向量表示。

    2.2模型的定義

    本文以文檔中識別出的命名實體作為文檔特征,作為一個領(lǐng)域中定義的命名實體,其本身就是研究中想要獲取的知識。在該領(lǐng)域內(nèi),命名實體可以充分表示文檔的語義內(nèi)涵。下面給出定義:

    經(jīng)過爬取,預處理的網(wǎng)絡(luò)知識資源轉(zhuǎn)化為文檔D可以表示為詞的集合,其中t代表文檔中的一個詞,n為文檔中詞的個數(shù):

    經(jīng)過領(lǐng)域命名實體識別,由詞表示的文檔可以轉(zhuǎn)換為由命名實體表示的文檔D:

    具體地,NE表示命名實體,m表示命名實體個數(shù),m<<n。而且,其中可能有重復的實體。

    定義model為在領(lǐng)域語料上進行了深度學習訓練好的詞向量模型,其中d為一個維度,k為訓練時規(guī)定的詞向量的維度數(shù)。

    對文檔中識別出的每個命名實體對應(yīng)的詞向量進行TFIDF(詞頻-逆文檔頻率,TF-IDF與實體在文檔中的出現(xiàn)次數(shù)成正比,與該實體在整個語料中的出現(xiàn)次數(shù)成反比)加權(quán)平均計算。計算公式如下所示:

    其中,式(2)計算詞i在文檔j中的詞頻,ni,j指詞i在文檔j中出現(xiàn)的次數(shù),k代表文檔j中詞的總數(shù);式(3)計算詞i的逆文檔頻率,分子代表語料庫中的文檔總數(shù),分母代表包含詞i的文檔數(shù);最后將tf和idf相乘就得到了詞i在文檔j中的tfidf權(quán)重。

    最終文檔D可以表示為公式(5)。數(shù)學描述如下:

    其中,m代表文檔中的命名實體數(shù),DT指由詞表示的文檔。

    經(jīng)過計算,文檔D最終表示為向量后,文檔之間的語義距離或者語義相似度就可以通過余弦相似度來度量。

    3 實 驗

    本文在算法知識領(lǐng)域以網(wǎng)絡(luò)解題報告為數(shù)據(jù)進行網(wǎng)絡(luò)資源表示實驗。分為算法知識實體標注器訓練和算法知識領(lǐng)域詞向量訓練2個部分。本文通過編寫爬蟲程序從CSDN,百度空間等知名博客網(wǎng)站抓取17 000余原始網(wǎng)頁。利用文獻[1]中所述的解題報告正文提取方法,將原始網(wǎng)頁進行處理,得到只有解題報告正文的文本。

    3.1算法知識實體標注器訓練

    本文使用開源包CRF++作為命名實體識別工具,開源包jieba作為分詞工具,知識實體標注器的訓練流程如圖2所示。

    本文定義了2種實體OJ,KNOWLEDGE分別代表解題報告中的在線評測系統(tǒng)(online judge)和算法知識,實體的標注標簽如表1所示。

    接著從17 000篇經(jīng)過正文提取的文檔集中隨機選取400篇文檔、包含約90 000個句子作為待標注集,使用開源的brat工具進行標注,OJ實體由淺粉色標簽標記,Knowledge實體由綠色標簽標記。

    圖2 知識實體標注器訓練流程Fig.2 Knowledge entity tagging training process

    表1 定義2種實體標簽Tab.1 Define two entity Tags

    接下來,將brat輸出的格式轉(zhuǎn)化為CRF++要求的輸出格式如表2所示,其中省略了幾列對應(yīng)下文介紹的各個特征,限于篇幅原因,表2中未標示出來。

    表2 CRF++輸入語料格式Tab.2 CRF++input data format

    本文根據(jù)算法知識領(lǐng)域網(wǎng)絡(luò)解題報告的特點,構(gòu)建了單詞特征、構(gòu)詞特征、指示詞特征、詞性特征、詞典特征和停用詞特征。并且編寫了特征模板[16],CRF++會利用特征模板將以上特征組合、計算轉(zhuǎn)化為數(shù)字向量,進行CRF模型訓練。最后選取了199篇文檔作為測試集,5折交叉檢驗的結(jié)果如表3所示,從而得到了算法知識實體標注器。

    表3 CRF模型測試結(jié)果Tab.3 CRF model test results

    3.2算法知識領(lǐng)域詞向量訓練

    本文使用17 000篇算法知識領(lǐng)域的網(wǎng)絡(luò)解題報告經(jīng)過分詞等預處理過程后作為word2vec的訓練語料。一般認為模型、語料、參數(shù)3方面會影響詞向量的訓練,因為Skip-Gram在小語料上有更好效果,所以本文詞向量訓練選擇Skip-Gram模型。語料方面,傳統(tǒng)看法認為語料越大越好,所有語料都集聚到一起,不管是什么內(nèi)容,語料越龐大,涵蓋的語義信息就越豐富,效果就越趨于理想。但是Lai等研究表明語料的領(lǐng)域更重要,領(lǐng)域選擇正確,可能只要1/10甚至1/100的語料,就能達到一個大規(guī)模泛領(lǐng)域語料的效果,有時候語料選取不當,甚至會導致負面效果(比隨機詞向量效果還差),文章還做了實驗,當只有小規(guī)模的領(lǐng)域內(nèi)語料,而有大規(guī)模的領(lǐng)域外語料時,到底是語料越純越好,還是越大越好,在該文章實驗中,結(jié)論是越純越好[17],與本文思路相吻合。訓練時所用參數(shù)如表4所示。

    表4 word2vec訓練參數(shù)Tab.4 Training parameter

    詞向量的訓練結(jié)果如表5所示,展示了與“棧”、“圖”、“DP”和“樹”等詞各自最相似的3個詞。其中與“DP”相似的詞看上去與詞“樹”有關(guān),但實際上,在算法知識領(lǐng)域卻與“DP”形成更多關(guān)聯(lián)。至此,獲得了算法知識領(lǐng)域語料上訓練完成的詞向量模型model。

    表5 詞與詞之間的相似度Tab.5 The similarity between words

    3.3網(wǎng)絡(luò)解題報告表示的生成

    最終網(wǎng)絡(luò)資源表示生成的流程圖如圖3所示。在得到算法知識實體標注器與訓練完成的詞向量模型之后,就可以計算知識實體在文檔中的TF-IDF權(quán)值,由于詞向量模型中的分詞過程不可能完美分割一些領(lǐng)域知識詞匯,就使得算法知識命名實體的詞向量表示需要由構(gòu)成該實體的詞對應(yīng)的詞向量合并而成,并且忽略一些無意義的符號,而命名實體的TFIDF值則選取構(gòu)成該實體的詞的TF-IDF的平均值。例如“動態(tài)規(guī)劃”這一KNOWLEDGE實體的詞向量即是由“動態(tài)”和“規(guī)劃”相加得到,并且取“動態(tài)”和“規(guī)劃”的TF-IDF平均值作為“動態(tài)規(guī)劃”的TF-IDF值。此后,經(jīng)過計算,一篇網(wǎng)絡(luò)解題報告就可以表示為100維的向量,如前文公式(5)所述。

    圖3 表示的生成Fig.3 Generation of representation

    4 應(yīng)用探索

    4.1網(wǎng)絡(luò)解題報告的聚類

    本文使用前文提出的方法將隨機選擇的199篇網(wǎng)絡(luò)解題報告轉(zhuǎn)化為特征向量(最初200篇,有1篇文檔為空,實際為199篇),并使用K-means算法進行聚類,其中使用余弦相似度定義距離,而且只考慮算法知識實體。經(jīng)過多次試驗,選取不同的K-means初始簇數(shù)參數(shù),初始中心使用“Kmeans++”方法,該方法可實現(xiàn)初始中心各自彼此遠離。實驗結(jié)果如圖4所示,這里從眾多實驗組中選擇4組,從左到右,至上而下分別是初始簇數(shù)為3、7、15、20的聚類結(jié)果展示。本文使用PCA(Principal Component Analysis)主成分分析將原100維的文本向量降維為2維向量,方便在二維坐標上進行可視化。圖中每種顏色色塊代表一種簇的邊界,每一個黑點是數(shù)據(jù)實例,白叉代表每個簇的中心點。

    圖4 聚類實驗結(jié)果Fig.4 Cluster experiment result

    實驗主要針對算法知識實體(KNOWLEDGE),而將OJ實體向量置為零向量,通過對聚類結(jié)果與原始文本進行對照分析,簇數(shù)分別為15、20的聚類結(jié)果對于199篇解題報告來說有些過擬合,劃分類別過多、過細,而簇數(shù)為3的聚類結(jié)果又有些欠擬合,分類則過少、過粗。最后,簇數(shù)為7的聚類結(jié)果與測試數(shù)據(jù)集有著較為吻合的分類邊界,見圖4右上角。聚類結(jié)果分析則如表6所示。

    表6 初始簇數(shù)為7的聚類結(jié)果分析Tab.6 Clustering results

    從表6可以看出,基于命名實體與詞向量的網(wǎng)絡(luò)知識資源表示方法在網(wǎng)絡(luò)解題報告的聚類上達到了一定效果。

    4.2網(wǎng)絡(luò)解題報告的搜索

    在ACM隊員的訓練和數(shù)據(jù)結(jié)構(gòu)算法課程的教學中,往往有這樣的需求:需要通過一個知識點搜索相關(guān)的題目或者解題報告。例如希望通過搜索“動態(tài)規(guī)劃”來獲得關(guān)于動態(tài)規(guī)劃知識點的網(wǎng)絡(luò)解題報告。本次研究使用前文所述方法實現(xiàn)了通過知識點對網(wǎng)絡(luò)解題報告進行搜索。

    如表7所示,分別以“動態(tài)規(guī)劃”、“二分圖”、“二叉樹”為知識點進行了搜索,該應(yīng)用默認顯示了與知識點相似度最高的前3篇網(wǎng)絡(luò)解題報告的第一行,有些報告中雖然沒有關(guān)鍵字,但是報告對應(yīng)的題目是與知識名稱相關(guān)的知識點。

    表7 算法知識點搜索Tab.7 Algorithm knowledge search

    可以看出,通過本文提出的網(wǎng)絡(luò)知識資源設(shè)計模型表示的網(wǎng)絡(luò)解題報告的特征向量與關(guān)鍵詞的詞向量也有良好的相關(guān)性。

    5 結(jié)束語

    本文提出了一種基于命名實體與詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示學習模型,能夠從知識的角度對文本進行解析,從而更趨充分、全面地利用文本的語法、語義等信息,也更加利于針對某個領(lǐng)域的文本進行表示。本文以網(wǎng)絡(luò)知識資源表示方法為基礎(chǔ)在算法知識領(lǐng)域進行了應(yīng)用探索,包括網(wǎng)絡(luò)解題報告聚類實驗和網(wǎng)絡(luò)解題報告的搜索,實驗結(jié)果顯示網(wǎng)絡(luò)知識資源表示方法在這些任務(wù)上有較為良好的效果。在未來工作中,希望能夠在更大語料,更廣的領(lǐng)域上進行實驗,與其它文本表示方法進行對比,進一步研究探索深度學習框架的命名實體識別與詞向量聯(lián)合學習的方法。

    [1]朱國進,鄭寧.基于自然語言處理的算法知識名稱發(fā)現(xiàn)[J].計算機工程,2014,40(12):126-131.

    [2]SALTON G,WANG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975(18):613-620.

    [3]LAN M,TAN C L,SU J,et al.Supervised and traditional term weighting methods for automatic text categorization[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.

    [4]ALTINCAY H,ERENEL Z.Analytical evaluation of term weighting schemes for text categorization[J].Journal of Pattern Recognition Letters,2010,31(11):1310-1323.

    [5]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J]. the Journal of machine Learning research,2003,3:993-1022.

    [6]JAIN V,MAHADEOKAR J.Short-text representation using diffusion wavelets[C]//Proceedings of the companion publication of the 23rdinternational conference on World wide web companion.International World Wide Web Conferences Steering Committee.Seoul,Republic of Korea:ACM,2014:301-302.

    [7]HSIEH Y L,LIU S H,CHANG Y C,et al.Neural network-based vector representation of documents for reader-emotion categorization[C]//Information Reuse andIntegration(IRI),2015IEEE International Conference on.Miami,F(xiàn)lorida,USA:IEEE,2015:569-573.

    [8]HARISH B S,ARUNA K S V,MANJUNATH S.Classifying text documents using unconventional representation[C]//Big Data and Smart Computing(BIGCOMP),2014 International Conference on. Bangkok,Thail:IEEE,2014:210-216.

    [9]RAMOS J.Using tf-idf to determine word relevance in document queries[C]//Proceedings of the 20thinternational conference on machine learning.Washington,DC,USA:ICML,2003:1-4.

    [10]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2014.

    [11]MCCALLUM A,BELLARE K,PEREIRA F.A conditional random field for discriminatively-trained finite-state string edit distance[J]. arXiv preprint arXiv:1207.1406,2012.

    [12]TSENG H,CHANG P,ANDREW G,et al.A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the fourth SIGHAN workshop on Chinese language Processing.Jeju Island,Korea:SIGHAN,2005:171.

    [13]HINTON G E.Learning distributed representations of concepts[C]// Proceedings of the eighth annual conference of the cognitive science society.Amherst,Mass:COGSS,1986:12.

    [14]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301. 3781,2013.

    [15]CHANG Y L,CHIEN J T.Latent Dirichlet learning for document summarization[C]//Acoustics,Speech and Signal Processing,2009. ICASSP 2009.IEEE International Conference on.Taipei,Taiwan:IEEE,2009:1689-1692.

    [16]劉章勛.中文命名實體識別粒度和特征選擇研究[D].哈爾濱:哈爾濱工業(yè)大學,2010.

    [17]LAI S,LIU K,XU L,et al.How to generate a good word embedding?[J].arXiv preprint arXiv:1507.05523,2015.

    A learning model for representation of knowledge resources on the Web

    ZHU Guojin,LI Chengqian
    (School of Computer Science and Technology,Donghua University,Shanghai 201620,China)

    With the rapid development of computer technology and the Internet,the network knowledge resources are increasing,people often can not effectively access and use the network knowledge resources.In order to make better use of the network knowledge resources,the application of automation and intelligent data mining and information extraction methods are needed.As a carrier of knowledge resource on Web,Web document was non structured natural language,so before in using clustering and classification mining technology to text mining,the web document is required to be transformed into the format which can be understood for machine learning algorithms,that is to realize the conversion text data into numerical data.In view of the limitations of the existing common text representation methods,this paper proposes a network knowledge resource representation learning model based on the combination of named entity and word vector.And the paper discusses the implementation and application in the field of algorithm of knowledge,including clustering network solving report and search for network problem solving report.The experimental results show that method presented in this paper on these tasks achieved good results.

    text representation;named entity recognition;CRF;the algorithm knowledge;word representation

    TP391

    A

    2095-2163(2016)03-0005-06

    2016-04-11

    朱國進(1958-),男,博士,副教授,主要研究方向:計算機網(wǎng)絡(luò)、分布式技術(shù);李承前(1989-),男,碩士研究生,主要研究方向:機器學習。

    猜你喜歡
    解題文本模型
    一半模型
    用“同樣多”解題
    設(shè)而不求巧解題
    用“同樣多”解題
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    3D打印中的模型分割與打包
    解題勿忘我
    国产不卡一卡二| 成人高潮视频无遮挡免费网站| 黄色一级大片看看| 日本免费一区二区三区高清不卡| 国产成年人精品一区二区| 欧美在线一区亚洲| 国产精品精品国产色婷婷| 欧美另类亚洲清纯唯美| 一级av片app| 亚洲国产色片| 精品久久久噜噜| 欧美日韩综合久久久久久 | 欧美日韩中文字幕国产精品一区二区三区| 99精品久久久久人妻精品| 亚洲国产精品久久男人天堂| 亚洲精品一卡2卡三卡4卡5卡| 欧美日韩精品成人综合77777| 国产精品自产拍在线观看55亚洲| xxxwww97欧美| 亚洲成av人片在线播放无| 国产高清视频在线播放一区| 淫秽高清视频在线观看| 麻豆av噜噜一区二区三区| 美女被艹到高潮喷水动态| 成年女人看的毛片在线观看| 丰满人妻一区二区三区视频av| 嫩草影院入口| 国产综合懂色| 悠悠久久av| 久久久久久久久久黄片| 一本一本综合久久| 真人做人爱边吃奶动态| 欧美日本亚洲视频在线播放| 69人妻影院| 性欧美人与动物交配| 日韩在线高清观看一区二区三区 | 一区二区三区免费毛片| 观看免费一级毛片| 久久精品91蜜桃| 久久久久久伊人网av| 亚洲精品影视一区二区三区av| 老司机福利观看| 搞女人的毛片| 3wmmmm亚洲av在线观看| 亚洲五月天丁香| 99热这里只有精品一区| 日韩中文字幕欧美一区二区| 国产国拍精品亚洲av在线观看| 在现免费观看毛片| 在线观看舔阴道视频| 又紧又爽又黄一区二区| 亚洲熟妇中文字幕五十中出| 国产精品美女特级片免费视频播放器| 成人欧美大片| av中文乱码字幕在线| 亚洲狠狠婷婷综合久久图片| 蜜桃亚洲精品一区二区三区| 国产精品98久久久久久宅男小说| 国产私拍福利视频在线观看| 精品人妻熟女av久视频| 中文在线观看免费www的网站| 波野结衣二区三区在线| 少妇被粗大猛烈的视频| 两个人视频免费观看高清| 特大巨黑吊av在线直播| 免费无遮挡裸体视频| 在线观看av片永久免费下载| 色在线成人网| 国内精品久久久久久久电影| 国产又黄又爽又无遮挡在线| 两性午夜刺激爽爽歪歪视频在线观看| 色综合色国产| 一进一出抽搐gif免费好疼| 18禁黄网站禁片免费观看直播| 琪琪午夜伦伦电影理论片6080| 在线观看美女被高潮喷水网站| 观看美女的网站| 久久亚洲真实| 日韩亚洲欧美综合| 国产麻豆成人av免费视频| 精品久久久久久久久久免费视频| 少妇熟女aⅴ在线视频| 22中文网久久字幕| 日韩欧美三级三区| 久久精品夜夜夜夜夜久久蜜豆| 国内精品久久久久久久电影| 亚洲精品一区av在线观看| 男人舔奶头视频| 成年女人看的毛片在线观看| 日韩欧美三级三区| 亚洲av熟女| 露出奶头的视频| 午夜亚洲福利在线播放| 88av欧美| 亚洲国产欧美人成| 日本与韩国留学比较| 国产欧美日韩一区二区精品| 日本免费a在线| 性色avwww在线观看| 别揉我奶头~嗯~啊~动态视频| 九九爱精品视频在线观看| 韩国av一区二区三区四区| 日本黄大片高清| 午夜福利18| or卡值多少钱| 日韩亚洲欧美综合| 国产v大片淫在线免费观看| 别揉我奶头 嗯啊视频| 波多野结衣巨乳人妻| 麻豆成人av在线观看| 久久精品人妻少妇| 日本与韩国留学比较| 日日撸夜夜添| 波多野结衣高清作品| 亚洲av一区综合| 国产精品爽爽va在线观看网站| 嫁个100分男人电影在线观看| 日本三级黄在线观看| 老司机深夜福利视频在线观看| 成人高潮视频无遮挡免费网站| 国产伦在线观看视频一区| 色综合婷婷激情| 少妇的逼水好多| av天堂中文字幕网| 国产一区二区三区av在线 | www.www免费av| 欧美zozozo另类| 18禁裸乳无遮挡免费网站照片| 亚洲人与动物交配视频| 欧美丝袜亚洲另类 | 97超视频在线观看视频| 国产精品爽爽va在线观看网站| 一个人观看的视频www高清免费观看| 欧美丝袜亚洲另类 | 搡老妇女老女人老熟妇| 丝袜美腿在线中文| 欧美在线一区亚洲| 一个人观看的视频www高清免费观看| 一个人观看的视频www高清免费观看| 性插视频无遮挡在线免费观看| 1024手机看黄色片| 日本在线视频免费播放| .国产精品久久| 精华霜和精华液先用哪个| 床上黄色一级片| 在线观看午夜福利视频| 国产亚洲欧美98| 欧美成人免费av一区二区三区| 中文字幕人妻熟人妻熟丝袜美| 午夜免费男女啪啪视频观看 | 亚洲av不卡在线观看| 亚洲av成人精品一区久久| 麻豆一二三区av精品| 久久久久免费精品人妻一区二区| 夜夜看夜夜爽夜夜摸| 韩国av一区二区三区四区| 老司机深夜福利视频在线观看| 黄色配什么色好看| 国产精品国产高清国产av| 色综合色国产| 国产高清不卡午夜福利| 97碰自拍视频| 久久这里只有精品中国| 国产精品久久久久久精品电影| 男女下面进入的视频免费午夜| 亚洲精品色激情综合| 九色成人免费人妻av| 亚洲va在线va天堂va国产| 国产成人av教育| 免费观看的影片在线观看| 精品久久久久久久末码| 欧美xxxx黑人xx丫x性爽| 亚洲成a人片在线一区二区| 极品教师在线视频| 又爽又黄a免费视频| 别揉我奶头 嗯啊视频| 国产探花在线观看一区二区| 一个人看的www免费观看视频| 自拍偷自拍亚洲精品老妇| 久久久久久久午夜电影| 一个人免费在线观看电影| 99riav亚洲国产免费| 国产成人av教育| 别揉我奶头 嗯啊视频| 尤物成人国产欧美一区二区三区| 国内久久婷婷六月综合欲色啪| 国产久久久一区二区三区| 中文字幕免费在线视频6| 免费黄网站久久成人精品| 欧洲精品卡2卡3卡4卡5卡区| 久久精品国产鲁丝片午夜精品 | 久久精品人妻少妇| av天堂在线播放| 亚洲成人精品中文字幕电影| 精品久久久久久,| 97人妻精品一区二区三区麻豆| 日本色播在线视频| 热99在线观看视频| 久久久成人免费电影| 亚洲最大成人av| 国产一区二区亚洲精品在线观看| 久久精品综合一区二区三区| 黄色视频,在线免费观看| 午夜亚洲福利在线播放| 免费人成视频x8x8入口观看| 亚洲五月天丁香| 成人av在线播放网站| 欧美一级a爱片免费观看看| 波多野结衣巨乳人妻| 久久久久免费精品人妻一区二区| 国产精品乱码一区二三区的特点| 成年版毛片免费区| 午夜福利欧美成人| 97热精品久久久久久| 十八禁国产超污无遮挡网站| 美女被艹到高潮喷水动态| 国产精品人妻久久久久久| 亚洲,欧美,日韩| 少妇高潮的动态图| 黄色日韩在线| 国产一区二区三区视频了| 老熟妇仑乱视频hdxx| 久久久午夜欧美精品| 久久国产乱子免费精品| 男女下面进入的视频免费午夜| 免费电影在线观看免费观看| 亚洲熟妇中文字幕五十中出| 狂野欧美激情性xxxx在线观看| 天美传媒精品一区二区| 久久午夜福利片| 国产精品嫩草影院av在线观看 | 又黄又爽又刺激的免费视频.| 精品久久久久久久人妻蜜臀av| 内射极品少妇av片p| 又紧又爽又黄一区二区| 99久久久亚洲精品蜜臀av| 午夜福利在线在线| 欧美bdsm另类| 亚洲精品色激情综合| 亚洲性夜色夜夜综合| 欧美成人a在线观看| 久久久国产成人免费| 免费看av在线观看网站| 99久久成人亚洲精品观看| 免费人成在线观看视频色| 伦精品一区二区三区| 国产老妇女一区| 97碰自拍视频| 亚洲精品成人久久久久久| 亚洲av免费在线观看| 久久精品综合一区二区三区| 精品免费久久久久久久清纯| 一区二区三区免费毛片| 日韩 亚洲 欧美在线| 午夜福利成人在线免费观看| 日本一本二区三区精品| 国产成人一区二区在线| 一级黄色大片毛片| 亚洲 国产 在线| 噜噜噜噜噜久久久久久91| 欧美zozozo另类| 精品一区二区三区视频在线| x7x7x7水蜜桃| 亚洲不卡免费看| 免费观看精品视频网站| 免费看光身美女| 午夜福利在线观看免费完整高清在 | 亚洲国产精品合色在线| 免费观看在线日韩| 精品久久久久久,| 日韩欧美三级三区| 免费大片18禁| 日本一二三区视频观看| 国产亚洲欧美98| 亚洲av成人精品一区久久| 伦精品一区二区三区| 成年女人看的毛片在线观看| 国产精品无大码| 国产精品一区二区三区四区久久| 欧美性感艳星| 国产成人影院久久av| 久久99热6这里只有精品| 亚洲天堂国产精品一区在线| 国产亚洲精品综合一区在线观看| h日本视频在线播放| 久久久久久九九精品二区国产| 3wmmmm亚洲av在线观看| 国产精品三级大全| 夜夜爽天天搞| 国产成人av教育| 日韩欧美国产在线观看| av在线亚洲专区| 免费在线观看影片大全网站| 3wmmmm亚洲av在线观看| 国产精品日韩av在线免费观看| av视频在线观看入口| 国产麻豆成人av免费视频| 国产av一区在线观看免费| av在线亚洲专区| 我的老师免费观看完整版| 日本 av在线| 欧美性猛交╳xxx乱大交人| 亚洲av免费高清在线观看| 成熟少妇高潮喷水视频| 中文字幕av在线有码专区| 成人特级黄色片久久久久久久| 色在线成人网| 亚洲精品粉嫩美女一区| 在线观看午夜福利视频| 男人狂女人下面高潮的视频| 成人欧美大片| 久久香蕉精品热| eeuss影院久久| 国产一区二区三区在线臀色熟女| 亚洲va在线va天堂va国产| 老司机福利观看| 在线国产一区二区在线| 精品一区二区三区视频在线观看免费| 少妇被粗大猛烈的视频| 我要看日韩黄色一级片| 麻豆国产av国片精品| 99久久成人亚洲精品观看| 搞女人的毛片| 成人国产一区最新在线观看| 在线免费观看的www视频| 免费人成视频x8x8入口观看| 三级毛片av免费| 精品久久久噜噜| 日本成人三级电影网站| 五月伊人婷婷丁香| av在线天堂中文字幕| 能在线免费观看的黄片| 久久久久久久亚洲中文字幕| 国产黄片美女视频| 少妇人妻一区二区三区视频| 淫秽高清视频在线观看| 99精品久久久久人妻精品| 九色国产91popny在线| 亚洲经典国产精华液单| 美女免费视频网站| 美女xxoo啪啪120秒动态图| 国产人妻一区二区三区在| 中文在线观看免费www的网站| 免费无遮挡裸体视频| 亚洲成人中文字幕在线播放| 乱人视频在线观看| 美女 人体艺术 gogo| 日韩,欧美,国产一区二区三区 | 婷婷六月久久综合丁香| 性插视频无遮挡在线免费观看| 国产探花在线观看一区二区| 欧美日韩精品成人综合77777| 亚洲精品久久国产高清桃花| 欧美日本视频| 日本精品一区二区三区蜜桃| 美女 人体艺术 gogo| 欧美绝顶高潮抽搐喷水| 欧美日韩精品成人综合77777| 欧美性感艳星| 在线看三级毛片| 国产精品人妻久久久久久| 在线观看av片永久免费下载| АⅤ资源中文在线天堂| 嫁个100分男人电影在线观看| 成人一区二区视频在线观看| 日韩欧美精品v在线| 美女xxoo啪啪120秒动态图| 国内精品久久久久久久电影| 中文字幕av在线有码专区| 亚洲专区中文字幕在线| 色哟哟·www| 精品人妻熟女av久视频| 国产av麻豆久久久久久久| 一进一出抽搐gif免费好疼| 国产国拍精品亚洲av在线观看| 久久久色成人| 免费观看精品视频网站| 免费在线观看影片大全网站| 亚洲七黄色美女视频| 桃色一区二区三区在线观看| 91在线观看av| 自拍偷自拍亚洲精品老妇| 偷拍熟女少妇极品色| 久久久国产成人精品二区| av在线亚洲专区| 深夜a级毛片| 欧美成人性av电影在线观看| 中出人妻视频一区二区| av在线亚洲专区| 国产真实伦视频高清在线观看 | 亚洲在线自拍视频| 国内精品美女久久久久久| 国产av不卡久久| 国产成人aa在线观看| 人人妻人人看人人澡| 亚洲真实伦在线观看| 99九九线精品视频在线观看视频| 免费在线观看成人毛片| 色5月婷婷丁香| 国产精品无大码| 亚洲四区av| 亚洲最大成人中文| 久久99热这里只有精品18| 亚洲欧美日韩高清专用| 看片在线看免费视频| 国产精品久久久久久精品电影| 欧美3d第一页| 嫩草影视91久久| 成人无遮挡网站| 国产亚洲精品av在线| 十八禁网站免费在线| 色视频www国产| 嫩草影视91久久| 精品一区二区三区视频在线| 国产熟女欧美一区二区| 国产精品精品国产色婷婷| 国产成人a区在线观看| av中文乱码字幕在线| 日本a在线网址| 亚洲不卡免费看| 亚洲午夜理论影院| 亚洲自拍偷在线| 少妇猛男粗大的猛烈进出视频 | 乱码一卡2卡4卡精品| 国产免费一级a男人的天堂| 久久久久久国产a免费观看| 国产视频内射| 国产精品国产高清国产av| 亚洲av.av天堂| 亚洲国产色片| 亚洲无线观看免费| 久久亚洲精品不卡| 给我免费播放毛片高清在线观看| 日日夜夜操网爽| 亚洲自拍偷在线| 亚洲精华国产精华精| av在线老鸭窝| 日韩精品青青久久久久久| 亚洲七黄色美女视频| 国产大屁股一区二区在线视频| 免费在线观看影片大全网站| 欧美性猛交╳xxx乱大交人| 校园春色视频在线观看| av.在线天堂| 日韩强制内射视频| 精品99又大又爽又粗少妇毛片 | 欧美黑人巨大hd| 日韩大尺度精品在线看网址| av天堂在线播放| 欧美黑人巨大hd| 窝窝影院91人妻| 色在线成人网| 最后的刺客免费高清国语| a级一级毛片免费在线观看| 亚洲精品日韩av片在线观看| 国产成人影院久久av| 少妇的逼水好多| 成人国产麻豆网| 别揉我奶头~嗯~啊~动态视频| 亚洲av一区综合| 热99re8久久精品国产| 亚洲国产精品合色在线| 免费不卡的大黄色大毛片视频在线观看 | 亚洲午夜理论影院| 午夜a级毛片| 韩国av在线不卡| 亚洲成人免费电影在线观看| 日韩欧美免费精品| 久久国产精品人妻蜜桃| 嫩草影视91久久| 桃红色精品国产亚洲av| 日韩欧美在线乱码| 久久精品夜夜夜夜夜久久蜜豆| 久久久国产成人免费| 亚洲欧美日韩东京热| 日本精品一区二区三区蜜桃| 夜夜夜夜夜久久久久| 亚洲中文字幕日韩| 深爱激情五月婷婷| 观看免费一级毛片| 自拍偷自拍亚洲精品老妇| 性色avwww在线观看| netflix在线观看网站| 免费av毛片视频| 亚洲成a人片在线一区二区| 九九在线视频观看精品| 18禁在线播放成人免费| 真实男女啪啪啪动态图| 亚洲自拍偷在线| 一本一本综合久久| 欧美精品啪啪一区二区三区| 国产欧美日韩精品亚洲av| 99久国产av精品| 欧美日韩黄片免| 两个人视频免费观看高清| 可以在线观看毛片的网站| 男女下面进入的视频免费午夜| 在线免费十八禁| 看十八女毛片水多多多| 九九热线精品视视频播放| 国产精品永久免费网站| 亚洲精品在线观看二区| 性色avwww在线观看| 亚洲,欧美,日韩| 国产国拍精品亚洲av在线观看| 中文字幕免费在线视频6| 男人舔奶头视频| 国产亚洲av嫩草精品影院| 久久精品国产亚洲av涩爱 | 免费观看人在逋| 大又大粗又爽又黄少妇毛片口| 3wmmmm亚洲av在线观看| 18禁黄网站禁片午夜丰满| 在线观看免费视频日本深夜| 国内毛片毛片毛片毛片毛片| 在线国产一区二区在线| 亚洲综合色惰| 国产日本99.免费观看| 精品一区二区三区视频在线观看免费| 久久久久久久精品吃奶| 人妻丰满熟妇av一区二区三区| avwww免费| 桃色一区二区三区在线观看| 国内精品美女久久久久久| 99久久无色码亚洲精品果冻| 在线播放无遮挡| 久久人人爽人人爽人人片va| 日本在线视频免费播放| 久久人人精品亚洲av| 亚洲国产色片| 99视频精品全部免费 在线| 91在线精品国自产拍蜜月| 亚洲av中文字字幕乱码综合| 亚洲av美国av| 日本三级黄在线观看| 精品人妻视频免费看| 午夜激情福利司机影院| 欧美三级亚洲精品| 天天躁日日操中文字幕| 欧美+日韩+精品| 亚洲精品国产成人久久av| 淫妇啪啪啪对白视频| 国产免费av片在线观看野外av| 欧美中文日本在线观看视频| 老熟妇仑乱视频hdxx| 桃红色精品国产亚洲av| 免费无遮挡裸体视频| 在线观看美女被高潮喷水网站| 麻豆一二三区av精品| 欧美精品国产亚洲| 日韩欧美国产在线观看| 久久精品久久久久久噜噜老黄 | 夜夜夜夜夜久久久久| 中文字幕av成人在线电影| 久久午夜亚洲精品久久| 在线观看免费视频日本深夜| 久久久久久久精品吃奶| 特级一级黄色大片| 欧美一区二区国产精品久久精品| 精品久久久久久久久久免费视频| 国产免费av片在线观看野外av| 精品日产1卡2卡| 国产 一区精品| 亚洲欧美激情综合另类| 精品人妻偷拍中文字幕| 欧美色视频一区免费| 动漫黄色视频在线观看| 免费观看的影片在线观看| 熟女电影av网| 桃红色精品国产亚洲av| 中文亚洲av片在线观看爽| 俺也久久电影网| 亚洲成人免费电影在线观看| 性色avwww在线观看| 在线观看免费视频日本深夜| 日韩欧美精品免费久久| 亚洲精品一卡2卡三卡4卡5卡| 久久亚洲真实| 成年女人看的毛片在线观看| 日韩亚洲欧美综合| 自拍偷自拍亚洲精品老妇| 99久久成人亚洲精品观看| 国产一区二区激情短视频| 欧美+日韩+精品| 最后的刺客免费高清国语| 欧美+亚洲+日韩+国产| 成熟少妇高潮喷水视频| 亚洲av免费在线观看| 国产探花在线观看一区二区| or卡值多少钱| 国产免费男女视频| 成人无遮挡网站| 又粗又爽又猛毛片免费看| 欧美高清性xxxxhd video| 国产国拍精品亚洲av在线观看| 日日摸夜夜添夜夜添av毛片 | 亚洲av五月六月丁香网| 亚洲欧美日韩高清专用| 国产精品无大码| 国产aⅴ精品一区二区三区波| 亚洲无线在线观看| av在线亚洲专区| 久久久久国内视频| av在线蜜桃| 蜜桃亚洲精品一区二区三区| 久久久成人免费电影| 亚洲av中文字字幕乱码综合| 亚洲av第一区精品v没综合| 在线天堂最新版资源| 99热6这里只有精品| 村上凉子中文字幕在线| 久久久国产成人精品二区| 久久久久久久久大av| 窝窝影院91人妻| 欧美在线一区亚洲|