• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    山西國際商務信息智能收集監(jiān)測服務系統(tǒng)采用的幾種智能技術及其算法

    2015-03-12 09:19:30張興旺劉旭樓
    中國新技術新產品 2015年18期
    關鍵詞:分詞蜘蛛網頁

    張興旺 劉旭樓

    (1.山西省萬通電子商務研究所,山西 太原 030000;2.山西太原鋼鐵公司醫(yī)院,山西 太原 030000)

    山西國際商務信息智能收集監(jiān)測服務系統(tǒng)是為了提高企業(yè)、政府有關部門等單位了解、研究掌握國內外貿易、招商等市場動態(tài)信息,提高獲取各種商務信息情報、商務決策和市場競爭能力,加快發(fā)展國內外經貿規(guī)模和水平,面向國內外商務領域而研發(fā)的互聯(lián)網商務信息智能整合服務系統(tǒng),系統(tǒng)采用.Net框架和SOA架構,基于智能技術的互聯(lián)網商務信息整合平臺。保證獲取國內外商務信息的及時性和準確性,為商務主管部門、企業(yè)了解國內外市場動態(tài)、變化趨勢,進行招商、投資、進出口貿易等商務決策提供信息支持服務。

    一、互聯(lián)網搜索技術

    1 多智能Agent技術

    Agent技術是目前計算機、控制和信息等技術領域的研究熱點,被一些專家、文獻稱為軟件領域意義深遠的突破。該技術在基于網絡分布計算這一當今計算機主流技術領域中,正越來越發(fā)揮著重要作用。它不但為解決新的分布式應用問題提供了有效途徑;而且為全面準確地研究分布計算系統(tǒng)特點提供了合理概念模型。Agent中文即 “代理”,故名思意,接受用戶指令、代替用戶完成某些復雜繁瑣工作。研究表明:從人機工程角度考慮,若賦予電腦或程序更多人性化色彩,如支持語音合成輸出信息、語音識別指令、智能提示等,就能充分提高人機交互的有效性和易用性。

    本系統(tǒng)采用的Agent是指軟件機器人,它代表用戶或程序,以主動服務方式完成一組操作的機動計算機實體。實質就是研究如何使系統(tǒng)盡量不打攪用戶,自動完成用戶委托的復雜和繁瑣任務,與傳統(tǒng)技術的區(qū)別就是具有自制能力、智能和目標驅動屬性,通過各種社交、學習、推理等方法感知適應復雜的動態(tài)環(huán)境,自動追求目標、理解用戶信息需求和興趣愛好,在用戶發(fā)出請求后即定位搜索,并盡快完成用戶需求。Agent技術是傳統(tǒng)檢索技術的發(fā)展和飛躍,有強大的開放性、靈活性和協(xié)作性。是解決現(xiàn)有WWW信息查詢系統(tǒng)收集率低、處理能力差的有效方法。

    由于系統(tǒng)采用了先進的Multi-Agent框架結構和智能技術,每個Agent均有很強的學習、分析和處理問題的能力,能基于獨立知識,采用機器學習方法自主完成用戶賦予的信息搜集和處理;針對不同任務擁有不同的知識庫、工作策略,以求最佳效果;另外它還有互相配合協(xié)作性:通過不同的機器學習機制,不斷提高其性能和效果;用協(xié)作方式完成對各種復雜的競爭情報搜索和分析任務。正是基于智能系統(tǒng)框架結構,使系統(tǒng)具有了高度擴展性,能根據不同信息結構和內容方便地為其量身定制,使系統(tǒng)功能不斷完善而不累贅。

    2 網絡蜘蛛技術

    中文搜索引擎的查全率需保證不遺漏任何重要的結果,而且能找到最新的網頁,這需要搜索引擎有一個強大的網頁收集器,俗稱 “網絡蜘蛛”。

    (1)網絡蜘蛛基本原理

    網絡蜘蛛,英文即:Web Spider,是對網絡信息智能搜索技術的比喻,把互聯(lián)網比作蜘蛛網,則Spider即網絡蜘蛛。搜索時,通過網頁鏈接地址來尋找目標,從網站某個頁面開始,讀取其內容,找到在該網頁中與其它網頁的鏈接全部地址,然后通過鏈接地址一一尋找其鏈接的下一個網頁,再從下一個網頁中所有鏈接中尋找下下層所有網頁,以此類推直到把該網站所有網頁中所鏈接的全部網頁都抓取完為止。通常網絡蜘蛛有兩種策略:廣度優(yōu)先和深度優(yōu)先。廣度優(yōu)先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇該網頁中一個鏈接網頁,繼續(xù)抓取在此網頁中鏈接的所有網頁。以此類推直至抓取完所有鏈接網頁中的所有鏈接;深度優(yōu)先是指網絡蜘蛛會從起始頁開始,按照每個鏈接跟蹤下去,處理完該網頁中全部鏈接后再轉入下一層次鏈接的起始頁業(yè)直至所有網頁,然后繼續(xù)跟蹤鏈接。該方法優(yōu)點是網絡蜘蛛設計簡單易行。當然網絡蜘蛛訪問網站時,經常會遇到網頁權限和加密數(shù)據,但大多數(shù)企業(yè)、政府網站以及商務、營銷網站,他們是希望搜索引擎能搜索到他們的信息,以提高它們的點擊率和業(yè)務量,這些網站信息欄目不會加密或會提供權限和密碼。網絡蜘蛛通過所給權限進行采集。

    (2)內容提取

    搜索引擎建立網頁索引時,處理對象是文本文件。對于網絡蜘蛛來說,抓取的網頁格式為html和動態(tài)網頁等。這些文件抓取后,需要把其中文本信息提取出來。因為準確提取這些信息對網絡蜘蛛搜索準確性至關重要;而且對網絡蜘蛛進一步正確跟蹤鏈接影響巨大。例如HTML文檔,HTML文檔和文本文檔不同,它有自己語法,通過不同的命令標識符來表示不同的字體、顏色、位置等,提取文本信息時需要把這些標識符都過濾掉。在識別這些信息時,需要同步記錄諸多版式信息,例如字體大小、是否是標題、是否加粗顯示、是否為頁面關鍵詞等,這些信息有助于計算詞匯在網頁中的頻度和重要度。對于自動分詞、提取關鍵詞、生成摘要等信息處理至關重要。

    動態(tài)網頁:動態(tài)網頁是網絡蜘蛛自動追求目標、理解用戶信息需求和興趣愛好,會在用戶發(fā)出請求后就定位搜索信息,并盡早完成用戶需求。Agent技術是傳統(tǒng)檢索技術的發(fā)展和飛躍,有強大的開放性、靈活性和協(xié)作性。是解決現(xiàn)有WWW信息查詢系統(tǒng)收集率低、查詢處理能力差的有效方法。系統(tǒng)采用了先進的Multi-Agent框架結構和智能技術,在Multi-Agent協(xié)作區(qū)框架結構下,各個Agent均有自主性,能基于獨立的知識采用機器學習方法自主完成用戶信息搜集和處理任務;每個Agent具有個性化特點,擁有針對不同任務不同的知識庫、工作策略,以求得最佳效果;另外每個Agent都還有學習性和協(xié)作性:通過不同的機器學習機制,不斷提高其性能和效果;通過協(xié)作方式完成各種復雜競爭情報搜索和分析任務。正是基于智能系統(tǒng)框架結構上,使系統(tǒng)具有高度擴展性,能根據不同的信息結構和內容方便地為其量身定制,使系統(tǒng)功能完善而不臃腫。

    (3)更新周期

    本系統(tǒng)的網絡蜘蛛,采用深度優(yōu)先策略搜索。由于網站內容經常變化,網絡蜘蛛也要不斷更新抓取網頁內容,需要網絡蜘蛛按照一定周期掃描網站,查看哪些頁面需要更新,哪些頁面是新增的,哪些網頁是過期的死鏈接。搜索引擎更新周期對查全率影響很大,若更新周期太長,會有新生成的網頁搜索不到;周期過短,技術實現(xiàn)有一定難度,還會對帶寬、服務器資源造成浪費。網絡蜘蛛不是對所有網站都采用相同周期更新,重要、更新量大的網站,更新周期短,反之,更新周期就長,一般是1~4周。通常網絡蜘蛛在更新網站內容時,無需把網站網頁重抓一遍,只把新網頁日期屬性與上次抓取的相比,若相同則不更新。

    3 網頁監(jiān)測技術

    網站監(jiān)測在國外早已習以為常,而國內卻是小荷才露尖尖角。Internet普及給人們生活和消費帶來了革命性變化:通過Internet進行商品買賣使電子商務大行其道;在線閱讀使人們懶于奔波書店而在方寸屏幕前獲得源源不斷信息和知識;網絡游戲使眾多游戲迷樂此不彼狂熱迷戀;網絡論壇和社區(qū)更是形成了虛擬社區(qū),讓人們情感、遐想在這里得到滿足;隨著光纖高速、web3.0技術的快速發(fā)展,人們越來越離不開Internet,而Internet細胞-互聯(lián)網網站,更成了數(shù)以千萬計用戶關注焦點。網上營銷、購物、授課、會議成了企業(yè)、商家、學校等業(yè)務的主流渠道,網上搜索、獵奇、商務、商品信息成了越來越多的人賴以生活的手段,網絡孕育著網站監(jiān)測、服務的產生和發(fā)展。

    (1)監(jiān)測對象(網站)的網絡模型

    監(jiān)測對象大多數(shù)是由用戶根據需求提供的,主要是國內外各有關政府、行業(yè)、駐外機構、企業(yè)的網站及各大商務網站。這些網站分兩類:

    ①傳統(tǒng)型C/S或B/S/D網絡架構。優(yōu)點是監(jiān)測點吞吐量大、性能優(yōu)越;缺點是布點成本大,且監(jiān)測源覆蓋面有限,監(jiān)測數(shù)據不夠完整準確,不能客觀全面反映監(jiān)測的網頁信息。

    ②基于P2P分布式網絡模式,監(jiān)測的網絡節(jié)點可隨著用戶數(shù)增加無限擴張,監(jiān)測源的覆蓋可以伸展到世界各個角落,會從監(jiān)測不同站點來印證系統(tǒng)提供的信息和數(shù)據是否客觀、準確,對商務決策更具有參考價值。

    (2)網頁監(jiān)測技術

    網頁監(jiān)測是基于網絡蜘蛛技術,使用戶實時監(jiān)測目標網站群內容的變化,針對具有相關主題最新發(fā)布的內容和信息數(shù)據的網頁進行監(jiān)視,一有更新變化,即報告給用戶,以人機對話采取相應措施。網頁監(jiān)測技術是本系統(tǒng)應用創(chuàng)新,它有以下特點:

    ①配置簡單。用戶可以通過簡單配置即可達到監(jiān)測目標網頁目的。

    ②高效率。由于監(jiān)測網頁深度有限制,所以不存在監(jiān)測網頁數(shù)量的指數(shù)級增長。

    ③節(jié)約網絡服務器和帶寬資源,同時也能保證系統(tǒng)的實時性和高效性。

    ④監(jiān)測網頁動態(tài)。網頁監(jiān)測不僅監(jiān)測網頁內容,還能監(jiān)測網頁內容變化來識別哪些是新內容,以解決互聯(lián)網信息量大、更新快的問題。

    二、信息整合處理

    1 概述

    本系統(tǒng)采用了目前幾種先進可靠的中英文信息智能處理技術,能從大量的互聯(lián)網信息中有效地篩選出有價值的內容,具有強大的信息處理和分析功能,并通過各種技術的綜合運用來實現(xiàn)對目標信息的準確抽取。系統(tǒng)中應用的技術包括:自然語言理解處理技術、中文自動分詞、自動提取關鍵詞、內容去重、Html網頁處理技術等。

    2 自然語言理解理解與處理

    自然語言理解、處理作為語言信息處理技術高層次的重要研究方向,一直是人工智能領域核心課題,也是困難問題之一。由于自然語言多義性、上下文關聯(lián)性、模糊性、非系統(tǒng)性及和環(huán)境密切相關性、涉及的知識面廣,使得很多系統(tǒng)采取了回避方法;另外,由于理解并非絕對的概念,它與所應用的目標相關,例如用于回答問題、執(zhí)行命令,還是機器翻譯等。因此,對于自然語言理解,至今尚無一致的、各方可接受的定義,因此對它的處理也就帶來了很多困難。

    從微觀上講,計算機對自然語言理解是指從自然語言到機器內部的一個映射;從宏觀上看,計算機對自然語言理解是指機器能夠執(zhí)行人類所期望的回答問題(計算機能正確地回答用自然語言輸入的有關問題),文摘生成(機器能產生輸入文本的摘要),釋義(機器能用不同的詞語和句型來復述輸入的自然語言信息),翻譯語言功能。

    自然語言有兩種基本形式:書面語和口語,書面語比口語規(guī)范性強,且噪聲小??谡Z信息包括很多語義上不完整的句子,如果聽眾對演講主題背景、相關知識不很了解,可能無法理解這些口語信息。書面語理解包括詞法、語法和語義分析,而口語理解還需要加上語音分析。我們只涉及書面語的理解問題,不考慮口語分析。如果計算機能夠理解、處理自然語言,人-機之間信息交流能夠以人們熟悉的母語來進行,將是計算機技術的重大突破。另外,由于創(chuàng)造和使用自然語言是人類高智能的表現(xiàn),因此對自然語言理解、處理研究也有助于揭開人類高度智能的奧秘,深化對語言能力和思維本質認識。所以對自然語言理解研究方向在應用和理論方面都有重大意義。

    在檢索語言發(fā)展過程中,自然語言是必然要取代人工語言的,自然語言理解技術是計算機人工智能與語言學結合的產物,是解決自然語言檢索的核心技術。回顧其發(fā)展,分析它與網絡檢索結合應用中的問題,不難看出自然語言理解是檢索技術發(fā)展方向?;ヂ?lián)網信息處理技術核心是自然語言理解與處理技術。而中文自然語言處理技術核心是中文分詞、詞性標注、加權詞頻統(tǒng)計、復合詞組生成算法、自動提取關鍵詞、句頻統(tǒng)計分析、相關度計算、內容去重、自動分類、用戶興趣模型等技術等。

    3 中文自動分詞

    3.1 技術指標

    分詞正確率98.21% ;未登錄詞識別召回率95.48%。

    3.2 技術思想

    中文分詞是針對現(xiàn)代漢字序列文本自動分解為漢語詞組序列文本的技術。英文是以詞為單位,詞之間是靠空格隔開,而中文是以字為單位,句子中所有字連起來才能描述一個意思。把中文漢字序列切分成有意義的詞,即中文分詞。分詞技術是中文信息處理從字符處理邁向語義處理的關鍵,也是中文信息智能處理的基礎。我們采用的是N-最短路徑非統(tǒng)計粗分方法,目標是:快速(粗分結果集盡量少)、高召回率(即可能的涵蓋最終結果)。研究思路是:先快速的找出包含正確結果在內的N(N≥1)種粗分結果。然后綜合考慮速度和召回率,通過試驗,確定N的最佳值,最終得到涵蓋最終結果在內的盡量小的粗分結果集。

    基本思想:根據詞典,找出字串中所有可能的詞,構造詞語切分有向無環(huán)圖。每個詞對應圖中的一條有向邊,并賦給相應的邊長(權值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度值按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1, 第2,…,第i,…,第N的路徑集合作為相應的粗分結果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結果集,而且不影響其他路徑的排列序號,最后粗分結果集合大小將≥N。數(shù)學模型為:設待分字串 S=c1c2……cn,其中ci(i =1,2,…n)為單個的字,

    n為串的長度,n≥1。建立一個節(jié)點數(shù)為n+1的切分有向無環(huán)圖G,各節(jié)點編號依次為V0、V1…Vn,通過以下兩種方法建立G所有可能的詞邊。

    (1)相鄰節(jié)點Vk-1,Vk之間建立有向邊,邊的長度值為Lk,邊對應的詞默認為ck(k=1,2,…n)。

    (2)若w=cici+1……cnj是一個詞,則節(jié)點Vi-1,Vj之間建立有向邊,邊的長度值為Lw,邊對應的詞為w(0

    這樣待分字串S中的所有詞與切分有向無環(huán)圖G中的邊一一對應,如圖1所示。

    在非統(tǒng)計粗分模型中,我們假定所有詞都是對等的,為了計算方便,不妨將詞的對應邊的邊長均設為1。設:Path(i,j)為所有從Vi到Vj的路徑集合;Length(path)為路徑path的長度,其值等于path中所有邊的長度之和;LS為G中所有從V0到Vn路徑的長度集合;NLS為V0到Vn的N-最短。

    NLS的定義:NLS LS,|NLS|=min(|LS|,N);a∈LS-NLS,b∈NLS→ a

    RS={w1w2…wm|wi是path的第i條邊對應的詞,i=1,2,…,m,其中path∈NSP}。

    RS是NSP對應的分詞結果,即我們所求的粗分結果集。因此,N-最短路徑方法詞語粗切問題轉化為:如何求解有向無環(huán)圖G的集合NSP。

    目前分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。本系統(tǒng)采用基于概率統(tǒng)計正向最大匹配分詞算法,利用分詞結果對網上信息進行更有效處理。

    4 自動關鍵詞提取

    4.1 技術指標

    準確率≥90%,查全率≥90%

    互聯(lián)網信息的特點之一是信息量非常龐大。在這海量文字信息中快速、準確地尋找需要的信息,無疑非常重要。因此人們提出了用幾個詞語來表述一篇文章主要內容的需求,這幾個詞語就是關鍵詞。關鍵詞是簡要描述一篇文章內容的重要數(shù)據,用戶可以通過關鍵詞迅速了解文章內容而判斷自己是否對文章感興趣。傳統(tǒng)的關鍵詞都是以人力手工標注得到,效率低,準確性不高。如何利用計算機快速準確地從文章中自動提取關鍵詞,成為一個新課題。本項目的自動關鍵詞提取技術就是有效解決這一課題的最佳方案。一般講,把Html文檔的關鍵詞提取技術分為兩部分來實現(xiàn),一是Html文檔分析,一是關鍵詞提取。Html文檔分析主要是識別出Html文檔中主體內容,并對不同位置的內容確定不同的權重。關鍵詞提取技術分以下步驟進行:分詞→詞頻統(tǒng)計→加權計算→特征選擇。

    4.2 技術思想

    在對Html文檔分析基礎上,我們提取Html文檔的關鍵詞。Html文檔分析主要是識別出Html文檔中主體內容,對不同位置的內容確定不同的權重。相關算法數(shù)學模型如下:

    (1)加權詞頻統(tǒng)計

    其中,VTFik表示此條Tk在文檔di中的頻數(shù),N表示全部訓練文本的文檔數(shù),Nk表示含有二個詞連在一起出現(xiàn)的次數(shù)。此條Tk的文檔數(shù)目。

    (2)復合詞組生成公式

    其中:公式(4)中的P(*)代表詞出現(xiàn)的概率,我們用文章中出現(xiàn)的次數(shù)替代,其中P(W1)表示第一個詞出現(xiàn)的次數(shù),P(W2)表示第二個詞出現(xiàn)的次數(shù),P(W1W2)是第一、二個詞同時出現(xiàn)的次數(shù)。

    (3)文本相似度計算的公式、算法

    相似度是指兩對比物具有共性大小的程度,系統(tǒng)在自動對文本分類時,常常用相似度來比較分析兩個文本共性大小而決定其是否能劃為同一類中。在向量空間模型中,文本泛指各種機器可讀的記錄。用D(Document)表示,特征項(Term,用t表示)是指出現(xiàn)在文本D中且能代表該文本內容的基本語言單位,主要是由詞或短語構成,文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,1≤k≤N。例如文檔中有a、b、c、d四個特征項,那么該文本就可以表示為D(a,b,c,d)。對含有n個特征項的文檔而言,通常會給每個特征項賦予一定的權重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D(W1,W2,…,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權重,1≤k≤N。在上面那個例子中,假設a、b、c、d的權重分別為30,20,20,10,那么該文本的向量自然語言理解與處理技術余弦值表示,公式為:

    其中,W1k、W2k分別表示文檔D1和D2第K個特征項的權值,1≤k≤N。

    自動歸類中,我們利用類似的方法來計算待歸類文本和某類目的相似度。例如文本D1的特征項為a,b,c,d,權值分別為30,20,20,10,類目C1的特征項為a,c,d,e,權值分別為40,30,20,10,則D1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據上式計算出的文本D1與類目C1相關度是0.86。

    數(shù)學中,若n維向量為:V{v1,v2,v3,...,vn},則它的模為:

    兩個向量的點積:

    物理意義就是兩個向量的空間夾角余弦值相關度=(m×n)/(|m|×|n|),即余弦系數(shù)或相似度函數(shù)。余弦值為“1”,兩個向量的空間夾角為“0°”,即兩個文本完全相似;同樣道理,余弦值為0,兩個向量的空間夾角為“90°”兩個文本完全不同。

    (4)余弦系數(shù)

    假設Di、Dj是兩個不同的文本,經過特征向量選取后得到的向量為Di=(d1i,d2i,…dmi)T與Dj=(d1j,d2j,…dmj)T,其中dkj(dki)表示關鍵詞k發(fā)生在文本j(i)中的頻率權重。則文本Di、Dj的余弦系數(shù)為:

    其中:

    C—關鍵詞出現(xiàn)的次數(shù);

    Sum—特征向量中關鍵詞出現(xiàn)的次數(shù)總和。

    我們用余弦系數(shù)方法求文本的相似度,而且參與運算特征向量的維數(shù)相等,所以對獲取的特征向量還要做些處理,參與運算的特征向量的關鍵詞要同時出現(xiàn)在兩個文本中,即對兩個特征向量幾何求交集。則得到最終向量Di與Dj,利用余弦系數(shù)進行相似度計算。

    判斷兩個文本是否相似需要一個標準,即設定一個閾值檢驗計算后的結果。若結果≥閾值,判定其相似。反之判定不相似。對于閾值選擇是比較靈活,可根據需要的精度進行設置,精度要求越高,閾值越大,一般取值范圍是(0.5,1)。

    (5)關鍵詞提取技術數(shù)學模型

    關鍵詞提取技術核心算法是權重計算的算法,我們采用了改進的TF*IDF算法,公式如下:

    自動關鍵詞提取是基于中文分詞基礎,根據Html結構特點,結合Html網頁處理技術實現(xiàn)的。

    三、Html網頁處理技術

    針對Html網頁處理,我們自己研發(fā)了Html文檔處理技術,先對Html文檔進行預處理,包括Html文檔清洗、去除無用內容等,分析文檔結構及內容處理。Html網頁處理技術包括網頁主體內容識別、去重,頁面信息抽取、網頁自動摘要、CSS(Cascading Style sheet)層疊樣式表單等。通過多種方式將Html網頁內容轉換為結構化信息內容,以便信息查詢和管理。

    Html網頁處理就是對Web非結構化信息抽取,把網頁中非結構化數(shù)據按照一定規(guī)則抽取、轉換成結構化數(shù)據,是垂直搜索引擎和通用搜索引擎最大差別。例如:比較兩種購物搜索,抓取網頁后,對網中商品筆記本電腦的信息進行抽?。荷唐访Q、型號、CPU、內存、硬盤、型號、產地、保修事項、生產或經銷商、聯(lián)系人電話等。非結構化信息抽取有模板方式和網頁庫級結構化信息抽取方式兩種:

    (1)模板方式

    事先對特定的網頁進行配置模板,抽取模板中設置好的需要信息,針對有限個網站的信息進行精確的采集。優(yōu)點:簡單、精確、技術難度低、方便快速部署。缺點:需要對每一個信息源網站模板進行單獨設定,在信息源多樣性情況下維護量巨大,難以完成。只適合少量信息處理,不適合搜索引擎級的應用,很難滿足用戶對查全率的需求。

    (2)網頁庫結構化信息抽取

    采用頁面結構與智能節(jié)點分析轉換方法,自動抽取結構化數(shù)據??蓪θ我庹>W頁進行抽取,全自動對具體網站事先生成模板,對每個網頁自動生成抽取規(guī)則,抽取準確率高。能達到98%以上。原理是先去除垃圾塊,降低分析壓力,大大提高處理速度。通用性好,易于維護。只需設定、配置相應特征參數(shù)即能改進相應的抽取性能,非專業(yè)人員經過簡單培訓就能維護。缺點:技術難度大,前期研發(fā)成本高,周期長,適合網頁庫級別結構化數(shù)據采集。

    本系統(tǒng)對Html網頁處理采用了基于網頁庫結構化信息抽取,將網頁中的非結構化數(shù)據按需求轉換為結構化數(shù)據,采用了頁面結構與智能節(jié)點分析轉換方法,自動對任意正常網頁進行結構化數(shù)據抽取。完全自動化,無需人工干預。適合高端垂直搜索應用或競爭情報分析系統(tǒng)。

    [1]石純一,黃昌寧,王家廞.人工智能原理[M].北京:清華大學出版社,1993.

    [2]吳蔚天.漢語計算語義學—關系、關系語義場和形式分析[M].北京:電子工業(yè)出版社,1999.

    [3]林杏光.現(xiàn)代漢語述語動詞機器詞典[M].北京:北京語言學院出版社,1994.

    [4]尤昉,李涓子,王作英.基于語義依存關系的漢語語料庫構建[J].中文信息學報,2003,17(01):46-53.

    [5]由麗萍,范開泰,劉開瑛.漢語語義分析模型研究述評[J].中文信息學報,2005,19(06):57-62.

    [6]郝曉燕,等.漢語框架語義知識庫及軟件描述體系[J].中文信息學報,2007,21(05):96-101.

    [7]趙穎澤.漢語功能塊的自動分析[D].北京:清華大學,2006.

    [8]杜永萍.基于模式知識庫的問題回答關鍵技術研究[D].上海:復旦大學,2005.

    [9] Baker, Collin F., & Fillmore, Charles J., & Lowe, John B. The Berkeley FrameNet Project. In Proceedings of COLING/ACL. Montreal, Canada, 1998: 86–90.

    [10]Palmer, M., & Gildea, D., & Kingsbury, P. The proposition bank: An annotated corpus of semantic roles[J].Computational Linguistics. 2005, 31(01): 71–106.

    猜你喜歡
    分詞蜘蛛網頁
    結巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于CSS的網頁導航欄的設計
    電子制作(2018年10期)2018-08-04 03:24:38
    小蜘蛛凍僵了,它在哪兒呢?
    蜘蛛
    基于URL和網頁類型的網頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    值得重視的分詞的特殊用法
    網頁制作在英語教學中的應用
    電子測試(2015年18期)2016-01-14 01:22:58
    大蜘蛛
    10個必知的網頁設計術語
    高考分詞作狀語考點歸納與疑難解析
    国产精品一区二区在线观看99| 亚洲成人av在线免费| 亚洲在久久综合| 波野结衣二区三区在线| 亚洲av中文av极速乱| 久久精品亚洲av国产电影网| 精品国产一区二区久久| 久久久久久久久免费视频了| 午夜福利影视在线免费观看| 国产精品99久久99久久久不卡 | 亚洲免费av在线视频| 国产一区二区在线观看av| 久久久久精品久久久久真实原创| 男女国产视频网站| 免费在线观看视频国产中文字幕亚洲 | 国产一级毛片在线| 亚洲精品中文字幕在线视频| 在线观看一区二区三区激情| av视频免费观看在线观看| 成人亚洲精品一区在线观看| 中文字幕人妻丝袜一区二区 | 国产人伦9x9x在线观看| 国产亚洲欧美精品永久| 最近手机中文字幕大全| 国产亚洲av高清不卡| 999久久久国产精品视频| 欧美人与善性xxx| 伊人亚洲综合成人网| 国产国语露脸激情在线看| 一本色道久久久久久精品综合| 美女福利国产在线| 婷婷色av中文字幕| 亚洲精品一区蜜桃| 最近中文字幕2019免费版| 日韩av在线免费看完整版不卡| 99香蕉大伊视频| 国产一区二区在线观看av| 在线观看国产h片| 精品卡一卡二卡四卡免费| 久久97久久精品| 亚洲精品中文字幕在线视频| 午夜福利一区二区在线看| 成年人免费黄色播放视频| 欧美激情高清一区二区三区 | av卡一久久| 黄片播放在线免费| 国产欧美日韩一区二区三区在线| 1024香蕉在线观看| 伊人亚洲综合成人网| 中文欧美无线码| 亚洲国产欧美在线一区| 国产免费视频播放在线视频| 国产精品久久久久久精品电影小说| 在线观看一区二区三区激情| 99国产综合亚洲精品| 免费观看人在逋| 一区二区三区精品91| 国产精品亚洲av一区麻豆 | 人妻一区二区av| 最近中文字幕2019免费版| 大香蕉久久成人网| 免费观看性生交大片5| 中文乱码字字幕精品一区二区三区| 国产精品久久久久久精品古装| a级片在线免费高清观看视频| 欧美日韩综合久久久久久| 男女边摸边吃奶| 纵有疾风起免费观看全集完整版| 亚洲精品日韩在线中文字幕| 可以免费在线观看a视频的电影网站 | 美女视频免费永久观看网站| 欧美变态另类bdsm刘玥| 成年美女黄网站色视频大全免费| 日韩av免费高清视频| 午夜福利视频精品| 丰满饥渴人妻一区二区三| 美女视频免费永久观看网站| 久久鲁丝午夜福利片| 大话2 男鬼变身卡| 精品国产一区二区久久| a级毛片黄视频| 亚洲av在线观看美女高潮| 黄色视频不卡| 大香蕉久久成人网| 中国国产av一级| 建设人人有责人人尽责人人享有的| 天天躁狠狠躁夜夜躁狠狠躁| 午夜福利免费观看在线| 爱豆传媒免费全集在线观看| 色播在线永久视频| 卡戴珊不雅视频在线播放| 18禁动态无遮挡网站| 精品视频人人做人人爽| 国产伦人伦偷精品视频| 午夜av观看不卡| 综合色丁香网| 亚洲欧美日韩另类电影网站| 天天影视国产精品| 午夜福利网站1000一区二区三区| 日日撸夜夜添| 国产av国产精品国产| 伊人久久大香线蕉亚洲五| 欧美变态另类bdsm刘玥| 制服丝袜香蕉在线| 免费在线观看黄色视频的| 自拍欧美九色日韩亚洲蝌蚪91| 国产av国产精品国产| 欧美成人午夜精品| 一级爰片在线观看| 十八禁人妻一区二区| 午夜日本视频在线| 啦啦啦在线观看免费高清www| 久久韩国三级中文字幕| 韩国高清视频一区二区三区| 亚洲中文av在线| 欧美精品一区二区大全| 又大又黄又爽视频免费| 国产在视频线精品| 新久久久久国产一级毛片| 亚洲国产精品一区二区三区在线| 国产一区二区在线观看av| xxxhd国产人妻xxx| 如何舔出高潮| 另类亚洲欧美激情| 亚洲精品美女久久av网站| 中文字幕人妻熟女乱码| 观看美女的网站| 韩国精品一区二区三区| 午夜福利在线免费观看网站| 香蕉国产在线看| 午夜免费鲁丝| 性色av一级| 午夜福利一区二区在线看| 国产精品偷伦视频观看了| 国产精品欧美亚洲77777| 中文字幕高清在线视频| 欧美精品亚洲一区二区| 蜜桃在线观看..| 国产免费福利视频在线观看| e午夜精品久久久久久久| 久久久久精品性色| 亚洲av在线观看美女高潮| 中文字幕制服av| 欧美久久黑人一区二区| 日韩制服丝袜自拍偷拍| 狂野欧美激情性bbbbbb| 999精品在线视频| 欧美 日韩 精品 国产| 蜜桃国产av成人99| 飞空精品影院首页| 中文字幕av电影在线播放| 国产人伦9x9x在线观看| 国产97色在线日韩免费| 又大又黄又爽视频免费| 婷婷色综合大香蕉| 大片电影免费在线观看免费| 人人澡人人妻人| www日本在线高清视频| 水蜜桃什么品种好| 亚洲精品在线美女| 久久久久久人人人人人| 热re99久久精品国产66热6| 美女午夜性视频免费| 国产伦理片在线播放av一区| 免费高清在线观看日韩| 夫妻性生交免费视频一级片| 一区二区三区精品91| 国产片内射在线| 亚洲成人一二三区av| 99re6热这里在线精品视频| av免费观看日本| 亚洲精品久久午夜乱码| 在线亚洲精品国产二区图片欧美| 男的添女的下面高潮视频| 国产一区亚洲一区在线观看| 色婷婷久久久亚洲欧美| 黄色一级大片看看| 亚洲熟女精品中文字幕| netflix在线观看网站| 男人舔女人的私密视频| 久久精品人人爽人人爽视色| 在线观看免费日韩欧美大片| 人成视频在线观看免费观看| 久久久亚洲精品成人影院| 久久午夜综合久久蜜桃| 老熟女久久久| a级毛片在线看网站| 观看美女的网站| 欧美 日韩 精品 国产| 欧美精品一区二区免费开放| 69精品国产乱码久久久| 亚洲精品aⅴ在线观看| 国产黄频视频在线观看| 91aial.com中文字幕在线观看| 免费观看a级毛片全部| 国产熟女午夜一区二区三区| 成人国语在线视频| 中文字幕最新亚洲高清| 色视频在线一区二区三区| 欧美成人午夜精品| 纯流量卡能插随身wifi吗| 亚洲美女搞黄在线观看| 精品国产一区二区三区四区第35| 日韩欧美一区视频在线观看| av不卡在线播放| 日韩一本色道免费dvd| 久久人妻熟女aⅴ| 高清黄色对白视频在线免费看| 永久免费av网站大全| 久久鲁丝午夜福利片| 男女床上黄色一级片免费看| 精品国产一区二区三区久久久樱花| 男女之事视频高清在线观看 | 啦啦啦在线免费观看视频4| netflix在线观看网站| 一区二区三区乱码不卡18| 天天躁夜夜躁狠狠躁躁| 欧美97在线视频| 人妻一区二区av| 18在线观看网站| 看非洲黑人一级黄片| 亚洲精品乱久久久久久| 国产视频首页在线观看| 毛片一级片免费看久久久久| 一边摸一边做爽爽视频免费| 日日啪夜夜爽| 国产精品国产av在线观看| 波野结衣二区三区在线| 国产精品一区二区在线观看99| 国产高清不卡午夜福利| 日韩av不卡免费在线播放| 亚洲欧洲国产日韩| 少妇人妻 视频| svipshipincom国产片| 国产av国产精品国产| 丰满迷人的少妇在线观看| 久久久精品94久久精品| 男男h啪啪无遮挡| 亚洲欧美激情在线| 天天躁狠狠躁夜夜躁狠狠躁| av在线老鸭窝| 午夜福利一区二区在线看| 天天影视国产精品| 亚洲精品一二三| 日本黄色日本黄色录像| 大香蕉久久成人网| 亚洲 欧美一区二区三区| 久久精品国产a三级三级三级| 国产一区二区三区综合在线观看| 高清av免费在线| 久久久久国产精品人妻一区二区| 国产乱来视频区| 国产精品嫩草影院av在线观看| 亚洲精品在线美女| 亚洲国产毛片av蜜桃av| 男女床上黄色一级片免费看| 中文字幕另类日韩欧美亚洲嫩草| 国产免费福利视频在线观看| 久久精品亚洲av国产电影网| 久久久久精品久久久久真实原创| 国产成人免费无遮挡视频| 777久久人妻少妇嫩草av网站| 国产精品久久久久久精品古装| 日韩视频在线欧美| 国产精品一区二区在线观看99| 国产精品成人在线| 看非洲黑人一级黄片| 天美传媒精品一区二区| 久久人人97超碰香蕉20202| 午夜福利免费观看在线| 久久ye,这里只有精品| 亚洲精品成人av观看孕妇| 热re99久久精品国产66热6| 啦啦啦视频在线资源免费观看| 亚洲精品国产一区二区精华液| 国产高清国产精品国产三级| 久久久久久免费高清国产稀缺| 18禁观看日本| 电影成人av| 日韩精品有码人妻一区| 天堂8中文在线网| 久久久精品区二区三区| 久久久国产精品麻豆| 成人三级做爰电影| 国产伦人伦偷精品视频| 最新的欧美精品一区二区| 精品久久久久久电影网| 国产片内射在线| 超碰成人久久| 女人被躁到高潮嗷嗷叫费观| 亚洲av电影在线进入| 啦啦啦在线观看免费高清www| 男女国产视频网站| 在线免费观看不下载黄p国产| 大片免费播放器 马上看| 2021少妇久久久久久久久久久| 免费黄色在线免费观看| 国产一区二区三区综合在线观看| 国产97色在线日韩免费| 丝袜脚勾引网站| 欧美日本中文国产一区发布| 成人国语在线视频| 亚洲欧美日韩另类电影网站| 韩国精品一区二区三区| 成人黄色视频免费在线看| 亚洲色图综合在线观看| 波多野结衣av一区二区av| 色94色欧美一区二区| 久久综合国产亚洲精品| 久久精品国产a三级三级三级| 这个男人来自地球电影免费观看 | 日本vs欧美在线观看视频| 亚洲欧美清纯卡通| 19禁男女啪啪无遮挡网站| 日韩人妻精品一区2区三区| 成人国产av品久久久| 中文字幕高清在线视频| 成年动漫av网址| 精品久久久久久电影网| 麻豆精品久久久久久蜜桃| 国产又爽黄色视频| 亚洲av男天堂| 侵犯人妻中文字幕一二三四区| 欧美激情 高清一区二区三区| 国产精品欧美亚洲77777| 如何舔出高潮| 成人亚洲欧美一区二区av| 亚洲精品国产一区二区精华液| 亚洲熟女毛片儿| 亚洲欧美成人精品一区二区| 国产成人啪精品午夜网站| 国产日韩欧美视频二区| 丝袜美腿诱惑在线| av卡一久久| 一区二区日韩欧美中文字幕| 亚洲在久久综合| 亚洲国产欧美一区二区综合| av有码第一页| 女人久久www免费人成看片| 国产 一区精品| 欧美人与性动交α欧美精品济南到| 人人妻人人添人人爽欧美一区卜| 国语对白做爰xxxⅹ性视频网站| 女性被躁到高潮视频| 一区二区日韩欧美中文字幕| 欧美日韩综合久久久久久| 观看av在线不卡| 少妇的丰满在线观看| 黄片播放在线免费| xxxhd国产人妻xxx| 女人高潮潮喷娇喘18禁视频| 母亲3免费完整高清在线观看| 日韩不卡一区二区三区视频在线| www.熟女人妻精品国产| 国产精品久久久久久精品电影小说| 国产片特级美女逼逼视频| 97在线人人人人妻| 亚洲精品一二三| 一区二区日韩欧美中文字幕| 一级片免费观看大全| 日日撸夜夜添| 亚洲国产最新在线播放| 精品人妻一区二区三区麻豆| 国产精品一区二区在线观看99| 久久99精品国语久久久| 亚洲av男天堂| 久久ye,这里只有精品| 国产精品麻豆人妻色哟哟久久| 99精国产麻豆久久婷婷| 女人精品久久久久毛片| 老司机深夜福利视频在线观看 | 久久热在线av| 午夜91福利影院| 亚洲三区欧美一区| 视频在线观看一区二区三区| 国产在视频线精品| 欧美老熟妇乱子伦牲交| 国产一区亚洲一区在线观看| 精品亚洲乱码少妇综合久久| 色婷婷av一区二区三区视频| 亚洲av综合色区一区| 尾随美女入室| 精品一区二区三区av网在线观看 | 欧美人与善性xxx| 国产男人的电影天堂91| 青春草视频在线免费观看| 成人黄色视频免费在线看| av女优亚洲男人天堂| 久久久久久久久久久久大奶| 亚洲综合精品二区| 欧美人与善性xxx| 看免费av毛片| 国产精品国产av在线观看| 久久午夜综合久久蜜桃| 一区二区日韩欧美中文字幕| 日日撸夜夜添| 久久精品熟女亚洲av麻豆精品| 久久久久精品久久久久真实原创| 亚洲图色成人| 欧美人与性动交α欧美精品济南到| 国产老妇伦熟女老妇高清| 天天操日日干夜夜撸| 亚洲婷婷狠狠爱综合网| 国产一区二区三区综合在线观看| 91精品伊人久久大香线蕉| 男女床上黄色一级片免费看| 欧美日韩视频高清一区二区三区二| 久久精品aⅴ一区二区三区四区| 性高湖久久久久久久久免费观看| 国产极品粉嫩免费观看在线| 色综合欧美亚洲国产小说| 美女国产高潮福利片在线看| 日韩成人av中文字幕在线观看| 日本爱情动作片www.在线观看| 9热在线视频观看99| 免费黄网站久久成人精品| 男女床上黄色一级片免费看| 国产黄色免费在线视频| 亚洲婷婷狠狠爱综合网| 久久久国产欧美日韩av| 国产免费福利视频在线观看| 777米奇影视久久| 精品少妇一区二区三区视频日本电影 | 曰老女人黄片| 免费女性裸体啪啪无遮挡网站| 高清不卡的av网站| 亚洲国产精品999| 欧美日韩视频高清一区二区三区二| 国产午夜精品一二区理论片| 国产精品 欧美亚洲| 久久天堂一区二区三区四区| 又粗又硬又长又爽又黄的视频| 亚洲精品日本国产第一区| 肉色欧美久久久久久久蜜桃| 日日爽夜夜爽网站| 欧美激情 高清一区二区三区| 大码成人一级视频| 人妻 亚洲 视频| 亚洲一级一片aⅴ在线观看| 免费看av在线观看网站| 黄片无遮挡物在线观看| 国产日韩欧美视频二区| 精品国产乱码久久久久久小说| 9色porny在线观看| 99久久人妻综合| 日本一区二区免费在线视频| 免费看av在线观看网站| 亚洲美女视频黄频| 狠狠精品人妻久久久久久综合| 日韩一本色道免费dvd| 亚洲精品在线美女| 超色免费av| 午夜精品国产一区二区电影| 日本av免费视频播放| 我要看黄色一级片免费的| 久久免费观看电影| 亚洲欧美精品综合一区二区三区| 91aial.com中文字幕在线观看| 在线免费观看不下载黄p国产| 色网站视频免费| 精品卡一卡二卡四卡免费| 九草在线视频观看| 国产在视频线精品| 成人亚洲欧美一区二区av| 一级毛片我不卡| 老司机影院毛片| 色播在线永久视频| 男的添女的下面高潮视频| 久久精品亚洲熟妇少妇任你| 又大又爽又粗| 国产精品一区二区精品视频观看| 欧美变态另类bdsm刘玥| 91老司机精品| 国产一卡二卡三卡精品 | 超碰97精品在线观看| 久久免费观看电影| 我要看黄色一级片免费的| 在线天堂最新版资源| 99久久99久久久精品蜜桃| 亚洲国产精品一区二区三区在线| 国产精品嫩草影院av在线观看| 只有这里有精品99| 亚洲三区欧美一区| 老鸭窝网址在线观看| 老司机靠b影院| av在线观看视频网站免费| 国产老妇伦熟女老妇高清| 国产精品成人在线| 妹子高潮喷水视频| 免费不卡黄色视频| 精品亚洲成a人片在线观看| 成人国产麻豆网| 少妇精品久久久久久久| 七月丁香在线播放| 97人妻天天添夜夜摸| 婷婷色综合大香蕉| 久久久久久人妻| 中国三级夫妇交换| 精品一区二区三卡| 啦啦啦在线观看免费高清www| 亚洲男人天堂网一区| 亚洲欧洲精品一区二区精品久久久 | 一级黄片播放器| 狠狠婷婷综合久久久久久88av| 韩国av在线不卡| 一级,二级,三级黄色视频| 亚洲国产欧美日韩在线播放| 久久精品久久久久久噜噜老黄| 婷婷成人精品国产| 可以免费在线观看a视频的电影网站 | 免费看不卡的av| av网站免费在线观看视频| 女的被弄到高潮叫床怎么办| 在线观看免费午夜福利视频| 国产日韩欧美在线精品| av网站在线播放免费| 国产成人一区二区在线| 9色porny在线观看| 91精品三级在线观看| 我要看黄色一级片免费的| 狠狠婷婷综合久久久久久88av| 国产精品一二三区在线看| 久久99精品国语久久久| 一级a爱视频在线免费观看| 99香蕉大伊视频| 欧美97在线视频| 久久青草综合色| 亚洲第一区二区三区不卡| 亚洲三区欧美一区| 成人国语在线视频| 亚洲久久久国产精品| 日韩免费高清中文字幕av| 婷婷色麻豆天堂久久| 伊人久久国产一区二区| 国产片内射在线| 老司机影院毛片| 秋霞在线观看毛片| e午夜精品久久久久久久| 亚洲欧美成人精品一区二区| 国产在视频线精品| 香蕉国产在线看| 日本欧美视频一区| 国精品久久久久久国模美| 中文天堂在线官网| 伊人久久大香线蕉亚洲五| 丰满乱子伦码专区| 人人妻人人澡人人爽人人夜夜| 欧美日韩精品网址| 久久这里只有精品19| 免费看不卡的av| 一区二区三区乱码不卡18| 久久性视频一级片| 国产免费又黄又爽又色| 中文字幕av电影在线播放| 美女大奶头黄色视频| 午夜精品国产一区二区电影| 欧美另类一区| 国产精品av久久久久免费| 在线观看www视频免费| 成人国语在线视频| 不卡视频在线观看欧美| 下体分泌物呈黄色| 国产一区二区在线观看av| 久久亚洲国产成人精品v| 国产精品久久久久成人av| 欧美人与性动交α欧美精品济南到| 精品视频人人做人人爽| 大片免费播放器 马上看| 国产极品天堂在线| 国产精品久久久av美女十八| 久久久久久久精品精品| av网站免费在线观看视频| 男人舔女人的私密视频| 一本色道久久久久久精品综合| 不卡视频在线观看欧美| 99久久综合免费| 国产精品偷伦视频观看了| 欧美成人精品欧美一级黄| 夫妻午夜视频| 18禁国产床啪视频网站| 免费在线观看视频国产中文字幕亚洲 | 亚洲欧美成人综合另类久久久| 天天躁狠狠躁夜夜躁狠狠躁| 免费观看性生交大片5| 伊人亚洲综合成人网| av线在线观看网站| 婷婷色麻豆天堂久久| 新久久久久国产一级毛片| 午夜免费鲁丝| 纵有疾风起免费观看全集完整版| 色播在线永久视频| 街头女战士在线观看网站| 一区二区三区乱码不卡18| 老司机影院毛片| 青春草亚洲视频在线观看| 大话2 男鬼变身卡| 一区二区三区乱码不卡18| 久久久亚洲精品成人影院| 亚洲国产精品成人久久小说| 极品人妻少妇av视频| 国产日韩欧美在线精品| 中文字幕高清在线视频| 国产av码专区亚洲av| 女的被弄到高潮叫床怎么办| 亚洲美女黄色视频免费看| 秋霞伦理黄片| 激情五月婷婷亚洲| 国产有黄有色有爽视频| 欧美人与性动交α欧美软件| 亚洲一卡2卡3卡4卡5卡精品中文| 国产深夜福利视频在线观看| 青青草视频在线视频观看| 午夜福利免费观看在线| 超碰97精品在线观看| 国产精品秋霞免费鲁丝片|