• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向語義文本的WEB數(shù)據(jù)挖掘研究

    2009-09-29 08:58:18
    新媒體研究 2009年14期

    王 靜

    [摘要]針對傳統(tǒng)的面向語義文本的WEB數(shù)據(jù)挖掘研究集中在文本信息特征處理方面而忽略了文本信息預(yù)處理的現(xiàn)狀,結(jié)合語義文本的WEB挖掘流程,采用最大匹配法對語義文本進行預(yù)處理,通過建立語義文本的索引機制減少對數(shù)據(jù)庫的訪問,從而提高文本W(wǎng)EB挖掘的效率,對于語義文本的WEB挖掘優(yōu)化研究具有一定的借鑒意義。

    [關(guān)鍵詞]語義化 WEB挖掘 算法研究

    中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0720053-01

    一、引言

    隨著網(wǎng)絡(luò)的飛速發(fā)展,傳統(tǒng)Web在信息顯示和處理上的不足之處也更加顯著,而語義網(wǎng)作為一種新型的網(wǎng)絡(luò)結(jié)構(gòu),較好地克服了這些問題,而基于語義的Web挖掘作為與這一趨勢相適應(yīng)的技術(shù),也必將成為Web挖掘研究的新熱點。

    Web文本數(shù)據(jù)的挖掘是對Web頁面上的數(shù)據(jù)內(nèi)容進行挖掘,它是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導知識。Web內(nèi)容挖掘通過分析一個網(wǎng)頁上的內(nèi)容,建立數(shù)據(jù)庫,通過不同的數(shù)據(jù)庫之間的元記錄之間的關(guān)聯(lián)性獲得有關(guān)不同頁面間相似度和關(guān)聯(lián)度的信息規(guī)則,從而實現(xiàn)對WEB網(wǎng)頁上的語義內(nèi)容的挖掘。

    二、面向語義化的WEB文本挖掘分析

    (一)挖掘流程。文本的WEB挖掘并不是一件容易的事情,尤其是在分析方法方面還有很多需要研究的專題。面向語義化的WEB文本挖掘一般可以分為以下幾個流程:

    1.特征的抽取建立。與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔無法直接提取結(jié)構(gòu),此外,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于文本數(shù)據(jù),因此,需要對文本進行特征抽取,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。

    2.特征集的縮減。當我們將文檔轉(zhuǎn)化為一種類似于關(guān)系數(shù)據(jù)庫中記錄的較規(guī)整且能反映文檔內(nèi)容特征的表示文檔特征向量后,我們會發(fā)現(xiàn)一個不合人意的地方:文檔特征向量具有驚人的維數(shù),使得特征集的縮減成為文本數(shù)據(jù)挖掘中必不可少的一步。

    3.學習與知識模式的提取。完成文檔特征向量維數(shù)的縮減后,便可利用機器學習的各種方法來提取面向特定應(yīng)用目的的知識模式。

    4.模型質(zhì)量的評價。對所獲取的知識模型進行質(zhì)量評價,若評價的結(jié)果滿足一定的要求,則存儲該知識模式,否則返回到以前的某個環(huán)節(jié)分析改進后進行新一輪的挖掘工作。

    (二)文本信息處理的優(yōu)化設(shè)計。目前對于面向語義的文本W(wǎng)EB挖掘研究的較多,但是大多是面向如何提高特征的抽取效率及特征集的縮減而設(shè)計不同的算法,將算法集中在文本的特征抽取和特征集的建立上,對于文本內(nèi)容的預(yù)處理方面,幾乎很少涉及,忽略了文本信息的索引機制,這也是造成目前面向語義文本的WEB挖掘算法效率偏低的主要原因。

    在對文檔進行特征提取前,需要先進行文本信息的預(yù)處理,主要包括英文文本的stemming處理和中文文本的詞條切分。

    在本論文中對中文自動分詞采用最大匹配算法。最大匹配法的思想是:從輸入流中取最大長度(本系統(tǒng)中取6)字符串,在詞典中進行查找,匹配則輸出,繼續(xù)取,否則,回溯,繼續(xù)查找,直到長度為1,此時需在輸入流中前進一格,此過程進行到取完輸入流。由此可以看出,此方法的思想簡單明了,便于實現(xiàn),但該算法效率不會很高,因為需要頻繁進行數(shù)據(jù)庫查找。若能在匹配過程中減少數(shù)據(jù)庫操作,則有可能使效率提高。

    我們在實現(xiàn)最大匹配法時,作了如下考慮:

    Step1:對詞典建索引,并將輸入流放入字符串變量中;

    Step2:取輸入流的當前字符,查找詞典將以當前字符開頭的詞條取出,放入記錄集變量中;

    Step3:按照傳統(tǒng)的算法,在記錄集變量中進行匹配,并根據(jù)匹配情況將輸入流移動;

    Step4:重復(fù)第2步,直至輸入流結(jié)束,退出。

    由上面的處理過程可以看出,通過對詞典建索引,并將匹配操作均在記錄集中進行,從而避免了最大匹配法頻繁查找詞典的缺陷。這樣在允許一定的分詞錯誤率的情況下,通過減少查找數(shù)據(jù)庫的時間(特別是在詞典龐大的情況下),能使分詞速度提高。

    文本信息經(jīng)過上述的預(yù)處理,再采用目前主流的特征抽取算法及特征集的分類算法,即可實現(xiàn)面向語義文本的WEB快速挖掘。

    (三)挖掘算法性能測試。為了比較本論文所提出的面向語義文本的預(yù)處理方法的有效性,將該方法與傳統(tǒng)的采用Apriori算法進數(shù)據(jù)挖掘的方法進行了對比仿真。用VisualC++在內(nèi)存為512MB的C41.7G計算機上實現(xiàn)了Apriori算法與本論文提出的文本挖掘方法的性能比較。測試數(shù)據(jù)集共包括2個數(shù)據(jù)層各含有5個屬性,每個屬性泛化后有2~10個屬性值,采用的元模式形如P(t,x)∧Q(t,y)→R(t,z),而各層的最低支持度均為12%,最低信任均為50%。

    測試了算法的隨記錄的增加時間的變化(時間復(fù)雜性),將測試數(shù)據(jù)庫的元組數(shù)從1000開始,逐漸遞增到5000。兩算法的時間復(fù)雜性數(shù)據(jù)曲線如圖1所示,從圖中可以發(fā)現(xiàn),兩個算法的時間復(fù)雜性均較好,不過隨數(shù)據(jù)庫規(guī)模的增大,本論文所采用的挖掘方法,由于對文本信息進行了預(yù)處理,因而在執(zhí)行時間更為迅速,而且在時間的增長上更為平緩一些,所以本論文提出的挖掘方法是可行的。

    三、結(jié)語

    語義Web上的數(shù)據(jù)挖掘算法可以應(yīng)用于各種領(lǐng)域。例如當前Web上的搜索引擎主要是使用基于關(guān)鍵詞的查找策略,這使得查找效率非常低下,本研究課題通過運用對語義化的內(nèi)容進行預(yù)處理實現(xiàn)了語義化的WEB快速挖掘,從而大大提高了Web搜索的工作效率。下一步的研究重點是在Web挖掘中如何利用語義Web上的本體知識,從而從本質(zhì)上大大改進Web挖掘的結(jié)果和提高Web挖掘的效率。

    參考文獻:

    [1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

    [2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

    [3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

    [4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

    作者簡介:

    王靜,女,北京人,長春理工大學光電信息學院-信息工程分院,助教。

    乐陵市| 阿荣旗| 浦江县| 福州市| 石柱| 黄龙县| 乳山市| 宝兴县| 阿拉善右旗| 呼图壁县| 克东县| 慈利县| 马龙县| 平山县| 延吉市| 当阳市| 拉孜县| 巨鹿县| 祁门县| 大足县| 高阳县| 乐亭县| 铁岭市| 新巴尔虎左旗| 工布江达县| 峨山| 鹿邑县| 蓝田县| 雷山县| 陇川县| 县级市| 神农架林区| 左贡县| 安达市| 浮山县| 家居| 瑞丽市| 郑州市| 临城县| 砚山县| 平顶山市|