• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      農(nóng)業(yè)經(jīng)濟數(shù)據(jù)多格式存儲比較分析

      2015-04-29 00:00:00劉大滏趙盛
      今日湖北·中旬刊 2015年11期

      本文主要基于農(nóng)業(yè)經(jīng)濟數(shù)據(jù)倉庫的建設(shè),提出一個面向網(wǎng)絡(luò)數(shù)據(jù)獲取、數(shù)據(jù)多格式存儲的方案。農(nóng)業(yè)經(jīng)濟分析問題的確定對應(yīng)著分析主題的確定,而分析框架對應(yīng)著數(shù)據(jù)倉庫的建立,分析的過程對應(yīng)著多維分析與數(shù)據(jù)挖掘。而處于中間部分的對信息的獲取與加工,本身包含對信息結(jié)構(gòu)的處理、語義的賦予、內(nèi)容的清洗這一系列過程。

      為了實現(xiàn)這些目標,本文將從HTML中獲取的農(nóng)產(chǎn)品價格信息的以三種方式存儲,分別是關(guān)系數(shù)據(jù)庫、XML統(tǒng)一數(shù)據(jù)存儲格式、以及RDF語義存儲。

      通過三種存儲方式的比較,以及結(jié)合分析系統(tǒng)信息獲取處理的過程,可以發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫是對于數(shù)據(jù)的結(jié)構(gòu)化存儲,XML進一步的賦予層次及信息自描述,而RDF對于信息賦予了語義。

      關(guān)系數(shù)據(jù)庫存儲優(yōu)點是效率高,技術(shù)成熟,缺點是與由于與數(shù)據(jù)庫管理系統(tǒng)(DBMS)綁定,造成數(shù)據(jù)存儲格式無法統(tǒng)一,無法進行數(shù)據(jù)交換,也無法對信息賦予語義。

      XML存儲的優(yōu)點是其已經(jīng)是Web數(shù)據(jù)交換的標準,使用范圍廣,并賦予數(shù)據(jù)層次語義,可以與數(shù)據(jù)倉庫中的維度信息很好的結(jié)合。但是由于其語義功能不完整,造成數(shù)據(jù)查詢時必須了解其完整的結(jié)構(gòu),并且造成語義不統(tǒng)一現(xiàn)象的產(chǎn)生。

      RDF存儲的優(yōu)點是其描述了信息的語義關(guān)系,使得可以與數(shù)據(jù)倉庫中的語義相結(jié)合,通過語義查詢直接為數(shù)據(jù)倉庫中的事實表、維度表提供滿足語義的數(shù)據(jù),而不用考慮具體的存儲結(jié)構(gòu)。但是相對于XML,RDF對于人類而言的可讀性較差。

      為了進一步說明三種層次模式的特點,假設(shè)需要實現(xiàn)下面的分析目標分別從關(guān)系數(shù)據(jù)庫、XML、RDF中獲取數(shù)據(jù)以實現(xiàn)分析。

      (1)關(guān)系數(shù)據(jù)庫

      三種存儲模式中,關(guān)系數(shù)據(jù)庫是最為基本也是目前使用最多的方式,其優(yōu)點是直接可以與后期的數(shù)據(jù)倉庫(同樣是建立在關(guān)系數(shù)據(jù)庫基礎(chǔ)上)相連接,甚至于直接寫入數(shù)據(jù)倉庫中,而不經(jīng)過數(shù)據(jù)緩沖。

      (2) XML存儲

      在XML中為了獲取例中需要的信息,可以利用XQuery對分析所需的信息進行查詢,但是在查詢前必須了解XML的層次結(jié)構(gòu)。

      XML存儲的數(shù)據(jù)關(guān)鍵特性之一,是它賦予了數(shù)據(jù)層次性結(jié)構(gòu),例如根據(jù)保存地理數(shù)據(jù)XML所生成的樹狀圖,與我們在數(shù)據(jù)倉庫設(shè)計中對于地理維度的層次設(shè)計表達相同,實際上,很多的數(shù)據(jù)倉庫系統(tǒng)對于層次的表達直接建立在XML的基礎(chǔ)上,而利用XML的特性,可以實現(xiàn)數(shù)據(jù)倉庫中維度表對于XML文件的直接利用。

      (3)RDF語義存儲

      XML所存在的問題是因為XML不具備語義描述能力。為了解決這一點,信息可以用RDF進行保存?!百Y源描述框架(Resource Description Framework,縮寫RDF)是萬維網(wǎng)聯(lián)盟(W3C)提出的一組標記語言的技術(shù)標準,以便更為豐富地描述和表達網(wǎng)絡(luò)資源的內(nèi)容與結(jié)構(gòu)。RDF標準最初設(shè)計的目的是描述Web上的資源、內(nèi)容和關(guān)系。但是RDF現(xiàn)在變成了用于描述一般信息、資源和關(guān)系的標準。語義Web和網(wǎng)格技術(shù)都需要定義資源及其之間的關(guān)系,使應(yīng)用程序能夠使用不同的信息,并且可以把數(shù)據(jù)捆綁在一起?!?/p>

      一旦分析所需信息的對應(yīng)語義模式確定,通過SPARQL從RDF存儲中查詢所需的數(shù)據(jù)就很簡單。

      PREFIX agri:SELECT?pri-ceFROM http://tomisacat.com/agri/agri20110123.rdfWHERE{agri:都勻毛尖agri:location agri:畢節(jié)桂花市場.?location agri:price?price.}

      由于將分析語句轉(zhuǎn)換為對應(yīng)的三元組關(guān)系,對RDF中存儲信息的查詢比較關(guān)系數(shù)據(jù)庫與XML要直觀的多,更有利于數(shù)據(jù)存儲與分析程序進行直接的結(jié)合。

      通過各種數(shù)據(jù)存儲方式的優(yōu)缺點分析,可以根據(jù)實際的情況在中間存儲層中結(jié)合使用。例如,當數(shù)據(jù)源的信息語義關(guān)系簡單,分析系統(tǒng)未來面向的數(shù)據(jù)庫關(guān)系系統(tǒng)不會改變時,可以采用關(guān)系數(shù)據(jù)庫作為中間存儲層的存儲方式。當分析系統(tǒng)面向不同廠商的數(shù)據(jù)倉庫系統(tǒng),或者面向不同的應(yīng)用,那么XML是最好的選擇。當希望實現(xiàn)數(shù)據(jù)倉庫對于信息的語義查詢,并且信息語義復(fù)雜,并且分析系統(tǒng)需要一個統(tǒng)一的語義信息源時,應(yīng)該考慮RDF。

      凤山市| 乐业县| 拜城县| 郁南县| 南皮县| 丽水市| 临清市| 岑巩县| 丰都县| 贡觉县| 邯郸县| 永顺县| 富宁县| 张家川| 吉林省| 舒城县| 瑞丽市| 石景山区| 合山市| 徐水县| 武穴市| 武汉市| 柳江县| 安仁县| 潮安县| 苍梧县| 霍州市| 宜州市| 体育| 长治市| 沈阳市| 铁岭县| 儋州市| 华阴市| 深泽县| 伊吾县| 谷城县| 扎兰屯市| 精河县| 内黄县| 板桥市|