李鳳
山西省太原市五一路公安廳
試論面向異構(gòu)類型的大數(shù)據(jù)查詢優(yōu)化措施
李鳳
山西省太原市五一路公安廳
互聯(lián)網(wǎng)的不斷發(fā)展,大數(shù)據(jù)時(shí)代悄然來臨,查詢優(yōu)化是異構(gòu)類型大數(shù)據(jù)需要解決的主要問題之一,對數(shù)據(jù)進(jìn)行查詢優(yōu)化,提高數(shù)據(jù)有效利用,本文探討了異構(gòu)類型數(shù)據(jù),并且對大數(shù)據(jù)的查詢方法Map Trim reduce與Impala有效的結(jié)合進(jìn)行了分析。
異構(gòu)類型 大數(shù)據(jù) 查詢優(yōu)化
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)的獲取更加準(zhǔn)確,而數(shù)據(jù)的存儲與處理方式也在不斷的完善,因此對于數(shù)據(jù)的查詢與優(yōu)化有著更高的要求,數(shù)據(jù)類型較為多樣化,查詢優(yōu)化是數(shù)據(jù)分析處理中的難題,文中從Map Trim reduce與Impala的角度出發(fā),對數(shù)據(jù)的處理進(jìn)行了分析,能夠提高數(shù)據(jù)的查詢效率,因此必須做好查詢優(yōu)化工作。
1.1 異構(gòu)類型數(shù)據(jù)集成的模式
異構(gòu)數(shù)據(jù)中集成的模式是從集成的具體應(yīng)用方面來說的,在異構(gòu)數(shù)據(jù)具體的應(yīng)用中,為其提供全面的訪問視圖表,以便能夠形成數(shù)據(jù)的集成作用;還有復(fù)制模式,復(fù)制模式也就是Extract-Transform-Load,簡稱ETL,從另一方面來講也就是建設(shè)數(shù)據(jù)倉庫的方式,但對象并不只局限于數(shù)據(jù)倉庫,其是數(shù)據(jù)倉庫的重要組成部分,用戶通過數(shù)據(jù)源提取數(shù)據(jù)信息,然后經(jīng)過一定的數(shù)據(jù)處理,制定出數(shù)據(jù)倉庫模型,將數(shù)據(jù)引入到數(shù)據(jù)倉庫模型中,以便能夠更好的利用。
1.2 異構(gòu)類型數(shù)據(jù)集成的難點(diǎn)
異構(gòu)類型數(shù)據(jù)體現(xiàn)在體系上的異構(gòu),數(shù)據(jù)源的類型具有一定的差異,異構(gòu)往往會表現(xiàn)在數(shù)據(jù)描述上的不同,才能夠?qū)?shù)據(jù)源的異構(gòu)性很好的體現(xiàn)出來,從另一種程度上來說,數(shù)據(jù)源面對同一種體系,也會存在不同模式上的異構(gòu)性。異構(gòu)類型數(shù)據(jù)集成的難點(diǎn)主要是體現(xiàn)在尋找數(shù)據(jù)源與目標(biāo)的映射關(guān)系以及把握數(shù)據(jù)集成功能方面,在異構(gòu)數(shù)據(jù)集成的過程中,尋找數(shù)據(jù)源與目標(biāo)的映射關(guān)系具有一定的難度,在數(shù)據(jù)處理上較為復(fù)雜,而尋找映射關(guān)系能夠有效的減小這一方面的難度,它能夠使數(shù)據(jù)源與目標(biāo)在語義方面保持一致。在數(shù)據(jù)尋找映射關(guān)系的過程中,除了尋找數(shù)據(jù)的語義,還要對數(shù)據(jù)語義進(jìn)行分辨,根據(jù)數(shù)據(jù)源與目標(biāo)的對應(yīng)關(guān)系與分配的原則,才能有效的進(jìn)行映射關(guān)聯(lián)。在功能方面,數(shù)據(jù)集成的功能很重要,其決定著數(shù)據(jù)處理的效率,集成功能是數(shù)據(jù)源達(dá)到目標(biāo)的過程,滿足數(shù)據(jù)集成的需求。另外,在進(jìn)行海量數(shù)據(jù)的同步工作時(shí),需要合理把握時(shí)間,集成的功能主要體現(xiàn)在數(shù)據(jù)處理步驟方面,數(shù)據(jù)集成具有完整性約束的特點(diǎn),完整性主要體現(xiàn)在數(shù)據(jù)的事務(wù)處理方法上,在數(shù)據(jù)操作過程中必須確保數(shù)據(jù)的完整性,數(shù)據(jù)出現(xiàn)異常,及時(shí)對異常的數(shù)據(jù)進(jìn)行處理,對數(shù)據(jù)進(jìn)行錯(cuò)誤記錄時(shí),及時(shí)檢查,發(fā)現(xiàn)數(shù)據(jù)記錄錯(cuò)誤,應(yīng)采取措施進(jìn)行處理,以免造成不必要的影響。
2.1 H base的概念
是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,對數(shù)據(jù)能夠靈活存儲,也可講分布式存儲系統(tǒng),H base是Apache的Hadoop中的子項(xiàng)目,它與其他關(guān)系數(shù)據(jù)庫有著很多不同,具有特殊性,通常較適用于非結(jié)構(gòu)化數(shù)據(jù)存儲數(shù)據(jù)庫模型中。
2.2 Map Trim reduce與Impala查詢方法
通過利用Map Trim Reduce與Impala結(jié)合的查詢方法可以對數(shù)據(jù)進(jìn)行合理的查詢,兩者之間各有各的特點(diǎn),Map Trim reduce與Impala通過有效結(jié)合對數(shù)據(jù)進(jìn)行編譯,從而來查詢數(shù)據(jù)的詳細(xì)信息,相對于Map Reduce與Impala結(jié)合來說Map Trim reduce更加具有靈活性,工作的處理效率很高,工作質(zhì)量也能保證,在具體的操作過程中,Map Trim reduce對Impala輸入的數(shù)據(jù)會采取預(yù)先處理的方式,可以檢查有沒有多余的數(shù)據(jù)以及一些沒有價(jià)值的結(jié)果,提前將這些數(shù)據(jù)結(jié)果進(jìn)行處理,減少了工作的流程,通過Impala在對其采取方法查詢,另外強(qiáng)調(diào)的是,對同一個(gè)處理結(jié)果進(jìn)行查詢時(shí),Map Trim reduce采取預(yù)先處理后的數(shù)據(jù)在HDFS具有持續(xù)性與永久性,因此Impala可以對中間處理后的結(jié)果采取查詢,不同于Map Trim Reduce對先前的Mapper進(jìn)行預(yù)先處理,減少了工作環(huán)節(jié),減小了工作量,提高了數(shù)據(jù)處理的工作效率,具有很大的時(shí)效性。
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)信息的價(jià)值引起了人們的高度重視,因此大數(shù)據(jù)的查詢與優(yōu)化具有特殊的意義,不斷的對大數(shù)據(jù)進(jìn)行查詢優(yōu)化能夠提高工作的效率,保證工作的質(zhì)量,在實(shí)際的應(yīng)用工作中,能夠很好的發(fā)揮其自身優(yōu)勢,掌握好結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)處理方式,對數(shù)據(jù)查詢優(yōu)化方法進(jìn)行不斷的研究,有利于數(shù)據(jù)的有效運(yùn)用,促進(jìn)社會科技不斷發(fā)展。
[1]楊陟卓,黃河燕.基于異構(gòu)關(guān)系網(wǎng)絡(luò)圖的詞義消歧研究[J].計(jì)算機(jī)研究與發(fā)展,2013,50:437-444
[2]舒昝,張曉冉.面向異構(gòu)類型的大數(shù)據(jù)查詢優(yōu)化研究[J].自動(dòng)化與儀器儀表,2016,(4):199-200
[3]孔祥疆,馬玉鵬,李英凡等.異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)類型轉(zhuǎn)換[J].計(jì)算機(jī)應(yīng)用研究,2006,23(4):217-218,221