摘要:隨著商業(yè)的規(guī)模不斷擴(kuò)大,發(fā)票數(shù)量急劇增加,有關(guān)發(fā)票的各種信息量也成信增加。面對(duì)龐大的信息量,就需要有發(fā)票管理系統(tǒng)來(lái)提高發(fā)票管理工作的效率。通過(guò)這樣的系統(tǒng),可能做到信息的規(guī)范管理、科學(xué)統(tǒng)計(jì)和快速的查詢,從而減少管理方面的工作。
關(guān)鍵詞:管理系統(tǒng);數(shù)據(jù)庫(kù);網(wǎng)絡(luò)
發(fā)票業(yè)務(wù)基礎(chǔ)數(shù)據(jù)主要包括發(fā)票的真?zhèn)涡畔?、發(fā)票的銷售信息兩大類。其中真?zhèn)涡畔⒌臄?shù)據(jù)為增長(zhǎng)比較迅速的動(dòng)態(tài)數(shù)據(jù),發(fā)票的銷售信息為增長(zhǎng)比較緩慢的靜態(tài)數(shù)據(jù)。
按照地稅系統(tǒng)信息化建設(shè)的目標(biāo),數(shù)據(jù)傳輸?shù)钠款i主要來(lái)自于廣域網(wǎng)。
廣域網(wǎng)間信息流量:按照實(shí)際中同時(shí)并發(fā)基礎(chǔ)數(shù)據(jù)、傳輸公文、郵件、FAX等信息的應(yīng)用情況,及傳輸信息的內(nèi)容、格式、大小來(lái)計(jì)算遠(yuǎn)程網(wǎng)絡(luò)間的信息流量和帶寬。按照數(shù)據(jù)傳輸量峰值計(jì)算:
用戶數(shù)1000 x 在線用戶率0.85 x 傳輸信息用戶率0.5 x 單位時(shí)間信息包大小5K =2125K(2兆)。
結(jié)構(gòu)化數(shù)據(jù)一般都是通過(guò)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)來(lái)進(jìn)行管理。在研究其邏輯分布策略時(shí),主要是考慮需要設(shè)置哪些主要的數(shù)據(jù)庫(kù),以及數(shù)據(jù)在這些主要的數(shù)據(jù)庫(kù)內(nèi)部的分布。結(jié)合前面對(duì)數(shù)據(jù)的分析可以知道,有獎(jiǎng)發(fā)票管理系統(tǒng)是所有數(shù)據(jù)量最大、數(shù)據(jù)間關(guān)系也是最復(fù)雜的。
因?yàn)榘l(fā)票管理系統(tǒng)采用的是在地市級(jí)實(shí)現(xiàn)數(shù)據(jù)集中的模式。通過(guò)對(duì)上面的圖表進(jìn)行分析可以得出:
A 類數(shù)據(jù)數(shù)據(jù)量很小,變動(dòng)也少,因此,此類數(shù)據(jù)也適合集中存放并永久保存在生產(chǎn)數(shù)據(jù)庫(kù)中。考慮到此類數(shù)據(jù)需要頻繁讀取,因此需要建立自上而下的刷新機(jī)制,確保數(shù)據(jù)的有效性。
B 類數(shù)據(jù)基本上都是與納稅人相關(guān)的數(shù)據(jù),雖然數(shù)據(jù)量大,但變化卻不大,因此,建議將此類數(shù)據(jù)完全集中存放并永久保存在生產(chǎn)數(shù)據(jù)庫(kù)中。
C 類數(shù)據(jù)主要是各種發(fā)票查詢、兌付數(shù)據(jù),數(shù)據(jù)量非常大,并且隨時(shí)間迅速增長(zhǎng),考慮到性能問(wèn)題,即使是對(duì)于其中同一類的數(shù)據(jù),我們也有必要根據(jù)一定的數(shù)據(jù)分布策略將其分布到不同的數(shù)據(jù)表中。
D類數(shù)據(jù)的數(shù)據(jù)量不大,可以集中永久存放在生產(chǎn)數(shù)據(jù)庫(kù)中。
按照數(shù)據(jù)逐級(jí)集中的策略,各個(gè)地市首先集中所屬的各區(qū)縣的數(shù)據(jù),然后再把數(shù)據(jù)集中到省局。這種處理辦法會(huì)造成數(shù)據(jù)量的急劇膨脹,地市適合省局一級(jí)的主機(jī)系統(tǒng)將面臨巨大的考驗(yàn),傳統(tǒng)的方式難以解決此問(wèn)題。解決主機(jī)壓力的有效辦法是采用機(jī)群技術(shù)。
1機(jī)群并行系統(tǒng)
機(jī)群并行計(jì)算機(jī)系統(tǒng)就是把一群計(jì)算機(jī)(例如工作站、PC機(jī)、服務(wù)器、大型機(jī)等)用網(wǎng)絡(luò)以某種拓?fù)浣Y(jié)構(gòu)互連起來(lái),充分利用計(jì)算機(jī)資源,統(tǒng)一調(diào)度、協(xié)調(diào)處理,實(shí)現(xiàn)高效率并行計(jì)算。機(jī)群并行計(jì)算機(jī)系統(tǒng)中的每臺(tái)計(jì)算機(jī)稱為一個(gè)結(jié)點(diǎn)。如果機(jī)群并行計(jì)算機(jī)系統(tǒng)中的所有結(jié)點(diǎn)都是PC機(jī),則稱為PC機(jī)群。
與向量計(jì)算機(jī)和并行計(jì)算機(jī)相比,機(jī)群并行計(jì)算機(jī)系統(tǒng)具有如下七個(gè)主要特點(diǎn):性能價(jià)格比高;用戶投資風(fēng)險(xiǎn)??;編程方便;系統(tǒng)結(jié)構(gòu)靈活;能夠充分利用獨(dú)立計(jì)算機(jī)的系統(tǒng)資源,各個(gè)結(jié)點(diǎn)的資源還可以共享;具有松散藕合結(jié)構(gòu),可擴(kuò)展性好;具有高度I/O并行性。
這七個(gè)特點(diǎn)展現(xiàn)了機(jī)群并行計(jì)算系統(tǒng)的魅力。國(guó)外很多學(xué)者和廠商預(yù)言,機(jī)群并行計(jì)算系統(tǒng)將與MPP并駕齊驅(qū),主導(dǎo)并行計(jì)算技術(shù)的發(fā)展。機(jī)群并行計(jì)算技術(shù)的研究是最近幾年開(kāi)始的研究領(lǐng)域,國(guó)內(nèi)外都剛剛起步。機(jī)群并行計(jì)算技術(shù)是一個(gè)很有前途的研究領(lǐng)域。
實(shí)現(xiàn)機(jī)群并行計(jì)算系統(tǒng)的最簡(jiǎn)單方法就是采用現(xiàn)成的計(jì)算機(jī)網(wǎng)絡(luò)把多個(gè)計(jì)算機(jī)連接在一起。這種方法簡(jiǎn)單、易行。但是,這種機(jī)群并行計(jì)算系統(tǒng)具有一個(gè)致命的弱點(diǎn):多計(jì)算機(jī)間通信速度慢,存在嚴(yán)重的通信瓶頸問(wèn)題。為了解決通訊瓶頸問(wèn)題,機(jī)群并行計(jì)算機(jī)系統(tǒng)需要滿足如下要求的高速通信網(wǎng)絡(luò):高傳輸率;低通信延遲。為了提高傳輸率,網(wǎng)絡(luò)多采用光纖作為通信介質(zhì)。為了降低通信延遲,國(guó)外一些廠商開(kāi)發(fā)了專用硬件作為機(jī)群并行計(jì)算機(jī)系統(tǒng)的互連網(wǎng)絡(luò)。
并行軟件系統(tǒng)的研究成了最近幾年來(lái)熱門的高科技研究領(lǐng)域。由于在各種應(yīng)用領(lǐng)域中數(shù)據(jù)庫(kù)系統(tǒng)占有重要的地位,并行數(shù)據(jù)庫(kù)系統(tǒng)的研究引起了學(xué)術(shù)界和工業(yè)界的特別關(guān)注。在很多計(jì)算機(jī)應(yīng)用領(lǐng)域,數(shù)據(jù)庫(kù)規(guī)模的增長(zhǎng)速度已遠(yuǎn)遠(yuǎn)超過(guò)了數(shù)據(jù)庫(kù)管理系統(tǒng)性能的增長(zhǎng)速度。數(shù)據(jù)庫(kù)管理系統(tǒng)的處理能力和速度的提高已經(jīng)成為目前急需解決的問(wèn)題。并行數(shù)據(jù)庫(kù)系統(tǒng)的研究和開(kāi)發(fā)將會(huì)有效地解決這個(gè)問(wèn)題。
機(jī)群并行計(jì)算系統(tǒng)的I/O并行性高、可擴(kuò)展性好等特點(diǎn)使得它能夠比MPP更有效地支持并行數(shù)據(jù)庫(kù)系統(tǒng)。只要花費(fèi)很小的投資就可建立起機(jī)群并行計(jì)算系統(tǒng)。機(jī)群并行計(jì)算系統(tǒng)十分符合我國(guó)的國(guó)情。
總而言之,并行數(shù)據(jù)庫(kù)系統(tǒng)以高性能、高可用性和高擴(kuò)充性為目標(biāo),充分利用多處理器平臺(tái)的工作能力,在聯(lián)機(jī)事務(wù)處理(OLTP)與決策支持(DSS)應(yīng)用這兩種典型環(huán)境中提供更快的響應(yīng)時(shí)間與更大的事物吞吐量。采用機(jī)群方式構(gòu)建并行機(jī)系統(tǒng)還可以適應(yīng)業(yè)務(wù)發(fā)展的需要,增加節(jié)點(diǎn)方便,不需要修改業(yè)務(wù)系統(tǒng),增加了系統(tǒng)的靈活性和可擴(kuò)展性。
2系統(tǒng)設(shè)計(jì)方案
綜上所述,通過(guò)對(duì)發(fā)票管理系統(tǒng)的分析和機(jī)群并行系統(tǒng)的研究,發(fā)票管理系統(tǒng)的數(shù)據(jù)庫(kù)解決方案。
第一套方案:所有數(shù)據(jù)存放在一個(gè)數(shù)據(jù)庫(kù),發(fā)票銷售信息存放在一張表(如表1所示),發(fā)票真?zhèn)涡畔⒋娣旁谝粡埍恚ㄈ绫?所示)。
該套解決方案通過(guò)試運(yùn)行,其中發(fā)票銷售信息表共有信息483,231條,471M數(shù)據(jù);發(fā)票真?zhèn)涡畔⒈砉灿行畔?,200,000條,5G數(shù)據(jù)。
發(fā)票檢索 = 483,231 + 5,200,000 = 5,683,231
每張發(fā)票的檢索時(shí)間相當(dāng)于將5,683,231條記錄過(guò)濾一遍,檢索時(shí)間大于30秒,平均24秒檢索一張發(fā)票。
第二套方案:所有數(shù)據(jù)存放在一個(gè)數(shù)據(jù)庫(kù),將發(fā)票銷售信息按照發(fā)票種類進(jìn)行分表存儲(chǔ),相同種類的發(fā)票銷售信息在一張數(shù)據(jù)表中,表結(jié)構(gòu)保持不變;將發(fā)票真?zhèn)涡畔凑瞻l(fā)票組號(hào)、發(fā)票批次、發(fā)票種類進(jìn)行分表存儲(chǔ),相同組號(hào)、批次、種類的發(fā)票決定一張表,表結(jié)構(gòu)保持不變。
同時(shí)在數(shù)據(jù)庫(kù)創(chuàng)建發(fā)票銷售信息檢索表(如表3所示)和發(fā)票真?zhèn)涡畔z索表(如表4所示)。
該套解決方案通過(guò)試運(yùn)行,其中發(fā)票銷售信息表,兩個(gè)月共有信息1,023,587條,約1G數(shù)據(jù);發(fā)票真?zhèn)涡畔⒈砉灿行畔?4,800,000條,約14G數(shù)據(jù)。發(fā)票銷售信息表根據(jù)發(fā)票種類進(jìn)行拆分,共拆分成28張表,平均每張表信息36,556條,最大一張表的信息為75,324條。發(fā)票真?zhèn)涡畔⒈砀鶕?jù)發(fā)票組號(hào)、發(fā)票批次、發(fā)票種類進(jìn)行拆分,共拆分成120張表,平均每張表信息120,000條,最大一張表的信息為800,000條。
發(fā)票檢索 = 28 + 75,324 + 120 + 800,000 = 875,472
每張發(fā)票的檢索時(shí)間相當(dāng)于將875,472條記錄過(guò)濾一遍,檢索時(shí)間只相當(dāng)于第一套方案的六分之一,平均5秒檢索一張發(fā)票。
隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)庫(kù)的容量也隨著增大,數(shù)據(jù)庫(kù)的性能也隨著下降,需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行調(diào)整。根據(jù)發(fā)票的特點(diǎn)和第二套方案的經(jīng)驗(yàn),我們決定將發(fā)票信息按照年度存儲(chǔ)在不同的數(shù)據(jù)庫(kù)中。
第三套方案:采用機(jī)群并行服務(wù)器,首先,設(shè)立控制節(jié)點(diǎn),在控制節(jié)點(diǎn)建立控制數(shù)據(jù)庫(kù)服務(wù)器,數(shù)據(jù)庫(kù)中存儲(chǔ)年度與其余節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系(如表5所示)。
最后,我們采用了八個(gè)節(jié)點(diǎn)的機(jī)群并行計(jì)算機(jī),節(jié)點(diǎn)之間通過(guò)千兆交換機(jī)進(jìn)行連接。每個(gè)節(jié)點(diǎn)的分配如表6所示。
機(jī)群并行計(jì)算機(jī)具有良好的擴(kuò)充性,可以隨時(shí)通過(guò)增加節(jié)點(diǎn)的數(shù)量,來(lái)滿足發(fā)票業(yè)務(wù)的需求。
結(jié)語(yǔ)
本文主要分析了影響發(fā)票信息數(shù)據(jù)分布和數(shù)據(jù)庫(kù)結(jié)構(gòu)的主要因素。把發(fā)票數(shù)據(jù)按照不同的產(chǎn)生方式和存儲(chǔ)特點(diǎn)劃分為兩大類,估算了數(shù)據(jù)總量和在具體處理時(shí)應(yīng)該采用的不同方法。以及集中造成數(shù)據(jù)大量膨脹問(wèn)題的解決辦法:采用集群并行處理技術(shù)。
參考文獻(xiàn)
[1]林凡. 集群的可擴(kuò)展性及其分布式體系結(jié)構(gòu). 清華大學(xué)出版社, 2001
[2]符碧丹, 倪曉明. 群集環(huán)境下的直接文件系統(tǒng)訪問(wèn). 四川通信技術(shù). 2001.2
[3]劉心松. 具有分布式并行I/O接口的分布式并行服務(wù)器系統(tǒng)的性能研究.電子學(xué)報(bào).2002.12