趙千里,胡瑩瑩
(國家無線電監(jiān)測中心,北京 100037)
數(shù)據(jù)快速傳輸技術(shù)的探索
趙千里,胡瑩瑩
(國家無線電監(jiān)測中心,北京 100037)
近年來,無線電監(jiān)測數(shù)據(jù)量呈井噴式增長,而數(shù)據(jù)傳輸手段仍沿用著20世紀(jì)70年代誕生的TCP/IP協(xié)議,由于其固有機(jī)制問題,TCP無法充分利用帶寬網(wǎng)絡(luò),在數(shù)據(jù)包丟失和延遲嚴(yán)重的網(wǎng)絡(luò)上更無法提供可靠高效的數(shù)據(jù)傳遞,而一種新的傳輸技術(shù)Fasp?優(yōu)勢明顯。
TCP/IP協(xié)議;數(shù)據(jù)傳輸;Fasp?協(xié)議
隨著無線電監(jiān)測手段的復(fù)雜化、多樣化,非結(jié)構(gòu)數(shù)據(jù)也在無線電行業(yè)爆炸式增長,大量數(shù)字信息需要快速且可靠的傳輸。然而,于20世紀(jì)70年代誕生的互聯(lián)網(wǎng)底層傳輸TCP協(xié)議已經(jīng)儼然跟不上網(wǎng)絡(luò)和數(shù)據(jù)的傳輸要求。TCP無法充分利用現(xiàn)代化的高帶寬網(wǎng)絡(luò),更無法在數(shù)據(jù)包丟失和延遲嚴(yán)重的網(wǎng)絡(luò)上提供可靠高效的數(shù)據(jù)傳遞。
TCP吞吐量瓶頸的根源在于速率控制機(jī)制,在該機(jī)制中,發(fā)送方需要確認(rèn)每一個(gè)發(fā)送至接收方的數(shù)據(jù)包。如果某一接收確認(rèn)因高網(wǎng)絡(luò)延遲或數(shù)據(jù)包丟失而未準(zhǔn)時(shí)返回,發(fā)送方即認(rèn)為相比接收方的處理能力其發(fā)送速率過快,因而大幅降低速率并緩慢恢復(fù)。結(jié)果,傳輸速率減慢到像是在爬行,而現(xiàn)代化的高帶寬通道沒有得到充分利用。
而一種新的傳輸技術(shù)Fasp?,摒棄了TCP對速度控制和可靠性的捆綁,采用獨(dú)特的專利方法使傳輸速度達(dá)到接近滿帶寬的最大值,且不影響對擁塞的回避,實(shí)現(xiàn)了理想高效和對帶寬的充分利用。其吞吐量不受洲際WAN、衛(wèi)星、Wi-Fi、蜂窩連接上出現(xiàn)的網(wǎng)絡(luò)延遲和極端數(shù)據(jù)包丟失的影響[1]。其傳輸時(shí)間比標(biāo)準(zhǔn)FTP快數(shù)百倍且可預(yù)測性強(qiáng),不受網(wǎng)絡(luò)條件影響。
Fasp?的底層技術(shù)應(yīng)用,替換了傳統(tǒng)的TCP傳輸協(xié)議,具有內(nèi)置的、完整的安全性,包括連接節(jié)點(diǎn)安全驗(yàn)證,傳輸中數(shù)據(jù)加密及數(shù)據(jù)完整性驗(yàn)證。它徹底克服了TCP固有瓶頸,實(shí)現(xiàn)了在各種共享和私有網(wǎng)絡(luò)環(huán)境中傳輸速度的最大化。這種技術(shù)可以獲得完美的傳輸效率,不為網(wǎng)絡(luò)延遲和丟包所限制。并且,用戶享有對傳輸速度以及不同傳輸流之間帶寬共享的無以倫比的控制。不管網(wǎng)絡(luò)距離和動(dòng)態(tài)性能如何,即便是在最困難的網(wǎng)絡(luò)條件下(衛(wèi)星、無線和洲際遠(yuǎn)程鏈接),文件傳輸時(shí)間仍然可以得到保障。它可以靈活地部署在C/S或B/S構(gòu)架的應(yīng)用上,并利用普通的IP網(wǎng)絡(luò)最大限度地利用帶寬進(jìn)行高效傳輸。同時(shí),它也有著極好的跨平臺性,支持幾乎所有的主要操作系統(tǒng)。該軟件同時(shí)也包含一種文件接力技術(shù),使得在傳輸大量極小文件時(shí),其效率與傳輸單個(gè)大尺寸文件有著相同的效率與速度。
為測試驗(yàn)證Fasp技術(shù)和TCP的傳輸差異,選擇連接服務(wù)器(Connect Server)如圖1的方式進(jìn)行驗(yàn)證[2],通過網(wǎng)頁瀏覽器插件下載資源站點(diǎn)國際生物技術(shù)信息中心服務(wù)器NCBI (National Center for Biotechnology Information)提供的數(shù)據(jù)源。
圖1 服務(wù)器、瀏覽器插件測試驗(yàn)證Fasp傳輸速率
用傳統(tǒng)基于TCP/IP協(xié)議的下載工具(IE瀏覽器自帶下載工具)下載速度測試。測試結(jié)果如圖2所示,可以看到其下載速度為每秒600KB左右。按筆者網(wǎng)絡(luò)50MB雙鏈路來算,其利用率只占到了整個(gè)網(wǎng)絡(luò)帶寬的0.6%左右。
圖2 TCP/IP協(xié)議下載速度
之后,用Fasp協(xié)議的下載工具(Aspera Connect客戶端)下載相同文件進(jìn)行速度測試,測試結(jié)果如圖3所示??梢钥吹狡湎螺d速度為每秒65MB左右,按筆者50MB雙鏈路來算,其利用率占到了整個(gè)網(wǎng)絡(luò)帶寬的60%左右。
圖3 Fasp協(xié)議下載速度
如何提高廣域網(wǎng)中海量數(shù)據(jù)傳輸?shù)乃俣仁且粋€(gè)被廣泛關(guān)注的問題,工業(yè)界和研究機(jī)構(gòu)都試圖用不同的方法來提高傳輸速度。一般來說,已知的不同于Fasp的解決方法可以被歸為:基于TCP/IP協(xié)議的優(yōu)化;基于UDP的加速。
3.1 基于TCP協(xié)議的各種改進(jìn)
(1)早期的TCP協(xié)議
傳輸控制協(xié)議(TCP)在理想條件下可提供可靠的數(shù)據(jù)傳遞,但它存在著一個(gè)固有吞吐量瓶頸,隨著遠(yuǎn)距離WAN上出現(xiàn)的數(shù)據(jù)包丟失及延遲增加,該瓶頸則變得更加突出且嚴(yán)重。吞吐量瓶頸的根源在于TCP用于調(diào)節(jié)其數(shù)據(jù)流速率的機(jī)制,標(biāo)準(zhǔn)TCP無法區(qū)分?jǐn)?shù)據(jù)包丟失背后的原因?qū)ξ募鬏斔俣人斐傻膰?yán)重后果。帶寬利用率和不穩(wěn)定傳輸速率的波動(dòng)可導(dǎo)致不可預(yù)測的傳遞時(shí)間,甚至是傳輸失敗,造成無法按時(shí)完成關(guān)鍵業(yè)務(wù),從而需要昂貴的傳輸監(jiān)督和冗余。
(2)修改TCP/IP協(xié)議棧
對已有TCP/IP協(xié)議棧進(jìn)行參數(shù)優(yōu)化是一種比較常見的加速方式。這些加速方法通常會(huì)通過調(diào)整協(xié)議棧參數(shù)從而使TCP可以維持更大的發(fā)送窗口,并且有選擇性的報(bào)告丟包以防止TCP在一個(gè)往返時(shí)間內(nèi)速率下降過多。一些更高級的機(jī)制直接修改TCP的速率控制機(jī)制,譬如,這些“高速”TCP協(xié)議通常在丟包的時(shí)候速率減少更緩慢,而在無網(wǎng)絡(luò)擁塞的時(shí)候速率增加更快。但是,因?yàn)檫@些協(xié)議并沒有改變TCP根本的基于丟包的速率控制,所以只能在丟包比較小的情況下充分利用帶寬,而在丟包比較嚴(yán)重的情況下帶寬利用率仍然極其低下。非標(biāo)準(zhǔn)的TCP/IP協(xié)議棧通常以獨(dú)立的代理服務(wù)器的形式部署在數(shù)據(jù)中心或廣域網(wǎng)鏈接的前端。
(3)并行TCP數(shù)據(jù)流
另一種對已有TCP/IP協(xié)議棧提供加速的方法是實(shí)施并行TCP數(shù)據(jù)流。顯而易見,當(dāng)單個(gè)TCP數(shù)據(jù)流帶寬利用率很低時(shí),用多個(gè)數(shù)據(jù)流可以使總的帶寬利用率增加。但是由于這種簡單的方法沒有對TCP的速率控制機(jī)制做任何改進(jìn),所以在丟包率嚴(yán)重的情況下(大于10%),其性能仍然不能得到保障。打開多個(gè)數(shù)據(jù)流會(huì)大量耗費(fèi)客戶端和服務(wù)器端的CPU和內(nèi)存資源。更嚴(yán)重的是,由于TCP的帶寬控制是基于丟包的,所以當(dāng)并行TCP獲得更高帶寬利用率的同時(shí),其實(shí)際上已經(jīng)在瓶頸鏈路上造成了大量的丟包和擁塞,以至于其余應(yīng)用無法正常工作或?qū)е缕渌俣燃捌渚徛?/p>
(4)前向差錯(cuò)控制
前向差錯(cuò)控制是(FEC)一種在廣域網(wǎng)傳輸中經(jīng)常被采用的技術(shù)。它的原理是在發(fā)送的原始數(shù)據(jù)之上加傳一定比例的冗余碼,這樣當(dāng)網(wǎng)絡(luò)擁塞造成丟包的情況下可以通過校驗(yàn)碼恢復(fù)部分原始數(shù)據(jù)。嚴(yán)格地說,前向差錯(cuò)控制并不是一種純粹的加速機(jī)制,而只是一種可靠性手段,因其并未對傳輸速率有何改善。前向差錯(cuò)控制只能在一般丟包的情況下改善傳輸?shù)目煽啃?,而其本身在丟包嚴(yán)重的情況下并不能提供完全的可靠性。前向差錯(cuò)控制相關(guān)的編碼/解碼需要耗費(fèi)一定量的CPU資源,在高速網(wǎng)絡(luò)環(huán)境中往往通過特殊硬件實(shí)現(xiàn)。
3.2 基于UDP協(xié)議的流量噴發(fā)
由于傳統(tǒng)TCP傳輸協(xié)議的低效,以及修改TCP協(xié)議本身的復(fù)雜性,近幾年,人們相應(yīng)推出了一些基于UDP的傳輸協(xié)議,比較常見的開源協(xié)議譬如Tsunami和UDT。但這些協(xié)議并沒有高質(zhì)量的設(shè)計(jì),僅僅是采用了基于UDP的流量噴發(fā)。更具體的說,這些協(xié)議通常可以保證傳輸?shù)目煽啃?,而在此之上采用簡單的速率控制來響?yīng)網(wǎng)絡(luò)擁塞。但由于其粗糙的可靠性機(jī)制和速率控制設(shè)計(jì),這些協(xié)議往往傳輸效率很低,并且會(huì)加重網(wǎng)絡(luò)擁塞造成大量丟包,對網(wǎng)絡(luò)中其余的TCP數(shù)據(jù)流有極壞的影響。UDT在廣域網(wǎng)上(延遲100微秒,丟包1%)上的傳輸速率極不穩(wěn)定。由于其過于簡單的速率控制機(jī)制,傳輸速率在很多時(shí)候大大超過了網(wǎng)絡(luò)已有帶寬,從而造成嚴(yán)重?fù)砣8鼑?yán)重的是,由于UDT可靠性設(shè)計(jì)上的缺陷,大量的網(wǎng)絡(luò)帶寬被用來反復(fù)傳遞重傳數(shù)據(jù)。正因?yàn)閁DT本身會(huì)造成大量的擁塞和網(wǎng)絡(luò)丟包,所以在和另一個(gè)TCP數(shù)據(jù)流共享帶寬時(shí),TCP數(shù)據(jù)流的性能大大削弱,傳輸速率幾乎降到0。只有當(dāng)UDT退出時(shí),TCP才能有效利用帶寬。
3.3 Fasp高速傳輸協(xié)議優(yōu)勢
Fasp是一個(gè)新的大型數(shù)據(jù)傳輸協(xié)議,它以一種創(chuàng)新方法在應(yīng)用層實(shí)現(xiàn)可靠性,消除了TCP的低效率丟失、處理錯(cuò)誤以及所導(dǎo)致的傳輸速率不穩(wěn)定波動(dòng)。為了保證100%的可靠性,F(xiàn)asp實(shí)施它自己從理論上已證明的最佳機(jī)制,該機(jī)制可準(zhǔn)確識別并轉(zhuǎn)發(fā)傳輸通道上的真正數(shù)據(jù)包丟失。在數(shù)據(jù)包丟失率為10%的條件下,F(xiàn)asp的帶寬利用率達(dá)到了90%,冗余數(shù)據(jù)負(fù)擔(dān)低于1%。
與強(qiáng)力多流TCP方法相比,F(xiàn)asp?采用單一數(shù)據(jù)流實(shí)現(xiàn)了理想高效率,而且并未耗盡系統(tǒng)資源或充斥網(wǎng)絡(luò)。與簡化的UDP數(shù)據(jù)爆破不同,F(xiàn)asp具有理想的帶寬效率,并且不使冗余數(shù)據(jù)充斥網(wǎng)絡(luò),或拒絕訪問標(biāo)準(zhǔn)TCP應(yīng)用。如表1展示了各種傳輸協(xié)議的優(yōu)勢[3]。
表1 fasp技術(shù)與幾種其他技術(shù)傳輸對比
越是遠(yuǎn)距離、大文件,用Fasp協(xié)議傳輸數(shù)據(jù)越具優(yōu)勢。目前,F(xiàn)asp以其卓越的性能已經(jīng)在生命科學(xué)、媒體和游戲產(chǎn)業(yè)領(lǐng)域廣泛應(yīng)用。IBM已經(jīng)將該技術(shù)之融入到自己的產(chǎn)品中,為推進(jìn)其大數(shù)據(jù)的發(fā)展戰(zhàn)略,通過Fasp技術(shù),客戶能輕松實(shí)現(xiàn)把數(shù)據(jù)復(fù)制到IBM的云服務(wù)中[4]。
但Fasp技術(shù)也存在著應(yīng)用局限性,其傳輸處理對象僅限文件(file)格式,而對于實(shí)時(shí)的流數(shù)據(jù)卻無能為力。所以對于無線電領(lǐng)域監(jiān)測系統(tǒng)的接收機(jī)接收下來的實(shí)時(shí)流數(shù)據(jù)無法直接傳輸,還需要經(jīng)過本地存儲(chǔ)或處理形成固定文件之后,才能傳輸使用。對于涉及類似的流數(shù)據(jù)采集(比如氣象的實(shí)時(shí)衛(wèi)星云圖,物聯(lián)網(wǎng)傳感器傳輸?shù)膶?shí)時(shí)數(shù)據(jù)等)還有待于基于Fasp協(xié)議新的產(chǎn)品。
[1] Ultra High-Speed Wide Area Data Transport: Aspera, Inc. 5900 Hollis Street Suite E Emeryville, CA 94608 USA
[2] Fasp A Critical Technology Comparison: 5900 Hollis Street, Suite E | Emeryville, CA 94608 USA | T: 510.849.2386 | F: 510.868.8392
[3] 藍(lán)訊高速數(shù)據(jù)傳輸解決方案介紹.ChinaCache(北京藍(lán)訊公司)
[4] IBM Aspera Technical Sales Mastery:IBM,2012
Exploration on the Application of Rapid Transmission Technology
Zhao Qianli, Hu Yingying
(The State Radio Monitoring Center, Beijing,100037)
In recent years, radio monitoring data shows the eruption type growth, and means of transmitting data is still using the TCP/IP protocol which born in the seventy's, because of its inherent mechanism problem, TCP can not make full use of network bandwidth, packet loss and delay serious network can not provide reliable and efficient data transmission. And a new Fasp? transmission technology it is obvious advantages.
TCP/IP protocol; data transmission; Fasp? protocol
10.3969/J.ISSN.1672-7274.2015.07.015
TN919.1文獻(xiàn)標(biāo)示碼:A
1672-7274(2015)07-0059-04
趙千里,男,漢族,1982年生,碩士學(xué)位,畢業(yè)于北京郵電大學(xué)通訊軟件專業(yè),現(xiàn)就職于國家無線電監(jiān)測中心信息管理處。
胡瑩瑩,女,漢族,1988年生,碩士學(xué)位,畢業(yè)于北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,現(xiàn)就職于國家無線電監(jiān)測中心信息管理處。