• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      CC-NUMA架構(gòu)下4路龍芯3B服務(wù)器設(shè)計(jì)與實(shí)現(xiàn)*

      2018-02-26 10:12:56
      關(guān)鍵詞:龍芯以太網(wǎng)內(nèi)存

      張 鵬

      (江蘇自動化研究所,江蘇連云港222061)

      1 引言

      從信息安全角度出發(fā),自主可控的服務(wù)器在現(xiàn)代電子信息系統(tǒng)中起到越來越重要的作用。由于“wintel”平臺核心技術(shù)極為封閉,在硬件開發(fā)、程序設(shè)計(jì)、操作流程、代碼測試等方面均存在“后門”隱患。為擺脫電子信息系統(tǒng)對國外產(chǎn)品的依賴,實(shí)現(xiàn)電子信息系統(tǒng)核心技術(shù)國產(chǎn)化勢在必行。

      目前,較成熟的國產(chǎn)處理器產(chǎn)品主要有龍芯、飛騰、申威三大品牌系列,相比成熟的x86架構(gòu)處理器,普遍存在計(jì)算性能不夠高、產(chǎn)業(yè)生態(tài)不夠健全等現(xiàn)狀。本文重點(diǎn)針對龍芯3B處理器平臺提出一種服務(wù)器設(shè)計(jì)方法,通過4路處理器提升并行計(jì)算能力,使用TCP協(xié)議卸載引擎TOE(TCP Offload Engine)技術(shù)實(shí)現(xiàn)10G以太網(wǎng)通信能力并釋放對處理器資源的占用,同時(shí)盡可能選用國產(chǎn)關(guān)鍵芯片,提高服務(wù)器的自主可控能力。

      2 基于龍芯3B的服務(wù)器架構(gòu)分析

      2.1 龍芯3B3000處理器架構(gòu)

      龍芯3B3000 處理器[1,2]基于可伸縮的多核互連架構(gòu)設(shè)計(jì),在單個芯片上集成多個高性能處理器核以及大量的二級Cache,還通過高速I/O接口實(shí)現(xiàn)多芯片的互連以組成更大規(guī)模的系統(tǒng)。龍芯3B3000是一個配置為單節(jié)點(diǎn)4核的處理器,采用28 nm工藝制造,最高工作主頻為1.5 GHz。如圖1所示,處理器集成4個64位的四發(fā)射超標(biāo)量GS464e高性能處理器核,片內(nèi)集成8 MB的分體共享三級Cache(由4個體模塊組成,每個體模塊容量為2 MB),通過目錄協(xié)議維護(hù)多核及I/O DMA訪問的Cache一致性。龍芯3B3000處理器集成兩個16位1.6 GHz的 HyperTransport控制器(以下簡稱HT),每個16位的HT端口拆分成兩個8路的HT端口使用。

      2.2CC-NUMA技術(shù)原理

      NUMA(Non Uniform Memory Access)即非統(tǒng)一內(nèi)存訪問技術(shù)[3],它是由若干通過高速專用網(wǎng)絡(luò)連接起來的獨(dú)立節(jié)點(diǎn)構(gòu)成的系統(tǒng),各個節(jié)點(diǎn)可以是單個的CPU或是SMP系統(tǒng)。NUMA模式采用了分布式存儲器模式,所有節(jié)點(diǎn)中的處理器都可以訪問系統(tǒng)的全部物理存儲器。每個處理器訪問本地存儲器和訪問遠(yuǎn)程節(jié)點(diǎn)存儲器所需的時(shí)間是不一致的,因此稱為非一致訪問分布共享存儲技術(shù)。NUMA同時(shí)具備了MPP良好的擴(kuò)展性以及SMP編程模式簡潔、易于管理的特點(diǎn)。

      CC-NUMA(Cache Coherent NUMA)是NUMA的一種類型,即高速緩存相關(guān)的非一致性內(nèi)存訪問。在CC-NUMA系統(tǒng)中,分布式內(nèi)存相連接形成單一內(nèi)存,內(nèi)存之間沒有頁面復(fù)制或數(shù)據(jù)復(fù)制,也沒有軟件消息傳送。CC-NUMA只有一個內(nèi)存映象,存儲部件利用銅纜和某些智能硬件進(jìn)行物理連接。Cache Coherent是指不需要軟件來保持多個數(shù)據(jù)拷貝的一致性,也不需要軟件來實(shí)現(xiàn)操作系統(tǒng)與應(yīng)用系統(tǒng)的數(shù)據(jù)傳輸,如同在SMP模式中一樣,單一操作系統(tǒng)和多個處理器完全在硬件級實(shí)現(xiàn)管理。

      2.3 TOE 技術(shù)原理

      隨著信息系統(tǒng)中網(wǎng)絡(luò)通信帶寬的不斷增加,處理器資源被大量消耗,國產(chǎn)處理器尤其容易成為集群系統(tǒng)中的主要瓶頸,例如在10G以太網(wǎng)的應(yīng)用場景中,處理器往往需要滿負(fù)荷工作來應(yīng)對計(jì)算和通信任務(wù)。為解決上述問題,需要將處理器承擔(dān)的網(wǎng)絡(luò)協(xié)議棧處理任務(wù)剝離,以減輕處理器負(fù)荷。

      TOE即TCP協(xié)議卸載引擎技術(shù),將對TCP/IP協(xié)議進(jìn)行處理的功能交給網(wǎng)卡上的硬件來完成,實(shí)現(xiàn)協(xié)議卸載功能,處理器只需要承擔(dān)TCP/IP相關(guān)控制信息和維持TCP連接狀態(tài)信息,減輕CPU校驗(yàn)和計(jì)算的負(fù)載。TOE技術(shù)可以從中斷處理、上下文切換、網(wǎng)絡(luò)數(shù)據(jù)拷貝和進(jìn)行TCP/IP協(xié)議處理這幾方面來對處理器進(jìn)行減負(fù),能夠滿足系統(tǒng)應(yīng)用對高吞吐量、低延遲、高帶寬和低開銷的要求。

      3 基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)

      基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)主要包括三個部分:一是CC-NUMA架構(gòu)的4路處理器拓?fù)潢P(guān)系,二是對外功能接口的擴(kuò)展,三是TOE網(wǎng)絡(luò)接口設(shè)計(jì)。

      3.1 處理器拓?fù)浞绞?/h3>

      4路處理器之間主要通過HT高速總線互連,每個處理器的2路16位HT總線均拆分為4路8位 HT 總線,通過 HT0-L、HT0-H、HT1-L、HT1-H 分別與其余3個處理器連接,拓?fù)潢P(guān)系如圖2所示。每個處理器通過兩個內(nèi)存控制器擴(kuò)展雙通道內(nèi)存,本地內(nèi)存容量4 GB,整板內(nèi)存容量16 GB。

      3.2 功能接口擴(kuò)展

      CPU0的低8位HT1-L總線與龍芯7A橋片[4,5]互連,用于擴(kuò)展系統(tǒng)通用接口,包括 PCIE 總線、SATA、USB、LAN、VGA、UART 等常規(guī)接口[6]。其中,龍芯7A橋片通過1路PCIE×8總線連接到T5萬兆網(wǎng)卡,擴(kuò)展2路SFP+萬兆以太網(wǎng)絡(luò)接口;通過1路PCIE×1總線連接到AST2500板級管理芯片,擴(kuò)展1路管理網(wǎng)絡(luò)接口和1路管理串口。

      3.3 TOE網(wǎng)絡(luò)接口設(shè)計(jì)

      服務(wù)器對外通信的高速接口通常包括以太網(wǎng)、FC、Infiniband等,其中 FC和Infiniband主要在鏈路層實(shí)現(xiàn),在應(yīng)用層需要大量協(xié)議開發(fā)工作;以太網(wǎng)4層協(xié)議相對完善,通用性較強(qiáng),因此龍芯3B服務(wù)器選用10G以太網(wǎng)作為服務(wù)器對外通信接口。

      T5作為獨(dú)立的ASIC能夠提供多種以太網(wǎng)典型應(yīng)用,包括網(wǎng)卡、TCP/IP卸載,iSCSI等協(xié)議功能。T5以太網(wǎng)端口可以直接驅(qū)動各種各樣的信號標(biāo)準(zhǔn),比如 40Gbase-kr4、40Gbase-cr4、10Gbase-cr、10Gbase-kr、SFP+ 、1Gbase-kx、SGMII 10Gbase-T 和1Gbase-T[7]。T5在任何時(shí)候都有四個以太網(wǎng)端口可用。對于這些端口,T5集成了兩個40G CGMAC、四個XGMAC(10GbE)和四個XGMII(1GbE)協(xié)議MAC。這些MAC接口根據(jù)標(biāo)準(zhǔn)和電路板要求被復(fù)用到各種以太網(wǎng)發(fā)送和接收對中。每個發(fā)送/接收對能夠被編程為任何支持的接口標(biāo)準(zhǔn)。TOE網(wǎng)絡(luò)接口設(shè)計(jì)的難點(diǎn)一方面在于龍芯3B處理器、龍芯7A橋片、T5網(wǎng)絡(luò)芯片等主要芯片硬件鏈路的正確設(shè)計(jì);另一方面在于驅(qū)動層實(shí)現(xiàn)TCP/IP卸載功能并進(jìn)行優(yōu)化。

      4 測試與分析

      服務(wù)器的各項(xiàng)測試與分析在中標(biāo)麒麟服務(wù)器版操作系統(tǒng)環(huán)境下開展,主要包括對處理器的單核計(jì)算性能測試、整體計(jì)算性能測試、網(wǎng)絡(luò)通信能力測試三個部分。

      4.1 單核計(jì)算性能測試

      SPEC CPU2006是一款測試CPU處理性能的工具,包括 CINT2006和 CFP2006兩個子項(xiàng)目。CINT2006用于測量和對比整數(shù)性能,包括C編譯程序、量子計(jì)算機(jī)仿真、下象棋程序等12種整型基準(zhǔn)程序;CFP2006用于測量和對比浮點(diǎn)性能,包括有限元模型結(jié)構(gòu)化網(wǎng)格法、分子動力學(xué)質(zhì)點(diǎn)法、流體動力學(xué)稀疏線性代數(shù)法等17種浮點(diǎn)型基準(zhǔn)程序。

      Table 1 Computing performance test results of SPEC CPU2006 single-core computers表1 SPEC CPU2006單核計(jì)算性能測試結(jié)果

      為簡化測試結(jié)果,SPEC將被測計(jì)算機(jī)每個基準(zhǔn)程序的執(zhí)行時(shí)間除一個參考處理器的執(zhí)行時(shí)間,結(jié)果稱為SPECratio。CINT2006或 CFP2006的綜合測試結(jié)果是取每個基準(zhǔn)程序SPECratio的幾何平均值,如表1所示。測試結(jié)果數(shù)值越高,表明計(jì)算性能越強(qiáng)。

      4.2 整體計(jì)算性能測試

      Unixbench是一款用于測試類Unix系統(tǒng)綜合性能的工具,將測試結(jié)果與基準(zhǔn)系統(tǒng)的分?jǐn)?shù)比較,產(chǎn)生一個指數(shù)值,綜合一系列的指數(shù)值得出系統(tǒng)整體指標(biāo)。當(dāng)系統(tǒng)為多CPU核系統(tǒng)時(shí),默認(rèn)的處理方式是運(yùn)行兩次測試:一次是運(yùn)行每個測試程序的1個副本,另一次是運(yùn)行每個測試程序的N個副本,N表示CPU的核心數(shù)。

      Table 2 Computing performance test results of Unixbench表2 Unixbench計(jì)算性能測試結(jié)果

      通過對比表2中4路龍芯3B服務(wù)器與單路龍芯3B開發(fā)板的計(jì)算性能測試結(jié)果,可以計(jì)算出CC-NUMA架構(gòu)4路龍芯3B服務(wù)器的計(jì)算性能是單路龍芯3B處理器的3.125倍,CPU之間的協(xié)同計(jì)算帶來了一定的性能開銷。

      同時(shí),選擇了一款基于2路 Intel至強(qiáng) E5-2628L處理器(8核心,主頻1.8 GHz)的商用主流服務(wù)器進(jìn)行對比測試,測試結(jié)果表明,在核心總數(shù)均為16的情況下,4路龍芯3B3000服務(wù)器的計(jì)算性能已接近Intel同檔服務(wù)器產(chǎn)品水平。

      4.3 網(wǎng)絡(luò)通信能力測試

      Netperf是一種網(wǎng)絡(luò)性能的測量工具,主要針對基于TCP或UDP的傳輸。Netperf根據(jù)應(yīng)用的不同,可以進(jìn)行不同模式的網(wǎng)絡(luò)性能測試,即批量數(shù)據(jù)傳輸(bulk data transfer)模式和請求/應(yīng)答(request/reponse)模式。Netperf測試結(jié)果所反映的是一個系統(tǒng)能夠以多快的速度向另外一個系統(tǒng)發(fā)送數(shù)據(jù),以及另外一個系統(tǒng)能夠以多快的速度接收數(shù)據(jù)。

      Table 3 Network communication capability test results and CPU utilization表3 網(wǎng)絡(luò)通信能力測試結(jié)果與CPU占用率

      通過對比表3中的測試數(shù)據(jù)可以發(fā)現(xiàn),使用具有TOE技術(shù)的網(wǎng)絡(luò)芯片,能夠在占用很少CPU資源的情況下達(dá)到接近10 Gbit/s的傳輸帶寬,釋放了絕大部分CPU資源用于提高并行計(jì)算能力,搭配國產(chǎn)處理器使用能夠大幅提高服務(wù)器綜合性能。

      5 結(jié)束語

      本文基于CC-NUMA并行處理架構(gòu)設(shè)計(jì)了4路龍芯3B3000高性能服務(wù)器核心模塊,針對國產(chǎn)處理器擴(kuò)展10G以太網(wǎng)接口大幅消耗處理器資源的問題,通過使用TOE芯片提高了網(wǎng)絡(luò)響應(yīng)效率,同時(shí)大幅降低10G以太網(wǎng)接口對處理器資源的占用消耗,有效提高了服務(wù)器的綜合性能。測試和分析結(jié)果表明,該服務(wù)器在選用國產(chǎn)關(guān)鍵芯片的基礎(chǔ)上,同時(shí)具備了高效的并行計(jì)算能力和10G以太網(wǎng)通信能力,國產(chǎn)元器件種類占比和數(shù)量占比均可達(dá)95%以上,有效提高了服務(wù)器自主可控能力。

      猜你喜歡
      龍芯以太網(wǎng)內(nèi)存
      基于國產(chǎn)化龍芯的動環(huán)數(shù)據(jù)采集系統(tǒng)
      基于1500以太網(wǎng)養(yǎng)豬場的智能飼喂控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      “春夏秋冬”的內(nèi)存
      談實(shí)時(shí)以太網(wǎng)EtherCAT技術(shù)在變電站自動化中的應(yīng)用
      電子制作(2017年24期)2017-02-02 07:14:44
      “龍芯之父”胡偉武
      龍芯發(fā)布新一代處理器產(chǎn)品
      一種90W高功率以太網(wǎng)供電系統(tǒng)的設(shè)計(jì)
      淺談EPON與工業(yè)以太網(wǎng)在貴遵高速公路中的應(yīng)用
      基于內(nèi)存的地理信息訪問技術(shù)
      “龍芯1號”:電腦中國“芯”
      卢龙县| 定西市| 民权县| 凌源市| 获嘉县| 惠东县| 车致| 梓潼县| 肃宁县| 高邑县| 定陶县| 平武县| 崇礼县| 泽州县| 若羌县| 苍山县| 神农架林区| 鲁山县| 清水河县| 如东县| 河源市| 和田县| 攀枝花市| 清涧县| 百色市| 绥化市| 霸州市| 鲁山县| 抚顺市| 遂平县| 江西省| 双鸭山市| 宣威市| 沅陵县| 南乐县| 张家港市| 临城县| 阳新县| 湘潭县| 沂源县| 板桥市|