趙淳 梁利平
摘要:針對(duì)片上網(wǎng)絡(luò)的設(shè)計(jì)和優(yōu)化問(wèn)題,提出了一種基于多FPGA的片上網(wǎng)絡(luò)模擬平臺(tái)結(jié)構(gòu),用于加速片上網(wǎng)絡(luò)的功能驗(yàn)證和性能評(píng)估.通過(guò)層次化設(shè)計(jì)和分布式流量管理器等技術(shù),有效地提高了系統(tǒng)的靈活性,加速了片上網(wǎng)絡(luò)的設(shè)計(jì)空間搜索.實(shí)驗(yàn)結(jié)果表明,多FPGA模擬平臺(tái)不僅相對(duì)于傳統(tǒng)的軟件仿真具有500~10 000倍的加速比,與其他片上網(wǎng)絡(luò)模擬平臺(tái)相比也具有明顯的速度優(yōu)勢(shì).
關(guān)鍵詞:現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA);模擬平臺(tái);片上網(wǎng)絡(luò);軟硬件
中圖分類(lèi)號(hào):TN402 文獻(xiàn)標(biāo)識(shí)碼:A
隨著應(yīng)用的發(fā)展和芯片制造水平的提高,片上系統(tǒng)單位面積上計(jì)算核心的數(shù)量呈現(xiàn)出近似指數(shù)的增長(zhǎng)趨勢(shì)[1].進(jìn)入65 nm工藝后,片上連線延時(shí)的比重迅速上升,甚至超過(guò)邏輯延時(shí),這導(dǎo)致基于總線的傳統(tǒng)互連結(jié)構(gòu)無(wú)法滿足復(fù)雜系統(tǒng)芯片的設(shè)計(jì)需求[2].高性能的系統(tǒng)級(jí)芯片強(qiáng)調(diào)良好的邏輯和物理局部性,以降低芯片的全局連線延時(shí).片上網(wǎng)絡(luò)(NetworksonChip)相對(duì)于總線具有良好的伸縮性和能量效率,能夠有效地緩解全局連線在深亞微米工藝條件下所引入的延時(shí)和功耗等問(wèn)題,因而被認(rèn)為是一種適合未來(lái)多核系統(tǒng)芯片大規(guī)模擴(kuò)展的片上互連和通信結(jié)構(gòu)[3].
片上網(wǎng)絡(luò)擁有龐大的設(shè)計(jì)空間,其研發(fā)周期覆蓋拓?fù)浣Y(jié)構(gòu)、路由算法、交換策略、流控制機(jī)制、服務(wù)質(zhì)量、通信協(xié)議和網(wǎng)絡(luò)接口等多個(gè)方面的設(shè)計(jì)和實(shí)現(xiàn)問(wèn)題[4].因此如何快速地驗(yàn)證片上網(wǎng)絡(luò)硬件結(jié)構(gòu)的功能,并準(zhǔn)確地評(píng)估其性能和實(shí)現(xiàn)開(kāi)銷(xiāo)成為設(shè)計(jì)者面臨的嚴(yán)峻挑戰(zhàn).基于FPGA的硬件模擬技術(shù)[5-7]相對(duì)于典型的軟件仿真技術(shù)[8-9]具有明顯的速度優(yōu)勢(shì),尤其適合大規(guī)模片上網(wǎng)絡(luò)設(shè)計(jì)空間的深度搜索.
現(xiàn)有的片上網(wǎng)絡(luò)FPGA模擬平臺(tái)大多采用片上微處理器,配合專(zhuān)用的硬件功能單元,為目標(biāo)網(wǎng)絡(luò)產(chǎn)生模擬環(huán)境中所需要的各種流量模型[5].這種方法實(shí)現(xiàn)復(fù)雜,硬件資源開(kāi)銷(xiāo)較大,且模擬平臺(tái)的性能往往受到流量模型的制約[6],缺乏設(shè)計(jì)和移植的靈活性.針對(duì)這一點(diǎn),本文提出并實(shí)現(xiàn)了一種基于多FPGA的高性能片上網(wǎng)絡(luò)模擬平臺(tái)結(jié)構(gòu),采用了層次化設(shè)計(jì)和軟件可重構(gòu)的分布式流量管理器等技術(shù),降低了系統(tǒng)硬件設(shè)計(jì)的復(fù)雜度,減小了流量管理系統(tǒng)與片上網(wǎng)絡(luò)內(nèi)核的耦合度,大大提高了片上網(wǎng)絡(luò)功能驗(yàn)證和性能評(píng)估的靈活性.
湖南大學(xué)學(xué)報(bào)(自然科學(xué)版)2013年
第6期趙淳等:基于多FPGA的片上網(wǎng)絡(luò)模擬平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)
1 片上網(wǎng)絡(luò)模擬平臺(tái)
片上網(wǎng)絡(luò)模擬平臺(tái)的系統(tǒng)結(jié)構(gòu)框架如圖1所示,包括上位機(jī)和基于多FPGA的原型驗(yàn)證引擎兩大部分,兩者之間可以通過(guò)PCIe,Ethernet等接口實(shí)現(xiàn)高速的數(shù)據(jù)交換.模擬平臺(tái)自頂向下可以劃分為系統(tǒng)軟件層、軟/硬件接口層和硬件結(jié)構(gòu)層3個(gè)抽象層次,為結(jié)構(gòu)設(shè)計(jì)者提供一套完整的多目標(biāo)、自動(dòng)化片上網(wǎng)絡(luò)功能驗(yàn)證和性能評(píng)估環(huán)境.
硬件結(jié)構(gòu)層主要包括多片多種形式互連(普通單端、LVDS和千兆級(jí)高速串行總線等)的大容量FPGA芯片,為系統(tǒng)中的硬件功能單元提供充足的實(shí)現(xiàn)空間.完整的片上網(wǎng)絡(luò)硬件原型包括網(wǎng)絡(luò)內(nèi)核、片間網(wǎng)絡(luò)接口、分布式片上流量管理器和中央控制器等模塊.用戶可以通過(guò)每顆FPGA芯片上實(shí)現(xiàn)的中央控制器,利用系統(tǒng)應(yīng)用層的軟件服務(wù),直接對(duì)流量管理器進(jìn)行讀/寫(xiě)操作,完成對(duì)其功能的軟重構(gòu).軟/硬件接口層由設(shè)備(PCIe、Ethernet)驅(qū)動(dòng)程序構(gòu)成,為上層軟件提供了一組可擴(kuò)展的專(zhuān)用API,將上層的軟件服務(wù)映射為對(duì)底層硬件的訪問(wèn)操作,保證系統(tǒng)軟件層和硬件結(jié)構(gòu)層之間的正確交互.系統(tǒng)應(yīng)用層包括在上位機(jī)運(yùn)行的基于高級(jí)語(yǔ)言(SystemC)的仿真引擎[10]和基于腳本語(yǔ)言的控制引擎.其中仿真引擎用于產(chǎn)生下載到流量管理器的模型信息,以及分析處理由流量管理器讀回的統(tǒng)計(jì)信息;控制引擎則用于控制整個(gè)模擬流程,協(xié)調(diào)和管理各部分系統(tǒng)應(yīng)用軟件功能,以及發(fā)起和終止用戶對(duì)底層硬件的訪問(wèn)操作等.
2流量管理器軟/硬件實(shí)現(xiàn)
在片上網(wǎng)絡(luò)的功能驗(yàn)證和性能評(píng)估過(guò)程中,流量的產(chǎn)生、收集和分析處理一直都是設(shè)計(jì)者所面臨的最棘手的問(wèn)題.如何設(shè)計(jì)結(jié)構(gòu)簡(jiǎn)單,靈活度高的片上流量管理器,以實(shí)現(xiàn)對(duì)片上網(wǎng)絡(luò)全面的功能覆蓋和大范圍的設(shè)計(jì)空間搜索,成為整個(gè)模擬平臺(tái)的設(shè)計(jì)重點(diǎn)和難點(diǎn).為了提高平臺(tái)的效率和靈活性,避免網(wǎng)表文件的反復(fù)生成和下載,本文設(shè)計(jì)了軟件可重構(gòu)的分布式片上流量管理器,通過(guò)軟件配置和控制指令解析的方式為片上網(wǎng)絡(luò)提供豐富的流量模型.
2.1流量管理器和中央控制器
流量管理器作為片上網(wǎng)絡(luò)的終端功能單元,模擬實(shí)際系統(tǒng)中的計(jì)算資源節(jié)點(diǎn),按照一定的時(shí)間和空間分布規(guī)律產(chǎn)生并向網(wǎng)絡(luò)注入數(shù)據(jù),同時(shí)接收并校驗(yàn)由其他終端發(fā)往本地的數(shù)據(jù).流量管理器包括兩組單向的總線接口.其中用戶接口用于連接片上網(wǎng)絡(luò)中央控制器,為用戶提供“控制指令”的下載和“狀態(tài)數(shù)據(jù)”回傳服務(wù),接口滿足簡(jiǎn)單的存儲(chǔ)器讀寫(xiě)規(guī)范.系統(tǒng)接口用于連接路由節(jié)點(diǎn),接口滿足片上網(wǎng)絡(luò)物理鏈路的通信規(guī)范.每個(gè)路由節(jié)點(diǎn)可以根據(jù)其空閑物理鏈路的數(shù)量連接一個(gè)或多個(gè)流量管理器.流量管理器內(nèi)部用于存儲(chǔ)控制指令和狀態(tài)數(shù)據(jù)的存儲(chǔ)空間被線性地映射到64位地址所覆蓋的空間范圍內(nèi),允許系統(tǒng)軟件層以直接映射的方式對(duì)其進(jìn)行訪問(wèn).整個(gè)硬件系統(tǒng)結(jié)構(gòu)如圖2所示.
流量管理器發(fā)送和接收通道的結(jié)構(gòu)如圖3所示,其結(jié)構(gòu)劃分為發(fā)送通道和接收通道,分別處理網(wǎng)絡(luò)通信事務(wù)的發(fā)送和接收.其中發(fā)送通道由一塊用戶只寫(xiě)、網(wǎng)絡(luò)只讀的指令存儲(chǔ)器和一個(gè)發(fā)送控制狀態(tài)機(jī)構(gòu)成.指令存儲(chǔ)器的每一項(xiàng)存儲(chǔ)一條流量控制指令,對(duì)應(yīng)一項(xiàng)網(wǎng)絡(luò)發(fā)送事務(wù),其內(nèi)容由目標(biāo)地址、事務(wù)類(lèi)型、負(fù)載長(zhǎng)度、事務(wù)編號(hào)、發(fā)送時(shí)間等字段構(gòu)成.發(fā)送控制狀態(tài)機(jī)每次從指令存儲(chǔ)器中讀出一條流量控制指令,對(duì)其進(jìn)行解析并完成一個(gè)完整網(wǎng)絡(luò)數(shù)據(jù)包的重建,同時(shí)在其結(jié)尾添加校驗(yàn)信息,在流控機(jī)制的約束下,將數(shù)據(jù)包有序地注入到片上網(wǎng)絡(luò)中.接收通道由一塊用戶只讀、網(wǎng)絡(luò)只寫(xiě)的數(shù)據(jù)存儲(chǔ)器和一個(gè)接收控制狀態(tài)機(jī)構(gòu)成.當(dāng)流量管理器接收到一個(gè)來(lái)自其他終端的網(wǎng)絡(luò)數(shù)據(jù)包時(shí),接收控制狀態(tài)機(jī)首先對(duì)整個(gè)數(shù)據(jù)包的內(nèi)容進(jìn)行解析和校驗(yàn),從中還原出其基本控制信息如源地址、事務(wù)類(lèi)型、負(fù)載長(zhǎng)度和事務(wù)編號(hào)等,并記錄下其到達(dá)時(shí)間,然后將這些信息合并為一項(xiàng)狀態(tài)數(shù)據(jù)存儲(chǔ)到接收通道內(nèi)的數(shù)據(jù)存儲(chǔ)器中,供系統(tǒng)軟件層讀取.
中央控制器為流量管理器提供通用的總線訪問(wèn)接口,用于對(duì)其內(nèi)部存儲(chǔ)資源的讀/寫(xiě)訪問(wèn),從而實(shí)現(xiàn)系統(tǒng)軟件層對(duì)底層硬件的控制和觀測(cè).中央控制器本質(zhì)上是一個(gè)總線譯碼單元,通過(guò)對(duì)輸入地址總線的三級(jí)譯碼選擇其所要訪問(wèn)的片上存儲(chǔ)空間.相對(duì)于其他平臺(tái)實(shí)現(xiàn)中的微處理器[5-6],中央控制器的資源開(kāi)銷(xiāo)只有不足其1/10,不僅功能簡(jiǎn)單易于實(shí)現(xiàn),同時(shí)減小了硬件的開(kāi)銷(xiāo).
2.2系統(tǒng)軟件服務(wù)
模擬平臺(tái)的系統(tǒng)軟件層為用戶提供了大量抽象的參數(shù)配置和控制接口,大大提高了系統(tǒng)的效率和靈活性,避免了硬件代碼的反復(fù)修改,使平臺(tái)可以一次性地完成對(duì)目標(biāo)平臺(tái)的驗(yàn)證和評(píng)估.系統(tǒng)軟件層中的仿真引擎可以自動(dòng)地為系統(tǒng)中每個(gè)流量管理器產(chǎn)生一定約束條件下的流量控制指令序列,并通過(guò)控制引擎將其下載到相應(yīng)的指令存儲(chǔ)器中;同時(shí),控制引擎也可以將保存在流量管理器內(nèi)部的狀態(tài)數(shù)據(jù)讀回給仿真引擎,供其快速地考察片上網(wǎng)絡(luò)在不同流量模式下的性能指標(biāo).
仿真引擎采用SystemC事務(wù)級(jí)建模(TLM)的方法實(shí)現(xiàn),其核心是一套參數(shù)化的片上網(wǎng)絡(luò)軟件仿真程序,同時(shí)具備周期精確的仿真粒度和較快的仿真速度等特點(diǎn).模擬平臺(tái)利用仿真引擎構(gòu)造一個(gè)和硬件平臺(tái)結(jié)構(gòu)相同的軟件仿真框架,但這個(gè)框架只為每個(gè)流量管理器產(chǎn)生單獨(dú)的網(wǎng)絡(luò)通信事務(wù)隊(duì)列,并不進(jìn)行實(shí)際的軟件仿真.通信事務(wù)隊(duì)列的數(shù)據(jù)結(jié)構(gòu)與流量管理器中指令存儲(chǔ)器的存儲(chǔ)結(jié)構(gòu)一致,以二進(jìn)制文件的形式保存在上位機(jī)的文件系統(tǒng)中,由控制引擎將其下載到相應(yīng)的流量管理器中.用戶可以調(diào)整流量模型參數(shù),不斷地產(chǎn)生新的二進(jìn)制文件,從而改變片上網(wǎng)絡(luò)流量的通信特點(diǎn),以獲得全面的性能統(tǒng)計(jì)信息.仿真引擎內(nèi)嵌了性能分析模塊,可以處理從流量管理器中讀回的狀態(tài)數(shù)據(jù)文件.性能分析模塊根據(jù)狀態(tài)數(shù)據(jù)文件和先前產(chǎn)生的控制指令序列文件,精確匹配每一組通信流量,計(jì)算其延時(shí),從而得到整個(gè)網(wǎng)絡(luò)的平均延時(shí)和吞吐性能.
控制引擎采用腳本語(yǔ)言實(shí)現(xiàn),主要用于模擬流程中各軟件模塊的控制.模擬流程中的每一步操作都由控制引擎直接發(fā)起,通過(guò)調(diào)用相應(yīng)的應(yīng)用程序驅(qū)動(dòng)整個(gè)流程向下進(jìn)行.直接受控制引擎調(diào)度的程序包括FPGA綜合和后端實(shí)現(xiàn)工具、仿真引擎和軟/硬件接口API等.
2.3基于流量管理的系統(tǒng)模擬流程
片上網(wǎng)絡(luò)模擬流程分為結(jié)構(gòu)定義和設(shè)計(jì)空間搜索2個(gè)階段,共7個(gè)步驟,由系統(tǒng)軟件層中的控制引擎進(jìn)行集中控制和調(diào)度.控制引擎對(duì)已有的可執(zhí)行程序進(jìn)行高效地集成和封裝,使整個(gè)模擬流程無(wú)須用戶干預(yù),自動(dòng)地完成流程中的所有步驟.
片上網(wǎng)絡(luò)的模擬流程如圖4所示.其中第1步和第2步為結(jié)構(gòu)定義階段.在這個(gè)階段里,控制引擎首先根據(jù)用戶設(shè)定的結(jié)構(gòu)參數(shù),從結(jié)構(gòu)單元庫(kù)中實(shí)例化基本結(jié)構(gòu)單元,快速構(gòu)建目標(biāo)片上網(wǎng)絡(luò)平臺(tái),并調(diào)用FPGA開(kāi)發(fā)工具,生成可直接下載的FPGA網(wǎng)表,通過(guò)軟/硬件接口服務(wù)程序,將網(wǎng)表下載到驗(yàn)證板的FPGA芯片上.第3步到第7步為設(shè)計(jì)空間搜索階段,這一階段往往要進(jìn)行多次循環(huán)迭代,以考察片上網(wǎng)絡(luò)在各種流量模型下的通信狀況和性能指標(biāo).在一次迭代過(guò)程里,控制引擎首先根據(jù)用戶設(shè)定的流量模型參數(shù),調(diào)用仿真引擎,為每個(gè)流量管理器產(chǎn)生流量控制指令文件,隨后通過(guò)軟/硬件接口服務(wù)程序,將其下載到對(duì)應(yīng)流量管理器的指令存儲(chǔ)器中.當(dāng)全部文件下載結(jié)束后,控制引擎向底層硬件發(fā)送一個(gè)啟動(dòng)命令,片上網(wǎng)絡(luò)進(jìn)入正常工作狀態(tài).系統(tǒng)中全部的流量到達(dá)其目標(biāo)后,控制引擎向底層硬件發(fā)送一個(gè)暫停命令,并調(diào)用軟/硬件接口服務(wù)程序,將每個(gè)流量控制器數(shù)據(jù)存儲(chǔ)器中的狀態(tài)數(shù)據(jù)讀回上位機(jī),并保存在文件系統(tǒng)中.最后,控制引擎調(diào)用仿真引擎,對(duì)接收到的數(shù)據(jù)文件進(jìn)行分析處理,得到本次迭代的平均通信延時(shí)和吞吐率等性能參數(shù).
3實(shí)驗(yàn)結(jié)果分析
本文提出的片上網(wǎng)絡(luò)模擬平臺(tái)采用通用PC和DINI公司的DNDualV6PCIe4原型驗(yàn)證引擎共同構(gòu)建實(shí)現(xiàn).其中,驗(yàn)證引擎既可以通過(guò)PCIe接口插放在PC機(jī)的主板上,也可以在作為Ethernet終端供局域網(wǎng)內(nèi)的其他PC進(jìn)行訪問(wèn).模擬過(guò)程中的全部軟硬件交互均通過(guò)PCIe或Ethernet實(shí)現(xiàn).引擎上包括兩個(gè)大容量的FPGA芯片(Xilinx XC6VSX475T)并通過(guò)千兆級(jí)高速串行總線互連,為片上網(wǎng)絡(luò)提供基本的硬件實(shí)現(xiàn)空間.
實(shí)驗(yàn)中的路由節(jié)點(diǎn)模塊采用了六端口蟲(chóng)孔交換虛通道路由器,二維Mesh拓?fù)浣Y(jié)構(gòu)下可以連接2個(gè)流量管理器.每個(gè)輸入端口包括4條虛通道,每條虛通道的深度為8個(gè)微片(flit),采用兩級(jí)輪轉(zhuǎn)優(yōu)先的仲裁機(jī)制進(jìn)行虛通道分配和交換分配.片間網(wǎng)絡(luò)接口支持RapidIO高速串行通信,飽和通信帶寬可達(dá)10 Gbps.每個(gè)FPGA芯片上實(shí)現(xiàn)一個(gè)4×4的Mesh片上網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)核的時(shí)鐘頻率可以達(dá)到100 MHz.
文獻(xiàn)[6]提出的片上網(wǎng)絡(luò)FPGA模擬平臺(tái)AcENoCs在模擬速度上受到目標(biāo)網(wǎng)絡(luò)的規(guī)模和流量注入率的制約,使其在設(shè)計(jì)空間搜索的深度和廣度上具有一定的局限性.本文所提出的模擬平臺(tái)不受流量注入模型的約束,且受網(wǎng)絡(luò)規(guī)模的影響很小,在6×6的Mesh網(wǎng)絡(luò)下主頻仍可達(dá)到80 MHz,這使模擬平臺(tái)的工作效率得到顯著提高.圖5為2種平臺(tái)在模擬速度上的對(duì)比結(jié)果,均采用2×2的Mesh網(wǎng)絡(luò)實(shí)現(xiàn).由圖5可知,本文實(shí)現(xiàn)的平臺(tái)結(jié)構(gòu)工作在較低主頻條件下,在性能上仍然具有較大優(yōu)勢(shì).在目標(biāo)網(wǎng)絡(luò)規(guī)模增大和流量注入率升高時(shí),這種優(yōu)勢(shì)體現(xiàn)得更加明顯.
注入率/10-2
表1反映了目標(biāo)片上網(wǎng)絡(luò)在相同配置條件下,分別使用模擬平臺(tái),高級(jí)語(yǔ)言仿真器和RTL仿真進(jìn)行設(shè)計(jì)空間搜索的時(shí)間開(kāi)銷(xiāo).從表中可以看出,模擬平臺(tái)與基于SystemC語(yǔ)言的仿真器相比,速度提高了近500倍,與基于Verilog的RTL仿真相比,速度提高了10 000倍以上.
4×4 Mesh網(wǎng)絡(luò);10萬(wàn)個(gè)數(shù)據(jù)包;負(fù)載長(zhǎng)度8字節(jié);歸一化注入率0.3
圖6為片上網(wǎng)絡(luò)各部分硬件資源所占的比例.從圖中可以看出,片上網(wǎng)絡(luò)內(nèi)核占據(jù)了硬件系統(tǒng)的絕大部分資源開(kāi)銷(xiāo),流量管理器,中央控制器等輔助功能模塊的硬件開(kāi)銷(xiāo)則相對(duì)較小,這符合模擬平臺(tái)的設(shè)計(jì)原則,以較小的實(shí)現(xiàn)代價(jià)換取了系統(tǒng)的靈活性,同時(shí)最大限度地提高了硬件系統(tǒng)的可控制性和可觀測(cè)性.
圖7為uniform流量下,不同負(fù)載長(zhǎng)度的流量對(duì)片上網(wǎng)絡(luò)平均延時(shí)性能的影響.當(dāng)流量的有效負(fù)載長(zhǎng)度增大時(shí),網(wǎng)絡(luò)的飽和注入率略有降低,網(wǎng)絡(luò)負(fù)載的平均延時(shí)顯著增大.這是由于隨著負(fù)載注入率的升高,較長(zhǎng)負(fù)載的數(shù)據(jù)包對(duì)網(wǎng)絡(luò)的阻塞更加敏感,從而導(dǎo)致其排隊(duì)延時(shí)的急劇增大,此外,長(zhǎng)負(fù)載本身的串行延時(shí)也是導(dǎo)致平均延時(shí)增大的因素之一.
注入率
4 結(jié)論
本文提出了一種基于多FPGA的高性能片上網(wǎng)絡(luò)模擬平臺(tái),用于解決大規(guī)模片上網(wǎng)絡(luò)設(shè)計(jì)空間搜索的效率問(wèn)題.模擬平臺(tái)通過(guò)對(duì)分布式片上流量管理器的軟件重構(gòu)為目標(biāo)網(wǎng)絡(luò)提供豐富的流量模型,避免硬件代碼的反復(fù)修改和下載,大大縮短了驗(yàn)證和調(diào)試周期.該平臺(tái)不依賴于網(wǎng)絡(luò)的規(guī)模和具體實(shí)現(xiàn),可以完成對(duì)多種結(jié)構(gòu)參數(shù)下片上網(wǎng)絡(luò)的功能
驗(yàn)證和性能評(píng)估.實(shí)驗(yàn)結(jié)果表明,該平臺(tái)硬件開(kāi)銷(xiāo)小,靈活性高,可以快速、準(zhǔn)確地給出網(wǎng)絡(luò)的性能指標(biāo).與同類(lèi)型的FPGA模擬平臺(tái)相比,該平臺(tái)不受流量模型的制約,大大提高了整個(gè)系統(tǒng)的模擬性能.與基于軟件的仿真相比,該平臺(tái)具有500~10 000倍的加速,能夠高效率地實(shí)現(xiàn)片上網(wǎng)絡(luò)設(shè)計(jì)空間的深度搜索.
參考文獻(xiàn)
[1]GEER D. Chip makers turn to multicore processors[J]. IEEE Computer, 2005, 38(5): 11-13.
[2]PULLINI A, ANGIOLINI F, MURALI S, et al. Bringing NoCs to 65 nm[J]. IEEE Micro, 2007, 27(5): 75-85.
[3]DALLY W J, TOWLES B. Route packets, not wires: onchip interconnection networks[C]//Design Automation Conference. Las Vegas: IEEE Press, 2001: 684-689.
[4]MARCULESCU R, OGRAS U Y, PEH L S, et al. Outstanding research problems in NoC design: system, microarchitecture, and circuit perspectives[J]. IEEE Transactions on ComputerAided Design of Integrated Circuits and Systems, 2009, 28(1): 3-21.
[5]GENKO N, ATIENZA D, DEMICHELI G, et al. NoC emulation: a tool and design flow for MPSoC[J]. IEEE Circuits and Systems Magazine, 2007, 7(4): 42-51.
[6]LOTLIKAR S, PAI V, GRATZ P V. AcENoCs: a configurable HW/SW platform for FPGA accelerated NoC emulation[C]//24th International Conference on VLSI Design. Madras: IEEE Press, 2011: 147-152.
[7]WANG Danyao , JERGER N E, STEFFAN J G. DART: a programmable architecture for NoC simulation on FPGAs[C]//Fifth IEEE/ACM International Symposium on Networks on Chip. Pittsburgh: IEEE Press, 2011: 145-152.
[8]REN Pengju , LIS M, MYONG H C, et al. HORNET: a cyclelevel multicore simulator[J]. IEEE Transactions on ComputerAided Design of Integrated Circuits and Systems, 2012, 31(6): 890-903.
[9]BENITZHAK Y, ZAHAVI E, CIDON I, et al. NoCs simulation framework for OMNeT++[C]//Fifth IEEE/ACM International Symposium on Networks on Chip. Pittsburgh: IEEE Press, 2011: 265-266.
[10]李燁挺, 梁利平. 一種基于SystemC的片上網(wǎng)絡(luò)建模與仿真方法[J]. 微電子學(xué)與計(jì)算機(jī), 2010, 27(3): 78-82.
LI Yeting, LIANG Liping. An NoC modeling and simulating method with systemC[J]. Microelectronics & Computer, 2010, 27(3): 78-82.(In Chinese)