• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于“嵩山”超級(jí)計(jì)算機(jī)的UCX 庫分析與優(yōu)化

    2023-12-16 10:30:24李俊宏
    計(jì)算機(jī)工程 2023年12期
    關(guān)鍵詞:共享內(nèi)存嵩山網(wǎng)卡

    劉 康,萬 偉,劉 波,李俊宏,李 柱

    (鄭州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,鄭州 450001)

    0 概述

    “嵩山”超級(jí)計(jì)算機(jī)部署于國家超級(jí)計(jì)算鄭州中心,是我國國產(chǎn)自研的新一代超高性能計(jì)算平臺(tái),它采用32 核CPU+國產(chǎn)加速器的異構(gòu)計(jì)算架構(gòu)、InfiniBand(直譯為“無限帶寬”技術(shù),縮寫為IB)[1-2]超高速網(wǎng)絡(luò)以及高性能分布式并行存儲(chǔ)系統(tǒng),理論峰值算力可達(dá)100 PFlops,整機(jī)實(shí)測(cè)性能達(dá)到65 PFlops。InfiniBand 是一個(gè)用于高性能計(jì)算平臺(tái)的計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),具有極高的吞吐量和極低的延遲,用于計(jì)算機(jī)與計(jì)算機(jī)之間的數(shù)據(jù)互連,也用作服務(wù)器與存儲(chǔ)的互連以及存儲(chǔ)系統(tǒng)之間的互連。InfiniBand搭載的Mellanox ConnectX-6 網(wǎng)卡提供了最高200 Gb/s帶寬的數(shù)據(jù)傳輸性能。

    “嵩山”計(jì)算平臺(tái)所搭載的主要通信框架為UCX(Unified Communication X)[3-4]。UCX 作為底層InfiniBand 網(wǎng)絡(luò)和上層并行編程模型的通信中間件,定義了一組統(tǒng)一的標(biāo)準(zhǔn)化通信編程接口,以滿足主流的并行編程模型,如MPI(Message Passing Interface)[5]、UPC(Unified Parallel C)[6]、PGAS(Partitioned Global Address Space)[7]等的需求,同時(shí)又可以在各種高性能平臺(tái)上實(shí)現(xiàn),以便在互聯(lián)網(wǎng)絡(luò)上更好地滿足高性能、可移植、可伸縮等并行應(yīng)用的開發(fā)需求[8-10]。

    但是,由于RDMA(Remote Direct Memory Access)系統(tǒng)具有復(fù)雜性,因此存在很多未知的問題[11-12],UCX 作為“嵩山”RDMA 系統(tǒng)中的通信框架,在“嵩山”特色互聯(lián)網(wǎng)絡(luò)架構(gòu)上還有一定的優(yōu)化空間。在存在復(fù)雜通信環(huán)境的集合通信中,通信有時(shí)會(huì)成為瓶頸而拖累了整體計(jì)算速度。UCX 的通信性能直接影響了上層并行編程模型的數(shù)據(jù)傳輸與計(jì)算性能。因此,在“嵩山”超級(jí)計(jì)算平臺(tái)上對(duì)UCX 進(jìn)行研究與優(yōu)化具有重要的工程意義。

    本文基于“嵩山”超級(jí)計(jì)算平臺(tái),以MPI 為例,使用osu_benchmark 測(cè)試工具[13]在不同的傳輸下進(jìn)行多種集合通信測(cè)試,獲得各種情形下的延遲與帶寬數(shù)據(jù),以發(fā)現(xiàn)節(jié)點(diǎn)設(shè)備存在的瓶頸。同時(shí),對(duì)UCX的代碼進(jìn)行優(yōu)化,以解決節(jié)點(diǎn)內(nèi)通信占用網(wǎng)卡資源的問題。在此基礎(chǔ)上,實(shí)現(xiàn)UCX 在“嵩山”超級(jí)計(jì)算平臺(tái)上的最優(yōu)傳輸選擇,以提升平臺(tái)的集合通信能力以及整體的計(jì)算性能。

    1 “嵩山”超級(jí)計(jì)算機(jī)互聯(lián)網(wǎng)絡(luò)

    1.1 InfiniBand 互聯(lián)網(wǎng)絡(luò)

    InfiniBand 是一種高速互聯(lián)網(wǎng)絡(luò),用于連接大型集群和超級(jí)計(jì)算機(jī),它是目前應(yīng)用最廣泛的高速互連網(wǎng)絡(luò)之一,2016 年在Top500 互連網(wǎng)絡(luò)中就已經(jīng)達(dá)到37.5%的份額[14]。InfiniBand 網(wǎng)絡(luò)為通信提供了雙邊(發(fā)送-接收)和單邊(RDMA)語義。InfiniBand上的通信使用隊(duì)列對(duì)(QP)模型,其中,發(fā)送和接收隊(duì)列分別用于發(fā)送和接收消息,工作請(qǐng)求被提交到這些隊(duì)列中,硬件可以在隊(duì)列中讀取工作請(qǐng)求以執(zhí)行通信。此外,將隊(duì)列與每個(gè)QP 相關(guān)聯(lián),用于通知通信完成。在通過InfiniBand 進(jìn)行通信時(shí),需要注意注冊(cè)硬件訪問的所有內(nèi)存區(qū)域。為了減少內(nèi)存注冊(cè)的開銷,短消息(Short)可以內(nèi)聯(lián)到工作請(qǐng)求中,而較大的消息可以利用零拷貝(ZCopy)協(xié)議。這種策略意味著工作請(qǐng)求只獲取內(nèi)存緩沖區(qū)的描述信息,然后直接從緩沖區(qū)讀取數(shù)據(jù),而不需要CPU 的參與。

    當(dāng)前InfiniBand 結(jié)構(gòu)實(shí)現(xiàn)了各種傳輸機(jī)制[15-16],最常見的是RC(面向連接的可靠連接)和UD(無連接的不可靠數(shù)據(jù)報(bào)),后者只實(shí)現(xiàn)了雙邊通信語義。此外,UD 一次只能傳輸一個(gè)MTU 的數(shù)據(jù)(通常是4 KB),而RC 通常能提供比UD 更高的帶寬和更低的延遲,代價(jià)是RC 對(duì)資源有很高的要求:要完全連接N個(gè)進(jìn)程;要求每個(gè)進(jìn)程有O(N2)個(gè)連接和O(N)個(gè)隊(duì)列對(duì)。而UD 是無連接的,因此,每個(gè)進(jìn)程只需要一個(gè)UD 隊(duì)列對(duì)。為了減少RC 的內(nèi)存消耗,InfiniBand 規(guī)范引入了共享接受隊(duì)列以及擴(kuò)展的RC傳輸。Mellanox 后續(xù)又推出了動(dòng)態(tài)連接(DC)傳輸服務(wù)[17],該服務(wù)動(dòng)態(tài)地創(chuàng)建和銷毀連接,將內(nèi)存消耗限制在接近UD 的級(jí)別,同時(shí)提供與RC 類似的內(nèi)存語義。然而,DC 的可擴(kuò)展性設(shè)計(jì)是以性能為代價(jià)的,主要是因?yàn)榇嬖谶B接事務(wù)的開銷[18]。

    InfiniBand 的用戶 空間接口是Verbs API[19],它是一個(gè)帶有OFED 堆棧的用戶級(jí)別的庫,位于內(nèi)核級(jí)Verbs API 之上。內(nèi)核API 與特定供應(yīng)商的InfiniBand 驅(qū)動(dòng)程序和驅(qū)動(dòng)程序庫協(xié)作,以實(shí)現(xiàn)InfiniBand 硬件訪問。InfiniBand 軟件棧示意圖如圖1 所示。

    圖1 InfiniBand 軟件棧和UCXFig.1 InfiniBand software stack and UCX

    1.2 Socket Direct 技術(shù)

    隨著數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng),使用者對(duì)服務(wù)器和計(jì)算資源提出了更高的性能要求,以便對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。“嵩山”超級(jí)計(jì)算平臺(tái)采用非均勻內(nèi)存訪問(NUMA)架構(gòu)[20],每個(gè)處理器擁有4 個(gè)CPU Die,在每個(gè)Die 內(nèi)集成了8 個(gè)物理核心,共計(jì)32 個(gè)物理核心。

    在一般情況下,數(shù)據(jù)主要依靠GMI 總線來進(jìn)行跨Die 傳輸,如圖2(a)所示,此時(shí)Die3/Die4 中的數(shù)據(jù)如果要傳輸至網(wǎng)卡,則網(wǎng)絡(luò)流量需要使用GMI 總線經(jīng)過Die0/Die1 然后再流入網(wǎng)卡。而“嵩山”平臺(tái)的網(wǎng)絡(luò)架構(gòu)支持Socket Direct 技術(shù),該技術(shù)可以使節(jié)點(diǎn)中的每個(gè)Die(NUMA node)都可以通過其專用的PCIe 接口直接連接到網(wǎng)絡(luò),使得網(wǎng)絡(luò)流量無須遍歷內(nèi)部總線(GMI)和其他Die,如圖2(b)所示。Socket Direct 不僅降低了CPU 的利用率、增加了網(wǎng)絡(luò)吞吐量,還顯著降低了開銷與延遲,從而提高了服務(wù)器的性能。

    圖2 跨Die 傳輸?shù)膶?duì)比Fig.2 Comparison of cross-Die transmission

    1.3 UCX 設(shè)計(jì)

    隨著DPU 的普及以及各類DSA 芯片的廣泛使用[21],如何在這之上抽象出統(tǒng)一的內(nèi)存訪問語義和統(tǒng)一的通信方式成為一個(gè)值得研究的問題,因此,UCX 應(yīng)運(yùn)而生。UCX 可以在通信方面實(shí)現(xiàn)低級(jí)別的軟件開銷,并且提供接近原生級(jí)別的性能。UCX旨在提供一個(gè)統(tǒng)一的抽象通信接口,能夠適配任何通信設(shè)備,并支持各種應(yīng)用的需求,從而滿足當(dāng)前高性能、可移植且穩(wěn)定可靠的并行應(yīng)用開發(fā)需求,同時(shí)還能通過持續(xù)的迭代更新來適應(yīng)未來的高速互聯(lián)網(wǎng)絡(luò)。

    從圖1 可以看出UCX 軟件堆棧是如何放置在InfiniBand 之上的,UCX 由下層UCT 和上層UCP 這2 層組成。下文將介紹UCX 框架,討論UCP 和UCT這2 個(gè)層之間的主要區(qū)別以及UCX 內(nèi)部最重要的語義。

    1.3.1 UCX 框架

    UCX 利用高速網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間通信,并利用共享內(nèi)存機(jī)制進(jìn)行有效的節(jié)點(diǎn)內(nèi)通信。UCX 總體采用分層結(jié)構(gòu)公開一組抽象通信原語,這些原語充分利用了可用的硬件資源和負(fù)載,其中包括RDMA[22-23](InfiniBand 和RoCE)、TCP、共享內(nèi)存和網(wǎng)絡(luò)原子操作。圖3 顯示了UCX 的軟件棧結(jié)構(gòu)。

    圖3 UCX 軟件棧結(jié)構(gòu)Fig.3 UCX software stack structure

    UCX 通過提供高級(jí)API 促進(jìn)快速開發(fā),屏蔽低層細(xì)節(jié),同時(shí)保持高性能和可伸縮性,其框架主要由3 個(gè)組件組成,即UCS(UC-Services)、UCT(UCTransports)和UCP(UC-Protocols)。每一 個(gè)組件都導(dǎo)出一個(gè)公共API,可以作為一個(gè)獨(dú)立的庫使用。底層的UCT 適配各種通信設(shè)備,上層的UCP 則是在UCT 不同設(shè)備的基礎(chǔ)上封裝更抽象的通信接口,以方便使用。

    UCT 是傳輸層,它抽象了各種硬件架構(gòu)之間的差異,并提供了一個(gè)支持通信協(xié)議實(shí)現(xiàn)的低級(jí)API,從單機(jī)的共享內(nèi)存到常用的TCP Socket 以及“嵩山”超算底層的InfiniBand 協(xié)議,都有很好的支持。該層的主要目標(biāo)是提供對(duì)硬件網(wǎng)絡(luò)功能的直接有效訪問,為此,UCT 依賴供應(yīng)商提供的低級(jí)驅(qū)動(dòng)程序,如InfiniBand Verbs、Cray 的uGNI 等。此外,該層還提供用于通信上下文管理(基于線程和應(yīng)用程序級(jí)別)以及分配和管理的構(gòu)造。在通信API 方面,UCT 定義了立即(short)、緩沖復(fù)制、發(fā)送(BCopy)和零拷貝(ZCopy)等通信操作的接口。

    UCP 是協(xié)議層,通過使用UCT 層公開的較低級(jí)別功能來實(shí)現(xiàn)上層高級(jí)編程模型(如MPI、UPC、PGAS)所使用的較高級(jí)別協(xié)議。UCP 提供的功能是能夠?yàn)橥ㄐ胚x擇不同的傳輸、消息分段、多軌通信以及初始化和完成庫。目前,API 具有的接口類別包括初始化、遠(yuǎn)程內(nèi)存訪問(RMA)通信、原子內(nèi)存操作(AMO)、活動(dòng)消息(Active Message)、標(biāo)簽匹配(Tag-Matching)和集合(Collectives)。

    1.3.2 UCX 語義

    UCX 提供的最主要語義包括通信上下文、通信原語、通信實(shí)體和連接建立。這4 種語義詳細(xì)敘述如下:

    1)通信上下文。UCP 和UCT 的最主要區(qū)別在于通信上下文。UCT 被設(shè)計(jì)成一個(gè)位于單個(gè)通信設(shè)備和傳輸層之上的通信層,而UCP 可以讓用戶操作不同的設(shè)備和傳輸層。因此,UCT 在設(shè)備(如InfiniBand、共享內(nèi)存SM)上定義了一個(gè)內(nèi)存域,用來分配和注冊(cè)進(jìn)行通信的內(nèi)存以及特定設(shè)備(如InfiniBand 上的UD 和RC)上的特定傳輸接口。內(nèi)存域和接口都有一組它們自己的屬性,這些屬性來自于硬件功能。內(nèi)存域?qū)傩园▋?nèi)存分配限制和內(nèi)存訪問的憑據(jù),接口屬性包括傳輸機(jī)制的通信和連接能力以及協(xié)議切換的閾值。UCP 將這些多個(gè)UCT內(nèi)存域和接口封裝在單個(gè)通信上下文中,并根據(jù)硬件屬性和性能指標(biāo)選擇適合通信操作的接口。

    3)通信實(shí)體。Worker 是UCX、UCP 和UCT 的核心通信實(shí)體。Worker 的主要特征是有自己的進(jìn)度引擎(progress engine),進(jìn)度引擎會(huì)在所有打開的接口上強(qiáng)制執(zhí)行當(dāng)前的進(jìn)度。在Worker 要啟用與另一個(gè)進(jìn)程的通信時(shí),每個(gè)進(jìn)程都會(huì)創(chuàng)建一個(gè)端點(diǎn)(endpoint),并將其連接到遠(yuǎn)程進(jìn)程的endpoint。UCT endpoint 與特定接口(如UD、RC)綁定,即每個(gè)使用的接口對(duì)應(yīng)一個(gè)UCT endpoint,而UCP endpoint擁有多個(gè)UCT endpoint。因此,在UCP 中,endpoint始終連接著2 個(gè)Worker。在內(nèi)部,UCP 負(fù)責(zé)從可用于執(zhí)行通信操作的接口/UCT endpoint 中選擇最佳的接口/UCT endpoint。

    4)連接建立。當(dāng)UCP 的Worker 創(chuàng)建endpoint時(shí),UCP 層為每種類型的操作選擇一個(gè)或多個(gè)接口,并且在每個(gè)接口上創(chuàng)建并對(duì)應(yīng)一個(gè)UCT endpoint,所有的這些UCT endpoint 都與父UCP endpoint 相關(guān)聯(lián)。如果一個(gè)接口對(duì)應(yīng)無連接的傳輸,那么它可以立即連接到遠(yuǎn)程接口,這也就是UCP 中發(fā)生的情況,即UCT endpoint 通過無連接傳輸立即建立連接。但是,如果接口對(duì)應(yīng)P2P 的傳輸,UCP 將創(chuàng)建一個(gè)stub endpoint。Wireup UCT endpoint 始終是無連接的,通過立即發(fā)送Wireup 請(qǐng)求然后通過P2P 傳輸以實(shí)現(xiàn)所有UCT endpoint 的連接。當(dāng)父UCP endpoint 的所有UCT endpoint 都已連接時(shí),stub endpoint 即被銷 毀。

    2 UCX 在“嵩山”中的優(yōu)化

    2.1 參數(shù)調(diào)優(yōu)

    UCX 可以適配多種設(shè)備、系統(tǒng)、架構(gòu)等,因而具有繁雜的參數(shù)設(shè)置,調(diào)整各項(xiàng)參數(shù)可以使UCX 更加適配“嵩山”平臺(tái)。

    “嵩山”平臺(tái)的高速網(wǎng)絡(luò)使用Socket Direct技術(shù)劃分CPU 為4 個(gè)NUMA nodes 并分別連接至4 塊網(wǎng)卡設(shè)備,實(shí)現(xiàn)各個(gè)Die 與網(wǎng)卡的直連。在UCX 中設(shè)置UCX_MAX_RNDV_LANES 為4,為Rendezvous 協(xié) 議開啟4 端口的多軌傳輸,使用多塊網(wǎng)卡同時(shí)進(jìn)行傳輸,從而提升數(shù)據(jù)的傳輸效率。

    “嵩山”平臺(tái)CPU 使用的NUMA 架構(gòu),在PCIe總線傳輸中更適合采用寬松排序(relaxed order)的事務(wù)排序方法,即允許PCIe 交換開關(guān),將軟件確認(rèn)過的事務(wù)重排在其他事務(wù)之前發(fā)送,這樣既提升了PCIe 總線效率,又能保證程序如期執(zhí)行。本文使用UCX_IB_PCI_RELAXED_ORDERING=on 在UCX 中開啟寬松排序,使得所有使用UCX 通信庫的程序采用寬松排序,從而獲得更高的性能。

    2.2 網(wǎng)卡占用優(yōu)化

    在使用UCX 進(jìn)行節(jié)點(diǎn)內(nèi)部通信時(shí),進(jìn)程間通信不僅會(huì)使用共享內(nèi)存?zhèn)鬏?,還會(huì)調(diào)用網(wǎng)卡設(shè)備共同完成數(shù)據(jù)傳輸,這是由于ITIGIN[4]為UCX 添加了實(shí)現(xiàn),即進(jìn)行進(jìn)程間通信時(shí)rc 會(huì)輔助共享通信,從而共同完成通信。但是在“嵩山”平臺(tái)上,實(shí)測(cè)IB 網(wǎng)卡對(duì)多進(jìn)程的通信支持相較于共享內(nèi)存并不友好,多進(jìn)程會(huì)平分網(wǎng)卡帶寬,導(dǎo)致整體性能下降。而在進(jìn)行大規(guī)模節(jié)點(diǎn)運(yùn)算時(shí),網(wǎng)卡是節(jié)點(diǎn)間通信的主力設(shè)備,應(yīng)該盡可能地保證網(wǎng)卡用于跨節(jié)點(diǎn)傳輸。因此,需要對(duì)UCX 的傳輸邏輯進(jìn)行修改,使其在進(jìn)行節(jié)點(diǎn)間通信時(shí)不使用網(wǎng)卡。

    以MPI 為例,在其進(jìn)行通信時(shí),UCX 會(huì)調(diào)用遠(yuǎn)程內(nèi)存訪問(RMA)[24]和活動(dòng)消息(AM)等操作來實(shí)現(xiàn)快速的節(jié)點(diǎn)間通信。在涉及進(jìn)程間通信時(shí),UCX同樣也會(huì)選擇網(wǎng)卡來調(diào)用這些操作進(jìn)行傳輸。

    在“嵩山”超級(jí)計(jì)算平臺(tái)中,MPI 節(jié)點(diǎn)內(nèi)通信使用的設(shè)備有memory 和mlx5。memory 會(huì)調(diào)用am、am_bw 和 rma_bw 操 作;mlx5 網(wǎng)卡會(huì)調(diào)用am_bw 和rma_bw 操作。因此,mlx5 網(wǎng)卡在節(jié)點(diǎn)內(nèi)通信時(shí)所調(diào)用的操作完全可以被memory 所取代。程序調(diào)用am_bw 和rma_bw 操作之 前,UCT 會(huì)執(zhí)行ucp_wireup_add_bw_lanes 函數(shù),選出合適的傳輸,以此建立支持相應(yīng)功能的endpoint。對(duì)此函數(shù)進(jìn)行分析可以發(fā)現(xiàn),函數(shù)調(diào)用ucp_wireup_select_transport,根據(jù)bitmap 選出支持am_bw 或rma_bw 的傳輸,隨后函數(shù)將傳輸放入ep 的配置文件中,等待endpoint 的創(chuàng)建,這些操作都發(fā)生在連接的準(zhǔn)備階段。

    在實(shí)驗(yàn)確定的最佳色譜條件下,選取1#果酒樣品,分別加入10,50,100 mg/L標(biāo)準(zhǔn)混合溶液,平行進(jìn)行6次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表3。回收率為81.6%~102.8%,相對(duì)平均偏差不大于4.4%,說明方法精密度高,準(zhǔn)確度好。

    本文在ucp_wireup_add_bw_lanes 函數(shù)中添加判斷。在函數(shù)循環(huán)搜尋可用傳輸并將其添加到設(shè)備的dev_bitmap 后,讀取出Worker 的上下文信息,判斷此時(shí)的設(shè)備是否為共享內(nèi)存?zhèn)鬏敚喝绻枪蚕韮?nèi)存?zhèn)鬏?,則break 跳出循環(huán),不再搜索額外的傳輸;如果不是共享內(nèi)存?zhèn)鬏?,則正常循環(huán),搜尋可用傳輸。修改后的程序流程如圖4 所示,可以這樣做的原因是搜索過程中的設(shè)備次序memory 排在mlx5 網(wǎng)卡之前,當(dāng)選擇出共享內(nèi)存?zhèn)鬏敃r(shí),函數(shù)退出,便不會(huì)檢索到mlx5 網(wǎng)卡,從而在進(jìn)行節(jié)點(diǎn)內(nèi)的進(jìn)程間通信時(shí)只使用共享內(nèi)存通信而不是網(wǎng)卡傳輸。

    圖4 優(yōu)化后的程序流程Fig.4 Optimized program procedure

    使用osu_benchmark 以4 MB 包長(zhǎng)測(cè)得單節(jié)點(diǎn)內(nèi)2~32 進(jìn)程的alltoall 集合通信延遲數(shù)據(jù),如圖5 所示,其中,before 是優(yōu)化前同時(shí)使用網(wǎng)卡rc 傳輸和共享內(nèi)存?zhèn)鬏數(shù)耐ㄐ艛?shù)據(jù),after 是僅使用共享內(nèi)存?zhèn)鬏數(shù)耐ㄐ艛?shù)據(jù)。從圖5 可以看出,在節(jié)點(diǎn)內(nèi)通信時(shí),隨著PPN(Processes Per Node)的增加,2 種傳輸方式的延遲差距愈加明顯,優(yōu)化后的通信延遲相較于優(yōu)化前最多降低了70%。

    圖5 節(jié)點(diǎn)內(nèi)alltoall 測(cè)試結(jié)果Fig.5 Intra-node alltoall test results

    測(cè)試不同PPN 下的點(diǎn)對(duì)點(diǎn)通信帶寬數(shù)據(jù),如圖6所示。從中可以明顯看出,在PPN 大于8 時(shí),僅使用共享內(nèi)存?zhèn)鬏數(shù)耐ㄐ判阅軆?yōu)于使用IB 網(wǎng)卡的通信性能,此外,如果節(jié)點(diǎn)內(nèi)的進(jìn)程間通信使用了網(wǎng)卡傳輸,在絕大多數(shù)情況下,網(wǎng)卡通信還會(huì)對(duì)本來的進(jìn)程間通信造成負(fù)面影響,降低整體的通信帶寬性能。

    圖6 節(jié)點(diǎn)內(nèi)點(diǎn)對(duì)點(diǎn)帶寬測(cè)試結(jié)果Fig.6 Intra-node p2p bandwidth test results

    2.3 共享內(nèi)存通信選擇優(yōu)化

    “嵩山”平臺(tái)的MPI 庫中存在不同的節(jié)點(diǎn)內(nèi)通信機(jī)制,圖7 主要展示了其中的2 種。傳統(tǒng)的雙副本拷貝的共享內(nèi)存實(shí)現(xiàn),其傳輸數(shù)據(jù)涉及一個(gè)共享的緩沖區(qū)空間,由本地進(jìn)程來交換消息,如圖7(a)所示。但是,這種方式僅適用于小消息,對(duì)于較大的消息,雙副本拷貝會(huì)給CPU 帶來額外的負(fù)擔(dān),導(dǎo)致緩存污染和帶寬的浪費(fèi)。圖7(b)展示了支持內(nèi)核輔助的共享內(nèi)存?zhèn)鬏攲?shí)現(xiàn)[25],傳輸實(shí)現(xiàn)依靠?jī)?nèi)核的援助,內(nèi)核模塊可以為節(jié)點(diǎn)內(nèi)通信提供單拷貝機(jī)制,在傳輸較大消息時(shí)會(huì)大幅提升傳輸效率。

    圖7 2 種共享內(nèi)存通信機(jī)制Fig.7 Two shared memory communication mechanisms

    對(duì)于第2 種通信方式,“嵩山”平臺(tái)的MPI 庫支持CMA 和KNEM[26]這2 種內(nèi)核模塊。CMA 引入了2 個(gè)系統(tǒng)調(diào)用,分別是process_vm_readv 和process_vm_writev,它們根據(jù)進(jìn)程的PID 和遠(yuǎn)程虛擬地址直接讀寫另一個(gè)進(jìn)程的內(nèi)存[27]。對(duì)于使用KNEM 內(nèi)核的通信,發(fā)送進(jìn)程在KNEM 驅(qū)動(dòng)中聲明一個(gè)發(fā)送緩沖區(qū)(不管是否連續(xù)),并將相應(yīng)的標(biāo)識(shí)符cookie傳遞給接收進(jìn)程,接收進(jìn)程接收到cookie 并請(qǐng)求KNEM 驅(qū)動(dòng)從cookie 緩沖區(qū)復(fù)制到它的本地緩沖區(qū)(連續(xù)或非連續(xù))[26]。

    本文使用osu_benchmark 分別指定CMA 和KNEM 傳輸,測(cè)得2 種共享內(nèi)存通信的帶寬與延遲如表1 所示。在“嵩山”超算平臺(tái)下對(duì)輸出的UCX 日志進(jìn)行分析發(fā)現(xiàn),節(jié)點(diǎn)在進(jìn)行共享內(nèi)存?zhèn)鬏敃r(shí),無論何種情況都只會(huì)選擇CMA 進(jìn)行通信,并不會(huì)選擇帶寬更高、延遲更低的KNEM。

    表1 CMA 與KNEM 的性能參數(shù)Table 1 Performance parameters of the CMA and KNEM

    進(jìn)程間在進(jìn)行共享內(nèi)存通信時(shí),通過rma_bw 操作來進(jìn)行高速的遠(yuǎn)程內(nèi)存訪問。在建立連接前,UCT 會(huì)根據(jù)UCX 提供的一套公式來計(jì)算傳輸評(píng)分,選出rma_bw 中評(píng)分最高的傳輸,添加到連接通道(lanes)中。

    本文對(duì)rma_bw 操作傳輸選擇的評(píng)分機(jī)制進(jìn)行分析。在UCT 中,計(jì)算評(píng)分時(shí)以256 KB 的消息大小為基準(zhǔn),調(diào)用rma_bw 操作的傳輸?shù)脑u(píng)分為時(shí)間開銷的倒數(shù),如式(1)所示:

    設(shè)mcost為內(nèi)存域注冊(cè)開銷,注冊(cè)開銷近似為一個(gè)線性函數(shù),如式(2)所示:

    其中:omd為固定開銷;ggrowth為增長(zhǎng)系數(shù);ssize為數(shù)據(jù)大小(256 KB)。設(shè)bl和br分別為本地和遠(yuǎn)程的帶寬大小,因此,總開銷為256 KB 消息的傳輸時(shí)延、內(nèi)存注冊(cè)開銷mcost與傳輸接口間延遲llr的累加,如下:

    對(duì)于節(jié)點(diǎn)中的每個(gè)進(jìn)程,其帶寬b在UCX 中的計(jì)算方式如式(4)所示:

    其中:bdedicated為專用帶寬;bshared為共享帶寬。

    對(duì)平臺(tái)的UCX 源代碼進(jìn)行分析,可以發(fā)現(xiàn):在UCX 1.9.0 的帶寬設(shè)置下,CMA 擁有11 145.00 MB的dedicated 帶 寬,而KNEM 是13 862 MB 的shared帶寬。根據(jù)srma的計(jì)算公式,在PPN 不為1 時(shí),UCX在計(jì)算KNEM 和CMA 的rma_bw 評(píng)分時(shí)帶寬會(huì)存在巨大差異,從而導(dǎo)致永遠(yuǎn)不會(huì)選擇KNEM 傳輸。這是因?yàn)樵缙贙NEM 對(duì)多進(jìn)程支持不如CMA,單進(jìn)程時(shí)KNEM 會(huì)有更高的帶寬,但是存在多進(jìn)程通信時(shí),KNEM 性能將不如CMA,因而將KNEM 帶寬值設(shè)置為shared。但是,“嵩山”超級(jí)計(jì)算平臺(tái)所具有的優(yōu)化KNEM 對(duì)多進(jìn)程的支持極好,同時(shí)支持高性能單拷貝消息傳輸。因此,本文將KNEM 的帶寬從shared 改為dedicated,使KNEM 獲得了更合理的評(píng)分,從而在進(jìn)行集合通信時(shí)共享內(nèi)存方面的傳輸會(huì)更多地選擇帶寬更高、延遲更低的KNEM。

    在大部分通信中,KNEM 和CMA 兩者差異較小,但是在涉及節(jié)點(diǎn)內(nèi)進(jìn)程間gather 通信時(shí),KNEM內(nèi)核相對(duì)CMA 內(nèi)核有較為明顯的性能提升,并且隨著PPN 的增加提升效果愈加明顯,如圖8 所示。

    圖8 節(jié)點(diǎn)內(nèi)gather 測(cè)試結(jié)果Fig.8 Intra-node gather test results

    3 數(shù)據(jù)測(cè)試與驗(yàn)證

    3.1 實(shí)驗(yàn)環(huán)境

    在“嵩山”超級(jí)計(jì)算機(jī)的固化節(jié)點(diǎn)上進(jìn)行實(shí)驗(yàn),單個(gè)節(jié)點(diǎn)配置為32 核2.0 GHz CPU,網(wǎng)卡采用Mellanox ConnectX-6,以HDR 模式(200 Gb/s)工作。操作系統(tǒng)為CentOS 7.6,內(nèi)核版本為3.10.0-957.el7.x86_64。

    在本次測(cè)試中,使用的MPI 版本為Open MPI v4.0.4rc3,它在平臺(tái)的共享內(nèi)存通信時(shí)支持KNEM和CMA 內(nèi)核。使用的HPCX 版本為2.7.4,UCX 版本為UCX 1.9。對(duì)于點(diǎn)到點(diǎn)和集合通信測(cè)試,使用osu_benchmark v5.5 來測(cè)試并記錄通信性能數(shù)據(jù)。在性能測(cè)試對(duì)比數(shù)據(jù)中,before 的通信底層是目前在用的由ITIGIN 優(yōu)化后的UCX 正式版本,after 采用本文優(yōu)化后的UCX 庫。

    3.2 節(jié)點(diǎn)內(nèi)集合通信測(cè)試

    首先測(cè)試優(yōu)化后的UCX 庫在單節(jié)點(diǎn)內(nèi)的通信表現(xiàn)。圖9~圖11 展示了單節(jié)點(diǎn)內(nèi)不同PPN 下的4 MB 包長(zhǎng)的MPI 集合通信測(cè)試數(shù)據(jù),橫坐標(biāo)為使用核心數(shù)(總進(jìn)程數(shù)),縱坐標(biāo)為平均通信延遲,每個(gè)核心綁定一個(gè)進(jìn)程進(jìn)行通信。從中可以看出,使用優(yōu)化后UCX 的MPI 集合通信能力有了明顯提升,alltoall 的通信性能提升尤為明顯,延遲最多降至優(yōu)化前的30%(圖9),gather 的通信延遲最多約降至優(yōu)化前的55%(圖10),allreduce 的通信延遲最多約降至優(yōu)化前的69%(圖11)。

    圖9 優(yōu)化前后節(jié)點(diǎn)內(nèi)alltoall 測(cè)試結(jié)果Fig.9 Intra-node alltoall test results before and after optimization

    圖10 優(yōu)化前后節(jié)點(diǎn)內(nèi)gather 測(cè)試結(jié)果Fig.10 Intra-node gather test results before and after optimization

    圖11 優(yōu)化前后節(jié)點(diǎn)內(nèi)allreduce 測(cè)試結(jié)果Fig.11 Intra-node allreduce test results before and after optimization

    3.3 節(jié)點(diǎn)間集合通信測(cè)試

    對(duì)于節(jié)點(diǎn)間的集合通信,本文對(duì)2 個(gè)規(guī)模(32 節(jié)點(diǎn)和100 節(jié)點(diǎn))進(jìn)行測(cè)試。對(duì)于32 節(jié)點(diǎn)的規(guī)模,選取分屬lka 2 個(gè)交換機(jī)的32 個(gè)節(jié)點(diǎn),每個(gè)交換機(jī)16 個(gè)節(jié)點(diǎn),測(cè)試消息包長(zhǎng)為1 MB。經(jīng)過測(cè)試發(fā)現(xiàn),在節(jié)點(diǎn)間集合通信時(shí),其他集合通信測(cè)試效果與優(yōu)化前一致,allgather通信產(chǎn)生了較為明顯的差異,如圖12 所示。

    圖12 32 節(jié)點(diǎn)allgather 測(cè)試結(jié)果Fig.12 32 nodes allgather test results

    本文在8 箱的節(jié)點(diǎn)中隨機(jī)選擇100 個(gè)節(jié)點(diǎn),進(jìn)行100 個(gè)節(jié)點(diǎn)間的集合通信測(cè)試,獲得節(jié)點(diǎn)間的2~18 PPN 下1 MB 包長(zhǎng)的集合通信延遲數(shù)據(jù)。從圖13 可以看出,優(yōu)化后的UCX 在allgather 集合通信中取得了極為明顯的優(yōu)化效果,延遲最多可降至原來的20%,并且隨著進(jìn)程的增多差距逐漸變大。其他的集合通信測(cè)試優(yōu)化前后數(shù)據(jù)基本保持一致。

    圖13 100 節(jié)點(diǎn)allgather 測(cè)試結(jié)果Fig.13 100 nodes allgather test results

    4 結(jié)束語

    “嵩山”超級(jí)計(jì)算平臺(tái)支持多種并行編程模型,對(duì)高速互聯(lián)網(wǎng)絡(luò)進(jìn)行優(yōu)化有助于提升平臺(tái)的整體通信性能,為平臺(tái)的并行編程模型提供良好的底層通信支持。本文對(duì)“嵩山”超級(jí)計(jì)算平臺(tái)上的節(jié)點(diǎn)進(jìn)行測(cè)試,獲得了節(jié)點(diǎn)間與節(jié)點(diǎn)內(nèi)的通信性能數(shù)據(jù),并且發(fā)現(xiàn)IB 網(wǎng)卡在節(jié)點(diǎn)內(nèi)多PPN 通信中存在的局限性。然后,對(duì)平臺(tái)的主要通信框架UCX 進(jìn)行分析與優(yōu)化,解決了節(jié)點(diǎn)內(nèi)進(jìn)程間通信占用網(wǎng)卡的問題,同時(shí)改善了UCX 對(duì)共享內(nèi)存?zhèn)鬏數(shù)倪x擇機(jī)制。優(yōu)化后的UCX 對(duì)大PPN 下的節(jié)點(diǎn)間allgather 集合通信以及節(jié)點(diǎn)內(nèi)的進(jìn)程間集合通信性能提升效果明顯。

    由于RDMA 具有復(fù)雜性,很多因素都可能影響RDMA 系統(tǒng)的整體通信性能。下一步將找出其他制約節(jié)點(diǎn)間通信速度的因素,對(duì)算法進(jìn)行改進(jìn),使得節(jié)點(diǎn)間的其他集合通信能力得到加強(qiáng)。此外,UCX 根據(jù)PPN 來預(yù)測(cè)帶寬,依此帶寬來選擇傳輸,這種帶寬計(jì)算方法還不夠準(zhǔn)確,未來將對(duì)此進(jìn)行改進(jìn),從而改善UCX 的傳輸選擇評(píng)分機(jī)制。

    猜你喜歡
    共享內(nèi)存嵩山網(wǎng)卡
    在DDS 中間件上實(shí)現(xiàn)雙冗余網(wǎng)卡切換的方法
    通過QT實(shí)現(xiàn)進(jìn)程間的通信
    Server 2016網(wǎng)卡組合模式
    我愛我家
    尹朝陽:嵩山高
    基于PCI總線的多處理器協(xié)同機(jī)制研究
    鄭州嵩山地磁臺(tái)站建站可行性分析
    挑戰(zhàn)Killer網(wǎng)卡Realtek網(wǎng)游專用Dragon網(wǎng)卡
    QNX下PEX8311多路實(shí)時(shí)數(shù)據(jù)采集的驅(qū)動(dòng)設(shè)計(jì)
    電子世界(2014年21期)2014-04-29 06:41:36
    一種高效RTAI 共享內(nèi)存管理層的研究與實(shí)現(xiàn)*
    波野结衣二区三区在线| 亚洲国产精品成人综合色| 乱系列少妇在线播放| 日本三级黄在线观看| 久久久久免费精品人妻一区二区| 午夜日本视频在线| 中文字幕熟女人妻在线| 少妇人妻精品综合一区二区| 人人妻人人看人人澡| 亚洲电影在线观看av| 精品国产三级普通话版| 性插视频无遮挡在线免费观看| 99热全是精品| 精品国内亚洲2022精品成人| 亚洲精品aⅴ在线观看| 丰满人妻一区二区三区视频av| 嫩草影院新地址| 在线免费观看不下载黄p国产| 久久久久久久亚洲中文字幕| 寂寞人妻少妇视频99o| 日韩制服骚丝袜av| 97热精品久久久久久| 久久久久久久国产电影| 三级经典国产精品| 国产伦精品一区二区三区视频9| 少妇裸体淫交视频免费看高清| 99热6这里只有精品| 欧美97在线视频| 人体艺术视频欧美日本| av又黄又爽大尺度在线免费看 | 亚洲人成网站高清观看| .国产精品久久| 日本与韩国留学比较| 国产伦精品一区二区三区视频9| 亚洲熟妇中文字幕五十中出| 美女cb高潮喷水在线观看| 99久久成人亚洲精品观看| 久久精品熟女亚洲av麻豆精品 | 女人久久www免费人成看片 | 天天躁日日操中文字幕| 国产v大片淫在线免费观看| 美女被艹到高潮喷水动态| .国产精品久久| 精品国产三级普通话版| 一二三四中文在线观看免费高清| 一级av片app| 亚洲性久久影院| 91午夜精品亚洲一区二区三区| 七月丁香在线播放| 一级毛片我不卡| 免费黄网站久久成人精品| 国产精品不卡视频一区二区| 午夜日本视频在线| 日本猛色少妇xxxxx猛交久久| 亚洲四区av| 国产精品久久电影中文字幕| 91狼人影院| 一区二区三区高清视频在线| 国产精品爽爽va在线观看网站| 最近2019中文字幕mv第一页| 亚洲成av人片在线播放无| 国产免费一级a男人的天堂| 国产亚洲91精品色在线| 亚洲最大成人手机在线| 国产又黄又爽又无遮挡在线| 免费av不卡在线播放| 日韩欧美精品v在线| 日本猛色少妇xxxxx猛交久久| 插阴视频在线观看视频| 中文字幕久久专区| 日本黄大片高清| 亚洲欧洲国产日韩| 日本一二三区视频观看| 国产又黄又爽又无遮挡在线| 非洲黑人性xxxx精品又粗又长| 国产一区有黄有色的免费视频 | 亚洲av二区三区四区| 欧美日本亚洲视频在线播放| 又粗又硬又长又爽又黄的视频| 免费搜索国产男女视频| 一卡2卡三卡四卡精品乱码亚洲| 少妇熟女aⅴ在线视频| 汤姆久久久久久久影院中文字幕 | 美女大奶头视频| 国产一区亚洲一区在线观看| 少妇人妻精品综合一区二区| 日韩在线高清观看一区二区三区| 日日啪夜夜撸| 欧美激情在线99| 99久久精品国产国产毛片| 亚洲国产精品国产精品| 日本免费在线观看一区| 久久久久久久午夜电影| 51国产日韩欧美| 午夜免费男女啪啪视频观看| 日韩精品青青久久久久久| 国产成人91sexporn| 国产亚洲最大av| 国产免费视频播放在线视频 | 国产精品永久免费网站| 少妇的逼水好多| 成人亚洲欧美一区二区av| 亚洲欧美精品自产自拍| 久久婷婷人人爽人人干人人爱| 99九九线精品视频在线观看视频| 久久久久久久国产电影| 老司机影院毛片| 欧美bdsm另类| 亚洲av电影在线观看一区二区三区 | 亚洲精品乱码久久久久久按摩| 中文精品一卡2卡3卡4更新| 美女cb高潮喷水在线观看| 青春草视频在线免费观看| 22中文网久久字幕| 最近中文字幕高清免费大全6| 亚洲人成网站在线播| 波野结衣二区三区在线| 免费不卡的大黄色大毛片视频在线观看 | 亚洲国产精品成人综合色| 国产精品伦人一区二区| 99久久九九国产精品国产免费| 成人三级黄色视频| 一级毛片久久久久久久久女| 尤物成人国产欧美一区二区三区| .国产精品久久| 3wmmmm亚洲av在线观看| 国产精品熟女久久久久浪| 天堂影院成人在线观看| 欧美三级亚洲精品| 中国国产av一级| 免费黄色在线免费观看| 天天一区二区日本电影三级| 成人三级黄色视频| 亚洲婷婷狠狠爱综合网| 夜夜爽夜夜爽视频| 日本五十路高清| 日韩强制内射视频| 直男gayav资源| 精品少妇黑人巨大在线播放 | 精品99又大又爽又粗少妇毛片| 内射极品少妇av片p| 亚洲真实伦在线观看| 国产一区二区亚洲精品在线观看| 欧美极品一区二区三区四区| 老司机影院毛片| 欧美又色又爽又黄视频| 一区二区三区免费毛片| 精品国内亚洲2022精品成人| 亚洲精品,欧美精品| 中国国产av一级| 成年免费大片在线观看| 亚洲成人av在线免费| 日本wwww免费看| 国模一区二区三区四区视频| 尾随美女入室| 亚洲成人精品中文字幕电影| 我要搜黄色片| 蜜桃久久精品国产亚洲av| 国产白丝娇喘喷水9色精品| 看非洲黑人一级黄片| 一边摸一边抽搐一进一小说| 免费观看精品视频网站| 免费看a级黄色片| 日韩av在线大香蕉| 国产又黄又爽又无遮挡在线| 亚洲激情五月婷婷啪啪| 国产黄片视频在线免费观看| 久久久久久久久久久丰满| 日本熟妇午夜| 一边亲一边摸免费视频| 精品一区二区三区视频在线| 久久久久免费精品人妻一区二区| 99久久精品热视频| 99在线视频只有这里精品首页| 一级毛片aaaaaa免费看小| 成人三级黄色视频| 国产精华一区二区三区| 少妇的逼水好多| 国产不卡一卡二| 99国产精品一区二区蜜桃av| 亚洲av成人精品一区久久| 日本黄色视频三级网站网址| 国产亚洲最大av| 桃色一区二区三区在线观看| 色网站视频免费| 我的女老师完整版在线观看| 三级毛片av免费| 麻豆一二三区av精品| 久久久亚洲精品成人影院| 久久久精品94久久精品| 免费在线观看成人毛片| 欧美人与善性xxx| 国产精品,欧美在线| 久久久久九九精品影院| 国产又色又爽无遮挡免| 我的女老师完整版在线观看| 中文字幕精品亚洲无线码一区| 国产在线男女| 日韩欧美精品v在线| 欧美激情在线99| 亚洲人成网站在线播| av福利片在线观看| 国产成年人精品一区二区| 男人和女人高潮做爰伦理| 我的女老师完整版在线观看| a级毛色黄片| 白带黄色成豆腐渣| 最近最新中文字幕免费大全7| 中文乱码字字幕精品一区二区三区 | 老司机影院成人| 黄色欧美视频在线观看| 精品人妻偷拍中文字幕| 青青草视频在线视频观看| 女人被狂操c到高潮| 亚洲国产日韩欧美精品在线观看| 久久精品夜夜夜夜夜久久蜜豆| av国产久精品久网站免费入址| 亚洲天堂国产精品一区在线| 国产爱豆传媒在线观看| 欧美性猛交╳xxx乱大交人| 建设人人有责人人尽责人人享有的 | 国产又黄又爽又无遮挡在线| 我的老师免费观看完整版| 国产视频首页在线观看| 蜜桃久久精品国产亚洲av| 99视频精品全部免费 在线| 亚洲国产欧美在线一区| 能在线免费观看的黄片| 国产精品乱码一区二三区的特点| 美女黄网站色视频| 日韩一区二区三区影片| 在线a可以看的网站| 国产精品,欧美在线| 亚洲成人久久爱视频| 亚洲欧美成人精品一区二区| 色噜噜av男人的天堂激情| 欧美xxxx黑人xx丫x性爽| 亚洲在线观看片| 国产高潮美女av| 国产69精品久久久久777片| 日韩欧美在线乱码| 免费观看a级毛片全部| 日韩av在线大香蕉| 国产激情偷乱视频一区二区| 日本五十路高清| 国产亚洲精品久久久com| 精品久久久久久久人妻蜜臀av| 日本午夜av视频| 搡老妇女老女人老熟妇| 亚洲av成人精品一区久久| 亚洲av中文av极速乱| 天美传媒精品一区二区| 国产成人a区在线观看| av在线观看视频网站免费| 91在线精品国自产拍蜜月| 国产综合懂色| 亚洲精品日韩在线中文字幕| 国产成人a∨麻豆精品| 国产成人精品一,二区| 波多野结衣高清无吗| 成人午夜高清在线视频| a级一级毛片免费在线观看| 婷婷六月久久综合丁香| 午夜激情欧美在线| 九九在线视频观看精品| 亚洲av一区综合| 日韩视频在线欧美| 少妇被粗大猛烈的视频| 国产真实乱freesex| 欧美激情国产日韩精品一区| 国产av不卡久久| 国产久久久一区二区三区| 日韩欧美 国产精品| 我要看日韩黄色一级片| 高清在线视频一区二区三区 | 国产黄色小视频在线观看| 精品久久久久久久久久久久久| 我的老师免费观看完整版| 欧美性感艳星| 又爽又黄a免费视频| 美女大奶头视频| 国产片特级美女逼逼视频| 免费av观看视频| 国产精品av视频在线免费观看| 国产淫片久久久久久久久| av在线亚洲专区| 色综合亚洲欧美另类图片| 久久久久网色| 九草在线视频观看| 少妇的逼好多水| 国产乱人偷精品视频| 只有这里有精品99| 99久国产av精品国产电影| 尾随美女入室| 国产男人的电影天堂91| 精品久久久久久成人av| 午夜福利网站1000一区二区三区| 亚洲国产精品成人综合色| 久久这里有精品视频免费| 哪个播放器可以免费观看大片| 男人的好看免费观看在线视频| 91狼人影院| 久久亚洲精品不卡| 午夜精品国产一区二区电影 | 好男人在线观看高清免费视频| 人人妻人人看人人澡| 国产成人91sexporn| 一级黄片播放器| 国语自产精品视频在线第100页| 国产黄a三级三级三级人| 18禁动态无遮挡网站| 天堂中文最新版在线下载 | 女人久久www免费人成看片 | 国产伦一二天堂av在线观看| 激情 狠狠 欧美| 99久久成人亚洲精品观看| 亚洲自拍偷在线| 国产精华一区二区三区| 黄色一级大片看看| 舔av片在线| 中文在线观看免费www的网站| 黄片无遮挡物在线观看| 国内精品宾馆在线| 成人高潮视频无遮挡免费网站| 黑人高潮一二区| 欧美成人精品欧美一级黄| 寂寞人妻少妇视频99o| 深爱激情五月婷婷| 中文字幕久久专区| 99久久中文字幕三级久久日本| 非洲黑人性xxxx精品又粗又长| 身体一侧抽搐| 一区二区三区免费毛片| 夜夜爽夜夜爽视频| 99久久精品热视频| 一级av片app| 欧美日本亚洲视频在线播放| 男人和女人高潮做爰伦理| 精品酒店卫生间| 国产黄色小视频在线观看| 国产精品电影一区二区三区| 我的女老师完整版在线观看| 国产精品蜜桃在线观看| 亚洲乱码一区二区免费版| 51国产日韩欧美| 国产极品精品免费视频能看的| 91av网一区二区| 少妇猛男粗大的猛烈进出视频 | 97人妻精品一区二区三区麻豆| 在现免费观看毛片| 精品国产露脸久久av麻豆 | 丰满乱子伦码专区| 日本三级黄在线观看| 蜜臀久久99精品久久宅男| 1024手机看黄色片| 色网站视频免费| 99九九线精品视频在线观看视频| 亚洲国产日韩欧美精品在线观看| 国产成人福利小说| 久久精品国产亚洲av天美| 91aial.com中文字幕在线观看| 毛片女人毛片| 网址你懂的国产日韩在线| 一区二区三区四区激情视频| 久久亚洲国产成人精品v| 精品久久久久久久久av| 久久久久久久久久久丰满| 91久久精品电影网| 亚洲va在线va天堂va国产| 色5月婷婷丁香| 国产黄a三级三级三级人| 啦啦啦韩国在线观看视频| 我的女老师完整版在线观看| 免费黄网站久久成人精品| 在线观看av片永久免费下载| 亚洲综合精品二区| 看十八女毛片水多多多| 一夜夜www| 久久这里有精品视频免费| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美一区二区精品小视频在线| 日日摸夜夜添夜夜爱| 九草在线视频观看| 69av精品久久久久久| 在线播放无遮挡| 亚洲av成人av| 精品人妻一区二区三区麻豆| 在线免费观看的www视频| 亚洲国产精品久久男人天堂| 婷婷色综合大香蕉| 三级国产精品片| 国产女主播在线喷水免费视频网站 | 成人国产麻豆网| 麻豆av噜噜一区二区三区| 午夜福利高清视频| 亚洲综合精品二区| .国产精品久久| 18禁裸乳无遮挡免费网站照片| 伦理电影大哥的女人| 男女国产视频网站| 青春草视频在线免费观看| 精品久久国产蜜桃| 欧美97在线视频| 亚洲国产欧美在线一区| 高清在线视频一区二区三区 | 久久综合国产亚洲精品| 看片在线看免费视频| 日韩强制内射视频| 成人欧美大片| 久久人人爽人人爽人人片va| 麻豆一二三区av精品| 激情 狠狠 欧美| 欧美+日韩+精品| 国产精品女同一区二区软件| 少妇的逼水好多| 国产亚洲午夜精品一区二区久久 | 久久久久久久午夜电影| 秋霞伦理黄片| 亚洲av福利一区| 久久精品国产鲁丝片午夜精品| av免费观看日本| 婷婷色av中文字幕| 九九久久精品国产亚洲av麻豆| 欧美成人精品欧美一级黄| 黄片无遮挡物在线观看| 国产精品一二三区在线看| 日韩精品青青久久久久久| 国产精品久久视频播放| 国产成人精品久久久久久| 男插女下体视频免费在线播放| 成年版毛片免费区| 久久6这里有精品| 亚洲最大成人中文| 国产黄片视频在线免费观看| 小说图片视频综合网站| 亚洲av熟女| 黄色一级大片看看| 国产一区二区亚洲精品在线观看| 麻豆一二三区av精品| 床上黄色一级片| 国产伦精品一区二区三区四那| 精品久久久久久久久av| 91精品一卡2卡3卡4卡| 色综合站精品国产| 看片在线看免费视频| 成年女人永久免费观看视频| 少妇的逼水好多| 日韩强制内射视频| 国产午夜精品一二区理论片| 日本猛色少妇xxxxx猛交久久| 国产淫语在线视频| 欧美一区二区国产精品久久精品| 伦精品一区二区三区| 在线观看美女被高潮喷水网站| 91狼人影院| 最近视频中文字幕2019在线8| 91精品一卡2卡3卡4卡| 高清av免费在线| 老师上课跳d突然被开到最大视频| 99久久中文字幕三级久久日本| 尤物成人国产欧美一区二区三区| 免费av毛片视频| 麻豆乱淫一区二区| 在线观看一区二区三区| 亚洲av电影不卡..在线观看| 免费播放大片免费观看视频在线观看 | 国产精品电影一区二区三区| 国产国拍精品亚洲av在线观看| 成人午夜精彩视频在线观看| 亚洲欧洲日产国产| 久久久久久久久中文| 丰满乱子伦码专区| 精品酒店卫生间| 六月丁香七月| 在线观看66精品国产| 久久午夜福利片| 老女人水多毛片| 丰满人妻一区二区三区视频av| 亚洲人成网站高清观看| 国产男人的电影天堂91| 看片在线看免费视频| 日本爱情动作片www.在线观看| 搞女人的毛片| 狠狠狠狠99中文字幕| 九草在线视频观看| 一区二区三区免费毛片| 久久精品人妻少妇| 精品无人区乱码1区二区| 日韩欧美精品v在线| 欧美成人免费av一区二区三区| 日本与韩国留学比较| 女人被狂操c到高潮| 亚洲国产精品sss在线观看| 国产精品伦人一区二区| 热99在线观看视频| 国产精品野战在线观看| 欧美性感艳星| 日本熟妇午夜| 一区二区三区免费毛片| 亚洲激情五月婷婷啪啪| 国产精品伦人一区二区| 日本wwww免费看| 久久久久久久久久久丰满| 国产亚洲午夜精品一区二区久久 | 插阴视频在线观看视频| 亚洲成人av在线免费| 久久久久网色| 久久精品人妻少妇| 国产亚洲一区二区精品| 99热网站在线观看| 真实男女啪啪啪动态图| 高清av免费在线| 天堂av国产一区二区熟女人妻| 少妇丰满av| 国产91av在线免费观看| 日韩制服骚丝袜av| 人人妻人人看人人澡| 观看美女的网站| 全区人妻精品视频| 国产精品美女特级片免费视频播放器| 日韩av在线免费看完整版不卡| 韩国av在线不卡| 亚洲乱码一区二区免费版| 中文在线观看免费www的网站| 国产成人精品婷婷| 日韩在线高清观看一区二区三区| av在线天堂中文字幕| 国产成人一区二区在线| 国产亚洲精品久久久com| 22中文网久久字幕| 99热这里只有是精品在线观看| 亚洲激情五月婷婷啪啪| 极品教师在线视频| 99久久精品热视频| 中文字幕久久专区| a级毛片免费高清观看在线播放| 97超碰精品成人国产| 一边摸一边抽搐一进一小说| 22中文网久久字幕| 99热6这里只有精品| 又粗又爽又猛毛片免费看| 一本久久精品| 伦理电影大哥的女人| 综合色av麻豆| 国产成人精品一,二区| 精品久久久久久久久亚洲| 国产久久久一区二区三区| 国产成人91sexporn| 久久精品国产亚洲av天美| 看非洲黑人一级黄片| 内地一区二区视频在线| 久久婷婷人人爽人人干人人爱| 青春草国产在线视频| 秋霞在线观看毛片| 人妻夜夜爽99麻豆av| 国产精华一区二区三区| 99久久九九国产精品国产免费| 美女xxoo啪啪120秒动态图| 国产淫语在线视频| 国产精品一区二区三区四区久久| 国产av一区在线观看免费| 国产一区二区三区av在线| 三级毛片av免费| 久久久久国产网址| 一级毛片电影观看 | 99热精品在线国产| 免费不卡的大黄色大毛片视频在线观看 | 久久久久久伊人网av| 亚洲一区高清亚洲精品| 永久免费av网站大全| 亚洲va在线va天堂va国产| 欧美日韩国产亚洲二区| 精品久久国产蜜桃| 可以在线观看毛片的网站| 中文精品一卡2卡3卡4更新| 久久久久久久亚洲中文字幕| 又粗又硬又长又爽又黄的视频| 十八禁国产超污无遮挡网站| 搡女人真爽免费视频火全软件| 日本三级黄在线观看| 菩萨蛮人人尽说江南好唐韦庄 | 精品久久久久久成人av| 久久精品国产自在天天线| 级片在线观看| 少妇的逼好多水| 欧美日韩国产亚洲二区| 男女视频在线观看网站免费| 熟女电影av网| 国产麻豆成人av免费视频| 日韩欧美精品v在线| 男女那种视频在线观看| 免费看美女性在线毛片视频| 人人妻人人澡人人爽人人夜夜 | 日本免费a在线| 在线观看66精品国产| 麻豆成人午夜福利视频| 男女啪啪激烈高潮av片| 成年免费大片在线观看| 26uuu在线亚洲综合色| 又爽又黄a免费视频| 看非洲黑人一级黄片| 亚洲美女搞黄在线观看| 亚洲欧美成人综合另类久久久 | 国产精品不卡视频一区二区| 免费不卡的大黄色大毛片视频在线观看 | 国产精品人妻久久久影院| 国产一区有黄有色的免费视频 | 人妻制服诱惑在线中文字幕| 日本av手机在线免费观看| 麻豆成人av视频| av在线天堂中文字幕| 国产精品99久久久久久久久| 男女视频在线观看网站免费| 亚洲精品亚洲一区二区| 成人美女网站在线观看视频|