程婉詩
(北海市中等職業(yè)技術學校,廣西 北海 536000)
近年來,大數據的爆炸式增長給其快速發(fā)展帶來了諸多挑戰(zhàn)。大數據大規(guī)模任務的低效處理是限制大數據技術高速發(fā)展的問題之一,而基于云計算技術提高大數據大規(guī)模任務處理的效率是一個切實可行的辦法[1,2]。傳統(tǒng)任務處理方法存在局限性,現(xiàn)有部分工作旨在加速任務處理,但是忽略了負載均衡問題。此外,還有一些工作集中在負載均衡問題上,沒有考慮任務處理節(jié)點的通信問題[3]。從總體上來看,目前的研究工作大多只考慮單目標優(yōu)化問題,隨著網絡任務的規(guī)模擴大和類型多樣化,在大規(guī)模的挑戰(zhàn)性應用中僅靠單域已經很難滿足大規(guī)模任務處理的需要[4]。多域共享和協(xié)作已經成為處理大規(guī)模任務的有效方法,在大數據處理的過程中,域間計算和通信資源開銷的優(yōu)化問題亟需解決[5]。
基于此,本文提出了一種基于多域的多目標組合優(yōu)化大數據大規(guī)模任務處理方法。為了實現(xiàn)系統(tǒng)整體負載均衡和通信帶寬資源成本最小化的多目標優(yōu)化,使用基于多目標粒子群的多域虛擬網絡映射算法?;谂晾弁兄淅碚?,提出一種快速有效的非支配選擇方法,用于快速獲取最優(yōu)虛擬網絡映射方案集。設計并利用擁擠度比較法來獲得最終的唯一解,通過柯西變異操作來避免局部最優(yōu)[6,7]。該方法有效提高了資源利用率,促進了各節(jié)點協(xié)調工作,提高了系統(tǒng)整體性能。同時,通過優(yōu)化通信資源,有效降低了域間數據傳輸所消耗的帶寬資源和數據延遲。
為實現(xiàn)多域環(huán)境下大規(guī)模任務處理,不僅需要提出一種高效合理且能實現(xiàn)數據中心負載均衡任務處理的方法,還要確保域間通信的帶寬資源成本最小化。基于并行計算的思想,搭建基于多域的大規(guī)模任務處理架構,利用監(jiān)控器獲取大規(guī)模任務請求的資源需求信息、多域中m個可用物理節(jié)點和n個可用物理鏈路剩余資源量的狀態(tài)信息。多目標優(yōu)化處理方法利用從監(jiān)控器獲取的信息生成虛擬網絡映射方案,并將其發(fā)送到虛擬網絡映射控制器,用以執(zhí)行映射方案。部署控制器接收并執(zhí)行基于節(jié)點和鏈路虛擬映射方案的任務部署策略,將單位時間內的任務請求部署到相應的物理節(jié)點,以便在多域中進行高效并行處理[8]。多目標優(yōu)化通信大數據高效處理方法的系統(tǒng)架構如圖1 所示。
圖1 多目標優(yōu)化大數據高效處理方法的系統(tǒng)架構
域中每個節(jié)點的處理速度取決于計算資源的處理速度以及與之相關的內部調度策略。隨著用戶請求的不斷增加,所請求的任務將根據負載均衡部署到域中的每個節(jié)點,使得節(jié)點資源能夠滿足所運行任務的要求,實現(xiàn)數據中心負載和吞吐量平衡,避免將大量任務分配給某個節(jié)點,導致過載、資源浪費以及額外功耗[9]。
根據多目標優(yōu)化大數據高效處理方法的系統(tǒng)架構,其具體實現(xiàn)過程如下。
第1 步:對多目標優(yōu)化的算法進行種群初始化,最大迭代次數設置為Gmax。初始化種群中每個粒子的位置向量Pop[i],并初始化每個粒子的速度向量Vel[i]=0。基于Kruskal 最小生成樹算法,可以在每次迭代中從可用物理路徑集合中動態(tài)選擇權重最小的物理路徑。在獲得最小生成樹后,執(zhí)行虛擬節(jié)點映射操作,并調整虛擬鏈路映射方案,以輸出最終映射方案。
第2 步:評估種群中的粒子。通過目標函數和總帶寬資源成本可以獲得每個粒子的適應度值,即
第3 步:求得帕累托最優(yōu)解集,即最優(yōu)虛擬網絡映射方案集。在保證最大映射成功率的前提下,對種群中的粒子進行過濾,以確定粒子可以被存檔。
定義以下規(guī)則:(1)若存檔在開始時為空,則將當前可行解存檔;(2)若存檔非空,且將要存檔的可行解被存檔中的某些可行解支配,則剔除被支配的可行解;(3)若存檔中沒有可行解可以支配將要存檔的可行解,則存檔新的可行解;(4)若存檔中的可行解被新的可行解支配,則自動刪除原來存檔中被支配的可行解。
第4 步:求得唯一最優(yōu)解。設計并實現(xiàn)擁擠度比較法,通過計算帕累托最優(yōu)解集中的每個可行解的擁擠度作為適應度值,并對它們進行比較,得到最終唯一解。本文需要解決一個具有2 個目標函數的多目標組合優(yōu)化問題,根據歐幾里得距離公式,每個解的擁擠程度Di為
在擁擠距離的計算中,根據本文提出的2 個目標函數的函數值,按升序對種群個體進行排序。針對每個目標函數的邊界解,設定其擁擠度為無窮大。第i個可行解的擁擠度可通過計算其所在的最小矩形的對角線長度獲得,如圖2 所示。
圖2 可行解擁擠程度的計算曲線
第5 步:將具有個體極值的歷史最優(yōu)位置向量存檔。在此進化過程中,該算法將每個粒子自身的當前位置向量設置為它的個人歷史最佳位置向量pBest,同時將每個粒子的當前適應值設置為它的個人極值。
第6 步:迭代求出最優(yōu)解。粒子的速度更新公式為
式中:w為慣性權重;Vel'[i]為空間中第i個粒子的速度向量;Pop[i]為空間中第i個粒子的位置向量;r1和r2為從0 到1 的正數,表示學習因子;pBest為個人歷史最優(yōu)位置向量;gBest為全局最優(yōu)位置向量[10]。
粒子的位置更新公式為
處理超出搜索空間邊界的粒子,將其位置向量定義為對應邊界值,并將當前粒子速度乘以-1,以實現(xiàn)反向運動。評價種群中的粒子,分別更新pBest和gBest。在保證最高映射成功率的前提下,根據本文提出的快速非支配排序方法和擁擠度比較法,對當前全局最優(yōu)位置向量進行更新和存檔。同時,個人歷史最優(yōu)位置向量也進行更新,即
對于個人歷史最優(yōu)位置向量的更新,如果當前某一解被存檔中的解所支配,則原來的解保留在存檔中;否則使用當前解替換存檔中的解。如果2 者間不存在支配關系,隨機選擇它們中的任何一個作為當前歷史個人最優(yōu)位置向量。
引入柯西變異方法,對全局最優(yōu)位置向量gBest執(zhí)行變異操作。設種群中第j維粒子的平均速度為
式中:Velij表示第i個粒子在第j維的運動速度;ScalePop表示粒子種群的大小。
種群中各粒子的柯西變異操作公式為
式中:y為一個控制變異步長的常數;C為一個0 到1 之間的隨機數。
在求解過程中,可以將式(8)轉化為針對定義域[Popmin,Popmax]平均速度Aelavgj的形式,即
基于以上敘述,對全局最優(yōu)位置向量gBest進行變異操作。經過變異后的可行解為
式中:F為隨機數;(Popmin,Popmax)為針對問題的定義域。
通過比較可行解和全局最優(yōu)位置向量gBest,擇優(yōu)進行存檔更新,使其成為下一迭代過程中粒子運動領導者,然后執(zhí)行迭代直到最大迭代次數為止。
本文提出了一種基于云計算的大數據環(huán)境下多目標優(yōu)化大規(guī)模任務高效處理方法。首先基于粒子群優(yōu)化算法和帕累托支配理論,能夠快速求得虛擬網絡映射方案最優(yōu)解集,即算法過程中的帕累托最優(yōu)解集。其次設計并利用擁擠度比較法從帕累托最優(yōu)解集中選擇最終唯一解,同時保證算法的種群多樣性。最后利用柯西變異操作避免了算法局部最優(yōu),提高了算法的性能,由此得到最終唯一最優(yōu)解,即最優(yōu)虛擬網絡映射方案,實現(xiàn)了大規(guī)模任務部署。通過優(yōu)化通信資源,有效降低了域間數據傳輸所消耗的帶寬資源和數據延遲。