馬 馳,丘航丁,鮑家旺,徐浩東
(福州大學(xué) 電氣工程與自動(dòng)化學(xué)院,福建 福州 350108)
隨著工業(yè)物聯(lián)網(wǎng)(Industrial Internet of Things,IIoT)的快速發(fā)展,頻譜資源短缺已成為制約IIoT發(fā)展的關(guān)鍵瓶頸。頻譜稀缺的威脅促使政府采取重要措施,釋放多個(gè)波段進(jìn)行動(dòng)態(tài)頻譜共享。電視空白頻段是第一個(gè)被考慮的頻譜共享的主要實(shí)例。它是指超高頻頻譜中未使用的電視頻譜(TVS)。
認(rèn)知無線電(Cognitive Radio,CR)可以通過訪問主用戶(Primary User,PU)擁有的頻譜來最大限度地提高頻譜利用率。這被認(rèn)為是解決快速增長(zhǎng)的移動(dòng)流量與頻譜短缺之間矛盾的有效途徑。頻譜感知是CR通過重復(fù)利用未充分使用的頻譜來解決頻譜資源不足的關(guān)鍵技術(shù)。頻譜感知允許認(rèn)知物聯(lián)網(wǎng)(Cognitive Industrial Internet of Things,CIIoT)設(shè)備識(shí)別未使用的TVS,并避免對(duì)PU造成干擾。然而,由于噪聲和信道等不確定性,頻譜感知的檢測(cè)性能可能會(huì)顯著惡化。協(xié)作頻譜感知(Cooperative Spectrum Sensing,CSS)通過多個(gè)次用戶(Secondary Users,SUs)合作的全局感知結(jié)果來提高衰落和陰影信道的感知性能。協(xié)作頻譜感知雖然可以很好地提高傳感性能,但其能耗很大。
受限于電池容量,物聯(lián)網(wǎng)設(shè)備很難長(zhǎng)時(shí)間運(yùn)行。能量采集(Energy Harvesting,EH)允許設(shè)備從環(huán)境中獲取能量,以補(bǔ)充電池,廣泛應(yīng)用于室內(nèi)和戶外多種場(chǎng)景。然而,在CSS中,EH的應(yīng)用可能會(huì)加劇SUs采用不感知的態(tài)度。SUs向融合中心(Fusion Center,F(xiàn)C)發(fā)送感知結(jié)果的過程中,自私的SUs可能發(fā)送通過監(jiān)聽其他SUs得到的結(jié)果。因此,出現(xiàn)了兩種類型的感知SUs:參與頻譜感知的貢獻(xiàn)用戶(CUs)和不參與頻譜感知的搭便車用戶(FUs)。而FUs選擇免費(fèi)使用他人的感知結(jié)果,并可能獲得更高的盈利能力。文獻(xiàn)[1]中,搭便車用戶的問題首先被建模為公共物品博弈。文獻(xiàn)[2]中,作者使用演化博弈來優(yōu)化SU的搭便車行為以獲得最大吞吐量。雖然這些論文考慮了SUs的兩種感知態(tài)度,但沒有考慮在SUs分布不均時(shí)平衡每個(gè)感知聯(lián)盟之間的性能。
博弈論是分析理性決策者之間競(jìng)爭(zhēng)最優(yōu)行為的有效工具。文獻(xiàn)[3]中,作者將多信道頻譜感知和信道訪問問題表述為一個(gè)享樂聯(lián)盟形成博弈(HCFG),其中一個(gè)聯(lián)盟對(duì)應(yīng)于選擇感知和訪問特定信道的SUs。與傳統(tǒng)的博弈論不同,演化博弈論(Evolutionary Game,EG)既不要求玩家完全理性,也不需要完整的信息。EG理論將博弈論分析與動(dòng)態(tài)進(jìn)化過程分析相結(jié)合。文獻(xiàn)[4]中,作者將自我驅(qū)動(dòng)車輛節(jié)點(diǎn)之間的競(jìng)爭(zhēng)作為一個(gè)EG,并研究了納什均衡的基本性質(zhì)和進(jìn)化穩(wěn)定性。
與現(xiàn)有的研究不同,在CIIoT中,本文是首次嘗試解決自私用戶在多信道中CSS的問題,其中SUs可能不愿意參與頻譜感知。在兩層博弈的基礎(chǔ)上,本文引入了一種新的懲罰機(jī)制來動(dòng)態(tài)調(diào)整用戶感知態(tài)度和用戶感知聯(lián)盟。該方法可以有效優(yōu)化各個(gè)聯(lián)盟的吞吐量、檢測(cè)概率以及誤警概率。
本文規(guī)定一個(gè)聯(lián)盟只能感知一個(gè)PU信道,則存在M個(gè)PUs信道分別被M個(gè)聯(lián)盟感知。其中,PUs可 用M={1,2,…,M}表 示,由N個(gè)SUs共 享。PU在一個(gè)帶寬上用K個(gè)子載波(K>N)傳輸信號(hào)。當(dāng)PU不存在時(shí),每個(gè)SU可以使用K個(gè)子載波中的任何一個(gè)。在每個(gè)時(shí)間段,每個(gè)SU必須感知PU上的一個(gè)子載波,以確定PU是否正在傳輸。
SUs可以自由選擇聯(lián)盟感知態(tài)度和感知聯(lián)盟。在同一感知時(shí)隙內(nèi),不同的聯(lián)盟必須感知不同的通道。在聯(lián)盟中,檢測(cè)概率最高的SU被認(rèn)為是聯(lián)盟首領(lǐng)(CH)。CH在聯(lián)盟中扮演著FC的角色。假設(shè)噪聲是一個(gè)獨(dú)立的、同分布的均值和方差為零的隨 機(jī) 過 程(independent and identically distributed,i.i.d.)。在瑞利衰落環(huán)境中,SUi檢測(cè)PUj信道狀態(tài)的檢測(cè)概率和誤警概率分別由Pd,i,j和Pf,i,j表示:
式中:Yi,j為SUi感知PUj狀態(tài)的標(biāo)準(zhǔn)化輸出,θj為PUj的檢測(cè)閾值,m為時(shí)間帶寬乘積,γ-i,j為接收信號(hào)從PU到SU的平均信噪比。需要注意,Γ(.,.)是不完全的伽馬函數(shù),而Γ(.)是伽馬函數(shù)。在檢測(cè)PU信道時(shí),漏檢概率為
在聯(lián)盟Ω中,由于控制信道傳輸傳感結(jié)果為0和1,對(duì)應(yīng)的誤差報(bào)告概率可以表示為
假設(shè)每個(gè)SU一次只能執(zhí)行一個(gè)任務(wù),如圖1所示。在能量采集時(shí)隙中,采集到的能量將用于感知PU信道和傳輸數(shù)據(jù)。傳感槽中的感知結(jié)果顯示了PU是否存在。在傳輸時(shí)隙期間,SUs只有在檢測(cè)到PU缺失時(shí)SU才能通信。在每個(gè)時(shí)隙中,M個(gè)主通道被同步感知。
圖1 時(shí)隙結(jié)構(gòu)圖
CUs遵循圖1(a)所示的時(shí)間框架結(jié)構(gòu),可分為三個(gè)階段。與CUs相比,F(xiàn)Us不感知信道,因此有更多的時(shí)間來獲取能量和傳輸數(shù)據(jù)。FUs遵循圖1(b)所示的時(shí)間框架結(jié)構(gòu)。根據(jù)時(shí)間結(jié)構(gòu),可以分別計(jì)算出Th期間的收獲能量為
式中:PH1表示PU存在的概率,PH0表示PU不存在的概率,RH0表示在PU不存在時(shí)SUs的平均吞吐量,RH1表示在PU存在時(shí)SUs的平均吞吐量。在動(dòng)態(tài)頻譜訪問中,要求SUs的操作不應(yīng)與PUs發(fā)生沖突或干擾,而Pd應(yīng)該非常接近于1。此外,由于PUs對(duì)SUs的干擾,通常有式(10)的第二項(xiàng)比第一項(xiàng)要小得多。為了簡(jiǎn)化公式,如圖1(a)所示框架結(jié)構(gòu)中CUs的吞吐量RiC可表示為
式中:Tt1=β(1-α)T。同樣,如圖1(b)所示框架結(jié)構(gòu)中FUs的吞吐量RiF可表示為
式中:Tt2=(1-α)T。
考慮到FUs不對(duì)聯(lián)盟檢測(cè)概率做出貢獻(xiàn),需對(duì)其施加一定的懲罰。懲罰函數(shù)可被表示為
式中:λ為定義懲罰嚴(yán)厲性的預(yù)定參數(shù),Pd j為PUj的檢測(cè)概率。對(duì)檢測(cè)性能的滿意度的S型函數(shù)計(jì)算為
式(15)和式(16)的第一項(xiàng)fc(x)是每個(gè)SU相對(duì)于可實(shí)現(xiàn)吞吐量的滿意度函數(shù),為簡(jiǎn)單起見,選擇設(shè)置fc(x)=μx,即:式中:μ為SUi將吞吐量利潤轉(zhuǎn)化為相應(yīng)的能源利潤以統(tǒng)一單位的參數(shù)。
所有SUs通過其優(yōu)化感知態(tài)度和感知聯(lián)盟來最大化其效用。因此,SUi優(yōu)化問題表述如下:
式中:ai表示為SUi采取的感知態(tài)度,ai∈{C,F},bi表示為SUi加入的感知聯(lián)盟。
針對(duì)式(19)的優(yōu)化問題,本文提出了一個(gè)基于雙層博弈的協(xié)作感知和接入算法(TL-CSAG)。SUs需要在下一個(gè)時(shí)間段之前選擇一個(gè)策略組合S=(A,B)。在該博弈中,SUs被視為參與者,Ui被視為SUi的效用函數(shù),SUi的策略用si=(ai(bi),bi)表示。A是在每個(gè)聯(lián)盟中SUs的感知態(tài)度的集合,B是SUs選 擇 的 感 知 聯(lián) 盟 集合,B={b1,b2,…,bN},其中bi∈Ω={Ω1,…,ΩM}。表示在每個(gè)聯(lián)盟中SUi對(duì)應(yīng)的感知態(tài)度,ai(Ω2),…,ai(ΩM)},ai(Ωj)表示在聯(lián)盟Ωj中SUi對(duì)應(yīng)的感知態(tài)度。
由于所有的SUs都是理性和自私的,它們?cè)谶M(jìn)化過程中傾向于最大化自己的效用。在每個(gè)時(shí)間槽,每個(gè)SU計(jì)算自己的效用,如果SUi的策略si=(C,Ωj)的效用高于SUi從所有態(tài)度選擇的平均效用獲得“C”的概率被采用在下一個(gè)時(shí)間槽增加。為了描述Ωj中SUi的演化,構(gòu)造以下微分方程:
式中:ηi為由SUi確定的調(diào)整步長(zhǎng)??梢酝茢?,如果策略“C”產(chǎn)生的收益高于所有i?策略的平均收益,那么SUi選擇策略“C”的概率將會(huì)增加,因?yàn)槲磥聿呗浴癈”的選擇次數(shù)將會(huì)增加。下一個(gè)時(shí)隙中,在Ωj中SUi選擇“C”策略時(shí)的概率可以計(jì)算為
式(21)描述了選擇一個(gè)感知態(tài)度的動(dòng)態(tài)過程。該概率的默認(rèn)最小值和最大值分別為0和1。需要注意的是,兩種不同策略的概率之和為1。因此,只需要推導(dǎo)出“C”或“F”的概率。
為了表示聯(lián)盟形成的過程,定義一個(gè)交換規(guī)則如下。
定義1(切換規(guī)則):給定SUs的集合N的一 個(gè)分區(qū)∏={Ω1,…,Ωm,…,ΩM},SUi∈Ωm決定 離開當(dāng)前聯(lián)盟Ωm,加入另一個(gè)聯(lián)盟Ωm′∈∏,其中m≠m′,當(dāng)且僅當(dāng)Ωm′∪{i}i?Ωm,其中i?是SUi的偏好關(guān)系。因此,{Ωm,Ωm′}→{Ωm{i},Ωm′∪{i}}。
為了評(píng)估SUi對(duì)其自身可能的聯(lián)盟集的偏好,引入偏好關(guān)系的概念。
式中:Ω1和Ω2是SUi可能加入的兩個(gè)可能的聯(lián)盟。
i■的不對(duì)稱對(duì)應(yīng)物表示為i?,當(dāng)在Ω1i?Ω2中使用時(shí),意味著SUi嚴(yán)格地更傾向于加入聯(lián)盟Ω1而不是聯(lián)盟Ω2。uiΩm是SUi在聯(lián)盟Ωm中的偏好函數(shù),定義如下:
根據(jù)式(22)中SUs的偏好關(guān)系,當(dāng)不考慮SUi的歷史集時(shí),可以認(rèn)為
式(24)中的偏好函數(shù)允許SUs選擇一個(gè)聯(lián)盟,最大化它們的效用。SUs避免了它之前訪問過的任何聯(lián)盟。這有助于降低享樂主義聯(lián)盟形成算法的復(fù)雜性,因?yàn)橐呀?jīng)訪問過的聯(lián)盟被排除在SUs的選擇集合之外。給定了SUi的偏好函數(shù),通過比較每個(gè)聯(lián)盟的SUi的效用,可以很容易地生成偏好關(guān)系。
詳細(xì)的訓(xùn)練過程在算法1中描述。在初始化階段,選擇每個(gè)聯(lián)盟中檢測(cè)概率最高的SU作為CH,它始終處于合作態(tài)度。然后通過各SUs間的演化,得到各聯(lián)盟感知態(tài)度策略的NE(A*)。在A*的基礎(chǔ)上,通過交換規(guī)則可以獲得感知聯(lián)盟的NE(Ω*)。
算法1 雙層協(xié)作頻譜感知和接入算法(TLCSAG)
初始化:設(shè)置迭代次數(shù)t=1,初始感知策略概率P0=50%,初始化參數(shù)μ,η;隨機(jī)初始化SUs的感知態(tài)度A={a1,a2,…,aN};將SUs隨機(jī)且均勻的分配到各個(gè)聯(lián)盟Ω={Ω1,Ω2,…,Ωk}(1≤k≤M)。
輸出:A*和Ω*;
步驟1 在聯(lián)盟Ωk中,計(jì)算所有聯(lián)盟中SUs的檢測(cè)概率Pd k,將具有最高的檢測(cè)概率的SU設(shè)為聯(lián)盟首領(lǐng)CHk,設(shè)置其感知態(tài)度a→“C”步驟2 whileS≠S*且t=1:Max do步驟3t←t+1
從Ω中隨機(jī)選擇兩個(gè)聯(lián)盟Ωn和Ωm,在Ωn中選擇SUi加入到另外一個(gè)聯(lián)盟Ωm中,{Ωn,Ωm}→{Ωn′,Ωm′}={Ωn{i},Ωm∪{i}};
步驟4SUi在聯(lián)盟Ωm中以概率Pim(a,t)選擇選擇感知態(tài)度a,a∈{C,F};
步驟5 計(jì)算在聯(lián)盟Ωn中的SUi的效用uin(ai,t),計(jì)算在交換后聯(lián)盟Ωm′中的效用
步驟6SUi根據(jù)定義1決定是否加入聯(lián)盟Ωm;
步驟8 whileA收斂 do
步驟9t←t+1;
步驟10 重復(fù)步驟5、步驟6;
步驟11 設(shè)置A←A*;
步驟12 重復(fù)步驟8,直到得到Ω*;
步驟13 end while步驟14 end while
本節(jié)對(duì)所提方法的性能進(jìn)行仿真。在已建成的模擬平臺(tái)上,空間環(huán)境建立在1 km×1 km的平面坐標(biāo)系中。在坐標(biāo)系中隨機(jī)分布3個(gè)PUs和15個(gè)SUs。系統(tǒng)中,幀長(zhǎng)時(shí)間為T=10 ms,其余部分仿真參數(shù)如表1所示。這里使用文獻(xiàn)[5]提出的方法作為比較,“Con”表示文獻(xiàn)[5]中提出的方法。隨機(jī)算法通過隨機(jī)化所有SUs的感知態(tài)度和感知聯(lián)盟。
表1 仿真參數(shù)
本文研究了λ和SUs的數(shù)量對(duì)合作概率的影響。如圖2所示,結(jié)果表明,當(dāng)λ增加時(shí),合作的概率增加。此外,當(dāng)SUs的數(shù)量趨近于無窮時(shí),合作的概率趨近于零。當(dāng)CUs的數(shù)量達(dá)到一定數(shù)量時(shí),在聯(lián)盟中增加更多的SUs并不會(huì)增加合作者的數(shù)量。
圖2 合作概率與SUs的數(shù)量的關(guān)系
圖3比較和分析了傳統(tǒng)方法[5]、隨機(jī)算法和TL-CSAG在檢測(cè)概率和誤警概率方面的性能。達(dá)到平衡狀態(tài)后,與隨機(jī)方法和常規(guī)方法相比,三個(gè)聯(lián)盟的平均Pd分別提高了4.3%和2.3%,三個(gè)聯(lián)盟的平均Pf分別降低了205.7%和46.7%。如圖4所示,在達(dá)到常規(guī)方法和TL-CSAG的平衡狀態(tài)后,三個(gè)聯(lián)盟的平均吞吐量分別提高了40.9%和13.1%。
圖3 三種算法的比較
圖4 迭代次數(shù)和吞吐量之間的關(guān)系
本文提出了一種基于兩層博弈的協(xié)作頻譜感知和訪問方法。在兩層博弈的頂層,SUs是否感知通道的問題被表述為EG。由于自私SUs采用搭便車策略將獲得更高的效用,自私SUs的感知態(tài)度都將演變成穩(wěn)定的搭便車策略。本文方法通過引入懲罰機(jī)制,有效地提高自私SUs的合作概率,來提高聯(lián)盟檢測(cè)概率。在底層,SUs選擇哪個(gè)信道的問題被表述為一個(gè)HCFG。通過加入具有更高效用的聯(lián)盟來平衡聯(lián)盟之間的性能。與傳統(tǒng)方法相比,該方法能更好地平衡各聯(lián)盟的資源。仿真結(jié)果表明,與傳統(tǒng)方法相比,SUs的吞吐量提高了13.1%,聯(lián)盟的平均檢測(cè)概率提高了2.3%,聯(lián)盟的平均誤警概率降低了46.7%。