文|美國福祿克公司 尹 崗
這是千兆向萬兆升級時常見問題,被稱作“升級陣痛”。主要表現(xiàn)是升級后誤碼率高,或無法實現(xiàn)升級。
單模光纖通常是因為光纖衰減值過大或者跳線、連接點光纖端面臟污所致,一般經(jīng)過清潔端面就可以改善。
多模光纖的情況稍微復(fù)雜一些,多模62.5μm的光纖萬兆只能實現(xiàn)穩(wěn)定的26m長度,超過26m則可能無法實現(xiàn)升級連接。所以,升級前需要確認光纖是否是50μm的OM3光纖,如果是還要檢查長度是否超過300m,光纖的衰減值是否超過2.6dB。滿足上述條件一般可以成功升級為萬兆光纖鏈路,但仍有部分鏈路會出現(xiàn)誤碼率高或者不能實現(xiàn)連接的情況。這里面的原因主要是光纖鏈路中存在質(zhì)量較差的連接點或者熔接點,雖然總的衰減值沒有超差,但這些問題“點”會引起誤碼率上升。不少網(wǎng)管和維護人員往往花費大量時間去嘗試更換交換機/路由器的光模塊,甚至更換主機,直至精疲力竭無計可施的時候才開始再次懷疑光纖本身是否有問題,但如果有多余備用光纖,則這個問題會繼續(xù)潛伏下來,直至下一個升級失敗。
由于OM3是“激光優(yōu)化”光纖(折射率漸變光纖),所以光纖熔接的質(zhì)量(比如端面是否對齊)會嚴重影響信號的色散表現(xiàn)。同樣,連接器臟污、直徑不匹配、軸心不匹配等都會明顯地影響色散值,導(dǎo)致誤碼率上升直至無法連接。
顯然,最好的辦法是在現(xiàn)場對萬兆信號的色散進行測試,但由于現(xiàn)場測試設(shè)備價格昂貴(一般是基于實驗室的臺式設(shè)備),使用不變,故TSB140建議了另一種間接的測試方法,那就是光纖鏈路的二級測試,二級測試是指在一級測試的基礎(chǔ)上增加OTDR曲線測試,以便確認鏈路中是否存在引起質(zhì)量下降的“事件”。此處所指的OTDR曲線的測試方法使用常見的高解析度OTDR,測試結(jié)果將反映出光纖鏈路中每個連接點的反射值、脈沖變形、隱形短跳線、熔接點、過度彎曲、光纖氣泡、直徑不匹配、材料混用等問題,這些因素是造成萬兆鏈路色散超差的重要原因。雖然不能直接測試色散值,但用這個方法可以解決98%以上的升級陣痛問題,如圖1所示。
圖1 OTDR曲線舉例(反射峰是接頭,下跌處是熔接點或彎曲過度點)
測試的時候需要注意三個問題:
一是一定要使用高解析度的OTDR。由于長途干線OTDR一般設(shè)計為大動態(tài)范圍,長距離量程,低解析度,故不適合短距離萬兆鏈路的精確測試,應(yīng)選用高解析度的OTDR測試儀(通常這類OTDR被稱作園區(qū)網(wǎng)類OTDR,適合短距離、多跳接、數(shù)量龐大的局域網(wǎng)/園區(qū)網(wǎng))。
二是使用補償光纖。由于OTDR存在發(fā)射死區(qū)和事件死區(qū),所以被測鏈路與OTDR測試端口的第一個“連接點”往往是不能被準確測試的,常見問題就是雖然OTDR測試合格,但鏈路還是不能升級至萬兆,退回到千兆則工作“仍”很正常。解決的辦法就是使用一段發(fā)射補償光纖“嵌入”到OTDR和被測鏈路中,這樣被測鏈路的第一個連接點就被移至發(fā)射補償光纖的另一端,由于發(fā)射補償光纖有一定長度(比如100m),一般都能避開事件死區(qū)和衰減死區(qū),讓第一個連接點完全暴露于精確的檢測段之中。
與發(fā)射補償光纖類似,被測鏈路的末端由于OTDR測試時是開路的,所以反射的光信號“波形”與非開路狀態(tài)是不同的,而實際工作中均處于非開路狀態(tài)(后面一定連接有鏈接器),所以,為了正確評估一條光纖是否能支持萬兆,還需要在末端加上一條接收補償光纖(通常也是100m),這樣就能完整地檢測出被測光纖鏈路從“頭”至“尾”連接質(zhì)量,如圖2所示。
圖2 面包(補償光纖)
三是雙向測試。由于多模萬兆光纖鏈路一般都很短(300m),絕大多數(shù)都在室內(nèi)設(shè)置不止一個跳接,用來跳接的跳線一般都很短,比如2m的跳線在OTDR曲線的“事件評估表”中會被標注為隱藏事件,也就是說跳線的一端質(zhì)量會被評估,而另一端質(zhì)量則被隱藏。為了準確地評估整條鏈路,則需要反向再測試一次,以便觀察跳線另一端連接點的質(zhì)量。
診斷及處理方法:根據(jù)高解析度OTDR提供的測試曲線和事件評估表,我們可以清楚地定位出現(xiàn)問題的連接點/熔接點以及事故點的精確位置。如果是接頭臟污,則清潔之;如果是端面研磨質(zhì)量問題(比如破損,檢查工具如圖3所示),則需要重新更換跳線或者更換尾纖;如果是熔接點質(zhì)量問題,則需要重新熔接光纖;如果是氣泡則需要更換光纖;如果是彎曲半徑過小或者捆扎過緊則需要采取對應(yīng)措施。
圖3 光纖顯微鏡
電纜鏈路及其連接的萬兆設(shè)備總造價比光纖設(shè)備低20%~40%,是部分預(yù)算偏緊的用戶的最佳選擇。
一般Cat.6的電纜鏈路不能支持100m萬兆連接,但如果距離較短(比如37m以內(nèi)),則支持萬兆沒有問題。屏蔽的Cat.6支持萬兆100m基本沒有問題,如果要采用非屏蔽,則Cat.6A是較好選擇。
那么,升級前如何保證所選擇的鏈路能支持萬兆鏈路呢?是不是所有Cat.6鏈路就不能支持100m萬兆鏈路?
升級前的評估很重要。如果是Cat.6屏蔽線,升級前一般只要檢查單根電纜滿足Cat.6電纜要求以及接地檢查沒有問題即可勝任。如果是Cat.6非屏蔽電纜,則需要加測外部串擾參數(shù),比如PS ANEXT、PA AACR-F等,如果符合要求也可以穩(wěn)定地支持萬兆。外部串擾測試不合格的鏈路可以采取減小電纜束的方法,這樣可以減少電纜線束間的外部串擾,直至達到要求。需要注意的是,這類電纜鏈路需要加注,不允許今后再次增加敷設(shè)電纜鏈路的數(shù)量,否則可能制造出新的“失敗鏈路”,并引發(fā)在用鏈路的批量性能故障。
診斷及處理方法:使用HDTDR和HDTDX等工具可以直觀地查看問題出現(xiàn)的精確物理位置。如果是電纜受傷或者彎曲半徑過小、捆扎過緊、連續(xù)彎曲布線等,則需要在故障位置采取對應(yīng)措施;如果提示是模塊處出現(xiàn)問題,則需要重新打接模塊、更換模塊、更換跳線或者水晶頭等;如果是電纜質(zhì)量本身有問題,則需要更換電纜或者啟用富余的備用電纜;如果是因為電纜束過大則需要重新分束或者重新敷設(shè)高質(zhì)量的電纜。
為了控制因人員因素引發(fā)的不安全事故,廣泛采用數(shù)據(jù)集中的數(shù)據(jù)中心建設(shè)方法。這樣可以把對人員的控制減少到少數(shù)幾個人,大大減少了人員控制的風(fēng)險。但這會造成設(shè)備升級的速度加快。通常最常見的升級內(nèi)容是增加服務(wù)器和存儲設(shè)備的數(shù)量,這需要使用新的跳線來連接服務(wù)器、交換機和存儲設(shè)備,形成新的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。跳線質(zhì)量問題是引發(fā)這類升級失敗的最常見原因。
光纖跳線不合格主要集中在端面污染、軸心不匹配和回波損耗超標。投入運行前應(yīng)該對選用的跳線進行質(zhì)量檢驗(這個環(huán)節(jié)在10/100M低速鏈路中通常不需要),檢驗的內(nèi)容是參數(shù)檢驗和光學(xué)檢驗。參數(shù)檢驗主要是檢測跳線損耗和回波損耗是否符合要求,光學(xué)檢驗主要是使用光纖顯微鏡檢查跳線端面的清潔度和研磨質(zhì)量。參數(shù)檢驗合格的跳線有可能端面不經(jīng)意中受到像指紋等類似“事件”的污染,導(dǎo)致誤碼率上升甚至連接失敗。參數(shù)檢驗不合格的跳線經(jīng)過清潔后多數(shù)也都能恢復(fù)正常,所以,在升級高速鏈路的時候一般都要求安裝工藝中一定要執(zhí)行檢查和清潔端面這個最有效的質(zhì)保環(huán)節(jié)。
電纜跳線不合格主要集中在水晶頭不合格、跳線與設(shè)備插座不匹配等情況。Cat.6和 Cat.6A對部分廠商的產(chǎn)品來說存在兼容性要求的,也就是說必須使用廠商指定的跳線。使用制定跳線雖然會提高鏈路的整體質(zhì)量,但也會帶來一些麻煩,最大的麻煩就是不兼容。如果一個網(wǎng)管人員習(xí)慣使用某個廠商的跳線,則新來“接班”的網(wǎng)管人員則可能因為不了解這種默認“嗜好”而在新增設(shè)備或者調(diào)整網(wǎng)絡(luò)拓撲結(jié)構(gòu)的時候使用他喜歡的其他廠家的跳線,這就可能引發(fā)升級失敗的風(fēng)險。如何保證系統(tǒng)所用的跳線是兼容的?最簡單的辦法是:使用兼容性的永久鏈路適配器進行鏈路檢測,如果檢測通過則證明此鏈路是支持跳線互換的。然后,在接入新的跳線時對批量采購回來的跳線進行兼容性檢測,如果檢測合格則可以大膽使用這種可互換性兼容跳線。
診斷及處理方法:測試光纖跳線的衰減值和回波損耗值,查看和清潔光纖端面,直至更換新的合格的光纖;測試電纜跳線的參數(shù),確認跳線是否參數(shù)達標且符合互換性要求,否則更換電纜跳線及品牌,直至合格。
由于計算機網(wǎng)絡(luò)的可靠性要求規(guī)范體系建立比較緩慢,造成系統(tǒng)管理維護上普遍采用“事后維護”的方式進行,“事后維護”是指不出問題不去維護,出了問題采取維護這樣一種維護觀念和方式,它對高可靠性網(wǎng)絡(luò)往往帶來災(zāi)難性的后果和巨大損失,人們此時往往熱衷于談?wù)撊绾巍巴鲅蜓a牢”,仍然較少討論如何未雨綢繆,防患于未然。這種非常落后的方式之所以大行其道,主要還是因為目前個體用戶的實際使用帶寬較低,特別是視頻帶寬供應(yīng)不足造成的。對要求較高的數(shù)據(jù)中心用戶,在國際國內(nèi)標準中均有部分涉及(比如TIA 942、GB 50174等),但對可靠性和電纜光纜系統(tǒng)的對應(yīng)要求上還是比較模糊的。
其實,達到高可靠性的手段很簡單,那就是合理采取選型測試、進場檢測、監(jiān)理測試/隨工檢測、升級評估檢測、開通檢測、定期檢測、進貨檢測等手段。目前的現(xiàn)狀是,驗收測試是第一次也是最后一次質(zhì)量把關(guān)的機會,對于建成后的網(wǎng)絡(luò)雖然至關(guān)重要,但是其中堅持定期檢測才是最有效防止問題出現(xiàn)的簡便手段。遺憾的是,這是整個可靠性保證環(huán)節(jié)中最難控制的環(huán)節(jié),也是最容易被忽視的手段,即便我們?yōu)榇烁冻龈甙捍鷥r也“在所不惜”。
光纖、跳線等的質(zhì)量檢測屬于元件級檢測。同樣地,電纜、模塊、跳線也屬于元件級檢測范疇。一般應(yīng)使用對應(yīng)的標準和適配器去進行檢測。比如,電纜檢測應(yīng)使用電纜測試標準和電纜測試適配器,不應(yīng)使用通道測試標準和通道適配器來進行檢測;跳線則應(yīng)該使用跳線測試標準和跳線適配器來進行檢測,而不應(yīng)使用通道測試標準和通道測試適配器來進行檢測。事實上,使用通道標準和通道測試適配器來進行電纜和跳線的檢測曾經(jīng)在集成商和工程商中間非常流行,在部分生產(chǎn)商特別是跳線生產(chǎn)商當中至今也沒有絕跡。
另一個需要注意的問題就是電纜的兼容性問題,也就是前面提到的居中性問題。從Cat.6到Cat.6A都存在這個問題,這造成跳線互換使用的過程中出現(xiàn)種種問題,給甲方造成巨大的困惑。
對于Cat.5e及以下規(guī)格的鏈路,雖然基本上不存在兼容性問題,但仍然存在只是檢測連通性的普遍問題。