HUAWEI交換機如何判斷環路故障
- 2022 年 2 月 9 日
- 筆記
- NetWork 其他, NetWork 疑問解答
定義
以太網交換網絡中為了提高網絡可靠性,通常會採用冗餘設備和冗餘鏈路,然而現網中由於組網調整、配置修改、升級割接等原因,經常會造成數據或協議報文環形轉發,不可避免的形成環路。如圖1所示,三台設備兩兩相連就會形成環路。當設備未部署環路保護協議或者組網配置發生變更時,環形組網中就可能會產生廣播風暴。
圖1 以太網交換網絡冗餘鏈路組網圖
二層環路最大的危害就是會產生廣播風暴,以太網是一個支持廣播的網絡,在沒有環路的環境中,廣播包在網絡中以泛洪的形式被送達到網絡的每一個角落,以保證每個設備都能夠接受到它。在帶寬允許的情況下,每個網橋在接收到廣播報文以後,都會向除接收端口以外的其他所有接口轉發這個廣播包,一旦網絡中有環路,這種簡單的廣播機制就會引發災難性後果。
環路中一個廣播報文被反覆轉發了千萬次,產生了廣播風暴並且很快達到或接近端口線速,並迅速消耗鏈路帶寬。根據轉發規則,這些廣播報文不僅僅只是在環路上無限轉發,環路設備還會向其他端口轉發一份,這樣整個網絡中都充斥着大量重複廣播報文。如果全網絡都採用千兆端口互連,那麼幾乎每一條鏈路上都充斥着1000M/s的廣播報文,正常的數據報文將很難再獲得轉發的機會。
二層網絡設備處於同一個廣播域下,廣播報文在環路中會反覆持續傳送,無限循環,形成廣播風暴,引發MAC地址表不穩定等故障現象,進而影響正常業務,導致用戶通信質量較差,甚至通信中斷。
為防止環路出現,並保證網絡的可靠性,交換機設備上通常會部署一些破環協議。目前S系列交換機支持的二層環路破環協議主要有:
- STP/RSTP/MSTP
- RRPP
- SEP
- Smart Link
- ERPS
除了二層環路破環協議,S系列交換機同時支持環路檢測技術,主要的環路檢測技術有:
- Loop Detection
- Loopback Detection
總體思路
所有故障皆「事出有因」,故障的發生一定是在一個穩定的正常運行的網絡中,某一網絡環節發生了變化而引起的,這些誘髮網絡產品生故障的變化包括:
- 網絡調整:包括但不限於組網調整、配置修改、升級割接等操作;
- 網絡環境發生變化:包括但不限於網絡風暴、特定節日/促銷活動/智能終端導致用戶行為變化,網絡設備電源/溫度環境發生變化、傳輸光纜被切斷、夏令時跳變、微波受大雨/大霧等其後影響、洪水/火災/地震/雷擊等外界不可抗力;
- 網絡設備發生故障:包括但不限於軟件發生缺陷、硬件老化故障(單板異常、光纖光模塊故障)等。
所有這些誘發故障的內在因素絕大多數都有其「外在異常表現」,具體會反映在特定網元的告警、日誌、流量統計、端口狀態等信息中。因此故障快速定位的關鍵在於,如何有效而快速的通過事發時間、影響範圍、所做操作及故障網絡範圍的網元基本信息的查看,快速發現這些「外在異常表現」所在的點,進而鎖定故障網元節點,找出問題根因。
如下圖所示,網絡中出現二層環路通常會有如下現象,如果分析現網問題發現存在以下異常表現中的一個或者多個,則網絡中存在二層環路可能性較大。
圖2 二層環路常見異常表現
環路故障診斷步驟
判斷網絡中是否存在二層環路,一般可以使用查看接口帶寬流量、查看MAC漂移告警、部署環路檢測、查看CPU佔用率四種方法進行確認。這四種方法沒有嚴格的操作順序,為更加準確判斷故障屬性,可以使用其中的一種或多種方法來進行問題定位。

如何快速破環
以太網環路會在短時間內形成數據風暴,當端口的流量達到帶寬的最大負荷,會形成鏈路擁塞,影響網絡業務。因此,在確認現網存在數據環路後,您需要第一時間按照如下步驟處理,儘快恢複數據業務。
- 1、梳理網絡拓撲並識別環路。
環形網絡拓撲一般較為複雜,可以尋求到網絡拓撲結構全圖,具體到網絡的VLAN規劃信息,每台設備名稱、系統MAC、管理IP,本端端口名稱、對端端口名稱。
完整的拓撲信息是解決環路問題的首要條件,如果沒有拓撲圖,需要從發現環路的設備,通過逐跳登錄,記錄設備信息、端口信息和VLAN信息,手動繪製完整的拓撲。
- 2、緊急破環。
緊急破環的操作前提是不要影響遠程登錄設備所涉及的中間設備、端口和VLAN等,避免引入其他問題,出現設備脫管、無法遠程登錄的現象。
緊急破環又稱手動破環,當網絡風暴嚴重影響正常的業務時,需要使用此方法儘快恢復業務。您可以通過如下三個方法緊急破環。
-
- 端口退出已成環的VLAN
在已經成環的網絡上,將其中一個端口退出成環VLAN,屬於影響面最小的破環方法。根據端口類型可執行如下表所示相關命令。
注意:緊急破環的操作前提是不要影響遠程登錄設備所涉及的中間設備、端口和VLAN等,避免引入其他問題,出現設備脫管、無法遠程登錄的現象。
端口類型 |
命令行 |
備註 |
---|---|---|
Access |
undo port default vlan |
執行此命令後,可能會影響下游設備業務,請謹慎操作。 |
Trunk |
undo port trunk allow-pass vlan id |
無 |
Hybrid |
undo port hybrid vlan id |
執行此命令後,該端口將不區分tagged和untagged報文。 |
-
- Shutdown已經成環的端口
- Shutdown已經成環的物理端口,也可以達到破環的效果。
- 執行此動作之前,您需要確保在接口視圖下執行命令shutdown關閉接口後,不會影響正常數據業務,即端口兩端設備在所有VLAN內仍能通信。
- 拔出成環光纖破環
- 通過拔出成環的端口的連接光纖,也可以緊急破環。
- 該方法可以使用Shutdown端口代替,只有在設備無法遠程登錄時才使用。
- Shutdown已經成環的端口
- 3、確認業務已經恢復。
- 通過Ping等操作測證網絡通信質量,並觀察現網業務是否已經恢復。
- 環路拓撲存在冗餘鏈路和配置,因此環路破除後業務一般會自行恢復。