在組網(wǎng)規(guī)模相對(duì)大一些的局域網(wǎng)環(huán)境中,交換機(jī)的使用數(shù)量往往比較多,這些交換機(jī)在進(jìn)行相互連接時(shí),很容易被人為地連接錯(cuò)誤,從而引發(fā)網(wǎng)絡(luò)環(huán)路故障,要是對(duì)應(yīng)交換機(jī)沒有正常啟用STP功能時(shí),網(wǎng)絡(luò)環(huán)路故障就會(huì)造成通信數(shù)據(jù)包在網(wǎng)絡(luò)傳輸通道中反復(fù)不停地進(jìn)行轉(zhuǎn)發(fā),最終形成廣播風(fēng)暴,那樣一來整個(gè)局域網(wǎng)都有可能發(fā)生癱瘓故障。筆者在管理、維護(hù)局域網(wǎng)的過程中也曾多次遭遇到這種網(wǎng)絡(luò)故障,其中一次故障的排除經(jīng)歷令筆者記憶猶新,筆者巧妙地利用了新交換機(jī)的網(wǎng)絡(luò)環(huán)回監(jiān)測受控功能,迅速地找到了發(fā)生網(wǎng)絡(luò)環(huán)路的節(jié)點(diǎn),現(xiàn)在本文就將該故障的排除過程還原出來,供各位朋友參考交流!
案發(fā)現(xiàn)場
筆者所管理的局域網(wǎng)規(guī)模比較大,大約有300臺(tái)左右的計(jì)算機(jī)分布在10層大樓上,每一臺(tái)計(jì)算機(jī)都通過100M雙絞線連接到各個(gè)樓層的二層交換機(jī)上,每一樓層的交換機(jī)又會(huì)通過寬帶光纖線纜直接與單位局域網(wǎng)的核心交換機(jī)相連,最后局域網(wǎng)通過硬件防火墻連上了Internet網(wǎng)絡(luò)。 為了便于高效管理和維護(hù)網(wǎng)絡(luò),筆者根據(jù)每個(gè)樓層的實(shí)際情況,在每一臺(tái)二層交換機(jī)上都劃分了多個(gè)虛擬工作子網(wǎng),這樣一來每個(gè)虛擬工作子網(wǎng)的上網(wǎng)狀態(tài)是相互獨(dú)立的,即使某個(gè)虛擬工作子網(wǎng)中不幸遭遇了網(wǎng)絡(luò)病毒的襲擊,也不會(huì)對(duì)整個(gè)局域網(wǎng)網(wǎng)絡(luò)的穩(wěn)定運(yùn)行造成影響;同時(shí),日后遇到網(wǎng)絡(luò)故障時(shí),筆者也能將故障范圍縮小到某個(gè)虛擬工作子網(wǎng)中進(jìn)行解決,而不需要在整個(gè)局域網(wǎng)中進(jìn)行大范圍排查。
平時(shí),局域網(wǎng)中的所有計(jì)算機(jī)都能正常上網(wǎng)。可是,最近某一天,筆者突然接到電話,說八樓某房間不能正常上網(wǎng),懇請(qǐng)能夠到現(xiàn)場幫忙解決一下;筆者剛剛放下電話,準(zhǔn)備遠(yuǎn)程登錄進(jìn)對(duì)應(yīng)房間所連的二層交換機(jī)上,看看其交換端口是否處于激活、啟用狀態(tài)時(shí),接二連三的電話不停地打到筆者的辦公室,一打聽這些故障電話都來自八樓,并且都報(bào)告說計(jì)算機(jī)突然不能正常上網(wǎng)。
謎霧重重
這么多來自八樓的故障電話,告訴筆者整個(gè)八樓看來都不能上網(wǎng)了,難道是對(duì)應(yīng)樓層的交換機(jī)發(fā)生了死機(jī)或其他意想不到的故障了?以前筆者也多次遇到過某個(gè)樓層都不能上網(wǎng)的故障,每次只要重新啟動(dòng)一下對(duì)應(yīng)樓層的二層交換機(jī),往往就能恢復(fù)整個(gè)樓層的上網(wǎng)狀態(tài)了。為了驗(yàn)證自己的猜測,筆者立即嘗試以telnet連接來遠(yuǎn)程登錄位于八樓的二層交換機(jī)系統(tǒng),可是等了好長時(shí)間,也無法遠(yuǎn)程登錄成功,顯然該樓層的二層交換機(jī)工作狀態(tài)不正常。筆者不放心,又以系統(tǒng)管理員身份登錄進(jìn)入了局域網(wǎng)的核心交換機(jī),利用該交換機(jī)后臺(tái)管理系統(tǒng)提供的“display cpu”命令,查看了核心交換機(jī)上各個(gè)插槽板卡的CPU消耗情況,結(jié)果發(fā)現(xiàn)2號(hào)板卡的CPU使用率已經(jīng)超過了50%,而根據(jù)以往經(jīng)驗(yàn)筆者得知,核心交換機(jī)每塊插卡正常工作時(shí)CPU使用率不會(huì)超過50%的,正常處于20%-30%之間波動(dòng)(如圖1所示);繼續(xù)檢查時(shí),筆者發(fā)現(xiàn)2號(hào)板卡中的某個(gè)交換端口恰好就是連接八樓二層交換機(jī)的那個(gè)端口,使用“display interface”命令查看該端口的工作狀態(tài)時(shí),該端口已經(jīng)處于“down”狀態(tài)了,同時(shí)筆者看到該端口的輸入、輸出數(shù)據(jù)流量特別大,達(dá)到了驚人的每秒萬兆級(jí)別了,這與平時(shí)的每秒幾百兆級(jí)別相差也太大了,看來位于八樓的二層交換機(jī)系統(tǒng)的確存在問題。
由于無法遠(yuǎn)程登錄八樓的二層交換機(jī)系統(tǒng),筆者只好趕赴該交換機(jī)的現(xiàn)場,通過觀察交換機(jī)控制面板上的信號(hào)燈狀態(tài),并不能找出明顯的故障痕跡;不得已,筆者只好先嘗試著重新啟動(dòng)一下該樓層交換機(jī)系統(tǒng),重啟成功沒有多久,八樓中的計(jì)算機(jī)又能正常上網(wǎng)了,原以為這種故障現(xiàn)象已經(jīng)被成功解決了,可是沒有多長時(shí)間,八樓的二層交換機(jī)系統(tǒng)工作狀態(tài)又不正常了,并且該交換機(jī)與核心交換機(jī)相連的級(jí)聯(lián)端口輸入、輸出數(shù)據(jù)流量還是特別大。后來,筆者在核心交換機(jī)后臺(tái)系統(tǒng)不停地執(zhí)行“display interface”命令,查看八樓的二層交換機(jī)級(jí)聯(lián)端口工作狀態(tài),發(fā)現(xiàn)該端口的輸出廣播包不停地增大,很明顯上述故障問題不在八樓的二層交換機(jī)系統(tǒng)上,很可能是連接到該交換機(jī)下面的虛擬工作子網(wǎng)中出現(xiàn)了廣播風(fēng)暴現(xiàn)象。
峰回路轉(zhuǎn)
一般來說,引起廣播風(fēng)暴現(xiàn)象的因素有很多,比方說虛擬工作子網(wǎng)中存在網(wǎng)絡(luò)病毒或硬件設(shè)備損壞現(xiàn)象,或者是某個(gè)交換端口出現(xiàn)了瓶頸現(xiàn)象,也有可能是虛擬工作子網(wǎng)中出現(xiàn)了網(wǎng)絡(luò)環(huán)路現(xiàn)象。由于八樓的二層交換機(jī)上同時(shí)劃分有幾個(gè)虛擬工作子網(wǎng),每個(gè)虛擬工作子網(wǎng)中又包含了多臺(tái)計(jì)算機(jī),如果單純依靠手工方法去尋找網(wǎng)絡(luò)硬件設(shè)備的損壞或網(wǎng)絡(luò)病毒,工作量將十分巨大。考慮到虛擬工作子網(wǎng)中發(fā)生網(wǎng)絡(luò)硬件損壞的現(xiàn)象屬于極個(gè)別現(xiàn)象,這種極個(gè)別的硬件損壞一般不會(huì)造成這么大輸出、輸入數(shù)據(jù)流量,為此筆者打算先從網(wǎng)絡(luò)環(huán)路因素著手,來排除整個(gè)八樓不能上網(wǎng)的故障現(xiàn)象。