網(wǎng)絡(luò)故障的現(xiàn)象有很多,即使同一個(gè)故障的表面現(xiàn)象也可能不一樣,所以作為一名網(wǎng)管員,要善于抓住問(wèn)題的本質(zhì),用最快的速度去排除故障。這里介紹用分層和分段的方法去逐步找到故障的原因。
所謂分層的思路,是把OSI七層模型和現(xiàn)實(shí)的網(wǎng)絡(luò)環(huán)境相對(duì)應(yīng),從高到低地判斷故障。一般主要是考慮七層模型的下三層的對(duì)應(yīng)關(guān)系,即把維護(hù)的網(wǎng)絡(luò)設(shè)備的各種故障現(xiàn)象歸類到物理層、鏈路層和網(wǎng)絡(luò)層,其中物理層的故障一般很好理解,所以把鏈路和物理層放在一起,如圖所示。

比如調(diào)制解調(diào)器的燈指示的是物理層的信息,CD代表載波,不亮的話指示電話線的連接有問(wèn)題。CTS代表與電腦的接口是否正確地連接,不亮的話要么是連接線有問(wèn)題,要么就是RS232口有問(wèn)題。網(wǎng)卡的Link燈代表網(wǎng)線的好壞或者與Hub的連接是否正確,網(wǎng)卡的100M燈代表是否是100M連接。大中型的服務(wù)器上一般都有液晶的小條,實(shí)時(shí)顯示服務(wù)器的運(yùn)行狀態(tài),可以從中看出設(shè)備的故障情況。大部分網(wǎng)絡(luò)設(shè)備的物理層的信息雖然標(biāo)識(shí)一樣,但在細(xì)節(jié)上很不相同,需要仔細(xì)研讀產(chǎn)品說(shuō)明書來(lái)了解。
從鏈路層開(kāi)始就需要對(duì)網(wǎng)絡(luò)協(xié)議有比較清晰的了解。在網(wǎng)絡(luò)中運(yùn)行的設(shè)備一般都嚴(yán)格遵守七層協(xié)議,可以運(yùn)用網(wǎng)絡(luò)規(guī)程儀表對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)控,也可以運(yùn)用本地環(huán)或者遠(yuǎn)端環(huán)對(duì)線路的質(zhì)量進(jìn)行檢查。在以太網(wǎng)上,一般可以運(yùn)用Sniffer對(duì)所有的包進(jìn)行竊聽(tīng)來(lái)判斷故障的位置。目前交換機(jī)普及后,也可用在交換機(jī)上觀察各以太口上獲得的MAC地址來(lái)判斷故障。鏈路層的信息一般和物理層的信息交織在一起,除非出現(xiàn)誤碼率高和設(shè)備運(yùn)行狀態(tài)不穩(wěn)定等,都不需要對(duì)鏈路層進(jìn)行排障。
到了網(wǎng)絡(luò)層,隨著故障的復(fù)雜化,網(wǎng)絡(luò)管理員可以運(yùn)用的工具也多了。在IP網(wǎng)絡(luò)上,一般用Ping來(lái)判斷網(wǎng)絡(luò)的通斷,可以用traceroute來(lái)跟蹤路由的方向,當(dāng)然也可以利用網(wǎng)絡(luò)設(shè)備內(nèi)部提供的豐富的命令來(lái)查看設(shè)備內(nèi)部的運(yùn)行情況。比如Cisco設(shè)備的show命令就提供了很多選項(xiàng),可以看到設(shè)備的各種信息。各種網(wǎng)管軟件使用SNMP協(xié)議從各種設(shè)備上取出各種出錯(cuò)信息,來(lái)幫助網(wǎng)管員正確判斷故障所在。從網(wǎng)絡(luò)層再往上,故障一般都和應(yīng)用程序的設(shè)置有關(guān)了,比如SQL數(shù)據(jù)庫(kù)和C/S軟件方面的問(wèn)題,這時(shí)排障要和應(yīng)用軟件管理員一起來(lái)排除了。
所謂分段的思路,就更好理解了,就是在同一網(wǎng)絡(luò)分層上,把故障分成幾個(gè)段落,再逐一排除。比如兩臺(tái)電腦通過(guò)一個(gè)Hub互聯(lián),看上去一切正常,查找不出故障的原因,您既可以再利用一臺(tái)好的電腦來(lái)把網(wǎng)絡(luò)虛擬分成兩段來(lái)檢查,也可以用交叉線把兩臺(tái)電腦直接互聯(lián)(背靠背)來(lái)檢查。還有綜合布線的檢查,必須分段檢查通斷,才能找到出故障的連接點(diǎn)。分段的中心思想就是縮小網(wǎng)絡(luò)故障涉及的設(shè)備和線路,來(lái)更快地判定故障,然后再逐級(jí)恢復(fù)原有網(wǎng)絡(luò)。
以下舉簡(jiǎn)單的排障實(shí)例。一用戶來(lái)電話,說(shuō)在局域網(wǎng)上不能上網(wǎng),首先叫他Ping外網(wǎng)DNS服務(wù)器,正常。判斷在網(wǎng)絡(luò)層上是正常的,故障在IE和Windows本身,然后詢問(wèn)QQ上網(wǎng)正常,確定分段在IE上,仔細(xì)查看IE設(shè)置,發(fā)現(xiàn)設(shè)置了代理服務(wù)器,詢問(wèn)后知道是用戶自己設(shè)置后忘記了。
一用戶租用DDN專線把兩處工廠連起來(lái),發(fā)現(xiàn)兩地網(wǎng)絡(luò)不能Ping通。首先假設(shè)網(wǎng)絡(luò)層故障,詢問(wèn)DDN設(shè)備的指示燈是否正常,如果沒(méi)有錯(cuò)誤指示,在兩地做環(huán)路BERT誤碼測(cè)試,發(fā)現(xiàn)正常,排除鏈路層故障。分段判斷,讓用戶Ping本地網(wǎng)關(guān),發(fā)現(xiàn)也不通。迅速排除Hub故障(因?yàn)橛脩鬚ing其他電腦正常),發(fā)現(xiàn)是用戶的路由器在停電后設(shè)置丟失,重新設(shè)置后網(wǎng)絡(luò)正常。
至于排障時(shí)先分層還是先分段,基本靠網(wǎng)管員的經(jīng)驗(yàn)了。對(duì)于復(fù)雜的故障,如果有條件分段的話,最好先劃分故障的段落?傊W(wǎng)絡(luò)故障千差萬(wàn)別,最主要的是通過(guò)分層和分段使排障時(shí)有個(gè)清晰的層次,然后循序漸進(jìn)地排除各種可能性。這里面,經(jīng)驗(yàn)是非常重要的,可以幫助網(wǎng)管員少走彎路。利用分層和分段的方法,前提是對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)要有很好的認(rèn)識(shí),所以網(wǎng)管員需要及時(shí)掌握所管理的網(wǎng)絡(luò)的任何拓?fù)涓淖兒驮O(shè)置變動(dòng),才能在故障發(fā)生時(shí)最迅速地解決它。