|
癥狀
某網(wǎng)站IT經(jīng)理顧先生是我們的老朋友了,三年前在Cisco大會(huì)上認(rèn)識(shí),彼此“情投意合”,“兄弟”幾個(gè)經(jīng)常在一起交流一些網(wǎng)民心得。他原先在一家國有大型企業(yè)中任信息中心主任,負(fù)責(zé)網(wǎng)絡(luò)的規(guī)劃、設(shè)計(jì)建設(shè)和管理維護(hù)事宜。有好長一段時(shí)間沒有他的消息,免費(fèi)的信箱失效,加之后來換了工作就失去了聯(lián)系。正思量怎么設(shè)法跟他重新取得聯(lián)絡(luò),沒想到他卻不請(qǐng)自到,來了個(gè)“自投羅網(wǎng)”,昨天他因網(wǎng)絡(luò)問題來網(wǎng)絡(luò)醫(yī)院咨詢時(shí)方知其現(xiàn)在已經(jīng)辭職到了現(xiàn)在的網(wǎng)站。顧不上仔細(xì)詢問對(duì)方的近況,他便直接進(jìn)入主題:顧先生所負(fù)責(zé)的網(wǎng)站最近出現(xiàn)一些問題。白天時(shí)常會(huì)出現(xiàn)短暫的擁塞,上網(wǎng)用戶反映訪問購物頻道之網(wǎng)上在線商城時(shí)經(jīng)常點(diǎn)擊無效,多次重復(fù)后仍沒有任何反應(yīng)。此現(xiàn)象已經(jīng)持續(xù)的兩周,網(wǎng)站老總責(zé)令他必須在兩天內(nèi)找出原因,解決用戶無法點(diǎn)擊購物的問題,否則……
故障出現(xiàn)在什么時(shí)候?一般是白天,晚上基本不出現(xiàn)。何時(shí)開始出現(xiàn)故障征兆的?沒有什么征兆,突然出現(xiàn)又突然消失,很不穩(wěn)定且沒有什么規(guī)律。
那么從第一次故障現(xiàn)象出現(xiàn)到今天為止有多久了?就兩周。
兩周前你們對(duì)網(wǎng)絡(luò)干了什么?比如調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、增加或刪除網(wǎng)絡(luò)設(shè)備、增加服務(wù)器、增刪和更改網(wǎng)絡(luò)用戶等?沒有。不過網(wǎng)站內(nèi)容到是幾乎天天在變,但這應(yīng)該不會(huì)有什么影響。因?yàn)槲覀冄b有網(wǎng)管系統(tǒng),可以隨時(shí)查看網(wǎng)絡(luò)個(gè)鏈路的流量狀態(tài)。對(duì)鏈路的流量還分別設(shè)置了門限報(bào)警,如果出現(xiàn)流量異常值班人員會(huì)馬上知道。再說,我們的內(nèi)部網(wǎng)都是用的100Mbps的網(wǎng)卡,核心交換機(jī)使用千兆以太網(wǎng)連接。而網(wǎng)站出口只是8Mbps,出問題時(shí)檢查過出口流量,從來就沒有超過2Mbps,還不如不出故障時(shí)的訪問流量大。因此,說由于出口瓶頸的原因在訪問流量大造成訪問困難顯然是站不住腳的。對(duì)網(wǎng)上商場(chǎng)的服務(wù)器仔細(xì)檢查并用備用服務(wù)器試著更換過,但沒有任何作用。該用的辦法都用過了,實(shí)在查不出問題出在哪里。
有沒有做過捕包分析或延遲分析?做過,首先對(duì)有關(guān)的服務(wù)鏈路進(jìn)行網(wǎng)管監(jiān)察,發(fā)現(xiàn)鏈路流量一般只有5%左右,捕包分析發(fā)現(xiàn)出現(xiàn)故障是有較大延遲,但Ping包正常。當(dāng)時(shí)試驗(yàn)在故障時(shí)在網(wǎng)站內(nèi)任選一臺(tái)工作站從網(wǎng)上商城服務(wù)器拷貝一個(gè)1000M的文件,拷貝速度很快。用協(xié)議分析儀的專家診斷系統(tǒng)對(duì)捕獲的包進(jìn)行分析,除了發(fā)現(xiàn)HSRP協(xié)議幀有3000個(gè),其它未見異常。
診斷過程
三刻鐘后,我們隨顧先生來到該網(wǎng)站所在大廈。準(zhǔn)備著手進(jìn)行檢查。
分析故障現(xiàn)象,指示網(wǎng)絡(luò)主要的問題是訪問某個(gè)指定的服務(wù)器時(shí)慢。一般的原因主要有:服務(wù)器資源不足,比如接口速度低、CPU速度低、內(nèi)存不夠、開通的應(yīng)用窗口過多等;訪問通道出現(xiàn)瓶頸,訪問速度受限;通道上的設(shè)備出現(xiàn)處理延遲,影響通道訪問的速度等。從內(nèi)部網(wǎng)的反應(yīng)看,拷貝文件的延遲很小,速度正常;菊f明網(wǎng)站的內(nèi)部網(wǎng)絡(luò)應(yīng)該沒有大問題。
為了確認(rèn)訪問通道上的是否有流量瓶頸或延遲超長,我們將網(wǎng)絡(luò)故障一點(diǎn)通接入路由器的出口,將網(wǎng)絡(luò)綜合協(xié)議分析儀OptiView接入在線商城服務(wù)器通道。從路由器出發(fā)送50Mbps(50%)高流量Ping包指向OptiView,這種方法是為了檢查該通道的通道能力。可以看到最大的通道能力是95Mbps(發(fā)送的流量相應(yīng)的流量加上為95Mbps),將流量幀改為一般的IP幀,無須服務(wù)器響應(yīng),流量仍為50%,此時(shí)安裝在服務(wù)器鏈路中的OptiView收到的流量是50Mbps,說明網(wǎng)絡(luò)一點(diǎn)通發(fā)送的50Mbps的流量已經(jīng)全部“安全抵達(dá)”服務(wù)器。此時(shí)的網(wǎng)絡(luò)狀態(tài)非!罢!薄腛ptiView測(cè)試對(duì)路由器Ping包的響應(yīng),顯示時(shí)間為12微秒(0.012ms),結(jié)論:此時(shí)此刻網(wǎng)絡(luò)工作正常。
由于是不穩(wěn)定出現(xiàn)的“軟故障”,接下來我們需要在故障出現(xiàn)時(shí)進(jìn)行測(cè)試,好在該故障每天白天都會(huì)出現(xiàn),不怕它不來。
50分鐘后,從外線來的電話報(bào)告“故障出現(xiàn)”。我們迅速用OptiView的移動(dòng)網(wǎng)管查看該通道的流量狀態(tài),顯示均小于10%,從OptiView上對(duì)網(wǎng)站的路由器做Ping檢查,時(shí)間是1200ms。立即從OptiView發(fā)送50Mbps流量給網(wǎng)絡(luò)一點(diǎn)通,報(bào)告收到的流量只有5M,看來不光45M的流量被通道給“濾除”了,而且還引入了很大延遲。檢查網(wǎng)站的拓?fù)鋱D,從圖上標(biāo)注的狀況來看該訪問通道應(yīng)該都是100Mbps的以太網(wǎng)鏈路,中間經(jīng)過5臺(tái)交換機(jī)到達(dá)服務(wù)器。在OptiView上對(duì)路由器做路徑“TraceSwitch”檢查。結(jié)果顯示路徑已經(jīng)改變!整個(gè)路徑中多出了3臺(tái)交換機(jī),從而使得原來需要經(jīng)過5臺(tái)交換機(jī)就能到達(dá)服務(wù)器的訪問包現(xiàn)在需要經(jīng)過8臺(tái)交換機(jī)才能到達(dá)服務(wù)器!追蹤查看這3臺(tái)交換機(jī),發(fā)現(xiàn)相應(yīng)鏈路端口工作狀態(tài)都是100Mbps。逐級(jí)檢查延遲響應(yīng)時(shí)間,發(fā)現(xiàn)1200ms的延遲就出現(xiàn)在新增加的第一臺(tái)交換機(jī)通道節(jié)點(diǎn)上。由于有備份交換機(jī),為了縮短故障診斷時(shí)間,試著更換此交換機(jī)。10分鐘后,交換機(jī)更換完畢,開機(jī)試驗(yàn),故障現(xiàn)象消失。 |
|
【收藏】【打印】【進(jìn)入論壇】 |
|
|
|
|
|
|
|