|
癥狀
某網(wǎng)站IT經(jīng)理顧先生是我們的老朋友了,三年前在Cisco大會上認識,彼此“情投意合”,“兄弟”幾個經(jīng)常在一起交流一些網(wǎng)民心得。他原先在一家國有大型企業(yè)中任信息中心主任,負責網(wǎng)絡的規(guī)劃、設計建設和管理維護事宜。有好長一段時間沒有他的消息,免費的信箱失效,加之后來換了工作就失去了聯(lián)系。正思量怎么設法跟他重新取得聯(lián)絡,沒想到他卻不請自到,來了個“自投羅網(wǎng)”,昨天他因網(wǎng)絡問題來網(wǎng)絡醫(yī)院咨詢時方知其現(xiàn)在已經(jīng)辭職到了現(xiàn)在的網(wǎng)站。顧不上仔細詢問對方的近況,他便直接進入主題:顧先生所負責的網(wǎng)站最近出現(xiàn)一些問題。白天時常會出現(xiàn)短暫的擁塞,上網(wǎng)用戶反映訪問購物頻道之網(wǎng)上在線商城時經(jīng)常點擊無效,多次重復后仍沒有任何反應。此現(xiàn)象已經(jīng)持續(xù)的兩周,網(wǎng)站老總責令他必須在兩天內(nèi)找出原因,解決用戶無法點擊購物的問題,否則……
故障出現(xiàn)在什么時候?一般是白天,晚上基本不出現(xiàn)。何時開始出現(xiàn)故障征兆的?沒有什么征兆,突然出現(xiàn)又突然消失,很不穩(wěn)定且沒有什么規(guī)律。
那么從第一次故障現(xiàn)象出現(xiàn)到今天為止有多久了?就兩周。
兩周前你們對網(wǎng)絡干了什么?比如調(diào)整網(wǎng)絡結(jié)構、增加或刪除網(wǎng)絡設備、增加服務器、增刪和更改網(wǎng)絡用戶等?沒有。不過網(wǎng)站內(nèi)容到是幾乎天天在變,但這應該不會有什么影響。因為我們裝有網(wǎng)管系統(tǒng),可以隨時查看網(wǎng)絡個鏈路的流量狀態(tài)。對鏈路的流量還分別設置了門限報警,如果出現(xiàn)流量異常值班人員會馬上知道。再說,我們的內(nèi)部網(wǎng)都是用的100Mbps的網(wǎng)卡,核心交換機使用千兆以太網(wǎng)連接。而網(wǎng)站出口只是8Mbps,出問題時檢查過出口流量,從來就沒有超過2Mbps,還不如不出故障時的訪問流量大。因此,說由于出口瓶頸的原因在訪問流量大造成訪問困難顯然是站不住腳的。對網(wǎng)上商場的服務器仔細檢查并用備用服務器試著更換過,但沒有任何作用。該用的辦法都用過了,實在查不出問題出在哪里。
有沒有做過捕包分析或延遲分析?做過,首先對有關的服務鏈路進行網(wǎng)管監(jiān)察,發(fā)現(xiàn)鏈路流量一般只有5%左右,捕包分析發(fā)現(xiàn)出現(xiàn)故障是有較大延遲,但Ping包正常。當時試驗在故障時在網(wǎng)站內(nèi)任選一臺工作站從網(wǎng)上商城服務器拷貝一個1000M的文件,拷貝速度很快。用協(xié)議分析儀的專家診斷系統(tǒng)對捕獲的包進行分析,除了發(fā)現(xiàn)HSRP協(xié)議幀有3000個,其它未見異常。
診斷過程
三刻鐘后,我們隨顧先生來到該網(wǎng)站所在大廈。準備著手進行檢查。
分析故障現(xiàn)象,指示網(wǎng)絡主要的問題是訪問某個指定的服務器時慢。一般的原因主要有:服務器資源不足,比如接口速度低、CPU速度低、內(nèi)存不夠、開通的應用窗口過多等;訪問通道出現(xiàn)瓶頸,訪問速度受限;通道上的設備出現(xiàn)處理延遲,影響通道訪問的速度等。從內(nèi)部網(wǎng)的反應看,拷貝文件的延遲很小,速度正常;菊f明網(wǎng)站的內(nèi)部網(wǎng)絡應該沒有大問題。
為了確認訪問通道上的是否有流量瓶頸或延遲超長,我們將網(wǎng)絡故障一點通接入路由器的出口,將網(wǎng)絡綜合協(xié)議分析儀OptiView接入在線商城服務器通道。從路由器出發(fā)送50Mbps(50%)高流量Ping包指向OptiView,這種方法是為了檢查該通道的通道能力?梢钥吹阶畲蟮耐ǖ滥芰κ95Mbps(發(fā)送的流量相應的流量加上為95Mbps),將流量幀改為一般的IP幀,無須服務器響應,流量仍為50%,此時安裝在服務器鏈路中的OptiView收到的流量是50Mbps,說明網(wǎng)絡一點通發(fā)送的50Mbps的流量已經(jīng)全部“安全抵達”服務器。此時的網(wǎng)絡狀態(tài)非!罢!。從OptiView測試對路由器Ping包的響應,顯示時間為12微秒(0.012ms),結(jié)論:此時此刻網(wǎng)絡工作正常。
由于是不穩(wěn)定出現(xiàn)的“軟故障”,接下來我們需要在故障出現(xiàn)時進行測試,好在該故障每天白天都會出現(xiàn),不怕它不來。
50分鐘后,從外線來的電話報告“故障出現(xiàn)”。我們迅速用OptiView的移動網(wǎng)管查看該通道的流量狀態(tài),顯示均小于10%,從OptiView上對網(wǎng)站的路由器做Ping檢查,時間是1200ms。立即從OptiView發(fā)送50Mbps流量給網(wǎng)絡一點通,報告收到的流量只有5M,看來不光45M的流量被通道給“濾除”了,而且還引入了很大延遲。檢查網(wǎng)站的拓撲圖,從圖上標注的狀況來看該訪問通道應該都是100Mbps的以太網(wǎng)鏈路,中間經(jīng)過5臺交換機到達服務器。在OptiView上對路由器做路徑“TraceSwitch”檢查。結(jié)果顯示路徑已經(jīng)改變!整個路徑中多出了3臺交換機,從而使得原來需要經(jīng)過5臺交換機就能到達服務器的訪問包現(xiàn)在需要經(jīng)過8臺交換機才能到達服務器!追蹤查看這3臺交換機,發(fā)現(xiàn)相應鏈路端口工作狀態(tài)都是100Mbps。逐級檢查延遲響應時間,發(fā)現(xiàn)1200ms的延遲就出現(xiàn)在新增加的第一臺交換機通道節(jié)點上。由于有備份交換機,為了縮短故障診斷時間,試著更換此交換機。10分鐘后,交換機更換完畢,開機試驗,故障現(xiàn)象消失。 |
|
【收藏】【打印】【進入論壇】 |
|
|
|
|
|
|
|