個(gè)人認(rèn)為做為一個(gè)網(wǎng)絡(luò)運(yùn)維工程師,熟練使用軟件只是一個(gè)基本本領(lǐng),更重要的是在運(yùn)維過程中學(xué)習(xí)到哪些新知識(shí)新本領(lǐng)以及在這過程中如何去排查網(wǎng)絡(luò)故障解決疑難雜癥,這才是至關(guān)重要的地方。以下將介紹我常用的軟件及網(wǎng)絡(luò)故障排查思路、故障處置等方式方法。1、本人常用的軟件有4款,分別是:SecureCRT、Putty、tftp、子網(wǎng)掩碼計(jì)算器; 第一款:SecureCRT SecureCRT是一款支持ssh登錄網(wǎng)絡(luò)設(shè)備和服務(wù)器設(shè)備的終端仿真程序,支持 SSH1,SSH2,Telnet,RLogin,Serial,和 TAPI 等協(xié)議。這款軟件基本每天都在用,每天都需要登錄到不同的網(wǎng)絡(luò)設(shè)備查看設(shè)備配置。 第二款:Putty putty是一款支持Raw、telnet、rlogin、ssh、串口的連接軟件,該軟件完全免費(fèi)、體積小、操作簡(jiǎn)單、方便使用,它可以讓用戶對(duì)窗口進(jìn)行自定義設(shè)置,還可以將連接過的設(shè)備進(jìn)行會(huì)話保存,方便用戶下次使用無需再次輸入ip地址和或主機(jī)名稱即可連接。 第三款:tftp TFTP全稱是:Trivial File Transfer Protocol即簡(jiǎn)單文件傳輸協(xié)議,是TCP/IP協(xié)議族中的一個(gè)用來在客戶機(jī)與服務(wù)器之間進(jìn)行簡(jiǎn)單文件傳輸?shù)膮f(xié)議,提供不復(fù)雜、開銷不大的文件傳輸服務(wù)。端口號(hào)為69。該軟件使用最多的場(chǎng)景就是對(duì)設(shè)備進(jìn)行iOS升級(jí)時(shí),時(shí)長(zhǎng)會(huì)用到它,該軟件體積小、操作簡(jiǎn)單。 第四款:子網(wǎng)掩碼計(jì)算器 該工具可自動(dòng)劃分A、B、C類IP,可以輸出劃分后的子網(wǎng)掩碼、子網(wǎng)位、最多子網(wǎng)數(shù)、主機(jī)位、最多主機(jī)數(shù)以及所有的子網(wǎng)列表,并可以將結(jié)果保存到文本文件。 以上四款軟件是個(gè)人經(jīng)常使用的。 接下來將分享個(gè)人的一些經(jīng)驗(yàn),有不足之處還請(qǐng)各位指正。 網(wǎng)絡(luò)事件發(fā)生后,以快速排除故障、盡快恢復(fù)業(yè)務(wù)為最高目標(biāo)。用戶報(bào)障、工程師巡檢或監(jiān)控時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備或線路故障時(shí),網(wǎng)絡(luò)工程師應(yīng)盡快根據(jù)事件現(xiàn)象進(jìn)行故障定位。故障定位后有應(yīng)急預(yù)案的,按應(yīng)急預(yù)案處理;沒有應(yīng)急預(yù)案的,根據(jù)分析結(jié)果,由所屬團(tuán)隊(duì)出具解決方案,經(jīng)批準(zhǔn)后按方案進(jìn)行處理。 一、網(wǎng)絡(luò)故障排查思路 當(dāng)故障發(fā)生時(shí),遵循以下排查思路: 1、 首先盡可能準(zhǔn)確收集故障信息:故障發(fā)生時(shí)間、故障現(xiàn)象、影響范圍。了解故障表現(xiàn)出來的現(xiàn)象,然后才能確定可能產(chǎn)生這些現(xiàn)象的故障根源或癥結(jié),對(duì)網(wǎng)絡(luò)故障做出完整、清晰的描述是第一步。 2、 根據(jù)用戶反映的故障現(xiàn)象,結(jié)合網(wǎng)管告警,判斷是個(gè)別終端故障還是同時(shí)影響多個(gè)用戶的網(wǎng)絡(luò)故障。 3、 根據(jù)網(wǎng)絡(luò)故障影響范圍,工程師根據(jù)經(jīng)驗(yàn)判斷最可能的原因,并進(jìn)行驗(yàn)證,如確實(shí)為該處故障,立即制定相應(yīng)解決方法,如果不是,進(jìn)行系統(tǒng)排障。 4、 系統(tǒng)性網(wǎng)絡(luò)排障有三種方法:按照OSI七層模型,有自上而下(應(yīng)用層到物理層)、自下而上(物理層到應(yīng)用層)和從中間層(網(wǎng)絡(luò)層)入手的排障方法。 5、 明顯屬于應(yīng)用層故障的,如到DNS服務(wù)器網(wǎng)絡(luò)可達(dá),但DNS無法解析或解析異常,可從應(yīng)用層開始從上向下進(jìn)行排查。 6、 對(duì)于明顯屬于物理層故障的,如網(wǎng)卡燈不亮、光模塊不發(fā)光、網(wǎng)管告警顯示相關(guān)網(wǎng)絡(luò)設(shè)備存在硬件告警的,可優(yōu)先從物理層開始,從下至上進(jìn)行排障。 7、 對(duì)于無法確定是物理層故障或應(yīng)用層故障的,可以先從OSI七層模型的中間層-網(wǎng)絡(luò)層開始進(jìn)行故障定位。 8、 源到目的業(yè)務(wù)端口不可達(dá):如果業(yè)務(wù)系統(tǒng)訪問對(duì)端不通,可根據(jù)源目地址、TCP端口等信息,執(zhí)行源到目地址和端口的聯(lián)通性測(cè)試:從源地址telnet目的地址的TCP業(yè)務(wù)端口,看能否建立連接。如果無法建立連接,可以使用tracert檢查路由是否正確,定位出錯(cuò)的網(wǎng)絡(luò)設(shè)備或網(wǎng)段,在該設(shè)備上檢查設(shè)備CPU、內(nèi)存利用率是否異常,設(shè)備日志是否有告警信息,路由協(xié)議是否正常,ARP信息是否正確,地址轉(zhuǎn)換是否正常,并發(fā)連接數(shù)是否正常,雙機(jī)是否正常,在路徑中所有防火墻上檢查安全策略是否開放。 9、 源到目的端口可達(dá)但傳輸速度慢:如果業(yè)務(wù)端口可達(dá),但傳輸速度慢,使用ping大包(2000字節(jié))和tracert檢查無規(guī)律丟包和明顯延遲的網(wǎng)絡(luò)位置,在該設(shè)備上檢查設(shè)備CPU、內(nèi)存利用率是否異常,設(shè)備日志是否有告警信息,路由協(xié)議和VRRP協(xié)議是否正常,地址轉(zhuǎn)換是否正常,并發(fā)連接數(shù)是否正常,雙機(jī)是否正常,接口有無錯(cuò)誤計(jì)數(shù)或?qū)>€帶寬是否擁塞,從網(wǎng)絡(luò)層往上或往下進(jìn)行故障原因的分析。 10、 如果業(yè)務(wù)路徑經(jīng)過專線,需判斷專線是否異常,點(diǎn)對(duì)點(diǎn)連通性丟包率超過萬分之五(注意QOS影響),接口輸入錯(cuò)誤或CRC出現(xiàn)連續(xù)增長(zhǎng),則需要聯(lián)系運(yùn)營(yíng)商進(jìn)行專線排查。 11、 如果連通性、設(shè)備性能、鏈路質(zhì)量安全策略都沒有問題,則需要進(jìn)一步對(duì)業(yè)務(wù)系統(tǒng)的負(fù)載均衡配置情況、業(yè)務(wù)系統(tǒng)本身情況、DNS解析情況進(jìn)行分析和排查。 12、 對(duì)于疑難故障,則需要聯(lián)系業(yè)務(wù)部門獲取業(yè)務(wù)依賴關(guān)系,理清數(shù)據(jù)訪問路徑,通過流量分析工具進(jìn)行進(jìn)一步的原因分析。 下面列出一些常見的網(wǎng)絡(luò)故障及其處理方式: 二、故障處置 網(wǎng)絡(luò)方面常見故障及其處理方法: 1. 普通接入故障。了解用戶故障的相關(guān)信息,如用戶辦公地點(diǎn)、用戶準(zhǔn)入系統(tǒng)認(rèn)證是否通過、用戶終端是否進(jìn)入正確的VLAN、能否正確獲取IP地址、用戶網(wǎng)線連接情況、用戶所接入交換機(jī)狀態(tài)或接入端口狀態(tài)等進(jìn)行排查分析。找到故障原因后,進(jìn)行相應(yīng)的故障處理。 2. 網(wǎng)絡(luò)設(shè)備配置故障。根據(jù)用戶反饋的故障現(xiàn)象, 了解相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)或配置是否最近修改過,即問題出現(xiàn)是否與網(wǎng)絡(luò)變化有關(guān),是否近期的變更造成,對(duì)相關(guān)變更方案和變更操作情況進(jìn)行回溯和排查,對(duì)相關(guān)訪問策略、路由策略等配置情況進(jìn)行排查,判斷故障是否因?yàn)樵O(shè)備配置原因造成。如是,按照ITIL流程提出變更申請(qǐng),審批通過后進(jìn)行配置變更。 3. 鏈路利用率過高。當(dāng)網(wǎng)絡(luò)遭受攻擊或網(wǎng)絡(luò)內(nèi)病毒爆發(fā)時(shí),會(huì)出現(xiàn)帶寬利用率過高或設(shè)備CPU利用率過高等異?,F(xiàn)象。此時(shí)應(yīng)通知安全工程師通過安全監(jiān)控平臺(tái)檢查網(wǎng)絡(luò)內(nèi)是否存在網(wǎng)絡(luò)攻擊,同時(shí)登陸相關(guān)的網(wǎng)絡(luò)設(shè)備,實(shí)時(shí)分析是否有異常流量,如存在異常流量通知相關(guān)團(tuán)隊(duì)進(jìn)行處理,必要時(shí)可以通過斷開網(wǎng)絡(luò)端口或使用ACL的方式對(duì)該問題主機(jī)實(shí)施斷網(wǎng)。 4. 設(shè)備性能異常。在網(wǎng)絡(luò)設(shè)備遭受攻擊或網(wǎng)絡(luò)內(nèi)存在環(huán)路的情況下會(huì)出現(xiàn)此類性能異常。此時(shí)應(yīng)通知安全工程師通過安全監(jiān)控平臺(tái)檢查網(wǎng)絡(luò)內(nèi)是否存在網(wǎng)絡(luò)攻擊,同時(shí)登陸相關(guān)的網(wǎng)絡(luò)設(shè)備,分析設(shè)備性能異常原因,對(duì)故障源進(jìn)行定位,對(duì)攻擊主機(jī)進(jìn)行上報(bào),通知相關(guān)團(tuán)隊(duì)進(jìn)行處理,必要時(shí)通過關(guān)閉網(wǎng)絡(luò)端口或斷開的方式對(duì)該問題主機(jī)或環(huán)路端口實(shí)施斷網(wǎng),對(duì)引起廣播風(fēng)暴的接口進(jìn)行關(guān)閉。 5. 設(shè)備軟件故障。對(duì)設(shè)備軟件BUG引起的故障,提出臨時(shí)解決方案,根據(jù)臨時(shí)解決方案,經(jīng)審批后作為臨時(shí)應(yīng)急措施實(shí)施。現(xiàn)場(chǎng)工程師收集故障信息并記錄后,向設(shè)備廠商開CASE,和廠商共同分析故障。根據(jù)廠商推薦的軟件更新版本,按照ITIL流程進(jìn)行版本升級(jí)。 6. 設(shè)備硬件故障。判斷為硬件故障的,收集故障信息,如有備件,使用存放在備件庫(kù)房的備件進(jìn)行故障部件的更換,將配置恢復(fù)至新的設(shè)備中。對(duì)故障信息進(jìn)行記錄,向設(shè)備廠商開case進(jìn)行硬件的更換。 7. 廣域網(wǎng)線路故障。發(fā)現(xiàn)故障后由負(fù)責(zé)工程師即刻向運(yùn)營(yíng)商進(jìn)行線路故障申告,配合運(yùn)營(yíng)商進(jìn)行故障線路的分析處理。當(dāng)一條線路發(fā)生故障時(shí),該線路上承載的業(yè)務(wù)會(huì)自動(dòng)迂回到其他線路上。但是當(dāng)該線路不停翻轉(zhuǎn)(端口持續(xù)up/down)時(shí),會(huì)對(duì)業(yè)務(wù)造成影響,這時(shí)應(yīng)首先關(guān)閉該線路端口或斷開該線路的BGP連接,使該線路不再承載流量,然后向運(yùn)營(yíng)商進(jìn)行故障申告,配合運(yùn)營(yíng)商進(jìn)行故障排查,待線路恢復(fù)后重新啟用該線路。 8. Internet出口線路流量異常。當(dāng)Internet出口線路受到DDOS攻擊時(shí),會(huì)造成線路流量擁塞而無法訪問internet。網(wǎng)銀線路已購(gòu)買運(yùn)營(yíng)商的防DDOS攻擊服務(wù),應(yīng)立即通知運(yùn)營(yíng)商進(jìn)行流量清洗。辦公互聯(lián)網(wǎng)線路未購(gòu)買防DDOS攻擊服務(wù),情況嚴(yán)重時(shí)應(yīng)考慮關(guān)閉該條線路到internet的連接。 9. 雙機(jī)故障:查看雙機(jī)熱備狀態(tài)、查看配置同步狀態(tài),查看物理鏈路,檢查相關(guān)配置,如配置正確但主設(shè)備異?;虺霈F(xiàn)雙活時(shí),可以在收集完成相關(guān)信息后,在行方批準(zhǔn)后把應(yīng)用切換到備機(jī)或把主設(shè)備重啟或把主設(shè)備從網(wǎng)絡(luò)隔離。 10. 其他故障。對(duì)于非配置引起的無法確定的故障,現(xiàn)場(chǎng)工程師收集故障信息并記錄后,即刻向設(shè)備廠商開CASE,和廠商共同分析故障,根據(jù)廠商提供的解決方案,按照ITIL流程進(jìn)行配置變更。 |
|