企业网络故障诊断:从断网到恢复的全过程
公司早上刚开电脑,销售部就炸锅了——系统登不上,订单发不出去。IT小张一查,自己也连不上内网服务器。这种情况在企业里太常见了,不是设备坏了,也不是黑客攻击,往往就是一次典型的网络故障。
企业网络不像家里Wi-Fi断了重启就行,它牵扯交换机、路由器、防火墙、DNS、IP分配等多个环节。诊断时得有条理,一步步缩小范围。
先看现象,别急着重启
有人一断网就重启路由器,结果问题没解决还影响了其他部门。正确的做法是先问清楚:是谁不能上网?是全部断了,还是部分人?是内网不通,还是外网打不开?
比如财务部打不开银行网站,但能访问内部系统,那问题大概率出在外网出口或DNS上。而如果整个办公区都连不上打印机和文件服务器,那可能是核心交换机或VLAN配置出了问题。
用几个命令快速定位
Windows下打开命令提示符,Linux或Mac用终端,输入下面这些命令基本能判断出问题在哪一层:
ping 192.168.1.1这是测试能否通到网关。如果ping不通,可能是本机网卡、网线或交换机端口的问题。换个端口试试,或者换台电脑插同一根网线,就能判断是不是线路问题。
ping 8.8.8.8这个能通说明内网到外网链路基本正常。如果通不了,但能ping通网关,那可能是路由器或防火墙策略拦了流量。
nslookup baidu.comDNS解析失败会导致“网址打不开但IP能访问”的怪现象。比如输入百度网址打不开,但直接输IP(如110.242.68.66)能进,那就是DNS服务器有问题。企业通常用内网DNS,一旦宕机,所有依赖域名的服务都会瘫痪。
分层排查更高效
网络结构可以分成三层:物理层、网络层、应用层。
物理层看灯——交换机上的端口指示灯亮不亮?网线有没有松?光纤模块有没有插紧?曾有个公司断网半天,最后发现是保洁阿姨擦地时不小心拔了交换机电源。
网络层看配置——IP地址冲突、子网掩码错、默认网关写错,都会导致通信失败。特别是新员工入职自己乱设静态IP,容易撞车。DHCP服务器满负荷也会导致获取不到地址。
应用层看服务——比如公司用了代理上网,客户端没配代理设置就上不了;或者防火墙规则更新后,把正常的业务端口给封了。这时候需要查日志,看连接是否被拒绝。
一个真实案例
某次市场部集体反馈无法访问CRM系统。运维先ping服务器IP,通;再telnet CRM端口(比如8080),超时。说明网络通,但服务没响应。登录服务器一看,内存爆了,Java进程卡死。重启服务,恢复正常。
这说明:网络通不代表服务可用。有时候问题不在网络,而在服务器本身。
工具不止是命令行
除了命令,还可以用抓包工具,比如Wireshark。它能看到数据包到底走到哪一步卡住了。比如客户端发了请求,但没收到回复,就能判断是中间设备丢包还是服务器没响应。
另外,企业最好部署网络监控系统,像Zabbix、PRTG这类,能实时看到带宽使用、设备状态、延迟变化。提前预警比事后救火强得多。
网络故障不可怕,可怕的是没思路。按现象分类,用工具验证,一层层往下剥,大多数问题都能找到根子。