
O Guia Definitivo de Solução de Problemas de Rede: Passos, Ferramentas, Problemas e Melhores Práticas
Guia Definitivo de Solução de Problemas de Rede: etapas, ferramentas, problemas e boas práticas
Para quem é este guia Engenheiros de rede, SREs, analistas de segurança, red-teamers e desenvolvedores seniores que precisam de um manual prático — do laboratório caseiro até backbones SD-WAN intercontinentais.
Fundamentos
O que é solução de problemas de rede?
Solução de problemas de rede é o fluxo de trabalho disciplinado e baseado em evidências para detectar, isolar e corrigir falhas no caminho de tráfego em todas as camadas OSI/TCP-IP. Os dois KPIs de negócios principais são:
- MTTD – Tempo médio para detecção
- MTTR – Tempo médio para restauração
Uma prática madura reduz ambos, documenta a causa raiz e realimenta os aprendizados na arquitetura, no monitoramento e nos runbooks.
Reativo × proativo — apagar incêndios versus preveni-los; suas ferramentas, métricas e exercícios de caos devem cobrir ambos.
Por que isso importa em residências, empresas e ISPs/games
- Conformidade com SLA/SLO – violações de disponibilidade ou latência geram créditos, reembolsos ou perda de usuários.
- Apps sensíveis à latência – VoIP acima de 30 ms, VR, e-sports.
- MTBF – aumentar o Tempo Médio Entre Falhas é métrica de maturidade operacional.
Revisão de conceitos-chave
Tópico | Lembrete rápido |
---|---|
Endereçamento IP, CIDR, VLSM | Sub-redes não simétricas; confira com ipcalc . |
Registros DNS | A/AAAA, PTR, CNAME, SRV, split-horizon. |
Roteamento | Estático vs OSPF/BGP/IS-IS, ECMP, PBR e VRF. |
NAT | SNAT, DNAT, PAT; caminhos assimétricos. |
Segurança | ACL sem estado, firewall stateful, UTM e NGFW. |
Metodologia dos sete passos
- Identificar o problema – sintomas, métricas, logs.
- Estabelecer a teoria – top-down ou bottom-up.
- Testar a teoria – lab, janela de manutenção, pcap.
- Criar plano de ação – rollback, aprovações, blast radius.
- Implementar ou escalar – MOP/SOP, automação.
- Verificar funcionalidade – probes sintéticos, métricas de usuário.
- Documentar descobertas – post-mortem, KB, runbook.
Verificações rápidas de hardware e conectividade
Validação da camada física
Verificação | Comando | Estado esperado |
---|---|---|
Luzes e negociação | ethtool eth0 |
1 Gb Full, sem erros |
Loopback / TDR | swconfig … |
Contadores estáveis |
Potência óptica | ethtool -m |
–1 dBm a –3 dBm |
Boas práticas de power-cycle
Anunciar no canal de incidentes, registrar horário, desligar 30 s, verificar NTP após boot.
Contadores de interface
watch -n2 "ip -s link show eth0 | grep -A1 RX"
CRC, Giants, Runts ou Collisions crescentes = investigar.
Ferramentas diagnósticas essenciais
Ferramenta | Camada | Exemplo CLI | Insight |
---|---|---|---|
ping / hping3 | 3 | ping -M do -s1472 |
MTU & reachability |
traceroute / pathping | 3 | traceroute -I -w2 |
Latência por salto |
ip / ifconfig | 2-3 | ip -s link |
Erros Rx/Tx |
dig / nslookup | 7 | dig +trace |
Cadeia de delegação |
ss / netstat | 4 | ss -tulpn |
Sockets ativos |
ip route | 3 | ip route get 8.8.8.8 |
Saída efetiva |
tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
Tempestade SYN |
nmap / masscan | 3-7 | nmap -sS -Pn |
Portas abertas |
arp | 2 | arp -a |
MAC duplicados |
mtr | 3 | mtr -ezbwrc100 |
Perda/latência em tempo real |
Diagnóstico camada a camada
Física & Enlace
- Teste de cabo TDR/OTDR.
- Loops de Spanning-Tree.
- Ataque VLAN double-tag.
Rede
- Stalls IPv6 vs IPv4 (Happy-Eyeballs).
- FSM de vizinhança BGP/OSPF.
- Vazamento de VRF/PBR.
Transporte
- Falha no three-way handshake TCP (firewall).
- Fragmentação UDP e offload.
- Bloqueio de QUIC (UDP/443).
Aplicação
- Falha DNSSEC.
- Códigos 502/504/499.
- SNI/TLS incompatível.
Problemas e correções comuns
Sintoma | Causa | Correção |
---|---|---|
curl: name or service not known |
/etc/resolv.conf errado |
Ajustar search/domain, SOA |
RTT alto último salto | CPU/NIC sobrecarregado | irqbalance, GRO/LRO |
Quedas HTTPS | Tabela stateful cheia | Aumentar conn-track |
Áudio unidirecional | NAT assimétrico | Fixar portas RTP/RTCP |
Sub-rede “black-hole” | Rota de retorno ausente | Adicionar route/redistribuir |
Wi-Fi e móvel
- Site survey – RSSI < –67 dBm.
- Roaming rápido – 802.11k/v/r.
- DFS 5/6 GHz – tratamento de radar.
- KPIs LTE/5G – RSRP/RSRQ/SINR.
Contêineres, nuvem e SDN
- Rastreio CNI no K8s (
cilium monitor
). - AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
- VXLAN/GRE/IPSec — capture underlay + overlay.
Segurança e resposta a incidentes
- Broker/TAP 100 Gb sem perda.
- Impressões TLS JA3/JA4.
- Zeek + Suricata para correlação de flows/alertas.
Otimização de desempenho e QoS
Técnica | Comando | Efeito |
---|---|---|
BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
Reduz latência |
FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
Mitiga bufferbloat |
DSCP | EF/46 voz, AF41 vídeo | QoS fim-a-fim |
WRED | random-detect dscp 46 |
Evita tail-drop |
Automação e IaC
- ChatOps – comando Slack → Ansible → tcpdump → S3.
- NetBox + Batfish – detecção de drift, reachability tests.
- k6/Locust – transações sintéticas como CronJob K8s.
Matriz resumida de ferramentas
Camada | Open Source | Comercial |
---|---|---|
NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
AIOps | Zabbix + ML | Kentik, ThousandEyes |
Packet Capture | Wireshark, Arkime | Gigamon |
APM | OpenTelemetry | Datadog, New Relic |
Estudos de caso
- Migração MPLS→SD-WAN – vazamento /32 para área 0.
- Flap BGP em ISP – habilitar Graceful-Restart, hold-time 180 s.
- Black-hole K8s east-west –
cilium bpf ct flush
e redeploy CNI.
Boas práticas
- Baseline mensal.
- Controle de mudanças – checks pré/pós.
- Runbooks no Git com links Grafana.
Conclusão e próximos passos
Colete visibilidade centralizada, faça exercícios de caos mensais e automatize rollbacks: assim o firefighting vira ciência repetível — mantêm-se latência baixa e throughput alto.
Apêndice A – Exemplos CLI
ping -M do -s 1472 8.8.8.8 # Descobrir MTU
tcpdump -ni any 'tcp[13]&8!=0' # Retransmissões
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP → Pods
Apêndice B – Tabelas de protocolo
Flags TCP: URG ACK PSH RST SYN FIN
Headers IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
Opcode DNS: 0 QUERY, 5 UPDATE, 4 NOTIFY
Apêndice C – Retenção de logs
Tipo | Storage quente | Storage frio | Compliance |
---|---|---|---|
pcap bruto | 7 dias SSD | 30 dias S3/Glacier | PCI-DSS |
Flow/métricas | 13 meses TSDB | 2 anos objeto | GDPR |
Syslog/audit | 1 ano | 5 anos fita | HIPAA |
Leve Sua Carreira em Cibersegurança para o Próximo Nível
Se você achou este conteúdo valioso, imagine o que você poderia alcançar com nosso programa de treinamento de elite abrangente de 47 semanas. Junte-se a mais de 1.200 alunos que transformaram suas carreiras com as técnicas da Unidade 8200.