O Guia Definitivo de Solução de Problemas de Rede: Passos, Ferramentas, Problemas e Melhores Práticas

Guia Definitivo de Solução de Problemas de Rede: etapas, ferramentas, problemas e boas práticas

Para quem é este guia Engenheiros de rede, SREs, analistas de segurança, red-teamers e desenvolvedores seniores que precisam de um manual prático — do laboratório caseiro até backbones SD-WAN intercontinentais.

Fundamentos

O que é solução de problemas de rede?

Solução de problemas de rede é o fluxo de trabalho disciplinado e baseado em evidências para detectar, isolar e corrigir falhas no caminho de tráfego em todas as camadas OSI/TCP-IP. Os dois KPIs de negócios principais são:

MTTD – Tempo médio para detecção
MTTR – Tempo médio para restauração

Uma prática madura reduz ambos, documenta a causa raiz e realimenta os aprendizados na arquitetura, no monitoramento e nos runbooks.

Reativo × proativo — apagar incêndios versus preveni-los; suas ferramentas, métricas e exercícios de caos devem cobrir ambos.

Por que isso importa em residências, empresas e ISPs/games

Conformidade com SLA/SLO – violações de disponibilidade ou latência geram créditos, reembolsos ou perda de usuários.
Apps sensíveis à latência – VoIP acima de 30 ms, VR, e-sports.
MTBF – aumentar o Tempo Médio Entre Falhas é métrica de maturidade operacional.

Revisão de conceitos-chave

Tópico	Lembrete rápido
Endereçamento IP, CIDR, VLSM	Sub-redes não simétricas; confira com `ipcalc`.
Registros DNS	A/AAAA, PTR, CNAME, SRV, split-horizon.
Roteamento	Estático vs OSPF/BGP/IS-IS, ECMP, PBR e VRF.
NAT	SNAT, DNAT, PAT; caminhos assimétricos.
Segurança	ACL sem estado, firewall stateful, UTM e NGFW.

Metodologia dos sete passos

Identificar o problema – sintomas, métricas, logs.
Estabelecer a teoria – top-down ou bottom-up.
Testar a teoria – lab, janela de manutenção, pcap.
Criar plano de ação – rollback, aprovações, blast radius.
Implementar ou escalar – MOP/SOP, automação.
Verificar funcionalidade – probes sintéticos, métricas de usuário.
Documentar descobertas – post-mortem, KB, runbook.

Verificações rápidas de hardware e conectividade

Validação da camada física

Verificação	Comando	Estado esperado
Luzes e negociação	`ethtool eth0`	1 Gb Full, sem erros
Loopback / TDR	`swconfig …`	Contadores estáveis
Potência óptica	`ethtool -m`	–1 dBm a –3 dBm

Boas práticas de power-cycle

Anunciar no canal de incidentes, registrar horário, desligar 30 s, verificar NTP após boot.

Contadores de interface

watch -n2 "ip -s link show eth0 | grep -A1 RX"

CRC, Giants, Runts ou Collisions crescentes = investigar.

Ferramentas diagnósticas essenciais

Ferramenta	Camada	Exemplo CLI	Insight
ping / hping3	3	`ping -M do -s1472`	MTU & reachability
traceroute / pathping	3	`traceroute -I -w2`	Latência por salto
ip / ifconfig	2-3	`ip -s link`	Erros Rx/Tx
dig / nslookup	7	`dig +trace`	Cadeia de delegação
ss / netstat	4	`ss -tulpn`	Sockets ativos
ip route	3	`ip route get 8.8.8.8`	Saída efetiva
tcpdump	2-7	`tcpdump 'tcp[13]&2!=0'`	Tempestade SYN
nmap / masscan	3-7	`nmap -sS -Pn`	Portas abertas
arp	2	`arp -a`	MAC duplicados
mtr	3	`mtr -ezbwrc100`	Perda/latência em tempo real

Diagnóstico camada a camada

Física & Enlace

Teste de cabo TDR/OTDR.
Loops de Spanning-Tree.
Ataque VLAN double-tag.

Rede

Stalls IPv6 vs IPv4 (Happy-Eyeballs).
FSM de vizinhança BGP/OSPF.
Vazamento de VRF/PBR.

Transporte

Falha no three-way handshake TCP (firewall).
Fragmentação UDP e offload.
Bloqueio de QUIC (UDP/443).

Aplicação

Falha DNSSEC.
Códigos 502/504/499.
SNI/TLS incompatível.

Problemas e correções comuns

Sintoma	Causa	Correção
`curl: name or service not known`	`/etc/resolv.conf` errado	Ajustar search/domain, SOA
RTT alto último salto	CPU/NIC sobrecarregado	irqbalance, GRO/LRO
Quedas HTTPS	Tabela stateful cheia	Aumentar conn-track
Áudio unidirecional	NAT assimétrico	Fixar portas RTP/RTCP
Sub-rede “black-hole”	Rota de retorno ausente	Adicionar route/redistribuir

Wi-Fi e móvel

Site survey – RSSI < –67 dBm.
Roaming rápido – 802.11k/v/r.
DFS 5/6 GHz – tratamento de radar.
KPIs LTE/5G – RSRP/RSRQ/SINR.

Contêineres, nuvem e SDN

Rastreio CNI no K8s (cilium monitor).
AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
VXLAN/GRE/IPSec — capture underlay + overlay.

Segurança e resposta a incidentes

Broker/TAP 100 Gb sem perda.
Impressões TLS JA3/JA4.
Zeek + Suricata para correlação de flows/alertas.

Otimização de desempenho e QoS

Técnica	Comando	Efeito
BBR	`sysctl net.ipv4.tcp_congestion_control=bbr`	Reduz latência
FQ-CoDel	`tc qdisc add dev eth0 root fq_codel`	Mitiga bufferbloat
DSCP	EF/46 voz, AF41 vídeo	QoS fim-a-fim
WRED	`random-detect dscp 46`	Evita tail-drop

Automação e IaC

ChatOps – comando Slack → Ansible → tcpdump → S3.
NetBox + Batfish – detecção de drift, reachability tests.
k6/Locust – transações sintéticas como CronJob K8s.

Matriz resumida de ferramentas

Camada	Open Source	Comercial
NPM	LibreNMS, Prometheus	SolarWinds, PRTG
AIOps	Zabbix + ML	Kentik, ThousandEyes
Packet Capture	Wireshark, Arkime	Gigamon
APM	OpenTelemetry	Datadog, New Relic

Estudos de caso

Migração MPLS→SD-WAN – vazamento /32 para área 0.
Flap BGP em ISP – habilitar Graceful-Restart, hold-time 180 s.
Black-hole K8s east-west – cilium bpf ct flush e redeploy CNI.

Boas práticas

Baseline mensal.
Controle de mudanças – checks pré/pós.
Runbooks no Git com links Grafana.

Conclusão e próximos passos

Colete visibilidade centralizada, faça exercícios de caos mensais e automatize rollbacks: assim o firefighting vira ciência repetível — mantêm-se latência baixa e throughput alto.

Apêndice A – Exemplos CLI

ping -M do -s 1472 8.8.8.8          # Descobrir MTU
tcpdump -ni any 'tcp[13]&8!=0'      # Retransmissões
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide     # VIP → Pods

Apêndice B – Tabelas de protocolo

Flags TCP: URG ACK PSH RST SYN FIN
Headers IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
Opcode DNS: 0 QUERY, 5 UPDATE, 4 NOTIFY

Apêndice C – Retenção de logs

Tipo	Storage quente	Storage frio	Compliance
pcap bruto	7 dias SSD	30 dias S3/Glacier	PCI-DSS
Flow/métricas	13 meses TSDB	2 anos objeto	GDPR
Syslog/audit	1 ano	5 anos fita	HIPAA

O Guia Definitivo de Solução de Problemas de Rede: Passos, Ferramentas, Problemas e Melhores Práticas

Leve Sua Carreira em Cibersegurança para o Próximo Nível