
Le Guide Ultime de Dépannage Réseau : Étapes, Outils, Problèmes & Bonnes Pratiques slug: ultimate-network-troubleshooting-guide
Guide ultime de dépannage réseau : étapes, outils, problèmes courants et bonnes pratiques
À qui s’adresse ce guide ? Ingénieurs réseau, équipes SRE, analystes cybersécurité, red-teamers et développeurs seniors qui ont besoin d’un manuel pratique, utilisable aussi bien dans un labo maison à base de Raspberry Pi que sur un backbone SD-WAN intercontinental.
Fondamentaux
Qu’est-ce que le dépannage réseau ?
Processus structuré et fondé sur des preuves permettant de détecter, isoler et corriger des pannes sur le chemin du trafic à toutes les couches OSI / TCP-IP. Deux KPIs essentiels :
- MTTD — Mean Time To Detect (délai moyen de détection)
- MTTR — Mean Time To Restore (délai moyen de restauration)
Une pratique mature réduit ces deux temps, consigne la cause racine et réinjecte les apprentissages dans l’architecture, la supervision et les runbooks.
Réactif vs. proactif — éteindre les feux et les prévenir ; vos outils, métriques et exercices de chaos doivent couvrir les deux volets.
Pourquoi c’est crucial pour les réseaux domestiques, d’entreprise et ISP/jeu
- Respect des SLA / SLO — toute dérive sur la dispo ou la latence coûte des pénalités et des utilisateurs.
- Applications sensibles à la latence — VoIP > 30 ms de gigue, VR, e-sport, etc.
- MTBF élevé — signe d’une exploitation mature.
Rappel express des notions clés
Thème | Point clé |
---|---|
Adressage IP, CIDR, VLSM | Sous-réseaux irréguliers ; vérifier avec ipcalc . |
Enregistrements DNS | A/AAAA, PTR, CNAME, SRV, split-horizon. |
Routage | Statique vs. OSPF/BGP/IS-IS, ECMP, PBR, VRF. |
Modes NAT | SNAT, DNAT, PAT ; pièges des chemins asymétriques. |
Contrôles de sécurité | ACL stateless, pare-feu stateful, UTM, NGFW. |
Méthodologie en 7 étapes
- Identifier le problème — collecter symptômes, métriques, logs.
- Formuler une hypothèse — analyse top-down ou bottom-up.
- Tester l’hypothèse — labo, fenêtre de maintenance, capture pcap.
- Élaborer un plan d’action — points de rollback, validations, périmètre.
- Implémenter ou escalader — suivre MOP/SOP ou passer au niveau supérieur.
- Vérifier la remise en service — sondes synthétiques, métriques utilisateur réelles.
- Documenter les enseignements — post-mortem, base de connaissances, mise à jour des runbooks.
Vérifications matérielles et de connectivité rapides
Validation de la couche physique
Vérification | Commande | Résultat attendu |
---|---|---|
LEDs / négociation | ethtool eth0 |
1 Gb Full, zéro erreur |
Boucle locale / TDR | swconfig … |
Compteurs stables |
Puissance optique | ethtool -m |
–1 dBm à –3 dBm |
Bonnes pratiques de redémarrage électrique
Annoncer sur le canal incident → noter l’heure → coupure 30 s → vérifier NTP après reboot.
Compteurs d’interface (CRC, Giants, Runts, Collisions)
watch -n2 "ip -s link show eth0 | grep -A1 RX"
Toute valeur qui grimpe en continu doit alerter.
Outils de diagnostic essentiels
Outil | Couche | Exemple CLI | Apport |
---|---|---|---|
ping / hping3 | 3 | ping -M do -s1472 |
MTU & reachabilité |
traceroute / pathping | 3 | traceroute -I -w2 |
Latence par saut |
ip / ifconfig | 2-3 | ip -s link |
Erreurs Rx/Tx |
dig / nslookup | 7 | dig +trace |
Chaîne de délégation DNS |
ss / netstat | 4 | ss -tulpn |
Ports ouverts |
ip route | 3 | ip route get 8.8.8.8 |
Chemin de sortie |
tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
Tempête SYN |
nmap / masscan | 3-7 | nmap -sS -Pn |
Ports filtrés/ouverts |
arp | 2 | arp -a |
MAC en double |
mtr | 3 | mtr -ezbwrc100 |
Pertes & latence temps réel |
Dépannage couche par couche
Physique & liaison
- Tests câble TDR/OTDR
- Boucles Spanning-Tree
- Attaque VLAN double-tag
Réseau
- Blocages IPv6 ↔ IPv4 (Happy-Eyeballs)
- États voisins BGP/OSPF
- Fuites VRF / PBR
Transport
- Échec handshake TCP (table d’état FW)
- Fragmentation UDP & offload
- Blocage QUIC sur UDP/443
Application
- Échec DNSSEC
- Codes HTTP 502/504/499
- Mismatch TLS SNI
Problèmes fréquents et correctifs
Symptomatique | Cause | Correctif |
---|---|---|
curl: name or service not known |
/etc/resolv.conf erroné |
Corriger search/domain + SOA |
RTT élevé dernier saut | CPU/NIC saturé | irqbalance, activer GRO/LRO |
Coupures HTTPS aléatoires | Table d’état pleine | Augmenter conn-track |
VoIP unidirectionnel | NAT asymétrique | Fixer ports RTP/RTCP |
Sous-réseau « black-hole » | Route retour manquante | Ajouter route / redistribution |
Wi-Fi et mobile
- Site survey Wi-Fi — RSSI < –67 dBm
- Roaming rapide — 802.11 k/v/r
- DFS 5/6 GHz — gestion radar
- KPIs LTE / 5G — RSRP, RSRQ, SINR
Conteneurs, cloud et SDN
- Trace CNI Kubernetes (
cilium monitor
) - AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC
- VXLAN / GRE / IPSec — capturer underlay + overlay
Sécurité & réponse aux incidents
- Packet Broker / TAP 100 Gb sans perte
- Empreintes TLS JA3 / JA4
- Corrélation Zeek + Suricata (flows + alertes)
Optimisation perf & QoS
Technique | Commande | Effet |
---|---|---|
BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
Moins de latence |
FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
Réduit bufferbloat |
DSCP | EF/46 voix, AF41 vidéo | QoS bout-en-bout |
WRED | random-detect dscp 46 |
Moins de tail-drop |
Automatisation & IaC
- ChatOps — commande Slack → Ansible → tcpdump → S3
- NetBox + Batfish — détection de drift et tests de reachability
- k6 / Locust — transactions synthétiques via CronJob K8s
Matrice récap des outils
Couche | Open Source | Commercial |
---|---|---|
NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
AIOps | Zabbix + ML | Kentik, ThousandEyes |
Capture | Wireshark, Arkime | Gigamon |
APM | OpenTelemetry | Datadog, New Relic |
Cas pratiques
- Migration MPLS → SD-WAN — fuite de /32 vers Area 0.
- Flap BGP chez un ISP — activer Graceful-Restart, hold-time 180 s.
- Black-hole East-West K8s —
cilium bpf ct flush
+ redeploy CNI.
Bonnes pratiques
- Baseline mensuelle
- Change-control — checks avant/après
- Runbooks sous Git + dashboards Grafana
Conclusion & prochaines étapes
Centraliser l’observabilité, planifier des drills de chaos mensuels et automatiser les rollbacks : le firefighting devient ainsi une science répétable — latence minimale, débit maximal.
Annexe A — Exemples CLI
ping -M do -s 1472 8.8.8.8 # Découverte MTU
tcpdump -ni any 'tcp[13]&8!=0' # Retransmissions
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP ↔ Pods
Annexe B — Tableaux protocolaires
Drapeaux TCP : URG ACK PSH RST SYN FIN
En-têtes IPv6 : 0 Hop-by-Hop, 43 Routing, 44 Fragment
Opcode DNS : 0 QUERY, 5 UPDATE, 4 NOTIFY
Annexe C — Rétention des logs
Type de données | Stockage chaud | Stockage froid | Conformité |
---|---|---|---|
pcap brut | 7 jours SSD | 30 jours S3/Glacier | PCI-DSS |
Flows / métriques | 13 mois TSDB | 2 ans objet | RGPD |
Syslog / Audit | 1 an | 5 ans bande | HIPAA |
Faites passer votre carrière en cybersécurité au niveau supérieur
Si vous avez trouvé ce contenu utile, imaginez ce que vous pourriez accomplir avec notre programme de formation élite complet de 47 semaines. Rejoignez plus de 1 200 étudiants qui ont transformé leur carrière grâce aux techniques de l'Unité 8200.