Le Guide Ultime de Dépannage Réseau : Étapes, Outils, Problèmes & Bonnes Pratiques

Pour qui : Ingénieurs réseau, SRE, red-teamers, analystes SOC, experts en optimisation des performances, et développeurs seniors qui veulent un manuel terrain pratique et sans fioritures, évolutif d’un labo Raspberry Pi à des dorsales SD-WAN multi-continentales.

Fondations

Qu’est-ce que le dépannage réseau ?

Le dépannage réseau est un processus rigoureux et fondé sur des preuves pour détecter, isoler et corriger les défaillances du chemin de données à tous les niveaux OSI/TCP-IP. Il repose sur deux indicateurs métier clés :

MTTD — Temps Moyen de Détection
MTTR — Temps Moyen de Rétablissement

Une bonne pratique réduit ces deux valeurs, documente la cause racine, et réinjecte les enseignements dans l’architecture, la supervision et les runbooks.

Réactif vs proactif :
Le travail réactif éteint les incendies ; le travail proactif les prévient. Vos outils, métriques et exercices de chaos doivent soutenir les deux.

Pourquoi c’est important pour les réseaux domestiques, d’entreprise et ISP/jeux

Respect des SLA & SLO – les cibles de disponibilité ou de latence manquées entraînent crédits, remboursements ou perte d’utilisateurs.
Applications sensibles à la latence – gigue VoIP au-dessus de 30 ms, latence de téléportation VR, délais de hit-reg en e-sport : tous visibles par l’utilisateur.
Suivi MTBF – réduire le temps moyen entre pannes est un indicateur de maturité opérationnelle au niveau du conseil d’administration.

Rappel des concepts clés

Adressage IP, sous-réseaux, CIDR & VLSM

/24, /27, /31 — pourquoi les masques de taille étrange comptent pour les liens point-à-point.
VLSM permet de découper des blocs non contigus ; planifiez avec IPAM, vérifiez avec ipcalc :

ipcalc 192.168.14.0/29

Enregistrements DNS, forwarders & root hints

A/AAAA vs PTR, chaînes CNAME, SRV pour VoIP.
Forwarders stubs vs récursion root-hint ; comment les vues split-horizon cassent les VPN.

Fondamentaux du routage : statique, dynamique, ECMP

Statique pour les loopbacks, dynamique (OSPF, IS-IS, BGP) pour tout le reste.
Pièges du hachage Equal-Cost Multi-Path (ECMP) avec les flux équilibrés L4.

Variantes NAT : SNAT, DNAT, PAT

SNAT pour surcharge sortante, DNAT pour VIP entrantes, PAT pour regroupement de ports.
Le hair-pinning à travers des NAT chaînés cause souvent des chemins asymétriques.

Couches de sécurité : ACL, tables d’état FW, UTM vs NGFW

ACL 5-tuple → règles stateful → moteurs UTM (AV/IPS) → NGFW DPI couche 7.
Toujours cartographier l’ordre des règles ; les règles shadow laissent tomber les paquets silencieusement.

La méthodologie de dépannage en 7 étapes

Identifier le problème – capturer les symptômes, métriques de référence, extraits de logs.
Établir une hypothèse – top-down (L7→L1) ou bottom-up (L1→L7) ; choisir selon les preuves.
Tester l’hypothèse – VM labo, fenêtre de maintenance, capture de paquets.
Créer un plan d’action – points de retour, validations, notes sur le rayon d’impact.
Mettre en œuvre ou escalader – exécuter MOP/SOP ou passer au niveau supérieur.
Vérifier la fonctionnalité complète – tableaux de bord RUM, sondes synthétiques, validation utilisateur.
Documenter les résultats – post-mortem d’incident, article KB, mise à jour du runbook.

Vérifications rapides matériel & connectivité

Validation couche physique

Vérification	Commande typique	Critère de succès
Voyants & négociation	`ethtool eth0`	1 Gbit Full, sans erreurs
Bouchon loopback	`swconfig dev switch0 set loopback 1`	Compteurs Rx/Tx propres
Puissance optique	`ethtool -m eth2`	Puissance Rx dans la spec –1 dBm à –3 dBm

Bonnes pratiques de redémarrage & démarrage à froid

Annoncer dans le canal incident.
Enregistrer l’heure murale + UTC dans le ticket.
Démarrage à froid : couper l’alimentation 30 s, réinsérer les SFP si applicable.
Post-démarrage : vérifier la synchro NTP et la remise à zéro des compteurs d’interface.

Compteurs d’interface : CRC, Giants, Runts, Collisions

watch -n2 "ip -s link show eth0 | grep -A1 RX"

CRC en hausse → câble ou optique défaillant.
Giants/Runts → décalage MTU ou erreurs duplex.
Collisions (semi-duplex) doivent être nulles sur liens full-duplex.

Outils de diagnostic essentiels

Outil	Couche	Extrait
`ping -M do -s1472 dst`	3	Découverte Path-MTU
`traceroute -I -T dst`	3	Latence par saut, labels MPLS
`ip -s link`	2/3	Erreurs, pertes, vitesse
`dig +trace fqdn`	7	Arbre de délégation
`ss -tulpn`	4	Sockets à l’écoute/établis
`ip route get 8.8.8.8`	3	Chemin de sortie choisi
`tcpdump -ni any 'tcp[13]&2!=0'`	2-7	Santé flood SYN
`nmap -sS -Pn -p1-1024 dst`	3-7	Ports ouverts/filtrés
`arp -a`	2	MAC dupliquées
`mtr -ezbwrc 100 dst`	3	Perte/latence en temps réel

Diagnostic couche par couche

Physique & Liaison de données

Tests de longueur et réflexion câble TDR/OTDR.
Spanning-Tree : show spanning-tree detail | include role – chercher root inconsistent.
Exploits 802.1Q : double-tag VLAN hopping ; atténuer par élagage VLAN natif.

Réseau

Blocages dual-stack : curl -6 https://example vs curl -4 ….
FSM voisin BGP : boucles Idle → Active → OpenSent indiquent problème auth/TTL.
Fuite VRF : ip route show vrf red 0.0.0.0/0 ne doit pas apparaître dans vrf blue.

Transport

Échecs de handshake en trois temps :

sequenceDiagram
Client->>Server: SYN
Server-->>Client: SYN-ACK ❌ (perdu)
Client->>Server: SYN (réessais)

Souvent épuisement table d’état firewall ou route asymétrique.

Fragmentation UDP : vérifier sudo ethtool -k eth0 | grep offload.

Application

DNSSEC : dig +dnssec +multi example.com — chercher le flag ad.
HTTP : curl -v https://site | grep HTTP — sémantique 499 vs 504.
TLS : openssl s_client -servername site -connect ip:443 — vérifier correspondance SNI CN.

Problèmes courants & corrections

Catégorie	Symptôme	Cause racine	Remédiation
DNS	Résolution FQDN longue	SERVFAIL en amont	Corriger ACL transfert zone, incrémenter SOA serial
Routage	Accessibilité intermittente	Déséquilibre hachage ECMP	Activer hachage L4, ou fixer flux par politique
Firewall	Réinitialisations HTTPS aléatoires	DROP shadow au-dessus d’ACCEPT	Réordonner règles, ajouter préfixe log
Performance	Pics à 200 ms	Bufferbloat sur CPE	Appliquer FQ-CoDel : `tc qdisc … fq_codel`
MTU	TLS échoue après 14 kB	Black-hole ICMP	Clamp MSS : iptables `--clamp-mss-to-pmtu`

Dépannage sans fil & mobile

Études de site Wi-Fi

Capturer carte thermique RSSI passive.
Identifier interférences CCI (co-canal) et ACI (canal adjacent).
Préférer 5 GHz/6 GHz ; verrouiller canaux DFS uniquement avec AP radar-aware.

Roaming & Fast-BSS

Activer 802.11k (rapports voisins), 11v (transition BSS), 11r (réassoc rapide).
Ajuster seuils RSSI : clients collants dégradent le temps d’antenne.

KPI WAN cellulaire

RSRP (puissance signal), RSRQ (qualité), SINR (bruit).
Logger événements de handoff : mmcli -m 0 --command='AT+QENG="servingcell"'.

Environnements conteneurs, cloud & SDN

Réseau Docker & Kubernetes

# Tracer le chemin sur overlay Cilium
cilium monitor --icmp --related -v

VXLAN Flannel : chercher interface flannel.1 encapsulée.
Calico BGP : calicoctl node status pour vérifier état pair.

Flux sidecar Service Mesh

Graph Mermaid des flux entrants/sortants :

graph TD
Client -->|mTLS| Envoy_Sidecar
Envoy_Sidecar -->|mTLS| App_Pod
App_Pod --> Envoy_Sidecar
Envoy_Sidecar -->|mTLS| Remote_Envoy

Nuances Cloud public

AWS : lancer Reachability Analyzer entre ENI.
Azure : inspecter NSG Flow Logs dans Log Analytics.
GCP : VPC-SC bloque egress vers APIs interdites — vérifier gcloud logging read.

Tunnels Overlay & SD-WAN

Capture VXLAN port 4789 : tcpdump -ni underlay udp port 4789.
Keep-alives IPSec GRE : show crypto isakmp sa pour timers phase 1.

Sécurité & réponse aux incidents

Packet Broker / TAP

Utiliser capture sans perte 100 Gb ; agréger avec filtre SPAN ip netmask 255.255.255.0.

Miroirs de déchiffrement & empreinte TLS

Hash JA3/JA4 identifient famille malware ; injecter dans Elastic/Splunk.
Déchiffrer avec fichier clé SSL key-log en test serveur.

Chasse aux menaces avec Zeek & Suricata

zeek -i eth0 local "Site::local_nets += { 10.0.0.0/8 }"

Corréler notice.log avec eve.json Suricata pour alertes riches en contexte.

Optimisation des performances & QoS

Réglage latence vs débit

BBR pour chemins haut BDP : sysctl net.ipv4.tcp_congestion_control=bbr.
Comparer avec CUBIC : surveiller croissance cwnd dans ss -ti.

Traffic shaping & WRED

tc qdisc add dev eth0 root handle 1: htb default 20
tc class add dev eth0 parent 1: classid 1:20 htb rate 10mbit ceil 20mbit

Activer WRED sur classe 1:20 pour pertes priorisées.

Problèmes CDN Anycast

Utiliser dig +short CHAOS TXT id.server @resolver pour géolocaliser POP DNS.
Valider biais Anycast avec mesures RIPE Atlas.

Automatisation & IaC pour dépannage

ChatOps & SOAR

Commande slash déclenche playbook Ansible → lance tcpdump, upload pcap sur S3, poste lien.

Détection de dérive de config

NetBox + GitOps : config désirée dans Git ; pipeline CI lance tests Batfish de reachabilité sur PR.

Tests transactionnels synthétiques

Script k6 :

import http from 'k6/http';
export default function () {
  http.get('https://api.example.com/health', { timeout: '2s' });
}

Exécution horaire via CronJob Kubernetes ; alerte PagerDuty si P95 > 300 ms.

Matrice de sélection d’outils (condensée)

Stack	Open-Source	Commercial
NPM	LibreNMS, Prometheus, Grafana	SolarWinds, PRTG
AIOps	Zabbix + Python ML	Kentik, ThousandEyes
Capture paquets	Wireshark, Arkime	Gigamon GigaVUE
APM	OpenTelemetry	Datadog NPM, New Relic

Études de cas & laboratoires

Migration WAN MPLS vers SD-WAN en entreprise

Problème : 20 % du trafic perdu via hub MPLS legacy.
Cause racine : filtrage OSPF zone manquant les loopbacks SDP.
Correction : fuite des loopbacks /32 dans zone 0, activation BFD sur bords SD-WAN.

Flapping peering ISP (Graceful-Restart)

10 k retraits BGP/min détectés.
Activation GR, augmentation hold-time à 180 s, amortissement ASN instable avec route-map.

Black-hole Kubernetes Est-Ouest

Nœud 3 sans ip rule 100 à cause d’un bug Cilium.
cilium bpf ct flush, cordon & drain, redémarrage daemonset → restauration.

Bonnes pratiques & gouvernance

Baselining : benchmarks mensuels qualité chemin — stocker en TSDB pour alertes régressions.
Contrôle de changement : pré-check (mtr, dig), post-check (panneau SLO Grafana).
Versioning runbook : Markdown + Git ; lien direct depuis playbooks d’alerte.

Conclusion & prochaines étapes

Centraliser visibilité — paquets, flux, logs, métriques dans un seul tableau de bord.
Exercer l’équipe — exercices chaos pour flap BGP, panne DNS, black-hole MTU.
Automatiser remédiation — rollback CI/CD, politiques CNI Kubernetes auto-réparantes.

La discipline opérationnelle associée à une bonne profondeur d’analyse au niveau paquet transforme la lutte contre les incidents en science reproductible — gardant la latence basse, le débit élevé, et les utilisateurs satisfaits.

Annexe A – Fiche CLI (exemples)

# Découverte MTU (échoue si DF dépassé)
ping -M do -s 1472 8.8.8.8

# Retransmissions TCP en temps réel
tcpdump -ni any 'tcp[13] & 0x10 != 0 and tcp[13] & 0x08 != 0'

# Afficher annonce de route (Juniper)
show route advertising-protocol bgp 192.0.2.1

# Mapper VIP Kubernetes vers endpoints
kubectl get ep kube-dns -o wide

Annexe B – Tableaux de référence protocolaires

Flags TCP : URG ACK PSH RST SYN FIN
Headers Ext IPv6 : 0 Hop-by-Hop | 43 Routing | 44 Fragment | 50 ESP | 51 AH
Opcodes DNS : 0 QUERY | 5 UPDATE | 4 NOTIFY

Annexe C – Collecte & rétention logs

Type de données	Stockage chaud	Stockage froid	Conformité
pcap brut	7 jours SSD	30 jours S3/Glacier	PCI-DSS
Flux/métriques	13 mois TSDB	2 ans stockage objet	GDPR
Syslog/audit	1 an	5 ans bande	HIPAA