
Für wen das gedacht ist: Netzwerkingenieure, SREs, Red-Team-Mitglieder, SOC-Analysten, Performance-Tuning-Experten und Senior-Entwickler, die ein praxisorientiertes, schnörkelloses Feldhandbuch suchen, das von einem Raspberry Pi-Labor bis zu multi-kontinentalen SD-WAN-Backbones skalierbar ist.
Netzwerk-Fehlerbehebung ist ein disziplinierter, evidenzbasierter Workflow zur Erkennung, Isolierung und Behebung von Datenpfad-Ausfällen über alle OSI-/TCP-IP-Schichten hinweg. Sie hat zwei harte geschäftliche KPIs:
Eine starke Praxis verkürzt beide Zeiten, dokumentiert die Ursache und speist die Erkenntnisse zurück in Architektur, Monitoring und Runbooks.
Reaktiv vs. proaktiv:
Reaktive Arbeit löscht Brände; proaktive Arbeit verhindert sie. Ihre Tools, Metriken und Chaos-Übungen müssen beides unterstützen.
/24, /27, /31 — warum ungerade Maskengrößen für Punkt-zu-Punkt-Verbindungen wichtig sind.ipcalc:ipcalc 192.168.14.0/29
| Check | Typischer Befehl | Erfolgskriterium |
|---|---|---|
| Link-Lights & Aushandlung | ethtool eth0 |
1 Gbit Full Duplex, keine Fehler |
| Loopback-Stecker | swconfig dev switch0 set loopback 1 |
Saubere Rx/Tx-Zähler |
| Optische Leistung | ethtool -m eth2 |
Rx-Leistung im Spec-Bereich –1 bis –3 dBm |
watch -n2 "ip -s link show eth0 | grep -A1 RX"
| Tool | Schicht | Beispiel | Erkenntnis |
|---|---|---|---|
ping -M do -s1472 dst |
3 | Pfad-MTU-Erkennung | |
traceroute -I -T dst |
3 | Hop-Latenz, MPLS-Labels | |
ip -s link |
2/3 | Fehler, Drops, Geschwindigkeit | |
dig +trace fqdn |
7 | Delegationsbaum | |
ss -tulpn |
4 | Lauschende/ESTAB-Sockets | |
ip route get 8.8.8.8 |
3 | Gewählter Ausgangspfad | |
tcpdump -ni any 'tcp[13]&2!=0' |
2-7 | SYN-Flood-Gesundheit | |
nmap -sS -Pn -p1-1024 dst |
3-7 | Offene/gefilterte Ports | |
arp -a |
2 | Doppelte MAC-Adressen | |
mtr -ezbwrc 100 dst |
3 | Echtzeit-Verlust/Latenz |
show spanning-tree detail | include role – auf root inconsistent prüfen.curl -6 https://example vs. curl -4 ….Idle → Active → OpenSent Schleifen deuten auf Auth-/TTL-Problem.ip route show vrf red 0.0.0.0/0 darf in vrf blue nicht auftauchen.sequenceDiagram
Client->>Server: SYN
Server-->>Client: SYN-ACK ❌ (verworfen)
Client->>Server: SYN (erneut)
Meist Firewall-State-Table-Erschöpfung oder asymmetrische Route.
sudo ethtool -k eth0 | grep offload.dig +dnssec +multi example.com — auf ad-Flag achten.curl -v https://site | grep HTTP — 499 vs. 504 Semantik.openssl s_client -servername site -connect ip:443 — SNI/CN-Abgleich prüfen.| Kategorie | Symptom | Ursache | Abhilfe |
|---|---|---|---|
| DNS | Lange FQDN-Auflösung | SERVFAIL vom Upstream | Zone-Transfer-ACL korrigieren, SOA-Serial erhöhen |
| Routing | Intermittierende Erreichbarkeit | ECMP-Hash-Ungleichgewicht | L4-Hash aktivieren oder Flow per Policy fixieren |
| Firewall | Zufällige HTTPS-Resets | Schatten-DROP über ACCEPT | Regeln neu ordnen, Logging-Prefix ergänzen |
| Performance | 200 ms Latenzspitzen | Bufferbloat am CPE | FQ-CoDel anwenden: tc qdisc … fq_codel |
| MTU | TLS schlägt nach 14 kB fehl | ICMP Black-Hole | MSS-Clamping: iptables --clamp-mss-to-pmtu |
mmcli -m 0 --command='AT+QENG="servingcell"'.# Pfad über Cilium Overlay verfolgen
cilium monitor --icmp --related -v
flannel.1 Interface-Kapselung achten.calicoctl node status für Peer-Status prüfen.Mermaid-Diagramm für ein-/ausgehenden Traffic:
graph TD
Client -->|mTLS| Envoy_Sidecar
Envoy_Sidecar -->|mTLS| App_Pod
App_Pod --> Envoy_Sidecar
Envoy_Sidecar -->|mTLS| Remote_Envoy
gcloud logging read prüfen.tcpdump -ni underlay udp port 4789.show crypto isakmp sa für Phase-1-Timer.ip netmask 255.255.255.0 aggregieren.zeek -i eth0 local "Site::local_nets += { 10.0.0.0/8 }"
notice.log mit Suricata eve.json korrelieren für kontextreiche Alerts.
sysctl net.ipv4.tcp_congestion_control=bbr.ss -ti überwachen.tc qdisc add dev eth0 root handle 1: htb default 20
tc class add dev eth0 parent 1: classid 1:20 htb rate 10mbit ceil 20mbit
WRED auf Klasse 1:20 für priorisierte Drops aktivieren.
dig +short CHAOS TXT id.server @resolver DNS-POP geolokalisieren.import http from 'k6/http';
export default function () {
http.get('https://api.example.com/health', { timeout: '2s' });
}
Stündlich per Kubernetes CronJob ausführen; PagerDuty bei P95 > 300 ms auslösen.
| Stack | Open-Source | Kommerziell |
|---|---|---|
| NPM | LibreNMS, Prometheus, Grafana | SolarWinds, PRTG |
| AIOps | Zabbix + Python ML | Kentik, ThousandEyes |
| Paketmitschnitt | Wireshark, Arkime | Gigamon GigaVUE |
| APM | OpenTelemetry | Datadog NPM, New Relic |
route-map gedämpft.ip rule 100 wegen Cilium-Bug.cilium bpf ct flush, cordon & drain, Daemonset-Neustart → Problem behoben.Operative Disziplin plus die richtige Tiefe an Paket-Einblick verwandeln Brandbekämpfung in eine wiederholbare Wissenschaft – mit niedriger Latenz, hohem Durchsatz und zufriedenen Nutzern.
# MTU-Erkennung (scheitert bei DF-Überschreitung)
ping -M do -s 1472 8.8.8.8
# Echtzeit TCP-Retransmissions
tcpdump -ni any 'tcp[13] & 0x10 != 0 and tcp[13] & 0x08 != 0'
# Anzeige der Routenwerbung (Juniper)
show route advertising-protocol bgp 192.0.2.1
# Kubernetes VIP zu Endpunkten mappen
kubectl get ep kube-dns -o wide
TCP Flags: URG ACK PSH RST SYN FIN
IPv6 Ext Headers: 0 Hop-by-Hop | 43 Routing | 44 Fragment | 50 ESP | 51 AH
DNS Opcodes: 0 QUERY | 5 UPDATE | 4 NOTIFY
| Datentyp | Hot Storage | Cold Storage | Compliance |
|---|---|---|---|
| Roh-pcap | 7 Tage SSD | 30 Tage S3/Glacier | PCI-DSS |
| Flow/Metriken | 13 Monate TSDB | 2 Jahre Object Store | GDPR |
| Syslog/Audit | 1 Jahr | 5 Jahre Tape | HIPAA |
Wenn Sie diesen Inhalt wertvoll fanden, stellen Sie sich vor, was Sie mit unserem umfassenden 47-wöchigen Elite-Trainingsprogramm erreichen könnten. Schließen Sie sich über 1.200 Studenten an, die ihre Karrieren mit den Techniken der Unit 8200 transformiert haben.