
מדריך אולטימטיבי לאיתור תקלות ברשת: שלבים, כלים, בעיות ושיטות עבודה מומלצות
מדריך אולטימטיבי לאיתור תקלות ברשת: שלבים, כלים, בעיות ושיטות עבודה מומלצות
למי זה מיועד: מהנדסי רשת,-SRE-ים, חוקרי אבטחה, ופיתוח בכיר שזקוקים למדריך שטח מעשי — מהמעבדה הביתית ועד עמוד-שדרה בין-יבשתי של SD-WAN.
יסודות
מהו איתור תקלות ברשת?
איתור תקלות ברשת הוא תהליך ממוקד-ראיות, חוזר ונשנה, לאיתור, בידוד ותיקון תקלות בנתיב התעבורה בכל שכבות OSI/TCP-IP. שתי מדידות-הליבה העסקיות הן:
- MTTD – זמן ממוצע לזיהוי
- MTTR – זמן ממוצע לשחזור
שגרה מקצועית מקצרת את שניהם, מתעדת סיבת-שורש ומחזירה את הלקחים לארכיטקטורה, ניטור ו־Runbooks.
תגובתי לעומת מניעתי – כיבוי שרפות מול מניעתן; הכלים, המדדים ותרגילי הכאוס צריכים לתמוך בשניהם.
למה זה חשוב בבית, בארגון וב-ISP/גיימינג
- עמידה ב-SLA/SLO – חריגה מזמינות או השהיה גוררת פיצויים ואובדן משתמשים.
- יישומים רגישי-latency – VoIP מעבר 30 ms, מציאות מדומה, e-Sports.
- MTBF – הגדלת זמן-ממוצע-בין-תקלות היא מדד בורד-לבל לבשלות תפעולית.
רענון מושגים מרכזיים
נושא | תזכורת מהירה |
---|---|
כתובות IP, CIDR, VLSM | חלוקת רשתות לא סימטריות; ipcalc לאימות. |
רשומות DNS | A/AAAA, PTR, CNAME, SRV, Split-Horizon. |
ניתוב | סטטי מול OSPF/BGP/IS-IS, ECMP, PBR ו-VRF. |
NAT | SNAT, DNAT, PAT; בעיות נתיב א-סימטרי. |
אבטחה | ACL נטול-מצב, חומות-אש Stateful, UTM ו-NGFW. |
מתודולוגיית שבעת השלבים
- זיהוי הבעיה – תיעוד סימפטומים ולוגים.
- השערת סיבת-שורש – מלמעלה-למטה או להפך.
- בדיקת ההשערה – מעבדה, חלון תחזוקה, pcap.
- תכנון פעולה – נקודות חזרה, אישורים, Blast-Radius.
- ביצוע או הסלמה – MOP/SOP אוטומטי.
- אימות מלא – פרובים סינתטיים ומדדי משתמשים.
- תיעוד הממצאים – פוסט-מורטם, KB, עדכון Runbook.
בדיקות חומרה וקישוריות מהירות
אימות שכבה פיזית
בדיקה | פקודה | מה נראה תקין |
---|---|---|
אורות Link ו-Negotiation | ethtool eth0 |
1 Gb Full, ללא שגיאות |
לופ-בק TDR/OTDR | swconfig … |
מונים יציבים |
הספק אופטי | ethtool -m |
–1 dBm עד –3 dBm |
אתיקת כיבוי-הדלקה
הכרזה, תיעוד זמן, ניתוק 30 ש׳, בדיקת NTP אחרי האתחול.
מוני ממשק
watch -n2 "ip -s link show eth0 | grep -A1 RX"
CRC, Giants, Runts, Collisions > 0 ? לחקור.
כלים דיאגנוסטיים מרכזיים
כלי | שכבה | דוגמת CLI | תובנה |
---|---|---|---|
ping / hping3 | 3 | ping -M do -s1472 |
MTU והגעה |
traceroute / pathping | 3 | traceroute -I -w2 |
השהיית קפיצות |
ip / ifconfig | 2-3 | ip -s link |
שגיאות Rx/Tx |
dig / nslookup | 7 | dig +trace |
שרשרת האצלה |
ss / netstat | 4 | ss -tulpn |
פורטים פעילים |
ip route | 3 | ip route get 8.8.8.8 |
נתיב יציאה |
tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
מתקפת SYN |
nmap / masscan | 3-7 | nmap -sS -Pn |
סריקת פורט |
arp | 2 | arp -a |
MAC כפולים |
mtr | 3 | mtr -ezbwrc100 |
הפסד/latency חי |
אבחון שכבה-אחר-שכבה
פיזית & קו-נתונים
- בדיקות כבל TDR/OTDR.
- לולאות Spanning-Tree.
- מתקפת Double-Tag VLAN.
רשת
- IPv6 מול IPv4 (Happy-Eyeballs).
- מצבי שכנות -BGP/OSPF.
- דליפת VRF/PBR לא רצוי.
הובלה
- כשל hand-shake TCP – טבלאות FW.
- פרגמנטציה UDP ו-Offload.
- חסימת QUIC ב-UDP/443.
יישום
- כשל DNSSEC.
- קודי 502/504/499.
- SNI לא תואם בתעודת TLS.
בעיות ותיקונים נפוצים
סימפטום | גורם | תיקון |
---|---|---|
curl: name or service not known |
/etc/resolv.conf שגוי | עדכון Search/Domain ו-SOA |
RTT גבוה בקפיצה אחרונה | עומס CPU/NIC | irqbalance, GRO/LRO |
ניתוקים HTTPS | טבלת-מצב מלאה | הגדלת conn-track |
אודיו חד-כיווני | NAT א-סימטרי | קיבוע פורטי RTP/RTCP |
רשת “Black-hole” | נתיב חוזר חסר | הוספת Route / Redistribution |
רשת אלחוט וסלולר
- סקר אתר Wi-Fi – מיפוי RSSI < –67 dBm.
- נדידה מהירה – 802.11k/v/r.
- DFS 5/6 GHz – טיפול בפגיעות רדאר.
- KPIs סלולריים – RSRP/RSRQ/SINR.
קונטיינרים, ענן ו-SDN
- מעקב CNI ב-Kubernetes (
cilium monitor
). - AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
- VXLAN / GRE / IPSec – לכוד גם underlay וגם overlay.
אבטחה ו-IR
- Packet Broker/TAP לאיסוף 100 Gb ללא-אבדן.
- טביעות TLS JA3/JA4.
- Zeek + Suricata לשיוך Flows ו-Alerts.
אופטימיזציית ביצועים ו-QoS
טכניקה | פקודה | השפעה |
---|---|---|
BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
latency נמוך |
FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
הפחתת Bufferbloat |
DSCP | EF/46 לקול, AF41 לוידאו | סיווג קצה-לקצה |
WRED | random-detect dscp 46 |
מניעת Tail-Drop |
אוטומציה ו-IaC
- ChatOps – פקודת Slack → Ansible → tcpdump → S3.
- NetBox + Batfish – גילוי Drift ובדיקות Reachability.
- k6/Locust – טרנזקציות סינתטיות כרון-Job.
מטריצת כלים מקוצרת
שכבה | קוד פתוח | מסחרי |
---|---|---|
NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
AIOps | Zabbix + ML | Kentik, ThousandEyes |
Packet Capture | Wireshark, Arkime | Gigamon |
APM | OpenTelemetry | Datadog, New Relic |
מקרי בוחן
- מעבר MPLS→SD-WAN – דליפה /32 לאזור 0.
- Flap BGP ב-ISP – הפעלת Graceful-Restart והחזקת 180 s.
- חור שחור K8s East-West –
cilium bpf ct flush
והפצת CNI.
שיטות עבודה מומלצות
- בסליינינג חודשי.
- בקרת שינויים – בדיקות pre/post.
- Runbooks ב-Git עם קישורים ללוחות Grafana.
מסקנה והמשך
איסוף תצפיות במקום אחד, תרגילי כאוס חודשיים ואוטומציה של Rollback הופכים כיבוי-שרפות למדע שחוזר על עצמו — ומשמרים latency נמוך וקצב העברה גבוה.
נספח A – דוגמאות CLI
ping -M do -s 1472 8.8.8.8 # גילוי MTU
tcpdump -ni any 'tcp[13]&8!=0' # Retransmissions
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP ל-Pods
נספח B – תרשימי פרוטוקול
דגלי TCP: URG ACK PSH RST SYN FIN
כותרות הרחבה IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
אופקוד DNS: 0 QUERY, 5 UPDATE, 4 NOTIFY
נספח C – שמירת לוגים
סוג נתון | אחסון חם | אחסון קר | תאימות |
---|---|---|---|
pcap גולמי | 7 ימים SSD | 30 ימים S3/Glacier | PCI-DSS |
Flow/מדדים | 13 חודשים TSDB | 2 שנים Object | GDPR |
Syslog/Audit | שנה | 5 שנים Tape | HIPAA |
קח את קריירת הסייבר שלך לשלב הבא
אם מצאתם את התוכן הזה בעל ערך, תארו לעצמכם מה תוכלו להשיג עם תוכנית ההכשרה המקיפה והאליטיסטית שלנו בת 47 שבועות. הצטרפו ליותר מ-1,200 סטודנטים ששינו את הקריירה שלהם בעזרת טכניקות יחידה 8200.