
Исчерпывающее руководство по устранению неполадок в сети: Шаги, инструменты, проблемы и лучшие практики
Руководство по устранению неполадок сети: шаги, инструменты, проблемы и лучшие практики
Для кого это руководство Инженеры сетей, SRE-специалисты, аналитики безопасности, red-team-эксперты и ведущие разработчики, которым нужен практический «полевой» мануал — от домашнего Raspberry Pi-стенда до межконтинентальных SD-WAN-магистралей.
Основы
Что такое устранение неполадок сети
Устранение неполадок сети — дисциплинированный, основанный на фактах рабочий процесс, который выявляет, изолирует и исправляет сбои в пути трафика на каждой из слоёв OSI / TCP-IP. Два ключевых бизнес-показателя:
- MTTD — среднее время обнаружения
- MTTR — среднее время восстановления
Зрелая практика сокращает оба значения, документирует первопричину и возвращает уроки в архитектуру, мониторинг и runbook-и.
Реактивный vs. проактивный — тушение пожара и профилактика; инструменты, метрики и хаос-дриллы должны охватывать обе стороны.
Почему это важно дома, в корпорации и для ISP / гейминга
- Соблюдение SLA / SLO — нарушение доступности или задержки ведёт к штрафам и оттоку пользователей.
- Чувствительные к задержке приложения — VoIP при джиттере > 30 мс, VR, киберспорт.
- MTBF — увеличение среднего времени между отказами — индикатор зрелости эксплуатации.
Краткое напоминание ключевых понятий
| Тема | Быстрая шпаргалка |
|---|---|
| IP-адресация, CIDR, VLSM | Нестандартные подсети; проверка ipcalc. |
| DNS-записи | A/AAAA, PTR, CNAME, SRV, split-horizon. |
| Маршрутизация | Статическая vs. OSPF/BGP/IS-IS, ECMP, PBR, VRF. |
| NAT-варианты | SNAT, DNAT, PAT; проблемы асимметричных путей. |
| Контроль доступа | Stateless ACL, stateful firewall, UTM, NGFW. |
Семь шагов методологии
- Идентифицировать проблему — симптомы, метрики, логи.
- Сформулировать гипотезу причины — анализ сверху-вниз или снизу-вверх.
- Проверить гипотезу — лаборатория, окно обслуживания, pcap.
- Составить план действий — точки отката, согласования, blast radius.
- Внедрить или эскалировать — MOP / SOP, автоматизация.
- Подтвердить работоспособность — синтетические пробы, метрики пользователей.
- Задокументировать выводы — post-mortem, база знаний, актуализация runbook-ов.
Быстрые проверки оборудования и связности
Валидация физического уровня
| Проверка | Команда | Ожидаемый результат |
|---|---|---|
| Индикаторы и согласование | ethtool eth0 |
1 Gb Full, без ошибок |
| Loopback / TDR | swconfig … |
Стабильные счётчики |
| Оптическая мощность | ethtool -m |
–1 dBm … –3 dBm |
Power-cycle: лучшие практики
Объявить в канале инцидентов → зафиксировать время → отключить питание на 30 с → после загрузки проверить синхронизацию NTP.
Счётчики интерфейсов
watch -n2 "ip -s link show eth0 | grep -A1 RX"
Рост CRC, Giants, Runts или Collisions требует расследования.
Ключевые диагностические инструменты
| Инструмент | Слой | Пример CLI | Диагностическая польза |
|---|---|---|---|
| ping / hping3 | 3 | ping -M do -s1472 |
MTU и достижимость |
| traceroute / pathping | 3 | traceroute -I -w2 |
Задержка по hop-ам |
| ip / ifconfig | 2-3 | ip -s link |
Ошибки Rx/Tx |
| dig / nslookup | 7 | dig +trace |
Цепочка делегирования |
| ss / netstat | 4 | ss -tulpn |
Активные сокеты |
| ip route | 3 | ip route get 8.8.8.8 |
Эффективный выход |
| tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
Шторм SYN |
| nmap / masscan | 3-7 | nmap -sS -Pn |
Открытые порты |
| arp | 2 | arp -a |
Дубли MAC |
| mtr | 3 | mtr -ezbwrc100 |
Потери / задержка онлайн |
Диагностика по слоям
Физический и канальный
- Кабельные тесты TDR/OTDR.
- Петли Spanning-Tree.
- Double-tag VLAN-атака.
Сетевой
- Зависания IPv6 vs. IPv4 (Happy-Eyeballs).
- Состояния соседства BGP/OSPF.
- Утечки VRF / PBR.
Транспортный
- Срыв рукопожатия TCP (таблица состояний FW).
- Фрагментация UDP и offload.
- Блокировка QUIC на UDP/443.
Прикладной
- Сбой DNSSEC.
- HTTP 502/504/499.
- Несоответствие TLS SNI.
Частые проблемы и решения
| Симптом | Причина | Исправление |
|---|---|---|
curl: name or service not known |
Неверный /etc/resolv.conf |
Корректировать search/domain и SOA |
| Высокий RTT на последнем hop | Перегрузка CPU/NIC | irqbalance, включить GRO/LRO |
| Случайные обрывы HTTPS | Переполнена state-таблица | Увеличить conn-track |
| Односторонний VoIP | Асимметричный NAT | Зафиксировать RTP/RTCP порты |
| «Black-hole» подсеть | Нет обратного маршрута | Добавить маршрут/redistribution |
Wi-Fi и мобильные сети
- Сайт-съёмка — RSSI < –67 dBm.
- Быстрая роуминговая связка — 802.11k/v/r.
- DFS 5/6 ГГц — учёт радарных событий.
- LTE / 5G KPI — RSRP, RSRQ, SINR.
Контейнеры, облако и SDN
- Трассировка CNI в Kubernetes (
cilium monitor). - AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
- VXLAN / GRE / IPSec — захват underlay + overlay.
Безопасность и реагирование на инциденты
- Packet Broker / TAP на 100 Gb без потерь.
- TLS-отпечатки JA3 / JA4.
- Корреляция Zeek + Suricata (flows + alerts).
Оптимизация производительности и QoS
| Метод | Команда | Эффект |
|---|---|---|
| BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
Снижение латентности |
| FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
Устранение bufferbloat |
| DSCP | EF/46 голос, AF41 видео | Сквозной QoS |
| WRED | random-detect dscp 46 |
Меньше tail-drop |
Автоматизация и IaC
- ChatOps — команда Slack → Ansible → tcpdump → S3.
- NetBox + Batfish — drift-контроль и reachability-тесты.
- k6 / Locust — синтетические транзакции в CronJob-е K8s.
Краткая матрица инструментов
| Уровень | Open Source | Коммерческие |
|---|---|---|
| NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
| AIOps | Zabbix + ML | Kentik, ThousandEyes |
| Packet Capture | Wireshark, Arkime | Gigamon |
| APM | OpenTelemetry | Datadog, New Relic |
Кейсы
- Миграция MPLS → SD-WAN — утечка /32 в зону 0.
- Flap BGP у ISP — включён Graceful-Restart, hold-time 180 s.
- Black-hole East-West в K8s —
cilium bpf ct flushи переустановка CNI.
Лучшие практики
- Ежемесячное базовое измерение.
- Контроль изменений — pre-/post-проверки.
- Runbook-и в Git с ссылками на панели Grafana.
Итог и дальнейшие шаги
Централизованная наблюдаемость, ежемесячные хаос-дриллы и автоматические откаты превращают пожаротушение в повторяемую науку — задержки падают, пропускная способность растёт.
Приложение A — примеры CLI
ping -M do -s 1472 8.8.8.8 # Проверка MTU
tcpdump -ni any 'tcp[13]&8!=0' # Ретрансляции
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP ↔ Pods
Приложение B — протокольные таблицы
Флаги TCP: URG ACK PSH RST SYN FIN
Заголовки IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
DNS-опкоды: 0 QUERY, 5 UPDATE, 4 NOTIFY
Приложение C — хранение логов
| Тип данных | Горячее хранилище | Холодное хранилище | Соответствие |
|---|---|---|---|
| Сырые pcap | 7 дней SSD | 30 дней S3/Glacier | PCI-DSS |
| Flow/метрики | 13 месяцев TSDB | 2 года object-store | GDPR |
| Syslog/Audit | 1 год | 5 лет лента | HIPAA |
Поднимите свою карьеру в кибербезопасности на новый уровень
Если вы нашли этот контент ценным, представьте, чего вы могли бы достичь с нашей комплексной 47-недельной элитной обучающей программой. Присоединяйтесь к более чем 1200 студентам, которые изменили свою карьеру с помощью техник Подразделения 8200.
