
究極のネットワークトラブルシューティングガイド:手順、ツール、問題、ベストプラクティス
ネットワークトラブルシューティングのための実践的で分かりやすいフィールドマニュアル。基礎概念、7ステップの手法、主要な診断ツール、レイヤーごとの診断、一般的な問題、そして家庭、企業、ISP、クラウド環境でのベストプラクティスを網羅。
ネットワークトラブルシューティング究極ガイド ― 手順・ツール・典型的な障害とベストプラクティス
対象読者 ネットワークエンジニア、SRE、セキュリティアナリスト、Red Team、そしてラズパイ小規模ラボから大陸間 SD-WAN バックボーンまで扱うシニア開発者向けの実践的フィールドマニュアル。
基本概念
ネットワークトラブルシューティングとは
OSI/TCP-IP の全レイヤーにわたるトラフィック経路の障害を検出・隔離・修復する証拠ベースの体系的プロセス。主要 KPI は次の 2 つ。
- MTTD — 平均検知時間 (Mean Time To Detect)
- MTTR — 平均復旧時間 (Mean Time To Restore)
成熟した運用は両方を短縮し、根本原因を記録してアーキテクチャ・監視・Runbook へフィードバックする。
リアクティブ vs プロアクティブ — 火を消すか、火を防ぐか。ツール・メトリクス・カオス演習の両輪が不可欠。
家庭・企業・ISP/ゲーミングで重要な理由
- SLA/SLO 準拠 — 可用性やレイテンシ逸脱は違約金やユーザ離脱に直結。
- レイテンシ敏感アプリ — VoIP のジッタ > 30 ms、VR、e-スポーツなど。
- MTBF 向上 — 無故障平均時間が長いほど運用成熟度が高い。
キー概念クイックリファレンス
| トピック | 押さえるポイント |
|---|---|
| IP アドレス・CIDR・VLSM | 変則的サブネットは ipcalc で確認。 |
| DNS レコード | A/AAAA, PTR, CNAME, SRV, スプリットホライズン。 |
| ルーティング | 静的 vs OSPF/BGP/IS-IS、ECMP、PBR、VRF。 |
| NAT 方式 | SNAT, DNAT, PAT。非対称経路の落とし穴。 |
| セキュリティ制御 | ステートレス ACL、ステートフル FW、UTM、NGFW。 |
7 ステップメソッド
- 問題の特定 — 症状・指標・ログを収集。
- 原因仮説の立案 — Top-Down か Bottom-Up で分析。
- 仮説の検証 — ラボ・保守窓・pcap。
- アクションプラン作成 — ロールバック点・承認・影響範囲。
- 実施またはエスカレーション — MOP/SOP 実行か上位へ。
- 完全復旧の確認 — 合成プローブ・実ユーザ指標。
- 知見の記録 — ポストモーテム・ナレッジベース・Runbook 更新。
ハードウェア & 接続性クイックチェック
物理層バリデーション
| 項目 | コマンド | 正常値 |
|---|---|---|
| LED/ネゴシエーション | ethtool eth0 |
1 Gb Full、エラー 0 |
| ループバック/TDR | swconfig … |
カウンタ安定 |
| 光パワー | ethtool -m |
–1 dBm ~ –3 dBm |
電源再投入ベストプラクティス
インシデントチャネルへ告知 → 時刻記録 → 30 秒電断 → 再起動後 NTP 同期確認。
インタフェースカウンタ (CRC/Giants/Runts/Collisions)
watch -n2 "ip -s link show eth0 | grep -A1 RX"
値が伸び続ける場合は原因調査。
主要診断ツール
| ツール | 層 | CLI 例 | 取得情報 |
|---|---|---|---|
| ping / hping3 | 3 | ping -M do -s1472 |
MTU & 到達性 |
| traceroute / pathping | 3 | traceroute -I -w2 |
ホップ遅延 |
| ip / ifconfig | 2-3 | ip -s link |
Rx/Tx エラー |
| dig / nslookup | 7 | dig +trace |
DNS デリゲーション |
| ss / netstat | 4 | ss -tulpn |
開放ポート |
| ip route | 3 | ip route get 8.8.8.8 |
実際の出口 |
| tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
SYN ストーム |
| nmap / masscan | 3-7 | nmap -sS -Pn |
ポート状態 |
| arp | 2 | arp -a |
MAC 重複 |
| mtr | 3 | mtr -ezbwrc100 |
リアルタイム損失/遅延 |
層別トラブルシューティング
物理 & データリンク
- ケーブル TDR/OTDR
- Spanning-Tree ループ
- VLAN ダブルタグ攻撃
ネットワーク
- IPv6 ↔ IPv4 の切替遅延 (Happy-Eyeballs)
- BGP/OSPF ネイバー状態
- VRF/PBR リーク
トランスポート
- TCP ハンドシェイク失敗 (FW ステートテーブル枯渇)
- UDP フラグメント & オフロード
- UDP/443 で QUIC ブロック
アプリケーション
- DNSSEC 失敗
- HTTP 502/504/499
- TLS SNI 不一致
よくある障害と対処
| 症状 | 原因 | 対策 |
|---|---|---|
curl: name or service not known |
/etc/resolv.conf 誤設定 |
search/domain と SOA 修正 |
| 最終ホップ高 RTT | CPU/NIC 過負荷 | irqbalance、GRO/LRO 有効化 |
| HTTPS ランダム切断 | ステートテーブル満杯 | conn-track 拡張 |
| 片方向 VoIP | 非対称 NAT | RTP/RTCP ポート固定 |
| 「ブラックホール」サブネット | 返り経路欠如 | ルート追加 / 再配布 |
無線 & モバイル
- Wi-Fi サイトサーベイ — RSSI < –67 dBm
- 高速ローミング — 802.11 k/v/r
- DFS (5/6 GHz) — レーダー検出処理
- LTE/5G KPI — RSRP, RSRQ, SINR
コンテナ・クラウド・SDN
- Kubernetes CNI トレース (
cilium monitor) - AWS Reachability Analyzer、Azure NSG Flow Logs、GCP VPC-SC
- VXLAN/GRE/IPSec — underlay・overlay 同時キャプチャ
セキュリティ & インシデント対応
- 100 Gb 無損失 Packet Broker/TAP
- TLS フィンガープリント JA3/JA4
- Zeek + Suricata フロー / アラート連携
パフォーマンス最適化 & QoS
| 手法 | コマンド | 効果 |
|---|---|---|
| BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
低レイテンシ |
| FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
Bufferbloat 抑制 |
| DSCP | EF/46 音声, AF41 映像 | エンドツーエンド QoS |
| WRED | random-detect dscp 46 |
Tail-drop 減少 |
自動化 & IaC
- ChatOps — Slack コマンド → Ansible → tcpdump → S3
- NetBox + Batfish — 設定ドリフト検知 & 到達性テスト
- k6 / Locust — K8s CronJob で合成トランザクション
ツールマトリクス(簡易版)
| レイヤー | OSS | 商用 |
|---|---|---|
| NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
| AIOps | Zabbix + ML | Kentik, ThousandEyes |
| パケットキャプチャ | Wireshark, Arkime | Gigamon |
| APM | OpenTelemetry | Datadog, New Relic |
ケーススタディ
- MPLS→SD-WAN 移行 — /32 プレフィックスが Area 0 へリーク。
- ISP の BGP Flap — Graceful-Restart 有効化、hold-time 180 s。
- K8s East-West ブラックホール —
cilium bpf ct flush後 CNI 再デプロイ。
ベストプラクティス
- 月次のベースライン測定
- 変更管理 — 事前/事後チェック
- Runbook Git 化 + Grafana ダッシュボード直リンク
まとめと次のステップ
可観測性を統合し、月次カオスドリルと自動ロールバックを実装すれば、火消し作業は再現性あるサイエンスへ――レイテンシ低減・スループット向上を実現。
付録 A — CLI サンプル
ping -M do -s 1472 8.8.8.8 # MTU 発見
tcpdump -ni any 'tcp[13]&8!=0' # 再送監視
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP ↔ Pods
付録 B — プロトコル早見表
TCP フラグ: URG ACK PSH RST SYN FIN
IPv6 拡張ヘッダ: 0 Hop-by-Hop, 43 Routing, 44 Fragment
DNS Opcode: 0 QUERY, 5 UPDATE, 4 NOTIFY
付録 C — ログ保管ポリシー
| データ種別 | ホットストレージ | コールドストレージ | 法規制 |
|---|---|---|---|
| pcap 生データ | 7 日間 SSD | 30 日間 S3/Glacier | PCI-DSS |
| フロー / 指標 | 13 か月 TSDB | 2 年 オブジェクト | GDPR |
| Syslog / 監査 | 1 年 | 5 年 テープ | HIPAA |
🚀 レベルアップの準備はできていますか?
サイバーセキュリティのキャリアを次のレベルへ
このコンテンツが価値あるものだと感じたなら、私たちの包括的な47週間のエリートトレーニングプログラムで何が達成できるか想像してみてください。ユニット8200の技術でキャリアを transformed した1,200人以上の学生に参加しましょう。
97%の就職率
エリートユニット8200の技術
42の実践ラボ
