SA.09:トラブルシューティング

SA.09.1 障害時の基本手順

重要度:☆☆(2)

概要

  • 障害発生時の状況把握、原因分析、暫定対応・恒久対応などについて、標準的な手続きを理解しているとともに、これらに活用される Linux の機能を理解している。

詳細

  • 障害の発生を検知し状況を把握するとともに、対応方針を決める。
    • 影響範囲、緊急性、重要性の評価
  • システムの稼働状況や変更点の情報を参照しつつ、症状に対する根本原因を特定する。
    • ログ、メトリクス、トレースの確認
    • 機能変更やメンテナンスアップデートの履歴確認
    • 因果関係の評価、切り分け
    • 同一環境での再現、機能や設定を制限した環境での再現
  • 暫定対応から恒久対応までのシステム全体の運用と復旧の計画を立案する。CI/CD や IaC 環境における対応を含む。
    • 部分的に稼働継続するサービスの選定および設定
    • 一時的なリストア、パッチ修正

SA.09.2 ケーススタディ

重要度:☆☆☆☆(4)

概要

  • システムによく発生する具体的な障害について、それぞれの原因や調査・判別方法、対処方法について知っている。

詳細

  • OS やサービス起動時の障害
    • プロセス/機能の起動順序、タイミングなどの違いで生じる問題
    • リソースの競合: MAC アドレス、IP アドレス、ポートの衝突、など
    • 自動起動と手動 (再) 起動時の挙動の違いによる問題
  • データの障害
    • ストレージ枯渇
    • クラスタストレージや分散ストレージの不整合に起因する問題
    • ストレージの再配置や復旧中のサービスレベル維持
  • ネットワークの障害
    • スイッチの通信負荷に起因する障害
    • ハードウェア構成とソフトウェア構成の矛盾による通信障害
    • MTU に起因する問題
    • ルーティングやファイアウォールの設定不備による疎通障害
    • IPv4 と IPv6 混在環境に起因する問題: アクセス制御設定の漏れ、IPv6 フォールバック、など
  • 冗長構成やスケールアウト構成の障害
    • 冗長構成の系の切り替えに関連する問題
    • スケールアウト構成のワーカーノードの障害とセッション維持に関連する問題
  • 種々のサービスにおける障害
    • DNS の逆引きに起因する問題
    • プロキシ設定に関する問題
    • HTTPS セッションにおける証明書に起因する問題
  • 運用中の意図通りでない設定変更などを起点とする障害
  • ハードウェアの故障時対応、及びその予防的な対応 (予防交換、予防保守)