目次
SA.07.1 ログ・メトリクス・トレースの取得・収集
重要度:☆☆☆(3)
概要
- 確認したいシステムの振る舞いに応じて、何の情報を取得すべきかを適切に選定できる。
- 主要なログ・メトリクス・トレースについて、具体的な取得と集約の方法を設計できる。
詳細
- システム全体の振る舞いを確認する際に使われる指標を理解している。
- アプリケーション単位の応答やパフォーマンス
- リクエストのトレース
- ログ・メトリクス・トレースを取得・集約する際の処理方式の違いを比較できる。
- プッシュ型、プル型
- エージェント、エクスポーターの有無
- 収集結果のストア方式: 時系列データベース
- IPMI、SNMP によるログ・メトリクス取得について、適用可能な条件や基本的な処理の流れを理解している。
- ipmitool、SNMP クライアントの基本操作
- SNMP version 3 のユーザー認証とアクセス制御機能
- Zabbix の構成要素を理解し、ログ・メトリクスの集約方式やノード間の疎通方法を選定する。
- Zabbix サーバー、エージェント、Sender
- アイテムのタイプ・キーの設定
- Prometheus の構成要素を理解し、メトリクスの集約方式やノード間の疎通方法を選定する。
- Prometheus サーバー、Node exporter、Pushgateway
- サービスディスカバリ
- Fluentd (td-agent) を用いてログの収集・加工を一元化する。
- fluent.conf、Match、Buffer
- Input、Output、Filter プラグイン: in_tail、out_file、filter_parser など
- 分散トレースの基本的な概念と、これを取得する手順を理解している。
- トレース、スパン、TraceId、SpanId
- OpenTelemetry によるトレース取得: SDK、Collector
- バックエンドへのストア: Jaeger
SA.07.2 監視と対処
重要度:☆☆(2)
概要
- 監視の目的に応じて監視対象のログ・メトリクスに対して適切なアラートの発生条件や段階を設定できる。
- 具体的な OSS を用いてアラートの発報と対処ができる。またシステム運用の自動化や監視体制の改善を計画できる。
詳細
- アラートを出すための発生条件を目的に応じて設計する。
- メトリクスによる判断: 閾値、一定時間内の変化、平均値、など
- ログによる判断: 特定のメッセージ、タグ、回数、など
- 複数イベントの相関による判断
- Zabbix や Prometheus でアラートとアクションを設定する。
- 通知: Eメール、チャット、インシデント管理サービスへ登録など
- システム運用の自動化: 負荷分散環境のオートスケール、優先度の低いサービスの一時停止など
- システムの稼働状況に応じて監視体制を改善する。
- ログの量・レベルの選択
- 間違ったアラートの排除
- アラートのロジック改善、重要度見直し
SA.07.3 収集したデータの保全と分析
重要度:☆☆☆(3)
概要
- 長期に渡るリソースの使用状況などを横断的に分析し、拡張時期の計画などに役立てる。
- 分析・可視化のための具体的な OSS を使ってログ・メトリクス・トレースを参照できる。
- システムのセキュリティ対策などを目的とするデータの保全体制を設計できる。
詳細
- 分散トレースの可視化について理解している。
- トレースビュー、サービスマップ
- タイムラインの調整、フィルタリング
- Grafana による可視化の基本設定を行う。
- データソース設定: Zabbix、Prometheus、Jaeger からそれぞれログ・メトリクス・トレースの取得
- クエリ文の設計、結果の加工: フィルタリング、補間、グルーピングなど
- パネルの設定
- キャッシュやタイムアウトの設定
- 長期に渡って取得したデータを分析し、拡張や設計変更の計画を立てる。
- 稼働率やリソース使用量の長期的なトレンド及び増加傾向
- アクセスログやデータの保全の目的と注意点を理解している。
- ログの収集基準、保管期間、保管場所の設定
- 追跡データのタイムスタンプ一貫性の維持
- 完全性を担保するための改ざん防止策の検討