はじめに
私の所属している部署では、主に法人のお客様のシステム監視・運用を24H365Dの体制で実施しています。
運用部隊にとっては、日々の運用業務を高度かつシンプルにしていくことが永遠の課題です。常にチームの業務を振り返り、どこか効率化できることはないかと模索しています。
数ある業務の中で今回は「監視データの異常分析」に注目します。
ある程度大きなシステムを運用していると、キャパシティ管理や障害の予兆キャッチの観点から、「ある期間の監視情報を調査してトピックを抜き出す」という作業が定期的に必要になります。
基本は人が監視データとにらめっこしながら変化点がないか調査するのですが、対象も多く、かなりの手間を要する作業です。
これをもっと手軽に実行できないかと思い、軽い検証をやってみました。
検証内容
検証には監視ツールと分析ツールが必要です。今回の道具としては、これらを使います。
zabbix