Datadogでの死活監視
作業概要
ホストモニターというものを利用して死活監視していきます。
https://docs.datadoghq.com/ja/monitors/monitor_types/host/?tab=checkalert
すべての Datadog Agent は、ステータスが OK の datadog.agent.up というサービスチェックを報告します。
ホストモニターを使用して、1 つ以上のホストでこのチェックを監視できます
作業記録~モニター作成~
Monitors New Monitor Host
①Pick hosts by name or tag
項目 | 設定 | 解説 |
---|---|---|
ホストを名前またはタグで選ぶ | All Monitored Hosts | 監視対象ホスト。今回はAllで指定。 |
excluding | [ ] | 除外するホスト |
②Set alert conditions
項目 | 設定 | 解説 |
---|---|---|
アラートの条件を設定する | Check Alert | ホストが一定時間レポートを停止したかどうか追跡 |
Notifyif data is missing for more than [ ]minutes | 2 | 欠落データを確認する分数 |
Auto Resolve | Never | アラートをトリガーされた状態から解決するタイミング。●時間経過後に勝手にアラートが解決されては困るのでNever。 |
For new hosts, wait [ ]seconds before evaluating this monitor | 300 | モニター結果の評価を開始する前に、ホストの起動とアプリケーションの完全な起動を許可する時間(秒単位)。 |
③Say what’s happening
項目 | 設定 | 解説 |
---|---|---|
タイトル | Host ( ***** ) | モニタータイトル。 |
メッセージ | @<メールアドレス> | いろいろできるのだろうが今は通知のみでよい。改行@<メールアドレス>で複数通知可。 |
再通知 | Every 10 minutes | 解決されていない場合は10分ごとに再通知。不要ならNever。 |
Escalation message | @<メールアドレス> | 通知のみ。 |
④Notify your team
項目 | 設定 | 解説 |
---|---|---|
変更 | Do not notify | モニターが作成、変更、無音、または削除されるたびに通知するかどうか。今回はしない。 |
制限の編集 | Do not restrict | モニター編集を制限するかどうか。今回はしない。 |
確認作業
サーバをシャットダウンして確認します。
メールが飛ぶか、サーバがダウン中に10分おきにメールが飛び続けるかどうか。