Datadogでの死活監視

作業概要

ホストモニターというものを利用して死活監視していきます。

https://docs.datadoghq.com/ja/monitors/monitor_types/host/?tab=checkalert
すべての Datadog Agent は、ステータスが OK の datadog.agent.up というサービスチェックを報告します。
ホストモニターを使用して、1 つ以上のホストでこのチェックを監視できます

作業記録~モニター作成~

Monitors
  New Monitor
    Host

①Pick hosts by name or tag

項目設定解説
ホストを名前またはタグで選ぶAll Monitored Hosts監視対象ホスト。今回はAllで指定。
excluding[ ]除外するホスト

②Set alert conditions

項目設定解説
アラートの条件を設定するCheck Alertホストが一定時間レポートを停止したかどうか追跡
Notifyif data is missing for more than [ ]minutes2欠落データを確認する分数
Auto ResolveNeverアラートをトリガーされた状態から解決するタイミング。●時間経過後に勝手にアラートが解決されては困るのでNever。
For new hosts, wait [ ]seconds before evaluating this monitor300モニター結果の評価を開始する前に、ホストの起動とアプリケーションの完全な起動を許可する時間(秒単位)。

③Say what’s happening

項目設定解説
タイトルHost ( ***** )モニタータイトル。
メッセージ@<メールアドレス>いろいろできるのだろうが今は通知のみでよい。改行@<メールアドレス>で複数通知可。
再通知Every 10 minutes解決されていない場合は10分ごとに再通知。不要ならNever。
Escalation message@<メールアドレス>通知のみ。

④Notify your team

項目設定解説
変更Do not notifyモニターが作成、変更、無音、または削除されるたびに通知するかどうか。今回はしない。
制限の編集Do not restrictモニター編集を制限するかどうか。今回はしない。

確認作業

サーバをシャットダウンして確認します。
メールが飛ぶか、サーバがダウン中に10分おきにメールが飛び続けるかどうか。