👀

「今やってる」インフラ監視をOpenTelemetry Collectorでできるかな?

2024/12/10に公開

はじめに

「オブザーバビリティ高めるためにOpenTelemetryでテレメトリーデータを取ろう!!!」
分かります。

「オブザーバビリティ???いやいや、今やってるモニタリングはできるの?」
・・・分かります。

この記事はOpenTelemetryの旋風に巻き込まれつつも今のモニタリングはどうなるのかが気になる方向けです。
ついでにモダンなオブザーバビリティ的な考え方(個人的見解)も書いてみます。

よくあるモニタリングとOTel Collectorの対応(2024/12 ver)

※各モニタリングのためのデータ取得ができるかの観点です。その後の加工処理やアラート処理はデータ送信先のバックエンドツールによります。

モニタリング OTel Collectorの対応 モダン化するには
死活監視(ICMP) 単体では現状無理でPrometheus receiverPrometheus Blackbox exporterと組み合わせる(設定例 Otel Collectorを入れられないデバイスを死活監視したい場合は変わらず。OTel Collectorを入れられるホストの監視の場合、死活監視が必要であればメトリクスが途絶えたら通知するようにしましょう。
リソース監視 Host Metrics receiver 変わらず。
ポート監視 単体では現状無理でPrometheus receiverPrometheus Blackbox exporterと組み合わせる(設定例 ユーザーがサービスを使えているかを確認することが大事なのでトレース(APM)に置き換えられるか検討していきましょう。
プロセス監視 Host Metrics receiver設定例 同上
サービス監視 単体では現状無理でPrometheus receiverPrometheus Windows exporter/Prometheus Systemd Exporterと組み合わせる 同上
ログ監視(ログ取得) File Log receiver アプリのエラー検知もトレース(APM)に任せていきましょう
Windowsイベントログ監視 Windows Event Log receiver 変わらず。
Windowsパフォーマンスカウンタ監視 Windows Performance Counters receiver 変わらず。
NW機器(Syslog) rsyslogやsyslog-ngでログに吐き出してFile Log receiver 変わらず。NWの監視って難しいですよね。
NW機器(Trap) trapdでログに吐き出してFile Log receiver 変わらず。NWの監視って難しいですよね。
NW機器(リソース) シンプルなSNMP GetはSNMP receiver、snmpwalkはPrometheusのSNMP exporterと組み合わせる(設定例 CiscoとかだとTelemetryというPushで毎秒送るような仕組みがあります。詳細な調査はNWベンダーのモニタリングツールに任せた方がいいかもしれません。
NTPオフセット監視 NTP receiver 変わらず。
ファイル変更監視 File Stats receiver 変わらず。要件によっては、Otelではないですが外形監視ソリューションの方がいいかもしれません。
HTTP監視 HTTP Check receiver 変わらず。要件によっては、Otelではないですが外形監視ソリューションの方がいいかもしれません。
その他MWとかDBの監視 もろもろreceiver メトリクス取りましょう。

まとめ

けど、せっかくOtel入れるならオブザーバビリティしたいですね

Discussion