⏱️

夕方のアラームメールに気づかない問題を考える

2022/07/23に公開

こんにちは。深緑です。
最近チーム内においてアラームメールに気づかない問題について議論したので書き残してみます。

前提

以下の環境とします。

  • AWS環境
  • CloudWatchでCPU・メモリ・ディスク使用量などについてアラーム設定
  • アラーム状態になったら関係者にメールで通知
  • 定時以降に何かあった場合対応は翌日以降になると謳ってはいるが、定時直前に起きたアラームについては起きたのが定時内なので何らかの対応をしておかねばならない。
  • 筆者はおじさん

現状の問題点

夕方〜定時直前に起きたアラームが見逃されることがあります。
対応が数時間後になったり、翌日になることもあります。
ただし、最低でも翌朝には誰かが何か対応はできており、ここだけは死守できています。

原因

夕方あたりは主力メンバーに大体MTGなどが入っているのが理由です。
または、それまでMTG三昧で自分の仕事ができるようになるのが夕方以降なので、
どうしてもアラームのチェック・対応が後回しになっています。
主力メンバーはそのスキル上、掛け持ちが多いってのも原因ですね。

朝はアラームメールをチェックすることが習慣付けできています。
朝は雑多なMTG等が始まっていないので、ルーチンワークがこなしやすいからです。

対策

主力メンバーの負荷は現状でも既に高いので、
主力メンバーが気を付ける!では解決しないと思うのでそこは除外します。

なお、アラームが発生したら自動で対処することも検討していますが、
それはそれで自動対処がうまく行ったかどうかを確認する必要があるので、
自動の対処については言及しないことにします。

案① 夕会を設け、そこでアラームメールをチェックするようにする

個人の意識では不安なのでみんなでチェックするという案です。
チェックするだけではそう時間はかかりません。
問題は司会は誰にするか?ですね。
司会を主力メンバーにするなら、見逃し・漏れは防げるけど負担が更に増してしまいます。

案② アラームメールをチェックするメンバーを任命する

任命する対象は、主力以外のメンバーでしょうね。若手の方とかでしょうか。
任命にするにしても1人ではなく複数にして、日々交代制の方がいい気がします。
チェック結果を主力メンバーに報告とします。

一見良さそうに見えますが・・・、これは失敗しました。
残念ですが、主力メンバー以外はアラームに対する意識が低い(というか危機意識が弱い)ので、チェックを忘れたり、チェックしても報告してなかったということが起きました。
また、報告にチャットを使った故に結局見逃されるということも起きました。
相手が認識しないと報告したことにならないということ、
夕方のアラームはその日のうちに対応しないといけないという認識がなかったのでしょう。

これについては指導はしつつも内心は仕方ないことだと思っています。
若い人は夕方以降のプライベートもいろいろあるでしょうから、
夕方のやってもやらなくてもあんまり変わらないタスクの優先度が下がるのはわかります。

<採用>案③ 夕会を設け、司会を若手にする

現状、この運用ルールとしています。
アラームメールのチェックを主目的とした夕会のルールを設けます。
司会は若手達とし、交代制とします。
主力メンバーはゲスト参加とし、その場でチェック結果の共有まで進めます。
司会の人は、なんからの事情で夕会が開催できなかった場合その人の責任において代役を立ててもらいます。

少々重いルールですが、育成にもなると思い許容しています。
主力メンバー側の負荷はゲスト参加ならマシと言えます。
正直なところ、たまに主力メンバーが開催を促す日もあったりしますが、大体うまく回っています。
司会をやることになると取り組み方が違うようです。

このままアラームの対処の方も引き継ぐ方向に持ってければ良いですね。

Discussion