🚨
今すぐあなたがアラート対応をすべき5つの理由
アラート対応をしよう
そこのあなた、アラートチャンネルの通知はオンにしていますか?
「自分の仕事じゃないからオンにしていない」という人を責めるつもりはありません。ただ、実はアラート対応をしないことでちょっと損してるかもしれません。
この記事ではなぜ他でもないあなたがアラート対応をしなければいけないのか、5つの理由を書いてみます。
アラート対応は、今日からでも始められます。通知をオンにして、まずは流れを把握することから始めてみませんか?
アラート対応をやらなければいけない理由
1. あなたの給料にはアラート対応への期待値が含まれているから
- コードを書くのも、会議に出るのも、オンコール対応するのも含めてあなたの仕事
- 他の人に任せてもいいが、自分が勝ち取れたはずの評価も他の人に明け渡している
- 技術的知見、または問題解決能力という具体的な評価ポイントを他の人に譲っている
- アラート対応の経験があるエンジニアと、そうでないエンジニアでは評価の面でも差がつきやすい
- 逆に、「アラート対応しないエンジニア」は、システム運用の知識が不足しがち
- 運用視点を持たないままコードを書くと、「実際に運用すると使いづらいシステム」 を作ってしまいがち。
- 例えばプレーンテキストでログを大量に出してしまったり
- エラーを握りつぶしてしまったり
- 「開発だけやりたい」は通用しにくくなってきているのが現実
- 運用視点を持たないままコードを書くと、「実際に運用すると使いづらいシステム」 を作ってしまいがち。
2. オンコール対応は練習しないとうまくならないから
- やらないと上手くならない
- 「上手くなる」とは?
- サーバ間の関係がわかってくる
- 頻出問題に慣れる
- よく問題になるサーバ、よく見るエラーログ、よく見るステータスコード
- 監視ツールの使い方がわかってくる
- 「上手くなる」とは?
- 入社1日目と1年目、「わからないので教えて」と言いやすいのは前者
- だったら初日からやろう
3. AIにオンコール対応はできないから
- 現時点で、アラート発砲〜復旧まで全自動でAIに任せるのは現実的ではない
- AIは問題解決は得意だが、問題を見つけてくるのは人間のほうがまだ一枚上手
- 例えば、システム全体の異常な挙動やログの相関関係を見抜くのは、現状では人間の方が得意
- ドメイン知識が必要な判断(例えばあるページの指標がおかしい、という問い合わせ)も人間のほうが得意
- 一方で、コーディングだけならAIエージェントがかなり幅を効かせてくることが予想される
- コードを書くことだけに依存していると、将来的に価値を発揮しにくくなる
- 生存戦略として、今のうちにオンコール対応に慣れておいたほうがいい
でも「やらなければいけない」だけだと面白くない。やったほうがいい、メリットもある
4. 生きた知識を学べるから
- あなたの会社の構成図はインターネットに転がってない
- されてたとしても、ドキュメントにはない古のサーバと対峙することもある
- 自分事にしないと学びは薄くなる
- 凄腕エンジニアの仕事を盗み見れるチャンス
- 得ている情報は同じ中で、他の凄腕はどう仮説を立てて問題の切り分けしていくのか
5. 最もわかりやすくチームに貢献できるから
- アラート対応してるかどうかはSlackを見れば一目瞭然になる
- 当然、対応してない人より対応してる人の方が貢献度が高く見える(見た目だけじゃなくて、実際もそう)
- 素早い1次対応には価値がある
- 何が起きてそうなのか、仮説があるだけで後続の担当者が対処しやすくなる
- あなたがジュニアレベルであっても、ベテラン一人でオンコール対応するよりずっと心強い
- 関係各所への連絡など、スキルレベルに関係なくやれることはある
- ついでに「いつも対応してくれてる人」と普段関わりのない人たちにも顔を売れる
- 関係各所への連絡など、スキルレベルに関係なくやれることはある
想定問答集
わからないのに入っていくと、他のベテランの迷惑になるのでは?
- そんなことはない
- 先も述べたが、経験や知識がなくともやれることは色々ある
- むしろ最初から大活躍できるわけない
- ベテランたちも少しずつやれるようになってくれれば、と思っているはず
- そのつもりで色々教えてくれるので、自分の血肉にしていけばいい
いつも上がってるアラートだから反応しなくてもいいのでは?
- 「いつも上がってるアラートなので対応不要」とポストしましょう
- 強いて言うなら対応不要のアラートは上げないようにしましょう
- オオカミ少年になっていないか、常に気にかけておく
- もちろん普段からアラート対応してないとこれに気づくこともできない
プライベートの時間が少なくなるのでは?
- それは、そう
- でも予定があるなら「この後抜けます」と宣言して5分だけ対応すればいい
- 全く対応してない人とは天と地ほどの差がある
- 罪悪感を抱えて休日を過ごすより、素早く片付けてしまったほうが気持ちよく休日を過ごせる
- もしアラートが多すぎるなら、アラートを見直すタイミングかもしれない
- ユーザ目線で監視設定する
- ◯レスポンスタイム、エラーレート
- ✕CPU使用率
- 本業の時間でちゃんと時間をとってサービスの信頼性を高めていく
- 日々オンコール対応していたあなただから提案できる
- ユーザ目線で監視設定する
まとめ
オンコール対応、するもしないも自由。
だけどオンコール対応することで実は色々なメリットがあるということも知ってもらいたいです。
ぜひ勇気を出してアラート対応をしてみましょう。
Discussion