神本「SREをはじめよう」を読んで刺さった内容
神本のリンク
自己紹介とこの記事の内容
インフラエンジニア2年目で、まだ弱小です。
正直この本に書いてある視座はまだ正直必要ないかもしれませんが、逆に歴浅いうちにこの本に出会えたことをめっちゃラッキーだと思っています。この神本の中で自分が刺さった事を、今の自分と未来の自分のために書いていきます。
この記事の↓からは自分の解釈で自分の言葉に変換して書いてあります!!!
刺さった内容
心構え編
・常に顧客目線から見てのシステムを考える。信頼性の評価は、「サーバが〇台落ちた」などのコンポーネントの観点ではなく、顧客の観点で決まる。
・インシデントが起こった際の責任を人ではなく、システムに向ける。
・エラーを完全になくすことは不可能。そしてエラーの発生はシステムの理解を深めてくれる。
良いSREになるために
・プログラミング知識は必要。ソフトウェアがどのような仕組みかが分らないと、どのように故障する可能性があるかもわからない。デバッグ等のインシデント対処にも役立つし、システムに関わる範囲も狭まってしまう。
・ストーリーで喋る(書く)。複雑で多い情報を伝えるのに最適な方法がストーリー。
・もしSREにとって必要になる時が来ることを考えて、AIに基本的なことでも興味を持っておく。
・NALSD(大規模なシステム設計)を学ぶ
・監視を学ぶ
インシデント後についての思考
・ヒューマンエラーのせいにしない(終わらせない)。システム改善に目を向ける。
・「あの時○○するべきだった」をしない。システム改善に目を向ける。
・逆にうまくいった事から学びを求める。
SREの失敗の原因
・SREはgoogle発の言葉だが、googleの人が書いた優秀な言葉をまるまる実現しようとしない。その組織や現場に合わせてプラクティスをいくつか導入していく。
・SREチームが取り組んでいる内容や成果を組織全体に適切に伝えることをサボって過小評価される。
・リソース値などのコンポーネントばっかりに意識が行ってしまう(大切なのは顧客への影響がどうか)。
・楽しむことを忘れてしまう(これも持続可能な運用にするために必要な事のひとつ)。
個人的感想
キャリアが浅いうちにこの本に出会えてマジで感謝!
だけど、まず今のうちは
プログラミング、OS、ネットワーク、現場で使われてる技術
の基礎をとにかく勉強(修行)します笑
Discussion