📝

保守はつらいよ参加時のメモ

2022/08/25に公開

保守はつらいよhttps://rakus.connpass.com/event/253656/というLT大会の聴講をしました。
そのときの参加メモです。

開催日:2022年8月25日
場所:オンライン

聞いたことと感想

辛かった保守の話

聞いたこと

  • サイトの運用保守とメールサーバの運用保守をされている方が発表
  • 設備の老朽化でデータセンターが閉鎖になったというしんどかった保守の話
  • 対象は100台のサーバー
    • 10年以上動かし続けているものもあった
    • お客様のサーバーもあった
  • シャットダウンが意図通りしない、起動もしない
  • 定期的なリプレースが大事だとのこと

感想

  • 正常に起動しないケースがあるというのは聞いていて震えた
  • クラウド使っているから物理的な制約がないのは大きいのだなと改めて感じた

オンプレ運用保守部隊にいた時の想い出(障害解析編)

聞いたこと

  • 金融システムを更新してから障害調査をしたときの話
  • VMWareごとおちた
    • バルーニングが起きたから(らしい)
  • 監視はしていたが、バグっていてアラートが飛んでいなかった
  • サポートに相談するもうまく行かず自己解決
  • パケット解析やログを見る力が大事

感想

  • バルーニングということをはじめて知りました
  • 監視のテストは大事
  • サポートの人ならやってくれるだろうと思い頼りすぎるとお互いに辛くなる

新規開発より保守が好きなエンジニアの話

なかった・・

【OtterTune】MLでDBを最適化するツールの紹介

聞いたこと

  • 保守をつらくしないようにするためのツールOtterTune(オッターチューン)の紹介
  • AWS RDSには設定できるパラメータがあるが、デフォルトで使われがち
  • OtterTuneはAWS RDSと連携して、PostgreSQLとMySQLの設定項目を機械学習で最適化していく
  • 日本語は対応していない(残念)
  • 紹介してくれた方は使ったことがないらしい
  • コストは2台以上5台までだと月$450

感想

  • 連携したら勝手に変更するわけではないので、一度何をどんな値にするか提示してくれるのはよい(自動適用もできるらしい)
    * いきなり本番環境の変更されるのは怖さがあるため安心
  • 聞いた感じはよさそう

SREのエッセンスを運用・保守に無理やり取り込もうとして失敗した件

聞いたこと

  • SREチームリーダーとインフラ開発運用をされている方
  • もともとインフラ開発運用をしていたが、領域拡大を考えて活動指標としてSLI/SLOを取り入れた
    • インフラの成果を見える化することも狙いにあった
  • SLIとしては稼働率がわかるように
  • SLIが運用保守に役立たなかった
    • 数値が悪くなったらなにをするのか明確にできなかった
    • CUJ(Critical User Journey)をもとに決めていなかった
  • 複数のプロダクトからまとめて数値をとっていた

感想

  • SLI/SLOに限らないけど、なにか指標を決めるときは何に使うか決めていないと難しいなと感じた
  • インフラのように動いていて当たり前が適切に評価されるようにすることはどこの組織によくある課題なのかな
    • 悲しい

既存AWSリソースをTerraformで管理するのはつらいよ

聞いたこと

  • SREをやっている方
  • AWSリソースをIaCで管理するようにした
    • terraform import機能を使用
  • terraform importしたらそのまま使えるかと言うとNo
  • アカウントを移行する

感想

  • terraformとはなんぞやというコメントがないあたり、terraformがだいぶんと普及したのだなと思った
  • terraform importが万能なわけではないとよく聞くが、具体的な事例を聞けてよかった

感想

  • 会社違っても同じようにはまるところがあるのだなとあらためて感じました
  • 自社で比較的うまくいっている箇所もあればうまくいっていない箇所もわかる良い機会になったと思いました

Discussion