Open2

【SAA】信頼性を知り、何ができそうかを把握する

杉山晴輝(Haruki.Sugiyama)杉山晴輝(Haruki.Sugiyama)

結局信頼性って何ですか?

信頼性がないと

障害発生によるサービス影響が大きいと、信頼性の低いインフラ設計となってしまう。

信頼性がある状態とは

障害発生時のサービス影響をインフラで軽減できている状態
(サービス停止や中断が少ない、復旧が速い、直前の状態にバックアップがとれているなどなど)

杉山晴輝(Haruki.Sugiyama)杉山晴輝(Haruki.Sugiyama)

面白そうな話題

信頼性の確保に関わるサービス達 (一例)

  • ELB (ALB・NLB)
  • AutoScalling
  • RDS

Badプラクティス と Bestプラクティスを比較してみる

ELBを利用しない場合 ,
AutoScalling を利用しない場合 ,
RDS を利用しない場合 ...

検証辛そう,,,できれば1h~2hくらいでサクッとできると良い

リードレプリカによるクエリ分散

DBのクエリはとんでもない処理数になる。随時更新する必要があるサービスであれば猶更。
なので、リードレプリカによる Read Post クエリを分別するのは需要が高くてよさそう((全部需要高いが、身近なので

それとフェイルオーバーによる、サーバ停止時の信頼性確保もよい!

フェイルオーバー後の復旧切り替え時間 と リードレプリカの分散効果が欲しいところ

フェイルオーバーによる切り替え検証

EC2からRDSへリクエストできる構成をとり、RDSを停止させる。
その直後に再度リクエスト できることを確認する。

リードレプリカによる分散効果

RDSへ Read 処理を実行。リードレプリカへリクエストが向くことを確認する。
更に、メインDBの内容を更新し、リードレプリカで更新が入ることも確認したい。

ネットに転がる事例より、DBへの read(get) リクエスト回数を確認し、DBの負荷をどれくらい減らせるのかを確認してみたい

事例としては、Twitterの「バルス」事例とかよさそう