🔄

RDSからAuroraに切り替えたら不明な5xxエラーがめちゃくちゃ増えた

2024/02/13に公開

RDSからAuroraに切り替えた際に5xxエラーが増えてしまいました。
原因と対処法について記載していきます。
同じようなエラーを踏んだ人のお役に立てれば幸いです!

事象

RDS(5.7)
から
Aurora(2.12.0.1)
に切り替えました。
その際にALBから5xxのレスポンスが増えてしまいました。

エラー内容

ログを確認したところ「MySQL server has gone away」が発生していました。
どうやらDBとの接続が切れてしまうらしい…。

調査/原因

同様な事象がないか調べていると以下を発見しました。
Aurora version 2.12.1

Fixed an issue which can cause database connections to be closed before being established. This issue is more likely to affect database instances which open and close connections at a high rate.

データベース接続を高速で行うようなサービスにおいて、接続確立前に閉じられてしまう問題を解消した、とのこと。
つまりマイナーバージョンによる不具合の可能性が高いことが分かりました。

対策

Auroraマイナーバージョンアップを実施しました。
Aurora(2.12.0.1)
から
Aurora(2.12.1)
にバージョンアップ。

結果

エラー事象は改善されたがゼロにはならなかったです。
エラー率
2.12.0.1: 0.01%
2.12.1: 0.001%
10倍改善されました!

エラー改善の図

感想

実は着手したのが12月中旬くらいで、この2.12.1のマイナーバージョンがリリースされたのが2023-12-28なんですよね。
そんなピンポイントで不具合踏むか…ってのがかなしいポイントでした。
ちゃんとエラー率を監視していたのではやく気付くことができたし、マイナーバージョンアップもすぐに対応できたのがうれしいポイントでした!

今後

直接的な原因は不明でした。
今後Aurora3にすることで更に改善されるかを期待したいところです。

NE株式会社の開発ブログ

Discussion