🍥
ある日 AWS Lambdaが何もしてないのに壊れた
ある日というか今日の出来事です。
事象
昨日(2024/04/30)まで元気に動いていたLambdaが、今日(2024/05/01)になったらエラーを吐いて死にまくる事象が発生しました。本番環境で。誰も何もしていないのに。
原因
4/30から5/1の間にLambdaのランタイムが自動更新されていたことが原因でした。
ランタイムのバージョンはCloudWatchにログとして出力されており、以下のようになっていました。
- 昨日
INIT_START Runtime Version: nodejs:16.v33 Runtime Version ARN: arn:aws:lambda:ap-northeast-1::runtime:0163909785ec2e11db2b64bb2636ada67bb348dd5764aa83e7eb011bc0f365d8
- 今日
INIT_START Runtime Version: nodejs:16.v35 Runtime Version ARN: arn:aws:lambda:ap-northeast-1::runtime:6821b9edbc91e06f7bfdfbf3387aa97c2df9c7bc80959c565b8c35a8421333ed
対応
Lambdaのランタイムを手動で旧バージョンのものを指定してもとに戻しました。
- Lambdaのコンソールから「コード」タブを選び、下の方にある「ランタイム管理設定を編集」を押下します。
- 「手動」を選択して、CloudWatchのログから元気に動いていた時代のARNをコピペします。
以上で直りました。
サラッと書きましたが、障害調査の難易度がめちゃくちゃ高かったです。。。
コメント
- GWの真ん中にこういう分かりにくい障害出すの勘弁して欲しいです。
- 自動適用やめるとセキュリティパッチも当たらなくなるがジレンマです。
- そもそもNode16は古いから早くバージョンを上げるべきと言われたら、それはそうです。
NCDC株式会社( ncdc.co.jp/ )のエンジニアチームです。 募集中のエンジニアのポジションや、採用している技術スタックの紹介などはこちら( github.com/ncdcdev/recruitment )をご覧ください! ※エンジニア以外も記事を投稿することがあります
Discussion