🍥

ある日 AWS Lambdaが何もしてないのに壊れた

2024/05/01に公開

ある日というか今日の出来事です。

事象

昨日(2024/04/30)まで元気に動いていたLambdaが、今日(2024/05/01)になったらエラーを吐いて死にまくる事象が発生しました。本番環境で。誰も何もしていないのに。

原因

4/30から5/1の間にLambdaのランタイムが自動更新されていたことが原因でした。
ランタイムのバージョンはCloudWatchにログとして出力されており、以下のようになっていました。

  • 昨日
INIT_START Runtime Version: nodejs:16.v33	Runtime Version ARN: arn:aws:lambda:ap-northeast-1::runtime:0163909785ec2e11db2b64bb2636ada67bb348dd5764aa83e7eb011bc0f365d8
  • 今日
INIT_START Runtime Version: nodejs:16.v35	Runtime Version ARN: arn:aws:lambda:ap-northeast-1::runtime:6821b9edbc91e06f7bfdfbf3387aa97c2df9c7bc80959c565b8c35a8421333ed

対応

Lambdaのランタイムを手動で旧バージョンのものを指定してもとに戻しました。

  • Lambdaのコンソールから「コード」タブを選び、下の方にある「ランタイム管理設定を編集」を押下します。

  • 「手動」を選択して、CloudWatchのログから元気に動いていた時代のARNをコピペします。

以上で直りました。
サラッと書きましたが、障害調査の難易度がめちゃくちゃ高かったです。。。

コメント

  • GWの真ん中にこういう分かりにくい障害出すの勘弁して欲しいです。
  • 自動適用やめるとセキュリティパッチも当たらなくなるがジレンマです。
  • そもそもNode16は古いから早くバージョンを上げるべきと言われたら、それはそうです。
NCDCエンジニアブログ

Discussion