Open5

aws-nodeがrestartを繰り返す

not75743not75743

環境

  • eks 1.31
  • karpenter 1.2.3
  • vpc-cni v1.19.3-eksbuild.1

状況

  • あるノードでaws-node(aws-vpc-cni)がRestartを繰り返している
    • マネージドノードグループで管理しているノードでは正常にaws-nodeが起動している
    • karpenterが調達したノードではaws-nodeがRestartを繰り返している
not75743not75743

インスタンスタイプ

  • マネージドノード
    • t3.medium
  • karpenter
    • c7i-flex.large
not75743not75743

eventログ

Back-off restarting failed container aws-eks-nodeagent in pod aws-node-8zhq7_kube-system(c207d5d3-8a46-48f2-81b3-cd291d3bd7a6) 

どうやらaws-eks-nodeagentコンテナが原因に見える

not75743not75743

利用可能なpod数

  • マネージドノード
    • 110
  • karpenter
    • 29
$ k describe node ip-10-0-2-127.ap-northeast-1.compute.internal  | grep 'pods'
  pods:               110
  pods:               110

$ k describe node ip-10-0-2-254.ap-northeast-1.compute.internal  | grep 'pods'
  pods:               29
  pods:               29
  Normal   NodeAllocatableEnforced  48m                kubelet                Updated Node Allocatable limit across pods

c7i-flex.largeはnitroノードであるにもかかわらず、利用可能なpodが29しかない
このあたりだろうか
https://docs.aws.amazon.com/ja_jp/eks/latest/userguide/cni-increase-ip-addresses-procedure.html

なんかこのメッセージは気になるぞ...

Updated Node Allocatable limit across pods