💨

KubernetesでOOMエラーを防ぐ!リクエストとリミットのバランスを学んでみた

に公開

システムの効率的な運用やコスト管理を考えるとき、Kubernetesでのリソース設定は避けて通れないテーマです。
例えば、アプリケーションをクラウド環境で動かしている場合、リソースの割り当てが適切でないと、次のような問題に直面することがあります。

  • 過剰なリソース割り当て: コストが増大し、クラウド予算が圧迫される。
  • 不足するリソース: アプリケーションがクラッシュしたり、処理速度が低下したりする。

今回は、リソース設定の基本から、ユースケースに応じた設計の考え方までを具体例とともに整理します。皆さんが自身のシステムに適した設定を考えるきっかけになれば嬉しいです。


Kubernetesのリソース設定とは?

Kubernetesでは、Podが使う計算リソースを明確に定義できます。この仕組みが「リクエスト(requests)」と「リミット(limits)」です。

リクエスト(requests)

Podが動作するために必要な 最低限のリソース 量を指定します。リクエスト値はKubernetesのスケジューラーに影響し、Podが配置されるノードの選定基準になります。

リミット(limits)

Podが使用できる 最大リソース量 を指定します。リミット値を超えると、次のような挙動が発生します:

  • CPU超過: スロットリング(処理速度の低下)が発生。
  • メモリ超過: Out of Memory(OOM)エラーでPodが再起動。

設定例:リクエストとリミットのバランス

resources:
  requests:
    cpu: 500m      # 必要最低限の0.5CPUを確保
    memory: 1Gi    # 必要最低限の1GiBを確保
  limits:
    cpu: 1000m     # 最大1CPUまで使用可能
    memory: 2Gi    # 最大2GiBまで使用可能

この設定により、Podは最低限のリソースを確保しつつ、余力がある場合には最大リミットまで利用できます。

リソース設定を決めるための3つのステップ

1. アプリケーションの特性を理解する

アプリケーションの種類 特性 推奨リソース
CPUバウンド型 計算処理が多い CPUを多めに割り当てる
メモリバウンド型 データ保持やキャッシュを多用する メモリを多めに割り当てる

2. ユースケースに応じた初期設定

以下の例を参考に、まずはシンプルな設定から始めるのがおすすめです。

ユースケース CPU メモリ
軽量なAPIやジョブ 0.25~0.5 512MiB~1GiB
大量データのバルク処理 1~2 2GiB~4GiB
動的トラフィック対応 オートスケーリング 必要に応じて調整

3. 実際の負荷を観察し、設定を調整

Kubernetesでは、Podのリソース使用状況をモニタリングできます。例えば、PrometheusやGrafanaを活用してCPUやメモリの利用率を可視化し、以下のような判断を行います:

  • 使用率が低い場合: リクエストとリミットを下げてコスト削減。
  • 使用率が高い場合: 設定値を引き上げてパフォーマンスを確保。

リソースの分散化: 水平スケーリングの活用

水平スケーリングとは?

Kubernetesの**Horizontal Pod Autoscaler(HPA)**を使えば、負荷に応じてPodの数を動的に増減できます。例えば、次のようなシナリオで有効です:

  • トラフィック増加に対応:
    Webアプリケーションのトラフィックが急増した場合に、Podを追加してリクエストを分散。

  • 大規模データ処理:
    CSVデータのロード処理を複数のPodに分散して並行処理。

水平スケーリングの設定例

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: example-app
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        targetAverageUtilization: 50

  • minReplicas: 最小Pod数。
  • maxReplicas: 最大Pod数。
  • targetAverageUtilization: Pod全体でのCPU利用率が50%を超えたらPodを追加。

リソースの調整で見落としがちなポイント

1. データの分割とジョブ管理

例えば、24万件のCSVを1つのPodで処理する場合、適切なリソース設定が重要です。ただし、大量のデータを扱う場合は、以下のように分割と分散を考えることが重要です:

  • CSVを複数ファイルに分割。
  • KubernetesのJobやCronJobを使って並行処理。

2. オーバープロビジョニングの防止

リソースを多めに割り当てるのは安定性向上に有効ですが、使い切らないリソースがあるとコストが増大します。モニタリングを基に最適な設定値を見直しましょう。

3. Podがクラッシュするリスクに備える

メモリ不足(OOM)やリソース競合が発生した場合、Podがクラッシュすることがあります。必要に応じてリソースリクエストとリミットを引き上げたり、再試行(retry)の仕組みを組み込むことが重要です。


まとめ:シンプルな設定から始め、モニタリングで最適化を

Kubernetesのリソース設定は、「シンプルさ」と「柔軟性」の両立がポイントです。最初から複雑な設計を目指す必要はありません。以下のステップを参考に始めてみましょう:

  1. 最小限のリソース設定で試す(例: 0.5CPU、1GiBメモリ)。
  2. 実際の動作をモニタリングし、負荷に応じて調整
  3. 必要に応じて水平スケーリングやジョブ分散を導入。

Kubernetesの学びは実践を通して深まります。同じような課題に取り組んでいる方が、この内容を参考に一歩前進できることを願っています。一緒に学んでいきましょう!

Discussion