🙌

バグ修正とデバッグの実例

2024/01/30に公開

導入

  • ユーザーからの報告により、アプリケーションの動作遅延が確認された。
  • 特定の AWS EC2 サーバーでのみ問題が発生しており、CPU 使用率が 100%に達していたことが判明。
  • この問題は他の環境では観察されなかったため、特定のサーバー固有の問題である可能性が高い。

問題の特定

  • 初回報告を受け、他のサーバー環境と比較して異常がないか調査。
  • 過去の事例から、特定のバッチ処理が原因である可能性を考慮し、実行時間を調べたが、異常は見られなかった。
  • JVM のヒープダンプを取得し、メモリ使用の異常がないか詳細な分析を実施。
  • 認証処理におけるメモリ使用量が異常に高いことが判明し、これが問題の核心であると特定。

デバッグプロセス

  • ヒープダンプの詳細分析により、特に認証処理のメモリ使用に着目。
  • 認証処理を管理するハッシュマップが原因であることを突き止めた。
  • 認証処理のロジックにおいて、同じユーザーが再ログインする際にハッシュマップからそのユーザー情報を適切に除去する処理が欠けていたことが原因であると判明。

修正の実施

  • 問題のある認証処理をハッシュマップからより効率的なユーザーテーブルベースの管理方式へ変更。
  • 新しい認証処理の Java コードを実装し、システムに統合。
  • 修正後、メモリリークの問題が解消され、サーバーの CPU 使用率とメモリ使用量が正常値に戻ったことを確認。

テストと検証

  • 社内のテスト環境で新たな認証処理を含むアプリケーションの広範囲なテストを実施。
  • CPU 使用率とメモリ使用量の正常化を確認し、性能改善を実証。
  • 実際の顧客環境においても同様のテストを実施し、問題が完全に解消されたことを確認。

結論

  • このバグは特定の API を使用する特定の顧客環境においてのみ発生していた。
  • リリース前に異なる顧客環境での十分なテストの重要性を痛感し、今回の経験から学んだ。
  • 今後は多様な環境での問題発生を未然に防ぐため、テストの範囲と深度をより広げることの重要性を認識した。

Discussion