📌

RDBのインデックスって万能じゃないの!?フラグ列にインデックスを付けたら効果が薄くて調べてみた話

2024/12/30に公開

データベースを最適化するうえで欠かせない「インデックス」。初めて触れると「これさえ付ければクエリが速くなるんだ!」と思いがちですが、実はインデックスにも効果的な使いどころがあります。今回は、特に効果が薄いとされる「少数の値しか取らない列(例: フラグ列)」に焦点を当てて、なぜそのようなケースでは効果が限定的なのか学びました。

最近、大量のデータを扱うアプリケーションの開発で、SQLクエリの速度がボトルネックになっていることに気づきました。その解決策として「インデックスを追加する」という案が浮かび、試しに特定の列にインデックスを付けてみたところ、期待したほどの効果が得られないケースがいくつかありました。特にflagstatusのような列では、思った以上にクエリ速度の改善が見られませんでした。なぜこうなるのかを探ってみましたので、その学びをシェアします。


インデックスって何?基本をおさらい

まずはインデックスの基本からです。インデックスとは、データベースのテーブルに「検索しやすい目次」のような構造を追加するものです。これにより、テーブル内のデータを素早く検索できるようになります。

機能 説明
高速検索 特定の値をすばやく見つけることができる
仕組み Bツリーやハッシュなどのデータ構造を利用
例えるなら 本の索引と同じで、該当するページ(行)を素早く見つけられる

インデックスが効果を発揮するケースとは?

インデックスが威力を発揮するのは、以下のようなケースです:

  • 選択性が高い列
    多くの異なる値が含まれる列(例: ユーザーID、メールアドレス)。
  • 検索条件で頻繁に使われる列
    WHERE句やJOIN条件でよく使われる列。
  • データ量が多い場合
    テーブルサイズが大きくなるほど、インデックスの恩恵が大きくなります。

少数の値しか取らない列にインデックスを付けるとどうなる?

例えば、is_active(値が0または1)やstatus(値がpending, approved, rejectedなど少数)といった列があります。これらにインデックスを付けた場合、なぜ期待したほどの効果が得られないのでしょうか?

1. インデックスが指す範囲が広すぎる

インデックスは特定の値に一致する行を絞り込むことで性能を向上させます。しかし、値が少数しかない列の場合、インデックスの範囲が広くなりすぎて、多くの行を参照することになります。結果的に、インデックスを利用するメリットが薄れてしまいます。

  • クエリ: SELECT * FROM users WHERE is_active = 1;
  • テーブル内データ:
    • is_active = 1の行が全体の80%を占める場合、インデックスの効果が薄い。

2. インデックスの管理コストがかかる

インデックスを付けると、その分データベースが追加のリソースを使ってインデックスの更新・維持を行います。少数の値しか取らない列にインデックスを付けても、パフォーマンスの向上がないばかりか、逆にデータベース全体の効率を下げる可能性があります。


実際の検証:インデックスが本当に効果を発揮しているかを確認する

データベースのパフォーマンスを検証するには、クエリの実行計画(EXPLAINなど)を確認するのが有効です。

EXPLAIN SELECT * FROM users WHERE is_active = 1;
  • EXPLAINでチェックするポイント
    • インデックスが使用されているか。
    • フルテーブルスキャンが発生していないか。
    • クエリのコスト(cost)が適切か。

どうすれば良い?少数値列のパフォーマンス改善策

  1. インデックスを付けない選択肢を検討する
    フラグやステータスの列にインデックスを付けず、フルテーブルスキャンを許容するのも一つの手です。特にテーブルが小さい場合、この方が効率的です。

  2. 複合インデックスを活用する
    少数値列単独ではなく、他の選択性が高い列と組み合わせて複合インデックスを作成すると、効果が上がる場合があります。

  3. クエリの見直しを行う
    条件式の順序や使い方を最適化することで、インデックスの有効性が変わることもあります。

まとめ

インデックスは魔法のようなツールではなく、適材適所で使うことで本来の力を発揮します。特に少数値列におけるインデックスの使用は効果が薄い場合が多いですが、データ構造やクエリの内容によっては工夫次第で改善できる余地があります。

今回学んだことをもとに、インデックスの有効性を確認しながら、データベースの設計を最適化していきましょう。私もまだ学びの途中ですが、みなさんと一緒に一歩ずつ進めていければと思います!

Discussion