🐱

AIモデルのトークン概念に関する考察

に公開

🤖 AIモデルのトークンの概念を勉強してみよう

AIエディタ(例:Cursor、ChatGPT、Claude、Kimiなど)を使っていると、
Input / Cache Write / Cache Read / Output という言葉を見かけますよね。

この記事では、それぞれの意味と実際にどれくらいトークンを消費するのかを、
シンプルな例を使って解説します。

最近Cursorでバイブコーディングする人が多いですよね。
バイブコーディングはトークンを消費することで行われます。
簡単なHello,worldを例としてトークンの概念を学んでみましょう。


💡 テーマ例

「Hello World」を表示するシンプルなHTMLサイトを作ってください。

この1つのリクエストを例に、AI内部で何が起きているのかを追ってみましょう。


🧩 各プロセスの流れ

① Cache Read(キャッシュ読み込み)

AIはリクエストを処理する前に、過去の会話(文脈)をすべて読み込みます。

例:

User: Make a simple HTML site
Assistant: Sure! Here's the code...

これらの履歴が約 200トークン だとします。AIはまずそれを「読む」必要があります。

📊 消費トークン数 → 約 200 tokens


② Input(入力トークン)

今回のリクエスト:

Create a simple HTML website that displays 'Hello World'.

これは約 12トークン 程度。

📊 消費トークン数 → 12 tokens


③ Cache Write(キャッシュ書き込み)

AIは今回の応答内容を次回以降に再利用できるように保存します。

これはOutputトークンの一部として扱われ、全体の約 5〜10% に相当します。

📊 消費トークン数 → 約 5 tokens(Outputの一部)


④ Output(出力トークン)

AIが生成した結果:

<!DOCTYPE html>
<html>
  <head><title>Hello World</title></head>
  <body><h1>Hello World</h1></body>
</html>

このHTML全体で約 40トークン です。

📊 消費トークン数 → 40 tokens


📊 トークン合計例

プロセス 説明 トークン数 備考
Cache Read 過去の文脈を読む 200 長い会話ほど増える
Input 今回の指示文 12 短いほど安い
Cache Write 結果を保存 5 Outputに含まれる
Output 実際の生成結果 40 結果の長さに比例
合計 257 tokens 約0.26K tokens

💰 料金イメージ(GPT-4の場合)

種類 単価 (1K tokens) 消費 コスト
Input + Cache Read $0.01 212 tokens 約 $0.0021
Output $0.03 40 tokens 約 $0.0012
合計 約 $0.0033(約0.5円)

🧠 まとめ

[1] Cache Read → 過去の文脈を読む(200トークン)
[2] Input → 新しい指示を送る(12トークン)
[3] Cache Write → 応答を保存(5トークン)
[4] Output → 結果を生成(40トークン)

つまり、AIは「質問に答えるだけ」ではなく、
過去の文脈を読み→処理→保存→出力 という一連の流れで
トークンを消費しています。


🪄 余談:キャッシュをうまく使うとコスト削減に!

長い会話を続けると Cache Read のトークンがどんどん増えるため、
不要な会話履歴をクリアしたり、必要部分だけ残す設計が重要です。


✍️ まとめ

  • Input → 新しい質問を送る
  • Cache Write → 結果を記録
  • Cache Read → 過去を読み込む
  • Output → 結果を出す

AIはこの4つを繰り返してあなたの会話を“理解しているように”見せています。



💡(おまけ) Claude Codeでのトークン節約術

Claude Codeを使っている人なら、次のコマンドも覚えておくと便利です。

  • /clear → すべての会話履歴をリセットし、Cache Readコストをゼロにする。
  • /compact → 長い会話履歴を要約して保存し、トークン使用量を減らす。

長く使うほどトークンは積み重なるので、これらを活用して効率よくやり取りしましょう。


Discussion