📚

AIアプリケーション開発を体系的に学ぶ『AIエンジニアリング』全章紹介

2025/11/25に公開

AIエンジニアリングを、広めたい。
共訳した書籍「AIエンジニアリング（オライリー・ジャパン）」が2025年11月28日(今週！)に発売します。
https://www.oreilly.co.jp/books/9784814401383/
共訳者であるkagayaさんがこちらの記事で「AIエンジニアリングとは何か？」という概念自体について掘り下げてくれました。

https://zenn.dev/r_kaga/articles/74673cb9333007
簡潔に述べると、本書内でAIエンジニアリングは「基盤モデルを使ってアプリケーションを構築するプロセス」と定義されており、この分野はGPT-3.5、GPT-4といったモデルたちがAPIとしてアクセスできるようになってから急速に発展してきました。
本記事では、書籍『AIエンジニアリング』がどのようにその学びを助けてくれるのか、その内容を紹介していきます。
この2、3年で急速に発展してきたこの分野では、我々訳者を含め多くの開発者が手探りで挑戦を続けてきました。コストやレイテンシーといった制約の中で、いかにAIの能力を引き出し、確かな価値を生み出すか。

最初は評価という概念も知らず、手当たり次第にプロンプトチューニングをしてはデグレしたり、自分が「これいいんじゃない？」と思っても同僚やユーザーからは反応が芳しくなく悲しい気持ちになったり、凝った分岐のエージェントを作っても微妙で「もうこれリーズニングモデル一発呼び出しで良いんじゃない？」みたいな雰囲気になったり...。
そこに体系的な知識を授けるのがこの一冊です。
本書は全10章で構成されており、AIエンジニアリングの基礎から実践まで、体系的に学べる構成になっています。各章の内容を紹介する前に、私の独断と偏見で次のようにグルーピングしてみました。
1〜2章: 基礎理解 — AIエンジニアリングと基盤モデルの定義・仕組み
3〜4章: 評価 — AIアプリケーション開発における最重要トピック
5〜7章: 適応技術 — プロンプト、RAG、エージェント、ファインチューニング
8〜10章: 実運用 — データ、最適化、アーキテクチャ
各章の概要を表にまとめると、以下のようになります。


グループ
章
タイトル
主な内容


基盤理解
1章
基盤モデルを用いたAIアプリケーション開発入門
AIエンジニアリングの台頭背景、言語モデルの歴史（1950年代〜）、トークン・自己回帰モデルなどの基礎概念、AIユースケース分析、AIスタックの全体像


2章
基盤モデルを理解する
学習データ・アーキテクチャ・モデルサイズなどの設計判断、事前学習と事後学習、サンプリング（temperature、top-k、top-p）の仕組み

評価
3章
評価の基礎
エントロピー・パープレキシティーなど古典的指標、AI as a Judge（LLM as a Judge）、各評価手法の使い分け


4章
アプリケーションへの評価適用
評価駆動開発、ドメイン固有能力・生成能力・指示追従能力の評価基準、ベンチマーク選定、評価パイプラインの構築・改善

適応技術
5章
プロンプトエンジニアリング
プロンプトの基本構造、コンテキスト内学習、システムプロンプトとユーザープロンプトの使い分け、プロンプトインジェクション防御


6章
RAGとエージェント
RAG（外部データからの情報検索）、タームベース検索・埋め込みベース検索、エージェントによるツール使用・タスク実行


7章
ファインチューニング
転移学習、教師あり・選好・ロングコンテキストファインチューニング、実施判断基準、PEFT（メモリ効率の良い手法）

実運用
8章
データセットエンジニアリング
データキュレーション（品質・カバレッジ・量）、Chain-of-Thought/ツール使用データ作成、データ合成技術


9章
推論の最適化
コンピュートバウンド・メモリ帯域幅バウンドの理解、レイテンシー・コスト問題の診断と解決


10章
AIエンジニアリングアーキテクチャとユーザーフィードバック
段階的なアーキテクチャ構築、ユーザーフィードバック活用によるモデル改善、監視・オブザーバビリティ設計

このように基礎から応用までを学べる全544ページです。
この本は、AIを使ったアプリケーション開発に携わるすべての人に向けて書かれていますが、特に次のような方々にぜひ手に取っていただきたいと考えています。
AIアプリケーションを開発し、ハルシネーション、セキュリティ、レイテンシー、コストといった課題に直面している方
チームのAI開発プロセスをより体系的、迅速、かつ信頼性の高いものにしたい方
組織として基盤モデルを活用し、事業価値を高める方法を理解したい方
AIエンジニアとしてのキャリアを追求するために必要なスキルを明確にしたい方
それでは、各グループの内容と個人的な推しポイントや補足を語っていきます。

 1章、2章: AIエンジニアリングとは何か、基盤モデルとは何かを理解する本書の土台となる最初の2章では、AIエンジニアリングという新しい分野と、その中心にある基盤モデルの本質を丁寧に解き明かしています。
1章「基盤モデルを用いたAIアプリケーション開発入門」では、AIエンジニアリングという新しい分野がなぜ台頭したのか、その背景を1950年代からの言語モデルの歴史を辿りながら解説します。トークンや自己回帰モデルといった基礎概念、成功したAIユースケースの分析を通じて、AIの得意・不得意を理解し、新しいAIスタックの全体像をつかむことができます。
2章「基盤モデルを理解する」では、モデルの性能を左右する学習データ、アーキテクチャ、モデルサイズ、事前学習と事後学習といった設計判断を解説します。特に著者が「この章の中で最も書きたかったテーマ」と語る「サンプリング」では、temperature、top-k、top-pといったパラメータの仕組みを理解することで、ハルシネーションや出力の不安定性の謎が解け、モデルの性能を引き出すためのポイントが見えてきます

 推しポイント：サンプリング個人的な推しポイントは2章の後半にあるサンプリングです。
本書内の言葉を借りると、サンプリングとは「モデルがすべての可能な選択肢の中からどのように出力を選択するか」を指定するものです。

"サンプリング"とだけ聞くと耳馴染みがないと思うのですが「temperature、top-k、top-p」と聞くとピンと来る方も多いのではないでしょうか。

そうです。AIのAPIを使うときに指定するアレです。
https://platform.openai.com/docs/api-reference/responses/create#responses_create-temperature
私はこれらのパラメータたちが「こういう目的のパラメータである」というのは理解していたつもりでしたが、そのパラメータがモデルの挙動にどう影響を与えているのか、その仕組みをちゃんと理解していませんでした。
なので、この章でサンプリングについて学んだときは、なんというか伏線回収をしているような気持ちになって読み進めていてとても楽しかったです。

AIのAPIを少しでも使ったことがある方にはとても刺さる章になっているんじゃないかなと思います。

 3章、4章: 評価を知る続く3章と4章では、評価をどのように行っていくかについて書かれています。
3章では、評価の基礎を学びます。エントロピーやパープレキシティーといった言語モデリングの古典的な指標から、AI as a Judge（LLM as a Judgeとも呼ばれます）のような実践的な評価手法まで、さまざまなアプローチとその使い分けを理解できます。
4章では、その知識を実際のアプリケーションに適用します。「評価駆動開発」という考え方を軸に、ドメイン固有の能力、生成能力、指示追従能力といった評価基準の定め方、数千ものベンチマークの中から適切なものを選ぶ方法、そして自分のアプリケーション独自の評価パイプラインを構築・改善していく実践的なプロセスを学びます。

 地味だけど最重要：評価私は評価という一見地味に思われがちな行為が、最初に説明されている本書の構成がとても好きです。AIを使ったアプリケーション開発をしたことがある方は、みんな強く同意してくれると思うのですが、AIアプリケーション開発で最重要のトピックは評価です。
評価とは、文字通りですが、そのAIの振る舞いがアプリケーションにとって"良い"かどうかを判断することです。

この「何がいいか」を定義するのは非常に難しく、特に生成AIのようにある種出力のパターンが無限に存在しうるような存在に対しては、とても難易度が高くなっています。
私自身無限のプロンプトチューニングで苦しんで以来、この評価というトピックに対して真剣に向き合うようになりました。
https://zenn.dev/seya/articles/ba06e37d226182

https://zenn.dev/seya/articles/b34345aab2949e
この評価のサイクルをいかにうまく構築するかが、AIアプリケーションの製品を決める鍵といって過言ではありません。そして、後述する8章のデータセットエンジニアリングや10章のユーザーフィードバックも、この評価サイクルを回すための不可欠な要素です。そう考えると、本書の約半分は、直接的にも間接的にも評価に関わる内容と言えるでしょう。

 5〜7章: プロンプトエンジニアリング、RAG、エージェント、ファインチューニング。適応技術を知る評価という土台を理解した後は、いよいよモデルを実際のアプリケーションに適応させる具体的な技術を学んでいきます。
5章「プロンプトエンジニアリング」では、効果的なプロンプトを書くための基礎を学びます。プロンプトの基本構造、コンテキスト内学習（Few-shot/Zero-shot学習）、システムプロンプトとユーザープロンプトの使い分けなど、「ただの言葉いじり」と誤解されがちなプロンプトエンジニアリングが、実は体系的なアプローチが必要な人間とAIのコミュニケーション技術であることを示します。
6章「RAGとエージェント」では、モデルに必要な情報をどう与えるかを解説します。RAGでは外部データソースからの情報検索の仕組みと、タームベース検索・埋め込みベース検索といった実践的なアルゴリズムを学び、エージェントではモデルがツールを使って情報収集やタスク実行を行う方法を理解します。AIが単なる質問応答から、世界と対話できる存在へと進化する過程が見えてきます。
7章「ファインチューニング」は、技術的に最も深い内容です。転移学習の考え方から、教師あり・選好・ロングコンテキストといった各種ファインチューニング手法、そして「いつファインチューニングすべきか」という実践的な判断基準とメモリ効率の良いPEFTまで、アプリケーション開発者がこの選択肢を検討する際の実用的な指針を提供します。

 補足：ファインチューニングの現在地ここでちょっとファインチューニングに関してだけ私の意見を述べておきますと、今現在の環境においては、ファインチューニングをすることが合理的な選択肢となるアプリケーションというのはとても限られていると感じています。
2年くらい前だと、APIで扱えるAIモデルの選択肢がGPT-4とGPT-3.5 Turbo、Gemini 1.0ぐらいしかなく、この時期はまだコスト面や賢さの両立という目的に対してオープンなモデルを自分たちでチューニングしてホスティングする、そういった選択肢はまだ合理的に見えたと思います。(実際はGPUが高過ぎてそれも合理的だったか怪しいですが)
ただそれ以降、安くて速く、十分に賢いモデルたちが出てきました。直近でいうとGPT-5 miniやGemini 2.5 Flashなどがあります。まずはこれらのモデルたちをプロンプトエンジニアリング、RAG、エージェントなどの技術を使ってアプリケーションに適応させることが第一歩として行うことであり、ファインチューニングは最初の選択肢ではありません。
ただ、AIアプリケーションを育てる過程で、データセットは充実していき、評価基準も研ぎ澄まされていきます。そこで最後の一押しでファインチューニングをする選択肢はあります。以下の記事は正にそのような例です。
https://zenn.dev/pharmax/articles/40c0e385a8956b
ですが、ファインチューニングと一口に言っても、自分たちでモデルを訓練する環境やホスティングする環境も用意する選択肢もあれば、プロプライエタリーなモデル、例えばGPT-4.1やGemini 2.5 Pro、Gemini 2.5 Flashなどがファインチューニングができるオプションを用意していたりします。
https://platform.openai.com/docs/guides/model-optimization
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini-use-supervised-tuning?hl=ja
こうしたマネージドなファインチューニングサービスは、自分たちで環境を構築するよりもはるかに手軽に試せるため、まず検討すべき選択肢と言えます。
本書は2024年の7月ごろから公開が始まり、ファインチューニングを取り巻く環境は執筆時点から変化しています。ここで述べた内容は、2025年末時点での私個人のこの環境に対する感覚として補足させていただきました。

 8〜10章: データ、最適化、アーキテクチャ。実践的なシステム構築適応技術を理解した後は、それらを実際のシステムに統合する段階に入ります。
最後の3章では、AIシステムを実運用していく上で避けて通れない、データ、パフォーマンス、システム設計という3つの側面に深く踏み込みます。
8章「データセットエンジニアリング」では、モデルの品質を決定づけるデータの扱い方を学びます。品質・カバレッジ・量という3つの基準に基づくキュレーション、Chain-of-Thoughtやツール使用のためのデータ作成、そしてデータ合成技術まで、実践的なデータセット構築の知識を網羅しています。
9章「推論の最適化」では、モデルをより速く、より安く動かすための技術を解説します。コンピュートバウンドとメモリ帯域幅バウンドという計算ボトルネックの理解から、レイテンシーとコストの問題を診断し解決する方法まで、実運用における性能改善の指針を示します。
10章「AIエンジニアリングアーキテクチャとユーザーフィードバック」では、学んだ技術を統合して実際のプロダクトを構築する方法を示します。シンプルなアーキテクチャから段階的にコンポーネントを追加していくアプローチと、ユーザーフィードバックを活用したモデル改善、そして監視・オブザーバビリティの設計まで、本番環境での運用に必要な要素を扱います。

 評価サイクルを回し続ける：データフライホイールここで特に注目したいのが、データフライホイールを作り、評価サイクルを回すという考え方です。これこそがAIアプリケーション成功の鍵となります。
本書で繰り返し強調されているように、AIアプリケーション開発で最も重要なのは評価です（3〜4章）。評価を改善するには良質なデータが必要で（8章）、そのデータはユーザーから得られます（10章）。
プロダクトをリリースしてユーザーからフィードバックを集め、それをデータとして蓄積する。そのデータで評価基準を磨き、モデルを改善し、より良いプロダクトにする。すると、さらに多くのユーザーが集まり、より多くのフィードバックが得られる。このサイクルが回り始めると、データが次のデータを生む「フライホイール」となり、競合が簡単には追いつけない優位性を築いていけます。
本書で学ぶプロンプトエンジニアリング、RAG、エージェント、ファインチューニング、データセットエンジニアリング、推論最適化、アーキテクチャ設計といった技術は、すべてこのフライホイールを回すためのものです。個々の技術を理解するだけでなく、それらを組み合わせてユーザーに価値を提供し、フィードバックを得て改善し続ける。この循環こそが、AIエンジニアリングで大切にすべき考え方だと言えるでしょう。
ちなみにデータフライホイールについてより深掘りたい方はこちらの記事もご一読をオススメです。

https://www.sh-reya.com/blog/ai-engineering-flywheel/

 まとめ『AIエンジニアリング』は、基盤モデルの仕組みの理解から、評価の重要性、プロンプト・RAG・エージェント・ファインチューニングといった適応技術、そしてデータ・最適化・アーキテクチャという実運用の知識まで、AIアプリケーション開発に必要なすべてを体系的に学べる一冊です。
単なる技術解説にとどまらず、「なぜその技術が必要なのか」「いつ使うべきなのか」「どう組み合わせるべきなのか」という実践的な判断基準まで示してくれます。AIの進化は速く、個別の技術はすぐに古くなるかもしれません。しかし、本書で解説される評価の考え方、データの重要性、システム設計の原則は、時代を超えて通用する普遍的な知識です。これらを身につけることで、新しい技術が登場しても、それを正しく評価し、適切に活用する力が身につきます。
AIアプリケーション開発に携わるすべてのエンジニア、プロダクトマネージャー、そしてAIの可能性を追求するすべての人に、ぜひ手に取っていただきたい一冊です。本書が、あなたのAIエンジニアリングの旅の確かな道標となることを願っています。
最後にちょっとポエミーな話を挟みますと、この本と最初に出会ったのはこちらの共訳者であるkagayaさんの輪読の呼びかけがきっかけでした。
https://x.com/ry0_kaga/status/1810250472810262667
この頃は私もようやく評価の重要性が理解できてきて、闇雲なプロンプトエンジニアリングから脱却しようとしていた時だったと思います。そんな折に出会った本書は、AIエンジニアリングという新しい分野を見事に体系化しており、読んでいて「これだ」という感覚がありました。

この書籍の翻訳という貴重な機会をくださったオライリー・ジャパン様には、心から感謝しています。
それでは、そんな『AIエンジニアリング』は11月28日発売です。書店やオンラインストアで、ぜひお求めください！
https://www.oreilly.co.jp/books/9784814401383/
https://amzn.asia/d/g8aSavT

グループ	章	タイトル	主な内容
基盤理解	1章	基盤モデルを用いたAIアプリケーション開発入門	AIエンジニアリングの台頭背景、言語モデルの歴史（1950年代〜）、トークン・自己回帰モデルなどの基礎概念、AIユースケース分析、AIスタックの全体像
	2章	基盤モデルを理解する	学習データ・アーキテクチャ・モデルサイズなどの設計判断、事前学習と事後学習、サンプリング（temperature、top-k、top-p）の仕組み
評価	3章	評価の基礎	エントロピー・パープレキシティーなど古典的指標、AI as a Judge（LLM as a Judge）、各評価手法の使い分け
	4章	アプリケーションへの評価適用	評価駆動開発、ドメイン固有能力・生成能力・指示追従能力の評価基準、ベンチマーク選定、評価パイプラインの構築・改善
適応技術	5章	プロンプトエンジニアリング	プロンプトの基本構造、コンテキスト内学習、システムプロンプトとユーザープロンプトの使い分け、プロンプトインジェクション防御
	6章	RAGとエージェント	RAG（外部データからの情報検索）、タームベース検索・埋め込みベース検索、エージェントによるツール使用・タスク実行
	7章	ファインチューニング	転移学習、教師あり・選好・ロングコンテキストファインチューニング、実施判断基準、PEFT（メモリ効率の良い手法）
実運用	8章	データセットエンジニアリング	データキュレーション（品質・カバレッジ・量）、Chain-of-Thought/ツール使用データ作成、データ合成技術
	9章	推論の最適化	コンピュートバウンド・メモリ帯域幅バウンドの理解、レイテンシー・コスト問題の診断と解決
	10章	AIエンジニアリングアーキテクチャとユーザーフィードバック	段階的なアーキテクチャ構築、ユーザーフィードバック活用によるモデル改善、監視・オブザーバビリティ設計

1章、2章: AIエンジニアリングとは何か、基盤モデルとは何かを理解する

推しポイント：サンプリング

3章、4章: 評価を知る

地味だけど最重要：評価

5〜7章: プロンプトエンジニアリング、RAG、エージェント、ファインチューニング。適応技術を知る

補足：ファインチューニングの現在地

8〜10章: データ、最適化、アーキテクチャ。実践的なシステム構築

評価サイクルを回し続ける：データフライホイール

まとめ

Discussion