re:Invent 2025: Amazon Novaのカスタマイズ手法とFine-Tuning活用事例
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
re:Invent 2025 の書き起こし記事については、こちらの Spreadsheet に情報をまとめています。合わせてご確認ください
📖 re:Invent 2025: AWS re:Invent 2025 - Build AI your way with Amazon Nova customization (AIM382)
この動画では、AWS Gen AIソリューションアーキテクトのVeda Raman、Amazon AGIプロダクトマネージャーのDan Sinnreich、Terra Security共同創業者兼CTOのGal Malachiが、Amazon Novaモデルのカスタマイズについて解説しています。Amazon Nova 2ファミリーの新モデル(Lite、Pro、Omni、Sonic)を紹介し、Gartnerが2027年までにエンタープライズ使用のGen AIモデルの半数以上がドメイン固有になると予測していることを踏まえ、RAG、Supervised Fine-Tuning、Alignment、Continued Pre-Trainingの4つのカスタマイズ手法を説明。Danは機密コンテンツモデレーションにおいてLoRA adaptersとcontent classificationを使用したカスタマイズ事例を、Galはペネトレーションテストでのガードレール・パラドックスの解決にmodel distillationとfine-tuningを活用し、true positivesを80%から92%に改善した実例を紹介しています。
※ こちらは既存の講演の内容を最大限維持しつつ自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますのでご留意下さい。
本編
セッション開始:Nova カスタマイズとセキュリティ・コンテンツモデレーションの概要
皆さん、ようこそ。遺伝的モデルは特定の方法で失敗します。それを修正しましょう。本日はこのセッションにご参加いただきありがとうございます。ここでは Nova のカスタマイズ、特にセキュリティとコンテンツモデレーションについてお話しします。私は AWS の Gen AI ソリューションアーキテクトの Veda Raman です。本日は素晴らしい共演者の Dan と Gal が一緒に参加しています。自己紹介をしていただけますか?
はい、こんにちは。Amazon AGI のプロダクトマネージャーの Dan Sinnreich です。責任ある AI コントロールに取り組んでいます。ありがとうございます。はい、皆さんこんにちは。私は Terra Security の共同創業者兼 CTO の Gal Malachi です。私たちはエージェント型ペネトレーションテストプラットフォームを開発しています。素晴らしい。ありがとうございます。
それでは Nova とカスタマイズについてさらに深く掘り下げる前に、簡単な質問をさせてください。手を挙げてもらえますか。Amazon Nova モデルを使用したことのある人は? かなり多くの人がいますね。もう一つ質問です。Nova モデルまたは何らかのモデルをカスタマイズしたことのある人は?そんなに多くはないですね。このセッションの終わりまでに、皆さんが Nova モデルをカスタマイズして使用するよう説得できればと思います。
これからの1時間で、Nova モデルについて、昨日ローンチした新しい Nova モデルについて紹介し、Nova モデルをカスタマイズする方法と、なぜカスタマイズが本当に必要なのかについてお話しします。その後、Dan が機密コンテンツモデレーションユースケースを実現するために Nova モデルをカスタマイズする方法についてお話しし、最後に Gal が Terra Security でエージェント型ペネトレーションテストを実現するために Nova モデルをカスタマイズする方法についてお話しします。
Amazon Nova 2 ファミリーの新モデル紹介とカスタマイズの必要性
カスタマイズについてさらに深く掘り下げる前に、昨日ローンチした新しい Nova 2 ファミリーのモデルについて簡単にご紹介したいと思います。Amazon Nova 2 Lite から始めましょう。これは、エージェント型とツール呼び出しユースケースで優れたパフォーマンスを発揮する、最も価格効率の良いハイブリッド推論モデルです。Amazon Nova 2 Lite は一般提供されています。
Amazon Nova 2 Pro は、コーディングやエージェント的なユースケースなど複雑なタスクでパフォーマンスが向上した、非常に高性能なマルチモーダルモデルであり、ハイブリッド推論モデルでもあります。そして、Amazon Nova 2 Omni もローンチしました。これはマルチモーダル推論モデルで、 テキスト、画像、動画に加えて、音声やスピーチも入力として受け付けることができ、テキストと画像を出力として生成することができます。そして最後に、Amazon Nova 2 Sonic もローンチしました。これはスピーチ・ツー・スピーチモデルです。
こちらは、これらの各モデルの機能をより詳しく見たものです。ご覧の通り、Amazon Nova 2 Omni は、テキスト、画像、動画に加えて、音声入力も受け付けることができ、スピーチとテキストを生成でき、画像とテキストを出力として生成することができます。これらのモデルはすべて 100 万トークンのコンテキストウィンドウ長を持っています。
では、Nova ファミリーのモデルについての紹介はここまでとして、これらをカスタマイズする必要がある理由についてもっと深く掘り下げていきましょう。Gartner は、2027 年までに、エンタープライズが使用する Gen AI モデルの半分以上がドメイン固有のものになると予測しています。これらの汎用モデルの万能なアプローチでは、皆さんの特殊なニーズには十分ではありません。エンタープライズがビジネスにますます AI を統合していくにつれて、モデルが皆さんのビジネスコンテキストとデータを理解することへの需要が高まっています。
そして、精度だけでは競争力がありません。今や、すべての組織が優れたモデルにアクセスできます。皆さんを差別化するのは、それをどのように使うかです。カスタマイズは、汎用 AI と皆さんの具体的なビジネス現実の間の橋渡しになります。では、カスタマイズは本当にどのように役立つのでしょうか。カスタマイズは、皆さんのユニークな IP と、タスクがどのように実行されるかを捉える方法です。皆さんはユニークなワークフロー、ユニークなビジネスプロセスを持っており、カスタマイズはこれらをモデルに組み込むのに役立ちます。カスタマイズはまた、皆さんのブランドボイスに対応するレスポンスを調整することも可能にします。汎用モデルは皆さんのように聞こえません。カスタマイズは、すべてのインタラクションを通じてその一貫性をもたらすものです。カスタマイズは、モデルを皆さんの独自の知識に基づかせるのに役立ちます。モデルをカスタマイズすれば、もはや汎用的な回答はありません。ドメイン固有のシナリオで精度と安全性を向上させるのに役立ちます。そして Dan は、機密コンテンツのモデレーションユースケースを実現するためにカスタマイズをどのように使用するかについてもっと深く掘り下げるつもりです。最後に、汎用モデルが提供できるものよりも、より耐久性のある差別化を得る方法でもあります。汎用モデルはいつでも追いつくことができますが、皆さんのカスタマイズは追いつかれません。
4つのカスタマイズ手法:RAG、Supervised Fine-Tuning、Alignment、Continued Pre-Training
カスタマイズが必要な理由をご理解いただいたところで、実際にカスタマイズをどのように行うかを見ていきましょう。Amazon Nova では、4 つのタイプのカスタマイズが用意されており、それぞれ異なる目的に対応しています。左側から始めると、RAG、つまり Retrieval Augmented Generation の略ですが、これはモデルのインコンテキスト学習機能を活用して、モデルをカスタマイズし、独自のナレッジに基づいた応答を生成する方法です。RAG を使用する場合、モデルのパラメータやモデルの重みを実際には変更していないため、最も簡単で始めやすい方法です。
次のオプションは Supervised Fine-Tuning で、モデルの重みを実際に変更するため、少し複雑になります。Supervised Fine-Tuning は、指定した専門知識を使用してモデルを訓練し、特定のタスクに対応させます。要約やQ&A に特に優れたモデルが必要な場合は、ワークフローの例を使用して、入力データと出力データセットでモデルを訓練できます。
3 番目のカスタマイズタイプは Alignment で、モデルがブランドのように聞こえ、特定のトーンを持つようにしたい場合に使用します。Reinforcement Learning などについて聞いたことがあるかもしれませんが、これらはすべて Alignment 技術です。モデルをアラインメントする場合、人間の好みからのフィードバックまたはリワードモデルからのフィードバックを使用して、モデルを独自のブランドボイスに調整します。
最後に、最後の技術は Continued Pre-Training で、モデルがまだ見たことのないニッチなドメインデータがある場合に非常に有用です。深いドメイン専門知識を得たい場合、事前学習プロセスを継続し、非構造化データを使用してモデルを訓練します。モデルは一般的な知識だけでなく、ニッチなドメイン知識も習得します。
Amazon Nova モデルで利用可能なカスタマイズ技術と、利用可能なすべてのオプションについて、より詳しく見てみましょう。Amazon Bedrock または Amazon SageMaker AI でカスタマイズするか、新しくローンチされた Amazon Nova Forge を使用して Amazon Nova モデルをカスタマイズすることもできます。左側にはすべての異なるカスタマイズ技術が表示されています。Supervised Fine-Tuning については、Parameter-Efficient Fine-Tuning と Full Fine-Tuning 技術があります。Alignment に関しては、Direct Preference Optimization または Proximal Policy Optimization、あるいは新しくローンチされた Reinforcement Fine-Tuning も実行できます。
Knowledge distillation を行いたい場合は、Amazon Bedrock、Amazon SageMaker AI、または Amazon Nova Forge でもサポートされています。Knowledge distillation では、より大きなモデルを teacher model として使用し、より小さなモデルである student model を訓練します。Student model はより小さなモデルなので、より費用効率的ですが、teacher model と同じくらい知能的です。
Amazon Bedrock、SageMaker AI、Nova Forge によるカスタマイズの実装方法
それでは、各オプションについてより詳しく見ていきましょう。そして、 Amazon Bedrock から始めて、Amazon Nova モデルをカスタマイズするために使用する方法を見ていきます。Amazon Bedrock は、Amazon Nova モデルをカスタマイズするための管理された方法を提供します。Bedrock は Bedrock コンソールアクセスまたは API メソッドを提供してモデルをカスタマイズできるので、3 つの簡単なステップで始めることができます。カスタマイズしたいソースモデルを選択し、カスタマイズに使用したいハイパーパラメータと入力データを指定し、その後 API またはコンソールを使用してカスタマイズジョブをセットアップすると、Bedrock がモデルのカスタマイズを処理してくれます。
完全なカスタマイズを行いたい場合は、SageMaker AI を使用できます。SageMaker AI には、fine-tuning と continued pre-training の両方のための事前構築されたレシピがあります。これらのレシピは、多くの重い作業を取り除くことで、カスタマイズを簡単にします。例えば、カスタマイズに使用したいインスタンスの適切なタイプとインスタンスの数を把握する必要があります。これらはすべて推奨事項で処理されるため、複数の異なるカスタマイズの反復を試験して実行する必要はありません。SageMaker では、トレーニング用の複数の異なるアクセラレータ間で簡単に切り替えることもできます。
SageMaker AI では、3 つの簡単なステップで始めることができます。トレーニングと検証データディレクトリを指定し、SageMaker Hyperpod または SageMaker AI からレシピを選択し、レシピを実行してカスタマイズされたモデルを結果として取得します。モデルをカスタマイズしたら、 これらのモデルで推論を行いたいと思うでしょう。これらのカスタマイズされたモデルを Bedrock に持ち込んで推論を行うことができます。Bedrock はこれを行うための 2 つの異なる方法を提供します。オンデマンド推論を行うか、推論用に容量をプロビジョニングするかのいずれかです。オンデマンド推論では、API 経由でモデルへの即座のアクセスが得られ、トークンごとの価格に基づいて支払います。
プロビジョニングされた推論を行いたい場合、これはほとんどの場合本番環境のユースケースですが、プロビジョニングする model units の数に基づいて固定価格で専用のパフォーマンスが得られます。 最後に、Amazon Nova Forge についてお話しします。これは最近ローンチされたもので、Nova Forge は Nova モデルのより深いカスタマイズに使用できるプログラムです。Nova Forge では、pre-training、mid-training、または post-training checkpoints など、Nova モデルの複数の異なるチェックポイントへのアクセスが得られます。独自の reward function を持ち込み、新しくローンチされた reinforcement-based fine-tuning を使用してアラインメントを行うことができます。
Nova Forge に実際の環境にある独自のシステムを接続することができます。 また、知識蒸留も行うことができます。より大きな teacher モデルから student モデルへと蒸留することができます。さらに、responsible AI ツールキットにアクセスすることもできます。Nova Forge を使用すると、 Amazon Nova 2 Pro モデルや Amazon Nova 2 Omni を含む、プレビュー段階の新しいモデルへの早期アクセスが得られます。それでは、Dan にバトンタッチして、コンテンツモデレーションとカスタマイズがどのように役立つかについて話してもらいます。
機密コンテンツモデレーションにおける課題とカスタマイズソリューション
ありがとうございます、Veda。Veda がしたように、手を挙げてもらうことをお願いしたいと思います。Nova を使用する際に、または他の大規模言語モデルを使用する際に、安全性ガードレールに遭遇したことがある人、あるいは機密コンテンツを処理しているため、安全性ガードレールに遭遇する可能性があると予想している人は、何人いますか? 何人か手を挙げていますね。フィードバックをありがとうございます。これらのガードレールに遭遇したことがある人も、遭遇する可能性があると予想している人も、心配しないでください。ガードレールが実装されている理由は非常に正当であることがわかります。そして、この部屋は安全な場所です。
これらをカスタマイズする方法をお見せします。良いニュースは、これらのガードレールをカスタマイズできるソリューションを構築したということです。ソリューションについて詳しく説明する前に、Nova の responsible AI アーキテクチャについて少し説明する価値があると思います。 まず、私たちは設計段階から responsible であることを強調したいと思います。私たちは responsible AI の 8 つのコア次元に基づいています。これについては科学論文があります。最も重要なことは、安全性、プライバシーとセキュリティ、公平性、説明可能性など、これらの次元を覚えておくことです。
後ほど、これらをカスタマイズする方法をお見せしますが、これらを念頭に置いてください。これが本当に私たちがモデルを設計する方法です。また、私たちはさまざまな業界をリードするコラボレーションに参加しています。例えば、Frontier Model Forum や Partnership on AI、その他さまざまな政府フォーラムなどの組織と協力しています。 今年の初めに、私たちは Frontier Model Safety Framework を発表しました。これは Korea Frontier AI safety commitments をサポートしています。
また、私たちはサードパーティの評価者とパートナーシップを組んでいます。特に red teaming に関しては、これらが非常に良いと考えています。彼らは特別なスキルと能力を持っており、モデルを構築・設計する際にそれを活用したいと考えています。また、私たちはアカデミアと非常に密接に協力しています。例えば、 今年の初めに、私たちは初の Amazon Nova AI challenge をホストしました。10 の一流大学チームがヘッドツーヘッドのトーナメントで競い合いました。そのうち半分、つまり 5 チームは jailbreak ボットを構築しようとしました。もう半分は安全性ガードレールを構築し、モデルを強化しようとしました。そこから多くのイノベーションとアイデアが生まれました。私たちもそれについて発表しています。興味があれば、教えてください。喜んでそれを指摘します。私たちは来年、trusted software agents に焦点を当てた 2 番目のチャレンジを発表しました。ですから、大学に所属していて参加したい場合は、それを調べるか、トークの後に私に知らせてください。
私たちはまた、顧客のニーズを理解するために顧客と非常に密接に協力しています。Veda が話したすべてのことと、私が議論するすべてのことは、顧客からのフィードバックに基づいています。私たちが受け取った顧客フィードバックの一つは、コンテンツモデレーションのガードレールの一部が、すべての顧客にとってそのままでは機能しないということです。それを説明して、いくつかの例を挙げてみましょう。
例えば、あなたがインターネットやサイバーセキュリティ企業であったり、セキュリティツールを構築していて、大規模言語モデルを使用したいと考えているとします。これらのユースケースには、テスト用マルウェアコードの生成、サイバー攻撃のシミュレーション、さまざまなセキュリティテストシナリオの開発が含まれる可能性があります。その悪意のあるコードとペンテストはコンテンツモデレーションのガードレールによってブロックされる可能性があるため、私たちはそれらをカスタマイズしたいのです。
同じことが法執行機関、メディア、エンターテインメント業界にも当てはまります。正直なところ、犯罪、薬物、暴力、違法物質、成人向けのテーマを含む暴力的なコンテンツに関して、非常に似たようなコンテンツを見ることがあります。これらは多くの場合、これら 2 つの業界で一緒に現れるもので、大規模言語モデルを使用してそのコンテンツを理解したい正当なユースケースです。同様に、オンラインプラットフォームの場合、彼らはコンテンツをモデレートする必要があり、通常、大規模言語モデルが正当な目的で使用している場合でもブロックするようなものがたくさんあります。ここに本当に多様なユースケースがあることがわかります。それらはすべて、カスタマイズされたコンテンツモデレーション設定を必要とする有効なビジネスニーズです。
では、これらのユースケースをどのように実現するのでしょうか。私たちは Veda が話した多くの概念を使用してそれを行いました。そして、alignment と fine-tuning について触れます。その前に、Nova モデルの主要なコンポーネントと Nova モデルの周りのコンテンツモデレーションツールを見てみましょう。
本当に 3 つのコンポーネントがあります。alignment があり、Veda がカスタマイズの機能について話したときに使用したのと同じ言葉であることに注意してください。これは、モデルが特定の方法で応答するように訓練されているという事実を指しています。私たちは supervised fine-tuning、つまり SFT を使用しています。これは Veda が話した方法の 1 つであり、RLHF、つまり reinforcement learning with human feedback を使用して、モデルを alignment させ、私が言及した 8 つのディメンションと一致する方法で応答するように設計されていることを確認します。
例えば、モデルに下品な言葉を生成するよう求めても、ウェブページを要約して下品な言葉があるかどうかを教えてほしいと求めている場合でも、そうしないかもしれません。なぜなら、それを生成しないように設計されているからです。同じことが危険な武器や他の成人向けコンテンツにも当てはまります。これが、モデルの alignment の部分です。ガードレールはモデルの周りの最初と最後の防御線です。私たちは input moderation guardrails と output moderation guardrails を持っており、モデルが持つ可能性のあるギャップに迅速かつ堅牢に対応するのに役立ちます。モデルは確率的プロセスであるため、時々、それが生成すべきではないコンテンツを生成する可能性があります。私たちはそれの周りにガードレールを持っています。
私たちはまた、広範な safety evals を持っています。私たちはリリース前にモデルをテストするために使用する多くの内部ベンチマークを持っています。私たちは 300 以上の異なる red-teaming 技術を持っており、これは特に化学および生物学的リスクの領域で、その領域に本当に優れた専門知識を持っている外部企業と協力して使用する場所でもあります。これらを実践に落とし込み、Nova を使用するときにどのように機能するかを示してみましょう。
レスポンスを得たいときは、こちらが私たちの RAI フレームワークで、これは runtime と呼ぶ段階で適用されます。Runtime というのは、実際に「こういう質問があります、こういうリクエストです」と言って、モデルがレスポンスを提供する段階のことです。ユーザーが入力を提供するのが見えますね。その入力はまず input moderation guardrails によってモデレートされます。これについては詳しく触れませんし、カスタマイズもあまりしませんが、その入力、そのリクエストが deflect されなければ、そのプロンプトはモデル自体に渡されます。
モデルは training 中に RAI dimensions を中心に設計されているので、aligned なコンテンツを生成します。weapons、成人向けの言語やテーマ、悪意のあるコードといったトピックについては、aligned されていないコンテンツを deflect します。プロンプトが通過して、モデルがそれを処理し、その後 output moderation guardrails があって、モデルが時々生成する可能性のある機密コンテンツをフィルタリングします。最後に system output が得られます。これが runtime で毎回リクエストをするたびに起こることで、非常に高速に処理されて、コンテンツが aligned していなければ生成または deflect されます。
フレームワークがどのように機能するかを見たので、先ほど述べたユースケースを解決するために、追加の柔軟性を提供したい場所の例を示しましょう。私たちが行ったことは、Veda が話した同じコンセプトの一部を使用して、特定のタイプのコンテンツに対してカスタマイズすることです。例えば、safety では dangerous weapons や controlled substances を含むエリアでコンテンツを生成することができます。Sensitive content には profanity、bullying、nudity、その他の成人向けテーマが含まれます。Fairness は bias と文化的配慮に関するもので、様々なグループに対するステレオタイプのようなものです。Security は malware、phishing emails、悪意のあるコードのようなコンテンツをカバーしています。
興味深いのは security が単独で存在する傾向があるということです。確実に Venn diagram があって重なる部分がありますが、security は cybersecurity のユースケースで使用される傾向があり、一方 safety、sensitive content、fairness は一緒に現れる傾向があります。TV ドラマや映画のスクリプトを考えてみてください。weapons や controlled substances を見るなら、profanity や nudity やそういったものを見る可能性が高いです。常にではありませんが、一般的にはそうです。ですから、これが私たちがカスタマイズする 4 つのディメンションです。技術的な詳細を示して、custom models を使用してそれを正確にどのように行うかについて説明しましょう。
LoRA アダプターとコンテンツ分類を活用したカスタムモデルの実装例
これらは、カスタマイズを可能にするために一緒に機能する 3 つのコンポーネントです。core model には LoRA adapters を使用し、output model には content classification を使用し、これらすべては Amazon Bedrock を使用して利用可能です。それぞれ 1 つずつ見ていきましょう。Core model については、SFT、supervised fine-tuning を使用してトレーニングします。これは Veda が先ほど話したのと全く同じです。LoRA adapter を使用します。LoRA adapter の機能方法は、core safety を維持しながら特定の RAI dimensions を unlearn するというものです。左下に参考資料がいくつかあって、私たちが公開した本当に素晴らしい研究があり、それがどのように行うかについて説明しています。
基本的には、LoRA アダプターを使うと、元のモデルの重みはそのままで、モデルの選択されたレイヤーに小さな加算的な修正を加えるんです。これは、さっき話した特定のコンテンツ領域に固有のものです。例えば、セキュリティをアローリストに入れたいとしたら、セキュリティ、安全性、機密コンテンツに関連するレイヤーだけに変更を加えることができて、他の部分は変わらないままです。これが LoRA アダプターで、これによってモデルのアラインメントを忘れさせるのに役立ちます。ガードレール出力モデレーションについては、出力モデレーションがさまざまなタイプのコンテンツを分類します。特定のタイプのコンテンツがコアモデルでアローリストされている場合、ガードレールコンテンツ分類でもそれをアローリストします。顧客がセキュリティを使う必要があると言ったら、わかりました、セキュリティを通しましょうと言うわけです。
これが出力側のコンテンツ分類です。素晴らしいのは3番目のコンポーネントです。これはすべて Amazon Bedrock でカスタムオンデマンドモデルとして利用可能なので、カスタムオンデマンド推論ができるんです。素晴らしいのは、既製のモデルを使う場合と同じスタイルと方法だということです。
コードと API は変わりません。ベースモデルの代わりにカスタムモデルを使うだけです。だから本当に素晴らしいんです。Bedrock 推論の価格設定は、カスタムモデルと既製のベースモデルで同じです。だから本当に素晴らしくてエレガントなやり方なんです。
最後に、ここでいくつかの例を紹介します。最初の例はメディアとエンターテインメントです。ここで Bedrock playgrounds を使っていて、これでこのすべてを非常に素早くテストできます。この最初の例は、仮想のテレビドラマスクリプトです。大人向けの視聴者をターゲットにしたテレビドラマのアイデアをくれと頼んで、危険な武器、暴力などについての言及があるべきだと言いました。右側では、危険な武器と下品な言葉が含まれているため、コアモデルによってブロックされています。でも左側では、さっき見せたアダプターとアローリストを使うと、実際にスクリプトのアイデアを見て生成することができます。これが最初の例です。
Gaal に引き継ぐ前の2番目の例はセキュリティです。これはセキュリティの例で、悪意のあるアクターがマシンへのルートアクセスを取得して、さまざまな悪意のある IP に ping コマンドを実行し始めたターミナルセッションを分析するために使われます。これは実は非常に一般的なユースケースです。ベースモデルにこれが悪意のあるものである理由と、このコードで何が起こったのかを説明するよう求めると、追加の悪意のあるコードを生成しないように訓練されているため、それを回避します。でも左側でアダプターを追加すると、実際にそのスクリプトを分析して、問題が何であるかを説明して、セキュリティリスクを正しく特定します。これがこのカスタマイズを使ってこれらのユースケースに対処する方法です。
Terra Security のエージェント型ペネトレーションテストとガードレール・パラドックス
では、ここまでが私の部分です。次は Gaal に交代して、Terra Security がどのようにカスタムモデルを使用して、受賞歴のある Agentic AI 搭載のペネトレーションテスト製品を開発しているかについて説明してもらいます。ありがとうございました。皆さん、こんにちは。そして Dan と Vera、この素晴らしいテクノロジーと、ここで見たものへの素晴らしい紹介をありがとうございます。 私の名前は Gaal で、Terra Security の共同創業者兼 CEO です。ここで私たちがこれまで見てきたすべてのものをどのように活用しているかをお見せする前に、Terra と私たちが何をしているのかについて簡単に紹介させてください。
ちょうど先月のことですが、皆さんもおそらく聞いたことがあると思いますが、Anthropic が初めて知られている AI が調整したサイバー攻撃をブロックしたと報告しました。これはもはや SF ではありません。攻撃者は実際に Claude コードを武器化することで複数の組織に侵入することに成功しました。これは、すべてのセキュリティチームとすべての組織が今直面していることを強調しています。攻撃者は防御者よりも速くスケールすることができます。これが正確に私たちが Terra Security を設立した理由です。攻撃者が攻撃的な操作に AI を使用しているのであれば、防御者も自分たち自身の AI 駆動型の攻撃的能力が必要です。
掘り下げる前に、ペネトレーションテスト、つまり pen testing が何についてのものなのかについて、少し立ち戻って話しましょう。 Pen testing は、倫理的ハッカー、つまり良い人たちが実世界の攻撃をシミュレートし、ライブシステムの実際の脆弱性を発見しようとする実践です。Pen testing は単に脆弱性を見つけることだけではなく、被害範囲も明らかにすることです。 2025 年、ほぼ 2026 年に、他のすべてが自動化されている世界では、pen testing はまだ 90 パーセント手動です。Web アプリケーションは特に動的な生き物です。それらは常に変化し、統一された構造や標準を持たず、これは自動化や複雑な攻撃をハードコーディングすることを不可能にしています。これまでのすべての試みは失敗しており、また、プロセスを遅く、高価にし、スケールしません。
では、Terra での私たちの見方は簡単です。 Pen testing の未来は agentic です。
初めて、人間がするのと同じようにリアルタイムで推論することを可能にするテクノロジーがあります。Terra では、ループから人間を完全に削除していません。 置き換えるのではなく、私たちは拡張しています。では、どのようにしているのでしょうか?私たちは AI エージェントに責任を持ってハッキングすることを教えています。私たちのエージェントは、アセットの発見、テストケースの生成、そして最終的に実際のペイロードを実行して実際の脆弱性を発見するまで、ペネトレーションテストプロセスのすべての部分を行うようにトレーニングされています。この最後のステップ、実行は、価値とリスクが存在する場所です。したがって、私たちはライブシステムをテストします ので、2 つの譲れない点があります。まず、信頼性です。私たちはすべてを見つけ、脅威を見落とさないようにしなければなりません。次に、安全性です。システムやユーザーに害を与えないようにしてください。私たちはガードレールを使用してこれを行います。ここに組み込まれた矛盾があることがわかります。私たちは攻撃する必要があり、何も見落とさないようにしなければなりませんが、同時に安全でバランスの取れた方法で行う必要があります。これは非常に難しいことです。
Terra では、これのことを私たちはこう呼んでいます。このトレードオフを「ガードレール・パラドックス」と呼んでいるんです。ユーザーと顧客を破壊的な操作から保護しながらも、システムが完全にその仕事をできなくなるようにはしない、どうやってそのバランスを取るかということですね。説明させてください。このSQL インジェクション・ペイロードを見て、ちょっと圧倒されたような気がする人、いますか?ちょっと、ですね。わかります、私もです。これは SQL インジェクション・ペイロードです。非常にシンプルですが、同時に非常に破壊的です。これは実行してはいけないものの素晴らしい例です。絶対に。なぜ絶対にかというと、開発環境であっても、このクエリを実行すれば、テスト用に使われているユーザーを含めて、データベースからすべてのユーザーが削除されてしまい、その後テストを進めることができなくなるからです。だから実行することはできないんです。
AI エージェントに SQL インジェクション・ペイロードを生成するよう求めたら、最初の選択肢は何だと思いますか?予想通りですね:DROP TABLE users です。では、これはどうでしょう?これは明らかに破壊的なペイロードではありません。ここではユーザーのロールを admin に変更していますが、環境によっては、場合によっては、例えば本番環境では実行したくないようなものかもしれません。つまり、何を実行するかを慎重に選ぶ必要があるということですね。そして難しい部分は、すべてが実行時に、その時点で存在するコンテキストに基づいて決定されるということです。コンテキストが重要なんです。そしてこの既に複雑なプロセスにさらに複雑さを加えるのは、コンテキストが動的で常に変わっているということです。私たちは異なる環境、異なる顧客、異なるリスク許容度で運用しており、Terra ではこういう言い方をしています:ステージング環境の正午に安全なものが、本番環境の午後 2 時には安全でないかもしれない、ということです。だから私たちのガードレールはリアルタイムで適応する必要があるんです。
私たちはガードレールのシステムを構築しました。まず、コストとパフォーマンスのバランスのおかげで、Amazon Nova Pro を基本モデルとして選びました。このモデルは、モデルプロバイダーによるガードレール、つまりモデルプロバイダーが許可しないことが、そのままの状態で備わっています。私たちのユースケースにとっては、これは少し問題がありました。なぜなら、そのままの状態では、モデルは攻撃的なペイロードを生成することを許可しないからです。Dan が先ほど言及したように。そこで私たちは Nova チームと協力し、彼らは私たちと協力してくれて、私たちのニーズに合わせたコンテンツモデレーション設定を備えたカスタムモデルを手に入れました。その上に、Terra ガードレール、つまり私たちがモデルに許可しないことがあります。例えば、テスト対象の環境がどれであれ、データベーステーブルを削除することは決してしない、というようなことです。そして最後に、私たちは顧客に自分たちのガードレールを提供する能力を与えています。彼らは何でも言うことができます。例えば MongoDB データベースにヒットしたら、止まれ、何もするな、というようなことです。これらのレイヤーのそれぞれが必須なんです。
では、ここまでで何があるか見てみましょう。これは私たちのエージェントの非常に簡略版です。Nova チームのモデルに基づいたペイロードジェネレータ、Nova Pro Security adapter、そしてガードレールのレイヤーとその上のカスタムガードレールがあります。このエージェントには、ターゲットシステムに対してペイロードを実行することを可能にするツールが付属しています。これを見ると、安全だと思うべきですよね?まあ、実は違うんです。
私たちはまだ DROP TABLE users のような破壊的なペイロードを見ています。それほど頻繁には起こりませんが、私たちは前に説明したように、これを許可することは決してできません。では、なぜまだこれが見られるのでしょうか?例を使って説明しましょう。大規模言語モデルがダッシュを使うのが大好きなことは誰もが知っています。彼らにダッシュの使用をやめるよう求めたことがある人、いますか?もしそうなら、彼らは聞いてくれることを知っているでしょう。ただし、時々だけです。これが正確に私たちがここで抱えている問題なんです。
問題は、大規模言語モデルが訓練データの中でダッシュをたくさん見ているため、ダッシュを出力する必要があるときに、ある確率でそれが em ダッシュになってしまうということです。私たちのエージェントも同じです。SQL インジェクションペイロードを出力する必要があるときに、ある確率で DROP TABLE users になってしまいます。ガードレールがすべてを守ることができないのであれば、私たちは第二の防御線が必要です。 ペイロード生成が攻撃であるなら、私たちは専門的な防御が必要です。 すべての問題と同じように、私たちはそれを新しいエージェントで解決します。今回は guardrail checker があります。ペイロード生成器という別のエージェントとは異なり、ペイロード生成器は 2 つの仕事を持っています。ペイロードを生成することと、それらが安全であることを確認することです。このエージェントは 1 つだけの仕事を持っています。悪意のあるペイロードをブロックすることです。そしてそれは非常にうまくその仕事をこなしています。問題は、ちょっと少し良すぎるということです。
これは別の例です。これはブロックしたくないペイロードの例です。ここでは、ユーザーの最後のログイン時刻を現在に変更しているだけで、破壊的なものは何もありません。問題は、システムの機密エンティティであるユーザーを変更しているため、私たちのエージェントはこれがブロックする必要があるものだと思うかもしれないということです。そしてこれは良くありません。なぜなら、私たちが実行する必要があるすべてのテストを実行することができなくなるからです。だから、ここが重要なポイントです。ブロックされたすべてのペイロードが悪意のあるものではないということです。
実際に考えてみると、私たちは 1 つの問題を別の問題に変換してしまいました。今、私たちは 2 つのエージェント間の戦いを持っています。攻撃的なテストのためのペイロードを生成しようとする攻撃側と、それらをブロックしようとする防御側です。AI エージェントに仕事をさせて、コンテキストが不足しているか疑いがある場合、通常はそれらが訓練された仕事をするようにデフォルトします。私たちの場合、コンテキストが不足しているか疑いがある場合、ディフェンダーはほとんどの場合ブロックするようにデフォルトします。言い換えれば、それはすでに知っていることをするようにデフォルトします。だから私たちは行き詰まっています。ここからどのように進めばいいのでしょうか?
ヒューマンフィードバックと Fine-Tuning による継続的なモデル改善プロセス
私たちは大規模言語モデルに新しい行動を教える必要があります。私たちのエージェントがペイロードをブロックするか許可するかを決定する必要があるとき、それは私たちのルールセットに基づいています。私たちが経験している問題のほとんどは、大規模言語モデルのデフォルト動作が原因であることがわかっています。これを行うために、私たちは独自のカスタムデータを利用しますが、まず明らかに、私たちはこの データを収集する必要があります。Terra では、私が前に述べたように、ループから人間を完全に削除しませんでした。私たちの研究者は私たちのエージェントと協力して、支援とガイダンスを提供しています。時には複雑な攻撃の最後のステップを実行することさえあります。
研究者がシステムと協力するとき、彼らは私たちの AI エージェントのパフォーマンスをランク付けします。これが私たちの初期データセットを作成します。各結果は、人間のフィードバックとともに、バケットに保存されます。では、私たちがデータを持っていて、データが準備できていると仮定しましょう。私たちのオプションは何ですか?
すでに prompt engineering を試してみましたが、それだけではうまくいきませんでした。RAG や hybrid RAG を使えば、解決しようとしている問題に対してより関連性の高いコンテキストが得られるかもしれませんが、これらはあくまで in-context learning の方法であり、LLM のデフォルトの動作は変わりません。ですから、fine-tuning か continuous pre-training のどちらかになります。私たちのユースケースでは、すでに研究者から高品質なラベル付きデータを持っていたので、fine-tuning を選ぶのは非常に簡単な判断でした。
カスタムモデルを作成するのは非常に難しい仕事だと思うかもしれませんね。でも実は、もうそんなことはありません。Amazon SageMaker と Amazon Bedrock を使えば、自分たちのカスタムモデルを作成して利用可能にするのは非常に簡単です。その前に、データキュレーションについて話しましょう。
人間がループの中に入って例を集めています。このデータをバケットに入れて、SageMaker で非常にシンプルなパイプラインを設計しました。まず、LLM を使ってデータを匿名化します。バイアスを取り除きたいからです。特定の顧客データや特定のアプリケーションの影響を受けたくないんです。その次にデータを正規化して、トレーニングデータセットとテストデータセットに分割します。トレーニングデータセットは fine-tuning ジョブに使用され、テストデータセットは新しく作成したモデルの評価に使用されます。
すでに自分たちのカスタムモデルを作成しているので、それをより小さく、より速く、より安くする機会があります。考え方はシンプルです。大きなモデルが持っているすべての余分な知識は必要ないですよね。でも、大きなモデルから自分たちに関連のある知識を抽出したり、転移したりしたいんです。そのために、model distillation という方法を使います。完全なフローを見てみましょう。
繰り返しになりますが、収集されたデータから始まります。良い例と悪い例です。良い例というのは、研究者がエージェントと合意に達した例です。データクレンジングプロセスを通じて匿名化と正規化で多くのデータを削除したので、コンテキストの一部を取り戻したいんです。例えば、アクティベートされた guardrails、リスクプロファイル、この例が属する環境など、そういったものです。このデータを手に入れたら、teacher モデル、つまり大きなモデルを使って、実際にこのデータに追加の insights を加えます。teacher モデルによる追加の insights でデータを充実させます。これが fine-tuning ジョブの最終的なデータセットになります。
では、いよいよモデルのファインチューニングの準備ができました。Amazon SageMaker では、まず最適なモデルを選択することから始めます。先ほど申し上げた通り、Amazon Nova Light を選んでファインチューニングジョブを実行しました。匿名化・正規化した学習データを取得して、ファインチューニングジョブに投入します。その後、事前に取り分けておいたテストデータを使って、新しく作成したモデルを評価します。閾値をクリアすれば完了です。Amazon Bedrock にプッシュして、オンデマンドでアクセス可能にするだけです。本当にシンプルで、本当に強力です。
では、ここまでをまとめます。最初は Nova security adapter をベースにした非常にシンプルなエージェント から始めました。これはペイロードジェネレータで、その上にガードレールが乗っています。素晴らしい成果を上げましたが、十分ではありませんでした。ブロックすべきペイロードがまだ通ってしまっていたのです。
そこで Guardrail Checker Agent を導入しました。このエージェントの目的は、ペイロードをブロックするか許可するかを判断することです。非常に良い成果を上げました。ただし、良すぎたのです。研究者とヒューマンインザループのアプローチを使って、モデルの判断に同意した場合と異なった場合の両方について、悪い例と良い例を収集しました。このデータを取り分けて、それを充実させ、最終的には Guardrail Checker の頭脳を置き換える新しい LLM のファインチューニングに使用しました。
考えてみると、実は Terra のビジネスコンテキストをフローに注入したわけです。素晴らしいのは、ここで止めるつもりはないということです。すでにデータとパイプラインがあり、すべての準備が整っているので、継続的に反復を重ね、例を収集し、データセットを構築し、モデルを改善し続けています。
では、これが実際に何を意味するのか。正しくブロックした true positives が 80% から、最初の反復後には 92% になりました。これはたった 1 回の反復で得られた大きな改善です。ビジネスコンテキストをプロセスに注入することで、平均的なものから優れたものへと本当にシフトできることを示しています。先ほど申し上げた通り、改善の余地がなくなるまで改善を続けるつもりです。
まとめますと、攻撃者たちはすでに AI を使用していますが、今や防御側もついに AI を活用した優位性を手に入れました。それは安全で、予測可能で、常に防御側の味方となるものです。 ご聴講ありがとうございました。また、このようなことを実現するためのプラットフォームを提供してくれた AWS にも感謝いたします。Dan Veda と私はステージ外でご質問にお答えする準備ができております。本当にご聴講ありがとうございました。
※ こちらの記事は Amazon Bedrock を利用し、元動画の情報をできる限り維持しつつ自動で作成しています。

























































Discussion