<p data-line="0" class="code-line">本記事では、RAGの性能を高めるための「REFRAG」という手法について、ざっくり理解します。</p>
<p data-line="2" class="code-line">株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。</p>
<h1 id="%E3%81%93%E3%81%AE%E8%A8%98%E4%BA%8B%E3%81%AF%E4%BD%95" data-line="4" class="code-line">
<a class="header-anchor-link" href="#%E3%81%93%E3%81%AE%E8%A8%98%E4%BA%8B%E3%81%AF%E4%BD%95" aria-hidden="true"></a> この記事は何</h1>
<p data-line="5" class="code-line">この記事は、RAGの回答を爆速にする手法「REFRAG」の論文<sup class="footnote-ref"><a href="#fn-62c2-1" id="fnref-62c2-1">[1]</a></sup>について、日本語で簡単にまとめたものです。<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__5d7449a9ca5" src="https://embed.zenn.studio/card#zenn-embedded__5d7449a9ca5" data-content="https%3A%2F%2Farxiv.org%2Fabs%2F2509.01092" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://arxiv.org/abs/2509.01092" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2509.01092</a></p>
<p data-line="8" class="code-line">今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は、<a href="https://zenn.dev/knowledgesense/articles/47de9ead8029ba" target="_blank">こちらの記事</a>もご参考下さい。</p>
<h1 id="%E6%9C%AC%E9%A1%8C" data-line="10" class="code-line">
<a class="header-anchor-link" href="#%E6%9C%AC%E9%A1%8C" aria-hidden="true"></a> 本題</h1>
<h3 id="%E3%81%96%E3%81%A3%E3%81%8F%E3%82%8A%E3%82%B5%E3%83%9E%E3%83%AA%E3%83%BC" data-line="11" class="code-line">
<a class="header-anchor-link" href="#%E3%81%96%E3%81%A3%E3%81%8F%E3%82%8A%E3%82%B5%E3%83%9E%E3%83%AA%E3%83%BC" aria-hidden="true"></a> ざっくりサマリー</h3>
<p data-line="12" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/510f35f70596-20250921.png" alt="RAGを30倍速くするMetaの新技術「REFRAG」" class="md-img" loading="lazy"></p>
<p data-line="14" class="code-line">REFRAGは、RAGの回答速度を上げるための新しい手法です。<strong>「巨額報酬での人材引き抜き」で話題になったMeta社の「Superintelligence Labs」</strong><sup class="footnote-ref"><a href="#fn-62c2-2" id="fnref-62c2-2">[2]</a></sup>の研究者らによって2025年9月に提案されました。</p>
<p data-line="17" class="code-line">通常のRAGでは、外部のデータベースから検索した関連文書を、そのままLLMに渡します。しかし、こうした通常のRAGだと入力が長くなり、<strong>LLMから回答が来るまでの時間が長くなってしまう</strong>という課題がありました。</p>
<p data-line="19" class="code-line">そこで、「REFRAG」という手法では、検索した関連文書をベクトル化して、<strong>ベクトル形式のままLLMに注入</strong>します。こうすることで、「LLMから回答が来るまでの時間」を<strong>最大で約30倍高速化</strong>できます。</p>
<h3 id="%E3%81%94%E5%8F%82%E8%80%83" data-line="22" class="code-line">
<a class="header-anchor-link" href="#%E3%81%94%E5%8F%82%E8%80%83" aria-hidden="true"></a> ご参考</h3>
<aside class="msg message"><span class="msg-symbol">!</span><div class="msg-content">
<p data-line="24" class="code-line">この手法、かなり複雑です。シンプル版な類似手法として「<a href="https://zenn.dev/knowledgesense/articles/2b6aa64f27ea89" target="_blank">xRAG</a>」もあるので、RAG初心者の方は、先にこちらを読みましょう。</p>
</div></aside>
<h3 id="%E5%95%8F%E9%A1%8C%E6%84%8F%E8%AD%98" data-line="27" class="code-line">
<a class="header-anchor-link" href="#%E5%95%8F%E9%A1%8C%E6%84%8F%E8%AD%98" aria-hidden="true"></a> 問題意識</h3>
<p data-line="29" class="code-line">RAG は便利ですが、関連する文書をたくさんプロンプトに入れ込むため、LLMに対する入力文章が長くなり、LLMからのレスポンスが遅くなります<sup class="footnote-ref"><a href="#fn-62c2-3" id="fnref-62c2-3">[3]</a></sup>。ただ、この論文では、<strong>「人間が使う言語って冗長なので、LLMに分からせる目的ならもっと短縮できるよね」</strong> という発想で、情報を圧縮してから、LLMに渡すことに挑戦しています。</p>
<h3 id="%E6%89%8B%E6%B3%95" data-line="31" class="code-line">
<a class="header-anchor-link" href="#%E6%89%8B%E6%B3%95" aria-hidden="true"></a> 手法</h3>
<p data-line="32" class="code-line">普通のRAGでは人間が扱う「テキスト」（日本語とか）を、そのままLLMに入力します。そのため、LLM自身が膨大な計算をしてベクトル化します。この処理には時間がかかるので、この手法では、<strong>最初からベクトルで渡してあげることで高速化できるよね</strong>、というイメージです。その「テキストをベクトルにする変換器」の作成が大変です。↓</p>
<p data-line="34" class="code-line"><strong>【事前にやっておくこと】</strong></p>
<ol data-line="35" class="code-line">
<li data-line="35" class="code-line">
<strong>モデルの学習</strong>
<ul data-line="36" class="code-line">
<li data-line="36" class="code-line">変換器を作る。回答生成させるLLM自体もファインチューニングする</li>
<li data-line="37" class="code-line">具体的には、「圧縮された情報から元のテキストを復元する」タスクなどで、お互いを調整</li>
<li data-line="38" class="code-line">（詳しいことは、シンプル化のために割愛）</li>
</ul>
</li>
<li data-line="39" class="code-line">
<strong>（発展）圧縮する/しないの判断を強化学習</strong>
<ul data-line="40" class="code-line">
<li data-line="40" class="code-line">「全部ベクトル化せず、一部は素のテキストをLLMに渡した方が精度が高い」です。そのため、この「ベクトル化する/しない」の判断基準を強化学習</li>
</ul>
</li>
</ol>
<p data-line="42" class="code-line"><strong>【ユーザーが質問を入力して来たとき】</strong><br>
<img src="https://storage.googleapis.com/zenn-user-upload/510f35f70596-20250921.png" alt="RAGを30倍速くするMetaの新技術「REFRAG」" class="md-img" loading="lazy"></p>
<ol data-line="44" class="code-line">
<li data-line="44" class="code-line">
<strong>関連文書を検索</strong>
<ul data-line="45" class="code-line">
<li data-line="45" class="code-line">普通のRAGと同じ（上図の左上）</li>
</ul>
</li>
<li data-line="46" class="code-line">
<strong>文書の分割・圧縮</strong>
<ul data-line="47" class="code-line">
<li data-line="47" class="code-line">検索してきた参考文書を、16文字ずつの「チャンク」に分割</li>
<li data-line="48" class="code-line">準備で作成した「変換器」を使い、各チャンクをベクトル形式に変換（上図の「Encoder」部分）</li>
</ul>
</li>
<li data-line="49" class="code-line">
<strong>質問テキストをベクトルをLLMに注入</strong>
<ul data-line="50" class="code-line">
<li data-line="50" class="code-line">ユーザーの質問は素のテキスト（トークン）のまま。その後に参考文書をベクトル化したものを入れ込んで、LLMに渡す（上図の右上）</li>
</ul>
</li>
<li data-line="51" class="code-line">
<strong>最終回答の生成</strong>
<ul data-line="52" class="code-line">
<li data-line="52" class="code-line">普通のRAGと同じ</li>
</ul>
</li>
</ol>
<p data-line="55" class="code-line">この手法のキモは、変換器です。「<strong>人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき</strong>」という発想はとても面白く、発展の余地があるように感じます。</p>
<h3 id="%E6%88%90%E6%9E%9C" data-line="58" class="code-line">
<a class="header-anchor-link" href="#%E6%88%90%E6%9E%9C" aria-hidden="true"></a> 成果</h3>
<p data-line="59" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/b004a6320c0b-20250921.png" alt="RAGを30倍速くするMetaの新技術「REFRAG」" class="md-img" loading="lazy"></p>
<ul data-line="61" class="code-line">
<li data-line="61" class="code-line">最初のトークン生成までの時間が最大30.85倍高速化</li>
<li data-line="62" class="code-line">この高速化を、回答の精度（パープレキシティ）を全く損なうことなく達成</li>
<li data-line="63" class="code-line">従来の高速化手法（CEPE）と比較しても3.75倍の速度向上を実現</li>
<li data-line="64" class="code-line">LLMが一度に扱えるコンテキストサイズを実質的に16倍に拡張可能に</li>
</ul>
<h1 id="%E3%81%BE%E3%81%A8%E3%82%81" data-line="66" class="code-line">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> まとめ</h1>
<p data-line="67" class="code-line">弊社では普段、エンタープライズ企業向けにRAGサービスを提供しています。入力できる文字数（コンテキスト）の長さは、RAGの性能に直結します<sup class="footnote-ref"><a href="#fn-62c2-4" id="fnref-62c2-4">[4]</a></sup>。特に大企業ほど、一つの業務に対してあらゆる観点を考慮してRAGの回答を作る必要があり、性能を上げるために、入力できる文字数は、多ければ多いほどいいです。</p>
<p data-line="69" class="code-line">この手法に限らず、入力文字数と回答速度/精度のトレードオフを解決するための手法は、今後も多く出てきそうです。</p>
<p data-line="71" class="code-line">※ちなみにこの手法、自前のエンコーダ学習、LLMの継続事前学習が必要だったり、かなりGPUが必要です（なのですみません、僕もまだ、手元で試せていません）。ただ、個人的にはこの手法、1-2年後のRAGでは当たり前になると考えています<sup class="footnote-ref"><a href="#fn-62c2-5" id="fnref-62c2-5">[5]</a></sup>。</p>
<p data-line="73" class="code-line">ぜひ、みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスは<a href="https://chatsense.jp/" target="_blank" rel="nofollow noopener noreferrer">こちら</a>。</p>
<section class="footnotes">
<span class="footnotes-title">脚注</span>
<ol class="footnotes-list">
<li id="fn-62c2-1" class="footnote-item">
<p data-line="75" class="code-line"><a href="https://arxiv.org/abs/2509.01092" target="_blank" rel="nofollow noopener noreferrer">"REFRAG: Rethinking RAG based Decoding", Lin et al.</a> <a href="#fnref-62c2-1" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-62c2-2" class="footnote-item">
<p data-line="76" class="code-line"><a href="https://www.bloomberg.co.jp/news/articles/2025-06-18/SY0WKMT0G1KW00" target="_blank" rel="nofollow noopener noreferrer">https://www.bloomberg.co.jp/news/articles/2025-06-18/SY0WKMT0G1KW00</a> <a href="#fnref-62c2-2" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-62c2-3" class="footnote-item">
<p data-line="77" class="code-line">入力が長いほど、回答開始までの速度（Time to first token）は遅くなります。<a href="https://developer.nvidia.com/blog/llm-benchmarking-fundamental-concepts" target="_blank" rel="nofollow noopener noreferrer">参考</a> <a href="#fnref-62c2-3" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-62c2-4" class="footnote-item">
<p data-line="79" class="code-line">参考（<a href="https://zenn.dev/knowledgesense/articles/591f560b3a6151#%E3%82%B3%E3%83%B3%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E5%A2%97%E5%A4%A7" target="_blank">リンク</a>） <a href="#fnref-62c2-4" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-62c2-5" class="footnote-item">
<p data-line="80" class="code-line">そう考える根拠は、ここに書くと散らかってしまうので書きませんが、例えばコストについては、富豪企業が「エンコーダと、オープンなLLMを調整した差分」をオープンなライセンスで公開してくれる、ということがあり得ます。また、肝心の「オープンなLLM」自体も、日々急激に性能向上しています。 <a href="#fnref-62c2-5" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>


フリーテーマ

RAGを30倍速くするMetaの新技術「REFRAG」

Discussion