meshidenn

<h1 id="dft%E4%BD%9C%E3%82%8D%E3%81%86%E3%81%A8%E3%81%97%E3%81%A6%E5%A4%B1%E6%95%97%E3%81%97%E3%81%9F" data-line="0" class="code-line">
<a class="header-anchor-link" href="#dft%E4%BD%9C%E3%82%8D%E3%81%86%E3%81%A8%E3%81%97%E3%81%A6%E5%A4%B1%E6%95%97%E3%81%97%E3%81%9F" aria-hidden="true"></a> DFT作ろうとして失敗した</h1>
<ul data-line="1" class="code-line">
<li data-line="1" class="code-line">どなたかの<a href="https://github.com/huggingface/trl/pull/3960/files" target="_blank" rel="nofollow noopener noreferrer">実装</a>
</li>
<li data-line="2" class="code-line">自分の<a href="https://github.com/llmcompe2025-team-semishigure/trl_simple_grpo/blob/main/libs/train_util.py" target="_blank" rel="nofollow noopener noreferrer">実装</a>
</li>
</ul>
<h2 id="%E4%BD%95%E3%82%92%E3%81%BE%E3%81%A1%E3%81%8C%E3%81%88%E3%81%A6%E3%81%84%E3%81%9F%E3%81%8B%E3%80%82" data-line="4" class="code-line">
<a class="header-anchor-link" href="#%E4%BD%95%E3%82%92%E3%81%BE%E3%81%A1%E3%81%8C%E3%81%88%E3%81%A6%E3%81%84%E3%81%9F%E3%81%8B%E3%80%82" aria-hidden="true"></a> 何をまちがえていたか。</h2>
<ul data-line="5" class="code-line">
<li data-line="5" class="code-line">gradient accumlationに対応できてなかった。
<ul data-line="6" class="code-line">
<li data-line="6" class="code-line">num_items_in_batchでlossを割るべきだった
<ul data-line="7" class="code-line">
<li data-line="7" class="code-line"><code>loss = loss.sum() / num_items_in_batch</code></li>
</ul>
</li>
<li data-line="8" class="code-line">自分は、もともとの実装通り <code>num_activate_elements</code>で割っている</li>
</ul>
</li>
<li data-line="9" class="code-line">となると、もともとのSFTって、gradient accumlationあっているのか？？
<ul data-line="10" class="code-line">
<li data-line="10" class="code-line">なぜなら、SFTが
<ul data-line="11" class="code-line">
<li data-line="11" class="code-line"><a href="https://github.com/huggingface/trl/blob/2d597e4a188878215a588cb6e8020726e1b1e6be/trl/trainer/sft_trainer.py#L1041-L1042" target="_blank" rel="nofollow noopener noreferrer">SFT-TrainerはTrainerのcoupute_lossをつかっている</a></li>
<li data-line="12" class="code-line">Trainerのcompute_lossはcoupute_loss_funcを入れない限り、<a href="https://github.com/huggingface/transformers/blob/91393fe4cc3266a05bc0d129e34ff5f761bb46e2/src/transformers/trainer.py#L4112-L4117" target="_blank" rel="nofollow noopener noreferrer">CausalLMではLabelSmootherを使う</a>
</li>
<li data-line="13" class="code-line">LabelSmootherは、num_items_in_batchを受け取らない。</li>
</ul>
</li>
</ul>
</li>
</ul>