<h1 id="overview" data-line="0" class="code-line">
<a class="header-anchor-link" href="#overview" aria-hidden="true"></a> Overview</h1>
<p data-line="1" class="code-line">train paramter V[-1.0,1.0] for rounding up or down.<br>
<img src="https://storage.googleapis.com/zenn-user-upload/5f76a86747f8-20250615.png" loading="lazy" class="md-img"></p>
<h1 id="signsgd" data-line="4" class="code-line">
<a class="header-anchor-link" href="#signsgd" aria-hidden="true"></a> SignSGD</h1>
<p data-line="5" class="code-line">SignSGD limit gradient to -1 or 1 with sign function<br>
<img src="https://storage.googleapis.com/zenn-user-upload/b636f3f33f19-20250615.png" loading="lazy" class="md-img"></p>
<ol data-line="8" class="code-line">
<li data-line="8" class="code-line">
<p data-line="8" class="code-line">can be defined lr based on total_steps and up-down range(=1.0)</p>
<blockquote data-line="9" class="code-line">
<p data-line="9" class="code-line">total_gradient = lr * total_steps(arbitrary)<br>
= abs[-1.0,1.0](down and up) = 1.0</p>
</blockquote>
<p data-line="13" class="code-line">ex) if gradient is all positive or negative for all steps</p>
<div class="code-block-container"><pre><code class="code-line" data-line="14">all_positive: round(1.1 + 1.0) = 2 = up
all_negative: round(1.1 - 1.0) = 1 = down
</code></pre></div>
</li>
<li data-line="19" class="code-line">
<p data-line="19" class="code-line">not sensitive to gradient magnitude since the gradient will be -1 or 1</p>
</li>
</ol>
<h1 id="reference" data-line="21" class="code-line">
<a class="header-anchor-link" href="#reference" aria-hidden="true"></a> Reference</h1>
<p data-line="22" class="code-line"><a href="https://arxiv.org/pdf/2309.05516" target="_blank" rel="nofollow noopener noreferrer">Optimize Weight Rounding via Signed Gradient Descent for the<br>
Quantization of LLMs</a></p>


[Quantization] AutoRound

Overview

SignSGD

Reference

Discussion