<h2 id="%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" aria-hidden="true"></a> はじめに</h2>
PyTorchで開発をしていると、テンソルデータをバイト列に変換（シリアライズ）して保存や転送を行う必要に迫られることがあります。本記事では、一般的な3つのシリアライズ方法について、その特徴とパフォーマンスを解説します。
<h2 id="%E3%82%B7%E3%83%AA%E3%82%A2%E3%83%A9%E3%82%A4%E3%82%BA%E3%81%AE3%E3%81%A4%E3%81%AE%E6%96%B9%E6%B3%95" data-line="4" class="code-line">
<a class="header-anchor-link" href="#%E3%82%B7%E3%83%AA%E3%82%A2%E3%83%A9%E3%82%A4%E3%82%BA%E3%81%AE3%E3%81%A4%E3%81%AE%E6%96%B9%E6%B3%95" aria-hidden="true"></a> シリアライズの3つの方法</h2>
<h3 id="1.-numpy().tobytes()" data-line="6" class="code-line">
<a class="header-anchor-link" href="#1.-numpy().tobytes()" aria-hidden="true"></a> 1. <code>numpy().tobytes()</code>
</h3>
<div class="code-block-container"><pre class="language-py"><code class="language-py code-line" data-line="7">def tensor_to_buffer_numpy(tensor: torch.Tensor) -&gt; bytes:
 if tensor.device.type != "cpu":
 tensor = tensor.cpu()
 return tensor.numpy().tobytes()

def buffer_to_tensor_numpy(buffer: bytes, shape: tuple[int, ...], dtype: np.dtype) -&gt; torch.Tensor:
 array = np.frombuffer(buffer, dtype=dtype).copy()
 return torch.from_numpy(array.reshape(shape))
</code></pre></div><ul data-line="17" class="code-line">
<li data-line="17" class="code-line">NumPy配列を経由してバイト列に変換する方法</li>
<li data-line="18" class="code-line">メモリコピーが発生するが、NumPyとの相互運用性が高い</li>
<li data-line="19" class="code-line">シンプルで理解しやすい実装</li>
</ul>
<h3 id="2.-data_ptr()" data-line="21" class="code-line">
<a class="header-anchor-link" href="#2.-data_ptr()" aria-hidden="true"></a> 2. <code>data_ptr()</code>
</h3>
<div class="code-block-container"><pre class="language-py"><code class="language-py code-line" data-line="23">def tensor_to_buffer_ptr(tensor: torch.Tensor) -&gt; bytes:
 if tensor.device.type != "cpu":
 tensor = tensor.cpu()
 nbytes = tensor.nelement() * tensor.element_size()
 ptr = tensor.data_ptr()
 return ctypes.string_at(ptr, nbytes)

def buffer_to_tensor_ptr(buffer: bytes, shape: tuple[int, ...], dtype: torch.dtype) -&gt; torch.Tensor:
 return torch.frombuffer(bytearray(buffer), dtype=dtype).reshape(shape)
</code></pre></div><ul data-line="34" class="code-line">
<li data-line="34" class="code-line">テンソルの生のメモリポインタを直接アクセスする方法</li>
<li data-line="35" class="code-line">最小限のメモリコピーで高速な変換が可能</li>
<li data-line="36" class="code-line">低レベルな操作のため、注意深い実装が必要</li>
</ul>
<h3 id="3.-torch.save" data-line="38" class="code-line">
<a class="header-anchor-link" href="#3.-torch.save" aria-hidden="true"></a> 3. <code>torch.save</code>
</h3>
<div class="code-block-container"><pre class="language-py"><code class="language-py code-line" data-line="39">def tensor_to_buffer_save(tensor: torch.Tensor) -&gt; bytes:
 buffer = BytesIO()
 torch.save(tensor, buffer)
 return buffer.getvalue()

def buffer_to_tensor_save(buffer: bytes) -&gt; torch.Tensor:
 return torch.load(BytesIO(buffer))
</code></pre></div><ul data-line="49" class="code-line">
<li data-line="49" class="code-line">PyTorch標準のシリアライズ機能を使用</li>
<li data-line="50" class="code-line">メタデータ（dtype、device等）も含めて保存可能</li>
<li data-line="51" class="code-line">Pickle形式での保存となるため、セキュリティに注意が必要</li>
</ul>
<h2 id="%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF%E7%B5%90%E6%9E%9C%E3%81%A8%E8%80%83%E5%AF%9F" data-line="53" class="code-line">
<a class="header-anchor-link" href="#%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF%E7%B5%90%E6%9E%9C%E3%81%A8%E8%80%83%E5%AF%9F" aria-hidden="true"></a> ベンチマーク結果と考察</h2>
<h3 id="%E3%83%86%E3%83%B3%E3%82%BD%E3%83%AB%E3%82%B5%E3%82%A4%E3%82%BA%E5%88%A5%E3%82%B7%E3%83%AA%E3%82%A2%E3%83%A9%E3%82%A4%E3%82%BA%E6%80%A7%E8%83%BD%EF%BC%88mb%2Fs%EF%BC%89" data-line="55" class="code-line">
<a class="header-anchor-link" href="#%E3%83%86%E3%83%B3%E3%82%BD%E3%83%AB%E3%82%B5%E3%82%A4%E3%82%BA%E5%88%A5%E3%82%B7%E3%83%AA%E3%82%A2%E3%83%A9%E3%82%A4%E3%82%BA%E6%80%A7%E8%83%BD%EF%BC%88mb%2Fs%EF%BC%89" aria-hidden="true"></a> テンソルサイズ別シリアライズ性能（MB/s）</h3>
<table data-line="57" class="code-line">
<thead data-line="57" class="code-line">
<tr data-line="57" class="code-line">
<th>テンソルサイズ</th>
<th>numpy().tobytes()</th>
<th>data_ptr()</th>
<th>torch.save</th>
</tr>
</thead>
<tbody data-line="59" class="code-line">
<tr data-line="59" class="code-line">
<td>100x1</td>
<td>724.3</td>
<td>1,305.5</td>
<td>18.8</td>
</tr>
<tr data-line="60" class="code-line">
<td>100x100</td>
<td>42,424.0</td>
<td>59,640.4</td>
<td>1,315.9</td>
</tr>
<tr data-line="61" class="code-line">
<td>5000x5000</td>
<td>20,446.0</td>
<td>20,163.4</td>
<td>3,865.6</td>
</tr>
</tbody>
</table>
小規模テンソル（100x1）での処理では、data_ptr()メソッドが約1.3GB/sと最も高速で、numpy().tobytes()の約724MB/sを大きく上回っています。 
一方、torch.saveは約19MB/sと著しく低速です。 
しかし、テンソルサイズが大きくなると（5000x5000）、numpy().tobytes()とdata_ptr()はともに約20GB/sとほぼ同等の性能を示し、torch.saveも約4GB/sまで性能が向上します。
<h3 id="%E3%83%91%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%B3%E3%82%B9%E6%AF%94%E8%BC%83" data-line="68" class="code-line">
<a class="header-anchor-link" href="#%E3%83%91%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%B3%E3%82%B9%E6%AF%94%E8%BC%83" aria-hidden="true"></a> パフォーマンス比較</h3>
分析から得られた主な知見は以下の通りです：
<ol data-line="72" class="code-line">
<li data-line="72" class="code-line">
テンソルサイズによる性能特性
<ul data-line="73" class="code-line">
<li data-line="73" class="code-line">小規模テンソル（100要素以下）では<code>data_ptr()</code>が最も高速で、<code>torch.save</code>は著しく遅い</li>
<li data-line="74" class="code-line">大規模テンソル（1000x1000以上）では<code>numpy().tobytes()</code>と<code>data_ptr()</code>の性能差が縮小</li>
<li data-line="75" class="code-line">メモリ使用量は<code>numpy().tobytes()</code>と<code>data_ptr()</code>が同等で、<code>torch.save</code>は小規模テンソルでオーバーヘッドが大きい</li>
</ul>
</li>
<li data-line="77" class="code-line">
実用的な選択基準
<ul data-line="78" class="code-line">
<li data-line="78" class="code-line">単純なデータ転送の場合は<code>data_ptr()</code>が最適</li>
<li data-line="79" class="code-line">NumPyとの相互運用が必要な場合は<code>numpy().tobytes()</code>
</li>
<li data-line="80" class="code-line">メタデータの保存が重要な場合は<code>torch.save</code>
</li>
</ul>
</li>
<li data-line="82" class="code-line">
考慮すべき注意点
<ul data-line="83" class="code-line">
<li data-line="83" class="code-line">すべての方法でCPUテンソルへの変換が必要</li>
<li data-line="84" class="code-line">
<code>data_ptr()</code>は低レベル操作のため、メモリ管理に注意が必要</li>
<li data-line="85" class="code-line">
<code>torch.save</code>はPickleを使用するため、信頼できないソースからのデータ読み込みには注意</li>
</ul>
</li>
</ol>
<h2 id="%E3%81%BE%E3%81%A8%E3%82%81" data-line="87" class="code-line">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> まとめ</h2>
本記事では、PyTorchテンソルのシリアライズについて3つの方法を比較しました。実際の使用時には、以下の選択基準を推奨します：
<ul data-line="91" class="code-line">
<li data-line="91" class="code-line">高速な単純転送が必要な場合：<code>data_ptr()</code>
</li>
<li data-line="92" class="code-line">NumPyとの相互運用性が重要な場合：<code>numpy().tobytes()</code>
</li>
<li data-line="93" class="code-line">メタデータの保存が必要な場合：<code>torch.save</code>
</li>
</ul>
<h2 id="%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE" data-line="95" class="code-line">
<a class="header-anchor-link" href="#%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE" aria-hidden="true"></a> 参考文献</h2>
<ol data-line="97" class="code-line">
<li data-line="97" class="code-line"><a href="https://pytorch.org/docs/stable/tensors.html" target="_blank" rel="nofollow noopener noreferrer">PyTorchのTensorについて</a></li>
<li data-line="98" class="code-line"><a href="https://numpy.org/doc/stable/reference/generated/numpy.ndarray.tobytes.html" target="_blank" rel="nofollow noopener noreferrer">NumPyのtobytesについて</a></li>
<li data-line="99" class="code-line"><a href="https://docs.python.org/3/library/ctypes.html" target="_blank" rel="nofollow noopener noreferrer">Python ctypes</a></li>
</ol>
<h1 id="%E3%82%BD%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%89%E3%81%A8raw-result" data-line="102" class="code-line">
<a class="header-anchor-link" href="#%E3%82%BD%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%89%E3%81%A8raw-result" aria-hidden="true"></a> ソースコードとraw result</h1>
完全なソースコードとベンチマーク結果はこちらです。
<iframe id="zenn-embedded__0b10cf6c660f4" src="https://embed.zenn.studio/gist#zenn-embedded__0b10cf6c660f4" data-content="https%3A%2F%2Fgist.github.com%2FGeson-anko%2F6cf73a9cb56fe473718cdd11e976e335" frameborder="0" scrolling="no" loading="lazy"></iframe>

PyTorchのテンソルをシリアライズする3つの方法とベンチマーク分析

テンソルサイズ別シリアライズ性能（MB/s）

python

Discussion