<h2 id="%E4%BA%8B%E8%B1%A1" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E4%BA%8B%E8%B1%A1" aria-hidden="true"></a> 事象</h2>
<p data-line="2" class="code-line">Aurora PostgreSQL と Amazon Redshift のゼロ ETL 統合によるデータ同期中、一部テーブルで以下のエラーメッセージが出力し、初回レプリケーションが失敗しました。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="4">Replicating initial data for table "&lt;schema&gt;"."&lt;table&gt;" failed. 
Column '&lt;column&gt;' length XXXX is longer than in the table YYYY. 
Check the data that might be causing issues. If the issue persists, contact AWS Support.
</code></pre></div><p data-line="10" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/8ef8d16de86b-20250329.png" loading="lazy" class="md-img"></p>
<h2 id="%E5%8E%9F%E5%9B%A0" data-line="13" class="code-line">
<a class="header-anchor-link" href="#%E5%8E%9F%E5%9B%A0" aria-hidden="true"></a> 原因</h2>
<p data-line="15" class="code-line">Aurora PostgreSQL の VARCHAR(n) とRedshift の VARCHAR(n) の定義の違いが原因でした。</p>
<ul data-line="17" class="code-line">
<li data-line="17" class="code-line"><strong>Aurora の <code>VARCHAR(n)</code> = n 文字</strong></li>
<li data-line="18" class="code-line"><strong>Redshift の <code>VARCHAR(n)</code> = n バイト</strong></li>
</ul>
<p data-line="20" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__9b2448a7ba095" src="https://embed.zenn.studio/card#zenn-embedded__9b2448a7ba095" data-content="https%3A%2F%2Fwww.postgresql.jp%2Fdocs%2F9.4%2Fdatatype-character.html" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://www.postgresql.jp/docs/9.4/datatype-character.html" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://www.postgresql.jp/docs/9.4/datatype-character.html</a></p>
<blockquote data-line="21" class="code-line">
<p data-line="21" class="code-line">haracter varying(n)とcharacter(n)です。 ここでnは正の整数です。 これらのデータ型は2つともn文字長（バイト数ではなく）までの文字列を保存できます。</p>
</blockquote>
<p data-line="23" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__360c3645c487e" src="https://embed.zenn.studio/card#zenn-embedded__360c3645c487e" data-content="https%3A%2F%2Fdocs.aws.amazon.com%2Fja_jp%2Fredshift%2Flatest%2Fdg%2Fr_Character_types.html%23r_Character_types-varchar-or-character-varying" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/r_Character_types.html#r_Character_types-varchar-or-character-varying" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/r_Character_types.html#r_Character_types-varchar-or-character-varying</a></p>
<blockquote data-line="24" class="code-line">
<p data-line="24" class="code-line">VARCHAR(120) 列は、最大で 120 個のシングルバイト文字、60 個の 2 バイト文字、40 個の 3 バイト文字、または 30 個の 4 バイト文字で構成されます。</p>
</blockquote>
<p data-line="26" class="code-line">そのため、日本語など 1 文字あたり 2～3 バイト以上が必要なマルチバイト文字を使っている場合、Aurora 側での文字数が Redshift では実際のバイト長を上回ってしまい、エラーとなっていました。</p>
<h2 id="%E5%AF%BE%E7%AD%96" data-line="28" class="code-line">
<a class="header-anchor-link" href="#%E5%AF%BE%E7%AD%96" aria-hidden="true"></a> 対策</h2>
<p data-line="30" class="code-line">この問題を回避する方法として、主に以下の 2 つが考えられます。</p>
<h3 id="1.-aurora-%E5%81%B4%E3%81%AE%E3%82%AB%E3%83%A9%E3%83%A0%E5%AE%9A%E7%BE%A9%E3%82%92%E5%BA%83%E3%81%92%E3%82%8B" data-line="32" class="code-line">
<a class="header-anchor-link" href="#1.-aurora-%E5%81%B4%E3%81%AE%E3%82%AB%E3%83%A9%E3%83%A0%E5%AE%9A%E7%BE%A9%E3%82%92%E5%BA%83%E3%81%92%E3%82%8B" aria-hidden="true"></a> 1. Aurora 側のカラム定義を広げる</h3>
<p data-line="34" class="code-line">全文の連携が必要な場合、<code>VARCHAR(1024)</code> や <code>TEXT</code> を使用して<strong>Aurora 側のカラム長を十分に確保</strong>することで対応が可能になります。<br>
ただし、既存のアプリケーションのDBカラムの更新となるため、事前に影響範囲の検証が必要です。</p>
<h3 id="2.-redshift-%E5%81%B4%E3%81%A7-truncatecolumns-%3D-true-%E3%82%92%E8%A8%AD%E5%AE%9A%E3%81%99%E3%82%8B" data-line="37" class="code-line">
<a class="header-anchor-link" href="#2.-redshift-%E5%81%B4%E3%81%A7-truncatecolumns-%3D-true-%E3%82%92%E8%A8%AD%E5%AE%9A%E3%81%99%E3%82%8B" aria-hidden="true"></a> 2. Redshift 側で <code>TRUNCATECOLUMNS = TRUE</code> を設定する</h3>
<p data-line="39" class="code-line">もし「一部のデータが切り捨てられても構わない」要件であれば、2025年1月に導入されたTRUNCATECOLUMNSを有効化することで対応可能になります。</p>
<div class="code-block-container"><pre class="language-sql"><code class="language-sql code-line" data-line="41"><span class="token keyword">ALTER</span> <span class="token keyword">DATABASE</span> <span class="token operator">&lt;</span>integration_db_name<span class="token operator">&gt;</span> INTEGRATION <span class="token keyword">SET</span> TRUNCATECOLUMNS <span class="token operator">=</span> <span class="token boolean">TRUE</span><span class="token punctuation">;</span>
<span class="token keyword">ALTER</span> <span class="token keyword">DATABASE</span> <span class="token operator">&lt;</span>integration_db_name<span class="token operator">&gt;</span> INTEGRATION REFRESH <span class="token keyword">ALL</span> <span class="token keyword">TABLES</span><span class="token punctuation">;</span>
</code></pre></div><p data-line="46" class="code-line">この設定によりAurora 側で格納された長大な文字列が Redshift 側でオーバーした場合に、自動的にデータが切り捨てられます。エラーは回避できますが、<strong>データ欠損リスク</strong>がある点に注意が必要です。</p>
<ul data-line="47" class="code-line">
<li data-line="47" class="code-line">
<p data-line="47" class="code-line"><a href="https://aws.amazon.com/jp/about-aws/whats-new/2025/01/amazon-redshift-sql-features-zero-etl-integrations/" target="_blank" rel="nofollow noopener noreferrer">Amazon Redshift がゼロ ETL 統合用の新しい SQL 機能を導入</a></p>
</li>
<li data-line="50" class="code-line">
<p data-line="50" class="code-line"><a href="https://docs.aws.amazon.com/redshift/latest/dg/r_ALTER_DATABASE.html" target="_blank" rel="nofollow noopener noreferrer">Redshift 公式ドキュメント: ALTER DATABASE</a></p>
</li>
</ul>
<h2 id="%E3%81%BE%E3%81%A8%E3%82%81" data-line="53" class="code-line">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> まとめ</h2>
<p data-line="55" class="code-line">まだ新しい機能のため、TRUNCATECOLUMNSのような新機能が続々と発表され、リアルタイムに進化を感じられるのは楽しいですね！本記事がどなたかの役に立てば幸いです。</p>


Redshift と Aurora PostgreSQL のゼロ ETL 統合時に発生したカラム長によるエラーへの対応

1. Aurora 側のカラム定義を広げる

2. Redshift 側で TRUNCATECOLUMNS = TRUE を設定する

Discussion