<p data-line="0" class="code-line">カスタマーサクセスマネージャー見習いの玉井です。</p>
<p data-line="2" class="code-line">SQLiteのデータ分析版こと<a href="https://duckdb.org/" target="_blank" rel="nofollow noopener noreferrer">DuckDB</a>ですが、その使いやすさから、データ分析界隈（？）では結構人気が出てきている印象です。</p>
<p data-line="4" class="code-line">今回は、そんな便利なDuckDBにTableauを接続してみました。</p>
<h2 id="duckdb%E8%87%AA%E4%BD%93%E3%81%AE%E5%9F%BA%E6%9C%AC%E6%93%8D%E4%BD%9C%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" data-line="6" class="code-line">
<a class="header-anchor-link" href="#duckdb%E8%87%AA%E4%BD%93%E3%81%AE%E5%9F%BA%E6%9C%AC%E6%93%8D%E4%BD%9C%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" aria-hidden="true"></a> DuckDB自体の基本操作について</h2>
<p data-line="7" class="code-line">以下をご覧ください。</p>
<p data-line="9" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__9e6e96a231ed1" src="https://embed.zenn.studio/card#zenn-embedded__9e6e96a231ed1" data-content="https%3A%2F%2Fdev.classmethod.jp%2Farticles%2Fmotherduck-duckdb-tutorial-for-beginners%2F" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://dev.classmethod.jp/articles/motherduck-duckdb-tutorial-for-beginners/" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://dev.classmethod.jp/articles/motherduck-duckdb-tutorial-for-beginners/</a></p>
<h2 id="%E3%82%84%E3%81%A3%E3%81%A6%E3%81%BF%E3%81%9F" data-line="11" class="code-line">
<a class="header-anchor-link" href="#%E3%82%84%E3%81%A3%E3%81%A6%E3%81%BF%E3%81%9F" aria-hidden="true"></a> やってみた</h2>
<h3 id="%E7%92%B0%E5%A2%83" data-line="12" class="code-line">
<a class="header-anchor-link" href="#%E7%92%B0%E5%A2%83" aria-hidden="true"></a> 環境</h3>
<ul data-line="13" class="code-line">
<li data-line="13" class="code-line">macOS Sequoia 15.2</li>
<li data-line="14" class="code-line">DuckDB 1.1.3</li>
<li data-line="15" class="code-line">Tableau Desktop 2024.3.2 (Apple Silicon)</li>
</ul>
<h3 id="tableau%E5%81%B4%E3%81%AE%E6%BA%96%E5%82%99" data-line="17" class="code-line">
<a class="header-anchor-link" href="#tableau%E5%81%B4%E3%81%AE%E6%BA%96%E5%82%99" aria-hidden="true"></a> Tableau側の準備</h3>
<p data-line="18" class="code-line">Tableau DesktopからDuckDBに接続するためには、ドライバーの準備が必要です。基本的には以下に記載の通りに作業すれば問題ありません。</p>
<p data-line="20" class="code-line"><a href="https://github.com/MotherDuck-Open-Source/duckdb-tableau-connector" target="_blank" rel="nofollow noopener noreferrer">https://duckdb.org/docs/guides/data_viewers/tableau.html</a></p>
<p data-line="22" class="code-line">以下がちゃんとした（？）公式ドキュメントですが、接続方法については、ちょっと内容が古いままです。</p>
<p data-line="24" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__9db4290c52c71" src="https://embed.zenn.studio/card#zenn-embedded__9db4290c52c71" data-content="https%3A%2F%2Fduckdb.org%2Fdocs%2Fguides%2Fdata_viewers%2Ftableau.html" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://duckdb.org/docs/guides/data_viewers/tableau.html" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://duckdb.org/docs/guides/data_viewers/tableau.html</a></p>
<p data-line="26" class="code-line">上記ドキュメントには接続方法が2通り書かれていますが、当記事ではDuckDB側が推奨している<a href="https://help.tableau.com/current/pro/desktop/ja-jp/examples_connector_sdk.htm" target="_blank" rel="nofollow noopener noreferrer">taco</a>コネクターを使った方法で行きます。</p>
<h4 id="1.-duckdb-jdbc-driver%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB" data-line="28" class="code-line">
<a class="header-anchor-link" href="#1.-duckdb-jdbc-driver%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB" aria-hidden="true"></a> 1. DuckDB JDBC driverのインストール</h4>
<p data-line="30" class="code-line">まず、<a href="https://repo1.maven.org/maven2/org/duckdb/duckdb_jdbc/" target="_blank" rel="nofollow noopener noreferrer">こちら</a>からJDBCドライバーをダウンロードし、<code>~/Library/Tableau/Drivers/</code>に配置します（色々ありますが、DLするのは<code>.jar</code>ファイルだけでOKです。）</p>
<h4 id="2.-duckdb%E7%94%A8%E3%81%AEtaco%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB" data-line="32" class="code-line">
<a class="header-anchor-link" href="#2.-duckdb%E7%94%A8%E3%81%AEtaco%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB" aria-hidden="true"></a> 2. DuckDB用のtacoファイルのインストール</h4>
<p data-line="34" class="code-line">次に、<a href="https://github.com/MotherDuck-Open-Source/duckdb-tableau-connector/releases" target="_blank" rel="nofollow noopener noreferrer">こちら</a>からtacoファイルをダウンロードし、<code>/Users/(ユーザー名)/Documents/マイ\ Tableau\ リポ ジトリ/コネクタ/</code>に配置します（なんかパスがガッタガタですが、日本語環境だと、コピペするとこうなります…）。</p>
<p data-line="36" class="code-line">以上の2つのファイルを配置するだけで、DuckDBへの接続準備は完了します。Tableau Desktopの接続画面で以下が表示されていれば成功です。</p>
<p data-line="38" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/107d5d632c00-20250121.jpg" loading="lazy" class="md-img"></p>
<h3 id="in-memory-database%E3%81%A7%E3%81%AE%E6%8E%A5%E7%B6%9A" data-line="40" class="code-line">
<a class="header-anchor-link" href="#in-memory-database%E3%81%A7%E3%81%AE%E6%8E%A5%E7%B6%9A" aria-hidden="true"></a> In-Memory Databaseでの接続</h3>
<p data-line="42" class="code-line">デフォルトでは、DuckDBはインメモリで処理を行うようになっており、扱うデータは一時的にしか保存しない（=永続しない）ようになっています。まずはそのモードでTableauから接続してみます。</p>
<p data-line="44" class="code-line">Tableau Desktopの接続画面から「MotherDuckによるDuckDB」を選択し、次に出てきた画面で「In-memory database」を選びます。</p>
<p data-line="46" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/8c76a1180e42-20250121.jpg" loading="lazy" class="md-img"></p>
<p data-line="48" class="code-line">すると、データベースとスキーマだけ選べる状態になります。</p>
<p data-line="50" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/18dc406aeb5d-20250121.jpg" loading="lazy" class="md-img"></p>
<p data-line="52" class="code-line">「え、こっからどうすんの？」って感じですが、In-memory databaseモードでは、必ず初期SQLを使用する必要があります。このモードでは、前述したデフォルトの仕様と同様で、データを持たずに処理を行うため、「そこにあるデータを選ぶ」のではなく、「対象のデータに対するアクセスをSQLで書く」というものになっています。</p>
<p data-line="54" class="code-line">例えば、以下のSQLを初期SQLとして使ってみます。</p>
<div class="code-block-container"><pre class="language-sql"><code class="language-sql code-line" data-line="56"><span class="token keyword">CREATE</span> <span class="token keyword">VIEW</span> jaffle_shop_orders <span class="token keyword">AS</span> <span class="token punctuation">(</span>
    <span class="token keyword">FROM</span> read_csv_auto<span class="token punctuation">(</span><span class="token string">'s3://dbt-tutorial-public/jaffle_shop_orders.csv'</span><span class="token punctuation">)</span>
<span class="token punctuation">)</span>
</code></pre></div><p data-line="62" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/61250712c56d-20250122.jpg" loading="lazy" class="md-img"></p>
<p data-line="64" class="code-line">データベースをmemory、スキーマにmainを選ぶと、テーブルが出てきてデータがプレビュれました。</p>
<p data-line="66" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/c951109af088-20250122.jpg" loading="lazy" class="md-img"></p>
<p data-line="68" class="code-line">当然、Vizれます。</p>
<p data-line="70" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/cab9722e8f3c-20250122.jpg" loading="lazy" class="md-img"></p>
<p data-line="72" class="code-line">初期SQLで、<a href="https://docs.getdbt.com/guides/snowflake?step=3" target="_blank" rel="nofollow noopener noreferrer">dbt社が提供しているチュートリアル用のデータ</a>（パブリックアクセスなので誰でも読み込めます）を読み込み、VIEWとして一時的にメモリに展開していると思うのですが、それをTableau Desktopで扱えるようになっています。</p>
<p data-line="74" class="code-line">何かフツーにここまで来ましたが、これDuckDBだからこそできてるんですよね。</p>
<p data-line="76" class="code-line">そもそも、DuckDBは多種多様なデータに対してSQLを実行できるのですが、例えばS3のデータを分析したいとなったら、S3のURLをFROM句に指定すると、別途ダウンロード等の作業は一切せずに、直接SQLを実行することができます。そこにTableauをつなぐことで、クラウドストレージ上のデータに対して、即座にTableauでビジュアライズできるのはかなり強いのではないでしょうか。</p>
<p data-line="78" class="code-line">ちなみに、「ダッシュボードとして保存できるのか？」という疑問が湧いてきますが、普通に保存・再読込できました。初回で開くときに初期SQLを実行してもよいかの警告ダイアログは出ますが、それをOKすればいけました。インメモリの処理ということで、Tableau Desktopを閉じた時点でデータへの接続は無くなっているはずですが、初期SQLを仕込んでいるので、ワークブックを開くたびに、DuckDBの初期SQLが走ってデータを取りに行っている感じでしょうか（ダッシュボード自体の設定は普通にワークブックに保存されているため、問題なくダッシュボード自体が再現できる）。</p>
<h3 id="local%E3%81%A7%E3%81%AE%E6%8E%A5%E7%B6%9A" data-line="80" class="code-line">
<a class="header-anchor-link" href="#local%E3%81%A7%E3%81%AE%E6%8E%A5%E7%B6%9A" aria-hidden="true"></a> Localでの接続</h3>
<p data-line="81" class="code-line">今度はLocalモードを試してみたいと思います。読んで字の如く、ローカルにあるデータに接続できます（逆に言うと、ローカルに無いデータをDuckDB越しに分析したい場合は、In-Memory Databaseで初期SQLを仕込んでの接続になるという使い分けになりそうです）。</p>
<p data-line="83" class="code-line">今回使用するデータですが、せっかくなのでDuckDBの機能で生成するデータにしたいと思います。</p>
<p data-line="85" class="code-line">DuckDBは基本的にインメモリ…処理を終えるとデータも消えるという仕様ですが、当然ながらデータの永続化という機能もございます。</p>
<p data-line="87" class="code-line">DuckDB起動時にdbファイルを指定することで、作成したテーブルをローカルに永続化（保存）することができます。</p>
<div class="code-block-container"><pre class="language-shell"><code class="language-shell code-line" data-line="89">$ duckdb jaffle_shop.db
v1.1.3 19864453f7
Enter <span class="token string">".help"</span> <span class="token keyword">for</span> usage hints.
D CREATE TABLE jaffle_shop AS <span class="token punctuation">(</span>
      SELECT *
      FROM read_csv_auto<span class="token punctuation">(</span><span class="token string">'s3://dbt-tutorial-public/jaffle_shop_customers.csv'</span><span class="token punctuation">)</span> AS cs
      JOIN read_csv_auto<span class="token punctuation">(</span><span class="token string">'s3://dbt-tutorial-public/jaffle_shop_orders.csv'</span><span class="token punctuation">)</span> AS od
      ON cs.id <span class="token operator">=</span> od.user_id
  <span class="token punctuation">)</span><span class="token punctuation">;</span>
D SHOW TABLES<span class="token punctuation">;</span>
┌─────────────┐
│    name     │
│   varchar   │
├─────────────┤
│ jaffle_shop │
└─────────────┘
</code></pre></div><p data-line="108" class="code-line">この<code>jaffle_shop.db</code>をTableau Desktopで読み込んでみたいと思います。</p>
<p data-line="110" class="code-line">Local Fileを選んで、ファイルを指定します。</p>
<p data-line="112" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/ca008c90f3b8-20250122.jpg" loading="lazy" class="md-img"></p>
<p data-line="114" class="code-line">問題なく読み込めました。</p>
<p data-line="116" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/3217649eea19-20250122.jpg" loading="lazy" class="md-img"></p>
<p data-line="118" class="code-line">超デカいデータとか、ややこしい結合をした後で分析したい時などは、こちらでやったほうがパフォーマンス的に良いかもしれませんね。</p>
<h2 id="%E3%81%8A%E3%82%8F%E3%82%8A%E3%81%AB" data-line="120" class="code-line">
<a class="header-anchor-link" href="#%E3%81%8A%E3%82%8F%E3%82%8A%E3%81%AB" aria-hidden="true"></a> おわりに</h2>
<p data-line="121" class="code-line">前述した通り、色々なデータに対してそのままSQLで分析ができるDuckDBの恩恵をTableauで受けられるのは大きいです。昨今、半構造化データ（jsonやparquet）が頻繁に登場していると思いますが、DuckDBはこれらももちろん対応しています（しかも、<code>read_json_auto</code>等で、スキーマも自動的に判断してくれます）。クラウドストレージ上にある大量の半構造化データも、DuckDB+Tableau Desktopですぐに分析することができます。</p>
<p data-line="123" class="code-line">惜しいところとしては、Tableau Cloudでは使えない（非対応）ということです（パブリッシュしてもちゃんと開けない）。最近、AI機能などがTableau Cloudにどんどん増えてきているので、Tableau Cloudを選ぶユーザーも多いと思うので、Tableau CloudでもDuckDBをデータソースに指定できるようになってほしいところです（Tableau Serverは対応しています）。</p>
<p data-line="125" class="code-line">なので、現時点では手元でのアドホック分析に活かすのに良さそうな組み合わせだと思いました。</p>
<h3 id="motherduck" data-line="127" class="code-line">
<a class="header-anchor-link" href="#motherduck" aria-hidden="true"></a> MotherDuck</h3>
<p data-line="128" class="code-line">実は、LocalとIn-Memory Databaseの他に、もう一つ「MotherDuck」という接続メニューがあります。これは、<a href="https://motherduck.com/" target="_blank" rel="nofollow noopener noreferrer">DuckDBのSaaS版？であるMotherDuck</a>に接続するための設定です。MotherDuckとTableauの組み合わせは、また別途やりたいと思います。</p>


DuckDBを使ってS3にあるデータをTableauでサクっと分析する

Discussion