🧱
DatabricksのOLTPデータベース『Lakebase』を使ってみた！

Takeru Ino
2025/06/13に公開
 はじめにDatabricksビジネス推進室の井能です。現在サンフランシスコで現地参加しているDatabricksの年次カンファレンス『Data+AI Summit 2025』にて、フルマネージドのPostgresデータベースをホストする機能である『Lakebase』が発表されました。

https://www.databricks.com/product/lakebase

https://www.databricks.com/blog/what-is-a-lakebase
2025年3月にはサーバレスPostgresを提供する『Neon』をDatabricksが買収したことでも話題になりましたが、LakebaseはNeonが持つテクノロジーがベースとなっており、データベースのBranchingなど開発者の体験(DevEx)を向上する特色を多数引き継いでいます。
https://www.databricks.com/blog/databricks-neon
本記事では、Lakebaseの概要を紹介するとともに、既にPublic Previewが開始している一部機能のハンズオンを通じて使用感をお伝えしたいと思います。

 概要
 コンセプトLakebaseは以下コンセプトのもとに構成されています。

Data + AI Summit Keynote Day 1

 1. Fully-managed PostgresLakebaseはフルマネージドのPostgresデータベースです。
Databricksはこれまでも、Apache SparkやDelta Lake、MLflowなどOSS開発の主導・貢献と、OSSをプラットフォームに組み込むことによる製品のアップデートを両輪で実施する方針で成長を続けてきました。

Data + AI Summit Keynote Day 1
今回OLTPデータベースを実現するにあたってもOSSをベースとする方針は違わず、その中でOLTPデータベースエンジンの中でも人気があり、コミュニティが活発で、レイテンシやクエリ性能などの性能も高く、PostGISやpgvectorなどの拡張やドライバ、クライアントツールなどのエコシステムが豊富であることから、Postgresをベースにしています。
今後OSSのPostgresで新機能が登場すれば、それはLakebaseにおいても基本的には利用できるようになるため、ユーザーとしても独自のエンジンをベースにする場合と比較して世間のトレンドから取り残される可能性を限りなく小さくできる恩恵があります。

 2. Separation of storage & computeストレージとコンピュートは分離されており、ストレージはオブジェクトストレージを活用したデータレイク、コンピュートはサーバレスコンピュートが利用され、それぞれ独立してスケーリングが可能です。これによって、ユーザーは必要十分なリソースを利用し、性能とコスト最適化の両立を実現することが可能です。

Data + AI Summit Keynote Day 1
コンピュートはサーバレスコンピュートが稼働します。必要に応じて瞬時に起動、負荷に応じて自動的にスケールアップ/ダウンを実施します。利用がないタイミングでは0までスケールダウンされることに加え、プロビジョニングの一時停止／再開も可能です。コンピュートは利用中のみ課金が発生するため、コスト最適化をしながらの運用が可能になります。
ストレージは、Databricks社が管理するクラウドサービスのアカウントに作られるデータレイクがベースとなります。そこに、中間層のストレージ（ソフトステートとして機能するライトスルーキャッシュ）を被せることで、OLTPワークロードが必要とする10ミリ秒レベルの低レイテンシーと10kQPS超えの高い同時実行性QPS（Queries Per Second）をサポートしています。

 3. Modern DevEx built for AINeonのテクノロジーをベースとした開発体験の向上をもたらします。
代表的な機能は、スキーマとデータを含むデータベース全体のインスタントブランチングとフォークが可能になり、さながらコードをGitで管理するようにデータベースを管理することが可能になります。

この機能によって、テスト用にブランチを隔離して大元のテーブルに影響を与えないように試験をすることが可能になる、過去の任意の地点からブランチを作成してデータのリカバリや履歴の分析に利用可能になるなどの恩恵があります。イメージとしては、Delta Lakeにおけるタイムトラベル機能に相当する機能になるでしょうか。
https://neon.com/docs/introduction/branching
2025年6月のPublicPreview開始時点では利用できるDevEx関連機能は最低限となっており、今後随時追加予定とのことです。

 4. Lakehouse Integration & Enterprise readinessLakehouseやUnity Catalogなど他機能との連携機能も充実しているため、シームレスに連携しながら活用することが可能になります。そのため、従来から実施しているユースケースのうち、OLTPデータベースに適した取り組みだけLakebaseを活用するよう置き換えても、多くの場合はこれまでと同じような使用感で業務を推進することが可能です。

 Lakehouseとのフルマネージドでのデータ同期Lakehouse ⇔ Postgres 間での双方向同期
複数テーブルを含む同期パイプラインを定義可能
Snapshot/Triggered/Continuousの3つの同期方式に対応

方式
概要

Snapshot
ソーステーブルの全レコードを同期

Triggered
最後に同期したポイントからのすべての増分変更を同期

Continues
初回実行からChangeDataFeedを追跡して同期

 AIユースケースとの連携高速な特徴量検索とリアルタイム推論向けのOnline Feature Storeとしての利用
オフライン学習データはLakehouseに保存可能

 Unity Catalogとの統合Postgresテーブルをデータカタログに登録可能
Unity Catalogによるガバナンス管理
Lakehouse Federationにも対応

 クエリエディター & スキーマブラウザーPostgres用のネイティブクエリエディター
Postgresスキーマをブラウズ可能

 非機能関連の特色本機能は本番アプリケーションなどでの利用を想定された機能であるため、セキュリティや可用性などの要件が合致するかは非常に重要です。マルチAZフェイルオーバーやリカバリ、スケーリング、アクセス制御機能など、基本的にはエンタープライズでも利用可能な設計となっていますが、企業の細かな要件との整合性は個別に確認ください。

 可用性マルチAZでのフェイルオーバー
リード専用セカンダリDB
最大35日間のポイント・イン・タイム・リカバリ

※SLAは各Databricksサービスの内容を確認

 性能拡張性自動スケーリング（Auto scaling）

 運用・保守性内部モニタリング機能搭載
Databricks Appsリソース管理
Terraformや課金タグ（Billing Tags）による運用支援

 セキュリティDatabricksユーザーによるOAuth
PrivateLink/IPアクセス制御
ストレージ暗号化
TLSによる通信暗号化

 ユーザビリティインスタントプロビジョニング
フルブランチ機能
Neonベースの開発体験

 課金体系コンピュート、ストレージともにDatabricks社が管理する領域で立ち上がるため、それぞれ利用に際して従量課金で請求が発生します。
また、LakebaseとDelta Lakeのテーブル同期にはサーバレスDelta Live Tableが利用されるため

、同期設定を実施している場合は請求が発生します。更新頻度が高いほど請求は高くなることが想定されます。DLTのパイプラインの実行頻度は、必要な同期頻度に応じて方式の設計をすることがコスト最適化の観点で好ましいです。

Lakebase: Fully Managed Postgres for the Lakehouse (アーカイブ公開次第追記予定)

 ユースケース一般的なOLTPと同様に、リアルタイムのトランザクション処理や直近のトランザクションデータを活用したレポート・アクションに活用することがメインになります。大規模なデータ分析や長期的なデータを活用した集計・統計はDelta Lakeのテーブルを利用したほうが性能が出るケースが多いと思われるため、すべてをLakebaseにするのではなく、適切な使い分けを検討することが重要です。
Lakebaseに適したユースケースの例を以下に示します。

 アプリケーションのバックエンドデータベース注文処理
インタラクティブなワークフローの承認
エージェント用の状態管理

 レイクハウス上のデータ/特徴量のオンラインサービングパーソナライズドレコメンデーション
顧客セグメンテーション

 ハンズオン
 データベースインスタンスの作成こちらの手順に従いLakebaseのテーブルを作成します。

https://docs.databricks.com/aws/en/oltp/instance
Postgresデータベースの作成画面です。こちらではインスタンス名、サイズ、データの過去断面の保持期間、可用性に関する設定などを実施します。

インスタンスの作成は手元では5分ほどかかりました。完了すると、作成したインスタンスに対してクエリを実行できるようになるため、「New Query」ボタンからSQLエディタに移動します。

SQLエディタではクエリの実行や、サイドパネルにおいてカタログやスキーマの一覧も参照することが可能です。ただし、リソースにPostgresインスタンスを指定している場合、サイドパネルのカタログに表示されるのはPostgresのテーブルのみです。

Catalog Explorerの画面から参照した場合も、この時点ではUnity Catalog上でPostgresのリソースは確認できるようにはなっていませんでした。

というのも、Postgresのリソースは明示的にUnity Catalogに登録する操作が必要となるようなので、そちらの手順を実施します。

 Unity Catalogへのカタログ作成こちらの手順に従いUnity CatalogへPostgresのデータベースを登録します。

https://docs.databricks.com/aws/en/oltp/register-uc
まずはPostgresデータベースインスタンスの詳細画面の「Catalogs」タブから、データベースを指定してUnity Catalogに登録します。ここでPostgresデータベースを新規作成&登録をすることもできるようですが、今回はデフォルトのデータベース「databricks_postgres」を指定します。余談ですが、「Postgres」データベースは指定できませんでした。

こちらの手順が完了すると、Catalog Explorerからも該当のリソースを確認することができるようになります。

このとき、Postgresへのコネクションも自動で作成されており、Unity Catalogの挙動としては外部データベースの接続情報を利用して外部テーブルとして登録するような動きになっているようです。

次に、Delta Lakeのテーブル/ビューをPostgres上に同期してみたいと思います。

 同期テーブルの作成こちらの手順に従い同期テーブルを作成します。

https://docs.databricks.com/aws/en/oltp/sync-data/sync-table
今回のケースではDatabricks公式のサンプルデータセットを利用したため、Delta Sharingで参照しているテーブルを共有していますが、その場合は同期方式はSnapshot一択になるようです。

同期テーブルの定義が完了すると、ほとんど時間をおかずPostgres上にテーブルが作成されていました。

同期に使用されるDelta Live Tableのパイプラインも自動で作成されています。

同期テーブルへのクエリの実行も確認できました。同期テーブルも作成はほとんど手間なく実施可能なようです。

 別インスタンスからのクエリ実行Lakebaseはコンピュートとストレージが分離しているため、新規インスタンスを作成する際に親インスタンスを指定することで、親インスタンスで定義したデータベースも参照することができます。

 まとめ本記事では、Databricksから新しくリリースされたLakebaseの概要説明とハンズオンを実施しました。

これまではトランザクション処理をDatabricksで効率的に実施するためには、外部のOLTPデータベースに接続しなければ実現できなかったところがDatabricks内で完結できるようになる、そしてOLAPとの連携も非常に簡単に設定できるため同じデータでもユースケースに合わせてOLAP/OLTPを切り替えて利用できるようになるなど、より効果的なデータ・AI活用につなげることができるアップデートだと感じています。ぜひLakebaseを活用してみてください！

 仲間募集NTTデータ ソリューション事業本部 では、以下の職種を募集しています。
Databricks、生成AIを活用したデータ基盤構築/活用支援（Databricks Championとの協働）https://nttdata-career.jposting.net/u/job.phtml?job_code=1294
Snowflake、生成AIを活用したデータ基盤構築/活用支援（Snowflake Data Superheroesとの協働）https://nttdata-career.jposting.net/u/job.phtml?job_code=1297
プロジェクトマネージャー（データ分析プラットフォームソリューションの企画～開発～導入／生成AI活用）https://nttdata-career.jposting.net/u/job.phtml?job_code=1293
クラウドを活用したデータ分析プラットフォームの開発(ITアーキテクト/PM/クラウドエンジニア)https://nttdata-career.jposting.net/u/job.phtml?job_code=808

 ソリューション紹介Trusted Data Foundationについて～データ資産を分析活用するための環境をオールインワンで提供するソリューション～

https://www.nttdata.com/jp/ja/lineup/tdf/

最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ（Datalake+DWH+AI/BI）を顧客要件に合わせてカスタマイズして提供します。

可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
NTTデータとDatabricksについてNTTデータは、お客様企業のデジタル変革・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活用戦略の立案から、AI技術の活用も含めたアナリティクス、分析基盤構築・運用、分析業務のアウトソースまで、ワンストップの支援を提供いたします。

https://www.nttdata.com/jp/ja/lineup/databricks/
NTTデータとSnowflakeについてNTTデータとSnowflakeについて

NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。

NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。

Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。

https://www.nttdata.com/jp/ja/lineup/snowflake/
NTTデータとInformaticaについてNTTデータとInformaticaについて

データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。

https://www.nttdata.com/jp/ja/lineup/informatica/
方式	概要
Snapshot	ソーステーブルの全レコードを同期
Triggered	最後に同期したポイントからのすべての増分変更を同期
Continues	初回実行からChangeDataFeedを追跡して同期