🌱

Databricksをちょっとだけ理解しときたい時にまずやること

に公開

1. Databricksってなんやねん。

image

「Databricksって最近よく聞くけど、結局なんなん?」
そんなふうに思ったことがある方向けに、この記事を書いています。

生成AI、ビッグデータ、機械学習、データ基盤、Lakehouse、そんなキーワードの周辺にいると、"Databricks"という名前が出てくる場面が増えてきました。

ヨシ!早速使ってみよう!と思っても、

  • 初見の単語多すぎ!
  • 英語多すぎ!
  • どれから見ればいいかわからん!書籍も少ない!

と思われた方も多いのではないでしょうか。

databricksに限った話ではありませんが、いきなり「全部使いこなそう」と思うと心が折れやすいです。

そこでこの記事では、Databricksをちょっと理解したい時に、最低限やっておくと良いこと を簡単に紹介します。
まずは「どんなものか分かった」「ちょっと触れた」くらいを目指します。

https://www.databricks.com/

2. Databricksのざっくり理解

一言でいえば、Databricksは 「クラウド上で動く、データ分析とAIの統合プラットフォーム」 です。

中身にはApache Sparkというエンジンが入っていて、大量データの処理が得意。
そこにGUIノートブックや、ML・BIツール、セキュリティ制御などが組み合わさっています。

以下のような作業が、Databricksひとつで完結します。

  • データの取り込み(ETL)
  • クエリによる集計や可視化
  • 機械学習やLLMの開発
  • Python・SQL・R・Scalaによる柔軟な実装
  • データパイプラインのスケジューリング

「データ基盤 + 分析 + AI」の全部入り!」
というのがDatabricksの立ち位置です。

3. ちっと理解しときたい時にやること4選

(1) 用語を3つだけ押さえる

全部覚えようとすると大変なので、まずはこの3つだけは確実に覚えましょう。

  • Lakehouse
    → データレイクとデータウェアハウスのいいとこ取り。分析もAIもこの上でできる。

  • Delta Table
    → 単なるCSVじゃなくて、トランザクション管理された信頼できるテーブル形式。

  • Cluster
    → 処理を実行するためのコンピューティングリソース。止まってるとノートブックも動かない。

この3つを知っていれば、とりあえずDatabricksの会話に混ざる入口には立てます。

やはりおすすめは 「人に説明してみること」 です。
databricksを知らない人を見かけたら、「あ、そういえばdatabricksってな〜」と一方的に上記のことを何も見ず伝えられたらいいのではないかと思います。


データレイクとデータウェアハウス

https://www.informatica.com/ja/blogs/datalake-datawarehouse.html

(2) 身近な導入事例を見つける

https://www.databricks.com/jp/customers

上記Databricks公式導入事例集から、気になる業界や自社と似ているサービスを見つけましょう。

実際にどのように使われているのかを知ることで、手っ取り早くdtabricksの特徴を掴むことができます。私もいくつか拝見したなかで、特にわかりやすかったのを3つ載せておきます。

NTTドコモ — ビジネス現場での生成AI活用を促進

https://www.databricks.com/jp/customers/ntt-docomo

NTTドコモは、社内外に向けてLLMの実証実験や展開を進める中で、全社横断でのデータ活用基盤が必要になりました。以前はExcelやJupyterによる分析が中心で、属人的かつ再利用しづらい状況でした。

そこでDatabricksを導入し、データ分析の標準化・自動化・ガバナンス強化を実現しています。

  • 導入後の変化

    • 分析の属人化を解消し、チームで共有・改善できる仕組みに
    • 非エンジニアでも自然言語でデータを可視化・分析できるように
    • 全社で効果測定し、データに基づくLLM施策の改善が可能に
  • この事例からわかるDatabricksの強み

    • データとアクセス権を一元管理できる(Unity Catalog)
    • ノートブックでコラボレーションしやすく、再現性が高い
    • スケジュール・バージョン管理など運用面の自動化がしやすい
    • 自然言語によるデータアクセスも構築できる柔軟な基盤
Novade社 - 建設業の安全をデータで守る

https://www.databricks.com/customers/novade

Novade社は、建設現場の安全性や効率を高めるソフトを提供している企業です。現場の写真・進捗・スケジュールなど大量のデータを扱う中で、もっとリアルタイムに予測・可視化できる仕組みが必要になりました。

最初は自社開発の仕組みを使っていましたが、限界を感じてDatabricksに切り替えました。Databricksを使うことで、データを一カ所にまとめ、誰でも使いやすい形で見られるようになりました。さらに、事故の予測モデルスケジュール遅延の予測など、AIによる分析も実現しています。

  • 導入後の変化

    • コストが60%削減
    • 新しい顧客が2倍に増加
    • 小さなチームでもAIを活用できるように
  • この事例からわかるDatabricksの強み

    • データを一つにまとめて使える
    • SQLやPower BIと連携しやすく、使いやすい
    • 機械学習やAIもすぐ始められる
    • 安全にデータを共有できる(Unity Catalog)
Myntra社 - 大手ファッションECのリアルタイムパイプラインの高速化

Myntra社は、インドの大手ファッションECプラットフォームで、350万以上のスタイルを9500以上のブランドから提供しています。顧客の購買体験をあらゆる段階でパーソナライズし、より良いショッピング体験を届けるために、従来のデータ基盤の性能問題や管理コストの高さから、リアルタイム処理やAI活用に対応できるプラットフォームへの刷新が必要になりました。

Databricksのデータインテリジェンスプラットフォームを導入し、リアルタイムパイプラインの高速化とコスト削減を果たし、機械学習を活用したパーソナライズされた顧客体験の提供に成功しています。

  • 導入後の変化

    • データ基盤コストを35%削減
    • リアルタイムパイプラインの処理速度が25%向上
    • 70百万の月間アクティブユーザーに対しパーソナライズを強化
    • データガバナンスと品質が向上し、継続的なML活用が促進
  • この事例からわかるDatabricksの強み

    • Delta Lakeによるバッチ・ストリーミング処理の統合と効率化
    • メダリオンアーキテクチャでデータ管理と品質を段階的に改善可能
    • 自動圧縮・コンパクションなどでストレージコストを削減
    • 最新のオープンソースツールとの連携で柔軟な分析基盤を提供
    • リアルタイムデータを活用した機械学習による顧客体験のパーソナライズ

(3) databricks Japanの弥生さんをフォローする

Qiita、Xともにdatabricksをわかりやすく、かつコアな情報まで発信くださっています。

databricksの最新情報も掴めるのでおすすめです。

https://qiita.com/taka_yayoi

https://x.com/taka_aki

(4) 無料のチュートリアルを動かす

こちらは少し時間と知識が必要ですが、理解を深めるためにはやはり実際に触ってみることです。
無料のアカウント登録だけでも以下の操作・実行くらいは可能です。

  • Databricksでテーブルを作ってみる
  • クラスターを起動してみる
  • SQLでクエリしてみる
  • グラフを描いてみる

databricksの機能をすべて使うことまでは難しいのですが、
無料トライアル(14日間)またはCommunity Editionを使えば、もっといろんなことができます。
実際に手を動かすことで「databricksは何ができるのか」のイメージが湧いてきます。
おすすめは、公式の「Getting Started」ノートブックシリーズです。

https://www.databricks.com/try-databricks

https://docs.databricks.com/en/getting-started/index.html

まとめ:少しずつやりましょう!

Databricksは機能が充実していて魅力的な分、
とにかく機能と用語が多いので、最初から全部理解しようとしないことが大切です。

まずは、

  • 最低限の知識を押さえる
  • 導入事例を知る
  • 最新情報のアンテナを立てる
  • 無料の範囲で触ってみる

これで「Databricksってなんか触ったことある」と言えるようにはなります。

あとは、興味が出てきたところから少しずつ深掘りすればいいのではないかなーと思います。

これからも一緒に楽しく学んでいきましょう!

ついで:6/9~12 Databricks summit 開催中@サンフランシスコ

https://www.databricks.com/dataaisummit

  • Lakebase (AI向けに構築されたPostgres?)
  • Agent Bricks (ノーコードで基盤構築できる?)
  • MLflow 3.0 (生成AIとの連携?)
  • Multi-Agent Supervisor (??)

昨日メインの基調講演があったようで出ていた新ワードを拾ってみましたが、
ありすぎてわけわからん…。
とりあえずdatabricksでも生成AI活用がめちゃくちゃアツい!

そして、なんと無料学習版の新ライセンスが今日からできたらしい?
これはでかい!上のではなく、こちらを使用しましょう!

https://www.databricks.com/learn/free-edition

ついで2:先日Engineer Associateに合格しました

やったー。

弊社の先輩方からのアドバイスもぜひ参考ください!

https://zenn.dev/headwaters/articles/databricks-certified-data-engineer-associate

https://zenn.dev/headwaters/articles/ffcaa04d548836

ついで3:弊社の紹介

https://www.headwaters.co.jp/service/databricks.html

ヘッドウォータース

Discussion