🗂

Databricks(Azure Databricks)でGithub経由でノートブックを共有する方法

2020/12/14に公開

概要

DatabricksではノートブックをHTMLでエクスポートすることが可能であり、GitHub Pagesでの共有がいい感じだったの共有します。Databricksには複数のノートブックを単一ページで表示可能なHTMLを出力可能なため、Github Pagesに登録するだけ綺麗なサイトを作れます。
image.png
引用元:docs - Databricks (manabian-.github.io)

Databricksとは

Sparkをベースとした、Python・R・Scalaを動作可能な統合データ分析サービスです。実質的に無制限の拡張が可能であり、エンタープライズでのセキュリティ要件も満たせるサービスです。
image.png
引用元:Databricks - 統合データ分析プラットフォーム

開発もNotebook上で実行するため、Jupyteを利用している方にはスムーズな利用開始が可能です。
image.png
引用元:コラボレーション型 Notebook - Databricks

Databricsk Community Editionという無償で利用続けられる環境が提供されており、学習環境としては最適です。Databricsk Community Editionの申し込み方法については、下記の記事が参考になります。

GitHub Pagesとは

Github上のコンテンツを、簡単な手順で、静的サイトとして公開できるサービスです。ブログ投稿を実施している方もけっこういらっしゃるようです。
image.png
引用元:GitHub Pages について - GitHub Docs

手順

1. Databricksにてファイルをエクスポートする。

image.png

2. GitHubにコードをプッシュ

image.png

3. GitHubのレポジトリーの"Setting"に移動

image.png

4. "GitHub Pages"にて公開するブランチ等を指定

image.png

5. 表示されたURLに接続して表示確認

image.png

リンクは下記です。

docs - Databricks (manabian-.github.io)

課題について

動画を表示できないこと

Databricsk上で動画を表示可能なのですが、HTMLで出力すると表示できません。
image.png

Datbricskにてインポートができないこと

GitHubからHTMLファイルをダウンロードしてもらってインポートしてもらうのがよさそうです。
image.png

SlideShareのスライドのページ移動ができないこと

image.png

Discussion