😽

【環境構築】JDLA認定のE資格対策口座であるラビットチャレンジのPython環境をDatabricksで実施する手順

2021/01/11に公開

概要

日本ディープラーニング協会のDeep Learning資格試験（E資格）の対策講座であるラビットチャレンジの学習環境を、無償でブラウザにより利用可能なDatabricks Community Editionで実施したので、共有します。

ラビットチャレンジとは

Study-AI株式会社が提供している自己学習を主体的に進めることが前提で提供されている、月額3000円で提供されている格安の対策口座です。

引用元：ラビット★チャレンジ Deep Learning (ai999.careers)

Databricks Community Edition

Sparkによるビッグデータ処理やPythonやRによるデータ分析を実施可能なデータ統合データプラットフォーム（レイクハウス）のサービスであるDatabricksの無償環境です。

引用元：Databricks - 統合データ分析

なぜDatabricksを利用するのか

Databricksで学習しておくことで、実際の業務で利用可能するためです。
Databricksは、AWSやAzureなどのマルチクラウドで提供されており、仮想ネットワーク上にデプロイできることからエンタープライズレベルのセキュリティ要件を満たすことができます。

Anacondaは有償化されてしまい利用は難しいですし、Google Colabはセキュリティという観点で業務では利用できませんでした。

Anaconda パッケージリポジトリが「大規模な」商用利用では有償になっていた - Qiita

必要そうな環境

下記の環境が必要であり、最新版のDatabricks RuntimeだとKearas（スタンドアロン）がインストールされていないため、Databricks Runtime 6.4 MLを利用するのがよさそうです

Python
Pandas
Numbpy
tensolflow
Kerasa(スタンドアロン)

Databricks Runtime 6.4 MLにインストールされているライブラリは、下記のドキュメントを参考にしてください

Machine Learning Azure Databricks の Databricks Runtime 6.4 - Workspace | Microsoft Docs

Databricks環境構築

Databricks Community Editonの申し込みます。

Try Databricksから申し込みを実施します。

引用元：Try Databricks

下記にて、"COMMUNITY EDITION"を選択します。

引用元：Try Databricks

届いたメールのリンクを設定します。

パスワードを設定します。

Databricksに接続できることを確認します。

講座を学習する際の手順

インポートするファイルをインポートします。フォルダーで取り込めないため、コマンドラインで一括で取り込んだほうが楽かもしれません。

"Clustres"を右クリック後、"Cluster Name"に適当な名前を、"Databricks Runtime Version"を"Databricks Runtime 6.4 ML(Scala 2.11 Spark 2.4.5)"を入力し、"Create Cluster"を選択。

ノートブックを開き、クラスターをアタッチして、ノートブックを実行します。

本手順で学習する場合の注意事項

Community Editionでは、GPUを利用することはできないこと
学習前に毎回クラスターをクローンにより作成する必要があること
学習コードのインポートをGUIで実施する場合にフォルダー単位で実施する必要があること