🐷

Windows11のWSL2上にDataikuを構築

2024/01/28に公開

はじめに

WSL2上にDataikuを構築したので、手順を記事にまとめました。
本記事のゴールとしては、

DATA_DIR/bin/dss start

でDataikuを起動して、Chromeで以下urlからDataikuにアクセスできるようになることです。
http://localhost:11000/
本記事では、Dataiku DSSのインストール手順を中心に解説するため、
WSLやUbuntuのインストールに関しては他の記事を参照してください。

環境

・Windows11
・Windows Subsystem for Linux(WSL2)
・Ubuntu 22.04 LTS

Dataiku DSSとは

詳しい解説は公式サイトに譲ります。
https://www.dataiku.com/ja/製品/
簡単に説明すると、Dataiku DSSを使うとデータサイエンスプロジェクトの効率化と生産性向上ができます。
以下にメリットをいくつか挙げます。
・統合環境: データの準備、クリーニング、分析、モデリング、デプロイメントなど、データサイエンスプロジェクトの全体的なライフサイクルを1つの統合環境で実行できます。
・多様なデータソースとの連携: データベース、データウェアハウス、クラウドサービスなど、様々なデータソースからデータを取り込んで活用できます。
・機械学習モデルの構築: さまざまな機械学習アルゴリズムと統合されており、モデルの構築とトレーニングをサポートします。また、自動機械学習やモデルチューニングの機能も提供しています。
・モデルの評価とデプロイメント: モデルの評価やパフォーマンスの監視、展開のためのツールや機能を提供します。モデルを実際の環境にデプロイし、予測を行えます。
・ワークフローの自動化: データ処理やモデルトレーニングのワークフローを自動化するための機能を提供します。タスクのスケジューリングやワークフローの監視などを簡単に行えます。

公式ドキュメントに沿ってインストール

https://www.dataiku.com/ja/製品/始める/linux/

Dataikuインストール

バージョンは公式ドキュメントから最新のものに読み替えてください。

wget https://cdn.downloads.dataiku.com/public/dss/11.3.2/dataiku-dss-11.3.2.tar.gz

ダウンロードしたDataiku本体を解凍

tar xzf dataiku-dss-11.3.2.tar.gz

インストール

dataiku-dss-11.3.2/installer.sh -d DATA_DIR -p 11000

・dataiku-dss-11.3.2/installer.sh: Dataiku DSSのインストールスクリプトを実行するためのコマンドです。このスクリプトは、Dataiku DSSの実行ファイルと必要なファイルをシステムに配置します。
・-d DATA_DIR: DATA_DIRは、Dataiku DSSが使用するデータの保存先ディレクトリを指定します。このパラメータを使用することで、インストール時にデータの保存先を指定できます。
・-p 11000: 11000は、Dataiku DSSが使用するポート番号を指定します。Dataiku DSSは、Webベースのユーザーインターフェースを提供するため、指定したポート番号でアクセス可能になります。このパラメータを使用することで、インストール時にポート番号を指定できます。

ここまで順調でしたが、インストールでエラーが発生しました。(一部抜粋)

*** Error: package nginx not found
*** Error: package unzip not found
*** Error: package zip not found
*** Error: package default-jre-headless not found
*** Error: package python2.7 not found
*** Error: package libpython2.7 not found
*** Error: package libgomp1 not found
*** Error: package python3.7 not found

[-] Dependency check failed
[-] You can install required dependencies with:
[-]    sudo -i "/home/dataiku/dataiku-dss-11.3.2/scripts/install/install-deps.sh"
[-] You can also disable this check with the -n installer flag

どうやら他のライブラリが必要なようですので、依存関係を解決していきます。
提案された通りに、下記のコマンドを使います。

sudo -i "/home/dataiku/dataiku-dss-11.3.2/scripts/install/install-deps.sh"

これで依存関係は解決できたのでもう一度インストールコマンドをたたいてみます。

dataiku-dss-11.3.2/installer.sh -d DATA_DIR -p 11000

Dataikuサービスの起動

無事にインストールを終えたら、サービスを起動してみます。

DATA_DIR/bin/dss start

ブラウザでDataikuにアクセス

http://localhost:11000/
DataikuはChromeやFireFoxを推奨しています。
他のブラウザからはアクセスできない可能性がありますのでご注意ください。
ユーザー名、パスワードは共にadminでログインできると思います。

参考文献

https://www.dataiku.com/ja/製品/始める/linux/
https://zenn.dev/kyami/articles/fe351bab2c67db

Discussion