軽くtroccoのジョブ機能で遊んでみた
業務で色々と検証したので備忘録を兼ねて記事にしたいと思います。
業務で既に触っているので無料枠の申請方法は割愛します。
1. troccoの紹介
1.1 troccoとは
trocco®は、ETL/データ転送・データマート生成・ジョブ管理・データガバナンスなどの
データエンジニアリング領域をカバーした、分析基盤構築・運用の支援SaaSです。
あらゆるデータの連携・整備・運用を自動化し、スピーディーにデータ活用環境を整備。
インサイトを得やすい状況に導きます。
1.2 強み
- 約100種類の豊富なコネクタに対応(対応コネクタはこちら)
- 国産のSaaSツール
- サポートが日本語対応そして早い(メール or Slack)
- 構築に時間がかかるETL/ELTパイプラインを簡単に構築できる
- ジョブ管理にも対応(スケジュール実行)
- Git/API連携
1.3 主な機能
1.4 料金
料金ページ
オプション料金
さらに追加機能の料金
2 ログイン画面
ログイン画面の紹介です。
自分のアカウント情報を入力し、ログインしてみます。
以下はFreeプランの画面です。
Freeプランは無料枠なため、転送時間無料枠が月10時間と少なく感じますが、個人で使うもしくは、検証目的なら十分だと思います。
フル機能を試したいのであれば、Lightプラン以上で14日間の無料トライアイルを受けれるのでそちらで検証しみるのもいいかもしれません。
3 転送設定
3.1 新規転送設定の作成
画面左メニューバーより、転送設定
のクリックし、画面右の新規転送設定作成
をクリックします。
3.2 転送元と転送先の設定
以下画面の転送元の選択してください
をクリックします。
すると、転送元となるコネクタを選択する画面が表示されます。
今回は「その他」のローカルファイル
を選択します。
同じ要領で転送先にはSnowflake
を設定します。
設定できたのでこの内容で作成
をクリックします。
次により詳細にジョブを設定します。
ジョブ名の設定
適当にTEST_JOBとし、メモとリソースグループは今回は設定しません。
転送元ローカルファイルの設定
ネットから適当にCSVデータをダウンロードしておきます。
今回はCOVID-19のオープンデータを利用します。
転送先Snowflakeの設定
転送先のSnowflakeの設定を行います。
すでにSnowflakeの接続先情報を登録している場合は適宜項目を設定します。
Snowflakeの接続先情報を設定していない場合は「接続先情報を追加」をクリックします。
Snowflakeの接続先情報の設定
必須項目を設定し、「保存」をクリックします。
転送先Snowflakeの設定も行えたら「次のSTEPへ」をクリックします。
データプレビュー・詳細設定ページに遷移します。
ここでは取り込むデータのプレビューが見れます。
その他、取り込むカラムの指定や、フィルター設定、マスキング設定カラム暗号化など細かに設定が行えます。
一旦ここはスキップし、「確認画面へ」をクリックします。
内容の確認
設定内容の確認をymlファイルで表示されます。
このymlはEmbulkのコンフィグなので、読めなくてもOKです。
「保存して適用」をクリックします。
変更内容の保存・適用
変更履歴用のコメントを記載します。
別に書かなくてもOK。「保存して適用」をクリックします。
ジョブの作成完了
これでジョブを作成することができました。
4 ジョブの実行
画面右側の「実行」をクリックします。
実行メモを書いて、「実行」をクリックします。
ジョブの実行確認
ステータスが「Succeeded」となっていればOKです。
実行ログも表示してくれるのでありがたいですね。
ほとんどEmbulkの実行ログっぽいですけどね。
Snowflke側の確認
Snowflake側でも問題なくテーブルが作成されています。
設定に慣れてしまえば物の数分でジョブを作成することができます。
簡単にパイプラインを作成することができそうで他の機能も試してみたいと思います。
Discussion