Closed11
RDSのOracleにGlueのdata connectionで接続してデータを吸い出す
こちらの記事を参考にして作業を進めていた
このエラーが出てうまくいかない
「S3のエンドポイントは設定済み…というかデフォルトで作られているっぽいのに…」と思ってよく見ていたら、「エンドポイントタイプ」が「Interface」になっていた。
「エンドポイントタイプ」が「Gateway」のものを別で作ったら、うまくいった。
ORA-12514 のエラーが出てしまった DATABASE名が間違っていた模様
DATABASE名の確認方法は色々あるっぽいが、
SELECT * FROM GLOBAL_NAME;
でできた。(DataGripから確認)
Glue Crawlerは正常終了して、テーブルも取り込めた。
が、これに直接Athenaからアクセスできない。
HIVE_UNSUPPORTED_FORMAT: Unable to create input format
というエラー。
先程の記事の中では手動でジョブを作成してテーブルをS3に取り込んでいたが、面倒なのでLake FormationのBlueprint機能を使う
作成したCrawlerを削除してLake Formation Blueprintでやり直し。
- Blueprint Type: Database Snapshot
- Database connection: 記事の「3. AWS Glue 接続を作成する」で設定したものを流用
- Source data path: Crawlerに設定した、
[database名]/%
- Import Target: インポート先のGlue Data Catalogのデータベースを選ぶ
- Target storage location: S3の適当な場所を選ぶ(抽出したデータが保存される)
- Data format: 基本的には列志向で扱いたいのでParquet。よほど軽いDBだとか、人の目で生のデータチェックする機会が多いだとかがあればCSVでもいいかもしれない。
- Import frequency: 今回はRun on demand
- Workflow name: 好きなものを
- IAM role: 記事の「1. AWS Glue が引き受ける IAM ロールを作成する」で作成したものを流用する
- が、このままだと「PassRole」の権限が足りないので追加する
- 一度何もせずにWorkflowをCreateするとわかりやすいエラーメッセージが出るので、それに従えばOK
- が、このままだと「PassRole」の権限が足りないので追加する
- Maximum capacity: 用途に合わせて 今回は設定なし
- Concurrency: 用途に合わせて 今回は1
型のエラーが出ているが、取り込み自体はこれでできそう。型のエラーは別途解消する。
このスクラップは2024/01/31にクローズされました