Amazon SageMaker Studioを用いたNDL古典籍OCRの実行
概要
これまで、Google Cloud PlatformやGoogle Colabを用いたNDL OCR及びNDL古典籍OCRのチュートリアルを作成してきました。
今回は、Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明します。なお、今回の方法では、実行の際に費用が発生しますのでご注意ください。
Amazon SageMaker Studioの説明は以下です。
ドメインの設定など
ドメインの設定などは以下の記事などを参考にしてください。
今回は以下のように作成済みのユーザープロファイルから「起動」→「Studio」を選択したところから説明します。
Studioでの操作
ノートブックの起動方法はいくつかありますが、ここでは、「File」→「New」→「Notebook」で起動してみます。
その後、以下のようなダイアログが表示されるため、今回は「ml.g4dn.xlarge」を選択します。
!nvidia-smi
を実行すると、Tesla T4が表示されます。
ノートブックの実行
以下のファイルをノートブックをダウンロードし、SageMakerにアップロードしてください。
ノートブックの作成にあたっては、@blue0620さんのノートブックを参考にしています。
上記からの大きな差分として、まず、以下を実行しています。これらを行わないと、ライブラリのインストール時に、error: command 'gcc' failed with exit status 1
といったエラーが発生します。
!apt update
!apt -y install build-essential
!apt -y install libgl1-mesa-dev libglib2.0-0
以下のように、OCR処理が実行されます。
インスタンスの削除
実行後は、忘れずにインスタンスの削除を行います。例えば、画面左部の「Running Terminals and Kernels」から「Running Instances」にあるインスタンスをシャットダウンします。
まとめ
Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明しました。
Discussion