🙆‍♀️

Amazon SageMaker Studioを用いたNDL古典籍OCRの実行

2023/02/27に公開

概要

これまで、Google Cloud PlatformやGoogle Colabを用いたNDL OCR及びNDL古典籍OCRのチュートリアルを作成してきました。

https://zenn.dev/nakamura196/articles/1313a746826c36

https://zenn.dev/nakamura196/articles/b6712981af3384

https://zenn.dev/nakamura196/articles/59fe1c9e76de65

今回は、Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明します。なお、今回の方法では、実行の際に費用が発生しますのでご注意ください。

Amazon SageMaker Studioの説明は以下です。

https://aws.amazon.com/jp/sagemaker/studio/

ドメインの設定など

ドメインの設定などは以下の記事などを参考にしてください。

https://dev.classmethod.jp/articles/how-to-walk-around-amazon-sagemaker-studio-new-ui/

今回は以下のように作成済みのユーザープロファイルから「起動」→「Studio」を選択したところから説明します。

Studioでの操作

ノートブックの起動方法はいくつかありますが、ここでは、「File」→「New」→「Notebook」で起動してみます。

その後、以下のようなダイアログが表示されるため、今回は「ml.g4dn.xlarge」を選択します。

!nvidia-smiを実行すると、Tesla T4が表示されます。

ノートブックの実行

以下のファイルをノートブックをダウンロードし、SageMakerにアップロードしてください。

https://github.com/nakamura196/ndl_ocr/blob/main/sagemaker_ndl_kotenseki_ocr.ipynb

ノートブックの作成にあたっては、@blue0620さんのノートブックを参考にしています。

https://github.com/blue0620/NDLkotenOCR-GoogleColabVersion/blob/main/NDLkotensekiOCR_googlecolabversion.ipynb

上記からの大きな差分として、まず、以下を実行しています。これらを行わないと、ライブラリのインストール時に、error: command 'gcc' failed with exit status 1といったエラーが発生します。

!apt update
!apt -y install build-essential
!apt -y install libgl1-mesa-dev libglib2.0-0

以下のように、OCR処理が実行されます。

インスタンスの削除

実行後は、忘れずにインスタンスの削除を行います。例えば、画面左部の「Running Terminals and Kernels」から「Running Instances」にあるインスタンスをシャットダウンします。

まとめ

Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明しました。

Discussion