🙆‍♀️

ArchivematicaでAmazon S3を処理対象およびAIPの保存先に設定する

2024/02/03に公開

概要

Archivematicaにおいて、Amazon S3上のファイルやフォルダを処理対象として、さらに処理結果であるAIPをS3に保存する方法に関する備忘録です。

S3をストレージとして利用することにより、他のシステムとの連携の容易化や、AIPの長期保存に関する選択肢が増えると考えられます。

ウェルカムコレクションの以下の記事が参考になりました。

https://docs.wellcomecollection.org/archivematica/administering-archivematica/bootstrapping

Amazon S3の設定

バケットを作成します。今回、us-east-1リージョンに、archivematica.aws.ldas.jpというバケットを作成しました。

そして処理対象のファイルなどを格納する「transfer_source」、処理結果であるAIPを格納する「aip_storage」というフォルダを作成しておきます。これらの名前や階層は任意で、後述の過程でどのフォルダを使用するか設定できます。

Archivematica Storage Serviceの設定

Dockerを使ってArchivematicaをインストールした場合、以下のようなURLでArchivematica Storage Serviceにアクセスできます。

http://127.0.0.1:62081/

ログイン後、以下にアクセスします。「Create new space」リンクをクリックします。

/spaces/

「Create Space」の画面で、以下のように入力します。「Access protocol」にS3を選択し、Access Keyなどを入力します。

Staging pathについてはよくわからず、以下の記事の値を入力します。

https://docs.wellcomecollection.org/archivematica/administering-archivematica/bootstrapping#step_7

Spaceを作成後、「Create Location here」を押して、ロケーションを作成します。2つリンクがありますが、どちらも同じでした。

ここで、2つのロケーションを作成します。一つは、以下のような、Purposeを「Transfer Source」とするロケーションです。

Relative Pathについては、「Browse」ボタンから、先に作成したフォルダから選択します。

また上記ではPipelineがひとつですが、複数のPipelineを作成している場合には、関連づけるものを選択することになると思います。

もう一つは、以下のような、Purposeを「AIP Storage」とするロケーションです。

それぞれの画面で、「Set as global default location for its purpose:」という項目がありますが、これをチェックしておくと、後述するデフォルト設定などが不要になります。

確認

ここまでの設定により、/spaces/にアクセスすると、デフォルトのAccess Protocolが「Local Filesystem」のスペースに加えて、Access Protocolが「S3」のスペースが追加されていることが確認できます。

さらに、/locations/にアクセスすると、追加した2つのロケーションが追加されていることが確認できます。

Archivematica Dashboardの設定

Dockerを使ってArchivematicaをインストールした場合、以下のようなURLでArchivematica Dashboardにアクセスできます。

http://127.0.0.1:62080/

AIPの格納先の設定

そして以下にアクセスして、例えばプロセスautomatedを編集します。

/administration/processing/

そして、「Store AIP」の項目に対して、先ほど作成したロケーション(今回は、「s3のapi_storage」です)を選択します。

これにより、AIPが先ほど作成したs3に格納されるようになります。一方、先ほどの「Set as global default location for its purpose:」でチェックをいれた場合、今回の設定は不要になります。

Transferの開始

/transfer/にアクセスします。「Browse」ボタンを押すと、「Default transfer source」がデフォルトで表示されます。

セレクトボックスになっており、クリックすると、選択可能な「Transfer Source」がリストアップされますので、先ほど作成したs3を選択します。

これにより、s3上のファイルやフォルダを処理対象とすることができます。

まとめ

AIPの格納先として、S3のコールドストレージ(Amazon S3 Glacier)などを指定することで、AIPの長期保存に対する選択肢が増えると思います。またS3を経由することで、APIの利用や他のシステムとの連携が容易になると考えられます。

Archivematicaの使用にあたり、参考になりましたら幸いです。

Discussion