🙌

Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリの試作

に公開

概要

Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリを試作しましたので備忘録です。

背景

Google Cloud Vision APIを使ってOCR結果を反映したTEI/XMLファイルを作成する環境が必要になりました。そこでバックエンドとしてGakuNin RDMを用いて、ユーザごとにファイルを管理して、OCRを実行可能な環境を試作しました。

使い方

フォルダの作成

以下にアクセスします。

https://ge-manager.vercel.app/

画面右上から、GakuNin RDMを使ってログインします。

以下のようにプロジェクト一覧が表示されます。

適当な階層まで下り、フォルダの作成ボタンを押します。

ここでは、「sample」というフォルダを作成します。

そして、「GE Manager」のリンクを押します。

以下のようなページに遷移します。

処理の実行

今回は、「e-codices - Virtual Manuscript Library of Switzerland」の「fragm1a」を使用させていただきます。

https://www.e-codices.unifr.ch/loris/gau/gau-Fragment/gau-Fragment_frag001a.jp2/full/full/0/default/jpg

画像のURLを入力して、アップロードボタンを押します。アップロードされると、以下のような画面に変わります。

次に、「OCR実行」ボタンを押します。正しく完了すると、以下のように表示されます。

次に「TEI/XML作成」ボタンを押します。正しく完了すると、以下のようにTEI/XMLとともに表示されます。

Oxygen XML Editorでダウンロードしたファイルを表示した例です。Google Cloud Vision APIによるOCR結果を確認することができます。

GakuNin RDMのファイル

上記のプロセスで作成された各種ファイルは、GakuNin RDMのフォルダにファイルとして保存されます。

参考: URLを介してアクセス可能な画像ファイルを用意する

mdx.jpのオブジェクトストレージを利用して、URLを介してアクセス可能な画像ファイルを用意する。

今回はge-editorというバケットを作成し、以下のようなファイルを用意します。

config.json
{
  "Version": "2008-10-17",
  "Statement": [
    {
      "Sid": "ge-editor",
      "Effect": "Allow",
      "Principal": {
        "DDN": ["*"]
      },
      "Action": ["s3:ListBucket", "s3:GetObject"],
      "Resource": "ge-editor"
    }
  ]
}

そして、以下を実行することで、上記のバケットにアップロードされたファイルをダウンロード可能にします。

s3mdx % s3cmd --no-check-certificate setpolicy config.json s3://ge-editor
s3://ge-editor/: Policy updated

以下を参考にしています。

https://docs.mdx.jp/ja/index.html#bucket全体をまとめて公開する方法を教えてください。

その後、以下などを参考にGakuNin RDMとオブジェクトストレージを接続します。

https://zenn.dev/nakamura196/articles/b1f4f73136fb5f

これにより、GakuNin RDM経由でアップロードしたファイルについて、以下のようなURLでダウンロードすることができます。

https://s3ds.mdx.jp/ge-editor/files/sample/sample.jpg

まとめ

TEI/XMLファイルの作成において、OCRを用いた下書きテキストの作成において、参考になりましたら幸いです。

Discussion