Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリの試作
概要
Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリを試作しましたので備忘録です。
背景
Google Cloud Vision APIを使ってOCR結果を反映したTEI/XMLファイルを作成する環境が必要になりました。そこでバックエンドとしてGakuNin RDMを用いて、ユーザごとにファイルを管理して、OCRを実行可能な環境を試作しました。
使い方
フォルダの作成
以下にアクセスします。
https://ge-manager.vercel.app/
画面右上から、GakuNin RDMを使ってログインします。
以下のようにプロジェクト一覧が表示されます。
適当な階層まで下り、フォルダの作成ボタンを押します。
ここでは、「sample」というフォルダを作成します。
そして、「GE Manager」のリンクを押します。
以下のようなページに遷移します。
処理の実行
今回は、「e-codices - Virtual Manuscript Library of Switzerland」の「fragm1a」を使用させていただきます。
画像のURLを入力して、アップロードボタンを押します。アップロードされると、以下のような画面に変わります。
次に、「OCR実行」ボタンを押します。正しく完了すると、以下のように表示されます。
次に「TEI/XML作成」ボタンを押します。正しく完了すると、以下のようにTEI/XMLとともに表示されます。
Oxygen XML Editorでダウンロードしたファイルを表示した例です。Google Cloud Vision APIによるOCR結果を確認することができます。
GakuNin RDMのファイル
上記のプロセスで作成された各種ファイルは、GakuNin RDMのフォルダにファイルとして保存されます。
参考: URLを介してアクセス可能な画像ファイルを用意する
mdx.jp
のオブジェクトストレージを利用して、URLを介してアクセス可能な画像ファイルを用意する。
今回はge-editor
というバケットを作成し、以下のようなファイルを用意します。
{
"Version": "2008-10-17",
"Statement": [
{
"Sid": "ge-editor",
"Effect": "Allow",
"Principal": {
"DDN": ["*"]
},
"Action": ["s3:ListBucket", "s3:GetObject"],
"Resource": "ge-editor"
}
]
}
そして、以下を実行することで、上記のバケットにアップロードされたファイルをダウンロード可能にします。
s3mdx % s3cmd --no-check-certificate setpolicy config.json s3://ge-editor
s3://ge-editor/: Policy updated
以下を参考にしています。
https://docs.mdx.jp/ja/index.html#bucket全体をまとめて公開する方法を教えてください。
その後、以下などを参考にGakuNin RDMとオブジェクトストレージを接続します。
これにより、GakuNin RDM経由でアップロードしたファイルについて、以下のようなURLでダウンロードすることができます。
https://s3ds.mdx.jp/ge-editor/files/sample/sample.jpg
まとめ
TEI/XMLファイルの作成において、OCRを用いた下書きテキストの作成において、参考になりましたら幸いです。
Discussion