💭

NDL-DocLデータセットとYOLOv5を用いたレイアウト抽出モデルを作成しました。

2022/07/25に公開

概要

本モデルは以下のノートブックからお試しいただけます。

本記事は、上記の学習過程の備忘録です。

Pascal VOC形式のNDL-DocLデータセットを、YOLO形式に変換します。この方法については、以下の記事を参考にします。Pascal VOC形式からCOCO形式への変換に加えて、COCO形式からYOLO形式への変換を追加しています。

以下のページにカスタムデータの学習方法が記載されています。

以下のノートブックにも学習方法が記載されています。

入力画像のサイズを1024、バッチサイズを4、エポック数を300に設定した結果、以下のような結果が得られました。なお、データセットをtrain 80%, validation 10%, test 10%に分けています。

上述した通り、以下のノートブックから推論をお試しいただけます。

以下、推論結果の例です。うまく認識できた例のみを掲載しています。

レイアウト認識の結果を踏まえ、次は行内の文字認識に取り組みたいと思います。