🔍

OCRライブラリ「Yomitoku」を試してみた

2024/12/21に公開

この記事は株式会社ガラパゴス(有志) Advent Calendar 2024 の21日目です

今回は、「Yomitoku」というOCRサービスを触ってみました。

使う前準備

サーバについて

GPUサーバでなくても動作しますが、今回はGPUサーバを使います。
以下の環境のEC2サーバを使います。

AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 (Amazon Linux 2023)
Instance : g4ad.2xlarge

環境構築

こちらはすごく楽ちんです。これだけ。

pip install yomitoku

いざ使ってみよう

まずは、公開されているPDFを落としてくる。
下のサンプルは、「日本のアート市場」のデータです。

curl -O https://www.bunka.go.jp/koho_hodo_oshirase/hodohappyo/pdf/94150801_01.pdf

そして、いよいよ「YomiToku」を実行。
※mdファイルで出力してもらいました。
-v : を指定すると解析結果を可視化した画像が出力されます。(分析するにはおすすめ)

!yomitoku ./94150801_01.pdf -f md -o /tmp/yomitoku/result -v

結果

「日本のアート市場」27ページの処理時間は、121sでした。(そこそこ早いのでは...)
ちなみに、CPUの場合、5 ~ 8倍くらいかかっているケースが多かったです。

さぁ、いよいよ結果です。
まずは、どんな感じで読み取るのか OCRの動きについてです。いい感じですね。

次は、実際にOCRでどういう読み取っているのかの精度面ですね。こちらもかなり良いと思います。

最後に、実際にmdファイルに出力された結果です。
こちらは、一見良さげに見えますが、図の情報が欠落しているという状況でした。悲しい。

2023年において、1軒のギャラリーに所属するアーティスト数は平均27名で、2022年の20名から増加した。この<br>ことも、売上高全体に占めるプライマリー市場のシェアが上昇しているという事実の裏付けの一つとなるかもしれ<br>ない。ギャラリーに所属するアーティストのなかで、商業的に成功を収めているアーティストは相対的に少数にと<br>どまっていることが多いが、このアーティストの作品の販売で得られた収益が、内部相互補助の形で、他のアーテ<br>ィストのキャリア形成を目的とする投資に充てられることがしばしばある。ギャラリーの報告データによれば、2023<br>年において、日本のギャラリーは、所属しているトップアーティスト1人の作品販売で全収益の24%を賄っており<br>\(前年比では2%低下\)、また、トップアーティストを含む上位3名の所属アーティストの作品販売で、全収益の42%<br>をカバーしている\(2022年の41%からほぼ横ばい\)。このような事実から、ギャラリーは、およそ1割のアーティスト<br>から、全体の4割を超える収益を得ていることが分かる。その他のアーティストから得られる収益は少ないものの、<br>活動をサポートし、展示、制作、マーケティングを行うために、かなりの労力を必要とすることに変わりはない。<br>以上から、収益源が一部に集中している状況が窺えるが、それでも世界平均よりもかなり低く、2023年の世界の<br>平均では、売上の1/3が最も売れているアーティストから、半分以上がトップ3のアーティストからのものである。

図8 ディーラー収益に占めるトップアーティストの構成比

@ Arts Economics \(2024\)

Arts Economicsが実施した日本の富裕層の行動·支出パターン調査によると、コレクターの所蔵品中、女性アー<br>ティストの作品が占める割合は2024年で40%と、少数派にとどまっている\(調査を行った世界の富裕層平均では44<br>%\)。2 コレクターの多くは、アート作品を選定する際に、作者の性別を意識することはないが、実際に購入できる<br>か否かは、究極的には、作品が市場に出回っているか否かに左右される。女性アーティストの割合が低い傾向は、<br>ギャラリーが取り扱うアーティストの性別にも反映されている。すなわち、ディーラー報告によれば、2023年にお<br>いて、男性アーティストが65%を占めるのに対し、女性アーティストは35%にとどまっている\(同一セクターを対象<br>とした世界調査では女性アーティスト比率は40%\)。さらに、日本において、女性アーティストの作品は、ディーラ<br>ーの年間売上高の20%を占めるに過ぎない。これもまた、世界平均を大きく下回っている\(世界平均は、プライマ<br>リー市場のディーラーで39%、プライマリー·セカンダリー両市場のディーラーで30%\)。

経済全般に関しても、日本のジェンダーバランスは世界的に低水準にある。世界経済フォーラムが発表した「グロ<br>ーバル·ジェンダー·ギャップ指数2024」において、ジェンダーバランスの項目で日本は世界149か国中118位と<br>なっており、「教育」に関しては「ほぼ平等」と評価されたものの、「経済参画と機会」の評価が特に低かった。3

3 世界経済フォーラム\(2024年\)「グローバル·ジェンダー·ギャップ指数2024」、「インサイトレポート」\(2024年6月\)参照

\(weform\.orgより入手可\)。「アジア」は南アジア、中央アジア、東アジア·太平洋に属する各国の合計。

2 Arts Economics \(2024\) 「The Art Basel and UBS Survey of Global Collecting」参照\(theartmarket\.artbasel\.

8

ただ、表の読み取りはかなり精度が良いと思います。
md形式でわかりやすく読み取ってくれています。

日本のオークションにおいて最高額で落札されるファインアートの中で、西欧のアーティストの作品がその多くを占<br>めてきた。工芸美術や骨董品、コレクターズアイテムを除いたファインアートのオークションに限定しても、1990年<br>代の初頭から現在に至るまでに日本のオークションにおいて最高額で落札された50ロットのうち、21ロットが海外<br>アーティストの作品であった。また、これまでの高額落札作品トップ10のうち、6作品は西欧アーティストが手掛け<br>たものであった。2022年に落札されたアンディ·ウォーホルの「Silber Liz\(Ferus Type\)」\(1963年\)もその1つで<br>ある。Shinwa Auctionに出品されたこの作品は、バイヤーズプレミアム\(購入者が支払う手数料\)を含め2,100万<br>ドルに迫る価格で落札され、同年のアート市場における販売増に大きく貢献した。

表1 日本のオークションにおける最高額落札ファインアート作品\(ハンマープライス。プレミアムは含まない\)

|アーティスト|作品名|ハンマープライス|落札年|オークションハウス|
|-|-|-|-|-|
|1<br>アンディ·ウォーホル|Silver Liz \(Ferus Type\)\(1963年\)|1,890万ドル|2022|Shinwa Auction|
|2<br>パブロ·ピカソ|泣く女<br>\(Tete de Femme en Pleurs\) \(1939年\)|910万ドル|2018|アイアート|
|草間彌生|かぼちゃ\(1981年\)|390万ドル|2021|毎日オークション|
|4 パブロ·ピカソ|旗を持つ男\(1969年\)|350万ドル|2007|ニューアート·<br>エストウェスト|
|5 藤田嗣治|画家の上着をはおる少女<br>\(Petites Filles avec la Veste de I'Artiste\) \(1958年\)|240万ドル|2021|アイアート|
|6<br>草間彌生|かぼちゃ\(1991年\)|230万ドル|2021|ニューアート·<br>エストウェスト|
|ピエール=オーギュスト<br>7<br>·ルノワール|Deux Sirenes \(1916年\)|200万ドル|2018|毎日オークション|
|クロード·モネ<br>8|ダリア\(1883年\)|200万ドル|1989|アデール·ピカール·<br>タジャン|
|ピエール=オーギュスト<br>9<br>·ルノワール|ガブリエルの報復<br>\(Gabrielle Reprisant\) \(1908年\)|190万ドル|2015|毎日オークション|
|10 草間彌生|明日咲く花\(2010年\)|180万ドル|2021|ニューアート·<br>エストウェスト|

© Arts Economics \(2024\)。オークションハウス、アートプライスその他のデータに基づく。

近年は、草間彌生や藤田嗣治をはじめとする日本のアーティストの作品も、国内外市場で価格が上昇している。<br>草間彌生は、2023年オークションでの販売額で世界第9位であった。しかし、約1億7,600万ドルにのぼる草間彌<br>生の販売額のうち、取引件数でみると日本はおよそ1/3を占めているが、国内での販売額は12%に過ぎない。日<br>本での販売額は、2013年には全体の17%であったが、その後、作品の人気が世界的に高まるにつれて、徐々に<br>低下してきている。草間作品の場合、海外オークションでの高額落札が多かった。国内オークションでは202作品<br>が落札されているが、100万ドルを超えるハンマープライスがついたのは、13点に過ぎなかった。このような傾向<br>は、奈良美智のような現代アーティストになると一層顕著に認められる。2023年の販売額全体に占める日本の割<br>合は3%に過ぎなかったが、販売作品数でみれば、日本は1/4を超えている。こうした事実から、日本のオークシ<br>ョン市場における低価格構造が浮き彫りになってくる。ただし、現代アート部門は別として、一部の物故アーティス<br>トの場合は、日本で開催されるオークション市場がより大きな意味を持つこともある。例えば、2023年において、<br>藤田嗣治の作品は、国内開催のオークションでの販売額が全体の42%\(作品数では46%\)を占めており、20世紀<br>の画家である加山又造の全作品は国内オークションで販売された。

18

考察

他のOCR製品よりも、かなり精度は良くなっていると思います。
が、表の情報が全て欠落するという大きな課題がありますので、
使い所を考えた方が良いというのが現状だと思います。

株式会社ガラパゴス(有志)

Discussion