📚

日本の出版社様が運営するマンガが読めるWebサイトの仕様を確認した

2021/05/26に公開

この記事は何

こちらのサービスを構築する上で、各社様のWebサイトの仕様把握が必要でした。具体的には下記の点です。

なかなか各サイトごとに特徴があって面白かったので、自分の覚書という意味で残しておきたいと思います。主に次のまとめ方で示します。

情報取得方法	サイト（敬称略）
API	マンガクロス
RSS	マガポケ
クローリング	ジャンプ＋、裏サンデー、ヤンマガweb、MAGCOMI、ガンガンオンライン、ComicWalker、コミックライド、ヤングエースup

多くのサイトは静的に生成されており、HTMLを解析してクローリングする必要があります。（もしかしたら裏で何かデータを流してくれてるかもしれませんが、発見できず）
マンガクロスさんはやたらとモダンで、サイト自体Reactで作られていました。APIを叩いて取得した情報をもとに動的にコンテンツを表示しているので、それを拾えば必要な情報が手に入りそうです。

各サイトのURL/robots.txtにアクセスして内容を確認。

ほぼすべてのサイトでrobots.txtを作成しておらず。

サイト	内容
ComicWalker	主要クローラ以外はcrawl-delay=10。メンバページ等についてはDisallow。
ヤングエースup	img, pdf への直接アクセス禁止

（調査ミスによる抜け漏れがあったらゴメンナサイ）

ComicWalkerさんは、更新したあとに、数分待つと少し内容が変わったりしていて、情報を取得するのが難しい構成でした…。人力でポチポチ更新されているのでしょうか…？