📚
日本の出版社様が運営するマンガが読めるWebサイトの仕様を確認した
この記事は何
こちらのサービスを構築する上で、各社様のWebサイトの仕様把握が必要でした。具体的には下記の点です。
- マンガの更新情報をどうすれば入手できるか(API, RSS, クローリング)
- クローリングするしかない場合、明示的に禁止またはクローリング間隔を指定していないか(robots.txt)。
- クローリングする場合、何を手がかりにクローリングすれば良いか
なかなか各サイトごとに特徴があって面白かったので、自分の覚書という意味で残しておきたいと思います。主に次のまとめ方で示します。
情報取得方法ごとにサイトを分類するとこうなる
情報取得方法 | サイト(敬称略) |
---|---|
API | マンガクロス |
RSS | マガポケ |
クローリング | ジャンプ+、裏サンデー、ヤンマガweb、MAGCOMI、ガンガンオンライン、ComicWalker、コミックライド、ヤングエースup |
- 多くのサイトは静的に生成されており、HTMLを解析してクローリングする必要があります。(もしかしたら裏で何かデータを流してくれてるかもしれませんが、発見できず)
- マンガクロスさんはやたらとモダンで、サイト自体Reactで作られていました。APIを叩いて取得した情報をもとに動的にコンテンツを表示しているので、それを拾えば必要な情報が手に入りそうです。
クローリングに対する仕様
調査方法
各サイトのURL/robots.txtにアクセスして内容を確認。
調査結果
ほぼすべてのサイトでrobots.txt
を作成しておらず。
robots.txtの設定あり
サイト | 内容 |
---|---|
ComicWalker | 主要クローラ以外はcrawl-delay=10。メンバページ等についてはDisallow。 |
ヤングエースup | img, pdf への直接アクセス禁止 |
robots.txtの設定無し
- ジャンプ+
- 裏サンデー
- コミックライド
- ガンガンオンライン
- MAGCOMI
- マンガクロス
- となりのヤングジャンプ
(調査ミスによる抜け漏れがあったらゴメンナサイ)
面白かったサイト
- ComicWalkerさんは、更新したあとに、数分待つと少し内容が変わったりしていて、情報を取得するのが難しい構成でした…。人力でポチポチ更新されているのでしょうか…?
Discussion