📸

簡単にデータセットを作る

2021/09/15に公開

動作環境

  • Windows 10
  • Pyhton 3.9.6

事前準備

icrawlerのインストール

コマンドプロンプトを開いて、以下のコマンドを実行

pip install icrawler

いよいよ画像収集

条件は期間・ライセンス・カラー・画像サイズなど色々指定できますが
今回は、「猫の写真をGoogle crawlerで50枚」集めてみます。
クローラは、BingやBaiduでも収集可能です。

  1. テキストエディタで以下のファイルを作成
from icrawler.builtin import  GoogleImageCrawler

# ディレクトリ名
dir_name = 'images'
# 探したいキーワード
search_key = 'cat'

google_crawler = GoogleImageCrawler(
    storage = {'root_dir' : dir_name}
)
google_crawler.crawl(keyword=search_key, max_num=50)

  1. コマンドプロンプトでファイルを実行する
py ファイル名
  1. 画像が保存されました

最後に

保存された画像を見ると、求めていたものと違う画像も含まれていました。なので、条件を細かく指定するとか自分で削除する必要がありそうです。

参考資料

https://icrawler.readthedocs.io/en/latest/builtin.html
https://aiacademy.jp/media/?p=352

Discussion