📸
簡単にデータセットを作る
動作環境
- Windows 10
- Pyhton 3.9.6
事前準備
icrawlerのインストール
コマンドプロンプトを開いて、以下のコマンドを実行
pip install icrawler
いよいよ画像収集
条件は期間・ライセンス・カラー・画像サイズなど色々指定できますが
今回は、「猫の写真をGoogle crawlerで50枚」集めてみます。
クローラは、BingやBaiduでも収集可能です。
- テキストエディタで以下のファイルを作成
from icrawler.builtin import GoogleImageCrawler
# ディレクトリ名
dir_name = 'images'
# 探したいキーワード
search_key = 'cat'
google_crawler = GoogleImageCrawler(
storage = {'root_dir' : dir_name}
)
google_crawler.crawl(keyword=search_key, max_num=50)
- コマンドプロンプトでファイルを実行する
py ファイル名
- 画像が保存されました
最後に
保存された画像を見ると、求めていたものと違う画像も含まれていました。なので、条件を細かく指定するとか自分で削除する必要がありそうです。
参考資料
Discussion