見出し画像

Google Colabで画像収集

Google Colabで画像収集をする場合、seleniumを使った例が多かったのですが、Google Colabの仕様変更(2023年1月)そのままの例が使えなくなってしまいました。WebDriverを使えるようにするまでの道のりが結構手間で、Google Colab上で色々とインストール設定が必要になってしまいました。

それに対応したのが上のGoogle Colabのノートになります。他になにかないかと探していたところgoogle_images_downloadがあるとのことで試したのですが、今度はGoolgeの画像検索ページの仕様変更でうまく行かなくなっていました。
最終的にたどり着いたのが、機械学習などで利用するicrawlerというライブラリです。仕様変更が多いものはChatGPTだけだとたどり着かず、Web検索などと組み合わせる必要があるので一気に難易度が上がるように思います。トライ&エラーを繰り返していかないとたどり着かない感じです。
最終的なコード軍は次のとおりです。まずライブラリをインストールします。

!pip install icrawler

次にGoogle ColabにGoogle Driveをマウント(くっつける:追加)します。

from google.colab import drive

drive.mount('/content/drive')
マウント時のダアログ1
マウント時のダイアログ2
マウント時のダイアログ3

とするとGoogle DriveをGoogle Colabにマウントすることができます。

from icrawler.builtin import GoogleImageCrawler

save_directory = "/content/drive/MyDrive/Colab Notebooks/images" # 保存先ディレクトリ

google_crawler = GoogleImageCrawler(storage={"root_dir": save_directory})

search_keywords = "犬 フリー" # 検索キーワード
num_images = 10 # 取得する画像の数

google_crawler.crawl(keyword=search_keywords, max_num=num_images)
マウントされたGoogle Drive

この記事が気に入ったらサポートをしてみませんか?