📊

【1日目】kaggleからデータセットをダウンロードする【2021アドベントカレンダー】

2021/12/01に公開

2021年1人アドベントカレンダー(機械学習)、1日目の記事になります。

https://qiita.com/advent-calendar/2021/solo_advent_calendar

データセットは25日間共通で kaggle のVideo Games Sales 2019を使用します。

毎回手動で Colab にアップロードするのは手間なので、Google Drive に kaggle.json ファイルをセットして API 経由で自動でダウンロードします。

https://rikei-bakadikara2021.com/kaggle-google-colab-tutorial/

kaggle アカウントを作って、プロフィールから kaggle.json ファイルをダウンロードしましょう。

Colab のコードはこちら Open In Colab

Colab から Google Drive をマウントします。

from google.colab import drive
drive.mount('/content/drive')

表示されるURLをクリックしてGoogle認証を行います。

表示されるコードをコピペして実行(Enterキー)しましょう。

データの保存先に Google Drive を使います。

用意した kaggle.json を Google Drive 直下に作成した kaggle フォルダの中に保存します。

Colab の下記スクリプトを実行します。

# kaggle ライブラリのインストール
!pip install kaggle

# 一時フォルダに .kaggleフォルダを作成
!mkdir ~/.kaggle

# MyDrive の kaggle.json を一時フォルダ内の .kaggleフォルダにコピー
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/

# アクセス権限の設定
!chmod 600 ~/.kaggle/kaggle.json

!mkdir ~/.kaggle

# zipファイルのダウンロード
!kaggle datasets download -d ashaheedq/video-games-sales-2019 -p /content/drive/MyDrive/kaggle

# 解凍
!unzip /content/drive/MyDrive/kaggle/video-games-sales-2019.zip -d /content/drive/MyDrive/kaggle

!rm /content/drive/MyDrive/kaggle/video-games-sales-2019.zip

2回目以降は Google Drive の kaggle フォルダにダウンロード済みのファイルを上書きするかどうか聞かれるので、とりあえず None と入力して実行しましょう。

import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/kaggle/vgsales-12-4-2019.csv")
df.head(3)

これでデータセットの読込は終わりです!

1日目は以上になります、最後までお読みいただきありがとうございました。

Discussion