📊
【1日目】kaggleからデータセットをダウンロードする【2021アドベントカレンダー】
2021年1人アドベントカレンダー(機械学習)、1日目の記事になります。
データセットは25日間共通で kaggle のVideo Games Sales 2019を使用します。
毎回手動で Colab にアップロードするのは手間なので、Google Drive に kaggle.json ファイルをセットして API 経由で自動でダウンロードします。
kaggle アカウントを作って、プロフィールから kaggle.json ファイルをダウンロードしましょう。
Colab のコードはこちら
Colab から Google Drive をマウントします。
from google.colab import drive
drive.mount('/content/drive')
表示されるURLをクリックしてGoogle認証を行います。
表示されるコードをコピペして実行(Enterキー)しましょう。
データの保存先に Google Drive を使います。
用意した kaggle.json を Google Drive 直下に作成した kaggle フォルダの中に保存します。
Colab の下記スクリプトを実行します。
# kaggle ライブラリのインストール
!pip install kaggle
# 一時フォルダに .kaggleフォルダを作成
!mkdir ~/.kaggle
# MyDrive の kaggle.json を一時フォルダ内の .kaggleフォルダにコピー
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/
# アクセス権限の設定
!chmod 600 ~/.kaggle/kaggle.json
!mkdir ~/.kaggle
# zipファイルのダウンロード
!kaggle datasets download -d ashaheedq/video-games-sales-2019 -p /content/drive/MyDrive/kaggle
# 解凍
!unzip /content/drive/MyDrive/kaggle/video-games-sales-2019.zip -d /content/drive/MyDrive/kaggle
!rm /content/drive/MyDrive/kaggle/video-games-sales-2019.zip
2回目以降は Google Drive の kaggle フォルダにダウンロード済みのファイルを上書きするかどうか聞かれるので、とりあえず None と入力して実行しましょう。
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/kaggle/vgsales-12-4-2019.csv")
df.head(3)
これでデータセットの読込は終わりです!
1日目は以上になります、最後までお読みいただきありがとうございました。
Discussion