🎉

Google ColaboratoryでKaggleや機械学習:ファイル読み込み・保存・ライブラリインストール方法

2024/01/14に公開

Google Colaboratory(通称:Colab)は、ブラウザベースで利用可能な無料のJupyterノートブック環境です。
わたしは最近Kaggleに挑戦し始めましたが、Colabも時々使ってます。環境を変えても作業できるのが魅力ですよね。
本記事では、ファイルの読み込み・保存・ライブラリのインストール方法などご紹介します。

Google Drive上のファイルを読み込む

まずはGoogle Colabノートブックで以下のコードを実行します。

from google.colab import drive
drive.mount('/content/drive')

下記画面が表示された後、認証プロセスが始まります。

表示される画面に沿ってGoogleアカウントを選択して認証を行います。

次にローカル上のファイルをGoogle Driveにアップロードします。その後、Google Colaboratoryのファイルを開き、下記のようにパスを指定します。
/content/drive/My Drive/の後は、実際のファイル名を指定してください。

train_path = '/content/drive/My Drive/sample_train.csv'
dealings_path = '/content/drive/My Drive/sample_train.csv'

さらに、ファイルを読み込みます。

import pandas as pd

train_df = pd.read_csv(train_path)
dealings_df = pd.read_csv(dealings_path)

【ファイル読み込み確認】

Google Colaboratoryで作成したファイルの保存

Google Collaboratory上のファイルを保存します。submissionをcsvファイルとして保存する場合、次のようにします。
/content/drive/My Drive/の後は、保存したいファイル名を指定してください。

submission.to_csv('/content/drive/My Drive/submission_sample.csv', index=False)

Google Collaboratoryにライブラリインストール

デフォルトで用意されていないライブラリを使おうとすると、【ModuleNotFoundError】が表示されます。

ライブラリを読み込む前に、ライブラリをインストールするコマンドを実行しておきます。

!pip install category_encoders

Google Colaboratoryにデフォルトで用意されているライブラリ

なお、Google Colaboratoryには、よく使うライブラリはデフォルトで用意されています。次のようなものがあります。

-NumPy:数値計算を効率的に行うためのライブラリ。
-Pandas:データ分析と操作のための強力なライブラリ。
-MatplotlibとSeaborn:データの可視化に使用されるライブラリ。
-Scikit-learn:機械学習のための多様なツールを提供するライブラリ。
-TensorFlowとKeras:ディープラーニングモデルを構築、トレーニングするためのライブラリ。

下記コマンドを実行すると、どのようなライブラリが入っているか確認できます。

!pip list

--

記事がお役にたてばうれしいです^^

Discussion