Google ColaboratoryでKaggleや機械学習:ファイル読み込み・保存・ライブラリインストール方法
Google Colaboratory(通称:Colab)は、ブラウザベースで利用可能な無料のJupyterノートブック環境です。
わたしは最近Kaggleに挑戦し始めましたが、Colabも時々使ってます。環境を変えても作業できるのが魅力ですよね。
本記事では、ファイルの読み込み・保存・ライブラリのインストール方法などご紹介します。
Google Drive上のファイルを読み込む
まずはGoogle Colabノートブックで以下のコードを実行します。
from google.colab import drive
drive.mount('/content/drive')
下記画面が表示された後、認証プロセスが始まります。
表示される画面に沿ってGoogleアカウントを選択して認証を行います。
次にローカル上のファイルをGoogle Driveにアップロードします。その後、Google Colaboratoryのファイルを開き、下記のようにパスを指定します。
/content/drive/My Drive/の後は、実際のファイル名を指定してください。
train_path = '/content/drive/My Drive/sample_train.csv'
dealings_path = '/content/drive/My Drive/sample_train.csv'
さらに、ファイルを読み込みます。
import pandas as pd
train_df = pd.read_csv(train_path)
dealings_df = pd.read_csv(dealings_path)
【ファイル読み込み確認】
Google Colaboratoryで作成したファイルの保存
Google Collaboratory上のファイルを保存します。submissionをcsvファイルとして保存する場合、次のようにします。
/content/drive/My Drive/の後は、保存したいファイル名を指定してください。
submission.to_csv('/content/drive/My Drive/submission_sample.csv', index=False)
Google Collaboratoryにライブラリインストール
デフォルトで用意されていないライブラリを使おうとすると、【ModuleNotFoundError】が表示されます。
ライブラリを読み込む前に、ライブラリをインストールするコマンドを実行しておきます。
!pip install category_encoders
Google Colaboratoryにデフォルトで用意されているライブラリ
なお、Google Colaboratoryには、よく使うライブラリはデフォルトで用意されています。次のようなものがあります。
-NumPy:数値計算を効率的に行うためのライブラリ。
-Pandas:データ分析と操作のための強力なライブラリ。
-MatplotlibとSeaborn:データの可視化に使用されるライブラリ。
-Scikit-learn:機械学習のための多様なツールを提供するライブラリ。
-TensorFlowとKeras:ディープラーニングモデルを構築、トレーニングするためのライブラリ。
下記コマンドを実行すると、どのようなライブラリが入っているか確認できます。
!pip list
--
記事がお役にたてばうれしいです^^
Discussion