Chapter 12

Pandasでデータの読み込み

poclabweb
poclabweb
2022.11.03に更新

環境の情報

エラーが起きたり、同じ用にプログラムが動かなかったりする場合にはOS, python のversion、インストールするプログラムのversionが異なっていることがありますのでversionの情報を書いておきます。versionに関することは以下のプログラムで出力可能です。

もしエラーで動かないなどが合った場合には、OSやpython, 呼び出しているライブラリーのバージョンなどを確認して、確認してください。

今回使用しているOSを表示

今回は、google colabolatoryを使用しているのでLinuxになります。

import platform
platform.platform()

どの環境で動かしたプログラムなのかを残しておくのに便利になります。

pythonのバージョン確認

!python -V

pythonは、3.7のほか、3.8, 3.9, 3.10などが出ています。

python3.xと同じ3系ならば動かし方や書き方がほとんど同じですが、プログラムが動かなかった場合にはversionの確認をしたほうが良いです。
ライブラリーによっては新しいversionに対応していなくてインストールできないものもあります。

pandasの呼び出しとversionの確認

使用するライブラリーも、どのversionを使用しているかを確認するのが良いです。

# 一般的にpandasはpdと名前を付けてimportされる
import pandas as pd
# panasのversion
pd.__version__

今回使用しているplatformとpythonとpandasは、以下のバージョンになっています。

Pythonのバージョン確認、モジュールのimport、データの読み込み

pandasで読み込むデータは、csv形式で呼び出すことが多いです。

今回、読み込むデータをwgetでgithubから取得します。(このデータは、phenol-explorer(Dababase on polyphenol content in food)というデータベースにあるデータになります。)

!wget https://raw.githubusercontent.com/chemoinformatics-lecture/lecture-beginner/main/lesson02_jupyter/data/compounds-structures.csv

ダウンロードしたファイルをpandasで読み込んでdataframeにいれます。ここではdataframeの頭文字をとってdfと略しています。

このdfの部分は任意の文字になります。自分で好きに変更することができます。ただし、dataframeであることがわかるような名前をつけたほうが可読性がよくなります。dataframeの頭文字をとってdfがよく使用されます。

pd.read_csvのあとにファイル名を指定して読み込みます。
読み込んだあとにdfと記載してdataframeを表示させます。

df = pd.read_csv('/content/compounds-structures.csv', sep=',')
df

プログラムの実行結果は、以下のようになります。id, smiles, compound_classなどのデータの列があるデータが読み込まれたのがわかると思います。

他にも、読み込み形式は、エクセル形式を読み込めるread_excel, データベースのSQL形式を読み込めるread_sqlなどがあります。