🐍

【Python】Polarsでデータ読み込みでエラーが出た時の対処法

2024/06/21に公開

課題

例えば、こちらのデータセットを読み込むと次のエラーが出ます。

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview

[in]
import polars as pl
df = pl.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
[out]
ComputeError: could not parse `NA` as dtype `i64` at column 'MasVnrArea' (column number 27)

'MasVnrArea'という名前の列はint64で読み込もうとしているが、NAは数値にできないと言われています。
NAがnullとして扱われていないため、このようなエラーが出ます。

解決策

Polarsではnullが欠損値として扱われるので、オプションでnull_valuesをつけて、欠損値を指定します。

df = pl.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv', null_values=["NA"])

無事読み込めました。

Discussion