👻

【Microsoft Fabric/pyspark】- sparkでcsvファイルで読み込んだ際にカラムの型を変える方法

2024/09/22に公開

執筆日

2024/09/22

やること

以下のデータをFabric上でsparkで読み込んだ。
その際に、住宅価格(SalePrice)がString(文字列)型になっていた。
数値(Integer)型に変更して、Tablesに保存する方法を紹介します。
https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data?select=train.csv

コード

main.py
# データを読み込む
df = spark.read.format("csv").option("header","true").load("Files/train.csv")
# SalesPriceのカラムをintegerに変更する
df = df.withColumn("SalePrice", col("SalePrice").cast("integer"))
# 型が変更されたことを確認する
df.schema["SalePrice"].dataType  

以下が出力されればOKです

IntegerType()
ヘッドウォータース

Discussion