👻
【Microsoft Fabric/pyspark】- sparkでcsvファイルで読み込んだ際にカラムの型を変える方法
執筆日
2024/09/22
やること
以下のデータをFabric上でsparkで読み込んだ。
その際に、住宅価格(SalePrice)がString(文字列)型になっていた。
数値(Integer)型に変更して、Tablesに保存する方法を紹介します。
コード
main.py
# データを読み込む
df = spark.read.format("csv").option("header","true").load("Files/train.csv")
# SalesPriceのカラムをintegerに変更する
df = df.withColumn("SalePrice", col("SalePrice").cast("integer"))
# 型が変更されたことを確認する
df.schema["SalePrice"].dataType
以下が出力されればOKです
IntegerType()
Discussion