🌊
【Microsoft Fabric】-pandasでデータを読み込み、Tablesに保存するまでの流れ
執筆日
2024/09/14
やること
レイクハウスにのFiles配下にテーブル形式のExcelがあります。
このファイルをNotebookで読み込み、Tables配下にテーブル形式で保存する。
そもそも
Notebook上で「データの読み込む>Spark,Pandas」でExcelを読み込もうとした。
その際に、以下のようにNot supportedと表示された。
現時点では対処法がわからず、今回の記事を書こうと思いました。
コード
- 以下のコードを実行する。
# pandasを読み込む
import pandas as pd
# Excelファイルを読み込む
data = pd.read_excel("/lakehouse/default/Files/<ファイル名>.xlsx")
# csvファイルを保存する先を定義
output_file_path = 'abfss://<ワークスペース名>@onelake.dfs.fabric.microsoft.com/<レイクハウス名>.Lakehouse/Files/<ファイル名>.csv'
# csvで保存
data.to_csv(output_file_path, index=False)
# csvファイルを読み込む
df = spark.read.format("csv").option("header","true").load("Files/<ファイル名>.csv")
# df now is a Spark DataFrame containing CSV data from "Files/cleaned_data.csv".
display(df)
# テーブルに保存
df.write.mode("overwrite").format("delta").save("Tables/<テーブル名>")
- Tables配下にテーブルが作成されたことを確認
まとめ
そもそもなぜ、Not supportedと出力されたのか?不明です。
わかったらこの記事に追記します。
Discussion