🌊

【Microsoft Fabric】-pandasでデータを読み込み、Tablesに保存するまでの流れ

takekawa tomoki

2024/09/14に公開

 執筆日2024/09/14

 やることレイクハウスにのFiles配下にテーブル形式のExcelがあります。

このファイルをNotebookで読み込み、Tables配下にテーブル形式で保存する。

 そもそもNotebook上で「データの読み込む>Spark,Pandas」でExcelを読み込もうとした。



その際に、以下のようにNot supportedと表示された。

現時点では対処法がわからず、今回の記事を書こうと思いました。


 コード以下のコードを実行する。
# pandasを読み込む
import pandas as pd
# Excelファイルを読み込む
data = pd.read_excel("/lakehouse/default/Files/<ファイル名>.xlsx")
# csvファイルを保存する先を定義
output_file_path = 'abfss://<ワークスペース名>@onelake.dfs.fabric.microsoft.com/<レイクハウス名>.Lakehouse/Files/<ファイル名>.csv'
# csvで保存
data.to_csv(output_file_path, index=False)
# csvファイルを読み込む
df = spark.read.format("csv").option("header","true").load("Files/<ファイル名>.csv")
# df now is a Spark DataFrame containing CSV data from "Files/cleaned_data.csv".
display(df)
# テーブルに保存
df.write.mode("overwrite").format("delta").save("Tables/<テーブル名>")
Tables配下にテーブルが作成されたことを確認

 まとめそもそもなぜ、Not supportedと出力されたのか？不明です。

わかったらこの記事に追記します。

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

Discussion

Naoya Ikeda

結論から言ってしまうと、少なくともまだサポートされてないようですね。
ただ、Copilotはそう言ってくるんですが、資料を要求するとどれも帯に短し襷にも短しで非サポートだと確認できる資料が出てこないですね。
Copilotの挙げてきた資料の一つが
Fabric レイクハウスにデータ取り込むためのオプションですが、これにも非サポートという文言は書いてないのですよね。
他の参照物もHow to read excel file in a notebook in fabric without using datapipelineですからね。
Fabric Spark Runtimeで使っているプロジェクトのソースコードを見ないと確認できない可能性がありますね。