🐕

【Python】ファイルのエンコーディング方法を知りたい!

2024/04/11に公開

PythonでCSVファイルを読み込む際、
エンコーディングエラーになる時があります。

こんな時、正しいエンコーディング方法を引数に指定する必要がありますが、エンコーディング方法が不明な場合、chardetライブラリを使用してファイルのエンコーディングを自動で検出することができます。

手順は以下の通りです。

chardetライブラリーのインストール

!pip install chardet

コード実行

import chardet

# ファイルパス
file_path = '/content/S100SZWZ/XBRL_TO_CSV/jpcrp030000-asr-001_E01834-000_2023-12-31_01_2024-03-05.csv'

# バイナリモードでファイルを開いて読み込む
with open(file_path, 'rb') as file:
    raw_data = file.read()

# chardetを使用してエンコーディングを検出
encoding = chardet.detect(raw_data)

# 検出されたエンコーディング情報を表示
print(encoding)

出力結果

UTF-16だと分かりました。

{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}

Discussion