🐨

Hugging Faceにデータセットをアップロードする方法

2025/03/10に公開

前提

Hugging Faceのアカウント登録しましょう!

方法

まずは以下にアクセス
https://huggingface.co/new-dataset

1. リポジトリ作成

個人アカウントに作成する場合は右上のアカウントアイコンから以下を選択

組織アカウントに作成する場合は、組織アカウントの画面にアクセスして以下を選択


データセット名を適当に入力して、ライセンスはUnknownを選択します。

一般公開したくないのでPrivateにします。


2. アップロード

作成されたリポジトリの「Files and Versions」→「Add file」→「Upload files」を選択。

ローカルから対象のファイルを選択

あとはmainにコミットするだけでファイルのアップロードは完了です。


本来は以下のようにアップロードしているDatasetのプレビューが見れるのですが、プライベートリポジトリの場合はEnterpriseプランにしないといけないそうです。

3. ダウンロード

パッケージをインストール

!pip install datasets transformers

プライベートリポジトリなんで、Hugging Faceへのログインをする

load_data.ipynb
from huggingface_hub import notebook_login
notebook_login()

データをロードする

load_data.ipynb
from datasets import load_dataset

dataset = load_dataset( "<your datasets>", split='train', token=True)
print(dataset)

ループ処理して中身を確認

load_data.ipynb
for i in dataset:
    print(i)
ヘッドウォータース

Discussion