🐨
Hugging Faceにデータセットをアップロードする方法
前提
Hugging Faceのアカウント登録しましょう!
方法
まずは以下にアクセス
1. リポジトリ作成
個人アカウントに作成する場合は右上のアカウントアイコンから以下を選択

組織アカウントに作成する場合は、組織アカウントの画面にアクセスして以下を選択

データセット名を適当に入力して、ライセンスはUnknownを選択します。

一般公開したくないのでPrivateにします。

2. アップロード
作成されたリポジトリの「Files and Versions」→「Add file」→「Upload files」を選択。

ローカルから対象のファイルを選択

あとはmainにコミットするだけでファイルのアップロードは完了です。

本来は以下のようにアップロードしているDatasetのプレビューが見れるのですが、プライベートリポジトリの場合はEnterpriseプランにしないといけないそうです。


3. ダウンロード
パッケージをインストール
!pip install datasets transformers
プライベートリポジトリなんで、Hugging Faceへのログインをする
load_data.ipynb
from huggingface_hub import notebook_login
notebook_login()
データをロードする
load_data.ipynb
from datasets import load_dataset
dataset = load_dataset( "<your datasets>", split='train', token=True)
print(dataset)
ループ処理して中身を確認
load_data.ipynb
for i in dataset:
print(i)
Discussion