Closed2

AutoTrain Advanced向けにデータセットを変換する

kun432kun432

datasetsのインストール

!pip install datasets

AutoTrain AdvancedではSFTの場合、だと1つのテキスト列にシステムプロンプト・ユーザーのinstructionプロンプト・アシスタントの応答を含めて書くのがデフォルトみたい。上記の手順で使用されている以下のモデルだと、

https://huggingface.co/datasets/timdettmers/openassistant-guanaco

こんな感じ。

ということで日本語のInstructionデータセットを見る限り、上記のようになってるものはないので、フォーマットを変換する。

今回は以下のデータセットを使用させてもらった。

https://huggingface.co/datasets/bbz662bbz/databricks-dolly-15k-ja-gozarinnemon

データセットを読み込み

from datasets import load_dataset

dataset_org = load_dataset("bbz662bbz/databricks-dolly-15k-ja-gozaru")
dataset_org
DatasetDict({
    train: Dataset({
        features: ['category', 'instruction', 'input', 'output', 'index'],
        num_rows: 15015
    })
})

pandasで読み込む。

import pandas as pd

train_df = dataset_org["train"].to_pandas()
train_df

これをAutoTrain Advancedのデータフォーマットに合うように修正。

train_df["text"] = "### Human: " + train_df["instruction"] + "### Assistant: " + train_df["output"]
train_df = train_df[["text"]]
train_df

元のdatasetフォーマットに戻す。

from datasets import Dataset, DatasetDict

dataset = Dataset.from_pandas(train_df)

dataset_dict = DatasetDict({
    'train': dataset
})
dataset
Dataset({
    features: ['text'],
    num_rows: 15015
})

HuggingFaceにアップロード。

from google.colab import userdata

dataset_dict.push_to_hub("databricks-dolly-15k-ja-gozaru-simple", token=userdata.get('HF_TOKEN'))

README.mdを修正して所在やライセンス等を記載しておく。

できたデータセットはこれ

https://huggingface.co/datasets/kun432/databricks-dolly-15k-ja-gozaru-simple

このスクラップは2024/04/26にクローズされました