Closed2
AutoTrain Advanced向けにデータセットを変換する
でAutoTrain Advancedを使ったけど、既存のデータセットからAutoTrain Advanced向けにフォーマット変換を行った際のメモ。
datasetsのインストール
!pip install datasets
AutoTrain AdvancedではSFTの場合、だと1つのテキスト列にシステムプロンプト・ユーザーのinstructionプロンプト・アシスタントの応答を含めて書くのがデフォルトみたい。上記の手順で使用されている以下のモデルだと、
こんな感じ。
ということで日本語のInstructionデータセットを見る限り、上記のようになってるものはないので、フォーマットを変換する。
今回は以下のデータセットを使用させてもらった。
データセットを読み込み
from datasets import load_dataset
dataset_org = load_dataset("bbz662bbz/databricks-dolly-15k-ja-gozaru")
dataset_org
DatasetDict({
train: Dataset({
features: ['category', 'instruction', 'input', 'output', 'index'],
num_rows: 15015
})
})
pandasで読み込む。
import pandas as pd
train_df = dataset_org["train"].to_pandas()
train_df
これをAutoTrain Advancedのデータフォーマットに合うように修正。
train_df["text"] = "### Human: " + train_df["instruction"] + "### Assistant: " + train_df["output"]
train_df = train_df[["text"]]
train_df
元のdatasetフォーマットに戻す。
from datasets import Dataset, DatasetDict
dataset = Dataset.from_pandas(train_df)
dataset_dict = DatasetDict({
'train': dataset
})
dataset
Dataset({
features: ['text'],
num_rows: 15015
})
HuggingFaceにアップロード。
from google.colab import userdata
dataset_dict.push_to_hub("databricks-dolly-15k-ja-gozaru-simple", token=userdata.get('HF_TOKEN'))
README.mdを修正して所在やライセンス等を記載しておく。
できたデータセットはこれ
このスクラップは2024/04/26にクローズされました