Closed2024/04/26にクローズ2

AutoTrain Advanced向けにデータセットを変換する

でAutoTrain Advancedを使ったけど、既存のデータセットからAutoTrain Advanced向けにフォーマット変換を行った際のメモ。

datasetsのインストール

!pip install datasets

AutoTrain AdvancedではSFTの場合、だと1つのテキスト列にシステムプロンプト・ユーザーのinstructionプロンプト・アシスタントの応答を含めて書くのがデフォルトみたい。上記の手順で使用されている以下のモデルだと、

こんな感じ。

ということで日本語のInstructionデータセットを見る限り、上記のようになってるものはないので、フォーマットを変換する。

今回は以下のデータセットを使用させてもらった。

データセットを読み込み

from datasets import load_dataset

dataset_org = load_dataset("bbz662bbz/databricks-dolly-15k-ja-gozaru")
dataset_org

DatasetDict({
    train: Dataset({
        features: ['category', 'instruction', 'input', 'output', 'index'],
        num_rows: 15015
    })
})

pandasで読み込む。

import pandas as pd

train_df = dataset_org["train"].to_pandas()
train_df

これをAutoTrain Advancedのデータフォーマットに合うように修正。

train_df["text"] = "### Human: " + train_df["instruction"] + "### Assistant: " + train_df["output"]
train_df = train_df[["text"]]
train_df

元のdatasetフォーマットに戻す。

from datasets import Dataset, DatasetDict

dataset = Dataset.from_pandas(train_df)

dataset_dict = DatasetDict({
    'train': dataset
})
dataset

Dataset({
    features: ['text'],
    num_rows: 15015
})

HuggingFaceにアップロード。

from google.colab import userdata

dataset_dict.push_to_hub("databricks-dolly-15k-ja-gozaru-simple", token=userdata.get('HF_TOKEN'))

README.mdを修正して所在やライセンス等を記載しておく。

できたデータセットはこれ

このスクラップは2024/04/26にクローズされました