☕️

カフェオレの淹れ方の機械学習用データセットを作ってみた

2023/10/02に公開

生成 AI

tech

はじめに

AmazonBedrockのPlayGroundでモデルを実際に動かして楽しんでいます!

次にやってみたいことは、自分で用意したデータを使ってモデルを作ることです。

今回は、私がエンジニアをしているコーヒー屋さんのWEBページにある情報をQ&A形式にして
カフェオレの淹れ方のデータセットを作っていきます。

機械学習用のデータセットを作るのは初めてでしたが、
ChatGPTを使って質問していくと、簡単にデータセットを作るコードを出力してくれました。

そして、そのコードをPythonで実行してCSVファイルでデータセットを作ることができました。

以下、データセットを作るまでの流れを紹介します。

カフェオレの淹れ方のデータセットを作る

カフェオレの淹れ方についてデータセットを作っていきましょう。

今回はCSV形式のデータセットを作っていきます。
早速、ChatGPTに質問してきます。

ChatGPTでデータをQ&A形式に直す

今回は以下の記事からQ&Aを作っていきます。

本文をコピーしてChatGPTにペーストしていきます。

(テキスト本文をペーストする)
以上のテキストから質問と回答を20個考えて、csv形式で出力してください

すると

指定されたテキストから質問と回答を生成し、
CSVファイルに出力するPythonスクリプトを以下に示します。
このスクリプトは、与えられたテキストから抽出できる質問と回答を自動的に生成します。

import csv

# テキストから抽出される可能性のある質問と回答をリストに定義
questions = [
    "カフェオレとは何ですか？",
    "カフェラテとは何ですか？",
    "このレシピの特徴は何ですか？",
    "どのような器具が必要ですか？",
    "コーヒードリッパーのおすすめの種類は何ですか？",
    "コーヒーの粉の量は何ですか？",
    "お湯の量はどれくらいですか？",
    "お湯の温度はどれくらいですか？",
    "牛乳の量はどれくらいですか？",
    "氷の量はどれくらいですか？",
    "ドリッパーにペーパーフィルターをセットする方法は？",
    "コーヒーの粉をドリッパーに入れる方法は？",
    "お湯をどれくらい注ぐべきですか？",
    "お湯を注いだ後の待ち時間は？",
    "お湯を注ぐ回数は何回ですか？",
    "コーヒーをかき混ぜる理由は何ですか？",
    "カフェオレが完成したら何をすべきですか？",
    "カフェオレにおすすめなコーヒーは何ですか？",
    "SAKURAI BLENDの味わいは？",
    "Brazil Grama Valleyの特徴的な味は？",
    "Decaf Hondurasの特徴は何ですか？"
]

answers = [
    "カフェオレはドリップコーヒーにミルクを加えた飲み物です。",
    "カフェラテはエスプレッソにミルクを加えた飲み物です。",
    "このレシピはFUKUSUKE COFFEE ROASTERY店舗で提供しているデカフェホンジュラスを使用したカフェインレスオレの淹れ方をベースにしています。",
    "必要な器具にはドリッパー、コーヒードリッパー、ペーパーフィルター、ケトル、スケール、タイマーがあります。",
    "コーヒードリッパーはORIGAMI ドリッパー、ハリオV60、カリタウェーブが特におすすめです。",
    "コーヒーの粉の量は13g（中挽き）です。",
    "お湯の量は100gで、お湯の温度は90度前後です。",
    "牛乳の量は90gです。",
    "氷の量は約4個程度です。",
    "コーヒードリッパーにペーパーフィルターをセットする際、中心から縁まで、渦を描くように全体に注ぎます。",
    "コーヒーの粉をドリッパーに入れて、25gのお湯を注ぎ、20秒待ちます。",
    "20秒たったら、25gのお湯を再び注ぎます（合計50g）。",
    "お湯が落ちてきたら25gずつ追加で注ぎ、合計100gになるまで続けます。",
    "お湯が落ち切ったら、スプーンでコーヒーを下から上へかき混ぜます。",
    "できあがったら、ミルクと氷の入ったグラスに注ぎます。",
    "おすすめなコーヒーとして、SAKURAI BLEND、Brazil Grama Valley、Decaf Hondurasをご紹介します。",
    "SAKURAI BLENDは華やかかつマイルドな味わいで、ミルクと合わせると甘みが際立ちます。",
    "Brazil Grama Valleyはマイルドな味わいで、ローストアーモンドやチョコレートの風味があります。",
    "Decaf Hondurasはカフェインが99.9%除去されたカフェインレスコーヒーで、ダークチョコレートとオレンジの風味があります。"
]

# 質問と回答のペアをCSVファイルに出力
with open('qna_dataset.csv', 'w', newline='') as csvfile:
    fieldnames = ['Question', 'Answer']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    for i in range(len(questions)):
        writer.writerow({'Question': questions[i

出力が途中ですが、こんな感じで質問と答えを分けてくれました。
しかし、これではカフェオレについての質問と答えということが分かりません。
そこで、カフェオレのラベルも一緒につけてもらいました。

Q：質問と回答にカフェオレのラベルをつけてください

A: 質問と回答にカフェオレのラベルを追加して、CSVファイルに出力するスクリプトを以下に示します。

import csv

# 質問と回答のペアを定義
qa_pairs = [
    {
        'Label': 'カフェオレ',
        'Question': "カフェオレとは何ですか？",
        'Answer': "カフェオレはドリップコーヒーにミルクを加えた飲み物です。"
    },
    {
        'Label': 'カフェオレ',
        'Question': "このレシピの特徴は何ですか？",
        'Answer': "このレシピはFUKUSUKE COFFEE ROASTERY店舗で提供しているデカフェホンジュラスを使用したカフェインレスオレの淹れ方をベースにしています。"
    },
    # 他の質問と回答を追加
]

# 質問と回答のペアをCSVファイルに出力
with open('qna_dataset.csv', 'w', newline='') as csvfile:
    fieldnames = ['Label', 'Question', 'Answer']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    for qa_pair in qa_pairs:
        writer.writerow(qa_pair)

print('Q&AデータセットをCSVファイルに保存しました。')

このスクリプトでは、各質問と回答のペアに
ラベル "カフェオレ" を追加し、CSVファイルに出力します。
必要に応じて他の質問と回答を追加してください。

カフェオレの分類ラベルをつけることができました！

コマンドからコードを実行

次に、ChatGPTが教えてくれたコードをpythonで実行していきます。

カフェオレの淹れ方のQ&Aが入ったCSVファイルが一瞬で出力されました！
素晴らしい出来栄えですね。

まとめ

WEBページからテキスト情報を抽出して、ChatGPTでデータをQ&A形式に直し
データセットのCSVファイルを作ってみました。

これからコーヒーの淹れ方に関するデータをもっと集めてモデルに学習させていきたいですね！
以下、カフェオレの淹れ方のデータセットのGithubです。

GitHubで編集を提案

はじめに

カフェオレの淹れ方のデータセットを作る

ChatGPTでデータをQ&A形式に直す

コマンドからコードを実行

まとめ

Discussion