☕️

カフェオレの淹れ方の機械学習用データセットを作ってみた

2023/10/02に公開

はじめに

AmazonBedrockのPlayGroundでモデルを実際に動かして楽しんでいます!
https://zenn.dev/yasuna/articles/cc99387fcd3989

次にやってみたいことは、自分で用意したデータを使ってモデルを作ることです。

今回は、私がエンジニアをしているコーヒー屋さんのWEBページにある情報をQ&A形式にして
カフェオレの淹れ方のデータセットを作っていきます。

機械学習用のデータセットを作るのは初めてでしたが、
ChatGPTを使って質問していくと、簡単にデータセットを作るコードを出力してくれました。

そして、そのコードをPythonで実行してCSVファイルでデータセットを作ることができました。

以下、データセットを作るまでの流れを紹介します。

カフェオレの淹れ方のデータセットを作る

カフェオレの淹れ方についてデータセットを作っていきましょう。

今回はCSV形式のデータセットを作っていきます。
早速、ChatGPTに質問してきます。

ChatGPTでデータをQ&A形式に直す

今回は以下の記事からQ&Aを作っていきます。
https://fukusukecoffee.com/magazine/how-to-brew/iced-cafe-au-lait/

本文をコピーしてChatGPTにペーストしていきます。

(テキスト本文をペーストする)
以上のテキストから質問と回答を20個考えて、csv形式で出力してください

すると

出力が途中ですが、こんな感じで質問と答えを分けてくれました。
しかし、これではカフェオレについての質問と答えということが分かりません。
そこで、カフェオレのラベルも一緒につけてもらいました。

カフェオレの分類ラベルをつけることができました!

コマンドからコードを実行

次に、ChatGPTが教えてくれたコードをpythonで実行していきます。

カフェオレの淹れ方のQ&Aが入ったCSVファイルが一瞬で出力されました!
素晴らしい出来栄えですね。

まとめ

WEBページからテキスト情報を抽出して、ChatGPTでデータをQ&A形式に直し
データセットのCSVファイルを作ってみました。

これからコーヒーの淹れ方に関するデータをもっと集めてモデルに学習させていきたいですね!
以下、カフェオレの淹れ方のデータセットのGithubです。
https://github.com/YasunaCoffee/brew-dataset

GitHubで編集を提案

Discussion