Google Formsで指示応答データセットを作る
宣伝
以下の記事で日本語のQ&A/会話データセットを収集しています。自分もデータセット作成に協力しています。
Google Formsを使って非常に簡単に指示応答データセットが収集できるため、大規模言語モデルの学習データに興味のある方は、すでに投稿されているデータを参考に作成してみてください。
目的
上記の指示応答データセットの収集がとてもシンプルに作成されていたため、自分でも同様の仕組みを作ってみます。
はじめに
日本語で高品質な指示応答データセットを構築することは、大規模言語モデルに日本語を獲得させる上で非常に重要なタスクの一つです。
英文でも1,000件の高品質な指示応答のペアを作り学習させることで、大規模言語モデルの応答を高品質な応答に偏らせる、いわゆるアライメントを実現した事例が報告されています。
では実際に日本語の指示応答データセットを作る方法を実装しましょう。本稿では、なるべく作業負荷を減らしながら指示応答データセットを構築することを目標とします。
入力フォームを作る
Google Formsで入力フォームを作りましょう。誰かと協力するときにも、Google Formsを共有するだけで済みます。
Googleアカウントでログインすると以下のような無題のFormsが開かれます。
指示と応答を入力する項目を作りましょう。指示と応答を複製すれば、複数ターンの対話データセットも作成できます。
項目を入力したら、Formsを開いている画面の右上の送信ボタンから作成したいデバイスを持っている人に送信しましょう。共有できる場所にURLを置いておく方が運用が楽です。
メールが届くので「フォームに記入する」からFormsにアクセスしましょう。
指示応答を入力する
指示と応答を入力していきましょう。
おすすめ
スマホでもPCでも音声入力を使用することを強くお勧めします。
これは筆者に原因があることかもしれませんが、PCに向き合った状態で指示応答を考えていると、2時間ほどですぐに集中力が途切れます。指を動かすキーボード入力も段々としんどくなってきますし、何より、徹夜や業務終了後などで集中力が低下した状態の指示応答のデータセットは高品質ではない可能性が高いです。1件目と100件目の指示応答データセットをできるだけ同じ状態で入力できるようにするため、音声入力を使用しましょう。
また、PCに向き合わなくて済むのも音声入力の利点です。ベッドでくつろいだまま入力したり、気分転換に外出する時のスキマ時間を使って、スマホでデータ作成も行えます。筆者はPCに向き合うよりもスマホでデータセットを作成することのほうが多いです。
PCであればChromeのプラグインのVoice Inがおすすめです。
iPhoneやAndroidのスマホであれば標準で音声入力機能が付いているかと思いますので、そちらを利用しましょう。
指示応答を集計する
回答を送信すると、Formsのページに回答が集計されます。画面右下にある「スプレッドシートにリンク」ボタンをクリックして、新しいスプレッドシートを作成します。
スプレッドシートに指示応答データセットが格納されていることを確認します。
これで任意の件数の指示応答データセットを作成できます。
Discussion