🎃

クイズ関連

2024/07/14に公開

クイズ

tech

クイズを作るアプリの話

Dify×GASでテスト自動システムを構築しよう｜三國陸真 (2024-07-11)

morioka/quiz-generation-baseline
- クイズ作問部門のベースライン実装としての、OpenAI APIを用いた実装です。
- テーマを入力として、早押しクイズの問題文と正解の対を出力します。
  -2023/08/31 以降、コードの変更は行いません。

データセット作成

2024年4月現在、LLM-jpや松尾研の公募型LLM開発の動き、SwallowやMixtral, WizardLM, Cohere Command-R、Meta Llama3など、ベンチマークスコアで少し前のGPT-4に匹敵する、ローカルで実行可能なLLMが手に入るようになってきた。またChatVectorに代表されるタスクベクトルの概念に基づいたモデルの拡張や、そのモデルマージを最適化するsakana.aiのGAベースのマージ手法や、その後のTPEを用いたマージなど能力向上の可能性の発展にいとまがない。

（一方で、本当に「厳密な」論理的推論ができているか、オントロジーに基づいた推論ができるのかは、個人的に疑問。この辺のガードレールに意味があるだろう)

で、それに関連して日本語でのデータセット作成、とくにLLMを用いてのデータセット作成が急速に動きがある。

例えば cl-nagoya/auto-wiki-qa · Datasets at Hugging Face

"""東工大が公開しているSwallow-MXを用いて、Wikipedia中のテキストを入力として「質問(query)」と「回答(answer)」を生成し、生成された質問と回答についてフィルタリングを行ったデータセットです。
日本語のフリーなQAデータセットとしては2024年4月現在で最大規模となっています。また、データの生成にはテンプレートなどのルールベース処理を入れていないため、既存データセットと比較して質問・回答の出力・形式が多様であることが特徴です。
モデルに知識を教えるためのQAデータセットとしての利用や、検索拡張生成(Retrieval Augmented Generation: RAG)のための検索・埋め込みモデル開発への利用を想定しています。"""

まあ、競技クイズでなく、小テスト的なクイズであれば十分だろう。(そこにクイズらしい表現やクイズの文法をどう入れていくか)

たしかにfew-shotで十分かもしれない。few-shot固定では出力も固定だが、作問のコンテキストを入れ替えると多様性が生まれるようだ。

こちらでやってみると、few-shotのプロンプトを入れ替えても出力が違ってくるので、これで多様性を確保することもできるようだ。

あとは、それが妥当かは、解かせてみるしかないか？あとは、質問文＋正解を平叙文に直して、そこから単純な命題をどの程度抽出できるか、そこに齟齬がないか、だろうか。
それが埋め込みの類似度で測れるとよいが。ありそうで、なさそうで、ありそうなネタな気がする。

まあ、期待しすぎないことだ。n-gram モデルのお化けなだけ。

https://twitter.com/oshizo/status/1781685095851835705

https://twitter.com/oshizo/status/1781685706081120332

面白さは... AI王4の採点データが使えれば。。。?

difyのknowledgeを作らせる際に、QA形式に落とし込むオプションがあったのね。
retrievalにてクエリとの類似度を見るのだから、documentもQuestion-Answerに直しておくのは意味がある。名称を忘れたが、クエリに対して適当な回答を生成して、それと類似するパッセージを検索する手法と考えは同じ。(2024-07-14)

クイズを作るアプリの話

データセット作成

Discussion