🎃

クイズ関連

2024/07/14に公開

クイズを作るアプリの話

https://twitter.com/wappaboy/status/1770978353253908814

https://x.com/morioka/status/1811756588665126969

https://x.com/Tech_Rope0801/status/1811325262728237456

  • morioka/quiz-generation-baseline
    • クイズ作問部門のベースライン実装としての、OpenAI APIを用いた実装です。
    • テーマを入力として、早押しクイズの問題文と正解の対を出力します。
      -2023/08/31 以降、コードの変更は行いません。

データセット作成

2024年4月現在、LLM-jpや松尾研の公募型LLM開発の動き、SwallowやMixtral, WizardLM, Cohere Command-R、Meta Llama3など、ベンチマークスコアで少し前のGPT-4に匹敵する、ローカルで実行可能なLLMが手に入るようになってきた。またChatVectorに代表されるタスクベクトルの概念に基づいたモデルの拡張や、そのモデルマージを最適化するsakana.aiのGAベースのマージ手法や、その後のTPEを用いたマージなど能力向上の可能性の発展にいとまがない。

(一方で、本当に「厳密な」論理的推論ができているか、オントロジーに基づいた推論ができるのかは、個人的に疑問。この辺のガードレールに意味があるだろう)

で、それに関連して日本語でのデータセット作成、とくにLLMを用いてのデータセット作成が急速に動きがある。

例えば cl-nagoya/auto-wiki-qa · Datasets at Hugging Face

https://twitter.com/hpp_ricecake/status/1781660882835313084

"""東工大が公開しているSwallow-MXを用いて、Wikipedia中のテキストを入力として「質問(query)」と「回答(answer)」を生成し、生成された質問と回答についてフィルタリングを行ったデータセットです。
日本語のフリーなQAデータセットとしては2024年4月現在で最大規模となっています。 また、データの生成にはテンプレートなどのルールベース処理を入れていないため、既存データセットと比較して質問・回答の出力・形式が多様であることが特徴です。
モデルに知識を教えるためのQAデータセットとしての利用や、検索拡張生成(Retrieval Augmented Generation: RAG)のための検索・埋め込みモデル開発への利用を想定しています。"""

まあ、競技クイズでなく、小テスト的なクイズであれば十分だろう。(そこにクイズらしい表現やクイズの文法をどう入れていくか)

たしかにfew-shotで十分かもしれない。few-shot固定では出力も固定だが、作問のコンテキストを入れ替えると多様性が生まれるようだ。

こちらでやってみると、few-shotのプロンプトを入れ替えても出力が違ってくるので、これで多様性を確保することもできるようだ。

https://chat.openai.com/share/8216bbf7-6757-45f5-a23d-d6d46fb6f82a

https://platform.openai.com/playground/p/03YNTDlHN99uPzyMIqttEm7O?model=gpt-4-turbo&mode=chat

あとは、それが妥当かは、解かせてみるしかないか?あとは、質問文+正解を平叙文に直して、そこから単純な命題をどの程度抽出できるか、そこに齟齬がないか、だろうか。
それが埋め込みの類似度で測れるとよいが。ありそうで、なさそうで、ありそうなネタな気がする。

https://twitter.com/kanhatakeyama/status/1782002721366876653

https://twitter.com/kanhatakeyama/status/1782184373594534139

まあ、期待しすぎないことだ。n-gram モデルのお化けなだけ。

https://twitter.com/karaage0703/status/1781932202001113438

https://twitter.com/toyoakinishida/status/1782040399068152245

https://twitter.com/imos/status/1782264923646751096

https://twitter.com/kenkawakenkenke/status/1781913389729796220

https://twitter.com/maruhi_dd/status/1781620392295313810

https://twitter.com/oshizo/status/1781685095851835705

https://twitter.com/oshizo/status/1781685706081120332

https://twitter.com/nyosubro0706/status/1781633316837536004

面白さは... AI王4の採点データが使えれば。。。?

difyのknowledgeを作らせる際に、QA形式に落とし込むオプションがあったのね。
retrievalにてクエリとの類似度を見るのだから、documentもQuestion-Answerに直しておくのは意味がある。名称を忘れたが、クエリに対して適当な回答を生成して、それと類似するパッセージを検索する手法と考えは同じ。(2024-07-14)

https://twitter.com/gijigae/status/1796732870943440958
https://twitter.com/black_tank_top/status/1796538282224079283

Discussion