🙌

無能力から始めるLLM開発: 1（データ閲覧編）

2024/03/23に公開

React

TypeScript

LLM

tech

前振り

さて、前回は言語モデルを作成するための良いデータセットが必要と言い、データの投稿先を紹介しました。

しかし、いざ自分でデータセットを投稿しようとしても、どのような内容を投稿すればいいか悩みます。他人にも見せるなら適当な内容ではいけない。読みやすい文章とは。LLMの出力や、他のネットで手に入る情報、書籍と被らない内容……、と考えると、入力途中で手が止まってしまいました。（いまだに１件も投稿できず、途中入力状態で止まっています）

良質なデータの定義

そもそも、良質なデータセットの定義とは何でしょうか。
いまだ分かりませんが、現時点での社会通念に照らし、人によって求める出力が異なる。というのが実情なのであり、
現状での最適なLLMの出力ではないかと考えました。

例１：過去の歴史

あくまで記録に残っている中での、その国での正しさを正解だとしても、新しい事実が発見された場合に歴史が変わることがあります。
そして、その人が求める内容によって
１．本当の事実を出力させたい場合
２．エンターテイメントと出力させたい場合（小説など）
があります。

例２：翻訳

時間の制約や、視聴者に分かりやすくするために、直訳することはなく、
全く同じ発音・単語２度連続があった場合に、２度目では字幕内容を変えるなど。

どんなデータを作ればいいのか分からない点

ＡというジャンルでＢという語尾で統一。
ＣというジャンルでＤという語尾で統一。
した場合に、ＡというジャンルでＤという語尾を出すことができるのか？

小説などでいうと空白部分を読む？その人の文体となってくる部分でしょうか？

以上の考えを経て、特化（多様性・専門性）したデータセットを作成し、入力に応じて求める出力の質・幅を増やす事をしていくのが必要だと考えました。

ひとまずは、言語モデルの評価セットを見てみることにしました。
下記２点の内容で評価が行われそうです。
llm jp eval
MT-bench
こちらの評価次第で、もっと大きな言語モデルを作成できる形式らしいので、試験対策の基準として、覗いてみることにします。

結果

継続的にアウトプットをされている[からあげさん]や[カレーちゃん]さんなどを見て、自分もアウトプットしなきゃいけないと思いつつ、他人のコピペ劣化情報を世の中に出しても意味がない。と、地団駄を踏んでおりました。しかし、最近のAIのおかげで、分からなかった部分が理解することができるようになったり、自分が欲しいと思うJSON閲覧用アプリが見つからなかったため、自分で作成してみました。数年ぶりReactを触ったため、~~予想以上に時間がかかり、LLMのお手伝いがそっちのけになってしまいました。~~
さくさく閲覧をする機能に特化するため、矢印キーでのショートカット機能やタイマーでの遷移機能があります。

出来上がったもの

Udemyや書籍などを購入しても、結局はGithubの使い方も良く分かっていないため、ご指摘・要望等あればIssue？にて頂ければ、改善・機能追加などをしてみたいと思います。

現在進行形でLLM開発の方も進んでいるため、ご興味ある方は下記を見ていただければ
LLM開発の知識を得られるかもしれません。よろしくお願いいたします！