🙌

無能力から始めるLLM開発: 1(データ閲覧編)

2024/03/23に公開

前振り

さて、前回は言語モデルを作成するための良いデータセットが必要と言い、データの投稿先を紹介しました。
https://zenn.dev/sousouplanet/articles/94f710873e952a

しかし、いざ自分でデータセットを投稿しようとしても、どのような内容を投稿すればいいか悩みます。他人にも見せるなら適当な内容ではいけない。読みやすい文章とは。LLMの出力や、他のネットで手に入る情報、書籍と被らない内容……、と考えると、入力途中で手が止まってしまいました。(いまだに1件も投稿できず、途中入力状態で止まっています)

良質なデータの定義

そもそも、良質なデータセットの定義とは何でしょうか。
いまだ分かりませんが、現時点での社会通念に照らし、人によって求める出力が異なる。というのが実情なのであり、
現状での最適なLLMの出力ではないかと考えました。

例1:過去の歴史

あくまで記録に残っている中での、その国での正しさを正解だとしても、新しい事実が発見された場合に歴史が変わることがあります。
そして、その人が求める内容によって
1.本当の事実を出力させたい場合
2.エンターテイメントと出力させたい場合(小説など)
があります。

例2:翻訳

時間の制約や、視聴者に分かりやすくするために、直訳することはなく、
全く同じ発音・単語2度連続があった場合に、2度目では字幕内容を変えるなど。

どんなデータを作ればいいのか分からない点

AというジャンルでBという語尾で統一。
CというジャンルでDという語尾で統一。
した場合に、AというジャンルでDという語尾を出すことができるのか?

小説などでいうと空白部分を読む?その人の文体となってくる部分でしょうか?

以上の考えを経て、特化(多様性・専門性)したデータセットを作成し、入力に応じて求める出力の質・幅を増やす事をしていくのが必要だと考えました。

ひとまずは、言語モデルの評価セットを見てみることにしました。
下記2点の内容で評価が行われそうです。
llm jp eval
MT-bench
こちらの評価次第で、もっと大きな言語モデルを作成できる形式らしいので、試験対策の基準として、覗いてみることにします。

結果

継続的にアウトプットをされている[からあげさん]や[カレーちゃん]さんなどを見て、自分もアウトプットしなきゃいけないと思いつつ、他人のコピペ劣化情報を世の中に出しても意味がない。と、地団駄を踏んでおりました。しかし、最近のAIのおかげで、分からなかった部分が理解することができるようになったり、自分が欲しいと思うJSON閲覧用アプリが見つからなかったため、自分で作成してみました。数年ぶりReactを触ったため、予想以上に時間がかかり、LLMのお手伝いがそっちのけになってしまいました。
さくさく閲覧をする機能に特化するため、矢印キーでのショートカット機能やタイマーでの遷移機能があります。

出来上がったもの

https://github.com/kevineen/llm-json-reader

Udemyや書籍などを購入しても、結局はGithubの使い方も良く分かっていないため、ご指摘・要望等あればIssue?にて頂ければ、改善・機能追加などをしてみたいと思います。

現在進行形でLLM開発の方も進んでいるため、ご興味ある方は下記を見ていただければ
LLM開発の知識を得られるかもしれません。よろしくお願いいたします!
https://note.com/kan_hatakeyama/n/n867e09f1d32c?sub_rt=share_h

https://matsuolab-geniac.notion.site/91d25a1d87634d8289028e967d76fb6c

Discussion