🐥
The Second Half , Welcom to The Era of Evals おもろい (途中版)
はじめに
週末に、AIの時代が変わるよ的な2つの記事読んだ。
おもろかった、自分の理解でかく。
どんなもの
- The Second Half の主張
昔は、モデルを作るが評価作るより重要視されていた。RLには、アリゴリズム、環境、事前確率が要素としてあるが。GTP-2により。事前確率がかけていたこと判明。また個別のRLタスクも言語での推論で一般化できる!ベンチマークに対してAIがすぐ対応できてしまう速度が速くなっている。ラボの評価軸では、実用的でないこと多い。今までの評価設定で欠いていた2つの点例として、評価は自動的に実行されるべき(だけではない)、評価はiidを実行するべき(だけではない)
思ったこと
-実用的な、評価をラボが全部作るのは、難しそうだから、ビジネス機会大きい?
- OSS-LMMもかなり優秀になってきたので、ニッチな領域で、評価作成、目的関数作成、LLM学習、エージェント作成等のながれでビジネスするの増えるかも?
-でも結局AGI的に般化能力が高いすごい優秀なの作るのがコスト安?で飲み込まれる? - 評価重要だけど、それに学習目的がないものは、そんなに力こめないで、進化し続ける最新のを
常につかう戦略もよさそう(力の入れ度合を調整) - 評価を抽象化してやるのも大事だし、今はそうなっているとおもうけど、抽象化を細分化していくのも大変なので、もうビジネスの実運用上での評価をそのまま使えるものにしたらいろいろ楽に回せそう。かつそれを使って学習する。
- 昔、このブログでも、結局エージェントがお金稼げるようになれば、お金を稼ぐを評価に集約できるまあ、ある程度、法順守とかしないと長期的にはだめな動きするのでそうだからもう少し他の評価軸必要かもだけど。そういうのできたら、こまかい評価軸設定しなくてもいいなとも思った。
思ったこと The second halfへの反論的なもの
前半の評価がすくなかったのは、単にやる人少なかった。わかりやすい評価へのAIの対応が遅いから作らなくてもやることあったとかも言えると思った。
モデル自体の進化は全然まだ重要だと思える、新しい精度だしている論文が次々でている感触ある
あとがき
記事よかったら、いいね♡ 押してね!
日曜に、建設的な討論のワークショップみたいなの参加した。
テーマを言語化能力を上げるみたいなの選んだ。討論する能力ってまだまだAI弱そうだから、そこの評価集中的になる会社とかおもしろそう。議論ででた上げる方法はLLMにも適用できそうだった。
Discussion