🐈

構造を意識した報酬でRLしたら凄かった! (仕掛中)

に公開

話すこと

  • 土曜日にOCR,RL,評価とかで面白そうな論文探して、見つけて読んだ一つのInfinty-Parserを話す。
    日曜に日付変わる直前に、本文16ページ読み終えた。朝も3ページ少し読んだくらいで、わかる範囲で勉強会ではなしたら、イラストの可愛さが話題に!自分の今(日曜深夜)の理解でさくっと書く。

1. どんなもの?

  • 様々な資料を構造意識して内容抽出するもので、RAGの前処理はじめ、いろいろ嬉しい用途多そう!
  • 論文として以下3つが成果
  • Infinty-Parser(できたモデル、公開)
  • LayoutRL(作ったRLフレームワーク)
  • Infinity-Doc-55K(リアルと合成のデータセット)

2. 先行研究と比べてどこがすごいの?

  • RLで頑健性up,バランスよく高性能

3. 技術や手法の"キモ"はどこにある?

RLの報酬に構図意識!

layout意識した報酬では、パラグラフの数や順序で比較.

データセットは、リアルは、複数のモデルで評価、合議していいのだけ残す。テンプレートから合成したhtmlをブラウザで画像化することで、アノテーションが正確。の両方使う!

作ったデータセットは、いろんな観点、属性を持つ


SFTはデータ増えて逆、精度悪くなるところも、RLはデータ一番多いのが一番

4. どうやって有効だと検証した?

  • いろんなモデルと比較、総合1位(つまり4oにも勝ってる)
  • テーブルは特に強い

5. 議論はあるか?

SFT + RL(3つ報酬全部)やったら、ワンちゃんいい可能性ありそう。(量を調整して)

あとがき

記事よかったら、いいね♡ 押してね!フォローも嬉しい!

Discussion