🐈

構造を意識した報酬でRLしたら凄かった！ (仕掛中）

2025/09/22に公開

テーマ「フリーテーマ」

 話すこと土曜日にOCR,RL,評価とかで面白そうな論文探して、見つけて読んだ一つのInfinty-Parserを話す。

日曜に日付変わる直前に、本文16ページ読み終えた。朝も3ページ少し読んだくらいで、わかる範囲で勉強会ではなしたら、イラストの可愛さが話題に！自分の今(日曜深夜)の理解でさくっと書く。

 1. どんなもの？様々な資料を構造意識して内容抽出するもので、RAGの前処理はじめ、いろいろ嬉しい用途多そう！
論文として以下３つが成果
Infinty-Parser(できたモデル、公開)
LayoutRL(作ったRLフレームワーク)
Infinity-Doc-55K(リアルと合成のデータセット）

 2. 先行研究と比べてどこがすごいの？ＲＬで頑健性up,バランスよく高性能

 3. 技術や手法の"キモ"はどこにある？RLの報酬に構図意識！

layout意識した報酬では、パラグラフの数や順序で比較.

データセットは、リアルは、複数のモデルで評価、合議していいのだけ残す。テンプレートから合成したhtmlをブラウザで画像化することで、アノテーションが正確。の両方使う！

作ったデータセットは、いろんな観点、属性を持つ

SFTはデータ増えて逆、精度悪くなるところも、RLはデータ一番多いのが一番

 4. どうやって有効だと検証した？いろんなモデルと比較、総合1位(つまり4oにも勝ってる）

テーブルは特に強い

 5. 議論はあるか？SFT + RL(3つ報酬全部）やったら、ワンちゃんいい可能性ありそう。（量を調整して）

 あとがき記事よかったら、いいね♡　押してね！フォローも嬉しい！