🌊

From Bytes to Ideas:Language Modeling with Autoregressive U-Nets

に公開

For my first contribution to the series, I’m Haruumi Omoto and I’m highlighting:

Videau, Mathurin, et al. "From Bytes to Ideas: Language Modeling with Autoregressive U-Nets." arXiv preprint arXiv:2506.14761 (2025).

This paper points out the problems of fixed tokenization methods such as BPE commonly used in many current LLMs, and addresses these issues by employing an autoregressive U-Net (AU-Net).

京都大学谷口研究室M1の尾本 晴海です.
2025年6月17日に投稿された
"From Bytes to Ideas: Language Modeling with Autoregressive U-Nets."
という論文について紹介スライドを作成しました.

スライドが英語なのでここでは日本語で軽くこの論文の解説をします。(自分で全ての文章を考えた後にChatGptに綺麗に直してもらいました)

LLM(大規模言語モデル)はテキストをコンピューターが扱いやすい単位に区切り、トークンに変換します。この処理をトークナイゼーション(Tokenization)と呼び、その役割を担うモデルをトークナイザー(Tokenizer)といいます。現在の多くのLLMは「サブワード」と呼ばれる、文字より大きく単語より小さい単位でテキストを分割しています。そして、LLMの学習中にトークナイザーのパラメータは事前に学習されたものが固定され、更新されません。本論文では、この固定されたサブワード分割の限界を指摘し、それを解決する方法を提案しています。

提案手法は「自己回帰的なU-Net」を用いています。自己回帰モデルとは、これまでの出力をもとに次の出力を決めていくモデルのことです。U-Netは元々、画像のピクセル単位でのセグメンテーション(何を表すか推定する)に用いられるネットワークで、一部のテキスト条件付き画像生成モデルにも使われています。U-Netは入力データを段階的に圧縮(エンコーダ)し、段階的に復元(デコーダ)する構造を持ちます。この際、エンコーダの各レベルの特徴を対応するデコーダのレベルに直接つなぐ「スキップコネクション」によって、異なる抽象度の情報を効果的に扱えるのが特徴です。

私がこの論文に注目した理由は主に2つあります。

1つ目は「文字レベルで情報を扱える」点です。私は言語の起源や進化のメカニズムに興味があり、言語創発や異なる言語間の会話による言語変化のモデルを作る際、トークナイザーがサブワード単位で固定されているのは不便です。固定されたトークナイザーは語彙が固定されていることを意味し、新しい語彙が生まれる過程を観察することが難しいからです。そこで、文字レベルでテキストを扱える本提案手法に関心を持ちました。

2つ目は「言語の階層的処理」という点です。人間の視覚は明るさや色、エッジといった低レベルの情報から、複雑なパターンや意味といった高レベルの情報へと階層的に処理されます。言語もまた、文字情報から単語の意味、文の意味、さらには広い文脈へと階層的に処理されているのではないかと私は考えています。本論文の提案手法は、そうした人間の言語処理モデルとして応用可能性があると感じています。

Discussion