🦔
huggingface LLM model にある merges.txt のメモ
merges.txt is 何?
GPT2Tokenizer(BPE) とかで使われている
merges.txt : Byte pair encoding のマージリスト(substring token リスト)
vocab.json : substring へのインデックス
BPE tokenizer ではこれら二つのファイルを読んで BPE tokenizer を construct する.
Fast tokenizer
最近の transformers(ややこしい名前)では tokenizer.json
に merges.txt と vocab.json の内容が含まれており, FastTokenizer を使う場合は, tokenizer.json
を読むようになっている.
たとえば GPT2Tokenizer(BPE tokenizer) ベースの Qwen の tokenizer.json
には vocab と merges の内容が含まれている
内容は同じなので, tokenizer.json
がある場合はこれを読むようにするでよいでしょう.
Discussion