Qwen2.5-VL のメモ

基本構造は Qwen2-VL から変わっていないと思うが...
https://github.com/huggingface/transformers/tree/main/src/transformers/models/qwen2_5_vl
transformers でのコードはテンプレートから生成するようなかたちに代わっている
テクぺは執筆時点ではまだない

(blog だけ https://qwenlm.github.io/blog/qwen2.5-vl/)

syoyo

VisionEncoder に fullatt_block_indexes なるパラメータが追加されている

           if layer_num in self.fullatt_block_indexes:
                cu_seqlens_now = cu_seqlens
            else:
                cu_seqlens_now = cu_window_seqlens

特定のブロックでは Full attention, それ以外は Sliding window attention を使うであろうか.

syoyo

sliding window は attention mask で対応
計算量は変わらん気がするけどどうじゃロ？