Open3

Qwen2.5-VL のメモ

syoyosyoyo

VisionEncoder に fullatt_block_indexes なるパラメータが追加されている

https://github.com/huggingface/transformers/blob/62db3e6ed67a74cc1ed1436acd9973915c0a4475/src/transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py#L92

https://github.com/huggingface/transformers/blob/62db3e6ed67a74cc1ed1436acd9973915c0a4475/src/transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py#L352

           if layer_num in self.fullatt_block_indexes:
                cu_seqlens_now = cu_seqlens
            else:
                cu_seqlens_now = cu_window_seqlens

特定のブロックでは Full attention, それ以外は Sliding window attention を使うであろうか.

syoyosyoyo

sliding window は attention mask で対応
計算量は変わらん気がするけどどうじゃロ?