Open3
Qwen2.5-VL のメモ

基本構造は Qwen2-VL から変わっていないと思うが...
transformers でのコードはテンプレートから生成するようなかたちに代わっている
テクぺは執筆時点ではまだない
(blog だけ https://qwenlm.github.io/blog/qwen2.5-vl/)

VisionEncoder に fullatt_block_indexes なるパラメータが追加されている
if layer_num in self.fullatt_block_indexes:
cu_seqlens_now = cu_seqlens
else:
cu_seqlens_now = cu_window_seqlens
特定のブロックでは Full attention, それ以外は Sliding window attention を使うであろうか.

sliding window は attention mask で対応
計算量は変わらん気がするけどどうじゃロ?