🧗‍♀️

AutoModelForCausalLM.from_pretrainedコードリーディング

2024/02/21に公開

transformers

LLM

tech

概要

AutoModelForCausalLM.from_pretrained
のコードを読んでいく。

実行例

Swallow-7bモデルを使用したケースを想定。

from transformers import AutoModelForCausalLM

model_name = "tokyotech-llm/Swallow-7b-instruct-hf"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, device_map="auto")

重要そうなメソッド

AutoModelForCausalLM

_BaseAutoModelClassを継承している

_BaseAutoModelClass.from_pretrained

ここから開始

config_fileの取得

configを指定しない場合はデフォルトのファイルを使用する

peftモデルを指定した場合

指定したモデルやディレクトリがpeftのファイルなら考慮して動作する。

modelクラスの取得

model_class.from_pretrained

モデルのインスタンス化

_get_model_class

モデルクラスの取得

マッピングはここ

今回はLlamaForCausalLMを使用する

LlamaForCausalLM

クラス定義
PreTrainedModelを継承している

PreTrainedModel.from_pretrained

量子化周りの設定

configの取得

AutoHfQuantizerの設定

量子化の設定

pretrained_model_name_or_pathに対する分岐

今回はelseに入る

resolved_archive_file

結局以下のファイルへのパスが入る

重みのダウンロード

model.safetensors.index.json
を参考に重みファイルのダウンロードを行う

torch dtypeの設定

deepspeed zero3の設定

flash_attentionの設定

モデルのインスタンス化

config

LlamaConfig {
  "_name_or_path": "tokyotech-llm/Swallow-7b-instruct-hf",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 11008,
  "max_position_embeddings": 4096,
  "max_sequence_length": 4096,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 32,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 10000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.35.2",
  "use_cache": true,
  "vocab_size": 43176
}

model_args

()

model_kwargs

{}

量子化の設定

devive_mapの設定

重みのメモリロード

device_mapへのdispatch

量子化の適応

peftの適応

LlamaForCausalLM.init

LlamaModel.initの呼び出し

LlamaModel.init

nn.Embedding

(config.vocab_size, config.hidden_size, self.padding_idx)

(43176, 4096, 0)

nn.Embedding
についてはこちらを参照

sum(p.numel() for p in self.embed_tokens.parameters())

176848896

nn.ModuleList

config.num_hidden_layers

sum(p.numel() for p in self.layers.parameters())

6476267520

LlamaRMSNorm

(config.hidden_size, config.rms_norm_eps)

(4096, 1e-05)

sum(p.numel() for p in self.norm.parameters())

causal_maskの設定

マスク用の行列登録

(config.max_position_embeddings, config.max_position_embeddings)

(4096, 4096)

torch.triu(causal_mask, diagonal=1)

tensor([[0, 1, 1,  ..., 1, 1, 1],
        [0, 0, 1,  ..., 1, 1, 1],
        [0, 0, 0,  ..., 1, 1, 1],
        ...,
        [0, 0, 0,  ..., 0, 1, 1],
        [0, 0, 0,  ..., 0, 0, 1],
        [0, 0, 0,  ..., 0, 0, 0]])

torch.triu(causal_mask, diagonal=1).size()

torch.Size([4096, 4096])

post_init

重みの初期化をしている

LlamaDecoderLayer

self_attn

LLAMA_ATTENTION_CLASSES[config._attn_implementation]

<class 'transformers.models.llama.modeling_llama.LlamaAttention'>

mlp

input_layernorm

post_attention_layernorm

LlamaAttention

QKVO

  (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
  (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
  (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
  (o_proj): Linear(in_features=4096, out_features=4096, bias=False)

LlamaRotaryEmbeddingの初期化

_load_pretrained_model

load_state_dict

メモリに重みのロード

モデルに重みをロード

まとめ

なんとなくの雰囲気はつかめましたが、長すぎてコードが追いきれなかったです

概要

実行例

重要そうなメソッド

AutoModelForCausalLM

_BaseAutoModelClass.from_pretrained

config_fileの取得

peftモデルを指定した場合

modelクラスの取得

model_class.from_pretrained

_get_model_class

LlamaForCausalLM

PreTrainedModel.from_pretrained

config_fileの取得

peftモデルを指定した場合

device_mapの設定

量子化周りの設定

configの取得

AutoHfQuantizerの設定

pretrained_model_name_or_pathに対する分岐

resolved_archive_file

重みのダウンロード

torch dtypeの設定

deepspeed zero3の設定

flash_attentionの設定

モデルのインスタンス化

量子化の設定

devive_mapの設定

重みのメモリロード

device_mapへのdispatch

量子化の適応

peftの適応

LlamaForCausalLM.init

LlamaModel.__init__の呼び出し

LlamaModel.init

nn.Embedding

nn.ModuleList

LlamaRMSNorm

causal_maskの設定

post_init

LlamaDecoderLayer

self_attn

mlp

input_layernorm

post_attention_layernorm

LlamaAttention

QKVO

LlamaRotaryEmbeddingの初期化

_load_pretrained_model

load_state_dict

モデルに重みをロード

まとめ

Discussion

LlamaModel.initの呼び出し