Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +258 -0
configuration_qqmm.py +30 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +737 -0
modeling_qqmm.py +343 -0

config.json ADDED Viewed

	@@ -0,0 +1,258 @@

+{
+  "architectures": [
+    "QQMMForCausalLM"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_qqmm.QQMMConfig",
+    "AutoModelForCausalLM": "modeling_qqmm.QQMMForCausalLM"
+ },
+  "model_config": {
+    "_name_or_path": "Qwen/Qwen2-VL-7B-Instruct",
+    "architectures": [
+      "Qwen2VLForConditionalGeneration"
+    ],
+    "auto_map": {
+      "AutoConfig": "configuration_qqmm.QQMMConfig",
+      "AutoModelForCausalLM": "modeling_qqmm.QQMMForCausalLM"
+   },
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151645,
+    "hidden_act": "silu",
+    "hidden_size": 3584,
+    "image_token_id": 151655,
+    "initializer_range": 0.02,
+    "intermediate_size": 18944,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 28,
+    "model_type": "qwen2_vl",
+    "num_attention_heads": 28,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_section": [
+        16,
+        24,
+        24
+      ],
+      "rope_type": "default",
+      "type": "default"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 32768,
+    "text_config": {
+      "_name_or_path": "",
+      "add_cross_attention": false,
+      "architectures": [
+        "Qwen2VLForConditionalGeneration"
+      ],
+      "attention_dropout": 0.0,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": 151643,
+      "chunk_size_feed_forward": 0,
+      "cross_attention_hidden_size": null,
+      "decoder_start_token_id": null,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "early_stopping": false,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": 151645,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "hidden_act": "silu",
+      "hidden_size": 3584,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "image_token_id": null,
+      "initializer_range": 0.02,
+      "intermediate_size": 18944,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "layer_types": [
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention",
+        "full_attention"
+      ],
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "max_position_embeddings": 32768,
+      "max_window_layers": 28,
+      "min_length": 0,
+      "model_type": "qwen2_vl_text",
+      "no_repeat_ngram_size": 0,
+      "num_attention_heads": 28,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_hidden_layers": 28,
+      "num_key_value_heads": 4,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "prefix": null,
+      "problem_type": null,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "rms_norm_eps": 1e-06,
+      "rope_scaling": {
+        "mrope_section": [
+          16,
+          24,
+          24
+        ],
+        "rope_type": "default",
+        "type": "default"
+      },
+      "rope_theta": 1000000.0,
+      "sep_token_id": null,
+      "sliding_window": null,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": false,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torch_dtype": "bfloat16",
+      "torchscript": false,
+      "typical_p": 1.0,
+      "use_bfloat16": false,
+      "use_cache": true,
+      "use_sliding_window": false,
+      "video_token_id": null,
+      "vision_end_token_id": 151653,
+      "vision_start_token_id": 151652,
+      "vision_token_id": 151654,
+      "vocab_size": 152064
+    },
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "video_token_id": 151656,
+    "vision_config": {
+      "_name_or_path": "",
+      "add_cross_attention": false,
+      "architectures": null,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": null,
+      "chunk_size_feed_forward": 0,
+      "cross_attention_hidden_size": null,
+      "decoder_start_token_id": null,
+      "depth": 32,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "early_stopping": false,
+      "embed_dim": 1280,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": null,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "hidden_act": "quick_gelu",
+      "hidden_size": 3584,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "in_channels": 3,
+      "in_chans": 3,
+      "initializer_range": 0.02,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "min_length": 0,
+      "mlp_ratio": 4,
+      "model_type": "qwen2_vl",
+      "no_repeat_ngram_size": 0,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_heads": 16,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "patch_size": 14,
+      "prefix": null,
+      "problem_type": null,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "sep_token_id": null,
+      "spatial_merge_size": 2,
+      "spatial_patch_size": 14,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "temporal_patch_size": 2,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": true,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torch_dtype": null,
+      "torchscript": false,
+      "typical_p": 1.0,
+      "use_bfloat16": false
+    },
+    "vision_end_token_id": 151653,
+    "vision_start_token_id": 151652,
+    "vision_token_id": 151654,
+    "vocab_size": 152064
+  },
+  "model_type": "qqmm",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.53.3"
+}

configuration_qqmm.py ADDED Viewed

	@@ -0,0 +1,30 @@

+from transformers import PretrainedConfig, AutoConfig, CONFIG_MAPPING
+from transformers.dynamic_module_utils import get_class_from_dynamic_module
+from transformers import Qwen2_5_VLConfig, Qwen2_5_VLForConditionalGeneration
+class QQMMConfig(PretrainedConfig):
+    model_type = "qqmm"
+    is_composition = True
+    def __init__(self,
+                 model_config={},
+                 **kwargs):
+        super().__init__(**kwargs)
+        model_type = model_config.get('model_type', '')
+        is_remote_code = '.' in model_config.get('auto_map', {}).get('AutoConfig', '')
+        if model_type in CONFIG_MAPPING and not is_remote_code:
+            self.model_config = AutoConfig.for_model(**model_config)
+        else:
+            self.model_config = model_config
+    @property
+    def hidden_size(self):
+        return self.model_config.hidden_size
+    @classmethod
+    def from_dict(cls, config_dict, **kwargs):
+        if 'name_or_path' in kwargs:
+            config_dict['_name_or_path'] = kwargs.pop('name_or_path')
+        return super().from_dict(config_dict, **kwargs)

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:678efadcee3ebbb025d2a47384e9e8fe05e360bc5627696b31cdf64f2b8982e4
+size 4966671144

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94fe343159ba2b80738323ca5b5550f4650091ac1d5c2b1d5b1358d040979f43
+size 4991500008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4653d3701973fa04449be75476dbdf6d4f792ec07d95c03eb954d9af1998b482
+size 4932754944

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42121a84dd5aaf1b6de092de81ff0793b144bf509830332523a10753c0a033ed
+size 601930008

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,737 @@

+{
+  "metadata": {
+    "total_parameters": 7746378240,
+    "total_size": 15492756480
+  },
+  "weight_map": {
+    "qwen2_5_vl_model.model.language_model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.6.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "qwen2_5_vl_model.model.language_model.norm.weight": "model-00004-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.10.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.11.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.12.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.13.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.14.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.15.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.16.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.18.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.19.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.2.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.20.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.21.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.22.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.24.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.25.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.26.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.27.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.28.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.29.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.3.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.30.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.31.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.4.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.5.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.6.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.norm1.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.norm1.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.norm2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.blocks.9.norm2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.ln_q.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.ln_q.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.mlp.0.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.mlp.0.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.mlp.2.bias": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.merger.mlp.2.weight": "model-00001-of-00004.safetensors",
+    "qwen2_5_vl_model.model.visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors"
+  }
+}

modeling_qqmm.py ADDED Viewed

	@@ -0,0 +1,343 @@

+from typing import Optional, List
+import torch
+from torch import nn
+from torch.nn import functional as F
+from transformers import PreTrainedModel, AutoModel, AutoModelForCausalLM, Qwen2_5_VLForConditionalGeneration
+from transformers.models.qwen2_5_vl.modeling_qwen2_5_vl import Qwen2_5_VLCausalLMOutputWithPast
+from typing import List, Optional, Tuple, Union, Dict
+import torch
+from torch.nn import CrossEntropyLoss
+from transformers.modeling_outputs import CausalLMOutputWithPast
+from transformers.generation.utils import GenerateOutput
+from .configuration_qqmm import QQMMConfig
+def _prepare_4d_causal_attention_mask_with_cache_position(
+    attention_mask: torch.Tensor,
+    sequence_length: int,
+    target_length: int,
+    dtype: torch.dtype,
+    device: torch.device,
+    min_dtype: float,
+    cache_position: torch.Tensor,
+    batch_size: int,
+):
+    """
+    Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
+    `(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.
+    Args:
+        attention_mask (`torch.Tensor`):
+            A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape `(batch_size, 1, query_length, key_value_length)`.
+        sequence_length (`int`):
+            The sequence length being processed.
+        target_length (`int`):
+            The target length: when generating with static cache, the mask should be as long as the static cache, to account for the 0 padding, the part of the cache that is not filled yet.
+        dtype (`torch.dtype`):
+            The dtype to use for the 4D attention mask.
+        device (`torch.device`):
+            The device to plcae the 4D attention mask on.
+        min_dtype (`float`):
+            The minimum value representable with the dtype `dtype`.
+        cache_position (`torch.Tensor`):
+            Indices depicting the position of the input sequence tokens in the sequence.
+        batch_size (`torch.Tensor`):
+            Batch size.
+    """
+    if attention_mask is not None and attention_mask.dim() == 4:
+        # In this case we assume that the mask comes already in inverted form and requires no inversion or slicing.
+        causal_mask = attention_mask
+    else:
+        causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
+        if sequence_length != 1:
+            causal_mask = torch.triu(causal_mask, diagonal=1)
+        causal_mask *= torch.arange(target_length, device=device) > cache_position.reshape(-1, 1)
+        causal_mask = causal_mask[None, None, :, :].expand(batch_size, 1, -1, -1)
+        if attention_mask is not None:
+            causal_mask = causal_mask.clone()  # copy to contiguous memory for in-place edit
+            mask_length = attention_mask.shape[-1]
+            padding_mask = causal_mask[:, :, :, :mask_length] + attention_mask[:, None, None, :]
+            padding_mask = padding_mask == 0
+            causal_mask[:, :, :, :mask_length] = causal_mask[:, :, :, :mask_length].masked_fill(
+                padding_mask, min_dtype
+            )
+    return causal_mask
+def padcat_sequences(sequences, value=0, pad_side='right'):
+    if all(s is None for s in sequences):
+        return None
+    max_l = max(s.size(1) for s in sequences)
+    sequences_ = []
+    for seq in sequences:
+        if seq.size(1) != max_l:
+            pad_len = max_l - seq.size(1)
+            pad_len = (0, pad_len) if pad_side == 'right' else (pad_len, 0)
+            seq = F.pad(seq, pad_len, value=value)
+        sequences_.append(seq)
+    sequences = torch.cat(sequences_)
+    return sequences
+class QQMMPreTrainedModel(PreTrainedModel):
+    config_class = QQMMConfig
+    supports_gradient_checkpointing = True
+    _skip_keys_device_placement = "past_key_values"
+    _supports_cache_class = True
+    _supports_flash_attn_2 = True
+    _supports_sdpa = True
+class QQMMForCausalLM(QQMMPreTrainedModel):
+    def __init__(self,
+                 config,
+                 qwen2_5_vl_model=None):
+        super().__init__(config)
+        if qwen2_5_vl_model is None:
+            kwargs_ = {}
+            if config._attn_implementation_internal is not None:
+                kwargs_['attn_implementation'] = config._attn_implementation_internal
+            model = Qwen2_5_VLForConditionalGeneration(config.model_config)
+            # model = Qwen2_5_VLForConditionalGeneration.from_pretrained("/group/40048/windzhchen/pretrain_models/deepeyes_convert")
+        else:
+            model = qwen2_5_vl_model
+        self.qwen2_5_vl_model = model
+        self.post_init()
+    def make_diy_mask(self, input_ids, attention_mask, embed_token_id, im_start_id, im_end_id):
+        if len(attention_mask.shape) == 2:
+            sequence_length = attention_mask.shape[1]
+            target_length = attention_mask.shape[1]
+            dtype = torch.bfloat16
+            device = input_ids.device
+            min_dtype = torch.finfo(dtype).min
+            cache_position = torch.arange(0, sequence_length, device=attention_mask.device)
+            attention_mask = _prepare_4d_causal_attention_mask_with_cache_position(
+                        attention_mask,
+                        sequence_length=sequence_length,
+                        target_length=target_length,
+                        dtype=dtype,
+                        device=device,
+                        min_dtype=min_dtype,
+                        cache_position=cache_position,
+                        batch_size=attention_mask.shape[0],
+                    )
+        else:
+            dtype = torch.bfloat16
+            min_dtype = torch.finfo(dtype).min
+        mask = input_ids == embed_token_id
+        embed_index = torch.argmax(mask.float(), dim=1)
+        embed_index[embed_index==0] = input_ids.shape[1]
+        embed_index = embed_index.view(-1, )
+        mask = input_ids == im_start_id
+        im_start_index_tmp = torch.argmax(mask.float(), dim=1).view(-1, 1)
+        mask = torch.scatter(mask, dim=1, index=im_start_index_tmp, value=False)
+        im_start_index = torch.argmax(mask.float(), dim=1).view(-1, )
+        mask = input_ids == im_end_id
+        im_end_index_tmp = torch.argmax(mask.float(), dim=1).view(-1, 1)
+        mask = torch.scatter(mask, dim=1, index=im_end_index_tmp, value=False)
+        im_end_index = torch.argmax(mask.float(), dim=1).view(-1, )
+        for b in range(attention_mask.shape[0]):
+            attention_mask[b, 0, embed_index[b]+1:, im_start_index[b]:im_end_index[b]+2] = min_dtype # <|im_start|>user\nxxxxx<|im_end|>\n
+        return attention_mask
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        pixel_values: Optional[torch.Tensor] = None,
+        pixel_values_videos: Optional[torch.FloatTensor] = None,
+        image_grid_thw: Optional[torch.LongTensor] = None,
+        video_grid_thw: Optional[torch.LongTensor] = None,
+        rope_deltas: Optional[torch.LongTensor] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+        second_per_grid_ts: Optional[torch.Tensor] = None,
+        embed_token_id: Optional[int] = None,
+        return_emb: Optional[bool] = False,
+        cal_loss: Optional[bool] = False
+    ) -> Union[Tuple, Qwen2_5_VLCausalLMOutputWithPast]:
+        if pixel_values is not None and pixel_values.shape[0] == 0:
+            pixel_values = None
+            image_grid_thw = None
+        output_attentions = output_attentions if output_attentions is not None else self.qwen2_5_vl_model.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.qwen2_5_vl_model.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.qwen2_5_vl_model.config.use_return_dict
+        if inputs_embeds is None:
+            inputs_embeds = self.qwen2_5_vl_model.model.embed_tokens(input_ids)
+            if pixel_values is not None:
+                pixel_values = pixel_values.type(self.qwen2_5_vl_model.visual.dtype)
+                image_embeds = self.qwen2_5_vl_model.visual(pixel_values, grid_thw=image_grid_thw)
+                n_image_tokens = (input_ids == self.qwen2_5_vl_model.config.image_token_id).sum().item()
+                n_image_features = image_embeds.shape[0]
+                if n_image_tokens != n_image_features:
+                    raise ValueError(
+                        f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}"
+                    )
+                mask = input_ids == self.qwen2_5_vl_model.config.image_token_id
+                mask_unsqueezed = mask.unsqueeze(-1)
+                mask_expanded = mask_unsqueezed.expand_as(inputs_embeds)
+                image_mask = mask_expanded.to(inputs_embeds.device)
+                image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
+                inputs_embeds = inputs_embeds.masked_scatter(image_mask, image_embeds)
+            if pixel_values_videos is not None:
+                pixel_values_videos = pixel_values_videos.type(self.qwen2_5_vl_model.visual.dtype)
+                video_embeds = self.qwen2_5_vl_model.visual(pixel_values_videos, grid_thw=video_grid_thw)
+                n_video_tokens = (input_ids == self.qwen2_5_vl_model.config.video_token_id).sum().item()
+                n_video_features = video_embeds.shape[0]
+                if n_video_tokens != n_video_features:
+                    raise ValueError(
+                        f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {n_video_features}"
+                    )
+                mask = input_ids == self.qwen2_5_vl_model.config.video_token_id
+                mask_unsqueezed = mask.unsqueeze(-1)
+                mask_expanded = mask_unsqueezed.expand_as(inputs_embeds)
+                video_mask = mask_expanded.to(inputs_embeds.device)
+                video_embeds = video_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
+                inputs_embeds = inputs_embeds.masked_scatter(video_mask, video_embeds)
+            if attention_mask is not None:
+                attention_mask = attention_mask.to(inputs_embeds.device)
+        # if we get 4D attention mask we cannot calculate rope deltas anymore. TODO @raushan fixme
+        if position_ids is None and (attention_mask is None or attention_mask.ndim == 2):
+            # calculate RoPE index once per generation in the pre-fill stage only
+            if (
+                (cache_position is not None and cache_position[0] == 0)
+                or self.qwen2_5_vl_model.rope_deltas is None
+                or (past_key_values is None or past_key_values.get_seq_length() == 0)
+            ):
+                position_ids, rope_deltas = self.qwen2_5_vl_model.get_rope_index(
+                    input_ids,
+                    image_grid_thw,
+                    video_grid_thw,
+                    second_per_grid_ts,
+                    attention_mask,
+                )
+                self.rope_deltas = rope_deltas
+            # then use the prev pre-calculated rope-deltas to get the correct position ids
+            else:
+                batch_size, seq_length, _ = inputs_embeds.shape
+                delta = (
+                    (cache_position[0] + self.rope_deltas).to(inputs_embeds.device)
+                    if cache_position is not None
+                    else 0
+                )
+                position_ids = torch.arange(seq_length, device=inputs_embeds.device)
+                position_ids = position_ids.view(1, -1).expand(batch_size, -1)
+                if cache_position is not None:  # otherwise `deltas` is an int `0`
+                    delta = delta.repeat_interleave(batch_size // delta.shape[0], dim=0)
+                position_ids = position_ids.add(delta)
+                position_ids = position_ids.unsqueeze(0).expand(3, -1, -1)
+        outputs = self.qwen2_5_vl_model.model(
+            input_ids=None,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            cache_position=cache_position,
+        )
+        hidden_states = outputs[0]
+        if labels is not None:
+            mask = labels == embed_token_id
+            labels[mask] = -100
+        logits = self.qwen2_5_vl_model.lm_head(hidden_states)
+        if return_emb:
+            assert labels is not None, 'labels must be provided to obtain embed'
+            hidden_index = torch.argmax(mask.float(), dim=1)
+            hidden_index[hidden_index==0] = labels.shape[1]
+            hidden_states = torch.gather(hidden_states, dim=1, index=(hidden_index-1).view(hidden_index.shape[0], 1, 1).repeat(1, 1, hidden_states.shape[-1]))
+            emb = hidden_states[:, 0, :].contiguous() # B, C
+        else:
+            emb = None
+        loss = None
+        if labels is not None and cal_loss:
+            # Upcast to float if we need to compute the loss to avoid potential precision issues
+            logits = logits.float()
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            if (shift_labels < 0).all().item():
+                loss = 0.0
+            else:
+                # Flatten the tokens
+                loss_fct = CrossEntropyLoss()
+                shift_logits = shift_logits.view(-1, self.qwen2_5_vl_model.config.vocab_size)
+                shift_labels = shift_labels.view(-1)
+                # Enable model parallelism
+                shift_labels = shift_labels.to(shift_logits.device)
+                loss = loss_fct(shift_logits, shift_labels)
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+        else:
+            outputs = Qwen2_5_VLCausalLMOutputWithPast(
+                loss=loss,
+                logits=logits,
+                past_key_values=outputs.past_key_values,
+                hidden_states=outputs.hidden_states,
+                attentions=outputs.attentions,
+                rope_deltas=self.qwen2_5_vl_model.rope_deltas,
+            )
+            if emb is not None:
+                outputs['emb'] = emb
+        return outputs
+    @torch.no_grad()
+    def generate(self, input_ids, *args, **kwargs) -> Union[GenerateOutput, torch.LongTensor]:
+        return self.qwen2_5_vl_model.generate(input_ids, *args, **kwargs)
+    def gradient_checkpointing_enable(self, gradient_checkpointing_kwargs=None):
+        super().gradient_checkpointing_enable(gradient_checkpointing_kwargs)
+        self.qwen2_5_vl_model.model.enable_input_require_grads()
+    def get_input_embeddings(self):
+        return self.qwen2_5_vl_model.model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.qwen2_5_vl_model.model.set_input_embeddings(value)
+    def get_output_embeddings(self):
+        return self.qwen2_5_vl_model.lm_head
+    def set_output_embeddings(self, new_embeddings):
+        self.qwen2_5_vl_model.lm_head = new_embeddings
+    def set_decoder(self, decoder):
+        self.qwen2_5_vl_model.model = decoder
+    def get_decoder(self):
+        return self.qwen2_5_vl_model.model