{"layer_norm_0.w_0": "mlp_AR.pre_norm.weight", "layer_norm_0.b_0": "mlp_AR.pre_norm.bias", "linear_0.w_0": "mlp_AR.linear_1.weight", "linear_0.b_0": "mlp_AR.linear_1.bias", "linear_1.w_0": "mlp_AR.linear_2.weight", "linear_1.b_0": "mlp_AR.linear_2.bias", "conv2d_0.w_0": "visual.vision_model.embeddings.patch_embedding.weight", "conv2d_0.b_0": "visual.vision_model.embeddings.patch_embedding.bias", "embedding_0.w_0": "visual.vision_model.embeddings.position_embedding.weight", "embedding_1.w_0": "visual.vision_model.embeddings.packing_position_embedding.weight", "layer_norm_1.w_0": "visual.vision_model.encoder.layers.0.layer_norm1.weight", "layer_norm_1.b_0": "visual.vision_model.encoder.layers.0.layer_norm1.bias", "linear_2.w_0": "visual.vision_model.encoder.layers.0.self_attn.k_proj.weight", "linear_2.b_0": "visual.vision_model.encoder.layers.0.self_attn.k_proj.bias", "linear_3.w_0": "visual.vision_model.encoder.layers.0.self_attn.v_proj.weight", "linear_3.b_0": "visual.vision_model.encoder.layers.0.self_attn.v_proj.bias", "linear_4.w_0": "visual.vision_model.encoder.layers.0.self_attn.q_proj.weight", "linear_4.b_0": "visual.vision_model.encoder.layers.0.self_attn.q_proj.bias", "linear_5.w_0": "visual.vision_model.encoder.layers.0.self_attn.out_proj.weight", "linear_5.b_0": "visual.vision_model.encoder.layers.0.self_attn.out_proj.bias", "layer_norm_2.w_0": "visual.vision_model.encoder.layers.0.layer_norm2.weight", "layer_norm_2.b_0": "visual.vision_model.encoder.layers.0.layer_norm2.bias", "linear_6.w_0": "visual.vision_model.encoder.layers.0.mlp.fc1.weight", "linear_6.b_0": "visual.vision_model.encoder.layers.0.mlp.fc1.bias", "linear_7.w_0": "visual.vision_model.encoder.layers.0.mlp.fc2.weight", "linear_7.b_0": "visual.vision_model.encoder.layers.0.mlp.fc2.bias", "layer_norm_3.w_0": "visual.vision_model.encoder.layers.1.layer_norm1.weight", "layer_norm_3.b_0": "visual.vision_model.encoder.layers.1.layer_norm1.bias", "linear_8.w_0": "visual.vision_model.encoder.layers.1.self_attn.k_proj.weight", "linear_8.b_0": "visual.vision_model.encoder.layers.1.self_attn.k_proj.bias", "linear_9.w_0": "visual.vision_model.encoder.layers.1.self_attn.v_proj.weight", "linear_9.b_0": "visual.vision_model.encoder.layers.1.self_attn.v_proj.bias", "linear_10.w_0": "visual.vision_model.encoder.layers.1.self_attn.q_proj.weight", "linear_10.b_0": "visual.vision_model.encoder.layers.1.self_attn.q_proj.bias", "linear_11.w_0": "visual.vision_model.encoder.layers.1.self_attn.out_proj.weight", "linear_11.b_0": "visual.vision_model.encoder.layers.1.self_attn.out_proj.bias", "layer_norm_4.w_0": "visual.vision_model.encoder.layers.1.layer_norm2.weight", "layer_norm_4.b_0": "visual.vision_model.encoder.layers.1.layer_norm2.bias", "linear_12.w_0": "visual.vision_model.encoder.layers.1.mlp.fc1.weight", "linear_12.b_0": "visual.vision_model.encoder.layers.1.mlp.fc1.bias", "linear_13.w_0": "visual.vision_model.encoder.layers.1.mlp.fc2.weight", "linear_13.b_0": "visual.vision_model.encoder.layers.1.mlp.fc2.bias", "layer_norm_5.w_0": "visual.vision_model.encoder.layers.2.layer_norm1.weight", "layer_norm_5.b_0": "visual.vision_model.encoder.layers.2.layer_norm1.bias", "linear_14.w_0": "visual.vision_model.encoder.layers.2.self_attn.k_proj.weight", "linear_14.b_0": "visual.vision_model.encoder.layers.2.self_attn.k_proj.bias", "linear_15.w_0": "visual.vision_model.encoder.layers.2.self_attn.v_proj.weight", "linear_15.b_0": "visual.vision_model.encoder.layers.2.self_attn.v_proj.bias", "linear_16.w_0": "visual.vision_model.encoder.layers.2.self_attn.q_proj.weight", "linear_16.b_0": "visual.vision_model.encoder.layers.2.self_attn.q_proj.bias", "linear_17.w_0": "visual.vision_model.encoder.layers.2.self_attn.out_proj.weight", "linear_17.b_0": "visual.vision_model.encoder.layers.2.self_attn.out_proj.bias", "layer_norm_6.w_0": "visual.vision_model.encoder.layers.2.layer_norm2.weight", "layer_norm_6.b_0": "visual.vision_model.encoder.layers.2.layer_norm2.bias", "linear_18.w_0": "visual.vision_model.encoder.layers.2.mlp.fc1.weight", "linear_18.b_0": "visual.vision_model.encoder.layers.2.mlp.fc1.bias", "linear_19.w_0": "visual.vision_model.encoder.layers.2.mlp.fc2.weight", "linear_19.b_0": "visual.vision_model.encoder.layers.2.mlp.fc2.bias", "layer_norm_7.w_0": "visual.vision_model.encoder.layers.3.layer_norm1.weight", "layer_norm_7.b_0": "visual.vision_model.encoder.layers.3.layer_norm1.bias", "linear_20.w_0": "visual.vision_model.encoder.layers.3.self_attn.k_proj.weight", "linear_20.b_0": "visual.vision_model.encoder.layers.3.self_attn.k_proj.bias", "linear_21.w_0": "visual.vision_model.encoder.layers.3.self_attn.v_proj.weight", "linear_21.b_0": "visual.vision_model.encoder.layers.3.self_attn.v_proj.bias", "linear_22.w_0": "visual.vision_model.encoder.layers.3.self_attn.q_proj.weight", "linear_22.b_0": "visual.vision_model.encoder.layers.3.self_attn.q_proj.bias", "linear_23.w_0": "visual.vision_model.encoder.layers.3.self_attn.out_proj.weight", "linear_23.b_0": "visual.vision_model.encoder.layers.3.self_attn.out_proj.bias", "layer_norm_8.w_0": "visual.vision_model.encoder.layers.3.layer_norm2.weight", "layer_norm_8.b_0": "visual.vision_model.encoder.layers.3.layer_norm2.bias", "linear_24.w_0": "visual.vision_model.encoder.layers.3.mlp.fc1.weight", "linear_24.b_0": "visual.vision_model.encoder.layers.3.mlp.fc1.bias", "linear_25.w_0": "visual.vision_model.encoder.layers.3.mlp.fc2.weight", "linear_25.b_0": "visual.vision_model.encoder.layers.3.mlp.fc2.bias", "layer_norm_9.w_0": "visual.vision_model.encoder.layers.4.layer_norm1.weight", "layer_norm_9.b_0": "visual.vision_model.encoder.layers.4.layer_norm1.bias", "linear_26.w_0": "visual.vision_model.encoder.layers.4.self_attn.k_proj.weight", "linear_26.b_0": "visual.vision_model.encoder.layers.4.self_attn.k_proj.bias", "linear_27.w_0": "visual.vision_model.encoder.layers.4.self_attn.v_proj.weight", "linear_27.b_0": "visual.vision_model.encoder.layers.4.self_attn.v_proj.bias", "linear_28.w_0": "visual.vision_model.encoder.layers.4.self_attn.q_proj.weight", "linear_28.b_0": "visual.vision_model.encoder.layers.4.self_attn.q_proj.bias", "linear_29.w_0": "visual.vision_model.encoder.layers.4.self_attn.out_proj.weight", "linear_29.b_0": "visual.vision_model.encoder.layers.4.self_attn.out_proj.bias", "layer_norm_10.w_0": "visual.vision_model.encoder.layers.4.layer_norm2.weight", "layer_norm_10.b_0": "visual.vision_model.encoder.layers.4.layer_norm2.bias", "linear_30.w_0": "visual.vision_model.encoder.layers.4.mlp.fc1.weight", "linear_30.b_0": "visual.vision_model.encoder.layers.4.mlp.fc1.bias", "linear_31.w_0": "visual.vision_model.encoder.layers.4.mlp.fc2.weight", "linear_31.b_0": "visual.vision_model.encoder.layers.4.mlp.fc2.bias", "layer_norm_11.w_0": "visual.vision_model.encoder.layers.5.layer_norm1.weight", "layer_norm_11.b_0": "visual.vision_model.encoder.layers.5.layer_norm1.bias", "linear_32.w_0": "visual.vision_model.encoder.layers.5.self_attn.k_proj.weight", "linear_32.b_0": "visual.vision_model.encoder.layers.5.self_attn.k_proj.bias", "linear_33.w_0": "visual.vision_model.encoder.layers.5.self_attn.v_proj.weight", "linear_33.b_0": "visual.vision_model.encoder.layers.5.self_attn.v_proj.bias", "linear_34.w_0": "visual.vision_model.encoder.layers.5.self_attn.q_proj.weight", "linear_34.b_0": "visual.vision_model.encoder.layers.5.self_attn.q_proj.bias", "linear_35.w_0": "visual.vision_model.encoder.layers.5.self_attn.out_proj.weight", "linear_35.b_0": "visual.vision_model.encoder.layers.5.self_attn.out_proj.bias", "layer_norm_12.w_0": "visual.vision_model.encoder.layers.5.layer_norm2.weight", "layer_norm_12.b_0": "visual.vision_model.encoder.layers.5.layer_norm2.bias", "linear_36.w_0": "visual.vision_model.encoder.layers.5.mlp.fc1.weight", "linear_36.b_0": "visual.vision_model.encoder.layers.5.mlp.fc1.bias", "linear_37.w_0": "visual.vision_model.encoder.layers.5.mlp.fc2.weight", "linear_37.b_0": "visual.vision_model.encoder.layers.5.mlp.fc2.bias", "layer_norm_13.w_0": "visual.vision_model.encoder.layers.6.layer_norm1.weight", "layer_norm_13.b_0": "visual.vision_model.encoder.layers.6.layer_norm1.bias", "linear_38.w_0": "visual.vision_model.encoder.layers.6.self_attn.k_proj.weight", "linear_38.b_0": "visual.vision_model.encoder.layers.6.self_attn.k_proj.bias", "linear_39.w_0": "visual.vision_model.encoder.layers.6.self_attn.v_proj.weight", "linear_39.b_0": "visual.vision_model.encoder.layers.6.self_attn.v_proj.bias", "linear_40.w_0": "visual.vision_model.encoder.layers.6.self_attn.q_proj.weight", "linear_40.b_0": "visual.vision_model.encoder.layers.6.self_attn.q_proj.bias", "linear_41.w_0": "visual.vision_model.encoder.layers.6.self_attn.out_proj.weight", "linear_41.b_0": "visual.vision_model.encoder.layers.6.self_attn.out_proj.bias", "layer_norm_14.w_0": "visual.vision_model.encoder.layers.6.layer_norm2.weight", "layer_norm_14.b_0": "visual.vision_model.encoder.layers.6.layer_norm2.bias", "linear_42.w_0": "visual.vision_model.encoder.layers.6.mlp.fc1.weight", "linear_42.b_0": "visual.vision_model.encoder.layers.6.mlp.fc1.bias", "linear_43.w_0": "visual.vision_model.encoder.layers.6.mlp.fc2.weight", "linear_43.b_0": "visual.vision_model.encoder.layers.6.mlp.fc2.bias", "layer_norm_15.w_0": "visual.vision_model.encoder.layers.7.layer_norm1.weight", "layer_norm_15.b_0": "visual.vision_model.encoder.layers.7.layer_norm1.bias", "linear_44.w_0": "visual.vision_model.encoder.layers.7.self_attn.k_proj.weight", "linear_44.b_0": "visual.vision_model.encoder.layers.7.self_attn.k_proj.bias", "linear_45.w_0": "visual.vision_model.encoder.layers.7.self_attn.v_proj.weight", "linear_45.b_0": "visual.vision_model.encoder.layers.7.self_attn.v_proj.bias", "linear_46.w_0": "visual.vision_model.encoder.layers.7.self_attn.q_proj.weight", "linear_46.b_0": "visual.vision_model.encoder.layers.7.self_attn.q_proj.bias", "linear_47.w_0": "visual.vision_model.encoder.layers.7.self_attn.out_proj.weight", "linear_47.b_0": "visual.vision_model.encoder.layers.7.self_attn.out_proj.bias", "layer_norm_16.w_0": "visual.vision_model.encoder.layers.7.layer_norm2.weight", "layer_norm_16.b_0": "visual.vision_model.encoder.layers.7.layer_norm2.bias", "linear_48.w_0": "visual.vision_model.encoder.layers.7.mlp.fc1.weight", "linear_48.b_0": "visual.vision_model.encoder.layers.7.mlp.fc1.bias", "linear_49.w_0": "visual.vision_model.encoder.layers.7.mlp.fc2.weight", "linear_49.b_0": "visual.vision_model.encoder.layers.7.mlp.fc2.bias", "layer_norm_17.w_0": "visual.vision_model.encoder.layers.8.layer_norm1.weight", "layer_norm_17.b_0": "visual.vision_model.encoder.layers.8.layer_norm1.bias", "linear_50.w_0": "visual.vision_model.encoder.layers.8.self_attn.k_proj.weight", "linear_50.b_0": "visual.vision_model.encoder.layers.8.self_attn.k_proj.bias", "linear_51.w_0": "visual.vision_model.encoder.layers.8.self_attn.v_proj.weight", "linear_51.b_0": "visual.vision_model.encoder.layers.8.self_attn.v_proj.bias", "linear_52.w_0": "visual.vision_model.encoder.layers.8.self_attn.q_proj.weight", "linear_52.b_0": "visual.vision_model.encoder.layers.8.self_attn.q_proj.bias", "linear_53.w_0": "visual.vision_model.encoder.layers.8.self_attn.out_proj.weight", "linear_53.b_0": "visual.vision_model.encoder.layers.8.self_attn.out_proj.bias", "layer_norm_18.w_0": "visual.vision_model.encoder.layers.8.layer_norm2.weight", "layer_norm_18.b_0": "visual.vision_model.encoder.layers.8.layer_norm2.bias", "linear_54.w_0": "visual.vision_model.encoder.layers.8.mlp.fc1.weight", "linear_54.b_0": "visual.vision_model.encoder.layers.8.mlp.fc1.bias", "linear_55.w_0": "visual.vision_model.encoder.layers.8.mlp.fc2.weight", "linear_55.b_0": "visual.vision_model.encoder.layers.8.mlp.fc2.bias", "layer_norm_19.w_0": "visual.vision_model.encoder.layers.9.layer_norm1.weight", "layer_norm_19.b_0": "visual.vision_model.encoder.layers.9.layer_norm1.bias", "linear_56.w_0": "visual.vision_model.encoder.layers.9.self_attn.k_proj.weight", "linear_56.b_0": "visual.vision_model.encoder.layers.9.self_attn.k_proj.bias", "linear_57.w_0": "visual.vision_model.encoder.layers.9.self_attn.v_proj.weight", "linear_57.b_0": "visual.vision_model.encoder.layers.9.self_attn.v_proj.bias", "linear_58.w_0": "visual.vision_model.encoder.layers.9.self_attn.q_proj.weight", "linear_58.b_0": "visual.vision_model.encoder.layers.9.self_attn.q_proj.bias", "linear_59.w_0": "visual.vision_model.encoder.layers.9.self_attn.out_proj.weight", "linear_59.b_0": "visual.vision_model.encoder.layers.9.self_attn.out_proj.bias", "layer_norm_20.w_0": "visual.vision_model.encoder.layers.9.layer_norm2.weight", "layer_norm_20.b_0": "visual.vision_model.encoder.layers.9.layer_norm2.bias", "linear_60.w_0": "visual.vision_model.encoder.layers.9.mlp.fc1.weight", "linear_60.b_0": "visual.vision_model.encoder.layers.9.mlp.fc1.bias", "linear_61.w_0": "visual.vision_model.encoder.layers.9.mlp.fc2.weight", "linear_61.b_0": "visual.vision_model.encoder.layers.9.mlp.fc2.bias", "layer_norm_21.w_0": "visual.vision_model.encoder.layers.10.layer_norm1.weight", "layer_norm_21.b_0": "visual.vision_model.encoder.layers.10.layer_norm1.bias", "linear_62.w_0": "visual.vision_model.encoder.layers.10.self_attn.k_proj.weight", "linear_62.b_0": "visual.vision_model.encoder.layers.10.self_attn.k_proj.bias", "linear_63.w_0": "visual.vision_model.encoder.layers.10.self_attn.v_proj.weight", "linear_63.b_0": "visual.vision_model.encoder.layers.10.self_attn.v_proj.bias", "linear_64.w_0": "visual.vision_model.encoder.layers.10.self_attn.q_proj.weight", "linear_64.b_0": "visual.vision_model.encoder.layers.10.self_attn.q_proj.bias", "linear_65.w_0": "visual.vision_model.encoder.layers.10.self_attn.out_proj.weight", "linear_65.b_0": "visual.vision_model.encoder.layers.10.self_attn.out_proj.bias", "layer_norm_22.w_0": "visual.vision_model.encoder.layers.10.layer_norm2.weight", "layer_norm_22.b_0": "visual.vision_model.encoder.layers.10.layer_norm2.bias", "linear_66.w_0": "visual.vision_model.encoder.layers.10.mlp.fc1.weight", "linear_66.b_0": "visual.vision_model.encoder.layers.10.mlp.fc1.bias", "linear_67.w_0": "visual.vision_model.encoder.layers.10.mlp.fc2.weight", "linear_67.b_0": "visual.vision_model.encoder.layers.10.mlp.fc2.bias", "layer_norm_23.w_0": "visual.vision_model.encoder.layers.11.layer_norm1.weight", "layer_norm_23.b_0": "visual.vision_model.encoder.layers.11.layer_norm1.bias", "linear_68.w_0": "visual.vision_model.encoder.layers.11.self_attn.k_proj.weight", "linear_68.b_0": "visual.vision_model.encoder.layers.11.self_attn.k_proj.bias", "linear_69.w_0": "visual.vision_model.encoder.layers.11.self_attn.v_proj.weight", "linear_69.b_0": "visual.vision_model.encoder.layers.11.self_attn.v_proj.bias", "linear_70.w_0": "visual.vision_model.encoder.layers.11.self_attn.q_proj.weight", "linear_70.b_0": "visual.vision_model.encoder.layers.11.self_attn.q_proj.bias", "linear_71.w_0": "visual.vision_model.encoder.layers.11.self_attn.out_proj.weight", "linear_71.b_0": "visual.vision_model.encoder.layers.11.self_attn.out_proj.bias", "layer_norm_24.w_0": "visual.vision_model.encoder.layers.11.layer_norm2.weight", "layer_norm_24.b_0": "visual.vision_model.encoder.layers.11.layer_norm2.bias", "linear_72.w_0": "visual.vision_model.encoder.layers.11.mlp.fc1.weight", "linear_72.b_0": "visual.vision_model.encoder.layers.11.mlp.fc1.bias", "linear_73.w_0": "visual.vision_model.encoder.layers.11.mlp.fc2.weight", "linear_73.b_0": "visual.vision_model.encoder.layers.11.mlp.fc2.bias", "layer_norm_25.w_0": "visual.vision_model.encoder.layers.12.layer_norm1.weight", "layer_norm_25.b_0": "visual.vision_model.encoder.layers.12.layer_norm1.bias", "linear_74.w_0": "visual.vision_model.encoder.layers.12.self_attn.k_proj.weight", "linear_74.b_0": "visual.vision_model.encoder.layers.12.self_attn.k_proj.bias", "linear_75.w_0": "visual.vision_model.encoder.layers.12.self_attn.v_proj.weight", "linear_75.b_0": "visual.vision_model.encoder.layers.12.self_attn.v_proj.bias", "linear_76.w_0": "visual.vision_model.encoder.layers.12.self_attn.q_proj.weight", "linear_76.b_0": "visual.vision_model.encoder.layers.12.self_attn.q_proj.bias", "linear_77.w_0": "visual.vision_model.encoder.layers.12.self_attn.out_proj.weight", "linear_77.b_0": "visual.vision_model.encoder.layers.12.self_attn.out_proj.bias", "layer_norm_26.w_0": "visual.vision_model.encoder.layers.12.layer_norm2.weight", "layer_norm_26.b_0": "visual.vision_model.encoder.layers.12.layer_norm2.bias", "linear_78.w_0": "visual.vision_model.encoder.layers.12.mlp.fc1.weight", "linear_78.b_0": "visual.vision_model.encoder.layers.12.mlp.fc1.bias", "linear_79.w_0": "visual.vision_model.encoder.layers.12.mlp.fc2.weight", "linear_79.b_0": "visual.vision_model.encoder.layers.12.mlp.fc2.bias", "layer_norm_27.w_0": "visual.vision_model.encoder.layers.13.layer_norm1.weight", "layer_norm_27.b_0": "visual.vision_model.encoder.layers.13.layer_norm1.bias", "linear_80.w_0": "visual.vision_model.encoder.layers.13.self_attn.k_proj.weight", "linear_80.b_0": "visual.vision_model.encoder.layers.13.self_attn.k_proj.bias", "linear_81.w_0": "visual.vision_model.encoder.layers.13.self_attn.v_proj.weight", "linear_81.b_0": "visual.vision_model.encoder.layers.13.self_attn.v_proj.bias", "linear_82.w_0": "visual.vision_model.encoder.layers.13.self_attn.q_proj.weight", "linear_82.b_0": "visual.vision_model.encoder.layers.13.self_attn.q_proj.bias", "linear_83.w_0": "visual.vision_model.encoder.layers.13.self_attn.out_proj.weight", "linear_83.b_0": "visual.vision_model.encoder.layers.13.self_attn.out_proj.bias", "layer_norm_28.w_0": "visual.vision_model.encoder.layers.13.layer_norm2.weight", "layer_norm_28.b_0": "visual.vision_model.encoder.layers.13.layer_norm2.bias", "linear_84.w_0": "visual.vision_model.encoder.layers.13.mlp.fc1.weight", "linear_84.b_0": "visual.vision_model.encoder.layers.13.mlp.fc1.bias", "linear_85.w_0": "visual.vision_model.encoder.layers.13.mlp.fc2.weight", "linear_85.b_0": "visual.vision_model.encoder.layers.13.mlp.fc2.bias", "layer_norm_29.w_0": "visual.vision_model.encoder.layers.14.layer_norm1.weight", "layer_norm_29.b_0": "visual.vision_model.encoder.layers.14.layer_norm1.bias", "linear_86.w_0": "visual.vision_model.encoder.layers.14.self_attn.k_proj.weight", "linear_86.b_0": "visual.vision_model.encoder.layers.14.self_attn.k_proj.bias", "linear_87.w_0": "visual.vision_model.encoder.layers.14.self_attn.v_proj.weight", "linear_87.b_0": "visual.vision_model.encoder.layers.14.self_attn.v_proj.bias", "linear_88.w_0": "visual.vision_model.encoder.layers.14.self_attn.q_proj.weight", "linear_88.b_0": "visual.vision_model.encoder.layers.14.self_attn.q_proj.bias", "linear_89.w_0": "visual.vision_model.encoder.layers.14.self_attn.out_proj.weight", "linear_89.b_0": "visual.vision_model.encoder.layers.14.self_attn.out_proj.bias", "layer_norm_30.w_0": "visual.vision_model.encoder.layers.14.layer_norm2.weight", "layer_norm_30.b_0": "visual.vision_model.encoder.layers.14.layer_norm2.bias", "linear_90.w_0": "visual.vision_model.encoder.layers.14.mlp.fc1.weight", "linear_90.b_0": "visual.vision_model.encoder.layers.14.mlp.fc1.bias", "linear_91.w_0": "visual.vision_model.encoder.layers.14.mlp.fc2.weight", "linear_91.b_0": "visual.vision_model.encoder.layers.14.mlp.fc2.bias", "layer_norm_31.w_0": "visual.vision_model.encoder.layers.15.layer_norm1.weight", "layer_norm_31.b_0": "visual.vision_model.encoder.layers.15.layer_norm1.bias", "linear_92.w_0": "visual.vision_model.encoder.layers.15.self_attn.k_proj.weight", "linear_92.b_0": "visual.vision_model.encoder.layers.15.self_attn.k_proj.bias", "linear_93.w_0": "visual.vision_model.encoder.layers.15.self_attn.v_proj.weight", "linear_93.b_0": "visual.vision_model.encoder.layers.15.self_attn.v_proj.bias", "linear_94.w_0": "visual.vision_model.encoder.layers.15.self_attn.q_proj.weight", "linear_94.b_0": "visual.vision_model.encoder.layers.15.self_attn.q_proj.bias", "linear_95.w_0": "visual.vision_model.encoder.layers.15.self_attn.out_proj.weight", "linear_95.b_0": "visual.vision_model.encoder.layers.15.self_attn.out_proj.bias", "layer_norm_32.w_0": "visual.vision_model.encoder.layers.15.layer_norm2.weight", "layer_norm_32.b_0": "visual.vision_model.encoder.layers.15.layer_norm2.bias", "linear_96.w_0": "visual.vision_model.encoder.layers.15.mlp.fc1.weight", "linear_96.b_0": "visual.vision_model.encoder.layers.15.mlp.fc1.bias", "linear_97.w_0": "visual.vision_model.encoder.layers.15.mlp.fc2.weight", "linear_97.b_0": "visual.vision_model.encoder.layers.15.mlp.fc2.bias", "layer_norm_33.w_0": "visual.vision_model.encoder.layers.16.layer_norm1.weight", "layer_norm_33.b_0": "visual.vision_model.encoder.layers.16.layer_norm1.bias", "linear_98.w_0": "visual.vision_model.encoder.layers.16.self_attn.k_proj.weight", "linear_98.b_0": "visual.vision_model.encoder.layers.16.self_attn.k_proj.bias", "linear_99.w_0": "visual.vision_model.encoder.layers.16.self_attn.v_proj.weight", "linear_99.b_0": "visual.vision_model.encoder.layers.16.self_attn.v_proj.bias", "linear_100.w_0": "visual.vision_model.encoder.layers.16.self_attn.q_proj.weight", "linear_100.b_0": "visual.vision_model.encoder.layers.16.self_attn.q_proj.bias", "linear_101.w_0": "visual.vision_model.encoder.layers.16.self_attn.out_proj.weight", "linear_101.b_0": "visual.vision_model.encoder.layers.16.self_attn.out_proj.bias", "layer_norm_34.w_0": "visual.vision_model.encoder.layers.16.layer_norm2.weight", "layer_norm_34.b_0": "visual.vision_model.encoder.layers.16.layer_norm2.bias", "linear_102.w_0": "visual.vision_model.encoder.layers.16.mlp.fc1.weight", "linear_102.b_0": "visual.vision_model.encoder.layers.16.mlp.fc1.bias", "linear_103.w_0": "visual.vision_model.encoder.layers.16.mlp.fc2.weight", "linear_103.b_0": "visual.vision_model.encoder.layers.16.mlp.fc2.bias", "layer_norm_35.w_0": "visual.vision_model.encoder.layers.17.layer_norm1.weight", "layer_norm_35.b_0": "visual.vision_model.encoder.layers.17.layer_norm1.bias", "linear_104.w_0": "visual.vision_model.encoder.layers.17.self_attn.k_proj.weight", "linear_104.b_0": "visual.vision_model.encoder.layers.17.self_attn.k_proj.bias", "linear_105.w_0": "visual.vision_model.encoder.layers.17.self_attn.v_proj.weight", "linear_105.b_0": "visual.vision_model.encoder.layers.17.self_attn.v_proj.bias", "linear_106.w_0": "visual.vision_model.encoder.layers.17.self_attn.q_proj.weight", "linear_106.b_0": "visual.vision_model.encoder.layers.17.self_attn.q_proj.bias", "linear_107.w_0": "visual.vision_model.encoder.layers.17.self_attn.out_proj.weight", "linear_107.b_0": "visual.vision_model.encoder.layers.17.self_attn.out_proj.bias", "layer_norm_36.w_0": "visual.vision_model.encoder.layers.17.layer_norm2.weight", "layer_norm_36.b_0": "visual.vision_model.encoder.layers.17.layer_norm2.bias", "linear_108.w_0": "visual.vision_model.encoder.layers.17.mlp.fc1.weight", "linear_108.b_0": "visual.vision_model.encoder.layers.17.mlp.fc1.bias", "linear_109.w_0": "visual.vision_model.encoder.layers.17.mlp.fc2.weight", "linear_109.b_0": "visual.vision_model.encoder.layers.17.mlp.fc2.bias", "layer_norm_37.w_0": "visual.vision_model.encoder.layers.18.layer_norm1.weight", "layer_norm_37.b_0": "visual.vision_model.encoder.layers.18.layer_norm1.bias", "linear_110.w_0": "visual.vision_model.encoder.layers.18.self_attn.k_proj.weight", "linear_110.b_0": "visual.vision_model.encoder.layers.18.self_attn.k_proj.bias", "linear_111.w_0": "visual.vision_model.encoder.layers.18.self_attn.v_proj.weight", "linear_111.b_0": "visual.vision_model.encoder.layers.18.self_attn.v_proj.bias", "linear_112.w_0": "visual.vision_model.encoder.layers.18.self_attn.q_proj.weight", "linear_112.b_0": "visual.vision_model.encoder.layers.18.self_attn.q_proj.bias", "linear_113.w_0": "visual.vision_model.encoder.layers.18.self_attn.out_proj.weight", "linear_113.b_0": "visual.vision_model.encoder.layers.18.self_attn.out_proj.bias", "layer_norm_38.w_0": "visual.vision_model.encoder.layers.18.layer_norm2.weight", "layer_norm_38.b_0": "visual.vision_model.encoder.layers.18.layer_norm2.bias", "linear_114.w_0": "visual.vision_model.encoder.layers.18.mlp.fc1.weight", "linear_114.b_0": "visual.vision_model.encoder.layers.18.mlp.fc1.bias", "linear_115.w_0": "visual.vision_model.encoder.layers.18.mlp.fc2.weight", "linear_115.b_0": "visual.vision_model.encoder.layers.18.mlp.fc2.bias", "layer_norm_39.w_0": "visual.vision_model.encoder.layers.19.layer_norm1.weight", "layer_norm_39.b_0": "visual.vision_model.encoder.layers.19.layer_norm1.bias", "linear_116.w_0": "visual.vision_model.encoder.layers.19.self_attn.k_proj.weight", "linear_116.b_0": "visual.vision_model.encoder.layers.19.self_attn.k_proj.bias", "linear_117.w_0": "visual.vision_model.encoder.layers.19.self_attn.v_proj.weight", "linear_117.b_0": "visual.vision_model.encoder.layers.19.self_attn.v_proj.bias", "linear_118.w_0": "visual.vision_model.encoder.layers.19.self_attn.q_proj.weight", "linear_118.b_0": "visual.vision_model.encoder.layers.19.self_attn.q_proj.bias", "linear_119.w_0": "visual.vision_model.encoder.layers.19.self_attn.out_proj.weight", "linear_119.b_0": "visual.vision_model.encoder.layers.19.self_attn.out_proj.bias", "layer_norm_40.w_0": "visual.vision_model.encoder.layers.19.layer_norm2.weight", "layer_norm_40.b_0": "visual.vision_model.encoder.layers.19.layer_norm2.bias", "linear_120.w_0": "visual.vision_model.encoder.layers.19.mlp.fc1.weight", "linear_120.b_0": "visual.vision_model.encoder.layers.19.mlp.fc1.bias", "linear_121.w_0": "visual.vision_model.encoder.layers.19.mlp.fc2.weight", "linear_121.b_0": "visual.vision_model.encoder.layers.19.mlp.fc2.bias", "layer_norm_41.w_0": "visual.vision_model.encoder.layers.20.layer_norm1.weight", "layer_norm_41.b_0": "visual.vision_model.encoder.layers.20.layer_norm1.bias", "linear_122.w_0": "visual.vision_model.encoder.layers.20.self_attn.k_proj.weight", "linear_122.b_0": "visual.vision_model.encoder.layers.20.self_attn.k_proj.bias", "linear_123.w_0": "visual.vision_model.encoder.layers.20.self_attn.v_proj.weight", "linear_123.b_0": "visual.vision_model.encoder.layers.20.self_attn.v_proj.bias", "linear_124.w_0": "visual.vision_model.encoder.layers.20.self_attn.q_proj.weight", "linear_124.b_0": "visual.vision_model.encoder.layers.20.self_attn.q_proj.bias", "linear_125.w_0": "visual.vision_model.encoder.layers.20.self_attn.out_proj.weight", "linear_125.b_0": "visual.vision_model.encoder.layers.20.self_attn.out_proj.bias", "layer_norm_42.w_0": "visual.vision_model.encoder.layers.20.layer_norm2.weight", "layer_norm_42.b_0": "visual.vision_model.encoder.layers.20.layer_norm2.bias", "linear_126.w_0": "visual.vision_model.encoder.layers.20.mlp.fc1.weight", "linear_126.b_0": "visual.vision_model.encoder.layers.20.mlp.fc1.bias", "linear_127.w_0": "visual.vision_model.encoder.layers.20.mlp.fc2.weight", "linear_127.b_0": "visual.vision_model.encoder.layers.20.mlp.fc2.bias", "layer_norm_43.w_0": "visual.vision_model.encoder.layers.21.layer_norm1.weight", "layer_norm_43.b_0": "visual.vision_model.encoder.layers.21.layer_norm1.bias", "linear_128.w_0": "visual.vision_model.encoder.layers.21.self_attn.k_proj.weight", "linear_128.b_0": "visual.vision_model.encoder.layers.21.self_attn.k_proj.bias", "linear_129.w_0": "visual.vision_model.encoder.layers.21.self_attn.v_proj.weight", "linear_129.b_0": "visual.vision_model.encoder.layers.21.self_attn.v_proj.bias", "linear_130.w_0": "visual.vision_model.encoder.layers.21.self_attn.q_proj.weight", "linear_130.b_0": "visual.vision_model.encoder.layers.21.self_attn.q_proj.bias", "linear_131.w_0": "visual.vision_model.encoder.layers.21.self_attn.out_proj.weight", "linear_131.b_0": "visual.vision_model.encoder.layers.21.self_attn.out_proj.bias", "layer_norm_44.w_0": "visual.vision_model.encoder.layers.21.layer_norm2.weight", "layer_norm_44.b_0": "visual.vision_model.encoder.layers.21.layer_norm2.bias", "linear_132.w_0": "visual.vision_model.encoder.layers.21.mlp.fc1.weight", "linear_132.b_0": "visual.vision_model.encoder.layers.21.mlp.fc1.bias", "linear_133.w_0": "visual.vision_model.encoder.layers.21.mlp.fc2.weight", "linear_133.b_0": "visual.vision_model.encoder.layers.21.mlp.fc2.bias", "layer_norm_45.w_0": "visual.vision_model.encoder.layers.22.layer_norm1.weight", "layer_norm_45.b_0": "visual.vision_model.encoder.layers.22.layer_norm1.bias", "linear_134.w_0": "visual.vision_model.encoder.layers.22.self_attn.k_proj.weight", "linear_134.b_0": "visual.vision_model.encoder.layers.22.self_attn.k_proj.bias", "linear_135.w_0": "visual.vision_model.encoder.layers.22.self_attn.v_proj.weight", "linear_135.b_0": "visual.vision_model.encoder.layers.22.self_attn.v_proj.bias", "linear_136.w_0": "visual.vision_model.encoder.layers.22.self_attn.q_proj.weight", "linear_136.b_0": "visual.vision_model.encoder.layers.22.self_attn.q_proj.bias", "linear_137.w_0": "visual.vision_model.encoder.layers.22.self_attn.out_proj.weight", "linear_137.b_0": "visual.vision_model.encoder.layers.22.self_attn.out_proj.bias", "layer_norm_46.w_0": "visual.vision_model.encoder.layers.22.layer_norm2.weight", "layer_norm_46.b_0": "visual.vision_model.encoder.layers.22.layer_norm2.bias", "linear_138.w_0": "visual.vision_model.encoder.layers.22.mlp.fc1.weight", "linear_138.b_0": "visual.vision_model.encoder.layers.22.mlp.fc1.bias", "linear_139.w_0": "visual.vision_model.encoder.layers.22.mlp.fc2.weight", "linear_139.b_0": "visual.vision_model.encoder.layers.22.mlp.fc2.bias", "layer_norm_47.w_0": "visual.vision_model.encoder.layers.23.layer_norm1.weight", "layer_norm_47.b_0": "visual.vision_model.encoder.layers.23.layer_norm1.bias", "linear_140.w_0": "visual.vision_model.encoder.layers.23.self_attn.k_proj.weight", "linear_140.b_0": "visual.vision_model.encoder.layers.23.self_attn.k_proj.bias", "linear_141.w_0": "visual.vision_model.encoder.layers.23.self_attn.v_proj.weight", "linear_141.b_0": "visual.vision_model.encoder.layers.23.self_attn.v_proj.bias", "linear_142.w_0": "visual.vision_model.encoder.layers.23.self_attn.q_proj.weight", "linear_142.b_0": "visual.vision_model.encoder.layers.23.self_attn.q_proj.bias", "linear_143.w_0": "visual.vision_model.encoder.layers.23.self_attn.out_proj.weight", "linear_143.b_0": "visual.vision_model.encoder.layers.23.self_attn.out_proj.bias", "layer_norm_48.w_0": "visual.vision_model.encoder.layers.23.layer_norm2.weight", "layer_norm_48.b_0": "visual.vision_model.encoder.layers.23.layer_norm2.bias", "linear_144.w_0": "visual.vision_model.encoder.layers.23.mlp.fc1.weight", "linear_144.b_0": "visual.vision_model.encoder.layers.23.mlp.fc1.bias", "linear_145.w_0": "visual.vision_model.encoder.layers.23.mlp.fc2.weight", "linear_145.b_0": "visual.vision_model.encoder.layers.23.mlp.fc2.bias", "layer_norm_49.w_0": "visual.vision_model.encoder.layers.24.layer_norm1.weight", "layer_norm_49.b_0": "visual.vision_model.encoder.layers.24.layer_norm1.bias", "linear_146.w_0": "visual.vision_model.encoder.layers.24.self_attn.k_proj.weight", "linear_146.b_0": "visual.vision_model.encoder.layers.24.self_attn.k_proj.bias", "linear_147.w_0": "visual.vision_model.encoder.layers.24.self_attn.v_proj.weight", "linear_147.b_0": "visual.vision_model.encoder.layers.24.self_attn.v_proj.bias", "linear_148.w_0": "visual.vision_model.encoder.layers.24.self_attn.q_proj.weight", "linear_148.b_0": "visual.vision_model.encoder.layers.24.self_attn.q_proj.bias", "linear_149.w_0": "visual.vision_model.encoder.layers.24.self_attn.out_proj.weight", "linear_149.b_0": "visual.vision_model.encoder.layers.24.self_attn.out_proj.bias", "layer_norm_50.w_0": "visual.vision_model.encoder.layers.24.layer_norm2.weight", "layer_norm_50.b_0": "visual.vision_model.encoder.layers.24.layer_norm2.bias", "linear_150.w_0": "visual.vision_model.encoder.layers.24.mlp.fc1.weight", "linear_150.b_0": "visual.vision_model.encoder.layers.24.mlp.fc1.bias", "linear_151.w_0": "visual.vision_model.encoder.layers.24.mlp.fc2.weight", "linear_151.b_0": "visual.vision_model.encoder.layers.24.mlp.fc2.bias", "layer_norm_51.w_0": "visual.vision_model.encoder.layers.25.layer_norm1.weight", "layer_norm_51.b_0": "visual.vision_model.encoder.layers.25.layer_norm1.bias", "linear_152.w_0": "visual.vision_model.encoder.layers.25.self_attn.k_proj.weight", "linear_152.b_0": "visual.vision_model.encoder.layers.25.self_attn.k_proj.bias", "linear_153.w_0": "visual.vision_model.encoder.layers.25.self_attn.v_proj.weight", "linear_153.b_0": "visual.vision_model.encoder.layers.25.self_attn.v_proj.bias", "linear_154.w_0": "visual.vision_model.encoder.layers.25.self_attn.q_proj.weight", "linear_154.b_0": "visual.vision_model.encoder.layers.25.self_attn.q_proj.bias", "linear_155.w_0": "visual.vision_model.encoder.layers.25.self_attn.out_proj.weight", "linear_155.b_0": "visual.vision_model.encoder.layers.25.self_attn.out_proj.bias", "layer_norm_52.w_0": "visual.vision_model.encoder.layers.25.layer_norm2.weight", "layer_norm_52.b_0": "visual.vision_model.encoder.layers.25.layer_norm2.bias", "linear_156.w_0": "visual.vision_model.encoder.layers.25.mlp.fc1.weight", "linear_156.b_0": "visual.vision_model.encoder.layers.25.mlp.fc1.bias", "linear_157.w_0": "visual.vision_model.encoder.layers.25.mlp.fc2.weight", "linear_157.b_0": "visual.vision_model.encoder.layers.25.mlp.fc2.bias", "layer_norm_53.w_0": "visual.vision_model.encoder.layers.26.layer_norm1.weight", "layer_norm_53.b_0": "visual.vision_model.encoder.layers.26.layer_norm1.bias", "linear_158.w_0": "visual.vision_model.encoder.layers.26.self_attn.k_proj.weight", "linear_158.b_0": "visual.vision_model.encoder.layers.26.self_attn.k_proj.bias", "linear_159.w_0": "visual.vision_model.encoder.layers.26.self_attn.v_proj.weight", "linear_159.b_0": "visual.vision_model.encoder.layers.26.self_attn.v_proj.bias", "linear_160.w_0": "visual.vision_model.encoder.layers.26.self_attn.q_proj.weight", "linear_160.b_0": "visual.vision_model.encoder.layers.26.self_attn.q_proj.bias", "linear_161.w_0": "visual.vision_model.encoder.layers.26.self_attn.out_proj.weight", "linear_161.b_0": "visual.vision_model.encoder.layers.26.self_attn.out_proj.bias", "layer_norm_54.w_0": "visual.vision_model.encoder.layers.26.layer_norm2.weight", "layer_norm_54.b_0": "visual.vision_model.encoder.layers.26.layer_norm2.bias", "linear_162.w_0": "visual.vision_model.encoder.layers.26.mlp.fc1.weight", "linear_162.b_0": "visual.vision_model.encoder.layers.26.mlp.fc1.bias", "linear_163.w_0": "visual.vision_model.encoder.layers.26.mlp.fc2.weight", "linear_163.b_0": "visual.vision_model.encoder.layers.26.mlp.fc2.bias", "layer_norm_55.w_0": "visual.vision_model.post_layernorm.weight", "layer_norm_55.b_0": "visual.vision_model.post_layernorm.bias", "siglip_multihead_attention_pooling_head_0.w_0": "visual.vision_model.head.probe", "multi_head_attention_0.w_0": "visual.vision_model.head.attention.in_proj_weight", "multi_head_attention_0.w_1": "visual.vision_model.head.attention.in_proj_bias", "linear_164.w_0": "visual.vision_model.head.attention.out_proj.weight", "linear_164.b_0": "visual.vision_model.head.attention.out_proj.bias", "layer_norm_56.w_0": "visual.vision_model.head.layernorm.weight", "layer_norm_56.b_0": "visual.vision_model.head.layernorm.bias", "linear_165.w_0": "visual.vision_model.head.mlp.fc1.weight", "linear_165.b_0": "visual.vision_model.head.mlp.fc1.bias", "linear_166.w_0": "visual.vision_model.head.mlp.fc2.weight", "linear_166.b_0": "visual.vision_model.head.mlp.fc2.bias", "embedding_2.w_0": "model.embed_tokens.weight", "linear_167.w_0": "model.layers.0.self_attn.q_proj.weight", "linear_168.w_0": "model.layers.0.self_attn.k_proj.weight", "linear_169.w_0": "model.layers.0.self_attn.v_proj.weight", "linear_170.w_0": "model.layers.0.self_attn.o_proj.weight", "linear_171.w_0": "model.layers.0.mlp.gate_proj.weight", "linear_172.w_0": "model.layers.0.mlp.up_proj.weight", "linear_173.w_0": "model.layers.0.mlp.down_proj.weight", "create_parameter_0.w_0": "model.layers.0.input_layernorm.weight", "create_parameter_1.w_0": "model.layers.0.post_attention_layernorm.weight", "linear_174.w_0": "model.layers.1.self_attn.q_proj.weight", "linear_175.w_0": "model.layers.1.self_attn.k_proj.weight", "linear_176.w_0": "model.layers.1.self_attn.v_proj.weight", "linear_177.w_0": "model.layers.1.self_attn.o_proj.weight", "linear_178.w_0": "model.layers.1.mlp.gate_proj.weight", "linear_179.w_0": "model.layers.1.mlp.up_proj.weight", "linear_180.w_0": "model.layers.1.mlp.down_proj.weight", "create_parameter_2.w_0": "model.layers.1.input_layernorm.weight", "create_parameter_3.w_0": "model.layers.1.post_attention_layernorm.weight", "linear_181.w_0": "model.layers.2.self_attn.q_proj.weight", "linear_182.w_0": "model.layers.2.self_attn.k_proj.weight", "linear_183.w_0": "model.layers.2.self_attn.v_proj.weight", "linear_184.w_0": "model.layers.2.self_attn.o_proj.weight", "linear_185.w_0": "model.layers.2.mlp.gate_proj.weight", "linear_186.w_0": "model.layers.2.mlp.up_proj.weight", "linear_187.w_0": "model.layers.2.mlp.down_proj.weight", "create_parameter_4.w_0": "model.layers.2.input_layernorm.weight", "create_parameter_5.w_0": "model.layers.2.post_attention_layernorm.weight", "linear_188.w_0": "model.layers.3.self_attn.q_proj.weight", "linear_189.w_0": "model.layers.3.self_attn.k_proj.weight", "linear_190.w_0": "model.layers.3.self_attn.v_proj.weight", "linear_191.w_0": "model.layers.3.self_attn.o_proj.weight", "linear_192.w_0": "model.layers.3.mlp.gate_proj.weight", "linear_193.w_0": "model.layers.3.mlp.up_proj.weight", "linear_194.w_0": "model.layers.3.mlp.down_proj.weight", "create_parameter_6.w_0": "model.layers.3.input_layernorm.weight", "create_parameter_7.w_0": "model.layers.3.post_attention_layernorm.weight", "linear_195.w_0": "model.layers.4.self_attn.q_proj.weight", "linear_196.w_0": "model.layers.4.self_attn.k_proj.weight", "linear_197.w_0": "model.layers.4.self_attn.v_proj.weight", "linear_198.w_0": "model.layers.4.self_attn.o_proj.weight", "linear_199.w_0": "model.layers.4.mlp.gate_proj.weight", "linear_200.w_0": "model.layers.4.mlp.up_proj.weight", "linear_201.w_0": "model.layers.4.mlp.down_proj.weight", "create_parameter_8.w_0": "model.layers.4.input_layernorm.weight", "create_parameter_9.w_0": "model.layers.4.post_attention_layernorm.weight", "linear_202.w_0": "model.layers.5.self_attn.q_proj.weight", "linear_203.w_0": "model.layers.5.self_attn.k_proj.weight", "linear_204.w_0": "model.layers.5.self_attn.v_proj.weight", "linear_205.w_0": "model.layers.5.self_attn.o_proj.weight", "linear_206.w_0": "model.layers.5.mlp.gate_proj.weight", "linear_207.w_0": "model.layers.5.mlp.up_proj.weight", "linear_208.w_0": "model.layers.5.mlp.down_proj.weight", "create_parameter_10.w_0": "model.layers.5.input_layernorm.weight", "create_parameter_11.w_0": "model.layers.5.post_attention_layernorm.weight", "linear_209.w_0": "model.layers.6.self_attn.q_proj.weight", "linear_210.w_0": "model.layers.6.self_attn.k_proj.weight", "linear_211.w_0": "model.layers.6.self_attn.v_proj.weight", "linear_212.w_0": "model.layers.6.self_attn.o_proj.weight", "linear_213.w_0": "model.layers.6.mlp.gate_proj.weight", "linear_214.w_0": "model.layers.6.mlp.up_proj.weight", "linear_215.w_0": "model.layers.6.mlp.down_proj.weight", "create_parameter_12.w_0": "model.layers.6.input_layernorm.weight", "create_parameter_13.w_0": "model.layers.6.post_attention_layernorm.weight", "linear_216.w_0": "model.layers.7.self_attn.q_proj.weight", "linear_217.w_0": "model.layers.7.self_attn.k_proj.weight", "linear_218.w_0": "model.layers.7.self_attn.v_proj.weight", "linear_219.w_0": "model.layers.7.self_attn.o_proj.weight", "linear_220.w_0": "model.layers.7.mlp.gate_proj.weight", "linear_221.w_0": "model.layers.7.mlp.up_proj.weight", "linear_222.w_0": "model.layers.7.mlp.down_proj.weight", "create_parameter_14.w_0": "model.layers.7.input_layernorm.weight", "create_parameter_15.w_0": "model.layers.7.post_attention_layernorm.weight", "linear_223.w_0": "model.layers.8.self_attn.q_proj.weight", "linear_224.w_0": "model.layers.8.self_attn.k_proj.weight", "linear_225.w_0": "model.layers.8.self_attn.v_proj.weight", "linear_226.w_0": "model.layers.8.self_attn.o_proj.weight", "linear_227.w_0": "model.layers.8.mlp.gate_proj.weight", "linear_228.w_0": "model.layers.8.mlp.up_proj.weight", "linear_229.w_0": "model.layers.8.mlp.down_proj.weight", "create_parameter_16.w_0": "model.layers.8.input_layernorm.weight", "create_parameter_17.w_0": "model.layers.8.post_attention_layernorm.weight", "linear_230.w_0": "model.layers.9.self_attn.q_proj.weight", "linear_231.w_0": "model.layers.9.self_attn.k_proj.weight", "linear_232.w_0": "model.layers.9.self_attn.v_proj.weight", "linear_233.w_0": "model.layers.9.self_attn.o_proj.weight", "linear_234.w_0": "model.layers.9.mlp.gate_proj.weight", "linear_235.w_0": "model.layers.9.mlp.up_proj.weight", "linear_236.w_0": "model.layers.9.mlp.down_proj.weight", "create_parameter_18.w_0": "model.layers.9.input_layernorm.weight", "create_parameter_19.w_0": "model.layers.9.post_attention_layernorm.weight", "linear_237.w_0": "model.layers.10.self_attn.q_proj.weight", "linear_238.w_0": "model.layers.10.self_attn.k_proj.weight", "linear_239.w_0": "model.layers.10.self_attn.v_proj.weight", "linear_240.w_0": "model.layers.10.self_attn.o_proj.weight", "linear_241.w_0": "model.layers.10.mlp.gate_proj.weight", "linear_242.w_0": "model.layers.10.mlp.up_proj.weight", "linear_243.w_0": "model.layers.10.mlp.down_proj.weight", "create_parameter_20.w_0": "model.layers.10.input_layernorm.weight", "create_parameter_21.w_0": "model.layers.10.post_attention_layernorm.weight", "linear_244.w_0": "model.layers.11.self_attn.q_proj.weight", "linear_245.w_0": "model.layers.11.self_attn.k_proj.weight", "linear_246.w_0": "model.layers.11.self_attn.v_proj.weight", "linear_247.w_0": "model.layers.11.self_attn.o_proj.weight", "linear_248.w_0": "model.layers.11.mlp.gate_proj.weight", "linear_249.w_0": "model.layers.11.mlp.up_proj.weight", "linear_250.w_0": "model.layers.11.mlp.down_proj.weight", "create_parameter_22.w_0": "model.layers.11.input_layernorm.weight", "create_parameter_23.w_0": "model.layers.11.post_attention_layernorm.weight", "linear_251.w_0": "model.layers.12.self_attn.q_proj.weight", "linear_252.w_0": "model.layers.12.self_attn.k_proj.weight", "linear_253.w_0": "model.layers.12.self_attn.v_proj.weight", "linear_254.w_0": "model.layers.12.self_attn.o_proj.weight", "linear_255.w_0": "model.layers.12.mlp.gate_proj.weight", "linear_256.w_0": "model.layers.12.mlp.up_proj.weight", "linear_257.w_0": "model.layers.12.mlp.down_proj.weight", "create_parameter_24.w_0": "model.layers.12.input_layernorm.weight", "create_parameter_25.w_0": "model.layers.12.post_attention_layernorm.weight", "linear_258.w_0": "model.layers.13.self_attn.q_proj.weight", "linear_259.w_0": "model.layers.13.self_attn.k_proj.weight", "linear_260.w_0": "model.layers.13.self_attn.v_proj.weight", "linear_261.w_0": "model.layers.13.self_attn.o_proj.weight", "linear_262.w_0": "model.layers.13.mlp.gate_proj.weight", "linear_263.w_0": "model.layers.13.mlp.up_proj.weight", "linear_264.w_0": "model.layers.13.mlp.down_proj.weight", "create_parameter_26.w_0": "model.layers.13.input_layernorm.weight", "create_parameter_27.w_0": "model.layers.13.post_attention_layernorm.weight", "linear_265.w_0": "model.layers.14.self_attn.q_proj.weight", "linear_266.w_0": "model.layers.14.self_attn.k_proj.weight", "linear_267.w_0": "model.layers.14.self_attn.v_proj.weight", "linear_268.w_0": "model.layers.14.self_attn.o_proj.weight", "linear_269.w_0": "model.layers.14.mlp.gate_proj.weight", "linear_270.w_0": "model.layers.14.mlp.up_proj.weight", "linear_271.w_0": "model.layers.14.mlp.down_proj.weight", "create_parameter_28.w_0": "model.layers.14.input_layernorm.weight", "create_parameter_29.w_0": "model.layers.14.post_attention_layernorm.weight", "linear_272.w_0": "model.layers.15.self_attn.q_proj.weight", "linear_273.w_0": "model.layers.15.self_attn.k_proj.weight", "linear_274.w_0": "model.layers.15.self_attn.v_proj.weight", "linear_275.w_0": "model.layers.15.self_attn.o_proj.weight", "linear_276.w_0": "model.layers.15.mlp.gate_proj.weight", "linear_277.w_0": "model.layers.15.mlp.up_proj.weight", "linear_278.w_0": "model.layers.15.mlp.down_proj.weight", "create_parameter_30.w_0": "model.layers.15.input_layernorm.weight", "create_parameter_31.w_0": "model.layers.15.post_attention_layernorm.weight", "linear_279.w_0": "model.layers.16.self_attn.q_proj.weight", "linear_280.w_0": "model.layers.16.self_attn.k_proj.weight", "linear_281.w_0": "model.layers.16.self_attn.v_proj.weight", "linear_282.w_0": "model.layers.16.self_attn.o_proj.weight", "linear_283.w_0": "model.layers.16.mlp.gate_proj.weight", "linear_284.w_0": "model.layers.16.mlp.up_proj.weight", "linear_285.w_0": "model.layers.16.mlp.down_proj.weight", "create_parameter_32.w_0": "model.layers.16.input_layernorm.weight", "create_parameter_33.w_0": "model.layers.16.post_attention_layernorm.weight", "linear_286.w_0": "model.layers.17.self_attn.q_proj.weight", "linear_287.w_0": "model.layers.17.self_attn.k_proj.weight", "linear_288.w_0": "model.layers.17.self_attn.v_proj.weight", "linear_289.w_0": "model.layers.17.self_attn.o_proj.weight", "linear_290.w_0": "model.layers.17.mlp.gate_proj.weight", "linear_291.w_0": "model.layers.17.mlp.up_proj.weight", "linear_292.w_0": "model.layers.17.mlp.down_proj.weight", "create_parameter_34.w_0": "model.layers.17.input_layernorm.weight", "create_parameter_35.w_0": "model.layers.17.post_attention_layernorm.weight", "create_parameter_36.w_0": "model.norm.weight", "linear_293.w_0": "lm_head.weight"}