Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +60 -0
config.json +140 -0
model.safetensors +3 -0
model.safetensors.index.json +599 -0
params.json +130 -0
tekken.json +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tekken.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+library_name: mlx-audio
+language:
+- en
+- fr
+- es
+- pt
+- it
+- nl
+- de
+- ar
+- hi
+license: cc-by-nc-4.0
+inference: false
+base_model:
+- mistralai/Ministral-3-3B-Base-2512
+extra_gated_description: If you want to learn more about how we process your personal
+  data, please read our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
+tags:
+- mistral-common
+- mlx
+- text-to-speech
+- speech
+- speech generation
+- voice cloning
+- tts
+- mlx-audio
+pipeline_tag: text-to-speech
+---
+# AITRADER/Voxtral-4B-TTS-2603-mxfp8
+This model was converted to MLX format from [`mistralai/Voxtral-4B-TTS-2603`](https://huggingface.co/mistralai/Voxtral-4B-TTS-2603) using mlx-audio version **0.4.1**.
+Refer to the [original model card](https://huggingface.co/mistralai/Voxtral-4B-TTS-2603) for more details on the model.
+## Use with mlx-audio
+```bash
+pip install -U mlx-audio
+```
+### CLI Example:
+```bash
+python -m mlx_audio.tts.generate --model AITRADER/Voxtral-4B-TTS-2603-mxfp8 --text "Hello, this is a test."
+```
+### Python Example:
+```python
+from mlx_audio.tts.utils import load_model
+from mlx_audio.tts.generate import generate_audio
+model = load_model("AITRADER/Voxtral-4B-TTS-2603-mxfp8")
+generate_audio(
+    model=model,
+    text="Hello, this is a test.",
+    ref_audio="path_to_audio.wav",
+    file_prefix="test_audio",
+)
+```

config.json ADDED Viewed

	@@ -0,0 +1,140 @@

+{
+    "attention_type": "FLASH_ATTN_3",
+    "causal": true,
+    "checkpoint": false,
+    "context_parallel": 1,
+    "cust_bwd": false,
+    "dim": 3072,
+    "dp_replicate_size": 1,
+    "dropout": 0.0,
+    "fp8_matmul": false,
+    "freeze_nonembedding": false,
+    "fsdp2": true,
+    "fsdp_optimize_backward_concat_if_pp": true,
+    "fused_rms_norm": true,
+    "head_dim": 128,
+    "hidden_dim": 9216,
+    "init": "NO_INIT",
+    "is_sequence_parallel": false,
+    "learnable_sinks": false,
+    "max_concurrent_tokens": 65536,
+    "max_position_embeddings": 128000,
+    "max_seq_len": 65536,
+    "model_parallel": 1,
+    "model_pipelining": 1,
+    "model_type": "voxtral_tts",
+    "multimodal": {
+        "bos_token_id": 1,
+        "audio_model_args": {
+            "semantic_codebook_size": 8192,
+            "acoustic_codebook_size": 21,
+            "n_acoustic_codebook": 36,
+            "audio_encoding_args": {
+                "codebook_pattern": "parallel",
+                "interleave_audio_tokens_per_segment": 8192,
+                "interleave_text_tokens_per_segment": 8192,
+                "single_trailing_segment": false,
+                "num_codebooks": 37,
+                "sampling_rate": 24000,
+                "frame_rate": 12.5
+            },
+            "audio_token_id": 24,
+            "begin_audio_token_id": 25,
+            "input_embedding_concat_type": "sum",
+            "acoustic_transformer_args": {
+                "input_dim": 3072,
+                "dim": 3072,
+                "n_layers": 3,
+                "head_dim": 128,
+                "hidden_dim": 9216,
+                "n_heads": 32,
+                "n_kv_heads": 8,
+                "use_biases": false,
+                "rope_theta": 10000.0,
+                "sigma": 1e-05,
+                "sigma_max": 1.0
+            },
+            "p_uncond": 0.0,
+            "text_feature_bugged": false,
+            "condition_dropped_token_id": 42
+        },
+        "audio_tokenizer_args": {
+            "channels": 1,
+            "sampling_rate": 24000,
+            "pretransform_patch_size": 240,
+            "patch_proj_kernel_size": 7,
+            "semantic_codebook_size": 8192,
+            "semantic_dim": 256,
+            "acoustic_codebook_size": 21,
+            "acoustic_dim": 36,
+            "conv_weight_norm": true,
+            "causal": true,
+            "attn_sliding_window_size": 16,
+            "half_attn_window_upon_downsampling": true,
+            "dim": 1024,
+            "hidden_dim": 4096,
+            "head_dim": 128,
+            "n_heads": 8,
+            "n_kv_heads": 8,
+            "qk_norm_eps": 1e-06,
+            "qk_norm": true,
+            "use_biases": false,
+            "norm_eps": 0.01,
+            "layer_scale": true,
+            "layer_scale_init": 0.01,
+            "decoder_transformer_lengths_str": "2,2,2,2",
+            "decoder_convs_kernels_str": "3,4,4,4",
+            "decoder_convs_strides_str": "1,2,2,2",
+            "voice": {
+                "casual_female": 0,
+                "casual_male": 1,
+                "cheerful_female": 2,
+                "neutral_female": 3,
+                "neutral_male": 4,
+                "pt_male": 5,
+                "pt_female": 6,
+                "nl_male": 7,
+                "nl_female": 8,
+                "it_male": 9,
+                "it_female": 10,
+                "fr_male": 11,
+                "fr_female": 12,
+                "es_male": 13,
+                "es_female": 14,
+                "de_male": 15,
+                "de_female": 16,
+                "ar_male": 17,
+                "hi_male": 18,
+                "hi_female": 19
+            }
+        }
+    },
+    "n_heads": 32,
+    "n_kv_heads": 8,
+    "n_layers": 26,
+    "norm_eps": 1e-05,
+    "override_parameters_str": "",
+    "quantization": {
+        "group_size": 32,
+        "bits": 8,
+        "mode": "mxfp8"
+    },
+    "quantization_config": {
+        "group_size": 32,
+        "bits": 8,
+        "mode": "mxfp8"
+    },
+    "recompute_attn_every": 0,
+    "recompute_w1_every": 0,
+    "recompute_w3_every": 0,
+    "rms_norm": "PRE",
+    "rope_theta": 1000000.0,
+    "shard_on_vocab_dim": false,
+    "tied_embeddings": true,
+    "torch_compile_swiglu_noncust_bwd": false,
+    "use_biases": false,
+    "use_cache": false,
+    "virtual_model_pipelining": 1,
+    "vocab_size": 131072,
+    "zero2": true
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cb0074d57f355864efd6bfa991b6660b7158e4767c9f910566d399d3decb376
+size 4716605637

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,599 @@

+{
+    "metadata": {
+        "total_size": 4716536288,
+        "total_parameters": 4002337008
+    },
+    "weight_map": {
+        "acoustic_transformer.acoustic_codebook_output.weight": "model.safetensors",
+        "acoustic_transformer.input_projection.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wk.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wk.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wo.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wo.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wq.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wq.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wv.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.attention.wv.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.attention_norm.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w1.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w2.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w3.scales": "model.safetensors",
+        "acoustic_transformer.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "acoustic_transformer.layers.0.ffn_norm.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wk.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wk.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wo.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wo.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wq.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wq.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wv.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.attention.wv.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.attention_norm.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w1.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w2.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w3.scales": "model.safetensors",
+        "acoustic_transformer.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "acoustic_transformer.layers.1.ffn_norm.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wk.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wk.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wo.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wo.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wq.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wq.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wv.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.attention.wv.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.attention_norm.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w1.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w1.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w2.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w2.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w3.scales": "model.safetensors",
+        "acoustic_transformer.layers.2.feed_forward_w3.weight": "model.safetensors",
+        "acoustic_transformer.layers.2.ffn_norm.weight": "model.safetensors",
+        "acoustic_transformer.llm_projection.scales": "model.safetensors",
+        "acoustic_transformer.llm_projection.weight": "model.safetensors",
+        "acoustic_transformer.norm.weight": "model.safetensors",
+        "acoustic_transformer.semantic_codebook_output.weight": "model.safetensors",
+        "acoustic_transformer.time_projection.scales": "model.safetensors",
+        "acoustic_transformer.time_projection.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.0.conv.original0": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.0.conv.original1": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.0.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.1.layers.1.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.2.conv.original0": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.2.conv.original1": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.0.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.3.layers.1.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.4.conv.original0": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.4.conv.original1": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.0.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.5.layers.1.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.6.conv.original0": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.6.conv.original1": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.0.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.k_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.q_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.wk.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.wo.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.wq.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention.wv.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.attention_scale": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.ffn_norm.weight": "model.safetensors",
+        "audio_tokenizer_decoder.decoder_blocks.7.layers.1.ffn_scale": "model.safetensors",
+        "audio_tokenizer_decoder.output_proj.conv.original0": "model.safetensors",
+        "audio_tokenizer_decoder.output_proj.conv.original1": "model.safetensors",
+        "audio_tokenizer_decoder.quantizer_semantic_codebook.cluster_usage": "model.safetensors",
+        "audio_tokenizer_decoder.quantizer_semantic_codebook.embedding_sum": "model.safetensors",
+        "llm.audio_codebook_embeddings.weight": "model.safetensors",
+        "llm.layers.0.attention.wk.scales": "model.safetensors",
+        "llm.layers.0.attention.wk.weight": "model.safetensors",
+        "llm.layers.0.attention.wo.scales": "model.safetensors",
+        "llm.layers.0.attention.wo.weight": "model.safetensors",
+        "llm.layers.0.attention.wq.scales": "model.safetensors",
+        "llm.layers.0.attention.wq.weight": "model.safetensors",
+        "llm.layers.0.attention.wv.scales": "model.safetensors",
+        "llm.layers.0.attention.wv.weight": "model.safetensors",
+        "llm.layers.0.attention_norm.weight": "model.safetensors",
+        "llm.layers.0.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.0.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.0.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.0.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.0.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.0.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.0.ffn_norm.weight": "model.safetensors",
+        "llm.layers.1.attention.wk.scales": "model.safetensors",
+        "llm.layers.1.attention.wk.weight": "model.safetensors",
+        "llm.layers.1.attention.wo.scales": "model.safetensors",
+        "llm.layers.1.attention.wo.weight": "model.safetensors",
+        "llm.layers.1.attention.wq.scales": "model.safetensors",
+        "llm.layers.1.attention.wq.weight": "model.safetensors",
+        "llm.layers.1.attention.wv.scales": "model.safetensors",
+        "llm.layers.1.attention.wv.weight": "model.safetensors",
+        "llm.layers.1.attention_norm.weight": "model.safetensors",
+        "llm.layers.1.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.1.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.1.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.1.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.1.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.1.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.1.ffn_norm.weight": "model.safetensors",
+        "llm.layers.10.attention.wk.scales": "model.safetensors",
+        "llm.layers.10.attention.wk.weight": "model.safetensors",
+        "llm.layers.10.attention.wo.scales": "model.safetensors",
+        "llm.layers.10.attention.wo.weight": "model.safetensors",
+        "llm.layers.10.attention.wq.scales": "model.safetensors",
+        "llm.layers.10.attention.wq.weight": "model.safetensors",
+        "llm.layers.10.attention.wv.scales": "model.safetensors",
+        "llm.layers.10.attention.wv.weight": "model.safetensors",
+        "llm.layers.10.attention_norm.weight": "model.safetensors",
+        "llm.layers.10.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.10.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.10.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.10.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.10.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.10.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.10.ffn_norm.weight": "model.safetensors",
+        "llm.layers.11.attention.wk.scales": "model.safetensors",
+        "llm.layers.11.attention.wk.weight": "model.safetensors",
+        "llm.layers.11.attention.wo.scales": "model.safetensors",
+        "llm.layers.11.attention.wo.weight": "model.safetensors",
+        "llm.layers.11.attention.wq.scales": "model.safetensors",
+        "llm.layers.11.attention.wq.weight": "model.safetensors",
+        "llm.layers.11.attention.wv.scales": "model.safetensors",
+        "llm.layers.11.attention.wv.weight": "model.safetensors",
+        "llm.layers.11.attention_norm.weight": "model.safetensors",
+        "llm.layers.11.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.11.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.11.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.11.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.11.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.11.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.11.ffn_norm.weight": "model.safetensors",
+        "llm.layers.12.attention.wk.scales": "model.safetensors",
+        "llm.layers.12.attention.wk.weight": "model.safetensors",
+        "llm.layers.12.attention.wo.scales": "model.safetensors",
+        "llm.layers.12.attention.wo.weight": "model.safetensors",
+        "llm.layers.12.attention.wq.scales": "model.safetensors",
+        "llm.layers.12.attention.wq.weight": "model.safetensors",
+        "llm.layers.12.attention.wv.scales": "model.safetensors",
+        "llm.layers.12.attention.wv.weight": "model.safetensors",
+        "llm.layers.12.attention_norm.weight": "model.safetensors",
+        "llm.layers.12.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.12.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.12.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.12.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.12.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.12.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.12.ffn_norm.weight": "model.safetensors",
+        "llm.layers.13.attention.wk.scales": "model.safetensors",
+        "llm.layers.13.attention.wk.weight": "model.safetensors",
+        "llm.layers.13.attention.wo.scales": "model.safetensors",
+        "llm.layers.13.attention.wo.weight": "model.safetensors",
+        "llm.layers.13.attention.wq.scales": "model.safetensors",
+        "llm.layers.13.attention.wq.weight": "model.safetensors",
+        "llm.layers.13.attention.wv.scales": "model.safetensors",
+        "llm.layers.13.attention.wv.weight": "model.safetensors",
+        "llm.layers.13.attention_norm.weight": "model.safetensors",
+        "llm.layers.13.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.13.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.13.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.13.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.13.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.13.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.13.ffn_norm.weight": "model.safetensors",
+        "llm.layers.14.attention.wk.scales": "model.safetensors",
+        "llm.layers.14.attention.wk.weight": "model.safetensors",
+        "llm.layers.14.attention.wo.scales": "model.safetensors",
+        "llm.layers.14.attention.wo.weight": "model.safetensors",
+        "llm.layers.14.attention.wq.scales": "model.safetensors",
+        "llm.layers.14.attention.wq.weight": "model.safetensors",
+        "llm.layers.14.attention.wv.scales": "model.safetensors",
+        "llm.layers.14.attention.wv.weight": "model.safetensors",
+        "llm.layers.14.attention_norm.weight": "model.safetensors",
+        "llm.layers.14.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.14.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.14.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.14.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.14.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.14.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.14.ffn_norm.weight": "model.safetensors",
+        "llm.layers.15.attention.wk.scales": "model.safetensors",
+        "llm.layers.15.attention.wk.weight": "model.safetensors",
+        "llm.layers.15.attention.wo.scales": "model.safetensors",
+        "llm.layers.15.attention.wo.weight": "model.safetensors",
+        "llm.layers.15.attention.wq.scales": "model.safetensors",
+        "llm.layers.15.attention.wq.weight": "model.safetensors",
+        "llm.layers.15.attention.wv.scales": "model.safetensors",
+        "llm.layers.15.attention.wv.weight": "model.safetensors",
+        "llm.layers.15.attention_norm.weight": "model.safetensors",
+        "llm.layers.15.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.15.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.15.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.15.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.15.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.15.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.15.ffn_norm.weight": "model.safetensors",
+        "llm.layers.16.attention.wk.scales": "model.safetensors",
+        "llm.layers.16.attention.wk.weight": "model.safetensors",
+        "llm.layers.16.attention.wo.scales": "model.safetensors",
+        "llm.layers.16.attention.wo.weight": "model.safetensors",
+        "llm.layers.16.attention.wq.scales": "model.safetensors",
+        "llm.layers.16.attention.wq.weight": "model.safetensors",
+        "llm.layers.16.attention.wv.scales": "model.safetensors",
+        "llm.layers.16.attention.wv.weight": "model.safetensors",
+        "llm.layers.16.attention_norm.weight": "model.safetensors",
+        "llm.layers.16.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.16.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.16.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.16.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.16.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.16.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.16.ffn_norm.weight": "model.safetensors",
+        "llm.layers.17.attention.wk.scales": "model.safetensors",
+        "llm.layers.17.attention.wk.weight": "model.safetensors",
+        "llm.layers.17.attention.wo.scales": "model.safetensors",
+        "llm.layers.17.attention.wo.weight": "model.safetensors",
+        "llm.layers.17.attention.wq.scales": "model.safetensors",
+        "llm.layers.17.attention.wq.weight": "model.safetensors",
+        "llm.layers.17.attention.wv.scales": "model.safetensors",
+        "llm.layers.17.attention.wv.weight": "model.safetensors",
+        "llm.layers.17.attention_norm.weight": "model.safetensors",
+        "llm.layers.17.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.17.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.17.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.17.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.17.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.17.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.17.ffn_norm.weight": "model.safetensors",
+        "llm.layers.18.attention.wk.scales": "model.safetensors",
+        "llm.layers.18.attention.wk.weight": "model.safetensors",
+        "llm.layers.18.attention.wo.scales": "model.safetensors",
+        "llm.layers.18.attention.wo.weight": "model.safetensors",
+        "llm.layers.18.attention.wq.scales": "model.safetensors",
+        "llm.layers.18.attention.wq.weight": "model.safetensors",
+        "llm.layers.18.attention.wv.scales": "model.safetensors",
+        "llm.layers.18.attention.wv.weight": "model.safetensors",
+        "llm.layers.18.attention_norm.weight": "model.safetensors",
+        "llm.layers.18.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.18.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.18.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.18.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.18.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.18.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.18.ffn_norm.weight": "model.safetensors",
+        "llm.layers.19.attention.wk.scales": "model.safetensors",
+        "llm.layers.19.attention.wk.weight": "model.safetensors",
+        "llm.layers.19.attention.wo.scales": "model.safetensors",
+        "llm.layers.19.attention.wo.weight": "model.safetensors",
+        "llm.layers.19.attention.wq.scales": "model.safetensors",
+        "llm.layers.19.attention.wq.weight": "model.safetensors",
+        "llm.layers.19.attention.wv.scales": "model.safetensors",
+        "llm.layers.19.attention.wv.weight": "model.safetensors",
+        "llm.layers.19.attention_norm.weight": "model.safetensors",
+        "llm.layers.19.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.19.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.19.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.19.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.19.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.19.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.19.ffn_norm.weight": "model.safetensors",
+        "llm.layers.2.attention.wk.scales": "model.safetensors",
+        "llm.layers.2.attention.wk.weight": "model.safetensors",
+        "llm.layers.2.attention.wo.scales": "model.safetensors",
+        "llm.layers.2.attention.wo.weight": "model.safetensors",
+        "llm.layers.2.attention.wq.scales": "model.safetensors",
+        "llm.layers.2.attention.wq.weight": "model.safetensors",
+        "llm.layers.2.attention.wv.scales": "model.safetensors",
+        "llm.layers.2.attention.wv.weight": "model.safetensors",
+        "llm.layers.2.attention_norm.weight": "model.safetensors",
+        "llm.layers.2.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.2.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.2.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.2.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.2.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.2.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.2.ffn_norm.weight": "model.safetensors",
+        "llm.layers.20.attention.wk.scales": "model.safetensors",
+        "llm.layers.20.attention.wk.weight": "model.safetensors",
+        "llm.layers.20.attention.wo.scales": "model.safetensors",
+        "llm.layers.20.attention.wo.weight": "model.safetensors",
+        "llm.layers.20.attention.wq.scales": "model.safetensors",
+        "llm.layers.20.attention.wq.weight": "model.safetensors",
+        "llm.layers.20.attention.wv.scales": "model.safetensors",
+        "llm.layers.20.attention.wv.weight": "model.safetensors",
+        "llm.layers.20.attention_norm.weight": "model.safetensors",
+        "llm.layers.20.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.20.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.20.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.20.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.20.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.20.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.20.ffn_norm.weight": "model.safetensors",
+        "llm.layers.21.attention.wk.scales": "model.safetensors",
+        "llm.layers.21.attention.wk.weight": "model.safetensors",
+        "llm.layers.21.attention.wo.scales": "model.safetensors",
+        "llm.layers.21.attention.wo.weight": "model.safetensors",
+        "llm.layers.21.attention.wq.scales": "model.safetensors",
+        "llm.layers.21.attention.wq.weight": "model.safetensors",
+        "llm.layers.21.attention.wv.scales": "model.safetensors",
+        "llm.layers.21.attention.wv.weight": "model.safetensors",
+        "llm.layers.21.attention_norm.weight": "model.safetensors",
+        "llm.layers.21.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.21.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.21.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.21.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.21.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.21.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.21.ffn_norm.weight": "model.safetensors",
+        "llm.layers.22.attention.wk.scales": "model.safetensors",
+        "llm.layers.22.attention.wk.weight": "model.safetensors",
+        "llm.layers.22.attention.wo.scales": "model.safetensors",
+        "llm.layers.22.attention.wo.weight": "model.safetensors",
+        "llm.layers.22.attention.wq.scales": "model.safetensors",
+        "llm.layers.22.attention.wq.weight": "model.safetensors",
+        "llm.layers.22.attention.wv.scales": "model.safetensors",
+        "llm.layers.22.attention.wv.weight": "model.safetensors",
+        "llm.layers.22.attention_norm.weight": "model.safetensors",
+        "llm.layers.22.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.22.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.22.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.22.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.22.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.22.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.22.ffn_norm.weight": "model.safetensors",
+        "llm.layers.23.attention.wk.scales": "model.safetensors",
+        "llm.layers.23.attention.wk.weight": "model.safetensors",
+        "llm.layers.23.attention.wo.scales": "model.safetensors",
+        "llm.layers.23.attention.wo.weight": "model.safetensors",
+        "llm.layers.23.attention.wq.scales": "model.safetensors",
+        "llm.layers.23.attention.wq.weight": "model.safetensors",
+        "llm.layers.23.attention.wv.scales": "model.safetensors",
+        "llm.layers.23.attention.wv.weight": "model.safetensors",
+        "llm.layers.23.attention_norm.weight": "model.safetensors",
+        "llm.layers.23.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.23.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.23.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.23.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.23.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.23.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.23.ffn_norm.weight": "model.safetensors",
+        "llm.layers.24.attention.wk.scales": "model.safetensors",
+        "llm.layers.24.attention.wk.weight": "model.safetensors",
+        "llm.layers.24.attention.wo.scales": "model.safetensors",
+        "llm.layers.24.attention.wo.weight": "model.safetensors",
+        "llm.layers.24.attention.wq.scales": "model.safetensors",
+        "llm.layers.24.attention.wq.weight": "model.safetensors",
+        "llm.layers.24.attention.wv.scales": "model.safetensors",
+        "llm.layers.24.attention.wv.weight": "model.safetensors",
+        "llm.layers.24.attention_norm.weight": "model.safetensors",
+        "llm.layers.24.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.24.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.24.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.24.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.24.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.24.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.24.ffn_norm.weight": "model.safetensors",
+        "llm.layers.25.attention.wk.scales": "model.safetensors",
+        "llm.layers.25.attention.wk.weight": "model.safetensors",
+        "llm.layers.25.attention.wo.scales": "model.safetensors",
+        "llm.layers.25.attention.wo.weight": "model.safetensors",
+        "llm.layers.25.attention.wq.scales": "model.safetensors",
+        "llm.layers.25.attention.wq.weight": "model.safetensors",
+        "llm.layers.25.attention.wv.scales": "model.safetensors",
+        "llm.layers.25.attention.wv.weight": "model.safetensors",
+        "llm.layers.25.attention_norm.weight": "model.safetensors",
+        "llm.layers.25.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.25.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.25.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.25.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.25.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.25.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.25.ffn_norm.weight": "model.safetensors",
+        "llm.layers.3.attention.wk.scales": "model.safetensors",
+        "llm.layers.3.attention.wk.weight": "model.safetensors",
+        "llm.layers.3.attention.wo.scales": "model.safetensors",
+        "llm.layers.3.attention.wo.weight": "model.safetensors",
+        "llm.layers.3.attention.wq.scales": "model.safetensors",
+        "llm.layers.3.attention.wq.weight": "model.safetensors",
+        "llm.layers.3.attention.wv.scales": "model.safetensors",
+        "llm.layers.3.attention.wv.weight": "model.safetensors",
+        "llm.layers.3.attention_norm.weight": "model.safetensors",
+        "llm.layers.3.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.3.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.3.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.3.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.3.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.3.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.3.ffn_norm.weight": "model.safetensors",
+        "llm.layers.4.attention.wk.scales": "model.safetensors",
+        "llm.layers.4.attention.wk.weight": "model.safetensors",
+        "llm.layers.4.attention.wo.scales": "model.safetensors",
+        "llm.layers.4.attention.wo.weight": "model.safetensors",
+        "llm.layers.4.attention.wq.scales": "model.safetensors",
+        "llm.layers.4.attention.wq.weight": "model.safetensors",
+        "llm.layers.4.attention.wv.scales": "model.safetensors",
+        "llm.layers.4.attention.wv.weight": "model.safetensors",
+        "llm.layers.4.attention_norm.weight": "model.safetensors",
+        "llm.layers.4.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.4.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.4.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.4.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.4.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.4.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.4.ffn_norm.weight": "model.safetensors",
+        "llm.layers.5.attention.wk.scales": "model.safetensors",
+        "llm.layers.5.attention.wk.weight": "model.safetensors",
+        "llm.layers.5.attention.wo.scales": "model.safetensors",
+        "llm.layers.5.attention.wo.weight": "model.safetensors",
+        "llm.layers.5.attention.wq.scales": "model.safetensors",
+        "llm.layers.5.attention.wq.weight": "model.safetensors",
+        "llm.layers.5.attention.wv.scales": "model.safetensors",
+        "llm.layers.5.attention.wv.weight": "model.safetensors",
+        "llm.layers.5.attention_norm.weight": "model.safetensors",
+        "llm.layers.5.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.5.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.5.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.5.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.5.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.5.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.5.ffn_norm.weight": "model.safetensors",
+        "llm.layers.6.attention.wk.scales": "model.safetensors",
+        "llm.layers.6.attention.wk.weight": "model.safetensors",
+        "llm.layers.6.attention.wo.scales": "model.safetensors",
+        "llm.layers.6.attention.wo.weight": "model.safetensors",
+        "llm.layers.6.attention.wq.scales": "model.safetensors",
+        "llm.layers.6.attention.wq.weight": "model.safetensors",
+        "llm.layers.6.attention.wv.scales": "model.safetensors",
+        "llm.layers.6.attention.wv.weight": "model.safetensors",
+        "llm.layers.6.attention_norm.weight": "model.safetensors",
+        "llm.layers.6.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.6.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.6.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.6.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.6.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.6.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.6.ffn_norm.weight": "model.safetensors",
+        "llm.layers.7.attention.wk.scales": "model.safetensors",
+        "llm.layers.7.attention.wk.weight": "model.safetensors",
+        "llm.layers.7.attention.wo.scales": "model.safetensors",
+        "llm.layers.7.attention.wo.weight": "model.safetensors",
+        "llm.layers.7.attention.wq.scales": "model.safetensors",
+        "llm.layers.7.attention.wq.weight": "model.safetensors",
+        "llm.layers.7.attention.wv.scales": "model.safetensors",
+        "llm.layers.7.attention.wv.weight": "model.safetensors",
+        "llm.layers.7.attention_norm.weight": "model.safetensors",
+        "llm.layers.7.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.7.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.7.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.7.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.7.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.7.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.7.ffn_norm.weight": "model.safetensors",
+        "llm.layers.8.attention.wk.scales": "model.safetensors",
+        "llm.layers.8.attention.wk.weight": "model.safetensors",
+        "llm.layers.8.attention.wo.scales": "model.safetensors",
+        "llm.layers.8.attention.wo.weight": "model.safetensors",
+        "llm.layers.8.attention.wq.scales": "model.safetensors",
+        "llm.layers.8.attention.wq.weight": "model.safetensors",
+        "llm.layers.8.attention.wv.scales": "model.safetensors",
+        "llm.layers.8.attention.wv.weight": "model.safetensors",
+        "llm.layers.8.attention_norm.weight": "model.safetensors",
+        "llm.layers.8.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.8.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.8.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.8.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.8.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.8.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.8.ffn_norm.weight": "model.safetensors",
+        "llm.layers.9.attention.wk.scales": "model.safetensors",
+        "llm.layers.9.attention.wk.weight": "model.safetensors",
+        "llm.layers.9.attention.wo.scales": "model.safetensors",
+        "llm.layers.9.attention.wo.weight": "model.safetensors",
+        "llm.layers.9.attention.wq.scales": "model.safetensors",
+        "llm.layers.9.attention.wq.weight": "model.safetensors",
+        "llm.layers.9.attention.wv.scales": "model.safetensors",
+        "llm.layers.9.attention.wv.weight": "model.safetensors",
+        "llm.layers.9.attention_norm.weight": "model.safetensors",
+        "llm.layers.9.feed_forward_w1.scales": "model.safetensors",
+        "llm.layers.9.feed_forward_w1.weight": "model.safetensors",
+        "llm.layers.9.feed_forward_w2.scales": "model.safetensors",
+        "llm.layers.9.feed_forward_w2.weight": "model.safetensors",
+        "llm.layers.9.feed_forward_w3.scales": "model.safetensors",
+        "llm.layers.9.feed_forward_w3.weight": "model.safetensors",
+        "llm.layers.9.ffn_norm.weight": "model.safetensors",
+        "llm.norm.weight": "model.safetensors",
+        "llm.tok_embeddings.weight": "model.safetensors"
+    }
+}

params.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "dim": 3072,
+  "n_layers": 26,
+  "head_dim": 128,
+  "hidden_dim": 9216,
+  "n_heads": 32,
+  "n_kv_heads": 8,
+  "fp8_matmul": false,
+  "use_biases": false,
+  "causal": true,
+  "rope_theta": 1000000.0,
+  "norm_eps": 1e-05,
+  "init": "NO_INIT",
+  "dropout": 0.0,
+  "vocab_size": 131072,
+  "model_parallel": 1,
+  "is_sequence_parallel": false,
+  "context_parallel": 1,
+  "tied_embeddings": true,
+  "shard_on_vocab_dim": false,
+  "model_pipelining": 1,
+  "virtual_model_pipelining": 1,
+  "fused_rms_norm": true,
+  "checkpoint": false,
+  "use_cache": false,
+  "max_concurrent_tokens": 65536,
+  "learnable_sinks": false,
+  "rms_norm": "PRE",
+  "cust_bwd": false,
+  "recompute_w1_every": 0,
+  "recompute_w3_every": 0,
+  "recompute_attn_every": 0,
+  "freeze_nonembedding": false,
+  "fsdp2": true,
+  "dp_replicate_size": 1,
+  "zero2": true,
+  "fsdp_optimize_backward_concat_if_pp": true,
+  "attention_type": "FLASH_ATTN_3",
+  "multimodal": {
+    "bos_token_id": 1,
+    "audio_model_args": {
+      "semantic_codebook_size": 8192,
+      "acoustic_codebook_size": 21,
+      "n_acoustic_codebook": 36,
+      "audio_encoding_args": {
+        "codebook_pattern": "parallel",
+        "interleave_audio_tokens_per_segment": 8192,
+        "interleave_text_tokens_per_segment": 8192,
+        "single_trailing_segment": false,
+        "num_codebooks": 37,
+        "sampling_rate": 24000,
+        "frame_rate": 12.5
+      },
+      "audio_token_id": 24,
+      "begin_audio_token_id": 25,
+      "input_embedding_concat_type": "sum",
+      "acoustic_transformer_args": {
+        "input_dim": 3072,
+        "dim": 3072,
+        "n_layers": 3,
+        "head_dim": 128,
+        "hidden_dim": 9216,
+        "n_heads": 32,
+        "n_kv_heads": 8,
+        "use_biases": false,
+        "rope_theta": 10000.0,
+        "sigma": 1e-05,
+        "sigma_max": 1.0
+      },
+      "p_uncond": 0.0,
+      "text_feature_bugged": false,
+      "condition_dropped_token_id": 42
+    },
+    "audio_tokenizer_args": {
+      "channels": 1,
+      "sampling_rate": 24000,
+      "pretransform_patch_size": 240,
+      "patch_proj_kernel_size": 7,
+      "semantic_codebook_size": 8192,
+      "semantic_dim": 256,
+      "acoustic_codebook_size": 21,
+      "acoustic_dim": 36,
+      "conv_weight_norm": true,
+      "causal": true,
+      "attn_sliding_window_size": 16,
+      "half_attn_window_upon_downsampling": true,
+      "dim": 1024,
+      "hidden_dim": 4096,
+      "head_dim": 128,
+      "n_heads": 8,
+      "n_kv_heads": 8,
+      "qk_norm_eps": 1e-06,
+      "qk_norm": true,
+      "use_biases": false,
+      "norm_eps": 0.01,
+      "layer_scale": true,
+      "layer_scale_init": 0.01,
+      "decoder_transformer_lengths_str": "2,2,2,2",
+      "decoder_convs_kernels_str": "3,4,4,4",
+      "decoder_convs_strides_str": "1,2,2,2",
+      "voice": {
+        "casual_female": 0,
+        "casual_male": 1,
+        "cheerful_female": 2,
+        "neutral_female": 3,
+        "neutral_male": 4,
+        "pt_male": 5,
+        "pt_female": 6,
+        "nl_male": 7,
+        "nl_female": 8,
+        "it_male": 9,
+        "it_female": 10,
+        "fr_male": 11,
+        "fr_female": 12,
+        "es_male": 13,
+        "es_female": 14,
+        "de_male": 15,
+        "de_female": 16,
+        "ar_male": 17,
+        "hi_male": 18,
+        "hi_female": 19
+      }
+    }
+  },
+  "torch_compile_swiglu_noncust_bwd": false,
+  "override_parameters_str": "",
+  "max_seq_len": 65536,
+  "model_type": "voxtral_tts",
+  "max_position_embeddings": 128000
+}

tekken.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:587989c9f56676b35e7d16d6fc61461301e402d908392a8ce16f0349f61b56d7
+size 14894731