# coding=utf-8
"""Modeling code for the MOSS-TTS-Local-Transformer-v1.5 HuggingFace release."""

from __future__ import annotations

from dataclasses import dataclass
from typing import Any, Optional, Union

import torch
import torch.nn as nn
from transformers.modeling_outputs import BaseModelOutputWithPast
from transformers.modeling_utils import PreTrainedModel
from transformers.models.gpt2.configuration_gpt2 import GPT2Config
from transformers.utils import ModelOutput

from .configuration_moss_tts import MossTTSLocalConfig
from .gpt2_decoder import MossTTSNanoGPT2Model
from .qwen3_decoder import MossQwen3Model


@dataclass
class MossTTSLocalOutput(ModelOutput):
    last_hidden_state: Optional[torch.FloatTensor] = None
    past_key_values: Optional[tuple[tuple[torch.Tensor, torch.Tensor], ...]] = None
    hidden_states: Optional[tuple[torch.FloatTensor, ...]] = None
    attentions: Optional[tuple[torch.FloatTensor, ...]] = None


def _find_last_equal(input_ids: torch.LongTensor, value: int) -> torch.LongTensor:
    matches = input_ids.eq(int(value))
    if not bool(matches.any(dim=1).all().item()):
        raise ValueError(f"Every sample must contain token id {int(value)}.")
    positions = torch.arange(input_ids.shape[1], device=input_ids.device, dtype=torch.long)
    masked_positions = positions.unsqueeze(0).masked_fill(~matches, -1)
    return masked_positions.max(dim=1).values


class MossTTSLocalPreTrainedModel(PreTrainedModel):
    config_class = MossTTSLocalConfig
    base_model_prefix = "transformer"
    supports_gradient_checkpointing = True
    _no_split_modules = ["MossTTSNanoGPT2Block", "MossQwen3DecoderLayer"]
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True

    def _set_gradient_checkpointing(self, module: nn.Module, value: bool = False) -> None:
        if isinstance(module, MossTTSNanoGPT2Model) or isinstance(module, MossQwen3Model):
            module.gradient_checkpointing = value


class MossTTSLocalModel(MossTTSLocalPreTrainedModel):
    _tied_weights_keys = None

    def __init__(self, config: MossTTSLocalConfig) -> None:
        super().__init__(config)
        self._tied_weights_keys = self._build_tied_weights_keys(config)

        config.qwen3_config.pad_token_id = config.pad_token_id
        config.qwen3_config._attn_implementation = config.attn_implementation
        local_gpt2_config = config.gpt2_config.to_dict()
        local_gpt2_config["n_layer"] = int(getattr(config, "local_transformer_layers", config.gpt2_config.n_layer))
        local_gpt2_config["n_positions"] = int(config.n_vq) + 1
        local_gpt2_config["n_ctx"] = int(config.n_vq) + 1
        local_gpt2_config = GPT2Config(**local_gpt2_config)
        local_gpt2_config.pad_token_id = config.pad_token_id
        local_gpt2_config._attn_implementation = config.local_transformer_attn_implementation

        self.transformer = MossQwen3Model(config.qwen3_config)
        self.local_transformer = MossTTSNanoGPT2Model(
            local_gpt2_config,
            attn_implementation=config.local_transformer_attn_implementation,
        )
        self.local_transformer.wte = nn.Identity()

        hidden_size = int(config.hidden_size)
        self.audio_embeddings = nn.ModuleList(
            [
                nn.Embedding(int(config.audio_codebook_sizes[index]), hidden_size)
                for index in range(config.n_vq)
            ]
        )
        self.text_lm_head = nn.Linear(hidden_size, int(config.vocab_size), bias=False)
        self.audio_lm_heads = nn.ModuleList(
            [
                nn.Linear(hidden_size, int(config.audio_codebook_sizes[index]), bias=False)
                for index in range(config.n_vq)
            ]
        )
        self.local_text_lm_head = (
            nn.Linear(hidden_size, 2, bias=False)
            if self._use_binary_local_text_head()
            else None
        )

        self.post_init()
        self.tie_weights()
        self.initialize_local_text_lm_head_from_text_lm_head()

    def can_generate(self) -> bool:
        return True

    @staticmethod
    def _build_tied_weights_keys(config: MossTTSLocalConfig) -> dict[str, str]:
        tied_weights = {"text_lm_head.weight": "transformer.embed_tokens.weight"}
        tied_weights.update(
            {
                f"audio_lm_heads.{index}.weight": f"audio_embeddings.{index}.weight"
                for index in range(config.n_vq)
            }
        )
        return tied_weights

    def tie_weights(self, *args, **kwargs) -> None:
        del args, kwargs
        self.text_lm_head.weight = self.transformer.embed_tokens.weight
        for embedding, head in zip(self.audio_embeddings, self.audio_lm_heads):
            head.weight = embedding.weight

    def get_input_embeddings(self) -> nn.Embedding:
        return self.transformer.embed_tokens

    def set_input_embeddings(self, value: nn.Embedding) -> None:
        self.transformer.embed_tokens = value
        self.tie_weights()
        self.initialize_local_text_lm_head_from_text_lm_head()

    def get_output_embeddings(self) -> nn.Linear:
        return self.text_lm_head

    def set_output_embeddings(self, new_embeddings: nn.Linear) -> None:
        self.text_lm_head = new_embeddings
        self.tie_weights()
        self.initialize_local_text_lm_head_from_text_lm_head()

    def _use_binary_local_text_head(self) -> bool:
        return str(getattr(self.config, "local_text_head_mode", "full_vocab")).strip().lower() == "binary"

    def _local_text_candidate_ids(self, device: torch.device) -> torch.LongTensor:
        return torch.tensor(
            [
                int(self.config.audio_assistant_slot_token_id),
                int(self.config.audio_end_token_id),
            ],
            dtype=torch.long,
            device=device,
        )

    def initialize_local_text_lm_head_from_text_lm_head(self) -> None:
        if not self._use_binary_local_text_head() or self.local_text_lm_head is None:
            return
        candidate_ids = self._local_text_candidate_ids(self.text_lm_head.weight.device)
        with torch.no_grad():
            source_weight = self.text_lm_head.weight.index_select(0, candidate_ids)
            if tuple(source_weight.shape) == tuple(self.local_text_lm_head.weight.shape):
                self.local_text_lm_head.weight.copy_(
                    source_weight.to(
                        device=self.local_text_lm_head.weight.device,
                        dtype=self.local_text_lm_head.weight.dtype,
                    )
                )

    def _resolve_fixed_nq(
        self,
        n_vq_for_inference: Optional[int] = None,
        nq: Optional[int] = None,
    ) -> int:
        requested = n_vq_for_inference if n_vq_for_inference is not None else nq
        config_nq = int(self.config.n_vq)
        if requested is not None and int(requested) != config_nq:
            raise ValueError(
                "This MOSS-TTS-Local-Transformer-v1.5 release is trained with a fixed RVQ depth. "
                f"Expected n_vq={config_nq}, got {int(requested)}."
            )
        return config_nq

    def _build_inputs_embeds(self, input_ids: torch.LongTensor) -> torch.FloatTensor:
        if input_ids.ndim != 3 or input_ids.shape[-1] != self.config.n_vq + 1:
            raise ValueError(
                f"Expected input_ids shape [batch, seq, {self.config.n_vq + 1}], "
                f"got {tuple(input_ids.shape)}."
            )
        text_ids = input_ids[..., 0]
        inputs_embeds = self.transformer.embed_tokens(text_ids)
        for channel_index, embedding in enumerate(self.audio_embeddings):
            channel_ids = input_ids[..., channel_index + 1]
            valid_mask = channel_ids.ne(self.config.audio_pad_token_id)
            safe_ids = channel_ids.masked_fill(~valid_mask, 0)
            audio_embeds = embedding(safe_ids) * valid_mask.unsqueeze(-1)
            inputs_embeds = inputs_embeds + audio_embeds
        return inputs_embeds

    def _global_hidden_to_local(self, hidden_states: torch.FloatTensor) -> torch.FloatTensor:
        return hidden_states

    @staticmethod
    def _local_past_length(past_key_values: Optional[tuple[Any, ...]]) -> int:
        if past_key_values is None or len(past_key_values) == 0:
            return 0
        first_layer_past = past_key_values[0]
        if isinstance(first_layer_past, dict) and bool(first_layer_past.get("static_kv_cache", False)):
            return int(first_layer_past.get("length", 0))
        return int(first_layer_past[0].shape[1])

    def _new_static_local_past_key_values(
        self,
        batch_size: int,
        max_length: int,
        device: torch.device,
        dtype: torch.dtype,
    ) -> tuple[dict[str, Any], ...]:
        layers = []
        for block in self.local_transformer.h:
            attn = block.attn
            cache_shape = (
                int(batch_size),
                int(max_length),
                int(attn.num_heads),
                int(attn.head_dim),
            )
            layers.append(
                {
                    "static_kv_cache": True,
                    "key": torch.empty(cache_shape, device=device, dtype=dtype),
                    "value": torch.empty(cache_shape, device=device, dtype=dtype),
                    "length": 0,
                }
            )
        return tuple(layers)

    def _decode_local_hidden_states_with_cache(
        self,
        local_inputs_embeds: torch.FloatTensor,
        past_key_values: Optional[tuple[Any, ...]] = None,
    ) -> tuple[torch.FloatTensor, Optional[tuple[Any, ...]]]:
        if (
            past_key_values is None
            and not self.training
            and bool(getattr(self.config, "use_static_local_kv_cache", True))
        ):
            max_length = max(int(getattr(self.config, "n_vq", 0)) + 1, int(local_inputs_embeds.shape[1]))
            past_key_values = self._new_static_local_past_key_values(
                batch_size=int(local_inputs_embeds.shape[0]),
                max_length=max_length,
                device=local_inputs_embeds.device,
                dtype=local_inputs_embeds.dtype,
            )
        past_length = self._local_past_length(past_key_values)
        local_seq_len = int(local_inputs_embeds.shape[1])
        local_position_ids = torch.arange(
            past_length,
            past_length + local_seq_len,
            device=local_inputs_embeds.device,
            dtype=torch.long,
        ).unsqueeze(0)
        if int(local_inputs_embeds.shape[0]) != 1:
            local_position_ids = local_position_ids.expand(int(local_inputs_embeds.shape[0]), -1)
        local_outputs = self.local_transformer(
            input_ids=None,
            past_key_values=past_key_values,
            attention_mask=None,
            position_ids=local_position_ids,
            inputs_embeds=local_inputs_embeds,
            use_cache=True,
            output_attentions=False,
            output_hidden_states=False,
            return_dict=True,
            cu_seqlens=None,
            num_sequences=None,
        )
        return local_outputs.last_hidden_state, local_outputs.past_key_values

    def forward(
        self,
        input_ids: Optional[torch.LongTensor] = None,
        attention_mask: Optional[torch.Tensor] = None,
        position_ids: Optional[torch.LongTensor] = None,
        past_key_values: Optional[tuple[tuple[torch.Tensor, torch.Tensor], ...]] = None,
        inputs_embeds: Optional[torch.FloatTensor] = None,
        use_cache: Optional[bool] = None,
        output_attentions: Optional[bool] = None,
        output_hidden_states: Optional[bool] = None,
        return_dict: Optional[bool] = True,
        **kwargs,
    ) -> Union[tuple, MossTTSLocalOutput]:
        del kwargs
        if inputs_embeds is None:
            if input_ids is None:
                raise ValueError("Either input_ids or inputs_embeds must be provided.")
            inputs_embeds = self._build_inputs_embeds(input_ids)
        outputs = self.transformer(
            input_ids=None,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_values=past_key_values,
            inputs_embeds=inputs_embeds,
            use_cache=use_cache,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=True,
            cu_seqlens=None,
            num_sequences=None,
        )
        if not return_dict:
            return (
                outputs.last_hidden_state,
                outputs.past_key_values,
                outputs.hidden_states,
                outputs.attentions,
            )
        return MossTTSLocalOutput(
            last_hidden_state=outputs.last_hidden_state,
            past_key_values=outputs.past_key_values,
            hidden_states=outputs.hidden_states,
            attentions=outputs.attentions,
        )

    def _decode_local_last_hidden_state(
        self,
        local_inputs_embeds: torch.FloatTensor,
    ) -> torch.FloatTensor:
        local_seq_len = int(local_inputs_embeds.shape[1])
        local_position_ids = torch.arange(
            0,
            local_seq_len,
            device=local_inputs_embeds.device,
            dtype=torch.long,
        ).unsqueeze(0)
        if int(local_inputs_embeds.shape[0]) != 1:
            local_position_ids = local_position_ids.expand(int(local_inputs_embeds.shape[0]), -1)
        local_outputs = self.local_transformer(
            input_ids=None,
            attention_mask=None,
            position_ids=local_position_ids,
            inputs_embeds=local_inputs_embeds,
            use_cache=False,
            output_attentions=False,
            output_hidden_states=False,
            return_dict=True,
            cu_seqlens=None,
            num_sequences=None,
        )
        return local_outputs.last_hidden_state[:, -1, :]

    def _filter_logits(
        self,
        logits: torch.FloatTensor,
        top_k: Optional[int],
        top_p: Optional[float],
    ) -> torch.FloatTensor:
        scores = logits
        if top_k is not None and int(top_k) > 0 and int(top_k) < scores.shape[-1]:
            kth = torch.topk(scores, int(top_k), dim=-1).values[..., -1, None]
            scores = scores.masked_fill(scores < kth, -torch.inf)
        if top_p is not None and 0.0 < float(top_p) < 1.0:
            sorted_scores, sorted_indices = torch.sort(scores, descending=True, dim=-1)
            sorted_probs = torch.softmax(sorted_scores, dim=-1)
            cumulative_probs = sorted_probs.cumsum(dim=-1)
            sorted_mask = cumulative_probs > float(top_p)
            sorted_mask[..., 1:] = sorted_mask[..., :-1].clone()
            sorted_mask[..., 0] = False
            remove_mask = torch.zeros_like(scores, dtype=torch.bool)
            remove_mask.scatter_(dim=-1, index=sorted_indices, src=sorted_mask)
            scores = scores.masked_fill(remove_mask, -torch.inf)
        return scores

    def _apply_repetition_penalty(
        self,
        scores: torch.FloatTensor,
        previous_token_ids: Optional[torch.LongTensor],
        penalty: float,
    ) -> torch.FloatTensor:
        if previous_token_ids is None or float(penalty) == 1.0:
            return scores
        if previous_token_ids.ndim == 1:
            previous_token_ids = previous_token_ids.unsqueeze(0)
        updated = scores.clone()
        for batch_index in range(updated.shape[0]):
            unique_token_ids = torch.unique(previous_token_ids[batch_index])
            unique_token_ids = unique_token_ids[
                (unique_token_ids >= 0) & (unique_token_ids < updated.shape[-1])
            ]
            if unique_token_ids.numel() == 0:
                continue
            token_scores = updated[batch_index].index_select(0, unique_token_ids)
            token_scores = torch.where(
                token_scores < 0,
                token_scores * float(penalty),
                token_scores / float(penalty),
            )
            updated[batch_index].scatter_(0, unique_token_ids, token_scores)
        return updated

    def _sample_next_token(
        self,
        logits: torch.FloatTensor,
        do_sample: bool,
        temperature: float,
        top_k: Optional[int],
        top_p: Optional[float],
        previous_token_ids: Optional[torch.LongTensor] = None,
        repetition_penalty: float = 1.0,
    ) -> torch.LongTensor:
        scores = logits.float()
        scores = self._apply_repetition_penalty(scores, previous_token_ids, repetition_penalty)
        if not do_sample:
            return torch.argmax(scores, dim=-1)
        if float(temperature) <= 0:
            raise ValueError("temperature must be positive when do_sample=True.")
        scores = scores / float(temperature)
        scores = self._filter_logits(scores, top_k=top_k, top_p=top_p)
        probs = torch.softmax(scores, dim=-1)
        return torch.multinomial(probs, num_samples=1).squeeze(-1)

    def _sample_next_assistant_text_token(
        self,
        local_hidden_states: torch.FloatTensor,
        do_sample: bool,
        temperature: float,
        top_k: Optional[int],
        top_p: Optional[float],
    ) -> torch.LongTensor:
        if self._use_binary_local_text_head() and self.local_text_lm_head is not None:
            logits = self.local_text_lm_head(local_hidden_states)
            sampled_indices = self._sample_next_token(
                logits=logits,
                do_sample=do_sample,
                temperature=temperature,
                top_k=top_k,
                top_p=top_p,
            )
            candidate_ids = self._local_text_candidate_ids(logits.device)
            return candidate_ids[sampled_indices]

        candidate_ids = self._local_text_candidate_ids(local_hidden_states.device)
        logits = self.text_lm_head(local_hidden_states).index_select(dim=-1, index=candidate_ids)
        sampled_indices = self._sample_next_token(
            logits=logits,
            do_sample=do_sample,
            temperature=temperature,
            top_k=top_k,
            top_p=top_p,
        )
        return candidate_ids[sampled_indices]

    def _build_generation_row(
        self,
        batch_size: int,
        device: torch.device,
        audio_token_ids: torch.LongTensor,
    ) -> torch.LongTensor:
        row = torch.full(
            (batch_size, 1, self.config.n_vq + 1),
            int(self.config.audio_pad_token_id),
            dtype=torch.long,
            device=device,
        )
        row[:, :, 0] = int(self.config.audio_assistant_slot_token_id)
        row[:, :, 1:] = audio_token_ids.unsqueeze(1)
        return row

    @torch.inference_mode()
    def generate(
        self,
        input_ids: torch.LongTensor,
        attention_mask: Optional[torch.Tensor] = None,
        max_new_tokens: Optional[int] = None,
        max_new_frames: Optional[int] = None,
        do_sample: bool = True,
        text_temperature: float = 1.0,
        text_top_p: float = 1.0,
        text_top_k: int = 50,
        audio_temperature: Optional[float] = None,
        audio_top_p: Optional[float] = None,
        audio_top_k: Optional[int] = None,
        audio_repetition_penalty: Optional[float] = None,
        temperature: float = 1.0,
        top_p: float = 0.95,
        top_k: int = 50,
        repetition_penalty: float = 1.0,
        use_kv_cache: bool = True,
        n_vq_for_inference: Optional[int] = None,
        nq: Optional[int] = None,
        **kwargs,
    ) -> list[tuple[int, torch.LongTensor]]:
        del kwargs
        self._resolve_fixed_nq(n_vq_for_inference=n_vq_for_inference, nq=nq)

        if input_ids.ndim == 2:
            input_ids = input_ids.unsqueeze(0)
        if input_ids.ndim != 3:
            raise ValueError(f"Expected input_ids with 3 dims, got {tuple(input_ids.shape)}.")
        if input_ids.shape[-1] != self.config.n_vq + 1:
            raise ValueError(
                f"Expected {self.config.n_vq + 1} channels from config.n_vq, got {input_ids.shape[-1]}."
            )
        if attention_mask is None:
            attention_mask = torch.ones(input_ids.shape[:2], dtype=torch.bool, device=input_ids.device)
        elif attention_mask.ndim == 1:
            attention_mask = attention_mask.unsqueeze(0)
        attention_mask = attention_mask.to(device=input_ids.device, dtype=torch.bool)

        frame_budget = max_new_frames if max_new_frames is not None else max_new_tokens
        if frame_budget is None:
            frame_budget = 4096
        frame_budget = int(frame_budget)

        audio_temperature = float(temperature if audio_temperature is None else audio_temperature)
        audio_top_p = float(top_p if audio_top_p is None else audio_top_p)
        audio_top_k = int(top_k if audio_top_k is None else audio_top_k)
        audio_repetition_penalty = float(
            repetition_penalty if audio_repetition_penalty is None else audio_repetition_penalty
        )

        batch_size = input_ids.shape[0]
        input_ids_length = input_ids.shape[1]
        current_input_ids = input_ids
        current_attention_mask = attention_mask
        current_model_input_ids = current_input_ids
        generated_frames: list[torch.LongTensor] = []
        finished = torch.zeros(batch_size, dtype=torch.bool, device=input_ids.device)
        past_key_values = None
        local_dtype = self.local_transformer.ln_f.weight.dtype

        for _ in range(frame_budget):
            generated_audio_history = torch.stack(generated_frames, dim=1) if generated_frames else None
            global_inputs_embeds = self._build_inputs_embeds(current_model_input_ids)
            global_outputs = self.transformer(
                input_ids=None,
                past_key_values=past_key_values,
                attention_mask=current_attention_mask,
                position_ids=None,
                inputs_embeds=global_inputs_embeds,
                use_cache=use_kv_cache,
                output_attentions=False,
                output_hidden_states=False,
                return_dict=True,
                cu_seqlens=None,
                num_sequences=None,
            )
            global_hidden_states = global_outputs.last_hidden_state[:, -1, :]
            local_global_hidden_states = self._global_hidden_to_local(global_hidden_states).to(dtype=local_dtype)

            local_prefix_hidden_states, local_prefix_past_key_values = self._decode_local_hidden_states_with_cache(
                local_global_hidden_states.unsqueeze(1)
            )
            local_hidden_states = local_prefix_hidden_states[:, -1, :]
            next_text_tokens = self._sample_next_assistant_text_token(
                local_hidden_states=local_hidden_states,
                do_sample=do_sample,
                temperature=text_temperature,
                top_k=text_top_k,
                top_p=text_top_p,
            )
            should_continue = next_text_tokens.eq(int(self.config.audio_assistant_slot_token_id)) & ~finished
            finished = finished | next_text_tokens.eq(int(self.config.audio_end_token_id))
            if not bool(should_continue.any().item()):
                break

            next_frame_tokens = []
            for channel_index in range(int(self.config.n_vq)):
                channel_logits = self.audio_lm_heads[channel_index](local_hidden_states)
                channel_token = self._sample_next_token(
                    logits=channel_logits,
                    do_sample=do_sample,
                    temperature=audio_temperature,
                    top_k=audio_top_k,
                    top_p=audio_top_p,
                    previous_token_ids=(
                        None
                        if generated_audio_history is None
                        else generated_audio_history[:, :, channel_index]
                    ),
                    repetition_penalty=audio_repetition_penalty,
                )
                next_frame_tokens.append(channel_token)
                if channel_index + 1 < int(self.config.n_vq):
                    current_local_input = self.audio_embeddings[channel_index](channel_token).to(dtype=local_dtype)
                    local_token_hidden_states, local_prefix_past_key_values = (
                        self._decode_local_hidden_states_with_cache(
                            current_local_input.unsqueeze(1),
                            past_key_values=local_prefix_past_key_values,
                        )
                    )
                    local_hidden_states = local_token_hidden_states[:, -1, :]

            next_frame = torch.stack(next_frame_tokens, dim=-1)
            next_frame = next_frame.masked_fill(
                ~should_continue.unsqueeze(-1),
                int(self.config.audio_pad_token_id),
            )
            generated_frames.append(next_frame)

            next_row = self._build_generation_row(
                batch_size=batch_size,
                device=input_ids.device,
                audio_token_ids=next_frame,
            )
            if bool((~should_continue).any().item()):
                next_row[~should_continue, 0, 0] = int(self.config.pad_token_id)
                next_row[~should_continue, 0, 1:] = int(self.config.audio_pad_token_id)

            current_input_ids = torch.cat([current_input_ids, next_row], dim=1)
            current_attention_mask = torch.cat(
                [current_attention_mask, should_continue.unsqueeze(1)],
                dim=1,
            )
            if use_kv_cache:
                current_model_input_ids = next_row
                past_key_values = global_outputs.past_key_values
            else:
                current_model_input_ids = current_input_ids

        start_indices = _find_last_equal(input_ids[..., 0], int(self.config.audio_start_token_id))
        start_lengths = input_ids_length - start_indices - 1
        outputs: list[tuple[int, torch.LongTensor]] = []
        for start_index, start_length, generation_ids in zip(
            start_indices.tolist(),
            start_lengths.tolist(),
            current_input_ids,
        ):
            outputs.append((int(start_length), generation_ids[int(start_index):].detach().cpu()))
        return outputs