# 基座模型与数据路径
pretrained_path: "/home/ernar/vxcpm_project/models/VoxCPM1.5/"
train_manifest: "/home/ernar/vxcpm_project/VoxCPM/data/train_full.jsonl"
val_manifest: ""
sample_rate: 44100

# 训练基础参数
# 针对 16G 显存优化：batch_size=4, grad_accum_steps=4 (等效 batch 为 16)
batch_size: 4
grad_accum_steps: 4
num_workers: 2
num_iters: 50000        # 全量 66 小时数据建议增加迭代次数
log_interval: 10
valid_interval: 1000
save_interval: 2000     # 官方建议保存间隔

# 优化器与学习率
learning_rate: 0.0001    # LoRA 推荐使用较大的学习率
weight_decay: 0.01
warmup_steps: 100
max_steps: 50000
max_batch_tokens: 8192  # 官方推荐限制，防止长音频 OOM

# 保存与日志路径
save_path: "/home/ernar/vxcpm_project/VoxCPM/checkpoints/finetune_lora"
tensorboard: "/home/ernar/vxcpm_project/VoxCPM/logs/finetune_lora"

lambdas:
  loss/diff: 1.0
  loss/stop: 1.0

# 官方 LoRA 核心配置
lora:
  enable_lm: true        # 应用于语言模型
  enable_dit: true       # 应用于扩散 Transformer (语音克隆核心)
  enable_proj: false     
  
  r: 32                  # LoRA秩，越高容量越大
  alpha: 16              # 缩放因子 (scaling = alpha / r)
  dropout: 0.0
  
  # 目标模块：注意力层
  target_modules_lm: ["q_proj", "v_proj", "k_proj", "o_proj"]
  target_modules_dit: ["q_proj", "v_proj", "k_proj", "o_proj"]

# 分发选项 (保存时包含基础模型 ID)
hf_model_id: "openbmb/VoxCPM1.5"
distribute: false         # 本地训练设为 false，保存本地路径