# 基座模型与数据路径 pretrained_path: "/home/ernar/vxcpm_project/models/VoxCPM1.5/" train_manifest: "/home/ernar/vxcpm_project/VoxCPM/data/train_full.jsonl" val_manifest: "" sample_rate: 44100 # 训练基础参数 # 针对 16G 显存优化:batch_size=4, grad_accum_steps=4 (等效 batch 为 16) batch_size: 4 grad_accum_steps: 4 num_workers: 2 num_iters: 50000 # 全量 66 小时数据建议增加迭代次数 log_interval: 10 valid_interval: 1000 save_interval: 2000 # 官方建议保存间隔 # 优化器与学习率 learning_rate: 0.0001 # LoRA 推荐使用较大的学习率 weight_decay: 0.01 warmup_steps: 100 max_steps: 50000 max_batch_tokens: 8192 # 官方推荐限制,防止长音频 OOM # 保存与日志路径 save_path: "/home/ernar/vxcpm_project/VoxCPM/checkpoints/finetune_lora" tensorboard: "/home/ernar/vxcpm_project/VoxCPM/logs/finetune_lora" lambdas: loss/diff: 1.0 loss/stop: 1.0 # 官方 LoRA 核心配置 lora: enable_lm: true # 应用于语言模型 enable_dit: true # 应用于扩散 Transformer (语音克隆核心) enable_proj: false r: 32 # LoRA秩,越高容量越大 alpha: 16 # 缩放因子 (scaling = alpha / r) dropout: 0.0 # 目标模块:注意力层 target_modules_lm: ["q_proj", "v_proj", "k_proj", "o_proj"] target_modules_dit: ["q_proj", "v_proj", "k_proj", "o_proj"] # 分发选项 (保存时包含基础模型 ID) hf_model_id: "openbmb/VoxCPM1.5" distribute: false # 本地训练设为 false,保存本地路径