Spaces:

projecte-aina
/

matxa-alvocat-tts-ca

Running

App Files Files Community

wetdog commited on Apr 18, 2024

Commit

35c9c3f

1 Parent(s): 2dd2041

add central model

Browse files

Files changed (3) hide show

Dockerfile +1 -0
infer_onnx.py +9 -7
spk_to_id_2.json +1 -1

Dockerfile CHANGED Viewed

@@ -44,6 +44,7 @@ RUN pip install -r requirements.txt
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_bal_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_occ_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_val_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent config.yaml--local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/vocos-mel-22khz-cat  mel_spec_22khz_cat.onnx --local-dir $HOME/app/

 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_bal_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_occ_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_val_opset_15_10_steps.onnx --local-dir  $HOME/app/
+RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent matcha_multispeaker_cat_cen_opset_15_10_steps.onnx --local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/matcha-tts-cat-multiaccent config.yaml--local-dir  $HOME/app/
 RUN huggingface-cli download BSC-LT/vocos-mel-22khz-cat  mel_spec_22khz_cat.onnx --local-dir $HOME/app/

infer_onnx.py CHANGED Viewed

@@ -36,7 +36,7 @@ def process_text(i: int, text: str, device: torch.device, cleaner:str):
 # paths
 MODEL_PATH_MATCHA_MEL_BAL="matcha_multispeaker_cat_bal_opset_15_10_steps.onnx"
-#MODEL_PATH_MATCHA_MEL_CAT=hf_hub_download(repo_id="BSC-LT/matcha-tts-cat-multispeaker", filename="matcha_multispeaker_cat_opset_15_10_steps_2399.onnx")
 MODEL_PATH_MATCHA_MEL_OCC="matcha_multispeaker_cat_occ_opset_15_10_steps.onnx"
 MODEL_PATH_MATCHA_MEL_VAL="matcha_multispeaker_cat_val_opset_15_10_steps.onnx"
 MODEL_PATH_VOCOS="mel_spec_22khz_cat.onnx"
@@ -46,7 +46,7 @@ SPEAKER_ID_DICT="spk_to_id_2.json"
 # Load models
 sess_options = onnxruntime.SessionOptions()
 model_matcha_mel_bal = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_BAL), sess_options=sess_options, providers=["CPUExecutionProvider"])
-#model_matcha_mel_cat = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_CAT), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_matcha_mel_occ = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_OCC), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_matcha_mel_val = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_VAL), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_vocos = onnxruntime.InferenceSession(str(MODEL_PATH_VOCOS), sess_options=sess_options, providers=["CPUExecutionProvider"])
@@ -55,12 +55,14 @@ speaker_id_dict = json.load(open(SPEAKER_ID_DICT))
 accents = [e for e in speaker_id_dict.keys()]
 models={"balear":model_matcha_mel_bal,
-        "occidental": model_matcha_mel_occ,
-        "valencia": model_matcha_mel_val}
 cleaners={"balear": "catalan_balear_cleaners",
-        "occidental": "catalan_occidental_cleaners",
-        "valencia": "catalan_valencia_cleaners"}
 speakers = [sp for sp in speaker_id_dict[DEFAULT_ACCENT].keys()]
@@ -197,7 +199,7 @@ description = """
 For vocoders we use [Vocos](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat) trained in a catalan set of ~28 hours.
-[Matcha](https://huggingface.co/BSC-LT/matcha-tts-cat-onnx) was trained using openslr69 and festcat datasets
 """

 # paths
 MODEL_PATH_MATCHA_MEL_BAL="matcha_multispeaker_cat_bal_opset_15_10_steps.onnx"
+MODEL_PATH_MATCHA_MEL_CAT="matcha_multispeaker_cat_cen_opset_15_10_steps.onnx"
 MODEL_PATH_MATCHA_MEL_OCC="matcha_multispeaker_cat_occ_opset_15_10_steps.onnx"
 MODEL_PATH_MATCHA_MEL_VAL="matcha_multispeaker_cat_val_opset_15_10_steps.onnx"
 MODEL_PATH_VOCOS="mel_spec_22khz_cat.onnx"
 # Load models
 sess_options = onnxruntime.SessionOptions()
 model_matcha_mel_bal = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_BAL), sess_options=sess_options, providers=["CPUExecutionProvider"])
+model_matcha_mel_cat = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_CAT), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_matcha_mel_occ = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_OCC), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_matcha_mel_val = onnxruntime.InferenceSession(str(MODEL_PATH_MATCHA_MEL_VAL), sess_options=sess_options, providers=["CPUExecutionProvider"])
 model_vocos = onnxruntime.InferenceSession(str(MODEL_PATH_VOCOS), sess_options=sess_options, providers=["CPUExecutionProvider"])
 accents = [e for e in speaker_id_dict.keys()]
 models={"balear":model_matcha_mel_bal,
+        "nord-occidental": model_matcha_mel_occ,
+        "valencia": model_matcha_mel_val,
+        "central": model_matcha_mel_val}
 cleaners={"balear": "catalan_balear_cleaners",
+        "nord-occidental": "catalan_occidental_cleaners",
+        "valencia": "catalan_valencia_cleaners",
+        "central": "catalan_cleaners"}
 speakers = [sp for sp in speaker_id_dict[DEFAULT_ACCENT].keys()]
 For vocoders we use [Vocos](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat) trained in a catalan set of ~28 hours.
+[Matcha](https://huggingface.co/BSC-LT/matcha-tts-cat-multispeaker) was trained using openslr69 and festcat datasets
 """

spk_to_id_2.json CHANGED Viewed

@@ -7,7 +7,7 @@
     "grau": 0,
     "elia": 1
   },
-  "occidental":{
     "pere": 0,
     "emma": 1
   },

     "grau": 0,
     "elia": 1
   },
+  "nord-occidental":{
     "pere": 0,
     "emma": 1
   },