Spaces:

D3vShoaib
/

web-assembly-tts-sherpa-onnx-en

Running

App Files Files Community

csukuangfj commited on Mar 18

Commit

5c1c58f

1 Parent(s): ec2c459

update model

Browse files

Files changed (4) hide show

app-tts.js +22 -15
sherpa-onnx-tts.js +23 -0
sherpa-onnx-wasm-main-tts.data +2 -2
sherpa-onnx-wasm-main-tts.js +0 -0

app-tts.js CHANGED Viewed

@@ -123,8 +123,10 @@ speedInput.oninput = function() {
 function updateUiForModelType() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
-  speakerIdSection.classList.toggle('hidden', isZipVoice);
-  referenceAudioSection.classList.toggle('hidden', !isZipVoice);
   referenceTextSection.classList.toggle('hidden', !isZipVoice);
 }
@@ -193,9 +195,11 @@ function downloadBlob(blob, filename) {
 generateBtn.onclick = async function() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
   let speakerId = speakerIdInput.value;
-  if (!isZipVoice) {
     if (speakerId.trim().length == 0) {
       alert('Please input a speakerId');
       return;
@@ -224,7 +228,7 @@ generateBtn.onclick = async function() {
   console.log('speed', speedInput.value);
   console.log('text', text);
-  if (isZipVoice) {
     if (!referenceAudioInput.files || referenceAudioInput.files.length === 0) {
       alert('Please select a reference audio file');
       return;
@@ -236,24 +240,27 @@ generateBtn.onclick = async function() {
       return;
     }
-    const referenceText = referenceTextInput.value.trim();
-    if (referenceText.length === 0) {
-      alert('Please input the transcript of the reference audio');
-      return;
-    }
     const referenceAudio = await readReferenceAudio(referenceFile);
     const genConfig = {
       speed: parseFloat(speedInput.value),
       referenceAudio: referenceAudio.samples,
       referenceSampleRate: referenceAudio.sampleRate,
-      referenceText: referenceText,
-      numSteps: 4,
-      extra: {
-        min_char_in_sentence: 10,
-      },
     };
     generateBtn.disabled = true;
     setGenerationStatus('Generating audio...');

 function updateUiForModelType() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
+  const isPocketTts = ttsInstanceInfo.modelType === 5;
+  const useGenerationConfig = isZipVoice || isPocketTts;
+  speakerIdSection.classList.toggle('hidden', useGenerationConfig);
+  referenceAudioSection.classList.toggle('hidden', !useGenerationConfig);
   referenceTextSection.classList.toggle('hidden', !isZipVoice);
 }
 generateBtn.onclick = async function() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
+  const isPocketTts = ttsInstanceInfo.modelType === 5;
+  const useGenerationConfig = isZipVoice || isPocketTts;
   let speakerId = speakerIdInput.value;
+  if (!useGenerationConfig) {
     if (speakerId.trim().length == 0) {
       alert('Please input a speakerId');
       return;
   console.log('speed', speedInput.value);
   console.log('text', text);
+  if (useGenerationConfig) {
     if (!referenceAudioInput.files || referenceAudioInput.files.length === 0) {
       alert('Please select a reference audio file');
       return;
       return;
     }
     const referenceAudio = await readReferenceAudio(referenceFile);
     const genConfig = {
       speed: parseFloat(speedInput.value),
       referenceAudio: referenceAudio.samples,
       referenceSampleRate: referenceAudio.sampleRate,
+      numSteps: isPocketTts ? 5 : 4,
     };
+    if (isZipVoice) {
+      const referenceText = referenceTextInput.value.trim();
+      if (referenceText.length === 0) {
+        alert('Please input the transcript of the reference audio');
+        return;
+      }
+      genConfig.referenceText = referenceText;
+      genConfig.extra = {
+        min_char_in_sentence: 10,
+      };
+    }
     generateBtn.disabled = true;
     setGenerationStatus('Generating audio...');

sherpa-onnx-tts.js CHANGED Viewed

@@ -985,6 +985,17 @@ function createOfflineTts(Module, myConfig) {
     guidanceScale: 1.0,
   };
   let ruleFsts = '';
   switch (modelType) {
@@ -1031,6 +1042,17 @@ function createOfflineTts(Module, myConfig) {
       offlineTtsZipVoiceModelConfig.dataDir = './espeak-ng-data';
       offlineTtsZipVoiceModelConfig.lexicon = './lexicon.txt';
       break;
   }
   const offlineTtsModelConfig = {
@@ -1039,6 +1061,7 @@ function createOfflineTts(Module, myConfig) {
     offlineTtsKokoroModelConfig: offlineTtsKokoroModelConfig,
     offlineTtsKittenModelConfig: offlineTtsKittenModelConfig,
     offlineTtsZipVoiceModelConfig: offlineTtsZipVoiceModelConfig,
     numThreads: 1,
     debug: 1,
     provider: 'cpu',

     guidanceScale: 1.0,
   };
+  const offlineTtsPocketModelConfig = {
+    lmFlow: '',
+    lmMain: '',
+    encoder: '',
+    decoder: '',
+    textConditioner: '',
+    vocabJson: '',
+    tokenScoresJson: '',
+    voiceEmbeddingCacheCapacity: 50,
+  };
   let ruleFsts = '';
   switch (modelType) {
       offlineTtsZipVoiceModelConfig.dataDir = './espeak-ng-data';
       offlineTtsZipVoiceModelConfig.lexicon = './lexicon.txt';
       break;
+    case 5:
+      // pocket tts
+      // https://k2-fsa.github.io/sherpa/onnx/tts/pocket.html
+      offlineTtsPocketModelConfig.lmFlow = './lm_flow.int8.onnx';
+      offlineTtsPocketModelConfig.lmMain = './lm_main.int8.onnx';
+      offlineTtsPocketModelConfig.encoder = './encoder.onnx';
+      offlineTtsPocketModelConfig.decoder = './decoder.int8.onnx';
+      offlineTtsPocketModelConfig.textConditioner = './text_conditioner.onnx';
+      offlineTtsPocketModelConfig.vocabJson = './vocab.json';
+      offlineTtsPocketModelConfig.tokenScoresJson = './token_scores.json';
+      break;
   }
   const offlineTtsModelConfig = {
     offlineTtsKokoroModelConfig: offlineTtsKokoroModelConfig,
     offlineTtsKittenModelConfig: offlineTtsKittenModelConfig,
     offlineTtsZipVoiceModelConfig: offlineTtsZipVoiceModelConfig,
+    offlineTtsPocketModelConfig: offlineTtsPocketModelConfig,
     numThreads: 1,
     debug: 1,
     provider: 'cpu',

sherpa-onnx-wasm-main-tts.data CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:619888141185f0c6dea5926ab9bb8a525383d1546b96f92d7346323297a73899
-size 96524422

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcf45b1441eb0aa228a3c6de1ea62a25f5a691eb99fdae68f3d6dc10f5e995f7
+size 96525193

sherpa-onnx-wasm-main-tts.js CHANGED Viewed

The diff for this file is too large to render. See raw diff