Spaces:

D3vShoaib
/

web-assembly-tts-sherpa-onnx-en

Running

App Files Files Community

csukuangfj commited on Mar 17

Commit

e1364a2

1 Parent(s): d0d0f2d

update model

Browse files

Files changed (3) hide show

app-tts.js +20 -3
index.html +3 -2
sherpa-onnx-tts.worker.js +82 -0

app-tts.js CHANGED Viewed

@@ -10,13 +10,14 @@ const speedInput = document.getElementById('speed');
 const speedValue = document.getElementById('speedValue');
 const textArea = document.getElementById('text');
 const soundClips = document.getElementById('sound-clips');
 speedValue.innerHTML = speedInput.value;
 let index = 0;
 let audioCtx = null;
-const worker = new Worker("/sherpa-onnx-tts.worker.js");
 let ttsInstanceInfo = {
   modelType: 0,
   numSpeakers: 0,
@@ -25,6 +26,7 @@ let ttsInstanceInfo = {
 worker.onmessage = (e) => {
   if (e.data.type === "sherpa-onnx-tts-progress") {
     Module.setStatus(e.data.status);
   }
   if (e.data.type === "sherpa-onnx-tts-ready") {
     ttsInstanceInfo.modelType = e.data.modelType ?? 0;
@@ -33,6 +35,11 @@ worker.onmessage = (e) => {
     generateBtn.disabled = false;
     speakerIdLabel.innerHTML = `Speaker ID (0 - ${e.data.numSpeakers - 1}):`;
     updateUiForModelType();
     return;
   }
   if (e.data.type === "sherpa-onnx-tts-result") {
@@ -65,7 +72,6 @@ Module = {};
 // https://emscripten.org/docs/api_reference/module.html#Module.locateFile
 Module.setStatus = function(status) {
   console.log(`status ${status}`);
-  const statusElement = document.getElementById('status');
   if (status == 'Running...') {
     status = 'Model downloaded. Initializing text to speech model...'
   }
@@ -141,6 +147,11 @@ async function readReferenceAudio(file) {
   }
 }
 generateBtn.onclick = async function() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
@@ -180,13 +191,19 @@ generateBtn.onclick = async function() {
       return;
     }
     const referenceText = referenceTextInput.value.trim();
     if (referenceText.length === 0) {
       alert('Please input the reference text');
       return;
     }
-    const referenceAudio = await readReferenceAudio(referenceAudioInput.files[0]);
     const genConfig = {
       speed: parseFloat(speedInput.value),
       referenceAudio: referenceAudio.samples,

 const speedValue = document.getElementById('speedValue');
 const textArea = document.getElementById('text');
 const soundClips = document.getElementById('sound-clips');
+const statusElement = document.getElementById('status');
 speedValue.innerHTML = speedInput.value;
 let index = 0;
 let audioCtx = null;
+const worker = new Worker("sherpa-onnx-tts.worker.js");
 let ttsInstanceInfo = {
   modelType: 0,
   numSpeakers: 0,
 worker.onmessage = (e) => {
   if (e.data.type === "sherpa-onnx-tts-progress") {
     Module.setStatus(e.data.status);
+    return;
   }
   if (e.data.type === "sherpa-onnx-tts-ready") {
     ttsInstanceInfo.modelType = e.data.modelType ?? 0;
     generateBtn.disabled = false;
     speakerIdLabel.innerHTML = `Speaker ID (0 - ${e.data.numSpeakers - 1}):`;
     updateUiForModelType();
+    Module.setStatus('');
+    return;
+  }
+  if (e.data.type === "error") {
+    Module.setStatus(e.data.message);
     return;
   }
   if (e.data.type === "sherpa-onnx-tts-result") {
 // https://emscripten.org/docs/api_reference/module.html#Module.locateFile
 Module.setStatus = function(status) {
   console.log(`status ${status}`);
   if (status == 'Running...') {
     status = 'Model downloaded. Initializing text to speech model...'
   }
   }
 }
+function isWaveFile(file) {
+  const name = file.name || '';
+  return name.toLowerCase().endsWith('.wav');
+}
 generateBtn.onclick = async function() {
   const isZipVoice = ttsInstanceInfo.modelType === 4;
       return;
     }
+    const referenceFile = referenceAudioInput.files[0];
+    if (!isWaveFile(referenceFile)) {
+      alert('Please select a .wav reference audio file');
+      return;
+    }
     const referenceText = referenceTextInput.value.trim();
     if (referenceText.length === 0) {
       alert('Please input the reference text');
       return;
     }
+    const referenceAudio = await readReferenceAudio(referenceFile);
     const genConfig = {
       speed: parseFloat(speedInput.value),
       referenceAudio: referenceAudio.samples,

index.html CHANGED Viewed

@@ -37,8 +37,9 @@
         <br/>
       </div>
       <div id="referenceAudioSection" class="hidden">
-        <label for="referenceAudio">Reference audio: </label>
-        <input type="file" id="referenceAudio" name="referenceAudio" accept="audio/*" />
         <br/>
         <br/>
       </div>

         <br/>
       </div>
       <div id="referenceAudioSection" class="hidden">
+        <label for="referenceAudio">Reference audio (.wav): </label>
+        <input type="file" id="referenceAudio" name="referenceAudio" accept=".wav,audio/wav" />
+        <div style="font-size: 0.9rem; color: #6c757d;">Only `.wav` files are supported.</div>
         <br/>
         <br/>
       </div>

sherpa-onnx-tts.worker.js ADDED Viewed

	@@ -0,0 +1,82 @@

+let tts = null;
+self.Module = {
+  // https://emscripten.org/docs/api_reference/module.html#Module.locateFile
+  locateFile: function (path, scriptDirectory = "") {
+    return scriptDirectory + path;
+  },
+  // https://emscripten.org/docs/api_reference/module.html#Module.locateFile
+  setStatus: function (status) {
+    self.postMessage({ type: "sherpa-onnx-tts-progress", status });
+  },
+  onRuntimeInitialized: function () {
+    console.log("Model files downloaded!");
+    console.log("Initializing tts ......");
+    try {
+      tts = createOfflineTts(self.Module);
+      self.postMessage({
+        type: "sherpa-onnx-tts-ready",
+        modelType: getDefaultOfflineTtsModelType(),
+        numSpeakers: tts.numSpeakers,
+      });
+    } catch (e) {
+      self.postMessage({
+        type: "error",
+        message: "TTS Initialization failed: " + e.message,
+      });
+    }
+  },
+};
+importScripts("sherpa-onnx-wasm-main-tts.js");
+importScripts("sherpa-onnx-tts.js");
+self.onmessage = async (e) => {
+  const { type, text, sid, speed, genConfig } = e.data;
+  if (type === "generate") {
+    if (!tts) {
+      return;
+    }
+    try {
+      const audio = tts.generate({
+        text: text,
+        sid: sid || 0,
+        speed: speed || 1.0,
+      });
+      const samples = audio.samples;
+      const sampleRate = tts.sampleRate;
+      self.postMessage(
+        {
+          type: "sherpa-onnx-tts-result",
+          samples: samples,
+          sampleRate: sampleRate,
+        },
+        [samples.buffer],
+      );
+    } catch (err) {
+      self.postMessage({
+        type: "error",
+        message: "Generation failed: " + err.message,
+      });
+    }
+  } else if (type === "generateWithConfig") {
+    if (!tts) {
+      return;
+    }
+    try {
+      const audio = tts.generateWithConfig(text, genConfig || {});
+      const samples = audio.samples;
+      const sampleRate = audio.sampleRate;
+      self.postMessage(
+          {
+            type: "sherpa-onnx-tts-result",
+            samples: samples,
+            sampleRate: sampleRate,
+          },
+          [samples.buffer],
+      );
+    } catch (err) {
+      self.postMessage({
+        type: "error",
+        message: "Generation failed: " + err.message,
+      });
+    }
+  }
+};