Anime-Llasa-3B-Demo

Running on Zero

OmniAICreator commited on Aug 5, 2025

Commit

6658bb2

verified ·

1 Parent(s): d659216

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import torchaudio
 import gradio as gr
 import re
-llasa_model_id = 'OmniAICreator/Llasa-1B-run1'
 tokenizer = AutoTokenizer.from_pretrained(llasa_model_id)
@@ -112,7 +112,7 @@ def extract_speech_ids(speech_tokens_str):
     return speech_ids
 @spaces.GPU(duration=60)
-def infer(sample_audio_path, target_text, temperature, top_p,  progress=gr.Progress()):
     if not target_text or not target_text.strip():
         gr.Warning("Please input text to generate audio.")
         return None, None
@@ -183,7 +183,8 @@ def infer(sample_audio_path, target_text, temperature, top_p,  progress=gr.Progr
             eos_token_id=speech_end_id,
             do_sample=True,
             top_p=top_p,
-            temperature=temperature
         )
         # Extract the speech tokens
@@ -222,6 +223,7 @@ with gr.Blocks() as app_tts:
     with gr.Row():
         temperature_slider = gr.Slider(minimum=0.0, maximum=1.0, value=0.8, step=0.05, label="Temperature")
         top_p_slider = gr.Slider(minimum=0.0, maximum=1.0, value=1.0, step=0.05, label="Top-p")
     generate_btn = gr.Button("Synthesize", variant="primary")
@@ -234,6 +236,7 @@ with gr.Blocks() as app_tts:
             gen_text_input,
             temperature_slider,
             top_p_slider,
         ],
         outputs=[audio_output],
     )

 import gradio as gr
 import re
+llasa_model_id = 'OmniAICreator/Galgame-Llasa-1B'
 tokenizer = AutoTokenizer.from_pretrained(llasa_model_id)
     return speech_ids
 @spaces.GPU(duration=60)
+def infer(sample_audio_path, target_text, temperature, top_p, repetition_penalty, progress=gr.Progress()):
     if not target_text or not target_text.strip():
         gr.Warning("Please input text to generate audio.")
         return None, None
             eos_token_id=speech_end_id,
             do_sample=True,
             top_p=top_p,
+            temperature=temperature,
+            repetition_penalty=repetition_penalty,
         )
         # Extract the speech tokens
     with gr.Row():
         temperature_slider = gr.Slider(minimum=0.0, maximum=1.0, value=0.8, step=0.05, label="Temperature")
         top_p_slider = gr.Slider(minimum=0.0, maximum=1.0, value=1.0, step=0.05, label="Top-p")
+        repetition_penalty_slider = gr.Slider(minimum=1.0, maximum=1.5, value=1.1, step=0.05, label="Repetition Penalty")
     generate_btn = gr.Button("Synthesize", variant="primary")
             gen_text_input,
             temperature_slider,
             top_p_slider,
+            repetition_penalty_slider,
         ],
         outputs=[audio_output],
     )