SoulX-FlashHead

Running on Zero

App Files Files Community

multimodalart HF Staff commited on May 6

Commit

4bec2d3

verified ·

1 Parent(s): a65d8ba

Update gradio_app_streaming.py

Browse files

Files changed (1) hide show

gradio_app_streaming.py +43 -14

gradio_app_streaming.py CHANGED Viewed

@@ -84,21 +84,11 @@ def _save_chunk_audio_to_wav(audio_array, wav_path, sample_rate=16000):
         wav_file.writeframes(samples.tobytes())
     return wav_path
-ckpt_dir = "models/SoulX-FlashHead-1_3B"
-wav2vec_dir = "models/wav2vec2-base-960h"
-model_type = "lite"
-pipeline = get_pipeline(
-    world_size=1,
-    ckpt_dir=ckpt_dir,
-    model_type=model_type,
-    wav2vec_dir=wav2vec_dir,
-)
-loaded_ckpt_dir = ckpt_dir
-loaded_wav2vec_dir = wav2vec_dir
-loaded_model_type = model_type
 @spaces.GPU
 def run_inference_streaming(
     cond_image,
     audio_path,
     seed,
@@ -109,7 +99,30 @@ def run_inference_streaming(
     流式推理：主程序监控 res_queue，有 frames 就保存并 yield；
     推理在独立线程中执行，按 chunk 顺序 infer，结果放入 res_queue。
     """
     progress(0.5, desc="Preparing Data...")
     base_seed = int(seed) if seed >= 0 else 9999
     try:
@@ -285,6 +298,19 @@ with gr.Blocks(title="SoulX-FlashHead 流式视频生成", theme=gr.themes.Soft(
                     )
             generate_btn = gr.Button("🚀 流式生成视频", variant="primary", size="lg")
             with gr.Accordion("⚙️ 高级设置", open=False):
                 use_face_crop_input = gr.Checkbox(label="Use Face Crop", value=False)
                 seed_input = gr.Number(label="Random Seed", value=9999, precision=0)
         with gr.Column(scale=1):
@@ -300,6 +326,9 @@ with gr.Blocks(title="SoulX-FlashHead 流式视频生成", theme=gr.themes.Soft(
     generate_btn.click(
         fn=run_inference_streaming,
         inputs=[
             cond_image_input,
             audio_path_input,
             seed_input,

         wav_file.writeframes(samples.tobytes())
     return wav_path
 @spaces.GPU
 def run_inference_streaming(
+    ckpt_dir,
+    wav2vec_dir,
+    model_type,
     cond_image,
     audio_path,
     seed,
     流式推理：主程序监控 res_queue，有 frames 就保存并 yield；
     推理在独立线程中执行，按 chunk 顺序 infer，结果放入 res_queue。
     """
+    global pipeline, loaded_ckpt_dir, loaded_wav2vec_dir, loaded_model_type
+    if (
+        pipeline is None
+        or loaded_ckpt_dir != ckpt_dir
+        or loaded_wav2vec_dir != wav2vec_dir
+        or loaded_model_type != model_type
+    ):
+        progress(0.2, desc="Loading Model...")
+        logger.info(f"Loading pipeline with ckpt_dir={ckpt_dir}, wav2vec_dir={wav2vec_dir}")
+        try:
+            pipeline = get_pipeline(
+                world_size=1,
+                ckpt_dir=ckpt_dir,
+                model_type=model_type,
+                wav2vec_dir=wav2vec_dir,
+            )
+            loaded_ckpt_dir = ckpt_dir
+            loaded_wav2vec_dir = wav2vec_dir
+            loaded_model_type = model_type
+        except Exception as e:
+            logger.error(f"Failed to load model: {e}")
+            raise gr.Error(f"Failed to load model: {e}")
     progress(0.5, desc="Preparing Data...")
     base_seed = int(seed) if seed >= 0 else 9999
     try:
                     )
             generate_btn = gr.Button("🚀 流式生成视频", variant="primary", size="lg")
             with gr.Accordion("⚙️ 高级设置", open=False):
+                ckpt_dir_input = gr.Textbox(
+                    label="FlashHead Checkpoint Directory",
+                    value="models/SoulX-FlashHead-1_3B",
+                )
+                wav2vec_dir_input = gr.Textbox(
+                    label="Wav2Vec Directory",
+                    value="models/wav2vec2-base-960h",
+                )
+                model_type_input = gr.Dropdown(
+                    label="Model Type",
+                    choices=["pro", "lite"],
+                    value="lite",
+                )
                 use_face_crop_input = gr.Checkbox(label="Use Face Crop", value=False)
                 seed_input = gr.Number(label="Random Seed", value=9999, precision=0)
         with gr.Column(scale=1):
     generate_btn.click(
         fn=run_inference_streaming,
         inputs=[
+            ckpt_dir_input,
+            wav2vec_dir_input,
+            model_type_input,
             cond_image_input,
             audio_path_input,
             seed_input,