diff --git a/.gitattributes b/.gitattributes
index a6344aac8c09253b3b630fb776ae94478aa0275b..33b49d5a3ffa2d402a301904cc7a2868c5d0a6e2 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -33,3 +33,34 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+samples/1758843894746__000000000_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758844017427__000000000_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758845231301__000000250_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758845357677__000000250_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758846565751__000000500_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758846692407__000000500_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758847901716__000000750_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758848028069__000000750_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758849236074__000001000_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758849362296__000001000_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758849488430__000001000_2.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758850570560__000001250_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758850696962__000001250_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758851904671__000001500_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758852030870__000001500_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758853239252__000001750_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758853365704__000001750_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758854574518__000002000_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758854700459__000002000_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758855910203__000002250_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758856036364__000002250_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758857245953__000002500_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758857372128__000002500_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758858583467__000002750_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758858709776__000002750_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758859930728__000003000_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758860056799__000003000_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758861269184__000003250_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758861395260__000003250_1.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758862582214__000003500_0.jpg filter=lfs diff=lfs merge=lfs -text
+samples/1758862708072__000003500_1.jpg filter=lfs diff=lfs merge=lfs -text
diff --git a/.job_config.json b/.job_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..2c94a57d685d80ff1cb04192c8992aa6a8cd8634
--- /dev/null
+++ b/.job_config.json
@@ -0,0 +1,133 @@
+{
+  "job": "extension",
+  "config": {
+    "name": "wan_dewa",
+    "process": [
+      {
+        "type": "diffusion_trainer",
+        "training_folder": "/app/ai-toolkit/output",
+        "sqlite_db_path": "/app/ai-toolkit/aitk_db.db",
+        "device": "cuda",
+        "trigger_word": null,
+        "performance_log_every": 10,
+        "network": {
+          "type": "lora",
+          "linear": 16,
+          "linear_alpha": 16,
+          "conv": 16,
+          "conv_alpha": 16,
+          "lokr_full_rank": true,
+          "lokr_factor": -1,
+          "network_kwargs": {
+            "ignore_if_contains": []
+          }
+        },
+        "save": {
+          "dtype": "bf16",
+          "save_every": 250,
+          "max_step_saves_to_keep": 10,
+          "save_format": "diffusers",
+          "push_to_hub": false
+        },
+        "datasets": [
+          {
+            "folder_path": "/app/ai-toolkit/datasets/d3w4",
+            "mask_path": null,
+            "mask_min_value": 0.1,
+            "default_caption": "",
+            "caption_ext": "txt",
+            "caption_dropout_rate": 0.05,
+            "cache_latents_to_disk": false,
+            "is_reg": false,
+            "network_weight": 1,
+            "resolution": [
+              512
+            ],
+            "controls": [],
+            "shrink_video_to_frames": true,
+            "num_frames": 1,
+            "do_i2v": true,
+            "flip_x": false,
+            "flip_y": false
+          }
+        ],
+        "train": {
+          "batch_size": 1,
+          "bypass_guidance_embedding": false,
+          "steps": 3500,
+          "gradient_accumulation": 1,
+          "train_unet": true,
+          "train_text_encoder": false,
+          "gradient_checkpointing": true,
+          "noise_scheduler": "flowmatch",
+          "optimizer": "adamw8bit",
+          "timestep_type": "sigmoid",
+          "content_or_style": "balanced",
+          "optimizer_params": {
+            "weight_decay": 0.0001
+          },
+          "unload_text_encoder": false,
+          "cache_text_embeddings": true,
+          "lr": 0.0002,
+          "ema_config": {
+            "use_ema": false,
+            "ema_decay": 0.99
+          },
+          "skip_first_sample": false,
+          "force_first_sample": false,
+          "disable_sampling": false,
+          "dtype": "bf16",
+          "diff_output_preservation": false,
+          "diff_output_preservation_multiplier": 1,
+          "diff_output_preservation_class": "person",
+          "switch_boundary_every": 10,
+          "loss_type": "mse"
+        },
+        "model": {
+          "name_or_path": "ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16",
+          "quantize": true,
+          "qtype": "uint4|ostris/accuracy_recovery_adapters/wan22_14b_t2i_torchao_uint4.safetensors",
+          "quantize_te": true,
+          "qtype_te": "qfloat8",
+          "arch": "wan22_14b:t2v",
+          "low_vram": true,
+          "model_kwargs": {
+            "train_high_noise": true,
+            "train_low_noise": true
+          }
+        },
+        "sample": {
+          "sampler": "flowmatch",
+          "sample_every": 250,
+          "width": 1024,
+          "height": 1024,
+          "samples": [
+            {
+              "prompt": "A man named D3W4 , playing chess at the park, bomb going off in the background"
+            },
+            {
+              "prompt": "A man named D3W4 holding a coffee cup, in a beanie, sitting at a cafe"
+            },
+            {
+              "prompt": "A man named D3W4 playing the guitar, on stage, singing a song, laser lights, punk rocker"
+            },
+            {
+              "prompt": "photo of a man named D3W4, white background, medium shot, modeling clothing, studio lighting, white backdrop"
+            }
+          ],
+          "neg": "",
+          "seed": 42,
+          "walk_seed": true,
+          "guidance_scale": 4,
+          "sample_steps": 25,
+          "num_frames": 1,
+          "fps": 1
+        }
+      }
+    ]
+  },
+  "meta": {
+    "name": "[name]",
+    "version": "1.0"
+  }
+}
\ No newline at end of file
diff --git a/config.yaml b/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..758f53e3c8d5a94bf2e5dc14e2fa4100968d910d
--- /dev/null
+++ b/config.yaml
@@ -0,0 +1,107 @@
+job: extension
+config:
+  name: wan_dewa
+  process:
+  - type: diffusion_trainer
+    training_folder: /app/ai-toolkit/output
+    sqlite_db_path: /app/ai-toolkit/aitk_db.db
+    device: cuda
+    trigger_word: null
+    performance_log_every: 10
+    network:
+      type: lora
+      linear: 16
+      linear_alpha: 16
+      conv: 16
+      conv_alpha: 16
+      lokr_full_rank: true
+      lokr_factor: -1
+      network_kwargs:
+        ignore_if_contains: []
+    save:
+      dtype: bf16
+      save_every: 250
+      max_step_saves_to_keep: 10
+      save_format: diffusers
+      push_to_hub: false
+    datasets:
+    - folder_path: /app/ai-toolkit/datasets/d3w4
+      mask_path: null
+      mask_min_value: 0.1
+      default_caption: ''
+      caption_ext: txt
+      caption_dropout_rate: 0.05
+      cache_latents_to_disk: false
+      is_reg: false
+      network_weight: 1
+      resolution:
+      - 512
+      controls: []
+      shrink_video_to_frames: true
+      num_frames: 1
+      do_i2v: true
+      flip_x: false
+      flip_y: false
+    train:
+      batch_size: 1
+      bypass_guidance_embedding: false
+      steps: 3500
+      gradient_accumulation: 1
+      train_unet: true
+      train_text_encoder: false
+      gradient_checkpointing: true
+      noise_scheduler: flowmatch
+      optimizer: adamw8bit
+      timestep_type: sigmoid
+      content_or_style: balanced
+      optimizer_params:
+        weight_decay: 0.0001
+      unload_text_encoder: false
+      cache_text_embeddings: true
+      lr: 0.0002
+      ema_config:
+        use_ema: false
+        ema_decay: 0.99
+      skip_first_sample: false
+      force_first_sample: false
+      disable_sampling: false
+      dtype: bf16
+      diff_output_preservation: false
+      diff_output_preservation_multiplier: 1
+      diff_output_preservation_class: person
+      switch_boundary_every: 10
+      loss_type: mse
+    model:
+      name_or_path: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16
+      quantize: true
+      qtype: uint4|ostris/accuracy_recovery_adapters/wan22_14b_t2i_torchao_uint4.safetensors
+      quantize_te: true
+      qtype_te: qfloat8
+      arch: wan22_14b:t2v
+      low_vram: true
+      model_kwargs:
+        train_high_noise: true
+        train_low_noise: true
+    sample:
+      sampler: flowmatch
+      sample_every: 250
+      width: 1024
+      height: 1024
+      samples:
+      - prompt: A man named D3W4 , playing chess at the park, bomb going off in the
+          background
+      - prompt: A man named D3W4 holding a coffee cup, in a beanie, sitting at a cafe
+      - prompt: A man named D3W4 playing the guitar, on stage, singing a song, laser
+          lights, punk rocker
+      - prompt: photo of a man named D3W4, white background, medium shot, modeling
+          clothing, studio lighting, white backdrop
+      neg: ''
+      seed: 42
+      walk_seed: true
+      guidance_scale: 4
+      sample_steps: 25
+      num_frames: 1
+      fps: 1
+meta:
+  name: wan_dewa
+  version: '1.0'
diff --git a/log.txt b/log.txt
new file mode 100644
index 0000000000000000000000000000000000000000..bd08add64e354572b3087028b989a65ee97fc595
--- /dev/null
+++ b/log.txt
@@ -0,0 +1,6692 @@
+Running 1 job
+{
+    "type": "diffusion_trainer",
+    "training_folder": "/app/ai-toolkit/output",
+    "sqlite_db_path": "/app/ai-toolkit/aitk_db.db",
+    "device": "cuda",
+    "trigger_word": null,
+    "performance_log_every": 10,
+    "network": {
+        "type": "lora",
+        "linear": 16,
+        "linear_alpha": 16,
+        "conv": 16,
+        "conv_alpha": 16,
+        "lokr_full_rank": true,
+        "lokr_factor": -1,
+        "network_kwargs": {
+            "ignore_if_contains": []
+        }
+    },
+    "save": {
+        "dtype": "bf16",
+        "save_every": 250,
+        "max_step_saves_to_keep": 10,
+        "save_format": "diffusers",
+        "push_to_hub": false
+    },
+    "datasets": [
+        {
+            "folder_path": "/app/ai-toolkit/datasets/d3w4",
+            "mask_path": null,
+            "mask_min_value": 0.1,
+            "default_caption": "",
+            "caption_ext": "txt",
+            "caption_dropout_rate": 0.05,
+            "cache_latents_to_disk": false,
+            "is_reg": false,
+            "network_weight": 1,
+            "resolution": [
+                512
+            ],
+            "controls": [],
+            "shrink_video_to_frames": true,
+            "num_frames": 1,
+            "do_i2v": true,
+            "flip_x": false,
+            "flip_y": false
+        }
+    ],
+    "train": {
+        "batch_size": 1,
+        "bypass_guidance_embedding": false,
+        "steps": 3500,
+        "gradient_accumulation": 1,
+        "train_unet": true,
+        "train_text_encoder": false,
+        "gradient_checkpointing": true,
+        "noise_scheduler": "flowmatch",
+        "optimizer": "adamw8bit",
+        "timestep_type": "sigmoid",
+        "content_or_style": "balanced",
+        "optimizer_params": {
+            "weight_decay": 0.0001
+        },
+        "unload_text_encoder": false,
+        "cache_text_embeddings": true,
+        "lr": 0.0002,
+        "ema_config": {
+            "use_ema": false,
+            "ema_decay": 0.99
+        },
+        "skip_first_sample": false,
+        "force_first_sample": false,
+        "disable_sampling": false,
+        "dtype": "bf16",
+        "diff_output_preservation": false,
+        "diff_output_preservation_multiplier": 1,
+        "diff_output_preservation_class": "person",
+        "switch_boundary_every": 10,
+        "loss_type": "mse"
+    },
+    "model": {
+        "name_or_path": "ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16",
+        "quantize": true,
+        "qtype": "uint4|ostris/accuracy_recovery_adapters/wan22_14b_t2i_torchao_uint4.safetensors",
+        "quantize_te": true,
+        "qtype_te": "qfloat8",
+        "arch": "wan22_14b:t2v",
+        "low_vram": true,
+        "model_kwargs": {
+            "train_high_noise": true,
+            "train_low_noise": true
+        }
+    },
+    "sample": {
+        "sampler": "flowmatch",
+        "sample_every": 250,
+        "width": 1024,
+        "height": 1024,
+        "samples": [
+            {
+                "prompt": "A man named D3W4 , playing chess at the park, bomb going off in the background"
+            },
+            {
+                "prompt": "A man named D3W4 holding a coffee cup, in a beanie, sitting at a cafe"
+            },
+            {
+                "prompt": "A man named D3W4 playing the guitar, on stage, singing a song, laser lights, punk rocker"
+            },
+            {
+                "prompt": "photo of a man named D3W4, white background, medium shot, modeling clothing, studio lighting, white backdrop"
+            }
+        ],
+        "neg": "",
+        "seed": 42,
+        "walk_seed": true,
+        "guidance_scale": 4,
+        "sample_steps": 25,
+        "num_frames": 1,
+        "fps": 1
+    }
+}
+Using SQLite database at /app/ai-toolkit/aitk_db.db
+Job ID: "bbfb709b-6853-4f38-a51e-c2b7afbfb429"
+
+#############################################
+# Running job: wan_dewa
+#############################################
+
+
+Running  1 process
+Loading Wan model
+Loading transformer 1
+config.json:   0%|          | 0.00/550 [00:00<?, ?B/s]config.json:   0%|          | 0.00/550 [00:00<?, ?B/s]config.json: 100%|##########| 550/550 [00:00<00:00, 2.13MB/s]config.json: 100%|##########| 550/550 [00:00<00:00, 2.13MB/s]
+
+(…)ion_pytorch_model.safetensors.index.json: 0.00B [00:00, ?B/s](…)ion_pytorch_model.safetensors.index.json: 0.00B [00:00, ?B/s](…)ion_pytorch_model.safetensors.index.json: 97.3kB [00:00, 168MB/s](…)ion_pytorch_model.safetensors.index.json: 97.3kB [00:00, 168MB/s]
+
+transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/9.97G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/9.97G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 1.07M/9.97G [00:01<4:45:45, 581kB/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 1.07M/9.97G [00:01<4:45:45, 581kB/s]transformer/diffusion_pytorch_model-0000(…):   1%|          | 51.8M/9.97G [00:02<05:01, 32.8MB/s] transformer/diffusion_pytorch_model-0000(…):   1%|          | 51.8M/9.97G [00:02<05:01, 32.8MB/s] transformer/diffusion_pytorch_model-0000(…):   1%|          | 69.1M/9.97G [00:02<04:14, 38.9MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|          | 69.1M/9.97G [00:02<04:14, 38.9MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|          | 81.0M/9.97G [00:02<03:59, 41.3MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|          | 81.0M/9.97G [00:02<03:59, 41.3MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|1         | 116M/9.97G [00:02<02:21, 69.4MB/s] transformer/diffusion_pytorch_model-0000(…):   1%|1         | 116M/9.97G [00:02<02:21, 69.4MB/s] transformer/diffusion_pytorch_model-0000(…):   1%|1         | 135M/9.97G [00:02<01:58, 83.2MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|1         | 135M/9.97G [00:02<01:58, 83.2MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|1         | 163M/9.97G [00:03<02:01, 80.8MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|1         | 163M/9.97G [00:03<02:01, 80.8MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|1         | 182M/9.97G [00:03<01:41, 95.9MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|1         | 182M/9.97G [00:03<01:41, 95.9MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|2         | 208M/9.97G [00:04<02:51, 56.9MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|2         | 208M/9.97G [00:04<02:51, 56.9MB/s]transformer/diffusion_pytorch_model-0000(…):   5%|4         | 467M/9.97G [00:04<00:33, 281MB/s] transformer/diffusion_pytorch_model-0000(…):   5%|4         | 467M/9.97G [00:04<00:33, 281MB/s] transformer/diffusion_pytorch_model-0000(…):   5%|5         | 526M/9.97G [00:04<00:38, 248MB/s]transformer/diffusion_pytorch_model-0000(…):   5%|5         | 526M/9.97G [00:04<00:38, 248MB/s]transformer/diffusion_pytorch_model-0000(…):   6%|6         | 618M/9.97G [00:04<00:32, 292MB/s]transformer/diffusion_pytorch_model-0000(…):   6%|6         | 618M/9.97G [00:04<00:32, 292MB/s]transformer/diffusion_pytorch_model-0000(…):   7%|6         | 665M/9.97G [00:05<00:31, 297MB/s]transformer/diffusion_pytorch_model-0000(…):   7%|6         | 665M/9.97G [00:05<00:31, 297MB/s]transformer/diffusion_pytorch_model-0000(…):   7%|7         | 707M/9.97G [00:05<00:30, 308MB/s]transformer/diffusion_pytorch_model-0000(…):   7%|7         | 707M/9.97G [00:05<00:30, 308MB/s]transformer/diffusion_pytorch_model-0000(…):   8%|7         | 749M/9.97G [00:05<00:30, 300MB/s]transformer/diffusion_pytorch_model-0000(…):   8%|7         | 749M/9.97G [00:05<00:30, 300MB/s]transformer/diffusion_pytorch_model-0000(…):   8%|8         | 803M/9.97G [00:05<00:46, 199MB/s]transformer/diffusion_pytorch_model-0000(…):   8%|8         | 803M/9.97G [00:05<00:46, 199MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|9         | 899M/9.97G [00:05<00:32, 282MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|9         | 899M/9.97G [00:05<00:32, 282MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|#         | 1.00G/9.97G [00:06<00:25, 347MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|#         | 1.00G/9.97G [00:06<00:25, 347MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#         | 1.05G/9.97G [00:06<00:30, 297MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#         | 1.05G/9.97G [00:06<00:30, 297MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#         | 1.09G/9.97G [00:06<00:32, 272MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#         | 1.09G/9.97G [00:06<00:32, 272MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#1        | 1.13G/9.97G [00:06<00:33, 266MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#1        | 1.13G/9.97G [00:06<00:33, 266MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.19G/9.97G [00:06<00:29, 293MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.19G/9.97G [00:06<00:29, 293MB/s]transformer/diffusion_pytorch_model-0000(…):  14%|#3        | 1.35G/9.97G [00:07<00:16, 532MB/s]transformer/diffusion_pytorch_model-0000(…):  14%|#3        | 1.35G/9.97G [00:07<00:16, 532MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.46G/9.97G [00:07<00:16, 504MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.46G/9.97G [00:07<00:16, 504MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#5        | 1.53G/9.97G [00:07<00:18, 454MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#5        | 1.53G/9.97G [00:07<00:18, 454MB/s]transformer/diffusion_pytorch_model-0000(…):  16%|#6        | 1.63G/9.97G [00:07<00:18, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  16%|#6        | 1.63G/9.97G [00:07<00:18, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.72G/9.97G [00:07<00:18, 441MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.72G/9.97G [00:07<00:18, 441MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#7        | 1.79G/9.97G [00:08<00:20, 396MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#7        | 1.79G/9.97G [00:08<00:20, 396MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#8        | 1.84G/9.97G [00:08<00:21, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#8        | 1.84G/9.97G [00:08<00:21, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  19%|#9        | 1.94G/9.97G [00:08<00:17, 457MB/s]transformer/diffusion_pytorch_model-0000(…):  19%|#9        | 1.94G/9.97G [00:08<00:17, 457MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|##        | 2.00G/9.97G [00:08<00:24, 320MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|##        | 2.00G/9.97G [00:08<00:24, 320MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##        | 2.07G/9.97G [00:08<00:21, 369MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##        | 2.07G/9.97G [00:08<00:21, 369MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##1       | 2.18G/9.97G [00:09<00:22, 348MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##1       | 2.18G/9.97G [00:09<00:22, 348MB/s]transformer/diffusion_pytorch_model-0000(…):  23%|##3       | 2.32G/9.97G [00:09<00:15, 502MB/s]transformer/diffusion_pytorch_model-0000(…):  23%|##3       | 2.32G/9.97G [00:09<00:15, 502MB/s]transformer/diffusion_pytorch_model-0000(…):  24%|##4       | 2.41G/9.97G [00:10<00:48, 155MB/s]transformer/diffusion_pytorch_model-0000(…):  24%|##4       | 2.41G/9.97G [00:10<00:48, 155MB/s]transformer/diffusion_pytorch_model-0000(…):  31%|###       | 3.06G/9.97G [00:11<00:12, 555MB/s]transformer/diffusion_pytorch_model-0000(…):  31%|###       | 3.06G/9.97G [00:11<00:12, 555MB/s]transformer/diffusion_pytorch_model-0000(…):  33%|###2      | 3.28G/9.97G [00:11<00:11, 560MB/s]transformer/diffusion_pytorch_model-0000(…):  33%|###2      | 3.28G/9.97G [00:11<00:11, 560MB/s]transformer/diffusion_pytorch_model-0000(…):  35%|###4      | 3.46G/9.97G [00:11<00:10, 592MB/s]transformer/diffusion_pytorch_model-0000(…):  35%|###4      | 3.46G/9.97G [00:11<00:10, 592MB/s]transformer/diffusion_pytorch_model-0000(…):  36%|###6      | 3.61G/9.97G [00:12<00:15, 401MB/s]transformer/diffusion_pytorch_model-0000(…):  36%|###6      | 3.61G/9.97G [00:12<00:15, 401MB/s]transformer/diffusion_pytorch_model-0000(…):  37%|###7      | 3.74G/9.97G [00:12<00:15, 406MB/s]transformer/diffusion_pytorch_model-0000(…):  37%|###7      | 3.74G/9.97G [00:12<00:15, 406MB/s]transformer/diffusion_pytorch_model-0000(…):  39%|###8      | 3.84G/9.97G [00:13<00:18, 340MB/s]transformer/diffusion_pytorch_model-0000(…):  39%|###8      | 3.84G/9.97G [00:13<00:18, 340MB/s]transformer/diffusion_pytorch_model-0000(…):  39%|###9      | 3.94G/9.97G [00:13<00:15, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  39%|###9      | 3.94G/9.97G [00:13<00:15, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  40%|####      | 4.02G/9.97G [00:13<00:16, 358MB/s]transformer/diffusion_pytorch_model-0000(…):  40%|####      | 4.02G/9.97G [00:13<00:16, 358MB/s]transformer/diffusion_pytorch_model-0000(…):  41%|####      | 4.08G/9.97G [00:13<00:17, 346MB/s]transformer/diffusion_pytorch_model-0000(…):  41%|####      | 4.08G/9.97G [00:13<00:17, 346MB/s]transformer/diffusion_pytorch_model-0000(…):  42%|####1     | 4.17G/9.97G [00:14<00:18, 306MB/s]transformer/diffusion_pytorch_model-0000(…):  42%|####1     | 4.17G/9.97G [00:14<00:18, 306MB/s]transformer/diffusion_pytorch_model-0000(…):  43%|####3     | 4.31G/9.97G [00:14<00:14, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  43%|####3     | 4.31G/9.97G [00:14<00:14, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  44%|####4     | 4.42G/9.97G [00:14<00:12, 448MB/s]transformer/diffusion_pytorch_model-0000(…):  44%|####4     | 4.42G/9.97G [00:14<00:12, 448MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####5     | 4.54G/9.97G [00:14<00:09, 545MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####5     | 4.54G/9.97G [00:14<00:09, 545MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####6     | 4.62G/9.97G [00:15<00:11, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####6     | 4.62G/9.97G [00:15<00:11, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.69G/9.97G [00:15<00:16, 329MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.69G/9.97G [00:15<00:16, 329MB/s]transformer/diffusion_pytorch_model-0000(…):  48%|####7     | 4.78G/9.97G [00:16<00:19, 267MB/s]transformer/diffusion_pytorch_model-0000(…):  48%|####7     | 4.78G/9.97G [00:16<00:19, 267MB/s]transformer/diffusion_pytorch_model-0000(…):  49%|####9     | 4.92G/9.97G [00:16<00:13, 375MB/s]transformer/diffusion_pytorch_model-0000(…):  49%|####9     | 4.92G/9.97G [00:16<00:13, 375MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.98G/9.97G [00:16<00:15, 329MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.98G/9.97G [00:16<00:15, 329MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####1    | 5.09G/9.97G [00:16<00:12, 402MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####1    | 5.09G/9.97G [00:16<00:12, 402MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####2    | 5.18G/9.97G [00:16<00:12, 397MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####2    | 5.18G/9.97G [00:16<00:12, 397MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 5.50G/9.97G [00:16<00:05, 783MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 5.50G/9.97G [00:16<00:05, 783MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####6    | 5.63G/9.97G [00:17<00:10, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####6    | 5.63G/9.97G [00:17<00:10, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####7    | 5.72G/9.97G [00:18<00:16, 261MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####7    | 5.72G/9.97G [00:18<00:16, 261MB/s]transformer/diffusion_pytorch_model-0000(…):  58%|#####8    | 5.82G/9.97G [00:18<00:13, 304MB/s]transformer/diffusion_pytorch_model-0000(…):  58%|#####8    | 5.82G/9.97G [00:18<00:13, 304MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.94G/9.97G [00:18<00:11, 341MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.94G/9.97G [00:18<00:11, 341MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|######    | 6.01G/9.97G [00:19<00:12, 322MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|######    | 6.01G/9.97G [00:19<00:12, 322MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######    | 6.07G/9.97G [00:19<00:13, 299MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######    | 6.07G/9.97G [00:19<00:13, 299MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 6.18G/9.97G [00:19<00:09, 385MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 6.18G/9.97G [00:19<00:09, 385MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######2   | 6.26G/9.97G [00:19<00:09, 387MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######2   | 6.26G/9.97G [00:19<00:09, 387MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######3   | 6.35G/9.97G [00:19<00:08, 404MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######3   | 6.35G/9.97G [00:19<00:08, 404MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######4   | 6.40G/9.97G [00:20<00:08, 401MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######4   | 6.40G/9.97G [00:20<00:08, 401MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######4   | 6.48G/9.97G [00:20<00:08, 395MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######4   | 6.48G/9.97G [00:20<00:08, 395MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 6.56G/9.97G [00:20<00:07, 454MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 6.56G/9.97G [00:20<00:07, 454MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######7   | 6.75G/9.97G [00:20<00:06, 514MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######7   | 6.75G/9.97G [00:20<00:06, 514MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######8   | 6.81G/9.97G [00:21<00:08, 384MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######8   | 6.81G/9.97G [00:21<00:08, 384MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 6.87G/9.97G [00:21<00:07, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 6.87G/9.97G [00:21<00:07, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.92G/9.97G [00:21<00:07, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.92G/9.97G [00:21<00:07, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 7.15G/9.97G [00:21<00:05, 513MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 7.15G/9.97G [00:21<00:05, 513MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######2  | 7.21G/9.97G [00:21<00:05, 505MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######2  | 7.21G/9.97G [00:21<00:05, 505MB/s]transformer/diffusion_pytorch_model-0000(…):  73%|#######3  | 7.29G/9.97G [00:21<00:05, 477MB/s]transformer/diffusion_pytorch_model-0000(…):  73%|#######3  | 7.29G/9.97G [00:21<00:05, 477MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######3  | 7.36G/9.97G [00:22<00:05, 484MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######3  | 7.36G/9.97G [00:22<00:05, 484MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######4  | 7.43G/9.97G [00:22<00:06, 413MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######4  | 7.43G/9.97G [00:22<00:06, 413MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######5  | 7.50G/9.97G [00:22<00:05, 423MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######5  | 7.50G/9.97G [00:22<00:05, 423MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######5  | 7.57G/9.97G [00:22<00:07, 319MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######5  | 7.57G/9.97G [00:22<00:07, 319MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######6  | 7.61G/9.97G [00:23<00:10, 230MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######6  | 7.61G/9.97G [00:23<00:10, 230MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 7.79G/9.97G [00:23<00:05, 422MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 7.79G/9.97G [00:23<00:05, 422MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######8  | 7.86G/9.97G [00:23<00:04, 426MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######8  | 7.86G/9.97G [00:23<00:04, 426MB/s]transformer/diffusion_pytorch_model-0000(…):  81%|########  | 8.05G/9.97G [00:23<00:03, 637MB/s]transformer/diffusion_pytorch_model-0000(…):  81%|########  | 8.05G/9.97G [00:23<00:03, 637MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########2 | 8.20G/9.97G [00:24<00:03, 526MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########2 | 8.20G/9.97G [00:24<00:03, 526MB/s]transformer/diffusion_pytorch_model-0000(…):  83%|########2 | 8.27G/9.97G [00:24<00:03, 498MB/s]transformer/diffusion_pytorch_model-0000(…):  83%|########2 | 8.27G/9.97G [00:24<00:03, 498MB/s]transformer/diffusion_pytorch_model-0000(…):  84%|########3 | 8.36G/9.97G [00:24<00:03, 460MB/s]transformer/diffusion_pytorch_model-0000(…):  84%|########3 | 8.36G/9.97G [00:24<00:03, 460MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 8.47G/9.97G [00:24<00:03, 418MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 8.47G/9.97G [00:24<00:03, 418MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########6 | 8.60G/9.97G [00:24<00:02, 541MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########6 | 8.60G/9.97G [00:24<00:02, 541MB/s]transformer/diffusion_pytorch_model-0000(…):  88%|########7 | 8.75G/9.97G [00:25<00:02, 582MB/s]transformer/diffusion_pytorch_model-0000(…):  88%|########7 | 8.75G/9.97G [00:25<00:02, 582MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 8.83G/9.97G [00:25<00:02, 547MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 8.83G/9.97G [00:25<00:02, 547MB/s]transformer/diffusion_pytorch_model-0000(…):  90%|########9 | 8.96G/9.97G [00:25<00:01, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  90%|########9 | 8.96G/9.97G [00:25<00:01, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  91%|#########1| 9.10G/9.97G [00:25<00:01, 661MB/s]transformer/diffusion_pytorch_model-0000(…):  91%|#########1| 9.10G/9.97G [00:25<00:01, 661MB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########3| 9.37G/9.97G [00:25<00:00, 1.01GB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########3| 9.37G/9.97G [00:25<00:00, 1.01GB/s]transformer/diffusion_pytorch_model-0000(…):  96%|#########5| 9.56G/9.97G [00:25<00:00, 1.08GB/s]transformer/diffusion_pytorch_model-0000(…):  96%|#########5| 9.56G/9.97G [00:25<00:00, 1.08GB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########7| 9.71G/9.97G [00:26<00:00, 1.14GB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########7| 9.71G/9.97G [00:26<00:00, 1.14GB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 9.91G/9.97G [00:26<00:00, 1.23GB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 9.91G/9.97G [00:26<00:00, 1.23GB/s]transformer/diffusion_pytorch_model-0000(…): 100%|##########| 9.97G/9.97G [00:26<00:00, 380MB/s] transformer/diffusion_pytorch_model-0000(…): 100%|##########| 9.97G/9.97G [00:26<00:00, 380MB/s] 
+
+transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/9.89G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/9.89G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 2.33M/9.89G [00:01<1:52:19, 1.47MB/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 2.33M/9.89G [00:01<1:52:19, 1.47MB/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 37.9M/9.89G [00:01<06:12, 26.4MB/s]  transformer/diffusion_pytorch_model-0000(…):   0%|          | 37.9M/9.89G [00:01<06:12, 26.4MB/s]  transformer/diffusion_pytorch_model-0000(…):   1%|          | 72.4M/9.89G [00:02<03:03, 53.6MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|          | 72.4M/9.89G [00:02<03:03, 53.6MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|1         | 106M/9.89G [00:02<03:07, 52.2MB/s] transformer/diffusion_pytorch_model-0000(…):   1%|1         | 106M/9.89G [00:02<03:07, 52.2MB/s] transformer/diffusion_pytorch_model-0000(…):   2%|2         | 233M/9.89G [00:02<01:00, 159MB/s] transformer/diffusion_pytorch_model-0000(…):   2%|2         | 233M/9.89G [00:02<01:00, 159MB/s] transformer/diffusion_pytorch_model-0000(…):   3%|3         | 315M/9.89G [00:04<01:45, 91.0MB/s]transformer/diffusion_pytorch_model-0000(…):   3%|3         | 315M/9.89G [00:04<01:45, 91.0MB/s]transformer/diffusion_pytorch_model-0000(…):   7%|6         | 674M/9.89G [00:04<00:34, 265MB/s] transformer/diffusion_pytorch_model-0000(…):   7%|6         | 674M/9.89G [00:04<00:34, 265MB/s] transformer/diffusion_pytorch_model-0000(…):   8%|7         | 778M/9.89G [00:05<00:38, 239MB/s]transformer/diffusion_pytorch_model-0000(…):   8%|7         | 778M/9.89G [00:05<00:38, 239MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|8         | 860M/9.89G [00:05<00:34, 258MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|8         | 860M/9.89G [00:05<00:34, 258MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|9         | 904M/9.89G [00:05<00:37, 237MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|9         | 904M/9.89G [00:05<00:37, 237MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|9         | 967M/9.89G [00:05<00:34, 258MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|9         | 967M/9.89G [00:05<00:34, 258MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|#         | 1.01G/9.89G [00:06<00:33, 266MB/s]transformer/diffusion_pytorch_model-0000(…):  10%|#         | 1.01G/9.89G [00:06<00:33, 266MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.17G/9.89G [00:06<00:21, 406MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.17G/9.89G [00:06<00:21, 406MB/s]transformer/diffusion_pytorch_model-0000(…):  13%|#3        | 1.30G/9.89G [00:06<00:17, 504MB/s]transformer/diffusion_pytorch_model-0000(…):  13%|#3        | 1.30G/9.89G [00:06<00:17, 504MB/s]transformer/diffusion_pytorch_model-0000(…):  14%|#4        | 1.41G/9.89G [00:06<00:17, 498MB/s]transformer/diffusion_pytorch_model-0000(…):  14%|#4        | 1.41G/9.89G [00:06<00:17, 498MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.48G/9.89G [00:06<00:17, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.48G/9.89G [00:06<00:17, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#6        | 1.65G/9.89G [00:06<00:14, 577MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#6        | 1.65G/9.89G [00:06<00:14, 577MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.72G/9.89G [00:07<00:24, 333MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.72G/9.89G [00:07<00:24, 333MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#8        | 1.82G/9.89G [00:07<00:20, 402MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#8        | 1.82G/9.89G [00:07<00:20, 402MB/s]transformer/diffusion_pytorch_model-0000(…):  19%|#9        | 1.89G/9.89G [00:07<00:22, 356MB/s]transformer/diffusion_pytorch_model-0000(…):  19%|#9        | 1.89G/9.89G [00:07<00:22, 356MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|##        | 1.99G/9.89G [00:08<00:27, 289MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|##        | 1.99G/9.89G [00:08<00:27, 289MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##1       | 2.08G/9.89G [00:08<00:21, 356MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##1       | 2.08G/9.89G [00:08<00:21, 356MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##1       | 2.16G/9.89G [00:08<00:19, 403MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##1       | 2.16G/9.89G [00:08<00:19, 403MB/s]transformer/diffusion_pytorch_model-0000(…):  23%|##3       | 2.28G/9.89G [00:10<01:05, 116MB/s]transformer/diffusion_pytorch_model-0000(…):  23%|##3       | 2.28G/9.89G [00:10<01:05, 116MB/s]transformer/diffusion_pytorch_model-0000(…):  34%|###4      | 3.37G/9.89G [00:11<00:10, 624MB/s]transformer/diffusion_pytorch_model-0000(…):  34%|###4      | 3.37G/9.89G [00:11<00:10, 624MB/s]transformer/diffusion_pytorch_model-0000(…):  37%|###7      | 3.70G/9.89G [00:12<00:12, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  37%|###7      | 3.70G/9.89G [00:12<00:12, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  40%|####      | 3.97G/9.89G [00:12<00:10, 566MB/s]transformer/diffusion_pytorch_model-0000(…):  40%|####      | 3.97G/9.89G [00:12<00:10, 566MB/s]transformer/diffusion_pytorch_model-0000(…):  42%|####2     | 4.17G/9.89G [00:13<00:14, 386MB/s]transformer/diffusion_pytorch_model-0000(…):  42%|####2     | 4.17G/9.89G [00:13<00:14, 386MB/s]transformer/diffusion_pytorch_model-0000(…):  44%|####3     | 4.32G/9.89G [00:13<00:13, 398MB/s]transformer/diffusion_pytorch_model-0000(…):  44%|####3     | 4.32G/9.89G [00:13<00:13, 398MB/s]transformer/diffusion_pytorch_model-0000(…):  45%|####4     | 4.43G/9.89G [00:14<00:12, 423MB/s]transformer/diffusion_pytorch_model-0000(…):  45%|####4     | 4.43G/9.89G [00:14<00:12, 423MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####6     | 4.58G/9.89G [00:14<00:13, 381MB/s]transformer/diffusion_pytorch_model-0000(…):  46%|####6     | 4.58G/9.89G [00:14<00:13, 381MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.67G/9.89G [00:14<00:13, 392MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.67G/9.89G [00:14<00:13, 392MB/s]transformer/diffusion_pytorch_model-0000(…):  48%|####8     | 4.78G/9.89G [00:15<00:13, 369MB/s]transformer/diffusion_pytorch_model-0000(…):  48%|####8     | 4.78G/9.89G [00:15<00:13, 369MB/s]transformer/diffusion_pytorch_model-0000(…):  49%|####8     | 4.84G/9.89G [00:15<00:14, 352MB/s]transformer/diffusion_pytorch_model-0000(…):  49%|####8     | 4.84G/9.89G [00:15<00:14, 352MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.94G/9.89G [00:15<00:14, 344MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.94G/9.89G [00:15<00:14, 344MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####     | 5.00G/9.89G [00:15<00:16, 305MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####     | 5.00G/9.89G [00:15<00:16, 305MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####1    | 5.08G/9.89G [00:16<00:16, 288MB/s]transformer/diffusion_pytorch_model-0000(…):  51%|#####1    | 5.08G/9.89G [00:16<00:16, 288MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####2    | 5.18G/9.89G [00:16<00:14, 326MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####2    | 5.18G/9.89G [00:16<00:14, 326MB/s]transformer/diffusion_pytorch_model-0000(…):  53%|#####3    | 5.27G/9.89G [00:16<00:16, 285MB/s]transformer/diffusion_pytorch_model-0000(…):  53%|#####3    | 5.27G/9.89G [00:16<00:16, 285MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####3    | 5.32G/9.89G [00:17<00:14, 309MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####3    | 5.32G/9.89G [00:17<00:14, 309MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####4    | 5.39G/9.89G [00:17<00:12, 357MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####4    | 5.39G/9.89G [00:17<00:12, 357MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 5.44G/9.89G [00:17<00:12, 357MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 5.44G/9.89G [00:17<00:12, 357MB/s]transformer/diffusion_pytorch_model-0000(…):  56%|#####6    | 5.55G/9.89G [00:17<00:09, 479MB/s]transformer/diffusion_pytorch_model-0000(…):  56%|#####6    | 5.55G/9.89G [00:17<00:09, 479MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####7    | 5.68G/9.89G [00:17<00:11, 370MB/s]transformer/diffusion_pytorch_model-0000(…):  57%|#####7    | 5.68G/9.89G [00:17<00:11, 370MB/s]transformer/diffusion_pytorch_model-0000(…):  59%|#####8    | 5.81G/9.89G [00:17<00:08, 502MB/s]transformer/diffusion_pytorch_model-0000(…):  59%|#####8    | 5.81G/9.89G [00:17<00:08, 502MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.89G/9.89G [00:18<00:07, 500MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.89G/9.89G [00:18<00:07, 500MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######    | 6.01G/9.89G [00:18<00:07, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######    | 6.01G/9.89G [00:18<00:07, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 6.12G/9.89G [00:18<00:07, 488MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 6.12G/9.89G [00:18<00:07, 488MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######2   | 6.17G/9.89G [00:18<00:08, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######2   | 6.17G/9.89G [00:18<00:08, 419MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######3   | 6.28G/9.89G [00:18<00:07, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######3   | 6.28G/9.89G [00:18<00:07, 483MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######4   | 6.42G/9.89G [00:19<00:05, 614MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######4   | 6.42G/9.89G [00:19<00:05, 614MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 6.50G/9.89G [00:19<00:07, 425MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 6.50G/9.89G [00:19<00:07, 425MB/s]transformer/diffusion_pytorch_model-0000(…):  67%|######7   | 6.66G/9.89G [00:19<00:05, 589MB/s]transformer/diffusion_pytorch_model-0000(…):  67%|######7   | 6.66G/9.89G [00:19<00:05, 589MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 6.78G/9.89G [00:19<00:05, 587MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 6.78G/9.89G [00:19<00:05, 587MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.87G/9.89G [00:20<00:06, 477MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.87G/9.89G [00:20<00:06, 477MB/s]transformer/diffusion_pytorch_model-0000(…):  70%|#######   | 6.95G/9.89G [00:20<00:08, 342MB/s]transformer/diffusion_pytorch_model-0000(…):  70%|#######   | 6.95G/9.89G [00:20<00:08, 342MB/s]transformer/diffusion_pytorch_model-0000(…):  71%|#######   | 7.02G/9.89G [00:20<00:10, 265MB/s]transformer/diffusion_pytorch_model-0000(…):  71%|#######   | 7.02G/9.89G [00:20<00:10, 265MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 7.10G/9.89G [00:21<00:10, 269MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 7.10G/9.89G [00:21<00:10, 269MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######2  | 7.14G/9.89G [00:21<00:09, 289MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######2  | 7.14G/9.89G [00:21<00:09, 289MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######4  | 7.33G/9.89G [00:21<00:06, 412MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######4  | 7.33G/9.89G [00:21<00:06, 412MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######4  | 7.40G/9.89G [00:21<00:05, 427MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######4  | 7.40G/9.89G [00:21<00:05, 427MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######5  | 7.48G/9.89G [00:21<00:05, 443MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######5  | 7.48G/9.89G [00:21<00:05, 443MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######6  | 7.54G/9.89G [00:22<00:05, 429MB/s]transformer/diffusion_pytorch_model-0000(…):  76%|#######6  | 7.54G/9.89G [00:22<00:05, 429MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######7  | 7.62G/9.89G [00:22<00:06, 378MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######7  | 7.62G/9.89G [00:22<00:06, 378MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######7  | 7.69G/9.89G [00:22<00:06, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######7  | 7.69G/9.89G [00:22<00:06, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 7.74G/9.89G [00:22<00:05, 364MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 7.74G/9.89G [00:22<00:05, 364MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######8  | 7.79G/9.89G [00:22<00:05, 380MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######8  | 7.79G/9.89G [00:22<00:05, 380MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|#######9  | 7.89G/9.89G [00:23<00:05, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|#######9  | 7.89G/9.89G [00:23<00:05, 383MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|########  | 7.95G/9.89G [00:23<00:04, 407MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|########  | 7.95G/9.89G [00:23<00:04, 407MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########2 | 8.14G/9.89G [00:23<00:02, 678MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########2 | 8.14G/9.89G [00:23<00:02, 678MB/s]transformer/diffusion_pytorch_model-0000(…):  83%|########3 | 8.23G/9.89G [00:23<00:02, 600MB/s]transformer/diffusion_pytorch_model-0000(…):  83%|########3 | 8.23G/9.89G [00:23<00:02, 600MB/s]transformer/diffusion_pytorch_model-0000(…):  84%|########3 | 8.31G/9.89G [00:23<00:02, 597MB/s]transformer/diffusion_pytorch_model-0000(…):  84%|########3 | 8.31G/9.89G [00:23<00:02, 597MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 8.41G/9.89G [00:23<00:02, 551MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 8.41G/9.89G [00:23<00:02, 551MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########5 | 8.50G/9.89G [00:24<00:02, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########5 | 8.50G/9.89G [00:24<00:02, 533MB/s]transformer/diffusion_pytorch_model-0000(…):  87%|########7 | 8.64G/9.89G [00:24<00:01, 689MB/s]transformer/diffusion_pytorch_model-0000(…):  87%|########7 | 8.64G/9.89G [00:24<00:01, 689MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 8.78G/9.89G [00:24<00:01, 822MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 8.78G/9.89G [00:24<00:01, 822MB/s]transformer/diffusion_pytorch_model-0000(…):  90%|########9 | 8.90G/9.89G [00:24<00:01, 877MB/s]transformer/diffusion_pytorch_model-0000(…):  90%|########9 | 8.90G/9.89G [00:24<00:01, 877MB/s]transformer/diffusion_pytorch_model-0000(…):  92%|#########1| 9.06G/9.89G [00:24<00:01, 820MB/s]transformer/diffusion_pytorch_model-0000(…):  92%|#########1| 9.06G/9.89G [00:24<00:01, 820MB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########4| 9.31G/9.89G [00:24<00:00, 901MB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########4| 9.31G/9.89G [00:24<00:00, 901MB/s]transformer/diffusion_pytorch_model-0000(…):  96%|#########5| 9.49G/9.89G [00:24<00:00, 988MB/s]transformer/diffusion_pytorch_model-0000(…):  96%|#########5| 9.49G/9.89G [00:24<00:00, 988MB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########7| 9.61G/9.89G [00:25<00:00, 879MB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########7| 9.61G/9.89G [00:25<00:00, 879MB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 9.82G/9.89G [00:25<00:00, 1.05GB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 9.82G/9.89G [00:25<00:00, 1.05GB/s]transformer/diffusion_pytorch_model-0000(…): 100%|##########| 9.89G/9.89G [00:25<00:00, 387MB/s] transformer/diffusion_pytorch_model-0000(…): 100%|##########| 9.89G/9.89G [00:25<00:00, 387MB/s] 
+
+transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/8.72G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 0.00/8.72G [00:00<?, ?B/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 2.07M/8.72G [00:01<1:52:06, 1.30MB/s]transformer/diffusion_pytorch_model-0000(…):   0%|          | 2.07M/8.72G [00:01<1:52:06, 1.30MB/s]transformer/diffusion_pytorch_model-0000(…):   1%|1         | 102M/8.72G [00:02<02:30, 57.4MB/s]   transformer/diffusion_pytorch_model-0000(…):   1%|1         | 102M/8.72G [00:02<02:30, 57.4MB/s]   transformer/diffusion_pytorch_model-0000(…):   2%|2         | 175M/8.72G [00:02<01:48, 78.9MB/s]transformer/diffusion_pytorch_model-0000(…):   2%|2         | 175M/8.72G [00:02<01:48, 78.9MB/s]transformer/diffusion_pytorch_model-0000(…):   3%|2         | 225M/8.72G [00:02<01:18, 108MB/s] transformer/diffusion_pytorch_model-0000(…):   3%|2         | 225M/8.72G [00:02<01:18, 108MB/s] transformer/diffusion_pytorch_model-0000(…):   3%|2         | 256M/8.72G [00:03<01:08, 124MB/s]transformer/diffusion_pytorch_model-0000(…):   3%|2         | 256M/8.72G [00:03<01:08, 124MB/s]transformer/diffusion_pytorch_model-0000(…):   3%|3         | 285M/8.72G [00:04<02:35, 54.2MB/s]transformer/diffusion_pytorch_model-0000(…):   3%|3         | 285M/8.72G [00:04<02:35, 54.2MB/s]transformer/diffusion_pytorch_model-0000(…):   9%|9         | 818M/8.72G [00:04<00:22, 345MB/s] transformer/diffusion_pytorch_model-0000(…):   9%|9         | 818M/8.72G [00:04<00:22, 345MB/s] transformer/diffusion_pytorch_model-0000(…):  11%|#         | 926M/8.72G [00:05<00:21, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  11%|#         | 926M/8.72G [00:05<00:21, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.03G/8.72G [00:05<00:19, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  12%|#1        | 1.03G/8.72G [00:05<00:19, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  13%|#3        | 1.15G/8.72G [00:05<00:18, 410MB/s]transformer/diffusion_pytorch_model-0000(…):  13%|#3        | 1.15G/8.72G [00:05<00:18, 410MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.26G/8.72G [00:05<00:15, 468MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#4        | 1.26G/8.72G [00:05<00:15, 468MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#5        | 1.35G/8.72G [00:06<00:19, 374MB/s]transformer/diffusion_pytorch_model-0000(…):  15%|#5        | 1.35G/8.72G [00:06<00:19, 374MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#6        | 1.45G/8.72G [00:06<00:17, 425MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#6        | 1.45G/8.72G [00:06<00:17, 425MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.51G/8.72G [00:06<00:22, 314MB/s]transformer/diffusion_pytorch_model-0000(…):  17%|#7        | 1.51G/8.72G [00:06<00:22, 314MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#7        | 1.57G/8.72G [00:06<00:22, 324MB/s]transformer/diffusion_pytorch_model-0000(…):  18%|#7        | 1.57G/8.72G [00:06<00:22, 324MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|#9        | 1.71G/8.72G [00:06<00:17, 397MB/s]transformer/diffusion_pytorch_model-0000(…):  20%|#9        | 1.71G/8.72G [00:06<00:17, 397MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##        | 1.80G/8.72G [00:07<00:23, 291MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##        | 1.80G/8.72G [00:07<00:23, 291MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##1       | 1.87G/8.72G [00:07<00:20, 337MB/s]transformer/diffusion_pytorch_model-0000(…):  21%|##1       | 1.87G/8.72G [00:07<00:20, 337MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##2       | 1.93G/8.72G [00:07<00:21, 322MB/s]transformer/diffusion_pytorch_model-0000(…):  22%|##2       | 1.93G/8.72G [00:07<00:21, 322MB/s]transformer/diffusion_pytorch_model-0000(…):  24%|##3       | 2.08G/8.72G [00:07<00:14, 443MB/s]transformer/diffusion_pytorch_model-0000(…):  24%|##3       | 2.08G/8.72G [00:07<00:14, 443MB/s]transformer/diffusion_pytorch_model-0000(…):  25%|##4       | 2.16G/8.72G [00:08<00:21, 309MB/s]transformer/diffusion_pytorch_model-0000(…):  25%|##4       | 2.16G/8.72G [00:08<00:21, 309MB/s]transformer/diffusion_pytorch_model-0000(…):  26%|##5       | 2.24G/8.72G [00:08<00:17, 366MB/s]transformer/diffusion_pytorch_model-0000(…):  26%|##5       | 2.24G/8.72G [00:08<00:17, 366MB/s]transformer/diffusion_pytorch_model-0000(…):  26%|##6       | 2.31G/8.72G [00:08<00:17, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  26%|##6       | 2.31G/8.72G [00:08<00:17, 360MB/s]transformer/diffusion_pytorch_model-0000(…):  27%|##7       | 2.36G/8.72G [00:11<01:14, 85.8MB/s]transformer/diffusion_pytorch_model-0000(…):  27%|##7       | 2.36G/8.72G [00:11<01:14, 85.8MB/s]transformer/diffusion_pytorch_model-0000(…):  41%|####      | 3.56G/8.72G [00:11<00:08, 635MB/s] transformer/diffusion_pytorch_model-0000(…):  41%|####      | 3.56G/8.72G [00:11<00:08, 635MB/s] transformer/diffusion_pytorch_model-0000(…):  44%|####4     | 3.87G/8.72G [00:11<00:08, 574MB/s]transformer/diffusion_pytorch_model-0000(…):  44%|####4     | 3.87G/8.72G [00:11<00:08, 574MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.12G/8.72G [00:12<00:07, 655MB/s]transformer/diffusion_pytorch_model-0000(…):  47%|####7     | 4.12G/8.72G [00:12<00:07, 655MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.35G/8.72G [00:13<00:10, 411MB/s]transformer/diffusion_pytorch_model-0000(…):  50%|####9     | 4.35G/8.72G [00:13<00:10, 411MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####1    | 4.52G/8.72G [00:13<00:10, 407MB/s]transformer/diffusion_pytorch_model-0000(…):  52%|#####1    | 4.52G/8.72G [00:13<00:10, 407MB/s]transformer/diffusion_pytorch_model-0000(…):  53%|#####3    | 4.64G/8.72G [00:14<00:09, 411MB/s]transformer/diffusion_pytorch_model-0000(…):  53%|#####3    | 4.64G/8.72G [00:14<00:09, 411MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####4    | 4.74G/8.72G [00:14<00:09, 403MB/s]transformer/diffusion_pytorch_model-0000(…):  54%|#####4    | 4.74G/8.72G [00:14<00:09, 403MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 4.83G/8.72G [00:14<00:09, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  55%|#####5    | 4.83G/8.72G [00:14<00:09, 405MB/s]transformer/diffusion_pytorch_model-0000(…):  56%|#####6    | 4.90G/8.72G [00:14<00:10, 371MB/s]transformer/diffusion_pytorch_model-0000(…):  56%|#####6    | 4.90G/8.72G [00:14<00:10, 371MB/s]transformer/diffusion_pytorch_model-0000(…):  58%|#####7    | 5.03G/8.72G [00:15<00:08, 460MB/s]transformer/diffusion_pytorch_model-0000(…):  58%|#####7    | 5.03G/8.72G [00:15<00:08, 460MB/s]transformer/diffusion_pytorch_model-0000(…):  59%|#####8    | 5.12G/8.72G [00:15<00:13, 262MB/s]transformer/diffusion_pytorch_model-0000(…):  59%|#####8    | 5.12G/8.72G [00:15<00:13, 262MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.19G/8.72G [00:16<00:12, 285MB/s]transformer/diffusion_pytorch_model-0000(…):  60%|#####9    | 5.19G/8.72G [00:16<00:12, 285MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######1   | 5.34G/8.72G [00:16<00:09, 349MB/s]transformer/diffusion_pytorch_model-0000(…):  61%|######1   | 5.34G/8.72G [00:16<00:09, 349MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 5.40G/8.72G [00:16<00:09, 347MB/s]transformer/diffusion_pytorch_model-0000(…):  62%|######1   | 5.40G/8.72G [00:16<00:09, 347MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######2   | 5.47G/8.72G [00:16<00:08, 381MB/s]transformer/diffusion_pytorch_model-0000(…):  63%|######2   | 5.47G/8.72G [00:16<00:08, 381MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######3   | 5.57G/8.72G [00:16<00:06, 450MB/s]transformer/diffusion_pytorch_model-0000(…):  64%|######3   | 5.57G/8.72G [00:16<00:06, 450MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######5   | 5.67G/8.72G [00:16<00:06, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  65%|######5   | 5.67G/8.72G [00:16<00:06, 458MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 5.73G/8.72G [00:17<00:07, 379MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######5   | 5.73G/8.72G [00:17<00:07, 379MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######6   | 5.79G/8.72G [00:17<00:07, 412MB/s]transformer/diffusion_pytorch_model-0000(…):  66%|######6   | 5.79G/8.72G [00:17<00:07, 412MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######7   | 5.91G/8.72G [00:17<00:05, 508MB/s]transformer/diffusion_pytorch_model-0000(…):  68%|######7   | 5.91G/8.72G [00:17<00:05, 508MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 5.99G/8.72G [00:17<00:08, 332MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######8   | 5.99G/8.72G [00:17<00:08, 332MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.05G/8.72G [00:18<00:09, 286MB/s]transformer/diffusion_pytorch_model-0000(…):  69%|######9   | 6.05G/8.72G [00:18<00:09, 286MB/s]transformer/diffusion_pytorch_model-0000(…):  71%|#######   | 6.15G/8.72G [00:18<00:07, 346MB/s]transformer/diffusion_pytorch_model-0000(…):  71%|#######   | 6.15G/8.72G [00:18<00:07, 346MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 6.25G/8.72G [00:18<00:06, 376MB/s]transformer/diffusion_pytorch_model-0000(…):  72%|#######1  | 6.25G/8.72G [00:18<00:06, 376MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######4  | 6.46G/8.72G [00:18<00:03, 591MB/s]transformer/diffusion_pytorch_model-0000(…):  74%|#######4  | 6.46G/8.72G [00:18<00:03, 591MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######5  | 6.56G/8.72G [00:19<00:04, 468MB/s]transformer/diffusion_pytorch_model-0000(…):  75%|#######5  | 6.56G/8.72G [00:19<00:04, 468MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######6  | 6.67G/8.72G [00:19<00:06, 315MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######6  | 6.67G/8.72G [00:19<00:06, 315MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######7  | 6.75G/8.72G [00:19<00:05, 349MB/s]transformer/diffusion_pytorch_model-0000(…):  77%|#######7  | 6.75G/8.72G [00:19<00:05, 349MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 6.81G/8.72G [00:20<00:05, 380MB/s]transformer/diffusion_pytorch_model-0000(…):  78%|#######8  | 6.81G/8.72G [00:20<00:05, 380MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######9  | 6.89G/8.72G [00:20<00:04, 415MB/s]transformer/diffusion_pytorch_model-0000(…):  79%|#######9  | 6.89G/8.72G [00:20<00:04, 415MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|#######9  | 6.97G/8.72G [00:20<00:04, 371MB/s]transformer/diffusion_pytorch_model-0000(…):  80%|#######9  | 6.97G/8.72G [00:20<00:04, 371MB/s]transformer/diffusion_pytorch_model-0000(…):  81%|########1 | 7.07G/8.72G [00:20<00:04, 386MB/s]transformer/diffusion_pytorch_model-0000(…):  81%|########1 | 7.07G/8.72G [00:20<00:04, 386MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########1 | 7.14G/8.72G [00:20<00:03, 410MB/s]transformer/diffusion_pytorch_model-0000(…):  82%|########1 | 7.14G/8.72G [00:20<00:03, 410MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 7.37G/8.72G [00:20<00:01, 710MB/s]transformer/diffusion_pytorch_model-0000(…):  85%|########4 | 7.37G/8.72G [00:20<00:01, 710MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########5 | 7.50G/8.72G [00:21<00:01, 790MB/s]transformer/diffusion_pytorch_model-0000(…):  86%|########5 | 7.50G/8.72G [00:21<00:01, 790MB/s]transformer/diffusion_pytorch_model-0000(…):  87%|########7 | 7.61G/8.72G [00:21<00:01, 693MB/s]transformer/diffusion_pytorch_model-0000(…):  87%|########7 | 7.61G/8.72G [00:21<00:01, 693MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 7.74G/8.72G [00:21<00:01, 801MB/s]transformer/diffusion_pytorch_model-0000(…):  89%|########8 | 7.74G/8.72G [00:21<00:01, 801MB/s]transformer/diffusion_pytorch_model-0000(…):  91%|######### | 7.89G/8.72G [00:21<00:00, 911MB/s]transformer/diffusion_pytorch_model-0000(…):  91%|######### | 7.89G/8.72G [00:21<00:00, 911MB/s]transformer/diffusion_pytorch_model-0000(…):  92%|#########2| 8.05G/8.72G [00:21<00:00, 864MB/s]transformer/diffusion_pytorch_model-0000(…):  92%|#########2| 8.05G/8.72G [00:21<00:00, 864MB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########3| 8.17G/8.72G [00:21<00:00, 846MB/s]transformer/diffusion_pytorch_model-0000(…):  94%|#########3| 8.17G/8.72G [00:21<00:00, 846MB/s]transformer/diffusion_pytorch_model-0000(…):  95%|#########5| 8.32G/8.72G [00:21<00:00, 945MB/s]transformer/diffusion_pytorch_model-0000(…):  95%|#########5| 8.32G/8.72G [00:21<00:00, 945MB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########6| 8.44G/8.72G [00:22<00:00, 972MB/s]transformer/diffusion_pytorch_model-0000(…):  97%|#########6| 8.44G/8.72G [00:22<00:00, 972MB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 8.67G/8.72G [00:22<00:00, 975MB/s]transformer/diffusion_pytorch_model-0000(…):  99%|#########9| 8.67G/8.72G [00:22<00:00, 975MB/s]transformer/diffusion_pytorch_model-0000(…): 100%|##########| 8.72G/8.72G [00:22<00:00, 390MB/s]transformer/diffusion_pytorch_model-0000(…): 100%|##########| 8.72G/8.72G [00:22<00:00, 390MB/s]
+
+Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.46it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.46it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.40it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.40it/s]
+
+Moving transformer 1 to CPU
+Loading transformer 2
+transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/9.97G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/9.97G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 31.1k/9.97G [00:01<138:25:15, 20.0kB/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 31.1k/9.97G [00:01<138:25:15, 20.0kB/s]transformer_2/diffusion_pytorch_model-00(…):   1%|          | 58.7M/9.97G [00:01<03:39, 45.1MB/s]    transformer_2/diffusion_pytorch_model-00(…):   1%|          | 58.7M/9.97G [00:01<03:39, 45.1MB/s]    transformer_2/diffusion_pytorch_model-00(…):   1%|          | 95.3M/9.97G [00:02<02:58, 55.3MB/s]transformer_2/diffusion_pytorch_model-00(…):   1%|          | 95.3M/9.97G [00:02<02:58, 55.3MB/s]transformer_2/diffusion_pytorch_model-00(…):   1%|1         | 138M/9.97G [00:02<02:08, 76.4MB/s] transformer_2/diffusion_pytorch_model-00(…):   1%|1         | 138M/9.97G [00:02<02:08, 76.4MB/s] transformer_2/diffusion_pytorch_model-00(…):   2%|1         | 171M/9.97G [00:03<03:09, 51.7MB/s]transformer_2/diffusion_pytorch_model-00(…):   2%|1         | 171M/9.97G [00:03<03:09, 51.7MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 368M/9.97G [00:03<00:56, 169MB/s] transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 368M/9.97G [00:03<00:56, 169MB/s] transformer_2/diffusion_pytorch_model-00(…):   4%|4         | 434M/9.97G [00:04<00:50, 189MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|4         | 434M/9.97G [00:04<00:50, 189MB/s]transformer_2/diffusion_pytorch_model-00(…):   5%|4         | 492M/9.97G [00:04<00:45, 208MB/s]transformer_2/diffusion_pytorch_model-00(…):   5%|4         | 492M/9.97G [00:04<00:45, 208MB/s]transformer_2/diffusion_pytorch_model-00(…):   6%|5         | 598M/9.97G [00:04<00:31, 298MB/s]transformer_2/diffusion_pytorch_model-00(…):   6%|5         | 598M/9.97G [00:04<00:31, 298MB/s]transformer_2/diffusion_pytorch_model-00(…):   7%|6         | 677M/9.97G [00:04<00:34, 271MB/s]transformer_2/diffusion_pytorch_model-00(…):   7%|6         | 677M/9.97G [00:04<00:34, 271MB/s]transformer_2/diffusion_pytorch_model-00(…):   9%|8         | 859M/9.97G [00:04<00:19, 457MB/s]transformer_2/diffusion_pytorch_model-00(…):   9%|8         | 859M/9.97G [00:04<00:19, 457MB/s]transformer_2/diffusion_pytorch_model-00(…):   9%|9         | 947M/9.97G [00:05<00:24, 372MB/s]transformer_2/diffusion_pytorch_model-00(…):   9%|9         | 947M/9.97G [00:05<00:24, 372MB/s]transformer_2/diffusion_pytorch_model-00(…):  10%|#         | 1.04G/9.97G [00:05<00:24, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  10%|#         | 1.04G/9.97G [00:05<00:24, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  11%|#1        | 1.13G/9.97G [00:05<00:22, 389MB/s]transformer_2/diffusion_pytorch_model-00(…):  11%|#1        | 1.13G/9.97G [00:05<00:22, 389MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#1        | 1.19G/9.97G [00:05<00:21, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#1        | 1.19G/9.97G [00:05<00:21, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#2        | 1.24G/9.97G [00:06<00:24, 360MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#2        | 1.24G/9.97G [00:06<00:24, 360MB/s]transformer_2/diffusion_pytorch_model-00(…):  13%|#3        | 1.31G/9.97G [00:06<00:26, 330MB/s]transformer_2/diffusion_pytorch_model-00(…):  13%|#3        | 1.31G/9.97G [00:06<00:26, 330MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#3        | 1.36G/9.97G [00:06<00:28, 305MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#3        | 1.36G/9.97G [00:06<00:28, 305MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.40G/9.97G [00:06<00:30, 278MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.40G/9.97G [00:06<00:30, 278MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#4        | 1.48G/9.97G [00:06<00:24, 347MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#4        | 1.48G/9.97G [00:06<00:24, 347MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.52G/9.97G [00:07<00:35, 237MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.52G/9.97G [00:07<00:35, 237MB/s]transformer_2/diffusion_pytorch_model-00(…):  17%|#6        | 1.67G/9.97G [00:07<00:22, 373MB/s]transformer_2/diffusion_pytorch_model-00(…):  17%|#6        | 1.67G/9.97G [00:07<00:22, 373MB/s]transformer_2/diffusion_pytorch_model-00(…):  17%|#7        | 1.74G/9.97G [00:07<00:20, 403MB/s]transformer_2/diffusion_pytorch_model-00(…):  17%|#7        | 1.74G/9.97G [00:07<00:20, 403MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.83G/9.97G [00:07<00:20, 404MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.83G/9.97G [00:07<00:20, 404MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#8        | 1.87G/9.97G [00:07<00:24, 333MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#8        | 1.87G/9.97G [00:07<00:24, 333MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.91G/9.97G [00:08<00:29, 274MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.91G/9.97G [00:08<00:29, 274MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|#9        | 1.98G/9.97G [00:08<00:24, 324MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|#9        | 1.98G/9.97G [00:08<00:24, 324MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##1       | 2.12G/9.97G [00:08<00:15, 501MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##1       | 2.12G/9.97G [00:08<00:15, 501MB/s]transformer_2/diffusion_pytorch_model-00(…):  22%|##2       | 2.22G/9.97G [00:10<01:03, 122MB/s]transformer_2/diffusion_pytorch_model-00(…):  22%|##2       | 2.22G/9.97G [00:10<01:03, 122MB/s]transformer_2/diffusion_pytorch_model-00(…):  33%|###3      | 3.34G/9.97G [00:10<00:09, 713MB/s]transformer_2/diffusion_pytorch_model-00(…):  33%|###3      | 3.34G/9.97G [00:10<00:09, 713MB/s]transformer_2/diffusion_pytorch_model-00(…):  36%|###6      | 3.61G/9.97G [00:11<00:09, 685MB/s]transformer_2/diffusion_pytorch_model-00(…):  36%|###6      | 3.61G/9.97G [00:11<00:09, 685MB/s]transformer_2/diffusion_pytorch_model-00(…):  38%|###8      | 3.82G/9.97G [00:11<00:12, 504MB/s]transformer_2/diffusion_pytorch_model-00(…):  38%|###8      | 3.82G/9.97G [00:11<00:12, 504MB/s]transformer_2/diffusion_pytorch_model-00(…):  40%|###9      | 3.96G/9.97G [00:12<00:13, 431MB/s]transformer_2/diffusion_pytorch_model-00(…):  40%|###9      | 3.96G/9.97G [00:12<00:13, 431MB/s]transformer_2/diffusion_pytorch_model-00(…):  41%|####      | 4.07G/9.97G [00:12<00:12, 466MB/s]transformer_2/diffusion_pytorch_model-00(…):  41%|####      | 4.07G/9.97G [00:12<00:12, 466MB/s]transformer_2/diffusion_pytorch_model-00(…):  42%|####1     | 4.18G/9.97G [00:13<00:17, 335MB/s]transformer_2/diffusion_pytorch_model-00(…):  42%|####1     | 4.18G/9.97G [00:13<00:17, 335MB/s]transformer_2/diffusion_pytorch_model-00(…):  43%|####3     | 4.31G/9.97G [00:13<00:15, 373MB/s]transformer_2/diffusion_pytorch_model-00(…):  43%|####3     | 4.31G/9.97G [00:13<00:15, 373MB/s]transformer_2/diffusion_pytorch_model-00(…):  45%|####4     | 4.47G/9.97G [00:14<00:14, 381MB/s]transformer_2/diffusion_pytorch_model-00(…):  45%|####4     | 4.47G/9.97G [00:14<00:14, 381MB/s]transformer_2/diffusion_pytorch_model-00(…):  46%|####5     | 4.58G/9.97G [00:14<00:16, 328MB/s]transformer_2/diffusion_pytorch_model-00(…):  46%|####5     | 4.58G/9.97G [00:14<00:16, 328MB/s]transformer_2/diffusion_pytorch_model-00(…):  47%|####6     | 4.64G/9.97G [00:14<00:17, 306MB/s]transformer_2/diffusion_pytorch_model-00(…):  47%|####6     | 4.64G/9.97G [00:14<00:17, 306MB/s]transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.77G/9.97G [00:15<00:14, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.77G/9.97G [00:15<00:14, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  49%|####8     | 4.84G/9.97G [00:15<00:12, 395MB/s]transformer_2/diffusion_pytorch_model-00(…):  49%|####8     | 4.84G/9.97G [00:15<00:12, 395MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|####9     | 4.95G/9.97G [00:15<00:12, 414MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|####9     | 4.95G/9.97G [00:15<00:12, 414MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|#####     | 5.01G/9.97G [00:15<00:18, 262MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|#####     | 5.01G/9.97G [00:15<00:18, 262MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####     | 5.06G/9.97G [00:16<00:18, 272MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####     | 5.06G/9.97G [00:16<00:18, 272MB/s]transformer_2/diffusion_pytorch_model-00(…):  52%|#####1    | 5.14G/9.97G [00:16<00:20, 241MB/s]transformer_2/diffusion_pytorch_model-00(…):  52%|#####1    | 5.14G/9.97G [00:16<00:20, 241MB/s]transformer_2/diffusion_pytorch_model-00(…):  53%|#####2    | 5.26G/9.97G [00:16<00:15, 306MB/s]transformer_2/diffusion_pytorch_model-00(…):  53%|#####2    | 5.26G/9.97G [00:16<00:15, 306MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####3    | 5.37G/9.97G [00:16<00:11, 394MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####3    | 5.37G/9.97G [00:16<00:11, 394MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####4    | 5.44G/9.97G [00:17<00:14, 323MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####4    | 5.44G/9.97G [00:17<00:14, 323MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####5    | 5.51G/9.97G [00:17<00:15, 296MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####5    | 5.51G/9.97G [00:17<00:15, 296MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 5.55G/9.97G [00:17<00:16, 268MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 5.55G/9.97G [00:17<00:16, 268MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####7    | 5.72G/9.97G [00:17<00:09, 444MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####7    | 5.72G/9.97G [00:17<00:09, 444MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.82G/9.97G [00:17<00:08, 489MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.82G/9.97G [00:17<00:08, 489MB/s]transformer_2/diffusion_pytorch_model-00(…):  60%|######    | 6.00G/9.97G [00:18<00:06, 581MB/s]transformer_2/diffusion_pytorch_model-00(…):  60%|######    | 6.00G/9.97G [00:18<00:06, 581MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 6.07G/9.97G [00:18<00:09, 401MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 6.07G/9.97G [00:18<00:09, 401MB/s]transformer_2/diffusion_pytorch_model-00(…):  62%|######1   | 6.15G/9.97G [00:18<00:10, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  62%|######1   | 6.15G/9.97G [00:18<00:10, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######3   | 6.30G/9.97G [00:19<00:07, 505MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######3   | 6.30G/9.97G [00:19<00:07, 505MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######4   | 6.41G/9.97G [00:19<00:06, 538MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######4   | 6.41G/9.97G [00:19<00:06, 538MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######5   | 6.48G/9.97G [00:19<00:09, 386MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######5   | 6.48G/9.97G [00:19<00:09, 386MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######5   | 6.55G/9.97G [00:19<00:08, 414MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######5   | 6.55G/9.97G [00:19<00:08, 414MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 6.62G/9.97G [00:20<00:10, 320MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 6.62G/9.97G [00:20<00:10, 320MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######7   | 6.75G/9.97G [00:20<00:07, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######7   | 6.75G/9.97G [00:20<00:07, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######8   | 6.88G/9.97G [00:20<00:07, 421MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######8   | 6.88G/9.97G [00:20<00:07, 421MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.95G/9.97G [00:20<00:08, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.95G/9.97G [00:20<00:08, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######1  | 7.10G/9.97G [00:20<00:05, 514MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######1  | 7.10G/9.97G [00:20<00:05, 514MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 7.35G/9.97G [00:21<00:03, 811MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 7.35G/9.97G [00:21<00:03, 811MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 7.46G/9.97G [00:21<00:04, 572MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 7.46G/9.97G [00:21<00:04, 572MB/s]transformer_2/diffusion_pytorch_model-00(…):  76%|#######6  | 7.61G/9.97G [00:22<00:06, 345MB/s]transformer_2/diffusion_pytorch_model-00(…):  76%|#######6  | 7.61G/9.97G [00:22<00:06, 345MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######7  | 7.72G/9.97G [00:22<00:05, 377MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######7  | 7.72G/9.97G [00:22<00:05, 377MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######8  | 7.81G/9.97G [00:22<00:06, 326MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######8  | 7.81G/9.97G [00:22<00:06, 326MB/s]transformer_2/diffusion_pytorch_model-00(…):  79%|#######9  | 7.91G/9.97G [00:23<00:05, 389MB/s]transformer_2/diffusion_pytorch_model-00(…):  79%|#######9  | 7.91G/9.97G [00:23<00:05, 389MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|########  | 7.99G/9.97G [00:23<00:04, 437MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|########  | 7.99G/9.97G [00:23<00:04, 437MB/s]transformer_2/diffusion_pytorch_model-00(…):  81%|########  | 8.06G/9.97G [00:23<00:04, 384MB/s]transformer_2/diffusion_pytorch_model-00(…):  81%|########  | 8.06G/9.97G [00:23<00:04, 384MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########2 | 8.19G/9.97G [00:23<00:03, 485MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########2 | 8.19G/9.97G [00:23<00:03, 485MB/s]transformer_2/diffusion_pytorch_model-00(…):  83%|########2 | 8.27G/9.97G [00:23<00:03, 518MB/s]transformer_2/diffusion_pytorch_model-00(…):  83%|########2 | 8.27G/9.97G [00:23<00:03, 518MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########3 | 8.37G/9.97G [00:24<00:04, 346MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########3 | 8.37G/9.97G [00:24<00:04, 346MB/s]transformer_2/diffusion_pytorch_model-00(…):  85%|########4 | 8.44G/9.97G [00:24<00:04, 374MB/s]transformer_2/diffusion_pytorch_model-00(…):  85%|########4 | 8.44G/9.97G [00:24<00:04, 374MB/s]transformer_2/diffusion_pytorch_model-00(…):  87%|########6 | 8.65G/9.97G [00:24<00:02, 606MB/s]transformer_2/diffusion_pytorch_model-00(…):  87%|########6 | 8.65G/9.97G [00:24<00:02, 606MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########8 | 8.78G/9.97G [00:24<00:01, 694MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########8 | 8.78G/9.97G [00:24<00:01, 694MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 8.93G/9.97G [00:24<00:01, 721MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 8.93G/9.97G [00:24<00:01, 721MB/s]transformer_2/diffusion_pytorch_model-00(…):  93%|#########2| 9.23G/9.97G [00:25<00:01, 653MB/s]transformer_2/diffusion_pytorch_model-00(…):  93%|#########2| 9.23G/9.97G [00:25<00:01, 653MB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########3| 9.35G/9.97G [00:25<00:00, 717MB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########3| 9.35G/9.97G [00:25<00:00, 717MB/s]transformer_2/diffusion_pytorch_model-00(…):  96%|#########5| 9.57G/9.97G [00:25<00:00, 903MB/s]transformer_2/diffusion_pytorch_model-00(…):  96%|#########5| 9.57G/9.97G [00:25<00:00, 903MB/s]transformer_2/diffusion_pytorch_model-00(…):  99%|#########8| 9.86G/9.97G [00:25<00:00, 1.02GB/s]transformer_2/diffusion_pytorch_model-00(…):  99%|#########8| 9.86G/9.97G [00:25<00:00, 1.02GB/s]transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 9.97G/9.97G [00:25<00:00, 386MB/s] transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 9.97G/9.97G [00:25<00:00, 386MB/s] 
+
+transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/9.89G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/9.89G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 30.3k/9.89G [00:01<137:59:03, 19.9kB/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 30.3k/9.89G [00:01<137:59:03, 19.9kB/s]transformer_2/diffusion_pytorch_model-00(…):   1%|          | 55.8M/9.89G [00:01<03:36, 45.4MB/s]    transformer_2/diffusion_pytorch_model-00(…):   1%|          | 55.8M/9.89G [00:01<03:36, 45.4MB/s]    transformer_2/diffusion_pytorch_model-00(…):   1%|          | 87.8M/9.89G [00:02<02:52, 56.7MB/s]transformer_2/diffusion_pytorch_model-00(…):   1%|          | 87.8M/9.89G [00:02<02:52, 56.7MB/s]transformer_2/diffusion_pytorch_model-00(…):   2%|1         | 160M/9.89G [00:02<01:26, 113MB/s]  transformer_2/diffusion_pytorch_model-00(…):   2%|1         | 160M/9.89G [00:02<01:26, 113MB/s]  transformer_2/diffusion_pytorch_model-00(…):   2%|2         | 204M/9.89G [00:02<01:11, 136MB/s]transformer_2/diffusion_pytorch_model-00(…):   2%|2         | 204M/9.89G [00:02<01:11, 136MB/s]transformer_2/diffusion_pytorch_model-00(…):   3%|3         | 302M/9.89G [00:02<00:40, 238MB/s]transformer_2/diffusion_pytorch_model-00(…):   3%|3         | 302M/9.89G [00:02<00:40, 238MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 346M/9.89G [00:04<01:46, 89.4MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 346M/9.89G [00:04<01:46, 89.4MB/s]transformer_2/diffusion_pytorch_model-00(…):   8%|7         | 754M/9.89G [00:04<00:27, 338MB/s] transformer_2/diffusion_pytorch_model-00(…):   8%|7         | 754M/9.89G [00:04<00:27, 338MB/s] transformer_2/diffusion_pytorch_model-00(…):   9%|9         | 904M/9.89G [00:04<00:23, 382MB/s]transformer_2/diffusion_pytorch_model-00(…):   9%|9         | 904M/9.89G [00:04<00:23, 382MB/s]transformer_2/diffusion_pytorch_model-00(…):  10%|9         | 988M/9.89G [00:04<00:26, 331MB/s]transformer_2/diffusion_pytorch_model-00(…):  10%|9         | 988M/9.89G [00:04<00:26, 331MB/s]transformer_2/diffusion_pytorch_model-00(…):  11%|#1        | 1.11G/9.89G [00:05<00:37, 235MB/s]transformer_2/diffusion_pytorch_model-00(…):  11%|#1        | 1.11G/9.89G [00:05<00:37, 235MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#2        | 1.22G/9.89G [00:05<00:30, 287MB/s]transformer_2/diffusion_pytorch_model-00(…):  12%|#2        | 1.22G/9.89G [00:05<00:30, 287MB/s]transformer_2/diffusion_pytorch_model-00(…):  13%|#3        | 1.33G/9.89G [00:06<00:29, 294MB/s]transformer_2/diffusion_pytorch_model-00(…):  13%|#3        | 1.33G/9.89G [00:06<00:29, 294MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.41G/9.89G [00:06<00:27, 305MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.41G/9.89G [00:06<00:27, 305MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.49G/9.89G [00:06<00:26, 315MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.49G/9.89G [00:06<00:26, 315MB/s]transformer_2/diffusion_pytorch_model-00(…):  16%|#5        | 1.55G/9.89G [00:07<00:32, 255MB/s]transformer_2/diffusion_pytorch_model-00(…):  16%|#5        | 1.55G/9.89G [00:07<00:32, 255MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.80G/9.89G [00:07<00:16, 501MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.80G/9.89G [00:07<00:16, 501MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.92G/9.89G [00:07<00:21, 378MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.92G/9.89G [00:07<00:21, 378MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|##        | 2.00G/9.89G [00:07<00:19, 399MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|##        | 2.00G/9.89G [00:07<00:19, 399MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##        | 2.08G/9.89G [00:08<00:23, 338MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##        | 2.08G/9.89G [00:08<00:23, 338MB/s]transformer_2/diffusion_pytorch_model-00(…):  22%|##1       | 2.16G/9.89G [00:08<00:20, 379MB/s]transformer_2/diffusion_pytorch_model-00(…):  22%|##1       | 2.16G/9.89G [00:08<00:20, 379MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##3       | 2.28G/9.89G [00:08<00:17, 426MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##3       | 2.28G/9.89G [00:08<00:17, 426MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##3       | 2.36G/9.89G [00:08<00:18, 408MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##3       | 2.36G/9.89G [00:08<00:18, 408MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##4       | 2.41G/9.89G [00:11<01:30, 82.6MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##4       | 2.41G/9.89G [00:11<01:30, 82.6MB/s]transformer_2/diffusion_pytorch_model-00(…):  43%|####3     | 4.29G/9.89G [00:11<00:06, 838MB/s] transformer_2/diffusion_pytorch_model-00(…):  43%|####3     | 4.29G/9.89G [00:11<00:06, 838MB/s] transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.73G/9.89G [00:14<00:10, 477MB/s]transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.73G/9.89G [00:14<00:10, 477MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####1    | 5.05G/9.89G [00:15<00:11, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####1    | 5.05G/9.89G [00:15<00:11, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####3    | 5.31G/9.89G [00:16<00:11, 383MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####3    | 5.31G/9.89G [00:16<00:11, 383MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 5.50G/9.89G [00:16<00:12, 362MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 5.50G/9.89G [00:16<00:12, 362MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####6    | 5.63G/9.89G [00:17<00:12, 331MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####6    | 5.63G/9.89G [00:17<00:12, 331MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.75G/9.89G [00:17<00:11, 366MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.75G/9.89G [00:17<00:11, 366MB/s]transformer_2/diffusion_pytorch_model-00(…):  59%|#####9    | 5.84G/9.89G [00:17<00:11, 352MB/s]transformer_2/diffusion_pytorch_model-00(…):  59%|#####9    | 5.84G/9.89G [00:17<00:11, 352MB/s]transformer_2/diffusion_pytorch_model-00(…):  60%|#####9    | 5.93G/9.89G [00:18<00:11, 332MB/s]transformer_2/diffusion_pytorch_model-00(…):  60%|#####9    | 5.93G/9.89G [00:18<00:11, 332MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 6.00G/9.89G [00:18<00:12, 301MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 6.00G/9.89G [00:18<00:12, 301MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######1   | 6.07G/9.89G [00:18<00:11, 335MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######1   | 6.07G/9.89G [00:18<00:11, 335MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######2   | 6.22G/9.89G [00:18<00:09, 395MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######2   | 6.22G/9.89G [00:18<00:09, 395MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######3   | 6.29G/9.89G [00:18<00:08, 412MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######3   | 6.29G/9.89G [00:18<00:08, 412MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######4   | 6.36G/9.89G [00:19<00:08, 439MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######4   | 6.36G/9.89G [00:19<00:08, 439MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######4   | 6.42G/9.89G [00:19<00:07, 447MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######4   | 6.42G/9.89G [00:19<00:07, 447MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######5   | 6.48G/9.89G [00:19<00:07, 448MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######5   | 6.48G/9.89G [00:19<00:07, 448MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 6.57G/9.89G [00:19<00:06, 485MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 6.57G/9.89G [00:19<00:06, 485MB/s]transformer_2/diffusion_pytorch_model-00(…):  67%|######7   | 6.66G/9.89G [00:19<00:06, 515MB/s]transformer_2/diffusion_pytorch_model-00(…):  67%|######7   | 6.66G/9.89G [00:19<00:06, 515MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######8   | 6.77G/9.89G [00:19<00:06, 484MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######8   | 6.77G/9.89G [00:19<00:06, 484MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######8   | 6.82G/9.89G [00:20<00:07, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######8   | 6.82G/9.89G [00:20<00:07, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.88G/9.89G [00:20<00:07, 415MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.88G/9.89G [00:20<00:07, 415MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|#######   | 6.96G/9.89G [00:20<00:06, 455MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|#######   | 6.96G/9.89G [00:20<00:06, 455MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######   | 7.01G/9.89G [00:20<00:06, 417MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######   | 7.01G/9.89G [00:20<00:06, 417MB/s]transformer_2/diffusion_pytorch_model-00(…):  72%|#######1  | 7.10G/9.89G [00:21<00:10, 273MB/s]transformer_2/diffusion_pytorch_model-00(…):  72%|#######1  | 7.10G/9.89G [00:21<00:10, 273MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 7.28G/9.89G [00:21<00:05, 476MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 7.28G/9.89G [00:21<00:05, 476MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 7.42G/9.89G [00:21<00:06, 397MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 7.42G/9.89G [00:21<00:06, 397MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######6  | 7.59G/9.89G [00:21<00:04, 557MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######6  | 7.59G/9.89G [00:21<00:04, 557MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######7  | 7.68G/9.89G [00:22<00:07, 301MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######7  | 7.68G/9.89G [00:22<00:07, 301MB/s]transformer_2/diffusion_pytorch_model-00(…):  79%|#######9  | 7.84G/9.89G [00:22<00:04, 428MB/s]transformer_2/diffusion_pytorch_model-00(…):  79%|#######9  | 7.84G/9.89G [00:22<00:04, 428MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|########  | 7.96G/9.89G [00:23<00:06, 321MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|########  | 7.96G/9.89G [00:23<00:06, 321MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########1 | 8.07G/9.89G [00:23<00:04, 392MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########1 | 8.07G/9.89G [00:23<00:04, 392MB/s]transformer_2/diffusion_pytorch_model-00(…):  83%|########2 | 8.16G/9.89G [00:23<00:04, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  83%|########2 | 8.16G/9.89G [00:23<00:04, 407MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########4 | 8.35G/9.89G [00:23<00:02, 595MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########4 | 8.35G/9.89G [00:23<00:02, 595MB/s]transformer_2/diffusion_pytorch_model-00(…):  86%|########5 | 8.49G/9.89G [00:23<00:02, 537MB/s]transformer_2/diffusion_pytorch_model-00(…):  86%|########5 | 8.49G/9.89G [00:23<00:02, 537MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########8 | 8.71G/9.89G [00:24<00:01, 679MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########8 | 8.71G/9.89G [00:24<00:01, 679MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 8.85G/9.89G [00:24<00:01, 746MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 8.85G/9.89G [00:24<00:01, 746MB/s]transformer_2/diffusion_pytorch_model-00(…):  91%|#########1| 9.02G/9.89G [00:24<00:01, 826MB/s]transformer_2/diffusion_pytorch_model-00(…):  91%|#########1| 9.02G/9.89G [00:24<00:01, 826MB/s]transformer_2/diffusion_pytorch_model-00(…):  92%|#########2| 9.12G/9.89G [00:24<00:00, 785MB/s]transformer_2/diffusion_pytorch_model-00(…):  92%|#########2| 9.12G/9.89G [00:24<00:00, 785MB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########3| 9.25G/9.89G [00:24<00:00, 832MB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########3| 9.25G/9.89G [00:24<00:00, 832MB/s]transformer_2/diffusion_pytorch_model-00(…):  95%|#########5| 9.43G/9.89G [00:24<00:00, 973MB/s]transformer_2/diffusion_pytorch_model-00(…):  95%|#########5| 9.43G/9.89G [00:24<00:00, 973MB/s]transformer_2/diffusion_pytorch_model-00(…):  98%|#########7| 9.65G/9.89G [00:25<00:00, 891MB/s]transformer_2/diffusion_pytorch_model-00(…):  98%|#########7| 9.65G/9.89G [00:25<00:00, 891MB/s]transformer_2/diffusion_pytorch_model-00(…):  99%|#########9| 9.82G/9.89G [00:25<00:00, 1.00GB/s]transformer_2/diffusion_pytorch_model-00(…):  99%|#########9| 9.82G/9.89G [00:25<00:00, 1.00GB/s]transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 9.89G/9.89G [00:25<00:00, 390MB/s] transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 9.89G/9.89G [00:25<00:00, 390MB/s] 
+
+transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/8.72G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 0.00/8.72G [00:00<?, ?B/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 11.1M/8.72G [00:02<26:32, 5.47MB/s]transformer_2/diffusion_pytorch_model-00(…):   0%|          | 11.1M/8.72G [00:02<26:32, 5.47MB/s]transformer_2/diffusion_pytorch_model-00(…):   2%|2         | 190M/8.72G [00:02<01:13, 116MB/s]  transformer_2/diffusion_pytorch_model-00(…):   2%|2         | 190M/8.72G [00:02<01:13, 116MB/s]  transformer_2/diffusion_pytorch_model-00(…):   3%|3         | 277M/8.72G [00:02<01:03, 133MB/s]transformer_2/diffusion_pytorch_model-00(…):   3%|3         | 277M/8.72G [00:02<01:03, 133MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 333M/8.72G [00:04<01:43, 81.2MB/s]transformer_2/diffusion_pytorch_model-00(…):   4%|3         | 333M/8.72G [00:04<01:43, 81.2MB/s]transformer_2/diffusion_pytorch_model-00(…):  10%|#         | 896M/8.72G [00:04<00:21, 369MB/s] transformer_2/diffusion_pytorch_model-00(…):  10%|#         | 896M/8.72G [00:04<00:21, 369MB/s] transformer_2/diffusion_pytorch_model-00(…):  13%|#2        | 1.09G/8.72G [00:04<00:20, 367MB/s]transformer_2/diffusion_pytorch_model-00(…):  13%|#2        | 1.09G/8.72G [00:04<00:20, 367MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.23G/8.72G [00:05<00:26, 279MB/s]transformer_2/diffusion_pytorch_model-00(…):  14%|#4        | 1.23G/8.72G [00:05<00:26, 279MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.35G/8.72G [00:06<00:29, 249MB/s]transformer_2/diffusion_pytorch_model-00(…):  15%|#5        | 1.35G/8.72G [00:06<00:29, 249MB/s]transformer_2/diffusion_pytorch_model-00(…):  16%|#6        | 1.43G/8.72G [00:06<00:27, 269MB/s]transformer_2/diffusion_pytorch_model-00(…):  16%|#6        | 1.43G/8.72G [00:06<00:27, 269MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.57G/8.72G [00:06<00:21, 334MB/s]transformer_2/diffusion_pytorch_model-00(…):  18%|#8        | 1.57G/8.72G [00:06<00:21, 334MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.67G/8.72G [00:06<00:17, 392MB/s]transformer_2/diffusion_pytorch_model-00(…):  19%|#9        | 1.67G/8.72G [00:06<00:17, 392MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|##        | 1.78G/8.72G [00:07<00:18, 371MB/s]transformer_2/diffusion_pytorch_model-00(…):  20%|##        | 1.78G/8.72G [00:07<00:18, 371MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##1       | 1.87G/8.72G [00:07<00:20, 336MB/s]transformer_2/diffusion_pytorch_model-00(…):  21%|##1       | 1.87G/8.72G [00:07<00:20, 336MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##2       | 1.96G/8.72G [00:07<00:18, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##2       | 1.96G/8.72G [00:07<00:18, 357MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##3       | 2.03G/8.72G [00:08<00:22, 304MB/s]transformer_2/diffusion_pytorch_model-00(…):  23%|##3       | 2.03G/8.72G [00:08<00:22, 304MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##3       | 2.09G/8.72G [00:08<00:21, 304MB/s]transformer_2/diffusion_pytorch_model-00(…):  24%|##3       | 2.09G/8.72G [00:08<00:21, 304MB/s]transformer_2/diffusion_pytorch_model-00(…):  25%|##4       | 2.17G/8.72G [00:08<00:20, 322MB/s]transformer_2/diffusion_pytorch_model-00(…):  25%|##4       | 2.17G/8.72G [00:08<00:20, 322MB/s]transformer_2/diffusion_pytorch_model-00(…):  26%|##5       | 2.24G/8.72G [00:10<00:59, 108MB/s]transformer_2/diffusion_pytorch_model-00(…):  26%|##5       | 2.24G/8.72G [00:10<00:59, 108MB/s]transformer_2/diffusion_pytorch_model-00(…):  38%|###8      | 3.34G/8.72G [00:10<00:07, 708MB/s]transformer_2/diffusion_pytorch_model-00(…):  38%|###8      | 3.34G/8.72G [00:10<00:07, 708MB/s]transformer_2/diffusion_pytorch_model-00(…):  41%|####1     | 3.61G/8.72G [00:11<00:08, 635MB/s]transformer_2/diffusion_pytorch_model-00(…):  41%|####1     | 3.61G/8.72G [00:11<00:08, 635MB/s]transformer_2/diffusion_pytorch_model-00(…):  44%|####4     | 3.84G/8.72G [00:12<00:11, 441MB/s]transformer_2/diffusion_pytorch_model-00(…):  44%|####4     | 3.84G/8.72G [00:12<00:11, 441MB/s]transformer_2/diffusion_pytorch_model-00(…):  46%|####6     | 4.01G/8.72G [00:12<00:10, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  46%|####6     | 4.01G/8.72G [00:12<00:10, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.17G/8.72G [00:12<00:10, 452MB/s]transformer_2/diffusion_pytorch_model-00(…):  48%|####7     | 4.17G/8.72G [00:12<00:10, 452MB/s]transformer_2/diffusion_pytorch_model-00(…):  49%|####9     | 4.30G/8.72G [00:13<00:10, 435MB/s]transformer_2/diffusion_pytorch_model-00(…):  49%|####9     | 4.30G/8.72G [00:13<00:10, 435MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|#####     | 4.39G/8.72G [00:13<00:09, 446MB/s]transformer_2/diffusion_pytorch_model-00(…):  50%|#####     | 4.39G/8.72G [00:13<00:09, 446MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####1    | 4.47G/8.72G [00:13<00:09, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  51%|#####1    | 4.47G/8.72G [00:13<00:09, 432MB/s]transformer_2/diffusion_pytorch_model-00(…):  52%|#####2    | 4.54G/8.72G [00:13<00:08, 467MB/s]transformer_2/diffusion_pytorch_model-00(…):  52%|#####2    | 4.54G/8.72G [00:13<00:08, 467MB/s]transformer_2/diffusion_pytorch_model-00(…):  53%|#####3    | 4.64G/8.72G [00:14<00:18, 225MB/s]transformer_2/diffusion_pytorch_model-00(…):  53%|#####3    | 4.64G/8.72G [00:14<00:18, 225MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####4    | 4.74G/8.72G [00:15<00:18, 212MB/s]transformer_2/diffusion_pytorch_model-00(…):  54%|#####4    | 4.74G/8.72G [00:15<00:18, 212MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####5    | 4.80G/8.72G [00:15<00:16, 231MB/s]transformer_2/diffusion_pytorch_model-00(…):  55%|#####5    | 4.80G/8.72G [00:15<00:16, 231MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 4.85G/8.72G [00:15<00:16, 236MB/s]transformer_2/diffusion_pytorch_model-00(…):  56%|#####5    | 4.85G/8.72G [00:15<00:16, 236MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####7    | 5.00G/8.72G [00:15<00:10, 366MB/s]transformer_2/diffusion_pytorch_model-00(…):  57%|#####7    | 5.00G/8.72G [00:15<00:10, 366MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.08G/8.72G [00:16<00:10, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  58%|#####8    | 5.08G/8.72G [00:16<00:10, 361MB/s]transformer_2/diffusion_pytorch_model-00(…):  59%|#####9    | 5.18G/8.72G [00:16<00:09, 360MB/s]transformer_2/diffusion_pytorch_model-00(…):  59%|#####9    | 5.18G/8.72G [00:16<00:09, 360MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 5.30G/8.72G [00:16<00:08, 405MB/s]transformer_2/diffusion_pytorch_model-00(…):  61%|######    | 5.30G/8.72G [00:16<00:08, 405MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######2   | 5.46G/8.72G [00:16<00:06, 469MB/s]transformer_2/diffusion_pytorch_model-00(…):  63%|######2   | 5.46G/8.72G [00:16<00:06, 469MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######3   | 5.57G/8.72G [00:16<00:06, 484MB/s]transformer_2/diffusion_pytorch_model-00(…):  64%|######3   | 5.57G/8.72G [00:16<00:06, 484MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######5   | 5.71G/8.72G [00:17<00:05, 510MB/s]transformer_2/diffusion_pytorch_model-00(…):  65%|######5   | 5.71G/8.72G [00:17<00:05, 510MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 5.78G/8.72G [00:17<00:06, 475MB/s]transformer_2/diffusion_pytorch_model-00(…):  66%|######6   | 5.78G/8.72G [00:17<00:06, 475MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######7   | 5.89G/8.72G [00:17<00:05, 493MB/s]transformer_2/diffusion_pytorch_model-00(…):  68%|######7   | 5.89G/8.72G [00:17<00:05, 493MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######9   | 6.02G/8.72G [00:17<00:04, 609MB/s]transformer_2/diffusion_pytorch_model-00(…):  69%|######9   | 6.02G/8.72G [00:17<00:04, 609MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.09G/8.72G [00:18<00:09, 278MB/s]transformer_2/diffusion_pytorch_model-00(…):  70%|######9   | 6.09G/8.72G [00:18<00:09, 278MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######1  | 6.21G/8.72G [00:18<00:07, 327MB/s]transformer_2/diffusion_pytorch_model-00(…):  71%|#######1  | 6.21G/8.72G [00:18<00:07, 327MB/s]transformer_2/diffusion_pytorch_model-00(…):  72%|#######2  | 6.28G/8.72G [00:18<00:06, 350MB/s]transformer_2/diffusion_pytorch_model-00(…):  72%|#######2  | 6.28G/8.72G [00:18<00:06, 350MB/s]transformer_2/diffusion_pytorch_model-00(…):  73%|#######2  | 6.33G/8.72G [00:19<00:06, 342MB/s]transformer_2/diffusion_pytorch_model-00(…):  73%|#######2  | 6.33G/8.72G [00:19<00:06, 342MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 6.43G/8.72G [00:19<00:05, 404MB/s]transformer_2/diffusion_pytorch_model-00(…):  74%|#######3  | 6.43G/8.72G [00:19<00:05, 404MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 6.49G/8.72G [00:19<00:05, 427MB/s]transformer_2/diffusion_pytorch_model-00(…):  75%|#######4  | 6.49G/8.72G [00:19<00:05, 427MB/s]transformer_2/diffusion_pytorch_model-00(…):  76%|#######5  | 6.61G/8.72G [00:19<00:04, 443MB/s]transformer_2/diffusion_pytorch_model-00(…):  76%|#######5  | 6.61G/8.72G [00:19<00:04, 443MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######6  | 6.69G/8.72G [00:19<00:04, 412MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######6  | 6.69G/8.72G [00:19<00:04, 412MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######7  | 6.75G/8.72G [00:19<00:04, 406MB/s]transformer_2/diffusion_pytorch_model-00(…):  77%|#######7  | 6.75G/8.72G [00:19<00:04, 406MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######8  | 6.84G/8.72G [00:20<00:03, 492MB/s]transformer_2/diffusion_pytorch_model-00(…):  78%|#######8  | 6.84G/8.72G [00:20<00:03, 492MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|#######9  | 6.95G/8.72G [00:20<00:03, 560MB/s]transformer_2/diffusion_pytorch_model-00(…):  80%|#######9  | 6.95G/8.72G [00:20<00:03, 560MB/s]transformer_2/diffusion_pytorch_model-00(…):  81%|########1 | 7.07G/8.72G [00:20<00:02, 594MB/s]transformer_2/diffusion_pytorch_model-00(…):  81%|########1 | 7.07G/8.72G [00:20<00:02, 594MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########2 | 7.19G/8.72G [00:20<00:02, 704MB/s]transformer_2/diffusion_pytorch_model-00(…):  82%|########2 | 7.19G/8.72G [00:20<00:02, 704MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########4 | 7.35G/8.72G [00:20<00:01, 794MB/s]transformer_2/diffusion_pytorch_model-00(…):  84%|########4 | 7.35G/8.72G [00:20<00:01, 794MB/s]transformer_2/diffusion_pytorch_model-00(…):  86%|########5 | 7.46G/8.72G [00:20<00:01, 784MB/s]transformer_2/diffusion_pytorch_model-00(…):  86%|########5 | 7.46G/8.72G [00:20<00:01, 784MB/s]transformer_2/diffusion_pytorch_model-00(…):  87%|########6 | 7.55G/8.72G [00:20<00:01, 767MB/s]transformer_2/diffusion_pytorch_model-00(…):  87%|########6 | 7.55G/8.72G [00:20<00:01, 767MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########7 | 7.66G/8.72G [00:21<00:01, 557MB/s]transformer_2/diffusion_pytorch_model-00(…):  88%|########7 | 7.66G/8.72G [00:21<00:01, 557MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 7.81G/8.72G [00:21<00:01, 632MB/s]transformer_2/diffusion_pytorch_model-00(…):  90%|########9 | 7.81G/8.72G [00:21<00:01, 632MB/s]transformer_2/diffusion_pytorch_model-00(…):  92%|#########2| 8.02G/8.72G [00:21<00:00, 810MB/s]transformer_2/diffusion_pytorch_model-00(…):  92%|#########2| 8.02G/8.72G [00:21<00:00, 810MB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########4| 8.21G/8.72G [00:21<00:00, 1.01GB/s]transformer_2/diffusion_pytorch_model-00(…):  94%|#########4| 8.21G/8.72G [00:21<00:00, 1.01GB/s]transformer_2/diffusion_pytorch_model-00(…):  97%|#########6| 8.42G/8.72G [00:21<00:00, 1.22GB/s]transformer_2/diffusion_pytorch_model-00(…):  97%|#########6| 8.42G/8.72G [00:21<00:00, 1.22GB/s]transformer_2/diffusion_pytorch_model-00(…):  98%|#########8| 8.58G/8.72G [00:22<00:00, 983MB/s] transformer_2/diffusion_pytorch_model-00(…):  98%|#########8| 8.58G/8.72G [00:22<00:00, 983MB/s] transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 8.72G/8.72G [00:22<00:00, 394MB/s]transformer_2/diffusion_pytorch_model-00(…): 100%|##########| 8.72G/8.72G [00:22<00:00, 394MB/s]
+
+Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.47it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.47it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.40it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 26.40it/s]
+
+Moving transformer 2 to CPU
+Creating DualWanTransformer3DModel
+Applying Accuracy Recovery Adapter to Transformers
+Grabbing lora from the hub: ostris/accuracy_recovery_adapters/wan22_14b_t2i_torchao_uint4.safetensors
+wan22_14b_t2i_torchao_uint4.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]wan22_14b_t2i_torchao_uint4.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]wan22_14b_t2i_torchao_uint4.safetensors:  14%|#3        | 43.6M/312M [00:01<00:08, 31.7MB/s]wan22_14b_t2i_torchao_uint4.safetensors:  14%|#3        | 43.6M/312M [00:01<00:08, 31.7MB/s]wan22_14b_t2i_torchao_uint4.safetensors:  36%|###5      | 111M/312M [00:01<00:02, 83.1MB/s] wan22_14b_t2i_torchao_uint4.safetensors:  36%|###5      | 111M/312M [00:01<00:02, 83.1MB/s] wan22_14b_t2i_torchao_uint4.safetensors: 100%|##########| 312M/312M [00:01<00:00, 247MB/s] wan22_14b_t2i_torchao_uint4.safetensors: 100%|##########| 312M/312M [00:01<00:00, 247MB/s] wan22_14b_t2i_torchao_uint4.safetensors: 100%|##########| 312M/312M [00:01<00:00, 168MB/s]wan22_14b_t2i_torchao_uint4.safetensors: 100%|##########| 312M/312M [00:01<00:00, 168MB/s]
+
+create LoRA network. base dim (rank): 16, alpha: 16
+neuron dropout: p=None, rank dropout: p=None, module dropout: p=None
+create LoRA for Text Encoder: 0 modules.
+create LoRA for U-Net: 812 modules.
+enable LoRA for U-Net
+Missing keys: []
+Attaching quantization:   0%|          | 0/812 [00:00<?, ?it/s]Attaching quantization:   0%|          | 0/812 [00:00<?, ?it/s]Attaching quantization:   0%|          | 3/812 [00:00<02:18,  5.84it/s]Attaching quantization:   0%|          | 3/812 [00:00<02:18,  5.84it/s]Attaching quantization:   1%|          | 5/812 [00:00<01:32,  8.72it/s]Attaching quantization:   1%|          | 5/812 [00:00<01:32,  8.72it/s]Attaching quantization:   1%|          | 7/812 [00:00<01:13, 11.02it/s]Attaching quantization:   1%|          | 7/812 [00:00<01:13, 11.02it/s]Attaching quantization:   1%|1         | 9/812 [00:00<01:07, 11.94it/s]Attaching quantization:   1%|1         | 9/812 [00:00<01:07, 11.94it/s]Attaching quantization:   1%|1         | 11/812 [00:01<01:01, 12.97it/s]Attaching quantization:   1%|1         | 11/812 [00:01<01:01, 12.97it/s]Attaching quantization:   2%|1         | 13/812 [00:01<00:55, 14.48it/s]Attaching quantization:   2%|1         | 13/812 [00:01<00:55, 14.48it/s]Attaching quantization:   2%|1         | 15/812 [00:01<01:26,  9.19it/s]Attaching quantization:   2%|1         | 15/812 [00:01<01:26,  9.19it/s]Attaching quantization:   2%|2         | 18/812 [00:01<01:06, 11.96it/s]Attaching quantization:   2%|2         | 18/812 [00:01<01:06, 11.96it/s]Attaching quantization:   2%|2         | 20/812 [00:01<01:02, 12.59it/s]Attaching quantization:   2%|2         | 20/812 [00:01<01:02, 12.59it/s]Attaching quantization:   3%|2         | 22/812 [00:01<00:57, 13.82it/s]Attaching quantization:   3%|2         | 22/812 [00:01<00:57, 13.82it/s]Attaching quantization:   3%|2         | 24/812 [00:02<01:06, 11.82it/s]Attaching quantization:   3%|2         | 24/812 [00:02<01:06, 11.82it/s]Attaching quantization:   3%|3         | 26/812 [00:02<01:12, 10.86it/s]Attaching quantization:   3%|3         | 26/812 [00:02<01:12, 10.86it/s]Attaching quantization:   4%|3         | 29/812 [00:02<00:57, 13.59it/s]Attaching quantization:   4%|3         | 29/812 [00:02<00:57, 13.59it/s]Attaching quantization:   4%|3         | 31/812 [00:02<00:54, 14.41it/s]Attaching quantization:   4%|3         | 31/812 [00:02<00:54, 14.41it/s]Attaching quantization:   4%|4         | 33/812 [00:02<00:50, 15.32it/s]Attaching quantization:   4%|4         | 33/812 [00:02<00:50, 15.32it/s]Attaching quantization:   4%|4         | 35/812 [00:03<01:12, 10.77it/s]Attaching quantization:   4%|4         | 35/812 [00:03<01:12, 10.77it/s]Attaching quantization:   5%|4         | 38/812 [00:03<00:59, 13.05it/s]Attaching quantization:   5%|4         | 38/812 [00:03<00:59, 13.05it/s]Attaching quantization:   5%|4         | 40/812 [00:03<00:54, 14.19it/s]Attaching quantization:   5%|4         | 40/812 [00:03<00:54, 14.19it/s]Attaching quantization:   5%|5         | 43/812 [00:03<00:47, 16.15it/s]Attaching quantization:   5%|5         | 43/812 [00:03<00:47, 16.15it/s]Attaching quantization:   6%|5         | 45/812 [00:03<01:08, 11.15it/s]Attaching quantization:   6%|5         | 45/812 [00:03<01:08, 11.15it/s]Attaching quantization:   6%|5         | 47/812 [00:03<01:01, 12.41it/s]Attaching quantization:   6%|5         | 47/812 [00:03<01:01, 12.41it/s]Attaching quantization:   6%|6         | 50/812 [00:03<00:50, 15.08it/s]Attaching quantization:   6%|6         | 50/812 [00:03<00:50, 15.08it/s]Attaching quantization:   7%|6         | 53/812 [00:04<00:45, 16.72it/s]Attaching quantization:   7%|6         | 53/812 [00:04<00:45, 16.72it/s]Attaching quantization:   7%|6         | 55/812 [00:04<01:09, 10.91it/s]Attaching quantization:   7%|6         | 55/812 [00:04<01:09, 10.91it/s]Attaching quantization:   7%|7         | 58/812 [00:04<00:58, 12.82it/s]Attaching quantization:   7%|7         | 58/812 [00:04<00:58, 12.82it/s]Attaching quantization:   8%|7         | 61/812 [00:04<00:51, 14.59it/s]Attaching quantization:   8%|7         | 61/812 [00:04<00:51, 14.59it/s]Attaching quantization:   8%|7         | 63/812 [00:04<00:48, 15.35it/s]Attaching quantization:   8%|7         | 63/812 [00:04<00:48, 15.35it/s]Attaching quantization:   8%|8         | 65/812 [00:05<01:08, 10.97it/s]Attaching quantization:   8%|8         | 65/812 [00:05<01:08, 10.97it/s]Attaching quantization:   8%|8         | 68/812 [00:05<00:55, 13.44it/s]Attaching quantization:   8%|8         | 68/812 [00:05<00:55, 13.44it/s]Attaching quantization:   9%|8         | 71/812 [00:05<00:48, 15.23it/s]Attaching quantization:   9%|8         | 71/812 [00:05<00:48, 15.23it/s]Attaching quantization:   9%|8         | 73/812 [00:05<00:48, 15.13it/s]Attaching quantization:   9%|8         | 73/812 [00:05<00:48, 15.13it/s]Attaching quantization:   9%|9         | 75/812 [00:06<01:07, 10.89it/s]Attaching quantization:   9%|9         | 75/812 [00:06<01:07, 10.89it/s]Attaching quantization:  10%|9         | 78/812 [00:06<00:54, 13.42it/s]Attaching quantization:  10%|9         | 78/812 [00:06<00:54, 13.42it/s]Attaching quantization:  10%|9         | 80/812 [00:06<00:53, 13.74it/s]Attaching quantization:  10%|9         | 80/812 [00:06<00:53, 13.74it/s]Attaching quantization:  10%|#         | 82/812 [00:06<00:50, 14.54it/s]Attaching quantization:  10%|#         | 82/812 [00:06<00:50, 14.54it/s]Attaching quantization:  10%|#         | 84/812 [00:06<00:58, 12.36it/s]Attaching quantization:  10%|#         | 84/812 [00:06<00:58, 12.36it/s]Attaching quantization:  11%|#         | 86/812 [00:06<01:05, 11.12it/s]Attaching quantization:  11%|#         | 86/812 [00:06<01:05, 11.12it/s]Attaching quantization:  11%|#         | 89/812 [00:06<00:54, 13.30it/s]Attaching quantization:  11%|#         | 89/812 [00:06<00:54, 13.30it/s]Attaching quantization:  11%|#1        | 91/812 [00:07<00:49, 14.51it/s]Attaching quantization:  11%|#1        | 91/812 [00:07<00:49, 14.51it/s]Attaching quantization:  11%|#1        | 93/812 [00:07<00:47, 15.15it/s]Attaching quantization:  11%|#1        | 93/812 [00:07<00:47, 15.15it/s]Attaching quantization:  12%|#1        | 95/812 [00:07<01:10, 10.16it/s]Attaching quantization:  12%|#1        | 95/812 [00:07<01:10, 10.16it/s]Attaching quantization:  12%|#2        | 98/812 [00:07<00:55, 12.88it/s]Attaching quantization:  12%|#2        | 98/812 [00:07<00:55, 12.88it/s]Attaching quantization:  12%|#2        | 100/812 [00:07<00:51, 13.78it/s]Attaching quantization:  12%|#2        | 100/812 [00:07<00:51, 13.78it/s]Attaching quantization:  13%|#2        | 102/812 [00:07<00:48, 14.67it/s]Attaching quantization:  13%|#2        | 102/812 [00:07<00:48, 14.67it/s]Attaching quantization:  13%|#2        | 104/812 [00:08<00:58, 12.08it/s]Attaching quantization:  13%|#2        | 104/812 [00:08<00:58, 12.08it/s]Attaching quantization:  13%|#3        | 106/812 [00:08<01:04, 10.98it/s]Attaching quantization:  13%|#3        | 106/812 [00:08<01:04, 10.98it/s]Attaching quantization:  13%|#3        | 108/812 [00:08<00:57, 12.28it/s]Attaching quantization:  13%|#3        | 108/812 [00:08<00:57, 12.28it/s]Attaching quantization:  14%|#3        | 110/812 [00:08<00:51, 13.63it/s]Attaching quantization:  14%|#3        | 110/812 [00:08<00:51, 13.63it/s]Attaching quantization:  14%|#3        | 112/812 [00:08<00:47, 14.64it/s]Attaching quantization:  14%|#3        | 112/812 [00:08<00:47, 14.64it/s]Attaching quantization:  14%|#4        | 114/812 [00:08<00:59, 11.79it/s]Attaching quantization:  14%|#4        | 114/812 [00:08<00:59, 11.79it/s]Attaching quantization:  14%|#4        | 116/812 [00:09<01:04, 10.78it/s]Attaching quantization:  14%|#4        | 116/812 [00:09<01:04, 10.78it/s]Attaching quantization:  15%|#4        | 118/812 [00:09<00:55, 12.40it/s]Attaching quantization:  15%|#4        | 118/812 [00:09<00:55, 12.40it/s]Attaching quantization:  15%|#4        | 120/812 [00:09<00:50, 13.63it/s]Attaching quantization:  15%|#4        | 120/812 [00:09<00:50, 13.63it/s]Attaching quantization:  15%|#5        | 122/812 [00:09<00:46, 14.77it/s]Attaching quantization:  15%|#5        | 122/812 [00:09<00:46, 14.77it/s]Attaching quantization:  15%|#5        | 124/812 [00:09<00:58, 11.76it/s]Attaching quantization:  15%|#5        | 124/812 [00:09<00:58, 11.76it/s]Attaching quantization:  16%|#5        | 126/812 [00:09<01:03, 10.84it/s]Attaching quantization:  16%|#5        | 126/812 [00:09<01:03, 10.84it/s]Attaching quantization:  16%|#5        | 128/812 [00:10<00:55, 12.40it/s]Attaching quantization:  16%|#5        | 128/812 [00:10<00:55, 12.40it/s]Attaching quantization:  16%|#6        | 130/812 [00:10<00:49, 13.77it/s]Attaching quantization:  16%|#6        | 130/812 [00:10<00:49, 13.77it/s]Attaching quantization:  16%|#6        | 132/812 [00:10<00:46, 14.77it/s]Attaching quantization:  16%|#6        | 132/812 [00:10<00:46, 14.77it/s]Attaching quantization:  17%|#6        | 134/812 [00:10<00:59, 11.44it/s]Attaching quantization:  17%|#6        | 134/812 [00:10<00:59, 11.44it/s]Attaching quantization:  17%|#6        | 136/812 [00:10<01:06, 10.18it/s]Attaching quantization:  17%|#6        | 136/812 [00:10<01:06, 10.18it/s]Attaching quantization:  17%|#6        | 138/812 [00:10<00:58, 11.50it/s]Attaching quantization:  17%|#6        | 138/812 [00:10<00:58, 11.50it/s]Attaching quantization:  17%|#7        | 140/812 [00:11<00:53, 12.60it/s]Attaching quantization:  17%|#7        | 140/812 [00:11<00:53, 12.60it/s]Attaching quantization:  17%|#7        | 142/812 [00:11<00:49, 13.48it/s]Attaching quantization:  17%|#7        | 142/812 [00:11<00:49, 13.48it/s]Attaching quantization:  18%|#7        | 144/812 [00:11<00:59, 11.27it/s]Attaching quantization:  18%|#7        | 144/812 [00:11<00:59, 11.27it/s]Attaching quantization:  18%|#7        | 146/812 [00:11<01:02, 10.65it/s]Attaching quantization:  18%|#7        | 146/812 [00:11<01:02, 10.65it/s]Attaching quantization:  18%|#8        | 148/812 [00:11<00:54, 12.17it/s]Attaching quantization:  18%|#8        | 148/812 [00:11<00:54, 12.17it/s]Attaching quantization:  18%|#8        | 150/812 [00:11<00:49, 13.36it/s]Attaching quantization:  18%|#8        | 150/812 [00:11<00:49, 13.36it/s]Attaching quantization:  19%|#8        | 152/812 [00:11<00:45, 14.58it/s]Attaching quantization:  19%|#8        | 152/812 [00:11<00:45, 14.58it/s]Attaching quantization:  19%|#8        | 154/812 [00:12<00:53, 12.24it/s]Attaching quantization:  19%|#8        | 154/812 [00:12<00:53, 12.24it/s]Attaching quantization:  19%|#9        | 156/812 [00:12<00:57, 11.37it/s]Attaching quantization:  19%|#9        | 156/812 [00:12<00:57, 11.37it/s]Attaching quantization:  19%|#9        | 158/812 [00:12<00:50, 13.05it/s]Attaching quantization:  19%|#9        | 158/812 [00:12<00:50, 13.05it/s]Attaching quantization:  20%|#9        | 160/812 [00:12<00:44, 14.49it/s]Attaching quantization:  20%|#9        | 160/812 [00:12<00:44, 14.49it/s]Attaching quantization:  20%|#9        | 162/812 [00:12<00:41, 15.63it/s]Attaching quantization:  20%|#9        | 162/812 [00:12<00:41, 15.63it/s]Attaching quantization:  20%|##        | 164/812 [00:12<00:50, 12.80it/s]Attaching quantization:  20%|##        | 164/812 [00:12<00:50, 12.80it/s]Attaching quantization:  20%|##        | 166/812 [00:13<00:54, 11.82it/s]Attaching quantization:  20%|##        | 166/812 [00:13<00:54, 11.82it/s]Attaching quantization:  21%|##        | 168/812 [00:13<00:48, 13.34it/s]Attaching quantization:  21%|##        | 168/812 [00:13<00:48, 13.34it/s]Attaching quantization:  21%|##        | 170/812 [00:13<00:44, 14.54it/s]Attaching quantization:  21%|##        | 170/812 [00:13<00:44, 14.54it/s]Attaching quantization:  21%|##1       | 172/812 [00:13<00:41, 15.53it/s]Attaching quantization:  21%|##1       | 172/812 [00:13<00:41, 15.53it/s]Attaching quantization:  21%|##1       | 174/812 [00:13<00:50, 12.64it/s]Attaching quantization:  21%|##1       | 174/812 [00:13<00:50, 12.64it/s]Attaching quantization:  22%|##1       | 176/812 [00:13<00:55, 11.52it/s]Attaching quantization:  22%|##1       | 176/812 [00:13<00:55, 11.52it/s]Attaching quantization:  22%|##2       | 179/812 [00:14<00:46, 13.65it/s]Attaching quantization:  22%|##2       | 179/812 [00:14<00:46, 13.65it/s]Attaching quantization:  22%|##2       | 181/812 [00:14<00:42, 14.71it/s]Attaching quantization:  22%|##2       | 181/812 [00:14<00:42, 14.71it/s]Attaching quantization:  23%|##2       | 183/812 [00:14<00:40, 15.58it/s]Attaching quantization:  23%|##2       | 183/812 [00:14<00:40, 15.58it/s]Attaching quantization:  23%|##2       | 185/812 [00:14<00:57, 10.82it/s]Attaching quantization:  23%|##2       | 185/812 [00:14<00:57, 10.82it/s]Attaching quantization:  23%|##3       | 188/812 [00:14<00:47, 13.06it/s]Attaching quantization:  23%|##3       | 188/812 [00:14<00:47, 13.06it/s]Attaching quantization:  23%|##3       | 190/812 [00:14<00:43, 14.18it/s]Attaching quantization:  23%|##3       | 190/812 [00:14<00:43, 14.18it/s]Attaching quantization:  24%|##3       | 192/812 [00:14<00:40, 15.27it/s]Attaching quantization:  24%|##3       | 192/812 [00:14<00:40, 15.27it/s]Attaching quantization:  24%|##3       | 194/812 [00:15<00:48, 12.79it/s]Attaching quantization:  24%|##3       | 194/812 [00:15<00:48, 12.79it/s]Attaching quantization:  24%|##4       | 196/812 [00:15<00:52, 11.76it/s]Attaching quantization:  24%|##4       | 196/812 [00:15<00:52, 11.76it/s]Attaching quantization:  24%|##4       | 198/812 [00:15<00:46, 13.18it/s]Attaching quantization:  24%|##4       | 198/812 [00:15<00:46, 13.18it/s]Attaching quantization:  25%|##4       | 200/812 [00:15<00:42, 14.45it/s]Attaching quantization:  25%|##4       | 200/812 [00:15<00:42, 14.45it/s]Attaching quantization:  25%|##4       | 202/812 [00:15<00:40, 15.25it/s]Attaching quantization:  25%|##4       | 202/812 [00:15<00:40, 15.25it/s]Attaching quantization:  25%|##5       | 204/812 [00:15<00:47, 12.81it/s]Attaching quantization:  25%|##5       | 204/812 [00:15<00:47, 12.81it/s]Attaching quantization:  25%|##5       | 206/812 [00:16<00:51, 11.77it/s]Attaching quantization:  25%|##5       | 206/812 [00:16<00:51, 11.77it/s]Attaching quantization:  26%|##5       | 208/812 [00:16<00:46, 13.04it/s]Attaching quantization:  26%|##5       | 208/812 [00:16<00:46, 13.04it/s]Attaching quantization:  26%|##5       | 210/812 [00:16<00:42, 14.31it/s]Attaching quantization:  26%|##5       | 210/812 [00:16<00:42, 14.31it/s]Attaching quantization:  26%|##6       | 212/812 [00:16<00:39, 15.36it/s]Attaching quantization:  26%|##6       | 212/812 [00:16<00:39, 15.36it/s]Attaching quantization:  26%|##6       | 214/812 [00:16<00:46, 12.82it/s]Attaching quantization:  26%|##6       | 214/812 [00:16<00:46, 12.82it/s]Attaching quantization:  27%|##6       | 216/812 [00:16<00:50, 11.81it/s]Attaching quantization:  27%|##6       | 216/812 [00:16<00:50, 11.81it/s]Attaching quantization:  27%|##6       | 218/812 [00:16<00:44, 13.39it/s]Attaching quantization:  27%|##6       | 218/812 [00:16<00:44, 13.39it/s]Attaching quantization:  27%|##7       | 220/812 [00:17<00:40, 14.62it/s]Attaching quantization:  27%|##7       | 220/812 [00:17<00:40, 14.62it/s]Attaching quantization:  27%|##7       | 222/812 [00:17<00:37, 15.76it/s]Attaching quantization:  27%|##7       | 222/812 [00:17<00:37, 15.76it/s]Attaching quantization:  28%|##7       | 224/812 [00:17<00:45, 12.99it/s]Attaching quantization:  28%|##7       | 224/812 [00:17<00:45, 12.99it/s]Attaching quantization:  28%|##7       | 226/812 [00:17<00:49, 11.87it/s]Attaching quantization:  28%|##7       | 226/812 [00:17<00:49, 11.87it/s]Attaching quantization:  28%|##8       | 228/812 [00:17<00:43, 13.49it/s]Attaching quantization:  28%|##8       | 228/812 [00:17<00:43, 13.49it/s]Attaching quantization:  28%|##8       | 230/812 [00:17<00:39, 14.82it/s]Attaching quantization:  28%|##8       | 230/812 [00:17<00:39, 14.82it/s]Attaching quantization:  29%|##8       | 232/812 [00:17<00:36, 15.85it/s]Attaching quantization:  29%|##8       | 232/812 [00:17<00:36, 15.85it/s]Attaching quantization:  29%|##8       | 234/812 [00:18<00:45, 12.79it/s]Attaching quantization:  29%|##8       | 234/812 [00:18<00:45, 12.79it/s]Attaching quantization:  29%|##9       | 236/812 [00:18<00:48, 11.76it/s]Attaching quantization:  29%|##9       | 236/812 [00:18<00:48, 11.76it/s]Attaching quantization:  29%|##9       | 238/812 [00:18<00:42, 13.35it/s]Attaching quantization:  29%|##9       | 238/812 [00:18<00:42, 13.35it/s]Attaching quantization:  30%|##9       | 240/812 [00:18<00:39, 14.60it/s]Attaching quantization:  30%|##9       | 240/812 [00:18<00:39, 14.60it/s]Attaching quantization:  30%|##9       | 242/812 [00:18<00:36, 15.62it/s]Attaching quantization:  30%|##9       | 242/812 [00:18<00:36, 15.62it/s]Attaching quantization:  30%|###       | 244/812 [00:18<00:43, 12.93it/s]Attaching quantization:  30%|###       | 244/812 [00:18<00:43, 12.93it/s]Attaching quantization:  30%|###       | 246/812 [00:19<00:47, 11.80it/s]Attaching quantization:  30%|###       | 246/812 [00:19<00:47, 11.80it/s]Attaching quantization:  31%|###       | 248/812 [00:19<00:42, 13.35it/s]Attaching quantization:  31%|###       | 248/812 [00:19<00:42, 13.35it/s]Attaching quantization:  31%|###       | 250/812 [00:19<00:38, 14.64it/s]Attaching quantization:  31%|###       | 250/812 [00:19<00:38, 14.64it/s]Attaching quantization:  31%|###1      | 252/812 [00:19<00:35, 15.68it/s]Attaching quantization:  31%|###1      | 252/812 [00:19<00:35, 15.68it/s]Attaching quantization:  31%|###1      | 254/812 [00:19<00:42, 13.07it/s]Attaching quantization:  31%|###1      | 254/812 [00:19<00:42, 13.07it/s]Attaching quantization:  32%|###1      | 256/812 [00:19<00:46, 11.89it/s]Attaching quantization:  32%|###1      | 256/812 [00:19<00:46, 11.89it/s]Attaching quantization:  32%|###1      | 259/812 [00:19<00:39, 14.12it/s]Attaching quantization:  32%|###1      | 259/812 [00:19<00:39, 14.12it/s]Attaching quantization:  32%|###2      | 261/812 [00:20<00:36, 15.12it/s]Attaching quantization:  32%|###2      | 261/812 [00:20<00:36, 15.12it/s]Attaching quantization:  32%|###2      | 263/812 [00:20<00:34, 15.85it/s]Attaching quantization:  32%|###2      | 263/812 [00:20<00:34, 15.85it/s]Attaching quantization:  33%|###2      | 265/812 [00:20<00:50, 10.84it/s]Attaching quantization:  33%|###2      | 265/812 [00:20<00:50, 10.84it/s]Attaching quantization:  33%|###3      | 268/812 [00:20<00:41, 13.05it/s]Attaching quantization:  33%|###3      | 268/812 [00:20<00:41, 13.05it/s]Attaching quantization:  33%|###3      | 270/812 [00:20<00:38, 14.26it/s]Attaching quantization:  33%|###3      | 270/812 [00:20<00:38, 14.26it/s]Attaching quantization:  33%|###3      | 272/812 [00:20<00:35, 15.22it/s]Attaching quantization:  33%|###3      | 272/812 [00:20<00:35, 15.22it/s]Attaching quantization:  34%|###3      | 274/812 [00:21<00:41, 13.04it/s]Attaching quantization:  34%|###3      | 274/812 [00:21<00:41, 13.04it/s]Attaching quantization:  34%|###3      | 276/812 [00:21<00:44, 11.93it/s]Attaching quantization:  34%|###3      | 276/812 [00:21<00:44, 11.93it/s]Attaching quantization:  34%|###4      | 279/812 [00:21<00:38, 13.96it/s]Attaching quantization:  34%|###4      | 279/812 [00:21<00:38, 13.96it/s]Attaching quantization:  35%|###4      | 281/812 [00:21<00:35, 14.92it/s]Attaching quantization:  35%|###4      | 281/812 [00:21<00:35, 14.92it/s]Attaching quantization:  35%|###4      | 283/812 [00:21<00:33, 15.79it/s]Attaching quantization:  35%|###4      | 283/812 [00:21<00:33, 15.79it/s]Attaching quantization:  35%|###5      | 285/812 [00:22<00:49, 10.63it/s]Attaching quantization:  35%|###5      | 285/812 [00:22<00:49, 10.63it/s]Attaching quantization:  35%|###5      | 288/812 [00:22<00:41, 12.77it/s]Attaching quantization:  35%|###5      | 288/812 [00:22<00:41, 12.77it/s]Attaching quantization:  36%|###5      | 291/812 [00:22<00:35, 14.83it/s]Attaching quantization:  36%|###5      | 291/812 [00:22<00:35, 14.83it/s]Attaching quantization:  36%|###6      | 293/812 [00:22<00:33, 15.70it/s]Attaching quantization:  36%|###6      | 293/812 [00:22<00:33, 15.70it/s]Attaching quantization:  36%|###6      | 295/812 [00:22<00:47, 10.91it/s]Attaching quantization:  36%|###6      | 295/812 [00:22<00:47, 10.91it/s]Attaching quantization:  37%|###6      | 298/812 [00:22<00:38, 13.31it/s]Attaching quantization:  37%|###6      | 298/812 [00:22<00:38, 13.31it/s]Attaching quantization:  37%|###6      | 300/812 [00:23<00:35, 14.44it/s]Attaching quantization:  37%|###6      | 300/812 [00:23<00:35, 14.44it/s]Attaching quantization:  37%|###7      | 302/812 [00:23<00:32, 15.54it/s]Attaching quantization:  37%|###7      | 302/812 [00:23<00:32, 15.54it/s]Attaching quantization:  37%|###7      | 304/812 [00:23<00:38, 13.09it/s]Attaching quantization:  37%|###7      | 304/812 [00:23<00:38, 13.09it/s]Attaching quantization:  38%|###7      | 306/812 [00:23<00:42, 11.88it/s]Attaching quantization:  38%|###7      | 306/812 [00:23<00:42, 11.88it/s]Attaching quantization:  38%|###8      | 309/812 [00:23<00:36, 13.73it/s]Attaching quantization:  38%|###8      | 309/812 [00:23<00:36, 13.73it/s]Attaching quantization:  38%|###8      | 311/812 [00:23<00:34, 14.68it/s]Attaching quantization:  38%|###8      | 311/812 [00:23<00:34, 14.68it/s]Attaching quantization:  39%|###8      | 313/812 [00:23<00:32, 15.41it/s]Attaching quantization:  39%|###8      | 313/812 [00:23<00:32, 15.41it/s]Attaching quantization:  39%|###8      | 315/812 [00:24<00:50,  9.92it/s]Attaching quantization:  39%|###8      | 315/812 [00:24<00:50,  9.92it/s]Attaching quantization:  39%|###9      | 318/812 [00:24<00:40, 12.12it/s]Attaching quantization:  39%|###9      | 318/812 [00:24<00:40, 12.12it/s]Attaching quantization:  39%|###9      | 320/812 [00:24<00:37, 13.26it/s]Attaching quantization:  39%|###9      | 320/812 [00:24<00:37, 13.26it/s]Attaching quantization:  40%|###9      | 322/812 [00:24<00:34, 14.28it/s]Attaching quantization:  40%|###9      | 322/812 [00:24<00:34, 14.28it/s]Attaching quantization:  40%|###9      | 324/812 [00:24<00:41, 11.76it/s]Attaching quantization:  40%|###9      | 324/812 [00:24<00:41, 11.76it/s]Attaching quantization:  40%|####      | 326/812 [00:25<00:45, 10.69it/s]Attaching quantization:  40%|####      | 326/812 [00:25<00:45, 10.69it/s]Attaching quantization:  40%|####      | 328/812 [00:25<00:39, 12.15it/s]Attaching quantization:  40%|####      | 328/812 [00:25<00:39, 12.15it/s]Attaching quantization:  41%|####      | 330/812 [00:25<00:36, 13.28it/s]Attaching quantization:  41%|####      | 330/812 [00:25<00:36, 13.28it/s]Attaching quantization:  41%|####      | 332/812 [00:25<00:34, 14.06it/s]Attaching quantization:  41%|####      | 332/812 [00:25<00:34, 14.06it/s]Attaching quantization:  41%|####1     | 334/812 [00:25<00:42, 11.34it/s]Attaching quantization:  41%|####1     | 334/812 [00:25<00:42, 11.34it/s]Attaching quantization:  41%|####1     | 336/812 [00:26<00:46, 10.19it/s]Attaching quantization:  41%|####1     | 336/812 [00:26<00:46, 10.19it/s]Attaching quantization:  42%|####1     | 339/812 [00:26<00:38, 12.32it/s]Attaching quantization:  42%|####1     | 339/812 [00:26<00:38, 12.32it/s]Attaching quantization:  42%|####1     | 341/812 [00:26<00:35, 13.31it/s]Attaching quantization:  42%|####1     | 341/812 [00:26<00:35, 13.31it/s]Attaching quantization:  42%|####2     | 343/812 [00:26<00:32, 14.26it/s]Attaching quantization:  42%|####2     | 343/812 [00:26<00:32, 14.26it/s]Attaching quantization:  42%|####2     | 345/812 [00:26<00:47,  9.80it/s]Attaching quantization:  42%|####2     | 345/812 [00:26<00:47,  9.80it/s]Attaching quantization:  43%|####2     | 348/812 [00:26<00:37, 12.28it/s]Attaching quantization:  43%|####2     | 348/812 [00:26<00:37, 12.28it/s]Attaching quantization:  43%|####3     | 350/812 [00:27<00:34, 13.47it/s]Attaching quantization:  43%|####3     | 350/812 [00:27<00:34, 13.47it/s]Attaching quantization:  43%|####3     | 353/812 [00:27<00:30, 14.96it/s]Attaching quantization:  43%|####3     | 353/812 [00:27<00:30, 14.96it/s]Attaching quantization:  44%|####3     | 355/812 [00:27<00:44, 10.19it/s]Attaching quantization:  44%|####3     | 355/812 [00:27<00:44, 10.19it/s]Attaching quantization:  44%|####4     | 358/812 [00:27<00:36, 12.50it/s]Attaching quantization:  44%|####4     | 358/812 [00:27<00:36, 12.50it/s]Attaching quantization:  44%|####4     | 360/812 [00:27<00:33, 13.54it/s]Attaching quantization:  44%|####4     | 360/812 [00:27<00:33, 13.54it/s]Attaching quantization:  45%|####4     | 362/812 [00:27<00:31, 14.40it/s]Attaching quantization:  45%|####4     | 362/812 [00:27<00:31, 14.40it/s]Attaching quantization:  45%|####4     | 364/812 [00:28<00:38, 11.53it/s]Attaching quantization:  45%|####4     | 364/812 [00:28<00:38, 11.53it/s]Attaching quantization:  45%|####5     | 366/812 [00:28<00:42, 10.52it/s]Attaching quantization:  45%|####5     | 366/812 [00:28<00:42, 10.52it/s]Attaching quantization:  45%|####5     | 369/812 [00:28<00:35, 12.62it/s]Attaching quantization:  45%|####5     | 369/812 [00:28<00:35, 12.62it/s]Attaching quantization:  46%|####5     | 371/812 [00:28<00:32, 13.55it/s]Attaching quantization:  46%|####5     | 371/812 [00:28<00:32, 13.55it/s]Attaching quantization:  46%|####5     | 373/812 [00:28<00:30, 14.25it/s]Attaching quantization:  46%|####5     | 373/812 [00:28<00:30, 14.25it/s]Attaching quantization:  46%|####6     | 375/812 [00:29<00:46,  9.38it/s]Attaching quantization:  46%|####6     | 375/812 [00:29<00:46,  9.38it/s]Attaching quantization:  47%|####6     | 378/812 [00:29<00:36, 11.82it/s]Attaching quantization:  47%|####6     | 378/812 [00:29<00:36, 11.82it/s]Attaching quantization:  47%|####6     | 380/812 [00:29<00:33, 12.81it/s]Attaching quantization:  47%|####6     | 380/812 [00:29<00:33, 12.81it/s]Attaching quantization:  47%|####7     | 382/812 [00:29<00:31, 13.72it/s]Attaching quantization:  47%|####7     | 382/812 [00:29<00:31, 13.72it/s]Attaching quantization:  47%|####7     | 384/812 [00:29<00:35, 11.95it/s]Attaching quantization:  47%|####7     | 384/812 [00:29<00:35, 11.95it/s]Attaching quantization:  48%|####7     | 386/812 [00:30<00:38, 10.99it/s]Attaching quantization:  48%|####7     | 386/812 [00:30<00:38, 10.99it/s]Attaching quantization:  48%|####7     | 388/812 [00:30<00:34, 12.37it/s]Attaching quantization:  48%|####7     | 388/812 [00:30<00:34, 12.37it/s]Attaching quantization:  48%|####8     | 390/812 [00:30<00:30, 13.64it/s]Attaching quantization:  48%|####8     | 390/812 [00:30<00:30, 13.64it/s]Attaching quantization:  48%|####8     | 393/812 [00:30<00:26, 15.70it/s]Attaching quantization:  48%|####8     | 393/812 [00:30<00:26, 15.70it/s]Attaching quantization:  49%|####8     | 395/812 [00:30<00:38, 10.88it/s]Attaching quantization:  49%|####8     | 395/812 [00:30<00:38, 10.88it/s]Attaching quantization:  49%|####9     | 398/812 [00:30<00:31, 13.17it/s]Attaching quantization:  49%|####9     | 398/812 [00:30<00:31, 13.17it/s]Attaching quantization:  49%|####9     | 400/812 [00:31<00:28, 14.22it/s]Attaching quantization:  49%|####9     | 400/812 [00:31<00:28, 14.22it/s]Attaching quantization:  50%|####9     | 402/812 [00:31<00:27, 15.18it/s]Attaching quantization:  50%|####9     | 402/812 [00:31<00:27, 15.18it/s]Attaching quantization:  50%|####9     | 404/812 [00:31<00:31, 12.75it/s]Attaching quantization:  50%|####9     | 404/812 [00:31<00:31, 12.75it/s]Attaching quantization:  50%|#####     | 406/812 [00:31<00:32, 12.58it/s]Attaching quantization:  50%|#####     | 406/812 [00:31<00:32, 12.58it/s]Attaching quantization:  50%|#####     | 409/812 [00:31<00:40,  9.94it/s]Attaching quantization:  50%|#####     | 409/812 [00:31<00:40,  9.94it/s]Attaching quantization:  51%|#####     | 412/812 [00:32<00:30, 12.92it/s]Attaching quantization:  51%|#####     | 412/812 [00:32<00:30, 12.92it/s]Attaching quantization:  51%|#####1    | 415/812 [00:32<00:27, 14.45it/s]Attaching quantization:  51%|#####1    | 415/812 [00:32<00:27, 14.45it/s]Attaching quantization:  51%|#####1    | 418/812 [00:32<00:24, 16.09it/s]Attaching quantization:  51%|#####1    | 418/812 [00:32<00:24, 16.09it/s]Attaching quantization:  52%|#####1    | 420/812 [00:32<00:28, 13.62it/s]Attaching quantization:  52%|#####1    | 420/812 [00:32<00:28, 13.62it/s]Attaching quantization:  52%|#####1    | 422/812 [00:32<00:31, 12.34it/s]Attaching quantization:  52%|#####1    | 422/812 [00:32<00:31, 12.34it/s]Attaching quantization:  52%|#####2    | 425/812 [00:32<00:27, 14.30it/s]Attaching quantization:  52%|#####2    | 425/812 [00:32<00:27, 14.30it/s]Attaching quantization:  53%|#####2    | 427/812 [00:32<00:25, 15.12it/s]Attaching quantization:  53%|#####2    | 427/812 [00:32<00:25, 15.12it/s]Attaching quantization:  53%|#####2    | 430/812 [00:33<00:27, 13.70it/s]Attaching quantization:  53%|#####2    | 430/812 [00:33<00:27, 13.70it/s]Attaching quantization:  53%|#####3    | 432/812 [00:33<00:30, 12.43it/s]Attaching quantization:  53%|#####3    | 432/812 [00:33<00:30, 12.43it/s]Attaching quantization:  54%|#####3    | 435/812 [00:33<00:25, 14.63it/s]Attaching quantization:  54%|#####3    | 435/812 [00:33<00:25, 14.63it/s]Attaching quantization:  54%|#####3    | 437/812 [00:33<00:24, 15.41it/s]Attaching quantization:  54%|#####3    | 437/812 [00:33<00:24, 15.41it/s]Attaching quantization:  54%|#####4    | 439/812 [00:33<00:23, 16.08it/s]Attaching quantization:  54%|#####4    | 439/812 [00:33<00:23, 16.08it/s]Attaching quantization:  54%|#####4    | 441/812 [00:34<00:33, 11.05it/s]Attaching quantization:  54%|#####4    | 441/812 [00:34<00:33, 11.05it/s]Attaching quantization:  55%|#####4    | 444/812 [00:34<00:27, 13.19it/s]Attaching quantization:  55%|#####4    | 444/812 [00:34<00:27, 13.19it/s]Attaching quantization:  55%|#####4    | 446/812 [00:34<00:25, 14.42it/s]Attaching quantization:  55%|#####4    | 446/812 [00:34<00:25, 14.42it/s]Attaching quantization:  55%|#####5    | 449/812 [00:34<00:21, 16.59it/s]Attaching quantization:  55%|#####5    | 449/812 [00:34<00:21, 16.59it/s]Attaching quantization:  56%|#####5    | 451/812 [00:34<00:31, 11.48it/s]Attaching quantization:  56%|#####5    | 451/812 [00:34<00:31, 11.48it/s]Attaching quantization:  56%|#####5    | 453/812 [00:34<00:27, 12.93it/s]Attaching quantization:  56%|#####5    | 453/812 [00:34<00:27, 12.93it/s]Attaching quantization:  56%|#####6    | 455/812 [00:35<00:25, 14.13it/s]Attaching quantization:  56%|#####6    | 455/812 [00:35<00:25, 14.13it/s]Attaching quantization:  56%|#####6    | 457/812 [00:35<00:23, 15.26it/s]Attaching quantization:  56%|#####6    | 457/812 [00:35<00:23, 15.26it/s]Attaching quantization:  57%|#####6    | 460/812 [00:35<00:25, 13.77it/s]Attaching quantization:  57%|#####6    | 460/812 [00:35<00:25, 13.77it/s]Attaching quantization:  57%|#####6    | 462/812 [00:35<00:28, 12.46it/s]Attaching quantization:  57%|#####6    | 462/812 [00:35<00:28, 12.46it/s]Attaching quantization:  57%|#####7    | 465/812 [00:35<00:23, 14.52it/s]Attaching quantization:  57%|#####7    | 465/812 [00:35<00:23, 14.52it/s]Attaching quantization:  58%|#####7    | 467/812 [00:35<00:22, 15.01it/s]Attaching quantization:  58%|#####7    | 467/812 [00:35<00:22, 15.01it/s]Attaching quantization:  58%|#####7    | 469/812 [00:36<00:21, 15.67it/s]Attaching quantization:  58%|#####7    | 469/812 [00:36<00:21, 15.67it/s]Attaching quantization:  58%|#####8    | 471/812 [00:36<00:31, 10.72it/s]Attaching quantization:  58%|#####8    | 471/812 [00:36<00:31, 10.72it/s]Attaching quantization:  58%|#####8    | 474/812 [00:36<00:25, 13.15it/s]Attaching quantization:  58%|#####8    | 474/812 [00:36<00:25, 13.15it/s]Attaching quantization:  59%|#####8    | 476/812 [00:36<00:23, 14.16it/s]Attaching quantization:  59%|#####8    | 476/812 [00:36<00:23, 14.16it/s]Attaching quantization:  59%|#####8    | 478/812 [00:36<00:22, 15.14it/s]Attaching quantization:  59%|#####8    | 478/812 [00:36<00:22, 15.14it/s]Attaching quantization:  59%|#####9    | 480/812 [00:36<00:26, 12.74it/s]Attaching quantization:  59%|#####9    | 480/812 [00:36<00:26, 12.74it/s]Attaching quantization:  59%|#####9    | 482/812 [00:37<00:28, 11.73it/s]Attaching quantization:  59%|#####9    | 482/812 [00:37<00:28, 11.73it/s]Attaching quantization:  60%|#####9    | 485/812 [00:37<00:23, 13.89it/s]Attaching quantization:  60%|#####9    | 485/812 [00:37<00:23, 13.89it/s]Attaching quantization:  60%|#####9    | 487/812 [00:37<00:21, 14.86it/s]Attaching quantization:  60%|#####9    | 487/812 [00:37<00:21, 14.86it/s]Attaching quantization:  60%|######    | 489/812 [00:37<00:20, 15.78it/s]Attaching quantization:  60%|######    | 489/812 [00:37<00:20, 15.78it/s]Attaching quantization:  60%|######    | 491/812 [00:37<00:31, 10.30it/s]Attaching quantization:  60%|######    | 491/812 [00:37<00:31, 10.30it/s]Attaching quantization:  61%|######    | 493/812 [00:37<00:26, 11.96it/s]Attaching quantization:  61%|######    | 493/812 [00:37<00:26, 11.96it/s]Attaching quantization:  61%|######1   | 496/812 [00:38<00:21, 14.62it/s]Attaching quantization:  61%|######1   | 496/812 [00:38<00:21, 14.62it/s]Attaching quantization:  61%|######1   | 499/812 [00:38<00:19, 15.77it/s]Attaching quantization:  61%|######1   | 499/812 [00:38<00:19, 15.77it/s]Attaching quantization:  62%|######1   | 501/812 [00:38<00:27, 11.28it/s]Attaching quantization:  62%|######1   | 501/812 [00:38<00:27, 11.28it/s]Attaching quantization:  62%|######2   | 504/812 [00:38<00:22, 13.80it/s]Attaching quantization:  62%|######2   | 504/812 [00:38<00:22, 13.80it/s]Attaching quantization:  62%|######2   | 506/812 [00:38<00:20, 14.75it/s]Attaching quantization:  62%|######2   | 506/812 [00:38<00:20, 14.75it/s]Attaching quantization:  63%|######2   | 509/812 [00:38<00:19, 15.91it/s]Attaching quantization:  63%|######2   | 509/812 [00:38<00:19, 15.91it/s]Attaching quantization:  63%|######2   | 511/812 [00:39<00:26, 11.51it/s]Attaching quantization:  63%|######2   | 511/812 [00:39<00:26, 11.51it/s]Attaching quantization:  63%|######3   | 514/812 [00:39<00:21, 14.06it/s]Attaching quantization:  63%|######3   | 514/812 [00:39<00:21, 14.06it/s]Attaching quantization:  64%|######3   | 516/812 [00:39<00:19, 15.08it/s]Attaching quantization:  64%|######3   | 516/812 [00:39<00:19, 15.08it/s]Attaching quantization:  64%|######3   | 518/812 [00:39<00:18, 15.84it/s]Attaching quantization:  64%|######3   | 518/812 [00:39<00:18, 15.84it/s]Attaching quantization:  64%|######4   | 520/812 [00:39<00:23, 12.46it/s]Attaching quantization:  64%|######4   | 520/812 [00:39<00:23, 12.46it/s]Attaching quantization:  64%|######4   | 522/812 [00:40<00:26, 10.95it/s]Attaching quantization:  64%|######4   | 522/812 [00:40<00:26, 10.95it/s]Attaching quantization:  65%|######4   | 525/812 [00:40<00:22, 12.89it/s]Attaching quantization:  65%|######4   | 525/812 [00:40<00:22, 12.89it/s]Attaching quantization:  65%|######4   | 527/812 [00:40<00:20, 13.78it/s]Attaching quantization:  65%|######4   | 527/812 [00:40<00:20, 13.78it/s]Attaching quantization:  65%|######5   | 529/812 [00:40<00:19, 14.73it/s]Attaching quantization:  65%|######5   | 529/812 [00:40<00:19, 14.73it/s]Attaching quantization:  65%|######5   | 531/812 [00:40<00:26, 10.45it/s]Attaching quantization:  65%|######5   | 531/812 [00:40<00:26, 10.45it/s]Attaching quantization:  66%|######5   | 533/812 [00:40<00:23, 11.93it/s]Attaching quantization:  66%|######5   | 533/812 [00:40<00:23, 11.93it/s]Attaching quantization:  66%|######6   | 536/812 [00:41<00:19, 14.29it/s]Attaching quantization:  66%|######6   | 536/812 [00:41<00:19, 14.29it/s]Attaching quantization:  66%|######6   | 538/812 [00:41<00:18, 15.22it/s]Attaching quantization:  66%|######6   | 538/812 [00:41<00:18, 15.22it/s]Attaching quantization:  67%|######6   | 540/812 [00:41<00:21, 12.64it/s]Attaching quantization:  67%|######6   | 540/812 [00:41<00:21, 12.64it/s]Attaching quantization:  67%|######6   | 542/812 [00:41<00:23, 11.48it/s]Attaching quantization:  67%|######6   | 542/812 [00:41<00:23, 11.48it/s]Attaching quantization:  67%|######7   | 545/812 [00:41<00:18, 14.17it/s]Attaching quantization:  67%|######7   | 545/812 [00:41<00:18, 14.17it/s]Attaching quantization:  67%|######7   | 547/812 [00:41<00:17, 15.34it/s]Attaching quantization:  67%|######7   | 547/812 [00:41<00:17, 15.34it/s]Attaching quantization:  68%|######7   | 550/812 [00:42<00:19, 13.76it/s]Attaching quantization:  68%|######7   | 550/812 [00:42<00:19, 13.76it/s]Attaching quantization:  68%|######7   | 552/812 [00:42<00:21, 12.27it/s]Attaching quantization:  68%|######7   | 552/812 [00:42<00:21, 12.27it/s]Attaching quantization:  68%|######8   | 554/812 [00:42<00:19, 13.52it/s]Attaching quantization:  68%|######8   | 554/812 [00:42<00:19, 13.52it/s]Attaching quantization:  68%|######8   | 556/812 [00:42<00:17, 14.57it/s]Attaching quantization:  68%|######8   | 556/812 [00:42<00:17, 14.57it/s]Attaching quantization:  69%|######8   | 558/812 [00:42<00:16, 15.48it/s]Attaching quantization:  69%|######8   | 558/812 [00:42<00:16, 15.48it/s]Attaching quantization:  69%|######8   | 560/812 [00:42<00:19, 13.05it/s]Attaching quantization:  69%|######8   | 560/812 [00:42<00:19, 13.05it/s]Attaching quantization:  69%|######9   | 562/812 [00:43<00:21, 11.71it/s]Attaching quantization:  69%|######9   | 562/812 [00:43<00:21, 11.71it/s]Attaching quantization:  70%|######9   | 565/812 [00:43<00:17, 14.01it/s]Attaching quantization:  70%|######9   | 565/812 [00:43<00:17, 14.01it/s]Attaching quantization:  70%|######9   | 567/812 [00:43<00:16, 14.98it/s]Attaching quantization:  70%|######9   | 567/812 [00:43<00:16, 14.98it/s]Attaching quantization:  70%|#######   | 570/812 [00:43<00:17, 13.62it/s]Attaching quantization:  70%|#######   | 570/812 [00:43<00:17, 13.62it/s]Attaching quantization:  70%|#######   | 572/812 [00:43<00:19, 12.32it/s]Attaching quantization:  70%|#######   | 572/812 [00:43<00:19, 12.32it/s]Attaching quantization:  71%|#######   | 575/812 [00:43<00:16, 14.12it/s]Attaching quantization:  71%|#######   | 575/812 [00:43<00:16, 14.12it/s]Attaching quantization:  71%|#######1  | 577/812 [00:44<00:15, 15.05it/s]Attaching quantization:  71%|#######1  | 577/812 [00:44<00:15, 15.05it/s]Attaching quantization:  71%|#######1  | 579/812 [00:44<00:14, 15.81it/s]Attaching quantization:  71%|#######1  | 579/812 [00:44<00:14, 15.81it/s]Attaching quantization:  72%|#######1  | 581/812 [00:44<00:20, 11.05it/s]Attaching quantization:  72%|#######1  | 581/812 [00:44<00:20, 11.05it/s]Attaching quantization:  72%|#######1  | 584/812 [00:44<00:17, 13.25it/s]Attaching quantization:  72%|#######1  | 584/812 [00:44<00:17, 13.25it/s]Attaching quantization:  72%|#######2  | 587/812 [00:44<00:14, 15.22it/s]Attaching quantization:  72%|#######2  | 587/812 [00:44<00:14, 15.22it/s]Attaching quantization:  73%|#######2  | 590/812 [00:45<00:16, 13.52it/s]Attaching quantization:  73%|#######2  | 590/812 [00:45<00:16, 13.52it/s]Attaching quantization:  73%|#######2  | 592/812 [00:45<00:17, 12.33it/s]Attaching quantization:  73%|#######2  | 592/812 [00:45<00:17, 12.33it/s]Attaching quantization:  73%|#######3  | 594/812 [00:45<00:16, 13.53it/s]Attaching quantization:  73%|#######3  | 594/812 [00:45<00:16, 13.53it/s]Attaching quantization:  73%|#######3  | 596/812 [00:45<00:14, 14.51it/s]Attaching quantization:  73%|#######3  | 596/812 [00:45<00:14, 14.51it/s]Attaching quantization:  74%|#######3  | 599/812 [00:45<00:13, 15.97it/s]Attaching quantization:  74%|#######3  | 599/812 [00:45<00:13, 15.97it/s]Attaching quantization:  74%|#######4  | 601/812 [00:46<00:19, 10.89it/s]Attaching quantization:  74%|#######4  | 601/812 [00:46<00:19, 10.89it/s]Attaching quantization:  74%|#######4  | 604/812 [00:46<00:15, 13.00it/s]Attaching quantization:  74%|#######4  | 604/812 [00:46<00:15, 13.00it/s]Attaching quantization:  75%|#######4  | 606/812 [00:46<00:14, 13.77it/s]Attaching quantization:  75%|#######4  | 606/812 [00:46<00:14, 13.77it/s]Attaching quantization:  75%|#######4  | 608/812 [00:46<00:13, 14.57it/s]Attaching quantization:  75%|#######4  | 608/812 [00:46<00:13, 14.57it/s]Attaching quantization:  75%|#######5  | 610/812 [00:46<00:16, 12.30it/s]Attaching quantization:  75%|#######5  | 610/812 [00:46<00:16, 12.30it/s]Attaching quantization:  75%|#######5  | 612/812 [00:46<00:17, 11.21it/s]Attaching quantization:  75%|#######5  | 612/812 [00:46<00:17, 11.21it/s]Attaching quantization:  76%|#######5  | 615/812 [00:46<00:14, 13.97it/s]Attaching quantization:  76%|#######5  | 615/812 [00:46<00:14, 13.97it/s]Attaching quantization:  76%|#######6  | 618/812 [00:47<00:11, 16.68it/s]Attaching quantization:  76%|#######6  | 618/812 [00:47<00:11, 16.68it/s]Attaching quantization:  76%|#######6  | 620/812 [00:47<00:14, 13.71it/s]Attaching quantization:  76%|#######6  | 620/812 [00:47<00:14, 13.71it/s]Attaching quantization:  77%|#######6  | 622/812 [00:47<00:15, 12.20it/s]Attaching quantization:  77%|#######6  | 622/812 [00:47<00:15, 12.20it/s]Attaching quantization:  77%|#######6  | 625/812 [00:47<00:13, 14.18it/s]Attaching quantization:  77%|#######6  | 625/812 [00:47<00:13, 14.18it/s]Attaching quantization:  77%|#######7  | 627/812 [00:47<00:12, 15.15it/s]Attaching quantization:  77%|#######7  | 627/812 [00:47<00:12, 15.15it/s]Attaching quantization:  77%|#######7  | 629/812 [00:47<00:11, 15.86it/s]Attaching quantization:  77%|#######7  | 629/812 [00:47<00:11, 15.86it/s]Attaching quantization:  78%|#######7  | 631/812 [00:48<00:16, 10.94it/s]Attaching quantization:  78%|#######7  | 631/812 [00:48<00:16, 10.94it/s]Attaching quantization:  78%|#######8  | 634/812 [00:48<00:13, 13.12it/s]Attaching quantization:  78%|#######8  | 634/812 [00:48<00:13, 13.12it/s]Attaching quantization:  78%|#######8  | 637/812 [00:48<00:11, 15.08it/s]Attaching quantization:  78%|#######8  | 637/812 [00:48<00:11, 15.08it/s]Attaching quantization:  79%|#######8  | 639/812 [00:48<00:10, 15.83it/s]Attaching quantization:  79%|#######8  | 639/812 [00:48<00:10, 15.83it/s]Attaching quantization:  79%|#######8  | 641/812 [00:48<00:15, 10.94it/s]Attaching quantization:  79%|#######8  | 641/812 [00:48<00:15, 10.94it/s]Attaching quantization:  79%|#######9  | 644/812 [00:49<00:12, 13.55it/s]Attaching quantization:  79%|#######9  | 644/812 [00:49<00:12, 13.55it/s]Attaching quantization:  80%|#######9  | 647/812 [00:49<00:10, 15.60it/s]Attaching quantization:  80%|#######9  | 647/812 [00:49<00:10, 15.60it/s]Attaching quantization:  80%|#######9  | 649/812 [00:49<00:10, 15.76it/s]Attaching quantization:  80%|#######9  | 649/812 [00:49<00:10, 15.76it/s]Attaching quantization:  80%|########  | 651/812 [00:49<00:14, 11.30it/s]Attaching quantization:  80%|########  | 651/812 [00:49<00:14, 11.30it/s]Attaching quantization:  81%|########  | 654/812 [00:49<00:11, 13.60it/s]Attaching quantization:  81%|########  | 654/812 [00:49<00:11, 13.60it/s]Attaching quantization:  81%|########  | 657/812 [00:49<00:10, 15.11it/s]Attaching quantization:  81%|########  | 657/812 [00:49<00:10, 15.11it/s]Attaching quantization:  81%|########1 | 659/812 [00:50<00:09, 15.96it/s]Attaching quantization:  81%|########1 | 659/812 [00:50<00:09, 15.96it/s]Attaching quantization:  81%|########1 | 661/812 [00:50<00:13, 11.34it/s]Attaching quantization:  81%|########1 | 661/812 [00:50<00:13, 11.34it/s]Attaching quantization:  82%|########1 | 664/812 [00:50<00:11, 13.31it/s]Attaching quantization:  82%|########1 | 664/812 [00:50<00:11, 13.31it/s]Attaching quantization:  82%|########2 | 666/812 [00:50<00:10, 14.30it/s]Attaching quantization:  82%|########2 | 666/812 [00:50<00:10, 14.30it/s]Attaching quantization:  82%|########2 | 668/812 [00:50<00:09, 15.16it/s]Attaching quantization:  82%|########2 | 668/812 [00:50<00:09, 15.16it/s]Attaching quantization:  83%|########2 | 670/812 [00:51<00:11, 12.77it/s]Attaching quantization:  83%|########2 | 670/812 [00:51<00:11, 12.77it/s]Attaching quantization:  83%|########2 | 672/812 [00:51<00:11, 11.76it/s]Attaching quantization:  83%|########2 | 672/812 [00:51<00:11, 11.76it/s]Attaching quantization:  83%|########3 | 675/812 [00:51<00:09, 14.26it/s]Attaching quantization:  83%|########3 | 675/812 [00:51<00:09, 14.26it/s]Attaching quantization:  83%|########3 | 677/812 [00:51<00:09, 14.69it/s]Attaching quantization:  83%|########3 | 677/812 [00:51<00:09, 14.69it/s]Attaching quantization:  84%|########3 | 679/812 [00:51<00:08, 15.55it/s]Attaching quantization:  84%|########3 | 679/812 [00:51<00:08, 15.55it/s]Attaching quantization:  84%|########3 | 681/812 [00:51<00:11, 11.02it/s]Attaching quantization:  84%|########3 | 681/812 [00:51<00:11, 11.02it/s]Attaching quantization:  84%|########4 | 684/812 [00:52<00:09, 13.53it/s]Attaching quantization:  84%|########4 | 684/812 [00:52<00:09, 13.53it/s]Attaching quantization:  85%|########4 | 687/812 [00:52<00:08, 15.20it/s]Attaching quantization:  85%|########4 | 687/812 [00:52<00:08, 15.20it/s]Attaching quantization:  85%|########4 | 689/812 [00:52<00:07, 16.15it/s]Attaching quantization:  85%|########4 | 689/812 [00:52<00:07, 16.15it/s]Attaching quantization:  85%|########5 | 691/812 [00:52<00:10, 11.29it/s]Attaching quantization:  85%|########5 | 691/812 [00:52<00:10, 11.29it/s]Attaching quantization:  85%|########5 | 694/812 [00:52<00:08, 13.78it/s]Attaching quantization:  85%|########5 | 694/812 [00:52<00:08, 13.78it/s]Attaching quantization:  86%|########5 | 696/812 [00:52<00:07, 14.93it/s]Attaching quantization:  86%|########5 | 696/812 [00:52<00:07, 14.93it/s]Attaching quantization:  86%|########5 | 698/812 [00:52<00:07, 15.32it/s]Attaching quantization:  86%|########5 | 698/812 [00:52<00:07, 15.32it/s]Attaching quantization:  86%|########6 | 700/812 [00:53<00:08, 12.93it/s]Attaching quantization:  86%|########6 | 700/812 [00:53<00:08, 12.93it/s]Attaching quantization:  86%|########6 | 702/812 [00:53<00:09, 11.88it/s]Attaching quantization:  86%|########6 | 702/812 [00:53<00:09, 11.88it/s]Attaching quantization:  87%|########6 | 704/812 [00:53<00:08, 13.37it/s]Attaching quantization:  87%|########6 | 704/812 [00:53<00:08, 13.37it/s]Attaching quantization:  87%|########6 | 706/812 [00:53<00:07, 14.50it/s]Attaching quantization:  87%|########6 | 706/812 [00:53<00:07, 14.50it/s]Attaching quantization:  87%|########7 | 708/812 [00:53<00:06, 15.73it/s]Attaching quantization:  87%|########7 | 708/812 [00:53<00:06, 15.73it/s]Attaching quantization:  87%|########7 | 710/812 [00:53<00:07, 12.93it/s]Attaching quantization:  87%|########7 | 710/812 [00:53<00:07, 12.93it/s]Attaching quantization:  88%|########7 | 712/812 [00:54<00:08, 11.81it/s]Attaching quantization:  88%|########7 | 712/812 [00:54<00:08, 11.81it/s]Attaching quantization:  88%|########8 | 715/812 [00:54<00:06, 14.89it/s]Attaching quantization:  88%|########8 | 715/812 [00:54<00:06, 14.89it/s]Attaching quantization:  88%|########8 | 718/812 [00:54<00:05, 16.52it/s]Attaching quantization:  88%|########8 | 718/812 [00:54<00:05, 16.52it/s]Attaching quantization:  89%|########8 | 720/812 [00:54<00:06, 13.65it/s]Attaching quantization:  89%|########8 | 720/812 [00:54<00:06, 13.65it/s]Attaching quantization:  89%|########8 | 722/812 [00:54<00:07, 12.30it/s]Attaching quantization:  89%|########8 | 722/812 [00:54<00:07, 12.30it/s]Attaching quantization:  89%|########9 | 725/812 [00:54<00:06, 14.18it/s]Attaching quantization:  89%|########9 | 725/812 [00:54<00:06, 14.18it/s]Attaching quantization:  90%|########9 | 727/812 [00:55<00:05, 15.10it/s]Attaching quantization:  90%|########9 | 727/812 [00:55<00:05, 15.10it/s]Attaching quantization:  90%|########9 | 730/812 [00:55<00:06, 13.29it/s]Attaching quantization:  90%|########9 | 730/812 [00:55<00:06, 13.29it/s]Attaching quantization:  90%|######### | 732/812 [00:55<00:06, 11.78it/s]Attaching quantization:  90%|######### | 732/812 [00:55<00:06, 11.78it/s]Attaching quantization:  90%|######### | 734/812 [00:55<00:06, 12.93it/s]Attaching quantization:  90%|######### | 734/812 [00:55<00:06, 12.93it/s]Attaching quantization:  91%|######### | 736/812 [00:55<00:05, 14.09it/s]Attaching quantization:  91%|######### | 736/812 [00:55<00:05, 14.09it/s]Attaching quantization:  91%|######### | 738/812 [00:55<00:05, 14.56it/s]Attaching quantization:  91%|######### | 738/812 [00:55<00:05, 14.56it/s]Attaching quantization:  91%|#########1| 740/812 [00:56<00:06, 11.05it/s]Attaching quantization:  91%|#########1| 740/812 [00:56<00:06, 11.05it/s]Attaching quantization:  91%|#########1| 742/812 [00:56<00:07,  9.85it/s]Attaching quantization:  91%|#########1| 742/812 [00:56<00:07,  9.85it/s]Attaching quantization:  92%|#########1| 744/812 [00:56<00:05, 11.40it/s]Attaching quantization:  92%|#########1| 744/812 [00:56<00:05, 11.40it/s]Attaching quantization:  92%|#########1| 746/812 [00:56<00:05, 12.34it/s]Attaching quantization:  92%|#########1| 746/812 [00:56<00:05, 12.34it/s]Attaching quantization:  92%|#########2| 748/812 [00:56<00:04, 13.21it/s]Attaching quantization:  92%|#########2| 748/812 [00:56<00:04, 13.21it/s]Attaching quantization:  92%|#########2| 750/812 [00:57<00:05, 10.71it/s]Attaching quantization:  92%|#########2| 750/812 [00:57<00:05, 10.71it/s]Attaching quantization:  93%|#########2| 752/812 [00:57<00:05, 10.17it/s]Attaching quantization:  93%|#########2| 752/812 [00:57<00:05, 10.17it/s]Attaching quantization:  93%|#########2| 754/812 [00:57<00:04, 11.89it/s]Attaching quantization:  93%|#########2| 754/812 [00:57<00:04, 11.89it/s]Attaching quantization:  93%|#########3| 756/812 [00:57<00:04, 12.77it/s]Attaching quantization:  93%|#########3| 756/812 [00:57<00:04, 12.77it/s]Attaching quantization:  93%|#########3| 758/812 [00:57<00:03, 13.87it/s]Attaching quantization:  93%|#########3| 758/812 [00:57<00:03, 13.87it/s]Attaching quantization:  94%|#########3| 760/812 [00:57<00:04, 11.74it/s]Attaching quantization:  94%|#########3| 760/812 [00:57<00:04, 11.74it/s]Attaching quantization:  94%|#########3| 762/812 [00:58<00:04, 10.88it/s]Attaching quantization:  94%|#########3| 762/812 [00:58<00:04, 10.88it/s]Attaching quantization:  94%|#########4| 765/812 [00:58<00:03, 13.06it/s]Attaching quantization:  94%|#########4| 765/812 [00:58<00:03, 13.06it/s]Attaching quantization:  94%|#########4| 767/812 [00:58<00:03, 14.14it/s]Attaching quantization:  94%|#########4| 767/812 [00:58<00:03, 14.14it/s]Attaching quantization:  95%|#########4| 769/812 [00:58<00:02, 15.18it/s]Attaching quantization:  95%|#########4| 769/812 [00:58<00:02, 15.18it/s]Attaching quantization:  95%|#########4| 771/812 [00:58<00:03, 10.58it/s]Attaching quantization:  95%|#########4| 771/812 [00:58<00:03, 10.58it/s]Attaching quantization:  95%|#########5| 774/812 [00:58<00:02, 13.19it/s]Attaching quantization:  95%|#########5| 774/812 [00:58<00:02, 13.19it/s]Attaching quantization:  96%|#########5| 776/812 [00:59<00:02, 14.29it/s]Attaching quantization:  96%|#########5| 776/812 [00:59<00:02, 14.29it/s]Attaching quantization:  96%|#########5| 778/812 [00:59<00:02, 15.21it/s]Attaching quantization:  96%|#########5| 778/812 [00:59<00:02, 15.21it/s]Attaching quantization:  96%|#########6| 780/812 [00:59<00:02, 12.91it/s]Attaching quantization:  96%|#########6| 780/812 [00:59<00:02, 12.91it/s]Attaching quantization:  96%|#########6| 782/812 [00:59<00:02, 11.89it/s]Attaching quantization:  96%|#########6| 782/812 [00:59<00:02, 11.89it/s]Attaching quantization:  97%|#########6| 785/812 [00:59<00:01, 14.24it/s]Attaching quantization:  97%|#########6| 785/812 [00:59<00:01, 14.24it/s]Attaching quantization:  97%|#########7| 788/812 [00:59<00:01, 16.05it/s]Attaching quantization:  97%|#########7| 788/812 [00:59<00:01, 16.05it/s]Attaching quantization:  97%|#########7| 790/812 [01:00<00:01, 13.48it/s]Attaching quantization:  97%|#########7| 790/812 [01:00<00:01, 13.48it/s]Attaching quantization:  98%|#########7| 792/812 [01:00<00:01, 12.28it/s]Attaching quantization:  98%|#########7| 792/812 [01:00<00:01, 12.28it/s]Attaching quantization:  98%|#########7| 794/812 [01:00<00:01, 13.63it/s]Attaching quantization:  98%|#########7| 794/812 [01:00<00:01, 13.63it/s]Attaching quantization:  98%|#########8| 796/812 [01:00<00:01, 14.77it/s]Attaching quantization:  98%|#########8| 796/812 [01:00<00:01, 14.77it/s]Attaching quantization:  98%|#########8| 799/812 [01:00<00:00, 16.21it/s]Attaching quantization:  98%|#########8| 799/812 [01:00<00:00, 16.21it/s]Attaching quantization:  99%|#########8| 801/812 [01:00<00:00, 11.56it/s]Attaching quantization:  99%|#########8| 801/812 [01:00<00:00, 11.56it/s]Attaching quantization:  99%|#########9| 804/812 [01:01<00:00, 14.10it/s]Attaching quantization:  99%|#########9| 804/812 [01:01<00:00, 14.10it/s]Attaching quantization:  99%|#########9| 807/812 [01:01<00:00, 15.65it/s]Attaching quantization:  99%|#########9| 807/812 [01:01<00:00, 15.65it/s]Attaching quantization: 100%|#########9| 810/812 [01:01<00:00, 14.06it/s]Attaching quantization: 100%|#########9| 810/812 [01:01<00:00, 14.06it/s]Attaching quantization: 100%|##########| 812/812 [01:01<00:00, 13.65it/s]Attaching quantization: 100%|##########| 812/812 [01:01<00:00, 13.65it/s]Attaching quantization: 100%|##########| 812/812 [01:01<00:00, 13.16it/s]Attaching quantization: 100%|##########| 812/812 [01:01<00:00, 13.16it/s]
+
+ - quantizing additional layers
+Loading UMT5EncoderModel
+tokenizer_config.json: 0.00B [00:00, ?B/s]tokenizer_config.json: 0.00B [00:00, ?B/s]tokenizer_config.json: 61.8kB [00:00, 187MB/s]tokenizer_config.json: 61.8kB [00:00, 187MB/s]
+
+tokenizer/spiece.model:   0%|          | 0.00/4.55M [00:00<?, ?B/s]tokenizer/spiece.model:   0%|          | 0.00/4.55M [00:00<?, ?B/s]tokenizer/spiece.model:   3%|2         | 130k/4.55M [00:00<00:26, 169kB/s]tokenizer/spiece.model:   3%|2         | 130k/4.55M [00:00<00:26, 169kB/s]tokenizer/spiece.model: 100%|##########| 4.55M/4.55M [00:00<00:00, 5.90MB/s]tokenizer/spiece.model: 100%|##########| 4.55M/4.55M [00:00<00:00, 5.90MB/s]
+
+added_tokens.json: 0.00B [00:00, ?B/s]added_tokens.json: 0.00B [00:00, ?B/s]added_tokens.json: 8.29kB [00:00, 30.1MB/s]added_tokens.json: 8.29kB [00:00, 30.1MB/s]
+
+special_tokens_map.json: 0.00B [00:00, ?B/s]special_tokens_map.json: 0.00B [00:00, ?B/s]special_tokens_map.json: 7.08kB [00:00, 26.5MB/s]special_tokens_map.json: 7.08kB [00:00, 26.5MB/s]
+
+You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers
+You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers
+Using ai-toolkit/umt5_xxl_encoder for UMT5 encoder.
+config.json:   0%|          | 0.00/812 [00:00<?, ?B/s]config.json:   0%|          | 0.00/812 [00:00<?, ?B/s]config.json: 100%|##########| 812/812 [00:00<00:00, 6.32MB/s]config.json: 100%|##########| 812/812 [00:00<00:00, 6.32MB/s]
+
+model.safetensors.index.json: 0.00B [00:00, ?B/s]model.safetensors.index.json: 0.00B [00:00, ?B/s]model.safetensors.index.json: 22.5kB [00:00, 68.9MB/s]model.safetensors.index.json: 22.5kB [00:00, 68.9MB/s]
+
+text_encoder/model-00001-of-00003.safete(…):   0%|          | 0.00/4.94G [00:00<?, ?B/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 0.00/4.94G [00:00<?, ?B/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 764k/4.94G [00:00<1:32:42, 887kB/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 764k/4.94G [00:00<1:32:42, 887kB/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 3.06M/4.94G [00:01<38:45, 2.12MB/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 3.06M/4.94G [00:01<38:45, 2.12MB/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 4.45M/4.94G [00:01<26:44, 3.07MB/s]text_encoder/model-00001-of-00003.safete(…):   0%|          | 4.45M/4.94G [00:01<26:44, 3.07MB/s]text_encoder/model-00001-of-00003.safete(…):   1%|1         | 71.5M/4.94G [00:02<02:20, 34.7MB/s]text_encoder/model-00001-of-00003.safete(…):   1%|1         | 71.5M/4.94G [00:02<02:20, 34.7MB/s]text_encoder/model-00001-of-00003.safete(…):   3%|2         | 139M/4.94G [00:03<01:26, 55.5MB/s] text_encoder/model-00001-of-00003.safete(…):   3%|2         | 139M/4.94G [00:03<01:26, 55.5MB/s] text_encoder/model-00001-of-00003.safete(…):   4%|4         | 206M/4.94G [00:03<00:50, 93.5MB/s]text_encoder/model-00001-of-00003.safete(…):   4%|4         | 206M/4.94G [00:03<00:50, 93.5MB/s]text_encoder/model-00001-of-00003.safete(…):   6%|5         | 273M/4.94G [00:03<00:33, 139MB/s] text_encoder/model-00001-of-00003.safete(…):   6%|5         | 273M/4.94G [00:03<00:33, 139MB/s] text_encoder/model-00001-of-00003.safete(…):   8%|8         | 407M/4.94G [00:04<00:20, 219MB/s]text_encoder/model-00001-of-00003.safete(…):   8%|8         | 407M/4.94G [00:04<00:20, 219MB/s]text_encoder/model-00001-of-00003.safete(…):  11%|#         | 539M/4.94G [00:04<00:19, 227MB/s]text_encoder/model-00001-of-00003.safete(…):  11%|#         | 539M/4.94G [00:04<00:19, 227MB/s]text_encoder/model-00001-of-00003.safete(…):  12%|#2        | 606M/4.94G [00:04<00:17, 249MB/s]text_encoder/model-00001-of-00003.safete(…):  12%|#2        | 606M/4.94G [00:04<00:17, 249MB/s]text_encoder/model-00001-of-00003.safete(…):  14%|#3        | 674M/4.94G [00:05<00:15, 278MB/s]text_encoder/model-00001-of-00003.safete(…):  14%|#3        | 674M/4.94G [00:05<00:15, 278MB/s]text_encoder/model-00001-of-00003.safete(…):  18%|#7        | 875M/4.94G [00:05<00:08, 464MB/s]text_encoder/model-00001-of-00003.safete(…):  18%|#7        | 875M/4.94G [00:05<00:08, 464MB/s]text_encoder/model-00001-of-00003.safete(…):  20%|##        | 1.01G/4.94G [00:05<00:08, 442MB/s]text_encoder/model-00001-of-00003.safete(…):  20%|##        | 1.01G/4.94G [00:05<00:08, 442MB/s]text_encoder/model-00001-of-00003.safete(…):  22%|##1       | 1.08G/4.94G [00:06<00:17, 225MB/s]text_encoder/model-00001-of-00003.safete(…):  22%|##1       | 1.08G/4.94G [00:06<00:17, 225MB/s]text_encoder/model-00001-of-00003.safete(…):  25%|##4       | 1.21G/4.94G [00:06<00:12, 294MB/s]text_encoder/model-00001-of-00003.safete(…):  25%|##4       | 1.21G/4.94G [00:06<00:12, 294MB/s]text_encoder/model-00001-of-00003.safete(…):  27%|##7       | 1.35G/4.94G [00:07<00:17, 208MB/s]text_encoder/model-00001-of-00003.safete(…):  27%|##7       | 1.35G/4.94G [00:07<00:17, 208MB/s]text_encoder/model-00001-of-00003.safete(…):  29%|##8       | 1.41G/4.94G [00:07<00:16, 219MB/s]text_encoder/model-00001-of-00003.safete(…):  29%|##8       | 1.41G/4.94G [00:07<00:16, 219MB/s]text_encoder/model-00001-of-00003.safete(…):  30%|###       | 1.48G/4.94G [00:08<00:20, 170MB/s]text_encoder/model-00001-of-00003.safete(…):  30%|###       | 1.48G/4.94G [00:08<00:20, 170MB/s]text_encoder/model-00001-of-00003.safete(…):  37%|###6      | 1.82G/4.94G [00:08<00:07, 391MB/s]text_encoder/model-00001-of-00003.safete(…):  37%|###6      | 1.82G/4.94G [00:08<00:07, 391MB/s]text_encoder/model-00001-of-00003.safete(…):  40%|###9      | 1.95G/4.94G [00:09<00:08, 366MB/s]text_encoder/model-00001-of-00003.safete(…):  40%|###9      | 1.95G/4.94G [00:09<00:08, 366MB/s]text_encoder/model-00001-of-00003.safete(…):  42%|####2     | 2.09G/4.94G [00:09<00:09, 312MB/s]text_encoder/model-00001-of-00003.safete(…):  42%|####2     | 2.09G/4.94G [00:09<00:09, 312MB/s]text_encoder/model-00001-of-00003.safete(…):  44%|####3     | 2.15G/4.94G [00:10<00:09, 304MB/s]text_encoder/model-00001-of-00003.safete(…):  44%|####3     | 2.15G/4.94G [00:10<00:09, 304MB/s]text_encoder/model-00001-of-00003.safete(…):  49%|####9     | 2.42G/4.94G [00:10<00:05, 477MB/s]text_encoder/model-00001-of-00003.safete(…):  49%|####9     | 2.42G/4.94G [00:10<00:05, 477MB/s]text_encoder/model-00001-of-00003.safete(…):  52%|#####1    | 2.55G/4.94G [00:10<00:05, 454MB/s]text_encoder/model-00001-of-00003.safete(…):  52%|#####1    | 2.55G/4.94G [00:10<00:05, 454MB/s]text_encoder/model-00001-of-00003.safete(…):  54%|#####4    | 2.69G/4.94G [00:10<00:04, 490MB/s]text_encoder/model-00001-of-00003.safete(…):  54%|#####4    | 2.69G/4.94G [00:10<00:04, 490MB/s]text_encoder/model-00001-of-00003.safete(…):  59%|#####8    | 2.89G/4.94G [00:11<00:03, 663MB/s]text_encoder/model-00001-of-00003.safete(…):  59%|#####8    | 2.89G/4.94G [00:11<00:03, 663MB/s]text_encoder/model-00001-of-00003.safete(…):  61%|######1   | 3.02G/4.94G [00:11<00:02, 732MB/s]text_encoder/model-00001-of-00003.safete(…):  61%|######1   | 3.02G/4.94G [00:11<00:02, 732MB/s]text_encoder/model-00001-of-00003.safete(…):  65%|######4   | 3.20G/4.94G [00:11<00:02, 851MB/s]text_encoder/model-00001-of-00003.safete(…):  65%|######4   | 3.20G/4.94G [00:11<00:02, 851MB/s]text_encoder/model-00001-of-00003.safete(…):  67%|######7   | 3.33G/4.94G [00:11<00:02, 695MB/s]text_encoder/model-00001-of-00003.safete(…):  67%|######7   | 3.33G/4.94G [00:11<00:02, 695MB/s]text_encoder/model-00001-of-00003.safete(…):  73%|#######2  | 3.59G/4.94G [00:11<00:01, 881MB/s]text_encoder/model-00001-of-00003.safete(…):  73%|#######2  | 3.59G/4.94G [00:11<00:01, 881MB/s]text_encoder/model-00001-of-00003.safete(…):  76%|#######5  | 3.73G/4.94G [00:11<00:01, 936MB/s]text_encoder/model-00001-of-00003.safete(…):  76%|#######5  | 3.73G/4.94G [00:11<00:01, 936MB/s]text_encoder/model-00001-of-00003.safete(…):  80%|#######9  | 3.93G/4.94G [00:12<00:01, 1.00GB/s]text_encoder/model-00001-of-00003.safete(…):  80%|#######9  | 3.93G/4.94G [00:12<00:01, 1.00GB/s]text_encoder/model-00001-of-00003.safete(…):  82%|########2 | 4.06G/4.94G [00:12<00:00, 1.07GB/s]text_encoder/model-00001-of-00003.safete(…):  82%|########2 | 4.06G/4.94G [00:12<00:00, 1.07GB/s]text_encoder/model-00001-of-00003.safete(…):  85%|########5 | 4.20G/4.94G [00:12<00:00, 757MB/s] text_encoder/model-00001-of-00003.safete(…):  85%|########5 | 4.20G/4.94G [00:12<00:00, 757MB/s] text_encoder/model-00001-of-00003.safete(…):  88%|########7 | 4.33G/4.94G [00:12<00:00, 776MB/s]text_encoder/model-00001-of-00003.safete(…):  88%|########7 | 4.33G/4.94G [00:12<00:00, 776MB/s]text_encoder/model-00001-of-00003.safete(…):  93%|#########3| 4.60G/4.94G [00:12<00:00, 1.08GB/s]text_encoder/model-00001-of-00003.safete(…):  93%|#########3| 4.60G/4.94G [00:12<00:00, 1.08GB/s]text_encoder/model-00001-of-00003.safete(…):  96%|#########5| 4.73G/4.94G [00:12<00:00, 1.05GB/s]text_encoder/model-00001-of-00003.safete(…):  96%|#########5| 4.73G/4.94G [00:12<00:00, 1.05GB/s]text_encoder/model-00001-of-00003.safete(…):  99%|#########8| 4.87G/4.94G [00:13<00:00, 1.07GB/s]text_encoder/model-00001-of-00003.safete(…):  99%|#########8| 4.87G/4.94G [00:13<00:00, 1.07GB/s]text_encoder/model-00001-of-00003.safete(…): 100%|##########| 4.94G/4.94G [00:13<00:00, 378MB/s] text_encoder/model-00001-of-00003.safete(…): 100%|##########| 4.94G/4.94G [00:13<00:00, 378MB/s] 
+
+text_encoder/model-00002-of-00003.safete(…):   0%|          | 0.00/4.98G [00:00<?, ?B/s]text_encoder/model-00002-of-00003.safete(…):   0%|          | 0.00/4.98G [00:00<?, ?B/s]text_encoder/model-00002-of-00003.safete(…):   0%|          | 710k/4.98G [00:00<56:21, 1.47MB/s]text_encoder/model-00002-of-00003.safete(…):   0%|          | 710k/4.98G [00:00<56:21, 1.47MB/s]text_encoder/model-00002-of-00003.safete(…):   0%|          | 2.12M/4.98G [00:02<1:34:08, 882kB/s]text_encoder/model-00002-of-00003.safete(…):   0%|          | 2.12M/4.98G [00:02<1:34:08, 882kB/s]text_encoder/model-00002-of-00003.safete(…):   1%|1         | 69.2M/4.98G [00:02<02:24, 33.9MB/s] text_encoder/model-00002-of-00003.safete(…):   1%|1         | 69.2M/4.98G [00:02<02:24, 33.9MB/s] text_encoder/model-00002-of-00003.safete(…):   3%|2         | 136M/4.98G [00:03<01:18, 61.4MB/s] text_encoder/model-00002-of-00003.safete(…):   3%|2         | 136M/4.98G [00:03<01:18, 61.4MB/s] text_encoder/model-00002-of-00003.safete(…):   4%|4         | 203M/4.98G [00:04<01:13, 64.7MB/s]text_encoder/model-00002-of-00003.safete(…):   4%|4         | 203M/4.98G [00:04<01:13, 64.7MB/s]text_encoder/model-00002-of-00003.safete(…):  14%|#3        | 675M/4.98G [00:04<00:14, 293MB/s] text_encoder/model-00002-of-00003.safete(…):  14%|#3        | 675M/4.98G [00:04<00:14, 293MB/s] text_encoder/model-00002-of-00003.safete(…):  16%|#6        | 812M/4.98G [00:04<00:12, 325MB/s]text_encoder/model-00002-of-00003.safete(…):  16%|#6        | 812M/4.98G [00:04<00:12, 325MB/s]text_encoder/model-00002-of-00003.safete(…):  18%|#7        | 879M/4.98G [00:05<00:14, 281MB/s]text_encoder/model-00002-of-00003.safete(…):  18%|#7        | 879M/4.98G [00:05<00:14, 281MB/s]text_encoder/model-00002-of-00003.safete(…):  19%|#8        | 946M/4.98G [00:05<00:15, 266MB/s]text_encoder/model-00002-of-00003.safete(…):  19%|#8        | 946M/4.98G [00:05<00:15, 266MB/s]text_encoder/model-00002-of-00003.safete(…):  20%|##        | 1.01G/4.98G [00:06<00:17, 227MB/s]text_encoder/model-00002-of-00003.safete(…):  20%|##        | 1.01G/4.98G [00:06<00:17, 227MB/s]text_encoder/model-00002-of-00003.safete(…):  23%|##3       | 1.15G/4.98G [00:06<00:16, 237MB/s]text_encoder/model-00002-of-00003.safete(…):  23%|##3       | 1.15G/4.98G [00:06<00:16, 237MB/s]text_encoder/model-00002-of-00003.safete(…):  24%|##4       | 1.21G/4.98G [00:06<00:15, 251MB/s]text_encoder/model-00002-of-00003.safete(…):  24%|##4       | 1.21G/4.98G [00:06<00:15, 251MB/s]text_encoder/model-00002-of-00003.safete(…):  26%|##5       | 1.28G/4.98G [00:07<00:15, 240MB/s]text_encoder/model-00002-of-00003.safete(…):  26%|##5       | 1.28G/4.98G [00:07<00:15, 240MB/s]text_encoder/model-00002-of-00003.safete(…):  27%|##7       | 1.35G/4.98G [00:07<00:13, 273MB/s]text_encoder/model-00002-of-00003.safete(…):  27%|##7       | 1.35G/4.98G [00:07<00:13, 273MB/s]text_encoder/model-00002-of-00003.safete(…):  30%|##9       | 1.48G/4.98G [00:07<00:11, 292MB/s]text_encoder/model-00002-of-00003.safete(…):  30%|##9       | 1.48G/4.98G [00:07<00:11, 292MB/s]text_encoder/model-00002-of-00003.safete(…):  32%|###2      | 1.62G/4.98G [00:07<00:08, 410MB/s]text_encoder/model-00002-of-00003.safete(…):  32%|###2      | 1.62G/4.98G [00:07<00:08, 410MB/s]text_encoder/model-00002-of-00003.safete(…):  34%|###3      | 1.68G/4.98G [00:08<00:10, 313MB/s]text_encoder/model-00002-of-00003.safete(…):  34%|###3      | 1.68G/4.98G [00:08<00:10, 313MB/s]text_encoder/model-00002-of-00003.safete(…):  35%|###5      | 1.75G/4.98G [00:08<00:09, 346MB/s]text_encoder/model-00002-of-00003.safete(…):  35%|###5      | 1.75G/4.98G [00:08<00:09, 346MB/s]text_encoder/model-00002-of-00003.safete(…):  38%|###7      | 1.89G/4.98G [00:08<00:06, 457MB/s]text_encoder/model-00002-of-00003.safete(…):  38%|###7      | 1.89G/4.98G [00:08<00:06, 457MB/s]text_encoder/model-00002-of-00003.safete(…):  40%|####      | 2.02G/4.98G [00:08<00:05, 498MB/s]text_encoder/model-00002-of-00003.safete(…):  40%|####      | 2.02G/4.98G [00:08<00:05, 498MB/s]text_encoder/model-00002-of-00003.safete(…):  42%|####1     | 2.08G/4.98G [00:08<00:06, 418MB/s]text_encoder/model-00002-of-00003.safete(…):  42%|####1     | 2.08G/4.98G [00:08<00:06, 418MB/s]text_encoder/model-00002-of-00003.safete(…):  46%|####5     | 2.28G/4.98G [00:09<00:04, 601MB/s]text_encoder/model-00002-of-00003.safete(…):  46%|####5     | 2.28G/4.98G [00:09<00:04, 601MB/s]text_encoder/model-00002-of-00003.safete(…):  48%|####7     | 2.37G/4.98G [00:09<00:05, 473MB/s]text_encoder/model-00002-of-00003.safete(…):  48%|####7     | 2.37G/4.98G [00:09<00:05, 473MB/s]text_encoder/model-00002-of-00003.safete(…):  49%|####8     | 2.44G/4.98G [00:09<00:07, 325MB/s]text_encoder/model-00002-of-00003.safete(…):  49%|####8     | 2.44G/4.98G [00:09<00:07, 325MB/s]text_encoder/model-00002-of-00003.safete(…):  50%|#####     | 2.51G/4.98G [00:10<00:08, 282MB/s]text_encoder/model-00002-of-00003.safete(…):  50%|#####     | 2.51G/4.98G [00:10<00:08, 282MB/s]text_encoder/model-00002-of-00003.safete(…):  52%|#####1    | 2.57G/4.98G [00:10<00:07, 309MB/s]text_encoder/model-00002-of-00003.safete(…):  52%|#####1    | 2.57G/4.98G [00:10<00:07, 309MB/s]text_encoder/model-00002-of-00003.safete(…):  53%|#####2    | 2.64G/4.98G [00:10<00:07, 328MB/s]text_encoder/model-00002-of-00003.safete(…):  53%|#####2    | 2.64G/4.98G [00:10<00:07, 328MB/s]text_encoder/model-00002-of-00003.safete(…):  54%|#####4    | 2.71G/4.98G [00:10<00:07, 306MB/s]text_encoder/model-00002-of-00003.safete(…):  54%|#####4    | 2.71G/4.98G [00:10<00:07, 306MB/s]text_encoder/model-00002-of-00003.safete(…):  58%|#####8    | 2.91G/4.98G [00:10<00:03, 550MB/s]text_encoder/model-00002-of-00003.safete(…):  58%|#####8    | 2.91G/4.98G [00:10<00:03, 550MB/s]text_encoder/model-00002-of-00003.safete(…):  64%|######3   | 3.17G/4.98G [00:11<00:02, 842MB/s]text_encoder/model-00002-of-00003.safete(…):  64%|######3   | 3.17G/4.98G [00:11<00:02, 842MB/s]text_encoder/model-00002-of-00003.safete(…):  68%|######7   | 3.37G/4.98G [00:11<00:01, 842MB/s]text_encoder/model-00002-of-00003.safete(…):  68%|######7   | 3.37G/4.98G [00:11<00:01, 842MB/s]text_encoder/model-00002-of-00003.safete(…):  72%|#######1  | 3.57G/4.98G [00:11<00:01, 1.04GB/s]text_encoder/model-00002-of-00003.safete(…):  72%|#######1  | 3.57G/4.98G [00:11<00:01, 1.04GB/s]text_encoder/model-00002-of-00003.safete(…):  74%|#######4  | 3.71G/4.98G [00:11<00:01, 749MB/s] text_encoder/model-00002-of-00003.safete(…):  74%|#######4  | 3.71G/4.98G [00:11<00:01, 749MB/s] text_encoder/model-00002-of-00003.safete(…):  80%|#######9  | 3.98G/4.98G [00:12<00:01, 819MB/s]text_encoder/model-00002-of-00003.safete(…):  80%|#######9  | 3.98G/4.98G [00:12<00:01, 819MB/s]text_encoder/model-00002-of-00003.safete(…):  83%|########2 | 4.11G/4.98G [00:12<00:00, 881MB/s]text_encoder/model-00002-of-00003.safete(…):  83%|########2 | 4.11G/4.98G [00:12<00:00, 881MB/s]text_encoder/model-00002-of-00003.safete(…):  85%|########5 | 4.25G/4.98G [00:12<00:00, 935MB/s]text_encoder/model-00002-of-00003.safete(…):  85%|########5 | 4.25G/4.98G [00:12<00:00, 935MB/s]text_encoder/model-00002-of-00003.safete(…):  88%|########7 | 4.38G/4.98G [00:12<00:00, 884MB/s]text_encoder/model-00002-of-00003.safete(…):  88%|########7 | 4.38G/4.98G [00:12<00:00, 884MB/s]text_encoder/model-00002-of-00003.safete(…):  91%|######### | 4.51G/4.98G [00:12<00:00, 858MB/s]text_encoder/model-00002-of-00003.safete(…):  91%|######### | 4.51G/4.98G [00:12<00:00, 858MB/s]text_encoder/model-00002-of-00003.safete(…):  96%|#########5| 4.78G/4.98G [00:12<00:00, 1.19GB/s]text_encoder/model-00002-of-00003.safete(…):  96%|#########5| 4.78G/4.98G [00:12<00:00, 1.19GB/s]text_encoder/model-00002-of-00003.safete(…): 100%|##########| 4.98G/4.98G [00:12<00:00, 1.29GB/s]text_encoder/model-00002-of-00003.safete(…): 100%|##########| 4.98G/4.98G [00:12<00:00, 1.29GB/s]text_encoder/model-00002-of-00003.safete(…): 100%|##########| 4.98G/4.98G [00:12<00:00, 387MB/s] text_encoder/model-00002-of-00003.safete(…): 100%|##########| 4.98G/4.98G [00:12<00:00, 387MB/s] 
+
+text_encoder/model-00003-of-00003.safete(…):   0%|          | 0.00/1.44G [00:00<?, ?B/s]text_encoder/model-00003-of-00003.safete(…):   0%|          | 0.00/1.44G [00:00<?, ?B/s]text_encoder/model-00003-of-00003.safete(…):   0%|          | 560k/1.44G [00:00<27:39, 869kB/s]text_encoder/model-00003-of-00003.safete(…):   0%|          | 560k/1.44G [00:00<27:39, 869kB/s]text_encoder/model-00003-of-00003.safete(…):   2%|2         | 35.1M/1.44G [00:02<01:25, 16.6MB/s]text_encoder/model-00003-of-00003.safete(…):   2%|2         | 35.1M/1.44G [00:02<01:25, 16.6MB/s]text_encoder/model-00003-of-00003.safete(…):   7%|7         | 102M/1.44G [00:02<00:30, 44.6MB/s] text_encoder/model-00003-of-00003.safete(…):   7%|7         | 102M/1.44G [00:02<00:30, 44.6MB/s] text_encoder/model-00003-of-00003.safete(…):  21%|##        | 303M/1.44G [00:03<00:06, 169MB/s] text_encoder/model-00003-of-00003.safete(…):  21%|##        | 303M/1.44G [00:03<00:06, 169MB/s] text_encoder/model-00003-of-00003.safete(…):  30%|###       | 437M/1.44G [00:03<00:03, 265MB/s]text_encoder/model-00003-of-00003.safete(…):  30%|###       | 437M/1.44G [00:03<00:03, 265MB/s]text_encoder/model-00003-of-00003.safete(…):  40%|###9      | 571M/1.44G [00:03<00:02, 348MB/s]text_encoder/model-00003-of-00003.safete(…):  40%|###9      | 571M/1.44G [00:03<00:02, 348MB/s]text_encoder/model-00003-of-00003.safete(…):  58%|#####8    | 839M/1.44G [00:03<00:00, 620MB/s]text_encoder/model-00003-of-00003.safete(…):  58%|#####8    | 839M/1.44G [00:03<00:00, 620MB/s]text_encoder/model-00003-of-00003.safete(…):  67%|######7   | 973M/1.44G [00:03<00:00, 719MB/s]text_encoder/model-00003-of-00003.safete(…):  67%|######7   | 973M/1.44G [00:03<00:00, 719MB/s]text_encoder/model-00003-of-00003.safete(…):  77%|#######6  | 1.11G/1.44G [00:03<00:00, 656MB/s]text_encoder/model-00003-of-00003.safete(…):  77%|#######6  | 1.11G/1.44G [00:03<00:00, 656MB/s]text_encoder/model-00003-of-00003.safete(…):  86%|########6 | 1.24G/1.44G [00:04<00:00, 547MB/s]text_encoder/model-00003-of-00003.safete(…):  86%|########6 | 1.24G/1.44G [00:04<00:00, 547MB/s]text_encoder/model-00003-of-00003.safete(…):  95%|#########5| 1.38G/1.44G [00:04<00:00, 648MB/s]text_encoder/model-00003-of-00003.safete(…):  95%|#########5| 1.38G/1.44G [00:04<00:00, 648MB/s]text_encoder/model-00003-of-00003.safete(…): 100%|##########| 1.44G/1.44G [00:04<00:00, 335MB/s]text_encoder/model-00003-of-00003.safete(…): 100%|##########| 1.44G/1.44G [00:04<00:00, 335MB/s]
+
+Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 85.97it/s]Loading checkpoint shards: 100%|##########| 3/3 [00:00<00:00, 85.97it/s]
+
+Quantizing UMT5EncoderModel
+Moving transformer back to GPU
+Loading VAE
+config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]config.json: 100%|##########| 953/953 [00:00<00:00, 6.02MB/s]config.json: 100%|##########| 953/953 [00:00<00:00, 6.02MB/s]
+
+diffusion_pytorch_model.safetensors:   0%|          | 0.00/254M [00:00<?, ?B/s]diffusion_pytorch_model.safetensors:   0%|          | 0.00/254M [00:00<?, ?B/s]diffusion_pytorch_model.safetensors:   0%|          | 967k/254M [00:01<05:14, 804kB/s]diffusion_pytorch_model.safetensors:   0%|          | 967k/254M [00:01<05:14, 804kB/s]diffusion_pytorch_model.safetensors:   5%|5         | 13.6M/254M [00:01<00:17, 13.8MB/s]diffusion_pytorch_model.safetensors:   5%|5         | 13.6M/254M [00:01<00:17, 13.8MB/s]diffusion_pytorch_model.safetensors:   8%|8         | 20.7M/254M [00:01<00:11, 19.7MB/s]diffusion_pytorch_model.safetensors:   8%|8         | 20.7M/254M [00:01<00:11, 19.7MB/s]diffusion_pytorch_model.safetensors:  36%|###6      | 92.2M/254M [00:01<00:01, 121MB/s] diffusion_pytorch_model.safetensors:  36%|###6      | 92.2M/254M [00:01<00:01, 121MB/s] diffusion_pytorch_model.safetensors:  68%|######7   | 172M/254M [00:01<00:00, 238MB/s] diffusion_pytorch_model.safetensors:  68%|######7   | 172M/254M [00:01<00:00, 238MB/s] diffusion_pytorch_model.safetensors:  88%|########7 | 223M/254M [00:01<00:00, 270MB/s]diffusion_pytorch_model.safetensors:  88%|########7 | 223M/254M [00:01<00:00, 270MB/s]diffusion_pytorch_model.safetensors: 100%|##########| 254M/254M [00:02<00:00, 123MB/s]diffusion_pytorch_model.safetensors: 100%|##########| 254M/254M [00:02<00:00, 123MB/s]
+
+Making pipe
+Preparing Model
+create LoRA network. base dim (rank): 16, alpha: 16
+neuron dropout: p=None, rank dropout: p=None, module dropout: p=None
+apply LoRA to Conv2d with kernel size (3,3). dim (rank): 16, alpha: 16
+create LoRA for Text Encoder: 0 modules.
+create LoRA for U-Net: 800 modules.
+enable LoRA for U-Net
+Dataset: /app/ai-toolkit/datasets/d3w4
+  -  Preprocessing image dimensions
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s]100%|##########| 25/25 [00:00<00:00, 675.93it/s]100%|##########| 25/25 [00:00<00:00, 675.93it/s]
+
+  -  Found 25 images
+Bucket sizes for /app/ai-toolkit/datasets/d3w4:
+512x512: 25 files
+1 buckets made
+Caching text_embeddings for /app/ai-toolkit/datasets/d3w4
+ - Saving text embeddings to disk
+Caching text embeddings to disk:   0%|          | 0/25 [00:00<?, ?it/s]Caching text embeddings to disk:   0%|          | 0/25 [00:00<?, ?it/s]Caching text embeddings to disk:   4%|4         | 1/25 [00:04<01:36,  4.03s/it]Caching text embeddings to disk:   4%|4         | 1/25 [00:04<01:36,  4.03s/it]Caching text embeddings to disk:   8%|8         | 2/25 [00:04<00:41,  1.82s/it]Caching text embeddings to disk:   8%|8         | 2/25 [00:04<00:41,  1.82s/it]Caching text embeddings to disk:  12%|#2        | 3/25 [00:04<00:24,  1.11s/it]Caching text embeddings to disk:  12%|#2        | 3/25 [00:04<00:24,  1.11s/it]Caching text embeddings to disk:  16%|#6        | 4/25 [00:04<00:16,  1.29it/s]Caching text embeddings to disk:  16%|#6        | 4/25 [00:04<00:16,  1.29it/s]Caching text embeddings to disk:  20%|##        | 5/25 [00:05<00:11,  1.69it/s]Caching text embeddings to disk:  20%|##        | 5/25 [00:05<00:11,  1.69it/s]Caching text embeddings to disk:  24%|##4       | 6/25 [00:05<00:09,  2.07it/s]Caching text embeddings to disk:  24%|##4       | 6/25 [00:05<00:09,  2.07it/s]Caching text embeddings to disk:  28%|##8       | 7/25 [00:05<00:07,  2.42it/s]Caching text embeddings to disk:  28%|##8       | 7/25 [00:05<00:07,  2.42it/s]Caching text embeddings to disk:  32%|###2      | 8/25 [00:05<00:06,  2.73it/s]Caching text embeddings to disk:  32%|###2      | 8/25 [00:05<00:06,  2.73it/s]Caching text embeddings to disk:  36%|###6      | 9/25 [00:06<00:05,  2.98it/s]Caching text embeddings to disk:  36%|###6      | 9/25 [00:06<00:05,  2.98it/s]Caching text embeddings to disk:  40%|####      | 10/25 [00:06<00:04,  3.18it/s]Caching text embeddings to disk:  40%|####      | 10/25 [00:06<00:04,  3.18it/s]Caching text embeddings to disk:  44%|####4     | 11/25 [00:06<00:04,  3.34it/s]Caching text embeddings to disk:  44%|####4     | 11/25 [00:06<00:04,  3.34it/s]Caching text embeddings to disk:  48%|####8     | 12/25 [00:06<00:03,  3.45it/s]Caching text embeddings to disk:  48%|####8     | 12/25 [00:06<00:03,  3.45it/s]Caching text embeddings to disk:  52%|#####2    | 13/25 [00:07<00:03,  3.53it/s]Caching text embeddings to disk:  52%|#####2    | 13/25 [00:07<00:03,  3.53it/s]Caching text embeddings to disk:  56%|#####6    | 14/25 [00:07<00:03,  3.60it/s]Caching text embeddings to disk:  56%|#####6    | 14/25 [00:07<00:03,  3.60it/s]Caching text embeddings to disk:  60%|######    | 15/25 [00:07<00:02,  3.64it/s]Caching text embeddings to disk:  60%|######    | 15/25 [00:07<00:02,  3.64it/s]Caching text embeddings to disk:  64%|######4   | 16/25 [00:08<00:02,  3.67it/s]Caching text embeddings to disk:  64%|######4   | 16/25 [00:08<00:02,  3.67it/s]Caching text embeddings to disk:  68%|######8   | 17/25 [00:08<00:02,  3.69it/s]Caching text embeddings to disk:  68%|######8   | 17/25 [00:08<00:02,  3.69it/s]Caching text embeddings to disk:  72%|#######2  | 18/25 [00:08<00:01,  3.71it/s]Caching text embeddings to disk:  72%|#######2  | 18/25 [00:08<00:01,  3.71it/s]Caching text embeddings to disk:  76%|#######6  | 19/25 [00:08<00:01,  3.72it/s]Caching text embeddings to disk:  76%|#######6  | 19/25 [00:08<00:01,  3.72it/s]Caching text embeddings to disk:  80%|########  | 20/25 [00:09<00:01,  3.72it/s]Caching text embeddings to disk:  80%|########  | 20/25 [00:09<00:01,  3.72it/s]Caching text embeddings to disk:  84%|########4 | 21/25 [00:09<00:01,  3.73it/s]Caching text embeddings to disk:  84%|########4 | 21/25 [00:09<00:01,  3.73it/s]Caching text embeddings to disk:  88%|########8 | 22/25 [00:09<00:00,  3.74it/s]Caching text embeddings to disk:  88%|########8 | 22/25 [00:09<00:00,  3.74it/s]Caching text embeddings to disk:  92%|#########2| 23/25 [00:09<00:00,  3.74it/s]Caching text embeddings to disk:  92%|#########2| 23/25 [00:09<00:00,  3.74it/s]Caching text embeddings to disk:  96%|#########6| 24/25 [00:10<00:00,  3.74it/s]Caching text embeddings to disk:  96%|#########6| 24/25 [00:10<00:00,  3.74it/s]Caching text embeddings to disk: 100%|##########| 25/25 [00:10<00:00,  3.73it/s]Caching text embeddings to disk: 100%|##########| 25/25 [00:10<00:00,  3.73it/s]Caching text embeddings to disk: 100%|##########| 25/25 [00:10<00:00,  2.39it/s]Caching text embeddings to disk: 100%|##########| 25/25 [00:10<00:00,  2.39it/s]
+
+
+***** UNLOADING TEXT ENCODER *****
+Embeddings cached to disk. We dont need the text encoder anymore
+***********************************
+
+Generating baseline samples before training
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.67s/it]  4%|4         | 1/25 [00:04<01:51,  4.67s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:40,  4.59s/it] 12%|#2        | 3/25 [00:13<01:40,  4.59s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.58s/it] 16%|#6        | 4/25 [00:18<01:36,  4.58s/it][A[A
+
+ 20%|##        | 5/25 [00:22<01:31,  4.57s/it] 20%|##        | 5/25 [00:22<01:31,  4.57s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:26,  4.57s/it] 24%|##4       | 6/25 [00:27<01:26,  4.57s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:22,  4.57s/it] 28%|##8       | 7/25 [00:32<01:22,  4.57s/it][A[A
+
+ 32%|###2      | 8/25 [00:36<01:17,  4.57s/it] 32%|###2      | 8/25 [00:36<01:17,  4.57s/it][A[A
+
+ 36%|###6      | 9/25 [00:44<01:31,  5.72s/it] 36%|###6      | 9/25 [00:44<01:31,  5.72s/it][A[A
+
+ 40%|####      | 10/25 [00:49<01:20,  5.37s/it] 40%|####      | 10/25 [00:49<01:20,  5.37s/it][A[A
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.12s/it] 44%|####4     | 11/25 [00:54<01:11,  5.12s/it][A[A
+
+ 48%|####8     | 12/25 [00:58<01:04,  4.96s/it] 48%|####8     | 12/25 [00:58<01:04,  4.96s/it][A[A
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.85s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.85s/it][A[A
+
+ 56%|#####6    | 14/25 [01:07<00:52,  4.77s/it] 56%|#####6    | 14/25 [01:07<00:52,  4.77s/it][A[A
+
+ 60%|######    | 15/25 [01:12<00:47,  4.71s/it] 60%|######    | 15/25 [01:12<00:47,  4.71s/it][A[A
+
+ 64%|######4   | 16/25 [01:16<00:42,  4.68s/it] 64%|######4   | 16/25 [01:16<00:42,  4.68s/it][A[A
+
+ 68%|######8   | 17/25 [01:21<00:37,  4.65s/it] 68%|######8   | 17/25 [01:21<00:37,  4.65s/it][A[A
+
+ 72%|#######2  | 18/25 [01:26<00:32,  4.64s/it] 72%|#######2  | 18/25 [01:26<00:32,  4.64s/it][A[A
+
+ 76%|#######6  | 19/25 [01:30<00:27,  4.63s/it] 76%|#######6  | 19/25 [01:30<00:27,  4.63s/it][A[A
+
+ 80%|########  | 20/25 [01:35<00:23,  4.62s/it] 80%|########  | 20/25 [01:35<00:23,  4.62s/it][A[A
+
+ 84%|########4 | 21/25 [01:39<00:18,  4.61s/it] 84%|########4 | 21/25 [01:39<00:18,  4.61s/it][A[A
+
+ 88%|########8 | 22/25 [01:44<00:13,  4.61s/it] 88%|########8 | 22/25 [01:44<00:13,  4.61s/it][A[A
+
+ 92%|#########2| 23/25 [01:49<00:09,  4.61s/it] 92%|#########2| 23/25 [01:49<00:09,  4.61s/it][A[A
+
+ 96%|#########6| 24/25 [01:53<00:04,  4.61s/it] 96%|#########6| 24/25 [01:53<00:04,  4.61s/it][A[A
+
+100%|##########| 25/25 [01:58<00:00,  4.61s/it]100%|##########| 25/25 [01:58<00:00,  4.61s/it][A[A100%|##########| 25/25 [01:58<00:00,  4.74s/it]100%|##########| 25/25 [01:58<00:00,  4.74s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  25%|##5       | 1/4 [02:04<06:12, 124.17s/it]Generating Images:  25%|##5       | 1/4 [02:04<06:12, 124.17s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:50,  4.62s/it]  4%|4         | 1/25 [00:04<01:50,  4.62s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:46,  4.62s/it]  8%|8         | 2/25 [00:09<01:46,  4.62s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.62s/it] 12%|#2        | 3/25 [00:13<01:41,  4.62s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.62s/it] 16%|#6        | 4/25 [00:18<01:37,  4.62s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:32,  4.63s/it] 20%|##        | 5/25 [00:23<01:32,  4.63s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.63s/it] 24%|##4       | 6/25 [00:27<01:27,  4.63s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.63s/it] 28%|##8       | 7/25 [00:32<01:23,  4.63s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:18,  4.63s/it] 32%|###2      | 8/25 [00:37<01:18,  4.63s/it][A[A
+
+ 36%|###6      | 9/25 [00:43<01:25,  5.35s/it] 36%|###6      | 9/25 [00:43<01:25,  5.35s/it][A[A
+
+ 40%|####      | 10/25 [00:48<01:16,  5.13s/it] 40%|####      | 10/25 [00:48<01:16,  5.13s/it][A[A
+
+ 44%|####4     | 11/25 [00:53<01:09,  4.98s/it] 44%|####4     | 11/25 [00:53<01:09,  4.98s/it][A[A
+
+ 48%|####8     | 12/25 [00:57<01:03,  4.87s/it] 48%|####8     | 12/25 [00:57<01:03,  4.87s/it][A[A
+
+ 52%|#####2    | 13/25 [01:02<00:57,  4.80s/it] 52%|#####2    | 13/25 [01:02<00:57,  4.80s/it][A[A
+
+ 56%|#####6    | 14/25 [01:07<00:52,  4.75s/it] 56%|#####6    | 14/25 [01:07<00:52,  4.75s/it][A[A
+
+ 60%|######    | 15/25 [01:11<00:47,  4.71s/it] 60%|######    | 15/25 [01:11<00:47,  4.71s/it][A[A
+
+ 64%|######4   | 16/25 [01:16<00:42,  4.69s/it] 64%|######4   | 16/25 [01:16<00:42,  4.69s/it][A[A
+
+ 68%|######8   | 17/25 [01:21<00:37,  4.67s/it] 68%|######8   | 17/25 [01:21<00:37,  4.67s/it][A[A
+
+ 72%|#######2  | 18/25 [01:25<00:32,  4.66s/it] 72%|#######2  | 18/25 [01:25<00:32,  4.66s/it][A[A
+
+ 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it] 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it][A[A
+
+ 80%|########  | 20/25 [01:34<00:23,  4.65s/it] 80%|########  | 20/25 [01:34<00:23,  4.65s/it][A[A
+
+ 84%|########4 | 21/25 [01:39<00:18,  4.65s/it] 84%|########4 | 21/25 [01:39<00:18,  4.65s/it][A[A
+
+ 88%|########8 | 22/25 [01:44<00:13,  4.65s/it] 88%|########8 | 22/25 [01:44<00:13,  4.65s/it][A[A
+
+ 92%|#########2| 23/25 [01:48<00:09,  4.65s/it] 92%|#########2| 23/25 [01:48<00:09,  4.65s/it][A[A
+
+ 96%|#########6| 24/25 [01:53<00:04,  4.64s/it] 96%|#########6| 24/25 [01:53<00:04,  4.64s/it][A[A
+
+100%|##########| 25/25 [01:58<00:00,  4.64s/it]100%|##########| 25/25 [01:58<00:00,  4.64s/it][A[A100%|##########| 25/25 [01:58<00:00,  4.73s/it]100%|##########| 25/25 [01:58<00:00,  4.73s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  50%|#####     | 2/4 [04:06<04:06, 123.31s/it]Generating Images:  50%|#####     | 2/4 [04:06<04:06, 123.31s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.63s/it]  4%|4         | 1/25 [00:04<01:51,  4.63s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:46,  4.63s/it]  8%|8         | 2/25 [00:09<01:46,  4.63s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.63s/it] 12%|#2        | 3/25 [00:13<01:41,  4.63s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.63s/it] 16%|#6        | 4/25 [00:18<01:37,  4.63s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:32,  4.64s/it] 20%|##        | 5/25 [00:23<01:32,  4.64s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.64s/it] 24%|##4       | 6/25 [00:27<01:28,  4.64s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.64s/it] 28%|##8       | 7/25 [00:32<01:23,  4.64s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:18,  4.64s/it] 32%|###2      | 8/25 [00:37<01:18,  4.64s/it][A[A
+
+ 36%|###6      | 9/25 [00:44<01:25,  5.37s/it] 36%|###6      | 9/25 [00:44<01:25,  5.37s/it][A[A
+
+ 40%|####      | 10/25 [00:48<01:17,  5.14s/it] 40%|####      | 10/25 [00:48<01:17,  5.14s/it][A[A
+
+ 44%|####4     | 11/25 [00:53<01:09,  4.99s/it] 44%|####4     | 11/25 [00:53<01:09,  4.99s/it][A[A
+
+ 48%|####8     | 12/25 [00:57<01:03,  4.88s/it] 48%|####8     | 12/25 [00:57<01:03,  4.88s/it][A[A
+
+ 52%|#####2    | 13/25 [01:02<00:57,  4.81s/it] 52%|#####2    | 13/25 [01:02<00:57,  4.81s/it][A[A
+
+ 56%|#####6    | 14/25 [01:07<00:52,  4.76s/it] 56%|#####6    | 14/25 [01:07<00:52,  4.76s/it][A[A
+
+ 60%|######    | 15/25 [01:11<00:47,  4.72s/it] 60%|######    | 15/25 [01:11<00:47,  4.72s/it][A[A
+
+ 64%|######4   | 16/25 [01:16<00:42,  4.70s/it] 64%|######4   | 16/25 [01:16<00:42,  4.70s/it][A[A
+
+ 68%|######8   | 17/25 [01:21<00:37,  4.68s/it] 68%|######8   | 17/25 [01:21<00:37,  4.68s/it][A[A
+
+ 72%|#######2  | 18/25 [01:25<00:32,  4.67s/it] 72%|#######2  | 18/25 [01:25<00:32,  4.67s/it][A[A
+
+ 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it] 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it][A[A
+
+ 80%|########  | 20/25 [01:35<00:23,  4.65s/it] 80%|########  | 20/25 [01:35<00:23,  4.65s/it][A[A
+
+ 84%|########4 | 21/25 [01:39<00:18,  4.65s/it] 84%|########4 | 21/25 [01:39<00:18,  4.65s/it][A[A
+
+ 88%|########8 | 22/25 [01:44<00:13,  4.65s/it] 88%|########8 | 22/25 [01:44<00:13,  4.65s/it][A[A
+
+ 92%|#########2| 23/25 [01:49<00:09,  4.65s/it] 92%|#########2| 23/25 [01:49<00:09,  4.65s/it][A[A
+
+ 96%|#########6| 24/25 [01:53<00:04,  4.64s/it] 96%|#########6| 24/25 [01:53<00:04,  4.64s/it][A[A
+
+100%|##########| 25/25 [01:58<00:00,  4.64s/it]100%|##########| 25/25 [01:58<00:00,  4.64s/it][A[A100%|##########| 25/25 [01:58<00:00,  4.73s/it]100%|##########| 25/25 [01:58<00:00,  4.73s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  75%|#######5  | 3/4 [06:09<02:03, 123.20s/it]Generating Images:  75%|#######5  | 3/4 [06:09<02:03, 123.20s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.64s/it] 16%|#6        | 4/25 [00:18<01:37,  4.64s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:32,  4.64s/it] 20%|##        | 5/25 [00:23<01:32,  4.64s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.64s/it] 24%|##4       | 6/25 [00:27<01:28,  4.64s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.64s/it] 28%|##8       | 7/25 [00:32<01:23,  4.64s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:18,  4.64s/it] 32%|###2      | 8/25 [00:37<01:18,  4.64s/it][A[A
+
+ 36%|###6      | 9/25 [00:44<01:27,  5.45s/it] 36%|###6      | 9/25 [00:44<01:27,  5.45s/it][A[A
+
+ 40%|####      | 10/25 [00:48<01:17,  5.20s/it] 40%|####      | 10/25 [00:48<01:17,  5.20s/it][A[A
+
+ 44%|####4     | 11/25 [00:53<01:10,  5.03s/it] 44%|####4     | 11/25 [00:53<01:10,  5.03s/it][A[A
+
+ 48%|####8     | 12/25 [00:58<01:03,  4.91s/it] 48%|####8     | 12/25 [00:58<01:03,  4.91s/it][A[A
+
+ 52%|#####2    | 13/25 [01:02<00:57,  4.83s/it] 52%|#####2    | 13/25 [01:02<00:57,  4.83s/it][A[A
+
+ 56%|#####6    | 14/25 [01:07<00:52,  4.77s/it] 56%|#####6    | 14/25 [01:07<00:52,  4.77s/it][A[A
+
+ 60%|######    | 15/25 [01:12<00:47,  4.73s/it] 60%|######    | 15/25 [01:12<00:47,  4.73s/it][A[A
+
+ 64%|######4   | 16/25 [01:16<00:42,  4.70s/it] 64%|######4   | 16/25 [01:16<00:42,  4.70s/it][A[A
+
+ 68%|######8   | 17/25 [01:21<00:37,  4.68s/it] 68%|######8   | 17/25 [01:21<00:37,  4.68s/it][A[A
+
+ 72%|#######2  | 18/25 [01:26<00:32,  4.67s/it] 72%|#######2  | 18/25 [01:26<00:32,  4.67s/it][A[A
+
+ 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it] 76%|#######6  | 19/25 [01:30<00:27,  4.66s/it][A[A
+
+ 80%|########  | 20/25 [01:35<00:23,  4.66s/it] 80%|########  | 20/25 [01:35<00:23,  4.66s/it][A[A
+
+ 84%|########4 | 21/25 [01:40<00:18,  4.65s/it] 84%|########4 | 21/25 [01:40<00:18,  4.65s/it][A[A
+
+ 88%|########8 | 22/25 [01:44<00:13,  4.65s/it] 88%|########8 | 22/25 [01:44<00:13,  4.65s/it][A[A
+
+ 92%|#########2| 23/25 [01:49<00:09,  4.65s/it] 92%|#########2| 23/25 [01:49<00:09,  4.65s/it][A[A
+
+ 96%|#########6| 24/25 [01:53<00:04,  4.65s/it] 96%|#########6| 24/25 [01:53<00:04,  4.65s/it][A[A
+
+100%|##########| 25/25 [01:58<00:00,  4.64s/it]100%|##########| 25/25 [01:58<00:00,  4.64s/it][A[A100%|##########| 25/25 [01:58<00:00,  4.74s/it]100%|##########| 25/25 [01:58<00:00,  4.74s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images: 100%|##########| 4/4 [08:13<00:00, 123.41s/it]Generating Images: 100%|##########| 4/4 [08:13<00:00, 123.41s/it]                                                                                                                                  wan_dewa:   0%|          | 0/3500 [00:00<?, ?it/s]wan_dewa:   0%|          | 0/3500 [00:00<?, ?it/s]wan_dewa:   0%|          | 0/3500 [00:04<?, ?it/s, lr: 2.0e-04 loss: 6.790e-02]wan_dewa:   0%|          | 0/3500 [00:04<?, ?it/s, lr: 2.0e-04 loss: 6.790e-02]wan_dewa:   0%|          | 0/3500 [00:04<?, ?it/s, lr: 2.0e-04 loss: 6.790e-02]wan_dewa:   0%|          | 0/3500 [00:04<?, ?it/s, lr: 2.0e-04 loss: 6.790e-02]wan_dewa:   0%|          | 0/3500 [00:06<?, ?it/s, lr: 2.0e-04 loss: 1.300e-01]wan_dewa:   0%|          | 0/3500 [00:06<?, ?it/s, lr: 2.0e-04 loss: 1.300e-01]wan_dewa:   0%|          | 1/3500 [00:06<2:13:59,  2.30s/it, lr: 2.0e-04 loss: 1.300e-01]wan_dewa:   0%|          | 1/3500 [00:06<2:13:59,  2.30s/it, lr: 2.0e-04 loss: 1.300e-01]wan_dewa:   0%|          | 1/3500 [00:08<2:13:59,  2.30s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   0%|          | 1/3500 [00:08<2:13:59,  2.30s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   0%|          | 2/3500 [00:08<2:14:05,  2.30s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   0%|          | 2/3500 [00:08<2:14:05,  2.30s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   0%|          | 2/3500 [00:11<2:14:05,  2.30s/it, lr: 2.0e-04 loss: 8.765e-02]wan_dewa:   0%|          | 2/3500 [00:11<2:14:05,  2.30s/it, lr: 2.0e-04 loss: 8.765e-02]wan_dewa:   0%|          | 3/3500 [00:11<2:14:12,  2.30s/it, lr: 2.0e-04 loss: 8.765e-02]wan_dewa:   0%|          | 3/3500 [00:11<2:14:12,  2.30s/it, lr: 2.0e-04 loss: 8.765e-02]wan_dewa:   0%|          | 3/3500 [00:13<2:14:12,  2.30s/it, lr: 2.0e-04 loss: 1.641e-01]wan_dewa:   0%|          | 3/3500 [00:13<2:14:12,  2.30s/it, lr: 2.0e-04 loss: 1.641e-01]wan_dewa:   0%|          | 4/3500 [00:13<2:14:09,  2.30s/it, lr: 2.0e-04 loss: 1.641e-01]wan_dewa:   0%|          | 4/3500 [00:13<2:14:09,  2.30s/it, lr: 2.0e-04 loss: 1.641e-01]wan_dewa:   0%|          | 4/3500 [00:16<2:14:09,  2.30s/it, lr: 2.0e-04 loss: 9.569e-02]wan_dewa:   0%|          | 4/3500 [00:16<2:14:09,  2.30s/it, lr: 2.0e-04 loss: 9.569e-02]wan_dewa:   0%|          | 5/3500 [00:16<2:20:06,  2.41s/it, lr: 2.0e-04 loss: 9.569e-02]wan_dewa:   0%|          | 5/3500 [00:16<2:20:06,  2.41s/it, lr: 2.0e-04 loss: 9.569e-02]wan_dewa:   0%|          | 5/3500 [00:18<2:20:06,  2.41s/it, lr: 2.0e-04 loss: 9.022e-02]wan_dewa:   0%|          | 5/3500 [00:18<2:20:06,  2.41s/it, lr: 2.0e-04 loss: 9.022e-02]wan_dewa:   0%|          | 6/3500 [00:18<2:18:01,  2.37s/it, lr: 2.0e-04 loss: 9.022e-02]wan_dewa:   0%|          | 6/3500 [00:18<2:18:01,  2.37s/it, lr: 2.0e-04 loss: 9.022e-02]wan_dewa:   0%|          | 6/3500 [00:20<2:18:01,  2.37s/it, lr: 2.0e-04 loss: 1.051e-01]wan_dewa:   0%|          | 6/3500 [00:20<2:18:01,  2.37s/it, lr: 2.0e-04 loss: 1.051e-01]wan_dewa:   0%|          | 7/3500 [00:20<2:16:45,  2.35s/it, lr: 2.0e-04 loss: 1.051e-01]wan_dewa:   0%|          | 7/3500 [00:20<2:16:45,  2.35s/it, lr: 2.0e-04 loss: 1.051e-01]wan_dewa:   0%|          | 7/3500 [00:23<2:16:45,  2.35s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   0%|          | 7/3500 [00:23<2:16:45,  2.35s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   0%|          | 8/3500 [00:23<2:15:55,  2.34s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   0%|          | 8/3500 [00:23<2:15:55,  2.34s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   0%|          | 8/3500 [00:25<2:15:55,  2.34s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   0%|          | 8/3500 [00:25<2:15:55,  2.34s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   0%|          | 9/3500 [00:25<2:15:20,  2.33s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   0%|          | 9/3500 [00:25<2:15:20,  2.33s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   0%|          | 9/3500 [00:36<2:15:20,  2.33s/it, lr: 2.0e-04 loss: 9.561e-02]wan_dewa:   0%|          | 9/3500 [00:36<2:15:20,  2.33s/it, lr: 2.0e-04 loss: 9.561e-02]wan_dewa:   0%|          | 10/3500 [00:38<2:15:18,  2.33s/it, lr: 2.0e-04 loss: 7.916e-02]wan_dewa:   0%|          | 10/3500 [00:38<2:15:18,  2.33s/it, lr: 2.0e-04 loss: 7.916e-02]wan_dewa:   0%|          | 11/3500 [00:38<1:42:54,  1.77s/it, lr: 2.0e-04 loss: 7.916e-02]wan_dewa:   0%|          | 11/3500 [00:38<1:42:54,  1.77s/it, lr: 2.0e-04 loss: 7.916e-02]wan_dewa:   0%|          | 11/3500 [00:40<1:42:54,  1.77s/it, lr: 2.0e-04 loss: 6.896e-02]wan_dewa:   0%|          | 11/3500 [00:40<1:42:54,  1.77s/it, lr: 2.0e-04 loss: 6.896e-02]wan_dewa:   0%|          | 12/3500 [00:40<1:50:29,  1.90s/it, lr: 2.0e-04 loss: 6.896e-02]wan_dewa:   0%|          | 12/3500 [00:40<1:50:29,  1.90s/it, lr: 2.0e-04 loss: 6.896e-02]wan_dewa:   0%|          | 12/3500 [00:43<1:50:29,  1.90s/it, lr: 2.0e-04 loss: 1.144e-01]wan_dewa:   0%|          | 12/3500 [00:43<1:50:29,  1.90s/it, lr: 2.0e-04 loss: 1.144e-01]wan_dewa:   0%|          | 13/3500 [00:43<1:56:28,  2.00s/it, lr: 2.0e-04 loss: 1.144e-01]wan_dewa:   0%|          | 13/3500 [00:43<1:56:28,  2.00s/it, lr: 2.0e-04 loss: 1.144e-01]wan_dewa:   0%|          | 13/3500 [00:45<1:56:28,  2.00s/it, lr: 2.0e-04 loss: 1.401e-01]wan_dewa:   0%|          | 13/3500 [00:45<1:56:28,  2.00s/it, lr: 2.0e-04 loss: 1.401e-01]wan_dewa:   0%|          | 14/3500 [00:45<2:01:00,  2.08s/it, lr: 2.0e-04 loss: 1.401e-01]wan_dewa:   0%|          | 14/3500 [00:45<2:01:00,  2.08s/it, lr: 2.0e-04 loss: 1.401e-01]wan_dewa:   0%|          | 14/3500 [00:47<2:01:00,  2.08s/it, lr: 2.0e-04 loss: 4.972e-02]wan_dewa:   0%|          | 14/3500 [00:47<2:01:00,  2.08s/it, lr: 2.0e-04 loss: 4.972e-02]wan_dewa:   0%|          | 15/3500 [00:47<2:06:54,  2.18s/it, lr: 2.0e-04 loss: 4.972e-02]wan_dewa:   0%|          | 15/3500 [00:47<2:06:54,  2.18s/it, lr: 2.0e-04 loss: 4.972e-02]wan_dewa:   0%|          | 15/3500 [00:50<2:06:54,  2.18s/it, lr: 2.0e-04 loss: 6.701e-02]wan_dewa:   0%|          | 15/3500 [00:50<2:06:54,  2.18s/it, lr: 2.0e-04 loss: 6.701e-02]wan_dewa:   0%|          | 16/3500 [00:50<2:08:39,  2.22s/it, lr: 2.0e-04 loss: 6.701e-02]wan_dewa:   0%|          | 16/3500 [00:50<2:08:39,  2.22s/it, lr: 2.0e-04 loss: 6.701e-02]wan_dewa:   0%|          | 16/3500 [00:52<2:08:39,  2.22s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:   0%|          | 16/3500 [00:52<2:08:39,  2.22s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:   0%|          | 17/3500 [00:52<2:10:00,  2.24s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:   0%|          | 17/3500 [00:52<2:10:00,  2.24s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:   0%|          | 17/3500 [00:54<2:10:00,  2.24s/it, lr: 2.0e-04 loss: 6.134e-02]wan_dewa:   0%|          | 17/3500 [00:54<2:10:00,  2.24s/it, lr: 2.0e-04 loss: 6.134e-02]wan_dewa:   1%|          | 18/3500 [00:54<2:11:03,  2.26s/it, lr: 2.0e-04 loss: 6.134e-02]wan_dewa:   1%|          | 18/3500 [00:54<2:11:03,  2.26s/it, lr: 2.0e-04 loss: 6.134e-02]wan_dewa:   1%|          | 18/3500 [00:57<2:11:03,  2.26s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:   1%|          | 18/3500 [00:57<2:11:03,  2.26s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:   1%|          | 19/3500 [00:57<2:11:42,  2.27s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:   1%|          | 19/3500 [00:57<2:11:42,  2.27s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:   1%|          | 19/3500 [01:08<2:11:42,  2.27s/it, lr: 2.0e-04 loss: 8.465e-02]wan_dewa:   1%|          | 19/3500 [01:08<2:11:42,  2.27s/it, lr: 2.0e-04 loss: 8.465e-02]wan_dewa:   1%|          | 20/3500 [01:10<2:11:39,  2.27s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:   1%|          | 20/3500 [01:10<2:11:39,  2.27s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:   1%|          | 21/3500 [01:10<1:42:02,  1.76s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:   1%|          | 21/3500 [01:10<1:42:02,  1.76s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:   1%|          | 21/3500 [01:12<1:42:02,  1.76s/it, lr: 2.0e-04 loss: 6.780e-02]wan_dewa:   1%|          | 21/3500 [01:12<1:42:02,  1.76s/it, lr: 2.0e-04 loss: 6.780e-02]wan_dewa:   1%|          | 22/3500 [01:12<1:49:31,  1.89s/it, lr: 2.0e-04 loss: 6.780e-02]wan_dewa:   1%|          | 22/3500 [01:12<1:49:31,  1.89s/it, lr: 2.0e-04 loss: 6.780e-02]wan_dewa:   1%|          | 22/3500 [01:15<1:49:31,  1.89s/it, lr: 2.0e-04 loss: 8.250e-02]wan_dewa:   1%|          | 22/3500 [01:15<1:49:31,  1.89s/it, lr: 2.0e-04 loss: 8.250e-02]wan_dewa:   1%|          | 23/3500 [01:15<1:55:33,  1.99s/it, lr: 2.0e-04 loss: 8.250e-02]wan_dewa:   1%|          | 23/3500 [01:15<1:55:33,  1.99s/it, lr: 2.0e-04 loss: 8.250e-02]wan_dewa:   1%|          | 23/3500 [01:17<1:55:33,  1.99s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:   1%|          | 23/3500 [01:17<1:55:33,  1.99s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:   1%|          | 24/3500 [01:17<2:00:12,  2.07s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:   1%|          | 24/3500 [01:17<2:00:12,  2.07s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:   1%|          | 24/3500 [01:21<2:00:12,  2.07s/it, lr: 2.0e-04 loss: 8.810e-02]wan_dewa:   1%|          | 24/3500 [01:21<2:00:12,  2.07s/it, lr: 2.0e-04 loss: 8.810e-02]wan_dewa:   1%|          | 25/3500 [01:21<2:04:11,  2.14s/it, lr: 2.0e-04 loss: 8.810e-02]wan_dewa:   1%|          | 25/3500 [01:21<2:04:11,  2.14s/it, lr: 2.0e-04 loss: 8.810e-02]wan_dewa:   1%|          | 25/3500 [01:24<2:04:11,  2.14s/it, lr: 2.0e-04 loss: 7.853e-02]wan_dewa:   1%|          | 25/3500 [01:24<2:04:11,  2.14s/it, lr: 2.0e-04 loss: 7.853e-02]wan_dewa:   1%|          | 26/3500 [01:24<2:11:58,  2.28s/it, lr: 2.0e-04 loss: 7.853e-02]wan_dewa:   1%|          | 26/3500 [01:24<2:11:58,  2.28s/it, lr: 2.0e-04 loss: 7.853e-02]wan_dewa:   1%|          | 26/3500 [01:26<2:11:58,  2.28s/it, lr: 2.0e-04 loss: 1.028e-01]wan_dewa:   1%|          | 26/3500 [01:26<2:11:58,  2.28s/it, lr: 2.0e-04 loss: 1.028e-01]wan_dewa:   1%|          | 27/3500 [01:26<2:12:06,  2.28s/it, lr: 2.0e-04 loss: 1.028e-01]wan_dewa:   1%|          | 27/3500 [01:26<2:12:06,  2.28s/it, lr: 2.0e-04 loss: 1.028e-01]wan_dewa:   1%|          | 27/3500 [01:28<2:12:06,  2.28s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:   1%|          | 27/3500 [01:28<2:12:06,  2.28s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:   1%|          | 28/3500 [01:28<2:12:10,  2.28s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:   1%|          | 28/3500 [01:28<2:12:10,  2.28s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:   1%|          | 28/3500 [01:31<2:12:10,  2.28s/it, lr: 2.0e-04 loss: 5.880e-02]wan_dewa:   1%|          | 28/3500 [01:31<2:12:10,  2.28s/it, lr: 2.0e-04 loss: 5.880e-02]wan_dewa:   1%|          | 29/3500 [01:31<2:12:11,  2.28s/it, lr: 2.0e-04 loss: 5.880e-02]wan_dewa:   1%|          | 29/3500 [01:31<2:12:11,  2.28s/it, lr: 2.0e-04 loss: 5.880e-02]wan_dewa:   1%|          | 29/3500 [01:42<2:12:11,  2.28s/it, lr: 2.0e-04 loss: 1.278e-01]wan_dewa:   1%|          | 29/3500 [01:42<2:12:11,  2.28s/it, lr: 2.0e-04 loss: 1.278e-01]wan_dewa:   1%|          | 30/3500 [01:44<2:12:08,  2.28s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:   1%|          | 30/3500 [01:44<2:12:08,  2.28s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:   1%|          | 31/3500 [01:44<1:41:52,  1.76s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:   1%|          | 31/3500 [01:44<1:41:52,  1.76s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:   1%|          | 31/3500 [01:47<1:41:52,  1.76s/it, lr: 2.0e-04 loss: 9.165e-02]wan_dewa:   1%|          | 31/3500 [01:47<1:41:52,  1.76s/it, lr: 2.0e-04 loss: 9.165e-02]wan_dewa:   1%|          | 32/3500 [01:47<1:49:10,  1.89s/it, lr: 2.0e-04 loss: 9.165e-02]wan_dewa:   1%|          | 32/3500 [01:47<1:49:10,  1.89s/it, lr: 2.0e-04 loss: 9.165e-02]wan_dewa:   1%|          | 32/3500 [01:49<1:49:10,  1.89s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   1%|          | 32/3500 [01:49<1:49:10,  1.89s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   1%|          | 33/3500 [01:49<1:54:57,  1.99s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   1%|          | 33/3500 [01:49<1:54:57,  1.99s/it, lr: 2.0e-04 loss: 1.151e-01]wan_dewa:   1%|          | 33/3500 [01:51<1:54:57,  1.99s/it, lr: 2.0e-04 loss: 8.002e-02]wan_dewa:   1%|          | 33/3500 [01:51<1:54:57,  1.99s/it, lr: 2.0e-04 loss: 8.002e-02]wan_dewa:   1%|          | 34/3500 [01:51<1:59:25,  2.07s/it, lr: 2.0e-04 loss: 8.002e-02]wan_dewa:   1%|          | 34/3500 [01:51<1:59:25,  2.07s/it, lr: 2.0e-04 loss: 8.002e-02]wan_dewa:   1%|          | 34/3500 [01:54<1:59:25,  2.07s/it, lr: 2.0e-04 loss: 1.168e-01]wan_dewa:   1%|          | 34/3500 [01:54<1:59:25,  2.07s/it, lr: 2.0e-04 loss: 1.168e-01]wan_dewa:   1%|1         | 35/3500 [01:54<2:06:28,  2.19s/it, lr: 2.0e-04 loss: 1.168e-01]wan_dewa:   1%|1         | 35/3500 [01:54<2:06:28,  2.19s/it, lr: 2.0e-04 loss: 1.168e-01]wan_dewa:   1%|1         | 35/3500 [01:56<2:06:28,  2.19s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:   1%|1         | 35/3500 [01:56<2:06:28,  2.19s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:   1%|1         | 36/3500 [01:56<2:08:02,  2.22s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:   1%|1         | 36/3500 [01:56<2:08:02,  2.22s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:   1%|1         | 36/3500 [01:58<2:08:02,  2.22s/it, lr: 2.0e-04 loss: 1.599e-01]wan_dewa:   1%|1         | 36/3500 [01:58<2:08:02,  2.22s/it, lr: 2.0e-04 loss: 1.599e-01]wan_dewa:   1%|1         | 37/3500 [01:58<2:09:01,  2.24s/it, lr: 2.0e-04 loss: 1.599e-01]wan_dewa:   1%|1         | 37/3500 [01:58<2:09:01,  2.24s/it, lr: 2.0e-04 loss: 1.599e-01]wan_dewa:   1%|1         | 37/3500 [02:01<2:09:01,  2.24s/it, lr: 2.0e-04 loss: 6.975e-02]wan_dewa:   1%|1         | 37/3500 [02:01<2:09:01,  2.24s/it, lr: 2.0e-04 loss: 6.975e-02]wan_dewa:   1%|1         | 38/3500 [02:01<2:09:51,  2.25s/it, lr: 2.0e-04 loss: 6.975e-02]wan_dewa:   1%|1         | 38/3500 [02:01<2:09:51,  2.25s/it, lr: 2.0e-04 loss: 6.975e-02]wan_dewa:   1%|1         | 38/3500 [02:03<2:09:51,  2.25s/it, lr: 2.0e-04 loss: 8.452e-02]wan_dewa:   1%|1         | 38/3500 [02:03<2:09:51,  2.25s/it, lr: 2.0e-04 loss: 8.452e-02]wan_dewa:   1%|1         | 39/3500 [02:03<2:10:21,  2.26s/it, lr: 2.0e-04 loss: 8.452e-02]wan_dewa:   1%|1         | 39/3500 [02:03<2:10:21,  2.26s/it, lr: 2.0e-04 loss: 8.452e-02]wan_dewa:   1%|1         | 39/3500 [02:14<2:10:21,  2.26s/it, lr: 2.0e-04 loss: 7.863e-02]wan_dewa:   1%|1         | 39/3500 [02:14<2:10:21,  2.26s/it, lr: 2.0e-04 loss: 7.863e-02]wan_dewa:   1%|1         | 40/3500 [02:16<2:10:19,  2.26s/it, lr: 2.0e-04 loss: 1.715e-01]wan_dewa:   1%|1         | 40/3500 [02:16<2:10:19,  2.26s/it, lr: 2.0e-04 loss: 1.715e-01]wan_dewa:   1%|1         | 41/3500 [02:16<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 1.715e-01]wan_dewa:   1%|1         | 41/3500 [02:16<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 1.715e-01]wan_dewa:   1%|1         | 41/3500 [02:19<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:   1%|1         | 41/3500 [02:19<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:   1%|1         | 42/3500 [02:19<1:48:18,  1.88s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:   1%|1         | 42/3500 [02:19<1:48:18,  1.88s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:   1%|1         | 42/3500 [02:21<1:48:18,  1.88s/it, lr: 2.0e-04 loss: 6.805e-02]wan_dewa:   1%|1         | 42/3500 [02:21<1:48:18,  1.88s/it, lr: 2.0e-04 loss: 6.805e-02]wan_dewa:   1%|1         | 43/3500 [02:21<1:54:15,  1.98s/it, lr: 2.0e-04 loss: 6.805e-02]wan_dewa:   1%|1         | 43/3500 [02:21<1:54:15,  1.98s/it, lr: 2.0e-04 loss: 6.805e-02]wan_dewa:   1%|1         | 43/3500 [02:23<1:54:15,  1.98s/it, lr: 2.0e-04 loss: 7.763e-02]wan_dewa:   1%|1         | 43/3500 [02:23<1:54:15,  1.98s/it, lr: 2.0e-04 loss: 7.763e-02]wan_dewa:   1%|1         | 44/3500 [02:23<1:58:53,  2.06s/it, lr: 2.0e-04 loss: 7.763e-02]wan_dewa:   1%|1         | 44/3500 [02:23<1:58:53,  2.06s/it, lr: 2.0e-04 loss: 7.763e-02]wan_dewa:   1%|1         | 44/3500 [02:26<1:58:53,  2.06s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   1%|1         | 44/3500 [02:26<1:58:53,  2.06s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   1%|1         | 45/3500 [02:26<2:02:19,  2.12s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   1%|1         | 45/3500 [02:26<2:02:19,  2.12s/it, lr: 2.0e-04 loss: 1.188e-01]wan_dewa:   1%|1         | 45/3500 [02:28<2:02:19,  2.12s/it, lr: 2.0e-04 loss: 9.275e-02]wan_dewa:   1%|1         | 45/3500 [02:28<2:02:19,  2.12s/it, lr: 2.0e-04 loss: 9.275e-02]wan_dewa:   1%|1         | 46/3500 [02:28<2:08:21,  2.23s/it, lr: 2.0e-04 loss: 9.275e-02]wan_dewa:   1%|1         | 46/3500 [02:28<2:08:21,  2.23s/it, lr: 2.0e-04 loss: 9.275e-02]wan_dewa:   1%|1         | 46/3500 [02:30<2:08:21,  2.23s/it, lr: 2.0e-04 loss: 6.815e-02]wan_dewa:   1%|1         | 46/3500 [02:30<2:08:21,  2.23s/it, lr: 2.0e-04 loss: 6.815e-02]wan_dewa:   1%|1         | 47/3500 [02:30<2:09:11,  2.24s/it, lr: 2.0e-04 loss: 6.815e-02]wan_dewa:   1%|1         | 47/3500 [02:30<2:09:11,  2.24s/it, lr: 2.0e-04 loss: 6.815e-02]wan_dewa:   1%|1         | 47/3500 [02:33<2:09:11,  2.24s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:   1%|1         | 47/3500 [02:33<2:09:11,  2.24s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:   1%|1         | 48/3500 [02:33<2:09:47,  2.26s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:   1%|1         | 48/3500 [02:33<2:09:47,  2.26s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:   1%|1         | 48/3500 [02:35<2:09:47,  2.26s/it, lr: 2.0e-04 loss: 6.793e-02]wan_dewa:   1%|1         | 48/3500 [02:35<2:09:47,  2.26s/it, lr: 2.0e-04 loss: 6.793e-02]wan_dewa:   1%|1         | 49/3500 [02:35<2:10:14,  2.26s/it, lr: 2.0e-04 loss: 6.793e-02]wan_dewa:   1%|1         | 49/3500 [02:35<2:10:14,  2.26s/it, lr: 2.0e-04 loss: 6.793e-02]wan_dewa:   1%|1         | 49/3500 [02:48<2:10:14,  2.26s/it, lr: 2.0e-04 loss: 8.587e-02]wan_dewa:   1%|1         | 49/3500 [02:48<2:10:14,  2.26s/it, lr: 2.0e-04 loss: 8.587e-02]wan_dewa:   1%|1         | 50/3500 [02:50<2:10:12,  2.26s/it, lr: 2.0e-04 loss: 7.520e-02]wan_dewa:   1%|1         | 50/3500 [02:50<2:10:12,  2.26s/it, lr: 2.0e-04 loss: 7.520e-02]wan_dewa:   1%|1         | 51/3500 [02:50<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 7.520e-02]wan_dewa:   1%|1         | 51/3500 [02:50<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 7.520e-02]wan_dewa:   1%|1         | 51/3500 [02:53<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:   1%|1         | 51/3500 [02:53<1:40:44,  1.75s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:   1%|1         | 52/3500 [02:53<1:48:01,  1.88s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:   1%|1         | 52/3500 [02:53<1:48:01,  1.88s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:   1%|1         | 52/3500 [02:55<1:48:01,  1.88s/it, lr: 2.0e-04 loss: 1.617e-01]wan_dewa:   1%|1         | 52/3500 [02:55<1:48:01,  1.88s/it, lr: 2.0e-04 loss: 1.617e-01]wan_dewa:   2%|1         | 53/3500 [02:55<1:53:47,  1.98s/it, lr: 2.0e-04 loss: 1.617e-01]wan_dewa:   2%|1         | 53/3500 [02:55<1:53:47,  1.98s/it, lr: 2.0e-04 loss: 1.617e-01]wan_dewa:   2%|1         | 53/3500 [02:57<1:53:47,  1.98s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:   2%|1         | 53/3500 [02:57<1:53:47,  1.98s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:   2%|1         | 54/3500 [02:57<1:58:17,  2.06s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:   2%|1         | 54/3500 [02:57<1:58:17,  2.06s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:   2%|1         | 54/3500 [02:59<1:58:17,  2.06s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:   2%|1         | 54/3500 [02:59<1:58:17,  2.06s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:   2%|1         | 55/3500 [02:59<2:01:42,  2.12s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:   2%|1         | 55/3500 [02:59<2:01:42,  2.12s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:   2%|1         | 55/3500 [03:02<2:01:42,  2.12s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   2%|1         | 55/3500 [03:02<2:01:42,  2.12s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   2%|1         | 56/3500 [03:02<2:07:15,  2.22s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   2%|1         | 56/3500 [03:02<2:07:15,  2.22s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   2%|1         | 56/3500 [03:04<2:07:15,  2.22s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:   2%|1         | 56/3500 [03:04<2:07:15,  2.22s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:   2%|1         | 57/3500 [03:04<2:08:10,  2.23s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:   2%|1         | 57/3500 [03:04<2:08:10,  2.23s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:   2%|1         | 57/3500 [03:06<2:08:10,  2.23s/it, lr: 2.0e-04 loss: 8.756e-02]wan_dewa:   2%|1         | 57/3500 [03:06<2:08:10,  2.23s/it, lr: 2.0e-04 loss: 8.756e-02]wan_dewa:   2%|1         | 58/3500 [03:06<2:08:49,  2.25s/it, lr: 2.0e-04 loss: 8.756e-02]wan_dewa:   2%|1         | 58/3500 [03:06<2:08:49,  2.25s/it, lr: 2.0e-04 loss: 8.756e-02]wan_dewa:   2%|1         | 58/3500 [03:09<2:08:49,  2.25s/it, lr: 2.0e-04 loss: 5.836e-02]wan_dewa:   2%|1         | 58/3500 [03:09<2:08:49,  2.25s/it, lr: 2.0e-04 loss: 5.836e-02]wan_dewa:   2%|1         | 59/3500 [03:09<2:09:19,  2.25s/it, lr: 2.0e-04 loss: 5.836e-02]wan_dewa:   2%|1         | 59/3500 [03:09<2:09:19,  2.25s/it, lr: 2.0e-04 loss: 5.836e-02]wan_dewa:   2%|1         | 59/3500 [03:20<2:09:19,  2.25s/it, lr: 2.0e-04 loss: 9.557e-02]wan_dewa:   2%|1         | 59/3500 [03:20<2:09:19,  2.25s/it, lr: 2.0e-04 loss: 9.557e-02]wan_dewa:   2%|1         | 60/3500 [03:22<2:09:16,  2.25s/it, lr: 2.0e-04 loss: 7.775e-02]wan_dewa:   2%|1         | 60/3500 [03:22<2:09:16,  2.25s/it, lr: 2.0e-04 loss: 7.775e-02]wan_dewa:   2%|1         | 61/3500 [03:22<1:42:53,  1.80s/it, lr: 2.0e-04 loss: 7.775e-02]wan_dewa:   2%|1         | 61/3500 [03:22<1:42:53,  1.80s/it, lr: 2.0e-04 loss: 7.775e-02]wan_dewa:   2%|1         | 61/3500 [03:25<1:42:53,  1.80s/it, lr: 2.0e-04 loss: 9.854e-02]wan_dewa:   2%|1         | 61/3500 [03:25<1:42:53,  1.80s/it, lr: 2.0e-04 loss: 9.854e-02]wan_dewa:   2%|1         | 62/3500 [03:25<1:49:35,  1.91s/it, lr: 2.0e-04 loss: 9.854e-02]wan_dewa:   2%|1         | 62/3500 [03:25<1:49:35,  1.91s/it, lr: 2.0e-04 loss: 9.854e-02]wan_dewa:   2%|1         | 62/3500 [03:27<1:49:35,  1.91s/it, lr: 2.0e-04 loss: 8.517e-02]wan_dewa:   2%|1         | 62/3500 [03:27<1:49:35,  1.91s/it, lr: 2.0e-04 loss: 8.517e-02]wan_dewa:   2%|1         | 63/3500 [03:27<1:54:57,  2.01s/it, lr: 2.0e-04 loss: 8.517e-02]wan_dewa:   2%|1         | 63/3500 [03:27<1:54:57,  2.01s/it, lr: 2.0e-04 loss: 8.517e-02]wan_dewa:   2%|1         | 63/3500 [03:29<1:54:57,  2.01s/it, lr: 2.0e-04 loss: 9.033e-02]wan_dewa:   2%|1         | 63/3500 [03:29<1:54:57,  2.01s/it, lr: 2.0e-04 loss: 9.033e-02]wan_dewa:   2%|1         | 64/3500 [03:29<1:59:07,  2.08s/it, lr: 2.0e-04 loss: 9.033e-02]wan_dewa:   2%|1         | 64/3500 [03:29<1:59:07,  2.08s/it, lr: 2.0e-04 loss: 9.033e-02]wan_dewa:   2%|1         | 64/3500 [03:32<1:59:07,  2.08s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:   2%|1         | 64/3500 [03:32<1:59:07,  2.08s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:   2%|1         | 65/3500 [03:32<2:05:09,  2.19s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:   2%|1         | 65/3500 [03:32<2:05:09,  2.19s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:   2%|1         | 65/3500 [03:34<2:05:09,  2.19s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:   2%|1         | 65/3500 [03:34<2:05:09,  2.19s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:   2%|1         | 66/3500 [03:34<2:06:37,  2.21s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:   2%|1         | 66/3500 [03:34<2:06:37,  2.21s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:   2%|1         | 66/3500 [03:36<2:06:37,  2.21s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:   2%|1         | 66/3500 [03:36<2:06:37,  2.21s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:   2%|1         | 67/3500 [03:36<2:07:42,  2.23s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:   2%|1         | 67/3500 [03:36<2:07:42,  2.23s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:   2%|1         | 67/3500 [03:38<2:07:42,  2.23s/it, lr: 2.0e-04 loss: 6.333e-02]wan_dewa:   2%|1         | 67/3500 [03:38<2:07:42,  2.23s/it, lr: 2.0e-04 loss: 6.333e-02]wan_dewa:   2%|1         | 68/3500 [03:38<2:08:27,  2.25s/it, lr: 2.0e-04 loss: 6.333e-02]wan_dewa:   2%|1         | 68/3500 [03:38<2:08:27,  2.25s/it, lr: 2.0e-04 loss: 6.333e-02]wan_dewa:   2%|1         | 68/3500 [03:41<2:08:27,  2.25s/it, lr: 2.0e-04 loss: 4.894e-02]wan_dewa:   2%|1         | 68/3500 [03:41<2:08:27,  2.25s/it, lr: 2.0e-04 loss: 4.894e-02]wan_dewa:   2%|1         | 69/3500 [03:41<2:09:00,  2.26s/it, lr: 2.0e-04 loss: 4.894e-02]wan_dewa:   2%|1         | 69/3500 [03:41<2:09:00,  2.26s/it, lr: 2.0e-04 loss: 4.894e-02]wan_dewa:   2%|1         | 69/3500 [03:48<2:09:00,  2.26s/it, lr: 2.0e-04 loss: 1.902e-01]wan_dewa:   2%|1         | 69/3500 [03:48<2:09:00,  2.26s/it, lr: 2.0e-04 loss: 1.902e-01]wan_dewa:   2%|2         | 70/3500 [03:50<2:08:57,  2.26s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:   2%|2         | 70/3500 [03:50<2:08:57,  2.26s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:   2%|2         | 71/3500 [03:50<1:39:47,  1.75s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:   2%|2         | 71/3500 [03:50<1:39:47,  1.75s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:   2%|2         | 71/3500 [03:53<1:39:47,  1.75s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:   2%|2         | 71/3500 [03:53<1:39:47,  1.75s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:   2%|2         | 72/3500 [03:53<1:47:15,  1.88s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:   2%|2         | 72/3500 [03:53<1:47:15,  1.88s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:   2%|2         | 72/3500 [03:55<1:47:15,  1.88s/it, lr: 2.0e-04 loss: 6.667e-02]wan_dewa:   2%|2         | 72/3500 [03:55<1:47:15,  1.88s/it, lr: 2.0e-04 loss: 6.667e-02]wan_dewa:   2%|2         | 73/3500 [03:55<1:53:12,  1.98s/it, lr: 2.0e-04 loss: 6.667e-02]wan_dewa:   2%|2         | 73/3500 [03:55<1:53:12,  1.98s/it, lr: 2.0e-04 loss: 6.667e-02]wan_dewa:   2%|2         | 73/3500 [03:57<1:53:12,  1.98s/it, lr: 2.0e-04 loss: 3.716e-01]wan_dewa:   2%|2         | 73/3500 [03:57<1:53:12,  1.98s/it, lr: 2.0e-04 loss: 3.716e-01]wan_dewa:   2%|2         | 74/3500 [03:57<1:57:45,  2.06s/it, lr: 2.0e-04 loss: 3.716e-01]wan_dewa:   2%|2         | 74/3500 [03:57<1:57:45,  2.06s/it, lr: 2.0e-04 loss: 3.716e-01]wan_dewa:   2%|2         | 74/3500 [04:02<1:57:45,  2.06s/it, lr: 2.0e-04 loss: 3.174e-02]wan_dewa:   2%|2         | 74/3500 [04:02<1:57:45,  2.06s/it, lr: 2.0e-04 loss: 3.174e-02]wan_dewa:   2%|2         | 75/3500 [04:02<2:01:39,  2.13s/it, lr: 2.0e-04 loss: 3.174e-02]wan_dewa:   2%|2         | 75/3500 [04:02<2:01:39,  2.13s/it, lr: 2.0e-04 loss: 3.174e-02]wan_dewa:   2%|2         | 75/3500 [04:04<2:01:39,  2.13s/it, lr: 2.0e-04 loss: 9.786e-02]wan_dewa:   2%|2         | 75/3500 [04:04<2:01:39,  2.13s/it, lr: 2.0e-04 loss: 9.786e-02]wan_dewa:   2%|2         | 76/3500 [04:04<2:09:18,  2.27s/it, lr: 2.0e-04 loss: 9.786e-02]wan_dewa:   2%|2         | 76/3500 [04:04<2:09:18,  2.27s/it, lr: 2.0e-04 loss: 9.786e-02]wan_dewa:   2%|2         | 76/3500 [04:07<2:09:18,  2.27s/it, lr: 2.0e-04 loss: 1.461e-01]wan_dewa:   2%|2         | 76/3500 [04:07<2:09:18,  2.27s/it, lr: 2.0e-04 loss: 1.461e-01]wan_dewa:   2%|2         | 77/3500 [04:07<2:09:30,  2.27s/it, lr: 2.0e-04 loss: 1.461e-01]wan_dewa:   2%|2         | 77/3500 [04:07<2:09:30,  2.27s/it, lr: 2.0e-04 loss: 1.461e-01]wan_dewa:   2%|2         | 77/3500 [04:09<2:09:30,  2.27s/it, lr: 2.0e-04 loss: 1.204e-01]wan_dewa:   2%|2         | 77/3500 [04:09<2:09:30,  2.27s/it, lr: 2.0e-04 loss: 1.204e-01]wan_dewa:   2%|2         | 78/3500 [04:09<2:09:37,  2.27s/it, lr: 2.0e-04 loss: 1.204e-01]wan_dewa:   2%|2         | 78/3500 [04:09<2:09:37,  2.27s/it, lr: 2.0e-04 loss: 1.204e-01]wan_dewa:   2%|2         | 78/3500 [04:11<2:09:37,  2.27s/it, lr: 2.0e-04 loss: 8.243e-02]wan_dewa:   2%|2         | 78/3500 [04:11<2:09:37,  2.27s/it, lr: 2.0e-04 loss: 8.243e-02]wan_dewa:   2%|2         | 79/3500 [04:11<2:09:42,  2.27s/it, lr: 2.0e-04 loss: 8.243e-02]wan_dewa:   2%|2         | 79/3500 [04:11<2:09:42,  2.27s/it, lr: 2.0e-04 loss: 8.243e-02]wan_dewa:   2%|2         | 79/3500 [04:22<2:09:42,  2.27s/it, lr: 2.0e-04 loss: 1.089e-01]wan_dewa:   2%|2         | 79/3500 [04:22<2:09:42,  2.27s/it, lr: 2.0e-04 loss: 1.089e-01]wan_dewa:   2%|2         | 80/3500 [04:24<2:09:40,  2.27s/it, lr: 2.0e-04 loss: 9.299e-02]wan_dewa:   2%|2         | 80/3500 [04:24<2:09:40,  2.27s/it, lr: 2.0e-04 loss: 9.299e-02]wan_dewa:   2%|2         | 81/3500 [04:24<1:40:21,  1.76s/it, lr: 2.0e-04 loss: 9.299e-02]wan_dewa:   2%|2         | 81/3500 [04:24<1:40:21,  1.76s/it, lr: 2.0e-04 loss: 9.299e-02]wan_dewa:   2%|2         | 81/3500 [04:27<1:40:21,  1.76s/it, lr: 2.0e-04 loss: 8.782e-02]wan_dewa:   2%|2         | 81/3500 [04:27<1:40:21,  1.76s/it, lr: 2.0e-04 loss: 8.782e-02]wan_dewa:   2%|2         | 82/3500 [04:27<1:47:35,  1.89s/it, lr: 2.0e-04 loss: 8.782e-02]wan_dewa:   2%|2         | 82/3500 [04:27<1:47:35,  1.89s/it, lr: 2.0e-04 loss: 8.782e-02]wan_dewa:   2%|2         | 82/3500 [04:29<1:47:35,  1.89s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:   2%|2         | 82/3500 [04:29<1:47:35,  1.89s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:   2%|2         | 83/3500 [04:29<1:53:20,  1.99s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:   2%|2         | 83/3500 [04:29<1:53:20,  1.99s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:   2%|2         | 83/3500 [04:31<1:53:20,  1.99s/it, lr: 2.0e-04 loss: 9.568e-02]wan_dewa:   2%|2         | 83/3500 [04:31<1:53:20,  1.99s/it, lr: 2.0e-04 loss: 9.568e-02]wan_dewa:   2%|2         | 84/3500 [04:31<1:57:45,  2.07s/it, lr: 2.0e-04 loss: 9.568e-02]wan_dewa:   2%|2         | 84/3500 [04:31<1:57:45,  2.07s/it, lr: 2.0e-04 loss: 9.568e-02]wan_dewa:   2%|2         | 84/3500 [04:34<1:57:45,  2.07s/it, lr: 2.0e-04 loss: 9.490e-02]wan_dewa:   2%|2         | 84/3500 [04:34<1:57:45,  2.07s/it, lr: 2.0e-04 loss: 9.490e-02]wan_dewa:   2%|2         | 85/3500 [04:34<2:04:59,  2.20s/it, lr: 2.0e-04 loss: 9.490e-02]wan_dewa:   2%|2         | 85/3500 [04:34<2:04:59,  2.20s/it, lr: 2.0e-04 loss: 9.490e-02]wan_dewa:   2%|2         | 85/3500 [04:36<2:04:59,  2.20s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:   2%|2         | 85/3500 [04:36<2:04:59,  2.20s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:   2%|2         | 86/3500 [04:36<2:06:19,  2.22s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:   2%|2         | 86/3500 [04:36<2:06:19,  2.22s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:   2%|2         | 86/3500 [04:38<2:06:19,  2.22s/it, lr: 2.0e-04 loss: 7.451e-02]wan_dewa:   2%|2         | 86/3500 [04:38<2:06:19,  2.22s/it, lr: 2.0e-04 loss: 7.451e-02]wan_dewa:   2%|2         | 87/3500 [04:38<2:07:17,  2.24s/it, lr: 2.0e-04 loss: 7.451e-02]wan_dewa:   2%|2         | 87/3500 [04:38<2:07:17,  2.24s/it, lr: 2.0e-04 loss: 7.451e-02]wan_dewa:   2%|2         | 87/3500 [04:41<2:07:17,  2.24s/it, lr: 2.0e-04 loss: 8.221e-02]wan_dewa:   2%|2         | 87/3500 [04:41<2:07:17,  2.24s/it, lr: 2.0e-04 loss: 8.221e-02]wan_dewa:   3%|2         | 88/3500 [04:41<2:08:01,  2.25s/it, lr: 2.0e-04 loss: 8.221e-02]wan_dewa:   3%|2         | 88/3500 [04:41<2:08:01,  2.25s/it, lr: 2.0e-04 loss: 8.221e-02]wan_dewa:   3%|2         | 88/3500 [04:43<2:08:01,  2.25s/it, lr: 2.0e-04 loss: 7.399e-02]wan_dewa:   3%|2         | 88/3500 [04:43<2:08:01,  2.25s/it, lr: 2.0e-04 loss: 7.399e-02]wan_dewa:   3%|2         | 89/3500 [04:43<2:08:38,  2.26s/it, lr: 2.0e-04 loss: 7.399e-02]wan_dewa:   3%|2         | 89/3500 [04:43<2:08:38,  2.26s/it, lr: 2.0e-04 loss: 7.399e-02]wan_dewa:   3%|2         | 89/3500 [04:54<2:08:38,  2.26s/it, lr: 2.0e-04 loss: 1.675e-01]wan_dewa:   3%|2         | 89/3500 [04:54<2:08:38,  2.26s/it, lr: 2.0e-04 loss: 1.675e-01]wan_dewa:   3%|2         | 90/3500 [04:56<2:08:36,  2.26s/it, lr: 2.0e-04 loss: 1.244e-01]wan_dewa:   3%|2         | 90/3500 [04:56<2:08:36,  2.26s/it, lr: 2.0e-04 loss: 1.244e-01]wan_dewa:   3%|2         | 91/3500 [04:56<1:39:25,  1.75s/it, lr: 2.0e-04 loss: 1.244e-01]wan_dewa:   3%|2         | 91/3500 [04:56<1:39:25,  1.75s/it, lr: 2.0e-04 loss: 1.244e-01]wan_dewa:   3%|2         | 91/3500 [04:59<1:39:25,  1.75s/it, lr: 2.0e-04 loss: 7.983e-02]wan_dewa:   3%|2         | 91/3500 [04:59<1:39:25,  1.75s/it, lr: 2.0e-04 loss: 7.983e-02]wan_dewa:   3%|2         | 92/3500 [04:59<1:46:44,  1.88s/it, lr: 2.0e-04 loss: 7.983e-02]wan_dewa:   3%|2         | 92/3500 [04:59<1:46:44,  1.88s/it, lr: 2.0e-04 loss: 7.983e-02]wan_dewa:   3%|2         | 92/3500 [05:01<1:46:44,  1.88s/it, lr: 2.0e-04 loss: 1.139e-01]wan_dewa:   3%|2         | 92/3500 [05:01<1:46:44,  1.88s/it, lr: 2.0e-04 loss: 1.139e-01]wan_dewa:   3%|2         | 93/3500 [05:01<1:52:32,  1.98s/it, lr: 2.0e-04 loss: 1.139e-01]wan_dewa:   3%|2         | 93/3500 [05:01<1:52:32,  1.98s/it, lr: 2.0e-04 loss: 1.139e-01]wan_dewa:   3%|2         | 93/3500 [05:03<1:52:32,  1.98s/it, lr: 2.0e-04 loss: 8.455e-02]wan_dewa:   3%|2         | 93/3500 [05:03<1:52:32,  1.98s/it, lr: 2.0e-04 loss: 8.455e-02]wan_dewa:   3%|2         | 94/3500 [05:03<1:56:58,  2.06s/it, lr: 2.0e-04 loss: 8.455e-02]wan_dewa:   3%|2         | 94/3500 [05:03<1:56:58,  2.06s/it, lr: 2.0e-04 loss: 8.455e-02]wan_dewa:   3%|2         | 94/3500 [05:06<1:56:58,  2.06s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:   3%|2         | 94/3500 [05:06<1:56:58,  2.06s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:   3%|2         | 95/3500 [05:06<2:00:17,  2.12s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:   3%|2         | 95/3500 [05:06<2:00:17,  2.12s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:   3%|2         | 95/3500 [05:08<2:00:17,  2.12s/it, lr: 2.0e-04 loss: 8.421e-02]wan_dewa:   3%|2         | 95/3500 [05:08<2:00:17,  2.12s/it, lr: 2.0e-04 loss: 8.421e-02]wan_dewa:   3%|2         | 96/3500 [05:08<2:06:06,  2.22s/it, lr: 2.0e-04 loss: 8.421e-02]wan_dewa:   3%|2         | 96/3500 [05:08<2:06:06,  2.22s/it, lr: 2.0e-04 loss: 8.421e-02]wan_dewa:   3%|2         | 96/3500 [05:10<2:06:06,  2.22s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:   3%|2         | 96/3500 [05:10<2:06:06,  2.22s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:   3%|2         | 97/3500 [05:10<2:06:55,  2.24s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:   3%|2         | 97/3500 [05:10<2:06:55,  2.24s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:   3%|2         | 97/3500 [05:13<2:06:55,  2.24s/it, lr: 2.0e-04 loss: 5.804e-02]wan_dewa:   3%|2         | 97/3500 [05:13<2:06:55,  2.24s/it, lr: 2.0e-04 loss: 5.804e-02]wan_dewa:   3%|2         | 98/3500 [05:13<2:07:31,  2.25s/it, lr: 2.0e-04 loss: 5.804e-02]wan_dewa:   3%|2         | 98/3500 [05:13<2:07:31,  2.25s/it, lr: 2.0e-04 loss: 5.804e-02]wan_dewa:   3%|2         | 98/3500 [05:15<2:07:31,  2.25s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:   3%|2         | 98/3500 [05:15<2:07:31,  2.25s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:   3%|2         | 99/3500 [05:15<2:08:00,  2.26s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:   3%|2         | 99/3500 [05:15<2:08:00,  2.26s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:   3%|2         | 99/3500 [05:28<2:08:00,  2.26s/it, lr: 2.0e-04 loss: 8.735e-02]wan_dewa:   3%|2         | 99/3500 [05:28<2:08:00,  2.26s/it, lr: 2.0e-04 loss: 8.735e-02]wan_dewa:   3%|2         | 100/3500 [05:30<2:07:58,  2.26s/it, lr: 2.0e-04 loss: 1.042e-01]wan_dewa:   3%|2         | 100/3500 [05:30<2:07:58,  2.26s/it, lr: 2.0e-04 loss: 1.042e-01]wan_dewa:   3%|2         | 101/3500 [05:30<1:39:04,  1.75s/it, lr: 2.0e-04 loss: 1.042e-01]wan_dewa:   3%|2         | 101/3500 [05:30<1:39:04,  1.75s/it, lr: 2.0e-04 loss: 1.042e-01]wan_dewa:   3%|2         | 101/3500 [05:33<1:39:04,  1.75s/it, lr: 2.0e-04 loss: 6.268e-02]wan_dewa:   3%|2         | 101/3500 [05:33<1:39:04,  1.75s/it, lr: 2.0e-04 loss: 6.268e-02]wan_dewa:   3%|2         | 102/3500 [05:33<1:46:18,  1.88s/it, lr: 2.0e-04 loss: 6.268e-02]wan_dewa:   3%|2         | 102/3500 [05:33<1:46:18,  1.88s/it, lr: 2.0e-04 loss: 6.268e-02]wan_dewa:   3%|2         | 102/3500 [05:35<1:46:18,  1.88s/it, lr: 2.0e-04 loss: 9.335e-02]wan_dewa:   3%|2         | 102/3500 [05:35<1:46:18,  1.88s/it, lr: 2.0e-04 loss: 9.335e-02]wan_dewa:   3%|2         | 103/3500 [05:35<1:52:02,  1.98s/it, lr: 2.0e-04 loss: 9.335e-02]wan_dewa:   3%|2         | 103/3500 [05:35<1:52:02,  1.98s/it, lr: 2.0e-04 loss: 9.335e-02]wan_dewa:   3%|2         | 103/3500 [05:37<1:52:02,  1.98s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:   3%|2         | 103/3500 [05:37<1:52:02,  1.98s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:   3%|2         | 104/3500 [05:37<1:56:29,  2.06s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:   3%|2         | 104/3500 [05:37<1:56:29,  2.06s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:   3%|2         | 104/3500 [05:39<1:56:29,  2.06s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:   3%|2         | 104/3500 [05:39<1:56:29,  2.06s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:   3%|3         | 105/3500 [05:39<1:59:53,  2.12s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:   3%|3         | 105/3500 [05:39<1:59:53,  2.12s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:   3%|3         | 105/3500 [05:42<1:59:53,  2.12s/it, lr: 2.0e-04 loss: 1.331e-01]wan_dewa:   3%|3         | 105/3500 [05:42<1:59:53,  2.12s/it, lr: 2.0e-04 loss: 1.331e-01]wan_dewa:   3%|3         | 106/3500 [05:42<2:05:20,  2.22s/it, lr: 2.0e-04 loss: 1.331e-01]wan_dewa:   3%|3         | 106/3500 [05:42<2:05:20,  2.22s/it, lr: 2.0e-04 loss: 1.331e-01]wan_dewa:   3%|3         | 106/3500 [05:44<2:05:20,  2.22s/it, lr: 2.0e-04 loss: 8.212e-02]wan_dewa:   3%|3         | 106/3500 [05:44<2:05:20,  2.22s/it, lr: 2.0e-04 loss: 8.212e-02]wan_dewa:   3%|3         | 107/3500 [05:44<2:06:14,  2.23s/it, lr: 2.0e-04 loss: 8.212e-02]wan_dewa:   3%|3         | 107/3500 [05:44<2:06:14,  2.23s/it, lr: 2.0e-04 loss: 8.212e-02]wan_dewa:   3%|3         | 107/3500 [05:47<2:06:14,  2.23s/it, lr: 2.0e-04 loss: 8.175e-02]wan_dewa:   3%|3         | 107/3500 [05:47<2:06:14,  2.23s/it, lr: 2.0e-04 loss: 8.175e-02]wan_dewa:   3%|3         | 108/3500 [05:47<2:06:56,  2.25s/it, lr: 2.0e-04 loss: 8.175e-02]wan_dewa:   3%|3         | 108/3500 [05:47<2:06:56,  2.25s/it, lr: 2.0e-04 loss: 8.175e-02]wan_dewa:   3%|3         | 108/3500 [05:49<2:06:56,  2.25s/it, lr: 2.0e-04 loss: 1.332e-01]wan_dewa:   3%|3         | 108/3500 [05:49<2:06:56,  2.25s/it, lr: 2.0e-04 loss: 1.332e-01]wan_dewa:   3%|3         | 109/3500 [05:49<2:07:23,  2.25s/it, lr: 2.0e-04 loss: 1.332e-01]wan_dewa:   3%|3         | 109/3500 [05:49<2:07:23,  2.25s/it, lr: 2.0e-04 loss: 1.332e-01]wan_dewa:   3%|3         | 109/3500 [06:00<2:07:23,  2.25s/it, lr: 2.0e-04 loss: 1.861e-01]wan_dewa:   3%|3         | 109/3500 [06:00<2:07:23,  2.25s/it, lr: 2.0e-04 loss: 1.861e-01]wan_dewa:   3%|3         | 110/3500 [06:02<2:07:20,  2.25s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:   3%|3         | 110/3500 [06:02<2:07:20,  2.25s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:   3%|3         | 111/3500 [06:02<1:41:04,  1.79s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:   3%|3         | 111/3500 [06:02<1:41:04,  1.79s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:   3%|3         | 111/3500 [06:05<1:41:04,  1.79s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:   3%|3         | 111/3500 [06:05<1:41:04,  1.79s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:   3%|3         | 112/3500 [06:05<1:47:40,  1.91s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:   3%|3         | 112/3500 [06:05<1:47:40,  1.91s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:   3%|3         | 112/3500 [06:07<1:47:40,  1.91s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:   3%|3         | 112/3500 [06:07<1:47:40,  1.91s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:   3%|3         | 113/3500 [06:07<1:52:56,  2.00s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:   3%|3         | 113/3500 [06:07<1:52:56,  2.00s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:   3%|3         | 113/3500 [06:09<1:52:56,  2.00s/it, lr: 2.0e-04 loss: 8.462e-02]wan_dewa:   3%|3         | 113/3500 [06:09<1:52:56,  2.00s/it, lr: 2.0e-04 loss: 8.462e-02]wan_dewa:   3%|3         | 114/3500 [06:09<1:56:59,  2.07s/it, lr: 2.0e-04 loss: 8.462e-02]wan_dewa:   3%|3         | 114/3500 [06:09<1:56:59,  2.07s/it, lr: 2.0e-04 loss: 8.462e-02]wan_dewa:   3%|3         | 114/3500 [06:12<1:56:59,  2.07s/it, lr: 2.0e-04 loss: 2.130e-01]wan_dewa:   3%|3         | 114/3500 [06:12<1:56:59,  2.07s/it, lr: 2.0e-04 loss: 2.130e-01]wan_dewa:   3%|3         | 115/3500 [06:12<2:02:55,  2.18s/it, lr: 2.0e-04 loss: 2.130e-01]wan_dewa:   3%|3         | 115/3500 [06:12<2:02:55,  2.18s/it, lr: 2.0e-04 loss: 2.130e-01]wan_dewa:   3%|3         | 115/3500 [06:14<2:02:55,  2.18s/it, lr: 2.0e-04 loss: 3.176e-02]wan_dewa:   3%|3         | 115/3500 [06:14<2:02:55,  2.18s/it, lr: 2.0e-04 loss: 3.176e-02]wan_dewa:   3%|3         | 116/3500 [06:14<2:04:22,  2.21s/it, lr: 2.0e-04 loss: 3.176e-02]wan_dewa:   3%|3         | 116/3500 [06:14<2:04:22,  2.21s/it, lr: 2.0e-04 loss: 3.176e-02]wan_dewa:   3%|3         | 116/3500 [06:16<2:04:22,  2.21s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:   3%|3         | 116/3500 [06:16<2:04:22,  2.21s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:   3%|3         | 117/3500 [06:16<2:05:27,  2.23s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:   3%|3         | 117/3500 [06:16<2:05:27,  2.23s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:   3%|3         | 117/3500 [06:18<2:05:27,  2.23s/it, lr: 2.0e-04 loss: 7.882e-02]wan_dewa:   3%|3         | 117/3500 [06:18<2:05:27,  2.23s/it, lr: 2.0e-04 loss: 7.882e-02]wan_dewa:   3%|3         | 118/3500 [06:18<2:06:13,  2.24s/it, lr: 2.0e-04 loss: 7.882e-02]wan_dewa:   3%|3         | 118/3500 [06:18<2:06:13,  2.24s/it, lr: 2.0e-04 loss: 7.882e-02]wan_dewa:   3%|3         | 118/3500 [06:21<2:06:13,  2.24s/it, lr: 2.0e-04 loss: 8.760e-02]wan_dewa:   3%|3         | 118/3500 [06:21<2:06:13,  2.24s/it, lr: 2.0e-04 loss: 8.760e-02]wan_dewa:   3%|3         | 119/3500 [06:21<2:06:44,  2.25s/it, lr: 2.0e-04 loss: 8.760e-02]wan_dewa:   3%|3         | 119/3500 [06:21<2:06:44,  2.25s/it, lr: 2.0e-04 loss: 8.760e-02]wan_dewa:   3%|3         | 119/3500 [06:28<2:06:44,  2.25s/it, lr: 2.0e-04 loss: 9.885e-02]wan_dewa:   3%|3         | 119/3500 [06:28<2:06:44,  2.25s/it, lr: 2.0e-04 loss: 9.885e-02]wan_dewa:   3%|3         | 120/3500 [06:31<2:06:42,  2.25s/it, lr: 2.0e-04 loss: 7.254e-02]wan_dewa:   3%|3         | 120/3500 [06:31<2:06:42,  2.25s/it, lr: 2.0e-04 loss: 7.254e-02]wan_dewa:   3%|3         | 121/3500 [06:31<1:38:00,  1.74s/it, lr: 2.0e-04 loss: 7.254e-02]wan_dewa:   3%|3         | 121/3500 [06:31<1:38:00,  1.74s/it, lr: 2.0e-04 loss: 7.254e-02]wan_dewa:   3%|3         | 121/3500 [06:33<1:38:00,  1.74s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   3%|3         | 121/3500 [06:33<1:38:00,  1.74s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   3%|3         | 122/3500 [06:33<1:45:23,  1.87s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   3%|3         | 122/3500 [06:33<1:45:23,  1.87s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   3%|3         | 122/3500 [06:35<1:45:23,  1.87s/it, lr: 2.0e-04 loss: 5.587e-02]wan_dewa:   3%|3         | 122/3500 [06:35<1:45:23,  1.87s/it, lr: 2.0e-04 loss: 5.587e-02]wan_dewa:   4%|3         | 123/3500 [06:35<1:51:15,  1.98s/it, lr: 2.0e-04 loss: 5.587e-02]wan_dewa:   4%|3         | 123/3500 [06:35<1:51:15,  1.98s/it, lr: 2.0e-04 loss: 5.587e-02]wan_dewa:   4%|3         | 123/3500 [06:37<1:51:15,  1.98s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:   4%|3         | 123/3500 [06:37<1:51:15,  1.98s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:   4%|3         | 124/3500 [06:37<1:55:44,  2.06s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:   4%|3         | 124/3500 [06:37<1:55:44,  2.06s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:   4%|3         | 124/3500 [06:42<1:55:44,  2.06s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   4%|3         | 124/3500 [06:42<1:55:44,  2.06s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   4%|3         | 125/3500 [06:42<1:59:28,  2.12s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   4%|3         | 125/3500 [06:42<1:59:28,  2.12s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:   4%|3         | 125/3500 [06:44<1:59:28,  2.12s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:   4%|3         | 125/3500 [06:44<1:59:28,  2.12s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:   4%|3         | 126/3500 [06:44<2:07:17,  2.26s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:   4%|3         | 126/3500 [06:44<2:07:17,  2.26s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:   4%|3         | 126/3500 [06:47<2:07:17,  2.26s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:   4%|3         | 126/3500 [06:47<2:07:17,  2.26s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:   4%|3         | 127/3500 [06:47<2:07:29,  2.27s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:   4%|3         | 127/3500 [06:47<2:07:29,  2.27s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:   4%|3         | 127/3500 [06:49<2:07:29,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   4%|3         | 127/3500 [06:49<2:07:29,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   4%|3         | 128/3500 [06:49<2:07:33,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   4%|3         | 128/3500 [06:49<2:07:33,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   4%|3         | 128/3500 [06:51<2:07:33,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   4%|3         | 128/3500 [06:51<2:07:33,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   4%|3         | 129/3500 [06:51<2:07:37,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   4%|3         | 129/3500 [06:51<2:07:37,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   4%|3         | 129/3500 [07:02<2:07:37,  2.27s/it, lr: 2.0e-04 loss: 4.808e-02]wan_dewa:   4%|3         | 129/3500 [07:02<2:07:37,  2.27s/it, lr: 2.0e-04 loss: 4.808e-02]wan_dewa:   4%|3         | 130/3500 [07:05<2:07:35,  2.27s/it, lr: 2.0e-04 loss: 1.824e-01]wan_dewa:   4%|3         | 130/3500 [07:05<2:07:35,  2.27s/it, lr: 2.0e-04 loss: 1.824e-01]wan_dewa:   4%|3         | 131/3500 [07:05<1:38:39,  1.76s/it, lr: 2.0e-04 loss: 1.824e-01]wan_dewa:   4%|3         | 131/3500 [07:05<1:38:39,  1.76s/it, lr: 2.0e-04 loss: 1.824e-01]wan_dewa:   4%|3         | 131/3500 [07:07<1:38:39,  1.76s/it, lr: 2.0e-04 loss: 4.611e-02]wan_dewa:   4%|3         | 131/3500 [07:07<1:38:39,  1.76s/it, lr: 2.0e-04 loss: 4.611e-02]wan_dewa:   4%|3         | 132/3500 [07:07<1:45:44,  1.88s/it, lr: 2.0e-04 loss: 4.611e-02]wan_dewa:   4%|3         | 132/3500 [07:07<1:45:44,  1.88s/it, lr: 2.0e-04 loss: 4.611e-02]wan_dewa:   4%|3         | 132/3500 [07:09<1:45:44,  1.88s/it, lr: 2.0e-04 loss: 5.690e-02]wan_dewa:   4%|3         | 132/3500 [07:09<1:45:44,  1.88s/it, lr: 2.0e-04 loss: 5.690e-02]wan_dewa:   4%|3         | 133/3500 [07:09<1:51:20,  1.98s/it, lr: 2.0e-04 loss: 5.690e-02]wan_dewa:   4%|3         | 133/3500 [07:09<1:51:20,  1.98s/it, lr: 2.0e-04 loss: 5.690e-02]wan_dewa:   4%|3         | 133/3500 [07:12<1:51:20,  1.98s/it, lr: 2.0e-04 loss: 9.857e-02]wan_dewa:   4%|3         | 133/3500 [07:12<1:51:20,  1.98s/it, lr: 2.0e-04 loss: 9.857e-02]wan_dewa:   4%|3         | 134/3500 [07:12<1:55:40,  2.06s/it, lr: 2.0e-04 loss: 9.857e-02]wan_dewa:   4%|3         | 134/3500 [07:12<1:55:40,  2.06s/it, lr: 2.0e-04 loss: 9.857e-02]wan_dewa:   4%|3         | 134/3500 [07:14<1:55:40,  2.06s/it, lr: 2.0e-04 loss: 8.087e-02]wan_dewa:   4%|3         | 134/3500 [07:14<1:55:40,  2.06s/it, lr: 2.0e-04 loss: 8.087e-02]wan_dewa:   4%|3         | 135/3500 [07:14<2:02:41,  2.19s/it, lr: 2.0e-04 loss: 8.087e-02]wan_dewa:   4%|3         | 135/3500 [07:14<2:02:41,  2.19s/it, lr: 2.0e-04 loss: 8.087e-02]wan_dewa:   4%|3         | 135/3500 [07:16<2:02:41,  2.19s/it, lr: 2.0e-04 loss: 1.182e-01]wan_dewa:   4%|3         | 135/3500 [07:16<2:02:41,  2.19s/it, lr: 2.0e-04 loss: 1.182e-01]wan_dewa:   4%|3         | 136/3500 [07:16<2:04:02,  2.21s/it, lr: 2.0e-04 loss: 1.182e-01]wan_dewa:   4%|3         | 136/3500 [07:16<2:04:02,  2.21s/it, lr: 2.0e-04 loss: 1.182e-01]wan_dewa:   4%|3         | 136/3500 [07:19<2:04:02,  2.21s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:   4%|3         | 136/3500 [07:19<2:04:02,  2.21s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:   4%|3         | 137/3500 [07:19<2:04:59,  2.23s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:   4%|3         | 137/3500 [07:19<2:04:59,  2.23s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:   4%|3         | 137/3500 [07:21<2:04:59,  2.23s/it, lr: 2.0e-04 loss: 4.788e-02]wan_dewa:   4%|3         | 137/3500 [07:21<2:04:59,  2.23s/it, lr: 2.0e-04 loss: 4.788e-02]wan_dewa:   4%|3         | 138/3500 [07:21<2:05:41,  2.24s/it, lr: 2.0e-04 loss: 4.788e-02]wan_dewa:   4%|3         | 138/3500 [07:21<2:05:41,  2.24s/it, lr: 2.0e-04 loss: 4.788e-02]wan_dewa:   4%|3         | 138/3500 [07:23<2:05:41,  2.24s/it, lr: 2.0e-04 loss: 8.567e-02]wan_dewa:   4%|3         | 138/3500 [07:23<2:05:41,  2.24s/it, lr: 2.0e-04 loss: 8.567e-02]wan_dewa:   4%|3         | 139/3500 [07:23<2:06:11,  2.25s/it, lr: 2.0e-04 loss: 8.567e-02]wan_dewa:   4%|3         | 139/3500 [07:23<2:06:11,  2.25s/it, lr: 2.0e-04 loss: 8.567e-02]wan_dewa:   4%|3         | 139/3500 [07:35<2:06:11,  2.25s/it, lr: 2.0e-04 loss: 7.804e-02]wan_dewa:   4%|3         | 139/3500 [07:35<2:06:11,  2.25s/it, lr: 2.0e-04 loss: 7.804e-02]wan_dewa:   4%|4         | 140/3500 [07:37<2:06:09,  2.25s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:   4%|4         | 140/3500 [07:37<2:06:09,  2.25s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:   4%|4         | 141/3500 [07:37<1:37:37,  1.74s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:   4%|4         | 141/3500 [07:37<1:37:37,  1.74s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:   4%|4         | 141/3500 [07:39<1:37:37,  1.74s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:   4%|4         | 141/3500 [07:39<1:37:37,  1.74s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:   4%|4         | 142/3500 [07:39<1:44:54,  1.87s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:   4%|4         | 142/3500 [07:39<1:44:54,  1.87s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:   4%|4         | 142/3500 [07:41<1:44:54,  1.87s/it, lr: 2.0e-04 loss: 1.146e-01]wan_dewa:   4%|4         | 142/3500 [07:41<1:44:54,  1.87s/it, lr: 2.0e-04 loss: 1.146e-01]wan_dewa:   4%|4         | 143/3500 [07:41<1:50:47,  1.98s/it, lr: 2.0e-04 loss: 1.146e-01]wan_dewa:   4%|4         | 143/3500 [07:41<1:50:47,  1.98s/it, lr: 2.0e-04 loss: 1.146e-01]wan_dewa:   4%|4         | 143/3500 [07:44<1:50:47,  1.98s/it, lr: 2.0e-04 loss: 3.783e-02]wan_dewa:   4%|4         | 143/3500 [07:44<1:50:47,  1.98s/it, lr: 2.0e-04 loss: 3.783e-02]wan_dewa:   4%|4         | 144/3500 [07:44<1:55:13,  2.06s/it, lr: 2.0e-04 loss: 3.783e-02]wan_dewa:   4%|4         | 144/3500 [07:44<1:55:13,  2.06s/it, lr: 2.0e-04 loss: 3.783e-02]wan_dewa:   4%|4         | 144/3500 [07:46<1:55:13,  2.06s/it, lr: 2.0e-04 loss: 5.185e-02]wan_dewa:   4%|4         | 144/3500 [07:46<1:55:13,  2.06s/it, lr: 2.0e-04 loss: 5.185e-02]wan_dewa:   4%|4         | 145/3500 [07:46<1:58:32,  2.12s/it, lr: 2.0e-04 loss: 5.185e-02]wan_dewa:   4%|4         | 145/3500 [07:46<1:58:32,  2.12s/it, lr: 2.0e-04 loss: 5.185e-02]wan_dewa:   4%|4         | 145/3500 [07:48<1:58:32,  2.12s/it, lr: 2.0e-04 loss: 7.683e-02]wan_dewa:   4%|4         | 145/3500 [07:48<1:58:32,  2.12s/it, lr: 2.0e-04 loss: 7.683e-02]wan_dewa:   4%|4         | 146/3500 [07:48<2:04:23,  2.23s/it, lr: 2.0e-04 loss: 7.683e-02]wan_dewa:   4%|4         | 146/3500 [07:48<2:04:23,  2.23s/it, lr: 2.0e-04 loss: 7.683e-02]wan_dewa:   4%|4         | 146/3500 [07:51<2:04:23,  2.23s/it, lr: 2.0e-04 loss: 9.109e-02]wan_dewa:   4%|4         | 146/3500 [07:51<2:04:23,  2.23s/it, lr: 2.0e-04 loss: 9.109e-02]wan_dewa:   4%|4         | 147/3500 [07:51<2:05:13,  2.24s/it, lr: 2.0e-04 loss: 9.109e-02]wan_dewa:   4%|4         | 147/3500 [07:51<2:05:13,  2.24s/it, lr: 2.0e-04 loss: 9.109e-02]wan_dewa:   4%|4         | 147/3500 [07:53<2:05:13,  2.24s/it, lr: 2.0e-04 loss: 9.128e-02]wan_dewa:   4%|4         | 147/3500 [07:53<2:05:13,  2.24s/it, lr: 2.0e-04 loss: 9.128e-02]wan_dewa:   4%|4         | 148/3500 [07:53<2:05:47,  2.25s/it, lr: 2.0e-04 loss: 9.128e-02]wan_dewa:   4%|4         | 148/3500 [07:53<2:05:47,  2.25s/it, lr: 2.0e-04 loss: 9.128e-02]wan_dewa:   4%|4         | 148/3500 [07:55<2:05:47,  2.25s/it, lr: 2.0e-04 loss: 1.026e-01]wan_dewa:   4%|4         | 148/3500 [07:55<2:05:47,  2.25s/it, lr: 2.0e-04 loss: 1.026e-01]wan_dewa:   4%|4         | 149/3500 [07:55<2:06:13,  2.26s/it, lr: 2.0e-04 loss: 1.026e-01]wan_dewa:   4%|4         | 149/3500 [07:55<2:06:13,  2.26s/it, lr: 2.0e-04 loss: 1.026e-01]wan_dewa:   4%|4         | 149/3500 [08:09<2:06:13,  2.26s/it, lr: 2.0e-04 loss: 1.967e-01]wan_dewa:   4%|4         | 149/3500 [08:09<2:06:13,  2.26s/it, lr: 2.0e-04 loss: 1.967e-01]wan_dewa:   4%|4         | 150/3500 [08:11<2:06:11,  2.26s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:   4%|4         | 150/3500 [08:11<2:06:11,  2.26s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:   4%|4         | 151/3500 [08:11<1:37:44,  1.75s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:   4%|4         | 151/3500 [08:11<1:37:44,  1.75s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:   4%|4         | 151/3500 [08:13<1:37:44,  1.75s/it, lr: 2.0e-04 loss: 5.773e-02]wan_dewa:   4%|4         | 151/3500 [08:13<1:37:44,  1.75s/it, lr: 2.0e-04 loss: 5.773e-02]wan_dewa:   4%|4         | 152/3500 [08:13<1:44:52,  1.88s/it, lr: 2.0e-04 loss: 5.773e-02]wan_dewa:   4%|4         | 152/3500 [08:13<1:44:52,  1.88s/it, lr: 2.0e-04 loss: 5.773e-02]wan_dewa:   4%|4         | 152/3500 [08:15<1:44:52,  1.88s/it, lr: 2.0e-04 loss: 1.905e-01]wan_dewa:   4%|4         | 152/3500 [08:15<1:44:52,  1.88s/it, lr: 2.0e-04 loss: 1.905e-01]wan_dewa:   4%|4         | 153/3500 [08:15<1:50:36,  1.98s/it, lr: 2.0e-04 loss: 1.905e-01]wan_dewa:   4%|4         | 153/3500 [08:15<1:50:36,  1.98s/it, lr: 2.0e-04 loss: 1.905e-01]wan_dewa:   4%|4         | 153/3500 [08:18<1:50:36,  1.98s/it, lr: 2.0e-04 loss: 1.806e-01]wan_dewa:   4%|4         | 153/3500 [08:18<1:50:36,  1.98s/it, lr: 2.0e-04 loss: 1.806e-01]wan_dewa:   4%|4         | 154/3500 [08:18<1:54:58,  2.06s/it, lr: 2.0e-04 loss: 1.806e-01]wan_dewa:   4%|4         | 154/3500 [08:18<1:54:58,  2.06s/it, lr: 2.0e-04 loss: 1.806e-01]wan_dewa:   4%|4         | 154/3500 [08:20<1:54:58,  2.06s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:   4%|4         | 154/3500 [08:20<1:54:58,  2.06s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:   4%|4         | 155/3500 [08:20<1:58:16,  2.12s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:   4%|4         | 155/3500 [08:20<1:58:16,  2.12s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:   4%|4         | 155/3500 [08:22<1:58:16,  2.12s/it, lr: 2.0e-04 loss: 7.771e-02]wan_dewa:   4%|4         | 155/3500 [08:22<1:58:16,  2.12s/it, lr: 2.0e-04 loss: 7.771e-02]wan_dewa:   4%|4         | 156/3500 [08:22<2:03:37,  2.22s/it, lr: 2.0e-04 loss: 7.771e-02]wan_dewa:   4%|4         | 156/3500 [08:22<2:03:37,  2.22s/it, lr: 2.0e-04 loss: 7.771e-02]wan_dewa:   4%|4         | 156/3500 [08:25<2:03:37,  2.22s/it, lr: 2.0e-04 loss: 8.611e-02]wan_dewa:   4%|4         | 156/3500 [08:25<2:03:37,  2.22s/it, lr: 2.0e-04 loss: 8.611e-02]wan_dewa:   4%|4         | 157/3500 [08:25<2:04:31,  2.24s/it, lr: 2.0e-04 loss: 8.611e-02]wan_dewa:   4%|4         | 157/3500 [08:25<2:04:31,  2.24s/it, lr: 2.0e-04 loss: 8.611e-02]wan_dewa:   4%|4         | 157/3500 [08:27<2:04:31,  2.24s/it, lr: 2.0e-04 loss: 7.552e-02]wan_dewa:   4%|4         | 157/3500 [08:27<2:04:31,  2.24s/it, lr: 2.0e-04 loss: 7.552e-02]wan_dewa:   5%|4         | 158/3500 [08:27<2:05:11,  2.25s/it, lr: 2.0e-04 loss: 7.552e-02]wan_dewa:   5%|4         | 158/3500 [08:27<2:05:11,  2.25s/it, lr: 2.0e-04 loss: 7.552e-02]wan_dewa:   5%|4         | 158/3500 [08:29<2:05:11,  2.25s/it, lr: 2.0e-04 loss: 9.108e-02]wan_dewa:   5%|4         | 158/3500 [08:29<2:05:11,  2.25s/it, lr: 2.0e-04 loss: 9.108e-02]wan_dewa:   5%|4         | 159/3500 [08:29<2:05:34,  2.26s/it, lr: 2.0e-04 loss: 9.108e-02]wan_dewa:   5%|4         | 159/3500 [08:29<2:05:34,  2.26s/it, lr: 2.0e-04 loss: 9.108e-02]wan_dewa:   5%|4         | 159/3500 [08:40<2:05:34,  2.26s/it, lr: 2.0e-04 loss: 9.514e-02]wan_dewa:   5%|4         | 159/3500 [08:40<2:05:34,  2.26s/it, lr: 2.0e-04 loss: 9.514e-02]wan_dewa:   5%|4         | 160/3500 [08:43<2:05:32,  2.26s/it, lr: 2.0e-04 loss: 9.788e-02]wan_dewa:   5%|4         | 160/3500 [08:43<2:05:32,  2.26s/it, lr: 2.0e-04 loss: 9.788e-02]wan_dewa:   5%|4         | 161/3500 [08:43<1:39:34,  1.79s/it, lr: 2.0e-04 loss: 9.788e-02]wan_dewa:   5%|4         | 161/3500 [08:43<1:39:34,  1.79s/it, lr: 2.0e-04 loss: 9.788e-02]wan_dewa:   5%|4         | 161/3500 [08:45<1:39:34,  1.79s/it, lr: 2.0e-04 loss: 5.226e-02]wan_dewa:   5%|4         | 161/3500 [08:45<1:39:34,  1.79s/it, lr: 2.0e-04 loss: 5.226e-02]wan_dewa:   5%|4         | 162/3500 [08:45<1:46:08,  1.91s/it, lr: 2.0e-04 loss: 5.226e-02]wan_dewa:   5%|4         | 162/3500 [08:45<1:46:08,  1.91s/it, lr: 2.0e-04 loss: 5.226e-02]wan_dewa:   5%|4         | 162/3500 [08:47<1:46:08,  1.91s/it, lr: 2.0e-04 loss: 8.026e-02]wan_dewa:   5%|4         | 162/3500 [08:47<1:46:08,  1.91s/it, lr: 2.0e-04 loss: 8.026e-02]wan_dewa:   5%|4         | 163/3500 [08:47<1:51:20,  2.00s/it, lr: 2.0e-04 loss: 8.026e-02]wan_dewa:   5%|4         | 163/3500 [08:47<1:51:20,  2.00s/it, lr: 2.0e-04 loss: 8.026e-02]wan_dewa:   5%|4         | 163/3500 [08:50<1:51:20,  2.00s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:   5%|4         | 163/3500 [08:50<1:51:20,  2.00s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:   5%|4         | 164/3500 [08:50<1:55:24,  2.08s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:   5%|4         | 164/3500 [08:50<1:55:24,  2.08s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:   5%|4         | 164/3500 [08:52<1:55:24,  2.08s/it, lr: 2.0e-04 loss: 7.914e-02]wan_dewa:   5%|4         | 164/3500 [08:52<1:55:24,  2.08s/it, lr: 2.0e-04 loss: 7.914e-02]wan_dewa:   5%|4         | 165/3500 [08:52<2:01:12,  2.18s/it, lr: 2.0e-04 loss: 7.914e-02]wan_dewa:   5%|4         | 165/3500 [08:52<2:01:12,  2.18s/it, lr: 2.0e-04 loss: 7.914e-02]wan_dewa:   5%|4         | 165/3500 [08:54<2:01:12,  2.18s/it, lr: 2.0e-04 loss: 8.707e-02]wan_dewa:   5%|4         | 165/3500 [08:54<2:01:12,  2.18s/it, lr: 2.0e-04 loss: 8.707e-02]wan_dewa:   5%|4         | 166/3500 [08:54<2:02:38,  2.21s/it, lr: 2.0e-04 loss: 8.707e-02]wan_dewa:   5%|4         | 166/3500 [08:54<2:02:38,  2.21s/it, lr: 2.0e-04 loss: 8.707e-02]wan_dewa:   5%|4         | 166/3500 [08:57<2:02:38,  2.21s/it, lr: 2.0e-04 loss: 6.017e-02]wan_dewa:   5%|4         | 166/3500 [08:57<2:02:38,  2.21s/it, lr: 2.0e-04 loss: 6.017e-02]wan_dewa:   5%|4         | 167/3500 [08:57<2:03:44,  2.23s/it, lr: 2.0e-04 loss: 6.017e-02]wan_dewa:   5%|4         | 167/3500 [08:57<2:03:44,  2.23s/it, lr: 2.0e-04 loss: 6.017e-02]wan_dewa:   5%|4         | 167/3500 [08:59<2:03:44,  2.23s/it, lr: 2.0e-04 loss: 9.393e-02]wan_dewa:   5%|4         | 167/3500 [08:59<2:03:44,  2.23s/it, lr: 2.0e-04 loss: 9.393e-02]wan_dewa:   5%|4         | 168/3500 [08:59<2:04:27,  2.24s/it, lr: 2.0e-04 loss: 9.393e-02]wan_dewa:   5%|4         | 168/3500 [08:59<2:04:27,  2.24s/it, lr: 2.0e-04 loss: 9.393e-02]wan_dewa:   5%|4         | 168/3500 [09:01<2:04:27,  2.24s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:   5%|4         | 168/3500 [09:01<2:04:27,  2.24s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:   5%|4         | 169/3500 [09:01<2:04:59,  2.25s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:   5%|4         | 169/3500 [09:01<2:04:59,  2.25s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:   5%|4         | 169/3500 [09:09<2:04:59,  2.25s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|4         | 169/3500 [09:09<2:04:59,  2.25s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|4         | 170/3500 [09:11<2:04:57,  2.25s/it, lr: 2.0e-04 loss: 6.156e-02]wan_dewa:   5%|4         | 170/3500 [09:11<2:04:57,  2.25s/it, lr: 2.0e-04 loss: 6.156e-02]wan_dewa:   5%|4         | 171/3500 [09:11<1:36:46,  1.74s/it, lr: 2.0e-04 loss: 6.156e-02]wan_dewa:   5%|4         | 171/3500 [09:11<1:36:46,  1.74s/it, lr: 2.0e-04 loss: 6.156e-02]wan_dewa:   5%|4         | 171/3500 [09:13<1:36:46,  1.74s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   5%|4         | 171/3500 [09:13<1:36:46,  1.74s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   5%|4         | 172/3500 [09:13<1:43:59,  1.87s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   5%|4         | 172/3500 [09:13<1:43:59,  1.87s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   5%|4         | 172/3500 [09:15<1:43:59,  1.87s/it, lr: 2.0e-04 loss: 5.235e-02]wan_dewa:   5%|4         | 172/3500 [09:15<1:43:59,  1.87s/it, lr: 2.0e-04 loss: 5.235e-02]wan_dewa:   5%|4         | 173/3500 [09:15<1:49:44,  1.98s/it, lr: 2.0e-04 loss: 5.235e-02]wan_dewa:   5%|4         | 173/3500 [09:15<1:49:44,  1.98s/it, lr: 2.0e-04 loss: 5.235e-02]wan_dewa:   5%|4         | 173/3500 [09:18<1:49:44,  1.98s/it, lr: 2.0e-04 loss: 7.761e-02]wan_dewa:   5%|4         | 173/3500 [09:18<1:49:44,  1.98s/it, lr: 2.0e-04 loss: 7.761e-02]wan_dewa:   5%|4         | 174/3500 [09:18<1:54:10,  2.06s/it, lr: 2.0e-04 loss: 7.761e-02]wan_dewa:   5%|4         | 174/3500 [09:18<1:54:10,  2.06s/it, lr: 2.0e-04 loss: 7.761e-02]wan_dewa:   5%|4         | 174/3500 [09:22<1:54:10,  2.06s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|4         | 174/3500 [09:22<1:54:10,  2.06s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|5         | 175/3500 [09:22<1:57:57,  2.13s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|5         | 175/3500 [09:22<1:57:57,  2.13s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:   5%|5         | 175/3500 [09:25<1:57:57,  2.13s/it, lr: 2.0e-04 loss: 1.119e-01]wan_dewa:   5%|5         | 175/3500 [09:25<1:57:57,  2.13s/it, lr: 2.0e-04 loss: 1.119e-01]wan_dewa:   5%|5         | 176/3500 [09:25<2:05:49,  2.27s/it, lr: 2.0e-04 loss: 1.119e-01]wan_dewa:   5%|5         | 176/3500 [09:25<2:05:49,  2.27s/it, lr: 2.0e-04 loss: 1.119e-01]wan_dewa:   5%|5         | 176/3500 [09:27<2:05:49,  2.27s/it, lr: 2.0e-04 loss: 6.543e-02]wan_dewa:   5%|5         | 176/3500 [09:27<2:05:49,  2.27s/it, lr: 2.0e-04 loss: 6.543e-02]wan_dewa:   5%|5         | 177/3500 [09:27<2:05:55,  2.27s/it, lr: 2.0e-04 loss: 6.543e-02]wan_dewa:   5%|5         | 177/3500 [09:27<2:05:55,  2.27s/it, lr: 2.0e-04 loss: 6.543e-02]wan_dewa:   5%|5         | 177/3500 [09:29<2:05:55,  2.27s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:   5%|5         | 177/3500 [09:29<2:05:55,  2.27s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:   5%|5         | 178/3500 [09:29<2:05:53,  2.27s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:   5%|5         | 178/3500 [09:29<2:05:53,  2.27s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:   5%|5         | 178/3500 [09:32<2:05:53,  2.27s/it, lr: 2.0e-04 loss: 1.708e-01]wan_dewa:   5%|5         | 178/3500 [09:32<2:05:53,  2.27s/it, lr: 2.0e-04 loss: 1.708e-01]wan_dewa:   5%|5         | 179/3500 [09:32<2:05:58,  2.28s/it, lr: 2.0e-04 loss: 1.708e-01]wan_dewa:   5%|5         | 179/3500 [09:32<2:05:58,  2.28s/it, lr: 2.0e-04 loss: 1.708e-01]wan_dewa:   5%|5         | 179/3500 [09:43<2:05:58,  2.28s/it, lr: 2.0e-04 loss: 3.852e-02]wan_dewa:   5%|5         | 179/3500 [09:43<2:05:58,  2.28s/it, lr: 2.0e-04 loss: 3.852e-02]wan_dewa:   5%|5         | 180/3500 [09:45<2:05:56,  2.28s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:   5%|5         | 180/3500 [09:45<2:05:56,  2.28s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:   5%|5         | 181/3500 [09:45<1:37:27,  1.76s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:   5%|5         | 181/3500 [09:45<1:37:27,  1.76s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:   5%|5         | 181/3500 [09:48<1:37:27,  1.76s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:   5%|5         | 181/3500 [09:48<1:37:27,  1.76s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:   5%|5         | 182/3500 [09:48<1:44:28,  1.89s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:   5%|5         | 182/3500 [09:48<1:44:28,  1.89s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:   5%|5         | 182/3500 [09:50<1:44:28,  1.89s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:   5%|5         | 182/3500 [09:50<1:44:28,  1.89s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:   5%|5         | 183/3500 [09:50<1:50:00,  1.99s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:   5%|5         | 183/3500 [09:50<1:50:00,  1.99s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:   5%|5         | 183/3500 [09:52<1:50:00,  1.99s/it, lr: 2.0e-04 loss: 6.059e-02]wan_dewa:   5%|5         | 183/3500 [09:52<1:50:00,  1.99s/it, lr: 2.0e-04 loss: 6.059e-02]wan_dewa:   5%|5         | 184/3500 [09:52<1:54:15,  2.07s/it, lr: 2.0e-04 loss: 6.059e-02]wan_dewa:   5%|5         | 184/3500 [09:52<1:54:15,  2.07s/it, lr: 2.0e-04 loss: 6.059e-02]wan_dewa:   5%|5         | 184/3500 [09:55<1:54:15,  2.07s/it, lr: 2.0e-04 loss: 9.534e-02]wan_dewa:   5%|5         | 184/3500 [09:55<1:54:15,  2.07s/it, lr: 2.0e-04 loss: 9.534e-02]wan_dewa:   5%|5         | 185/3500 [09:55<2:01:14,  2.19s/it, lr: 2.0e-04 loss: 9.534e-02]wan_dewa:   5%|5         | 185/3500 [09:55<2:01:14,  2.19s/it, lr: 2.0e-04 loss: 9.534e-02]wan_dewa:   5%|5         | 185/3500 [09:57<2:01:14,  2.19s/it, lr: 2.0e-04 loss: 8.713e-02]wan_dewa:   5%|5         | 185/3500 [09:57<2:01:14,  2.19s/it, lr: 2.0e-04 loss: 8.713e-02]wan_dewa:   5%|5         | 186/3500 [09:57<2:02:31,  2.22s/it, lr: 2.0e-04 loss: 8.713e-02]wan_dewa:   5%|5         | 186/3500 [09:57<2:02:31,  2.22s/it, lr: 2.0e-04 loss: 8.713e-02]wan_dewa:   5%|5         | 186/3500 [09:59<2:02:31,  2.22s/it, lr: 2.0e-04 loss: 5.205e-02]wan_dewa:   5%|5         | 186/3500 [09:59<2:02:31,  2.22s/it, lr: 2.0e-04 loss: 5.205e-02]wan_dewa:   5%|5         | 187/3500 [09:59<2:03:27,  2.24s/it, lr: 2.0e-04 loss: 5.205e-02]wan_dewa:   5%|5         | 187/3500 [09:59<2:03:27,  2.24s/it, lr: 2.0e-04 loss: 5.205e-02]wan_dewa:   5%|5         | 187/3500 [10:02<2:03:27,  2.24s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:   5%|5         | 187/3500 [10:02<2:03:27,  2.24s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:   5%|5         | 188/3500 [10:02<2:04:07,  2.25s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:   5%|5         | 188/3500 [10:02<2:04:07,  2.25s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:   5%|5         | 188/3500 [10:04<2:04:07,  2.25s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:   5%|5         | 188/3500 [10:04<2:04:07,  2.25s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:   5%|5         | 189/3500 [10:04<2:04:37,  2.26s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:   5%|5         | 189/3500 [10:04<2:04:37,  2.26s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:   5%|5         | 189/3500 [10:15<2:04:37,  2.26s/it, lr: 2.0e-04 loss: 3.104e-01]wan_dewa:   5%|5         | 189/3500 [10:15<2:04:37,  2.26s/it, lr: 2.0e-04 loss: 3.104e-01]wan_dewa:   5%|5         | 190/3500 [10:18<2:04:35,  2.26s/it, lr: 2.0e-04 loss: 6.495e-02]wan_dewa:   5%|5         | 190/3500 [10:18<2:04:35,  2.26s/it, lr: 2.0e-04 loss: 6.495e-02]wan_dewa:   5%|5         | 191/3500 [10:18<1:36:13,  1.74s/it, lr: 2.0e-04 loss: 6.495e-02]wan_dewa:   5%|5         | 191/3500 [10:18<1:36:13,  1.74s/it, lr: 2.0e-04 loss: 6.495e-02]wan_dewa:   5%|5         | 191/3500 [10:20<1:36:13,  1.74s/it, lr: 2.0e-04 loss: 5.993e-02]wan_dewa:   5%|5         | 191/3500 [10:20<1:36:13,  1.74s/it, lr: 2.0e-04 loss: 5.993e-02]wan_dewa:   5%|5         | 192/3500 [10:20<1:43:22,  1.87s/it, lr: 2.0e-04 loss: 5.993e-02]wan_dewa:   5%|5         | 192/3500 [10:20<1:43:22,  1.87s/it, lr: 2.0e-04 loss: 5.993e-02]wan_dewa:   5%|5         | 192/3500 [10:22<1:43:22,  1.87s/it, lr: 2.0e-04 loss: 4.485e-02]wan_dewa:   5%|5         | 192/3500 [10:22<1:43:22,  1.87s/it, lr: 2.0e-04 loss: 4.485e-02]wan_dewa:   6%|5         | 193/3500 [10:22<1:49:08,  1.98s/it, lr: 2.0e-04 loss: 4.485e-02]wan_dewa:   6%|5         | 193/3500 [10:22<1:49:08,  1.98s/it, lr: 2.0e-04 loss: 4.485e-02]wan_dewa:   6%|5         | 193/3500 [10:24<1:49:08,  1.98s/it, lr: 2.0e-04 loss: 6.436e-02]wan_dewa:   6%|5         | 193/3500 [10:24<1:49:08,  1.98s/it, lr: 2.0e-04 loss: 6.436e-02]wan_dewa:   6%|5         | 194/3500 [10:24<1:53:30,  2.06s/it, lr: 2.0e-04 loss: 6.436e-02]wan_dewa:   6%|5         | 194/3500 [10:24<1:53:30,  2.06s/it, lr: 2.0e-04 loss: 6.436e-02]wan_dewa:   6%|5         | 194/3500 [10:27<1:53:30,  2.06s/it, lr: 2.0e-04 loss: 1.466e-01]wan_dewa:   6%|5         | 194/3500 [10:27<1:53:30,  2.06s/it, lr: 2.0e-04 loss: 1.466e-01]wan_dewa:   6%|5         | 195/3500 [10:27<1:56:48,  2.12s/it, lr: 2.0e-04 loss: 1.466e-01]wan_dewa:   6%|5         | 195/3500 [10:27<1:56:48,  2.12s/it, lr: 2.0e-04 loss: 1.466e-01]wan_dewa:   6%|5         | 195/3500 [10:29<1:56:48,  2.12s/it, lr: 2.0e-04 loss: 9.617e-02]wan_dewa:   6%|5         | 195/3500 [10:29<1:56:48,  2.12s/it, lr: 2.0e-04 loss: 9.617e-02]wan_dewa:   6%|5         | 196/3500 [10:29<2:02:40,  2.23s/it, lr: 2.0e-04 loss: 9.617e-02]wan_dewa:   6%|5         | 196/3500 [10:29<2:02:40,  2.23s/it, lr: 2.0e-04 loss: 9.617e-02]wan_dewa:   6%|5         | 196/3500 [10:32<2:02:40,  2.23s/it, lr: 2.0e-04 loss: 6.977e-01]wan_dewa:   6%|5         | 196/3500 [10:32<2:02:40,  2.23s/it, lr: 2.0e-04 loss: 6.977e-01]wan_dewa:   6%|5         | 197/3500 [10:32<2:03:26,  2.24s/it, lr: 2.0e-04 loss: 6.977e-01]wan_dewa:   6%|5         | 197/3500 [10:32<2:03:26,  2.24s/it, lr: 2.0e-04 loss: 6.977e-01]wan_dewa:   6%|5         | 197/3500 [10:34<2:03:26,  2.24s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:   6%|5         | 197/3500 [10:34<2:03:26,  2.24s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:   6%|5         | 198/3500 [10:34<2:03:59,  2.25s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:   6%|5         | 198/3500 [10:34<2:03:59,  2.25s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:   6%|5         | 198/3500 [10:36<2:03:59,  2.25s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:   6%|5         | 198/3500 [10:36<2:03:59,  2.25s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:   6%|5         | 199/3500 [10:36<2:04:19,  2.26s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:   6%|5         | 199/3500 [10:36<2:04:19,  2.26s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:   6%|5         | 199/3500 [10:50<2:04:19,  2.26s/it, lr: 2.0e-04 loss: 8.805e-02]wan_dewa:   6%|5         | 199/3500 [10:50<2:04:19,  2.26s/it, lr: 2.0e-04 loss: 8.805e-02]wan_dewa:   6%|5         | 200/3500 [10:52<2:04:17,  2.26s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:   6%|5         | 200/3500 [10:52<2:04:17,  2.26s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:   6%|5         | 201/3500 [10:52<1:36:18,  1.75s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:   6%|5         | 201/3500 [10:52<1:36:18,  1.75s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:   6%|5         | 201/3500 [10:54<1:36:18,  1.75s/it, lr: 2.0e-04 loss: 8.070e-02]wan_dewa:   6%|5         | 201/3500 [10:54<1:36:18,  1.75s/it, lr: 2.0e-04 loss: 8.070e-02]wan_dewa:   6%|5         | 202/3500 [10:54<1:43:24,  1.88s/it, lr: 2.0e-04 loss: 8.070e-02]wan_dewa:   6%|5         | 202/3500 [10:54<1:43:24,  1.88s/it, lr: 2.0e-04 loss: 8.070e-02]wan_dewa:   6%|5         | 202/3500 [10:56<1:43:24,  1.88s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:   6%|5         | 202/3500 [10:56<1:43:24,  1.88s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:   6%|5         | 203/3500 [10:56<1:48:53,  1.98s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:   6%|5         | 203/3500 [10:56<1:48:53,  1.98s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:   6%|5         | 203/3500 [10:59<1:48:53,  1.98s/it, lr: 2.0e-04 loss: 7.014e-02]wan_dewa:   6%|5         | 203/3500 [10:59<1:48:53,  1.98s/it, lr: 2.0e-04 loss: 7.014e-02]wan_dewa:   6%|5         | 204/3500 [10:59<1:53:09,  2.06s/it, lr: 2.0e-04 loss: 7.014e-02]wan_dewa:   6%|5         | 204/3500 [10:59<1:53:09,  2.06s/it, lr: 2.0e-04 loss: 7.014e-02]wan_dewa:   6%|5         | 204/3500 [11:01<1:53:09,  2.06s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:   6%|5         | 204/3500 [11:01<1:53:09,  2.06s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:   6%|5         | 205/3500 [11:01<1:56:21,  2.12s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:   6%|5         | 205/3500 [11:01<1:56:21,  2.12s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:   6%|5         | 205/3500 [11:03<1:56:21,  2.12s/it, lr: 2.0e-04 loss: 1.180e-01]wan_dewa:   6%|5         | 205/3500 [11:03<1:56:21,  2.12s/it, lr: 2.0e-04 loss: 1.180e-01]wan_dewa:   6%|5         | 206/3500 [11:03<2:01:25,  2.21s/it, lr: 2.0e-04 loss: 1.180e-01]wan_dewa:   6%|5         | 206/3500 [11:03<2:01:25,  2.21s/it, lr: 2.0e-04 loss: 1.180e-01]wan_dewa:   6%|5         | 206/3500 [11:06<2:01:25,  2.21s/it, lr: 2.0e-04 loss: 9.202e-02]wan_dewa:   6%|5         | 206/3500 [11:06<2:01:25,  2.21s/it, lr: 2.0e-04 loss: 9.202e-02]wan_dewa:   6%|5         | 207/3500 [11:06<2:02:22,  2.23s/it, lr: 2.0e-04 loss: 9.202e-02]wan_dewa:   6%|5         | 207/3500 [11:06<2:02:22,  2.23s/it, lr: 2.0e-04 loss: 9.202e-02]wan_dewa:   6%|5         | 207/3500 [11:08<2:02:22,  2.23s/it, lr: 2.0e-04 loss: 9.007e-02]wan_dewa:   6%|5         | 207/3500 [11:08<2:02:22,  2.23s/it, lr: 2.0e-04 loss: 9.007e-02]wan_dewa:   6%|5         | 208/3500 [11:08<2:03:01,  2.24s/it, lr: 2.0e-04 loss: 9.007e-02]wan_dewa:   6%|5         | 208/3500 [11:08<2:03:01,  2.24s/it, lr: 2.0e-04 loss: 9.007e-02]wan_dewa:   6%|5         | 208/3500 [11:10<2:03:01,  2.24s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   6%|5         | 208/3500 [11:10<2:03:01,  2.24s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   6%|5         | 209/3500 [11:10<2:03:27,  2.25s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   6%|5         | 209/3500 [11:10<2:03:27,  2.25s/it, lr: 2.0e-04 loss: 1.342e-01]wan_dewa:   6%|5         | 209/3500 [11:21<2:03:27,  2.25s/it, lr: 2.0e-04 loss: 7.121e-02]wan_dewa:   6%|5         | 209/3500 [11:21<2:03:27,  2.25s/it, lr: 2.0e-04 loss: 7.121e-02]wan_dewa:   6%|6         | 210/3500 [11:24<2:03:25,  2.25s/it, lr: 2.0e-04 loss: 1.018e-01]wan_dewa:   6%|6         | 210/3500 [11:24<2:03:25,  2.25s/it, lr: 2.0e-04 loss: 1.018e-01]wan_dewa:   6%|6         | 211/3500 [11:24<1:38:06,  1.79s/it, lr: 2.0e-04 loss: 1.018e-01]wan_dewa:   6%|6         | 211/3500 [11:24<1:38:06,  1.79s/it, lr: 2.0e-04 loss: 1.018e-01]wan_dewa:   6%|6         | 211/3500 [11:26<1:38:06,  1.79s/it, lr: 2.0e-04 loss: 2.655e-01]wan_dewa:   6%|6         | 211/3500 [11:26<1:38:06,  1.79s/it, lr: 2.0e-04 loss: 2.655e-01]wan_dewa:   6%|6         | 212/3500 [11:26<1:44:33,  1.91s/it, lr: 2.0e-04 loss: 2.655e-01]wan_dewa:   6%|6         | 212/3500 [11:26<1:44:33,  1.91s/it, lr: 2.0e-04 loss: 2.655e-01]wan_dewa:   6%|6         | 212/3500 [11:28<1:44:33,  1.91s/it, lr: 2.0e-04 loss: 3.816e-02]wan_dewa:   6%|6         | 212/3500 [11:28<1:44:33,  1.91s/it, lr: 2.0e-04 loss: 3.816e-02]wan_dewa:   6%|6         | 213/3500 [11:28<1:49:41,  2.00s/it, lr: 2.0e-04 loss: 3.816e-02]wan_dewa:   6%|6         | 213/3500 [11:28<1:49:41,  2.00s/it, lr: 2.0e-04 loss: 3.816e-02]wan_dewa:   6%|6         | 213/3500 [11:31<1:49:41,  2.00s/it, lr: 2.0e-04 loss: 6.620e-02]wan_dewa:   6%|6         | 213/3500 [11:31<1:49:41,  2.00s/it, lr: 2.0e-04 loss: 6.620e-02]wan_dewa:   6%|6         | 214/3500 [11:31<1:53:38,  2.08s/it, lr: 2.0e-04 loss: 6.620e-02]wan_dewa:   6%|6         | 214/3500 [11:31<1:53:38,  2.08s/it, lr: 2.0e-04 loss: 6.620e-02]wan_dewa:   6%|6         | 214/3500 [11:33<1:53:38,  2.08s/it, lr: 2.0e-04 loss: 8.323e-02]wan_dewa:   6%|6         | 214/3500 [11:33<1:53:38,  2.08s/it, lr: 2.0e-04 loss: 8.323e-02]wan_dewa:   6%|6         | 215/3500 [11:33<1:59:21,  2.18s/it, lr: 2.0e-04 loss: 8.323e-02]wan_dewa:   6%|6         | 215/3500 [11:33<1:59:21,  2.18s/it, lr: 2.0e-04 loss: 8.323e-02]wan_dewa:   6%|6         | 215/3500 [11:35<1:59:21,  2.18s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:   6%|6         | 215/3500 [11:35<1:59:21,  2.18s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:   6%|6         | 216/3500 [11:35<2:00:46,  2.21s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:   6%|6         | 216/3500 [11:35<2:00:46,  2.21s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:   6%|6         | 216/3500 [11:38<2:00:46,  2.21s/it, lr: 2.0e-04 loss: 6.830e-02]wan_dewa:   6%|6         | 216/3500 [11:38<2:00:46,  2.21s/it, lr: 2.0e-04 loss: 6.830e-02]wan_dewa:   6%|6         | 217/3500 [11:38<2:01:50,  2.23s/it, lr: 2.0e-04 loss: 6.830e-02]wan_dewa:   6%|6         | 217/3500 [11:38<2:01:50,  2.23s/it, lr: 2.0e-04 loss: 6.830e-02]wan_dewa:   6%|6         | 217/3500 [11:40<2:01:50,  2.23s/it, lr: 2.0e-04 loss: 2.902e-01]wan_dewa:   6%|6         | 217/3500 [11:40<2:01:50,  2.23s/it, lr: 2.0e-04 loss: 2.902e-01]wan_dewa:   6%|6         | 218/3500 [11:40<2:02:37,  2.24s/it, lr: 2.0e-04 loss: 2.902e-01]wan_dewa:   6%|6         | 218/3500 [11:40<2:02:37,  2.24s/it, lr: 2.0e-04 loss: 2.902e-01]wan_dewa:   6%|6         | 218/3500 [11:42<2:02:37,  2.24s/it, lr: 2.0e-04 loss: 1.381e-01]wan_dewa:   6%|6         | 218/3500 [11:42<2:02:37,  2.24s/it, lr: 2.0e-04 loss: 1.381e-01]wan_dewa:   6%|6         | 219/3500 [11:42<2:03:15,  2.25s/it, lr: 2.0e-04 loss: 1.381e-01]wan_dewa:   6%|6         | 219/3500 [11:42<2:03:15,  2.25s/it, lr: 2.0e-04 loss: 1.381e-01]wan_dewa:   6%|6         | 219/3500 [11:50<2:03:15,  2.25s/it, lr: 2.0e-04 loss: 9.437e-02]wan_dewa:   6%|6         | 219/3500 [11:50<2:03:15,  2.25s/it, lr: 2.0e-04 loss: 9.437e-02]wan_dewa:   6%|6         | 220/3500 [11:52<2:03:12,  2.25s/it, lr: 2.0e-04 loss: 5.852e-02]wan_dewa:   6%|6         | 220/3500 [11:52<2:03:12,  2.25s/it, lr: 2.0e-04 loss: 5.852e-02]wan_dewa:   6%|6         | 221/3500 [11:52<1:35:18,  1.74s/it, lr: 2.0e-04 loss: 5.852e-02]wan_dewa:   6%|6         | 221/3500 [11:52<1:35:18,  1.74s/it, lr: 2.0e-04 loss: 5.852e-02]wan_dewa:   6%|6         | 221/3500 [11:55<1:35:18,  1.74s/it, lr: 2.0e-04 loss: 4.704e-02]wan_dewa:   6%|6         | 221/3500 [11:55<1:35:18,  1.74s/it, lr: 2.0e-04 loss: 4.704e-02]wan_dewa:   6%|6         | 222/3500 [11:55<1:42:25,  1.87s/it, lr: 2.0e-04 loss: 4.704e-02]wan_dewa:   6%|6         | 222/3500 [11:55<1:42:25,  1.87s/it, lr: 2.0e-04 loss: 4.704e-02]wan_dewa:   6%|6         | 222/3500 [11:57<1:42:25,  1.87s/it, lr: 2.0e-04 loss: 6.534e-02]wan_dewa:   6%|6         | 222/3500 [11:57<1:42:25,  1.87s/it, lr: 2.0e-04 loss: 6.534e-02]wan_dewa:   6%|6         | 223/3500 [11:57<1:48:02,  1.98s/it, lr: 2.0e-04 loss: 6.534e-02]wan_dewa:   6%|6         | 223/3500 [11:57<1:48:02,  1.98s/it, lr: 2.0e-04 loss: 6.534e-02]wan_dewa:   6%|6         | 223/3500 [11:59<1:48:02,  1.98s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:   6%|6         | 223/3500 [11:59<1:48:02,  1.98s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:   6%|6         | 224/3500 [11:59<1:52:23,  2.06s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:   6%|6         | 224/3500 [11:59<1:52:23,  2.06s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:   6%|6         | 224/3500 [12:04<1:52:23,  2.06s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   6%|6         | 224/3500 [12:04<1:52:23,  2.06s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   6%|6         | 225/3500 [12:04<1:56:06,  2.13s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   6%|6         | 225/3500 [12:04<1:56:06,  2.13s/it, lr: 2.0e-04 loss: 8.396e-02]wan_dewa:   6%|6         | 225/3500 [12:06<1:56:06,  2.13s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:   6%|6         | 225/3500 [12:06<1:56:06,  2.13s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:   6%|6         | 226/3500 [12:06<2:03:31,  2.26s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:   6%|6         | 226/3500 [12:06<2:03:31,  2.26s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:   6%|6         | 226/3500 [12:08<2:03:31,  2.26s/it, lr: 2.0e-04 loss: 6.650e-02]wan_dewa:   6%|6         | 226/3500 [12:08<2:03:31,  2.26s/it, lr: 2.0e-04 loss: 6.650e-02]wan_dewa:   6%|6         | 227/3500 [12:08<2:03:39,  2.27s/it, lr: 2.0e-04 loss: 6.650e-02]wan_dewa:   6%|6         | 227/3500 [12:08<2:03:39,  2.27s/it, lr: 2.0e-04 loss: 6.650e-02]wan_dewa:   6%|6         | 227/3500 [12:11<2:03:39,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   6%|6         | 227/3500 [12:11<2:03:39,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   7%|6         | 228/3500 [12:11<2:03:44,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   7%|6         | 228/3500 [12:11<2:03:44,  2.27s/it, lr: 2.0e-04 loss: 8.053e-02]wan_dewa:   7%|6         | 228/3500 [12:13<2:03:44,  2.27s/it, lr: 2.0e-04 loss: 8.029e-02]wan_dewa:   7%|6         | 228/3500 [12:13<2:03:44,  2.27s/it, lr: 2.0e-04 loss: 8.029e-02]wan_dewa:   7%|6         | 229/3500 [12:13<2:03:51,  2.27s/it, lr: 2.0e-04 loss: 8.029e-02]wan_dewa:   7%|6         | 229/3500 [12:13<2:03:51,  2.27s/it, lr: 2.0e-04 loss: 8.029e-02]wan_dewa:   7%|6         | 229/3500 [12:24<2:03:51,  2.27s/it, lr: 2.0e-04 loss: 9.860e-02]wan_dewa:   7%|6         | 229/3500 [12:24<2:03:51,  2.27s/it, lr: 2.0e-04 loss: 9.860e-02]wan_dewa:   7%|6         | 230/3500 [12:27<2:03:49,  2.27s/it, lr: 2.0e-04 loss: 2.887e-01]wan_dewa:   7%|6         | 230/3500 [12:27<2:03:49,  2.27s/it, lr: 2.0e-04 loss: 2.887e-01]wan_dewa:   7%|6         | 231/3500 [12:27<1:35:38,  1.76s/it, lr: 2.0e-04 loss: 2.887e-01]wan_dewa:   7%|6         | 231/3500 [12:27<1:35:38,  1.76s/it, lr: 2.0e-04 loss: 2.887e-01]wan_dewa:   7%|6         | 231/3500 [12:29<1:35:38,  1.76s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   7%|6         | 231/3500 [12:29<1:35:38,  1.76s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   7%|6         | 232/3500 [12:29<1:42:32,  1.88s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   7%|6         | 232/3500 [12:29<1:42:32,  1.88s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   7%|6         | 232/3500 [12:31<1:42:32,  1.88s/it, lr: 2.0e-04 loss: 9.623e-02]wan_dewa:   7%|6         | 232/3500 [12:31<1:42:32,  1.88s/it, lr: 2.0e-04 loss: 9.623e-02]wan_dewa:   7%|6         | 233/3500 [12:31<1:48:01,  1.98s/it, lr: 2.0e-04 loss: 9.623e-02]wan_dewa:   7%|6         | 233/3500 [12:31<1:48:01,  1.98s/it, lr: 2.0e-04 loss: 9.623e-02]wan_dewa:   7%|6         | 233/3500 [12:33<1:48:01,  1.98s/it, lr: 2.0e-04 loss: 4.998e-02]wan_dewa:   7%|6         | 233/3500 [12:33<1:48:01,  1.98s/it, lr: 2.0e-04 loss: 4.998e-02]wan_dewa:   7%|6         | 234/3500 [12:33<1:52:19,  2.06s/it, lr: 2.0e-04 loss: 4.998e-02]wan_dewa:   7%|6         | 234/3500 [12:33<1:52:19,  2.06s/it, lr: 2.0e-04 loss: 4.998e-02]wan_dewa:   7%|6         | 234/3500 [12:36<1:52:19,  2.06s/it, lr: 2.0e-04 loss: 1.569e-01]wan_dewa:   7%|6         | 234/3500 [12:36<1:52:19,  2.06s/it, lr: 2.0e-04 loss: 1.569e-01]wan_dewa:   7%|6         | 235/3500 [12:36<1:59:09,  2.19s/it, lr: 2.0e-04 loss: 1.569e-01]wan_dewa:   7%|6         | 235/3500 [12:36<1:59:09,  2.19s/it, lr: 2.0e-04 loss: 1.569e-01]wan_dewa:   7%|6         | 235/3500 [12:38<1:59:09,  2.19s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:   7%|6         | 235/3500 [12:38<1:59:09,  2.19s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:   7%|6         | 236/3500 [12:38<2:00:29,  2.22s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:   7%|6         | 236/3500 [12:38<2:00:29,  2.22s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:   7%|6         | 236/3500 [12:40<2:00:29,  2.22s/it, lr: 2.0e-04 loss: 1.906e-01]wan_dewa:   7%|6         | 236/3500 [12:40<2:00:29,  2.22s/it, lr: 2.0e-04 loss: 1.906e-01]wan_dewa:   7%|6         | 237/3500 [12:40<2:01:22,  2.23s/it, lr: 2.0e-04 loss: 1.906e-01]wan_dewa:   7%|6         | 237/3500 [12:40<2:01:22,  2.23s/it, lr: 2.0e-04 loss: 1.906e-01]wan_dewa:   7%|6         | 237/3500 [12:43<2:01:22,  2.23s/it, lr: 2.0e-04 loss: 5.882e-02]wan_dewa:   7%|6         | 237/3500 [12:43<2:01:22,  2.23s/it, lr: 2.0e-04 loss: 5.882e-02]wan_dewa:   7%|6         | 238/3500 [12:43<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 5.882e-02]wan_dewa:   7%|6         | 238/3500 [12:43<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 5.882e-02]wan_dewa:   7%|6         | 238/3500 [12:45<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 6.196e-02]wan_dewa:   7%|6         | 238/3500 [12:45<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 6.196e-02]wan_dewa:   7%|6         | 239/3500 [12:45<2:02:33,  2.25s/it, lr: 2.0e-04 loss: 6.196e-02]wan_dewa:   7%|6         | 239/3500 [12:45<2:02:33,  2.25s/it, lr: 2.0e-04 loss: 6.196e-02]wan_dewa:   7%|6         | 239/3500 [12:56<2:02:33,  2.25s/it, lr: 2.0e-04 loss: 8.568e-02]wan_dewa:   7%|6         | 239/3500 [12:56<2:02:33,  2.25s/it, lr: 2.0e-04 loss: 8.568e-02]wan_dewa:   7%|6         | 240/3500 [12:59<2:02:31,  2.25s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:   7%|6         | 240/3500 [12:59<2:02:31,  2.25s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:   7%|6         | 241/3500 [12:59<1:34:38,  1.74s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:   7%|6         | 241/3500 [12:59<1:34:38,  1.74s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:   7%|6         | 241/3500 [13:01<1:34:38,  1.74s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:   7%|6         | 241/3500 [13:01<1:34:38,  1.74s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:   7%|6         | 242/3500 [13:01<1:41:47,  1.87s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:   7%|6         | 242/3500 [13:01<1:41:47,  1.87s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:   7%|6         | 242/3500 [13:03<1:41:47,  1.87s/it, lr: 2.0e-04 loss: 5.140e-02]wan_dewa:   7%|6         | 242/3500 [13:03<1:41:47,  1.87s/it, lr: 2.0e-04 loss: 5.140e-02]wan_dewa:   7%|6         | 243/3500 [13:03<1:47:16,  1.98s/it, lr: 2.0e-04 loss: 5.140e-02]wan_dewa:   7%|6         | 243/3500 [13:03<1:47:16,  1.98s/it, lr: 2.0e-04 loss: 5.140e-02]wan_dewa:   7%|6         | 243/3500 [13:05<1:47:16,  1.98s/it, lr: 2.0e-04 loss: 8.018e-02]wan_dewa:   7%|6         | 243/3500 [13:05<1:47:16,  1.98s/it, lr: 2.0e-04 loss: 8.018e-02]wan_dewa:   7%|6         | 244/3500 [13:05<1:51:35,  2.06s/it, lr: 2.0e-04 loss: 8.018e-02]wan_dewa:   7%|6         | 244/3500 [13:05<1:51:35,  2.06s/it, lr: 2.0e-04 loss: 8.018e-02]wan_dewa:   7%|6         | 244/3500 [13:08<1:51:35,  2.06s/it, lr: 2.0e-04 loss: 5.823e-02]wan_dewa:   7%|6         | 244/3500 [13:08<1:51:35,  2.06s/it, lr: 2.0e-04 loss: 5.823e-02]wan_dewa:   7%|7         | 245/3500 [13:08<1:54:46,  2.12s/it, lr: 2.0e-04 loss: 5.823e-02]wan_dewa:   7%|7         | 245/3500 [13:08<1:54:46,  2.12s/it, lr: 2.0e-04 loss: 5.823e-02]wan_dewa:   7%|7         | 245/3500 [13:10<1:54:46,  2.12s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:   7%|7         | 245/3500 [13:10<1:54:46,  2.12s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:   7%|7         | 246/3500 [13:10<2:00:22,  2.22s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:   7%|7         | 246/3500 [13:10<2:00:22,  2.22s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:   7%|7         | 246/3500 [13:12<2:00:22,  2.22s/it, lr: 2.0e-04 loss: 9.609e-02]wan_dewa:   7%|7         | 246/3500 [13:12<2:00:22,  2.22s/it, lr: 2.0e-04 loss: 9.609e-02]wan_dewa:   7%|7         | 247/3500 [13:12<2:01:07,  2.23s/it, lr: 2.0e-04 loss: 9.609e-02]wan_dewa:   7%|7         | 247/3500 [13:12<2:01:07,  2.23s/it, lr: 2.0e-04 loss: 9.609e-02]wan_dewa:   7%|7         | 247/3500 [13:15<2:01:07,  2.23s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:   7%|7         | 247/3500 [13:15<2:01:07,  2.23s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:   7%|7         | 248/3500 [13:15<2:01:38,  2.24s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:   7%|7         | 248/3500 [13:15<2:01:38,  2.24s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:   7%|7         | 248/3500 [13:17<2:01:38,  2.24s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:   7%|7         | 248/3500 [13:17<2:01:38,  2.24s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:   7%|7         | 249/3500 [13:17<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:   7%|7         | 249/3500 [13:17<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:   7%|7         | 249/3500 [13:30<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 2.040e-01]wan_dewa:   7%|7         | 249/3500 [13:30<2:02:04,  2.25s/it, lr: 2.0e-04 loss: 2.040e-01]
+Saving at step 250
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000000250.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:47<01:41,  6.35s/it] 36%|###6      | 9/25 [00:47<01:41,  6.35s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:27,  5.81s/it] 40%|####      | 10/25 [00:51<01:27,  5.81s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.45s/it] 44%|####4     | 11/25 [00:56<01:16,  5.45s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.20s/it] 48%|####8     | 12/25 [01:00<01:07,  5.20s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.74s/it]Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.74s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.65s/it] 32%|###2      | 8/25 [00:37<01:19,  4.65s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.76s/it] 36%|###6      | 9/25 [00:45<01:32,  5.76s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.42s/it] 40%|####      | 10/25 [00:50<01:21,  5.42s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.18s/it] 44%|####4     | 11/25 [00:54<01:12,  5.18s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.02s/it] 48%|####8     | 12/25 [00:59<01:05,  5.02s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.71s/it] 68%|######8   | 17/25 [01:22<00:37,  4.71s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.67s/it] 84%|########4 | 21/25 [01:41<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.66s/it]100%|##########| 25/25 [01:59<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.23s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.23s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.65s/it]  8%|8         | 2/25 [00:09<01:47,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.69s/it] 36%|###6      | 9/25 [00:45<01:31,  5.69s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.37s/it] 40%|####      | 10/25 [00:49<01:20,  5.37s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.15s/it] 44%|####4     | 11/25 [00:54<01:12,  5.15s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.00s/it] 48%|####8     | 12/25 [00:59<01:05,  5.00s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.15s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.15s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.66s/it] 36%|###6      | 9/25 [00:45<01:30,  5.66s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.35s/it] 40%|####      | 10/25 [00:49<01:20,  5.35s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.06s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.06s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:   7%|7         | 250/3500 [13:34<2:02:01,  2.25s/it, lr: 2.0e-04 loss: 3.138e-01]wan_dewa:   7%|7         | 250/3500 [13:34<2:02:01,  2.25s/it, lr: 2.0e-04 loss: 3.138e-01]wan_dewa:   7%|7         | 251/3500 [13:34<1:56:51,  2.16s/it, lr: 2.0e-04 loss: 3.138e-01]wan_dewa:   7%|7         | 251/3500 [13:34<1:56:51,  2.16s/it, lr: 2.0e-04 loss: 3.138e-01]wan_dewa:   7%|7         | 251/3500 [13:37<1:56:51,  2.16s/it, lr: 2.0e-04 loss: 9.799e-02]wan_dewa:   7%|7         | 251/3500 [13:37<1:56:51,  2.16s/it, lr: 2.0e-04 loss: 9.799e-02]wan_dewa:   7%|7         | 252/3500 [13:37<1:58:41,  2.19s/it, lr: 2.0e-04 loss: 9.799e-02]wan_dewa:   7%|7         | 252/3500 [13:37<1:58:41,  2.19s/it, lr: 2.0e-04 loss: 9.799e-02]wan_dewa:   7%|7         | 252/3500 [13:39<1:58:41,  2.19s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:   7%|7         | 252/3500 [13:39<1:58:41,  2.19s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:   7%|7         | 253/3500 [13:39<2:00:06,  2.22s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:   7%|7         | 253/3500 [13:39<2:00:06,  2.22s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:   7%|7         | 253/3500 [13:41<2:00:06,  2.22s/it, lr: 2.0e-04 loss: 5.686e-02]wan_dewa:   7%|7         | 253/3500 [13:41<2:00:06,  2.22s/it, lr: 2.0e-04 loss: 5.686e-02]wan_dewa:   7%|7         | 254/3500 [13:41<2:01:16,  2.24s/it, lr: 2.0e-04 loss: 5.686e-02]wan_dewa:   7%|7         | 254/3500 [13:41<2:01:16,  2.24s/it, lr: 2.0e-04 loss: 5.686e-02]wan_dewa:   7%|7         | 254/3500 [13:44<2:01:16,  2.24s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:   7%|7         | 254/3500 [13:44<2:01:16,  2.24s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:   7%|7         | 255/3500 [13:44<2:04:51,  2.31s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:   7%|7         | 255/3500 [13:44<2:04:51,  2.31s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:   7%|7         | 255/3500 [13:46<2:04:51,  2.31s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:   7%|7         | 255/3500 [13:46<2:04:51,  2.31s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:   7%|7         | 256/3500 [13:46<2:04:46,  2.31s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:   7%|7         | 256/3500 [13:46<2:04:46,  2.31s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:   7%|7         | 256/3500 [13:48<2:04:46,  2.31s/it, lr: 2.0e-04 loss: 6.839e-02]wan_dewa:   7%|7         | 256/3500 [13:48<2:04:46,  2.31s/it, lr: 2.0e-04 loss: 6.839e-02]wan_dewa:   7%|7         | 257/3500 [13:48<2:04:38,  2.31s/it, lr: 2.0e-04 loss: 6.839e-02]wan_dewa:   7%|7         | 257/3500 [13:48<2:04:38,  2.31s/it, lr: 2.0e-04 loss: 6.839e-02]wan_dewa:   7%|7         | 257/3500 [13:51<2:04:38,  2.31s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:   7%|7         | 257/3500 [13:51<2:04:38,  2.31s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:   7%|7         | 258/3500 [13:51<2:04:33,  2.31s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:   7%|7         | 258/3500 [13:51<2:04:33,  2.31s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:   7%|7         | 258/3500 [13:53<2:04:33,  2.31s/it, lr: 2.0e-04 loss: 9.222e-02]wan_dewa:   7%|7         | 258/3500 [13:53<2:04:33,  2.31s/it, lr: 2.0e-04 loss: 9.222e-02]wan_dewa:   7%|7         | 259/3500 [13:53<2:04:29,  2.30s/it, lr: 2.0e-04 loss: 9.222e-02]wan_dewa:   7%|7         | 259/3500 [13:53<2:04:29,  2.30s/it, lr: 2.0e-04 loss: 9.222e-02]wan_dewa:   7%|7         | 259/3500 [13:59<2:04:29,  2.30s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:   7%|7         | 259/3500 [13:59<2:04:29,  2.30s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:   7%|7         | 260/3500 [14:01<2:04:27,  2.30s/it, lr: 2.0e-04 loss: 3.995e-02]wan_dewa:   7%|7         | 260/3500 [14:01<2:04:27,  2.30s/it, lr: 2.0e-04 loss: 3.995e-02]wan_dewa:   7%|7         | 261/3500 [14:01<1:35:49,  1.78s/it, lr: 2.0e-04 loss: 3.995e-02]wan_dewa:   7%|7         | 261/3500 [14:01<1:35:49,  1.78s/it, lr: 2.0e-04 loss: 3.995e-02]wan_dewa:   7%|7         | 261/3500 [14:03<1:35:49,  1.78s/it, lr: 2.0e-04 loss: 1.132e-01]wan_dewa:   7%|7         | 261/3500 [14:03<1:35:49,  1.78s/it, lr: 2.0e-04 loss: 1.132e-01]wan_dewa:   7%|7         | 262/3500 [14:03<1:42:41,  1.90s/it, lr: 2.0e-04 loss: 1.132e-01]wan_dewa:   7%|7         | 262/3500 [14:03<1:42:41,  1.90s/it, lr: 2.0e-04 loss: 1.132e-01]wan_dewa:   7%|7         | 262/3500 [14:06<1:42:41,  1.90s/it, lr: 2.0e-04 loss: 7.004e-02]wan_dewa:   7%|7         | 262/3500 [14:06<1:42:41,  1.90s/it, lr: 2.0e-04 loss: 7.004e-02]wan_dewa:   8%|7         | 263/3500 [14:06<1:48:11,  2.01s/it, lr: 2.0e-04 loss: 7.004e-02]wan_dewa:   8%|7         | 263/3500 [14:06<1:48:11,  2.01s/it, lr: 2.0e-04 loss: 7.004e-02]wan_dewa:   8%|7         | 263/3500 [14:08<1:48:11,  2.01s/it, lr: 2.0e-04 loss: 7.899e-02]wan_dewa:   8%|7         | 263/3500 [14:08<1:48:11,  2.01s/it, lr: 2.0e-04 loss: 7.899e-02]wan_dewa:   8%|7         | 264/3500 [14:08<1:52:27,  2.09s/it, lr: 2.0e-04 loss: 7.899e-02]wan_dewa:   8%|7         | 264/3500 [14:08<1:52:27,  2.09s/it, lr: 2.0e-04 loss: 7.899e-02]wan_dewa:   8%|7         | 264/3500 [14:10<1:52:27,  2.09s/it, lr: 2.0e-04 loss: 4.121e-02]wan_dewa:   8%|7         | 264/3500 [14:10<1:52:27,  2.09s/it, lr: 2.0e-04 loss: 4.121e-02]wan_dewa:   8%|7         | 265/3500 [14:10<1:55:39,  2.15s/it, lr: 2.0e-04 loss: 4.121e-02]wan_dewa:   8%|7         | 265/3500 [14:10<1:55:39,  2.15s/it, lr: 2.0e-04 loss: 4.121e-02]wan_dewa:   8%|7         | 265/3500 [14:13<1:55:39,  2.15s/it, lr: 2.0e-04 loss: 1.257e-01]wan_dewa:   8%|7         | 265/3500 [14:13<1:55:39,  2.15s/it, lr: 2.0e-04 loss: 1.257e-01]wan_dewa:   8%|7         | 266/3500 [14:13<2:01:06,  2.25s/it, lr: 2.0e-04 loss: 1.257e-01]wan_dewa:   8%|7         | 266/3500 [14:13<2:01:06,  2.25s/it, lr: 2.0e-04 loss: 1.257e-01]wan_dewa:   8%|7         | 266/3500 [14:15<2:01:06,  2.25s/it, lr: 2.0e-04 loss: 8.757e-02]wan_dewa:   8%|7         | 266/3500 [14:15<2:01:06,  2.25s/it, lr: 2.0e-04 loss: 8.757e-02]wan_dewa:   8%|7         | 267/3500 [14:15<2:01:54,  2.26s/it, lr: 2.0e-04 loss: 8.757e-02]wan_dewa:   8%|7         | 267/3500 [14:15<2:01:54,  2.26s/it, lr: 2.0e-04 loss: 8.757e-02]wan_dewa:   8%|7         | 267/3500 [14:17<2:01:54,  2.26s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:   8%|7         | 267/3500 [14:17<2:01:54,  2.26s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:   8%|7         | 268/3500 [14:17<2:02:26,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:   8%|7         | 268/3500 [14:17<2:02:26,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:   8%|7         | 268/3500 [14:20<2:02:26,  2.27s/it, lr: 2.0e-04 loss: 9.327e-02]wan_dewa:   8%|7         | 268/3500 [14:20<2:02:26,  2.27s/it, lr: 2.0e-04 loss: 9.327e-02]wan_dewa:   8%|7         | 269/3500 [14:20<2:02:51,  2.28s/it, lr: 2.0e-04 loss: 9.327e-02]wan_dewa:   8%|7         | 269/3500 [14:20<2:02:51,  2.28s/it, lr: 2.0e-04 loss: 9.327e-02]wan_dewa:   8%|7         | 269/3500 [14:26<2:02:51,  2.28s/it, lr: 2.0e-04 loss: 7.217e-02]wan_dewa:   8%|7         | 269/3500 [14:26<2:02:51,  2.28s/it, lr: 2.0e-04 loss: 7.217e-02]wan_dewa:   8%|7         | 270/3500 [14:28<2:02:49,  2.28s/it, lr: 2.0e-04 loss: 1.607e-01]wan_dewa:   8%|7         | 270/3500 [14:28<2:02:49,  2.28s/it, lr: 2.0e-04 loss: 1.607e-01]wan_dewa:   8%|7         | 271/3500 [14:28<1:34:53,  1.76s/it, lr: 2.0e-04 loss: 1.607e-01]wan_dewa:   8%|7         | 271/3500 [14:28<1:34:53,  1.76s/it, lr: 2.0e-04 loss: 1.607e-01]wan_dewa:   8%|7         | 271/3500 [14:30<1:34:53,  1.76s/it, lr: 2.0e-04 loss: 7.796e-02]wan_dewa:   8%|7         | 271/3500 [14:30<1:34:53,  1.76s/it, lr: 2.0e-04 loss: 7.796e-02]wan_dewa:   8%|7         | 272/3500 [14:30<1:41:55,  1.89s/it, lr: 2.0e-04 loss: 7.796e-02]wan_dewa:   8%|7         | 272/3500 [14:30<1:41:55,  1.89s/it, lr: 2.0e-04 loss: 7.796e-02]wan_dewa:   8%|7         | 272/3500 [14:32<1:41:55,  1.89s/it, lr: 2.0e-04 loss: 4.933e-02]wan_dewa:   8%|7         | 272/3500 [14:32<1:41:55,  1.89s/it, lr: 2.0e-04 loss: 4.933e-02]wan_dewa:   8%|7         | 273/3500 [14:32<1:47:31,  2.00s/it, lr: 2.0e-04 loss: 4.933e-02]wan_dewa:   8%|7         | 273/3500 [14:32<1:47:31,  2.00s/it, lr: 2.0e-04 loss: 4.933e-02]wan_dewa:   8%|7         | 273/3500 [14:35<1:47:31,  2.00s/it, lr: 2.0e-04 loss: 1.518e-01]wan_dewa:   8%|7         | 273/3500 [14:35<1:47:31,  2.00s/it, lr: 2.0e-04 loss: 1.518e-01]wan_dewa:   8%|7         | 274/3500 [14:35<1:51:54,  2.08s/it, lr: 2.0e-04 loss: 1.518e-01]wan_dewa:   8%|7         | 274/3500 [14:35<1:51:54,  2.08s/it, lr: 2.0e-04 loss: 1.518e-01]wan_dewa:   8%|7         | 274/3500 [14:40<1:51:54,  2.08s/it, lr: 2.0e-04 loss: 1.184e-01]wan_dewa:   8%|7         | 274/3500 [14:40<1:51:54,  2.08s/it, lr: 2.0e-04 loss: 1.184e-01]wan_dewa:   8%|7         | 275/3500 [14:40<1:55:29,  2.15s/it, lr: 2.0e-04 loss: 1.184e-01]wan_dewa:   8%|7         | 275/3500 [14:40<1:55:29,  2.15s/it, lr: 2.0e-04 loss: 1.184e-01]wan_dewa:   8%|7         | 275/3500 [14:42<1:55:29,  2.15s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:   8%|7         | 275/3500 [14:42<1:55:29,  2.15s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:   8%|7         | 276/3500 [14:42<2:02:54,  2.29s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:   8%|7         | 276/3500 [14:42<2:02:54,  2.29s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:   8%|7         | 276/3500 [14:45<2:02:54,  2.29s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:   8%|7         | 276/3500 [14:45<2:02:54,  2.29s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:   8%|7         | 277/3500 [14:45<2:02:57,  2.29s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:   8%|7         | 277/3500 [14:45<2:02:57,  2.29s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:   8%|7         | 277/3500 [14:47<2:02:57,  2.29s/it, lr: 2.0e-04 loss: 1.197e-01]wan_dewa:   8%|7         | 277/3500 [14:47<2:02:57,  2.29s/it, lr: 2.0e-04 loss: 1.197e-01]wan_dewa:   8%|7         | 278/3500 [14:47<2:02:55,  2.29s/it, lr: 2.0e-04 loss: 1.197e-01]wan_dewa:   8%|7         | 278/3500 [14:47<2:02:55,  2.29s/it, lr: 2.0e-04 loss: 1.197e-01]wan_dewa:   8%|7         | 278/3500 [14:49<2:02:55,  2.29s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:   8%|7         | 278/3500 [14:49<2:02:55,  2.29s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:   8%|7         | 279/3500 [14:49<2:03:04,  2.29s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:   8%|7         | 279/3500 [14:49<2:03:04,  2.29s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:   8%|7         | 279/3500 [15:00<2:03:04,  2.29s/it, lr: 2.0e-04 loss: 8.803e-02]wan_dewa:   8%|7         | 279/3500 [15:00<2:03:04,  2.29s/it, lr: 2.0e-04 loss: 8.803e-02]wan_dewa:   8%|8         | 280/3500 [15:03<2:03:02,  2.29s/it, lr: 2.0e-04 loss: 7.210e-02]wan_dewa:   8%|8         | 280/3500 [15:03<2:03:02,  2.29s/it, lr: 2.0e-04 loss: 7.210e-02]wan_dewa:   8%|8         | 281/3500 [15:03<1:37:22,  1.81s/it, lr: 2.0e-04 loss: 7.210e-02]wan_dewa:   8%|8         | 281/3500 [15:03<1:37:22,  1.81s/it, lr: 2.0e-04 loss: 7.210e-02]wan_dewa:   8%|8         | 281/3500 [15:05<1:37:22,  1.81s/it, lr: 2.0e-04 loss: 5.091e-02]wan_dewa:   8%|8         | 281/3500 [15:05<1:37:22,  1.81s/it, lr: 2.0e-04 loss: 5.091e-02]wan_dewa:   8%|8         | 282/3500 [15:05<1:43:32,  1.93s/it, lr: 2.0e-04 loss: 5.091e-02]wan_dewa:   8%|8         | 282/3500 [15:05<1:43:32,  1.93s/it, lr: 2.0e-04 loss: 5.091e-02]wan_dewa:   8%|8         | 282/3500 [15:07<1:43:32,  1.93s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:   8%|8         | 282/3500 [15:07<1:43:32,  1.93s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:   8%|8         | 283/3500 [15:07<1:48:29,  2.02s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:   8%|8         | 283/3500 [15:07<1:48:29,  2.02s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:   8%|8         | 283/3500 [15:09<1:48:29,  2.02s/it, lr: 2.0e-04 loss: 6.370e-02]wan_dewa:   8%|8         | 283/3500 [15:09<1:48:29,  2.02s/it, lr: 2.0e-04 loss: 6.370e-02]wan_dewa:   8%|8         | 284/3500 [15:09<1:52:16,  2.09s/it, lr: 2.0e-04 loss: 6.370e-02]wan_dewa:   8%|8         | 284/3500 [15:09<1:52:16,  2.09s/it, lr: 2.0e-04 loss: 6.370e-02]wan_dewa:   8%|8         | 284/3500 [15:12<1:52:16,  2.09s/it, lr: 2.0e-04 loss: 8.968e-02]wan_dewa:   8%|8         | 284/3500 [15:12<1:52:16,  2.09s/it, lr: 2.0e-04 loss: 8.968e-02]wan_dewa:   8%|8         | 285/3500 [15:12<1:55:05,  2.15s/it, lr: 2.0e-04 loss: 8.968e-02]wan_dewa:   8%|8         | 285/3500 [15:12<1:55:05,  2.15s/it, lr: 2.0e-04 loss: 8.968e-02]wan_dewa:   8%|8         | 285/3500 [15:14<1:55:05,  2.15s/it, lr: 2.0e-04 loss: 3.963e-02]wan_dewa:   8%|8         | 285/3500 [15:14<1:55:05,  2.15s/it, lr: 2.0e-04 loss: 3.963e-02]wan_dewa:   8%|8         | 286/3500 [15:14<2:00:20,  2.25s/it, lr: 2.0e-04 loss: 3.963e-02]wan_dewa:   8%|8         | 286/3500 [15:14<2:00:20,  2.25s/it, lr: 2.0e-04 loss: 3.963e-02]wan_dewa:   8%|8         | 286/3500 [15:17<2:00:20,  2.25s/it, lr: 2.0e-04 loss: 1.098e-01]wan_dewa:   8%|8         | 286/3500 [15:17<2:00:20,  2.25s/it, lr: 2.0e-04 loss: 1.098e-01]wan_dewa:   8%|8         | 287/3500 [15:17<2:00:58,  2.26s/it, lr: 2.0e-04 loss: 1.098e-01]wan_dewa:   8%|8         | 287/3500 [15:17<2:00:58,  2.26s/it, lr: 2.0e-04 loss: 1.098e-01]wan_dewa:   8%|8         | 287/3500 [15:19<2:00:58,  2.26s/it, lr: 2.0e-04 loss: 6.795e-02]wan_dewa:   8%|8         | 287/3500 [15:19<2:00:58,  2.26s/it, lr: 2.0e-04 loss: 6.795e-02]wan_dewa:   8%|8         | 288/3500 [15:19<2:01:23,  2.27s/it, lr: 2.0e-04 loss: 6.795e-02]wan_dewa:   8%|8         | 288/3500 [15:19<2:01:23,  2.27s/it, lr: 2.0e-04 loss: 6.795e-02]wan_dewa:   8%|8         | 288/3500 [15:21<2:01:23,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   8%|8         | 288/3500 [15:21<2:01:23,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   8%|8         | 289/3500 [15:21<2:01:43,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   8%|8         | 289/3500 [15:21<2:01:43,  2.27s/it, lr: 2.0e-04 loss: 1.068e-01]wan_dewa:   8%|8         | 289/3500 [15:32<2:01:43,  2.27s/it, lr: 2.0e-04 loss: 5.776e-02]wan_dewa:   8%|8         | 289/3500 [15:32<2:01:43,  2.27s/it, lr: 2.0e-04 loss: 5.776e-02]wan_dewa:   8%|8         | 290/3500 [15:35<2:01:40,  2.27s/it, lr: 2.0e-04 loss: 8.241e-02]wan_dewa:   8%|8         | 290/3500 [15:35<2:01:40,  2.27s/it, lr: 2.0e-04 loss: 8.241e-02]wan_dewa:   8%|8         | 291/3500 [15:35<1:33:58,  1.76s/it, lr: 2.0e-04 loss: 8.241e-02]wan_dewa:   8%|8         | 291/3500 [15:35<1:33:58,  1.76s/it, lr: 2.0e-04 loss: 8.241e-02]wan_dewa:   8%|8         | 291/3500 [15:37<1:33:58,  1.76s/it, lr: 2.0e-04 loss: 3.144e-01]wan_dewa:   8%|8         | 291/3500 [15:37<1:33:58,  1.76s/it, lr: 2.0e-04 loss: 3.144e-01]wan_dewa:   8%|8         | 292/3500 [15:37<1:40:45,  1.88s/it, lr: 2.0e-04 loss: 3.144e-01]wan_dewa:   8%|8         | 292/3500 [15:37<1:40:45,  1.88s/it, lr: 2.0e-04 loss: 3.144e-01]wan_dewa:   8%|8         | 292/3500 [15:39<1:40:45,  1.88s/it, lr: 2.0e-04 loss: 7.216e-02]wan_dewa:   8%|8         | 292/3500 [15:39<1:40:45,  1.88s/it, lr: 2.0e-04 loss: 7.216e-02]wan_dewa:   8%|8         | 293/3500 [15:39<1:46:09,  1.99s/it, lr: 2.0e-04 loss: 7.216e-02]wan_dewa:   8%|8         | 293/3500 [15:39<1:46:09,  1.99s/it, lr: 2.0e-04 loss: 7.216e-02]wan_dewa:   8%|8         | 293/3500 [15:42<1:46:09,  1.99s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:   8%|8         | 293/3500 [15:42<1:46:09,  1.99s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:   8%|8         | 294/3500 [15:42<1:50:21,  2.07s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:   8%|8         | 294/3500 [15:42<1:50:21,  2.07s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:   8%|8         | 294/3500 [15:44<1:50:21,  2.07s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   8%|8         | 294/3500 [15:44<1:50:21,  2.07s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   8%|8         | 295/3500 [15:44<1:53:29,  2.12s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   8%|8         | 295/3500 [15:44<1:53:29,  2.12s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:   8%|8         | 295/3500 [15:46<1:53:29,  2.12s/it, lr: 2.0e-04 loss: 6.867e-02]wan_dewa:   8%|8         | 295/3500 [15:46<1:53:29,  2.12s/it, lr: 2.0e-04 loss: 6.867e-02]wan_dewa:   8%|8         | 296/3500 [15:46<1:59:02,  2.23s/it, lr: 2.0e-04 loss: 6.867e-02]wan_dewa:   8%|8         | 296/3500 [15:46<1:59:02,  2.23s/it, lr: 2.0e-04 loss: 6.867e-02]wan_dewa:   8%|8         | 296/3500 [15:49<1:59:02,  2.23s/it, lr: 2.0e-04 loss: 7.739e-02]wan_dewa:   8%|8         | 296/3500 [15:49<1:59:02,  2.23s/it, lr: 2.0e-04 loss: 7.739e-02]wan_dewa:   8%|8         | 297/3500 [15:49<1:59:50,  2.24s/it, lr: 2.0e-04 loss: 7.739e-02]wan_dewa:   8%|8         | 297/3500 [15:49<1:59:50,  2.24s/it, lr: 2.0e-04 loss: 7.739e-02]wan_dewa:   8%|8         | 297/3500 [15:51<1:59:50,  2.24s/it, lr: 2.0e-04 loss: 8.641e-02]wan_dewa:   8%|8         | 297/3500 [15:51<1:59:50,  2.24s/it, lr: 2.0e-04 loss: 8.641e-02]wan_dewa:   9%|8         | 298/3500 [15:51<2:00:22,  2.26s/it, lr: 2.0e-04 loss: 8.641e-02]wan_dewa:   9%|8         | 298/3500 [15:51<2:00:22,  2.26s/it, lr: 2.0e-04 loss: 8.641e-02]wan_dewa:   9%|8         | 298/3500 [15:53<2:00:22,  2.26s/it, lr: 2.0e-04 loss: 7.233e-02]wan_dewa:   9%|8         | 298/3500 [15:53<2:00:22,  2.26s/it, lr: 2.0e-04 loss: 7.233e-02]wan_dewa:   9%|8         | 299/3500 [15:53<2:00:45,  2.26s/it, lr: 2.0e-04 loss: 7.233e-02]wan_dewa:   9%|8         | 299/3500 [15:53<2:00:45,  2.26s/it, lr: 2.0e-04 loss: 7.233e-02]wan_dewa:   9%|8         | 299/3500 [16:07<2:00:45,  2.26s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:   9%|8         | 299/3500 [16:07<2:00:45,  2.26s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:   9%|8         | 300/3500 [16:09<2:00:42,  2.26s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:   9%|8         | 300/3500 [16:09<2:00:42,  2.26s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:   9%|8         | 301/3500 [16:09<1:33:21,  1.75s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:   9%|8         | 301/3500 [16:09<1:33:21,  1.75s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:   9%|8         | 301/3500 [16:11<1:33:21,  1.75s/it, lr: 2.0e-04 loss: 7.434e-02]wan_dewa:   9%|8         | 301/3500 [16:11<1:33:21,  1.75s/it, lr: 2.0e-04 loss: 7.434e-02]wan_dewa:   9%|8         | 302/3500 [16:11<1:40:17,  1.88s/it, lr: 2.0e-04 loss: 7.434e-02]wan_dewa:   9%|8         | 302/3500 [16:11<1:40:17,  1.88s/it, lr: 2.0e-04 loss: 7.434e-02]wan_dewa:   9%|8         | 302/3500 [16:13<1:40:17,  1.88s/it, lr: 2.0e-04 loss: 9.851e-02]wan_dewa:   9%|8         | 302/3500 [16:13<1:40:17,  1.88s/it, lr: 2.0e-04 loss: 9.851e-02]wan_dewa:   9%|8         | 303/3500 [16:13<1:45:42,  1.98s/it, lr: 2.0e-04 loss: 9.851e-02]wan_dewa:   9%|8         | 303/3500 [16:13<1:45:42,  1.98s/it, lr: 2.0e-04 loss: 9.851e-02]wan_dewa:   9%|8         | 303/3500 [16:16<1:45:42,  1.98s/it, lr: 2.0e-04 loss: 8.385e-02]wan_dewa:   9%|8         | 303/3500 [16:16<1:45:42,  1.98s/it, lr: 2.0e-04 loss: 8.385e-02]wan_dewa:   9%|8         | 304/3500 [16:16<1:49:52,  2.06s/it, lr: 2.0e-04 loss: 8.385e-02]wan_dewa:   9%|8         | 304/3500 [16:16<1:49:52,  2.06s/it, lr: 2.0e-04 loss: 8.385e-02]wan_dewa:   9%|8         | 304/3500 [16:18<1:49:52,  2.06s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:   9%|8         | 304/3500 [16:18<1:49:52,  2.06s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:   9%|8         | 305/3500 [16:18<1:55:57,  2.18s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:   9%|8         | 305/3500 [16:18<1:55:57,  2.18s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:   9%|8         | 305/3500 [16:20<1:55:57,  2.18s/it, lr: 2.0e-04 loss: 7.266e-02]wan_dewa:   9%|8         | 305/3500 [16:20<1:55:57,  2.18s/it, lr: 2.0e-04 loss: 7.266e-02]wan_dewa:   9%|8         | 306/3500 [16:20<1:57:27,  2.21s/it, lr: 2.0e-04 loss: 7.266e-02]wan_dewa:   9%|8         | 306/3500 [16:20<1:57:27,  2.21s/it, lr: 2.0e-04 loss: 7.266e-02]wan_dewa:   9%|8         | 306/3500 [16:23<1:57:27,  2.21s/it, lr: 2.0e-04 loss: 7.287e-02]wan_dewa:   9%|8         | 306/3500 [16:23<1:57:27,  2.21s/it, lr: 2.0e-04 loss: 7.287e-02]wan_dewa:   9%|8         | 307/3500 [16:23<1:58:34,  2.23s/it, lr: 2.0e-04 loss: 7.287e-02]wan_dewa:   9%|8         | 307/3500 [16:23<1:58:34,  2.23s/it, lr: 2.0e-04 loss: 7.287e-02]wan_dewa:   9%|8         | 307/3500 [16:25<1:58:34,  2.23s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:   9%|8         | 307/3500 [16:25<1:58:34,  2.23s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:   9%|8         | 308/3500 [16:25<1:59:20,  2.24s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:   9%|8         | 308/3500 [16:25<1:59:20,  2.24s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:   9%|8         | 308/3500 [16:27<1:59:20,  2.24s/it, lr: 2.0e-04 loss: 7.690e-02]wan_dewa:   9%|8         | 308/3500 [16:27<1:59:20,  2.24s/it, lr: 2.0e-04 loss: 7.690e-02]wan_dewa:   9%|8         | 309/3500 [16:27<1:59:55,  2.25s/it, lr: 2.0e-04 loss: 7.690e-02]wan_dewa:   9%|8         | 309/3500 [16:27<1:59:55,  2.25s/it, lr: 2.0e-04 loss: 7.690e-02]wan_dewa:   9%|8         | 309/3500 [16:39<1:59:55,  2.25s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:   9%|8         | 309/3500 [16:39<1:59:55,  2.25s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:   9%|8         | 310/3500 [16:41<1:59:53,  2.25s/it, lr: 2.0e-04 loss: 6.928e-02]wan_dewa:   9%|8         | 310/3500 [16:41<1:59:53,  2.25s/it, lr: 2.0e-04 loss: 6.928e-02]wan_dewa:   9%|8         | 311/3500 [16:41<1:34:58,  1.79s/it, lr: 2.0e-04 loss: 6.928e-02]wan_dewa:   9%|8         | 311/3500 [16:41<1:34:58,  1.79s/it, lr: 2.0e-04 loss: 6.928e-02]wan_dewa:   9%|8         | 311/3500 [16:43<1:34:58,  1.79s/it, lr: 2.0e-04 loss: 4.923e-01]wan_dewa:   9%|8         | 311/3500 [16:43<1:34:58,  1.79s/it, lr: 2.0e-04 loss: 4.923e-01]wan_dewa:   9%|8         | 312/3500 [16:43<1:41:19,  1.91s/it, lr: 2.0e-04 loss: 4.923e-01]wan_dewa:   9%|8         | 312/3500 [16:43<1:41:19,  1.91s/it, lr: 2.0e-04 loss: 4.923e-01]wan_dewa:   9%|8         | 312/3500 [16:46<1:41:19,  1.91s/it, lr: 2.0e-04 loss: 3.347e-02]wan_dewa:   9%|8         | 312/3500 [16:46<1:41:19,  1.91s/it, lr: 2.0e-04 loss: 3.347e-02]wan_dewa:   9%|8         | 313/3500 [16:46<1:46:22,  2.00s/it, lr: 2.0e-04 loss: 3.347e-02]wan_dewa:   9%|8         | 313/3500 [16:46<1:46:22,  2.00s/it, lr: 2.0e-04 loss: 3.347e-02]wan_dewa:   9%|8         | 313/3500 [16:48<1:46:22,  2.00s/it, lr: 2.0e-04 loss: 1.251e-01]wan_dewa:   9%|8         | 313/3500 [16:48<1:46:22,  2.00s/it, lr: 2.0e-04 loss: 1.251e-01]wan_dewa:   9%|8         | 314/3500 [16:48<1:50:14,  2.08s/it, lr: 2.0e-04 loss: 1.251e-01]wan_dewa:   9%|8         | 314/3500 [16:48<1:50:14,  2.08s/it, lr: 2.0e-04 loss: 1.251e-01]wan_dewa:   9%|8         | 314/3500 [16:50<1:50:14,  2.08s/it, lr: 2.0e-04 loss: 1.172e-01]wan_dewa:   9%|8         | 314/3500 [16:50<1:50:14,  2.08s/it, lr: 2.0e-04 loss: 1.172e-01]wan_dewa:   9%|9         | 315/3500 [16:50<1:53:11,  2.13s/it, lr: 2.0e-04 loss: 1.172e-01]wan_dewa:   9%|9         | 315/3500 [16:50<1:53:11,  2.13s/it, lr: 2.0e-04 loss: 1.172e-01]wan_dewa:   9%|9         | 315/3500 [16:53<1:53:11,  2.13s/it, lr: 2.0e-04 loss: 6.627e-02]wan_dewa:   9%|9         | 315/3500 [16:53<1:53:11,  2.13s/it, lr: 2.0e-04 loss: 6.627e-02]wan_dewa:   9%|9         | 316/3500 [16:53<1:58:04,  2.23s/it, lr: 2.0e-04 loss: 6.627e-02]wan_dewa:   9%|9         | 316/3500 [16:53<1:58:04,  2.23s/it, lr: 2.0e-04 loss: 6.627e-02]wan_dewa:   9%|9         | 316/3500 [16:55<1:58:04,  2.23s/it, lr: 2.0e-04 loss: 3.809e-01]wan_dewa:   9%|9         | 316/3500 [16:55<1:58:04,  2.23s/it, lr: 2.0e-04 loss: 3.809e-01]wan_dewa:   9%|9         | 317/3500 [16:55<1:58:50,  2.24s/it, lr: 2.0e-04 loss: 3.809e-01]wan_dewa:   9%|9         | 317/3500 [16:55<1:58:50,  2.24s/it, lr: 2.0e-04 loss: 3.809e-01]wan_dewa:   9%|9         | 317/3500 [16:57<1:58:50,  2.24s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:   9%|9         | 317/3500 [16:57<1:58:50,  2.24s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:   9%|9         | 318/3500 [16:57<1:59:25,  2.25s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:   9%|9         | 318/3500 [16:57<1:59:25,  2.25s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:   9%|9         | 318/3500 [16:59<1:59:25,  2.25s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:   9%|9         | 318/3500 [16:59<1:59:25,  2.25s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:   9%|9         | 319/3500 [16:59<1:59:46,  2.26s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:   9%|9         | 319/3500 [16:59<1:59:46,  2.26s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:   9%|9         | 319/3500 [17:08<1:59:46,  2.26s/it, lr: 2.0e-04 loss: 8.067e-02]wan_dewa:   9%|9         | 319/3500 [17:08<1:59:46,  2.26s/it, lr: 2.0e-04 loss: 8.067e-02]wan_dewa:   9%|9         | 320/3500 [17:10<1:59:44,  2.26s/it, lr: 2.0e-04 loss: 5.572e-02]wan_dewa:   9%|9         | 320/3500 [17:10<1:59:44,  2.26s/it, lr: 2.0e-04 loss: 5.572e-02]wan_dewa:   9%|9         | 321/3500 [17:10<1:34:56,  1.79s/it, lr: 2.0e-04 loss: 5.572e-02]wan_dewa:   9%|9         | 321/3500 [17:10<1:34:56,  1.79s/it, lr: 2.0e-04 loss: 5.572e-02]wan_dewa:   9%|9         | 321/3500 [17:12<1:34:56,  1.79s/it, lr: 2.0e-04 loss: 5.196e-02]wan_dewa:   9%|9         | 321/3500 [17:12<1:34:56,  1.79s/it, lr: 2.0e-04 loss: 5.196e-02]wan_dewa:   9%|9         | 322/3500 [17:12<1:41:13,  1.91s/it, lr: 2.0e-04 loss: 5.196e-02]wan_dewa:   9%|9         | 322/3500 [17:12<1:41:13,  1.91s/it, lr: 2.0e-04 loss: 5.196e-02]wan_dewa:   9%|9         | 322/3500 [17:15<1:41:13,  1.91s/it, lr: 2.0e-04 loss: 1.104e-01]wan_dewa:   9%|9         | 322/3500 [17:15<1:41:13,  1.91s/it, lr: 2.0e-04 loss: 1.104e-01]wan_dewa:   9%|9         | 323/3500 [17:15<1:46:13,  2.01s/it, lr: 2.0e-04 loss: 1.104e-01]wan_dewa:   9%|9         | 323/3500 [17:15<1:46:13,  2.01s/it, lr: 2.0e-04 loss: 1.104e-01]wan_dewa:   9%|9         | 323/3500 [17:17<1:46:13,  2.01s/it, lr: 2.0e-04 loss: 9.790e-02]wan_dewa:   9%|9         | 323/3500 [17:17<1:46:13,  2.01s/it, lr: 2.0e-04 loss: 9.790e-02]wan_dewa:   9%|9         | 324/3500 [17:17<1:50:02,  2.08s/it, lr: 2.0e-04 loss: 9.790e-02]wan_dewa:   9%|9         | 324/3500 [17:17<1:50:02,  2.08s/it, lr: 2.0e-04 loss: 9.790e-02]wan_dewa:   9%|9         | 324/3500 [17:21<1:50:02,  2.08s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:   9%|9         | 324/3500 [17:21<1:50:02,  2.08s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:   9%|9         | 325/3500 [17:21<1:53:24,  2.14s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:   9%|9         | 325/3500 [17:21<1:53:24,  2.14s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:   9%|9         | 325/3500 [17:24<1:53:24,  2.14s/it, lr: 2.0e-04 loss: 5.584e-02]wan_dewa:   9%|9         | 325/3500 [17:24<1:53:24,  2.14s/it, lr: 2.0e-04 loss: 5.584e-02]wan_dewa:   9%|9         | 326/3500 [17:24<2:00:13,  2.27s/it, lr: 2.0e-04 loss: 5.584e-02]wan_dewa:   9%|9         | 326/3500 [17:24<2:00:13,  2.27s/it, lr: 2.0e-04 loss: 5.584e-02]wan_dewa:   9%|9         | 326/3500 [17:26<2:00:13,  2.27s/it, lr: 2.0e-04 loss: 5.907e-02]wan_dewa:   9%|9         | 326/3500 [17:26<2:00:13,  2.27s/it, lr: 2.0e-04 loss: 5.907e-02]wan_dewa:   9%|9         | 327/3500 [17:26<2:00:16,  2.27s/it, lr: 2.0e-04 loss: 5.907e-02]wan_dewa:   9%|9         | 327/3500 [17:26<2:00:16,  2.27s/it, lr: 2.0e-04 loss: 5.907e-02]wan_dewa:   9%|9         | 327/3500 [17:28<2:00:16,  2.27s/it, lr: 2.0e-04 loss: 7.785e-02]wan_dewa:   9%|9         | 327/3500 [17:28<2:00:16,  2.27s/it, lr: 2.0e-04 loss: 7.785e-02]wan_dewa:   9%|9         | 328/3500 [17:28<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.785e-02]wan_dewa:   9%|9         | 328/3500 [17:28<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.785e-02]wan_dewa:   9%|9         | 328/3500 [17:31<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   9%|9         | 328/3500 [17:31<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   9%|9         | 329/3500 [17:31<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   9%|9         | 329/3500 [17:31<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.518e-02]wan_dewa:   9%|9         | 329/3500 [17:42<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.123e-02]wan_dewa:   9%|9         | 329/3500 [17:42<2:00:17,  2.28s/it, lr: 2.0e-04 loss: 7.123e-02]wan_dewa:   9%|9         | 330/3500 [17:44<2:00:15,  2.28s/it, lr: 2.0e-04 loss: 8.473e-02]wan_dewa:   9%|9         | 330/3500 [17:44<2:00:15,  2.28s/it, lr: 2.0e-04 loss: 8.473e-02]wan_dewa:   9%|9         | 331/3500 [17:44<1:35:14,  1.80s/it, lr: 2.0e-04 loss: 8.473e-02]wan_dewa:   9%|9         | 331/3500 [17:44<1:35:14,  1.80s/it, lr: 2.0e-04 loss: 8.473e-02]wan_dewa:   9%|9         | 331/3500 [17:47<1:35:14,  1.80s/it, lr: 2.0e-04 loss: 5.764e-02]wan_dewa:   9%|9         | 331/3500 [17:47<1:35:14,  1.80s/it, lr: 2.0e-04 loss: 5.764e-02]wan_dewa:   9%|9         | 332/3500 [17:47<1:41:16,  1.92s/it, lr: 2.0e-04 loss: 5.764e-02]wan_dewa:   9%|9         | 332/3500 [17:47<1:41:16,  1.92s/it, lr: 2.0e-04 loss: 5.764e-02]wan_dewa:   9%|9         | 332/3500 [17:49<1:41:16,  1.92s/it, lr: 2.0e-04 loss: 9.187e-02]wan_dewa:   9%|9         | 332/3500 [17:49<1:41:16,  1.92s/it, lr: 2.0e-04 loss: 9.187e-02]wan_dewa:  10%|9         | 333/3500 [17:49<1:46:10,  2.01s/it, lr: 2.0e-04 loss: 9.187e-02]wan_dewa:  10%|9         | 333/3500 [17:49<1:46:10,  2.01s/it, lr: 2.0e-04 loss: 9.187e-02]wan_dewa:  10%|9         | 333/3500 [17:51<1:46:10,  2.01s/it, lr: 2.0e-04 loss: 5.433e-02]wan_dewa:  10%|9         | 333/3500 [17:51<1:46:10,  2.01s/it, lr: 2.0e-04 loss: 5.433e-02]wan_dewa:  10%|9         | 334/3500 [17:51<1:49:53,  2.08s/it, lr: 2.0e-04 loss: 5.433e-02]wan_dewa:  10%|9         | 334/3500 [17:51<1:49:53,  2.08s/it, lr: 2.0e-04 loss: 5.433e-02]wan_dewa:  10%|9         | 334/3500 [17:53<1:49:53,  2.08s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  10%|9         | 334/3500 [17:53<1:49:53,  2.08s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  10%|9         | 335/3500 [17:53<1:52:39,  2.14s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  10%|9         | 335/3500 [17:53<1:52:39,  2.14s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  10%|9         | 335/3500 [17:56<1:52:39,  2.14s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:  10%|9         | 335/3500 [17:56<1:52:39,  2.14s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:  10%|9         | 336/3500 [17:56<1:54:42,  2.18s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:  10%|9         | 336/3500 [17:56<1:54:42,  2.18s/it, lr: 2.0e-04 loss: 5.202e-02]wan_dewa:  10%|9         | 336/3500 [17:58<1:54:42,  2.18s/it, lr: 2.0e-04 loss: 2.084e-01]wan_dewa:  10%|9         | 336/3500 [17:58<1:54:42,  2.18s/it, lr: 2.0e-04 loss: 2.084e-01]wan_dewa:  10%|9         | 337/3500 [17:58<1:59:10,  2.26s/it, lr: 2.0e-04 loss: 2.084e-01]wan_dewa:  10%|9         | 337/3500 [17:58<1:59:10,  2.26s/it, lr: 2.0e-04 loss: 2.084e-01]wan_dewa:  10%|9         | 337/3500 [18:00<1:59:10,  2.26s/it, lr: 2.0e-04 loss: 8.994e-02]wan_dewa:  10%|9         | 337/3500 [18:00<1:59:10,  2.26s/it, lr: 2.0e-04 loss: 8.994e-02]wan_dewa:  10%|9         | 338/3500 [18:00<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 8.994e-02]wan_dewa:  10%|9         | 338/3500 [18:00<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 8.994e-02]wan_dewa:  10%|9         | 338/3500 [18:03<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  10%|9         | 338/3500 [18:03<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  10%|9         | 339/3500 [18:03<1:59:31,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  10%|9         | 339/3500 [18:03<1:59:31,  2.27s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  10%|9         | 339/3500 [18:14<1:59:31,  2.27s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  10%|9         | 339/3500 [18:14<1:59:31,  2.27s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  10%|9         | 340/3500 [18:16<1:59:29,  2.27s/it, lr: 2.0e-04 loss: 7.612e-02]wan_dewa:  10%|9         | 340/3500 [18:16<1:59:29,  2.27s/it, lr: 2.0e-04 loss: 7.612e-02]wan_dewa:  10%|9         | 341/3500 [18:16<1:32:15,  1.75s/it, lr: 2.0e-04 loss: 7.612e-02]wan_dewa:  10%|9         | 341/3500 [18:16<1:32:15,  1.75s/it, lr: 2.0e-04 loss: 7.612e-02]wan_dewa:  10%|9         | 341/3500 [18:18<1:32:15,  1.75s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  10%|9         | 341/3500 [18:18<1:32:15,  1.75s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  10%|9         | 342/3500 [18:18<1:41:50,  1.93s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  10%|9         | 342/3500 [18:18<1:41:50,  1.93s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  10%|9         | 342/3500 [18:21<1:41:50,  1.93s/it, lr: 2.0e-04 loss: 6.959e-02]wan_dewa:  10%|9         | 342/3500 [18:21<1:41:50,  1.93s/it, lr: 2.0e-04 loss: 6.959e-02]wan_dewa:  10%|9         | 343/3500 [18:21<1:46:34,  2.03s/it, lr: 2.0e-04 loss: 6.959e-02]wan_dewa:  10%|9         | 343/3500 [18:21<1:46:34,  2.03s/it, lr: 2.0e-04 loss: 6.959e-02]wan_dewa:  10%|9         | 343/3500 [18:23<1:46:34,  2.03s/it, lr: 2.0e-04 loss: 3.973e-02]wan_dewa:  10%|9         | 343/3500 [18:23<1:46:34,  2.03s/it, lr: 2.0e-04 loss: 3.973e-02]wan_dewa:  10%|9         | 344/3500 [18:23<1:50:13,  2.10s/it, lr: 2.0e-04 loss: 3.973e-02]wan_dewa:  10%|9         | 344/3500 [18:23<1:50:13,  2.10s/it, lr: 2.0e-04 loss: 3.973e-02]wan_dewa:  10%|9         | 344/3500 [18:25<1:50:13,  2.10s/it, lr: 2.0e-04 loss: 5.755e-02]wan_dewa:  10%|9         | 344/3500 [18:25<1:50:13,  2.10s/it, lr: 2.0e-04 loss: 5.755e-02]wan_dewa:  10%|9         | 345/3500 [18:25<1:52:56,  2.15s/it, lr: 2.0e-04 loss: 5.755e-02]wan_dewa:  10%|9         | 345/3500 [18:25<1:52:56,  2.15s/it, lr: 2.0e-04 loss: 5.755e-02]wan_dewa:  10%|9         | 345/3500 [18:27<1:52:56,  2.15s/it, lr: 2.0e-04 loss: 6.395e-02]wan_dewa:  10%|9         | 345/3500 [18:27<1:52:56,  2.15s/it, lr: 2.0e-04 loss: 6.395e-02]wan_dewa:  10%|9         | 346/3500 [18:27<1:54:56,  2.19s/it, lr: 2.0e-04 loss: 6.395e-02]wan_dewa:  10%|9         | 346/3500 [18:27<1:54:56,  2.19s/it, lr: 2.0e-04 loss: 6.395e-02]wan_dewa:  10%|9         | 346/3500 [18:30<1:54:56,  2.19s/it, lr: 2.0e-04 loss: 1.030e-01]wan_dewa:  10%|9         | 346/3500 [18:30<1:54:56,  2.19s/it, lr: 2.0e-04 loss: 1.030e-01]wan_dewa:  10%|9         | 347/3500 [18:30<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 1.030e-01]wan_dewa:  10%|9         | 347/3500 [18:30<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 1.030e-01]wan_dewa:  10%|9         | 347/3500 [18:32<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  10%|9         | 347/3500 [18:32<1:59:22,  2.27s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  10%|9         | 348/3500 [18:32<1:59:34,  2.28s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  10%|9         | 348/3500 [18:32<1:59:34,  2.28s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  10%|9         | 348/3500 [18:35<1:59:34,  2.28s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  10%|9         | 348/3500 [18:35<1:59:34,  2.28s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  10%|9         | 349/3500 [18:35<1:59:43,  2.28s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  10%|9         | 349/3500 [18:35<1:59:43,  2.28s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  10%|9         | 349/3500 [18:48<1:59:43,  2.28s/it, lr: 2.0e-04 loss: 1.784e-01]wan_dewa:  10%|9         | 349/3500 [18:48<1:59:43,  2.28s/it, lr: 2.0e-04 loss: 1.784e-01]wan_dewa:  10%|#         | 350/3500 [18:50<1:59:41,  2.28s/it, lr: 2.0e-04 loss: 3.384e-01]wan_dewa:  10%|#         | 350/3500 [18:50<1:59:41,  2.28s/it, lr: 2.0e-04 loss: 3.384e-01]wan_dewa:  10%|#         | 351/3500 [18:50<1:36:14,  1.83s/it, lr: 2.0e-04 loss: 3.384e-01]wan_dewa:  10%|#         | 351/3500 [18:50<1:36:14,  1.83s/it, lr: 2.0e-04 loss: 3.384e-01]wan_dewa:  10%|#         | 351/3500 [18:52<1:36:14,  1.83s/it, lr: 2.0e-04 loss: 7.444e-02]wan_dewa:  10%|#         | 351/3500 [18:52<1:36:14,  1.83s/it, lr: 2.0e-04 loss: 7.444e-02]wan_dewa:  10%|#         | 352/3500 [18:52<1:41:57,  1.94s/it, lr: 2.0e-04 loss: 7.444e-02]wan_dewa:  10%|#         | 352/3500 [18:52<1:41:57,  1.94s/it, lr: 2.0e-04 loss: 7.444e-02]wan_dewa:  10%|#         | 352/3500 [18:55<1:41:57,  1.94s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  10%|#         | 352/3500 [18:55<1:41:57,  1.94s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  10%|#         | 353/3500 [18:55<1:46:24,  2.03s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  10%|#         | 353/3500 [18:55<1:46:24,  2.03s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  10%|#         | 353/3500 [18:57<1:46:24,  2.03s/it, lr: 2.0e-04 loss: 7.429e-02]wan_dewa:  10%|#         | 353/3500 [18:57<1:46:24,  2.03s/it, lr: 2.0e-04 loss: 7.429e-02]wan_dewa:  10%|#         | 354/3500 [18:57<1:49:59,  2.10s/it, lr: 2.0e-04 loss: 7.429e-02]wan_dewa:  10%|#         | 354/3500 [18:57<1:49:59,  2.10s/it, lr: 2.0e-04 loss: 7.429e-02]wan_dewa:  10%|#         | 354/3500 [18:59<1:49:59,  2.10s/it, lr: 2.0e-04 loss: 7.148e-02]wan_dewa:  10%|#         | 354/3500 [18:59<1:49:59,  2.10s/it, lr: 2.0e-04 loss: 7.148e-02]wan_dewa:  10%|#         | 355/3500 [18:59<1:52:34,  2.15s/it, lr: 2.0e-04 loss: 7.148e-02]wan_dewa:  10%|#         | 355/3500 [18:59<1:52:34,  2.15s/it, lr: 2.0e-04 loss: 7.148e-02]wan_dewa:  10%|#         | 355/3500 [19:02<1:52:34,  2.15s/it, lr: 2.0e-04 loss: 1.137e-01]wan_dewa:  10%|#         | 355/3500 [19:02<1:52:34,  2.15s/it, lr: 2.0e-04 loss: 1.137e-01]wan_dewa:  10%|#         | 356/3500 [19:02<1:54:32,  2.19s/it, lr: 2.0e-04 loss: 1.137e-01]wan_dewa:  10%|#         | 356/3500 [19:02<1:54:32,  2.19s/it, lr: 2.0e-04 loss: 1.137e-01]wan_dewa:  10%|#         | 356/3500 [19:04<1:54:32,  2.19s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  10%|#         | 356/3500 [19:04<1:54:32,  2.19s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  10%|#         | 357/3500 [19:04<1:58:55,  2.27s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  10%|#         | 357/3500 [19:04<1:58:55,  2.27s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  10%|#         | 357/3500 [19:06<1:58:55,  2.27s/it, lr: 2.0e-04 loss: 3.431e-02]wan_dewa:  10%|#         | 357/3500 [19:06<1:58:55,  2.27s/it, lr: 2.0e-04 loss: 3.431e-02]wan_dewa:  10%|#         | 358/3500 [19:06<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 3.431e-02]wan_dewa:  10%|#         | 358/3500 [19:06<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 3.431e-02]wan_dewa:  10%|#         | 358/3500 [19:09<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 6.518e-02]wan_dewa:  10%|#         | 358/3500 [19:09<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 6.518e-02]wan_dewa:  10%|#         | 359/3500 [19:09<1:59:05,  2.27s/it, lr: 2.0e-04 loss: 6.518e-02]wan_dewa:  10%|#         | 359/3500 [19:09<1:59:05,  2.27s/it, lr: 2.0e-04 loss: 6.518e-02]wan_dewa:  10%|#         | 359/3500 [19:20<1:59:05,  2.27s/it, lr: 2.0e-04 loss: 6.594e-02]wan_dewa:  10%|#         | 359/3500 [19:20<1:59:05,  2.27s/it, lr: 2.0e-04 loss: 6.594e-02]wan_dewa:  10%|#         | 360/3500 [19:22<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  10%|#         | 360/3500 [19:22<1:59:03,  2.27s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  10%|#         | 361/3500 [19:22<1:34:39,  1.81s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  10%|#         | 361/3500 [19:22<1:34:39,  1.81s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  10%|#         | 361/3500 [19:24<1:34:39,  1.81s/it, lr: 2.0e-04 loss: 9.423e-02]wan_dewa:  10%|#         | 361/3500 [19:24<1:34:39,  1.81s/it, lr: 2.0e-04 loss: 9.423e-02]wan_dewa:  10%|#         | 362/3500 [19:24<1:40:36,  1.92s/it, lr: 2.0e-04 loss: 9.423e-02]wan_dewa:  10%|#         | 362/3500 [19:24<1:40:36,  1.92s/it, lr: 2.0e-04 loss: 9.423e-02]wan_dewa:  10%|#         | 362/3500 [19:27<1:40:36,  1.92s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  10%|#         | 362/3500 [19:27<1:40:36,  1.92s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  10%|#         | 363/3500 [19:27<1:45:20,  2.01s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  10%|#         | 363/3500 [19:27<1:45:20,  2.01s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  10%|#         | 363/3500 [19:29<1:45:20,  2.01s/it, lr: 2.0e-04 loss: 8.486e-02]wan_dewa:  10%|#         | 363/3500 [19:29<1:45:20,  2.01s/it, lr: 2.0e-04 loss: 8.486e-02]wan_dewa:  10%|#         | 364/3500 [19:29<1:48:59,  2.09s/it, lr: 2.0e-04 loss: 8.486e-02]wan_dewa:  10%|#         | 364/3500 [19:29<1:48:59,  2.09s/it, lr: 2.0e-04 loss: 8.486e-02]wan_dewa:  10%|#         | 364/3500 [19:31<1:48:59,  2.09s/it, lr: 2.0e-04 loss: 8.260e-02]wan_dewa:  10%|#         | 364/3500 [19:31<1:48:59,  2.09s/it, lr: 2.0e-04 loss: 8.260e-02]wan_dewa:  10%|#         | 365/3500 [19:31<1:51:42,  2.14s/it, lr: 2.0e-04 loss: 8.260e-02]wan_dewa:  10%|#         | 365/3500 [19:31<1:51:42,  2.14s/it, lr: 2.0e-04 loss: 8.260e-02]wan_dewa:  10%|#         | 365/3500 [19:34<1:51:42,  2.14s/it, lr: 2.0e-04 loss: 9.874e-02]wan_dewa:  10%|#         | 365/3500 [19:34<1:51:42,  2.14s/it, lr: 2.0e-04 loss: 9.874e-02]wan_dewa:  10%|#         | 366/3500 [19:34<1:56:48,  2.24s/it, lr: 2.0e-04 loss: 9.874e-02]wan_dewa:  10%|#         | 366/3500 [19:34<1:56:48,  2.24s/it, lr: 2.0e-04 loss: 9.874e-02]wan_dewa:  10%|#         | 366/3500 [19:36<1:56:48,  2.24s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  10%|#         | 366/3500 [19:36<1:56:48,  2.24s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  10%|#         | 367/3500 [19:36<1:57:20,  2.25s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  10%|#         | 367/3500 [19:36<1:57:20,  2.25s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  10%|#         | 367/3500 [19:38<1:57:20,  2.25s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  10%|#         | 367/3500 [19:38<1:57:20,  2.25s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  11%|#         | 368/3500 [19:38<1:57:45,  2.26s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  11%|#         | 368/3500 [19:38<1:57:45,  2.26s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  11%|#         | 368/3500 [19:41<1:57:45,  2.26s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  11%|#         | 368/3500 [19:41<1:57:45,  2.26s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  11%|#         | 369/3500 [19:41<1:58:04,  2.26s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  11%|#         | 369/3500 [19:41<1:58:04,  2.26s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  11%|#         | 369/3500 [19:48<1:58:04,  2.26s/it, lr: 2.0e-04 loss: 1.413e-01]wan_dewa:  11%|#         | 369/3500 [19:48<1:58:04,  2.26s/it, lr: 2.0e-04 loss: 1.413e-01]wan_dewa:  11%|#         | 370/3500 [19:51<1:58:01,  2.26s/it, lr: 2.0e-04 loss: 5.024e-02]wan_dewa:  11%|#         | 370/3500 [19:51<1:58:01,  2.26s/it, lr: 2.0e-04 loss: 5.024e-02]wan_dewa:  11%|#         | 371/3500 [19:51<1:31:14,  1.75s/it, lr: 2.0e-04 loss: 5.024e-02]wan_dewa:  11%|#         | 371/3500 [19:51<1:31:14,  1.75s/it, lr: 2.0e-04 loss: 5.024e-02]wan_dewa:  11%|#         | 371/3500 [19:53<1:31:14,  1.75s/it, lr: 2.0e-04 loss: 1.025e-01]wan_dewa:  11%|#         | 371/3500 [19:53<1:31:14,  1.75s/it, lr: 2.0e-04 loss: 1.025e-01]wan_dewa:  11%|#         | 372/3500 [19:53<1:40:39,  1.93s/it, lr: 2.0e-04 loss: 1.025e-01]wan_dewa:  11%|#         | 372/3500 [19:53<1:40:39,  1.93s/it, lr: 2.0e-04 loss: 1.025e-01]wan_dewa:  11%|#         | 372/3500 [19:55<1:40:39,  1.93s/it, lr: 2.0e-04 loss: 5.125e-02]wan_dewa:  11%|#         | 372/3500 [19:55<1:40:39,  1.93s/it, lr: 2.0e-04 loss: 5.125e-02]wan_dewa:  11%|#         | 373/3500 [19:55<1:45:22,  2.02s/it, lr: 2.0e-04 loss: 5.125e-02]wan_dewa:  11%|#         | 373/3500 [19:55<1:45:22,  2.02s/it, lr: 2.0e-04 loss: 5.125e-02]wan_dewa:  11%|#         | 373/3500 [19:58<1:45:22,  2.02s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  11%|#         | 373/3500 [19:58<1:45:22,  2.02s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  11%|#         | 374/3500 [19:58<1:48:55,  2.09s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  11%|#         | 374/3500 [19:58<1:48:55,  2.09s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  11%|#         | 374/3500 [20:02<1:48:55,  2.09s/it, lr: 2.0e-04 loss: 6.295e-02]wan_dewa:  11%|#         | 374/3500 [20:02<1:48:55,  2.09s/it, lr: 2.0e-04 loss: 6.295e-02]wan_dewa:  11%|#         | 375/3500 [20:02<1:52:07,  2.15s/it, lr: 2.0e-04 loss: 6.295e-02]wan_dewa:  11%|#         | 375/3500 [20:02<1:52:07,  2.15s/it, lr: 2.0e-04 loss: 6.295e-02]wan_dewa:  11%|#         | 375/3500 [20:04<1:52:07,  2.15s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  11%|#         | 375/3500 [20:04<1:52:07,  2.15s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  11%|#         | 376/3500 [20:04<1:53:53,  2.19s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  11%|#         | 376/3500 [20:04<1:53:53,  2.19s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  11%|#         | 376/3500 [20:07<1:53:53,  2.19s/it, lr: 2.0e-04 loss: 5.730e-02]wan_dewa:  11%|#         | 376/3500 [20:07<1:53:53,  2.19s/it, lr: 2.0e-04 loss: 5.730e-02]wan_dewa:  11%|#         | 377/3500 [20:07<2:00:23,  2.31s/it, lr: 2.0e-04 loss: 5.730e-02]wan_dewa:  11%|#         | 377/3500 [20:07<2:00:23,  2.31s/it, lr: 2.0e-04 loss: 5.730e-02]wan_dewa:  11%|#         | 377/3500 [20:09<2:00:23,  2.31s/it, lr: 2.0e-04 loss: 6.480e-02]wan_dewa:  11%|#         | 377/3500 [20:09<2:00:23,  2.31s/it, lr: 2.0e-04 loss: 6.480e-02]wan_dewa:  11%|#         | 378/3500 [20:09<1:59:49,  2.30s/it, lr: 2.0e-04 loss: 6.480e-02]wan_dewa:  11%|#         | 378/3500 [20:09<1:59:49,  2.30s/it, lr: 2.0e-04 loss: 6.480e-02]wan_dewa:  11%|#         | 378/3500 [20:12<1:59:49,  2.30s/it, lr: 2.0e-04 loss: 6.000e-02]wan_dewa:  11%|#         | 378/3500 [20:12<1:59:49,  2.30s/it, lr: 2.0e-04 loss: 6.000e-02]wan_dewa:  11%|#         | 379/3500 [20:12<1:59:29,  2.30s/it, lr: 2.0e-04 loss: 6.000e-02]wan_dewa:  11%|#         | 379/3500 [20:12<1:59:29,  2.30s/it, lr: 2.0e-04 loss: 6.000e-02]wan_dewa:  11%|#         | 379/3500 [20:23<1:59:29,  2.30s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  11%|#         | 379/3500 [20:23<1:59:29,  2.30s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  11%|#         | 380/3500 [20:25<1:59:27,  2.30s/it, lr: 2.0e-04 loss: 8.940e-02]wan_dewa:  11%|#         | 380/3500 [20:25<1:59:27,  2.30s/it, lr: 2.0e-04 loss: 8.940e-02]wan_dewa:  11%|#         | 381/3500 [20:25<1:31:59,  1.77s/it, lr: 2.0e-04 loss: 8.940e-02]wan_dewa:  11%|#         | 381/3500 [20:25<1:31:59,  1.77s/it, lr: 2.0e-04 loss: 8.940e-02]wan_dewa:  11%|#         | 381/3500 [20:27<1:31:59,  1.77s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#         | 381/3500 [20:27<1:31:59,  1.77s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#         | 382/3500 [20:27<1:41:07,  1.95s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#         | 382/3500 [20:27<1:41:07,  1.95s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#         | 382/3500 [20:30<1:41:07,  1.95s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  11%|#         | 382/3500 [20:30<1:41:07,  1.95s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  11%|#         | 383/3500 [20:30<1:45:40,  2.03s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  11%|#         | 383/3500 [20:30<1:45:40,  2.03s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  11%|#         | 383/3500 [20:32<1:45:40,  2.03s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  11%|#         | 383/3500 [20:32<1:45:40,  2.03s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  11%|#         | 384/3500 [20:32<1:49:02,  2.10s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  11%|#         | 384/3500 [20:32<1:49:02,  2.10s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  11%|#         | 384/3500 [20:34<1:49:02,  2.10s/it, lr: 2.0e-04 loss: 9.200e-02]wan_dewa:  11%|#         | 384/3500 [20:34<1:49:02,  2.10s/it, lr: 2.0e-04 loss: 9.200e-02]wan_dewa:  11%|#1        | 385/3500 [20:34<1:51:34,  2.15s/it, lr: 2.0e-04 loss: 9.200e-02]wan_dewa:  11%|#1        | 385/3500 [20:34<1:51:34,  2.15s/it, lr: 2.0e-04 loss: 9.200e-02]wan_dewa:  11%|#1        | 385/3500 [20:37<1:51:34,  2.15s/it, lr: 2.0e-04 loss: 6.785e-02]wan_dewa:  11%|#1        | 385/3500 [20:37<1:51:34,  2.15s/it, lr: 2.0e-04 loss: 6.785e-02]wan_dewa:  11%|#1        | 386/3500 [20:37<1:53:24,  2.19s/it, lr: 2.0e-04 loss: 6.785e-02]wan_dewa:  11%|#1        | 386/3500 [20:37<1:53:24,  2.19s/it, lr: 2.0e-04 loss: 6.785e-02]wan_dewa:  11%|#1        | 386/3500 [20:39<1:53:24,  2.19s/it, lr: 2.0e-04 loss: 6.294e-02]wan_dewa:  11%|#1        | 386/3500 [20:39<1:53:24,  2.19s/it, lr: 2.0e-04 loss: 6.294e-02]wan_dewa:  11%|#1        | 387/3500 [20:39<1:58:08,  2.28s/it, lr: 2.0e-04 loss: 6.294e-02]wan_dewa:  11%|#1        | 387/3500 [20:39<1:58:08,  2.28s/it, lr: 2.0e-04 loss: 6.294e-02]wan_dewa:  11%|#1        | 387/3500 [20:41<1:58:08,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  11%|#1        | 387/3500 [20:41<1:58:08,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  11%|#1        | 388/3500 [20:41<1:58:06,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  11%|#1        | 388/3500 [20:41<1:58:06,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  11%|#1        | 388/3500 [20:44<1:58:06,  2.28s/it, lr: 2.0e-04 loss: 8.351e-02]wan_dewa:  11%|#1        | 388/3500 [20:44<1:58:06,  2.28s/it, lr: 2.0e-04 loss: 8.351e-02]wan_dewa:  11%|#1        | 389/3500 [20:44<1:58:00,  2.28s/it, lr: 2.0e-04 loss: 8.351e-02]wan_dewa:  11%|#1        | 389/3500 [20:44<1:58:00,  2.28s/it, lr: 2.0e-04 loss: 8.351e-02]wan_dewa:  11%|#1        | 389/3500 [20:55<1:58:00,  2.28s/it, lr: 2.0e-04 loss: 2.314e-01]wan_dewa:  11%|#1        | 389/3500 [20:55<1:58:00,  2.28s/it, lr: 2.0e-04 loss: 2.314e-01]wan_dewa:  11%|#1        | 390/3500 [20:57<1:57:58,  2.28s/it, lr: 2.0e-04 loss: 9.843e-02]wan_dewa:  11%|#1        | 390/3500 [20:57<1:57:58,  2.28s/it, lr: 2.0e-04 loss: 9.843e-02]wan_dewa:  11%|#1        | 391/3500 [20:57<1:30:57,  1.76s/it, lr: 2.0e-04 loss: 9.843e-02]wan_dewa:  11%|#1        | 391/3500 [20:57<1:30:57,  1.76s/it, lr: 2.0e-04 loss: 9.843e-02]wan_dewa:  11%|#1        | 391/3500 [21:00<1:30:57,  1.76s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:  11%|#1        | 391/3500 [21:00<1:30:57,  1.76s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:  11%|#1        | 392/3500 [21:00<1:40:19,  1.94s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:  11%|#1        | 392/3500 [21:00<1:40:19,  1.94s/it, lr: 2.0e-04 loss: 8.148e-02]wan_dewa:  11%|#1        | 392/3500 [21:02<1:40:19,  1.94s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#1        | 392/3500 [21:02<1:40:19,  1.94s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#1        | 393/3500 [21:02<1:44:52,  2.03s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#1        | 393/3500 [21:02<1:44:52,  2.03s/it, lr: 2.0e-04 loss: 7.393e-02]wan_dewa:  11%|#1        | 393/3500 [21:04<1:44:52,  2.03s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  11%|#1        | 393/3500 [21:04<1:44:52,  2.03s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  11%|#1        | 394/3500 [21:04<1:48:20,  2.09s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  11%|#1        | 394/3500 [21:04<1:48:20,  2.09s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  11%|#1        | 394/3500 [21:06<1:48:20,  2.09s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  11%|#1        | 394/3500 [21:06<1:48:20,  2.09s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  11%|#1        | 395/3500 [21:06<1:50:58,  2.14s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  11%|#1        | 395/3500 [21:06<1:50:58,  2.14s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  11%|#1        | 395/3500 [21:09<1:50:58,  2.14s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  11%|#1        | 395/3500 [21:09<1:50:58,  2.14s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  11%|#1        | 396/3500 [21:09<1:52:54,  2.18s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  11%|#1        | 396/3500 [21:09<1:52:54,  2.18s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  11%|#1        | 396/3500 [21:11<1:52:54,  2.18s/it, lr: 2.0e-04 loss: 7.898e-02]wan_dewa:  11%|#1        | 396/3500 [21:11<1:52:54,  2.18s/it, lr: 2.0e-04 loss: 7.898e-02]wan_dewa:  11%|#1        | 397/3500 [21:11<1:54:18,  2.21s/it, lr: 2.0e-04 loss: 7.898e-02]wan_dewa:  11%|#1        | 397/3500 [21:11<1:54:18,  2.21s/it, lr: 2.0e-04 loss: 7.898e-02]wan_dewa:  11%|#1        | 397/3500 [21:14<1:54:18,  2.21s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  11%|#1        | 397/3500 [21:14<1:54:18,  2.21s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  11%|#1        | 398/3500 [21:14<1:58:30,  2.29s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  11%|#1        | 398/3500 [21:14<1:58:30,  2.29s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  11%|#1        | 398/3500 [21:16<1:58:30,  2.29s/it, lr: 2.0e-04 loss: 8.184e-02]wan_dewa:  11%|#1        | 398/3500 [21:16<1:58:30,  2.29s/it, lr: 2.0e-04 loss: 8.184e-02]wan_dewa:  11%|#1        | 399/3500 [21:16<1:58:16,  2.29s/it, lr: 2.0e-04 loss: 8.184e-02]wan_dewa:  11%|#1        | 399/3500 [21:16<1:58:16,  2.29s/it, lr: 2.0e-04 loss: 8.184e-02]wan_dewa:  11%|#1        | 399/3500 [21:29<1:58:16,  2.29s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  11%|#1        | 399/3500 [21:29<1:58:16,  2.29s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  11%|#1        | 400/3500 [21:31<1:58:13,  2.29s/it, lr: 2.0e-04 loss: 2.984e-02]wan_dewa:  11%|#1        | 400/3500 [21:31<1:58:13,  2.29s/it, lr: 2.0e-04 loss: 2.984e-02]wan_dewa:  11%|#1        | 401/3500 [21:31<1:31:10,  1.77s/it, lr: 2.0e-04 loss: 2.984e-02]wan_dewa:  11%|#1        | 401/3500 [21:31<1:31:10,  1.77s/it, lr: 2.0e-04 loss: 2.984e-02]wan_dewa:  11%|#1        | 401/3500 [21:33<1:31:10,  1.77s/it, lr: 2.0e-04 loss: 6.403e-02]wan_dewa:  11%|#1        | 401/3500 [21:33<1:31:10,  1.77s/it, lr: 2.0e-04 loss: 6.403e-02]wan_dewa:  11%|#1        | 402/3500 [21:33<1:37:31,  1.89s/it, lr: 2.0e-04 loss: 6.403e-02]wan_dewa:  11%|#1        | 402/3500 [21:33<1:37:31,  1.89s/it, lr: 2.0e-04 loss: 6.403e-02]wan_dewa:  11%|#1        | 402/3500 [21:36<1:37:31,  1.89s/it, lr: 2.0e-04 loss: 5.799e-02]wan_dewa:  11%|#1        | 402/3500 [21:36<1:37:31,  1.89s/it, lr: 2.0e-04 loss: 5.799e-02]wan_dewa:  12%|#1        | 403/3500 [21:36<1:47:00,  2.07s/it, lr: 2.0e-04 loss: 5.799e-02]wan_dewa:  12%|#1        | 403/3500 [21:36<1:47:00,  2.07s/it, lr: 2.0e-04 loss: 5.799e-02]wan_dewa:  12%|#1        | 403/3500 [21:38<1:47:00,  2.07s/it, lr: 2.0e-04 loss: 8.472e-02]wan_dewa:  12%|#1        | 403/3500 [21:38<1:47:00,  2.07s/it, lr: 2.0e-04 loss: 8.472e-02]wan_dewa:  12%|#1        | 404/3500 [21:38<1:49:44,  2.13s/it, lr: 2.0e-04 loss: 8.472e-02]wan_dewa:  12%|#1        | 404/3500 [21:38<1:49:44,  2.13s/it, lr: 2.0e-04 loss: 8.472e-02]wan_dewa:  12%|#1        | 404/3500 [21:40<1:49:44,  2.13s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  12%|#1        | 404/3500 [21:40<1:49:44,  2.13s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  12%|#1        | 405/3500 [21:40<1:51:46,  2.17s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  12%|#1        | 405/3500 [21:40<1:51:46,  2.17s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  12%|#1        | 405/3500 [21:43<1:51:46,  2.17s/it, lr: 2.0e-04 loss: 4.612e-02]wan_dewa:  12%|#1        | 405/3500 [21:43<1:51:46,  2.17s/it, lr: 2.0e-04 loss: 4.612e-02]wan_dewa:  12%|#1        | 406/3500 [21:43<1:53:20,  2.20s/it, lr: 2.0e-04 loss: 4.612e-02]wan_dewa:  12%|#1        | 406/3500 [21:43<1:53:20,  2.20s/it, lr: 2.0e-04 loss: 4.612e-02]wan_dewa:  12%|#1        | 406/3500 [21:45<1:53:20,  2.20s/it, lr: 2.0e-04 loss: 7.404e-02]wan_dewa:  12%|#1        | 406/3500 [21:45<1:53:20,  2.20s/it, lr: 2.0e-04 loss: 7.404e-02]wan_dewa:  12%|#1        | 407/3500 [21:45<1:54:28,  2.22s/it, lr: 2.0e-04 loss: 7.404e-02]wan_dewa:  12%|#1        | 407/3500 [21:45<1:54:28,  2.22s/it, lr: 2.0e-04 loss: 7.404e-02]wan_dewa:  12%|#1        | 407/3500 [21:47<1:54:28,  2.22s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  12%|#1        | 407/3500 [21:47<1:54:28,  2.22s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  12%|#1        | 408/3500 [21:47<1:58:12,  2.29s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  12%|#1        | 408/3500 [21:47<1:58:12,  2.29s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  12%|#1        | 408/3500 [21:50<1:58:12,  2.29s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  12%|#1        | 408/3500 [21:50<1:58:12,  2.29s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  12%|#1        | 409/3500 [21:50<1:57:57,  2.29s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  12%|#1        | 409/3500 [21:50<1:57:57,  2.29s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  12%|#1        | 409/3500 [22:01<1:57:57,  2.29s/it, lr: 2.0e-04 loss: 5.412e-02]wan_dewa:  12%|#1        | 409/3500 [22:01<1:57:57,  2.29s/it, lr: 2.0e-04 loss: 5.412e-02]wan_dewa:  12%|#1        | 410/3500 [22:03<1:57:55,  2.29s/it, lr: 2.0e-04 loss: 7.947e-02]wan_dewa:  12%|#1        | 410/3500 [22:03<1:57:55,  2.29s/it, lr: 2.0e-04 loss: 7.947e-02]wan_dewa:  12%|#1        | 411/3500 [22:03<1:30:51,  1.76s/it, lr: 2.0e-04 loss: 7.947e-02]wan_dewa:  12%|#1        | 411/3500 [22:03<1:30:51,  1.76s/it, lr: 2.0e-04 loss: 7.947e-02]wan_dewa:  12%|#1        | 411/3500 [22:05<1:30:51,  1.76s/it, lr: 2.0e-04 loss: 1.120e-01]wan_dewa:  12%|#1        | 411/3500 [22:05<1:30:51,  1.76s/it, lr: 2.0e-04 loss: 1.120e-01]wan_dewa:  12%|#1        | 412/3500 [22:05<1:39:48,  1.94s/it, lr: 2.0e-04 loss: 1.120e-01]wan_dewa:  12%|#1        | 412/3500 [22:05<1:39:48,  1.94s/it, lr: 2.0e-04 loss: 1.120e-01]wan_dewa:  12%|#1        | 412/3500 [22:08<1:39:48,  1.94s/it, lr: 2.0e-04 loss: 9.481e-02]wan_dewa:  12%|#1        | 412/3500 [22:08<1:39:48,  1.94s/it, lr: 2.0e-04 loss: 9.481e-02]wan_dewa:  12%|#1        | 413/3500 [22:08<1:44:19,  2.03s/it, lr: 2.0e-04 loss: 9.481e-02]wan_dewa:  12%|#1        | 413/3500 [22:08<1:44:19,  2.03s/it, lr: 2.0e-04 loss: 9.481e-02]wan_dewa:  12%|#1        | 413/3500 [22:10<1:44:19,  2.03s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  12%|#1        | 413/3500 [22:10<1:44:19,  2.03s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  12%|#1        | 414/3500 [22:10<1:47:49,  2.10s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  12%|#1        | 414/3500 [22:10<1:47:49,  2.10s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  12%|#1        | 414/3500 [22:12<1:47:49,  2.10s/it, lr: 2.0e-04 loss: 3.977e-02]wan_dewa:  12%|#1        | 414/3500 [22:12<1:47:49,  2.10s/it, lr: 2.0e-04 loss: 3.977e-02]wan_dewa:  12%|#1        | 415/3500 [22:12<1:50:26,  2.15s/it, lr: 2.0e-04 loss: 3.977e-02]wan_dewa:  12%|#1        | 415/3500 [22:12<1:50:26,  2.15s/it, lr: 2.0e-04 loss: 3.977e-02]wan_dewa:  12%|#1        | 415/3500 [22:15<1:50:26,  2.15s/it, lr: 2.0e-04 loss: 9.444e-02]wan_dewa:  12%|#1        | 415/3500 [22:15<1:50:26,  2.15s/it, lr: 2.0e-04 loss: 9.444e-02]wan_dewa:  12%|#1        | 416/3500 [22:15<1:52:23,  2.19s/it, lr: 2.0e-04 loss: 9.444e-02]wan_dewa:  12%|#1        | 416/3500 [22:15<1:52:23,  2.19s/it, lr: 2.0e-04 loss: 9.444e-02]wan_dewa:  12%|#1        | 416/3500 [22:17<1:52:23,  2.19s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:  12%|#1        | 416/3500 [22:17<1:52:23,  2.19s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:  12%|#1        | 417/3500 [22:17<1:53:47,  2.21s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:  12%|#1        | 417/3500 [22:17<1:53:47,  2.21s/it, lr: 2.0e-04 loss: 1.118e-01]wan_dewa:  12%|#1        | 417/3500 [22:19<1:53:47,  2.21s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  12%|#1        | 417/3500 [22:19<1:53:47,  2.21s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  12%|#1        | 418/3500 [22:19<1:57:52,  2.29s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  12%|#1        | 418/3500 [22:19<1:57:52,  2.29s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  12%|#1        | 418/3500 [22:22<1:57:52,  2.29s/it, lr: 2.0e-04 loss: 2.005e-01]wan_dewa:  12%|#1        | 418/3500 [22:22<1:57:52,  2.29s/it, lr: 2.0e-04 loss: 2.005e-01]wan_dewa:  12%|#1        | 419/3500 [22:22<1:57:42,  2.29s/it, lr: 2.0e-04 loss: 2.005e-01]wan_dewa:  12%|#1        | 419/3500 [22:22<1:57:42,  2.29s/it, lr: 2.0e-04 loss: 2.005e-01]wan_dewa:  12%|#1        | 419/3500 [22:30<1:57:42,  2.29s/it, lr: 2.0e-04 loss: 6.965e-02]wan_dewa:  12%|#1        | 419/3500 [22:30<1:57:42,  2.29s/it, lr: 2.0e-04 loss: 6.965e-02]wan_dewa:  12%|#2        | 420/3500 [22:32<1:57:39,  2.29s/it, lr: 2.0e-04 loss: 7.082e-02]wan_dewa:  12%|#2        | 420/3500 [22:32<1:57:39,  2.29s/it, lr: 2.0e-04 loss: 7.082e-02]wan_dewa:  12%|#2        | 421/3500 [22:32<1:30:30,  1.76s/it, lr: 2.0e-04 loss: 7.082e-02]wan_dewa:  12%|#2        | 421/3500 [22:32<1:30:30,  1.76s/it, lr: 2.0e-04 loss: 7.082e-02]wan_dewa:  12%|#2        | 421/3500 [22:34<1:30:30,  1.76s/it, lr: 2.0e-04 loss: 7.876e-02]wan_dewa:  12%|#2        | 421/3500 [22:34<1:30:30,  1.76s/it, lr: 2.0e-04 loss: 7.876e-02]wan_dewa:  12%|#2        | 422/3500 [22:34<1:39:52,  1.95s/it, lr: 2.0e-04 loss: 7.876e-02]wan_dewa:  12%|#2        | 422/3500 [22:34<1:39:52,  1.95s/it, lr: 2.0e-04 loss: 7.876e-02]wan_dewa:  12%|#2        | 422/3500 [22:37<1:39:52,  1.95s/it, lr: 2.0e-04 loss: 7.585e-02]wan_dewa:  12%|#2        | 422/3500 [22:37<1:39:52,  1.95s/it, lr: 2.0e-04 loss: 7.585e-02]wan_dewa:  12%|#2        | 423/3500 [22:37<1:44:12,  2.03s/it, lr: 2.0e-04 loss: 7.585e-02]wan_dewa:  12%|#2        | 423/3500 [22:37<1:44:12,  2.03s/it, lr: 2.0e-04 loss: 7.585e-02]wan_dewa:  12%|#2        | 423/3500 [22:39<1:44:12,  2.03s/it, lr: 2.0e-04 loss: 3.218e-02]wan_dewa:  12%|#2        | 423/3500 [22:39<1:44:12,  2.03s/it, lr: 2.0e-04 loss: 3.218e-02]wan_dewa:  12%|#2        | 424/3500 [22:39<1:47:31,  2.10s/it, lr: 2.0e-04 loss: 3.218e-02]wan_dewa:  12%|#2        | 424/3500 [22:39<1:47:31,  2.10s/it, lr: 2.0e-04 loss: 3.218e-02]wan_dewa:  12%|#2        | 424/3500 [22:43<1:47:31,  2.10s/it, lr: 2.0e-04 loss: 6.299e-02]wan_dewa:  12%|#2        | 424/3500 [22:43<1:47:31,  2.10s/it, lr: 2.0e-04 loss: 6.299e-02]wan_dewa:  12%|#2        | 425/3500 [22:43<1:50:27,  2.16s/it, lr: 2.0e-04 loss: 6.299e-02]wan_dewa:  12%|#2        | 425/3500 [22:43<1:50:27,  2.16s/it, lr: 2.0e-04 loss: 6.299e-02]wan_dewa:  12%|#2        | 425/3500 [22:46<1:50:27,  2.16s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  12%|#2        | 425/3500 [22:46<1:50:27,  2.16s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  12%|#2        | 426/3500 [22:46<1:52:14,  2.19s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  12%|#2        | 426/3500 [22:46<1:52:14,  2.19s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  12%|#2        | 426/3500 [22:48<1:52:14,  2.19s/it, lr: 2.0e-04 loss: 3.805e-02]wan_dewa:  12%|#2        | 426/3500 [22:48<1:52:14,  2.19s/it, lr: 2.0e-04 loss: 3.805e-02]wan_dewa:  12%|#2        | 427/3500 [22:48<1:58:37,  2.32s/it, lr: 2.0e-04 loss: 3.805e-02]wan_dewa:  12%|#2        | 427/3500 [22:48<1:58:37,  2.32s/it, lr: 2.0e-04 loss: 3.805e-02]wan_dewa:  12%|#2        | 427/3500 [22:51<1:58:37,  2.32s/it, lr: 2.0e-04 loss: 5.831e-02]wan_dewa:  12%|#2        | 427/3500 [22:51<1:58:37,  2.32s/it, lr: 2.0e-04 loss: 5.831e-02]wan_dewa:  12%|#2        | 428/3500 [22:51<1:57:54,  2.30s/it, lr: 2.0e-04 loss: 5.831e-02]wan_dewa:  12%|#2        | 428/3500 [22:51<1:57:54,  2.30s/it, lr: 2.0e-04 loss: 5.831e-02]wan_dewa:  12%|#2        | 428/3500 [22:53<1:57:54,  2.30s/it, lr: 2.0e-04 loss: 7.052e-02]wan_dewa:  12%|#2        | 428/3500 [22:53<1:57:54,  2.30s/it, lr: 2.0e-04 loss: 7.052e-02]wan_dewa:  12%|#2        | 429/3500 [22:53<1:57:26,  2.29s/it, lr: 2.0e-04 loss: 7.052e-02]wan_dewa:  12%|#2        | 429/3500 [22:53<1:57:26,  2.29s/it, lr: 2.0e-04 loss: 7.052e-02]wan_dewa:  12%|#2        | 429/3500 [23:04<1:57:26,  2.29s/it, lr: 2.0e-04 loss: 4.496e-02]wan_dewa:  12%|#2        | 429/3500 [23:04<1:57:26,  2.29s/it, lr: 2.0e-04 loss: 4.496e-02]wan_dewa:  12%|#2        | 430/3500 [23:06<1:57:24,  2.29s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:  12%|#2        | 430/3500 [23:06<1:57:24,  2.29s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:  12%|#2        | 431/3500 [23:06<1:30:21,  1.77s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:  12%|#2        | 431/3500 [23:06<1:30:21,  1.77s/it, lr: 2.0e-04 loss: 7.401e-02]wan_dewa:  12%|#2        | 431/3500 [23:08<1:30:21,  1.77s/it, lr: 2.0e-04 loss: 1.229e-01]wan_dewa:  12%|#2        | 431/3500 [23:08<1:30:21,  1.77s/it, lr: 2.0e-04 loss: 1.229e-01]wan_dewa:  12%|#2        | 432/3500 [23:08<1:36:44,  1.89s/it, lr: 2.0e-04 loss: 1.229e-01]wan_dewa:  12%|#2        | 432/3500 [23:08<1:36:44,  1.89s/it, lr: 2.0e-04 loss: 1.229e-01]wan_dewa:  12%|#2        | 432/3500 [23:11<1:36:44,  1.89s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  12%|#2        | 432/3500 [23:11<1:36:44,  1.89s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  12%|#2        | 433/3500 [23:11<1:44:48,  2.05s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  12%|#2        | 433/3500 [23:11<1:44:48,  2.05s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  12%|#2        | 433/3500 [23:13<1:44:48,  2.05s/it, lr: 2.0e-04 loss: 6.158e-02]wan_dewa:  12%|#2        | 433/3500 [23:13<1:44:48,  2.05s/it, lr: 2.0e-04 loss: 6.158e-02]wan_dewa:  12%|#2        | 434/3500 [23:13<1:47:53,  2.11s/it, lr: 2.0e-04 loss: 6.158e-02]wan_dewa:  12%|#2        | 434/3500 [23:13<1:47:53,  2.11s/it, lr: 2.0e-04 loss: 6.158e-02]wan_dewa:  12%|#2        | 434/3500 [23:16<1:47:53,  2.11s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  12%|#2        | 434/3500 [23:16<1:47:53,  2.11s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  12%|#2        | 435/3500 [23:16<1:50:13,  2.16s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  12%|#2        | 435/3500 [23:16<1:50:13,  2.16s/it, lr: 2.0e-04 loss: 7.090e-02]wan_dewa:  12%|#2        | 435/3500 [23:18<1:50:13,  2.16s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  12%|#2        | 435/3500 [23:18<1:50:13,  2.16s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  12%|#2        | 436/3500 [23:18<1:52:01,  2.19s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  12%|#2        | 436/3500 [23:18<1:52:01,  2.19s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  12%|#2        | 436/3500 [23:20<1:52:01,  2.19s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  12%|#2        | 436/3500 [23:20<1:52:01,  2.19s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  12%|#2        | 437/3500 [23:20<1:53:14,  2.22s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  12%|#2        | 437/3500 [23:20<1:53:14,  2.22s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  12%|#2        | 437/3500 [23:23<1:53:14,  2.22s/it, lr: 2.0e-04 loss: 1.843e-01]wan_dewa:  12%|#2        | 437/3500 [23:23<1:53:14,  2.22s/it, lr: 2.0e-04 loss: 1.843e-01]wan_dewa:  13%|#2        | 438/3500 [23:23<1:57:43,  2.31s/it, lr: 2.0e-04 loss: 1.843e-01]wan_dewa:  13%|#2        | 438/3500 [23:23<1:57:43,  2.31s/it, lr: 2.0e-04 loss: 1.843e-01]wan_dewa:  13%|#2        | 438/3500 [23:25<1:57:43,  2.31s/it, lr: 2.0e-04 loss: 1.465e-01]wan_dewa:  13%|#2        | 438/3500 [23:25<1:57:43,  2.31s/it, lr: 2.0e-04 loss: 1.465e-01]wan_dewa:  13%|#2        | 439/3500 [23:25<1:57:19,  2.30s/it, lr: 2.0e-04 loss: 1.465e-01]wan_dewa:  13%|#2        | 439/3500 [23:25<1:57:19,  2.30s/it, lr: 2.0e-04 loss: 1.465e-01]wan_dewa:  13%|#2        | 439/3500 [23:36<1:57:19,  2.30s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  13%|#2        | 439/3500 [23:36<1:57:19,  2.30s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  13%|#2        | 440/3500 [23:38<1:57:16,  2.30s/it, lr: 2.0e-04 loss: 5.893e-02]wan_dewa:  13%|#2        | 440/3500 [23:38<1:57:16,  2.30s/it, lr: 2.0e-04 loss: 5.893e-02]wan_dewa:  13%|#2        | 441/3500 [23:38<1:30:15,  1.77s/it, lr: 2.0e-04 loss: 5.893e-02]wan_dewa:  13%|#2        | 441/3500 [23:38<1:30:15,  1.77s/it, lr: 2.0e-04 loss: 5.893e-02]wan_dewa:  13%|#2        | 441/3500 [23:40<1:30:15,  1.77s/it, lr: 2.0e-04 loss: 8.533e-02]wan_dewa:  13%|#2        | 441/3500 [23:40<1:30:15,  1.77s/it, lr: 2.0e-04 loss: 8.533e-02]wan_dewa:  13%|#2        | 442/3500 [23:40<1:36:36,  1.90s/it, lr: 2.0e-04 loss: 8.533e-02]wan_dewa:  13%|#2        | 442/3500 [23:40<1:36:36,  1.90s/it, lr: 2.0e-04 loss: 8.533e-02]wan_dewa:  13%|#2        | 442/3500 [23:43<1:36:36,  1.90s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  13%|#2        | 442/3500 [23:43<1:36:36,  1.90s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  13%|#2        | 443/3500 [23:43<1:44:42,  2.06s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  13%|#2        | 443/3500 [23:43<1:44:42,  2.06s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  13%|#2        | 443/3500 [23:45<1:44:42,  2.06s/it, lr: 2.0e-04 loss: 8.644e-02]wan_dewa:  13%|#2        | 443/3500 [23:45<1:44:42,  2.06s/it, lr: 2.0e-04 loss: 8.644e-02]wan_dewa:  13%|#2        | 444/3500 [23:45<1:47:46,  2.12s/it, lr: 2.0e-04 loss: 8.644e-02]wan_dewa:  13%|#2        | 444/3500 [23:45<1:47:46,  2.12s/it, lr: 2.0e-04 loss: 8.644e-02]wan_dewa:  13%|#2        | 444/3500 [23:47<1:47:46,  2.12s/it, lr: 2.0e-04 loss: 7.910e-02]wan_dewa:  13%|#2        | 444/3500 [23:47<1:47:46,  2.12s/it, lr: 2.0e-04 loss: 7.910e-02]wan_dewa:  13%|#2        | 445/3500 [23:47<1:50:04,  2.16s/it, lr: 2.0e-04 loss: 7.910e-02]wan_dewa:  13%|#2        | 445/3500 [23:47<1:50:04,  2.16s/it, lr: 2.0e-04 loss: 7.910e-02]wan_dewa:  13%|#2        | 445/3500 [23:50<1:50:04,  2.16s/it, lr: 2.0e-04 loss: 6.484e-02]wan_dewa:  13%|#2        | 445/3500 [23:50<1:50:04,  2.16s/it, lr: 2.0e-04 loss: 6.484e-02]wan_dewa:  13%|#2        | 446/3500 [23:50<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 6.484e-02]wan_dewa:  13%|#2        | 446/3500 [23:50<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 6.484e-02]wan_dewa:  13%|#2        | 446/3500 [23:52<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 8.255e-02]wan_dewa:  13%|#2        | 446/3500 [23:52<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 8.255e-02]wan_dewa:  13%|#2        | 447/3500 [23:52<1:53:03,  2.22s/it, lr: 2.0e-04 loss: 8.255e-02]wan_dewa:  13%|#2        | 447/3500 [23:52<1:53:03,  2.22s/it, lr: 2.0e-04 loss: 8.255e-02]wan_dewa:  13%|#2        | 447/3500 [23:54<1:53:03,  2.22s/it, lr: 2.0e-04 loss: 9.363e-02]wan_dewa:  13%|#2        | 447/3500 [23:54<1:53:03,  2.22s/it, lr: 2.0e-04 loss: 9.363e-02]wan_dewa:  13%|#2        | 448/3500 [23:54<1:57:22,  2.31s/it, lr: 2.0e-04 loss: 9.363e-02]wan_dewa:  13%|#2        | 448/3500 [23:54<1:57:22,  2.31s/it, lr: 2.0e-04 loss: 9.363e-02]wan_dewa:  13%|#2        | 448/3500 [23:57<1:57:22,  2.31s/it, lr: 2.0e-04 loss: 3.705e-02]wan_dewa:  13%|#2        | 448/3500 [23:57<1:57:22,  2.31s/it, lr: 2.0e-04 loss: 3.705e-02]wan_dewa:  13%|#2        | 449/3500 [23:57<1:56:57,  2.30s/it, lr: 2.0e-04 loss: 3.705e-02]wan_dewa:  13%|#2        | 449/3500 [23:57<1:56:57,  2.30s/it, lr: 2.0e-04 loss: 3.705e-02]wan_dewa:  13%|#2        | 449/3500 [24:10<1:56:57,  2.30s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:  13%|#2        | 449/3500 [24:10<1:56:57,  2.30s/it, lr: 2.0e-04 loss: 1.078e-01]wan_dewa:  13%|#2        | 450/3500 [24:12<1:56:55,  2.30s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  13%|#2        | 450/3500 [24:12<1:56:55,  2.30s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  13%|#2        | 451/3500 [24:12<1:29:59,  1.77s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  13%|#2        | 451/3500 [24:12<1:29:59,  1.77s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  13%|#2        | 451/3500 [24:14<1:29:59,  1.77s/it, lr: 2.0e-04 loss: 7.502e-02]wan_dewa:  13%|#2        | 451/3500 [24:14<1:29:59,  1.77s/it, lr: 2.0e-04 loss: 7.502e-02]wan_dewa:  13%|#2        | 452/3500 [24:14<1:36:16,  1.90s/it, lr: 2.0e-04 loss: 7.502e-02]wan_dewa:  13%|#2        | 452/3500 [24:14<1:36:16,  1.90s/it, lr: 2.0e-04 loss: 7.502e-02]wan_dewa:  13%|#2        | 452/3500 [24:17<1:36:16,  1.90s/it, lr: 2.0e-04 loss: 2.151e-01]wan_dewa:  13%|#2        | 452/3500 [24:17<1:36:16,  1.90s/it, lr: 2.0e-04 loss: 2.151e-01]wan_dewa:  13%|#2        | 453/3500 [24:17<1:45:37,  2.08s/it, lr: 2.0e-04 loss: 2.151e-01]wan_dewa:  13%|#2        | 453/3500 [24:17<1:45:37,  2.08s/it, lr: 2.0e-04 loss: 2.151e-01]wan_dewa:  13%|#2        | 453/3500 [24:19<1:45:37,  2.08s/it, lr: 2.0e-04 loss: 6.673e-02]wan_dewa:  13%|#2        | 453/3500 [24:19<1:45:37,  2.08s/it, lr: 2.0e-04 loss: 6.673e-02]wan_dewa:  13%|#2        | 454/3500 [24:19<1:48:17,  2.13s/it, lr: 2.0e-04 loss: 6.673e-02]wan_dewa:  13%|#2        | 454/3500 [24:19<1:48:17,  2.13s/it, lr: 2.0e-04 loss: 6.673e-02]wan_dewa:  13%|#2        | 454/3500 [24:22<1:48:17,  2.13s/it, lr: 2.0e-04 loss: 1.036e-01]wan_dewa:  13%|#2        | 454/3500 [24:22<1:48:17,  2.13s/it, lr: 2.0e-04 loss: 1.036e-01]wan_dewa:  13%|#3        | 455/3500 [24:22<1:50:17,  2.17s/it, lr: 2.0e-04 loss: 1.036e-01]wan_dewa:  13%|#3        | 455/3500 [24:22<1:50:17,  2.17s/it, lr: 2.0e-04 loss: 1.036e-01]wan_dewa:  13%|#3        | 455/3500 [24:24<1:50:17,  2.17s/it, lr: 2.0e-04 loss: 4.869e-02]wan_dewa:  13%|#3        | 455/3500 [24:24<1:50:17,  2.17s/it, lr: 2.0e-04 loss: 4.869e-02]wan_dewa:  13%|#3        | 456/3500 [24:24<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 4.869e-02]wan_dewa:  13%|#3        | 456/3500 [24:24<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 4.869e-02]wan_dewa:  13%|#3        | 456/3500 [24:26<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 2.634e-01]wan_dewa:  13%|#3        | 456/3500 [24:26<1:51:48,  2.20s/it, lr: 2.0e-04 loss: 2.634e-01]wan_dewa:  13%|#3        | 457/3500 [24:26<1:52:51,  2.23s/it, lr: 2.0e-04 loss: 2.634e-01]wan_dewa:  13%|#3        | 457/3500 [24:26<1:52:51,  2.23s/it, lr: 2.0e-04 loss: 2.634e-01]wan_dewa:  13%|#3        | 457/3500 [24:28<1:52:51,  2.23s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  13%|#3        | 457/3500 [24:28<1:52:51,  2.23s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  13%|#3        | 458/3500 [24:28<1:53:36,  2.24s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  13%|#3        | 458/3500 [24:28<1:53:36,  2.24s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  13%|#3        | 458/3500 [24:31<1:53:36,  2.24s/it, lr: 2.0e-04 loss: 9.289e-02]wan_dewa:  13%|#3        | 458/3500 [24:31<1:53:36,  2.24s/it, lr: 2.0e-04 loss: 9.289e-02]wan_dewa:  13%|#3        | 459/3500 [24:31<1:57:08,  2.31s/it, lr: 2.0e-04 loss: 9.289e-02]wan_dewa:  13%|#3        | 459/3500 [24:31<1:57:08,  2.31s/it, lr: 2.0e-04 loss: 9.289e-02]wan_dewa:  13%|#3        | 459/3500 [24:42<1:57:08,  2.31s/it, lr: 2.0e-04 loss: 7.639e-02]wan_dewa:  13%|#3        | 459/3500 [24:42<1:57:08,  2.31s/it, lr: 2.0e-04 loss: 7.639e-02]wan_dewa:  13%|#3        | 460/3500 [24:44<1:57:05,  2.31s/it, lr: 2.0e-04 loss: 7.822e-02]wan_dewa:  13%|#3        | 460/3500 [24:44<1:57:05,  2.31s/it, lr: 2.0e-04 loss: 7.822e-02]wan_dewa:  13%|#3        | 461/3500 [24:44<1:29:49,  1.77s/it, lr: 2.0e-04 loss: 7.822e-02]wan_dewa:  13%|#3        | 461/3500 [24:44<1:29:49,  1.77s/it, lr: 2.0e-04 loss: 7.822e-02]wan_dewa:  13%|#3        | 461/3500 [24:46<1:29:49,  1.77s/it, lr: 2.0e-04 loss: 6.160e-02]wan_dewa:  13%|#3        | 461/3500 [24:46<1:29:49,  1.77s/it, lr: 2.0e-04 loss: 6.160e-02]wan_dewa:  13%|#3        | 462/3500 [24:46<1:35:59,  1.90s/it, lr: 2.0e-04 loss: 6.160e-02]wan_dewa:  13%|#3        | 462/3500 [24:46<1:35:59,  1.90s/it, lr: 2.0e-04 loss: 6.160e-02]wan_dewa:  13%|#3        | 462/3500 [24:49<1:35:59,  1.90s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  13%|#3        | 462/3500 [24:49<1:35:59,  1.90s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  13%|#3        | 463/3500 [24:49<1:40:52,  1.99s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  13%|#3        | 463/3500 [24:49<1:40:52,  1.99s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  13%|#3        | 463/3500 [24:51<1:40:52,  1.99s/it, lr: 2.0e-04 loss: 6.639e-02]wan_dewa:  13%|#3        | 463/3500 [24:51<1:40:52,  1.99s/it, lr: 2.0e-04 loss: 6.639e-02]wan_dewa:  13%|#3        | 464/3500 [24:51<1:47:23,  2.12s/it, lr: 2.0e-04 loss: 6.639e-02]wan_dewa:  13%|#3        | 464/3500 [24:51<1:47:23,  2.12s/it, lr: 2.0e-04 loss: 6.639e-02]wan_dewa:  13%|#3        | 464/3500 [24:53<1:47:23,  2.12s/it, lr: 2.0e-04 loss: 1.116e-01]wan_dewa:  13%|#3        | 464/3500 [24:53<1:47:23,  2.12s/it, lr: 2.0e-04 loss: 1.116e-01]wan_dewa:  13%|#3        | 465/3500 [24:53<1:49:29,  2.16s/it, lr: 2.0e-04 loss: 1.116e-01]wan_dewa:  13%|#3        | 465/3500 [24:53<1:49:29,  2.16s/it, lr: 2.0e-04 loss: 1.116e-01]wan_dewa:  13%|#3        | 465/3500 [24:56<1:49:29,  2.16s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  13%|#3        | 465/3500 [24:56<1:49:29,  2.16s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  13%|#3        | 466/3500 [24:56<1:51:00,  2.20s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  13%|#3        | 466/3500 [24:56<1:51:00,  2.20s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  13%|#3        | 466/3500 [24:58<1:51:00,  2.20s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  13%|#3        | 466/3500 [24:58<1:51:00,  2.20s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  13%|#3        | 467/3500 [24:58<1:52:05,  2.22s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  13%|#3        | 467/3500 [24:58<1:52:05,  2.22s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  13%|#3        | 467/3500 [25:00<1:52:05,  2.22s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  13%|#3        | 467/3500 [25:00<1:52:05,  2.22s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  13%|#3        | 468/3500 [25:00<1:52:54,  2.23s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  13%|#3        | 468/3500 [25:00<1:52:54,  2.23s/it, lr: 2.0e-04 loss: 6.787e-02]wan_dewa:  13%|#3        | 468/3500 [25:03<1:52:54,  2.23s/it, lr: 2.0e-04 loss: 8.411e-02]wan_dewa:  13%|#3        | 468/3500 [25:03<1:52:54,  2.23s/it, lr: 2.0e-04 loss: 8.411e-02]wan_dewa:  13%|#3        | 469/3500 [25:03<1:56:17,  2.30s/it, lr: 2.0e-04 loss: 8.411e-02]wan_dewa:  13%|#3        | 469/3500 [25:03<1:56:17,  2.30s/it, lr: 2.0e-04 loss: 8.411e-02]wan_dewa:  13%|#3        | 469/3500 [25:11<1:56:17,  2.30s/it, lr: 2.0e-04 loss: 5.891e-01]wan_dewa:  13%|#3        | 469/3500 [25:11<1:56:17,  2.30s/it, lr: 2.0e-04 loss: 5.891e-01]wan_dewa:  13%|#3        | 470/3500 [25:13<1:56:14,  2.30s/it, lr: 2.0e-04 loss: 3.952e-02]wan_dewa:  13%|#3        | 470/3500 [25:13<1:56:14,  2.30s/it, lr: 2.0e-04 loss: 3.952e-02]wan_dewa:  13%|#3        | 471/3500 [25:13<1:29:21,  1.77s/it, lr: 2.0e-04 loss: 3.952e-02]wan_dewa:  13%|#3        | 471/3500 [25:13<1:29:21,  1.77s/it, lr: 2.0e-04 loss: 3.952e-02]wan_dewa:  13%|#3        | 471/3500 [25:16<1:29:21,  1.77s/it, lr: 2.0e-04 loss: 3.495e-02]wan_dewa:  13%|#3        | 471/3500 [25:16<1:29:21,  1.77s/it, lr: 2.0e-04 loss: 3.495e-02]wan_dewa:  13%|#3        | 472/3500 [25:16<1:35:33,  1.89s/it, lr: 2.0e-04 loss: 3.495e-02]wan_dewa:  13%|#3        | 472/3500 [25:16<1:35:33,  1.89s/it, lr: 2.0e-04 loss: 3.495e-02]wan_dewa:  13%|#3        | 472/3500 [25:18<1:35:33,  1.89s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  13%|#3        | 472/3500 [25:18<1:35:33,  1.89s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  14%|#3        | 473/3500 [25:18<1:43:21,  2.05s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  14%|#3        | 473/3500 [25:18<1:43:21,  2.05s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  14%|#3        | 473/3500 [25:20<1:43:21,  2.05s/it, lr: 2.0e-04 loss: 7.036e-02]wan_dewa:  14%|#3        | 473/3500 [25:20<1:43:21,  2.05s/it, lr: 2.0e-04 loss: 7.036e-02]wan_dewa:  14%|#3        | 474/3500 [25:20<1:46:25,  2.11s/it, lr: 2.0e-04 loss: 7.036e-02]wan_dewa:  14%|#3        | 474/3500 [25:20<1:46:25,  2.11s/it, lr: 2.0e-04 loss: 7.036e-02]wan_dewa:  14%|#3        | 474/3500 [25:25<1:46:25,  2.11s/it, lr: 2.0e-04 loss: 8.065e-02]wan_dewa:  14%|#3        | 474/3500 [25:25<1:46:25,  2.11s/it, lr: 2.0e-04 loss: 8.065e-02]wan_dewa:  14%|#3        | 475/3500 [25:25<1:49:12,  2.17s/it, lr: 2.0e-04 loss: 8.065e-02]wan_dewa:  14%|#3        | 475/3500 [25:25<1:49:12,  2.17s/it, lr: 2.0e-04 loss: 8.065e-02]wan_dewa:  14%|#3        | 475/3500 [25:27<1:49:12,  2.17s/it, lr: 2.0e-04 loss: 5.666e-02]wan_dewa:  14%|#3        | 475/3500 [25:27<1:49:12,  2.17s/it, lr: 2.0e-04 loss: 5.666e-02]wan_dewa:  14%|#3        | 476/3500 [25:27<1:50:43,  2.20s/it, lr: 2.0e-04 loss: 5.666e-02]wan_dewa:  14%|#3        | 476/3500 [25:27<1:50:43,  2.20s/it, lr: 2.0e-04 loss: 5.666e-02]wan_dewa:  14%|#3        | 476/3500 [25:29<1:50:43,  2.20s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  14%|#3        | 476/3500 [25:29<1:50:43,  2.20s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  14%|#3        | 477/3500 [25:29<1:51:53,  2.22s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  14%|#3        | 477/3500 [25:29<1:51:53,  2.22s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  14%|#3        | 477/3500 [25:32<1:51:53,  2.22s/it, lr: 2.0e-04 loss: 6.367e-02]wan_dewa:  14%|#3        | 477/3500 [25:32<1:51:53,  2.22s/it, lr: 2.0e-04 loss: 6.367e-02]wan_dewa:  14%|#3        | 478/3500 [25:32<1:52:38,  2.24s/it, lr: 2.0e-04 loss: 6.367e-02]wan_dewa:  14%|#3        | 478/3500 [25:32<1:52:38,  2.24s/it, lr: 2.0e-04 loss: 6.367e-02]wan_dewa:  14%|#3        | 478/3500 [25:34<1:52:38,  2.24s/it, lr: 2.0e-04 loss: 8.279e-02]wan_dewa:  14%|#3        | 478/3500 [25:34<1:52:38,  2.24s/it, lr: 2.0e-04 loss: 8.279e-02]wan_dewa:  14%|#3        | 479/3500 [25:34<1:58:34,  2.35s/it, lr: 2.0e-04 loss: 8.279e-02]wan_dewa:  14%|#3        | 479/3500 [25:34<1:58:34,  2.35s/it, lr: 2.0e-04 loss: 8.279e-02]wan_dewa:  14%|#3        | 479/3500 [25:45<1:58:34,  2.35s/it, lr: 2.0e-04 loss: 1.069e-01]wan_dewa:  14%|#3        | 479/3500 [25:45<1:58:34,  2.35s/it, lr: 2.0e-04 loss: 1.069e-01]wan_dewa:  14%|#3        | 480/3500 [25:48<1:58:31,  2.35s/it, lr: 2.0e-04 loss: 6.989e-02]wan_dewa:  14%|#3        | 480/3500 [25:48<1:58:31,  2.35s/it, lr: 2.0e-04 loss: 6.989e-02]wan_dewa:  14%|#3        | 481/3500 [25:48<1:30:46,  1.80s/it, lr: 2.0e-04 loss: 6.989e-02]wan_dewa:  14%|#3        | 481/3500 [25:48<1:30:46,  1.80s/it, lr: 2.0e-04 loss: 6.989e-02]wan_dewa:  14%|#3        | 481/3500 [25:50<1:30:46,  1.80s/it, lr: 2.0e-04 loss: 7.467e-02]wan_dewa:  14%|#3        | 481/3500 [25:50<1:30:46,  1.80s/it, lr: 2.0e-04 loss: 7.467e-02]wan_dewa:  14%|#3        | 482/3500 [25:50<1:36:32,  1.92s/it, lr: 2.0e-04 loss: 7.467e-02]wan_dewa:  14%|#3        | 482/3500 [25:50<1:36:32,  1.92s/it, lr: 2.0e-04 loss: 7.467e-02]wan_dewa:  14%|#3        | 482/3500 [25:53<1:36:32,  1.92s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  14%|#3        | 482/3500 [25:53<1:36:32,  1.92s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  14%|#3        | 483/3500 [25:53<1:44:38,  2.08s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  14%|#3        | 483/3500 [25:53<1:44:38,  2.08s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  14%|#3        | 483/3500 [25:55<1:44:38,  2.08s/it, lr: 2.0e-04 loss: 7.547e-02]wan_dewa:  14%|#3        | 483/3500 [25:55<1:44:38,  2.08s/it, lr: 2.0e-04 loss: 7.547e-02]wan_dewa:  14%|#3        | 484/3500 [25:55<1:47:14,  2.13s/it, lr: 2.0e-04 loss: 7.547e-02]wan_dewa:  14%|#3        | 484/3500 [25:55<1:47:14,  2.13s/it, lr: 2.0e-04 loss: 7.547e-02]wan_dewa:  14%|#3        | 484/3500 [25:57<1:47:14,  2.13s/it, lr: 2.0e-04 loss: 8.003e-02]wan_dewa:  14%|#3        | 484/3500 [25:57<1:47:14,  2.13s/it, lr: 2.0e-04 loss: 8.003e-02]wan_dewa:  14%|#3        | 485/3500 [25:57<1:49:09,  2.17s/it, lr: 2.0e-04 loss: 8.003e-02]wan_dewa:  14%|#3        | 485/3500 [25:57<1:49:09,  2.17s/it, lr: 2.0e-04 loss: 8.003e-02]wan_dewa:  14%|#3        | 485/3500 [25:59<1:49:09,  2.17s/it, lr: 2.0e-04 loss: 3.292e-02]wan_dewa:  14%|#3        | 485/3500 [25:59<1:49:09,  2.17s/it, lr: 2.0e-04 loss: 3.292e-02]wan_dewa:  14%|#3        | 486/3500 [25:59<1:50:35,  2.20s/it, lr: 2.0e-04 loss: 3.292e-02]wan_dewa:  14%|#3        | 486/3500 [25:59<1:50:35,  2.20s/it, lr: 2.0e-04 loss: 3.292e-02]wan_dewa:  14%|#3        | 486/3500 [26:02<1:50:35,  2.20s/it, lr: 2.0e-04 loss: 8.151e-02]wan_dewa:  14%|#3        | 486/3500 [26:02<1:50:35,  2.20s/it, lr: 2.0e-04 loss: 8.151e-02]wan_dewa:  14%|#3        | 487/3500 [26:02<1:51:39,  2.22s/it, lr: 2.0e-04 loss: 8.151e-02]wan_dewa:  14%|#3        | 487/3500 [26:02<1:51:39,  2.22s/it, lr: 2.0e-04 loss: 8.151e-02]wan_dewa:  14%|#3        | 487/3500 [26:04<1:51:39,  2.22s/it, lr: 2.0e-04 loss: 8.310e-02]wan_dewa:  14%|#3        | 487/3500 [26:04<1:51:39,  2.22s/it, lr: 2.0e-04 loss: 8.310e-02]wan_dewa:  14%|#3        | 488/3500 [26:04<1:55:51,  2.31s/it, lr: 2.0e-04 loss: 8.310e-02]wan_dewa:  14%|#3        | 488/3500 [26:04<1:55:51,  2.31s/it, lr: 2.0e-04 loss: 8.310e-02]wan_dewa:  14%|#3        | 488/3500 [26:06<1:55:51,  2.31s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  14%|#3        | 488/3500 [26:06<1:55:51,  2.31s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  14%|#3        | 489/3500 [26:06<1:55:31,  2.30s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  14%|#3        | 489/3500 [26:06<1:55:31,  2.30s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  14%|#3        | 489/3500 [26:17<1:55:31,  2.30s/it, lr: 2.0e-04 loss: 2.637e-01]wan_dewa:  14%|#3        | 489/3500 [26:17<1:55:31,  2.30s/it, lr: 2.0e-04 loss: 2.637e-01]wan_dewa:  14%|#4        | 490/3500 [26:19<1:55:28,  2.30s/it, lr: 2.0e-04 loss: 1.039e-01]wan_dewa:  14%|#4        | 490/3500 [26:19<1:55:28,  2.30s/it, lr: 2.0e-04 loss: 1.039e-01]wan_dewa:  14%|#4        | 491/3500 [26:19<1:28:44,  1.77s/it, lr: 2.0e-04 loss: 1.039e-01]wan_dewa:  14%|#4        | 491/3500 [26:19<1:28:44,  1.77s/it, lr: 2.0e-04 loss: 1.039e-01]wan_dewa:  14%|#4        | 491/3500 [26:22<1:28:44,  1.77s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  14%|#4        | 491/3500 [26:22<1:28:44,  1.77s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  14%|#4        | 492/3500 [26:22<1:34:55,  1.89s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  14%|#4        | 492/3500 [26:22<1:34:55,  1.89s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  14%|#4        | 492/3500 [26:24<1:34:55,  1.89s/it, lr: 2.0e-04 loss: 8.942e-02]wan_dewa:  14%|#4        | 492/3500 [26:24<1:34:55,  1.89s/it, lr: 2.0e-04 loss: 8.942e-02]wan_dewa:  14%|#4        | 493/3500 [26:24<1:39:51,  1.99s/it, lr: 2.0e-04 loss: 8.942e-02]wan_dewa:  14%|#4        | 493/3500 [26:24<1:39:51,  1.99s/it, lr: 2.0e-04 loss: 8.942e-02]wan_dewa:  14%|#4        | 493/3500 [26:26<1:39:51,  1.99s/it, lr: 2.0e-04 loss: 7.108e-02]wan_dewa:  14%|#4        | 493/3500 [26:26<1:39:51,  1.99s/it, lr: 2.0e-04 loss: 7.108e-02]wan_dewa:  14%|#4        | 494/3500 [26:26<1:46:40,  2.13s/it, lr: 2.0e-04 loss: 7.108e-02]wan_dewa:  14%|#4        | 494/3500 [26:26<1:46:40,  2.13s/it, lr: 2.0e-04 loss: 7.108e-02]wan_dewa:  14%|#4        | 494/3500 [26:29<1:46:40,  2.13s/it, lr: 2.0e-04 loss: 4.419e-02]wan_dewa:  14%|#4        | 494/3500 [26:29<1:46:40,  2.13s/it, lr: 2.0e-04 loss: 4.419e-02]wan_dewa:  14%|#4        | 495/3500 [26:29<1:48:39,  2.17s/it, lr: 2.0e-04 loss: 4.419e-02]wan_dewa:  14%|#4        | 495/3500 [26:29<1:48:39,  2.17s/it, lr: 2.0e-04 loss: 4.419e-02]wan_dewa:  14%|#4        | 495/3500 [26:31<1:48:39,  2.17s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  14%|#4        | 495/3500 [26:31<1:48:39,  2.17s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  14%|#4        | 496/3500 [26:31<1:50:07,  2.20s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  14%|#4        | 496/3500 [26:31<1:50:07,  2.20s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  14%|#4        | 496/3500 [26:33<1:50:07,  2.20s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  14%|#4        | 496/3500 [26:33<1:50:07,  2.20s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  14%|#4        | 497/3500 [26:33<1:51:11,  2.22s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  14%|#4        | 497/3500 [26:33<1:51:11,  2.22s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  14%|#4        | 497/3500 [26:36<1:51:11,  2.22s/it, lr: 2.0e-04 loss: 8.393e-02]wan_dewa:  14%|#4        | 497/3500 [26:36<1:51:11,  2.22s/it, lr: 2.0e-04 loss: 8.393e-02]wan_dewa:  14%|#4        | 498/3500 [26:36<1:51:56,  2.24s/it, lr: 2.0e-04 loss: 8.393e-02]wan_dewa:  14%|#4        | 498/3500 [26:36<1:51:56,  2.24s/it, lr: 2.0e-04 loss: 8.393e-02]wan_dewa:  14%|#4        | 498/3500 [26:38<1:51:56,  2.24s/it, lr: 2.0e-04 loss: 4.397e-01]wan_dewa:  14%|#4        | 498/3500 [26:38<1:51:56,  2.24s/it, lr: 2.0e-04 loss: 4.397e-01]wan_dewa:  14%|#4        | 499/3500 [26:38<1:55:54,  2.32s/it, lr: 2.0e-04 loss: 4.397e-01]wan_dewa:  14%|#4        | 499/3500 [26:38<1:55:54,  2.32s/it, lr: 2.0e-04 loss: 4.397e-01]wan_dewa:  14%|#4        | 499/3500 [26:51<1:55:54,  2.32s/it, lr: 2.0e-04 loss: 7.994e-02]wan_dewa:  14%|#4        | 499/3500 [26:51<1:55:54,  2.32s/it, lr: 2.0e-04 loss: 7.994e-02]
+Saving at step 500
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000000500.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.59s/it]  4%|4         | 1/25 [00:04<01:50,  4.59s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:40,  6.30s/it] 36%|###6      | 9/25 [00:46<01:40,  6.30s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.78s/it] 40%|####      | 10/25 [00:51<01:26,  5.78s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:15,  5.42s/it] 44%|####4     | 11/25 [00:56<01:15,  5.42s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.18s/it] 48%|####8     | 12/25 [01:00<01:07,  5.18s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.72s/it] 68%|######8   | 17/25 [01:23<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.84s/it]100%|##########| 25/25 [02:01<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.97s/it]Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.97s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.65s/it] 32%|###2      | 8/25 [00:37<01:19,  4.65s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:34,  5.89s/it] 36%|###6      | 9/25 [00:45<01:34,  5.89s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:22,  5.51s/it] 40%|####      | 10/25 [00:50<01:22,  5.51s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:55<01:13,  5.24s/it] 44%|####4     | 11/25 [00:55<01:13,  5.24s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.06s/it] 48%|####8     | 12/25 [00:59<01:05,  5.06s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.94s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.94s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.85s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.85s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.79s/it] 60%|######    | 15/25 [01:13<00:47,  4.79s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.72s/it] 68%|######8   | 17/25 [01:23<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.67s/it]100%|##########| 25/25 [02:00<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.81s/it]100%|##########| 25/25 [02:00<00:00,  4.81s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.48s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.48s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.67s/it] 28%|##8       | 7/25 [00:32<01:23,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.79s/it] 36%|###6      | 9/25 [00:45<01:32,  5.79s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.44s/it] 40%|####      | 10/25 [00:50<01:21,  5.44s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.20s/it] 44%|####4     | 11/25 [00:54<01:12,  5.20s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.04s/it] 48%|####8     | 12/25 [00:59<01:05,  5.04s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.79s/it] 60%|######    | 15/25 [01:13<00:47,  4.79s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.68s/it] 88%|########8 | 22/25 [01:46<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.67s/it]100%|##########| 25/25 [02:00<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.81s/it]100%|##########| 25/25 [02:00<00:00,  4.81s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.42s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.42s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.74s/it] 36%|###6      | 9/25 [00:45<01:31,  5.74s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.40s/it] 40%|####      | 10/25 [00:50<01:21,  5.40s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.17s/it] 44%|####4     | 11/25 [00:54<01:12,  5.17s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.02s/it] 48%|####8     | 12/25 [00:59<01:05,  5.02s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.68s/it] 88%|########8 | 22/25 [01:46<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.67s/it]100%|##########| 25/25 [02:00<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.35s/it]Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.35s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  14%|#4        | 500/3500 [26:55<1:55:52,  2.32s/it, lr: 2.0e-04 loss: 7.509e-02]wan_dewa:  14%|#4        | 500/3500 [26:55<1:55:52,  2.32s/it, lr: 2.0e-04 loss: 7.509e-02]wan_dewa:  14%|#4        | 501/3500 [26:55<1:49:41,  2.19s/it, lr: 2.0e-04 loss: 7.509e-02]wan_dewa:  14%|#4        | 501/3500 [26:55<1:49:41,  2.19s/it, lr: 2.0e-04 loss: 7.509e-02]wan_dewa:  14%|#4        | 501/3500 [26:58<1:49:41,  2.19s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  14%|#4        | 501/3500 [26:58<1:49:41,  2.19s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  14%|#4        | 502/3500 [26:58<1:50:53,  2.22s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  14%|#4        | 502/3500 [26:58<1:50:53,  2.22s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  14%|#4        | 502/3500 [27:00<1:50:53,  2.22s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:  14%|#4        | 502/3500 [27:00<1:50:53,  2.22s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:  14%|#4        | 503/3500 [27:00<1:51:51,  2.24s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:  14%|#4        | 503/3500 [27:00<1:51:51,  2.24s/it, lr: 2.0e-04 loss: 7.854e-02]wan_dewa:  14%|#4        | 503/3500 [27:02<1:51:51,  2.24s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:  14%|#4        | 503/3500 [27:02<1:51:51,  2.24s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:  14%|#4        | 504/3500 [27:02<1:52:39,  2.26s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:  14%|#4        | 504/3500 [27:02<1:52:39,  2.26s/it, lr: 2.0e-04 loss: 6.602e-02]wan_dewa:  14%|#4        | 504/3500 [27:05<1:52:39,  2.26s/it, lr: 2.0e-04 loss: 6.145e-02]wan_dewa:  14%|#4        | 504/3500 [27:05<1:52:39,  2.26s/it, lr: 2.0e-04 loss: 6.145e-02]wan_dewa:  14%|#4        | 505/3500 [27:05<1:55:56,  2.32s/it, lr: 2.0e-04 loss: 6.145e-02]wan_dewa:  14%|#4        | 505/3500 [27:05<1:55:56,  2.32s/it, lr: 2.0e-04 loss: 6.145e-02]wan_dewa:  14%|#4        | 505/3500 [27:07<1:55:56,  2.32s/it, lr: 2.0e-04 loss: 6.755e-02]wan_dewa:  14%|#4        | 505/3500 [27:07<1:55:56,  2.32s/it, lr: 2.0e-04 loss: 6.755e-02]wan_dewa:  14%|#4        | 506/3500 [27:07<1:55:34,  2.32s/it, lr: 2.0e-04 loss: 6.755e-02]wan_dewa:  14%|#4        | 506/3500 [27:07<1:55:34,  2.32s/it, lr: 2.0e-04 loss: 6.755e-02]wan_dewa:  14%|#4        | 506/3500 [27:09<1:55:34,  2.32s/it, lr: 2.0e-04 loss: 4.740e-02]wan_dewa:  14%|#4        | 506/3500 [27:09<1:55:34,  2.32s/it, lr: 2.0e-04 loss: 4.740e-02]wan_dewa:  14%|#4        | 507/3500 [27:09<1:55:17,  2.31s/it, lr: 2.0e-04 loss: 4.740e-02]wan_dewa:  14%|#4        | 507/3500 [27:09<1:55:17,  2.31s/it, lr: 2.0e-04 loss: 4.740e-02]wan_dewa:  14%|#4        | 507/3500 [27:12<1:55:17,  2.31s/it, lr: 2.0e-04 loss: 8.446e-02]wan_dewa:  14%|#4        | 507/3500 [27:12<1:55:17,  2.31s/it, lr: 2.0e-04 loss: 8.446e-02]wan_dewa:  15%|#4        | 508/3500 [27:12<1:55:04,  2.31s/it, lr: 2.0e-04 loss: 8.446e-02]wan_dewa:  15%|#4        | 508/3500 [27:12<1:55:04,  2.31s/it, lr: 2.0e-04 loss: 8.446e-02]wan_dewa:  15%|#4        | 508/3500 [27:14<1:55:04,  2.31s/it, lr: 2.0e-04 loss: 4.324e-02]wan_dewa:  15%|#4        | 508/3500 [27:14<1:55:04,  2.31s/it, lr: 2.0e-04 loss: 4.324e-02]wan_dewa:  15%|#4        | 509/3500 [27:14<1:54:57,  2.31s/it, lr: 2.0e-04 loss: 4.324e-02]wan_dewa:  15%|#4        | 509/3500 [27:14<1:54:57,  2.31s/it, lr: 2.0e-04 loss: 4.324e-02]wan_dewa:  15%|#4        | 509/3500 [27:20<1:54:57,  2.31s/it, lr: 2.0e-04 loss: 8.171e-02]wan_dewa:  15%|#4        | 509/3500 [27:20<1:54:57,  2.31s/it, lr: 2.0e-04 loss: 8.171e-02]wan_dewa:  15%|#4        | 510/3500 [27:23<1:54:54,  2.31s/it, lr: 2.0e-04 loss: 4.106e-02]wan_dewa:  15%|#4        | 510/3500 [27:23<1:54:54,  2.31s/it, lr: 2.0e-04 loss: 4.106e-02]wan_dewa:  15%|#4        | 511/3500 [27:23<1:28:28,  1.78s/it, lr: 2.0e-04 loss: 4.106e-02]wan_dewa:  15%|#4        | 511/3500 [27:23<1:28:28,  1.78s/it, lr: 2.0e-04 loss: 4.106e-02]wan_dewa:  15%|#4        | 511/3500 [27:25<1:28:28,  1.78s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  15%|#4        | 511/3500 [27:25<1:28:28,  1.78s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  15%|#4        | 512/3500 [27:25<1:34:48,  1.90s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  15%|#4        | 512/3500 [27:25<1:34:48,  1.90s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  15%|#4        | 512/3500 [27:27<1:34:48,  1.90s/it, lr: 2.0e-04 loss: 1.481e-01]wan_dewa:  15%|#4        | 512/3500 [27:27<1:34:48,  1.90s/it, lr: 2.0e-04 loss: 1.481e-01]wan_dewa:  15%|#4        | 513/3500 [27:27<1:39:48,  2.00s/it, lr: 2.0e-04 loss: 1.481e-01]wan_dewa:  15%|#4        | 513/3500 [27:27<1:39:48,  2.00s/it, lr: 2.0e-04 loss: 1.481e-01]wan_dewa:  15%|#4        | 513/3500 [27:29<1:39:48,  2.00s/it, lr: 2.0e-04 loss: 2.581e-01]wan_dewa:  15%|#4        | 513/3500 [27:29<1:39:48,  2.00s/it, lr: 2.0e-04 loss: 2.581e-01]wan_dewa:  15%|#4        | 514/3500 [27:29<1:43:39,  2.08s/it, lr: 2.0e-04 loss: 2.581e-01]wan_dewa:  15%|#4        | 514/3500 [27:29<1:43:39,  2.08s/it, lr: 2.0e-04 loss: 2.581e-01]wan_dewa:  15%|#4        | 514/3500 [27:32<1:43:39,  2.08s/it, lr: 2.0e-04 loss: 9.728e-02]wan_dewa:  15%|#4        | 514/3500 [27:32<1:43:39,  2.08s/it, lr: 2.0e-04 loss: 9.728e-02]wan_dewa:  15%|#4        | 515/3500 [27:32<1:46:31,  2.14s/it, lr: 2.0e-04 loss: 9.728e-02]wan_dewa:  15%|#4        | 515/3500 [27:32<1:46:31,  2.14s/it, lr: 2.0e-04 loss: 9.728e-02]wan_dewa:  15%|#4        | 515/3500 [27:34<1:46:31,  2.14s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  15%|#4        | 515/3500 [27:34<1:46:31,  2.14s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  15%|#4        | 516/3500 [27:34<1:51:08,  2.23s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  15%|#4        | 516/3500 [27:34<1:51:08,  2.23s/it, lr: 2.0e-04 loss: 6.129e-02]wan_dewa:  15%|#4        | 516/3500 [27:37<1:51:08,  2.23s/it, lr: 2.0e-04 loss: 7.445e-02]wan_dewa:  15%|#4        | 516/3500 [27:37<1:51:08,  2.23s/it, lr: 2.0e-04 loss: 7.445e-02]wan_dewa:  15%|#4        | 517/3500 [27:37<1:51:54,  2.25s/it, lr: 2.0e-04 loss: 7.445e-02]wan_dewa:  15%|#4        | 517/3500 [27:37<1:51:54,  2.25s/it, lr: 2.0e-04 loss: 7.445e-02]wan_dewa:  15%|#4        | 517/3500 [27:39<1:51:54,  2.25s/it, lr: 2.0e-04 loss: 2.780e-01]wan_dewa:  15%|#4        | 517/3500 [27:39<1:51:54,  2.25s/it, lr: 2.0e-04 loss: 2.780e-01]wan_dewa:  15%|#4        | 518/3500 [27:39<1:52:30,  2.26s/it, lr: 2.0e-04 loss: 2.780e-01]wan_dewa:  15%|#4        | 518/3500 [27:39<1:52:30,  2.26s/it, lr: 2.0e-04 loss: 2.780e-01]wan_dewa:  15%|#4        | 518/3500 [27:41<1:52:30,  2.26s/it, lr: 2.0e-04 loss: 1.761e-01]wan_dewa:  15%|#4        | 518/3500 [27:41<1:52:30,  2.26s/it, lr: 2.0e-04 loss: 1.761e-01]wan_dewa:  15%|#4        | 519/3500 [27:41<1:52:58,  2.27s/it, lr: 2.0e-04 loss: 1.761e-01]wan_dewa:  15%|#4        | 519/3500 [27:41<1:52:58,  2.27s/it, lr: 2.0e-04 loss: 1.761e-01]wan_dewa:  15%|#4        | 519/3500 [27:47<1:52:58,  2.27s/it, lr: 2.0e-04 loss: 5.086e-02]wan_dewa:  15%|#4        | 519/3500 [27:47<1:52:58,  2.27s/it, lr: 2.0e-04 loss: 5.086e-02]wan_dewa:  15%|#4        | 520/3500 [27:49<1:52:55,  2.27s/it, lr: 2.0e-04 loss: 8.903e-02]wan_dewa:  15%|#4        | 520/3500 [27:49<1:52:55,  2.27s/it, lr: 2.0e-04 loss: 8.903e-02]wan_dewa:  15%|#4        | 521/3500 [27:49<1:29:20,  1.80s/it, lr: 2.0e-04 loss: 8.903e-02]wan_dewa:  15%|#4        | 521/3500 [27:49<1:29:20,  1.80s/it, lr: 2.0e-04 loss: 8.903e-02]wan_dewa:  15%|#4        | 521/3500 [27:52<1:29:20,  1.80s/it, lr: 2.0e-04 loss: 8.265e-02]wan_dewa:  15%|#4        | 521/3500 [27:52<1:29:20,  1.80s/it, lr: 2.0e-04 loss: 8.265e-02]wan_dewa:  15%|#4        | 522/3500 [27:52<1:35:20,  1.92s/it, lr: 2.0e-04 loss: 8.265e-02]wan_dewa:  15%|#4        | 522/3500 [27:52<1:35:20,  1.92s/it, lr: 2.0e-04 loss: 8.265e-02]wan_dewa:  15%|#4        | 522/3500 [27:54<1:35:20,  1.92s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  15%|#4        | 522/3500 [27:54<1:35:20,  1.92s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  15%|#4        | 523/3500 [27:54<1:40:06,  2.02s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  15%|#4        | 523/3500 [27:54<1:40:06,  2.02s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  15%|#4        | 523/3500 [27:56<1:40:06,  2.02s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  15%|#4        | 523/3500 [27:56<1:40:06,  2.02s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  15%|#4        | 524/3500 [27:56<1:43:50,  2.09s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  15%|#4        | 524/3500 [27:56<1:43:50,  2.09s/it, lr: 2.0e-04 loss: 3.629e-02]wan_dewa:  15%|#4        | 524/3500 [28:01<1:43:50,  2.09s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  15%|#4        | 524/3500 [28:01<1:43:50,  2.09s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  15%|#5        | 525/3500 [28:01<1:46:58,  2.16s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  15%|#5        | 525/3500 [28:01<1:46:58,  2.16s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  15%|#5        | 525/3500 [28:04<1:46:58,  2.16s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  15%|#5        | 525/3500 [28:04<1:46:58,  2.16s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  15%|#5        | 526/3500 [28:04<1:53:46,  2.30s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  15%|#5        | 526/3500 [28:04<1:53:46,  2.30s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  15%|#5        | 526/3500 [28:06<1:53:46,  2.30s/it, lr: 2.0e-04 loss: 7.615e-02]wan_dewa:  15%|#5        | 526/3500 [28:06<1:53:46,  2.30s/it, lr: 2.0e-04 loss: 7.615e-02]wan_dewa:  15%|#5        | 527/3500 [28:06<1:53:40,  2.29s/it, lr: 2.0e-04 loss: 7.615e-02]wan_dewa:  15%|#5        | 527/3500 [28:06<1:53:40,  2.29s/it, lr: 2.0e-04 loss: 7.615e-02]wan_dewa:  15%|#5        | 527/3500 [28:08<1:53:40,  2.29s/it, lr: 2.0e-04 loss: 6.944e-02]wan_dewa:  15%|#5        | 527/3500 [28:08<1:53:40,  2.29s/it, lr: 2.0e-04 loss: 6.944e-02]wan_dewa:  15%|#5        | 528/3500 [28:08<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 6.944e-02]wan_dewa:  15%|#5        | 528/3500 [28:08<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 6.944e-02]wan_dewa:  15%|#5        | 528/3500 [28:11<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  15%|#5        | 528/3500 [28:11<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  15%|#5        | 529/3500 [28:11<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  15%|#5        | 529/3500 [28:11<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  15%|#5        | 529/3500 [28:22<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 5.483e-02]wan_dewa:  15%|#5        | 529/3500 [28:22<1:53:33,  2.29s/it, lr: 2.0e-04 loss: 5.483e-02]wan_dewa:  15%|#5        | 530/3500 [28:24<1:53:31,  2.29s/it, lr: 2.0e-04 loss: 5.122e-02]wan_dewa:  15%|#5        | 530/3500 [28:24<1:53:31,  2.29s/it, lr: 2.0e-04 loss: 5.122e-02]wan_dewa:  15%|#5        | 531/3500 [28:24<1:30:14,  1.82s/it, lr: 2.0e-04 loss: 5.122e-02]wan_dewa:  15%|#5        | 531/3500 [28:24<1:30:14,  1.82s/it, lr: 2.0e-04 loss: 5.122e-02]wan_dewa:  15%|#5        | 531/3500 [28:27<1:30:14,  1.82s/it, lr: 2.0e-04 loss: 1.106e-01]wan_dewa:  15%|#5        | 531/3500 [28:27<1:30:14,  1.82s/it, lr: 2.0e-04 loss: 1.106e-01]wan_dewa:  15%|#5        | 532/3500 [28:27<1:35:47,  1.94s/it, lr: 2.0e-04 loss: 1.106e-01]wan_dewa:  15%|#5        | 532/3500 [28:27<1:35:47,  1.94s/it, lr: 2.0e-04 loss: 1.106e-01]wan_dewa:  15%|#5        | 532/3500 [28:29<1:35:47,  1.94s/it, lr: 2.0e-04 loss: 3.729e-02]wan_dewa:  15%|#5        | 532/3500 [28:29<1:35:47,  1.94s/it, lr: 2.0e-04 loss: 3.729e-02]wan_dewa:  15%|#5        | 533/3500 [28:29<1:40:10,  2.03s/it, lr: 2.0e-04 loss: 3.729e-02]wan_dewa:  15%|#5        | 533/3500 [28:29<1:40:10,  2.03s/it, lr: 2.0e-04 loss: 3.729e-02]wan_dewa:  15%|#5        | 533/3500 [28:31<1:40:10,  2.03s/it, lr: 2.0e-04 loss: 5.414e-02]wan_dewa:  15%|#5        | 533/3500 [28:31<1:40:10,  2.03s/it, lr: 2.0e-04 loss: 5.414e-02]wan_dewa:  15%|#5        | 534/3500 [28:31<1:43:33,  2.10s/it, lr: 2.0e-04 loss: 5.414e-02]wan_dewa:  15%|#5        | 534/3500 [28:31<1:43:33,  2.10s/it, lr: 2.0e-04 loss: 5.414e-02]wan_dewa:  15%|#5        | 534/3500 [28:33<1:43:33,  2.10s/it, lr: 2.0e-04 loss: 5.044e-02]wan_dewa:  15%|#5        | 534/3500 [28:33<1:43:33,  2.10s/it, lr: 2.0e-04 loss: 5.044e-02]wan_dewa:  15%|#5        | 535/3500 [28:33<1:46:07,  2.15s/it, lr: 2.0e-04 loss: 5.044e-02]wan_dewa:  15%|#5        | 535/3500 [28:33<1:46:07,  2.15s/it, lr: 2.0e-04 loss: 5.044e-02]wan_dewa:  15%|#5        | 535/3500 [28:36<1:46:07,  2.15s/it, lr: 2.0e-04 loss: 9.817e-02]wan_dewa:  15%|#5        | 535/3500 [28:36<1:46:07,  2.15s/it, lr: 2.0e-04 loss: 9.817e-02]wan_dewa:  15%|#5        | 536/3500 [28:36<1:51:12,  2.25s/it, lr: 2.0e-04 loss: 9.817e-02]wan_dewa:  15%|#5        | 536/3500 [28:36<1:51:12,  2.25s/it, lr: 2.0e-04 loss: 9.817e-02]wan_dewa:  15%|#5        | 536/3500 [28:38<1:51:12,  2.25s/it, lr: 2.0e-04 loss: 4.634e-02]wan_dewa:  15%|#5        | 536/3500 [28:38<1:51:12,  2.25s/it, lr: 2.0e-04 loss: 4.634e-02]wan_dewa:  15%|#5        | 537/3500 [28:38<1:51:40,  2.26s/it, lr: 2.0e-04 loss: 4.634e-02]wan_dewa:  15%|#5        | 537/3500 [28:38<1:51:40,  2.26s/it, lr: 2.0e-04 loss: 4.634e-02]wan_dewa:  15%|#5        | 537/3500 [28:41<1:51:40,  2.26s/it, lr: 2.0e-04 loss: 1.296e-01]wan_dewa:  15%|#5        | 537/3500 [28:41<1:51:40,  2.26s/it, lr: 2.0e-04 loss: 1.296e-01]wan_dewa:  15%|#5        | 538/3500 [28:41<1:52:02,  2.27s/it, lr: 2.0e-04 loss: 1.296e-01]wan_dewa:  15%|#5        | 538/3500 [28:41<1:52:02,  2.27s/it, lr: 2.0e-04 loss: 1.296e-01]wan_dewa:  15%|#5        | 538/3500 [28:43<1:52:02,  2.27s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  15%|#5        | 538/3500 [28:43<1:52:02,  2.27s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  15%|#5        | 539/3500 [28:43<1:52:15,  2.27s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  15%|#5        | 539/3500 [28:43<1:52:15,  2.27s/it, lr: 2.0e-04 loss: 9.658e-02]wan_dewa:  15%|#5        | 539/3500 [28:54<1:52:15,  2.27s/it, lr: 2.0e-04 loss: 8.928e-02]wan_dewa:  15%|#5        | 539/3500 [28:54<1:52:15,  2.27s/it, lr: 2.0e-04 loss: 8.928e-02]wan_dewa:  15%|#5        | 540/3500 [28:56<1:52:13,  2.27s/it, lr: 2.0e-04 loss: 5.328e-02]wan_dewa:  15%|#5        | 540/3500 [28:56<1:52:13,  2.27s/it, lr: 2.0e-04 loss: 5.328e-02]wan_dewa:  15%|#5        | 541/3500 [28:56<1:29:20,  1.81s/it, lr: 2.0e-04 loss: 5.328e-02]wan_dewa:  15%|#5        | 541/3500 [28:56<1:29:20,  1.81s/it, lr: 2.0e-04 loss: 5.328e-02]wan_dewa:  15%|#5        | 541/3500 [28:58<1:29:20,  1.81s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  15%|#5        | 541/3500 [28:58<1:29:20,  1.81s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  15%|#5        | 542/3500 [28:58<1:34:57,  1.93s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  15%|#5        | 542/3500 [28:58<1:34:57,  1.93s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  15%|#5        | 542/3500 [29:01<1:34:57,  1.93s/it, lr: 2.0e-04 loss: 4.318e-02]wan_dewa:  15%|#5        | 542/3500 [29:01<1:34:57,  1.93s/it, lr: 2.0e-04 loss: 4.318e-02]wan_dewa:  16%|#5        | 543/3500 [29:01<1:39:26,  2.02s/it, lr: 2.0e-04 loss: 4.318e-02]wan_dewa:  16%|#5        | 543/3500 [29:01<1:39:26,  2.02s/it, lr: 2.0e-04 loss: 4.318e-02]wan_dewa:  16%|#5        | 543/3500 [29:03<1:39:26,  2.02s/it, lr: 2.0e-04 loss: 6.987e-02]wan_dewa:  16%|#5        | 543/3500 [29:03<1:39:26,  2.02s/it, lr: 2.0e-04 loss: 6.987e-02]wan_dewa:  16%|#5        | 544/3500 [29:03<1:42:56,  2.09s/it, lr: 2.0e-04 loss: 6.987e-02]wan_dewa:  16%|#5        | 544/3500 [29:03<1:42:56,  2.09s/it, lr: 2.0e-04 loss: 6.987e-02]wan_dewa:  16%|#5        | 544/3500 [29:05<1:42:56,  2.09s/it, lr: 2.0e-04 loss: 3.081e-02]wan_dewa:  16%|#5        | 544/3500 [29:05<1:42:56,  2.09s/it, lr: 2.0e-04 loss: 3.081e-02]wan_dewa:  16%|#5        | 545/3500 [29:05<1:45:31,  2.14s/it, lr: 2.0e-04 loss: 3.081e-02]wan_dewa:  16%|#5        | 545/3500 [29:05<1:45:31,  2.14s/it, lr: 2.0e-04 loss: 3.081e-02]wan_dewa:  16%|#5        | 545/3500 [29:08<1:45:31,  2.14s/it, lr: 2.0e-04 loss: 5.771e-02]wan_dewa:  16%|#5        | 545/3500 [29:08<1:45:31,  2.14s/it, lr: 2.0e-04 loss: 5.771e-02]wan_dewa:  16%|#5        | 546/3500 [29:08<1:47:27,  2.18s/it, lr: 2.0e-04 loss: 5.771e-02]wan_dewa:  16%|#5        | 546/3500 [29:08<1:47:27,  2.18s/it, lr: 2.0e-04 loss: 5.771e-02]wan_dewa:  16%|#5        | 546/3500 [29:10<1:47:27,  2.18s/it, lr: 2.0e-04 loss: 9.399e-02]wan_dewa:  16%|#5        | 546/3500 [29:10<1:47:27,  2.18s/it, lr: 2.0e-04 loss: 9.399e-02]wan_dewa:  16%|#5        | 547/3500 [29:10<1:52:04,  2.28s/it, lr: 2.0e-04 loss: 9.399e-02]wan_dewa:  16%|#5        | 547/3500 [29:10<1:52:04,  2.28s/it, lr: 2.0e-04 loss: 9.399e-02]wan_dewa:  16%|#5        | 547/3500 [29:12<1:52:04,  2.28s/it, lr: 2.0e-04 loss: 8.388e-02]wan_dewa:  16%|#5        | 547/3500 [29:12<1:52:04,  2.28s/it, lr: 2.0e-04 loss: 8.388e-02]wan_dewa:  16%|#5        | 548/3500 [29:12<1:52:08,  2.28s/it, lr: 2.0e-04 loss: 8.388e-02]wan_dewa:  16%|#5        | 548/3500 [29:12<1:52:08,  2.28s/it, lr: 2.0e-04 loss: 8.388e-02]wan_dewa:  16%|#5        | 548/3500 [29:15<1:52:08,  2.28s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  16%|#5        | 548/3500 [29:15<1:52:08,  2.28s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  16%|#5        | 549/3500 [29:15<1:52:13,  2.28s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  16%|#5        | 549/3500 [29:15<1:52:13,  2.28s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  16%|#5        | 549/3500 [29:27<1:52:13,  2.28s/it, lr: 2.0e-04 loss: 2.977e-02]wan_dewa:  16%|#5        | 549/3500 [29:27<1:52:13,  2.28s/it, lr: 2.0e-04 loss: 2.977e-02]wan_dewa:  16%|#5        | 550/3500 [29:30<1:52:11,  2.28s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:  16%|#5        | 550/3500 [29:30<1:52:11,  2.28s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:  16%|#5        | 551/3500 [29:30<1:26:31,  1.76s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:  16%|#5        | 551/3500 [29:30<1:26:31,  1.76s/it, lr: 2.0e-04 loss: 1.083e-01]wan_dewa:  16%|#5        | 551/3500 [29:32<1:26:31,  1.76s/it, lr: 2.0e-04 loss: 6.575e-02]wan_dewa:  16%|#5        | 551/3500 [29:32<1:26:31,  1.76s/it, lr: 2.0e-04 loss: 6.575e-02]wan_dewa:  16%|#5        | 552/3500 [29:32<1:36:52,  1.97s/it, lr: 2.0e-04 loss: 6.575e-02]wan_dewa:  16%|#5        | 552/3500 [29:32<1:36:52,  1.97s/it, lr: 2.0e-04 loss: 6.575e-02]wan_dewa:  16%|#5        | 552/3500 [29:35<1:36:52,  1.97s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  16%|#5        | 552/3500 [29:35<1:36:52,  1.97s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  16%|#5        | 553/3500 [29:35<1:40:45,  2.05s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  16%|#5        | 553/3500 [29:35<1:40:45,  2.05s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  16%|#5        | 553/3500 [29:37<1:40:45,  2.05s/it, lr: 2.0e-04 loss: 5.325e-02]wan_dewa:  16%|#5        | 553/3500 [29:37<1:40:45,  2.05s/it, lr: 2.0e-04 loss: 5.325e-02]wan_dewa:  16%|#5        | 554/3500 [29:37<1:43:39,  2.11s/it, lr: 2.0e-04 loss: 5.325e-02]wan_dewa:  16%|#5        | 554/3500 [29:37<1:43:39,  2.11s/it, lr: 2.0e-04 loss: 5.325e-02]wan_dewa:  16%|#5        | 554/3500 [29:39<1:43:39,  2.11s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  16%|#5        | 554/3500 [29:39<1:43:39,  2.11s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  16%|#5        | 555/3500 [29:39<1:45:54,  2.16s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  16%|#5        | 555/3500 [29:39<1:45:54,  2.16s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  16%|#5        | 555/3500 [29:41<1:45:54,  2.16s/it, lr: 2.0e-04 loss: 9.341e-02]wan_dewa:  16%|#5        | 555/3500 [29:41<1:45:54,  2.16s/it, lr: 2.0e-04 loss: 9.341e-02]wan_dewa:  16%|#5        | 556/3500 [29:41<1:47:31,  2.19s/it, lr: 2.0e-04 loss: 9.341e-02]wan_dewa:  16%|#5        | 556/3500 [29:41<1:47:31,  2.19s/it, lr: 2.0e-04 loss: 9.341e-02]wan_dewa:  16%|#5        | 556/3500 [29:44<1:47:31,  2.19s/it, lr: 2.0e-04 loss: 6.950e-02]wan_dewa:  16%|#5        | 556/3500 [29:44<1:47:31,  2.19s/it, lr: 2.0e-04 loss: 6.950e-02]wan_dewa:  16%|#5        | 557/3500 [29:44<1:51:18,  2.27s/it, lr: 2.0e-04 loss: 6.950e-02]wan_dewa:  16%|#5        | 557/3500 [29:44<1:51:18,  2.27s/it, lr: 2.0e-04 loss: 6.950e-02]wan_dewa:  16%|#5        | 557/3500 [29:46<1:51:18,  2.27s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  16%|#5        | 557/3500 [29:46<1:51:18,  2.27s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  16%|#5        | 558/3500 [29:46<1:51:23,  2.27s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  16%|#5        | 558/3500 [29:46<1:51:23,  2.27s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  16%|#5        | 558/3500 [29:48<1:51:23,  2.27s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  16%|#5        | 558/3500 [29:48<1:51:23,  2.27s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  16%|#5        | 559/3500 [29:48<1:51:28,  2.27s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  16%|#5        | 559/3500 [29:48<1:51:28,  2.27s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  16%|#5        | 559/3500 [29:59<1:51:28,  2.27s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  16%|#5        | 559/3500 [29:59<1:51:28,  2.27s/it, lr: 2.0e-04 loss: 7.901e-02]wan_dewa:  16%|#6        | 560/3500 [30:02<1:51:26,  2.27s/it, lr: 2.0e-04 loss: 9.010e-02]wan_dewa:  16%|#6        | 560/3500 [30:02<1:51:26,  2.27s/it, lr: 2.0e-04 loss: 9.010e-02]wan_dewa:  16%|#6        | 561/3500 [30:02<1:25:58,  1.76s/it, lr: 2.0e-04 loss: 9.010e-02]wan_dewa:  16%|#6        | 561/3500 [30:02<1:25:58,  1.76s/it, lr: 2.0e-04 loss: 9.010e-02]wan_dewa:  16%|#6        | 561/3500 [30:04<1:25:58,  1.76s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  16%|#6        | 561/3500 [30:04<1:25:58,  1.76s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  16%|#6        | 562/3500 [30:04<1:34:19,  1.93s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  16%|#6        | 562/3500 [30:04<1:34:19,  1.93s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  16%|#6        | 562/3500 [30:06<1:34:19,  1.93s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  16%|#6        | 562/3500 [30:06<1:34:19,  1.93s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  16%|#6        | 563/3500 [30:06<1:38:43,  2.02s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  16%|#6        | 563/3500 [30:06<1:38:43,  2.02s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  16%|#6        | 563/3500 [30:09<1:38:43,  2.02s/it, lr: 2.0e-04 loss: 8.924e-02]wan_dewa:  16%|#6        | 563/3500 [30:09<1:38:43,  2.02s/it, lr: 2.0e-04 loss: 8.924e-02]wan_dewa:  16%|#6        | 564/3500 [30:09<1:42:06,  2.09s/it, lr: 2.0e-04 loss: 8.924e-02]wan_dewa:  16%|#6        | 564/3500 [30:09<1:42:06,  2.09s/it, lr: 2.0e-04 loss: 8.924e-02]wan_dewa:  16%|#6        | 564/3500 [30:11<1:42:06,  2.09s/it, lr: 2.0e-04 loss: 9.804e-02]wan_dewa:  16%|#6        | 564/3500 [30:11<1:42:06,  2.09s/it, lr: 2.0e-04 loss: 9.804e-02]wan_dewa:  16%|#6        | 565/3500 [30:11<1:44:37,  2.14s/it, lr: 2.0e-04 loss: 9.804e-02]wan_dewa:  16%|#6        | 565/3500 [30:11<1:44:37,  2.14s/it, lr: 2.0e-04 loss: 9.804e-02]wan_dewa:  16%|#6        | 565/3500 [30:13<1:44:37,  2.14s/it, lr: 2.0e-04 loss: 8.488e-02]wan_dewa:  16%|#6        | 565/3500 [30:13<1:44:37,  2.14s/it, lr: 2.0e-04 loss: 8.488e-02]wan_dewa:  16%|#6        | 566/3500 [30:13<1:46:30,  2.18s/it, lr: 2.0e-04 loss: 8.488e-02]wan_dewa:  16%|#6        | 566/3500 [30:13<1:46:30,  2.18s/it, lr: 2.0e-04 loss: 8.488e-02]wan_dewa:  16%|#6        | 566/3500 [30:16<1:46:30,  2.18s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  16%|#6        | 566/3500 [30:16<1:46:30,  2.18s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  16%|#6        | 567/3500 [30:16<1:50:28,  2.26s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  16%|#6        | 567/3500 [30:16<1:50:28,  2.26s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  16%|#6        | 567/3500 [30:18<1:50:28,  2.26s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  16%|#6        | 567/3500 [30:18<1:50:28,  2.26s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  16%|#6        | 568/3500 [30:18<1:50:41,  2.27s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  16%|#6        | 568/3500 [30:18<1:50:41,  2.27s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  16%|#6        | 568/3500 [30:20<1:50:41,  2.27s/it, lr: 2.0e-04 loss: 1.556e-01]wan_dewa:  16%|#6        | 568/3500 [30:20<1:50:41,  2.27s/it, lr: 2.0e-04 loss: 1.556e-01]wan_dewa:  16%|#6        | 569/3500 [30:20<1:50:49,  2.27s/it, lr: 2.0e-04 loss: 1.556e-01]wan_dewa:  16%|#6        | 569/3500 [30:20<1:50:49,  2.27s/it, lr: 2.0e-04 loss: 1.556e-01]wan_dewa:  16%|#6        | 569/3500 [30:28<1:50:49,  2.27s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:  16%|#6        | 569/3500 [30:28<1:50:49,  2.27s/it, lr: 2.0e-04 loss: 1.167e-01]wan_dewa:  16%|#6        | 570/3500 [30:30<1:50:47,  2.27s/it, lr: 2.0e-04 loss: 1.848e-01]wan_dewa:  16%|#6        | 570/3500 [30:30<1:50:47,  2.27s/it, lr: 2.0e-04 loss: 1.848e-01]wan_dewa:  16%|#6        | 571/3500 [30:30<1:25:28,  1.75s/it, lr: 2.0e-04 loss: 1.848e-01]wan_dewa:  16%|#6        | 571/3500 [30:30<1:25:28,  1.75s/it, lr: 2.0e-04 loss: 1.848e-01]wan_dewa:  16%|#6        | 571/3500 [30:33<1:25:28,  1.75s/it, lr: 2.0e-04 loss: 9.891e-02]wan_dewa:  16%|#6        | 571/3500 [30:33<1:25:28,  1.75s/it, lr: 2.0e-04 loss: 9.891e-02]wan_dewa:  16%|#6        | 572/3500 [30:33<1:34:07,  1.93s/it, lr: 2.0e-04 loss: 9.891e-02]wan_dewa:  16%|#6        | 572/3500 [30:33<1:34:07,  1.93s/it, lr: 2.0e-04 loss: 9.891e-02]wan_dewa:  16%|#6        | 572/3500 [30:35<1:34:07,  1.93s/it, lr: 2.0e-04 loss: 8.554e-02]wan_dewa:  16%|#6        | 572/3500 [30:35<1:34:07,  1.93s/it, lr: 2.0e-04 loss: 8.554e-02]wan_dewa:  16%|#6        | 573/3500 [30:35<1:38:30,  2.02s/it, lr: 2.0e-04 loss: 8.554e-02]wan_dewa:  16%|#6        | 573/3500 [30:35<1:38:30,  2.02s/it, lr: 2.0e-04 loss: 8.554e-02]wan_dewa:  16%|#6        | 573/3500 [30:37<1:38:30,  2.02s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  16%|#6        | 573/3500 [30:37<1:38:30,  2.02s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  16%|#6        | 574/3500 [30:37<1:41:51,  2.09s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  16%|#6        | 574/3500 [30:37<1:41:51,  2.09s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  16%|#6        | 574/3500 [30:42<1:41:51,  2.09s/it, lr: 2.0e-04 loss: 6.734e-02]wan_dewa:  16%|#6        | 574/3500 [30:42<1:41:51,  2.09s/it, lr: 2.0e-04 loss: 6.734e-02]wan_dewa:  16%|#6        | 575/3500 [30:42<1:44:47,  2.15s/it, lr: 2.0e-04 loss: 6.734e-02]wan_dewa:  16%|#6        | 575/3500 [30:42<1:44:47,  2.15s/it, lr: 2.0e-04 loss: 6.734e-02]wan_dewa:  16%|#6        | 575/3500 [30:44<1:44:47,  2.15s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  16%|#6        | 575/3500 [30:44<1:44:47,  2.15s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  16%|#6        | 576/3500 [30:44<1:46:29,  2.19s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  16%|#6        | 576/3500 [30:44<1:46:29,  2.19s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  16%|#6        | 576/3500 [30:47<1:46:29,  2.19s/it, lr: 2.0e-04 loss: 1.580e-01]wan_dewa:  16%|#6        | 576/3500 [30:47<1:46:29,  2.19s/it, lr: 2.0e-04 loss: 1.580e-01]wan_dewa:  16%|#6        | 577/3500 [30:47<1:52:43,  2.31s/it, lr: 2.0e-04 loss: 1.580e-01]wan_dewa:  16%|#6        | 577/3500 [30:47<1:52:43,  2.31s/it, lr: 2.0e-04 loss: 1.580e-01]wan_dewa:  16%|#6        | 577/3500 [30:49<1:52:43,  2.31s/it, lr: 2.0e-04 loss: 6.914e-02]wan_dewa:  16%|#6        | 577/3500 [30:49<1:52:43,  2.31s/it, lr: 2.0e-04 loss: 6.914e-02]wan_dewa:  17%|#6        | 578/3500 [30:49<1:52:04,  2.30s/it, lr: 2.0e-04 loss: 6.914e-02]wan_dewa:  17%|#6        | 578/3500 [30:49<1:52:04,  2.30s/it, lr: 2.0e-04 loss: 6.914e-02]wan_dewa:  17%|#6        | 578/3500 [30:51<1:52:04,  2.30s/it, lr: 2.0e-04 loss: 2.200e-01]wan_dewa:  17%|#6        | 578/3500 [30:51<1:52:04,  2.30s/it, lr: 2.0e-04 loss: 2.200e-01]wan_dewa:  17%|#6        | 579/3500 [30:51<1:51:40,  2.29s/it, lr: 2.0e-04 loss: 2.200e-01]wan_dewa:  17%|#6        | 579/3500 [30:51<1:51:40,  2.29s/it, lr: 2.0e-04 loss: 2.200e-01]wan_dewa:  17%|#6        | 579/3500 [31:03<1:51:40,  2.29s/it, lr: 2.0e-04 loss: 6.153e-02]wan_dewa:  17%|#6        | 579/3500 [31:03<1:51:40,  2.29s/it, lr: 2.0e-04 loss: 6.153e-02]wan_dewa:  17%|#6        | 580/3500 [31:05<1:51:38,  2.29s/it, lr: 2.0e-04 loss: 7.180e-02]wan_dewa:  17%|#6        | 580/3500 [31:05<1:51:38,  2.29s/it, lr: 2.0e-04 loss: 7.180e-02]wan_dewa:  17%|#6        | 581/3500 [31:05<1:25:57,  1.77s/it, lr: 2.0e-04 loss: 7.180e-02]wan_dewa:  17%|#6        | 581/3500 [31:05<1:25:57,  1.77s/it, lr: 2.0e-04 loss: 7.180e-02]wan_dewa:  17%|#6        | 581/3500 [31:07<1:25:57,  1.77s/it, lr: 2.0e-04 loss: 6.582e-02]wan_dewa:  17%|#6        | 581/3500 [31:07<1:25:57,  1.77s/it, lr: 2.0e-04 loss: 6.582e-02]wan_dewa:  17%|#6        | 582/3500 [31:07<1:35:02,  1.95s/it, lr: 2.0e-04 loss: 6.582e-02]wan_dewa:  17%|#6        | 582/3500 [31:07<1:35:02,  1.95s/it, lr: 2.0e-04 loss: 6.582e-02]wan_dewa:  17%|#6        | 582/3500 [31:10<1:35:02,  1.95s/it, lr: 2.0e-04 loss: 8.034e-02]wan_dewa:  17%|#6        | 582/3500 [31:10<1:35:02,  1.95s/it, lr: 2.0e-04 loss: 8.034e-02]wan_dewa:  17%|#6        | 583/3500 [31:10<1:39:01,  2.04s/it, lr: 2.0e-04 loss: 8.034e-02]wan_dewa:  17%|#6        | 583/3500 [31:10<1:39:01,  2.04s/it, lr: 2.0e-04 loss: 8.034e-02]wan_dewa:  17%|#6        | 583/3500 [31:12<1:39:01,  2.04s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  17%|#6        | 583/3500 [31:12<1:39:01,  2.04s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  17%|#6        | 584/3500 [31:12<1:42:03,  2.10s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  17%|#6        | 584/3500 [31:12<1:42:03,  2.10s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  17%|#6        | 584/3500 [31:14<1:42:03,  2.10s/it, lr: 2.0e-04 loss: 3.880e-02]wan_dewa:  17%|#6        | 584/3500 [31:14<1:42:03,  2.10s/it, lr: 2.0e-04 loss: 3.880e-02]wan_dewa:  17%|#6        | 585/3500 [31:14<1:44:22,  2.15s/it, lr: 2.0e-04 loss: 3.880e-02]wan_dewa:  17%|#6        | 585/3500 [31:14<1:44:22,  2.15s/it, lr: 2.0e-04 loss: 3.880e-02]wan_dewa:  17%|#6        | 585/3500 [31:17<1:44:22,  2.15s/it, lr: 2.0e-04 loss: 5.319e-02]wan_dewa:  17%|#6        | 585/3500 [31:17<1:44:22,  2.15s/it, lr: 2.0e-04 loss: 5.319e-02]wan_dewa:  17%|#6        | 586/3500 [31:17<1:46:03,  2.18s/it, lr: 2.0e-04 loss: 5.319e-02]wan_dewa:  17%|#6        | 586/3500 [31:17<1:46:03,  2.18s/it, lr: 2.0e-04 loss: 5.319e-02]wan_dewa:  17%|#6        | 586/3500 [31:19<1:46:03,  2.18s/it, lr: 2.0e-04 loss: 8.480e-02]wan_dewa:  17%|#6        | 586/3500 [31:19<1:46:03,  2.18s/it, lr: 2.0e-04 loss: 8.480e-02]wan_dewa:  17%|#6        | 587/3500 [31:19<1:50:32,  2.28s/it, lr: 2.0e-04 loss: 8.480e-02]wan_dewa:  17%|#6        | 587/3500 [31:19<1:50:32,  2.28s/it, lr: 2.0e-04 loss: 8.480e-02]wan_dewa:  17%|#6        | 587/3500 [31:21<1:50:32,  2.28s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  17%|#6        | 587/3500 [31:21<1:50:32,  2.28s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  17%|#6        | 588/3500 [31:21<1:50:27,  2.28s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  17%|#6        | 588/3500 [31:21<1:50:27,  2.28s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  17%|#6        | 588/3500 [31:24<1:50:27,  2.28s/it, lr: 2.0e-04 loss: 4.823e-02]wan_dewa:  17%|#6        | 588/3500 [31:24<1:50:27,  2.28s/it, lr: 2.0e-04 loss: 4.823e-02]wan_dewa:  17%|#6        | 589/3500 [31:24<1:50:23,  2.28s/it, lr: 2.0e-04 loss: 4.823e-02]wan_dewa:  17%|#6        | 589/3500 [31:24<1:50:23,  2.28s/it, lr: 2.0e-04 loss: 4.823e-02]wan_dewa:  17%|#6        | 589/3500 [31:35<1:50:23,  2.28s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  17%|#6        | 589/3500 [31:35<1:50:23,  2.28s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  17%|#6        | 590/3500 [31:37<1:50:21,  2.28s/it, lr: 2.0e-04 loss: 9.619e-02]wan_dewa:  17%|#6        | 590/3500 [31:37<1:50:21,  2.28s/it, lr: 2.0e-04 loss: 9.619e-02]wan_dewa:  17%|#6        | 591/3500 [31:37<1:25:09,  1.76s/it, lr: 2.0e-04 loss: 9.619e-02]wan_dewa:  17%|#6        | 591/3500 [31:37<1:25:09,  1.76s/it, lr: 2.0e-04 loss: 9.619e-02]wan_dewa:  17%|#6        | 591/3500 [31:39<1:25:09,  1.76s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  17%|#6        | 591/3500 [31:39<1:25:09,  1.76s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  17%|#6        | 592/3500 [31:39<1:31:20,  1.88s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  17%|#6        | 592/3500 [31:39<1:31:20,  1.88s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  17%|#6        | 592/3500 [31:42<1:31:20,  1.88s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  17%|#6        | 592/3500 [31:42<1:31:20,  1.88s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  17%|#6        | 593/3500 [31:42<1:39:05,  2.05s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  17%|#6        | 593/3500 [31:42<1:39:05,  2.05s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  17%|#6        | 593/3500 [31:44<1:39:05,  2.05s/it, lr: 2.0e-04 loss: 1.986e-01]wan_dewa:  17%|#6        | 593/3500 [31:44<1:39:05,  2.05s/it, lr: 2.0e-04 loss: 1.986e-01]wan_dewa:  17%|#6        | 594/3500 [31:44<1:42:06,  2.11s/it, lr: 2.0e-04 loss: 1.986e-01]wan_dewa:  17%|#6        | 594/3500 [31:44<1:42:06,  2.11s/it, lr: 2.0e-04 loss: 1.986e-01]wan_dewa:  17%|#6        | 594/3500 [31:46<1:42:06,  2.11s/it, lr: 2.0e-04 loss: 1.306e-01]wan_dewa:  17%|#6        | 594/3500 [31:46<1:42:06,  2.11s/it, lr: 2.0e-04 loss: 1.306e-01]wan_dewa:  17%|#7        | 595/3500 [31:46<1:44:23,  2.16s/it, lr: 2.0e-04 loss: 1.306e-01]wan_dewa:  17%|#7        | 595/3500 [31:46<1:44:23,  2.16s/it, lr: 2.0e-04 loss: 1.306e-01]wan_dewa:  17%|#7        | 595/3500 [31:49<1:44:23,  2.16s/it, lr: 2.0e-04 loss: 4.431e-02]wan_dewa:  17%|#7        | 595/3500 [31:49<1:44:23,  2.16s/it, lr: 2.0e-04 loss: 4.431e-02]wan_dewa:  17%|#7        | 596/3500 [31:49<1:46:04,  2.19s/it, lr: 2.0e-04 loss: 4.431e-02]wan_dewa:  17%|#7        | 596/3500 [31:49<1:46:04,  2.19s/it, lr: 2.0e-04 loss: 4.431e-02]wan_dewa:  17%|#7        | 596/3500 [31:51<1:46:04,  2.19s/it, lr: 2.0e-04 loss: 6.471e-02]wan_dewa:  17%|#7        | 596/3500 [31:51<1:46:04,  2.19s/it, lr: 2.0e-04 loss: 6.471e-02]wan_dewa:  17%|#7        | 597/3500 [31:51<1:47:21,  2.22s/it, lr: 2.0e-04 loss: 6.471e-02]wan_dewa:  17%|#7        | 597/3500 [31:51<1:47:21,  2.22s/it, lr: 2.0e-04 loss: 6.471e-02]wan_dewa:  17%|#7        | 597/3500 [31:53<1:47:21,  2.22s/it, lr: 2.0e-04 loss: 8.093e-02]wan_dewa:  17%|#7        | 597/3500 [31:53<1:47:21,  2.22s/it, lr: 2.0e-04 loss: 8.093e-02]wan_dewa:  17%|#7        | 598/3500 [31:53<1:51:37,  2.31s/it, lr: 2.0e-04 loss: 8.093e-02]wan_dewa:  17%|#7        | 598/3500 [31:53<1:51:37,  2.31s/it, lr: 2.0e-04 loss: 8.093e-02]wan_dewa:  17%|#7        | 598/3500 [31:56<1:51:37,  2.31s/it, lr: 2.0e-04 loss: 9.455e-02]wan_dewa:  17%|#7        | 598/3500 [31:56<1:51:37,  2.31s/it, lr: 2.0e-04 loss: 9.455e-02]wan_dewa:  17%|#7        | 599/3500 [31:56<1:51:16,  2.30s/it, lr: 2.0e-04 loss: 9.455e-02]wan_dewa:  17%|#7        | 599/3500 [31:56<1:51:16,  2.30s/it, lr: 2.0e-04 loss: 9.455e-02]wan_dewa:  17%|#7        | 599/3500 [32:09<1:51:16,  2.30s/it, lr: 2.0e-04 loss: 3.510e-02]wan_dewa:  17%|#7        | 599/3500 [32:09<1:51:16,  2.30s/it, lr: 2.0e-04 loss: 3.510e-02]wan_dewa:  17%|#7        | 600/3500 [32:11<1:51:14,  2.30s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  17%|#7        | 600/3500 [32:11<1:51:14,  2.30s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  17%|#7        | 601/3500 [32:11<1:25:38,  1.77s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  17%|#7        | 601/3500 [32:11<1:25:38,  1.77s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  17%|#7        | 601/3500 [32:13<1:25:38,  1.77s/it, lr: 2.0e-04 loss: 7.978e-02]wan_dewa:  17%|#7        | 601/3500 [32:13<1:25:38,  1.77s/it, lr: 2.0e-04 loss: 7.978e-02]wan_dewa:  17%|#7        | 602/3500 [32:13<1:31:34,  1.90s/it, lr: 2.0e-04 loss: 7.978e-02]wan_dewa:  17%|#7        | 602/3500 [32:13<1:31:34,  1.90s/it, lr: 2.0e-04 loss: 7.978e-02]wan_dewa:  17%|#7        | 602/3500 [32:16<1:31:34,  1.90s/it, lr: 2.0e-04 loss: 6.118e-02]wan_dewa:  17%|#7        | 602/3500 [32:16<1:31:34,  1.90s/it, lr: 2.0e-04 loss: 6.118e-02]wan_dewa:  17%|#7        | 603/3500 [32:16<1:40:30,  2.08s/it, lr: 2.0e-04 loss: 6.118e-02]wan_dewa:  17%|#7        | 603/3500 [32:16<1:40:30,  2.08s/it, lr: 2.0e-04 loss: 6.118e-02]wan_dewa:  17%|#7        | 603/3500 [32:18<1:40:30,  2.08s/it, lr: 2.0e-04 loss: 4.004e-02]wan_dewa:  17%|#7        | 603/3500 [32:18<1:40:30,  2.08s/it, lr: 2.0e-04 loss: 4.004e-02]wan_dewa:  17%|#7        | 604/3500 [32:18<1:43:00,  2.13s/it, lr: 2.0e-04 loss: 4.004e-02]wan_dewa:  17%|#7        | 604/3500 [32:18<1:43:00,  2.13s/it, lr: 2.0e-04 loss: 4.004e-02]wan_dewa:  17%|#7        | 604/3500 [32:21<1:43:00,  2.13s/it, lr: 2.0e-04 loss: 6.978e-02]wan_dewa:  17%|#7        | 604/3500 [32:21<1:43:00,  2.13s/it, lr: 2.0e-04 loss: 6.978e-02]wan_dewa:  17%|#7        | 605/3500 [32:21<1:44:50,  2.17s/it, lr: 2.0e-04 loss: 6.978e-02]wan_dewa:  17%|#7        | 605/3500 [32:21<1:44:50,  2.17s/it, lr: 2.0e-04 loss: 6.978e-02]wan_dewa:  17%|#7        | 605/3500 [32:23<1:44:50,  2.17s/it, lr: 2.0e-04 loss: 8.082e-02]wan_dewa:  17%|#7        | 605/3500 [32:23<1:44:50,  2.17s/it, lr: 2.0e-04 loss: 8.082e-02]wan_dewa:  17%|#7        | 606/3500 [32:23<1:46:11,  2.20s/it, lr: 2.0e-04 loss: 8.082e-02]wan_dewa:  17%|#7        | 606/3500 [32:23<1:46:11,  2.20s/it, lr: 2.0e-04 loss: 8.082e-02]wan_dewa:  17%|#7        | 606/3500 [32:25<1:46:11,  2.20s/it, lr: 2.0e-04 loss: 6.922e-02]wan_dewa:  17%|#7        | 606/3500 [32:25<1:46:11,  2.20s/it, lr: 2.0e-04 loss: 6.922e-02]wan_dewa:  17%|#7        | 607/3500 [32:25<1:47:11,  2.22s/it, lr: 2.0e-04 loss: 6.922e-02]wan_dewa:  17%|#7        | 607/3500 [32:25<1:47:11,  2.22s/it, lr: 2.0e-04 loss: 6.922e-02]wan_dewa:  17%|#7        | 607/3500 [32:28<1:47:11,  2.22s/it, lr: 2.0e-04 loss: 5.919e-02]wan_dewa:  17%|#7        | 607/3500 [32:28<1:47:11,  2.22s/it, lr: 2.0e-04 loss: 5.919e-02]wan_dewa:  17%|#7        | 608/3500 [32:28<1:50:38,  2.30s/it, lr: 2.0e-04 loss: 5.919e-02]wan_dewa:  17%|#7        | 608/3500 [32:28<1:50:38,  2.30s/it, lr: 2.0e-04 loss: 5.919e-02]wan_dewa:  17%|#7        | 608/3500 [32:30<1:50:38,  2.30s/it, lr: 2.0e-04 loss: 5.439e-02]wan_dewa:  17%|#7        | 608/3500 [32:30<1:50:38,  2.30s/it, lr: 2.0e-04 loss: 5.439e-02]wan_dewa:  17%|#7        | 609/3500 [32:30<1:50:21,  2.29s/it, lr: 2.0e-04 loss: 5.439e-02]wan_dewa:  17%|#7        | 609/3500 [32:30<1:50:21,  2.29s/it, lr: 2.0e-04 loss: 5.439e-02]wan_dewa:  17%|#7        | 609/3500 [32:41<1:50:21,  2.29s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  17%|#7        | 609/3500 [32:41<1:50:21,  2.29s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  17%|#7        | 610/3500 [32:43<1:50:18,  2.29s/it, lr: 2.0e-04 loss: 6.888e-02]wan_dewa:  17%|#7        | 610/3500 [32:43<1:50:18,  2.29s/it, lr: 2.0e-04 loss: 6.888e-02]wan_dewa:  17%|#7        | 611/3500 [32:43<1:24:52,  1.76s/it, lr: 2.0e-04 loss: 6.888e-02]wan_dewa:  17%|#7        | 611/3500 [32:43<1:24:52,  1.76s/it, lr: 2.0e-04 loss: 6.888e-02]wan_dewa:  17%|#7        | 611/3500 [32:45<1:24:52,  1.76s/it, lr: 2.0e-04 loss: 6.646e-02]wan_dewa:  17%|#7        | 611/3500 [32:45<1:24:52,  1.76s/it, lr: 2.0e-04 loss: 6.646e-02]wan_dewa:  17%|#7        | 612/3500 [32:45<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.646e-02]wan_dewa:  17%|#7        | 612/3500 [32:45<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.646e-02]wan_dewa:  17%|#7        | 612/3500 [32:48<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 1.637e-01]wan_dewa:  17%|#7        | 612/3500 [32:48<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 1.637e-01]wan_dewa:  18%|#7        | 613/3500 [32:48<1:38:16,  2.04s/it, lr: 2.0e-04 loss: 1.637e-01]wan_dewa:  18%|#7        | 613/3500 [32:48<1:38:16,  2.04s/it, lr: 2.0e-04 loss: 1.637e-01]wan_dewa:  18%|#7        | 613/3500 [32:50<1:38:16,  2.04s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  18%|#7        | 613/3500 [32:50<1:38:16,  2.04s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  18%|#7        | 614/3500 [32:50<1:41:13,  2.10s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  18%|#7        | 614/3500 [32:50<1:41:13,  2.10s/it, lr: 2.0e-04 loss: 8.429e-02]wan_dewa:  18%|#7        | 614/3500 [32:52<1:41:13,  2.10s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  18%|#7        | 614/3500 [32:52<1:41:13,  2.10s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  18%|#7        | 615/3500 [32:52<1:43:26,  2.15s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  18%|#7        | 615/3500 [32:52<1:43:26,  2.15s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  18%|#7        | 615/3500 [32:55<1:43:26,  2.15s/it, lr: 2.0e-04 loss: 5.693e-02]wan_dewa:  18%|#7        | 615/3500 [32:55<1:43:26,  2.15s/it, lr: 2.0e-04 loss: 5.693e-02]wan_dewa:  18%|#7        | 616/3500 [32:55<1:45:04,  2.19s/it, lr: 2.0e-04 loss: 5.693e-02]wan_dewa:  18%|#7        | 616/3500 [32:55<1:45:04,  2.19s/it, lr: 2.0e-04 loss: 5.693e-02]wan_dewa:  18%|#7        | 616/3500 [32:57<1:45:04,  2.19s/it, lr: 2.0e-04 loss: 8.142e-02]wan_dewa:  18%|#7        | 616/3500 [32:57<1:45:04,  2.19s/it, lr: 2.0e-04 loss: 8.142e-02]wan_dewa:  18%|#7        | 617/3500 [32:57<1:46:16,  2.21s/it, lr: 2.0e-04 loss: 8.142e-02]wan_dewa:  18%|#7        | 617/3500 [32:57<1:46:16,  2.21s/it, lr: 2.0e-04 loss: 8.142e-02]wan_dewa:  18%|#7        | 617/3500 [32:59<1:46:16,  2.21s/it, lr: 2.0e-04 loss: 1.191e-01]wan_dewa:  18%|#7        | 617/3500 [32:59<1:46:16,  2.21s/it, lr: 2.0e-04 loss: 1.191e-01]wan_dewa:  18%|#7        | 618/3500 [32:59<1:47:05,  2.23s/it, lr: 2.0e-04 loss: 1.191e-01]wan_dewa:  18%|#7        | 618/3500 [32:59<1:47:05,  2.23s/it, lr: 2.0e-04 loss: 1.191e-01]wan_dewa:  18%|#7        | 618/3500 [33:02<1:47:05,  2.23s/it, lr: 2.0e-04 loss: 8.126e-02]wan_dewa:  18%|#7        | 618/3500 [33:02<1:47:05,  2.23s/it, lr: 2.0e-04 loss: 8.126e-02]wan_dewa:  18%|#7        | 619/3500 [33:02<1:50:28,  2.30s/it, lr: 2.0e-04 loss: 8.126e-02]wan_dewa:  18%|#7        | 619/3500 [33:02<1:50:28,  2.30s/it, lr: 2.0e-04 loss: 8.126e-02]wan_dewa:  18%|#7        | 619/3500 [33:09<1:50:28,  2.30s/it, lr: 2.0e-04 loss: 7.141e-02]wan_dewa:  18%|#7        | 619/3500 [33:09<1:50:28,  2.30s/it, lr: 2.0e-04 loss: 7.141e-02]wan_dewa:  18%|#7        | 620/3500 [33:12<1:50:26,  2.30s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  18%|#7        | 620/3500 [33:12<1:50:26,  2.30s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  18%|#7        | 621/3500 [33:12<1:24:54,  1.77s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  18%|#7        | 621/3500 [33:12<1:24:54,  1.77s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  18%|#7        | 621/3500 [33:14<1:24:54,  1.77s/it, lr: 2.0e-04 loss: 6.904e-02]wan_dewa:  18%|#7        | 621/3500 [33:14<1:24:54,  1.77s/it, lr: 2.0e-04 loss: 6.904e-02]wan_dewa:  18%|#7        | 622/3500 [33:14<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.904e-02]wan_dewa:  18%|#7        | 622/3500 [33:14<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.904e-02]wan_dewa:  18%|#7        | 622/3500 [33:16<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.132e-02]wan_dewa:  18%|#7        | 622/3500 [33:16<1:30:53,  1.89s/it, lr: 2.0e-04 loss: 6.132e-02]wan_dewa:  18%|#7        | 623/3500 [33:16<1:35:38,  1.99s/it, lr: 2.0e-04 loss: 6.132e-02]wan_dewa:  18%|#7        | 623/3500 [33:16<1:35:38,  1.99s/it, lr: 2.0e-04 loss: 6.132e-02]wan_dewa:  18%|#7        | 623/3500 [33:19<1:35:38,  1.99s/it, lr: 2.0e-04 loss: 8.601e-02]wan_dewa:  18%|#7        | 623/3500 [33:19<1:35:38,  1.99s/it, lr: 2.0e-04 loss: 8.601e-02]wan_dewa:  18%|#7        | 624/3500 [33:19<1:41:54,  2.13s/it, lr: 2.0e-04 loss: 8.601e-02]wan_dewa:  18%|#7        | 624/3500 [33:19<1:41:54,  2.13s/it, lr: 2.0e-04 loss: 8.601e-02]wan_dewa:  18%|#7        | 624/3500 [33:23<1:41:54,  2.13s/it, lr: 2.0e-04 loss: 7.470e-02]wan_dewa:  18%|#7        | 624/3500 [33:23<1:41:54,  2.13s/it, lr: 2.0e-04 loss: 7.470e-02]wan_dewa:  18%|#7        | 625/3500 [33:23<1:44:20,  2.18s/it, lr: 2.0e-04 loss: 7.470e-02]wan_dewa:  18%|#7        | 625/3500 [33:23<1:44:20,  2.18s/it, lr: 2.0e-04 loss: 7.470e-02]wan_dewa:  18%|#7        | 625/3500 [33:25<1:44:20,  2.18s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  18%|#7        | 625/3500 [33:25<1:44:20,  2.18s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  18%|#7        | 626/3500 [33:25<1:45:41,  2.21s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  18%|#7        | 626/3500 [33:25<1:45:41,  2.21s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  18%|#7        | 626/3500 [33:28<1:45:41,  2.21s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  18%|#7        | 626/3500 [33:28<1:45:41,  2.21s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  18%|#7        | 627/3500 [33:28<1:46:41,  2.23s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  18%|#7        | 627/3500 [33:28<1:46:41,  2.23s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  18%|#7        | 627/3500 [33:30<1:46:41,  2.23s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  18%|#7        | 627/3500 [33:30<1:46:41,  2.23s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  18%|#7        | 628/3500 [33:30<1:47:20,  2.24s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  18%|#7        | 628/3500 [33:30<1:47:20,  2.24s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  18%|#7        | 628/3500 [33:32<1:47:20,  2.24s/it, lr: 2.0e-04 loss: 6.387e-02]wan_dewa:  18%|#7        | 628/3500 [33:32<1:47:20,  2.24s/it, lr: 2.0e-04 loss: 6.387e-02]wan_dewa:  18%|#7        | 629/3500 [33:32<1:52:41,  2.35s/it, lr: 2.0e-04 loss: 6.387e-02]wan_dewa:  18%|#7        | 629/3500 [33:32<1:52:41,  2.35s/it, lr: 2.0e-04 loss: 6.387e-02]wan_dewa:  18%|#7        | 629/3500 [33:43<1:52:41,  2.35s/it, lr: 2.0e-04 loss: 1.506e-01]wan_dewa:  18%|#7        | 629/3500 [33:43<1:52:41,  2.35s/it, lr: 2.0e-04 loss: 1.506e-01]wan_dewa:  18%|#8        | 630/3500 [33:46<1:52:38,  2.35s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  18%|#8        | 630/3500 [33:46<1:52:38,  2.35s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  18%|#8        | 631/3500 [33:46<1:26:11,  1.80s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  18%|#8        | 631/3500 [33:46<1:26:11,  1.80s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  18%|#8        | 631/3500 [33:48<1:26:11,  1.80s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  18%|#8        | 631/3500 [33:48<1:26:11,  1.80s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  18%|#8        | 632/3500 [33:48<1:31:39,  1.92s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  18%|#8        | 632/3500 [33:48<1:31:39,  1.92s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  18%|#8        | 632/3500 [33:51<1:31:39,  1.92s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  18%|#8        | 632/3500 [33:51<1:31:39,  1.92s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  18%|#8        | 633/3500 [33:51<1:38:41,  2.07s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  18%|#8        | 633/3500 [33:51<1:38:41,  2.07s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  18%|#8        | 633/3500 [33:53<1:38:41,  2.07s/it, lr: 2.0e-04 loss: 5.416e-02]wan_dewa:  18%|#8        | 633/3500 [33:53<1:38:41,  2.07s/it, lr: 2.0e-04 loss: 5.416e-02]wan_dewa:  18%|#8        | 634/3500 [33:53<1:41:18,  2.12s/it, lr: 2.0e-04 loss: 5.416e-02]wan_dewa:  18%|#8        | 634/3500 [33:53<1:41:18,  2.12s/it, lr: 2.0e-04 loss: 5.416e-02]wan_dewa:  18%|#8        | 634/3500 [33:55<1:41:18,  2.12s/it, lr: 2.0e-04 loss: 5.476e-02]wan_dewa:  18%|#8        | 634/3500 [33:55<1:41:18,  2.12s/it, lr: 2.0e-04 loss: 5.476e-02]wan_dewa:  18%|#8        | 635/3500 [33:55<1:43:18,  2.16s/it, lr: 2.0e-04 loss: 5.476e-02]wan_dewa:  18%|#8        | 635/3500 [33:55<1:43:18,  2.16s/it, lr: 2.0e-04 loss: 5.476e-02]wan_dewa:  18%|#8        | 635/3500 [33:57<1:43:18,  2.16s/it, lr: 2.0e-04 loss: 6.958e-02]wan_dewa:  18%|#8        | 635/3500 [33:57<1:43:18,  2.16s/it, lr: 2.0e-04 loss: 6.958e-02]wan_dewa:  18%|#8        | 636/3500 [33:57<1:44:46,  2.20s/it, lr: 2.0e-04 loss: 6.958e-02]wan_dewa:  18%|#8        | 636/3500 [33:57<1:44:46,  2.20s/it, lr: 2.0e-04 loss: 6.958e-02]wan_dewa:  18%|#8        | 636/3500 [34:00<1:44:46,  2.20s/it, lr: 2.0e-04 loss: 7.624e-02]wan_dewa:  18%|#8        | 636/3500 [34:00<1:44:46,  2.20s/it, lr: 2.0e-04 loss: 7.624e-02]wan_dewa:  18%|#8        | 637/3500 [34:00<1:45:50,  2.22s/it, lr: 2.0e-04 loss: 7.624e-02]wan_dewa:  18%|#8        | 637/3500 [34:00<1:45:50,  2.22s/it, lr: 2.0e-04 loss: 7.624e-02]wan_dewa:  18%|#8        | 637/3500 [34:02<1:45:50,  2.22s/it, lr: 2.0e-04 loss: 2.000e-01]wan_dewa:  18%|#8        | 637/3500 [34:02<1:45:50,  2.22s/it, lr: 2.0e-04 loss: 2.000e-01]wan_dewa:  18%|#8        | 638/3500 [34:02<1:46:34,  2.23s/it, lr: 2.0e-04 loss: 2.000e-01]wan_dewa:  18%|#8        | 638/3500 [34:02<1:46:34,  2.23s/it, lr: 2.0e-04 loss: 2.000e-01]wan_dewa:  18%|#8        | 638/3500 [34:04<1:46:34,  2.23s/it, lr: 2.0e-04 loss: 7.032e-02]wan_dewa:  18%|#8        | 638/3500 [34:04<1:46:34,  2.23s/it, lr: 2.0e-04 loss: 7.032e-02]wan_dewa:  18%|#8        | 639/3500 [34:04<1:49:59,  2.31s/it, lr: 2.0e-04 loss: 7.032e-02]wan_dewa:  18%|#8        | 639/3500 [34:04<1:49:59,  2.31s/it, lr: 2.0e-04 loss: 7.032e-02]wan_dewa:  18%|#8        | 639/3500 [34:15<1:49:59,  2.31s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  18%|#8        | 639/3500 [34:15<1:49:59,  2.31s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  18%|#8        | 640/3500 [34:18<1:49:56,  2.31s/it, lr: 2.0e-04 loss: 7.680e-02]wan_dewa:  18%|#8        | 640/3500 [34:18<1:49:56,  2.31s/it, lr: 2.0e-04 loss: 7.680e-02]wan_dewa:  18%|#8        | 641/3500 [34:18<1:24:28,  1.77s/it, lr: 2.0e-04 loss: 7.680e-02]wan_dewa:  18%|#8        | 641/3500 [34:18<1:24:28,  1.77s/it, lr: 2.0e-04 loss: 7.680e-02]wan_dewa:  18%|#8        | 641/3500 [34:20<1:24:28,  1.77s/it, lr: 2.0e-04 loss: 5.723e-02]wan_dewa:  18%|#8        | 641/3500 [34:20<1:24:28,  1.77s/it, lr: 2.0e-04 loss: 5.723e-02]wan_dewa:  18%|#8        | 642/3500 [34:20<1:30:20,  1.90s/it, lr: 2.0e-04 loss: 5.723e-02]wan_dewa:  18%|#8        | 642/3500 [34:20<1:30:20,  1.90s/it, lr: 2.0e-04 loss: 5.723e-02]wan_dewa:  18%|#8        | 642/3500 [34:23<1:30:20,  1.90s/it, lr: 2.0e-04 loss: 7.596e-02]wan_dewa:  18%|#8        | 642/3500 [34:23<1:30:20,  1.90s/it, lr: 2.0e-04 loss: 7.596e-02]wan_dewa:  18%|#8        | 643/3500 [34:23<1:38:01,  2.06s/it, lr: 2.0e-04 loss: 7.596e-02]wan_dewa:  18%|#8        | 643/3500 [34:23<1:38:01,  2.06s/it, lr: 2.0e-04 loss: 7.596e-02]wan_dewa:  18%|#8        | 643/3500 [34:25<1:38:01,  2.06s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  18%|#8        | 643/3500 [34:25<1:38:01,  2.06s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  18%|#8        | 644/3500 [34:25<1:40:51,  2.12s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  18%|#8        | 644/3500 [34:25<1:40:51,  2.12s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  18%|#8        | 644/3500 [34:27<1:40:51,  2.12s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  18%|#8        | 644/3500 [34:27<1:40:51,  2.12s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  18%|#8        | 645/3500 [34:27<1:42:56,  2.16s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  18%|#8        | 645/3500 [34:27<1:42:56,  2.16s/it, lr: 2.0e-04 loss: 8.359e-02]wan_dewa:  18%|#8        | 645/3500 [34:29<1:42:56,  2.16s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  18%|#8        | 645/3500 [34:29<1:42:56,  2.16s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  18%|#8        | 646/3500 [34:29<1:44:29,  2.20s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  18%|#8        | 646/3500 [34:29<1:44:29,  2.20s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  18%|#8        | 646/3500 [34:32<1:44:29,  2.20s/it, lr: 2.0e-04 loss: 8.102e-02]wan_dewa:  18%|#8        | 646/3500 [34:32<1:44:29,  2.20s/it, lr: 2.0e-04 loss: 8.102e-02]wan_dewa:  18%|#8        | 647/3500 [34:32<1:45:37,  2.22s/it, lr: 2.0e-04 loss: 8.102e-02]wan_dewa:  18%|#8        | 647/3500 [34:32<1:45:37,  2.22s/it, lr: 2.0e-04 loss: 8.102e-02]wan_dewa:  18%|#8        | 647/3500 [34:34<1:45:37,  2.22s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  18%|#8        | 647/3500 [34:34<1:45:37,  2.22s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  19%|#8        | 648/3500 [34:34<1:49:21,  2.30s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  19%|#8        | 648/3500 [34:34<1:49:21,  2.30s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  19%|#8        | 648/3500 [34:36<1:49:21,  2.30s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:  19%|#8        | 648/3500 [34:36<1:49:21,  2.30s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:  19%|#8        | 649/3500 [34:36<1:49:03,  2.30s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:  19%|#8        | 649/3500 [34:36<1:49:03,  2.30s/it, lr: 2.0e-04 loss: 7.214e-02]wan_dewa:  19%|#8        | 649/3500 [34:50<1:49:03,  2.30s/it, lr: 2.0e-04 loss: 8.001e-02]wan_dewa:  19%|#8        | 649/3500 [34:50<1:49:03,  2.30s/it, lr: 2.0e-04 loss: 8.001e-02]wan_dewa:  19%|#8        | 650/3500 [34:52<1:49:00,  2.30s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  19%|#8        | 650/3500 [34:52<1:49:00,  2.30s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  19%|#8        | 651/3500 [34:52<1:23:56,  1.77s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  19%|#8        | 651/3500 [34:52<1:23:56,  1.77s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  19%|#8        | 651/3500 [34:54<1:23:56,  1.77s/it, lr: 2.0e-04 loss: 6.271e-02]wan_dewa:  19%|#8        | 651/3500 [34:54<1:23:56,  1.77s/it, lr: 2.0e-04 loss: 6.271e-02]wan_dewa:  19%|#8        | 652/3500 [34:54<1:29:47,  1.89s/it, lr: 2.0e-04 loss: 6.271e-02]wan_dewa:  19%|#8        | 652/3500 [34:54<1:29:47,  1.89s/it, lr: 2.0e-04 loss: 6.271e-02]wan_dewa:  19%|#8        | 652/3500 [34:56<1:29:47,  1.89s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  19%|#8        | 652/3500 [34:56<1:29:47,  1.89s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  19%|#8        | 653/3500 [34:56<1:34:24,  1.99s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  19%|#8        | 653/3500 [34:56<1:34:24,  1.99s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  19%|#8        | 653/3500 [34:59<1:34:24,  1.99s/it, lr: 2.0e-04 loss: 7.669e-02]wan_dewa:  19%|#8        | 653/3500 [34:59<1:34:24,  1.99s/it, lr: 2.0e-04 loss: 7.669e-02]wan_dewa:  19%|#8        | 654/3500 [34:59<1:41:56,  2.15s/it, lr: 2.0e-04 loss: 7.669e-02]wan_dewa:  19%|#8        | 654/3500 [34:59<1:41:56,  2.15s/it, lr: 2.0e-04 loss: 7.669e-02]wan_dewa:  19%|#8        | 654/3500 [35:01<1:41:56,  2.15s/it, lr: 2.0e-04 loss: 8.167e-02]wan_dewa:  19%|#8        | 654/3500 [35:01<1:41:56,  2.15s/it, lr: 2.0e-04 loss: 8.167e-02]wan_dewa:  19%|#8        | 655/3500 [35:01<1:43:30,  2.18s/it, lr: 2.0e-04 loss: 8.167e-02]wan_dewa:  19%|#8        | 655/3500 [35:01<1:43:30,  2.18s/it, lr: 2.0e-04 loss: 8.167e-02]wan_dewa:  19%|#8        | 655/3500 [35:04<1:43:30,  2.18s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:  19%|#8        | 655/3500 [35:04<1:43:30,  2.18s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:  19%|#8        | 656/3500 [35:04<1:44:40,  2.21s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:  19%|#8        | 656/3500 [35:04<1:44:40,  2.21s/it, lr: 2.0e-04 loss: 5.871e-02]wan_dewa:  19%|#8        | 656/3500 [35:06<1:44:40,  2.21s/it, lr: 2.0e-04 loss: 5.501e-02]wan_dewa:  19%|#8        | 656/3500 [35:06<1:44:40,  2.21s/it, lr: 2.0e-04 loss: 5.501e-02]wan_dewa:  19%|#8        | 657/3500 [35:06<1:45:30,  2.23s/it, lr: 2.0e-04 loss: 5.501e-02]wan_dewa:  19%|#8        | 657/3500 [35:06<1:45:30,  2.23s/it, lr: 2.0e-04 loss: 5.501e-02]wan_dewa:  19%|#8        | 657/3500 [35:08<1:45:30,  2.23s/it, lr: 2.0e-04 loss: 7.538e-02]wan_dewa:  19%|#8        | 657/3500 [35:08<1:45:30,  2.23s/it, lr: 2.0e-04 loss: 7.538e-02]wan_dewa:  19%|#8        | 658/3500 [35:08<1:46:05,  2.24s/it, lr: 2.0e-04 loss: 7.538e-02]wan_dewa:  19%|#8        | 658/3500 [35:08<1:46:05,  2.24s/it, lr: 2.0e-04 loss: 7.538e-02]wan_dewa:  19%|#8        | 658/3500 [35:11<1:46:05,  2.24s/it, lr: 2.0e-04 loss: 8.299e-02]wan_dewa:  19%|#8        | 658/3500 [35:11<1:46:05,  2.24s/it, lr: 2.0e-04 loss: 8.299e-02]wan_dewa:  19%|#8        | 659/3500 [35:11<1:49:14,  2.31s/it, lr: 2.0e-04 loss: 8.299e-02]wan_dewa:  19%|#8        | 659/3500 [35:11<1:49:14,  2.31s/it, lr: 2.0e-04 loss: 8.299e-02]wan_dewa:  19%|#8        | 659/3500 [35:22<1:49:14,  2.31s/it, lr: 2.0e-04 loss: 7.571e-02]wan_dewa:  19%|#8        | 659/3500 [35:22<1:49:14,  2.31s/it, lr: 2.0e-04 loss: 7.571e-02]wan_dewa:  19%|#8        | 660/3500 [35:24<1:49:11,  2.31s/it, lr: 2.0e-04 loss: 5.359e-02]wan_dewa:  19%|#8        | 660/3500 [35:24<1:49:11,  2.31s/it, lr: 2.0e-04 loss: 5.359e-02]wan_dewa:  19%|#8        | 661/3500 [35:24<1:23:53,  1.77s/it, lr: 2.0e-04 loss: 5.359e-02]wan_dewa:  19%|#8        | 661/3500 [35:24<1:23:53,  1.77s/it, lr: 2.0e-04 loss: 5.359e-02]wan_dewa:  19%|#8        | 661/3500 [35:26<1:23:53,  1.77s/it, lr: 2.0e-04 loss: 6.741e-02]wan_dewa:  19%|#8        | 661/3500 [35:26<1:23:53,  1.77s/it, lr: 2.0e-04 loss: 6.741e-02]wan_dewa:  19%|#8        | 662/3500 [35:26<1:29:45,  1.90s/it, lr: 2.0e-04 loss: 6.741e-02]wan_dewa:  19%|#8        | 662/3500 [35:26<1:29:45,  1.90s/it, lr: 2.0e-04 loss: 6.741e-02]wan_dewa:  19%|#8        | 662/3500 [35:28<1:29:45,  1.90s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  19%|#8        | 662/3500 [35:28<1:29:45,  1.90s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  19%|#8        | 663/3500 [35:28<1:34:25,  2.00s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  19%|#8        | 663/3500 [35:28<1:34:25,  2.00s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  19%|#8        | 663/3500 [35:31<1:34:25,  2.00s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  19%|#8        | 663/3500 [35:31<1:34:25,  2.00s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  19%|#8        | 664/3500 [35:31<1:40:19,  2.12s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  19%|#8        | 664/3500 [35:31<1:40:19,  2.12s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  19%|#8        | 664/3500 [35:33<1:40:19,  2.12s/it, lr: 2.0e-04 loss: 7.110e-02]wan_dewa:  19%|#8        | 664/3500 [35:33<1:40:19,  2.12s/it, lr: 2.0e-04 loss: 7.110e-02]wan_dewa:  19%|#9        | 665/3500 [35:33<1:42:22,  2.17s/it, lr: 2.0e-04 loss: 7.110e-02]wan_dewa:  19%|#9        | 665/3500 [35:33<1:42:22,  2.17s/it, lr: 2.0e-04 loss: 7.110e-02]wan_dewa:  19%|#9        | 665/3500 [35:35<1:42:22,  2.17s/it, lr: 2.0e-04 loss: 3.912e-02]wan_dewa:  19%|#9        | 665/3500 [35:35<1:42:22,  2.17s/it, lr: 2.0e-04 loss: 3.912e-02]wan_dewa:  19%|#9        | 666/3500 [35:35<1:43:52,  2.20s/it, lr: 2.0e-04 loss: 3.912e-02]wan_dewa:  19%|#9        | 666/3500 [35:35<1:43:52,  2.20s/it, lr: 2.0e-04 loss: 3.912e-02]wan_dewa:  19%|#9        | 666/3500 [35:38<1:43:52,  2.20s/it, lr: 2.0e-04 loss: 8.633e-02]wan_dewa:  19%|#9        | 666/3500 [35:38<1:43:52,  2.20s/it, lr: 2.0e-04 loss: 8.633e-02]wan_dewa:  19%|#9        | 667/3500 [35:38<1:44:58,  2.22s/it, lr: 2.0e-04 loss: 8.633e-02]wan_dewa:  19%|#9        | 667/3500 [35:38<1:44:58,  2.22s/it, lr: 2.0e-04 loss: 8.633e-02]wan_dewa:  19%|#9        | 667/3500 [35:40<1:44:58,  2.22s/it, lr: 2.0e-04 loss: 6.009e-02]wan_dewa:  19%|#9        | 667/3500 [35:40<1:44:58,  2.22s/it, lr: 2.0e-04 loss: 6.009e-02]wan_dewa:  19%|#9        | 668/3500 [35:40<1:45:45,  2.24s/it, lr: 2.0e-04 loss: 6.009e-02]wan_dewa:  19%|#9        | 668/3500 [35:40<1:45:45,  2.24s/it, lr: 2.0e-04 loss: 6.009e-02]wan_dewa:  19%|#9        | 668/3500 [35:42<1:45:45,  2.24s/it, lr: 2.0e-04 loss: 3.772e-02]wan_dewa:  19%|#9        | 668/3500 [35:42<1:45:45,  2.24s/it, lr: 2.0e-04 loss: 3.772e-02]wan_dewa:  19%|#9        | 669/3500 [35:42<1:49:01,  2.31s/it, lr: 2.0e-04 loss: 3.772e-02]wan_dewa:  19%|#9        | 669/3500 [35:42<1:49:01,  2.31s/it, lr: 2.0e-04 loss: 3.772e-02]wan_dewa:  19%|#9        | 669/3500 [35:50<1:49:01,  2.31s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  19%|#9        | 669/3500 [35:50<1:49:01,  2.31s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  19%|#9        | 670/3500 [35:52<1:48:58,  2.31s/it, lr: 2.0e-04 loss: 8.258e-02]wan_dewa:  19%|#9        | 670/3500 [35:52<1:48:58,  2.31s/it, lr: 2.0e-04 loss: 8.258e-02]wan_dewa:  19%|#9        | 671/3500 [35:52<1:23:37,  1.77s/it, lr: 2.0e-04 loss: 8.258e-02]wan_dewa:  19%|#9        | 671/3500 [35:52<1:23:37,  1.77s/it, lr: 2.0e-04 loss: 8.258e-02]wan_dewa:  19%|#9        | 671/3500 [35:55<1:23:37,  1.77s/it, lr: 2.0e-04 loss: 8.745e-02]wan_dewa:  19%|#9        | 671/3500 [35:55<1:23:37,  1.77s/it, lr: 2.0e-04 loss: 8.745e-02]wan_dewa:  19%|#9        | 672/3500 [35:55<1:29:21,  1.90s/it, lr: 2.0e-04 loss: 8.745e-02]wan_dewa:  19%|#9        | 672/3500 [35:55<1:29:21,  1.90s/it, lr: 2.0e-04 loss: 8.745e-02]wan_dewa:  19%|#9        | 672/3500 [35:57<1:29:21,  1.90s/it, lr: 2.0e-04 loss: 8.499e-02]wan_dewa:  19%|#9        | 672/3500 [35:57<1:29:21,  1.90s/it, lr: 2.0e-04 loss: 8.499e-02]wan_dewa:  19%|#9        | 673/3500 [35:57<1:33:55,  1.99s/it, lr: 2.0e-04 loss: 8.499e-02]wan_dewa:  19%|#9        | 673/3500 [35:57<1:33:55,  1.99s/it, lr: 2.0e-04 loss: 8.499e-02]wan_dewa:  19%|#9        | 673/3500 [35:59<1:33:55,  1.99s/it, lr: 2.0e-04 loss: 9.456e-02]wan_dewa:  19%|#9        | 673/3500 [35:59<1:33:55,  1.99s/it, lr: 2.0e-04 loss: 9.456e-02]wan_dewa:  19%|#9        | 674/3500 [35:59<1:39:58,  2.12s/it, lr: 2.0e-04 loss: 9.456e-02]wan_dewa:  19%|#9        | 674/3500 [35:59<1:39:58,  2.12s/it, lr: 2.0e-04 loss: 9.456e-02]wan_dewa:  19%|#9        | 674/3500 [36:04<1:39:58,  2.12s/it, lr: 2.0e-04 loss: 6.372e-02]wan_dewa:  19%|#9        | 674/3500 [36:04<1:39:58,  2.12s/it, lr: 2.0e-04 loss: 6.372e-02]wan_dewa:  19%|#9        | 675/3500 [36:04<1:42:19,  2.17s/it, lr: 2.0e-04 loss: 6.372e-02]wan_dewa:  19%|#9        | 675/3500 [36:04<1:42:19,  2.17s/it, lr: 2.0e-04 loss: 6.372e-02]wan_dewa:  19%|#9        | 675/3500 [36:06<1:42:19,  2.17s/it, lr: 2.0e-04 loss: 7.328e-02]wan_dewa:  19%|#9        | 675/3500 [36:06<1:42:19,  2.17s/it, lr: 2.0e-04 loss: 7.328e-02]wan_dewa:  19%|#9        | 676/3500 [36:06<1:43:38,  2.20s/it, lr: 2.0e-04 loss: 7.328e-02]wan_dewa:  19%|#9        | 676/3500 [36:06<1:43:38,  2.20s/it, lr: 2.0e-04 loss: 7.328e-02]wan_dewa:  19%|#9        | 676/3500 [36:08<1:43:38,  2.20s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  19%|#9        | 676/3500 [36:08<1:43:38,  2.20s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  19%|#9        | 677/3500 [36:09<1:44:32,  2.22s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  19%|#9        | 677/3500 [36:09<1:44:32,  2.22s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  19%|#9        | 677/3500 [36:11<1:44:32,  2.22s/it, lr: 2.0e-04 loss: 7.875e-02]wan_dewa:  19%|#9        | 677/3500 [36:11<1:44:32,  2.22s/it, lr: 2.0e-04 loss: 7.875e-02]wan_dewa:  19%|#9        | 678/3500 [36:11<1:45:09,  2.24s/it, lr: 2.0e-04 loss: 7.875e-02]wan_dewa:  19%|#9        | 678/3500 [36:11<1:45:09,  2.24s/it, lr: 2.0e-04 loss: 7.875e-02]wan_dewa:  19%|#9        | 678/3500 [36:13<1:45:09,  2.24s/it, lr: 2.0e-04 loss: 1.075e-01]wan_dewa:  19%|#9        | 678/3500 [36:13<1:45:09,  2.24s/it, lr: 2.0e-04 loss: 1.075e-01]wan_dewa:  19%|#9        | 679/3500 [36:13<1:45:40,  2.25s/it, lr: 2.0e-04 loss: 1.075e-01]wan_dewa:  19%|#9        | 679/3500 [36:13<1:45:40,  2.25s/it, lr: 2.0e-04 loss: 1.075e-01]wan_dewa:  19%|#9        | 679/3500 [36:25<1:45:40,  2.25s/it, lr: 2.0e-04 loss: 3.360e-02]wan_dewa:  19%|#9        | 679/3500 [36:25<1:45:40,  2.25s/it, lr: 2.0e-04 loss: 3.360e-02]wan_dewa:  19%|#9        | 680/3500 [36:27<1:45:37,  2.25s/it, lr: 2.0e-04 loss: 3.948e-02]wan_dewa:  19%|#9        | 680/3500 [36:27<1:45:37,  2.25s/it, lr: 2.0e-04 loss: 3.948e-02]wan_dewa:  19%|#9        | 681/3500 [36:27<1:21:58,  1.74s/it, lr: 2.0e-04 loss: 3.948e-02]wan_dewa:  19%|#9        | 681/3500 [36:27<1:21:58,  1.74s/it, lr: 2.0e-04 loss: 3.948e-02]wan_dewa:  19%|#9        | 681/3500 [36:29<1:21:58,  1.74s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  19%|#9        | 681/3500 [36:29<1:21:58,  1.74s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  19%|#9        | 682/3500 [36:29<1:28:03,  1.87s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  19%|#9        | 682/3500 [36:29<1:28:03,  1.87s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  19%|#9        | 682/3500 [36:32<1:28:03,  1.87s/it, lr: 2.0e-04 loss: 5.793e-02]wan_dewa:  19%|#9        | 682/3500 [36:32<1:28:03,  1.87s/it, lr: 2.0e-04 loss: 5.793e-02]wan_dewa:  20%|#9        | 683/3500 [36:32<1:32:53,  1.98s/it, lr: 2.0e-04 loss: 5.793e-02]wan_dewa:  20%|#9        | 683/3500 [36:32<1:32:53,  1.98s/it, lr: 2.0e-04 loss: 5.793e-02]wan_dewa:  20%|#9        | 683/3500 [36:34<1:32:53,  1.98s/it, lr: 2.0e-04 loss: 6.463e-02]wan_dewa:  20%|#9        | 683/3500 [36:34<1:32:53,  1.98s/it, lr: 2.0e-04 loss: 6.463e-02]wan_dewa:  20%|#9        | 684/3500 [36:34<1:36:37,  2.06s/it, lr: 2.0e-04 loss: 6.463e-02]wan_dewa:  20%|#9        | 684/3500 [36:34<1:36:37,  2.06s/it, lr: 2.0e-04 loss: 6.463e-02]wan_dewa:  20%|#9        | 684/3500 [36:36<1:36:37,  2.06s/it, lr: 2.0e-04 loss: 9.458e-02]wan_dewa:  20%|#9        | 684/3500 [36:36<1:36:37,  2.06s/it, lr: 2.0e-04 loss: 9.458e-02]wan_dewa:  20%|#9        | 685/3500 [36:36<1:41:48,  2.17s/it, lr: 2.0e-04 loss: 9.458e-02]wan_dewa:  20%|#9        | 685/3500 [36:36<1:41:48,  2.17s/it, lr: 2.0e-04 loss: 9.458e-02]wan_dewa:  20%|#9        | 685/3500 [36:39<1:41:48,  2.17s/it, lr: 2.0e-04 loss: 1.003e-01]wan_dewa:  20%|#9        | 685/3500 [36:39<1:41:48,  2.17s/it, lr: 2.0e-04 loss: 1.003e-01]wan_dewa:  20%|#9        | 686/3500 [36:39<1:43:12,  2.20s/it, lr: 2.0e-04 loss: 1.003e-01]wan_dewa:  20%|#9        | 686/3500 [36:39<1:43:12,  2.20s/it, lr: 2.0e-04 loss: 1.003e-01]wan_dewa:  20%|#9        | 686/3500 [36:41<1:43:12,  2.20s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  20%|#9        | 686/3500 [36:41<1:43:12,  2.20s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  20%|#9        | 687/3500 [36:41<1:44:12,  2.22s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  20%|#9        | 687/3500 [36:41<1:44:12,  2.22s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  20%|#9        | 687/3500 [36:43<1:44:12,  2.22s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  20%|#9        | 687/3500 [36:43<1:44:12,  2.22s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  20%|#9        | 688/3500 [36:43<1:44:54,  2.24s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  20%|#9        | 688/3500 [36:43<1:44:54,  2.24s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  20%|#9        | 688/3500 [36:45<1:44:54,  2.24s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  20%|#9        | 688/3500 [36:45<1:44:54,  2.24s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  20%|#9        | 689/3500 [36:45<1:45:27,  2.25s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  20%|#9        | 689/3500 [36:45<1:45:27,  2.25s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  20%|#9        | 689/3500 [36:57<1:45:27,  2.25s/it, lr: 2.0e-04 loss: 9.093e-02]wan_dewa:  20%|#9        | 689/3500 [36:57<1:45:27,  2.25s/it, lr: 2.0e-04 loss: 9.093e-02]wan_dewa:  20%|#9        | 690/3500 [36:59<1:45:25,  2.25s/it, lr: 2.0e-04 loss: 1.303e-01]wan_dewa:  20%|#9        | 690/3500 [36:59<1:45:25,  2.25s/it, lr: 2.0e-04 loss: 1.303e-01]wan_dewa:  20%|#9        | 691/3500 [36:59<1:21:31,  1.74s/it, lr: 2.0e-04 loss: 1.303e-01]wan_dewa:  20%|#9        | 691/3500 [36:59<1:21:31,  1.74s/it, lr: 2.0e-04 loss: 1.303e-01]wan_dewa:  20%|#9        | 691/3500 [37:01<1:21:31,  1.74s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  20%|#9        | 691/3500 [37:01<1:21:31,  1.74s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  20%|#9        | 692/3500 [37:01<1:27:39,  1.87s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  20%|#9        | 692/3500 [37:01<1:27:39,  1.87s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  20%|#9        | 692/3500 [37:03<1:27:39,  1.87s/it, lr: 2.0e-04 loss: 6.508e-02]wan_dewa:  20%|#9        | 692/3500 [37:03<1:27:39,  1.87s/it, lr: 2.0e-04 loss: 6.508e-02]wan_dewa:  20%|#9        | 693/3500 [37:03<1:32:31,  1.98s/it, lr: 2.0e-04 loss: 6.508e-02]wan_dewa:  20%|#9        | 693/3500 [37:03<1:32:31,  1.98s/it, lr: 2.0e-04 loss: 6.508e-02]wan_dewa:  20%|#9        | 693/3500 [37:06<1:32:31,  1.98s/it, lr: 2.0e-04 loss: 7.105e-02]wan_dewa:  20%|#9        | 693/3500 [37:06<1:32:31,  1.98s/it, lr: 2.0e-04 loss: 7.105e-02]wan_dewa:  20%|#9        | 694/3500 [37:06<1:38:29,  2.11s/it, lr: 2.0e-04 loss: 7.105e-02]wan_dewa:  20%|#9        | 694/3500 [37:06<1:38:29,  2.11s/it, lr: 2.0e-04 loss: 7.105e-02]wan_dewa:  20%|#9        | 694/3500 [37:08<1:38:29,  2.11s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  20%|#9        | 694/3500 [37:08<1:38:29,  2.11s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  20%|#9        | 695/3500 [37:08<1:40:40,  2.15s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  20%|#9        | 695/3500 [37:08<1:40:40,  2.15s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  20%|#9        | 695/3500 [37:10<1:40:40,  2.15s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  20%|#9        | 695/3500 [37:10<1:40:40,  2.15s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  20%|#9        | 696/3500 [37:10<1:42:17,  2.19s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  20%|#9        | 696/3500 [37:10<1:42:17,  2.19s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  20%|#9        | 696/3500 [37:13<1:42:17,  2.19s/it, lr: 2.0e-04 loss: 2.202e-01]wan_dewa:  20%|#9        | 696/3500 [37:13<1:42:17,  2.19s/it, lr: 2.0e-04 loss: 2.202e-01]wan_dewa:  20%|#9        | 697/3500 [37:13<1:43:28,  2.21s/it, lr: 2.0e-04 loss: 2.202e-01]wan_dewa:  20%|#9        | 697/3500 [37:13<1:43:28,  2.21s/it, lr: 2.0e-04 loss: 2.202e-01]wan_dewa:  20%|#9        | 697/3500 [37:15<1:43:28,  2.21s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  20%|#9        | 697/3500 [37:15<1:43:28,  2.21s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  20%|#9        | 698/3500 [37:15<1:44:18,  2.23s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  20%|#9        | 698/3500 [37:15<1:44:18,  2.23s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  20%|#9        | 698/3500 [37:17<1:44:18,  2.23s/it, lr: 2.0e-04 loss: 9.666e-02]wan_dewa:  20%|#9        | 698/3500 [37:17<1:44:18,  2.23s/it, lr: 2.0e-04 loss: 9.666e-02]wan_dewa:  20%|#9        | 699/3500 [37:17<1:44:56,  2.25s/it, lr: 2.0e-04 loss: 9.666e-02]wan_dewa:  20%|#9        | 699/3500 [37:17<1:44:56,  2.25s/it, lr: 2.0e-04 loss: 9.666e-02]wan_dewa:  20%|#9        | 699/3500 [37:31<1:44:56,  2.25s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  20%|#9        | 699/3500 [37:31<1:44:56,  2.25s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  20%|##        | 700/3500 [37:33<1:44:54,  2.25s/it, lr: 2.0e-04 loss: 7.873e-02]wan_dewa:  20%|##        | 700/3500 [37:33<1:44:54,  2.25s/it, lr: 2.0e-04 loss: 7.873e-02]wan_dewa:  20%|##        | 701/3500 [37:33<1:21:20,  1.74s/it, lr: 2.0e-04 loss: 7.873e-02]wan_dewa:  20%|##        | 701/3500 [37:33<1:21:20,  1.74s/it, lr: 2.0e-04 loss: 7.873e-02]wan_dewa:  20%|##        | 701/3500 [37:35<1:21:20,  1.74s/it, lr: 2.0e-04 loss: 7.359e-02]wan_dewa:  20%|##        | 701/3500 [37:35<1:21:20,  1.74s/it, lr: 2.0e-04 loss: 7.359e-02]wan_dewa:  20%|##        | 702/3500 [37:35<1:27:27,  1.88s/it, lr: 2.0e-04 loss: 7.359e-02]wan_dewa:  20%|##        | 702/3500 [37:35<1:27:27,  1.88s/it, lr: 2.0e-04 loss: 7.359e-02]wan_dewa:  20%|##        | 702/3500 [37:38<1:27:27,  1.88s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  20%|##        | 702/3500 [37:38<1:27:27,  1.88s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  20%|##        | 703/3500 [37:38<1:32:16,  1.98s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  20%|##        | 703/3500 [37:38<1:32:16,  1.98s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  20%|##        | 703/3500 [37:40<1:32:16,  1.98s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  20%|##        | 703/3500 [37:40<1:32:16,  1.98s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  20%|##        | 704/3500 [37:40<1:35:59,  2.06s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  20%|##        | 704/3500 [37:40<1:35:59,  2.06s/it, lr: 2.0e-04 loss: 7.433e-02]wan_dewa:  20%|##        | 704/3500 [37:42<1:35:59,  2.06s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  20%|##        | 704/3500 [37:42<1:35:59,  2.06s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  20%|##        | 705/3500 [37:42<1:41:10,  2.17s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  20%|##        | 705/3500 [37:42<1:41:10,  2.17s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  20%|##        | 705/3500 [37:45<1:41:10,  2.17s/it, lr: 2.0e-04 loss: 6.470e-02]wan_dewa:  20%|##        | 705/3500 [37:45<1:41:10,  2.17s/it, lr: 2.0e-04 loss: 6.470e-02]wan_dewa:  20%|##        | 706/3500 [37:45<1:42:39,  2.20s/it, lr: 2.0e-04 loss: 6.470e-02]wan_dewa:  20%|##        | 706/3500 [37:45<1:42:39,  2.20s/it, lr: 2.0e-04 loss: 6.470e-02]wan_dewa:  20%|##        | 706/3500 [37:47<1:42:39,  2.20s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  20%|##        | 706/3500 [37:47<1:42:39,  2.20s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  20%|##        | 707/3500 [37:47<1:43:46,  2.23s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  20%|##        | 707/3500 [37:47<1:43:46,  2.23s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  20%|##        | 707/3500 [37:49<1:43:46,  2.23s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  20%|##        | 707/3500 [37:49<1:43:46,  2.23s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  20%|##        | 708/3500 [37:49<1:44:31,  2.25s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  20%|##        | 708/3500 [37:49<1:44:31,  2.25s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  20%|##        | 708/3500 [37:52<1:44:31,  2.25s/it, lr: 2.0e-04 loss: 8.434e-02]wan_dewa:  20%|##        | 708/3500 [37:52<1:44:31,  2.25s/it, lr: 2.0e-04 loss: 8.434e-02]wan_dewa:  20%|##        | 709/3500 [37:52<1:45:08,  2.26s/it, lr: 2.0e-04 loss: 8.434e-02]wan_dewa:  20%|##        | 709/3500 [37:52<1:45:08,  2.26s/it, lr: 2.0e-04 loss: 8.434e-02]wan_dewa:  20%|##        | 709/3500 [38:03<1:45:08,  2.26s/it, lr: 2.0e-04 loss: 4.015e-02]wan_dewa:  20%|##        | 709/3500 [38:03<1:45:08,  2.26s/it, lr: 2.0e-04 loss: 4.015e-02]wan_dewa:  20%|##        | 710/3500 [38:05<1:45:05,  2.26s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 710/3500 [38:05<1:45:05,  2.26s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 711/3500 [38:05<1:21:17,  1.75s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 711/3500 [38:05<1:21:17,  1.75s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 711/3500 [38:08<1:21:17,  1.75s/it, lr: 2.0e-04 loss: 9.822e-02]wan_dewa:  20%|##        | 711/3500 [38:08<1:21:17,  1.75s/it, lr: 2.0e-04 loss: 9.822e-02]wan_dewa:  20%|##        | 712/3500 [38:08<1:27:13,  1.88s/it, lr: 2.0e-04 loss: 9.822e-02]wan_dewa:  20%|##        | 712/3500 [38:08<1:27:13,  1.88s/it, lr: 2.0e-04 loss: 9.822e-02]wan_dewa:  20%|##        | 712/3500 [38:10<1:27:13,  1.88s/it, lr: 2.0e-04 loss: 6.119e-02]wan_dewa:  20%|##        | 712/3500 [38:10<1:27:13,  1.88s/it, lr: 2.0e-04 loss: 6.119e-02]wan_dewa:  20%|##        | 713/3500 [38:10<1:31:57,  1.98s/it, lr: 2.0e-04 loss: 6.119e-02]wan_dewa:  20%|##        | 713/3500 [38:10<1:31:57,  1.98s/it, lr: 2.0e-04 loss: 6.119e-02]wan_dewa:  20%|##        | 713/3500 [38:12<1:31:57,  1.98s/it, lr: 2.0e-04 loss: 3.491e-02]wan_dewa:  20%|##        | 713/3500 [38:12<1:31:57,  1.98s/it, lr: 2.0e-04 loss: 3.491e-02]wan_dewa:  20%|##        | 714/3500 [38:12<1:35:37,  2.06s/it, lr: 2.0e-04 loss: 3.491e-02]wan_dewa:  20%|##        | 714/3500 [38:12<1:35:37,  2.06s/it, lr: 2.0e-04 loss: 3.491e-02]wan_dewa:  20%|##        | 714/3500 [38:15<1:35:37,  2.06s/it, lr: 2.0e-04 loss: 6.891e-02]wan_dewa:  20%|##        | 714/3500 [38:15<1:35:37,  2.06s/it, lr: 2.0e-04 loss: 6.891e-02]wan_dewa:  20%|##        | 715/3500 [38:15<1:40:47,  2.17s/it, lr: 2.0e-04 loss: 6.891e-02]wan_dewa:  20%|##        | 715/3500 [38:15<1:40:47,  2.17s/it, lr: 2.0e-04 loss: 6.891e-02]wan_dewa:  20%|##        | 715/3500 [38:17<1:40:47,  2.17s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 715/3500 [38:17<1:40:47,  2.17s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 716/3500 [38:17<1:42:07,  2.20s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 716/3500 [38:17<1:42:07,  2.20s/it, lr: 2.0e-04 loss: 8.923e-02]wan_dewa:  20%|##        | 716/3500 [38:19<1:42:07,  2.20s/it, lr: 2.0e-04 loss: 4.132e-02]wan_dewa:  20%|##        | 716/3500 [38:19<1:42:07,  2.20s/it, lr: 2.0e-04 loss: 4.132e-02]wan_dewa:  20%|##        | 717/3500 [38:19<1:43:04,  2.22s/it, lr: 2.0e-04 loss: 4.132e-02]wan_dewa:  20%|##        | 717/3500 [38:19<1:43:04,  2.22s/it, lr: 2.0e-04 loss: 4.132e-02]wan_dewa:  20%|##        | 717/3500 [38:21<1:43:04,  2.22s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  20%|##        | 717/3500 [38:21<1:43:04,  2.22s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  21%|##        | 718/3500 [38:21<1:43:47,  2.24s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  21%|##        | 718/3500 [38:21<1:43:47,  2.24s/it, lr: 2.0e-04 loss: 8.362e-02]wan_dewa:  21%|##        | 718/3500 [38:24<1:43:47,  2.24s/it, lr: 2.0e-04 loss: 7.980e-02]wan_dewa:  21%|##        | 718/3500 [38:24<1:43:47,  2.24s/it, lr: 2.0e-04 loss: 7.980e-02]wan_dewa:  21%|##        | 719/3500 [38:24<1:44:14,  2.25s/it, lr: 2.0e-04 loss: 7.980e-02]wan_dewa:  21%|##        | 719/3500 [38:24<1:44:14,  2.25s/it, lr: 2.0e-04 loss: 7.980e-02]wan_dewa:  21%|##        | 719/3500 [38:32<1:44:14,  2.25s/it, lr: 2.0e-04 loss: 6.749e-02]wan_dewa:  21%|##        | 719/3500 [38:32<1:44:14,  2.25s/it, lr: 2.0e-04 loss: 6.749e-02]wan_dewa:  21%|##        | 720/3500 [38:34<1:44:12,  2.25s/it, lr: 2.0e-04 loss: 6.984e-02]wan_dewa:  21%|##        | 720/3500 [38:34<1:44:12,  2.25s/it, lr: 2.0e-04 loss: 6.984e-02]wan_dewa:  21%|##        | 721/3500 [38:34<1:20:38,  1.74s/it, lr: 2.0e-04 loss: 6.984e-02]wan_dewa:  21%|##        | 721/3500 [38:34<1:20:38,  1.74s/it, lr: 2.0e-04 loss: 6.984e-02]wan_dewa:  21%|##        | 721/3500 [38:36<1:20:38,  1.74s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  21%|##        | 721/3500 [38:36<1:20:38,  1.74s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  21%|##        | 722/3500 [38:36<1:26:41,  1.87s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  21%|##        | 722/3500 [38:36<1:26:41,  1.87s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  21%|##        | 722/3500 [38:39<1:26:41,  1.87s/it, lr: 2.0e-04 loss: 7.738e-02]wan_dewa:  21%|##        | 722/3500 [38:39<1:26:41,  1.87s/it, lr: 2.0e-04 loss: 7.738e-02]wan_dewa:  21%|##        | 723/3500 [38:39<1:31:31,  1.98s/it, lr: 2.0e-04 loss: 7.738e-02]wan_dewa:  21%|##        | 723/3500 [38:39<1:31:31,  1.98s/it, lr: 2.0e-04 loss: 7.738e-02]wan_dewa:  21%|##        | 723/3500 [38:41<1:31:31,  1.98s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  21%|##        | 723/3500 [38:41<1:31:31,  1.98s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  21%|##        | 724/3500 [38:41<1:35:16,  2.06s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  21%|##        | 724/3500 [38:41<1:35:16,  2.06s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  21%|##        | 724/3500 [38:46<1:35:16,  2.06s/it, lr: 2.0e-04 loss: 7.885e-02]wan_dewa:  21%|##        | 724/3500 [38:46<1:35:16,  2.06s/it, lr: 2.0e-04 loss: 7.885e-02]wan_dewa:  21%|##        | 725/3500 [38:46<1:42:00,  2.21s/it, lr: 2.0e-04 loss: 7.885e-02]wan_dewa:  21%|##        | 725/3500 [38:46<1:42:00,  2.21s/it, lr: 2.0e-04 loss: 7.885e-02]wan_dewa:  21%|##        | 725/3500 [38:48<1:42:00,  2.21s/it, lr: 2.0e-04 loss: 5.648e-02]wan_dewa:  21%|##        | 725/3500 [38:48<1:42:00,  2.21s/it, lr: 2.0e-04 loss: 5.648e-02]wan_dewa:  21%|##        | 726/3500 [38:48<1:42:54,  2.23s/it, lr: 2.0e-04 loss: 5.648e-02]wan_dewa:  21%|##        | 726/3500 [38:48<1:42:54,  2.23s/it, lr: 2.0e-04 loss: 5.648e-02]wan_dewa:  21%|##        | 726/3500 [38:50<1:42:54,  2.23s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  21%|##        | 726/3500 [38:50<1:42:54,  2.23s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  21%|##        | 727/3500 [38:50<1:43:33,  2.24s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  21%|##        | 727/3500 [38:50<1:43:33,  2.24s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  21%|##        | 727/3500 [38:52<1:43:33,  2.24s/it, lr: 2.0e-04 loss: 7.521e-02]wan_dewa:  21%|##        | 727/3500 [38:52<1:43:33,  2.24s/it, lr: 2.0e-04 loss: 7.521e-02]wan_dewa:  21%|##        | 728/3500 [38:52<1:43:59,  2.25s/it, lr: 2.0e-04 loss: 7.521e-02]wan_dewa:  21%|##        | 728/3500 [38:52<1:43:59,  2.25s/it, lr: 2.0e-04 loss: 7.521e-02]wan_dewa:  21%|##        | 728/3500 [38:55<1:43:59,  2.25s/it, lr: 2.0e-04 loss: 8.031e-02]wan_dewa:  21%|##        | 728/3500 [38:55<1:43:59,  2.25s/it, lr: 2.0e-04 loss: 8.031e-02]wan_dewa:  21%|##        | 729/3500 [38:55<1:44:20,  2.26s/it, lr: 2.0e-04 loss: 8.031e-02]wan_dewa:  21%|##        | 729/3500 [38:55<1:44:20,  2.26s/it, lr: 2.0e-04 loss: 8.031e-02]wan_dewa:  21%|##        | 729/3500 [39:06<1:44:20,  2.26s/it, lr: 2.0e-04 loss: 1.741e-01]wan_dewa:  21%|##        | 729/3500 [39:06<1:44:20,  2.26s/it, lr: 2.0e-04 loss: 1.741e-01]wan_dewa:  21%|##        | 730/3500 [39:09<1:44:18,  2.26s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  21%|##        | 730/3500 [39:09<1:44:18,  2.26s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  21%|##        | 731/3500 [39:09<1:23:21,  1.81s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  21%|##        | 731/3500 [39:09<1:23:21,  1.81s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  21%|##        | 731/3500 [39:11<1:23:21,  1.81s/it, lr: 2.0e-04 loss: 2.195e-01]wan_dewa:  21%|##        | 731/3500 [39:11<1:23:21,  1.81s/it, lr: 2.0e-04 loss: 2.195e-01]wan_dewa:  21%|##        | 732/3500 [39:11<1:28:37,  1.92s/it, lr: 2.0e-04 loss: 2.195e-01]wan_dewa:  21%|##        | 732/3500 [39:11<1:28:37,  1.92s/it, lr: 2.0e-04 loss: 2.195e-01]wan_dewa:  21%|##        | 732/3500 [39:13<1:28:37,  1.92s/it, lr: 2.0e-04 loss: 5.637e-02]wan_dewa:  21%|##        | 732/3500 [39:13<1:28:37,  1.92s/it, lr: 2.0e-04 loss: 5.637e-02]wan_dewa:  21%|##        | 733/3500 [39:13<1:32:47,  2.01s/it, lr: 2.0e-04 loss: 5.637e-02]wan_dewa:  21%|##        | 733/3500 [39:13<1:32:47,  2.01s/it, lr: 2.0e-04 loss: 5.637e-02]wan_dewa:  21%|##        | 733/3500 [39:15<1:32:47,  2.01s/it, lr: 2.0e-04 loss: 4.207e-02]wan_dewa:  21%|##        | 733/3500 [39:15<1:32:47,  2.01s/it, lr: 2.0e-04 loss: 4.207e-02]wan_dewa:  21%|##        | 734/3500 [39:15<1:36:01,  2.08s/it, lr: 2.0e-04 loss: 4.207e-02]wan_dewa:  21%|##        | 734/3500 [39:15<1:36:01,  2.08s/it, lr: 2.0e-04 loss: 4.207e-02]wan_dewa:  21%|##        | 734/3500 [39:18<1:36:01,  2.08s/it, lr: 2.0e-04 loss: 1.002e-01]wan_dewa:  21%|##        | 734/3500 [39:18<1:36:01,  2.08s/it, lr: 2.0e-04 loss: 1.002e-01]wan_dewa:  21%|##1       | 735/3500 [39:18<1:38:27,  2.14s/it, lr: 2.0e-04 loss: 1.002e-01]wan_dewa:  21%|##1       | 735/3500 [39:18<1:38:27,  2.14s/it, lr: 2.0e-04 loss: 1.002e-01]wan_dewa:  21%|##1       | 735/3500 [39:20<1:38:27,  2.14s/it, lr: 2.0e-04 loss: 2.004e-01]wan_dewa:  21%|##1       | 735/3500 [39:20<1:38:27,  2.14s/it, lr: 2.0e-04 loss: 2.004e-01]wan_dewa:  21%|##1       | 736/3500 [39:20<1:43:36,  2.25s/it, lr: 2.0e-04 loss: 2.004e-01]wan_dewa:  21%|##1       | 736/3500 [39:20<1:43:36,  2.25s/it, lr: 2.0e-04 loss: 2.004e-01]wan_dewa:  21%|##1       | 736/3500 [39:23<1:43:36,  2.25s/it, lr: 2.0e-04 loss: 9.823e-02]wan_dewa:  21%|##1       | 736/3500 [39:23<1:43:36,  2.25s/it, lr: 2.0e-04 loss: 9.823e-02]wan_dewa:  21%|##1       | 737/3500 [39:23<1:43:54,  2.26s/it, lr: 2.0e-04 loss: 9.823e-02]wan_dewa:  21%|##1       | 737/3500 [39:23<1:43:54,  2.26s/it, lr: 2.0e-04 loss: 9.823e-02]wan_dewa:  21%|##1       | 737/3500 [39:25<1:43:54,  2.26s/it, lr: 2.0e-04 loss: 4.505e-01]wan_dewa:  21%|##1       | 737/3500 [39:25<1:43:54,  2.26s/it, lr: 2.0e-04 loss: 4.505e-01]wan_dewa:  21%|##1       | 738/3500 [39:25<1:44:07,  2.26s/it, lr: 2.0e-04 loss: 4.505e-01]wan_dewa:  21%|##1       | 738/3500 [39:25<1:44:07,  2.26s/it, lr: 2.0e-04 loss: 4.505e-01]wan_dewa:  21%|##1       | 738/3500 [39:27<1:44:07,  2.26s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  21%|##1       | 738/3500 [39:27<1:44:07,  2.26s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  21%|##1       | 739/3500 [39:27<1:44:30,  2.27s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  21%|##1       | 739/3500 [39:27<1:44:30,  2.27s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  21%|##1       | 739/3500 [39:38<1:44:30,  2.27s/it, lr: 2.0e-04 loss: 7.487e-02]wan_dewa:  21%|##1       | 739/3500 [39:38<1:44:30,  2.27s/it, lr: 2.0e-04 loss: 7.487e-02]wan_dewa:  21%|##1       | 740/3500 [39:41<1:44:27,  2.27s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  21%|##1       | 740/3500 [39:41<1:44:27,  2.27s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  21%|##1       | 741/3500 [39:41<1:20:33,  1.75s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  21%|##1       | 741/3500 [39:41<1:20:33,  1.75s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  21%|##1       | 741/3500 [39:43<1:20:33,  1.75s/it, lr: 2.0e-04 loss: 6.799e-02]wan_dewa:  21%|##1       | 741/3500 [39:43<1:20:33,  1.75s/it, lr: 2.0e-04 loss: 6.799e-02]wan_dewa:  21%|##1       | 742/3500 [39:43<1:26:24,  1.88s/it, lr: 2.0e-04 loss: 6.799e-02]wan_dewa:  21%|##1       | 742/3500 [39:43<1:26:24,  1.88s/it, lr: 2.0e-04 loss: 6.799e-02]wan_dewa:  21%|##1       | 742/3500 [39:45<1:26:24,  1.88s/it, lr: 2.0e-04 loss: 6.601e-02]wan_dewa:  21%|##1       | 742/3500 [39:45<1:26:24,  1.88s/it, lr: 2.0e-04 loss: 6.601e-02]wan_dewa:  21%|##1       | 743/3500 [39:45<1:31:05,  1.98s/it, lr: 2.0e-04 loss: 6.601e-02]wan_dewa:  21%|##1       | 743/3500 [39:45<1:31:05,  1.98s/it, lr: 2.0e-04 loss: 6.601e-02]wan_dewa:  21%|##1       | 743/3500 [39:48<1:31:05,  1.98s/it, lr: 2.0e-04 loss: 7.298e-02]wan_dewa:  21%|##1       | 743/3500 [39:48<1:31:05,  1.98s/it, lr: 2.0e-04 loss: 7.298e-02]wan_dewa:  21%|##1       | 744/3500 [39:48<1:34:41,  2.06s/it, lr: 2.0e-04 loss: 7.298e-02]wan_dewa:  21%|##1       | 744/3500 [39:48<1:34:41,  2.06s/it, lr: 2.0e-04 loss: 7.298e-02]wan_dewa:  21%|##1       | 744/3500 [39:50<1:34:41,  2.06s/it, lr: 2.0e-04 loss: 6.994e-02]wan_dewa:  21%|##1       | 744/3500 [39:50<1:34:41,  2.06s/it, lr: 2.0e-04 loss: 6.994e-02]wan_dewa:  21%|##1       | 745/3500 [39:50<1:40:18,  2.18s/it, lr: 2.0e-04 loss: 6.994e-02]wan_dewa:  21%|##1       | 745/3500 [39:50<1:40:18,  2.18s/it, lr: 2.0e-04 loss: 6.994e-02]wan_dewa:  21%|##1       | 745/3500 [39:52<1:40:18,  2.18s/it, lr: 2.0e-04 loss: 7.946e-02]wan_dewa:  21%|##1       | 745/3500 [39:52<1:40:18,  2.18s/it, lr: 2.0e-04 loss: 7.946e-02]wan_dewa:  21%|##1       | 746/3500 [39:52<1:41:26,  2.21s/it, lr: 2.0e-04 loss: 7.946e-02]wan_dewa:  21%|##1       | 746/3500 [39:52<1:41:26,  2.21s/it, lr: 2.0e-04 loss: 7.946e-02]wan_dewa:  21%|##1       | 746/3500 [39:55<1:41:26,  2.21s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  21%|##1       | 746/3500 [39:55<1:41:26,  2.21s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  21%|##1       | 747/3500 [39:55<1:42:17,  2.23s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  21%|##1       | 747/3500 [39:55<1:42:17,  2.23s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  21%|##1       | 747/3500 [39:57<1:42:17,  2.23s/it, lr: 2.0e-04 loss: 6.998e-02]wan_dewa:  21%|##1       | 747/3500 [39:57<1:42:17,  2.23s/it, lr: 2.0e-04 loss: 6.998e-02]wan_dewa:  21%|##1       | 748/3500 [39:57<1:42:53,  2.24s/it, lr: 2.0e-04 loss: 6.998e-02]wan_dewa:  21%|##1       | 748/3500 [39:57<1:42:53,  2.24s/it, lr: 2.0e-04 loss: 6.998e-02]wan_dewa:  21%|##1       | 748/3500 [39:59<1:42:53,  2.24s/it, lr: 2.0e-04 loss: 9.625e-02]wan_dewa:  21%|##1       | 748/3500 [39:59<1:42:53,  2.24s/it, lr: 2.0e-04 loss: 9.625e-02]wan_dewa:  21%|##1       | 749/3500 [39:59<1:43:18,  2.25s/it, lr: 2.0e-04 loss: 9.625e-02]wan_dewa:  21%|##1       | 749/3500 [39:59<1:43:18,  2.25s/it, lr: 2.0e-04 loss: 9.625e-02]wan_dewa:  21%|##1       | 749/3500 [40:13<1:43:18,  2.25s/it, lr: 2.0e-04 loss: 9.031e-02]wan_dewa:  21%|##1       | 749/3500 [40:13<1:43:18,  2.25s/it, lr: 2.0e-04 loss: 9.031e-02]
+Saving at step 750
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000000750.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.59s/it]  4%|4         | 1/25 [00:04<01:50,  4.59s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.60s/it] 16%|#6        | 4/25 [00:18<01:36,  4.60s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.61s/it] 28%|##8       | 7/25 [00:32<01:23,  4.61s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:47<01:42,  6.38s/it] 36%|###6      | 9/25 [00:47<01:42,  6.38s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:27,  5.84s/it] 40%|####      | 10/25 [00:51<01:27,  5.84s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.46s/it] 44%|####4     | 11/25 [00:56<01:16,  5.46s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.21s/it] 48%|####8     | 12/25 [01:00<01:07,  5.21s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.91s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.91s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:38<00:23,  4.67s/it] 80%|########  | 20/25 [01:38<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.24s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.24s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.65s/it] 32%|###2      | 8/25 [00:37<01:19,  4.65s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:33,  5.84s/it] 36%|###6      | 9/25 [00:45<01:33,  5.84s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:22,  5.47s/it] 40%|####      | 10/25 [00:50<01:22,  5.47s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:13,  5.22s/it] 44%|####4     | 11/25 [00:54<01:13,  5.22s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.04s/it] 48%|####8     | 12/25 [00:59<01:05,  5.04s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.74s/it] 64%|######4   | 16/25 [01:18<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.67s/it] 84%|########4 | 21/25 [01:41<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.66s/it] 96%|#########6| 24/25 [01:55<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.66s/it]100%|##########| 25/25 [02:00<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.42s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.42s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.65s/it]  8%|8         | 2/25 [00:09<01:47,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.68s/it] 36%|###6      | 9/25 [00:45<01:30,  5.68s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.36s/it] 40%|####      | 10/25 [00:49<01:20,  5.36s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.15s/it] 44%|####4     | 11/25 [00:54<01:12,  5.15s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.80s/it] 60%|######    | 15/25 [01:13<00:47,  4.80s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.77s/it] 64%|######4   | 16/25 [01:17<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.74s/it] 68%|######8   | 17/25 [01:22<00:37,  4.74s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.73s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.73s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.72s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.72s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.72s/it] 80%|########  | 20/25 [01:36<00:23,  4.72s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.71s/it] 84%|########4 | 21/25 [01:41<00:18,  4.71s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.71s/it] 88%|########8 | 22/25 [01:46<00:14,  4.71s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.71s/it] 92%|#########2| 23/25 [01:50<00:09,  4.71s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.71s/it] 96%|#########6| 24/25 [01:55<00:04,  4.71s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.71s/it]100%|##########| 25/25 [02:00<00:00,  4.71s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.81s/it]100%|##########| 25/25 [02:00<00:00,  4.81s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.39s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.39s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.67s/it] 28%|##8       | 7/25 [00:32<01:23,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.66s/it] 36%|###6      | 9/25 [00:45<01:30,  5.66s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.35s/it] 40%|####      | 10/25 [00:49<01:20,  5.35s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.15s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.15s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  21%|##1       | 750/3500 [40:17<1:43:16,  2.25s/it, lr: 2.0e-04 loss: 8.812e-02]wan_dewa:  21%|##1       | 750/3500 [40:17<1:43:16,  2.25s/it, lr: 2.0e-04 loss: 8.812e-02]wan_dewa:  21%|##1       | 751/3500 [40:17<1:38:40,  2.15s/it, lr: 2.0e-04 loss: 8.812e-02]wan_dewa:  21%|##1       | 751/3500 [40:17<1:38:40,  2.15s/it, lr: 2.0e-04 loss: 8.812e-02]wan_dewa:  21%|##1       | 751/3500 [40:19<1:38:40,  2.15s/it, lr: 2.0e-04 loss: 4.194e-02]wan_dewa:  21%|##1       | 751/3500 [40:19<1:38:40,  2.15s/it, lr: 2.0e-04 loss: 4.194e-02]wan_dewa:  21%|##1       | 752/3500 [40:19<1:40:16,  2.19s/it, lr: 2.0e-04 loss: 4.194e-02]wan_dewa:  21%|##1       | 752/3500 [40:19<1:40:16,  2.19s/it, lr: 2.0e-04 loss: 4.194e-02]wan_dewa:  21%|##1       | 752/3500 [40:21<1:40:16,  2.19s/it, lr: 2.0e-04 loss: 7.877e-02]wan_dewa:  21%|##1       | 752/3500 [40:21<1:40:16,  2.19s/it, lr: 2.0e-04 loss: 7.877e-02]wan_dewa:  22%|##1       | 753/3500 [40:21<1:41:33,  2.22s/it, lr: 2.0e-04 loss: 7.877e-02]wan_dewa:  22%|##1       | 753/3500 [40:21<1:41:33,  2.22s/it, lr: 2.0e-04 loss: 7.877e-02]wan_dewa:  22%|##1       | 753/3500 [40:24<1:41:33,  2.22s/it, lr: 2.0e-04 loss: 4.730e-01]wan_dewa:  22%|##1       | 753/3500 [40:24<1:41:33,  2.22s/it, lr: 2.0e-04 loss: 4.730e-01]wan_dewa:  22%|##1       | 754/3500 [40:24<1:42:32,  2.24s/it, lr: 2.0e-04 loss: 4.730e-01]wan_dewa:  22%|##1       | 754/3500 [40:24<1:42:32,  2.24s/it, lr: 2.0e-04 loss: 4.730e-01]wan_dewa:  22%|##1       | 754/3500 [40:26<1:42:32,  2.24s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  22%|##1       | 754/3500 [40:26<1:42:32,  2.24s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  22%|##1       | 755/3500 [40:26<1:45:50,  2.31s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  22%|##1       | 755/3500 [40:26<1:45:50,  2.31s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  22%|##1       | 755/3500 [40:29<1:45:50,  2.31s/it, lr: 2.0e-04 loss: 3.448e-01]wan_dewa:  22%|##1       | 755/3500 [40:29<1:45:50,  2.31s/it, lr: 2.0e-04 loss: 3.448e-01]wan_dewa:  22%|##1       | 756/3500 [40:29<1:45:38,  2.31s/it, lr: 2.0e-04 loss: 3.448e-01]wan_dewa:  22%|##1       | 756/3500 [40:29<1:45:38,  2.31s/it, lr: 2.0e-04 loss: 3.448e-01]wan_dewa:  22%|##1       | 756/3500 [40:31<1:45:38,  2.31s/it, lr: 2.0e-04 loss: 2.963e-02]wan_dewa:  22%|##1       | 756/3500 [40:31<1:45:38,  2.31s/it, lr: 2.0e-04 loss: 2.963e-02]wan_dewa:  22%|##1       | 757/3500 [40:31<1:45:29,  2.31s/it, lr: 2.0e-04 loss: 2.963e-02]wan_dewa:  22%|##1       | 757/3500 [40:31<1:45:29,  2.31s/it, lr: 2.0e-04 loss: 2.963e-02]wan_dewa:  22%|##1       | 757/3500 [40:33<1:45:29,  2.31s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:  22%|##1       | 757/3500 [40:33<1:45:29,  2.31s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:  22%|##1       | 758/3500 [40:33<1:45:25,  2.31s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:  22%|##1       | 758/3500 [40:33<1:45:25,  2.31s/it, lr: 2.0e-04 loss: 1.205e-01]wan_dewa:  22%|##1       | 758/3500 [40:36<1:45:25,  2.31s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:  22%|##1       | 758/3500 [40:36<1:45:25,  2.31s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:  22%|##1       | 759/3500 [40:36<1:45:20,  2.31s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:  22%|##1       | 759/3500 [40:36<1:45:20,  2.31s/it, lr: 2.0e-04 loss: 6.351e-02]wan_dewa:  22%|##1       | 759/3500 [40:41<1:45:20,  2.31s/it, lr: 2.0e-04 loss: 3.852e-02]wan_dewa:  22%|##1       | 759/3500 [40:41<1:45:20,  2.31s/it, lr: 2.0e-04 loss: 3.852e-02]wan_dewa:  22%|##1       | 760/3500 [40:43<1:45:18,  2.31s/it, lr: 2.0e-04 loss: 8.128e-02]wan_dewa:  22%|##1       | 760/3500 [40:43<1:45:18,  2.31s/it, lr: 2.0e-04 loss: 8.128e-02]wan_dewa:  22%|##1       | 761/3500 [40:43<1:21:04,  1.78s/it, lr: 2.0e-04 loss: 8.128e-02]wan_dewa:  22%|##1       | 761/3500 [40:43<1:21:04,  1.78s/it, lr: 2.0e-04 loss: 8.128e-02]wan_dewa:  22%|##1       | 761/3500 [40:46<1:21:04,  1.78s/it, lr: 2.0e-04 loss: 7.106e-02]wan_dewa:  22%|##1       | 761/3500 [40:46<1:21:04,  1.78s/it, lr: 2.0e-04 loss: 7.106e-02]wan_dewa:  22%|##1       | 762/3500 [40:46<1:26:52,  1.90s/it, lr: 2.0e-04 loss: 7.106e-02]wan_dewa:  22%|##1       | 762/3500 [40:46<1:26:52,  1.90s/it, lr: 2.0e-04 loss: 7.106e-02]wan_dewa:  22%|##1       | 762/3500 [40:48<1:26:52,  1.90s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  22%|##1       | 762/3500 [40:48<1:26:52,  1.90s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  22%|##1       | 763/3500 [40:48<1:31:30,  2.01s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  22%|##1       | 763/3500 [40:48<1:31:30,  2.01s/it, lr: 2.0e-04 loss: 5.859e-02]wan_dewa:  22%|##1       | 763/3500 [40:50<1:31:30,  2.01s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  22%|##1       | 763/3500 [40:50<1:31:30,  2.01s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  22%|##1       | 764/3500 [40:50<1:35:06,  2.09s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  22%|##1       | 764/3500 [40:50<1:35:06,  2.09s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  22%|##1       | 764/3500 [40:53<1:35:06,  2.09s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  22%|##1       | 764/3500 [40:53<1:35:06,  2.09s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  22%|##1       | 765/3500 [40:53<1:37:46,  2.15s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  22%|##1       | 765/3500 [40:53<1:37:46,  2.15s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  22%|##1       | 765/3500 [40:55<1:37:46,  2.15s/it, lr: 2.0e-04 loss: 9.900e-02]wan_dewa:  22%|##1       | 765/3500 [40:55<1:37:46,  2.15s/it, lr: 2.0e-04 loss: 9.900e-02]wan_dewa:  22%|##1       | 766/3500 [40:55<1:41:52,  2.24s/it, lr: 2.0e-04 loss: 9.900e-02]wan_dewa:  22%|##1       | 766/3500 [40:55<1:41:52,  2.24s/it, lr: 2.0e-04 loss: 9.900e-02]wan_dewa:  22%|##1       | 766/3500 [40:57<1:41:52,  2.24s/it, lr: 2.0e-04 loss: 3.457e-02]wan_dewa:  22%|##1       | 766/3500 [40:57<1:41:52,  2.24s/it, lr: 2.0e-04 loss: 3.457e-02]wan_dewa:  22%|##1       | 767/3500 [40:57<1:42:40,  2.25s/it, lr: 2.0e-04 loss: 3.457e-02]wan_dewa:  22%|##1       | 767/3500 [40:57<1:42:40,  2.25s/it, lr: 2.0e-04 loss: 3.457e-02]wan_dewa:  22%|##1       | 767/3500 [41:00<1:42:40,  2.25s/it, lr: 2.0e-04 loss: 6.311e-02]wan_dewa:  22%|##1       | 767/3500 [41:00<1:42:40,  2.25s/it, lr: 2.0e-04 loss: 6.311e-02]wan_dewa:  22%|##1       | 768/3500 [41:00<1:43:14,  2.27s/it, lr: 2.0e-04 loss: 6.311e-02]wan_dewa:  22%|##1       | 768/3500 [41:00<1:43:14,  2.27s/it, lr: 2.0e-04 loss: 6.311e-02]wan_dewa:  22%|##1       | 768/3500 [41:02<1:43:14,  2.27s/it, lr: 2.0e-04 loss: 5.058e-02]wan_dewa:  22%|##1       | 768/3500 [41:02<1:43:14,  2.27s/it, lr: 2.0e-04 loss: 5.058e-02]wan_dewa:  22%|##1       | 769/3500 [41:02<1:43:37,  2.28s/it, lr: 2.0e-04 loss: 5.058e-02]wan_dewa:  22%|##1       | 769/3500 [41:02<1:43:37,  2.28s/it, lr: 2.0e-04 loss: 5.058e-02]wan_dewa:  22%|##1       | 769/3500 [41:08<1:43:37,  2.28s/it, lr: 2.0e-04 loss: 8.956e-02]wan_dewa:  22%|##1       | 769/3500 [41:08<1:43:37,  2.28s/it, lr: 2.0e-04 loss: 8.956e-02]wan_dewa:  22%|##2       | 770/3500 [41:10<1:43:35,  2.28s/it, lr: 2.0e-04 loss: 8.575e-02]wan_dewa:  22%|##2       | 770/3500 [41:10<1:43:35,  2.28s/it, lr: 2.0e-04 loss: 8.575e-02]wan_dewa:  22%|##2       | 771/3500 [41:10<1:22:04,  1.80s/it, lr: 2.0e-04 loss: 8.575e-02]wan_dewa:  22%|##2       | 771/3500 [41:10<1:22:04,  1.80s/it, lr: 2.0e-04 loss: 8.575e-02]wan_dewa:  22%|##2       | 771/3500 [41:12<1:22:04,  1.80s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  22%|##2       | 771/3500 [41:12<1:22:04,  1.80s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  22%|##2       | 772/3500 [41:12<1:27:31,  1.93s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  22%|##2       | 772/3500 [41:12<1:27:31,  1.93s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  22%|##2       | 772/3500 [41:15<1:27:31,  1.93s/it, lr: 2.0e-04 loss: 4.762e-02]wan_dewa:  22%|##2       | 772/3500 [41:15<1:27:31,  1.93s/it, lr: 2.0e-04 loss: 4.762e-02]wan_dewa:  22%|##2       | 773/3500 [41:15<1:31:50,  2.02s/it, lr: 2.0e-04 loss: 4.762e-02]wan_dewa:  22%|##2       | 773/3500 [41:15<1:31:50,  2.02s/it, lr: 2.0e-04 loss: 4.762e-02]wan_dewa:  22%|##2       | 773/3500 [41:17<1:31:50,  2.02s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:  22%|##2       | 773/3500 [41:17<1:31:50,  2.02s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:  22%|##2       | 774/3500 [41:17<1:35:14,  2.10s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:  22%|##2       | 774/3500 [41:17<1:35:14,  2.10s/it, lr: 2.0e-04 loss: 1.583e-01]wan_dewa:  22%|##2       | 774/3500 [41:22<1:35:14,  2.10s/it, lr: 2.0e-04 loss: 8.123e-02]wan_dewa:  22%|##2       | 774/3500 [41:22<1:35:14,  2.10s/it, lr: 2.0e-04 loss: 8.123e-02]wan_dewa:  22%|##2       | 775/3500 [41:22<1:37:59,  2.16s/it, lr: 2.0e-04 loss: 8.123e-02]wan_dewa:  22%|##2       | 775/3500 [41:22<1:37:59,  2.16s/it, lr: 2.0e-04 loss: 8.123e-02]wan_dewa:  22%|##2       | 775/3500 [41:25<1:37:59,  2.16s/it, lr: 2.0e-04 loss: 7.503e-02]wan_dewa:  22%|##2       | 775/3500 [41:25<1:37:59,  2.16s/it, lr: 2.0e-04 loss: 7.503e-02]wan_dewa:  22%|##2       | 776/3500 [41:25<1:44:15,  2.30s/it, lr: 2.0e-04 loss: 7.503e-02]wan_dewa:  22%|##2       | 776/3500 [41:25<1:44:15,  2.30s/it, lr: 2.0e-04 loss: 7.503e-02]wan_dewa:  22%|##2       | 776/3500 [41:27<1:44:15,  2.30s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  22%|##2       | 776/3500 [41:27<1:44:15,  2.30s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  22%|##2       | 777/3500 [41:27<1:44:13,  2.30s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  22%|##2       | 777/3500 [41:27<1:44:13,  2.30s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  22%|##2       | 777/3500 [41:29<1:44:13,  2.30s/it, lr: 2.0e-04 loss: 6.419e-02]wan_dewa:  22%|##2       | 777/3500 [41:29<1:44:13,  2.30s/it, lr: 2.0e-04 loss: 6.419e-02]wan_dewa:  22%|##2       | 778/3500 [41:29<1:44:05,  2.29s/it, lr: 2.0e-04 loss: 6.419e-02]wan_dewa:  22%|##2       | 778/3500 [41:29<1:44:05,  2.29s/it, lr: 2.0e-04 loss: 6.419e-02]wan_dewa:  22%|##2       | 778/3500 [41:31<1:44:05,  2.29s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  22%|##2       | 778/3500 [41:31<1:44:05,  2.29s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  22%|##2       | 779/3500 [41:31<1:44:05,  2.30s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  22%|##2       | 779/3500 [41:31<1:44:05,  2.30s/it, lr: 2.0e-04 loss: 8.316e-02]wan_dewa:  22%|##2       | 779/3500 [41:43<1:44:05,  2.30s/it, lr: 2.0e-04 loss: 4.921e-02]wan_dewa:  22%|##2       | 779/3500 [41:43<1:44:05,  2.30s/it, lr: 2.0e-04 loss: 4.921e-02]wan_dewa:  22%|##2       | 780/3500 [41:45<1:44:02,  2.30s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  22%|##2       | 780/3500 [41:45<1:44:02,  2.30s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  22%|##2       | 781/3500 [41:45<1:22:29,  1.82s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  22%|##2       | 781/3500 [41:45<1:22:29,  1.82s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  22%|##2       | 781/3500 [41:48<1:22:29,  1.82s/it, lr: 2.0e-04 loss: 7.038e-02]wan_dewa:  22%|##2       | 781/3500 [41:48<1:22:29,  1.82s/it, lr: 2.0e-04 loss: 7.038e-02]wan_dewa:  22%|##2       | 782/3500 [41:48<1:27:38,  1.93s/it, lr: 2.0e-04 loss: 7.038e-02]wan_dewa:  22%|##2       | 782/3500 [41:48<1:27:38,  1.93s/it, lr: 2.0e-04 loss: 7.038e-02]wan_dewa:  22%|##2       | 782/3500 [41:50<1:27:38,  1.93s/it, lr: 2.0e-04 loss: 9.142e-02]wan_dewa:  22%|##2       | 782/3500 [41:50<1:27:38,  1.93s/it, lr: 2.0e-04 loss: 9.142e-02]wan_dewa:  22%|##2       | 783/3500 [41:50<1:31:45,  2.03s/it, lr: 2.0e-04 loss: 9.142e-02]wan_dewa:  22%|##2       | 783/3500 [41:50<1:31:45,  2.03s/it, lr: 2.0e-04 loss: 9.142e-02]wan_dewa:  22%|##2       | 783/3500 [41:52<1:31:45,  2.03s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  22%|##2       | 783/3500 [41:52<1:31:45,  2.03s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  22%|##2       | 784/3500 [41:52<1:34:54,  2.10s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  22%|##2       | 784/3500 [41:52<1:34:54,  2.10s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  22%|##2       | 784/3500 [41:54<1:34:54,  2.10s/it, lr: 2.0e-04 loss: 5.970e-02]wan_dewa:  22%|##2       | 784/3500 [41:54<1:34:54,  2.10s/it, lr: 2.0e-04 loss: 5.970e-02]wan_dewa:  22%|##2       | 785/3500 [41:54<1:37:17,  2.15s/it, lr: 2.0e-04 loss: 5.970e-02]wan_dewa:  22%|##2       | 785/3500 [41:54<1:37:17,  2.15s/it, lr: 2.0e-04 loss: 5.970e-02]wan_dewa:  22%|##2       | 785/3500 [41:57<1:37:17,  2.15s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  22%|##2       | 785/3500 [41:57<1:37:17,  2.15s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  22%|##2       | 786/3500 [41:57<1:39:04,  2.19s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  22%|##2       | 786/3500 [41:57<1:39:04,  2.19s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  22%|##2       | 786/3500 [41:59<1:39:04,  2.19s/it, lr: 2.0e-04 loss: 4.159e-02]wan_dewa:  22%|##2       | 786/3500 [41:59<1:39:04,  2.19s/it, lr: 2.0e-04 loss: 4.159e-02]wan_dewa:  22%|##2       | 787/3500 [41:59<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 4.159e-02]wan_dewa:  22%|##2       | 787/3500 [41:59<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 4.159e-02]wan_dewa:  22%|##2       | 787/3500 [42:02<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 7.386e-02]wan_dewa:  22%|##2       | 787/3500 [42:02<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 7.386e-02]wan_dewa:  23%|##2       | 788/3500 [42:02<1:43:23,  2.29s/it, lr: 2.0e-04 loss: 7.386e-02]wan_dewa:  23%|##2       | 788/3500 [42:02<1:43:23,  2.29s/it, lr: 2.0e-04 loss: 7.386e-02]wan_dewa:  23%|##2       | 788/3500 [42:04<1:43:23,  2.29s/it, lr: 2.0e-04 loss: 6.047e-02]wan_dewa:  23%|##2       | 788/3500 [42:04<1:43:23,  2.29s/it, lr: 2.0e-04 loss: 6.047e-02]wan_dewa:  23%|##2       | 789/3500 [42:04<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 6.047e-02]wan_dewa:  23%|##2       | 789/3500 [42:04<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 6.047e-02]wan_dewa:  23%|##2       | 789/3500 [42:15<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 6.860e-02]wan_dewa:  23%|##2       | 789/3500 [42:15<1:43:27,  2.29s/it, lr: 2.0e-04 loss: 6.860e-02]wan_dewa:  23%|##2       | 790/3500 [42:18<1:43:25,  2.29s/it, lr: 2.0e-04 loss: 1.977e-01]wan_dewa:  23%|##2       | 790/3500 [42:18<1:43:25,  2.29s/it, lr: 2.0e-04 loss: 1.977e-01]wan_dewa:  23%|##2       | 791/3500 [42:18<1:21:57,  1.82s/it, lr: 2.0e-04 loss: 1.977e-01]wan_dewa:  23%|##2       | 791/3500 [42:18<1:21:57,  1.82s/it, lr: 2.0e-04 loss: 1.977e-01]wan_dewa:  23%|##2       | 791/3500 [42:20<1:21:57,  1.82s/it, lr: 2.0e-04 loss: 7.428e-02]wan_dewa:  23%|##2       | 791/3500 [42:20<1:21:57,  1.82s/it, lr: 2.0e-04 loss: 7.428e-02]wan_dewa:  23%|##2       | 792/3500 [42:20<1:27:02,  1.93s/it, lr: 2.0e-04 loss: 7.428e-02]wan_dewa:  23%|##2       | 792/3500 [42:20<1:27:02,  1.93s/it, lr: 2.0e-04 loss: 7.428e-02]wan_dewa:  23%|##2       | 792/3500 [42:22<1:27:02,  1.93s/it, lr: 2.0e-04 loss: 2.565e-01]wan_dewa:  23%|##2       | 792/3500 [42:22<1:27:02,  1.93s/it, lr: 2.0e-04 loss: 2.565e-01]wan_dewa:  23%|##2       | 793/3500 [42:22<1:31:08,  2.02s/it, lr: 2.0e-04 loss: 2.565e-01]wan_dewa:  23%|##2       | 793/3500 [42:22<1:31:08,  2.02s/it, lr: 2.0e-04 loss: 2.565e-01]wan_dewa:  23%|##2       | 793/3500 [42:24<1:31:08,  2.02s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  23%|##2       | 793/3500 [42:24<1:31:08,  2.02s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  23%|##2       | 794/3500 [42:24<1:34:17,  2.09s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  23%|##2       | 794/3500 [42:24<1:34:17,  2.09s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  23%|##2       | 794/3500 [42:27<1:34:17,  2.09s/it, lr: 2.0e-04 loss: 5.330e-02]wan_dewa:  23%|##2       | 794/3500 [42:27<1:34:17,  2.09s/it, lr: 2.0e-04 loss: 5.330e-02]wan_dewa:  23%|##2       | 795/3500 [42:27<1:36:40,  2.14s/it, lr: 2.0e-04 loss: 5.330e-02]wan_dewa:  23%|##2       | 795/3500 [42:27<1:36:40,  2.14s/it, lr: 2.0e-04 loss: 5.330e-02]wan_dewa:  23%|##2       | 795/3500 [42:29<1:36:40,  2.14s/it, lr: 2.0e-04 loss: 6.997e-02]wan_dewa:  23%|##2       | 795/3500 [42:29<1:36:40,  2.14s/it, lr: 2.0e-04 loss: 6.997e-02]wan_dewa:  23%|##2       | 796/3500 [42:29<1:38:22,  2.18s/it, lr: 2.0e-04 loss: 6.997e-02]wan_dewa:  23%|##2       | 796/3500 [42:29<1:38:22,  2.18s/it, lr: 2.0e-04 loss: 6.997e-02]wan_dewa:  23%|##2       | 796/3500 [42:32<1:38:22,  2.18s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  23%|##2       | 796/3500 [42:32<1:38:22,  2.18s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  23%|##2       | 797/3500 [42:32<1:42:41,  2.28s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  23%|##2       | 797/3500 [42:32<1:42:41,  2.28s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  23%|##2       | 797/3500 [42:34<1:42:41,  2.28s/it, lr: 2.0e-04 loss: 1.975e-01]wan_dewa:  23%|##2       | 797/3500 [42:34<1:42:41,  2.28s/it, lr: 2.0e-04 loss: 1.975e-01]wan_dewa:  23%|##2       | 798/3500 [42:34<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 1.975e-01]wan_dewa:  23%|##2       | 798/3500 [42:34<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 1.975e-01]wan_dewa:  23%|##2       | 798/3500 [42:36<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 9.329e-02]wan_dewa:  23%|##2       | 798/3500 [42:36<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 9.329e-02]wan_dewa:  23%|##2       | 799/3500 [42:36<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 9.329e-02]wan_dewa:  23%|##2       | 799/3500 [42:36<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 9.329e-02]wan_dewa:  23%|##2       | 799/3500 [42:49<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  23%|##2       | 799/3500 [42:49<1:42:39,  2.28s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  23%|##2       | 800/3500 [42:52<1:42:36,  2.28s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  23%|##2       | 800/3500 [42:52<1:42:36,  2.28s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  23%|##2       | 801/3500 [42:52<1:19:11,  1.76s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  23%|##2       | 801/3500 [42:52<1:19:11,  1.76s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  23%|##2       | 801/3500 [42:54<1:19:11,  1.76s/it, lr: 2.0e-04 loss: 7.144e-02]wan_dewa:  23%|##2       | 801/3500 [42:54<1:19:11,  1.76s/it, lr: 2.0e-04 loss: 7.144e-02]wan_dewa:  23%|##2       | 802/3500 [42:54<1:28:34,  1.97s/it, lr: 2.0e-04 loss: 7.144e-02]wan_dewa:  23%|##2       | 802/3500 [42:54<1:28:34,  1.97s/it, lr: 2.0e-04 loss: 7.144e-02]wan_dewa:  23%|##2       | 802/3500 [42:57<1:28:34,  1.97s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  23%|##2       | 802/3500 [42:57<1:28:34,  1.97s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  23%|##2       | 803/3500 [42:57<1:32:01,  2.05s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  23%|##2       | 803/3500 [42:57<1:32:01,  2.05s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  23%|##2       | 803/3500 [42:59<1:32:01,  2.05s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  23%|##2       | 803/3500 [42:59<1:32:01,  2.05s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  23%|##2       | 804/3500 [42:59<1:34:44,  2.11s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  23%|##2       | 804/3500 [42:59<1:34:44,  2.11s/it, lr: 2.0e-04 loss: 6.052e-02]wan_dewa:  23%|##2       | 804/3500 [43:01<1:34:44,  2.11s/it, lr: 2.0e-04 loss: 9.779e-02]wan_dewa:  23%|##2       | 804/3500 [43:01<1:34:44,  2.11s/it, lr: 2.0e-04 loss: 9.779e-02]wan_dewa:  23%|##3       | 805/3500 [43:01<1:36:45,  2.15s/it, lr: 2.0e-04 loss: 9.779e-02]wan_dewa:  23%|##3       | 805/3500 [43:01<1:36:45,  2.15s/it, lr: 2.0e-04 loss: 9.779e-02]wan_dewa:  23%|##3       | 805/3500 [43:03<1:36:45,  2.15s/it, lr: 2.0e-04 loss: 6.664e-02]wan_dewa:  23%|##3       | 805/3500 [43:03<1:36:45,  2.15s/it, lr: 2.0e-04 loss: 6.664e-02]wan_dewa:  23%|##3       | 806/3500 [43:03<1:38:15,  2.19s/it, lr: 2.0e-04 loss: 6.664e-02]wan_dewa:  23%|##3       | 806/3500 [43:03<1:38:15,  2.19s/it, lr: 2.0e-04 loss: 6.664e-02]wan_dewa:  23%|##3       | 806/3500 [43:06<1:38:15,  2.19s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  23%|##3       | 806/3500 [43:06<1:38:15,  2.19s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  23%|##3       | 807/3500 [43:06<1:41:54,  2.27s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  23%|##3       | 807/3500 [43:06<1:41:54,  2.27s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  23%|##3       | 807/3500 [43:08<1:41:54,  2.27s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  23%|##3       | 807/3500 [43:08<1:41:54,  2.27s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  23%|##3       | 808/3500 [43:08<1:41:57,  2.27s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  23%|##3       | 808/3500 [43:08<1:41:57,  2.27s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  23%|##3       | 808/3500 [43:10<1:41:57,  2.27s/it, lr: 2.0e-04 loss: 6.166e-02]wan_dewa:  23%|##3       | 808/3500 [43:10<1:41:57,  2.27s/it, lr: 2.0e-04 loss: 6.166e-02]wan_dewa:  23%|##3       | 809/3500 [43:10<1:42:01,  2.27s/it, lr: 2.0e-04 loss: 6.166e-02]wan_dewa:  23%|##3       | 809/3500 [43:10<1:42:01,  2.27s/it, lr: 2.0e-04 loss: 6.166e-02]wan_dewa:  23%|##3       | 809/3500 [43:22<1:42:01,  2.27s/it, lr: 2.0e-04 loss: 8.598e-02]wan_dewa:  23%|##3       | 809/3500 [43:22<1:42:01,  2.27s/it, lr: 2.0e-04 loss: 8.598e-02]wan_dewa:  23%|##3       | 810/3500 [43:24<1:41:58,  2.27s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  23%|##3       | 810/3500 [43:24<1:41:58,  2.27s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  23%|##3       | 811/3500 [43:24<1:18:35,  1.75s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  23%|##3       | 811/3500 [43:24<1:18:35,  1.75s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  23%|##3       | 811/3500 [43:26<1:18:35,  1.75s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:  23%|##3       | 811/3500 [43:26<1:18:35,  1.75s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:  23%|##3       | 812/3500 [43:26<1:26:32,  1.93s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:  23%|##3       | 812/3500 [43:26<1:26:32,  1.93s/it, lr: 2.0e-04 loss: 1.085e-01]wan_dewa:  23%|##3       | 812/3500 [43:29<1:26:32,  1.93s/it, lr: 2.0e-04 loss: 6.845e-02]wan_dewa:  23%|##3       | 812/3500 [43:29<1:26:32,  1.93s/it, lr: 2.0e-04 loss: 6.845e-02]wan_dewa:  23%|##3       | 813/3500 [43:29<1:30:27,  2.02s/it, lr: 2.0e-04 loss: 6.845e-02]wan_dewa:  23%|##3       | 813/3500 [43:29<1:30:27,  2.02s/it, lr: 2.0e-04 loss: 6.845e-02]wan_dewa:  23%|##3       | 813/3500 [43:31<1:30:27,  2.02s/it, lr: 2.0e-04 loss: 8.246e-02]wan_dewa:  23%|##3       | 813/3500 [43:31<1:30:27,  2.02s/it, lr: 2.0e-04 loss: 8.246e-02]wan_dewa:  23%|##3       | 814/3500 [43:31<1:33:30,  2.09s/it, lr: 2.0e-04 loss: 8.246e-02]wan_dewa:  23%|##3       | 814/3500 [43:31<1:33:30,  2.09s/it, lr: 2.0e-04 loss: 8.246e-02]wan_dewa:  23%|##3       | 814/3500 [43:33<1:33:30,  2.09s/it, lr: 2.0e-04 loss: 6.800e-02]wan_dewa:  23%|##3       | 814/3500 [43:33<1:33:30,  2.09s/it, lr: 2.0e-04 loss: 6.800e-02]wan_dewa:  23%|##3       | 815/3500 [43:33<1:35:48,  2.14s/it, lr: 2.0e-04 loss: 6.800e-02]wan_dewa:  23%|##3       | 815/3500 [43:33<1:35:48,  2.14s/it, lr: 2.0e-04 loss: 6.800e-02]wan_dewa:  23%|##3       | 815/3500 [43:36<1:35:48,  2.14s/it, lr: 2.0e-04 loss: 5.443e-02]wan_dewa:  23%|##3       | 815/3500 [43:36<1:35:48,  2.14s/it, lr: 2.0e-04 loss: 5.443e-02]wan_dewa:  23%|##3       | 816/3500 [43:36<1:37:30,  2.18s/it, lr: 2.0e-04 loss: 5.443e-02]wan_dewa:  23%|##3       | 816/3500 [43:36<1:37:30,  2.18s/it, lr: 2.0e-04 loss: 5.443e-02]wan_dewa:  23%|##3       | 816/3500 [43:38<1:37:30,  2.18s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  23%|##3       | 816/3500 [43:38<1:37:30,  2.18s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  23%|##3       | 817/3500 [43:38<1:41:15,  2.26s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  23%|##3       | 817/3500 [43:38<1:41:15,  2.26s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  23%|##3       | 817/3500 [43:40<1:41:15,  2.26s/it, lr: 2.0e-04 loss: 7.677e-02]wan_dewa:  23%|##3       | 817/3500 [43:40<1:41:15,  2.26s/it, lr: 2.0e-04 loss: 7.677e-02]wan_dewa:  23%|##3       | 818/3500 [43:40<1:41:23,  2.27s/it, lr: 2.0e-04 loss: 7.677e-02]wan_dewa:  23%|##3       | 818/3500 [43:40<1:41:23,  2.27s/it, lr: 2.0e-04 loss: 7.677e-02]wan_dewa:  23%|##3       | 818/3500 [43:43<1:41:23,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  23%|##3       | 818/3500 [43:43<1:41:23,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  23%|##3       | 819/3500 [43:43<1:41:30,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  23%|##3       | 819/3500 [43:43<1:41:30,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  23%|##3       | 819/3500 [43:50<1:41:30,  2.27s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  23%|##3       | 819/3500 [43:50<1:41:30,  2.27s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  23%|##3       | 820/3500 [43:52<1:41:28,  2.27s/it, lr: 2.0e-04 loss: 7.455e-02]wan_dewa:  23%|##3       | 820/3500 [43:52<1:41:28,  2.27s/it, lr: 2.0e-04 loss: 7.455e-02]wan_dewa:  23%|##3       | 821/3500 [43:52<1:18:25,  1.76s/it, lr: 2.0e-04 loss: 7.455e-02]wan_dewa:  23%|##3       | 821/3500 [43:52<1:18:25,  1.76s/it, lr: 2.0e-04 loss: 7.455e-02]wan_dewa:  23%|##3       | 821/3500 [43:55<1:18:25,  1.76s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  23%|##3       | 821/3500 [43:55<1:18:25,  1.76s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  23%|##3       | 822/3500 [43:55<1:26:24,  1.94s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  23%|##3       | 822/3500 [43:55<1:26:24,  1.94s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  23%|##3       | 822/3500 [43:57<1:26:24,  1.94s/it, lr: 2.0e-04 loss: 3.378e-02]wan_dewa:  23%|##3       | 822/3500 [43:57<1:26:24,  1.94s/it, lr: 2.0e-04 loss: 3.378e-02]wan_dewa:  24%|##3       | 823/3500 [43:57<1:30:19,  2.02s/it, lr: 2.0e-04 loss: 3.378e-02]wan_dewa:  24%|##3       | 823/3500 [43:57<1:30:19,  2.02s/it, lr: 2.0e-04 loss: 3.378e-02]wan_dewa:  24%|##3       | 823/3500 [43:59<1:30:19,  2.02s/it, lr: 2.0e-04 loss: 7.299e-02]wan_dewa:  24%|##3       | 823/3500 [43:59<1:30:19,  2.02s/it, lr: 2.0e-04 loss: 7.299e-02]wan_dewa:  24%|##3       | 824/3500 [43:59<1:33:20,  2.09s/it, lr: 2.0e-04 loss: 7.299e-02]wan_dewa:  24%|##3       | 824/3500 [43:59<1:33:20,  2.09s/it, lr: 2.0e-04 loss: 7.299e-02]wan_dewa:  24%|##3       | 824/3500 [44:04<1:33:20,  2.09s/it, lr: 2.0e-04 loss: 7.176e-02]wan_dewa:  24%|##3       | 824/3500 [44:04<1:33:20,  2.09s/it, lr: 2.0e-04 loss: 7.176e-02]wan_dewa:  24%|##3       | 825/3500 [44:04<1:35:57,  2.15s/it, lr: 2.0e-04 loss: 7.176e-02]wan_dewa:  24%|##3       | 825/3500 [44:04<1:35:57,  2.15s/it, lr: 2.0e-04 loss: 7.176e-02]wan_dewa:  24%|##3       | 825/3500 [44:06<1:35:57,  2.15s/it, lr: 2.0e-04 loss: 4.264e-02]wan_dewa:  24%|##3       | 825/3500 [44:06<1:35:57,  2.15s/it, lr: 2.0e-04 loss: 4.264e-02]wan_dewa:  24%|##3       | 826/3500 [44:06<1:37:28,  2.19s/it, lr: 2.0e-04 loss: 4.264e-02]wan_dewa:  24%|##3       | 826/3500 [44:06<1:37:28,  2.19s/it, lr: 2.0e-04 loss: 4.264e-02]wan_dewa:  24%|##3       | 826/3500 [44:09<1:37:28,  2.19s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  24%|##3       | 826/3500 [44:09<1:37:28,  2.19s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  24%|##3       | 827/3500 [44:09<1:42:37,  2.30s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  24%|##3       | 827/3500 [44:09<1:42:37,  2.30s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  24%|##3       | 827/3500 [44:11<1:42:37,  2.30s/it, lr: 2.0e-04 loss: 7.478e-02]wan_dewa:  24%|##3       | 827/3500 [44:11<1:42:37,  2.30s/it, lr: 2.0e-04 loss: 7.478e-02]wan_dewa:  24%|##3       | 828/3500 [44:11<1:42:13,  2.30s/it, lr: 2.0e-04 loss: 7.478e-02]wan_dewa:  24%|##3       | 828/3500 [44:11<1:42:13,  2.30s/it, lr: 2.0e-04 loss: 7.478e-02]wan_dewa:  24%|##3       | 828/3500 [44:13<1:42:13,  2.30s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  24%|##3       | 828/3500 [44:13<1:42:13,  2.30s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  24%|##3       | 829/3500 [44:13<1:41:56,  2.29s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  24%|##3       | 829/3500 [44:13<1:41:56,  2.29s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  24%|##3       | 829/3500 [44:24<1:41:56,  2.29s/it, lr: 2.0e-04 loss: 6.404e-02]wan_dewa:  24%|##3       | 829/3500 [44:24<1:41:56,  2.29s/it, lr: 2.0e-04 loss: 6.404e-02]wan_dewa:  24%|##3       | 830/3500 [44:27<1:41:54,  2.29s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  24%|##3       | 830/3500 [44:27<1:41:54,  2.29s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  24%|##3       | 831/3500 [44:27<1:18:29,  1.76s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  24%|##3       | 831/3500 [44:27<1:18:29,  1.76s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  24%|##3       | 831/3500 [44:29<1:18:29,  1.76s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  24%|##3       | 831/3500 [44:29<1:18:29,  1.76s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  24%|##3       | 832/3500 [44:29<1:26:20,  1.94s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  24%|##3       | 832/3500 [44:29<1:26:20,  1.94s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  24%|##3       | 832/3500 [44:31<1:26:20,  1.94s/it, lr: 2.0e-04 loss: 3.129e-01]wan_dewa:  24%|##3       | 832/3500 [44:31<1:26:20,  1.94s/it, lr: 2.0e-04 loss: 3.129e-01]wan_dewa:  24%|##3       | 833/3500 [44:31<1:30:07,  2.03s/it, lr: 2.0e-04 loss: 3.129e-01]wan_dewa:  24%|##3       | 833/3500 [44:31<1:30:07,  2.03s/it, lr: 2.0e-04 loss: 3.129e-01]wan_dewa:  24%|##3       | 833/3500 [44:34<1:30:07,  2.03s/it, lr: 2.0e-04 loss: 6.378e-02]wan_dewa:  24%|##3       | 833/3500 [44:34<1:30:07,  2.03s/it, lr: 2.0e-04 loss: 6.378e-02]wan_dewa:  24%|##3       | 834/3500 [44:34<1:33:01,  2.09s/it, lr: 2.0e-04 loss: 6.378e-02]wan_dewa:  24%|##3       | 834/3500 [44:34<1:33:01,  2.09s/it, lr: 2.0e-04 loss: 6.378e-02]wan_dewa:  24%|##3       | 834/3500 [44:36<1:33:01,  2.09s/it, lr: 2.0e-04 loss: 1.067e-01]wan_dewa:  24%|##3       | 834/3500 [44:36<1:33:01,  2.09s/it, lr: 2.0e-04 loss: 1.067e-01]wan_dewa:  24%|##3       | 835/3500 [44:36<1:35:11,  2.14s/it, lr: 2.0e-04 loss: 1.067e-01]wan_dewa:  24%|##3       | 835/3500 [44:36<1:35:11,  2.14s/it, lr: 2.0e-04 loss: 1.067e-01]wan_dewa:  24%|##3       | 835/3500 [44:38<1:35:11,  2.14s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:  24%|##3       | 835/3500 [44:38<1:35:11,  2.14s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:  24%|##3       | 836/3500 [44:38<1:36:48,  2.18s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:  24%|##3       | 836/3500 [44:38<1:36:48,  2.18s/it, lr: 2.0e-04 loss: 5.847e-02]wan_dewa:  24%|##3       | 836/3500 [44:41<1:36:48,  2.18s/it, lr: 2.0e-04 loss: 3.047e-02]wan_dewa:  24%|##3       | 836/3500 [44:41<1:36:48,  2.18s/it, lr: 2.0e-04 loss: 3.047e-02]wan_dewa:  24%|##3       | 837/3500 [44:41<1:40:33,  2.27s/it, lr: 2.0e-04 loss: 3.047e-02]wan_dewa:  24%|##3       | 837/3500 [44:41<1:40:33,  2.27s/it, lr: 2.0e-04 loss: 3.047e-02]wan_dewa:  24%|##3       | 837/3500 [44:43<1:40:33,  2.27s/it, lr: 2.0e-04 loss: 4.867e-02]wan_dewa:  24%|##3       | 837/3500 [44:43<1:40:33,  2.27s/it, lr: 2.0e-04 loss: 4.867e-02]wan_dewa:  24%|##3       | 838/3500 [44:43<1:40:35,  2.27s/it, lr: 2.0e-04 loss: 4.867e-02]wan_dewa:  24%|##3       | 838/3500 [44:43<1:40:35,  2.27s/it, lr: 2.0e-04 loss: 4.867e-02]wan_dewa:  24%|##3       | 838/3500 [44:45<1:40:35,  2.27s/it, lr: 2.0e-04 loss: 4.742e-02]wan_dewa:  24%|##3       | 838/3500 [44:45<1:40:35,  2.27s/it, lr: 2.0e-04 loss: 4.742e-02]wan_dewa:  24%|##3       | 839/3500 [44:45<1:40:40,  2.27s/it, lr: 2.0e-04 loss: 4.742e-02]wan_dewa:  24%|##3       | 839/3500 [44:45<1:40:40,  2.27s/it, lr: 2.0e-04 loss: 4.742e-02]wan_dewa:  24%|##3       | 839/3500 [44:56<1:40:40,  2.27s/it, lr: 2.0e-04 loss: 8.441e-02]wan_dewa:  24%|##3       | 839/3500 [44:56<1:40:40,  2.27s/it, lr: 2.0e-04 loss: 8.441e-02]wan_dewa:  24%|##4       | 840/3500 [44:59<1:40:38,  2.27s/it, lr: 2.0e-04 loss: 5.554e-02]wan_dewa:  24%|##4       | 840/3500 [44:59<1:40:38,  2.27s/it, lr: 2.0e-04 loss: 5.554e-02]wan_dewa:  24%|##4       | 841/3500 [44:59<1:17:46,  1.75s/it, lr: 2.0e-04 loss: 5.554e-02]wan_dewa:  24%|##4       | 841/3500 [44:59<1:17:46,  1.75s/it, lr: 2.0e-04 loss: 5.554e-02]wan_dewa:  24%|##4       | 841/3500 [45:01<1:17:46,  1.75s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  24%|##4       | 841/3500 [45:01<1:17:46,  1.75s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  24%|##4       | 842/3500 [45:01<1:23:27,  1.88s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  24%|##4       | 842/3500 [45:01<1:23:27,  1.88s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  24%|##4       | 842/3500 [45:03<1:23:27,  1.88s/it, lr: 2.0e-04 loss: 6.848e-02]wan_dewa:  24%|##4       | 842/3500 [45:03<1:23:27,  1.88s/it, lr: 2.0e-04 loss: 6.848e-02]wan_dewa:  24%|##4       | 843/3500 [45:03<1:30:18,  2.04s/it, lr: 2.0e-04 loss: 6.848e-02]wan_dewa:  24%|##4       | 843/3500 [45:03<1:30:18,  2.04s/it, lr: 2.0e-04 loss: 6.848e-02]wan_dewa:  24%|##4       | 843/3500 [45:06<1:30:18,  2.04s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  24%|##4       | 843/3500 [45:06<1:30:18,  2.04s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  24%|##4       | 844/3500 [45:06<1:33:14,  2.11s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  24%|##4       | 844/3500 [45:06<1:33:14,  2.11s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  24%|##4       | 844/3500 [45:08<1:33:14,  2.11s/it, lr: 2.0e-04 loss: 7.611e-02]wan_dewa:  24%|##4       | 844/3500 [45:08<1:33:14,  2.11s/it, lr: 2.0e-04 loss: 7.611e-02]wan_dewa:  24%|##4       | 845/3500 [45:08<1:35:22,  2.16s/it, lr: 2.0e-04 loss: 7.611e-02]wan_dewa:  24%|##4       | 845/3500 [45:08<1:35:22,  2.16s/it, lr: 2.0e-04 loss: 7.611e-02]wan_dewa:  24%|##4       | 845/3500 [45:10<1:35:22,  2.16s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  24%|##4       | 845/3500 [45:10<1:35:22,  2.16s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  24%|##4       | 846/3500 [45:10<1:36:55,  2.19s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  24%|##4       | 846/3500 [45:10<1:36:55,  2.19s/it, lr: 2.0e-04 loss: 3.504e-02]wan_dewa:  24%|##4       | 846/3500 [45:12<1:36:55,  2.19s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  24%|##4       | 846/3500 [45:12<1:36:55,  2.19s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  24%|##4       | 847/3500 [45:12<1:38:03,  2.22s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  24%|##4       | 847/3500 [45:12<1:38:03,  2.22s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  24%|##4       | 847/3500 [45:15<1:38:03,  2.22s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  24%|##4       | 847/3500 [45:15<1:38:03,  2.22s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  24%|##4       | 848/3500 [45:15<1:41:25,  2.29s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  24%|##4       | 848/3500 [45:15<1:41:25,  2.29s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  24%|##4       | 848/3500 [45:17<1:41:25,  2.29s/it, lr: 2.0e-04 loss: 6.769e-02]wan_dewa:  24%|##4       | 848/3500 [45:17<1:41:25,  2.29s/it, lr: 2.0e-04 loss: 6.769e-02]wan_dewa:  24%|##4       | 849/3500 [45:17<1:41:18,  2.29s/it, lr: 2.0e-04 loss: 6.769e-02]wan_dewa:  24%|##4       | 849/3500 [45:17<1:41:18,  2.29s/it, lr: 2.0e-04 loss: 6.769e-02]wan_dewa:  24%|##4       | 849/3500 [45:30<1:41:18,  2.29s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  24%|##4       | 849/3500 [45:30<1:41:18,  2.29s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  24%|##4       | 850/3500 [45:33<1:41:16,  2.29s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  24%|##4       | 850/3500 [45:33<1:41:16,  2.29s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  24%|##4       | 851/3500 [45:33<1:18:02,  1.77s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  24%|##4       | 851/3500 [45:33<1:18:02,  1.77s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  24%|##4       | 851/3500 [45:35<1:18:02,  1.77s/it, lr: 2.0e-04 loss: 9.980e-02]wan_dewa:  24%|##4       | 851/3500 [45:35<1:18:02,  1.77s/it, lr: 2.0e-04 loss: 9.980e-02]wan_dewa:  24%|##4       | 852/3500 [45:35<1:23:33,  1.89s/it, lr: 2.0e-04 loss: 9.980e-02]wan_dewa:  24%|##4       | 852/3500 [45:35<1:23:33,  1.89s/it, lr: 2.0e-04 loss: 9.980e-02]wan_dewa:  24%|##4       | 852/3500 [45:38<1:23:33,  1.89s/it, lr: 2.0e-04 loss: 1.961e-01]wan_dewa:  24%|##4       | 852/3500 [45:38<1:23:33,  1.89s/it, lr: 2.0e-04 loss: 1.961e-01]wan_dewa:  24%|##4       | 853/3500 [45:38<1:31:34,  2.08s/it, lr: 2.0e-04 loss: 1.961e-01]wan_dewa:  24%|##4       | 853/3500 [45:38<1:31:34,  2.08s/it, lr: 2.0e-04 loss: 1.961e-01]wan_dewa:  24%|##4       | 853/3500 [45:40<1:31:34,  2.08s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:  24%|##4       | 853/3500 [45:40<1:31:34,  2.08s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:  24%|##4       | 854/3500 [45:40<1:33:54,  2.13s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:  24%|##4       | 854/3500 [45:40<1:33:54,  2.13s/it, lr: 2.0e-04 loss: 1.228e-01]wan_dewa:  24%|##4       | 854/3500 [45:42<1:33:54,  2.13s/it, lr: 2.0e-04 loss: 2.568e-01]wan_dewa:  24%|##4       | 854/3500 [45:42<1:33:54,  2.13s/it, lr: 2.0e-04 loss: 2.568e-01]wan_dewa:  24%|##4       | 855/3500 [45:42<1:35:40,  2.17s/it, lr: 2.0e-04 loss: 2.568e-01]wan_dewa:  24%|##4       | 855/3500 [45:42<1:35:40,  2.17s/it, lr: 2.0e-04 loss: 2.568e-01]wan_dewa:  24%|##4       | 855/3500 [45:44<1:35:40,  2.17s/it, lr: 2.0e-04 loss: 1.517e-01]wan_dewa:  24%|##4       | 855/3500 [45:44<1:35:40,  2.17s/it, lr: 2.0e-04 loss: 1.517e-01]wan_dewa:  24%|##4       | 856/3500 [45:44<1:36:57,  2.20s/it, lr: 2.0e-04 loss: 1.517e-01]wan_dewa:  24%|##4       | 856/3500 [45:44<1:36:57,  2.20s/it, lr: 2.0e-04 loss: 1.517e-01]wan_dewa:  24%|##4       | 856/3500 [45:47<1:36:57,  2.20s/it, lr: 2.0e-04 loss: 5.621e-02]wan_dewa:  24%|##4       | 856/3500 [45:47<1:36:57,  2.20s/it, lr: 2.0e-04 loss: 5.621e-02]wan_dewa:  24%|##4       | 857/3500 [45:47<1:37:55,  2.22s/it, lr: 2.0e-04 loss: 5.621e-02]wan_dewa:  24%|##4       | 857/3500 [45:47<1:37:55,  2.22s/it, lr: 2.0e-04 loss: 5.621e-02]wan_dewa:  24%|##4       | 857/3500 [45:49<1:37:55,  2.22s/it, lr: 2.0e-04 loss: 4.492e-02]wan_dewa:  24%|##4       | 857/3500 [45:49<1:37:55,  2.22s/it, lr: 2.0e-04 loss: 4.492e-02]wan_dewa:  25%|##4       | 858/3500 [45:49<1:41:27,  2.30s/it, lr: 2.0e-04 loss: 4.492e-02]wan_dewa:  25%|##4       | 858/3500 [45:49<1:41:27,  2.30s/it, lr: 2.0e-04 loss: 4.492e-02]wan_dewa:  25%|##4       | 858/3500 [45:51<1:41:27,  2.30s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  25%|##4       | 858/3500 [45:51<1:41:27,  2.30s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  25%|##4       | 859/3500 [45:51<1:41:07,  2.30s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  25%|##4       | 859/3500 [45:51<1:41:07,  2.30s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  25%|##4       | 859/3500 [46:02<1:41:07,  2.30s/it, lr: 2.0e-04 loss: 5.931e-02]wan_dewa:  25%|##4       | 859/3500 [46:02<1:41:07,  2.30s/it, lr: 2.0e-04 loss: 5.931e-02]wan_dewa:  25%|##4       | 860/3500 [46:05<1:41:04,  2.30s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  25%|##4       | 860/3500 [46:05<1:41:04,  2.30s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  25%|##4       | 861/3500 [46:05<1:17:42,  1.77s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  25%|##4       | 861/3500 [46:05<1:17:42,  1.77s/it, lr: 2.0e-04 loss: 5.756e-02]wan_dewa:  25%|##4       | 861/3500 [46:07<1:17:42,  1.77s/it, lr: 2.0e-04 loss: 6.474e-02]wan_dewa:  25%|##4       | 861/3500 [46:07<1:17:42,  1.77s/it, lr: 2.0e-04 loss: 6.474e-02]wan_dewa:  25%|##4       | 862/3500 [46:07<1:23:09,  1.89s/it, lr: 2.0e-04 loss: 6.474e-02]wan_dewa:  25%|##4       | 862/3500 [46:07<1:23:09,  1.89s/it, lr: 2.0e-04 loss: 6.474e-02]wan_dewa:  25%|##4       | 862/3500 [46:09<1:23:09,  1.89s/it, lr: 2.0e-04 loss: 6.253e-02]wan_dewa:  25%|##4       | 862/3500 [46:09<1:23:09,  1.89s/it, lr: 2.0e-04 loss: 6.253e-02]wan_dewa:  25%|##4       | 863/3500 [46:09<1:29:50,  2.04s/it, lr: 2.0e-04 loss: 6.253e-02]wan_dewa:  25%|##4       | 863/3500 [46:09<1:29:50,  2.04s/it, lr: 2.0e-04 loss: 6.253e-02]wan_dewa:  25%|##4       | 863/3500 [46:12<1:29:50,  2.04s/it, lr: 2.0e-04 loss: 9.933e-02]wan_dewa:  25%|##4       | 863/3500 [46:12<1:29:50,  2.04s/it, lr: 2.0e-04 loss: 9.933e-02]wan_dewa:  25%|##4       | 864/3500 [46:12<1:32:31,  2.11s/it, lr: 2.0e-04 loss: 9.933e-02]wan_dewa:  25%|##4       | 864/3500 [46:12<1:32:31,  2.11s/it, lr: 2.0e-04 loss: 9.933e-02]wan_dewa:  25%|##4       | 864/3500 [46:14<1:32:31,  2.11s/it, lr: 2.0e-04 loss: 3.043e-02]wan_dewa:  25%|##4       | 864/3500 [46:14<1:32:31,  2.11s/it, lr: 2.0e-04 loss: 3.043e-02]wan_dewa:  25%|##4       | 865/3500 [46:14<1:34:31,  2.15s/it, lr: 2.0e-04 loss: 3.043e-02]wan_dewa:  25%|##4       | 865/3500 [46:14<1:34:31,  2.15s/it, lr: 2.0e-04 loss: 3.043e-02]wan_dewa:  25%|##4       | 865/3500 [46:16<1:34:31,  2.15s/it, lr: 2.0e-04 loss: 3.207e-02]wan_dewa:  25%|##4       | 865/3500 [46:16<1:34:31,  2.15s/it, lr: 2.0e-04 loss: 3.207e-02]wan_dewa:  25%|##4       | 866/3500 [46:16<1:36:00,  2.19s/it, lr: 2.0e-04 loss: 3.207e-02]wan_dewa:  25%|##4       | 866/3500 [46:16<1:36:00,  2.19s/it, lr: 2.0e-04 loss: 3.207e-02]wan_dewa:  25%|##4       | 866/3500 [46:18<1:36:00,  2.19s/it, lr: 2.0e-04 loss: 6.712e-02]wan_dewa:  25%|##4       | 866/3500 [46:18<1:36:00,  2.19s/it, lr: 2.0e-04 loss: 6.712e-02]wan_dewa:  25%|##4       | 867/3500 [46:18<1:37:05,  2.21s/it, lr: 2.0e-04 loss: 6.712e-02]wan_dewa:  25%|##4       | 867/3500 [46:18<1:37:05,  2.21s/it, lr: 2.0e-04 loss: 6.712e-02]wan_dewa:  25%|##4       | 867/3500 [46:21<1:37:05,  2.21s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  25%|##4       | 867/3500 [46:21<1:37:05,  2.21s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  25%|##4       | 868/3500 [46:21<1:37:51,  2.23s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  25%|##4       | 868/3500 [46:21<1:37:51,  2.23s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  25%|##4       | 868/3500 [46:23<1:37:51,  2.23s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  25%|##4       | 868/3500 [46:23<1:37:51,  2.23s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  25%|##4       | 869/3500 [46:23<1:40:57,  2.30s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  25%|##4       | 869/3500 [46:23<1:40:57,  2.30s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  25%|##4       | 869/3500 [46:31<1:40:57,  2.30s/it, lr: 2.0e-04 loss: 8.993e-02]wan_dewa:  25%|##4       | 869/3500 [46:31<1:40:57,  2.30s/it, lr: 2.0e-04 loss: 8.993e-02]wan_dewa:  25%|##4       | 870/3500 [46:33<1:40:55,  2.30s/it, lr: 2.0e-04 loss: 5.045e-02]wan_dewa:  25%|##4       | 870/3500 [46:33<1:40:55,  2.30s/it, lr: 2.0e-04 loss: 5.045e-02]wan_dewa:  25%|##4       | 871/3500 [46:33<1:17:34,  1.77s/it, lr: 2.0e-04 loss: 5.045e-02]wan_dewa:  25%|##4       | 871/3500 [46:33<1:17:34,  1.77s/it, lr: 2.0e-04 loss: 5.045e-02]wan_dewa:  25%|##4       | 871/3500 [46:36<1:17:34,  1.77s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  25%|##4       | 871/3500 [46:36<1:17:34,  1.77s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  25%|##4       | 872/3500 [46:36<1:23:01,  1.90s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  25%|##4       | 872/3500 [46:36<1:23:01,  1.90s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  25%|##4       | 872/3500 [46:38<1:23:01,  1.90s/it, lr: 2.0e-04 loss: 8.023e-02]wan_dewa:  25%|##4       | 872/3500 [46:38<1:23:01,  1.90s/it, lr: 2.0e-04 loss: 8.023e-02]wan_dewa:  25%|##4       | 873/3500 [46:38<1:27:23,  2.00s/it, lr: 2.0e-04 loss: 8.023e-02]wan_dewa:  25%|##4       | 873/3500 [46:38<1:27:23,  2.00s/it, lr: 2.0e-04 loss: 8.023e-02]wan_dewa:  25%|##4       | 873/3500 [46:40<1:27:23,  2.00s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:  25%|##4       | 873/3500 [46:40<1:27:23,  2.00s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:  25%|##4       | 874/3500 [46:40<1:33:06,  2.13s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:  25%|##4       | 874/3500 [46:40<1:33:06,  2.13s/it, lr: 2.0e-04 loss: 9.488e-02]wan_dewa:  25%|##4       | 874/3500 [46:45<1:33:06,  2.13s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  25%|##4       | 874/3500 [46:45<1:33:06,  2.13s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  25%|##5       | 875/3500 [46:45<1:35:18,  2.18s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  25%|##5       | 875/3500 [46:45<1:35:18,  2.18s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  25%|##5       | 875/3500 [46:47<1:35:18,  2.18s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  25%|##5       | 875/3500 [46:47<1:35:18,  2.18s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  25%|##5       | 876/3500 [46:47<1:36:33,  2.21s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  25%|##5       | 876/3500 [46:47<1:36:33,  2.21s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  25%|##5       | 876/3500 [46:49<1:36:33,  2.21s/it, lr: 2.0e-04 loss: 6.727e-02]wan_dewa:  25%|##5       | 876/3500 [46:49<1:36:33,  2.21s/it, lr: 2.0e-04 loss: 6.727e-02]wan_dewa:  25%|##5       | 877/3500 [46:49<1:37:26,  2.23s/it, lr: 2.0e-04 loss: 6.727e-02]wan_dewa:  25%|##5       | 877/3500 [46:49<1:37:26,  2.23s/it, lr: 2.0e-04 loss: 6.727e-02]wan_dewa:  25%|##5       | 877/3500 [46:52<1:37:26,  2.23s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:  25%|##5       | 877/3500 [46:52<1:37:26,  2.23s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:  25%|##5       | 878/3500 [46:52<1:38:01,  2.24s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:  25%|##5       | 878/3500 [46:52<1:38:01,  2.24s/it, lr: 2.0e-04 loss: 1.020e-01]wan_dewa:  25%|##5       | 878/3500 [46:54<1:38:01,  2.24s/it, lr: 2.0e-04 loss: 1.669e-01]wan_dewa:  25%|##5       | 878/3500 [46:54<1:38:01,  2.24s/it, lr: 2.0e-04 loss: 1.669e-01]wan_dewa:  25%|##5       | 879/3500 [46:54<1:42:44,  2.35s/it, lr: 2.0e-04 loss: 1.669e-01]wan_dewa:  25%|##5       | 879/3500 [46:54<1:42:44,  2.35s/it, lr: 2.0e-04 loss: 1.669e-01]wan_dewa:  25%|##5       | 879/3500 [47:05<1:42:44,  2.35s/it, lr: 2.0e-04 loss: 7.497e-02]wan_dewa:  25%|##5       | 879/3500 [47:05<1:42:44,  2.35s/it, lr: 2.0e-04 loss: 7.497e-02]wan_dewa:  25%|##5       | 880/3500 [47:08<1:42:41,  2.35s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  25%|##5       | 880/3500 [47:08<1:42:41,  2.35s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  25%|##5       | 881/3500 [47:08<1:18:32,  1.80s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  25%|##5       | 881/3500 [47:08<1:18:32,  1.80s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  25%|##5       | 881/3500 [47:10<1:18:32,  1.80s/it, lr: 2.0e-04 loss: 6.899e-02]wan_dewa:  25%|##5       | 881/3500 [47:10<1:18:32,  1.80s/it, lr: 2.0e-04 loss: 6.899e-02]wan_dewa:  25%|##5       | 882/3500 [47:10<1:23:36,  1.92s/it, lr: 2.0e-04 loss: 6.899e-02]wan_dewa:  25%|##5       | 882/3500 [47:10<1:23:36,  1.92s/it, lr: 2.0e-04 loss: 6.899e-02]wan_dewa:  25%|##5       | 882/3500 [47:12<1:23:36,  1.92s/it, lr: 2.0e-04 loss: 4.484e-02]wan_dewa:  25%|##5       | 882/3500 [47:12<1:23:36,  1.92s/it, lr: 2.0e-04 loss: 4.484e-02]wan_dewa:  25%|##5       | 883/3500 [47:12<1:27:36,  2.01s/it, lr: 2.0e-04 loss: 4.484e-02]wan_dewa:  25%|##5       | 883/3500 [47:12<1:27:36,  2.01s/it, lr: 2.0e-04 loss: 4.484e-02]wan_dewa:  25%|##5       | 883/3500 [47:15<1:27:36,  2.01s/it, lr: 2.0e-04 loss: 5.928e-02]wan_dewa:  25%|##5       | 883/3500 [47:15<1:27:36,  2.01s/it, lr: 2.0e-04 loss: 5.928e-02]wan_dewa:  25%|##5       | 884/3500 [47:15<1:33:47,  2.15s/it, lr: 2.0e-04 loss: 5.928e-02]wan_dewa:  25%|##5       | 884/3500 [47:15<1:33:47,  2.15s/it, lr: 2.0e-04 loss: 5.928e-02]wan_dewa:  25%|##5       | 884/3500 [47:17<1:33:47,  2.15s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  25%|##5       | 884/3500 [47:17<1:33:47,  2.15s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  25%|##5       | 885/3500 [47:17<1:35:15,  2.19s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  25%|##5       | 885/3500 [47:17<1:35:15,  2.19s/it, lr: 2.0e-04 loss: 7.933e-02]wan_dewa:  25%|##5       | 885/3500 [47:19<1:35:15,  2.19s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  25%|##5       | 885/3500 [47:19<1:35:15,  2.19s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  25%|##5       | 886/3500 [47:19<1:36:22,  2.21s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  25%|##5       | 886/3500 [47:19<1:36:22,  2.21s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  25%|##5       | 886/3500 [47:22<1:36:22,  2.21s/it, lr: 2.0e-04 loss: 6.263e-02]wan_dewa:  25%|##5       | 886/3500 [47:22<1:36:22,  2.21s/it, lr: 2.0e-04 loss: 6.263e-02]wan_dewa:  25%|##5       | 887/3500 [47:22<1:37:07,  2.23s/it, lr: 2.0e-04 loss: 6.263e-02]wan_dewa:  25%|##5       | 887/3500 [47:22<1:37:07,  2.23s/it, lr: 2.0e-04 loss: 6.263e-02]wan_dewa:  25%|##5       | 887/3500 [47:24<1:37:07,  2.23s/it, lr: 2.0e-04 loss: 6.929e-02]wan_dewa:  25%|##5       | 887/3500 [47:24<1:37:07,  2.23s/it, lr: 2.0e-04 loss: 6.929e-02]wan_dewa:  25%|##5       | 888/3500 [47:24<1:40:50,  2.32s/it, lr: 2.0e-04 loss: 6.929e-02]wan_dewa:  25%|##5       | 888/3500 [47:24<1:40:50,  2.32s/it, lr: 2.0e-04 loss: 6.929e-02]wan_dewa:  25%|##5       | 888/3500 [47:26<1:40:50,  2.32s/it, lr: 2.0e-04 loss: 6.567e-02]wan_dewa:  25%|##5       | 888/3500 [47:26<1:40:50,  2.32s/it, lr: 2.0e-04 loss: 6.567e-02]wan_dewa:  25%|##5       | 889/3500 [47:26<1:40:19,  2.31s/it, lr: 2.0e-04 loss: 6.567e-02]wan_dewa:  25%|##5       | 889/3500 [47:26<1:40:19,  2.31s/it, lr: 2.0e-04 loss: 6.567e-02]wan_dewa:  25%|##5       | 889/3500 [47:38<1:40:19,  2.31s/it, lr: 2.0e-04 loss: 4.524e-02]wan_dewa:  25%|##5       | 889/3500 [47:38<1:40:19,  2.31s/it, lr: 2.0e-04 loss: 4.524e-02]wan_dewa:  25%|##5       | 890/3500 [47:40<1:40:17,  2.31s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  25%|##5       | 890/3500 [47:40<1:40:17,  2.31s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  25%|##5       | 891/3500 [47:40<1:17:13,  1.78s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  25%|##5       | 891/3500 [47:40<1:17:13,  1.78s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  25%|##5       | 891/3500 [47:42<1:17:13,  1.78s/it, lr: 2.0e-04 loss: 5.624e-02]wan_dewa:  25%|##5       | 891/3500 [47:42<1:17:13,  1.78s/it, lr: 2.0e-04 loss: 5.624e-02]wan_dewa:  25%|##5       | 892/3500 [47:42<1:22:33,  1.90s/it, lr: 2.0e-04 loss: 5.624e-02]wan_dewa:  25%|##5       | 892/3500 [47:42<1:22:33,  1.90s/it, lr: 2.0e-04 loss: 5.624e-02]wan_dewa:  25%|##5       | 892/3500 [47:45<1:22:33,  1.90s/it, lr: 2.0e-04 loss: 8.874e-02]wan_dewa:  25%|##5       | 892/3500 [47:45<1:22:33,  1.90s/it, lr: 2.0e-04 loss: 8.874e-02]wan_dewa:  26%|##5       | 893/3500 [47:45<1:29:16,  2.05s/it, lr: 2.0e-04 loss: 8.874e-02]wan_dewa:  26%|##5       | 893/3500 [47:45<1:29:16,  2.05s/it, lr: 2.0e-04 loss: 8.874e-02]wan_dewa:  26%|##5       | 893/3500 [47:47<1:29:16,  2.05s/it, lr: 2.0e-04 loss: 8.527e-02]wan_dewa:  26%|##5       | 893/3500 [47:47<1:29:16,  2.05s/it, lr: 2.0e-04 loss: 8.527e-02]wan_dewa:  26%|##5       | 894/3500 [47:47<1:31:52,  2.12s/it, lr: 2.0e-04 loss: 8.527e-02]wan_dewa:  26%|##5       | 894/3500 [47:47<1:31:52,  2.12s/it, lr: 2.0e-04 loss: 8.527e-02]wan_dewa:  26%|##5       | 894/3500 [47:49<1:31:52,  2.12s/it, lr: 2.0e-04 loss: 6.607e-02]wan_dewa:  26%|##5       | 894/3500 [47:49<1:31:52,  2.12s/it, lr: 2.0e-04 loss: 6.607e-02]wan_dewa:  26%|##5       | 895/3500 [47:49<1:33:50,  2.16s/it, lr: 2.0e-04 loss: 6.607e-02]wan_dewa:  26%|##5       | 895/3500 [47:49<1:33:50,  2.16s/it, lr: 2.0e-04 loss: 6.607e-02]wan_dewa:  26%|##5       | 895/3500 [47:52<1:33:50,  2.16s/it, lr: 2.0e-04 loss: 7.764e-02]wan_dewa:  26%|##5       | 895/3500 [47:52<1:33:50,  2.16s/it, lr: 2.0e-04 loss: 7.764e-02]wan_dewa:  26%|##5       | 896/3500 [47:52<1:35:17,  2.20s/it, lr: 2.0e-04 loss: 7.764e-02]wan_dewa:  26%|##5       | 896/3500 [47:52<1:35:17,  2.20s/it, lr: 2.0e-04 loss: 7.764e-02]wan_dewa:  26%|##5       | 896/3500 [47:54<1:35:17,  2.20s/it, lr: 2.0e-04 loss: 1.421e-01]wan_dewa:  26%|##5       | 896/3500 [47:54<1:35:17,  2.20s/it, lr: 2.0e-04 loss: 1.421e-01]wan_dewa:  26%|##5       | 897/3500 [47:54<1:36:24,  2.22s/it, lr: 2.0e-04 loss: 1.421e-01]wan_dewa:  26%|##5       | 897/3500 [47:54<1:36:24,  2.22s/it, lr: 2.0e-04 loss: 1.421e-01]wan_dewa:  26%|##5       | 897/3500 [47:56<1:36:24,  2.22s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  26%|##5       | 897/3500 [47:56<1:36:24,  2.22s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  26%|##5       | 898/3500 [47:56<1:37:07,  2.24s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  26%|##5       | 898/3500 [47:56<1:37:07,  2.24s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  26%|##5       | 898/3500 [47:59<1:37:07,  2.24s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  26%|##5       | 898/3500 [47:59<1:37:07,  2.24s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  26%|##5       | 899/3500 [47:59<1:40:33,  2.32s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  26%|##5       | 899/3500 [47:59<1:40:33,  2.32s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  26%|##5       | 899/3500 [48:12<1:40:33,  2.32s/it, lr: 2.0e-04 loss: 7.768e-02]wan_dewa:  26%|##5       | 899/3500 [48:12<1:40:33,  2.32s/it, lr: 2.0e-04 loss: 7.768e-02]wan_dewa:  26%|##5       | 900/3500 [48:14<1:40:30,  2.32s/it, lr: 2.0e-04 loss: 5.911e-02]wan_dewa:  26%|##5       | 900/3500 [48:14<1:40:30,  2.32s/it, lr: 2.0e-04 loss: 5.911e-02]wan_dewa:  26%|##5       | 901/3500 [48:14<1:17:10,  1.78s/it, lr: 2.0e-04 loss: 5.911e-02]wan_dewa:  26%|##5       | 901/3500 [48:14<1:17:10,  1.78s/it, lr: 2.0e-04 loss: 5.911e-02]wan_dewa:  26%|##5       | 901/3500 [48:16<1:17:10,  1.78s/it, lr: 2.0e-04 loss: 5.998e-02]wan_dewa:  26%|##5       | 901/3500 [48:16<1:17:10,  1.78s/it, lr: 2.0e-04 loss: 5.998e-02]wan_dewa:  26%|##5       | 902/3500 [48:16<1:22:21,  1.90s/it, lr: 2.0e-04 loss: 5.998e-02]wan_dewa:  26%|##5       | 902/3500 [48:16<1:22:21,  1.90s/it, lr: 2.0e-04 loss: 5.998e-02]wan_dewa:  26%|##5       | 902/3500 [48:19<1:22:21,  1.90s/it, lr: 2.0e-04 loss: 7.116e-02]wan_dewa:  26%|##5       | 902/3500 [48:19<1:22:21,  1.90s/it, lr: 2.0e-04 loss: 7.116e-02]wan_dewa:  26%|##5       | 903/3500 [48:19<1:30:18,  2.09s/it, lr: 2.0e-04 loss: 7.116e-02]wan_dewa:  26%|##5       | 903/3500 [48:19<1:30:18,  2.09s/it, lr: 2.0e-04 loss: 7.116e-02]wan_dewa:  26%|##5       | 903/3500 [48:21<1:30:18,  2.09s/it, lr: 2.0e-04 loss: 6.080e-02]wan_dewa:  26%|##5       | 903/3500 [48:21<1:30:18,  2.09s/it, lr: 2.0e-04 loss: 6.080e-02]wan_dewa:  26%|##5       | 904/3500 [48:21<1:32:28,  2.14s/it, lr: 2.0e-04 loss: 6.080e-02]wan_dewa:  26%|##5       | 904/3500 [48:21<1:32:28,  2.14s/it, lr: 2.0e-04 loss: 6.080e-02]wan_dewa:  26%|##5       | 904/3500 [48:24<1:32:28,  2.14s/it, lr: 2.0e-04 loss: 3.624e-02]wan_dewa:  26%|##5       | 904/3500 [48:24<1:32:28,  2.14s/it, lr: 2.0e-04 loss: 3.624e-02]wan_dewa:  26%|##5       | 905/3500 [48:24<1:34:05,  2.18s/it, lr: 2.0e-04 loss: 3.624e-02]wan_dewa:  26%|##5       | 905/3500 [48:24<1:34:05,  2.18s/it, lr: 2.0e-04 loss: 3.624e-02]wan_dewa:  26%|##5       | 905/3500 [48:26<1:34:05,  2.18s/it, lr: 2.0e-04 loss: 6.558e-02]wan_dewa:  26%|##5       | 905/3500 [48:26<1:34:05,  2.18s/it, lr: 2.0e-04 loss: 6.558e-02]wan_dewa:  26%|##5       | 906/3500 [48:26<1:35:13,  2.20s/it, lr: 2.0e-04 loss: 6.558e-02]wan_dewa:  26%|##5       | 906/3500 [48:26<1:35:13,  2.20s/it, lr: 2.0e-04 loss: 6.558e-02]wan_dewa:  26%|##5       | 906/3500 [48:28<1:35:13,  2.20s/it, lr: 2.0e-04 loss: 6.223e-02]wan_dewa:  26%|##5       | 906/3500 [48:28<1:35:13,  2.20s/it, lr: 2.0e-04 loss: 6.223e-02]wan_dewa:  26%|##5       | 907/3500 [48:28<1:36:04,  2.22s/it, lr: 2.0e-04 loss: 6.223e-02]wan_dewa:  26%|##5       | 907/3500 [48:28<1:36:04,  2.22s/it, lr: 2.0e-04 loss: 6.223e-02]wan_dewa:  26%|##5       | 907/3500 [48:30<1:36:04,  2.22s/it, lr: 2.0e-04 loss: 9.987e-02]wan_dewa:  26%|##5       | 907/3500 [48:30<1:36:04,  2.22s/it, lr: 2.0e-04 loss: 9.987e-02]wan_dewa:  26%|##5       | 908/3500 [48:30<1:36:44,  2.24s/it, lr: 2.0e-04 loss: 9.987e-02]wan_dewa:  26%|##5       | 908/3500 [48:30<1:36:44,  2.24s/it, lr: 2.0e-04 loss: 9.987e-02]wan_dewa:  26%|##5       | 908/3500 [48:33<1:36:44,  2.24s/it, lr: 2.0e-04 loss: 5.910e-02]wan_dewa:  26%|##5       | 908/3500 [48:33<1:36:44,  2.24s/it, lr: 2.0e-04 loss: 5.910e-02]wan_dewa:  26%|##5       | 909/3500 [48:33<1:39:46,  2.31s/it, lr: 2.0e-04 loss: 5.910e-02]wan_dewa:  26%|##5       | 909/3500 [48:33<1:39:46,  2.31s/it, lr: 2.0e-04 loss: 5.910e-02]wan_dewa:  26%|##5       | 909/3500 [48:44<1:39:46,  2.31s/it, lr: 2.0e-04 loss: 4.695e-02]wan_dewa:  26%|##5       | 909/3500 [48:44<1:39:46,  2.31s/it, lr: 2.0e-04 loss: 4.695e-02]wan_dewa:  26%|##6       | 910/3500 [48:46<1:39:44,  2.31s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  26%|##6       | 910/3500 [48:46<1:39:44,  2.31s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  26%|##6       | 911/3500 [48:46<1:16:35,  1.77s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  26%|##6       | 911/3500 [48:46<1:16:35,  1.77s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  26%|##6       | 911/3500 [48:48<1:16:35,  1.77s/it, lr: 2.0e-04 loss: 6.992e-02]wan_dewa:  26%|##6       | 911/3500 [48:48<1:16:35,  1.77s/it, lr: 2.0e-04 loss: 6.992e-02]wan_dewa:  26%|##6       | 912/3500 [48:48<1:21:54,  1.90s/it, lr: 2.0e-04 loss: 6.992e-02]wan_dewa:  26%|##6       | 912/3500 [48:48<1:21:54,  1.90s/it, lr: 2.0e-04 loss: 6.992e-02]wan_dewa:  26%|##6       | 912/3500 [48:51<1:21:54,  1.90s/it, lr: 2.0e-04 loss: 8.448e-02]wan_dewa:  26%|##6       | 912/3500 [48:51<1:21:54,  1.90s/it, lr: 2.0e-04 loss: 8.448e-02]wan_dewa:  26%|##6       | 913/3500 [48:51<1:26:05,  2.00s/it, lr: 2.0e-04 loss: 8.448e-02]wan_dewa:  26%|##6       | 913/3500 [48:51<1:26:05,  2.00s/it, lr: 2.0e-04 loss: 8.448e-02]wan_dewa:  26%|##6       | 913/3500 [48:53<1:26:05,  2.00s/it, lr: 2.0e-04 loss: 5.409e-02]wan_dewa:  26%|##6       | 913/3500 [48:53<1:26:05,  2.00s/it, lr: 2.0e-04 loss: 5.409e-02]wan_dewa:  26%|##6       | 914/3500 [48:53<1:31:40,  2.13s/it, lr: 2.0e-04 loss: 5.409e-02]wan_dewa:  26%|##6       | 914/3500 [48:53<1:31:40,  2.13s/it, lr: 2.0e-04 loss: 5.409e-02]wan_dewa:  26%|##6       | 914/3500 [48:55<1:31:40,  2.13s/it, lr: 2.0e-04 loss: 6.014e-02]wan_dewa:  26%|##6       | 914/3500 [48:55<1:31:40,  2.13s/it, lr: 2.0e-04 loss: 6.014e-02]wan_dewa:  26%|##6       | 915/3500 [48:55<1:33:27,  2.17s/it, lr: 2.0e-04 loss: 6.014e-02]wan_dewa:  26%|##6       | 915/3500 [48:55<1:33:27,  2.17s/it, lr: 2.0e-04 loss: 6.014e-02]wan_dewa:  26%|##6       | 915/3500 [48:58<1:33:27,  2.17s/it, lr: 2.0e-04 loss: 1.849e-01]wan_dewa:  26%|##6       | 915/3500 [48:58<1:33:27,  2.17s/it, lr: 2.0e-04 loss: 1.849e-01]wan_dewa:  26%|##6       | 916/3500 [48:58<1:34:46,  2.20s/it, lr: 2.0e-04 loss: 1.849e-01]wan_dewa:  26%|##6       | 916/3500 [48:58<1:34:46,  2.20s/it, lr: 2.0e-04 loss: 1.849e-01]wan_dewa:  26%|##6       | 916/3500 [49:00<1:34:46,  2.20s/it, lr: 2.0e-04 loss: 4.310e-02]wan_dewa:  26%|##6       | 916/3500 [49:00<1:34:46,  2.20s/it, lr: 2.0e-04 loss: 4.310e-02]wan_dewa:  26%|##6       | 917/3500 [49:00<1:35:44,  2.22s/it, lr: 2.0e-04 loss: 4.310e-02]wan_dewa:  26%|##6       | 917/3500 [49:00<1:35:44,  2.22s/it, lr: 2.0e-04 loss: 4.310e-02]wan_dewa:  26%|##6       | 917/3500 [49:02<1:35:44,  2.22s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  26%|##6       | 917/3500 [49:02<1:35:44,  2.22s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  26%|##6       | 918/3500 [49:02<1:36:26,  2.24s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  26%|##6       | 918/3500 [49:02<1:36:26,  2.24s/it, lr: 2.0e-04 loss: 5.413e-02]wan_dewa:  26%|##6       | 918/3500 [49:05<1:36:26,  2.24s/it, lr: 2.0e-04 loss: 5.564e-02]wan_dewa:  26%|##6       | 918/3500 [49:05<1:36:26,  2.24s/it, lr: 2.0e-04 loss: 5.564e-02]wan_dewa:  26%|##6       | 919/3500 [49:05<1:39:29,  2.31s/it, lr: 2.0e-04 loss: 5.564e-02]wan_dewa:  26%|##6       | 919/3500 [49:05<1:39:29,  2.31s/it, lr: 2.0e-04 loss: 5.564e-02]wan_dewa:  26%|##6       | 919/3500 [49:13<1:39:29,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  26%|##6       | 919/3500 [49:13<1:39:29,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  26%|##6       | 920/3500 [49:15<1:39:26,  2.31s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  26%|##6       | 920/3500 [49:15<1:39:26,  2.31s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  26%|##6       | 921/3500 [49:15<1:16:17,  1.77s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  26%|##6       | 921/3500 [49:15<1:16:17,  1.77s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  26%|##6       | 921/3500 [49:17<1:16:17,  1.77s/it, lr: 2.0e-04 loss: 5.798e-02]wan_dewa:  26%|##6       | 921/3500 [49:17<1:16:17,  1.77s/it, lr: 2.0e-04 loss: 5.798e-02]wan_dewa:  26%|##6       | 922/3500 [49:17<1:21:32,  1.90s/it, lr: 2.0e-04 loss: 5.798e-02]wan_dewa:  26%|##6       | 922/3500 [49:17<1:21:32,  1.90s/it, lr: 2.0e-04 loss: 5.798e-02]wan_dewa:  26%|##6       | 922/3500 [49:19<1:21:32,  1.90s/it, lr: 2.0e-04 loss: 3.982e-02]wan_dewa:  26%|##6       | 922/3500 [49:19<1:21:32,  1.90s/it, lr: 2.0e-04 loss: 3.982e-02]wan_dewa:  26%|##6       | 923/3500 [49:19<1:25:40,  1.99s/it, lr: 2.0e-04 loss: 3.982e-02]wan_dewa:  26%|##6       | 923/3500 [49:19<1:25:40,  1.99s/it, lr: 2.0e-04 loss: 3.982e-02]wan_dewa:  26%|##6       | 923/3500 [49:22<1:25:40,  1.99s/it, lr: 2.0e-04 loss: 5.600e-02]wan_dewa:  26%|##6       | 923/3500 [49:22<1:25:40,  1.99s/it, lr: 2.0e-04 loss: 5.600e-02]wan_dewa:  26%|##6       | 924/3500 [49:22<1:31:14,  2.13s/it, lr: 2.0e-04 loss: 5.600e-02]wan_dewa:  26%|##6       | 924/3500 [49:22<1:31:14,  2.13s/it, lr: 2.0e-04 loss: 5.600e-02]wan_dewa:  26%|##6       | 924/3500 [49:26<1:31:14,  2.13s/it, lr: 2.0e-04 loss: 4.490e-02]wan_dewa:  26%|##6       | 924/3500 [49:26<1:31:14,  2.13s/it, lr: 2.0e-04 loss: 4.490e-02]wan_dewa:  26%|##6       | 925/3500 [49:26<1:33:23,  2.18s/it, lr: 2.0e-04 loss: 4.490e-02]wan_dewa:  26%|##6       | 925/3500 [49:26<1:33:23,  2.18s/it, lr: 2.0e-04 loss: 4.490e-02]wan_dewa:  26%|##6       | 925/3500 [49:29<1:33:23,  2.18s/it, lr: 2.0e-04 loss: 6.276e-02]wan_dewa:  26%|##6       | 925/3500 [49:29<1:33:23,  2.18s/it, lr: 2.0e-04 loss: 6.276e-02]wan_dewa:  26%|##6       | 926/3500 [49:29<1:34:31,  2.20s/it, lr: 2.0e-04 loss: 6.276e-02]wan_dewa:  26%|##6       | 926/3500 [49:29<1:34:31,  2.20s/it, lr: 2.0e-04 loss: 6.276e-02]wan_dewa:  26%|##6       | 926/3500 [49:31<1:34:31,  2.20s/it, lr: 2.0e-04 loss: 5.890e-02]wan_dewa:  26%|##6       | 926/3500 [49:31<1:34:31,  2.20s/it, lr: 2.0e-04 loss: 5.890e-02]wan_dewa:  26%|##6       | 927/3500 [49:31<1:35:23,  2.22s/it, lr: 2.0e-04 loss: 5.890e-02]wan_dewa:  26%|##6       | 927/3500 [49:31<1:35:23,  2.22s/it, lr: 2.0e-04 loss: 5.890e-02]wan_dewa:  26%|##6       | 927/3500 [49:33<1:35:23,  2.22s/it, lr: 2.0e-04 loss: 5.985e-02]wan_dewa:  26%|##6       | 927/3500 [49:33<1:35:23,  2.22s/it, lr: 2.0e-04 loss: 5.985e-02]wan_dewa:  27%|##6       | 928/3500 [49:33<1:35:59,  2.24s/it, lr: 2.0e-04 loss: 5.985e-02]wan_dewa:  27%|##6       | 928/3500 [49:33<1:35:59,  2.24s/it, lr: 2.0e-04 loss: 5.985e-02]wan_dewa:  27%|##6       | 928/3500 [49:36<1:35:59,  2.24s/it, lr: 2.0e-04 loss: 7.558e-02]wan_dewa:  27%|##6       | 928/3500 [49:36<1:35:59,  2.24s/it, lr: 2.0e-04 loss: 7.558e-02]wan_dewa:  27%|##6       | 929/3500 [49:36<1:40:32,  2.35s/it, lr: 2.0e-04 loss: 7.558e-02]wan_dewa:  27%|##6       | 929/3500 [49:36<1:40:32,  2.35s/it, lr: 2.0e-04 loss: 7.558e-02]wan_dewa:  27%|##6       | 929/3500 [49:47<1:40:32,  2.35s/it, lr: 2.0e-04 loss: 5.995e-02]wan_dewa:  27%|##6       | 929/3500 [49:47<1:40:32,  2.35s/it, lr: 2.0e-04 loss: 5.995e-02]wan_dewa:  27%|##6       | 930/3500 [49:49<1:40:29,  2.35s/it, lr: 2.0e-04 loss: 1.458e-01]wan_dewa:  27%|##6       | 930/3500 [49:49<1:40:29,  2.35s/it, lr: 2.0e-04 loss: 1.458e-01]wan_dewa:  27%|##6       | 931/3500 [49:49<1:16:51,  1.79s/it, lr: 2.0e-04 loss: 1.458e-01]wan_dewa:  27%|##6       | 931/3500 [49:49<1:16:51,  1.79s/it, lr: 2.0e-04 loss: 1.458e-01]wan_dewa:  27%|##6       | 931/3500 [49:52<1:16:51,  1.79s/it, lr: 2.0e-04 loss: 1.147e-01]wan_dewa:  27%|##6       | 931/3500 [49:52<1:16:51,  1.79s/it, lr: 2.0e-04 loss: 1.147e-01]wan_dewa:  27%|##6       | 932/3500 [49:52<1:21:53,  1.91s/it, lr: 2.0e-04 loss: 1.147e-01]wan_dewa:  27%|##6       | 932/3500 [49:52<1:21:53,  1.91s/it, lr: 2.0e-04 loss: 1.147e-01]wan_dewa:  27%|##6       | 932/3500 [49:54<1:21:53,  1.91s/it, lr: 2.0e-04 loss: 1.772e-01]wan_dewa:  27%|##6       | 932/3500 [49:54<1:21:53,  1.91s/it, lr: 2.0e-04 loss: 1.772e-01]wan_dewa:  27%|##6       | 933/3500 [49:54<1:25:54,  2.01s/it, lr: 2.0e-04 loss: 1.772e-01]wan_dewa:  27%|##6       | 933/3500 [49:54<1:25:54,  2.01s/it, lr: 2.0e-04 loss: 1.772e-01]wan_dewa:  27%|##6       | 933/3500 [49:56<1:25:54,  2.01s/it, lr: 2.0e-04 loss: 5.251e-02]wan_dewa:  27%|##6       | 933/3500 [49:56<1:25:54,  2.01s/it, lr: 2.0e-04 loss: 5.251e-02]wan_dewa:  27%|##6       | 934/3500 [49:56<1:31:28,  2.14s/it, lr: 2.0e-04 loss: 5.251e-02]wan_dewa:  27%|##6       | 934/3500 [49:56<1:31:28,  2.14s/it, lr: 2.0e-04 loss: 5.251e-02]wan_dewa:  27%|##6       | 934/3500 [49:59<1:31:28,  2.14s/it, lr: 2.0e-04 loss: 3.810e-02]wan_dewa:  27%|##6       | 934/3500 [49:59<1:31:28,  2.14s/it, lr: 2.0e-04 loss: 3.810e-02]wan_dewa:  27%|##6       | 935/3500 [49:59<1:33:04,  2.18s/it, lr: 2.0e-04 loss: 3.810e-02]wan_dewa:  27%|##6       | 935/3500 [49:59<1:33:04,  2.18s/it, lr: 2.0e-04 loss: 3.810e-02]wan_dewa:  27%|##6       | 935/3500 [50:01<1:33:04,  2.18s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  27%|##6       | 935/3500 [50:01<1:33:04,  2.18s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  27%|##6       | 936/3500 [50:01<1:34:15,  2.21s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  27%|##6       | 936/3500 [50:01<1:34:15,  2.21s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  27%|##6       | 936/3500 [50:03<1:34:15,  2.21s/it, lr: 2.0e-04 loss: 1.231e-01]wan_dewa:  27%|##6       | 936/3500 [50:03<1:34:15,  2.21s/it, lr: 2.0e-04 loss: 1.231e-01]wan_dewa:  27%|##6       | 937/3500 [50:03<1:35:07,  2.23s/it, lr: 2.0e-04 loss: 1.231e-01]wan_dewa:  27%|##6       | 937/3500 [50:03<1:35:07,  2.23s/it, lr: 2.0e-04 loss: 1.231e-01]wan_dewa:  27%|##6       | 937/3500 [50:05<1:35:07,  2.23s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  27%|##6       | 937/3500 [50:05<1:35:07,  2.23s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  27%|##6       | 938/3500 [50:05<1:35:44,  2.24s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  27%|##6       | 938/3500 [50:05<1:35:44,  2.24s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  27%|##6       | 938/3500 [50:08<1:35:44,  2.24s/it, lr: 2.0e-04 loss: 2.970e-01]wan_dewa:  27%|##6       | 938/3500 [50:08<1:35:44,  2.24s/it, lr: 2.0e-04 loss: 2.970e-01]wan_dewa:  27%|##6       | 939/3500 [50:08<1:38:50,  2.32s/it, lr: 2.0e-04 loss: 2.970e-01]wan_dewa:  27%|##6       | 939/3500 [50:08<1:38:50,  2.32s/it, lr: 2.0e-04 loss: 2.970e-01]wan_dewa:  27%|##6       | 939/3500 [50:19<1:38:50,  2.32s/it, lr: 2.0e-04 loss: 3.020e-02]wan_dewa:  27%|##6       | 939/3500 [50:19<1:38:50,  2.32s/it, lr: 2.0e-04 loss: 3.020e-02]wan_dewa:  27%|##6       | 940/3500 [50:21<1:38:48,  2.32s/it, lr: 2.0e-04 loss: 6.325e-02]wan_dewa:  27%|##6       | 940/3500 [50:21<1:38:48,  2.32s/it, lr: 2.0e-04 loss: 6.325e-02]wan_dewa:  27%|##6       | 941/3500 [50:21<1:15:52,  1.78s/it, lr: 2.0e-04 loss: 6.325e-02]wan_dewa:  27%|##6       | 941/3500 [50:21<1:15:52,  1.78s/it, lr: 2.0e-04 loss: 6.325e-02]wan_dewa:  27%|##6       | 941/3500 [50:24<1:15:52,  1.78s/it, lr: 2.0e-04 loss: 6.797e-02]wan_dewa:  27%|##6       | 941/3500 [50:24<1:15:52,  1.78s/it, lr: 2.0e-04 loss: 6.797e-02]wan_dewa:  27%|##6       | 942/3500 [50:24<1:21:04,  1.90s/it, lr: 2.0e-04 loss: 6.797e-02]wan_dewa:  27%|##6       | 942/3500 [50:24<1:21:04,  1.90s/it, lr: 2.0e-04 loss: 6.797e-02]wan_dewa:  27%|##6       | 942/3500 [50:26<1:21:04,  1.90s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  27%|##6       | 942/3500 [50:26<1:21:04,  1.90s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  27%|##6       | 943/3500 [50:26<1:25:12,  2.00s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  27%|##6       | 943/3500 [50:26<1:25:12,  2.00s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  27%|##6       | 943/3500 [50:28<1:25:12,  2.00s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  27%|##6       | 943/3500 [50:28<1:25:12,  2.00s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  27%|##6       | 944/3500 [50:28<1:30:53,  2.13s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  27%|##6       | 944/3500 [50:28<1:30:53,  2.13s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  27%|##6       | 944/3500 [50:31<1:30:53,  2.13s/it, lr: 2.0e-04 loss: 9.715e-02]wan_dewa:  27%|##6       | 944/3500 [50:31<1:30:53,  2.13s/it, lr: 2.0e-04 loss: 9.715e-02]wan_dewa:  27%|##7       | 945/3500 [50:31<1:32:36,  2.17s/it, lr: 2.0e-04 loss: 9.715e-02]wan_dewa:  27%|##7       | 945/3500 [50:31<1:32:36,  2.17s/it, lr: 2.0e-04 loss: 9.715e-02]wan_dewa:  27%|##7       | 945/3500 [50:33<1:32:36,  2.17s/it, lr: 2.0e-04 loss: 3.238e-02]wan_dewa:  27%|##7       | 945/3500 [50:33<1:32:36,  2.17s/it, lr: 2.0e-04 loss: 3.238e-02]wan_dewa:  27%|##7       | 946/3500 [50:33<1:33:50,  2.20s/it, lr: 2.0e-04 loss: 3.238e-02]wan_dewa:  27%|##7       | 946/3500 [50:33<1:33:50,  2.20s/it, lr: 2.0e-04 loss: 3.238e-02]wan_dewa:  27%|##7       | 946/3500 [50:35<1:33:50,  2.20s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  27%|##7       | 946/3500 [50:35<1:33:50,  2.20s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  27%|##7       | 947/3500 [50:35<1:34:45,  2.23s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  27%|##7       | 947/3500 [50:35<1:34:45,  2.23s/it, lr: 2.0e-04 loss: 8.458e-02]wan_dewa:  27%|##7       | 947/3500 [50:37<1:34:45,  2.23s/it, lr: 2.0e-04 loss: 6.228e-02]wan_dewa:  27%|##7       | 947/3500 [50:37<1:34:45,  2.23s/it, lr: 2.0e-04 loss: 6.228e-02]wan_dewa:  27%|##7       | 948/3500 [50:37<1:35:23,  2.24s/it, lr: 2.0e-04 loss: 6.228e-02]wan_dewa:  27%|##7       | 948/3500 [50:37<1:35:23,  2.24s/it, lr: 2.0e-04 loss: 6.228e-02]wan_dewa:  27%|##7       | 948/3500 [50:40<1:35:23,  2.24s/it, lr: 2.0e-04 loss: 5.060e-02]wan_dewa:  27%|##7       | 948/3500 [50:40<1:35:23,  2.24s/it, lr: 2.0e-04 loss: 5.060e-02]wan_dewa:  27%|##7       | 949/3500 [50:40<1:35:50,  2.25s/it, lr: 2.0e-04 loss: 5.060e-02]wan_dewa:  27%|##7       | 949/3500 [50:40<1:35:50,  2.25s/it, lr: 2.0e-04 loss: 5.060e-02]wan_dewa:  27%|##7       | 949/3500 [50:53<1:35:50,  2.25s/it, lr: 2.0e-04 loss: 1.791e-01]wan_dewa:  27%|##7       | 949/3500 [50:53<1:35:50,  2.25s/it, lr: 2.0e-04 loss: 1.791e-01]wan_dewa:  27%|##7       | 950/3500 [50:55<1:35:48,  2.25s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  27%|##7       | 950/3500 [50:55<1:35:48,  2.25s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  27%|##7       | 951/3500 [50:55<1:14:08,  1.75s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  27%|##7       | 951/3500 [50:55<1:14:08,  1.75s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  27%|##7       | 951/3500 [50:58<1:14:08,  1.75s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  27%|##7       | 951/3500 [50:58<1:14:08,  1.75s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  27%|##7       | 952/3500 [50:58<1:19:42,  1.88s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  27%|##7       | 952/3500 [50:58<1:19:42,  1.88s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  27%|##7       | 952/3500 [51:00<1:19:42,  1.88s/it, lr: 2.0e-04 loss: 1.462e-01]wan_dewa:  27%|##7       | 952/3500 [51:00<1:19:42,  1.88s/it, lr: 2.0e-04 loss: 1.462e-01]wan_dewa:  27%|##7       | 953/3500 [51:00<1:24:05,  1.98s/it, lr: 2.0e-04 loss: 1.462e-01]wan_dewa:  27%|##7       | 953/3500 [51:00<1:24:05,  1.98s/it, lr: 2.0e-04 loss: 1.462e-01]wan_dewa:  27%|##7       | 953/3500 [51:02<1:24:05,  1.98s/it, lr: 2.0e-04 loss: 4.973e-02]wan_dewa:  27%|##7       | 953/3500 [51:02<1:24:05,  1.98s/it, lr: 2.0e-04 loss: 4.973e-02]wan_dewa:  27%|##7       | 954/3500 [51:02<1:27:28,  2.06s/it, lr: 2.0e-04 loss: 4.973e-02]wan_dewa:  27%|##7       | 954/3500 [51:02<1:27:28,  2.06s/it, lr: 2.0e-04 loss: 4.973e-02]wan_dewa:  27%|##7       | 954/3500 [51:05<1:27:28,  2.06s/it, lr: 2.0e-04 loss: 7.756e-02]wan_dewa:  27%|##7       | 954/3500 [51:05<1:27:28,  2.06s/it, lr: 2.0e-04 loss: 7.756e-02]wan_dewa:  27%|##7       | 955/3500 [51:05<1:32:15,  2.17s/it, lr: 2.0e-04 loss: 7.756e-02]wan_dewa:  27%|##7       | 955/3500 [51:05<1:32:15,  2.17s/it, lr: 2.0e-04 loss: 7.756e-02]wan_dewa:  27%|##7       | 955/3500 [51:07<1:32:15,  2.17s/it, lr: 2.0e-04 loss: 7.255e-02]wan_dewa:  27%|##7       | 955/3500 [51:07<1:32:15,  2.17s/it, lr: 2.0e-04 loss: 7.255e-02]wan_dewa:  27%|##7       | 956/3500 [51:07<1:33:25,  2.20s/it, lr: 2.0e-04 loss: 7.255e-02]wan_dewa:  27%|##7       | 956/3500 [51:07<1:33:25,  2.20s/it, lr: 2.0e-04 loss: 7.255e-02]wan_dewa:  27%|##7       | 956/3500 [51:09<1:33:25,  2.20s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  27%|##7       | 956/3500 [51:09<1:33:25,  2.20s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  27%|##7       | 957/3500 [51:09<1:34:16,  2.22s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  27%|##7       | 957/3500 [51:09<1:34:16,  2.22s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  27%|##7       | 957/3500 [51:12<1:34:16,  2.22s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:  27%|##7       | 957/3500 [51:12<1:34:16,  2.22s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:  27%|##7       | 958/3500 [51:12<1:34:52,  2.24s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:  27%|##7       | 958/3500 [51:12<1:34:52,  2.24s/it, lr: 2.0e-04 loss: 5.846e-02]wan_dewa:  27%|##7       | 958/3500 [51:14<1:34:52,  2.24s/it, lr: 2.0e-04 loss: 5.346e-02]wan_dewa:  27%|##7       | 958/3500 [51:14<1:34:52,  2.24s/it, lr: 2.0e-04 loss: 5.346e-02]wan_dewa:  27%|##7       | 959/3500 [51:14<1:35:22,  2.25s/it, lr: 2.0e-04 loss: 5.346e-02]wan_dewa:  27%|##7       | 959/3500 [51:14<1:35:22,  2.25s/it, lr: 2.0e-04 loss: 5.346e-02]wan_dewa:  27%|##7       | 959/3500 [51:25<1:35:22,  2.25s/it, lr: 2.0e-04 loss: 3.142e-02]wan_dewa:  27%|##7       | 959/3500 [51:25<1:35:22,  2.25s/it, lr: 2.0e-04 loss: 3.142e-02]wan_dewa:  27%|##7       | 960/3500 [51:27<1:35:20,  2.25s/it, lr: 2.0e-04 loss: 5.663e-02]wan_dewa:  27%|##7       | 960/3500 [51:27<1:35:20,  2.25s/it, lr: 2.0e-04 loss: 5.663e-02]wan_dewa:  27%|##7       | 961/3500 [51:27<1:13:38,  1.74s/it, lr: 2.0e-04 loss: 5.663e-02]wan_dewa:  27%|##7       | 961/3500 [51:27<1:13:38,  1.74s/it, lr: 2.0e-04 loss: 5.663e-02]wan_dewa:  27%|##7       | 961/3500 [51:29<1:13:38,  1.74s/it, lr: 2.0e-04 loss: 5.517e-02]wan_dewa:  27%|##7       | 961/3500 [51:29<1:13:38,  1.74s/it, lr: 2.0e-04 loss: 5.517e-02]wan_dewa:  27%|##7       | 962/3500 [51:29<1:19:06,  1.87s/it, lr: 2.0e-04 loss: 5.517e-02]wan_dewa:  27%|##7       | 962/3500 [51:29<1:19:06,  1.87s/it, lr: 2.0e-04 loss: 5.517e-02]wan_dewa:  27%|##7       | 962/3500 [51:32<1:19:06,  1.87s/it, lr: 2.0e-04 loss: 6.856e-02]wan_dewa:  27%|##7       | 962/3500 [51:32<1:19:06,  1.87s/it, lr: 2.0e-04 loss: 6.856e-02]wan_dewa:  28%|##7       | 963/3500 [51:32<1:23:28,  1.97s/it, lr: 2.0e-04 loss: 6.856e-02]wan_dewa:  28%|##7       | 963/3500 [51:32<1:23:28,  1.97s/it, lr: 2.0e-04 loss: 6.856e-02]wan_dewa:  28%|##7       | 963/3500 [51:34<1:23:28,  1.97s/it, lr: 2.0e-04 loss: 6.744e-02]wan_dewa:  28%|##7       | 963/3500 [51:34<1:23:28,  1.97s/it, lr: 2.0e-04 loss: 6.744e-02]wan_dewa:  28%|##7       | 964/3500 [51:34<1:26:50,  2.05s/it, lr: 2.0e-04 loss: 6.744e-02]wan_dewa:  28%|##7       | 964/3500 [51:34<1:26:50,  2.05s/it, lr: 2.0e-04 loss: 6.744e-02]wan_dewa:  28%|##7       | 964/3500 [51:36<1:26:50,  2.05s/it, lr: 2.0e-04 loss: 6.515e-02]wan_dewa:  28%|##7       | 964/3500 [51:36<1:26:50,  2.05s/it, lr: 2.0e-04 loss: 6.515e-02]wan_dewa:  28%|##7       | 965/3500 [51:37<1:31:39,  2.17s/it, lr: 2.0e-04 loss: 6.515e-02]wan_dewa:  28%|##7       | 965/3500 [51:37<1:31:39,  2.17s/it, lr: 2.0e-04 loss: 6.515e-02]wan_dewa:  28%|##7       | 965/3500 [51:39<1:31:39,  2.17s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  28%|##7       | 965/3500 [51:39<1:31:39,  2.17s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  28%|##7       | 966/3500 [51:39<1:32:52,  2.20s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  28%|##7       | 966/3500 [51:39<1:32:52,  2.20s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  28%|##7       | 966/3500 [51:41<1:32:52,  2.20s/it, lr: 2.0e-04 loss: 5.990e-02]wan_dewa:  28%|##7       | 966/3500 [51:41<1:32:52,  2.20s/it, lr: 2.0e-04 loss: 5.990e-02]wan_dewa:  28%|##7       | 967/3500 [51:41<1:33:44,  2.22s/it, lr: 2.0e-04 loss: 5.990e-02]wan_dewa:  28%|##7       | 967/3500 [51:41<1:33:44,  2.22s/it, lr: 2.0e-04 loss: 5.990e-02]wan_dewa:  28%|##7       | 967/3500 [51:43<1:33:44,  2.22s/it, lr: 2.0e-04 loss: 6.868e-02]wan_dewa:  28%|##7       | 967/3500 [51:43<1:33:44,  2.22s/it, lr: 2.0e-04 loss: 6.868e-02]wan_dewa:  28%|##7       | 968/3500 [51:43<1:34:22,  2.24s/it, lr: 2.0e-04 loss: 6.868e-02]wan_dewa:  28%|##7       | 968/3500 [51:43<1:34:22,  2.24s/it, lr: 2.0e-04 loss: 6.868e-02]wan_dewa:  28%|##7       | 968/3500 [51:46<1:34:22,  2.24s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  28%|##7       | 968/3500 [51:46<1:34:22,  2.24s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  28%|##7       | 969/3500 [51:46<1:34:48,  2.25s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  28%|##7       | 969/3500 [51:46<1:34:48,  2.25s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  28%|##7       | 969/3500 [51:54<1:34:48,  2.25s/it, lr: 2.0e-04 loss: 7.377e-02]wan_dewa:  28%|##7       | 969/3500 [51:54<1:34:48,  2.25s/it, lr: 2.0e-04 loss: 7.377e-02]wan_dewa:  28%|##7       | 970/3500 [51:56<1:34:46,  2.25s/it, lr: 2.0e-04 loss: 4.156e-02]wan_dewa:  28%|##7       | 970/3500 [51:56<1:34:46,  2.25s/it, lr: 2.0e-04 loss: 4.156e-02]wan_dewa:  28%|##7       | 971/3500 [51:56<1:13:26,  1.74s/it, lr: 2.0e-04 loss: 4.156e-02]wan_dewa:  28%|##7       | 971/3500 [51:56<1:13:26,  1.74s/it, lr: 2.0e-04 loss: 4.156e-02]wan_dewa:  28%|##7       | 971/3500 [51:58<1:13:26,  1.74s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  28%|##7       | 971/3500 [51:58<1:13:26,  1.74s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  28%|##7       | 972/3500 [51:58<1:18:50,  1.87s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  28%|##7       | 972/3500 [51:58<1:18:50,  1.87s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  28%|##7       | 972/3500 [52:00<1:18:50,  1.87s/it, lr: 2.0e-04 loss: 9.296e-02]wan_dewa:  28%|##7       | 972/3500 [52:00<1:18:50,  1.87s/it, lr: 2.0e-04 loss: 9.296e-02]wan_dewa:  28%|##7       | 973/3500 [52:00<1:23:12,  1.98s/it, lr: 2.0e-04 loss: 9.296e-02]wan_dewa:  28%|##7       | 973/3500 [52:00<1:23:12,  1.98s/it, lr: 2.0e-04 loss: 9.296e-02]wan_dewa:  28%|##7       | 973/3500 [52:03<1:23:12,  1.98s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##7       | 973/3500 [52:03<1:23:12,  1.98s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##7       | 974/3500 [52:03<1:26:35,  2.06s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##7       | 974/3500 [52:03<1:26:35,  2.06s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##7       | 974/3500 [52:07<1:26:35,  2.06s/it, lr: 2.0e-04 loss: 2.396e-01]wan_dewa:  28%|##7       | 974/3500 [52:07<1:26:35,  2.06s/it, lr: 2.0e-04 loss: 2.396e-01]wan_dewa:  28%|##7       | 975/3500 [52:07<1:32:53,  2.21s/it, lr: 2.0e-04 loss: 2.396e-01]wan_dewa:  28%|##7       | 975/3500 [52:07<1:32:53,  2.21s/it, lr: 2.0e-04 loss: 2.396e-01]wan_dewa:  28%|##7       | 975/3500 [52:10<1:32:53,  2.21s/it, lr: 2.0e-04 loss: 1.053e-01]wan_dewa:  28%|##7       | 975/3500 [52:10<1:32:53,  2.21s/it, lr: 2.0e-04 loss: 1.053e-01]wan_dewa:  28%|##7       | 976/3500 [52:10<1:33:36,  2.23s/it, lr: 2.0e-04 loss: 1.053e-01]wan_dewa:  28%|##7       | 976/3500 [52:10<1:33:36,  2.23s/it, lr: 2.0e-04 loss: 1.053e-01]wan_dewa:  28%|##7       | 976/3500 [52:12<1:33:36,  2.23s/it, lr: 2.0e-04 loss: 1.471e-01]wan_dewa:  28%|##7       | 976/3500 [52:12<1:33:36,  2.23s/it, lr: 2.0e-04 loss: 1.471e-01]wan_dewa:  28%|##7       | 977/3500 [52:12<1:34:16,  2.24s/it, lr: 2.0e-04 loss: 1.471e-01]wan_dewa:  28%|##7       | 977/3500 [52:12<1:34:16,  2.24s/it, lr: 2.0e-04 loss: 1.471e-01]wan_dewa:  28%|##7       | 977/3500 [52:14<1:34:16,  2.24s/it, lr: 2.0e-04 loss: 6.437e-02]wan_dewa:  28%|##7       | 977/3500 [52:14<1:34:16,  2.24s/it, lr: 2.0e-04 loss: 6.437e-02]wan_dewa:  28%|##7       | 978/3500 [52:14<1:34:35,  2.25s/it, lr: 2.0e-04 loss: 6.437e-02]wan_dewa:  28%|##7       | 978/3500 [52:14<1:34:35,  2.25s/it, lr: 2.0e-04 loss: 6.437e-02]wan_dewa:  28%|##7       | 978/3500 [52:17<1:34:35,  2.25s/it, lr: 2.0e-04 loss: 5.080e-02]wan_dewa:  28%|##7       | 978/3500 [52:17<1:34:35,  2.25s/it, lr: 2.0e-04 loss: 5.080e-02]wan_dewa:  28%|##7       | 979/3500 [52:17<1:34:55,  2.26s/it, lr: 2.0e-04 loss: 5.080e-02]wan_dewa:  28%|##7       | 979/3500 [52:17<1:34:55,  2.26s/it, lr: 2.0e-04 loss: 5.080e-02]wan_dewa:  28%|##7       | 979/3500 [52:27<1:34:55,  2.26s/it, lr: 2.0e-04 loss: 5.885e-02]wan_dewa:  28%|##7       | 979/3500 [52:27<1:34:55,  2.26s/it, lr: 2.0e-04 loss: 5.885e-02]wan_dewa:  28%|##8       | 980/3500 [52:30<1:34:52,  2.26s/it, lr: 2.0e-04 loss: 3.412e-02]wan_dewa:  28%|##8       | 980/3500 [52:30<1:34:52,  2.26s/it, lr: 2.0e-04 loss: 3.412e-02]wan_dewa:  28%|##8       | 981/3500 [52:30<1:15:28,  1.80s/it, lr: 2.0e-04 loss: 3.412e-02]wan_dewa:  28%|##8       | 981/3500 [52:30<1:15:28,  1.80s/it, lr: 2.0e-04 loss: 3.412e-02]wan_dewa:  28%|##8       | 981/3500 [52:32<1:15:28,  1.80s/it, lr: 2.0e-04 loss: 3.609e-02]wan_dewa:  28%|##8       | 981/3500 [52:32<1:15:28,  1.80s/it, lr: 2.0e-04 loss: 3.609e-02]wan_dewa:  28%|##8       | 982/3500 [52:32<1:20:20,  1.91s/it, lr: 2.0e-04 loss: 3.609e-02]wan_dewa:  28%|##8       | 982/3500 [52:32<1:20:20,  1.91s/it, lr: 2.0e-04 loss: 3.609e-02]wan_dewa:  28%|##8       | 982/3500 [52:34<1:20:20,  1.91s/it, lr: 2.0e-04 loss: 6.814e-02]wan_dewa:  28%|##8       | 982/3500 [52:34<1:20:20,  1.91s/it, lr: 2.0e-04 loss: 6.814e-02]wan_dewa:  28%|##8       | 983/3500 [52:34<1:24:09,  2.01s/it, lr: 2.0e-04 loss: 6.814e-02]wan_dewa:  28%|##8       | 983/3500 [52:34<1:24:09,  2.01s/it, lr: 2.0e-04 loss: 6.814e-02]wan_dewa:  28%|##8       | 983/3500 [52:37<1:24:09,  2.01s/it, lr: 2.0e-04 loss: 5.527e-02]wan_dewa:  28%|##8       | 983/3500 [52:37<1:24:09,  2.01s/it, lr: 2.0e-04 loss: 5.527e-02]wan_dewa:  28%|##8       | 984/3500 [52:37<1:27:07,  2.08s/it, lr: 2.0e-04 loss: 5.527e-02]wan_dewa:  28%|##8       | 984/3500 [52:37<1:27:07,  2.08s/it, lr: 2.0e-04 loss: 5.527e-02]wan_dewa:  28%|##8       | 984/3500 [52:39<1:27:07,  2.08s/it, lr: 2.0e-04 loss: 6.982e-02]wan_dewa:  28%|##8       | 984/3500 [52:39<1:27:07,  2.08s/it, lr: 2.0e-04 loss: 6.982e-02]wan_dewa:  28%|##8       | 985/3500 [52:39<1:29:27,  2.13s/it, lr: 2.0e-04 loss: 6.982e-02]wan_dewa:  28%|##8       | 985/3500 [52:39<1:29:27,  2.13s/it, lr: 2.0e-04 loss: 6.982e-02]wan_dewa:  28%|##8       | 985/3500 [52:41<1:29:27,  2.13s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  28%|##8       | 985/3500 [52:41<1:29:27,  2.13s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  28%|##8       | 986/3500 [52:41<1:33:46,  2.24s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  28%|##8       | 986/3500 [52:41<1:33:46,  2.24s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  28%|##8       | 986/3500 [52:44<1:33:46,  2.24s/it, lr: 2.0e-04 loss: 6.260e-02]wan_dewa:  28%|##8       | 986/3500 [52:44<1:33:46,  2.24s/it, lr: 2.0e-04 loss: 6.260e-02]wan_dewa:  28%|##8       | 987/3500 [52:44<1:34:06,  2.25s/it, lr: 2.0e-04 loss: 6.260e-02]wan_dewa:  28%|##8       | 987/3500 [52:44<1:34:06,  2.25s/it, lr: 2.0e-04 loss: 6.260e-02]wan_dewa:  28%|##8       | 987/3500 [52:46<1:34:06,  2.25s/it, lr: 2.0e-04 loss: 2.808e-02]wan_dewa:  28%|##8       | 987/3500 [52:46<1:34:06,  2.25s/it, lr: 2.0e-04 loss: 2.808e-02]wan_dewa:  28%|##8       | 988/3500 [52:46<1:34:21,  2.25s/it, lr: 2.0e-04 loss: 2.808e-02]wan_dewa:  28%|##8       | 988/3500 [52:46<1:34:21,  2.25s/it, lr: 2.0e-04 loss: 2.808e-02]wan_dewa:  28%|##8       | 988/3500 [52:48<1:34:21,  2.25s/it, lr: 2.0e-04 loss: 5.851e-02]wan_dewa:  28%|##8       | 988/3500 [52:48<1:34:21,  2.25s/it, lr: 2.0e-04 loss: 5.851e-02]wan_dewa:  28%|##8       | 989/3500 [52:48<1:34:32,  2.26s/it, lr: 2.0e-04 loss: 5.851e-02]wan_dewa:  28%|##8       | 989/3500 [52:48<1:34:32,  2.26s/it, lr: 2.0e-04 loss: 5.851e-02]wan_dewa:  28%|##8       | 989/3500 [52:59<1:34:32,  2.26s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:  28%|##8       | 989/3500 [52:59<1:34:32,  2.26s/it, lr: 2.0e-04 loss: 1.392e-01]wan_dewa:  28%|##8       | 990/3500 [53:02<1:34:30,  2.26s/it, lr: 2.0e-04 loss: 4.755e-02]wan_dewa:  28%|##8       | 990/3500 [53:02<1:34:30,  2.26s/it, lr: 2.0e-04 loss: 4.755e-02]wan_dewa:  28%|##8       | 991/3500 [53:02<1:13:05,  1.75s/it, lr: 2.0e-04 loss: 4.755e-02]wan_dewa:  28%|##8       | 991/3500 [53:02<1:13:05,  1.75s/it, lr: 2.0e-04 loss: 4.755e-02]wan_dewa:  28%|##8       | 991/3500 [53:04<1:13:05,  1.75s/it, lr: 2.0e-04 loss: 1.554e-01]wan_dewa:  28%|##8       | 991/3500 [53:04<1:13:05,  1.75s/it, lr: 2.0e-04 loss: 1.554e-01]wan_dewa:  28%|##8       | 992/3500 [53:04<1:18:27,  1.88s/it, lr: 2.0e-04 loss: 1.554e-01]wan_dewa:  28%|##8       | 992/3500 [53:04<1:18:27,  1.88s/it, lr: 2.0e-04 loss: 1.554e-01]wan_dewa:  28%|##8       | 992/3500 [53:06<1:18:27,  1.88s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  28%|##8       | 992/3500 [53:06<1:18:27,  1.88s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  28%|##8       | 993/3500 [53:06<1:22:44,  1.98s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  28%|##8       | 993/3500 [53:06<1:22:44,  1.98s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  28%|##8       | 993/3500 [53:08<1:22:44,  1.98s/it, lr: 2.0e-04 loss: 4.468e-02]wan_dewa:  28%|##8       | 993/3500 [53:08<1:22:44,  1.98s/it, lr: 2.0e-04 loss: 4.468e-02]wan_dewa:  28%|##8       | 994/3500 [53:09<1:26:00,  2.06s/it, lr: 2.0e-04 loss: 4.468e-02]wan_dewa:  28%|##8       | 994/3500 [53:09<1:26:00,  2.06s/it, lr: 2.0e-04 loss: 4.468e-02]wan_dewa:  28%|##8       | 994/3500 [53:11<1:26:00,  2.06s/it, lr: 2.0e-04 loss: 2.951e-01]wan_dewa:  28%|##8       | 994/3500 [53:11<1:26:00,  2.06s/it, lr: 2.0e-04 loss: 2.951e-01]wan_dewa:  28%|##8       | 995/3500 [53:11<1:30:59,  2.18s/it, lr: 2.0e-04 loss: 2.951e-01]wan_dewa:  28%|##8       | 995/3500 [53:11<1:30:59,  2.18s/it, lr: 2.0e-04 loss: 2.951e-01]wan_dewa:  28%|##8       | 995/3500 [53:13<1:30:59,  2.18s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  28%|##8       | 995/3500 [53:13<1:30:59,  2.18s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  28%|##8       | 996/3500 [53:13<1:32:03,  2.21s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  28%|##8       | 996/3500 [53:13<1:32:03,  2.21s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  28%|##8       | 996/3500 [53:16<1:32:03,  2.21s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##8       | 996/3500 [53:16<1:32:03,  2.21s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##8       | 997/3500 [53:16<1:32:50,  2.23s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##8       | 997/3500 [53:16<1:32:50,  2.23s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  28%|##8       | 997/3500 [53:18<1:32:50,  2.23s/it, lr: 2.0e-04 loss: 8.073e-02]wan_dewa:  28%|##8       | 997/3500 [53:18<1:32:50,  2.23s/it, lr: 2.0e-04 loss: 8.073e-02]wan_dewa:  29%|##8       | 998/3500 [53:18<1:33:23,  2.24s/it, lr: 2.0e-04 loss: 8.073e-02]wan_dewa:  29%|##8       | 998/3500 [53:18<1:33:23,  2.24s/it, lr: 2.0e-04 loss: 8.073e-02]wan_dewa:  29%|##8       | 998/3500 [53:20<1:33:23,  2.24s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  29%|##8       | 998/3500 [53:20<1:33:23,  2.24s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  29%|##8       | 999/3500 [53:20<1:33:44,  2.25s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  29%|##8       | 999/3500 [53:20<1:33:44,  2.25s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  29%|##8       | 999/3500 [53:34<1:33:44,  2.25s/it, lr: 2.0e-04 loss: 5.701e-02]wan_dewa:  29%|##8       | 999/3500 [53:34<1:33:44,  2.25s/it, lr: 2.0e-04 loss: 5.701e-02]
+Saving at step 1000
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000001000.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.59s/it]  4%|4         | 1/25 [00:04<01:50,  4.59s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.61s/it] 28%|##8       | 7/25 [00:32<01:23,  4.61s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:41,  6.33s/it] 36%|###6      | 9/25 [00:46<01:41,  6.33s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.80s/it] 40%|####      | 10/25 [00:51<01:26,  5.80s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.44s/it] 44%|####4     | 11/25 [00:56<01:16,  5.44s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.19s/it] 48%|####8     | 12/25 [01:00<01:07,  5.19s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.73s/it] 68%|######8   | 17/25 [01:23<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.17s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.17s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.63s/it]  4%|4         | 1/25 [00:04<01:51,  4.63s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.65s/it] 32%|###2      | 8/25 [00:37<01:19,  4.65s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:33,  5.82s/it] 36%|###6      | 9/25 [00:45<01:33,  5.82s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.46s/it] 40%|####      | 10/25 [00:50<01:21,  5.46s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.21s/it] 44%|####4     | 11/25 [00:54<01:12,  5.21s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.04s/it] 48%|####8     | 12/25 [00:59<01:05,  5.04s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.74s/it] 64%|######4   | 16/25 [01:18<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.67s/it] 84%|########4 | 21/25 [01:41<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.66s/it]100%|##########| 25/25 [02:00<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.30s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.30s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.65s/it]  8%|8         | 2/25 [00:09<01:47,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.73s/it] 36%|###6      | 9/25 [00:45<01:31,  5.73s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.41s/it] 40%|####      | 10/25 [00:50<01:21,  5.41s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.18s/it] 44%|####4     | 11/25 [00:54<01:12,  5.18s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.03s/it] 48%|####8     | 12/25 [00:59<01:05,  5.03s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.93s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.93s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.85s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.85s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:48,  4.81s/it] 60%|######    | 15/25 [01:13<00:48,  4.81s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.77s/it] 64%|######4   | 16/25 [01:18<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.75s/it] 68%|######8   | 17/25 [01:22<00:37,  4.75s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.73s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.73s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.72s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.72s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.72s/it] 80%|########  | 20/25 [01:36<00:23,  4.72s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.71s/it] 84%|########4 | 21/25 [01:41<00:18,  4.71s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.71s/it] 88%|########8 | 22/25 [01:46<00:14,  4.71s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.71s/it] 92%|#########2| 23/25 [01:51<00:09,  4.71s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.71s/it] 96%|#########6| 24/25 [01:55<00:04,  4.71s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.71s/it]100%|##########| 25/25 [02:00<00:00,  4.71s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.82s/it]100%|##########| 25/25 [02:00<00:00,  4.82s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.41s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.41s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.71s/it] 36%|###6      | 9/25 [00:45<01:31,  5.71s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.38s/it] 40%|####      | 10/25 [00:49<01:20,  5.38s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.16s/it] 44%|####4     | 11/25 [00:54<01:12,  5.16s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.29s/it]Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.29s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  29%|##8       | 1000/3500 [53:38<1:33:42,  2.25s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  29%|##8       | 1000/3500 [53:38<1:33:42,  2.25s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  29%|##8       | 1001/3500 [53:38<1:30:01,  2.16s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  29%|##8       | 1001/3500 [53:38<1:30:01,  2.16s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  29%|##8       | 1001/3500 [53:40<1:30:01,  2.16s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  29%|##8       | 1001/3500 [53:40<1:30:01,  2.16s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  29%|##8       | 1002/3500 [53:40<1:31:21,  2.19s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  29%|##8       | 1002/3500 [53:40<1:31:21,  2.19s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  29%|##8       | 1002/3500 [53:42<1:31:21,  2.19s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  29%|##8       | 1002/3500 [53:42<1:31:21,  2.19s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  29%|##8       | 1003/3500 [53:42<1:32:26,  2.22s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  29%|##8       | 1003/3500 [53:42<1:32:26,  2.22s/it, lr: 2.0e-04 loss: 1.066e-01]wan_dewa:  29%|##8       | 1003/3500 [53:45<1:32:26,  2.22s/it, lr: 2.0e-04 loss: 6.159e-02]wan_dewa:  29%|##8       | 1003/3500 [53:45<1:32:26,  2.22s/it, lr: 2.0e-04 loss: 6.159e-02]wan_dewa:  29%|##8       | 1004/3500 [53:45<1:33:17,  2.24s/it, lr: 2.0e-04 loss: 6.159e-02]wan_dewa:  29%|##8       | 1004/3500 [53:45<1:33:17,  2.24s/it, lr: 2.0e-04 loss: 6.159e-02]wan_dewa:  29%|##8       | 1004/3500 [53:47<1:33:17,  2.24s/it, lr: 2.0e-04 loss: 7.133e-02]wan_dewa:  29%|##8       | 1004/3500 [53:47<1:33:17,  2.24s/it, lr: 2.0e-04 loss: 7.133e-02]wan_dewa:  29%|##8       | 1005/3500 [53:47<1:36:01,  2.31s/it, lr: 2.0e-04 loss: 7.133e-02]wan_dewa:  29%|##8       | 1005/3500 [53:47<1:36:01,  2.31s/it, lr: 2.0e-04 loss: 7.133e-02]wan_dewa:  29%|##8       | 1005/3500 [53:49<1:36:01,  2.31s/it, lr: 2.0e-04 loss: 7.987e-02]wan_dewa:  29%|##8       | 1005/3500 [53:49<1:36:01,  2.31s/it, lr: 2.0e-04 loss: 7.987e-02]wan_dewa:  29%|##8       | 1006/3500 [53:49<1:35:53,  2.31s/it, lr: 2.0e-04 loss: 7.987e-02]wan_dewa:  29%|##8       | 1006/3500 [53:49<1:35:53,  2.31s/it, lr: 2.0e-04 loss: 7.987e-02]wan_dewa:  29%|##8       | 1006/3500 [53:52<1:35:53,  2.31s/it, lr: 2.0e-04 loss: 4.899e-02]wan_dewa:  29%|##8       | 1006/3500 [53:52<1:35:53,  2.31s/it, lr: 2.0e-04 loss: 4.899e-02]wan_dewa:  29%|##8       | 1007/3500 [53:52<1:35:46,  2.31s/it, lr: 2.0e-04 loss: 4.899e-02]wan_dewa:  29%|##8       | 1007/3500 [53:52<1:35:46,  2.31s/it, lr: 2.0e-04 loss: 4.899e-02]wan_dewa:  29%|##8       | 1007/3500 [53:54<1:35:46,  2.31s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  29%|##8       | 1007/3500 [53:54<1:35:46,  2.31s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  29%|##8       | 1008/3500 [53:54<1:35:42,  2.30s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  29%|##8       | 1008/3500 [53:54<1:35:42,  2.30s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  29%|##8       | 1008/3500 [53:56<1:35:42,  2.30s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  29%|##8       | 1008/3500 [53:56<1:35:42,  2.30s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  29%|##8       | 1009/3500 [53:56<1:35:35,  2.30s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  29%|##8       | 1009/3500 [53:56<1:35:35,  2.30s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  29%|##8       | 1009/3500 [54:03<1:35:35,  2.30s/it, lr: 2.0e-04 loss: 1.242e-01]wan_dewa:  29%|##8       | 1009/3500 [54:03<1:35:35,  2.30s/it, lr: 2.0e-04 loss: 1.242e-01]wan_dewa:  29%|##8       | 1010/3500 [54:05<1:35:33,  2.30s/it, lr: 2.0e-04 loss: 1.356e-01]wan_dewa:  29%|##8       | 1010/3500 [54:05<1:35:33,  2.30s/it, lr: 2.0e-04 loss: 1.356e-01]wan_dewa:  29%|##8       | 1011/3500 [54:05<1:13:33,  1.77s/it, lr: 2.0e-04 loss: 1.356e-01]wan_dewa:  29%|##8       | 1011/3500 [54:05<1:13:33,  1.77s/it, lr: 2.0e-04 loss: 1.356e-01]wan_dewa:  29%|##8       | 1011/3500 [54:07<1:13:33,  1.77s/it, lr: 2.0e-04 loss: 3.767e-02]wan_dewa:  29%|##8       | 1011/3500 [54:07<1:13:33,  1.77s/it, lr: 2.0e-04 loss: 3.767e-02]wan_dewa:  29%|##8       | 1012/3500 [54:07<1:18:51,  1.90s/it, lr: 2.0e-04 loss: 3.767e-02]wan_dewa:  29%|##8       | 1012/3500 [54:07<1:18:51,  1.90s/it, lr: 2.0e-04 loss: 3.767e-02]wan_dewa:  29%|##8       | 1012/3500 [54:09<1:18:51,  1.90s/it, lr: 2.0e-04 loss: 7.857e-02]wan_dewa:  29%|##8       | 1012/3500 [54:09<1:18:51,  1.90s/it, lr: 2.0e-04 loss: 7.857e-02]wan_dewa:  29%|##8       | 1013/3500 [54:09<1:23:03,  2.00s/it, lr: 2.0e-04 loss: 7.857e-02]wan_dewa:  29%|##8       | 1013/3500 [54:09<1:23:03,  2.00s/it, lr: 2.0e-04 loss: 7.857e-02]wan_dewa:  29%|##8       | 1013/3500 [54:12<1:23:03,  2.00s/it, lr: 2.0e-04 loss: 7.318e-02]wan_dewa:  29%|##8       | 1013/3500 [54:12<1:23:03,  2.00s/it, lr: 2.0e-04 loss: 7.318e-02]wan_dewa:  29%|##8       | 1014/3500 [54:12<1:26:21,  2.08s/it, lr: 2.0e-04 loss: 7.318e-02]wan_dewa:  29%|##8       | 1014/3500 [54:12<1:26:21,  2.08s/it, lr: 2.0e-04 loss: 7.318e-02]wan_dewa:  29%|##8       | 1014/3500 [54:14<1:26:21,  2.08s/it, lr: 2.0e-04 loss: 4.117e-02]wan_dewa:  29%|##8       | 1014/3500 [54:14<1:26:21,  2.08s/it, lr: 2.0e-04 loss: 4.117e-02]wan_dewa:  29%|##9       | 1015/3500 [54:14<1:28:47,  2.14s/it, lr: 2.0e-04 loss: 4.117e-02]wan_dewa:  29%|##9       | 1015/3500 [54:14<1:28:47,  2.14s/it, lr: 2.0e-04 loss: 4.117e-02]wan_dewa:  29%|##9       | 1015/3500 [54:17<1:28:47,  2.14s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  29%|##9       | 1015/3500 [54:17<1:28:47,  2.14s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  29%|##9       | 1016/3500 [54:17<1:32:46,  2.24s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  29%|##9       | 1016/3500 [54:17<1:32:46,  2.24s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  29%|##9       | 1016/3500 [54:19<1:32:46,  2.24s/it, lr: 2.0e-04 loss: 9.129e-02]wan_dewa:  29%|##9       | 1016/3500 [54:19<1:32:46,  2.24s/it, lr: 2.0e-04 loss: 9.129e-02]wan_dewa:  29%|##9       | 1017/3500 [54:19<1:33:22,  2.26s/it, lr: 2.0e-04 loss: 9.129e-02]wan_dewa:  29%|##9       | 1017/3500 [54:19<1:33:22,  2.26s/it, lr: 2.0e-04 loss: 9.129e-02]wan_dewa:  29%|##9       | 1017/3500 [54:21<1:33:22,  2.26s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  29%|##9       | 1017/3500 [54:21<1:33:22,  2.26s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  29%|##9       | 1018/3500 [54:21<1:33:53,  2.27s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  29%|##9       | 1018/3500 [54:21<1:33:53,  2.27s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  29%|##9       | 1018/3500 [54:23<1:33:53,  2.27s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  29%|##9       | 1018/3500 [54:23<1:33:53,  2.27s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  29%|##9       | 1019/3500 [54:23<1:34:13,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  29%|##9       | 1019/3500 [54:23<1:34:13,  2.28s/it, lr: 2.0e-04 loss: 7.797e-02]wan_dewa:  29%|##9       | 1019/3500 [54:29<1:34:13,  2.28s/it, lr: 2.0e-04 loss: 5.616e-02]wan_dewa:  29%|##9       | 1019/3500 [54:29<1:34:13,  2.28s/it, lr: 2.0e-04 loss: 5.616e-02]wan_dewa:  29%|##9       | 1020/3500 [54:32<1:34:11,  2.28s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  29%|##9       | 1020/3500 [54:32<1:34:11,  2.28s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  29%|##9       | 1021/3500 [54:32<1:14:31,  1.80s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  29%|##9       | 1021/3500 [54:32<1:14:31,  1.80s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  29%|##9       | 1021/3500 [54:34<1:14:31,  1.80s/it, lr: 2.0e-04 loss: 6.516e-02]wan_dewa:  29%|##9       | 1021/3500 [54:34<1:14:31,  1.80s/it, lr: 2.0e-04 loss: 6.516e-02]wan_dewa:  29%|##9       | 1022/3500 [54:34<1:19:29,  1.92s/it, lr: 2.0e-04 loss: 6.516e-02]wan_dewa:  29%|##9       | 1022/3500 [54:34<1:19:29,  1.92s/it, lr: 2.0e-04 loss: 6.516e-02]wan_dewa:  29%|##9       | 1022/3500 [54:36<1:19:29,  1.92s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  29%|##9       | 1022/3500 [54:36<1:19:29,  1.92s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  29%|##9       | 1023/3500 [54:36<1:23:25,  2.02s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  29%|##9       | 1023/3500 [54:36<1:23:25,  2.02s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  29%|##9       | 1023/3500 [54:39<1:23:25,  2.02s/it, lr: 2.0e-04 loss: 8.837e-02]wan_dewa:  29%|##9       | 1023/3500 [54:39<1:23:25,  2.02s/it, lr: 2.0e-04 loss: 8.837e-02]wan_dewa:  29%|##9       | 1024/3500 [54:39<1:26:28,  2.10s/it, lr: 2.0e-04 loss: 8.837e-02]wan_dewa:  29%|##9       | 1024/3500 [54:39<1:26:28,  2.10s/it, lr: 2.0e-04 loss: 8.837e-02]wan_dewa:  29%|##9       | 1024/3500 [54:43<1:26:28,  2.10s/it, lr: 2.0e-04 loss: 5.134e-02]wan_dewa:  29%|##9       | 1024/3500 [54:43<1:26:28,  2.10s/it, lr: 2.0e-04 loss: 5.134e-02]wan_dewa:  29%|##9       | 1025/3500 [54:43<1:29:05,  2.16s/it, lr: 2.0e-04 loss: 5.134e-02]wan_dewa:  29%|##9       | 1025/3500 [54:43<1:29:05,  2.16s/it, lr: 2.0e-04 loss: 5.134e-02]wan_dewa:  29%|##9       | 1025/3500 [54:46<1:29:05,  2.16s/it, lr: 2.0e-04 loss: 5.264e-02]wan_dewa:  29%|##9       | 1025/3500 [54:46<1:29:05,  2.16s/it, lr: 2.0e-04 loss: 5.264e-02]wan_dewa:  29%|##9       | 1026/3500 [54:46<1:34:47,  2.30s/it, lr: 2.0e-04 loss: 5.264e-02]wan_dewa:  29%|##9       | 1026/3500 [54:46<1:34:47,  2.30s/it, lr: 2.0e-04 loss: 5.264e-02]wan_dewa:  29%|##9       | 1026/3500 [54:48<1:34:47,  2.30s/it, lr: 2.0e-04 loss: 7.170e-02]wan_dewa:  29%|##9       | 1026/3500 [54:48<1:34:47,  2.30s/it, lr: 2.0e-04 loss: 7.170e-02]wan_dewa:  29%|##9       | 1027/3500 [54:48<1:34:44,  2.30s/it, lr: 2.0e-04 loss: 7.170e-02]wan_dewa:  29%|##9       | 1027/3500 [54:48<1:34:44,  2.30s/it, lr: 2.0e-04 loss: 7.170e-02]wan_dewa:  29%|##9       | 1027/3500 [54:51<1:34:44,  2.30s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  29%|##9       | 1027/3500 [54:51<1:34:44,  2.30s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  29%|##9       | 1028/3500 [54:51<1:34:33,  2.29s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  29%|##9       | 1028/3500 [54:51<1:34:33,  2.29s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  29%|##9       | 1028/3500 [54:53<1:34:33,  2.29s/it, lr: 2.0e-04 loss: 6.802e-02]wan_dewa:  29%|##9       | 1028/3500 [54:53<1:34:33,  2.29s/it, lr: 2.0e-04 loss: 6.802e-02]wan_dewa:  29%|##9       | 1029/3500 [54:53<1:34:32,  2.30s/it, lr: 2.0e-04 loss: 6.802e-02]wan_dewa:  29%|##9       | 1029/3500 [54:53<1:34:32,  2.30s/it, lr: 2.0e-04 loss: 6.802e-02]wan_dewa:  29%|##9       | 1029/3500 [55:04<1:34:32,  2.30s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  29%|##9       | 1029/3500 [55:04<1:34:32,  2.30s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  29%|##9       | 1030/3500 [55:06<1:34:29,  2.30s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  29%|##9       | 1030/3500 [55:06<1:34:29,  2.30s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  29%|##9       | 1031/3500 [55:06<1:14:56,  1.82s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  29%|##9       | 1031/3500 [55:06<1:14:56,  1.82s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  29%|##9       | 1031/3500 [55:09<1:14:56,  1.82s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  29%|##9       | 1031/3500 [55:09<1:14:56,  1.82s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  29%|##9       | 1032/3500 [55:09<1:19:42,  1.94s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  29%|##9       | 1032/3500 [55:09<1:19:42,  1.94s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  29%|##9       | 1032/3500 [55:11<1:19:42,  1.94s/it, lr: 2.0e-04 loss: 4.231e-02]wan_dewa:  29%|##9       | 1032/3500 [55:11<1:19:42,  1.94s/it, lr: 2.0e-04 loss: 4.231e-02]wan_dewa:  30%|##9       | 1033/3500 [55:11<1:23:24,  2.03s/it, lr: 2.0e-04 loss: 4.231e-02]wan_dewa:  30%|##9       | 1033/3500 [55:11<1:23:24,  2.03s/it, lr: 2.0e-04 loss: 4.231e-02]wan_dewa:  30%|##9       | 1033/3500 [55:13<1:23:24,  2.03s/it, lr: 2.0e-04 loss: 1.250e-01]wan_dewa:  30%|##9       | 1033/3500 [55:13<1:23:24,  2.03s/it, lr: 2.0e-04 loss: 1.250e-01]wan_dewa:  30%|##9       | 1034/3500 [55:13<1:26:12,  2.10s/it, lr: 2.0e-04 loss: 1.250e-01]wan_dewa:  30%|##9       | 1034/3500 [55:13<1:26:12,  2.10s/it, lr: 2.0e-04 loss: 1.250e-01]wan_dewa:  30%|##9       | 1034/3500 [55:16<1:26:12,  2.10s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  30%|##9       | 1034/3500 [55:16<1:26:12,  2.10s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  30%|##9       | 1035/3500 [55:16<1:28:20,  2.15s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  30%|##9       | 1035/3500 [55:16<1:28:20,  2.15s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  30%|##9       | 1035/3500 [55:18<1:28:20,  2.15s/it, lr: 2.0e-04 loss: 1.007e-01]wan_dewa:  30%|##9       | 1035/3500 [55:18<1:28:20,  2.15s/it, lr: 2.0e-04 loss: 1.007e-01]wan_dewa:  30%|##9       | 1036/3500 [55:18<1:29:55,  2.19s/it, lr: 2.0e-04 loss: 1.007e-01]wan_dewa:  30%|##9       | 1036/3500 [55:18<1:29:55,  2.19s/it, lr: 2.0e-04 loss: 1.007e-01]wan_dewa:  30%|##9       | 1036/3500 [55:20<1:29:55,  2.19s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  30%|##9       | 1036/3500 [55:20<1:29:55,  2.19s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  30%|##9       | 1037/3500 [55:20<1:33:22,  2.27s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  30%|##9       | 1037/3500 [55:20<1:33:22,  2.27s/it, lr: 2.0e-04 loss: 3.833e-02]wan_dewa:  30%|##9       | 1037/3500 [55:23<1:33:22,  2.27s/it, lr: 2.0e-04 loss: 1.102e-01]wan_dewa:  30%|##9       | 1037/3500 [55:23<1:33:22,  2.27s/it, lr: 2.0e-04 loss: 1.102e-01]wan_dewa:  30%|##9       | 1038/3500 [55:23<1:33:28,  2.28s/it, lr: 2.0e-04 loss: 1.102e-01]wan_dewa:  30%|##9       | 1038/3500 [55:23<1:33:28,  2.28s/it, lr: 2.0e-04 loss: 1.102e-01]wan_dewa:  30%|##9       | 1038/3500 [55:25<1:33:28,  2.28s/it, lr: 2.0e-04 loss: 6.204e-02]wan_dewa:  30%|##9       | 1038/3500 [55:25<1:33:28,  2.28s/it, lr: 2.0e-04 loss: 6.204e-02]wan_dewa:  30%|##9       | 1039/3500 [55:25<1:33:35,  2.28s/it, lr: 2.0e-04 loss: 6.204e-02]wan_dewa:  30%|##9       | 1039/3500 [55:25<1:33:35,  2.28s/it, lr: 2.0e-04 loss: 6.204e-02]wan_dewa:  30%|##9       | 1039/3500 [55:36<1:33:35,  2.28s/it, lr: 2.0e-04 loss: 7.407e-02]wan_dewa:  30%|##9       | 1039/3500 [55:36<1:33:35,  2.28s/it, lr: 2.0e-04 loss: 7.407e-02]wan_dewa:  30%|##9       | 1040/3500 [55:38<1:33:33,  2.28s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  30%|##9       | 1040/3500 [55:38<1:33:33,  2.28s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  30%|##9       | 1041/3500 [55:38<1:13:42,  1.80s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  30%|##9       | 1041/3500 [55:38<1:13:42,  1.80s/it, lr: 2.0e-04 loss: 1.275e-01]wan_dewa:  30%|##9       | 1041/3500 [55:41<1:13:42,  1.80s/it, lr: 2.0e-04 loss: 2.729e-02]wan_dewa:  30%|##9       | 1041/3500 [55:41<1:13:42,  1.80s/it, lr: 2.0e-04 loss: 2.729e-02]wan_dewa:  30%|##9       | 1042/3500 [55:41<1:18:28,  1.92s/it, lr: 2.0e-04 loss: 2.729e-02]wan_dewa:  30%|##9       | 1042/3500 [55:41<1:18:28,  1.92s/it, lr: 2.0e-04 loss: 2.729e-02]wan_dewa:  30%|##9       | 1042/3500 [55:43<1:18:28,  1.92s/it, lr: 2.0e-04 loss: 4.781e-02]wan_dewa:  30%|##9       | 1042/3500 [55:43<1:18:28,  1.92s/it, lr: 2.0e-04 loss: 4.781e-02]wan_dewa:  30%|##9       | 1043/3500 [55:43<1:22:16,  2.01s/it, lr: 2.0e-04 loss: 4.781e-02]wan_dewa:  30%|##9       | 1043/3500 [55:43<1:22:16,  2.01s/it, lr: 2.0e-04 loss: 4.781e-02]wan_dewa:  30%|##9       | 1043/3500 [55:45<1:22:16,  2.01s/it, lr: 2.0e-04 loss: 6.284e-02]wan_dewa:  30%|##9       | 1043/3500 [55:45<1:22:16,  2.01s/it, lr: 2.0e-04 loss: 6.284e-02]wan_dewa:  30%|##9       | 1044/3500 [55:45<1:25:14,  2.08s/it, lr: 2.0e-04 loss: 6.284e-02]wan_dewa:  30%|##9       | 1044/3500 [55:45<1:25:14,  2.08s/it, lr: 2.0e-04 loss: 6.284e-02]wan_dewa:  30%|##9       | 1044/3500 [55:47<1:25:14,  2.08s/it, lr: 2.0e-04 loss: 3.557e-02]wan_dewa:  30%|##9       | 1044/3500 [55:47<1:25:14,  2.08s/it, lr: 2.0e-04 loss: 3.557e-02]wan_dewa:  30%|##9       | 1045/3500 [55:47<1:27:28,  2.14s/it, lr: 2.0e-04 loss: 3.557e-02]wan_dewa:  30%|##9       | 1045/3500 [55:47<1:27:28,  2.14s/it, lr: 2.0e-04 loss: 3.557e-02]wan_dewa:  30%|##9       | 1045/3500 [55:50<1:27:28,  2.14s/it, lr: 2.0e-04 loss: 5.842e-02]wan_dewa:  30%|##9       | 1045/3500 [55:50<1:27:28,  2.14s/it, lr: 2.0e-04 loss: 5.842e-02]wan_dewa:  30%|##9       | 1046/3500 [55:50<1:29:14,  2.18s/it, lr: 2.0e-04 loss: 5.842e-02]wan_dewa:  30%|##9       | 1046/3500 [55:50<1:29:14,  2.18s/it, lr: 2.0e-04 loss: 5.842e-02]wan_dewa:  30%|##9       | 1046/3500 [55:52<1:29:14,  2.18s/it, lr: 2.0e-04 loss: 7.539e-02]wan_dewa:  30%|##9       | 1046/3500 [55:52<1:29:14,  2.18s/it, lr: 2.0e-04 loss: 7.539e-02]wan_dewa:  30%|##9       | 1047/3500 [55:52<1:32:28,  2.26s/it, lr: 2.0e-04 loss: 7.539e-02]wan_dewa:  30%|##9       | 1047/3500 [55:52<1:32:28,  2.26s/it, lr: 2.0e-04 loss: 7.539e-02]wan_dewa:  30%|##9       | 1047/3500 [55:55<1:32:28,  2.26s/it, lr: 2.0e-04 loss: 5.848e-02]wan_dewa:  30%|##9       | 1047/3500 [55:55<1:32:28,  2.26s/it, lr: 2.0e-04 loss: 5.848e-02]wan_dewa:  30%|##9       | 1048/3500 [55:55<1:32:49,  2.27s/it, lr: 2.0e-04 loss: 5.848e-02]wan_dewa:  30%|##9       | 1048/3500 [55:55<1:32:49,  2.27s/it, lr: 2.0e-04 loss: 5.848e-02]wan_dewa:  30%|##9       | 1048/3500 [55:57<1:32:49,  2.27s/it, lr: 2.0e-04 loss: 6.771e-02]wan_dewa:  30%|##9       | 1048/3500 [55:57<1:32:49,  2.27s/it, lr: 2.0e-04 loss: 6.771e-02]wan_dewa:  30%|##9       | 1049/3500 [55:57<1:33:03,  2.28s/it, lr: 2.0e-04 loss: 6.771e-02]wan_dewa:  30%|##9       | 1049/3500 [55:57<1:33:03,  2.28s/it, lr: 2.0e-04 loss: 6.771e-02]wan_dewa:  30%|##9       | 1049/3500 [56:10<1:33:03,  2.28s/it, lr: 2.0e-04 loss: 7.636e-02]wan_dewa:  30%|##9       | 1049/3500 [56:10<1:33:03,  2.28s/it, lr: 2.0e-04 loss: 7.636e-02]wan_dewa:  30%|###       | 1050/3500 [56:12<1:33:01,  2.28s/it, lr: 2.0e-04 loss: 1.330e-01]wan_dewa:  30%|###       | 1050/3500 [56:12<1:33:01,  2.28s/it, lr: 2.0e-04 loss: 1.330e-01]wan_dewa:  30%|###       | 1051/3500 [56:12<1:11:49,  1.76s/it, lr: 2.0e-04 loss: 1.330e-01]wan_dewa:  30%|###       | 1051/3500 [56:12<1:11:49,  1.76s/it, lr: 2.0e-04 loss: 1.330e-01]wan_dewa:  30%|###       | 1051/3500 [56:15<1:11:49,  1.76s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  30%|###       | 1051/3500 [56:15<1:11:49,  1.76s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  30%|###       | 1052/3500 [56:15<1:20:12,  1.97s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  30%|###       | 1052/3500 [56:15<1:20:12,  1.97s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  30%|###       | 1052/3500 [56:17<1:20:12,  1.97s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  30%|###       | 1052/3500 [56:17<1:20:12,  1.97s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  30%|###       | 1053/3500 [56:17<1:23:28,  2.05s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  30%|###       | 1053/3500 [56:17<1:23:28,  2.05s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  30%|###       | 1053/3500 [56:19<1:23:28,  2.05s/it, lr: 2.0e-04 loss: 1.344e-01]wan_dewa:  30%|###       | 1053/3500 [56:19<1:23:28,  2.05s/it, lr: 2.0e-04 loss: 1.344e-01]wan_dewa:  30%|###       | 1054/3500 [56:19<1:25:58,  2.11s/it, lr: 2.0e-04 loss: 1.344e-01]wan_dewa:  30%|###       | 1054/3500 [56:19<1:25:58,  2.11s/it, lr: 2.0e-04 loss: 1.344e-01]wan_dewa:  30%|###       | 1054/3500 [56:22<1:25:58,  2.11s/it, lr: 2.0e-04 loss: 5.329e-02]wan_dewa:  30%|###       | 1054/3500 [56:22<1:25:58,  2.11s/it, lr: 2.0e-04 loss: 5.329e-02]wan_dewa:  30%|###       | 1055/3500 [56:22<1:27:49,  2.16s/it, lr: 2.0e-04 loss: 5.329e-02]wan_dewa:  30%|###       | 1055/3500 [56:22<1:27:49,  2.16s/it, lr: 2.0e-04 loss: 5.329e-02]wan_dewa:  30%|###       | 1055/3500 [56:24<1:27:49,  2.16s/it, lr: 2.0e-04 loss: 4.546e-02]wan_dewa:  30%|###       | 1055/3500 [56:24<1:27:49,  2.16s/it, lr: 2.0e-04 loss: 4.546e-02]wan_dewa:  30%|###       | 1056/3500 [56:24<1:29:11,  2.19s/it, lr: 2.0e-04 loss: 4.546e-02]wan_dewa:  30%|###       | 1056/3500 [56:24<1:29:11,  2.19s/it, lr: 2.0e-04 loss: 4.546e-02]wan_dewa:  30%|###       | 1056/3500 [56:26<1:29:11,  2.19s/it, lr: 2.0e-04 loss: 6.221e-02]wan_dewa:  30%|###       | 1056/3500 [56:26<1:29:11,  2.19s/it, lr: 2.0e-04 loss: 6.221e-02]wan_dewa:  30%|###       | 1057/3500 [56:26<1:32:26,  2.27s/it, lr: 2.0e-04 loss: 6.221e-02]wan_dewa:  30%|###       | 1057/3500 [56:26<1:32:26,  2.27s/it, lr: 2.0e-04 loss: 6.221e-02]wan_dewa:  30%|###       | 1057/3500 [56:29<1:32:26,  2.27s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  30%|###       | 1057/3500 [56:29<1:32:26,  2.27s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  30%|###       | 1058/3500 [56:29<1:32:29,  2.27s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  30%|###       | 1058/3500 [56:29<1:32:29,  2.27s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  30%|###       | 1058/3500 [56:31<1:32:29,  2.27s/it, lr: 2.0e-04 loss: 2.958e-01]wan_dewa:  30%|###       | 1058/3500 [56:31<1:32:29,  2.27s/it, lr: 2.0e-04 loss: 2.958e-01]wan_dewa:  30%|###       | 1059/3500 [56:31<1:32:32,  2.27s/it, lr: 2.0e-04 loss: 2.958e-01]wan_dewa:  30%|###       | 1059/3500 [56:31<1:32:32,  2.27s/it, lr: 2.0e-04 loss: 2.958e-01]wan_dewa:  30%|###       | 1059/3500 [56:42<1:32:32,  2.27s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  30%|###       | 1059/3500 [56:42<1:32:32,  2.27s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  30%|###       | 1060/3500 [56:44<1:32:30,  2.27s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  30%|###       | 1060/3500 [56:44<1:32:30,  2.27s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  30%|###       | 1061/3500 [56:44<1:11:25,  1.76s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  30%|###       | 1061/3500 [56:44<1:11:25,  1.76s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  30%|###       | 1061/3500 [56:47<1:11:25,  1.76s/it, lr: 2.0e-04 loss: 6.840e-02]wan_dewa:  30%|###       | 1061/3500 [56:47<1:11:25,  1.76s/it, lr: 2.0e-04 loss: 6.840e-02]wan_dewa:  30%|###       | 1062/3500 [56:47<1:18:30,  1.93s/it, lr: 2.0e-04 loss: 6.840e-02]wan_dewa:  30%|###       | 1062/3500 [56:47<1:18:30,  1.93s/it, lr: 2.0e-04 loss: 6.840e-02]wan_dewa:  30%|###       | 1062/3500 [56:49<1:18:30,  1.93s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  30%|###       | 1062/3500 [56:49<1:18:30,  1.93s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  30%|###       | 1063/3500 [56:49<1:22:05,  2.02s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  30%|###       | 1063/3500 [56:49<1:22:05,  2.02s/it, lr: 2.0e-04 loss: 7.371e-02]wan_dewa:  30%|###       | 1063/3500 [56:51<1:22:05,  2.02s/it, lr: 2.0e-04 loss: 5.292e-02]wan_dewa:  30%|###       | 1063/3500 [56:51<1:22:05,  2.02s/it, lr: 2.0e-04 loss: 5.292e-02]wan_dewa:  30%|###       | 1064/3500 [56:51<1:24:49,  2.09s/it, lr: 2.0e-04 loss: 5.292e-02]wan_dewa:  30%|###       | 1064/3500 [56:51<1:24:49,  2.09s/it, lr: 2.0e-04 loss: 5.292e-02]wan_dewa:  30%|###       | 1064/3500 [56:54<1:24:49,  2.09s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  30%|###       | 1064/3500 [56:54<1:24:49,  2.09s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  30%|###       | 1065/3500 [56:54<1:26:53,  2.14s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  30%|###       | 1065/3500 [56:54<1:26:53,  2.14s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  30%|###       | 1065/3500 [56:56<1:26:53,  2.14s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  30%|###       | 1065/3500 [56:56<1:26:53,  2.14s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  30%|###       | 1066/3500 [56:56<1:28:25,  2.18s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  30%|###       | 1066/3500 [56:56<1:28:25,  2.18s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  30%|###       | 1066/3500 [56:58<1:28:25,  2.18s/it, lr: 2.0e-04 loss: 9.869e-02]wan_dewa:  30%|###       | 1066/3500 [56:58<1:28:25,  2.18s/it, lr: 2.0e-04 loss: 9.869e-02]wan_dewa:  30%|###       | 1067/3500 [56:58<1:31:45,  2.26s/it, lr: 2.0e-04 loss: 9.869e-02]wan_dewa:  30%|###       | 1067/3500 [56:58<1:31:45,  2.26s/it, lr: 2.0e-04 loss: 9.869e-02]wan_dewa:  30%|###       | 1067/3500 [57:01<1:31:45,  2.26s/it, lr: 2.0e-04 loss: 8.802e-02]wan_dewa:  30%|###       | 1067/3500 [57:01<1:31:45,  2.26s/it, lr: 2.0e-04 loss: 8.802e-02]wan_dewa:  31%|###       | 1068/3500 [57:01<1:31:53,  2.27s/it, lr: 2.0e-04 loss: 8.802e-02]wan_dewa:  31%|###       | 1068/3500 [57:01<1:31:53,  2.27s/it, lr: 2.0e-04 loss: 8.802e-02]wan_dewa:  31%|###       | 1068/3500 [57:03<1:31:53,  2.27s/it, lr: 2.0e-04 loss: 7.245e-02]wan_dewa:  31%|###       | 1068/3500 [57:03<1:31:53,  2.27s/it, lr: 2.0e-04 loss: 7.245e-02]wan_dewa:  31%|###       | 1069/3500 [57:03<1:32:01,  2.27s/it, lr: 2.0e-04 loss: 7.245e-02]wan_dewa:  31%|###       | 1069/3500 [57:03<1:32:01,  2.27s/it, lr: 2.0e-04 loss: 7.245e-02]wan_dewa:  31%|###       | 1069/3500 [57:11<1:32:01,  2.27s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  31%|###       | 1069/3500 [57:11<1:32:01,  2.27s/it, lr: 2.0e-04 loss: 3.998e-02]wan_dewa:  31%|###       | 1070/3500 [57:13<1:31:59,  2.27s/it, lr: 2.0e-04 loss: 4.957e-02]wan_dewa:  31%|###       | 1070/3500 [57:13<1:31:59,  2.27s/it, lr: 2.0e-04 loss: 4.957e-02]wan_dewa:  31%|###       | 1071/3500 [57:13<1:10:57,  1.75s/it, lr: 2.0e-04 loss: 4.957e-02]wan_dewa:  31%|###       | 1071/3500 [57:13<1:10:57,  1.75s/it, lr: 2.0e-04 loss: 4.957e-02]wan_dewa:  31%|###       | 1071/3500 [57:16<1:10:57,  1.75s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  31%|###       | 1071/3500 [57:16<1:10:57,  1.75s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  31%|###       | 1072/3500 [57:16<1:18:00,  1.93s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  31%|###       | 1072/3500 [57:16<1:18:00,  1.93s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  31%|###       | 1072/3500 [57:18<1:18:00,  1.93s/it, lr: 2.0e-04 loss: 7.320e-02]wan_dewa:  31%|###       | 1072/3500 [57:18<1:18:00,  1.93s/it, lr: 2.0e-04 loss: 7.320e-02]wan_dewa:  31%|###       | 1073/3500 [57:18<1:21:37,  2.02s/it, lr: 2.0e-04 loss: 7.320e-02]wan_dewa:  31%|###       | 1073/3500 [57:18<1:21:37,  2.02s/it, lr: 2.0e-04 loss: 7.320e-02]wan_dewa:  31%|###       | 1073/3500 [57:20<1:21:37,  2.02s/it, lr: 2.0e-04 loss: 1.767e-01]wan_dewa:  31%|###       | 1073/3500 [57:20<1:21:37,  2.02s/it, lr: 2.0e-04 loss: 1.767e-01]wan_dewa:  31%|###       | 1074/3500 [57:20<1:24:25,  2.09s/it, lr: 2.0e-04 loss: 1.767e-01]wan_dewa:  31%|###       | 1074/3500 [57:20<1:24:25,  2.09s/it, lr: 2.0e-04 loss: 1.767e-01]wan_dewa:  31%|###       | 1074/3500 [57:25<1:24:25,  2.09s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  31%|###       | 1074/3500 [57:25<1:24:25,  2.09s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  31%|###       | 1075/3500 [57:25<1:26:52,  2.15s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  31%|###       | 1075/3500 [57:25<1:26:52,  2.15s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  31%|###       | 1075/3500 [57:27<1:26:52,  2.15s/it, lr: 2.0e-04 loss: 2.862e-02]wan_dewa:  31%|###       | 1075/3500 [57:27<1:26:52,  2.15s/it, lr: 2.0e-04 loss: 2.862e-02]wan_dewa:  31%|###       | 1076/3500 [57:27<1:28:16,  2.19s/it, lr: 2.0e-04 loss: 2.862e-02]wan_dewa:  31%|###       | 1076/3500 [57:27<1:28:16,  2.19s/it, lr: 2.0e-04 loss: 2.862e-02]wan_dewa:  31%|###       | 1076/3500 [57:30<1:28:16,  2.19s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  31%|###       | 1076/3500 [57:30<1:28:16,  2.19s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  31%|###       | 1077/3500 [57:30<1:32:42,  2.30s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  31%|###       | 1077/3500 [57:30<1:32:42,  2.30s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  31%|###       | 1077/3500 [57:32<1:32:42,  2.30s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###       | 1077/3500 [57:32<1:32:42,  2.30s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###       | 1078/3500 [57:32<1:32:22,  2.29s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###       | 1078/3500 [57:32<1:32:22,  2.29s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###       | 1078/3500 [57:34<1:32:22,  2.29s/it, lr: 2.0e-04 loss: 4.398e-02]wan_dewa:  31%|###       | 1078/3500 [57:34<1:32:22,  2.29s/it, lr: 2.0e-04 loss: 4.398e-02]wan_dewa:  31%|###       | 1079/3500 [57:34<1:32:10,  2.28s/it, lr: 2.0e-04 loss: 4.398e-02]wan_dewa:  31%|###       | 1079/3500 [57:34<1:32:10,  2.28s/it, lr: 2.0e-04 loss: 4.398e-02]wan_dewa:  31%|###       | 1079/3500 [57:45<1:32:10,  2.28s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  31%|###       | 1079/3500 [57:45<1:32:10,  2.28s/it, lr: 2.0e-04 loss: 5.949e-02]wan_dewa:  31%|###       | 1080/3500 [57:47<1:32:08,  2.28s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  31%|###       | 1080/3500 [57:47<1:32:08,  2.28s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  31%|###       | 1081/3500 [57:47<1:11:00,  1.76s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  31%|###       | 1081/3500 [57:47<1:11:00,  1.76s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  31%|###       | 1081/3500 [57:50<1:11:00,  1.76s/it, lr: 2.0e-04 loss: 6.776e-02]wan_dewa:  31%|###       | 1081/3500 [57:50<1:11:00,  1.76s/it, lr: 2.0e-04 loss: 6.776e-02]wan_dewa:  31%|###       | 1082/3500 [57:50<1:18:12,  1.94s/it, lr: 2.0e-04 loss: 6.776e-02]wan_dewa:  31%|###       | 1082/3500 [57:50<1:18:12,  1.94s/it, lr: 2.0e-04 loss: 6.776e-02]wan_dewa:  31%|###       | 1082/3500 [57:52<1:18:12,  1.94s/it, lr: 2.0e-04 loss: 9.454e-02]wan_dewa:  31%|###       | 1082/3500 [57:52<1:18:12,  1.94s/it, lr: 2.0e-04 loss: 9.454e-02]wan_dewa:  31%|###       | 1083/3500 [57:52<1:21:37,  2.03s/it, lr: 2.0e-04 loss: 9.454e-02]wan_dewa:  31%|###       | 1083/3500 [57:52<1:21:37,  2.03s/it, lr: 2.0e-04 loss: 9.454e-02]wan_dewa:  31%|###       | 1083/3500 [57:54<1:21:37,  2.03s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  31%|###       | 1083/3500 [57:54<1:21:37,  2.03s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  31%|###       | 1084/3500 [57:54<1:24:14,  2.09s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  31%|###       | 1084/3500 [57:54<1:24:14,  2.09s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  31%|###       | 1084/3500 [57:57<1:24:14,  2.09s/it, lr: 2.0e-04 loss: 4.300e-02]wan_dewa:  31%|###       | 1084/3500 [57:57<1:24:14,  2.09s/it, lr: 2.0e-04 loss: 4.300e-02]wan_dewa:  31%|###1      | 1085/3500 [57:57<1:26:14,  2.14s/it, lr: 2.0e-04 loss: 4.300e-02]wan_dewa:  31%|###1      | 1085/3500 [57:57<1:26:14,  2.14s/it, lr: 2.0e-04 loss: 4.300e-02]wan_dewa:  31%|###1      | 1085/3500 [57:59<1:26:14,  2.14s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  31%|###1      | 1085/3500 [57:59<1:26:14,  2.14s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  31%|###1      | 1086/3500 [57:59<1:27:41,  2.18s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  31%|###1      | 1086/3500 [57:59<1:27:41,  2.18s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  31%|###1      | 1086/3500 [58:01<1:27:41,  2.18s/it, lr: 2.0e-04 loss: 6.401e-02]wan_dewa:  31%|###1      | 1086/3500 [58:01<1:27:41,  2.18s/it, lr: 2.0e-04 loss: 6.401e-02]wan_dewa:  31%|###1      | 1087/3500 [58:01<1:30:47,  2.26s/it, lr: 2.0e-04 loss: 6.401e-02]wan_dewa:  31%|###1      | 1087/3500 [58:01<1:30:47,  2.26s/it, lr: 2.0e-04 loss: 6.401e-02]wan_dewa:  31%|###1      | 1087/3500 [58:04<1:30:47,  2.26s/it, lr: 2.0e-04 loss: 3.949e-02]wan_dewa:  31%|###1      | 1087/3500 [58:04<1:30:47,  2.26s/it, lr: 2.0e-04 loss: 3.949e-02]wan_dewa:  31%|###1      | 1088/3500 [58:04<1:30:57,  2.26s/it, lr: 2.0e-04 loss: 3.949e-02]wan_dewa:  31%|###1      | 1088/3500 [58:04<1:30:57,  2.26s/it, lr: 2.0e-04 loss: 3.949e-02]wan_dewa:  31%|###1      | 1088/3500 [58:06<1:30:57,  2.26s/it, lr: 2.0e-04 loss: 7.158e-02]wan_dewa:  31%|###1      | 1088/3500 [58:06<1:30:57,  2.26s/it, lr: 2.0e-04 loss: 7.158e-02]wan_dewa:  31%|###1      | 1089/3500 [58:06<1:31:09,  2.27s/it, lr: 2.0e-04 loss: 7.158e-02]wan_dewa:  31%|###1      | 1089/3500 [58:06<1:31:09,  2.27s/it, lr: 2.0e-04 loss: 7.158e-02]wan_dewa:  31%|###1      | 1089/3500 [58:17<1:31:09,  2.27s/it, lr: 2.0e-04 loss: 1.542e-01]wan_dewa:  31%|###1      | 1089/3500 [58:17<1:31:09,  2.27s/it, lr: 2.0e-04 loss: 1.542e-01]wan_dewa:  31%|###1      | 1090/3500 [58:19<1:31:07,  2.27s/it, lr: 2.0e-04 loss: 7.282e-02]wan_dewa:  31%|###1      | 1090/3500 [58:19<1:31:07,  2.27s/it, lr: 2.0e-04 loss: 7.282e-02]wan_dewa:  31%|###1      | 1091/3500 [58:19<1:10:21,  1.75s/it, lr: 2.0e-04 loss: 7.282e-02]wan_dewa:  31%|###1      | 1091/3500 [58:19<1:10:21,  1.75s/it, lr: 2.0e-04 loss: 7.282e-02]wan_dewa:  31%|###1      | 1091/3500 [58:21<1:10:21,  1.75s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  31%|###1      | 1091/3500 [58:21<1:10:21,  1.75s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  31%|###1      | 1092/3500 [58:21<1:15:32,  1.88s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  31%|###1      | 1092/3500 [58:21<1:15:32,  1.88s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  31%|###1      | 1092/3500 [58:24<1:15:32,  1.88s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  31%|###1      | 1092/3500 [58:24<1:15:32,  1.88s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  31%|###1      | 1093/3500 [58:24<1:21:40,  2.04s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  31%|###1      | 1093/3500 [58:24<1:21:40,  2.04s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  31%|###1      | 1093/3500 [58:26<1:21:40,  2.04s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###1      | 1093/3500 [58:26<1:21:40,  2.04s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###1      | 1094/3500 [58:26<1:24:21,  2.10s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###1      | 1094/3500 [58:26<1:24:21,  2.10s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  31%|###1      | 1094/3500 [58:28<1:24:21,  2.10s/it, lr: 2.0e-04 loss: 6.812e-02]wan_dewa:  31%|###1      | 1094/3500 [58:28<1:24:21,  2.10s/it, lr: 2.0e-04 loss: 6.812e-02]wan_dewa:  31%|###1      | 1095/3500 [58:28<1:26:19,  2.15s/it, lr: 2.0e-04 loss: 6.812e-02]wan_dewa:  31%|###1      | 1095/3500 [58:28<1:26:19,  2.15s/it, lr: 2.0e-04 loss: 6.812e-02]wan_dewa:  31%|###1      | 1095/3500 [58:31<1:26:19,  2.15s/it, lr: 2.0e-04 loss: 6.487e-02]wan_dewa:  31%|###1      | 1095/3500 [58:31<1:26:19,  2.15s/it, lr: 2.0e-04 loss: 6.487e-02]wan_dewa:  31%|###1      | 1096/3500 [58:31<1:27:45,  2.19s/it, lr: 2.0e-04 loss: 6.487e-02]wan_dewa:  31%|###1      | 1096/3500 [58:31<1:27:45,  2.19s/it, lr: 2.0e-04 loss: 6.487e-02]wan_dewa:  31%|###1      | 1096/3500 [58:33<1:27:45,  2.19s/it, lr: 2.0e-04 loss: 5.265e-02]wan_dewa:  31%|###1      | 1096/3500 [58:33<1:27:45,  2.19s/it, lr: 2.0e-04 loss: 5.265e-02]wan_dewa:  31%|###1      | 1097/3500 [58:33<1:28:49,  2.22s/it, lr: 2.0e-04 loss: 5.265e-02]wan_dewa:  31%|###1      | 1097/3500 [58:33<1:28:49,  2.22s/it, lr: 2.0e-04 loss: 5.265e-02]wan_dewa:  31%|###1      | 1097/3500 [58:36<1:28:49,  2.22s/it, lr: 2.0e-04 loss: 4.596e-01]wan_dewa:  31%|###1      | 1097/3500 [58:36<1:28:49,  2.22s/it, lr: 2.0e-04 loss: 4.596e-01]wan_dewa:  31%|###1      | 1098/3500 [58:36<1:31:37,  2.29s/it, lr: 2.0e-04 loss: 4.596e-01]wan_dewa:  31%|###1      | 1098/3500 [58:36<1:31:37,  2.29s/it, lr: 2.0e-04 loss: 4.596e-01]wan_dewa:  31%|###1      | 1098/3500 [58:38<1:31:37,  2.29s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  31%|###1      | 1098/3500 [58:38<1:31:37,  2.29s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  31%|###1      | 1099/3500 [58:38<1:31:33,  2.29s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  31%|###1      | 1099/3500 [58:38<1:31:33,  2.29s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  31%|###1      | 1099/3500 [58:51<1:31:33,  2.29s/it, lr: 2.0e-04 loss: 6.062e-02]wan_dewa:  31%|###1      | 1099/3500 [58:51<1:31:33,  2.29s/it, lr: 2.0e-04 loss: 6.062e-02]wan_dewa:  31%|###1      | 1100/3500 [58:53<1:31:30,  2.29s/it, lr: 2.0e-04 loss: 6.183e-02]wan_dewa:  31%|###1      | 1100/3500 [58:53<1:31:30,  2.29s/it, lr: 2.0e-04 loss: 6.183e-02]wan_dewa:  31%|###1      | 1101/3500 [58:53<1:10:35,  1.77s/it, lr: 2.0e-04 loss: 6.183e-02]wan_dewa:  31%|###1      | 1101/3500 [58:53<1:10:35,  1.77s/it, lr: 2.0e-04 loss: 6.183e-02]wan_dewa:  31%|###1      | 1101/3500 [58:56<1:10:35,  1.77s/it, lr: 2.0e-04 loss: 6.099e-02]wan_dewa:  31%|###1      | 1101/3500 [58:56<1:10:35,  1.77s/it, lr: 2.0e-04 loss: 6.099e-02]wan_dewa:  31%|###1      | 1102/3500 [58:56<1:15:35,  1.89s/it, lr: 2.0e-04 loss: 6.099e-02]wan_dewa:  31%|###1      | 1102/3500 [58:56<1:15:35,  1.89s/it, lr: 2.0e-04 loss: 6.099e-02]wan_dewa:  31%|###1      | 1102/3500 [58:58<1:15:35,  1.89s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  31%|###1      | 1102/3500 [58:58<1:15:35,  1.89s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  32%|###1      | 1103/3500 [58:58<1:22:46,  2.07s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  32%|###1      | 1103/3500 [58:58<1:22:46,  2.07s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  32%|###1      | 1103/3500 [59:00<1:22:46,  2.07s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa:  32%|###1      | 1103/3500 [59:00<1:22:46,  2.07s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa:  32%|###1      | 1104/3500 [59:00<1:24:57,  2.13s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa:  32%|###1      | 1104/3500 [59:00<1:24:57,  2.13s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa:  32%|###1      | 1104/3500 [59:03<1:24:57,  2.13s/it, lr: 2.0e-04 loss: 3.665e-02]wan_dewa:  32%|###1      | 1104/3500 [59:03<1:24:57,  2.13s/it, lr: 2.0e-04 loss: 3.665e-02]wan_dewa:  32%|###1      | 1105/3500 [59:03<1:26:34,  2.17s/it, lr: 2.0e-04 loss: 3.665e-02]wan_dewa:  32%|###1      | 1105/3500 [59:03<1:26:34,  2.17s/it, lr: 2.0e-04 loss: 3.665e-02]wan_dewa:  32%|###1      | 1105/3500 [59:05<1:26:34,  2.17s/it, lr: 2.0e-04 loss: 5.449e-02]wan_dewa:  32%|###1      | 1105/3500 [59:05<1:26:34,  2.17s/it, lr: 2.0e-04 loss: 5.449e-02]wan_dewa:  32%|###1      | 1106/3500 [59:05<1:27:50,  2.20s/it, lr: 2.0e-04 loss: 5.449e-02]wan_dewa:  32%|###1      | 1106/3500 [59:05<1:27:50,  2.20s/it, lr: 2.0e-04 loss: 5.449e-02]wan_dewa:  32%|###1      | 1106/3500 [59:07<1:27:50,  2.20s/it, lr: 2.0e-04 loss: 4.593e-02]wan_dewa:  32%|###1      | 1106/3500 [59:07<1:27:50,  2.20s/it, lr: 2.0e-04 loss: 4.593e-02]wan_dewa:  32%|###1      | 1107/3500 [59:07<1:28:41,  2.22s/it, lr: 2.0e-04 loss: 4.593e-02]wan_dewa:  32%|###1      | 1107/3500 [59:07<1:28:41,  2.22s/it, lr: 2.0e-04 loss: 4.593e-02]wan_dewa:  32%|###1      | 1107/3500 [59:10<1:28:41,  2.22s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  32%|###1      | 1107/3500 [59:10<1:28:41,  2.22s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  32%|###1      | 1108/3500 [59:10<1:31:21,  2.29s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  32%|###1      | 1108/3500 [59:10<1:31:21,  2.29s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  32%|###1      | 1108/3500 [59:12<1:31:21,  2.29s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  32%|###1      | 1108/3500 [59:12<1:31:21,  2.29s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  32%|###1      | 1109/3500 [59:12<1:31:10,  2.29s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  32%|###1      | 1109/3500 [59:12<1:31:10,  2.29s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  32%|###1      | 1109/3500 [59:23<1:31:10,  2.29s/it, lr: 2.0e-04 loss: 3.802e-01]wan_dewa:  32%|###1      | 1109/3500 [59:23<1:31:10,  2.29s/it, lr: 2.0e-04 loss: 3.802e-01]wan_dewa:  32%|###1      | 1110/3500 [59:25<1:31:08,  2.29s/it, lr: 2.0e-04 loss: 5.219e-02]wan_dewa:  32%|###1      | 1110/3500 [59:25<1:31:08,  2.29s/it, lr: 2.0e-04 loss: 5.219e-02]wan_dewa:  32%|###1      | 1111/3500 [59:25<1:10:06,  1.76s/it, lr: 2.0e-04 loss: 5.219e-02]wan_dewa:  32%|###1      | 1111/3500 [59:25<1:10:06,  1.76s/it, lr: 2.0e-04 loss: 5.219e-02]wan_dewa:  32%|###1      | 1111/3500 [59:28<1:10:06,  1.76s/it, lr: 2.0e-04 loss: 5.610e-02]wan_dewa:  32%|###1      | 1111/3500 [59:28<1:10:06,  1.76s/it, lr: 2.0e-04 loss: 5.610e-02]wan_dewa:  32%|###1      | 1112/3500 [59:28<1:15:04,  1.89s/it, lr: 2.0e-04 loss: 5.610e-02]wan_dewa:  32%|###1      | 1112/3500 [59:28<1:15:04,  1.89s/it, lr: 2.0e-04 loss: 5.610e-02]wan_dewa:  32%|###1      | 1112/3500 [59:30<1:15:04,  1.89s/it, lr: 2.0e-04 loss: 5.857e-02]wan_dewa:  32%|###1      | 1112/3500 [59:30<1:15:04,  1.89s/it, lr: 2.0e-04 loss: 5.857e-02]wan_dewa:  32%|###1      | 1113/3500 [59:30<1:20:59,  2.04s/it, lr: 2.0e-04 loss: 5.857e-02]wan_dewa:  32%|###1      | 1113/3500 [59:30<1:20:59,  2.04s/it, lr: 2.0e-04 loss: 5.857e-02]wan_dewa:  32%|###1      | 1113/3500 [59:32<1:20:59,  2.04s/it, lr: 2.0e-04 loss: 2.998e-01]wan_dewa:  32%|###1      | 1113/3500 [59:32<1:20:59,  2.04s/it, lr: 2.0e-04 loss: 2.998e-01]wan_dewa:  32%|###1      | 1114/3500 [59:32<1:23:29,  2.10s/it, lr: 2.0e-04 loss: 2.998e-01]wan_dewa:  32%|###1      | 1114/3500 [59:32<1:23:29,  2.10s/it, lr: 2.0e-04 loss: 2.998e-01]wan_dewa:  32%|###1      | 1114/3500 [59:35<1:23:29,  2.10s/it, lr: 2.0e-04 loss: 1.480e-01]wan_dewa:  32%|###1      | 1114/3500 [59:35<1:23:29,  2.10s/it, lr: 2.0e-04 loss: 1.480e-01]wan_dewa:  32%|###1      | 1115/3500 [59:35<1:25:23,  2.15s/it, lr: 2.0e-04 loss: 1.480e-01]wan_dewa:  32%|###1      | 1115/3500 [59:35<1:25:23,  2.15s/it, lr: 2.0e-04 loss: 1.480e-01]wan_dewa:  32%|###1      | 1115/3500 [59:37<1:25:23,  2.15s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  32%|###1      | 1115/3500 [59:37<1:25:23,  2.15s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  32%|###1      | 1116/3500 [59:37<1:26:45,  2.18s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  32%|###1      | 1116/3500 [59:37<1:26:45,  2.18s/it, lr: 2.0e-04 loss: 7.373e-02]wan_dewa:  32%|###1      | 1116/3500 [59:39<1:26:45,  2.18s/it, lr: 2.0e-04 loss: 9.502e-02]wan_dewa:  32%|###1      | 1116/3500 [59:39<1:26:45,  2.18s/it, lr: 2.0e-04 loss: 9.502e-02]wan_dewa:  32%|###1      | 1117/3500 [59:39<1:27:46,  2.21s/it, lr: 2.0e-04 loss: 9.502e-02]wan_dewa:  32%|###1      | 1117/3500 [59:39<1:27:46,  2.21s/it, lr: 2.0e-04 loss: 9.502e-02]wan_dewa:  32%|###1      | 1117/3500 [59:42<1:27:46,  2.21s/it, lr: 2.0e-04 loss: 8.019e-02]wan_dewa:  32%|###1      | 1117/3500 [59:42<1:27:46,  2.21s/it, lr: 2.0e-04 loss: 8.019e-02]wan_dewa:  32%|###1      | 1118/3500 [59:42<1:28:31,  2.23s/it, lr: 2.0e-04 loss: 8.019e-02]wan_dewa:  32%|###1      | 1118/3500 [59:42<1:28:31,  2.23s/it, lr: 2.0e-04 loss: 8.019e-02]wan_dewa:  32%|###1      | 1118/3500 [59:44<1:28:31,  2.23s/it, lr: 2.0e-04 loss: 4.214e-02]wan_dewa:  32%|###1      | 1118/3500 [59:44<1:28:31,  2.23s/it, lr: 2.0e-04 loss: 4.214e-02]wan_dewa:  32%|###1      | 1119/3500 [59:44<1:31:10,  2.30s/it, lr: 2.0e-04 loss: 4.214e-02]wan_dewa:  32%|###1      | 1119/3500 [59:44<1:31:10,  2.30s/it, lr: 2.0e-04 loss: 4.214e-02]wan_dewa:  32%|###1      | 1119/3500 [59:52<1:31:10,  2.30s/it, lr: 2.0e-04 loss: 3.300e-02]wan_dewa:  32%|###1      | 1119/3500 [59:52<1:31:10,  2.30s/it, lr: 2.0e-04 loss: 3.300e-02]wan_dewa:  32%|###2      | 1120/3500 [59:54<1:31:08,  2.30s/it, lr: 2.0e-04 loss: 7.288e-02]wan_dewa:  32%|###2      | 1120/3500 [59:54<1:31:08,  2.30s/it, lr: 2.0e-04 loss: 7.288e-02]wan_dewa:  32%|###2      | 1121/3500 [59:54<1:10:14,  1.77s/it, lr: 2.0e-04 loss: 7.288e-02]wan_dewa:  32%|###2      | 1121/3500 [59:54<1:10:14,  1.77s/it, lr: 2.0e-04 loss: 7.288e-02]wan_dewa:  32%|###2      | 1121/3500 [59:57<1:10:14,  1.77s/it, lr: 2.0e-04 loss: 5.650e-02]wan_dewa:  32%|###2      | 1121/3500 [59:57<1:10:14,  1.77s/it, lr: 2.0e-04 loss: 5.650e-02]wan_dewa:  32%|###2      | 1122/3500 [59:57<1:15:08,  1.90s/it, lr: 2.0e-04 loss: 5.650e-02]wan_dewa:  32%|###2      | 1122/3500 [59:57<1:15:08,  1.90s/it, lr: 2.0e-04 loss: 5.650e-02]wan_dewa:  32%|###2      | 1122/3500 [59:59<1:15:08,  1.90s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  32%|###2      | 1122/3500 [59:59<1:15:08,  1.90s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  32%|###2      | 1123/3500 [59:59<1:19:03,  2.00s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  32%|###2      | 1123/3500 [59:59<1:19:03,  2.00s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  32%|###2      | 1123/3500 [1:00:01<1:19:03,  2.00s/it, lr: 2.0e-04 loss: 8.729e-02]wan_dewa:  32%|###2      | 1123/3500 [1:00:01<1:19:03,  2.00s/it, lr: 2.0e-04 loss: 8.729e-02]wan_dewa:  32%|###2      | 1124/3500 [1:00:01<1:24:03,  2.12s/it, lr: 2.0e-04 loss: 8.729e-02]wan_dewa:  32%|###2      | 1124/3500 [1:00:01<1:24:03,  2.12s/it, lr: 2.0e-04 loss: 8.729e-02]wan_dewa:  32%|###2      | 1124/3500 [1:00:06<1:24:03,  2.12s/it, lr: 2.0e-04 loss: 9.121e-02]wan_dewa:  32%|###2      | 1124/3500 [1:00:06<1:24:03,  2.12s/it, lr: 2.0e-04 loss: 9.121e-02]wan_dewa:  32%|###2      | 1125/3500 [1:00:06<1:26:03,  2.17s/it, lr: 2.0e-04 loss: 9.121e-02]wan_dewa:  32%|###2      | 1125/3500 [1:00:06<1:26:03,  2.17s/it, lr: 2.0e-04 loss: 9.121e-02]wan_dewa:  32%|###2      | 1125/3500 [1:00:08<1:26:03,  2.17s/it, lr: 2.0e-04 loss: 6.599e-02]wan_dewa:  32%|###2      | 1125/3500 [1:00:08<1:26:03,  2.17s/it, lr: 2.0e-04 loss: 6.599e-02]wan_dewa:  32%|###2      | 1126/3500 [1:00:08<1:27:13,  2.20s/it, lr: 2.0e-04 loss: 6.599e-02]wan_dewa:  32%|###2      | 1126/3500 [1:00:08<1:27:13,  2.20s/it, lr: 2.0e-04 loss: 6.599e-02]wan_dewa:  32%|###2      | 1126/3500 [1:00:10<1:27:13,  2.20s/it, lr: 2.0e-04 loss: 8.038e-02]wan_dewa:  32%|###2      | 1126/3500 [1:00:10<1:27:13,  2.20s/it, lr: 2.0e-04 loss: 8.038e-02]wan_dewa:  32%|###2      | 1127/3500 [1:00:10<1:28:03,  2.23s/it, lr: 2.0e-04 loss: 8.038e-02]wan_dewa:  32%|###2      | 1127/3500 [1:00:10<1:28:03,  2.23s/it, lr: 2.0e-04 loss: 8.038e-02]wan_dewa:  32%|###2      | 1127/3500 [1:00:13<1:28:03,  2.23s/it, lr: 2.0e-04 loss: 5.467e-02]wan_dewa:  32%|###2      | 1127/3500 [1:00:13<1:28:03,  2.23s/it, lr: 2.0e-04 loss: 5.467e-02]wan_dewa:  32%|###2      | 1128/3500 [1:00:13<1:28:38,  2.24s/it, lr: 2.0e-04 loss: 5.467e-02]wan_dewa:  32%|###2      | 1128/3500 [1:00:13<1:28:38,  2.24s/it, lr: 2.0e-04 loss: 5.467e-02]wan_dewa:  32%|###2      | 1128/3500 [1:00:15<1:28:38,  2.24s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  32%|###2      | 1128/3500 [1:00:15<1:28:38,  2.24s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  32%|###2      | 1129/3500 [1:00:15<1:32:32,  2.34s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  32%|###2      | 1129/3500 [1:00:15<1:32:32,  2.34s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  32%|###2      | 1129/3500 [1:00:26<1:32:32,  2.34s/it, lr: 2.0e-04 loss: 8.937e-02]wan_dewa:  32%|###2      | 1129/3500 [1:00:26<1:32:32,  2.34s/it, lr: 2.0e-04 loss: 8.937e-02]wan_dewa:  32%|###2      | 1130/3500 [1:00:29<1:32:29,  2.34s/it, lr: 2.0e-04 loss: 3.674e-02]wan_dewa:  32%|###2      | 1130/3500 [1:00:29<1:32:29,  2.34s/it, lr: 2.0e-04 loss: 3.674e-02]wan_dewa:  32%|###2      | 1131/3500 [1:00:29<1:10:41,  1.79s/it, lr: 2.0e-04 loss: 3.674e-02]wan_dewa:  32%|###2      | 1131/3500 [1:00:29<1:10:41,  1.79s/it, lr: 2.0e-04 loss: 3.674e-02]wan_dewa:  32%|###2      | 1131/3500 [1:00:31<1:10:41,  1.79s/it, lr: 2.0e-04 loss: 6.225e-02]wan_dewa:  32%|###2      | 1131/3500 [1:00:31<1:10:41,  1.79s/it, lr: 2.0e-04 loss: 6.225e-02]wan_dewa:  32%|###2      | 1132/3500 [1:00:31<1:15:19,  1.91s/it, lr: 2.0e-04 loss: 6.225e-02]wan_dewa:  32%|###2      | 1132/3500 [1:00:31<1:15:19,  1.91s/it, lr: 2.0e-04 loss: 6.225e-02]wan_dewa:  32%|###2      | 1132/3500 [1:00:33<1:15:19,  1.91s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  32%|###2      | 1132/3500 [1:00:33<1:15:19,  1.91s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  32%|###2      | 1133/3500 [1:00:33<1:19:00,  2.00s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  32%|###2      | 1133/3500 [1:00:33<1:19:00,  2.00s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  32%|###2      | 1133/3500 [1:00:36<1:19:00,  2.00s/it, lr: 2.0e-04 loss: 8.976e-02]wan_dewa:  32%|###2      | 1133/3500 [1:00:36<1:19:00,  2.00s/it, lr: 2.0e-04 loss: 8.976e-02]wan_dewa:  32%|###2      | 1134/3500 [1:00:36<1:24:12,  2.14s/it, lr: 2.0e-04 loss: 8.976e-02]wan_dewa:  32%|###2      | 1134/3500 [1:00:36<1:24:12,  2.14s/it, lr: 2.0e-04 loss: 8.976e-02]wan_dewa:  32%|###2      | 1134/3500 [1:00:38<1:24:12,  2.14s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  32%|###2      | 1134/3500 [1:00:38<1:24:12,  2.14s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  32%|###2      | 1135/3500 [1:00:38<1:25:42,  2.17s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  32%|###2      | 1135/3500 [1:00:38<1:25:42,  2.17s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  32%|###2      | 1135/3500 [1:00:40<1:25:42,  2.17s/it, lr: 2.0e-04 loss: 5.546e-02]wan_dewa:  32%|###2      | 1135/3500 [1:00:40<1:25:42,  2.17s/it, lr: 2.0e-04 loss: 5.546e-02]wan_dewa:  32%|###2      | 1136/3500 [1:00:40<1:26:46,  2.20s/it, lr: 2.0e-04 loss: 5.546e-02]wan_dewa:  32%|###2      | 1136/3500 [1:00:40<1:26:46,  2.20s/it, lr: 2.0e-04 loss: 5.546e-02]wan_dewa:  32%|###2      | 1136/3500 [1:00:42<1:26:46,  2.20s/it, lr: 2.0e-04 loss: 1.412e-01]wan_dewa:  32%|###2      | 1136/3500 [1:00:42<1:26:46,  2.20s/it, lr: 2.0e-04 loss: 1.412e-01]wan_dewa:  32%|###2      | 1137/3500 [1:00:42<1:27:33,  2.22s/it, lr: 2.0e-04 loss: 1.412e-01]wan_dewa:  32%|###2      | 1137/3500 [1:00:42<1:27:33,  2.22s/it, lr: 2.0e-04 loss: 1.412e-01]wan_dewa:  32%|###2      | 1137/3500 [1:00:45<1:27:33,  2.22s/it, lr: 2.0e-04 loss: 9.739e-02]wan_dewa:  32%|###2      | 1137/3500 [1:00:45<1:27:33,  2.22s/it, lr: 2.0e-04 loss: 9.739e-02]wan_dewa:  33%|###2      | 1138/3500 [1:00:45<1:30:31,  2.30s/it, lr: 2.0e-04 loss: 9.739e-02]wan_dewa:  33%|###2      | 1138/3500 [1:00:45<1:30:31,  2.30s/it, lr: 2.0e-04 loss: 9.739e-02]wan_dewa:  33%|###2      | 1138/3500 [1:00:47<1:30:31,  2.30s/it, lr: 2.0e-04 loss: 7.942e-02]wan_dewa:  33%|###2      | 1138/3500 [1:00:47<1:30:31,  2.30s/it, lr: 2.0e-04 loss: 7.942e-02]wan_dewa:  33%|###2      | 1139/3500 [1:00:47<1:30:12,  2.29s/it, lr: 2.0e-04 loss: 7.942e-02]wan_dewa:  33%|###2      | 1139/3500 [1:00:47<1:30:12,  2.29s/it, lr: 2.0e-04 loss: 7.942e-02]wan_dewa:  33%|###2      | 1139/3500 [1:00:58<1:30:12,  2.29s/it, lr: 2.0e-04 loss: 3.219e-02]wan_dewa:  33%|###2      | 1139/3500 [1:00:58<1:30:12,  2.29s/it, lr: 2.0e-04 loss: 3.219e-02]wan_dewa:  33%|###2      | 1140/3500 [1:01:01<1:30:10,  2.29s/it, lr: 2.0e-04 loss: 6.385e-02]wan_dewa:  33%|###2      | 1140/3500 [1:01:01<1:30:10,  2.29s/it, lr: 2.0e-04 loss: 6.385e-02]wan_dewa:  33%|###2      | 1141/3500 [1:01:01<1:09:25,  1.77s/it, lr: 2.0e-04 loss: 6.385e-02]wan_dewa:  33%|###2      | 1141/3500 [1:01:01<1:09:25,  1.77s/it, lr: 2.0e-04 loss: 6.385e-02]wan_dewa:  33%|###2      | 1141/3500 [1:01:03<1:09:25,  1.77s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  33%|###2      | 1141/3500 [1:01:03<1:09:25,  1.77s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  33%|###2      | 1142/3500 [1:01:03<1:14:21,  1.89s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  33%|###2      | 1142/3500 [1:01:03<1:14:21,  1.89s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  33%|###2      | 1142/3500 [1:01:05<1:14:21,  1.89s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:  33%|###2      | 1142/3500 [1:01:05<1:14:21,  1.89s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:  33%|###2      | 1143/3500 [1:01:05<1:19:59,  2.04s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:  33%|###2      | 1143/3500 [1:01:05<1:19:59,  2.04s/it, lr: 2.0e-04 loss: 6.421e-02]wan_dewa:  33%|###2      | 1143/3500 [1:01:08<1:19:59,  2.04s/it, lr: 2.0e-04 loss: 3.473e-02]wan_dewa:  33%|###2      | 1143/3500 [1:01:08<1:19:59,  2.04s/it, lr: 2.0e-04 loss: 3.473e-02]wan_dewa:  33%|###2      | 1144/3500 [1:01:08<1:22:32,  2.10s/it, lr: 2.0e-04 loss: 3.473e-02]wan_dewa:  33%|###2      | 1144/3500 [1:01:08<1:22:32,  2.10s/it, lr: 2.0e-04 loss: 3.473e-02]wan_dewa:  33%|###2      | 1144/3500 [1:01:10<1:22:32,  2.10s/it, lr: 2.0e-04 loss: 5.092e-02]wan_dewa:  33%|###2      | 1144/3500 [1:01:10<1:22:32,  2.10s/it, lr: 2.0e-04 loss: 5.092e-02]wan_dewa:  33%|###2      | 1145/3500 [1:01:10<1:24:27,  2.15s/it, lr: 2.0e-04 loss: 5.092e-02]wan_dewa:  33%|###2      | 1145/3500 [1:01:10<1:24:27,  2.15s/it, lr: 2.0e-04 loss: 5.092e-02]wan_dewa:  33%|###2      | 1145/3500 [1:01:12<1:24:27,  2.15s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:  33%|###2      | 1145/3500 [1:01:12<1:24:27,  2.15s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:  33%|###2      | 1146/3500 [1:01:12<1:25:52,  2.19s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:  33%|###2      | 1146/3500 [1:01:12<1:25:52,  2.19s/it, lr: 2.0e-04 loss: 4.522e-02]wan_dewa:  33%|###2      | 1146/3500 [1:01:15<1:25:52,  2.19s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  33%|###2      | 1146/3500 [1:01:15<1:25:52,  2.19s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  33%|###2      | 1147/3500 [1:01:15<1:26:53,  2.22s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  33%|###2      | 1147/3500 [1:01:15<1:26:53,  2.22s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  33%|###2      | 1147/3500 [1:01:17<1:26:53,  2.22s/it, lr: 2.0e-04 loss: 5.962e-02]wan_dewa:  33%|###2      | 1147/3500 [1:01:17<1:26:53,  2.22s/it, lr: 2.0e-04 loss: 5.962e-02]wan_dewa:  33%|###2      | 1148/3500 [1:01:17<1:27:36,  2.24s/it, lr: 2.0e-04 loss: 5.962e-02]wan_dewa:  33%|###2      | 1148/3500 [1:01:17<1:27:36,  2.24s/it, lr: 2.0e-04 loss: 5.962e-02]wan_dewa:  33%|###2      | 1148/3500 [1:01:19<1:27:36,  2.24s/it, lr: 2.0e-04 loss: 7.197e-02]wan_dewa:  33%|###2      | 1148/3500 [1:01:19<1:27:36,  2.24s/it, lr: 2.0e-04 loss: 7.197e-02]wan_dewa:  33%|###2      | 1149/3500 [1:01:19<1:30:05,  2.30s/it, lr: 2.0e-04 loss: 7.197e-02]wan_dewa:  33%|###2      | 1149/3500 [1:01:19<1:30:05,  2.30s/it, lr: 2.0e-04 loss: 7.197e-02]wan_dewa:  33%|###2      | 1149/3500 [1:01:32<1:30:05,  2.30s/it, lr: 2.0e-04 loss: 3.233e-02]wan_dewa:  33%|###2      | 1149/3500 [1:01:32<1:30:05,  2.30s/it, lr: 2.0e-04 loss: 3.233e-02]wan_dewa:  33%|###2      | 1150/3500 [1:01:35<1:30:02,  2.30s/it, lr: 2.0e-04 loss: 6.012e-02]wan_dewa:  33%|###2      | 1150/3500 [1:01:35<1:30:02,  2.30s/it, lr: 2.0e-04 loss: 6.012e-02]wan_dewa:  33%|###2      | 1151/3500 [1:01:35<1:09:13,  1.77s/it, lr: 2.0e-04 loss: 6.012e-02]wan_dewa:  33%|###2      | 1151/3500 [1:01:35<1:09:13,  1.77s/it, lr: 2.0e-04 loss: 6.012e-02]wan_dewa:  33%|###2      | 1151/3500 [1:01:37<1:09:13,  1.77s/it, lr: 2.0e-04 loss: 6.507e-02]wan_dewa:  33%|###2      | 1151/3500 [1:01:37<1:09:13,  1.77s/it, lr: 2.0e-04 loss: 6.507e-02]wan_dewa:  33%|###2      | 1152/3500 [1:01:37<1:14:03,  1.89s/it, lr: 2.0e-04 loss: 6.507e-02]wan_dewa:  33%|###2      | 1152/3500 [1:01:37<1:14:03,  1.89s/it, lr: 2.0e-04 loss: 6.507e-02]wan_dewa:  33%|###2      | 1152/3500 [1:01:39<1:14:03,  1.89s/it, lr: 2.0e-04 loss: 5.715e-02]wan_dewa:  33%|###2      | 1152/3500 [1:01:39<1:14:03,  1.89s/it, lr: 2.0e-04 loss: 5.715e-02]wan_dewa:  33%|###2      | 1153/3500 [1:01:39<1:17:51,  1.99s/it, lr: 2.0e-04 loss: 5.715e-02]wan_dewa:  33%|###2      | 1153/3500 [1:01:39<1:17:51,  1.99s/it, lr: 2.0e-04 loss: 5.715e-02]wan_dewa:  33%|###2      | 1153/3500 [1:01:42<1:17:51,  1.99s/it, lr: 2.0e-04 loss: 4.873e-02]wan_dewa:  33%|###2      | 1153/3500 [1:01:42<1:17:51,  1.99s/it, lr: 2.0e-04 loss: 4.873e-02]wan_dewa:  33%|###2      | 1154/3500 [1:01:42<1:24:06,  2.15s/it, lr: 2.0e-04 loss: 4.873e-02]wan_dewa:  33%|###2      | 1154/3500 [1:01:42<1:24:06,  2.15s/it, lr: 2.0e-04 loss: 4.873e-02]wan_dewa:  33%|###2      | 1154/3500 [1:01:44<1:24:06,  2.15s/it, lr: 2.0e-04 loss: 9.118e-02]wan_dewa:  33%|###2      | 1154/3500 [1:01:44<1:24:06,  2.15s/it, lr: 2.0e-04 loss: 9.118e-02]wan_dewa:  33%|###3      | 1155/3500 [1:01:44<1:25:22,  2.18s/it, lr: 2.0e-04 loss: 9.118e-02]wan_dewa:  33%|###3      | 1155/3500 [1:01:44<1:25:22,  2.18s/it, lr: 2.0e-04 loss: 9.118e-02]wan_dewa:  33%|###3      | 1155/3500 [1:01:46<1:25:22,  2.18s/it, lr: 2.0e-04 loss: 7.623e-02]wan_dewa:  33%|###3      | 1155/3500 [1:01:46<1:25:22,  2.18s/it, lr: 2.0e-04 loss: 7.623e-02]wan_dewa:  33%|###3      | 1156/3500 [1:01:46<1:26:17,  2.21s/it, lr: 2.0e-04 loss: 7.623e-02]wan_dewa:  33%|###3      | 1156/3500 [1:01:46<1:26:17,  2.21s/it, lr: 2.0e-04 loss: 7.623e-02]wan_dewa:  33%|###3      | 1156/3500 [1:01:49<1:26:17,  2.21s/it, lr: 2.0e-04 loss: 7.638e-02]wan_dewa:  33%|###3      | 1156/3500 [1:01:49<1:26:17,  2.21s/it, lr: 2.0e-04 loss: 7.638e-02]wan_dewa:  33%|###3      | 1157/3500 [1:01:49<1:26:59,  2.23s/it, lr: 2.0e-04 loss: 7.638e-02]wan_dewa:  33%|###3      | 1157/3500 [1:01:49<1:26:59,  2.23s/it, lr: 2.0e-04 loss: 7.638e-02]wan_dewa:  33%|###3      | 1157/3500 [1:01:51<1:26:59,  2.23s/it, lr: 2.0e-04 loss: 6.240e-02]wan_dewa:  33%|###3      | 1157/3500 [1:01:51<1:26:59,  2.23s/it, lr: 2.0e-04 loss: 6.240e-02]wan_dewa:  33%|###3      | 1158/3500 [1:01:51<1:27:29,  2.24s/it, lr: 2.0e-04 loss: 6.240e-02]wan_dewa:  33%|###3      | 1158/3500 [1:01:51<1:27:29,  2.24s/it, lr: 2.0e-04 loss: 6.240e-02]wan_dewa:  33%|###3      | 1158/3500 [1:01:53<1:27:29,  2.24s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  33%|###3      | 1158/3500 [1:01:53<1:27:29,  2.24s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  33%|###3      | 1159/3500 [1:01:53<1:29:50,  2.30s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  33%|###3      | 1159/3500 [1:01:53<1:29:50,  2.30s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  33%|###3      | 1159/3500 [1:02:04<1:29:50,  2.30s/it, lr: 2.0e-04 loss: 6.527e-02]wan_dewa:  33%|###3      | 1159/3500 [1:02:04<1:29:50,  2.30s/it, lr: 2.0e-04 loss: 6.527e-02]wan_dewa:  33%|###3      | 1160/3500 [1:02:07<1:29:47,  2.30s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  33%|###3      | 1160/3500 [1:02:07<1:29:47,  2.30s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  33%|###3      | 1161/3500 [1:02:07<1:09:01,  1.77s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  33%|###3      | 1161/3500 [1:02:07<1:09:01,  1.77s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  33%|###3      | 1161/3500 [1:02:09<1:09:01,  1.77s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  33%|###3      | 1161/3500 [1:02:09<1:09:01,  1.77s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  33%|###3      | 1162/3500 [1:02:09<1:13:54,  1.90s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  33%|###3      | 1162/3500 [1:02:09<1:13:54,  1.90s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  33%|###3      | 1162/3500 [1:02:11<1:13:54,  1.90s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:  33%|###3      | 1162/3500 [1:02:11<1:13:54,  1.90s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:  33%|###3      | 1163/3500 [1:02:11<1:17:43,  2.00s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:  33%|###3      | 1163/3500 [1:02:11<1:17:43,  2.00s/it, lr: 2.0e-04 loss: 5.470e-02]wan_dewa:  33%|###3      | 1163/3500 [1:02:14<1:17:43,  2.00s/it, lr: 2.0e-04 loss: 5.446e-02]wan_dewa:  33%|###3      | 1163/3500 [1:02:14<1:17:43,  2.00s/it, lr: 2.0e-04 loss: 5.446e-02]wan_dewa:  33%|###3      | 1164/3500 [1:02:14<1:22:31,  2.12s/it, lr: 2.0e-04 loss: 5.446e-02]wan_dewa:  33%|###3      | 1164/3500 [1:02:14<1:22:31,  2.12s/it, lr: 2.0e-04 loss: 5.446e-02]wan_dewa:  33%|###3      | 1164/3500 [1:02:16<1:22:31,  2.12s/it, lr: 2.0e-04 loss: 5.843e-02]wan_dewa:  33%|###3      | 1164/3500 [1:02:16<1:22:31,  2.12s/it, lr: 2.0e-04 loss: 5.843e-02]wan_dewa:  33%|###3      | 1165/3500 [1:02:16<1:24:12,  2.16s/it, lr: 2.0e-04 loss: 5.843e-02]wan_dewa:  33%|###3      | 1165/3500 [1:02:16<1:24:12,  2.16s/it, lr: 2.0e-04 loss: 5.843e-02]wan_dewa:  33%|###3      | 1165/3500 [1:02:18<1:24:12,  2.16s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  33%|###3      | 1165/3500 [1:02:18<1:24:12,  2.16s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  33%|###3      | 1166/3500 [1:02:18<1:25:26,  2.20s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  33%|###3      | 1166/3500 [1:02:18<1:25:26,  2.20s/it, lr: 2.0e-04 loss: 6.493e-02]wan_dewa:  33%|###3      | 1166/3500 [1:02:21<1:25:26,  2.20s/it, lr: 2.0e-04 loss: 5.987e-02]wan_dewa:  33%|###3      | 1166/3500 [1:02:21<1:25:26,  2.20s/it, lr: 2.0e-04 loss: 5.987e-02]wan_dewa:  33%|###3      | 1167/3500 [1:02:21<1:26:21,  2.22s/it, lr: 2.0e-04 loss: 5.987e-02]wan_dewa:  33%|###3      | 1167/3500 [1:02:21<1:26:21,  2.22s/it, lr: 2.0e-04 loss: 5.987e-02]wan_dewa:  33%|###3      | 1167/3500 [1:02:23<1:26:21,  2.22s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  33%|###3      | 1167/3500 [1:02:23<1:26:21,  2.22s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  33%|###3      | 1168/3500 [1:02:23<1:27:00,  2.24s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  33%|###3      | 1168/3500 [1:02:23<1:27:00,  2.24s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  33%|###3      | 1168/3500 [1:02:25<1:27:00,  2.24s/it, lr: 2.0e-04 loss: 7.662e-02]wan_dewa:  33%|###3      | 1168/3500 [1:02:25<1:27:00,  2.24s/it, lr: 2.0e-04 loss: 7.662e-02]wan_dewa:  33%|###3      | 1169/3500 [1:02:25<1:27:29,  2.25s/it, lr: 2.0e-04 loss: 7.662e-02]wan_dewa:  33%|###3      | 1169/3500 [1:02:25<1:27:29,  2.25s/it, lr: 2.0e-04 loss: 7.662e-02]wan_dewa:  33%|###3      | 1169/3500 [1:02:33<1:27:29,  2.25s/it, lr: 2.0e-04 loss: 1.353e-01]wan_dewa:  33%|###3      | 1169/3500 [1:02:33<1:27:29,  2.25s/it, lr: 2.0e-04 loss: 1.353e-01]wan_dewa:  33%|###3      | 1170/3500 [1:02:35<1:27:26,  2.25s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  33%|###3      | 1170/3500 [1:02:35<1:27:26,  2.25s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  33%|###3      | 1171/3500 [1:02:35<1:07:40,  1.74s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  33%|###3      | 1171/3500 [1:02:35<1:07:40,  1.74s/it, lr: 2.0e-04 loss: 9.889e-02]wan_dewa:  33%|###3      | 1171/3500 [1:02:38<1:07:40,  1.74s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  33%|###3      | 1171/3500 [1:02:38<1:07:40,  1.74s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  33%|###3      | 1172/3500 [1:02:38<1:12:45,  1.88s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  33%|###3      | 1172/3500 [1:02:38<1:12:45,  1.88s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  33%|###3      | 1172/3500 [1:02:40<1:12:45,  1.88s/it, lr: 2.0e-04 loss: 1.467e-01]wan_dewa:  33%|###3      | 1172/3500 [1:02:40<1:12:45,  1.88s/it, lr: 2.0e-04 loss: 1.467e-01]wan_dewa:  34%|###3      | 1173/3500 [1:02:40<1:16:43,  1.98s/it, lr: 2.0e-04 loss: 1.467e-01]wan_dewa:  34%|###3      | 1173/3500 [1:02:40<1:16:43,  1.98s/it, lr: 2.0e-04 loss: 1.467e-01]wan_dewa:  34%|###3      | 1173/3500 [1:02:42<1:16:43,  1.98s/it, lr: 2.0e-04 loss: 9.330e-02]wan_dewa:  34%|###3      | 1173/3500 [1:02:42<1:16:43,  1.98s/it, lr: 2.0e-04 loss: 9.330e-02]wan_dewa:  34%|###3      | 1174/3500 [1:02:42<1:19:45,  2.06s/it, lr: 2.0e-04 loss: 9.330e-02]wan_dewa:  34%|###3      | 1174/3500 [1:02:42<1:19:45,  2.06s/it, lr: 2.0e-04 loss: 9.330e-02]wan_dewa:  34%|###3      | 1174/3500 [1:02:47<1:19:45,  2.06s/it, lr: 2.0e-04 loss: 9.213e-02]wan_dewa:  34%|###3      | 1174/3500 [1:02:47<1:19:45,  2.06s/it, lr: 2.0e-04 loss: 9.213e-02]wan_dewa:  34%|###3      | 1175/3500 [1:02:47<1:26:38,  2.24s/it, lr: 2.0e-04 loss: 9.213e-02]wan_dewa:  34%|###3      | 1175/3500 [1:02:47<1:26:38,  2.24s/it, lr: 2.0e-04 loss: 9.213e-02]wan_dewa:  34%|###3      | 1175/3500 [1:02:49<1:26:38,  2.24s/it, lr: 2.0e-04 loss: 6.435e-02]wan_dewa:  34%|###3      | 1175/3500 [1:02:49<1:26:38,  2.24s/it, lr: 2.0e-04 loss: 6.435e-02]wan_dewa:  34%|###3      | 1176/3500 [1:02:49<1:26:58,  2.25s/it, lr: 2.0e-04 loss: 6.435e-02]wan_dewa:  34%|###3      | 1176/3500 [1:02:49<1:26:58,  2.25s/it, lr: 2.0e-04 loss: 6.435e-02]wan_dewa:  34%|###3      | 1176/3500 [1:02:52<1:26:58,  2.25s/it, lr: 2.0e-04 loss: 6.974e-02]wan_dewa:  34%|###3      | 1176/3500 [1:02:52<1:26:58,  2.25s/it, lr: 2.0e-04 loss: 6.974e-02]wan_dewa:  34%|###3      | 1177/3500 [1:02:52<1:27:14,  2.25s/it, lr: 2.0e-04 loss: 6.974e-02]wan_dewa:  34%|###3      | 1177/3500 [1:02:52<1:27:14,  2.25s/it, lr: 2.0e-04 loss: 6.974e-02]wan_dewa:  34%|###3      | 1177/3500 [1:02:54<1:27:14,  2.25s/it, lr: 2.0e-04 loss: 5.563e-02]wan_dewa:  34%|###3      | 1177/3500 [1:02:54<1:27:14,  2.25s/it, lr: 2.0e-04 loss: 5.563e-02]wan_dewa:  34%|###3      | 1178/3500 [1:02:54<1:27:21,  2.26s/it, lr: 2.0e-04 loss: 5.563e-02]wan_dewa:  34%|###3      | 1178/3500 [1:02:54<1:27:21,  2.26s/it, lr: 2.0e-04 loss: 5.563e-02]wan_dewa:  34%|###3      | 1178/3500 [1:02:56<1:27:21,  2.26s/it, lr: 2.0e-04 loss: 7.929e-02]wan_dewa:  34%|###3      | 1178/3500 [1:02:56<1:27:21,  2.26s/it, lr: 2.0e-04 loss: 7.929e-02]wan_dewa:  34%|###3      | 1179/3500 [1:02:56<1:30:03,  2.33s/it, lr: 2.0e-04 loss: 7.929e-02]wan_dewa:  34%|###3      | 1179/3500 [1:02:56<1:30:03,  2.33s/it, lr: 2.0e-04 loss: 7.929e-02]wan_dewa:  34%|###3      | 1179/3500 [1:03:07<1:30:03,  2.33s/it, lr: 2.0e-04 loss: 6.636e-02]wan_dewa:  34%|###3      | 1179/3500 [1:03:07<1:30:03,  2.33s/it, lr: 2.0e-04 loss: 6.636e-02]wan_dewa:  34%|###3      | 1180/3500 [1:03:10<1:30:01,  2.33s/it, lr: 2.0e-04 loss: 1.012e-01]wan_dewa:  34%|###3      | 1180/3500 [1:03:10<1:30:01,  2.33s/it, lr: 2.0e-04 loss: 1.012e-01]wan_dewa:  34%|###3      | 1181/3500 [1:03:10<1:09:06,  1.79s/it, lr: 2.0e-04 loss: 1.012e-01]wan_dewa:  34%|###3      | 1181/3500 [1:03:10<1:09:06,  1.79s/it, lr: 2.0e-04 loss: 1.012e-01]wan_dewa:  34%|###3      | 1181/3500 [1:03:12<1:09:06,  1.79s/it, lr: 2.0e-04 loss: 5.220e-02]wan_dewa:  34%|###3      | 1181/3500 [1:03:12<1:09:06,  1.79s/it, lr: 2.0e-04 loss: 5.220e-02]wan_dewa:  34%|###3      | 1182/3500 [1:03:12<1:13:41,  1.91s/it, lr: 2.0e-04 loss: 5.220e-02]wan_dewa:  34%|###3      | 1182/3500 [1:03:12<1:13:41,  1.91s/it, lr: 2.0e-04 loss: 5.220e-02]wan_dewa:  34%|###3      | 1182/3500 [1:03:14<1:13:41,  1.91s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:  34%|###3      | 1182/3500 [1:03:14<1:13:41,  1.91s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:  34%|###3      | 1183/3500 [1:03:14<1:17:21,  2.00s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:  34%|###3      | 1183/3500 [1:03:14<1:17:21,  2.00s/it, lr: 2.0e-04 loss: 5.941e-02]wan_dewa:  34%|###3      | 1183/3500 [1:03:17<1:17:21,  2.00s/it, lr: 2.0e-04 loss: 5.444e-02]wan_dewa:  34%|###3      | 1183/3500 [1:03:17<1:17:21,  2.00s/it, lr: 2.0e-04 loss: 5.444e-02]wan_dewa:  34%|###3      | 1184/3500 [1:03:17<1:20:10,  2.08s/it, lr: 2.0e-04 loss: 5.444e-02]wan_dewa:  34%|###3      | 1184/3500 [1:03:17<1:20:10,  2.08s/it, lr: 2.0e-04 loss: 5.444e-02]wan_dewa:  34%|###3      | 1184/3500 [1:03:19<1:20:10,  2.08s/it, lr: 2.0e-04 loss: 4.979e-02]wan_dewa:  34%|###3      | 1184/3500 [1:03:19<1:20:10,  2.08s/it, lr: 2.0e-04 loss: 4.979e-02]wan_dewa:  34%|###3      | 1185/3500 [1:03:19<1:24:36,  2.19s/it, lr: 2.0e-04 loss: 4.979e-02]wan_dewa:  34%|###3      | 1185/3500 [1:03:19<1:24:36,  2.19s/it, lr: 2.0e-04 loss: 4.979e-02]wan_dewa:  34%|###3      | 1185/3500 [1:03:21<1:24:36,  2.19s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  34%|###3      | 1185/3500 [1:03:21<1:24:36,  2.19s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  34%|###3      | 1186/3500 [1:03:21<1:25:30,  2.22s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  34%|###3      | 1186/3500 [1:03:21<1:25:30,  2.22s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  34%|###3      | 1186/3500 [1:03:24<1:25:30,  2.22s/it, lr: 2.0e-04 loss: 3.349e-02]wan_dewa:  34%|###3      | 1186/3500 [1:03:24<1:25:30,  2.22s/it, lr: 2.0e-04 loss: 3.349e-02]wan_dewa:  34%|###3      | 1187/3500 [1:03:24<1:26:09,  2.23s/it, lr: 2.0e-04 loss: 3.349e-02]wan_dewa:  34%|###3      | 1187/3500 [1:03:24<1:26:09,  2.23s/it, lr: 2.0e-04 loss: 3.349e-02]wan_dewa:  34%|###3      | 1187/3500 [1:03:26<1:26:09,  2.23s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  34%|###3      | 1187/3500 [1:03:26<1:26:09,  2.23s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  34%|###3      | 1188/3500 [1:03:26<1:26:38,  2.25s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  34%|###3      | 1188/3500 [1:03:26<1:26:38,  2.25s/it, lr: 2.0e-04 loss: 5.942e-02]wan_dewa:  34%|###3      | 1188/3500 [1:03:28<1:26:38,  2.25s/it, lr: 2.0e-04 loss: 5.218e-02]wan_dewa:  34%|###3      | 1188/3500 [1:03:28<1:26:38,  2.25s/it, lr: 2.0e-04 loss: 5.218e-02]wan_dewa:  34%|###3      | 1189/3500 [1:03:28<1:27:00,  2.26s/it, lr: 2.0e-04 loss: 5.218e-02]wan_dewa:  34%|###3      | 1189/3500 [1:03:28<1:27:00,  2.26s/it, lr: 2.0e-04 loss: 5.218e-02]wan_dewa:  34%|###3      | 1189/3500 [1:03:40<1:27:00,  2.26s/it, lr: 2.0e-04 loss: 2.630e-02]wan_dewa:  34%|###3      | 1189/3500 [1:03:40<1:27:00,  2.26s/it, lr: 2.0e-04 loss: 2.630e-02]wan_dewa:  34%|###4      | 1190/3500 [1:03:42<1:26:58,  2.26s/it, lr: 2.0e-04 loss: 1.684e-01]wan_dewa:  34%|###4      | 1190/3500 [1:03:42<1:26:58,  2.26s/it, lr: 2.0e-04 loss: 1.684e-01]wan_dewa:  34%|###4      | 1191/3500 [1:03:42<1:07:19,  1.75s/it, lr: 2.0e-04 loss: 1.684e-01]wan_dewa:  34%|###4      | 1191/3500 [1:03:42<1:07:19,  1.75s/it, lr: 2.0e-04 loss: 1.684e-01]wan_dewa:  34%|###4      | 1191/3500 [1:03:44<1:07:19,  1.75s/it, lr: 2.0e-04 loss: 7.297e-02]wan_dewa:  34%|###4      | 1191/3500 [1:03:44<1:07:19,  1.75s/it, lr: 2.0e-04 loss: 7.297e-02]wan_dewa:  34%|###4      | 1192/3500 [1:03:44<1:12:21,  1.88s/it, lr: 2.0e-04 loss: 7.297e-02]wan_dewa:  34%|###4      | 1192/3500 [1:03:44<1:12:21,  1.88s/it, lr: 2.0e-04 loss: 7.297e-02]wan_dewa:  34%|###4      | 1192/3500 [1:03:46<1:12:21,  1.88s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  34%|###4      | 1192/3500 [1:03:46<1:12:21,  1.88s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  34%|###4      | 1193/3500 [1:03:46<1:16:16,  1.98s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  34%|###4      | 1193/3500 [1:03:46<1:16:16,  1.98s/it, lr: 2.0e-04 loss: 1.099e-01]wan_dewa:  34%|###4      | 1193/3500 [1:03:49<1:16:16,  1.98s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1193/3500 [1:03:49<1:16:16,  1.98s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1194/3500 [1:03:49<1:19:17,  2.06s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1194/3500 [1:03:49<1:19:17,  2.06s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1194/3500 [1:03:51<1:19:17,  2.06s/it, lr: 2.0e-04 loss: 6.733e-02]wan_dewa:  34%|###4      | 1194/3500 [1:03:51<1:19:17,  2.06s/it, lr: 2.0e-04 loss: 6.733e-02]wan_dewa:  34%|###4      | 1195/3500 [1:03:51<1:23:47,  2.18s/it, lr: 2.0e-04 loss: 6.733e-02]wan_dewa:  34%|###4      | 1195/3500 [1:03:51<1:23:47,  2.18s/it, lr: 2.0e-04 loss: 6.733e-02]wan_dewa:  34%|###4      | 1195/3500 [1:03:53<1:23:47,  2.18s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  34%|###4      | 1195/3500 [1:03:53<1:23:47,  2.18s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  34%|###4      | 1196/3500 [1:03:53<1:24:48,  2.21s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  34%|###4      | 1196/3500 [1:03:53<1:24:48,  2.21s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  34%|###4      | 1196/3500 [1:03:56<1:24:48,  2.21s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1196/3500 [1:03:56<1:24:48,  2.21s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1197/3500 [1:03:56<1:25:34,  2.23s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1197/3500 [1:03:56<1:25:34,  2.23s/it, lr: 2.0e-04 loss: 4.403e-02]wan_dewa:  34%|###4      | 1197/3500 [1:03:58<1:25:34,  2.23s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  34%|###4      | 1197/3500 [1:03:58<1:25:34,  2.23s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  34%|###4      | 1198/3500 [1:03:58<1:26:06,  2.24s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  34%|###4      | 1198/3500 [1:03:58<1:26:06,  2.24s/it, lr: 2.0e-04 loss: 8.032e-02]wan_dewa:  34%|###4      | 1198/3500 [1:04:00<1:26:06,  2.24s/it, lr: 2.0e-04 loss: 7.239e-02]wan_dewa:  34%|###4      | 1198/3500 [1:04:00<1:26:06,  2.24s/it, lr: 2.0e-04 loss: 7.239e-02]wan_dewa:  34%|###4      | 1199/3500 [1:04:00<1:26:29,  2.26s/it, lr: 2.0e-04 loss: 7.239e-02]wan_dewa:  34%|###4      | 1199/3500 [1:04:00<1:26:29,  2.26s/it, lr: 2.0e-04 loss: 7.239e-02]wan_dewa:  34%|###4      | 1199/3500 [1:04:14<1:26:29,  2.26s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  34%|###4      | 1199/3500 [1:04:14<1:26:29,  2.26s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  34%|###4      | 1200/3500 [1:04:16<1:26:27,  2.26s/it, lr: 2.0e-04 loss: 6.725e-02]wan_dewa:  34%|###4      | 1200/3500 [1:04:16<1:26:27,  2.26s/it, lr: 2.0e-04 loss: 6.725e-02]wan_dewa:  34%|###4      | 1201/3500 [1:04:16<1:06:51,  1.74s/it, lr: 2.0e-04 loss: 6.725e-02]wan_dewa:  34%|###4      | 1201/3500 [1:04:16<1:06:51,  1.74s/it, lr: 2.0e-04 loss: 6.725e-02]wan_dewa:  34%|###4      | 1201/3500 [1:04:18<1:06:51,  1.74s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  34%|###4      | 1201/3500 [1:04:18<1:06:51,  1.74s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  34%|###4      | 1202/3500 [1:04:18<1:11:53,  1.88s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  34%|###4      | 1202/3500 [1:04:18<1:11:53,  1.88s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  34%|###4      | 1202/3500 [1:04:21<1:11:53,  1.88s/it, lr: 2.0e-04 loss: 7.008e-02]wan_dewa:  34%|###4      | 1202/3500 [1:04:21<1:11:53,  1.88s/it, lr: 2.0e-04 loss: 7.008e-02]wan_dewa:  34%|###4      | 1203/3500 [1:04:21<1:15:49,  1.98s/it, lr: 2.0e-04 loss: 7.008e-02]wan_dewa:  34%|###4      | 1203/3500 [1:04:21<1:15:49,  1.98s/it, lr: 2.0e-04 loss: 7.008e-02]wan_dewa:  34%|###4      | 1203/3500 [1:04:23<1:15:49,  1.98s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  34%|###4      | 1203/3500 [1:04:23<1:15:49,  1.98s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  34%|###4      | 1204/3500 [1:04:23<1:18:52,  2.06s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  34%|###4      | 1204/3500 [1:04:23<1:18:52,  2.06s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  34%|###4      | 1204/3500 [1:04:25<1:18:52,  2.06s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  34%|###4      | 1204/3500 [1:04:25<1:18:52,  2.06s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  34%|###4      | 1205/3500 [1:04:25<1:23:15,  2.18s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  34%|###4      | 1205/3500 [1:04:25<1:23:15,  2.18s/it, lr: 2.0e-04 loss: 5.952e-02]wan_dewa:  34%|###4      | 1205/3500 [1:04:28<1:23:15,  2.18s/it, lr: 2.0e-04 loss: 4.058e-02]wan_dewa:  34%|###4      | 1205/3500 [1:04:28<1:23:15,  2.18s/it, lr: 2.0e-04 loss: 4.058e-02]wan_dewa:  34%|###4      | 1206/3500 [1:04:28<1:24:19,  2.21s/it, lr: 2.0e-04 loss: 4.058e-02]wan_dewa:  34%|###4      | 1206/3500 [1:04:28<1:24:19,  2.21s/it, lr: 2.0e-04 loss: 4.058e-02]wan_dewa:  34%|###4      | 1206/3500 [1:04:30<1:24:19,  2.21s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  34%|###4      | 1206/3500 [1:04:30<1:24:19,  2.21s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  34%|###4      | 1207/3500 [1:04:30<1:25:05,  2.23s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  34%|###4      | 1207/3500 [1:04:30<1:25:05,  2.23s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  34%|###4      | 1207/3500 [1:04:32<1:25:05,  2.23s/it, lr: 2.0e-04 loss: 5.009e-02]wan_dewa:  34%|###4      | 1207/3500 [1:04:32<1:25:05,  2.23s/it, lr: 2.0e-04 loss: 5.009e-02]wan_dewa:  35%|###4      | 1208/3500 [1:04:32<1:25:40,  2.24s/it, lr: 2.0e-04 loss: 5.009e-02]wan_dewa:  35%|###4      | 1208/3500 [1:04:32<1:25:40,  2.24s/it, lr: 2.0e-04 loss: 5.009e-02]wan_dewa:  35%|###4      | 1208/3500 [1:04:35<1:25:40,  2.24s/it, lr: 2.0e-04 loss: 5.263e-02]wan_dewa:  35%|###4      | 1208/3500 [1:04:35<1:25:40,  2.24s/it, lr: 2.0e-04 loss: 5.263e-02]wan_dewa:  35%|###4      | 1209/3500 [1:04:35<1:26:04,  2.25s/it, lr: 2.0e-04 loss: 5.263e-02]wan_dewa:  35%|###4      | 1209/3500 [1:04:35<1:26:04,  2.25s/it, lr: 2.0e-04 loss: 5.263e-02]wan_dewa:  35%|###4      | 1209/3500 [1:04:46<1:26:04,  2.25s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  35%|###4      | 1209/3500 [1:04:46<1:26:04,  2.25s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  35%|###4      | 1210/3500 [1:04:48<1:26:02,  2.25s/it, lr: 2.0e-04 loss: 3.192e-02]wan_dewa:  35%|###4      | 1210/3500 [1:04:48<1:26:02,  2.25s/it, lr: 2.0e-04 loss: 3.192e-02]wan_dewa:  35%|###4      | 1211/3500 [1:04:48<1:06:29,  1.74s/it, lr: 2.0e-04 loss: 3.192e-02]wan_dewa:  35%|###4      | 1211/3500 [1:04:48<1:06:29,  1.74s/it, lr: 2.0e-04 loss: 3.192e-02]wan_dewa:  35%|###4      | 1211/3500 [1:04:50<1:06:29,  1.74s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  35%|###4      | 1211/3500 [1:04:50<1:06:29,  1.74s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  35%|###4      | 1212/3500 [1:04:50<1:11:27,  1.87s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  35%|###4      | 1212/3500 [1:04:50<1:11:27,  1.87s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  35%|###4      | 1212/3500 [1:04:52<1:11:27,  1.87s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  35%|###4      | 1212/3500 [1:04:52<1:11:27,  1.87s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  35%|###4      | 1213/3500 [1:04:52<1:15:21,  1.98s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  35%|###4      | 1213/3500 [1:04:52<1:15:21,  1.98s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  35%|###4      | 1213/3500 [1:04:55<1:15:21,  1.98s/it, lr: 2.0e-04 loss: 3.560e-01]wan_dewa:  35%|###4      | 1213/3500 [1:04:55<1:15:21,  1.98s/it, lr: 2.0e-04 loss: 3.560e-01]wan_dewa:  35%|###4      | 1214/3500 [1:04:55<1:18:21,  2.06s/it, lr: 2.0e-04 loss: 3.560e-01]wan_dewa:  35%|###4      | 1214/3500 [1:04:55<1:18:21,  2.06s/it, lr: 2.0e-04 loss: 3.560e-01]wan_dewa:  35%|###4      | 1214/3500 [1:04:57<1:18:21,  2.06s/it, lr: 2.0e-04 loss: 8.882e-02]wan_dewa:  35%|###4      | 1214/3500 [1:04:57<1:18:21,  2.06s/it, lr: 2.0e-04 loss: 8.882e-02]wan_dewa:  35%|###4      | 1215/3500 [1:04:57<1:22:44,  2.17s/it, lr: 2.0e-04 loss: 8.882e-02]wan_dewa:  35%|###4      | 1215/3500 [1:04:57<1:22:44,  2.17s/it, lr: 2.0e-04 loss: 8.882e-02]wan_dewa:  35%|###4      | 1215/3500 [1:04:59<1:22:44,  2.17s/it, lr: 2.0e-04 loss: 5.644e-02]wan_dewa:  35%|###4      | 1215/3500 [1:04:59<1:22:44,  2.17s/it, lr: 2.0e-04 loss: 5.644e-02]wan_dewa:  35%|###4      | 1216/3500 [1:04:59<1:23:48,  2.20s/it, lr: 2.0e-04 loss: 5.644e-02]wan_dewa:  35%|###4      | 1216/3500 [1:04:59<1:23:48,  2.20s/it, lr: 2.0e-04 loss: 5.644e-02]wan_dewa:  35%|###4      | 1216/3500 [1:05:02<1:23:48,  2.20s/it, lr: 2.0e-04 loss: 6.903e-02]wan_dewa:  35%|###4      | 1216/3500 [1:05:02<1:23:48,  2.20s/it, lr: 2.0e-04 loss: 6.903e-02]wan_dewa:  35%|###4      | 1217/3500 [1:05:02<1:24:34,  2.22s/it, lr: 2.0e-04 loss: 6.903e-02]wan_dewa:  35%|###4      | 1217/3500 [1:05:02<1:24:34,  2.22s/it, lr: 2.0e-04 loss: 6.903e-02]wan_dewa:  35%|###4      | 1217/3500 [1:05:04<1:24:34,  2.22s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  35%|###4      | 1217/3500 [1:05:04<1:24:34,  2.22s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  35%|###4      | 1218/3500 [1:05:04<1:25:06,  2.24s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  35%|###4      | 1218/3500 [1:05:04<1:25:06,  2.24s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  35%|###4      | 1218/3500 [1:05:06<1:25:06,  2.24s/it, lr: 2.0e-04 loss: 9.173e-02]wan_dewa:  35%|###4      | 1218/3500 [1:05:06<1:25:06,  2.24s/it, lr: 2.0e-04 loss: 9.173e-02]wan_dewa:  35%|###4      | 1219/3500 [1:05:06<1:25:31,  2.25s/it, lr: 2.0e-04 loss: 9.173e-02]wan_dewa:  35%|###4      | 1219/3500 [1:05:06<1:25:31,  2.25s/it, lr: 2.0e-04 loss: 9.173e-02]wan_dewa:  35%|###4      | 1219/3500 [1:05:15<1:25:31,  2.25s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  35%|###4      | 1219/3500 [1:05:15<1:25:31,  2.25s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  35%|###4      | 1220/3500 [1:05:17<1:25:29,  2.25s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  35%|###4      | 1220/3500 [1:05:17<1:25:29,  2.25s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  35%|###4      | 1221/3500 [1:05:17<1:06:06,  1.74s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  35%|###4      | 1221/3500 [1:05:17<1:06:06,  1.74s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  35%|###4      | 1221/3500 [1:05:19<1:06:06,  1.74s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  35%|###4      | 1221/3500 [1:05:19<1:06:06,  1.74s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  35%|###4      | 1222/3500 [1:05:19<1:11:06,  1.87s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  35%|###4      | 1222/3500 [1:05:19<1:11:06,  1.87s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  35%|###4      | 1222/3500 [1:05:21<1:11:06,  1.87s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  35%|###4      | 1222/3500 [1:05:21<1:11:06,  1.87s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  35%|###4      | 1223/3500 [1:05:21<1:15:01,  1.98s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  35%|###4      | 1223/3500 [1:05:21<1:15:01,  1.98s/it, lr: 2.0e-04 loss: 6.188e-02]wan_dewa:  35%|###4      | 1223/3500 [1:05:24<1:15:01,  1.98s/it, lr: 2.0e-04 loss: 3.057e-02]wan_dewa:  35%|###4      | 1223/3500 [1:05:24<1:15:01,  1.98s/it, lr: 2.0e-04 loss: 3.057e-02]wan_dewa:  35%|###4      | 1224/3500 [1:05:24<1:18:01,  2.06s/it, lr: 2.0e-04 loss: 3.057e-02]wan_dewa:  35%|###4      | 1224/3500 [1:05:24<1:18:01,  2.06s/it, lr: 2.0e-04 loss: 3.057e-02]wan_dewa:  35%|###4      | 1224/3500 [1:05:28<1:18:01,  2.06s/it, lr: 2.0e-04 loss: 5.008e-02]wan_dewa:  35%|###4      | 1224/3500 [1:05:28<1:18:01,  2.06s/it, lr: 2.0e-04 loss: 5.008e-02]wan_dewa:  35%|###5      | 1225/3500 [1:05:28<1:20:39,  2.13s/it, lr: 2.0e-04 loss: 5.008e-02]wan_dewa:  35%|###5      | 1225/3500 [1:05:28<1:20:39,  2.13s/it, lr: 2.0e-04 loss: 5.008e-02]wan_dewa:  35%|###5      | 1225/3500 [1:05:31<1:20:39,  2.13s/it, lr: 2.0e-04 loss: 5.994e-02]wan_dewa:  35%|###5      | 1225/3500 [1:05:31<1:20:39,  2.13s/it, lr: 2.0e-04 loss: 5.994e-02]wan_dewa:  35%|###5      | 1226/3500 [1:05:31<1:25:40,  2.26s/it, lr: 2.0e-04 loss: 5.994e-02]wan_dewa:  35%|###5      | 1226/3500 [1:05:31<1:25:40,  2.26s/it, lr: 2.0e-04 loss: 5.994e-02]wan_dewa:  35%|###5      | 1226/3500 [1:05:33<1:25:40,  2.26s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  35%|###5      | 1226/3500 [1:05:33<1:25:40,  2.26s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  35%|###5      | 1227/3500 [1:05:33<1:25:47,  2.26s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  35%|###5      | 1227/3500 [1:05:33<1:25:47,  2.26s/it, lr: 2.0e-04 loss: 5.579e-02]wan_dewa:  35%|###5      | 1227/3500 [1:05:35<1:25:47,  2.26s/it, lr: 2.0e-04 loss: 4.080e-02]wan_dewa:  35%|###5      | 1227/3500 [1:05:35<1:25:47,  2.26s/it, lr: 2.0e-04 loss: 4.080e-02]wan_dewa:  35%|###5      | 1228/3500 [1:05:35<1:25:48,  2.27s/it, lr: 2.0e-04 loss: 4.080e-02]wan_dewa:  35%|###5      | 1228/3500 [1:05:35<1:25:48,  2.27s/it, lr: 2.0e-04 loss: 4.080e-02]wan_dewa:  35%|###5      | 1228/3500 [1:05:38<1:25:48,  2.27s/it, lr: 2.0e-04 loss: 2.855e-02]wan_dewa:  35%|###5      | 1228/3500 [1:05:38<1:25:48,  2.27s/it, lr: 2.0e-04 loss: 2.855e-02]wan_dewa:  35%|###5      | 1229/3500 [1:05:38<1:25:52,  2.27s/it, lr: 2.0e-04 loss: 2.855e-02]wan_dewa:  35%|###5      | 1229/3500 [1:05:38<1:25:52,  2.27s/it, lr: 2.0e-04 loss: 2.855e-02]wan_dewa:  35%|###5      | 1229/3500 [1:05:49<1:25:52,  2.27s/it, lr: 2.0e-04 loss: 1.582e-01]wan_dewa:  35%|###5      | 1229/3500 [1:05:49<1:25:52,  2.27s/it, lr: 2.0e-04 loss: 1.582e-01]wan_dewa:  35%|###5      | 1230/3500 [1:05:51<1:25:50,  2.27s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  35%|###5      | 1230/3500 [1:05:51<1:25:50,  2.27s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  35%|###5      | 1231/3500 [1:05:51<1:07:54,  1.80s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  35%|###5      | 1231/3500 [1:05:51<1:07:54,  1.80s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  35%|###5      | 1231/3500 [1:05:53<1:07:54,  1.80s/it, lr: 2.0e-04 loss: 6.957e-02]wan_dewa:  35%|###5      | 1231/3500 [1:05:53<1:07:54,  1.80s/it, lr: 2.0e-04 loss: 6.957e-02]wan_dewa:  35%|###5      | 1232/3500 [1:05:53<1:12:16,  1.91s/it, lr: 2.0e-04 loss: 6.957e-02]wan_dewa:  35%|###5      | 1232/3500 [1:05:53<1:12:16,  1.91s/it, lr: 2.0e-04 loss: 6.957e-02]wan_dewa:  35%|###5      | 1232/3500 [1:05:56<1:12:16,  1.91s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  35%|###5      | 1232/3500 [1:05:56<1:12:16,  1.91s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  35%|###5      | 1233/3500 [1:05:56<1:15:46,  2.01s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  35%|###5      | 1233/3500 [1:05:56<1:15:46,  2.01s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  35%|###5      | 1233/3500 [1:05:58<1:15:46,  2.01s/it, lr: 2.0e-04 loss: 6.182e-02]wan_dewa:  35%|###5      | 1233/3500 [1:05:58<1:15:46,  2.01s/it, lr: 2.0e-04 loss: 6.182e-02]wan_dewa:  35%|###5      | 1234/3500 [1:05:58<1:18:27,  2.08s/it, lr: 2.0e-04 loss: 6.182e-02]wan_dewa:  35%|###5      | 1234/3500 [1:05:58<1:18:27,  2.08s/it, lr: 2.0e-04 loss: 6.182e-02]wan_dewa:  35%|###5      | 1234/3500 [1:06:00<1:18:27,  2.08s/it, lr: 2.0e-04 loss: 1.165e-01]wan_dewa:  35%|###5      | 1234/3500 [1:06:00<1:18:27,  2.08s/it, lr: 2.0e-04 loss: 1.165e-01]wan_dewa:  35%|###5      | 1235/3500 [1:06:00<1:20:27,  2.13s/it, lr: 2.0e-04 loss: 1.165e-01]wan_dewa:  35%|###5      | 1235/3500 [1:06:00<1:20:27,  2.13s/it, lr: 2.0e-04 loss: 1.165e-01]wan_dewa:  35%|###5      | 1235/3500 [1:06:03<1:20:27,  2.13s/it, lr: 2.0e-04 loss: 9.194e-02]wan_dewa:  35%|###5      | 1235/3500 [1:06:03<1:20:27,  2.13s/it, lr: 2.0e-04 loss: 9.194e-02]wan_dewa:  35%|###5      | 1236/3500 [1:06:03<1:23:58,  2.23s/it, lr: 2.0e-04 loss: 9.194e-02]wan_dewa:  35%|###5      | 1236/3500 [1:06:03<1:23:58,  2.23s/it, lr: 2.0e-04 loss: 9.194e-02]wan_dewa:  35%|###5      | 1236/3500 [1:06:05<1:23:58,  2.23s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  35%|###5      | 1236/3500 [1:06:05<1:23:58,  2.23s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  35%|###5      | 1237/3500 [1:06:05<1:24:28,  2.24s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  35%|###5      | 1237/3500 [1:06:05<1:24:28,  2.24s/it, lr: 2.0e-04 loss: 7.447e-02]wan_dewa:  35%|###5      | 1237/3500 [1:06:07<1:24:28,  2.24s/it, lr: 2.0e-04 loss: 1.326e-01]wan_dewa:  35%|###5      | 1237/3500 [1:06:07<1:24:28,  2.24s/it, lr: 2.0e-04 loss: 1.326e-01]wan_dewa:  35%|###5      | 1238/3500 [1:06:07<1:24:50,  2.25s/it, lr: 2.0e-04 loss: 1.326e-01]wan_dewa:  35%|###5      | 1238/3500 [1:06:07<1:24:50,  2.25s/it, lr: 2.0e-04 loss: 1.326e-01]wan_dewa:  35%|###5      | 1238/3500 [1:06:10<1:24:50,  2.25s/it, lr: 2.0e-04 loss: 5.016e-02]wan_dewa:  35%|###5      | 1238/3500 [1:06:10<1:24:50,  2.25s/it, lr: 2.0e-04 loss: 5.016e-02]wan_dewa:  35%|###5      | 1239/3500 [1:06:10<1:25:05,  2.26s/it, lr: 2.0e-04 loss: 5.016e-02]wan_dewa:  35%|###5      | 1239/3500 [1:06:10<1:25:05,  2.26s/it, lr: 2.0e-04 loss: 5.016e-02]wan_dewa:  35%|###5      | 1239/3500 [1:06:21<1:25:05,  2.26s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  35%|###5      | 1239/3500 [1:06:21<1:25:05,  2.26s/it, lr: 2.0e-04 loss: 8.045e-02]wan_dewa:  35%|###5      | 1240/3500 [1:06:23<1:25:02,  2.26s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  35%|###5      | 1240/3500 [1:06:23<1:25:02,  2.26s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  35%|###5      | 1241/3500 [1:06:23<1:07:27,  1.79s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  35%|###5      | 1241/3500 [1:06:23<1:07:27,  1.79s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  35%|###5      | 1241/3500 [1:06:25<1:07:27,  1.79s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  35%|###5      | 1241/3500 [1:06:25<1:07:27,  1.79s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  35%|###5      | 1242/3500 [1:06:25<1:11:54,  1.91s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  35%|###5      | 1242/3500 [1:06:25<1:11:54,  1.91s/it, lr: 2.0e-04 loss: 6.170e-02]wan_dewa:  35%|###5      | 1242/3500 [1:06:28<1:11:54,  1.91s/it, lr: 2.0e-04 loss: 5.157e-02]wan_dewa:  35%|###5      | 1242/3500 [1:06:28<1:11:54,  1.91s/it, lr: 2.0e-04 loss: 5.157e-02]wan_dewa:  36%|###5      | 1243/3500 [1:06:28<1:15:25,  2.00s/it, lr: 2.0e-04 loss: 5.157e-02]wan_dewa:  36%|###5      | 1243/3500 [1:06:28<1:15:25,  2.00s/it, lr: 2.0e-04 loss: 5.157e-02]wan_dewa:  36%|###5      | 1243/3500 [1:06:30<1:15:25,  2.00s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  36%|###5      | 1243/3500 [1:06:30<1:15:25,  2.00s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  36%|###5      | 1244/3500 [1:06:30<1:18:06,  2.08s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  36%|###5      | 1244/3500 [1:06:30<1:18:06,  2.08s/it, lr: 2.0e-04 loss: 5.497e-02]wan_dewa:  36%|###5      | 1244/3500 [1:06:32<1:18:06,  2.08s/it, lr: 2.0e-04 loss: 6.483e-02]wan_dewa:  36%|###5      | 1244/3500 [1:06:32<1:18:06,  2.08s/it, lr: 2.0e-04 loss: 6.483e-02]wan_dewa:  36%|###5      | 1245/3500 [1:06:32<1:20:08,  2.13s/it, lr: 2.0e-04 loss: 6.483e-02]wan_dewa:  36%|###5      | 1245/3500 [1:06:32<1:20:08,  2.13s/it, lr: 2.0e-04 loss: 6.483e-02]wan_dewa:  36%|###5      | 1245/3500 [1:06:35<1:20:08,  2.13s/it, lr: 2.0e-04 loss: 3.215e-02]wan_dewa:  36%|###5      | 1245/3500 [1:06:35<1:20:08,  2.13s/it, lr: 2.0e-04 loss: 3.215e-02]wan_dewa:  36%|###5      | 1246/3500 [1:06:35<1:23:46,  2.23s/it, lr: 2.0e-04 loss: 3.215e-02]wan_dewa:  36%|###5      | 1246/3500 [1:06:35<1:23:46,  2.23s/it, lr: 2.0e-04 loss: 3.215e-02]wan_dewa:  36%|###5      | 1246/3500 [1:06:37<1:23:46,  2.23s/it, lr: 2.0e-04 loss: 6.107e-02]wan_dewa:  36%|###5      | 1246/3500 [1:06:37<1:23:46,  2.23s/it, lr: 2.0e-04 loss: 6.107e-02]wan_dewa:  36%|###5      | 1247/3500 [1:06:37<1:24:14,  2.24s/it, lr: 2.0e-04 loss: 6.107e-02]wan_dewa:  36%|###5      | 1247/3500 [1:06:37<1:24:14,  2.24s/it, lr: 2.0e-04 loss: 6.107e-02]wan_dewa:  36%|###5      | 1247/3500 [1:06:39<1:24:14,  2.24s/it, lr: 2.0e-04 loss: 6.336e-02]wan_dewa:  36%|###5      | 1247/3500 [1:06:39<1:24:14,  2.24s/it, lr: 2.0e-04 loss: 6.336e-02]wan_dewa:  36%|###5      | 1248/3500 [1:06:39<1:24:37,  2.25s/it, lr: 2.0e-04 loss: 6.336e-02]wan_dewa:  36%|###5      | 1248/3500 [1:06:39<1:24:37,  2.25s/it, lr: 2.0e-04 loss: 6.336e-02]wan_dewa:  36%|###5      | 1248/3500 [1:06:41<1:24:37,  2.25s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  36%|###5      | 1248/3500 [1:06:41<1:24:37,  2.25s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  36%|###5      | 1249/3500 [1:06:41<1:24:52,  2.26s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  36%|###5      | 1249/3500 [1:06:41<1:24:52,  2.26s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  36%|###5      | 1249/3500 [1:06:55<1:24:52,  2.26s/it, lr: 2.0e-04 loss: 7.856e-02]wan_dewa:  36%|###5      | 1249/3500 [1:06:55<1:24:52,  2.26s/it, lr: 2.0e-04 loss: 7.856e-02]
+Saving at step 1250
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000001250.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:47<01:42,  6.38s/it] 36%|###6      | 9/25 [00:47<01:42,  6.38s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:27,  5.84s/it] 40%|####      | 10/25 [00:51<01:27,  5.84s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.46s/it] 44%|####4     | 11/25 [00:56<01:16,  5.46s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:01<01:07,  5.21s/it] 48%|####8     | 12/25 [01:01<01:07,  5.21s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.91s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.91s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.83s/it] 60%|######    | 15/25 [01:14<00:48,  4.83s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:38<00:23,  4.67s/it] 80%|########  | 20/25 [01:38<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:52<00:09,  4.65s/it] 92%|#########2| 23/25 [01:52<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.20s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.20s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.65s/it] 32%|###2      | 8/25 [00:37<01:19,  4.65s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.79s/it] 36%|###6      | 9/25 [00:45<01:32,  5.79s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.44s/it] 40%|####      | 10/25 [00:50<01:21,  5.44s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.20s/it] 44%|####4     | 11/25 [00:54<01:12,  5.20s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.03s/it] 48%|####8     | 12/25 [00:59<01:05,  5.03s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.74s/it] 64%|######4   | 16/25 [01:18<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.67s/it] 84%|########4 | 21/25 [01:41<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.45s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.45s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.65s/it]  8%|8         | 2/25 [00:09<01:47,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.67s/it] 28%|##8       | 7/25 [00:32<01:23,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.68s/it] 36%|###6      | 9/25 [00:45<01:30,  5.68s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.36s/it] 40%|####      | 10/25 [00:49<01:20,  5.36s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.14s/it] 44%|####4     | 11/25 [00:54<01:12,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  5.00s/it] 48%|####8     | 12/25 [00:59<01:04,  5.00s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.27s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.27s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.68s/it] 36%|###6      | 9/25 [00:45<01:30,  5.68s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.36s/it] 40%|####      | 10/25 [00:49<01:20,  5.36s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.14s/it] 44%|####4     | 11/25 [00:54<01:12,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  5.00s/it] 48%|####8     | 12/25 [00:59<01:04,  5.00s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.18s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.18s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  36%|###5      | 1250/3500 [1:06:59<1:24:49,  2.26s/it, lr: 2.0e-04 loss: 7.462e-02]wan_dewa:  36%|###5      | 1250/3500 [1:06:59<1:24:49,  2.26s/it, lr: 2.0e-04 loss: 7.462e-02]wan_dewa:  36%|###5      | 1251/3500 [1:06:59<1:21:03,  2.16s/it, lr: 2.0e-04 loss: 7.462e-02]wan_dewa:  36%|###5      | 1251/3500 [1:06:59<1:21:03,  2.16s/it, lr: 2.0e-04 loss: 7.462e-02]wan_dewa:  36%|###5      | 1251/3500 [1:07:01<1:21:03,  2.16s/it, lr: 2.0e-04 loss: 2.503e-02]wan_dewa:  36%|###5      | 1251/3500 [1:07:01<1:21:03,  2.16s/it, lr: 2.0e-04 loss: 2.503e-02]wan_dewa:  36%|###5      | 1252/3500 [1:07:01<1:22:16,  2.20s/it, lr: 2.0e-04 loss: 2.503e-02]wan_dewa:  36%|###5      | 1252/3500 [1:07:01<1:22:16,  2.20s/it, lr: 2.0e-04 loss: 2.503e-02]wan_dewa:  36%|###5      | 1252/3500 [1:07:03<1:22:16,  2.20s/it, lr: 2.0e-04 loss: 1.322e-01]wan_dewa:  36%|###5      | 1252/3500 [1:07:03<1:22:16,  2.20s/it, lr: 2.0e-04 loss: 1.322e-01]wan_dewa:  36%|###5      | 1253/3500 [1:07:03<1:23:10,  2.22s/it, lr: 2.0e-04 loss: 1.322e-01]wan_dewa:  36%|###5      | 1253/3500 [1:07:03<1:23:10,  2.22s/it, lr: 2.0e-04 loss: 1.322e-01]wan_dewa:  36%|###5      | 1253/3500 [1:07:06<1:23:10,  2.22s/it, lr: 2.0e-04 loss: 1.368e-01]wan_dewa:  36%|###5      | 1253/3500 [1:07:06<1:23:10,  2.22s/it, lr: 2.0e-04 loss: 1.368e-01]wan_dewa:  36%|###5      | 1254/3500 [1:07:06<1:23:54,  2.24s/it, lr: 2.0e-04 loss: 1.368e-01]wan_dewa:  36%|###5      | 1254/3500 [1:07:06<1:23:54,  2.24s/it, lr: 2.0e-04 loss: 1.368e-01]wan_dewa:  36%|###5      | 1254/3500 [1:07:08<1:23:54,  2.24s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  36%|###5      | 1254/3500 [1:07:08<1:23:54,  2.24s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  36%|###5      | 1255/3500 [1:07:08<1:26:15,  2.31s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  36%|###5      | 1255/3500 [1:07:08<1:26:15,  2.31s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  36%|###5      | 1255/3500 [1:07:10<1:26:15,  2.31s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:  36%|###5      | 1255/3500 [1:07:10<1:26:15,  2.31s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:  36%|###5      | 1256/3500 [1:07:10<1:26:10,  2.30s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:  36%|###5      | 1256/3500 [1:07:10<1:26:10,  2.30s/it, lr: 2.0e-04 loss: 8.563e-02]wan_dewa:  36%|###5      | 1256/3500 [1:07:13<1:26:10,  2.30s/it, lr: 2.0e-04 loss: 1.299e-01]wan_dewa:  36%|###5      | 1256/3500 [1:07:13<1:26:10,  2.30s/it, lr: 2.0e-04 loss: 1.299e-01]wan_dewa:  36%|###5      | 1257/3500 [1:07:13<1:26:05,  2.30s/it, lr: 2.0e-04 loss: 1.299e-01]wan_dewa:  36%|###5      | 1257/3500 [1:07:13<1:26:05,  2.30s/it, lr: 2.0e-04 loss: 1.299e-01]wan_dewa:  36%|###5      | 1257/3500 [1:07:15<1:26:05,  2.30s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  36%|###5      | 1257/3500 [1:07:15<1:26:05,  2.30s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  36%|###5      | 1258/3500 [1:07:15<1:26:03,  2.30s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  36%|###5      | 1258/3500 [1:07:15<1:26:03,  2.30s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  36%|###5      | 1258/3500 [1:07:17<1:26:03,  2.30s/it, lr: 2.0e-04 loss: 3.232e-01]wan_dewa:  36%|###5      | 1258/3500 [1:07:17<1:26:03,  2.30s/it, lr: 2.0e-04 loss: 3.232e-01]wan_dewa:  36%|###5      | 1259/3500 [1:07:17<1:25:58,  2.30s/it, lr: 2.0e-04 loss: 3.232e-01]wan_dewa:  36%|###5      | 1259/3500 [1:07:17<1:25:58,  2.30s/it, lr: 2.0e-04 loss: 3.232e-01]wan_dewa:  36%|###5      | 1259/3500 [1:07:23<1:25:58,  2.30s/it, lr: 2.0e-04 loss: 5.398e-02]wan_dewa:  36%|###5      | 1259/3500 [1:07:23<1:25:58,  2.30s/it, lr: 2.0e-04 loss: 5.398e-02]wan_dewa:  36%|###6      | 1260/3500 [1:07:25<1:25:56,  2.30s/it, lr: 2.0e-04 loss: 5.710e-02]wan_dewa:  36%|###6      | 1260/3500 [1:07:25<1:25:56,  2.30s/it, lr: 2.0e-04 loss: 5.710e-02]wan_dewa:  36%|###6      | 1261/3500 [1:07:25<1:06:11,  1.77s/it, lr: 2.0e-04 loss: 5.710e-02]wan_dewa:  36%|###6      | 1261/3500 [1:07:25<1:06:11,  1.77s/it, lr: 2.0e-04 loss: 5.710e-02]wan_dewa:  36%|###6      | 1261/3500 [1:07:28<1:06:11,  1.77s/it, lr: 2.0e-04 loss: 3.937e-02]wan_dewa:  36%|###6      | 1261/3500 [1:07:28<1:06:11,  1.77s/it, lr: 2.0e-04 loss: 3.937e-02]wan_dewa:  36%|###6      | 1262/3500 [1:07:28<1:10:56,  1.90s/it, lr: 2.0e-04 loss: 3.937e-02]wan_dewa:  36%|###6      | 1262/3500 [1:07:28<1:10:56,  1.90s/it, lr: 2.0e-04 loss: 3.937e-02]wan_dewa:  36%|###6      | 1262/3500 [1:07:30<1:10:56,  1.90s/it, lr: 2.0e-04 loss: 5.214e-02]wan_dewa:  36%|###6      | 1262/3500 [1:07:30<1:10:56,  1.90s/it, lr: 2.0e-04 loss: 5.214e-02]wan_dewa:  36%|###6      | 1263/3500 [1:07:30<1:14:43,  2.00s/it, lr: 2.0e-04 loss: 5.214e-02]wan_dewa:  36%|###6      | 1263/3500 [1:07:30<1:14:43,  2.00s/it, lr: 2.0e-04 loss: 5.214e-02]wan_dewa:  36%|###6      | 1263/3500 [1:07:32<1:14:43,  2.00s/it, lr: 2.0e-04 loss: 3.089e-02]wan_dewa:  36%|###6      | 1263/3500 [1:07:32<1:14:43,  2.00s/it, lr: 2.0e-04 loss: 3.089e-02]wan_dewa:  36%|###6      | 1264/3500 [1:07:32<1:17:37,  2.08s/it, lr: 2.0e-04 loss: 3.089e-02]wan_dewa:  36%|###6      | 1264/3500 [1:07:32<1:17:37,  2.08s/it, lr: 2.0e-04 loss: 3.089e-02]wan_dewa:  36%|###6      | 1264/3500 [1:07:35<1:17:37,  2.08s/it, lr: 2.0e-04 loss: 3.853e-02]wan_dewa:  36%|###6      | 1264/3500 [1:07:35<1:17:37,  2.08s/it, lr: 2.0e-04 loss: 3.853e-02]wan_dewa:  36%|###6      | 1265/3500 [1:07:35<1:19:48,  2.14s/it, lr: 2.0e-04 loss: 3.853e-02]wan_dewa:  36%|###6      | 1265/3500 [1:07:35<1:19:48,  2.14s/it, lr: 2.0e-04 loss: 3.853e-02]wan_dewa:  36%|###6      | 1265/3500 [1:07:37<1:19:48,  2.14s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  36%|###6      | 1265/3500 [1:07:37<1:19:48,  2.14s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  36%|###6      | 1266/3500 [1:07:37<1:23:15,  2.24s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  36%|###6      | 1266/3500 [1:07:37<1:23:15,  2.24s/it, lr: 2.0e-04 loss: 5.780e-02]wan_dewa:  36%|###6      | 1266/3500 [1:07:39<1:23:15,  2.24s/it, lr: 2.0e-04 loss: 5.143e-02]wan_dewa:  36%|###6      | 1266/3500 [1:07:39<1:23:15,  2.24s/it, lr: 2.0e-04 loss: 5.143e-02]wan_dewa:  36%|###6      | 1267/3500 [1:07:39<1:23:53,  2.25s/it, lr: 2.0e-04 loss: 5.143e-02]wan_dewa:  36%|###6      | 1267/3500 [1:07:39<1:23:53,  2.25s/it, lr: 2.0e-04 loss: 5.143e-02]wan_dewa:  36%|###6      | 1267/3500 [1:07:42<1:23:53,  2.25s/it, lr: 2.0e-04 loss: 4.472e-02]wan_dewa:  36%|###6      | 1267/3500 [1:07:42<1:23:53,  2.25s/it, lr: 2.0e-04 loss: 4.472e-02]wan_dewa:  36%|###6      | 1268/3500 [1:07:42<1:24:24,  2.27s/it, lr: 2.0e-04 loss: 4.472e-02]wan_dewa:  36%|###6      | 1268/3500 [1:07:42<1:24:24,  2.27s/it, lr: 2.0e-04 loss: 4.472e-02]wan_dewa:  36%|###6      | 1268/3500 [1:07:44<1:24:24,  2.27s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  36%|###6      | 1268/3500 [1:07:44<1:24:24,  2.27s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  36%|###6      | 1269/3500 [1:07:44<1:24:44,  2.28s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  36%|###6      | 1269/3500 [1:07:44<1:24:44,  2.28s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  36%|###6      | 1269/3500 [1:07:49<1:24:44,  2.28s/it, lr: 2.0e-04 loss: 9.692e-02]wan_dewa:  36%|###6      | 1269/3500 [1:07:49<1:24:44,  2.28s/it, lr: 2.0e-04 loss: 9.692e-02]wan_dewa:  36%|###6      | 1270/3500 [1:07:52<1:24:41,  2.28s/it, lr: 2.0e-04 loss: 9.317e-02]wan_dewa:  36%|###6      | 1270/3500 [1:07:52<1:24:41,  2.28s/it, lr: 2.0e-04 loss: 9.317e-02]wan_dewa:  36%|###6      | 1271/3500 [1:07:52<1:07:06,  1.81s/it, lr: 2.0e-04 loss: 9.317e-02]wan_dewa:  36%|###6      | 1271/3500 [1:07:52<1:07:06,  1.81s/it, lr: 2.0e-04 loss: 9.317e-02]wan_dewa:  36%|###6      | 1271/3500 [1:07:54<1:07:06,  1.81s/it, lr: 2.0e-04 loss: 1.114e-01]wan_dewa:  36%|###6      | 1271/3500 [1:07:54<1:07:06,  1.81s/it, lr: 2.0e-04 loss: 1.114e-01]wan_dewa:  36%|###6      | 1272/3500 [1:07:54<1:11:35,  1.93s/it, lr: 2.0e-04 loss: 1.114e-01]wan_dewa:  36%|###6      | 1272/3500 [1:07:54<1:11:35,  1.93s/it, lr: 2.0e-04 loss: 1.114e-01]wan_dewa:  36%|###6      | 1272/3500 [1:07:56<1:11:35,  1.93s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  36%|###6      | 1272/3500 [1:07:56<1:11:35,  1.93s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  36%|###6      | 1273/3500 [1:07:56<1:15:08,  2.02s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  36%|###6      | 1273/3500 [1:07:56<1:15:08,  2.02s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  36%|###6      | 1273/3500 [1:07:59<1:15:08,  2.02s/it, lr: 2.0e-04 loss: 1.179e-01]wan_dewa:  36%|###6      | 1273/3500 [1:07:59<1:15:08,  2.02s/it, lr: 2.0e-04 loss: 1.179e-01]wan_dewa:  36%|###6      | 1274/3500 [1:07:59<1:17:53,  2.10s/it, lr: 2.0e-04 loss: 1.179e-01]wan_dewa:  36%|###6      | 1274/3500 [1:07:59<1:17:53,  2.10s/it, lr: 2.0e-04 loss: 1.179e-01]wan_dewa:  36%|###6      | 1274/3500 [1:08:04<1:17:53,  2.10s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  36%|###6      | 1274/3500 [1:08:04<1:17:53,  2.10s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  36%|###6      | 1275/3500 [1:08:04<1:20:11,  2.16s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  36%|###6      | 1275/3500 [1:08:04<1:20:11,  2.16s/it, lr: 2.0e-04 loss: 3.980e-02]wan_dewa:  36%|###6      | 1275/3500 [1:08:06<1:20:11,  2.16s/it, lr: 2.0e-04 loss: 7.068e-02]wan_dewa:  36%|###6      | 1275/3500 [1:08:06<1:20:11,  2.16s/it, lr: 2.0e-04 loss: 7.068e-02]wan_dewa:  36%|###6      | 1276/3500 [1:08:06<1:25:13,  2.30s/it, lr: 2.0e-04 loss: 7.068e-02]wan_dewa:  36%|###6      | 1276/3500 [1:08:06<1:25:13,  2.30s/it, lr: 2.0e-04 loss: 7.068e-02]wan_dewa:  36%|###6      | 1276/3500 [1:08:09<1:25:13,  2.30s/it, lr: 2.0e-04 loss: 2.206e-01]wan_dewa:  36%|###6      | 1276/3500 [1:08:09<1:25:13,  2.30s/it, lr: 2.0e-04 loss: 2.206e-01]wan_dewa:  36%|###6      | 1277/3500 [1:08:09<1:25:10,  2.30s/it, lr: 2.0e-04 loss: 2.206e-01]wan_dewa:  36%|###6      | 1277/3500 [1:08:09<1:25:10,  2.30s/it, lr: 2.0e-04 loss: 2.206e-01]wan_dewa:  36%|###6      | 1277/3500 [1:08:11<1:25:10,  2.30s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  36%|###6      | 1277/3500 [1:08:11<1:25:10,  2.30s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  37%|###6      | 1278/3500 [1:08:11<1:25:05,  2.30s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  37%|###6      | 1278/3500 [1:08:11<1:25:05,  2.30s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  37%|###6      | 1278/3500 [1:08:13<1:25:05,  2.30s/it, lr: 2.0e-04 loss: 8.674e-02]wan_dewa:  37%|###6      | 1278/3500 [1:08:13<1:25:05,  2.30s/it, lr: 2.0e-04 loss: 8.674e-02]wan_dewa:  37%|###6      | 1279/3500 [1:08:13<1:25:02,  2.30s/it, lr: 2.0e-04 loss: 8.674e-02]wan_dewa:  37%|###6      | 1279/3500 [1:08:13<1:25:02,  2.30s/it, lr: 2.0e-04 loss: 8.674e-02]wan_dewa:  37%|###6      | 1279/3500 [1:08:25<1:25:02,  2.30s/it, lr: 2.0e-04 loss: 4.537e-02]wan_dewa:  37%|###6      | 1279/3500 [1:08:25<1:25:02,  2.30s/it, lr: 2.0e-04 loss: 4.537e-02]wan_dewa:  37%|###6      | 1280/3500 [1:08:27<1:24:59,  2.30s/it, lr: 2.0e-04 loss: 3.616e-02]wan_dewa:  37%|###6      | 1280/3500 [1:08:27<1:24:59,  2.30s/it, lr: 2.0e-04 loss: 3.616e-02]wan_dewa:  37%|###6      | 1281/3500 [1:08:27<1:07:19,  1.82s/it, lr: 2.0e-04 loss: 3.616e-02]wan_dewa:  37%|###6      | 1281/3500 [1:08:27<1:07:19,  1.82s/it, lr: 2.0e-04 loss: 3.616e-02]wan_dewa:  37%|###6      | 1281/3500 [1:08:29<1:07:19,  1.82s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  37%|###6      | 1281/3500 [1:08:29<1:07:19,  1.82s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  37%|###6      | 1282/3500 [1:08:29<1:11:32,  1.94s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  37%|###6      | 1282/3500 [1:08:29<1:11:32,  1.94s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  37%|###6      | 1282/3500 [1:08:32<1:11:32,  1.94s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  37%|###6      | 1282/3500 [1:08:32<1:11:32,  1.94s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  37%|###6      | 1283/3500 [1:08:32<1:14:52,  2.03s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  37%|###6      | 1283/3500 [1:08:32<1:14:52,  2.03s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  37%|###6      | 1283/3500 [1:08:34<1:14:52,  2.03s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  37%|###6      | 1283/3500 [1:08:34<1:14:52,  2.03s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  37%|###6      | 1284/3500 [1:08:34<1:17:26,  2.10s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  37%|###6      | 1284/3500 [1:08:34<1:17:26,  2.10s/it, lr: 2.0e-04 loss: 6.838e-02]wan_dewa:  37%|###6      | 1284/3500 [1:08:36<1:17:26,  2.10s/it, lr: 2.0e-04 loss: 2.874e-02]wan_dewa:  37%|###6      | 1284/3500 [1:08:36<1:17:26,  2.10s/it, lr: 2.0e-04 loss: 2.874e-02]wan_dewa:  37%|###6      | 1285/3500 [1:08:36<1:19:26,  2.15s/it, lr: 2.0e-04 loss: 2.874e-02]wan_dewa:  37%|###6      | 1285/3500 [1:08:36<1:19:26,  2.15s/it, lr: 2.0e-04 loss: 2.874e-02]wan_dewa:  37%|###6      | 1285/3500 [1:08:39<1:19:26,  2.15s/it, lr: 2.0e-04 loss: 4.922e-02]wan_dewa:  37%|###6      | 1285/3500 [1:08:39<1:19:26,  2.15s/it, lr: 2.0e-04 loss: 4.922e-02]wan_dewa:  37%|###6      | 1286/3500 [1:08:39<1:20:48,  2.19s/it, lr: 2.0e-04 loss: 4.922e-02]wan_dewa:  37%|###6      | 1286/3500 [1:08:39<1:20:48,  2.19s/it, lr: 2.0e-04 loss: 4.922e-02]wan_dewa:  37%|###6      | 1286/3500 [1:08:41<1:20:48,  2.19s/it, lr: 2.0e-04 loss: 4.757e-02]wan_dewa:  37%|###6      | 1286/3500 [1:08:41<1:20:48,  2.19s/it, lr: 2.0e-04 loss: 4.757e-02]wan_dewa:  37%|###6      | 1287/3500 [1:08:41<1:24:05,  2.28s/it, lr: 2.0e-04 loss: 4.757e-02]wan_dewa:  37%|###6      | 1287/3500 [1:08:41<1:24:05,  2.28s/it, lr: 2.0e-04 loss: 4.757e-02]wan_dewa:  37%|###6      | 1287/3500 [1:08:43<1:24:05,  2.28s/it, lr: 2.0e-04 loss: 3.251e-02]wan_dewa:  37%|###6      | 1287/3500 [1:08:43<1:24:05,  2.28s/it, lr: 2.0e-04 loss: 3.251e-02]wan_dewa:  37%|###6      | 1288/3500 [1:08:43<1:24:08,  2.28s/it, lr: 2.0e-04 loss: 3.251e-02]wan_dewa:  37%|###6      | 1288/3500 [1:08:43<1:24:08,  2.28s/it, lr: 2.0e-04 loss: 3.251e-02]wan_dewa:  37%|###6      | 1288/3500 [1:08:46<1:24:08,  2.28s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  37%|###6      | 1288/3500 [1:08:46<1:24:08,  2.28s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  37%|###6      | 1289/3500 [1:08:46<1:24:12,  2.29s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  37%|###6      | 1289/3500 [1:08:46<1:24:12,  2.29s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  37%|###6      | 1289/3500 [1:08:57<1:24:12,  2.29s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  37%|###6      | 1289/3500 [1:08:57<1:24:12,  2.29s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  37%|###6      | 1290/3500 [1:08:59<1:24:10,  2.29s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  37%|###6      | 1290/3500 [1:08:59<1:24:10,  2.29s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  37%|###6      | 1291/3500 [1:08:59<1:04:51,  1.76s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  37%|###6      | 1291/3500 [1:08:59<1:04:51,  1.76s/it, lr: 2.0e-04 loss: 6.499e-02]wan_dewa:  37%|###6      | 1291/3500 [1:09:02<1:04:51,  1.76s/it, lr: 2.0e-04 loss: 1.625e-01]wan_dewa:  37%|###6      | 1291/3500 [1:09:02<1:04:51,  1.76s/it, lr: 2.0e-04 loss: 1.625e-01]wan_dewa:  37%|###6      | 1292/3500 [1:09:02<1:11:33,  1.94s/it, lr: 2.0e-04 loss: 1.625e-01]wan_dewa:  37%|###6      | 1292/3500 [1:09:02<1:11:33,  1.94s/it, lr: 2.0e-04 loss: 1.625e-01]wan_dewa:  37%|###6      | 1292/3500 [1:09:04<1:11:33,  1.94s/it, lr: 2.0e-04 loss: 5.247e-02]wan_dewa:  37%|###6      | 1292/3500 [1:09:04<1:11:33,  1.94s/it, lr: 2.0e-04 loss: 5.247e-02]wan_dewa:  37%|###6      | 1293/3500 [1:09:04<1:14:42,  2.03s/it, lr: 2.0e-04 loss: 5.247e-02]wan_dewa:  37%|###6      | 1293/3500 [1:09:04<1:14:42,  2.03s/it, lr: 2.0e-04 loss: 5.247e-02]wan_dewa:  37%|###6      | 1293/3500 [1:09:06<1:14:42,  2.03s/it, lr: 2.0e-04 loss: 1.105e-01]wan_dewa:  37%|###6      | 1293/3500 [1:09:06<1:14:42,  2.03s/it, lr: 2.0e-04 loss: 1.105e-01]wan_dewa:  37%|###6      | 1294/3500 [1:09:06<1:17:09,  2.10s/it, lr: 2.0e-04 loss: 1.105e-01]wan_dewa:  37%|###6      | 1294/3500 [1:09:06<1:17:09,  2.10s/it, lr: 2.0e-04 loss: 1.105e-01]wan_dewa:  37%|###6      | 1294/3500 [1:09:09<1:17:09,  2.10s/it, lr: 2.0e-04 loss: 2.134e-01]wan_dewa:  37%|###6      | 1294/3500 [1:09:09<1:17:09,  2.10s/it, lr: 2.0e-04 loss: 2.134e-01]wan_dewa:  37%|###7      | 1295/3500 [1:09:09<1:18:58,  2.15s/it, lr: 2.0e-04 loss: 2.134e-01]wan_dewa:  37%|###7      | 1295/3500 [1:09:09<1:18:58,  2.15s/it, lr: 2.0e-04 loss: 2.134e-01]wan_dewa:  37%|###7      | 1295/3500 [1:09:11<1:18:58,  2.15s/it, lr: 2.0e-04 loss: 8.832e-02]wan_dewa:  37%|###7      | 1295/3500 [1:09:11<1:18:58,  2.15s/it, lr: 2.0e-04 loss: 8.832e-02]wan_dewa:  37%|###7      | 1296/3500 [1:09:11<1:20:20,  2.19s/it, lr: 2.0e-04 loss: 8.832e-02]wan_dewa:  37%|###7      | 1296/3500 [1:09:11<1:20:20,  2.19s/it, lr: 2.0e-04 loss: 8.832e-02]wan_dewa:  37%|###7      | 1296/3500 [1:09:13<1:20:20,  2.19s/it, lr: 2.0e-04 loss: 1.949e-01]wan_dewa:  37%|###7      | 1296/3500 [1:09:13<1:20:20,  2.19s/it, lr: 2.0e-04 loss: 1.949e-01]wan_dewa:  37%|###7      | 1297/3500 [1:09:13<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 1.949e-01]wan_dewa:  37%|###7      | 1297/3500 [1:09:13<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 1.949e-01]wan_dewa:  37%|###7      | 1297/3500 [1:09:16<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 7.080e-02]wan_dewa:  37%|###7      | 1297/3500 [1:09:16<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 7.080e-02]wan_dewa:  37%|###7      | 1298/3500 [1:09:16<1:23:36,  2.28s/it, lr: 2.0e-04 loss: 7.080e-02]wan_dewa:  37%|###7      | 1298/3500 [1:09:16<1:23:36,  2.28s/it, lr: 2.0e-04 loss: 7.080e-02]wan_dewa:  37%|###7      | 1298/3500 [1:09:18<1:23:36,  2.28s/it, lr: 2.0e-04 loss: 6.210e-02]wan_dewa:  37%|###7      | 1298/3500 [1:09:18<1:23:36,  2.28s/it, lr: 2.0e-04 loss: 6.210e-02]wan_dewa:  37%|###7      | 1299/3500 [1:09:18<1:23:38,  2.28s/it, lr: 2.0e-04 loss: 6.210e-02]wan_dewa:  37%|###7      | 1299/3500 [1:09:18<1:23:38,  2.28s/it, lr: 2.0e-04 loss: 6.210e-02]wan_dewa:  37%|###7      | 1299/3500 [1:09:31<1:23:38,  2.28s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  37%|###7      | 1299/3500 [1:09:31<1:23:38,  2.28s/it, lr: 2.0e-04 loss: 5.259e-02]wan_dewa:  37%|###7      | 1300/3500 [1:09:33<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  37%|###7      | 1300/3500 [1:09:33<1:23:35,  2.28s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  37%|###7      | 1301/3500 [1:09:33<1:04:30,  1.76s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  37%|###7      | 1301/3500 [1:09:33<1:04:30,  1.76s/it, lr: 2.0e-04 loss: 6.319e-02]wan_dewa:  37%|###7      | 1301/3500 [1:09:36<1:04:30,  1.76s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  37%|###7      | 1301/3500 [1:09:36<1:04:30,  1.76s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  37%|###7      | 1302/3500 [1:09:36<1:11:54,  1.96s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  37%|###7      | 1302/3500 [1:09:36<1:11:54,  1.96s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  37%|###7      | 1302/3500 [1:09:38<1:11:54,  1.96s/it, lr: 2.0e-04 loss: 6.288e-02]wan_dewa:  37%|###7      | 1302/3500 [1:09:38<1:11:54,  1.96s/it, lr: 2.0e-04 loss: 6.288e-02]wan_dewa:  37%|###7      | 1303/3500 [1:09:38<1:14:50,  2.04s/it, lr: 2.0e-04 loss: 6.288e-02]wan_dewa:  37%|###7      | 1303/3500 [1:09:38<1:14:50,  2.04s/it, lr: 2.0e-04 loss: 6.288e-02]wan_dewa:  37%|###7      | 1303/3500 [1:09:40<1:14:50,  2.04s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  37%|###7      | 1303/3500 [1:09:40<1:14:50,  2.04s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  37%|###7      | 1304/3500 [1:09:40<1:17:07,  2.11s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  37%|###7      | 1304/3500 [1:09:40<1:17:07,  2.11s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  37%|###7      | 1304/3500 [1:09:42<1:17:07,  2.11s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  37%|###7      | 1304/3500 [1:09:42<1:17:07,  2.11s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  37%|###7      | 1305/3500 [1:09:42<1:18:49,  2.15s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  37%|###7      | 1305/3500 [1:09:42<1:18:49,  2.15s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  37%|###7      | 1305/3500 [1:09:45<1:18:49,  2.15s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  37%|###7      | 1305/3500 [1:09:45<1:18:49,  2.15s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  37%|###7      | 1306/3500 [1:09:45<1:20:05,  2.19s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  37%|###7      | 1306/3500 [1:09:45<1:20:05,  2.19s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  37%|###7      | 1306/3500 [1:09:47<1:20:05,  2.19s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  37%|###7      | 1306/3500 [1:09:47<1:20:05,  2.19s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  37%|###7      | 1307/3500 [1:09:47<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  37%|###7      | 1307/3500 [1:09:47<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  37%|###7      | 1307/3500 [1:09:49<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 7.865e-02]wan_dewa:  37%|###7      | 1307/3500 [1:09:49<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 7.865e-02]wan_dewa:  37%|###7      | 1308/3500 [1:09:49<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 7.865e-02]wan_dewa:  37%|###7      | 1308/3500 [1:09:49<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 7.865e-02]wan_dewa:  37%|###7      | 1308/3500 [1:09:52<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  37%|###7      | 1308/3500 [1:09:52<1:23:06,  2.27s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  37%|###7      | 1309/3500 [1:09:52<1:23:05,  2.28s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  37%|###7      | 1309/3500 [1:09:52<1:23:05,  2.28s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  37%|###7      | 1309/3500 [1:10:03<1:23:05,  2.28s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  37%|###7      | 1309/3500 [1:10:03<1:23:05,  2.28s/it, lr: 2.0e-04 loss: 7.187e-02]wan_dewa:  37%|###7      | 1310/3500 [1:10:05<1:23:03,  2.28s/it, lr: 2.0e-04 loss: 3.595e-02]wan_dewa:  37%|###7      | 1310/3500 [1:10:05<1:23:03,  2.28s/it, lr: 2.0e-04 loss: 3.595e-02]wan_dewa:  37%|###7      | 1311/3500 [1:10:05<1:04:06,  1.76s/it, lr: 2.0e-04 loss: 3.595e-02]wan_dewa:  37%|###7      | 1311/3500 [1:10:05<1:04:06,  1.76s/it, lr: 2.0e-04 loss: 3.595e-02]wan_dewa:  37%|###7      | 1311/3500 [1:10:08<1:04:06,  1.76s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  37%|###7      | 1311/3500 [1:10:08<1:04:06,  1.76s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  37%|###7      | 1312/3500 [1:10:08<1:10:22,  1.93s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  37%|###7      | 1312/3500 [1:10:08<1:10:22,  1.93s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  37%|###7      | 1312/3500 [1:10:10<1:10:22,  1.93s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:  37%|###7      | 1312/3500 [1:10:10<1:10:22,  1.93s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:  38%|###7      | 1313/3500 [1:10:10<1:13:35,  2.02s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:  38%|###7      | 1313/3500 [1:10:10<1:13:35,  2.02s/it, lr: 2.0e-04 loss: 9.863e-02]wan_dewa:  38%|###7      | 1313/3500 [1:10:12<1:13:35,  2.02s/it, lr: 2.0e-04 loss: 6.215e-02]wan_dewa:  38%|###7      | 1313/3500 [1:10:12<1:13:35,  2.02s/it, lr: 2.0e-04 loss: 6.215e-02]wan_dewa:  38%|###7      | 1314/3500 [1:10:12<1:16:04,  2.09s/it, lr: 2.0e-04 loss: 6.215e-02]wan_dewa:  38%|###7      | 1314/3500 [1:10:12<1:16:04,  2.09s/it, lr: 2.0e-04 loss: 6.215e-02]wan_dewa:  38%|###7      | 1314/3500 [1:10:15<1:16:04,  2.09s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  38%|###7      | 1314/3500 [1:10:15<1:16:04,  2.09s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  38%|###7      | 1315/3500 [1:10:15<1:17:56,  2.14s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  38%|###7      | 1315/3500 [1:10:15<1:17:56,  2.14s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  38%|###7      | 1315/3500 [1:10:17<1:17:56,  2.14s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  38%|###7      | 1315/3500 [1:10:17<1:17:56,  2.14s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  38%|###7      | 1316/3500 [1:10:17<1:19:20,  2.18s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  38%|###7      | 1316/3500 [1:10:17<1:19:20,  2.18s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  38%|###7      | 1316/3500 [1:10:19<1:19:20,  2.18s/it, lr: 2.0e-04 loss: 4.795e-02]wan_dewa:  38%|###7      | 1316/3500 [1:10:19<1:19:20,  2.18s/it, lr: 2.0e-04 loss: 4.795e-02]wan_dewa:  38%|###7      | 1317/3500 [1:10:19<1:20:22,  2.21s/it, lr: 2.0e-04 loss: 4.795e-02]wan_dewa:  38%|###7      | 1317/3500 [1:10:19<1:20:22,  2.21s/it, lr: 2.0e-04 loss: 4.795e-02]wan_dewa:  38%|###7      | 1317/3500 [1:10:22<1:20:22,  2.21s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:  38%|###7      | 1317/3500 [1:10:22<1:20:22,  2.21s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:  38%|###7      | 1318/3500 [1:10:22<1:23:00,  2.28s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:  38%|###7      | 1318/3500 [1:10:22<1:23:00,  2.28s/it, lr: 2.0e-04 loss: 5.680e-02]wan_dewa:  38%|###7      | 1318/3500 [1:10:24<1:23:00,  2.28s/it, lr: 2.0e-04 loss: 2.942e-01]wan_dewa:  38%|###7      | 1318/3500 [1:10:24<1:23:00,  2.28s/it, lr: 2.0e-04 loss: 2.942e-01]wan_dewa:  38%|###7      | 1319/3500 [1:10:24<1:22:57,  2.28s/it, lr: 2.0e-04 loss: 2.942e-01]wan_dewa:  38%|###7      | 1319/3500 [1:10:24<1:22:57,  2.28s/it, lr: 2.0e-04 loss: 2.942e-01]wan_dewa:  38%|###7      | 1319/3500 [1:10:32<1:22:57,  2.28s/it, lr: 2.0e-04 loss: 7.128e-02]wan_dewa:  38%|###7      | 1319/3500 [1:10:32<1:22:57,  2.28s/it, lr: 2.0e-04 loss: 7.128e-02]wan_dewa:  38%|###7      | 1320/3500 [1:10:34<1:22:54,  2.28s/it, lr: 2.0e-04 loss: 2.885e-02]wan_dewa:  38%|###7      | 1320/3500 [1:10:34<1:22:54,  2.28s/it, lr: 2.0e-04 loss: 2.885e-02]wan_dewa:  38%|###7      | 1321/3500 [1:10:34<1:03:52,  1.76s/it, lr: 2.0e-04 loss: 2.885e-02]wan_dewa:  38%|###7      | 1321/3500 [1:10:34<1:03:52,  1.76s/it, lr: 2.0e-04 loss: 2.885e-02]wan_dewa:  38%|###7      | 1321/3500 [1:10:37<1:03:52,  1.76s/it, lr: 2.0e-04 loss: 2.638e-02]wan_dewa:  38%|###7      | 1321/3500 [1:10:37<1:03:52,  1.76s/it, lr: 2.0e-04 loss: 2.638e-02]wan_dewa:  38%|###7      | 1322/3500 [1:10:37<1:08:28,  1.89s/it, lr: 2.0e-04 loss: 2.638e-02]wan_dewa:  38%|###7      | 1322/3500 [1:10:37<1:08:28,  1.89s/it, lr: 2.0e-04 loss: 2.638e-02]wan_dewa:  38%|###7      | 1322/3500 [1:10:39<1:08:28,  1.89s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  38%|###7      | 1322/3500 [1:10:39<1:08:28,  1.89s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  38%|###7      | 1323/3500 [1:10:39<1:13:56,  2.04s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  38%|###7      | 1323/3500 [1:10:39<1:13:56,  2.04s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  38%|###7      | 1323/3500 [1:10:41<1:13:56,  2.04s/it, lr: 2.0e-04 loss: 5.518e-02]wan_dewa:  38%|###7      | 1323/3500 [1:10:41<1:13:56,  2.04s/it, lr: 2.0e-04 loss: 5.518e-02]wan_dewa:  38%|###7      | 1324/3500 [1:10:41<1:16:14,  2.10s/it, lr: 2.0e-04 loss: 5.518e-02]wan_dewa:  38%|###7      | 1324/3500 [1:10:41<1:16:14,  2.10s/it, lr: 2.0e-04 loss: 5.518e-02]wan_dewa:  38%|###7      | 1324/3500 [1:10:46<1:16:14,  2.10s/it, lr: 2.0e-04 loss: 6.267e-02]wan_dewa:  38%|###7      | 1324/3500 [1:10:46<1:16:14,  2.10s/it, lr: 2.0e-04 loss: 6.267e-02]wan_dewa:  38%|###7      | 1325/3500 [1:10:46<1:18:14,  2.16s/it, lr: 2.0e-04 loss: 6.267e-02]wan_dewa:  38%|###7      | 1325/3500 [1:10:46<1:18:14,  2.16s/it, lr: 2.0e-04 loss: 6.267e-02]wan_dewa:  38%|###7      | 1325/3500 [1:10:48<1:18:14,  2.16s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  38%|###7      | 1325/3500 [1:10:48<1:18:14,  2.16s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  38%|###7      | 1326/3500 [1:10:48<1:19:25,  2.19s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  38%|###7      | 1326/3500 [1:10:48<1:19:25,  2.19s/it, lr: 2.0e-04 loss: 4.910e-02]wan_dewa:  38%|###7      | 1326/3500 [1:10:50<1:19:25,  2.19s/it, lr: 2.0e-04 loss: 3.662e-02]wan_dewa:  38%|###7      | 1326/3500 [1:10:50<1:19:25,  2.19s/it, lr: 2.0e-04 loss: 3.662e-02]wan_dewa:  38%|###7      | 1327/3500 [1:10:50<1:20:16,  2.22s/it, lr: 2.0e-04 loss: 3.662e-02]wan_dewa:  38%|###7      | 1327/3500 [1:10:50<1:20:16,  2.22s/it, lr: 2.0e-04 loss: 3.662e-02]wan_dewa:  38%|###7      | 1327/3500 [1:10:53<1:20:16,  2.22s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:  38%|###7      | 1327/3500 [1:10:53<1:20:16,  2.22s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:  38%|###7      | 1328/3500 [1:10:53<1:24:28,  2.33s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:  38%|###7      | 1328/3500 [1:10:53<1:24:28,  2.33s/it, lr: 2.0e-04 loss: 5.155e-02]wan_dewa:  38%|###7      | 1328/3500 [1:10:55<1:24:28,  2.33s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  38%|###7      | 1328/3500 [1:10:55<1:24:28,  2.33s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  38%|###7      | 1329/3500 [1:10:55<1:23:50,  2.32s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  38%|###7      | 1329/3500 [1:10:55<1:23:50,  2.32s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  38%|###7      | 1329/3500 [1:11:07<1:23:50,  2.32s/it, lr: 2.0e-04 loss: 7.824e-02]wan_dewa:  38%|###7      | 1329/3500 [1:11:07<1:23:50,  2.32s/it, lr: 2.0e-04 loss: 7.824e-02]wan_dewa:  38%|###8      | 1330/3500 [1:11:09<1:23:48,  2.32s/it, lr: 2.0e-04 loss: 8.620e-02]wan_dewa:  38%|###8      | 1330/3500 [1:11:09<1:23:48,  2.32s/it, lr: 2.0e-04 loss: 8.620e-02]wan_dewa:  38%|###8      | 1331/3500 [1:11:09<1:04:20,  1.78s/it, lr: 2.0e-04 loss: 8.620e-02]wan_dewa:  38%|###8      | 1331/3500 [1:11:09<1:04:20,  1.78s/it, lr: 2.0e-04 loss: 8.620e-02]wan_dewa:  38%|###8      | 1331/3500 [1:11:11<1:04:20,  1.78s/it, lr: 2.0e-04 loss: 6.583e-02]wan_dewa:  38%|###8      | 1331/3500 [1:11:11<1:04:20,  1.78s/it, lr: 2.0e-04 loss: 6.583e-02]wan_dewa:  38%|###8      | 1332/3500 [1:11:11<1:08:44,  1.90s/it, lr: 2.0e-04 loss: 6.583e-02]wan_dewa:  38%|###8      | 1332/3500 [1:11:11<1:08:44,  1.90s/it, lr: 2.0e-04 loss: 6.583e-02]wan_dewa:  38%|###8      | 1332/3500 [1:11:14<1:08:44,  1.90s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  38%|###8      | 1332/3500 [1:11:14<1:08:44,  1.90s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  38%|###8      | 1333/3500 [1:11:14<1:14:09,  2.05s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  38%|###8      | 1333/3500 [1:11:14<1:14:09,  2.05s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  38%|###8      | 1333/3500 [1:11:16<1:14:09,  2.05s/it, lr: 2.0e-04 loss: 5.336e-02]wan_dewa:  38%|###8      | 1333/3500 [1:11:16<1:14:09,  2.05s/it, lr: 2.0e-04 loss: 5.336e-02]wan_dewa:  38%|###8      | 1334/3500 [1:11:16<1:16:14,  2.11s/it, lr: 2.0e-04 loss: 5.336e-02]wan_dewa:  38%|###8      | 1334/3500 [1:11:16<1:16:14,  2.11s/it, lr: 2.0e-04 loss: 5.336e-02]wan_dewa:  38%|###8      | 1334/3500 [1:11:18<1:16:14,  2.11s/it, lr: 2.0e-04 loss: 3.654e-02]wan_dewa:  38%|###8      | 1334/3500 [1:11:18<1:16:14,  2.11s/it, lr: 2.0e-04 loss: 3.654e-02]wan_dewa:  38%|###8      | 1335/3500 [1:11:18<1:17:47,  2.16s/it, lr: 2.0e-04 loss: 3.654e-02]wan_dewa:  38%|###8      | 1335/3500 [1:11:18<1:17:47,  2.16s/it, lr: 2.0e-04 loss: 3.654e-02]wan_dewa:  38%|###8      | 1335/3500 [1:11:20<1:17:47,  2.16s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  38%|###8      | 1335/3500 [1:11:20<1:17:47,  2.16s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  38%|###8      | 1336/3500 [1:11:20<1:18:58,  2.19s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  38%|###8      | 1336/3500 [1:11:20<1:18:58,  2.19s/it, lr: 2.0e-04 loss: 1.071e-01]wan_dewa:  38%|###8      | 1336/3500 [1:11:23<1:18:58,  2.19s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  38%|###8      | 1336/3500 [1:11:23<1:18:58,  2.19s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  38%|###8      | 1337/3500 [1:11:23<1:19:48,  2.21s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  38%|###8      | 1337/3500 [1:11:23<1:19:48,  2.21s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  38%|###8      | 1337/3500 [1:11:25<1:19:48,  2.21s/it, lr: 2.0e-04 loss: 4.078e-02]wan_dewa:  38%|###8      | 1337/3500 [1:11:25<1:19:48,  2.21s/it, lr: 2.0e-04 loss: 4.078e-02]wan_dewa:  38%|###8      | 1338/3500 [1:11:25<1:22:39,  2.29s/it, lr: 2.0e-04 loss: 4.078e-02]wan_dewa:  38%|###8      | 1338/3500 [1:11:25<1:22:39,  2.29s/it, lr: 2.0e-04 loss: 4.078e-02]wan_dewa:  38%|###8      | 1338/3500 [1:11:28<1:22:39,  2.29s/it, lr: 2.0e-04 loss: 8.007e-02]wan_dewa:  38%|###8      | 1338/3500 [1:11:28<1:22:39,  2.29s/it, lr: 2.0e-04 loss: 8.007e-02]wan_dewa:  38%|###8      | 1339/3500 [1:11:28<1:22:24,  2.29s/it, lr: 2.0e-04 loss: 8.007e-02]wan_dewa:  38%|###8      | 1339/3500 [1:11:28<1:22:24,  2.29s/it, lr: 2.0e-04 loss: 8.007e-02]wan_dewa:  38%|###8      | 1339/3500 [1:11:39<1:22:24,  2.29s/it, lr: 2.0e-04 loss: 6.688e-02]wan_dewa:  38%|###8      | 1339/3500 [1:11:39<1:22:24,  2.29s/it, lr: 2.0e-04 loss: 6.688e-02]wan_dewa:  38%|###8      | 1340/3500 [1:11:41<1:22:22,  2.29s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  38%|###8      | 1340/3500 [1:11:41<1:22:22,  2.29s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  38%|###8      | 1341/3500 [1:11:41<1:03:29,  1.76s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  38%|###8      | 1341/3500 [1:11:41<1:03:29,  1.76s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  38%|###8      | 1341/3500 [1:11:43<1:03:29,  1.76s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  38%|###8      | 1341/3500 [1:11:43<1:03:29,  1.76s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  38%|###8      | 1342/3500 [1:11:43<1:08:02,  1.89s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  38%|###8      | 1342/3500 [1:11:43<1:08:02,  1.89s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  38%|###8      | 1342/3500 [1:11:46<1:08:02,  1.89s/it, lr: 2.0e-04 loss: 6.820e-02]wan_dewa:  38%|###8      | 1342/3500 [1:11:46<1:08:02,  1.89s/it, lr: 2.0e-04 loss: 6.820e-02]wan_dewa:  38%|###8      | 1343/3500 [1:11:46<1:13:21,  2.04s/it, lr: 2.0e-04 loss: 6.820e-02]wan_dewa:  38%|###8      | 1343/3500 [1:11:46<1:13:21,  2.04s/it, lr: 2.0e-04 loss: 6.820e-02]wan_dewa:  38%|###8      | 1343/3500 [1:11:48<1:13:21,  2.04s/it, lr: 2.0e-04 loss: 5.015e-02]wan_dewa:  38%|###8      | 1343/3500 [1:11:48<1:13:21,  2.04s/it, lr: 2.0e-04 loss: 5.015e-02]wan_dewa:  38%|###8      | 1344/3500 [1:11:48<1:15:41,  2.11s/it, lr: 2.0e-04 loss: 5.015e-02]wan_dewa:  38%|###8      | 1344/3500 [1:11:48<1:15:41,  2.11s/it, lr: 2.0e-04 loss: 5.015e-02]wan_dewa:  38%|###8      | 1344/3500 [1:11:50<1:15:41,  2.11s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  38%|###8      | 1344/3500 [1:11:50<1:15:41,  2.11s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  38%|###8      | 1345/3500 [1:11:50<1:17:27,  2.16s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  38%|###8      | 1345/3500 [1:11:50<1:17:27,  2.16s/it, lr: 2.0e-04 loss: 5.369e-02]wan_dewa:  38%|###8      | 1345/3500 [1:11:52<1:17:27,  2.16s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  38%|###8      | 1345/3500 [1:11:52<1:17:27,  2.16s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  38%|###8      | 1346/3500 [1:11:52<1:18:42,  2.19s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  38%|###8      | 1346/3500 [1:11:52<1:18:42,  2.19s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  38%|###8      | 1346/3500 [1:11:55<1:18:42,  2.19s/it, lr: 2.0e-04 loss: 1.108e-01]wan_dewa:  38%|###8      | 1346/3500 [1:11:55<1:18:42,  2.19s/it, lr: 2.0e-04 loss: 1.108e-01]wan_dewa:  38%|###8      | 1347/3500 [1:11:55<1:19:37,  2.22s/it, lr: 2.0e-04 loss: 1.108e-01]wan_dewa:  38%|###8      | 1347/3500 [1:11:55<1:19:37,  2.22s/it, lr: 2.0e-04 loss: 1.108e-01]wan_dewa:  38%|###8      | 1347/3500 [1:11:57<1:19:37,  2.22s/it, lr: 2.0e-04 loss: 3.652e-02]wan_dewa:  38%|###8      | 1347/3500 [1:11:57<1:19:37,  2.22s/it, lr: 2.0e-04 loss: 3.652e-02]wan_dewa:  39%|###8      | 1348/3500 [1:11:57<1:20:19,  2.24s/it, lr: 2.0e-04 loss: 3.652e-02]wan_dewa:  39%|###8      | 1348/3500 [1:11:57<1:20:19,  2.24s/it, lr: 2.0e-04 loss: 3.652e-02]wan_dewa:  39%|###8      | 1348/3500 [1:12:00<1:20:19,  2.24s/it, lr: 2.0e-04 loss: 5.515e-02]wan_dewa:  39%|###8      | 1348/3500 [1:12:00<1:20:19,  2.24s/it, lr: 2.0e-04 loss: 5.515e-02]wan_dewa:  39%|###8      | 1349/3500 [1:12:00<1:22:41,  2.31s/it, lr: 2.0e-04 loss: 5.515e-02]wan_dewa:  39%|###8      | 1349/3500 [1:12:00<1:22:41,  2.31s/it, lr: 2.0e-04 loss: 5.515e-02]wan_dewa:  39%|###8      | 1349/3500 [1:12:13<1:22:41,  2.31s/it, lr: 2.0e-04 loss: 4.360e-01]wan_dewa:  39%|###8      | 1349/3500 [1:12:13<1:22:41,  2.31s/it, lr: 2.0e-04 loss: 4.360e-01]wan_dewa:  39%|###8      | 1350/3500 [1:12:15<1:22:38,  2.31s/it, lr: 2.0e-04 loss: 4.732e-02]wan_dewa:  39%|###8      | 1350/3500 [1:12:15<1:22:38,  2.31s/it, lr: 2.0e-04 loss: 4.732e-02]wan_dewa:  39%|###8      | 1351/3500 [1:12:15<1:03:34,  1.78s/it, lr: 2.0e-04 loss: 4.732e-02]wan_dewa:  39%|###8      | 1351/3500 [1:12:15<1:03:34,  1.78s/it, lr: 2.0e-04 loss: 4.732e-02]wan_dewa:  39%|###8      | 1351/3500 [1:12:17<1:03:34,  1.78s/it, lr: 2.0e-04 loss: 1.130e-01]wan_dewa:  39%|###8      | 1351/3500 [1:12:17<1:03:34,  1.78s/it, lr: 2.0e-04 loss: 1.130e-01]wan_dewa:  39%|###8      | 1352/3500 [1:12:17<1:07:57,  1.90s/it, lr: 2.0e-04 loss: 1.130e-01]wan_dewa:  39%|###8      | 1352/3500 [1:12:17<1:07:57,  1.90s/it, lr: 2.0e-04 loss: 1.130e-01]wan_dewa:  39%|###8      | 1352/3500 [1:12:20<1:07:57,  1.90s/it, lr: 2.0e-04 loss: 2.162e-01]wan_dewa:  39%|###8      | 1352/3500 [1:12:20<1:07:57,  1.90s/it, lr: 2.0e-04 loss: 2.162e-01]wan_dewa:  39%|###8      | 1353/3500 [1:12:20<1:11:24,  2.00s/it, lr: 2.0e-04 loss: 2.162e-01]wan_dewa:  39%|###8      | 1353/3500 [1:12:20<1:11:24,  2.00s/it, lr: 2.0e-04 loss: 2.162e-01]wan_dewa:  39%|###8      | 1353/3500 [1:12:22<1:11:24,  2.00s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  39%|###8      | 1353/3500 [1:12:22<1:11:24,  2.00s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  39%|###8      | 1354/3500 [1:12:22<1:17:16,  2.16s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  39%|###8      | 1354/3500 [1:12:22<1:17:16,  2.16s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  39%|###8      | 1354/3500 [1:12:24<1:17:16,  2.16s/it, lr: 2.0e-04 loss: 7.024e-02]wan_dewa:  39%|###8      | 1354/3500 [1:12:24<1:17:16,  2.16s/it, lr: 2.0e-04 loss: 7.024e-02]wan_dewa:  39%|###8      | 1355/3500 [1:12:24<1:18:23,  2.19s/it, lr: 2.0e-04 loss: 7.024e-02]wan_dewa:  39%|###8      | 1355/3500 [1:12:24<1:18:23,  2.19s/it, lr: 2.0e-04 loss: 7.024e-02]wan_dewa:  39%|###8      | 1355/3500 [1:12:27<1:18:23,  2.19s/it, lr: 2.0e-04 loss: 4.000e-02]wan_dewa:  39%|###8      | 1355/3500 [1:12:27<1:18:23,  2.19s/it, lr: 2.0e-04 loss: 4.000e-02]wan_dewa:  39%|###8      | 1356/3500 [1:12:27<1:19:13,  2.22s/it, lr: 2.0e-04 loss: 4.000e-02]wan_dewa:  39%|###8      | 1356/3500 [1:12:27<1:19:13,  2.22s/it, lr: 2.0e-04 loss: 4.000e-02]wan_dewa:  39%|###8      | 1356/3500 [1:12:29<1:19:13,  2.22s/it, lr: 2.0e-04 loss: 4.554e-02]wan_dewa:  39%|###8      | 1356/3500 [1:12:29<1:19:13,  2.22s/it, lr: 2.0e-04 loss: 4.554e-02]wan_dewa:  39%|###8      | 1357/3500 [1:12:29<1:19:47,  2.23s/it, lr: 2.0e-04 loss: 4.554e-02]wan_dewa:  39%|###8      | 1357/3500 [1:12:29<1:19:47,  2.23s/it, lr: 2.0e-04 loss: 4.554e-02]wan_dewa:  39%|###8      | 1357/3500 [1:12:31<1:19:47,  2.23s/it, lr: 2.0e-04 loss: 2.836e-02]wan_dewa:  39%|###8      | 1357/3500 [1:12:31<1:19:47,  2.23s/it, lr: 2.0e-04 loss: 2.836e-02]wan_dewa:  39%|###8      | 1358/3500 [1:12:31<1:20:13,  2.25s/it, lr: 2.0e-04 loss: 2.836e-02]wan_dewa:  39%|###8      | 1358/3500 [1:12:31<1:20:13,  2.25s/it, lr: 2.0e-04 loss: 2.836e-02]wan_dewa:  39%|###8      | 1358/3500 [1:12:34<1:20:13,  2.25s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  39%|###8      | 1358/3500 [1:12:34<1:20:13,  2.25s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  39%|###8      | 1359/3500 [1:12:34<1:22:45,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  39%|###8      | 1359/3500 [1:12:34<1:22:45,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  39%|###8      | 1359/3500 [1:12:45<1:22:45,  2.32s/it, lr: 2.0e-04 loss: 5.451e-02]wan_dewa:  39%|###8      | 1359/3500 [1:12:45<1:22:45,  2.32s/it, lr: 2.0e-04 loss: 5.451e-02]wan_dewa:  39%|###8      | 1360/3500 [1:12:47<1:22:43,  2.32s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:  39%|###8      | 1360/3500 [1:12:47<1:22:43,  2.32s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:  39%|###8      | 1361/3500 [1:12:47<1:03:27,  1.78s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:  39%|###8      | 1361/3500 [1:12:47<1:03:27,  1.78s/it, lr: 2.0e-04 loss: 6.466e-02]wan_dewa:  39%|###8      | 1361/3500 [1:12:49<1:03:27,  1.78s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  39%|###8      | 1361/3500 [1:12:49<1:03:27,  1.78s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  39%|###8      | 1362/3500 [1:12:49<1:07:43,  1.90s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  39%|###8      | 1362/3500 [1:12:49<1:07:43,  1.90s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  39%|###8      | 1362/3500 [1:12:52<1:07:43,  1.90s/it, lr: 2.0e-04 loss: 2.993e-02]wan_dewa:  39%|###8      | 1362/3500 [1:12:52<1:07:43,  1.90s/it, lr: 2.0e-04 loss: 2.993e-02]wan_dewa:  39%|###8      | 1363/3500 [1:12:52<1:11:09,  2.00s/it, lr: 2.0e-04 loss: 2.993e-02]wan_dewa:  39%|###8      | 1363/3500 [1:12:52<1:11:09,  2.00s/it, lr: 2.0e-04 loss: 2.993e-02]wan_dewa:  39%|###8      | 1363/3500 [1:12:54<1:11:09,  2.00s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  39%|###8      | 1363/3500 [1:12:54<1:11:09,  2.00s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  39%|###8      | 1364/3500 [1:12:54<1:15:45,  2.13s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  39%|###8      | 1364/3500 [1:12:54<1:15:45,  2.13s/it, lr: 2.0e-04 loss: 5.017e-02]wan_dewa:  39%|###8      | 1364/3500 [1:12:56<1:15:45,  2.13s/it, lr: 2.0e-04 loss: 5.827e-02]wan_dewa:  39%|###8      | 1364/3500 [1:12:56<1:15:45,  2.13s/it, lr: 2.0e-04 loss: 5.827e-02]wan_dewa:  39%|###9      | 1365/3500 [1:12:56<1:17:12,  2.17s/it, lr: 2.0e-04 loss: 5.827e-02]wan_dewa:  39%|###9      | 1365/3500 [1:12:56<1:17:12,  2.17s/it, lr: 2.0e-04 loss: 5.827e-02]wan_dewa:  39%|###9      | 1365/3500 [1:12:59<1:17:12,  2.17s/it, lr: 2.0e-04 loss: 5.077e-02]wan_dewa:  39%|###9      | 1365/3500 [1:12:59<1:17:12,  2.17s/it, lr: 2.0e-04 loss: 5.077e-02]wan_dewa:  39%|###9      | 1366/3500 [1:12:59<1:18:13,  2.20s/it, lr: 2.0e-04 loss: 5.077e-02]wan_dewa:  39%|###9      | 1366/3500 [1:12:59<1:18:13,  2.20s/it, lr: 2.0e-04 loss: 5.077e-02]wan_dewa:  39%|###9      | 1366/3500 [1:13:01<1:18:13,  2.20s/it, lr: 2.0e-04 loss: 7.229e-02]wan_dewa:  39%|###9      | 1366/3500 [1:13:01<1:18:13,  2.20s/it, lr: 2.0e-04 loss: 7.229e-02]wan_dewa:  39%|###9      | 1367/3500 [1:13:01<1:18:57,  2.22s/it, lr: 2.0e-04 loss: 7.229e-02]wan_dewa:  39%|###9      | 1367/3500 [1:13:01<1:18:57,  2.22s/it, lr: 2.0e-04 loss: 7.229e-02]wan_dewa:  39%|###9      | 1367/3500 [1:13:03<1:18:57,  2.22s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  39%|###9      | 1367/3500 [1:13:03<1:18:57,  2.22s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  39%|###9      | 1368/3500 [1:13:03<1:19:28,  2.24s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  39%|###9      | 1368/3500 [1:13:03<1:19:28,  2.24s/it, lr: 2.0e-04 loss: 7.565e-02]wan_dewa:  39%|###9      | 1368/3500 [1:13:06<1:19:28,  2.24s/it, lr: 2.0e-04 loss: 6.675e-02]wan_dewa:  39%|###9      | 1368/3500 [1:13:06<1:19:28,  2.24s/it, lr: 2.0e-04 loss: 6.675e-02]wan_dewa:  39%|###9      | 1369/3500 [1:13:06<1:19:51,  2.25s/it, lr: 2.0e-04 loss: 6.675e-02]wan_dewa:  39%|###9      | 1369/3500 [1:13:06<1:19:51,  2.25s/it, lr: 2.0e-04 loss: 6.675e-02]wan_dewa:  39%|###9      | 1369/3500 [1:13:14<1:19:51,  2.25s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  39%|###9      | 1369/3500 [1:13:14<1:19:51,  2.25s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  39%|###9      | 1370/3500 [1:13:16<1:19:49,  2.25s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  39%|###9      | 1370/3500 [1:13:16<1:19:49,  2.25s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  39%|###9      | 1371/3500 [1:13:16<1:01:45,  1.74s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  39%|###9      | 1371/3500 [1:13:16<1:01:45,  1.74s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  39%|###9      | 1371/3500 [1:13:18<1:01:45,  1.74s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  39%|###9      | 1371/3500 [1:13:18<1:01:45,  1.74s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  39%|###9      | 1372/3500 [1:13:18<1:06:25,  1.87s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  39%|###9      | 1372/3500 [1:13:18<1:06:25,  1.87s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  39%|###9      | 1372/3500 [1:13:20<1:06:25,  1.87s/it, lr: 2.0e-04 loss: 3.009e-01]wan_dewa:  39%|###9      | 1372/3500 [1:13:20<1:06:25,  1.87s/it, lr: 2.0e-04 loss: 3.009e-01]wan_dewa:  39%|###9      | 1373/3500 [1:13:20<1:10:07,  1.98s/it, lr: 2.0e-04 loss: 3.009e-01]wan_dewa:  39%|###9      | 1373/3500 [1:13:20<1:10:07,  1.98s/it, lr: 2.0e-04 loss: 3.009e-01]wan_dewa:  39%|###9      | 1373/3500 [1:13:23<1:10:07,  1.98s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  39%|###9      | 1373/3500 [1:13:23<1:10:07,  1.98s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  39%|###9      | 1374/3500 [1:13:23<1:12:59,  2.06s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  39%|###9      | 1374/3500 [1:13:23<1:12:59,  2.06s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  39%|###9      | 1374/3500 [1:13:27<1:12:59,  2.06s/it, lr: 2.0e-04 loss: 1.287e-01]wan_dewa:  39%|###9      | 1374/3500 [1:13:27<1:12:59,  2.06s/it, lr: 2.0e-04 loss: 1.287e-01]wan_dewa:  39%|###9      | 1375/3500 [1:13:27<1:18:15,  2.21s/it, lr: 2.0e-04 loss: 1.287e-01]wan_dewa:  39%|###9      | 1375/3500 [1:13:27<1:18:15,  2.21s/it, lr: 2.0e-04 loss: 1.287e-01]wan_dewa:  39%|###9      | 1375/3500 [1:13:30<1:18:15,  2.21s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  39%|###9      | 1375/3500 [1:13:30<1:18:15,  2.21s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  39%|###9      | 1376/3500 [1:13:30<1:18:54,  2.23s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  39%|###9      | 1376/3500 [1:13:30<1:18:54,  2.23s/it, lr: 2.0e-04 loss: 6.598e-02]wan_dewa:  39%|###9      | 1376/3500 [1:13:32<1:18:54,  2.23s/it, lr: 2.0e-04 loss: 8.771e-02]wan_dewa:  39%|###9      | 1376/3500 [1:13:32<1:18:54,  2.23s/it, lr: 2.0e-04 loss: 8.771e-02]wan_dewa:  39%|###9      | 1377/3500 [1:13:32<1:19:24,  2.24s/it, lr: 2.0e-04 loss: 8.771e-02]wan_dewa:  39%|###9      | 1377/3500 [1:13:32<1:19:24,  2.24s/it, lr: 2.0e-04 loss: 8.771e-02]wan_dewa:  39%|###9      | 1377/3500 [1:13:34<1:19:24,  2.24s/it, lr: 2.0e-04 loss: 9.095e-02]wan_dewa:  39%|###9      | 1377/3500 [1:13:34<1:19:24,  2.24s/it, lr: 2.0e-04 loss: 9.095e-02]wan_dewa:  39%|###9      | 1378/3500 [1:13:34<1:19:44,  2.25s/it, lr: 2.0e-04 loss: 9.095e-02]wan_dewa:  39%|###9      | 1378/3500 [1:13:34<1:19:44,  2.25s/it, lr: 2.0e-04 loss: 9.095e-02]wan_dewa:  39%|###9      | 1378/3500 [1:13:37<1:19:44,  2.25s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  39%|###9      | 1378/3500 [1:13:37<1:19:44,  2.25s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  39%|###9      | 1379/3500 [1:13:37<1:20:00,  2.26s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  39%|###9      | 1379/3500 [1:13:37<1:20:00,  2.26s/it, lr: 2.0e-04 loss: 1.074e-01]wan_dewa:  39%|###9      | 1379/3500 [1:13:48<1:20:00,  2.26s/it, lr: 2.0e-04 loss: 3.635e-02]wan_dewa:  39%|###9      | 1379/3500 [1:13:48<1:20:00,  2.26s/it, lr: 2.0e-04 loss: 3.635e-02]wan_dewa:  39%|###9      | 1380/3500 [1:13:50<1:19:58,  2.26s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  39%|###9      | 1380/3500 [1:13:50<1:19:58,  2.26s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  39%|###9      | 1381/3500 [1:13:50<1:01:49,  1.75s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  39%|###9      | 1381/3500 [1:13:50<1:01:49,  1.75s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  39%|###9      | 1381/3500 [1:13:52<1:01:49,  1.75s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  39%|###9      | 1381/3500 [1:13:52<1:01:49,  1.75s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  39%|###9      | 1382/3500 [1:13:52<1:06:18,  1.88s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  39%|###9      | 1382/3500 [1:13:52<1:06:18,  1.88s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  39%|###9      | 1382/3500 [1:13:55<1:06:18,  1.88s/it, lr: 2.0e-04 loss: 4.912e-02]wan_dewa:  39%|###9      | 1382/3500 [1:13:55<1:06:18,  1.88s/it, lr: 2.0e-04 loss: 4.912e-02]wan_dewa:  40%|###9      | 1383/3500 [1:13:55<1:09:52,  1.98s/it, lr: 2.0e-04 loss: 4.912e-02]wan_dewa:  40%|###9      | 1383/3500 [1:13:55<1:09:52,  1.98s/it, lr: 2.0e-04 loss: 4.912e-02]wan_dewa:  40%|###9      | 1383/3500 [1:13:57<1:09:52,  1.98s/it, lr: 2.0e-04 loss: 4.764e-02]wan_dewa:  40%|###9      | 1383/3500 [1:13:57<1:09:52,  1.98s/it, lr: 2.0e-04 loss: 4.764e-02]wan_dewa:  40%|###9      | 1384/3500 [1:13:57<1:12:42,  2.06s/it, lr: 2.0e-04 loss: 4.764e-02]wan_dewa:  40%|###9      | 1384/3500 [1:13:57<1:12:42,  2.06s/it, lr: 2.0e-04 loss: 4.764e-02]wan_dewa:  40%|###9      | 1384/3500 [1:13:59<1:12:42,  2.06s/it, lr: 2.0e-04 loss: 7.113e-02]wan_dewa:  40%|###9      | 1384/3500 [1:13:59<1:12:42,  2.06s/it, lr: 2.0e-04 loss: 7.113e-02]wan_dewa:  40%|###9      | 1385/3500 [1:13:59<1:16:26,  2.17s/it, lr: 2.0e-04 loss: 7.113e-02]wan_dewa:  40%|###9      | 1385/3500 [1:13:59<1:16:26,  2.17s/it, lr: 2.0e-04 loss: 7.113e-02]wan_dewa:  40%|###9      | 1385/3500 [1:14:02<1:16:26,  2.17s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  40%|###9      | 1385/3500 [1:14:02<1:16:26,  2.17s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  40%|###9      | 1386/3500 [1:14:02<1:17:33,  2.20s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  40%|###9      | 1386/3500 [1:14:02<1:17:33,  2.20s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  40%|###9      | 1386/3500 [1:14:04<1:17:33,  2.20s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  40%|###9      | 1386/3500 [1:14:04<1:17:33,  2.20s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  40%|###9      | 1387/3500 [1:14:04<1:18:20,  2.22s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  40%|###9      | 1387/3500 [1:14:04<1:18:20,  2.22s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  40%|###9      | 1387/3500 [1:14:06<1:18:20,  2.22s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  40%|###9      | 1387/3500 [1:14:06<1:18:20,  2.22s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  40%|###9      | 1388/3500 [1:14:06<1:18:57,  2.24s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  40%|###9      | 1388/3500 [1:14:06<1:18:57,  2.24s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  40%|###9      | 1388/3500 [1:14:08<1:18:57,  2.24s/it, lr: 2.0e-04 loss: 5.217e-02]wan_dewa:  40%|###9      | 1388/3500 [1:14:08<1:18:57,  2.24s/it, lr: 2.0e-04 loss: 5.217e-02]wan_dewa:  40%|###9      | 1389/3500 [1:14:08<1:19:21,  2.26s/it, lr: 2.0e-04 loss: 5.217e-02]wan_dewa:  40%|###9      | 1389/3500 [1:14:08<1:19:21,  2.26s/it, lr: 2.0e-04 loss: 5.217e-02]wan_dewa:  40%|###9      | 1389/3500 [1:14:19<1:19:21,  2.26s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  40%|###9      | 1389/3500 [1:14:19<1:19:21,  2.26s/it, lr: 2.0e-04 loss: 5.591e-02]wan_dewa:  40%|###9      | 1390/3500 [1:14:22<1:19:19,  2.26s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  40%|###9      | 1390/3500 [1:14:22<1:19:19,  2.26s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  40%|###9      | 1391/3500 [1:14:22<1:01:24,  1.75s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  40%|###9      | 1391/3500 [1:14:22<1:01:24,  1.75s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  40%|###9      | 1391/3500 [1:14:24<1:01:24,  1.75s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  40%|###9      | 1391/3500 [1:14:24<1:01:24,  1.75s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  40%|###9      | 1392/3500 [1:14:24<1:05:57,  1.88s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  40%|###9      | 1392/3500 [1:14:24<1:05:57,  1.88s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  40%|###9      | 1392/3500 [1:14:26<1:05:57,  1.88s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  40%|###9      | 1392/3500 [1:14:26<1:05:57,  1.88s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  40%|###9      | 1393/3500 [1:14:26<1:09:34,  1.98s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  40%|###9      | 1393/3500 [1:14:26<1:09:34,  1.98s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  40%|###9      | 1393/3500 [1:14:28<1:09:34,  1.98s/it, lr: 2.0e-04 loss: 1.817e-01]wan_dewa:  40%|###9      | 1393/3500 [1:14:28<1:09:34,  1.98s/it, lr: 2.0e-04 loss: 1.817e-01]wan_dewa:  40%|###9      | 1394/3500 [1:14:28<1:12:22,  2.06s/it, lr: 2.0e-04 loss: 1.817e-01]wan_dewa:  40%|###9      | 1394/3500 [1:14:28<1:12:22,  2.06s/it, lr: 2.0e-04 loss: 1.817e-01]wan_dewa:  40%|###9      | 1394/3500 [1:14:31<1:12:22,  2.06s/it, lr: 2.0e-04 loss: 3.312e-02]wan_dewa:  40%|###9      | 1394/3500 [1:14:31<1:12:22,  2.06s/it, lr: 2.0e-04 loss: 3.312e-02]wan_dewa:  40%|###9      | 1395/3500 [1:14:31<1:16:06,  2.17s/it, lr: 2.0e-04 loss: 3.312e-02]wan_dewa:  40%|###9      | 1395/3500 [1:14:31<1:16:06,  2.17s/it, lr: 2.0e-04 loss: 3.312e-02]wan_dewa:  40%|###9      | 1395/3500 [1:14:33<1:16:06,  2.17s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  40%|###9      | 1395/3500 [1:14:33<1:16:06,  2.17s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  40%|###9      | 1396/3500 [1:14:33<1:17:09,  2.20s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  40%|###9      | 1396/3500 [1:14:33<1:17:09,  2.20s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  40%|###9      | 1396/3500 [1:14:35<1:17:09,  2.20s/it, lr: 2.0e-04 loss: 4.352e-02]wan_dewa:  40%|###9      | 1396/3500 [1:14:35<1:17:09,  2.20s/it, lr: 2.0e-04 loss: 4.352e-02]wan_dewa:  40%|###9      | 1397/3500 [1:14:35<1:17:55,  2.22s/it, lr: 2.0e-04 loss: 4.352e-02]wan_dewa:  40%|###9      | 1397/3500 [1:14:35<1:17:55,  2.22s/it, lr: 2.0e-04 loss: 4.352e-02]wan_dewa:  40%|###9      | 1397/3500 [1:14:38<1:17:55,  2.22s/it, lr: 2.0e-04 loss: 8.020e-02]wan_dewa:  40%|###9      | 1397/3500 [1:14:38<1:17:55,  2.22s/it, lr: 2.0e-04 loss: 8.020e-02]wan_dewa:  40%|###9      | 1398/3500 [1:14:38<1:18:29,  2.24s/it, lr: 2.0e-04 loss: 8.020e-02]wan_dewa:  40%|###9      | 1398/3500 [1:14:38<1:18:29,  2.24s/it, lr: 2.0e-04 loss: 8.020e-02]wan_dewa:  40%|###9      | 1398/3500 [1:14:40<1:18:29,  2.24s/it, lr: 2.0e-04 loss: 7.218e-02]wan_dewa:  40%|###9      | 1398/3500 [1:14:40<1:18:29,  2.24s/it, lr: 2.0e-04 loss: 7.218e-02]wan_dewa:  40%|###9      | 1399/3500 [1:14:40<1:18:53,  2.25s/it, lr: 2.0e-04 loss: 7.218e-02]wan_dewa:  40%|###9      | 1399/3500 [1:14:40<1:18:53,  2.25s/it, lr: 2.0e-04 loss: 7.218e-02]wan_dewa:  40%|###9      | 1399/3500 [1:14:53<1:18:53,  2.25s/it, lr: 2.0e-04 loss: 4.518e-02]wan_dewa:  40%|###9      | 1399/3500 [1:14:53<1:18:53,  2.25s/it, lr: 2.0e-04 loss: 4.518e-02]wan_dewa:  40%|####      | 1400/3500 [1:14:56<1:18:51,  2.25s/it, lr: 2.0e-04 loss: 4.839e-02]wan_dewa:  40%|####      | 1400/3500 [1:14:56<1:18:51,  2.25s/it, lr: 2.0e-04 loss: 4.839e-02]wan_dewa:  40%|####      | 1401/3500 [1:14:56<1:01:06,  1.75s/it, lr: 2.0e-04 loss: 4.839e-02]wan_dewa:  40%|####      | 1401/3500 [1:14:56<1:01:06,  1.75s/it, lr: 2.0e-04 loss: 4.839e-02]wan_dewa:  40%|####      | 1401/3500 [1:14:58<1:01:06,  1.75s/it, lr: 2.0e-04 loss: 4.780e-02]wan_dewa:  40%|####      | 1401/3500 [1:14:58<1:01:06,  1.75s/it, lr: 2.0e-04 loss: 4.780e-02]wan_dewa:  40%|####      | 1402/3500 [1:14:58<1:05:35,  1.88s/it, lr: 2.0e-04 loss: 4.780e-02]wan_dewa:  40%|####      | 1402/3500 [1:14:58<1:05:35,  1.88s/it, lr: 2.0e-04 loss: 4.780e-02]wan_dewa:  40%|####      | 1402/3500 [1:15:00<1:05:35,  1.88s/it, lr: 2.0e-04 loss: 2.890e-02]wan_dewa:  40%|####      | 1402/3500 [1:15:00<1:05:35,  1.88s/it, lr: 2.0e-04 loss: 2.890e-02]wan_dewa:  40%|####      | 1403/3500 [1:15:00<1:09:06,  1.98s/it, lr: 2.0e-04 loss: 2.890e-02]wan_dewa:  40%|####      | 1403/3500 [1:15:00<1:09:06,  1.98s/it, lr: 2.0e-04 loss: 2.890e-02]wan_dewa:  40%|####      | 1403/3500 [1:15:02<1:09:06,  1.98s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  40%|####      | 1403/3500 [1:15:02<1:09:06,  1.98s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  40%|####      | 1404/3500 [1:15:02<1:11:49,  2.06s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  40%|####      | 1404/3500 [1:15:02<1:11:49,  2.06s/it, lr: 2.0e-04 loss: 5.213e-02]wan_dewa:  40%|####      | 1404/3500 [1:15:05<1:11:49,  2.06s/it, lr: 2.0e-04 loss: 3.396e-02]wan_dewa:  40%|####      | 1404/3500 [1:15:05<1:11:49,  2.06s/it, lr: 2.0e-04 loss: 3.396e-02]wan_dewa:  40%|####      | 1405/3500 [1:15:05<1:15:39,  2.17s/it, lr: 2.0e-04 loss: 3.396e-02]wan_dewa:  40%|####      | 1405/3500 [1:15:05<1:15:39,  2.17s/it, lr: 2.0e-04 loss: 3.396e-02]wan_dewa:  40%|####      | 1405/3500 [1:15:07<1:15:39,  2.17s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:  40%|####      | 1405/3500 [1:15:07<1:15:39,  2.17s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:  40%|####      | 1406/3500 [1:15:07<1:16:38,  2.20s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:  40%|####      | 1406/3500 [1:15:07<1:16:38,  2.20s/it, lr: 2.0e-04 loss: 8.197e-02]wan_dewa:  40%|####      | 1406/3500 [1:15:09<1:16:38,  2.20s/it, lr: 2.0e-04 loss: 4.751e-02]wan_dewa:  40%|####      | 1406/3500 [1:15:09<1:16:38,  2.20s/it, lr: 2.0e-04 loss: 4.751e-02]wan_dewa:  40%|####      | 1407/3500 [1:15:09<1:17:21,  2.22s/it, lr: 2.0e-04 loss: 4.751e-02]wan_dewa:  40%|####      | 1407/3500 [1:15:09<1:17:21,  2.22s/it, lr: 2.0e-04 loss: 4.751e-02]wan_dewa:  40%|####      | 1407/3500 [1:15:12<1:17:21,  2.22s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  40%|####      | 1407/3500 [1:15:12<1:17:21,  2.22s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  40%|####      | 1408/3500 [1:15:12<1:17:54,  2.23s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  40%|####      | 1408/3500 [1:15:12<1:17:54,  2.23s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  40%|####      | 1408/3500 [1:15:14<1:17:54,  2.23s/it, lr: 2.0e-04 loss: 5.918e-02]wan_dewa:  40%|####      | 1408/3500 [1:15:14<1:17:54,  2.23s/it, lr: 2.0e-04 loss: 5.918e-02]wan_dewa:  40%|####      | 1409/3500 [1:15:14<1:18:19,  2.25s/it, lr: 2.0e-04 loss: 5.918e-02]wan_dewa:  40%|####      | 1409/3500 [1:15:14<1:18:19,  2.25s/it, lr: 2.0e-04 loss: 5.918e-02]wan_dewa:  40%|####      | 1409/3500 [1:15:25<1:18:19,  2.25s/it, lr: 2.0e-04 loss: 6.531e-02]wan_dewa:  40%|####      | 1409/3500 [1:15:25<1:18:19,  2.25s/it, lr: 2.0e-04 loss: 6.531e-02]wan_dewa:  40%|####      | 1410/3500 [1:15:27<1:18:17,  2.25s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  40%|####      | 1410/3500 [1:15:27<1:18:17,  2.25s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  40%|####      | 1411/3500 [1:15:27<1:00:37,  1.74s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  40%|####      | 1411/3500 [1:15:27<1:00:37,  1.74s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  40%|####      | 1411/3500 [1:15:30<1:00:37,  1.74s/it, lr: 2.0e-04 loss: 6.243e-02]wan_dewa:  40%|####      | 1411/3500 [1:15:30<1:00:37,  1.74s/it, lr: 2.0e-04 loss: 6.243e-02]wan_dewa:  40%|####      | 1412/3500 [1:15:30<1:05:12,  1.87s/it, lr: 2.0e-04 loss: 6.243e-02]wan_dewa:  40%|####      | 1412/3500 [1:15:30<1:05:12,  1.87s/it, lr: 2.0e-04 loss: 6.243e-02]wan_dewa:  40%|####      | 1412/3500 [1:15:32<1:05:12,  1.87s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  40%|####      | 1412/3500 [1:15:32<1:05:12,  1.87s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  40%|####      | 1413/3500 [1:15:32<1:08:52,  1.98s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  40%|####      | 1413/3500 [1:15:32<1:08:52,  1.98s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  40%|####      | 1413/3500 [1:15:34<1:08:52,  1.98s/it, lr: 2.0e-04 loss: 6.955e-02]wan_dewa:  40%|####      | 1413/3500 [1:15:34<1:08:52,  1.98s/it, lr: 2.0e-04 loss: 6.955e-02]wan_dewa:  40%|####      | 1414/3500 [1:15:34<1:11:39,  2.06s/it, lr: 2.0e-04 loss: 6.955e-02]wan_dewa:  40%|####      | 1414/3500 [1:15:34<1:11:39,  2.06s/it, lr: 2.0e-04 loss: 6.955e-02]wan_dewa:  40%|####      | 1414/3500 [1:15:37<1:11:39,  2.06s/it, lr: 2.0e-04 loss: 6.422e-02]wan_dewa:  40%|####      | 1414/3500 [1:15:37<1:11:39,  2.06s/it, lr: 2.0e-04 loss: 6.422e-02]wan_dewa:  40%|####      | 1415/3500 [1:15:37<1:15:34,  2.17s/it, lr: 2.0e-04 loss: 6.422e-02]wan_dewa:  40%|####      | 1415/3500 [1:15:37<1:15:34,  2.17s/it, lr: 2.0e-04 loss: 6.422e-02]wan_dewa:  40%|####      | 1415/3500 [1:15:39<1:15:34,  2.17s/it, lr: 2.0e-04 loss: 3.019e-02]wan_dewa:  40%|####      | 1415/3500 [1:15:39<1:15:34,  2.17s/it, lr: 2.0e-04 loss: 3.019e-02]wan_dewa:  40%|####      | 1416/3500 [1:15:39<1:16:34,  2.20s/it, lr: 2.0e-04 loss: 3.019e-02]wan_dewa:  40%|####      | 1416/3500 [1:15:39<1:16:34,  2.20s/it, lr: 2.0e-04 loss: 3.019e-02]wan_dewa:  40%|####      | 1416/3500 [1:15:41<1:16:34,  2.20s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  40%|####      | 1416/3500 [1:15:41<1:16:34,  2.20s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  40%|####      | 1417/3500 [1:15:41<1:17:17,  2.23s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  40%|####      | 1417/3500 [1:15:41<1:17:17,  2.23s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  40%|####      | 1417/3500 [1:15:43<1:17:17,  2.23s/it, lr: 2.0e-04 loss: 7.012e-02]wan_dewa:  40%|####      | 1417/3500 [1:15:43<1:17:17,  2.23s/it, lr: 2.0e-04 loss: 7.012e-02]wan_dewa:  41%|####      | 1418/3500 [1:15:43<1:17:47,  2.24s/it, lr: 2.0e-04 loss: 7.012e-02]wan_dewa:  41%|####      | 1418/3500 [1:15:43<1:17:47,  2.24s/it, lr: 2.0e-04 loss: 7.012e-02]wan_dewa:  41%|####      | 1418/3500 [1:15:46<1:17:47,  2.24s/it, lr: 2.0e-04 loss: 7.313e-02]wan_dewa:  41%|####      | 1418/3500 [1:15:46<1:17:47,  2.24s/it, lr: 2.0e-04 loss: 7.313e-02]wan_dewa:  41%|####      | 1419/3500 [1:15:46<1:18:11,  2.25s/it, lr: 2.0e-04 loss: 7.313e-02]wan_dewa:  41%|####      | 1419/3500 [1:15:46<1:18:11,  2.25s/it, lr: 2.0e-04 loss: 7.313e-02]wan_dewa:  41%|####      | 1419/3500 [1:15:54<1:18:11,  2.25s/it, lr: 2.0e-04 loss: 2.619e-02]wan_dewa:  41%|####      | 1419/3500 [1:15:54<1:18:11,  2.25s/it, lr: 2.0e-04 loss: 2.619e-02]wan_dewa:  41%|####      | 1420/3500 [1:15:56<1:18:08,  2.25s/it, lr: 2.0e-04 loss: 5.297e-02]wan_dewa:  41%|####      | 1420/3500 [1:15:56<1:18:08,  2.25s/it, lr: 2.0e-04 loss: 5.297e-02]wan_dewa:  41%|####      | 1421/3500 [1:15:56<1:00:23,  1.74s/it, lr: 2.0e-04 loss: 5.297e-02]wan_dewa:  41%|####      | 1421/3500 [1:15:56<1:00:23,  1.74s/it, lr: 2.0e-04 loss: 5.297e-02]wan_dewa:  41%|####      | 1421/3500 [1:15:58<1:00:23,  1.74s/it, lr: 2.0e-04 loss: 5.484e-02]wan_dewa:  41%|####      | 1421/3500 [1:15:58<1:00:23,  1.74s/it, lr: 2.0e-04 loss: 5.484e-02]wan_dewa:  41%|####      | 1422/3500 [1:15:58<1:04:51,  1.87s/it, lr: 2.0e-04 loss: 5.484e-02]wan_dewa:  41%|####      | 1422/3500 [1:15:58<1:04:51,  1.87s/it, lr: 2.0e-04 loss: 5.484e-02]wan_dewa:  41%|####      | 1422/3500 [1:16:01<1:04:51,  1.87s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  41%|####      | 1422/3500 [1:16:01<1:04:51,  1.87s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  41%|####      | 1423/3500 [1:16:01<1:08:26,  1.98s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  41%|####      | 1423/3500 [1:16:01<1:08:26,  1.98s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  41%|####      | 1423/3500 [1:16:03<1:08:26,  1.98s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  41%|####      | 1423/3500 [1:16:03<1:08:26,  1.98s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  41%|####      | 1424/3500 [1:16:03<1:11:11,  2.06s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  41%|####      | 1424/3500 [1:16:03<1:11:11,  2.06s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  41%|####      | 1424/3500 [1:16:08<1:11:11,  2.06s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  41%|####      | 1424/3500 [1:16:08<1:11:11,  2.06s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  41%|####      | 1425/3500 [1:16:08<1:16:08,  2.20s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  41%|####      | 1425/3500 [1:16:08<1:16:08,  2.20s/it, lr: 2.0e-04 loss: 5.078e-02]wan_dewa:  41%|####      | 1425/3500 [1:16:10<1:16:08,  2.20s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  41%|####      | 1425/3500 [1:16:10<1:16:08,  2.20s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  41%|####      | 1426/3500 [1:16:10<1:16:51,  2.22s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  41%|####      | 1426/3500 [1:16:10<1:16:51,  2.22s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  41%|####      | 1426/3500 [1:16:12<1:16:51,  2.22s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  41%|####      | 1426/3500 [1:16:12<1:16:51,  2.22s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  41%|####      | 1427/3500 [1:16:12<1:17:20,  2.24s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  41%|####      | 1427/3500 [1:16:12<1:17:20,  2.24s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  41%|####      | 1427/3500 [1:16:15<1:17:20,  2.24s/it, lr: 2.0e-04 loss: 6.197e-02]wan_dewa:  41%|####      | 1427/3500 [1:16:15<1:17:20,  2.24s/it, lr: 2.0e-04 loss: 6.197e-02]wan_dewa:  41%|####      | 1428/3500 [1:16:15<1:17:39,  2.25s/it, lr: 2.0e-04 loss: 6.197e-02]wan_dewa:  41%|####      | 1428/3500 [1:16:15<1:17:39,  2.25s/it, lr: 2.0e-04 loss: 6.197e-02]wan_dewa:  41%|####      | 1428/3500 [1:16:17<1:17:39,  2.25s/it, lr: 2.0e-04 loss: 2.522e-02]wan_dewa:  41%|####      | 1428/3500 [1:16:17<1:17:39,  2.25s/it, lr: 2.0e-04 loss: 2.522e-02]wan_dewa:  41%|####      | 1429/3500 [1:16:17<1:17:55,  2.26s/it, lr: 2.0e-04 loss: 2.522e-02]wan_dewa:  41%|####      | 1429/3500 [1:16:17<1:17:55,  2.26s/it, lr: 2.0e-04 loss: 2.522e-02]wan_dewa:  41%|####      | 1429/3500 [1:16:28<1:17:55,  2.26s/it, lr: 2.0e-04 loss: 6.465e-02]wan_dewa:  41%|####      | 1429/3500 [1:16:28<1:17:55,  2.26s/it, lr: 2.0e-04 loss: 6.465e-02]wan_dewa:  41%|####      | 1430/3500 [1:16:30<1:17:52,  2.26s/it, lr: 2.0e-04 loss: 2.949e-02]wan_dewa:  41%|####      | 1430/3500 [1:16:30<1:17:52,  2.26s/it, lr: 2.0e-04 loss: 2.949e-02]wan_dewa:  41%|####      | 1431/3500 [1:16:30<1:02:00,  1.80s/it, lr: 2.0e-04 loss: 2.949e-02]wan_dewa:  41%|####      | 1431/3500 [1:16:30<1:02:00,  1.80s/it, lr: 2.0e-04 loss: 2.949e-02]wan_dewa:  41%|####      | 1431/3500 [1:16:33<1:02:00,  1.80s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  41%|####      | 1431/3500 [1:16:33<1:02:00,  1.80s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  41%|####      | 1432/3500 [1:16:33<1:06:01,  1.92s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  41%|####      | 1432/3500 [1:16:33<1:06:01,  1.92s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  41%|####      | 1432/3500 [1:16:35<1:06:01,  1.92s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  41%|####      | 1432/3500 [1:16:35<1:06:01,  1.92s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  41%|####      | 1433/3500 [1:16:35<1:09:13,  2.01s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  41%|####      | 1433/3500 [1:16:35<1:09:13,  2.01s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  41%|####      | 1433/3500 [1:16:37<1:09:13,  2.01s/it, lr: 2.0e-04 loss: 1.029e-01]wan_dewa:  41%|####      | 1433/3500 [1:16:37<1:09:13,  2.01s/it, lr: 2.0e-04 loss: 1.029e-01]wan_dewa:  41%|####      | 1434/3500 [1:16:37<1:11:40,  2.08s/it, lr: 2.0e-04 loss: 1.029e-01]wan_dewa:  41%|####      | 1434/3500 [1:16:37<1:11:40,  2.08s/it, lr: 2.0e-04 loss: 1.029e-01]wan_dewa:  41%|####      | 1434/3500 [1:16:40<1:11:40,  2.08s/it, lr: 2.0e-04 loss: 4.778e-02]wan_dewa:  41%|####      | 1434/3500 [1:16:40<1:11:40,  2.08s/it, lr: 2.0e-04 loss: 4.778e-02]wan_dewa:  41%|####1     | 1435/3500 [1:16:40<1:13:32,  2.14s/it, lr: 2.0e-04 loss: 4.778e-02]wan_dewa:  41%|####1     | 1435/3500 [1:16:40<1:13:32,  2.14s/it, lr: 2.0e-04 loss: 4.778e-02]wan_dewa:  41%|####1     | 1435/3500 [1:16:42<1:13:32,  2.14s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  41%|####1     | 1435/3500 [1:16:42<1:13:32,  2.14s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  41%|####1     | 1436/3500 [1:16:42<1:17:05,  2.24s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  41%|####1     | 1436/3500 [1:16:42<1:17:05,  2.24s/it, lr: 2.0e-04 loss: 1.101e-01]wan_dewa:  41%|####1     | 1436/3500 [1:16:44<1:17:05,  2.24s/it, lr: 2.0e-04 loss: 6.091e-02]wan_dewa:  41%|####1     | 1436/3500 [1:16:44<1:17:05,  2.24s/it, lr: 2.0e-04 loss: 6.091e-02]wan_dewa:  41%|####1     | 1437/3500 [1:16:44<1:17:25,  2.25s/it, lr: 2.0e-04 loss: 6.091e-02]wan_dewa:  41%|####1     | 1437/3500 [1:16:44<1:17:25,  2.25s/it, lr: 2.0e-04 loss: 6.091e-02]wan_dewa:  41%|####1     | 1437/3500 [1:16:47<1:17:25,  2.25s/it, lr: 2.0e-04 loss: 5.542e-02]wan_dewa:  41%|####1     | 1437/3500 [1:16:47<1:17:25,  2.25s/it, lr: 2.0e-04 loss: 5.542e-02]wan_dewa:  41%|####1     | 1438/3500 [1:16:47<1:17:41,  2.26s/it, lr: 2.0e-04 loss: 5.542e-02]wan_dewa:  41%|####1     | 1438/3500 [1:16:47<1:17:41,  2.26s/it, lr: 2.0e-04 loss: 5.542e-02]wan_dewa:  41%|####1     | 1438/3500 [1:16:49<1:17:41,  2.26s/it, lr: 2.0e-04 loss: 3.066e-02]wan_dewa:  41%|####1     | 1438/3500 [1:16:49<1:17:41,  2.26s/it, lr: 2.0e-04 loss: 3.066e-02]wan_dewa:  41%|####1     | 1439/3500 [1:16:49<1:17:51,  2.27s/it, lr: 2.0e-04 loss: 3.066e-02]wan_dewa:  41%|####1     | 1439/3500 [1:16:49<1:17:51,  2.27s/it, lr: 2.0e-04 loss: 3.066e-02]wan_dewa:  41%|####1     | 1439/3500 [1:17:00<1:17:51,  2.27s/it, lr: 2.0e-04 loss: 4.682e-02]wan_dewa:  41%|####1     | 1439/3500 [1:17:00<1:17:51,  2.27s/it, lr: 2.0e-04 loss: 4.682e-02]wan_dewa:  41%|####1     | 1440/3500 [1:17:02<1:17:49,  2.27s/it, lr: 2.0e-04 loss: 5.022e-02]wan_dewa:  41%|####1     | 1440/3500 [1:17:02<1:17:49,  2.27s/it, lr: 2.0e-04 loss: 5.022e-02]wan_dewa:  41%|####1     | 1441/3500 [1:17:02<1:01:50,  1.80s/it, lr: 2.0e-04 loss: 5.022e-02]wan_dewa:  41%|####1     | 1441/3500 [1:17:02<1:01:50,  1.80s/it, lr: 2.0e-04 loss: 5.022e-02]wan_dewa:  41%|####1     | 1441/3500 [1:17:05<1:01:50,  1.80s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  41%|####1     | 1441/3500 [1:17:05<1:01:50,  1.80s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  41%|####1     | 1442/3500 [1:17:05<1:05:48,  1.92s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  41%|####1     | 1442/3500 [1:17:05<1:05:48,  1.92s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  41%|####1     | 1442/3500 [1:17:07<1:05:48,  1.92s/it, lr: 2.0e-04 loss: 4.646e-02]wan_dewa:  41%|####1     | 1442/3500 [1:17:07<1:05:48,  1.92s/it, lr: 2.0e-04 loss: 4.646e-02]wan_dewa:  41%|####1     | 1443/3500 [1:17:07<1:08:58,  2.01s/it, lr: 2.0e-04 loss: 4.646e-02]wan_dewa:  41%|####1     | 1443/3500 [1:17:07<1:08:58,  2.01s/it, lr: 2.0e-04 loss: 4.646e-02]wan_dewa:  41%|####1     | 1443/3500 [1:17:09<1:08:58,  2.01s/it, lr: 2.0e-04 loss: 6.104e-02]wan_dewa:  41%|####1     | 1443/3500 [1:17:09<1:08:58,  2.01s/it, lr: 2.0e-04 loss: 6.104e-02]wan_dewa:  41%|####1     | 1444/3500 [1:17:09<1:11:22,  2.08s/it, lr: 2.0e-04 loss: 6.104e-02]wan_dewa:  41%|####1     | 1444/3500 [1:17:09<1:11:22,  2.08s/it, lr: 2.0e-04 loss: 6.104e-02]wan_dewa:  41%|####1     | 1444/3500 [1:17:12<1:11:22,  2.08s/it, lr: 2.0e-04 loss: 6.226e-02]wan_dewa:  41%|####1     | 1444/3500 [1:17:12<1:11:22,  2.08s/it, lr: 2.0e-04 loss: 6.226e-02]wan_dewa:  41%|####1     | 1445/3500 [1:17:12<1:13:12,  2.14s/it, lr: 2.0e-04 loss: 6.226e-02]wan_dewa:  41%|####1     | 1445/3500 [1:17:12<1:13:12,  2.14s/it, lr: 2.0e-04 loss: 6.226e-02]wan_dewa:  41%|####1     | 1445/3500 [1:17:14<1:13:12,  2.14s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:  41%|####1     | 1445/3500 [1:17:14<1:13:12,  2.14s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:  41%|####1     | 1446/3500 [1:17:14<1:16:48,  2.24s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:  41%|####1     | 1446/3500 [1:17:14<1:16:48,  2.24s/it, lr: 2.0e-04 loss: 5.130e-02]wan_dewa:  41%|####1     | 1446/3500 [1:17:16<1:16:48,  2.24s/it, lr: 2.0e-04 loss: 4.665e-02]wan_dewa:  41%|####1     | 1446/3500 [1:17:16<1:16:48,  2.24s/it, lr: 2.0e-04 loss: 4.665e-02]wan_dewa:  41%|####1     | 1447/3500 [1:17:16<1:17:08,  2.25s/it, lr: 2.0e-04 loss: 4.665e-02]wan_dewa:  41%|####1     | 1447/3500 [1:17:16<1:17:08,  2.25s/it, lr: 2.0e-04 loss: 4.665e-02]wan_dewa:  41%|####1     | 1447/3500 [1:17:19<1:17:08,  2.25s/it, lr: 2.0e-04 loss: 4.377e-02]wan_dewa:  41%|####1     | 1447/3500 [1:17:19<1:17:08,  2.25s/it, lr: 2.0e-04 loss: 4.377e-02]wan_dewa:  41%|####1     | 1448/3500 [1:17:19<1:17:24,  2.26s/it, lr: 2.0e-04 loss: 4.377e-02]wan_dewa:  41%|####1     | 1448/3500 [1:17:19<1:17:24,  2.26s/it, lr: 2.0e-04 loss: 4.377e-02]wan_dewa:  41%|####1     | 1448/3500 [1:17:21<1:17:24,  2.26s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  41%|####1     | 1448/3500 [1:17:21<1:17:24,  2.26s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  41%|####1     | 1449/3500 [1:17:21<1:17:34,  2.27s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  41%|####1     | 1449/3500 [1:17:21<1:17:34,  2.27s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  41%|####1     | 1449/3500 [1:17:34<1:17:34,  2.27s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  41%|####1     | 1449/3500 [1:17:34<1:17:34,  2.27s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  41%|####1     | 1450/3500 [1:17:37<1:17:31,  2.27s/it, lr: 2.0e-04 loss: 1.041e-01]wan_dewa:  41%|####1     | 1450/3500 [1:17:37<1:17:31,  2.27s/it, lr: 2.0e-04 loss: 1.041e-01]wan_dewa:  41%|####1     | 1451/3500 [1:17:37<1:02:38,  1.83s/it, lr: 2.0e-04 loss: 1.041e-01]wan_dewa:  41%|####1     | 1451/3500 [1:17:37<1:02:38,  1.83s/it, lr: 2.0e-04 loss: 1.041e-01]wan_dewa:  41%|####1     | 1451/3500 [1:17:39<1:02:38,  1.83s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  41%|####1     | 1451/3500 [1:17:39<1:02:38,  1.83s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  41%|####1     | 1452/3500 [1:17:39<1:06:20,  1.94s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  41%|####1     | 1452/3500 [1:17:39<1:06:20,  1.94s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  41%|####1     | 1452/3500 [1:17:41<1:06:20,  1.94s/it, lr: 2.0e-04 loss: 7.346e-02]wan_dewa:  41%|####1     | 1452/3500 [1:17:41<1:06:20,  1.94s/it, lr: 2.0e-04 loss: 7.346e-02]wan_dewa:  42%|####1     | 1453/3500 [1:17:41<1:09:18,  2.03s/it, lr: 2.0e-04 loss: 7.346e-02]wan_dewa:  42%|####1     | 1453/3500 [1:17:41<1:09:18,  2.03s/it, lr: 2.0e-04 loss: 7.346e-02]wan_dewa:  42%|####1     | 1453/3500 [1:17:44<1:09:18,  2.03s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  42%|####1     | 1453/3500 [1:17:44<1:09:18,  2.03s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  42%|####1     | 1454/3500 [1:17:44<1:11:33,  2.10s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  42%|####1     | 1454/3500 [1:17:44<1:11:33,  2.10s/it, lr: 2.0e-04 loss: 5.553e-02]wan_dewa:  42%|####1     | 1454/3500 [1:17:46<1:11:33,  2.10s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  42%|####1     | 1454/3500 [1:17:46<1:11:33,  2.10s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  42%|####1     | 1455/3500 [1:17:46<1:13:14,  2.15s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  42%|####1     | 1455/3500 [1:17:46<1:13:14,  2.15s/it, lr: 2.0e-04 loss: 5.386e-02]wan_dewa:  42%|####1     | 1455/3500 [1:17:48<1:13:14,  2.15s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:  42%|####1     | 1455/3500 [1:17:48<1:13:14,  2.15s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:  42%|####1     | 1456/3500 [1:17:48<1:14:29,  2.19s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:  42%|####1     | 1456/3500 [1:17:48<1:14:29,  2.19s/it, lr: 2.0e-04 loss: 1.061e-01]wan_dewa:  42%|####1     | 1456/3500 [1:17:51<1:14:29,  2.19s/it, lr: 2.0e-04 loss: 6.569e-02]wan_dewa:  42%|####1     | 1456/3500 [1:17:51<1:14:29,  2.19s/it, lr: 2.0e-04 loss: 6.569e-02]wan_dewa:  42%|####1     | 1457/3500 [1:17:51<1:17:18,  2.27s/it, lr: 2.0e-04 loss: 6.569e-02]wan_dewa:  42%|####1     | 1457/3500 [1:17:51<1:17:18,  2.27s/it, lr: 2.0e-04 loss: 6.569e-02]wan_dewa:  42%|####1     | 1457/3500 [1:17:53<1:17:18,  2.27s/it, lr: 2.0e-04 loss: 3.189e-02]wan_dewa:  42%|####1     | 1457/3500 [1:17:53<1:17:18,  2.27s/it, lr: 2.0e-04 loss: 3.189e-02]wan_dewa:  42%|####1     | 1458/3500 [1:17:53<1:17:23,  2.27s/it, lr: 2.0e-04 loss: 3.189e-02]wan_dewa:  42%|####1     | 1458/3500 [1:17:53<1:17:23,  2.27s/it, lr: 2.0e-04 loss: 3.189e-02]wan_dewa:  42%|####1     | 1458/3500 [1:17:55<1:17:23,  2.27s/it, lr: 2.0e-04 loss: 7.801e-02]wan_dewa:  42%|####1     | 1458/3500 [1:17:55<1:17:23,  2.27s/it, lr: 2.0e-04 loss: 7.801e-02]wan_dewa:  42%|####1     | 1459/3500 [1:17:55<1:17:25,  2.28s/it, lr: 2.0e-04 loss: 7.801e-02]wan_dewa:  42%|####1     | 1459/3500 [1:17:55<1:17:25,  2.28s/it, lr: 2.0e-04 loss: 7.801e-02]wan_dewa:  42%|####1     | 1459/3500 [1:18:06<1:17:25,  2.28s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  42%|####1     | 1459/3500 [1:18:06<1:17:25,  2.28s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  42%|####1     | 1460/3500 [1:18:08<1:17:23,  2.28s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:  42%|####1     | 1460/3500 [1:18:08<1:17:23,  2.28s/it, lr: 2.0e-04 loss: 5.315e-02]wan_dewa:  42%|####1     | 1461/3500 [1:18:08<59:36,  1.75s/it, lr: 2.0e-04 loss: 5.315e-02]  wan_dewa:  42%|####1     | 1461/3500 [1:18:08<59:36,  1.75s/it, lr: 2.0e-04 loss: 5.315e-02]  wan_dewa:  42%|####1     | 1461/3500 [1:18:11<59:36,  1.75s/it, lr: 2.0e-04 loss: 5.427e-02]wan_dewa:  42%|####1     | 1461/3500 [1:18:11<59:36,  1.75s/it, lr: 2.0e-04 loss: 5.427e-02]wan_dewa:  42%|####1     | 1462/3500 [1:18:11<1:05:29,  1.93s/it, lr: 2.0e-04 loss: 5.427e-02]wan_dewa:  42%|####1     | 1462/3500 [1:18:11<1:05:29,  1.93s/it, lr: 2.0e-04 loss: 5.427e-02]wan_dewa:  42%|####1     | 1462/3500 [1:18:13<1:05:29,  1.93s/it, lr: 2.0e-04 loss: 5.284e-02]wan_dewa:  42%|####1     | 1462/3500 [1:18:13<1:05:29,  1.93s/it, lr: 2.0e-04 loss: 5.284e-02]wan_dewa:  42%|####1     | 1463/3500 [1:18:13<1:08:29,  2.02s/it, lr: 2.0e-04 loss: 5.284e-02]wan_dewa:  42%|####1     | 1463/3500 [1:18:13<1:08:29,  2.02s/it, lr: 2.0e-04 loss: 5.284e-02]wan_dewa:  42%|####1     | 1463/3500 [1:18:15<1:08:29,  2.02s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  42%|####1     | 1463/3500 [1:18:15<1:08:29,  2.02s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  42%|####1     | 1464/3500 [1:18:15<1:10:48,  2.09s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  42%|####1     | 1464/3500 [1:18:15<1:10:48,  2.09s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  42%|####1     | 1464/3500 [1:18:17<1:10:48,  2.09s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  42%|####1     | 1464/3500 [1:18:17<1:10:48,  2.09s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  42%|####1     | 1465/3500 [1:18:18<1:12:30,  2.14s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  42%|####1     | 1465/3500 [1:18:18<1:12:30,  2.14s/it, lr: 2.0e-04 loss: 3.860e-02]wan_dewa:  42%|####1     | 1465/3500 [1:18:20<1:12:30,  2.14s/it, lr: 2.0e-04 loss: 6.692e-02]wan_dewa:  42%|####1     | 1465/3500 [1:18:20<1:12:30,  2.14s/it, lr: 2.0e-04 loss: 6.692e-02]wan_dewa:  42%|####1     | 1466/3500 [1:18:20<1:13:49,  2.18s/it, lr: 2.0e-04 loss: 6.692e-02]wan_dewa:  42%|####1     | 1466/3500 [1:18:20<1:13:49,  2.18s/it, lr: 2.0e-04 loss: 6.692e-02]wan_dewa:  42%|####1     | 1466/3500 [1:18:22<1:13:49,  2.18s/it, lr: 2.0e-04 loss: 5.493e-02]wan_dewa:  42%|####1     | 1466/3500 [1:18:22<1:13:49,  2.18s/it, lr: 2.0e-04 loss: 5.493e-02]wan_dewa:  42%|####1     | 1467/3500 [1:18:22<1:16:30,  2.26s/it, lr: 2.0e-04 loss: 5.493e-02]wan_dewa:  42%|####1     | 1467/3500 [1:18:22<1:16:30,  2.26s/it, lr: 2.0e-04 loss: 5.493e-02]wan_dewa:  42%|####1     | 1467/3500 [1:18:25<1:16:30,  2.26s/it, lr: 2.0e-04 loss: 6.624e-02]wan_dewa:  42%|####1     | 1467/3500 [1:18:25<1:16:30,  2.26s/it, lr: 2.0e-04 loss: 6.624e-02]wan_dewa:  42%|####1     | 1468/3500 [1:18:25<1:16:40,  2.26s/it, lr: 2.0e-04 loss: 6.624e-02]wan_dewa:  42%|####1     | 1468/3500 [1:18:25<1:16:40,  2.26s/it, lr: 2.0e-04 loss: 6.624e-02]wan_dewa:  42%|####1     | 1468/3500 [1:18:27<1:16:40,  2.26s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  42%|####1     | 1468/3500 [1:18:27<1:16:40,  2.26s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  42%|####1     | 1469/3500 [1:18:27<1:16:45,  2.27s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  42%|####1     | 1469/3500 [1:18:27<1:16:45,  2.27s/it, lr: 2.0e-04 loss: 4.683e-02]wan_dewa:  42%|####1     | 1469/3500 [1:18:35<1:16:45,  2.27s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  42%|####1     | 1469/3500 [1:18:35<1:16:45,  2.27s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  42%|####2     | 1470/3500 [1:18:37<1:16:42,  2.27s/it, lr: 2.0e-04 loss: 2.652e-02]wan_dewa:  42%|####2     | 1470/3500 [1:18:37<1:16:42,  2.27s/it, lr: 2.0e-04 loss: 2.652e-02]wan_dewa:  42%|####2     | 1471/3500 [1:18:37<59:16,  1.75s/it, lr: 2.0e-04 loss: 2.652e-02]  wan_dewa:  42%|####2     | 1471/3500 [1:18:37<59:16,  1.75s/it, lr: 2.0e-04 loss: 2.652e-02]  wan_dewa:  42%|####2     | 1471/3500 [1:18:39<59:16,  1.75s/it, lr: 2.0e-04 loss: 2.266e-01]wan_dewa:  42%|####2     | 1471/3500 [1:18:39<59:16,  1.75s/it, lr: 2.0e-04 loss: 2.266e-01]wan_dewa:  42%|####2     | 1472/3500 [1:18:39<1:05:11,  1.93s/it, lr: 2.0e-04 loss: 2.266e-01]wan_dewa:  42%|####2     | 1472/3500 [1:18:39<1:05:11,  1.93s/it, lr: 2.0e-04 loss: 2.266e-01]wan_dewa:  42%|####2     | 1472/3500 [1:18:42<1:05:11,  1.93s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  42%|####2     | 1472/3500 [1:18:42<1:05:11,  1.93s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  42%|####2     | 1473/3500 [1:18:42<1:08:11,  2.02s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  42%|####2     | 1473/3500 [1:18:42<1:08:11,  2.02s/it, lr: 2.0e-04 loss: 4.841e-02]wan_dewa:  42%|####2     | 1473/3500 [1:18:44<1:08:11,  2.02s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  42%|####2     | 1473/3500 [1:18:44<1:08:11,  2.02s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  42%|####2     | 1474/3500 [1:18:44<1:10:30,  2.09s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  42%|####2     | 1474/3500 [1:18:44<1:10:30,  2.09s/it, lr: 2.0e-04 loss: 1.395e-01]wan_dewa:  42%|####2     | 1474/3500 [1:18:48<1:10:30,  2.09s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:  42%|####2     | 1474/3500 [1:18:48<1:10:30,  2.09s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:  42%|####2     | 1475/3500 [1:18:49<1:12:30,  2.15s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:  42%|####2     | 1475/3500 [1:18:49<1:12:30,  2.15s/it, lr: 2.0e-04 loss: 1.160e-01]wan_dewa:  42%|####2     | 1475/3500 [1:18:51<1:12:30,  2.15s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  42%|####2     | 1475/3500 [1:18:51<1:12:30,  2.15s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  42%|####2     | 1476/3500 [1:18:51<1:13:43,  2.19s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  42%|####2     | 1476/3500 [1:18:51<1:13:43,  2.19s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  42%|####2     | 1476/3500 [1:18:53<1:13:43,  2.19s/it, lr: 2.0e-04 loss: 3.537e-02]wan_dewa:  42%|####2     | 1476/3500 [1:18:53<1:13:43,  2.19s/it, lr: 2.0e-04 loss: 3.537e-02]wan_dewa:  42%|####2     | 1477/3500 [1:18:53<1:17:48,  2.31s/it, lr: 2.0e-04 loss: 3.537e-02]wan_dewa:  42%|####2     | 1477/3500 [1:18:53<1:17:48,  2.31s/it, lr: 2.0e-04 loss: 3.537e-02]wan_dewa:  42%|####2     | 1477/3500 [1:18:56<1:17:48,  2.31s/it, lr: 2.0e-04 loss: 7.122e-02]wan_dewa:  42%|####2     | 1477/3500 [1:18:56<1:17:48,  2.31s/it, lr: 2.0e-04 loss: 7.122e-02]wan_dewa:  42%|####2     | 1478/3500 [1:18:56<1:17:26,  2.30s/it, lr: 2.0e-04 loss: 7.122e-02]wan_dewa:  42%|####2     | 1478/3500 [1:18:56<1:17:26,  2.30s/it, lr: 2.0e-04 loss: 7.122e-02]wan_dewa:  42%|####2     | 1478/3500 [1:18:58<1:17:26,  2.30s/it, lr: 2.0e-04 loss: 6.538e-02]wan_dewa:  42%|####2     | 1478/3500 [1:18:58<1:17:26,  2.30s/it, lr: 2.0e-04 loss: 6.538e-02]wan_dewa:  42%|####2     | 1479/3500 [1:18:58<1:17:11,  2.29s/it, lr: 2.0e-04 loss: 6.538e-02]wan_dewa:  42%|####2     | 1479/3500 [1:18:58<1:17:11,  2.29s/it, lr: 2.0e-04 loss: 6.538e-02]wan_dewa:  42%|####2     | 1479/3500 [1:19:09<1:17:11,  2.29s/it, lr: 2.0e-04 loss: 4.296e-02]wan_dewa:  42%|####2     | 1479/3500 [1:19:09<1:17:11,  2.29s/it, lr: 2.0e-04 loss: 4.296e-02]wan_dewa:  42%|####2     | 1480/3500 [1:19:11<1:17:08,  2.29s/it, lr: 2.0e-04 loss: 2.795e-02]wan_dewa:  42%|####2     | 1480/3500 [1:19:11<1:17:08,  2.29s/it, lr: 2.0e-04 loss: 2.795e-02]wan_dewa:  42%|####2     | 1481/3500 [1:19:11<59:25,  1.77s/it, lr: 2.0e-04 loss: 2.795e-02]  wan_dewa:  42%|####2     | 1481/3500 [1:19:11<59:25,  1.77s/it, lr: 2.0e-04 loss: 2.795e-02]  wan_dewa:  42%|####2     | 1481/3500 [1:19:14<59:25,  1.77s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  42%|####2     | 1481/3500 [1:19:14<59:25,  1.77s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  42%|####2     | 1482/3500 [1:19:14<1:05:11,  1.94s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  42%|####2     | 1482/3500 [1:19:14<1:05:11,  1.94s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  42%|####2     | 1482/3500 [1:19:16<1:05:11,  1.94s/it, lr: 2.0e-04 loss: 2.911e-02]wan_dewa:  42%|####2     | 1482/3500 [1:19:16<1:05:11,  1.94s/it, lr: 2.0e-04 loss: 2.911e-02]wan_dewa:  42%|####2     | 1483/3500 [1:19:16<1:08:05,  2.03s/it, lr: 2.0e-04 loss: 2.911e-02]wan_dewa:  42%|####2     | 1483/3500 [1:19:16<1:08:05,  2.03s/it, lr: 2.0e-04 loss: 2.911e-02]wan_dewa:  42%|####2     | 1483/3500 [1:19:18<1:08:05,  2.03s/it, lr: 2.0e-04 loss: 5.270e-02]wan_dewa:  42%|####2     | 1483/3500 [1:19:18<1:08:05,  2.03s/it, lr: 2.0e-04 loss: 5.270e-02]wan_dewa:  42%|####2     | 1484/3500 [1:19:18<1:10:19,  2.09s/it, lr: 2.0e-04 loss: 5.270e-02]wan_dewa:  42%|####2     | 1484/3500 [1:19:18<1:10:19,  2.09s/it, lr: 2.0e-04 loss: 5.270e-02]wan_dewa:  42%|####2     | 1484/3500 [1:19:21<1:10:19,  2.09s/it, lr: 2.0e-04 loss: 5.175e-02]wan_dewa:  42%|####2     | 1484/3500 [1:19:21<1:10:19,  2.09s/it, lr: 2.0e-04 loss: 5.175e-02]wan_dewa:  42%|####2     | 1485/3500 [1:19:21<1:12:06,  2.15s/it, lr: 2.0e-04 loss: 5.175e-02]wan_dewa:  42%|####2     | 1485/3500 [1:19:21<1:12:06,  2.15s/it, lr: 2.0e-04 loss: 5.175e-02]wan_dewa:  42%|####2     | 1485/3500 [1:19:23<1:12:06,  2.15s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:  42%|####2     | 1485/3500 [1:19:23<1:12:06,  2.15s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:  42%|####2     | 1486/3500 [1:19:23<1:13:19,  2.18s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:  42%|####2     | 1486/3500 [1:19:23<1:13:19,  2.18s/it, lr: 2.0e-04 loss: 4.240e-02]wan_dewa:  42%|####2     | 1486/3500 [1:19:25<1:13:19,  2.18s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  42%|####2     | 1486/3500 [1:19:25<1:13:19,  2.18s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  42%|####2     | 1487/3500 [1:19:25<1:16:23,  2.28s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  42%|####2     | 1487/3500 [1:19:25<1:16:23,  2.28s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  42%|####2     | 1487/3500 [1:19:28<1:16:23,  2.28s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  42%|####2     | 1487/3500 [1:19:28<1:16:23,  2.28s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  43%|####2     | 1488/3500 [1:19:28<1:16:21,  2.28s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  43%|####2     | 1488/3500 [1:19:28<1:16:21,  2.28s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  43%|####2     | 1488/3500 [1:19:30<1:16:21,  2.28s/it, lr: 2.0e-04 loss: 6.748e-02]wan_dewa:  43%|####2     | 1488/3500 [1:19:30<1:16:21,  2.28s/it, lr: 2.0e-04 loss: 6.748e-02]wan_dewa:  43%|####2     | 1489/3500 [1:19:30<1:16:20,  2.28s/it, lr: 2.0e-04 loss: 6.748e-02]wan_dewa:  43%|####2     | 1489/3500 [1:19:30<1:16:20,  2.28s/it, lr: 2.0e-04 loss: 6.748e-02]wan_dewa:  43%|####2     | 1489/3500 [1:19:41<1:16:20,  2.28s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  43%|####2     | 1489/3500 [1:19:41<1:16:20,  2.28s/it, lr: 2.0e-04 loss: 6.475e-02]wan_dewa:  43%|####2     | 1490/3500 [1:19:43<1:16:18,  2.28s/it, lr: 2.0e-04 loss: 1.219e-01]wan_dewa:  43%|####2     | 1490/3500 [1:19:43<1:16:18,  2.28s/it, lr: 2.0e-04 loss: 1.219e-01]wan_dewa:  43%|####2     | 1491/3500 [1:19:43<58:47,  1.76s/it, lr: 2.0e-04 loss: 1.219e-01]  wan_dewa:  43%|####2     | 1491/3500 [1:19:43<58:47,  1.76s/it, lr: 2.0e-04 loss: 1.219e-01]  wan_dewa:  43%|####2     | 1491/3500 [1:19:46<58:47,  1.76s/it, lr: 2.0e-04 loss: 8.669e-02]wan_dewa:  43%|####2     | 1491/3500 [1:19:46<58:47,  1.76s/it, lr: 2.0e-04 loss: 8.669e-02]wan_dewa:  43%|####2     | 1492/3500 [1:19:46<1:04:42,  1.93s/it, lr: 2.0e-04 loss: 8.669e-02]wan_dewa:  43%|####2     | 1492/3500 [1:19:46<1:04:42,  1.93s/it, lr: 2.0e-04 loss: 8.669e-02]wan_dewa:  43%|####2     | 1492/3500 [1:19:48<1:04:42,  1.93s/it, lr: 2.0e-04 loss: 5.504e-01]wan_dewa:  43%|####2     | 1492/3500 [1:19:48<1:04:42,  1.93s/it, lr: 2.0e-04 loss: 5.504e-01]wan_dewa:  43%|####2     | 1493/3500 [1:19:48<1:07:38,  2.02s/it, lr: 2.0e-04 loss: 5.504e-01]wan_dewa:  43%|####2     | 1493/3500 [1:19:48<1:07:38,  2.02s/it, lr: 2.0e-04 loss: 5.504e-01]wan_dewa:  43%|####2     | 1493/3500 [1:19:50<1:07:38,  2.02s/it, lr: 2.0e-04 loss: 9.410e-02]wan_dewa:  43%|####2     | 1493/3500 [1:19:50<1:07:38,  2.02s/it, lr: 2.0e-04 loss: 9.410e-02]wan_dewa:  43%|####2     | 1494/3500 [1:19:50<1:09:52,  2.09s/it, lr: 2.0e-04 loss: 9.410e-02]wan_dewa:  43%|####2     | 1494/3500 [1:19:50<1:09:52,  2.09s/it, lr: 2.0e-04 loss: 9.410e-02]wan_dewa:  43%|####2     | 1494/3500 [1:19:53<1:09:52,  2.09s/it, lr: 2.0e-04 loss: 6.264e-02]wan_dewa:  43%|####2     | 1494/3500 [1:19:53<1:09:52,  2.09s/it, lr: 2.0e-04 loss: 6.264e-02]wan_dewa:  43%|####2     | 1495/3500 [1:19:53<1:11:33,  2.14s/it, lr: 2.0e-04 loss: 6.264e-02]wan_dewa:  43%|####2     | 1495/3500 [1:19:53<1:11:33,  2.14s/it, lr: 2.0e-04 loss: 6.264e-02]wan_dewa:  43%|####2     | 1495/3500 [1:19:55<1:11:33,  2.14s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:  43%|####2     | 1495/3500 [1:19:55<1:11:33,  2.14s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:  43%|####2     | 1496/3500 [1:19:55<1:12:48,  2.18s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:  43%|####2     | 1496/3500 [1:19:55<1:12:48,  2.18s/it, lr: 2.0e-04 loss: 8.579e-02]wan_dewa:  43%|####2     | 1496/3500 [1:19:57<1:12:48,  2.18s/it, lr: 2.0e-04 loss: 6.559e-02]wan_dewa:  43%|####2     | 1496/3500 [1:19:57<1:12:48,  2.18s/it, lr: 2.0e-04 loss: 6.559e-02]wan_dewa:  43%|####2     | 1497/3500 [1:19:57<1:13:46,  2.21s/it, lr: 2.0e-04 loss: 6.559e-02]wan_dewa:  43%|####2     | 1497/3500 [1:19:57<1:13:46,  2.21s/it, lr: 2.0e-04 loss: 6.559e-02]wan_dewa:  43%|####2     | 1497/3500 [1:20:00<1:13:46,  2.21s/it, lr: 2.0e-04 loss: 7.562e-02]wan_dewa:  43%|####2     | 1497/3500 [1:20:00<1:13:46,  2.21s/it, lr: 2.0e-04 loss: 7.562e-02]wan_dewa:  43%|####2     | 1498/3500 [1:20:00<1:16:23,  2.29s/it, lr: 2.0e-04 loss: 7.562e-02]wan_dewa:  43%|####2     | 1498/3500 [1:20:00<1:16:23,  2.29s/it, lr: 2.0e-04 loss: 7.562e-02]wan_dewa:  43%|####2     | 1498/3500 [1:20:02<1:16:23,  2.29s/it, lr: 2.0e-04 loss: 7.724e-02]wan_dewa:  43%|####2     | 1498/3500 [1:20:02<1:16:23,  2.29s/it, lr: 2.0e-04 loss: 7.724e-02]wan_dewa:  43%|####2     | 1499/3500 [1:20:02<1:16:16,  2.29s/it, lr: 2.0e-04 loss: 7.724e-02]wan_dewa:  43%|####2     | 1499/3500 [1:20:02<1:16:16,  2.29s/it, lr: 2.0e-04 loss: 7.724e-02]wan_dewa:  43%|####2     | 1499/3500 [1:20:15<1:16:16,  2.29s/it, lr: 2.0e-04 loss: 2.387e-02]wan_dewa:  43%|####2     | 1499/3500 [1:20:15<1:16:16,  2.29s/it, lr: 2.0e-04 loss: 2.387e-02]
+Saving at step 1500
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000001500.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:40,  6.31s/it] 36%|###6      | 9/25 [00:46<01:40,  6.31s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.78s/it] 40%|####      | 10/25 [00:51<01:26,  5.78s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:15,  5.43s/it] 44%|####4     | 11/25 [00:56<01:15,  5.43s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.18s/it] 48%|####8     | 12/25 [01:00<01:07,  5.18s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.72s/it] 68%|######8   | 17/25 [01:23<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.65s/it] 88%|########8 | 22/25 [01:47<00:13,  4.65s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.84s/it]100%|##########| 25/25 [02:01<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:15<06:47, 136.00s/it]Generating Images:  25%|##5       | 1/4 [02:15<06:47, 136.00s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:33,  5.82s/it] 36%|###6      | 9/25 [00:45<01:33,  5.82s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.46s/it] 40%|####      | 10/25 [00:50<01:21,  5.46s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.21s/it] 44%|####4     | 11/25 [00:54<01:12,  5.21s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.04s/it] 48%|####8     | 12/25 [00:59<01:05,  5.04s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.67s/it]100%|##########| 25/25 [02:00<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.25s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.25s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.67s/it] 28%|##8       | 7/25 [00:32<01:23,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.67s/it] 36%|###6      | 9/25 [00:45<01:30,  5.67s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.36s/it] 40%|####      | 10/25 [00:49<01:20,  5.36s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  5.00s/it] 48%|####8     | 12/25 [00:59<01:04,  5.00s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.16s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.16s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.68s/it] 36%|###6      | 9/25 [00:45<01:30,  5.68s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.37s/it] 40%|####      | 10/25 [00:49<01:20,  5.37s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.15s/it] 44%|####4     | 11/25 [00:54<01:12,  5.15s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.00s/it] 48%|####8     | 12/25 [00:59<01:05,  5.00s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.12s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.12s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  43%|####2     | 1500/3500 [1:20:19<1:16:14,  2.29s/it, lr: 2.0e-04 loss: 4.977e-02]wan_dewa:  43%|####2     | 1500/3500 [1:20:19<1:16:14,  2.29s/it, lr: 2.0e-04 loss: 4.977e-02]wan_dewa:  43%|####2     | 1501/3500 [1:20:19<1:12:27,  2.17s/it, lr: 2.0e-04 loss: 4.977e-02]wan_dewa:  43%|####2     | 1501/3500 [1:20:19<1:12:27,  2.17s/it, lr: 2.0e-04 loss: 4.977e-02]wan_dewa:  43%|####2     | 1501/3500 [1:20:21<1:12:27,  2.17s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  43%|####2     | 1501/3500 [1:20:21<1:12:27,  2.17s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  43%|####2     | 1502/3500 [1:20:21<1:13:28,  2.21s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  43%|####2     | 1502/3500 [1:20:21<1:13:28,  2.21s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  43%|####2     | 1502/3500 [1:20:24<1:13:28,  2.21s/it, lr: 2.0e-04 loss: 4.487e-02]wan_dewa:  43%|####2     | 1502/3500 [1:20:24<1:13:28,  2.21s/it, lr: 2.0e-04 loss: 4.487e-02]wan_dewa:  43%|####2     | 1503/3500 [1:20:24<1:14:16,  2.23s/it, lr: 2.0e-04 loss: 4.487e-02]wan_dewa:  43%|####2     | 1503/3500 [1:20:24<1:14:16,  2.23s/it, lr: 2.0e-04 loss: 4.487e-02]wan_dewa:  43%|####2     | 1503/3500 [1:20:26<1:14:16,  2.23s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  43%|####2     | 1503/3500 [1:20:26<1:14:16,  2.23s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  43%|####2     | 1504/3500 [1:20:26<1:14:53,  2.25s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  43%|####2     | 1504/3500 [1:20:26<1:14:53,  2.25s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  43%|####2     | 1504/3500 [1:20:29<1:14:53,  2.25s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  43%|####2     | 1504/3500 [1:20:29<1:14:53,  2.25s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  43%|####3     | 1505/3500 [1:20:29<1:17:04,  2.32s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  43%|####3     | 1505/3500 [1:20:29<1:17:04,  2.32s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  43%|####3     | 1505/3500 [1:20:31<1:17:04,  2.32s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  43%|####3     | 1505/3500 [1:20:31<1:17:04,  2.32s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  43%|####3     | 1506/3500 [1:20:31<1:16:54,  2.31s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  43%|####3     | 1506/3500 [1:20:31<1:16:54,  2.31s/it, lr: 2.0e-04 loss: 4.946e-02]wan_dewa:  43%|####3     | 1506/3500 [1:20:33<1:16:54,  2.31s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  43%|####3     | 1506/3500 [1:20:33<1:16:54,  2.31s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  43%|####3     | 1507/3500 [1:20:33<1:16:44,  2.31s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  43%|####3     | 1507/3500 [1:20:33<1:16:44,  2.31s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  43%|####3     | 1507/3500 [1:20:35<1:16:44,  2.31s/it, lr: 2.0e-04 loss: 3.405e-02]wan_dewa:  43%|####3     | 1507/3500 [1:20:35<1:16:44,  2.31s/it, lr: 2.0e-04 loss: 3.405e-02]wan_dewa:  43%|####3     | 1508/3500 [1:20:36<1:16:39,  2.31s/it, lr: 2.0e-04 loss: 3.405e-02]wan_dewa:  43%|####3     | 1508/3500 [1:20:36<1:16:39,  2.31s/it, lr: 2.0e-04 loss: 3.405e-02]wan_dewa:  43%|####3     | 1508/3500 [1:20:38<1:16:39,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  43%|####3     | 1508/3500 [1:20:38<1:16:39,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  43%|####3     | 1509/3500 [1:20:38<1:16:38,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  43%|####3     | 1509/3500 [1:20:38<1:16:38,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  43%|####3     | 1509/3500 [1:20:44<1:16:38,  2.31s/it, lr: 2.0e-04 loss: 7.093e-02]wan_dewa:  43%|####3     | 1509/3500 [1:20:44<1:16:38,  2.31s/it, lr: 2.0e-04 loss: 7.093e-02]wan_dewa:  43%|####3     | 1510/3500 [1:20:46<1:16:35,  2.31s/it, lr: 2.0e-04 loss: 6.895e-02]wan_dewa:  43%|####3     | 1510/3500 [1:20:46<1:16:35,  2.31s/it, lr: 2.0e-04 loss: 6.895e-02]wan_dewa:  43%|####3     | 1511/3500 [1:20:46<58:56,  1.78s/it, lr: 2.0e-04 loss: 6.895e-02]  wan_dewa:  43%|####3     | 1511/3500 [1:20:46<58:56,  1.78s/it, lr: 2.0e-04 loss: 6.895e-02]  wan_dewa:  43%|####3     | 1511/3500 [1:20:48<58:56,  1.78s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  43%|####3     | 1511/3500 [1:20:48<58:56,  1.78s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  43%|####3     | 1512/3500 [1:20:48<1:03:08,  1.91s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  43%|####3     | 1512/3500 [1:20:48<1:03:08,  1.91s/it, lr: 2.0e-04 loss: 1.034e-01]wan_dewa:  43%|####3     | 1512/3500 [1:20:51<1:03:08,  1.91s/it, lr: 2.0e-04 loss: 5.120e-02]wan_dewa:  43%|####3     | 1512/3500 [1:20:51<1:03:08,  1.91s/it, lr: 2.0e-04 loss: 5.120e-02]wan_dewa:  43%|####3     | 1513/3500 [1:20:51<1:06:28,  2.01s/it, lr: 2.0e-04 loss: 5.120e-02]wan_dewa:  43%|####3     | 1513/3500 [1:20:51<1:06:28,  2.01s/it, lr: 2.0e-04 loss: 5.120e-02]wan_dewa:  43%|####3     | 1513/3500 [1:20:53<1:06:28,  2.01s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  43%|####3     | 1513/3500 [1:20:53<1:06:28,  2.01s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  43%|####3     | 1514/3500 [1:20:53<1:09:05,  2.09s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  43%|####3     | 1514/3500 [1:20:53<1:09:05,  2.09s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  43%|####3     | 1514/3500 [1:20:55<1:09:05,  2.09s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  43%|####3     | 1514/3500 [1:20:55<1:09:05,  2.09s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  43%|####3     | 1515/3500 [1:20:55<1:11:00,  2.15s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  43%|####3     | 1515/3500 [1:20:55<1:11:00,  2.15s/it, lr: 2.0e-04 loss: 1.059e-01]wan_dewa:  43%|####3     | 1515/3500 [1:20:58<1:11:00,  2.15s/it, lr: 2.0e-04 loss: 8.346e-02]wan_dewa:  43%|####3     | 1515/3500 [1:20:58<1:11:00,  2.15s/it, lr: 2.0e-04 loss: 8.346e-02]wan_dewa:  43%|####3     | 1516/3500 [1:20:58<1:14:12,  2.24s/it, lr: 2.0e-04 loss: 8.346e-02]wan_dewa:  43%|####3     | 1516/3500 [1:20:58<1:14:12,  2.24s/it, lr: 2.0e-04 loss: 8.346e-02]wan_dewa:  43%|####3     | 1516/3500 [1:21:00<1:14:12,  2.24s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  43%|####3     | 1516/3500 [1:21:00<1:14:12,  2.24s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  43%|####3     | 1517/3500 [1:21:00<1:14:45,  2.26s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  43%|####3     | 1517/3500 [1:21:00<1:14:45,  2.26s/it, lr: 2.0e-04 loss: 1.664e-01]wan_dewa:  43%|####3     | 1517/3500 [1:21:02<1:14:45,  2.26s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  43%|####3     | 1517/3500 [1:21:02<1:14:45,  2.26s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  43%|####3     | 1518/3500 [1:21:02<1:15:05,  2.27s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  43%|####3     | 1518/3500 [1:21:02<1:15:05,  2.27s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  43%|####3     | 1518/3500 [1:21:05<1:15:05,  2.27s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  43%|####3     | 1518/3500 [1:21:05<1:15:05,  2.27s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  43%|####3     | 1519/3500 [1:21:05<1:15:19,  2.28s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  43%|####3     | 1519/3500 [1:21:05<1:15:19,  2.28s/it, lr: 2.0e-04 loss: 6.044e-02]wan_dewa:  43%|####3     | 1519/3500 [1:21:11<1:15:19,  2.28s/it, lr: 2.0e-04 loss: 4.975e-02]wan_dewa:  43%|####3     | 1519/3500 [1:21:11<1:15:19,  2.28s/it, lr: 2.0e-04 loss: 4.975e-02]wan_dewa:  43%|####3     | 1520/3500 [1:21:13<1:15:16,  2.28s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  43%|####3     | 1520/3500 [1:21:13<1:15:16,  2.28s/it, lr: 2.0e-04 loss: 4.443e-02]wan_dewa:  43%|####3     | 1521/3500 [1:21:13<59:46,  1.81s/it, lr: 2.0e-04 loss: 4.443e-02]  wan_dewa:  43%|####3     | 1521/3500 [1:21:13<59:46,  1.81s/it, lr: 2.0e-04 loss: 4.443e-02]  wan_dewa:  43%|####3     | 1521/3500 [1:21:15<59:46,  1.81s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  43%|####3     | 1521/3500 [1:21:15<59:46,  1.81s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  43%|####3     | 1522/3500 [1:21:15<1:03:42,  1.93s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  43%|####3     | 1522/3500 [1:21:15<1:03:42,  1.93s/it, lr: 2.0e-04 loss: 5.933e-02]wan_dewa:  43%|####3     | 1522/3500 [1:21:18<1:03:42,  1.93s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:  43%|####3     | 1522/3500 [1:21:18<1:03:42,  1.93s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:  44%|####3     | 1523/3500 [1:21:18<1:06:50,  2.03s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:  44%|####3     | 1523/3500 [1:21:18<1:06:50,  2.03s/it, lr: 2.0e-04 loss: 6.915e-02]wan_dewa:  44%|####3     | 1523/3500 [1:21:20<1:06:50,  2.03s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  44%|####3     | 1523/3500 [1:21:20<1:06:50,  2.03s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  44%|####3     | 1524/3500 [1:21:20<1:09:13,  2.10s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  44%|####3     | 1524/3500 [1:21:20<1:09:13,  2.10s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  44%|####3     | 1524/3500 [1:21:25<1:09:13,  2.10s/it, lr: 2.0e-04 loss: 4.428e-02]wan_dewa:  44%|####3     | 1524/3500 [1:21:25<1:09:13,  2.10s/it, lr: 2.0e-04 loss: 4.428e-02]wan_dewa:  44%|####3     | 1525/3500 [1:21:25<1:11:15,  2.16s/it, lr: 2.0e-04 loss: 4.428e-02]wan_dewa:  44%|####3     | 1525/3500 [1:21:25<1:11:15,  2.16s/it, lr: 2.0e-04 loss: 4.428e-02]wan_dewa:  44%|####3     | 1525/3500 [1:21:28<1:11:15,  2.16s/it, lr: 2.0e-04 loss: 4.322e-02]wan_dewa:  44%|####3     | 1525/3500 [1:21:28<1:11:15,  2.16s/it, lr: 2.0e-04 loss: 4.322e-02]wan_dewa:  44%|####3     | 1526/3500 [1:21:28<1:15:44,  2.30s/it, lr: 2.0e-04 loss: 4.322e-02]wan_dewa:  44%|####3     | 1526/3500 [1:21:28<1:15:44,  2.30s/it, lr: 2.0e-04 loss: 4.322e-02]wan_dewa:  44%|####3     | 1526/3500 [1:21:30<1:15:44,  2.30s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  44%|####3     | 1526/3500 [1:21:30<1:15:44,  2.30s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  44%|####3     | 1527/3500 [1:21:30<1:15:37,  2.30s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  44%|####3     | 1527/3500 [1:21:30<1:15:37,  2.30s/it, lr: 2.0e-04 loss: 3.672e-02]wan_dewa:  44%|####3     | 1527/3500 [1:21:32<1:15:37,  2.30s/it, lr: 2.0e-04 loss: 6.146e-02]wan_dewa:  44%|####3     | 1527/3500 [1:21:32<1:15:37,  2.30s/it, lr: 2.0e-04 loss: 6.146e-02]wan_dewa:  44%|####3     | 1528/3500 [1:21:32<1:15:34,  2.30s/it, lr: 2.0e-04 loss: 6.146e-02]wan_dewa:  44%|####3     | 1528/3500 [1:21:32<1:15:34,  2.30s/it, lr: 2.0e-04 loss: 6.146e-02]wan_dewa:  44%|####3     | 1528/3500 [1:21:35<1:15:34,  2.30s/it, lr: 2.0e-04 loss: 5.735e-02]wan_dewa:  44%|####3     | 1528/3500 [1:21:35<1:15:34,  2.30s/it, lr: 2.0e-04 loss: 5.735e-02]wan_dewa:  44%|####3     | 1529/3500 [1:21:35<1:15:31,  2.30s/it, lr: 2.0e-04 loss: 5.735e-02]wan_dewa:  44%|####3     | 1529/3500 [1:21:35<1:15:31,  2.30s/it, lr: 2.0e-04 loss: 5.735e-02]wan_dewa:  44%|####3     | 1529/3500 [1:21:46<1:15:31,  2.30s/it, lr: 2.0e-04 loss: 2.184e-01]wan_dewa:  44%|####3     | 1529/3500 [1:21:46<1:15:31,  2.30s/it, lr: 2.0e-04 loss: 2.184e-01]wan_dewa:  44%|####3     | 1530/3500 [1:21:48<1:15:29,  2.30s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  44%|####3     | 1530/3500 [1:21:48<1:15:29,  2.30s/it, lr: 2.0e-04 loss: 9.773e-02]wan_dewa:  44%|####3     | 1531/3500 [1:21:48<59:18,  1.81s/it, lr: 2.0e-04 loss: 9.773e-02]  wan_dewa:  44%|####3     | 1531/3500 [1:21:48<59:18,  1.81s/it, lr: 2.0e-04 loss: 9.773e-02]  wan_dewa:  44%|####3     | 1531/3500 [1:21:50<59:18,  1.81s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:  44%|####3     | 1531/3500 [1:21:50<59:18,  1.81s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:  44%|####3     | 1532/3500 [1:21:50<1:03:08,  1.92s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:  44%|####3     | 1532/3500 [1:21:50<1:03:08,  1.92s/it, lr: 2.0e-04 loss: 7.129e-02]wan_dewa:  44%|####3     | 1532/3500 [1:21:53<1:03:08,  1.92s/it, lr: 2.0e-04 loss: 2.891e-02]wan_dewa:  44%|####3     | 1532/3500 [1:21:53<1:03:08,  1.92s/it, lr: 2.0e-04 loss: 2.891e-02]wan_dewa:  44%|####3     | 1533/3500 [1:21:53<1:06:10,  2.02s/it, lr: 2.0e-04 loss: 2.891e-02]wan_dewa:  44%|####3     | 1533/3500 [1:21:53<1:06:10,  2.02s/it, lr: 2.0e-04 loss: 2.891e-02]wan_dewa:  44%|####3     | 1533/3500 [1:21:55<1:06:10,  2.02s/it, lr: 2.0e-04 loss: 5.605e-02]wan_dewa:  44%|####3     | 1533/3500 [1:21:55<1:06:10,  2.02s/it, lr: 2.0e-04 loss: 5.605e-02]wan_dewa:  44%|####3     | 1534/3500 [1:21:55<1:08:32,  2.09s/it, lr: 2.0e-04 loss: 5.605e-02]wan_dewa:  44%|####3     | 1534/3500 [1:21:55<1:08:32,  2.09s/it, lr: 2.0e-04 loss: 5.605e-02]wan_dewa:  44%|####3     | 1534/3500 [1:21:57<1:08:32,  2.09s/it, lr: 2.0e-04 loss: 9.404e-02]wan_dewa:  44%|####3     | 1534/3500 [1:21:57<1:08:32,  2.09s/it, lr: 2.0e-04 loss: 9.404e-02]wan_dewa:  44%|####3     | 1535/3500 [1:21:57<1:10:16,  2.15s/it, lr: 2.0e-04 loss: 9.404e-02]wan_dewa:  44%|####3     | 1535/3500 [1:21:57<1:10:16,  2.15s/it, lr: 2.0e-04 loss: 9.404e-02]wan_dewa:  44%|####3     | 1535/3500 [1:21:59<1:10:16,  2.15s/it, lr: 2.0e-04 loss: 7.696e-02]wan_dewa:  44%|####3     | 1535/3500 [1:21:59<1:10:16,  2.15s/it, lr: 2.0e-04 loss: 7.696e-02]wan_dewa:  44%|####3     | 1536/3500 [1:21:59<1:11:33,  2.19s/it, lr: 2.0e-04 loss: 7.696e-02]wan_dewa:  44%|####3     | 1536/3500 [1:21:59<1:11:33,  2.19s/it, lr: 2.0e-04 loss: 7.696e-02]wan_dewa:  44%|####3     | 1536/3500 [1:22:02<1:11:33,  2.19s/it, lr: 2.0e-04 loss: 9.186e-02]wan_dewa:  44%|####3     | 1536/3500 [1:22:02<1:11:33,  2.19s/it, lr: 2.0e-04 loss: 9.186e-02]wan_dewa:  44%|####3     | 1537/3500 [1:22:02<1:14:04,  2.26s/it, lr: 2.0e-04 loss: 9.186e-02]wan_dewa:  44%|####3     | 1537/3500 [1:22:02<1:14:04,  2.26s/it, lr: 2.0e-04 loss: 9.186e-02]wan_dewa:  44%|####3     | 1537/3500 [1:22:04<1:14:04,  2.26s/it, lr: 2.0e-04 loss: 6.198e-02]wan_dewa:  44%|####3     | 1537/3500 [1:22:04<1:14:04,  2.26s/it, lr: 2.0e-04 loss: 6.198e-02]wan_dewa:  44%|####3     | 1538/3500 [1:22:04<1:14:18,  2.27s/it, lr: 2.0e-04 loss: 6.198e-02]wan_dewa:  44%|####3     | 1538/3500 [1:22:04<1:14:18,  2.27s/it, lr: 2.0e-04 loss: 6.198e-02]wan_dewa:  44%|####3     | 1538/3500 [1:22:06<1:14:18,  2.27s/it, lr: 2.0e-04 loss: 4.787e-01]wan_dewa:  44%|####3     | 1538/3500 [1:22:06<1:14:18,  2.27s/it, lr: 2.0e-04 loss: 4.787e-01]wan_dewa:  44%|####3     | 1539/3500 [1:22:06<1:14:25,  2.28s/it, lr: 2.0e-04 loss: 4.787e-01]wan_dewa:  44%|####3     | 1539/3500 [1:22:06<1:14:25,  2.28s/it, lr: 2.0e-04 loss: 4.787e-01]wan_dewa:  44%|####3     | 1539/3500 [1:22:17<1:14:25,  2.28s/it, lr: 2.0e-04 loss: 2.538e-02]wan_dewa:  44%|####3     | 1539/3500 [1:22:17<1:14:25,  2.28s/it, lr: 2.0e-04 loss: 2.538e-02]wan_dewa:  44%|####4     | 1540/3500 [1:22:19<1:14:23,  2.28s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  44%|####4     | 1540/3500 [1:22:19<1:14:23,  2.28s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  44%|####4     | 1541/3500 [1:22:19<57:27,  1.76s/it, lr: 2.0e-04 loss: 4.622e-02]  wan_dewa:  44%|####4     | 1541/3500 [1:22:19<57:27,  1.76s/it, lr: 2.0e-04 loss: 4.622e-02]  wan_dewa:  44%|####4     | 1541/3500 [1:22:22<57:27,  1.76s/it, lr: 2.0e-04 loss: 3.137e-02]wan_dewa:  44%|####4     | 1541/3500 [1:22:22<57:27,  1.76s/it, lr: 2.0e-04 loss: 3.137e-02]wan_dewa:  44%|####4     | 1542/3500 [1:22:22<1:02:48,  1.92s/it, lr: 2.0e-04 loss: 3.137e-02]wan_dewa:  44%|####4     | 1542/3500 [1:22:22<1:02:48,  1.92s/it, lr: 2.0e-04 loss: 3.137e-02]wan_dewa:  44%|####4     | 1542/3500 [1:22:24<1:02:48,  1.92s/it, lr: 2.0e-04 loss: 3.814e-02]wan_dewa:  44%|####4     | 1542/3500 [1:22:24<1:02:48,  1.92s/it, lr: 2.0e-04 loss: 3.814e-02]wan_dewa:  44%|####4     | 1543/3500 [1:22:24<1:05:46,  2.02s/it, lr: 2.0e-04 loss: 3.814e-02]wan_dewa:  44%|####4     | 1543/3500 [1:22:24<1:05:46,  2.02s/it, lr: 2.0e-04 loss: 3.814e-02]wan_dewa:  44%|####4     | 1543/3500 [1:22:26<1:05:46,  2.02s/it, lr: 2.0e-04 loss: 4.858e-02]wan_dewa:  44%|####4     | 1543/3500 [1:22:26<1:05:46,  2.02s/it, lr: 2.0e-04 loss: 4.858e-02]wan_dewa:  44%|####4     | 1544/3500 [1:22:26<1:08:03,  2.09s/it, lr: 2.0e-04 loss: 4.858e-02]wan_dewa:  44%|####4     | 1544/3500 [1:22:26<1:08:03,  2.09s/it, lr: 2.0e-04 loss: 4.858e-02]wan_dewa:  44%|####4     | 1544/3500 [1:22:29<1:08:03,  2.09s/it, lr: 2.0e-04 loss: 2.727e-02]wan_dewa:  44%|####4     | 1544/3500 [1:22:29<1:08:03,  2.09s/it, lr: 2.0e-04 loss: 2.727e-02]wan_dewa:  44%|####4     | 1545/3500 [1:22:29<1:09:45,  2.14s/it, lr: 2.0e-04 loss: 2.727e-02]wan_dewa:  44%|####4     | 1545/3500 [1:22:29<1:09:45,  2.14s/it, lr: 2.0e-04 loss: 2.727e-02]wan_dewa:  44%|####4     | 1545/3500 [1:22:31<1:09:45,  2.14s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  44%|####4     | 1545/3500 [1:22:31<1:09:45,  2.14s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  44%|####4     | 1546/3500 [1:22:31<1:11:01,  2.18s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  44%|####4     | 1546/3500 [1:22:31<1:11:01,  2.18s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  44%|####4     | 1546/3500 [1:22:33<1:11:01,  2.18s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  44%|####4     | 1546/3500 [1:22:33<1:11:01,  2.18s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  44%|####4     | 1547/3500 [1:22:33<1:13:27,  2.26s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  44%|####4     | 1547/3500 [1:22:33<1:13:27,  2.26s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  44%|####4     | 1547/3500 [1:22:36<1:13:27,  2.26s/it, lr: 2.0e-04 loss: 5.035e-02]wan_dewa:  44%|####4     | 1547/3500 [1:22:36<1:13:27,  2.26s/it, lr: 2.0e-04 loss: 5.035e-02]wan_dewa:  44%|####4     | 1548/3500 [1:22:36<1:13:40,  2.26s/it, lr: 2.0e-04 loss: 5.035e-02]wan_dewa:  44%|####4     | 1548/3500 [1:22:36<1:13:40,  2.26s/it, lr: 2.0e-04 loss: 5.035e-02]wan_dewa:  44%|####4     | 1548/3500 [1:22:38<1:13:40,  2.26s/it, lr: 2.0e-04 loss: 5.223e-02]wan_dewa:  44%|####4     | 1548/3500 [1:22:38<1:13:40,  2.26s/it, lr: 2.0e-04 loss: 5.223e-02]wan_dewa:  44%|####4     | 1549/3500 [1:22:38<1:13:47,  2.27s/it, lr: 2.0e-04 loss: 5.223e-02]wan_dewa:  44%|####4     | 1549/3500 [1:22:38<1:13:47,  2.27s/it, lr: 2.0e-04 loss: 5.223e-02]wan_dewa:  44%|####4     | 1549/3500 [1:22:51<1:13:47,  2.27s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  44%|####4     | 1549/3500 [1:22:51<1:13:47,  2.27s/it, lr: 2.0e-04 loss: 9.382e-02]wan_dewa:  44%|####4     | 1550/3500 [1:22:53<1:13:45,  2.27s/it, lr: 2.0e-04 loss: 5.403e-02]wan_dewa:  44%|####4     | 1550/3500 [1:22:53<1:13:45,  2.27s/it, lr: 2.0e-04 loss: 5.403e-02]wan_dewa:  44%|####4     | 1551/3500 [1:22:53<56:58,  1.75s/it, lr: 2.0e-04 loss: 5.403e-02]  wan_dewa:  44%|####4     | 1551/3500 [1:22:53<56:58,  1.75s/it, lr: 2.0e-04 loss: 5.403e-02]  wan_dewa:  44%|####4     | 1551/3500 [1:22:56<56:58,  1.75s/it, lr: 2.0e-04 loss: 6.402e-02]wan_dewa:  44%|####4     | 1551/3500 [1:22:56<56:58,  1.75s/it, lr: 2.0e-04 loss: 6.402e-02]wan_dewa:  44%|####4     | 1552/3500 [1:22:56<1:03:30,  1.96s/it, lr: 2.0e-04 loss: 6.402e-02]wan_dewa:  44%|####4     | 1552/3500 [1:22:56<1:03:30,  1.96s/it, lr: 2.0e-04 loss: 6.402e-02]wan_dewa:  44%|####4     | 1552/3500 [1:22:58<1:03:30,  1.96s/it, lr: 2.0e-04 loss: 1.031e-01]wan_dewa:  44%|####4     | 1552/3500 [1:22:58<1:03:30,  1.96s/it, lr: 2.0e-04 loss: 1.031e-01]wan_dewa:  44%|####4     | 1553/3500 [1:22:58<1:06:07,  2.04s/it, lr: 2.0e-04 loss: 1.031e-01]wan_dewa:  44%|####4     | 1553/3500 [1:22:58<1:06:07,  2.04s/it, lr: 2.0e-04 loss: 1.031e-01]wan_dewa:  44%|####4     | 1553/3500 [1:23:01<1:06:07,  2.04s/it, lr: 2.0e-04 loss: 1.888e-01]wan_dewa:  44%|####4     | 1553/3500 [1:23:01<1:06:07,  2.04s/it, lr: 2.0e-04 loss: 1.888e-01]wan_dewa:  44%|####4     | 1554/3500 [1:23:01<1:08:10,  2.10s/it, lr: 2.0e-04 loss: 1.888e-01]wan_dewa:  44%|####4     | 1554/3500 [1:23:01<1:08:10,  2.10s/it, lr: 2.0e-04 loss: 1.888e-01]wan_dewa:  44%|####4     | 1554/3500 [1:23:03<1:08:10,  2.10s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  44%|####4     | 1554/3500 [1:23:03<1:08:10,  2.10s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  44%|####4     | 1555/3500 [1:23:03<1:09:45,  2.15s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  44%|####4     | 1555/3500 [1:23:03<1:09:45,  2.15s/it, lr: 2.0e-04 loss: 3.269e-02]wan_dewa:  44%|####4     | 1555/3500 [1:23:05<1:09:45,  2.15s/it, lr: 2.0e-04 loss: 4.765e-02]wan_dewa:  44%|####4     | 1555/3500 [1:23:05<1:09:45,  2.15s/it, lr: 2.0e-04 loss: 4.765e-02]wan_dewa:  44%|####4     | 1556/3500 [1:23:05<1:10:52,  2.19s/it, lr: 2.0e-04 loss: 4.765e-02]wan_dewa:  44%|####4     | 1556/3500 [1:23:05<1:10:52,  2.19s/it, lr: 2.0e-04 loss: 4.765e-02]wan_dewa:  44%|####4     | 1556/3500 [1:23:07<1:10:52,  2.19s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  44%|####4     | 1556/3500 [1:23:07<1:10:52,  2.19s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  44%|####4     | 1557/3500 [1:23:07<1:11:39,  2.21s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  44%|####4     | 1557/3500 [1:23:07<1:11:39,  2.21s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  44%|####4     | 1557/3500 [1:23:10<1:11:39,  2.21s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  44%|####4     | 1557/3500 [1:23:10<1:11:39,  2.21s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  45%|####4     | 1558/3500 [1:23:10<1:13:53,  2.28s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  45%|####4     | 1558/3500 [1:23:10<1:13:53,  2.28s/it, lr: 2.0e-04 loss: 1.005e-01]wan_dewa:  45%|####4     | 1558/3500 [1:23:12<1:13:53,  2.28s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  45%|####4     | 1558/3500 [1:23:12<1:13:53,  2.28s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  45%|####4     | 1559/3500 [1:23:12<1:13:47,  2.28s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  45%|####4     | 1559/3500 [1:23:12<1:13:47,  2.28s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  45%|####4     | 1559/3500 [1:23:23<1:13:47,  2.28s/it, lr: 2.0e-04 loss: 4.413e-02]wan_dewa:  45%|####4     | 1559/3500 [1:23:23<1:13:47,  2.28s/it, lr: 2.0e-04 loss: 4.413e-02]wan_dewa:  45%|####4     | 1560/3500 [1:23:26<1:13:45,  2.28s/it, lr: 2.0e-04 loss: 3.279e-02]wan_dewa:  45%|####4     | 1560/3500 [1:23:26<1:13:45,  2.28s/it, lr: 2.0e-04 loss: 3.279e-02]wan_dewa:  45%|####4     | 1561/3500 [1:23:26<56:49,  1.76s/it, lr: 2.0e-04 loss: 3.279e-02]  wan_dewa:  45%|####4     | 1561/3500 [1:23:26<56:49,  1.76s/it, lr: 2.0e-04 loss: 3.279e-02]  wan_dewa:  45%|####4     | 1561/3500 [1:23:28<56:49,  1.76s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  45%|####4     | 1561/3500 [1:23:28<56:49,  1.76s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  45%|####4     | 1562/3500 [1:23:28<1:00:52,  1.88s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  45%|####4     | 1562/3500 [1:23:28<1:00:52,  1.88s/it, lr: 2.0e-04 loss: 2.536e-02]wan_dewa:  45%|####4     | 1562/3500 [1:23:30<1:00:52,  1.88s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  45%|####4     | 1562/3500 [1:23:30<1:00:52,  1.88s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  45%|####4     | 1563/3500 [1:23:30<1:05:35,  2.03s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  45%|####4     | 1563/3500 [1:23:30<1:05:35,  2.03s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  45%|####4     | 1563/3500 [1:23:33<1:05:35,  2.03s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  45%|####4     | 1563/3500 [1:23:33<1:05:35,  2.03s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  45%|####4     | 1564/3500 [1:23:33<1:07:40,  2.10s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  45%|####4     | 1564/3500 [1:23:33<1:07:40,  2.10s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  45%|####4     | 1564/3500 [1:23:35<1:07:40,  2.10s/it, lr: 2.0e-04 loss: 3.318e-02]wan_dewa:  45%|####4     | 1564/3500 [1:23:35<1:07:40,  2.10s/it, lr: 2.0e-04 loss: 3.318e-02]wan_dewa:  45%|####4     | 1565/3500 [1:23:35<1:09:13,  2.15s/it, lr: 2.0e-04 loss: 3.318e-02]wan_dewa:  45%|####4     | 1565/3500 [1:23:35<1:09:13,  2.15s/it, lr: 2.0e-04 loss: 3.318e-02]wan_dewa:  45%|####4     | 1565/3500 [1:23:37<1:09:13,  2.15s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  45%|####4     | 1565/3500 [1:23:37<1:09:13,  2.15s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  45%|####4     | 1566/3500 [1:23:37<1:10:22,  2.18s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  45%|####4     | 1566/3500 [1:23:37<1:10:22,  2.18s/it, lr: 2.0e-04 loss: 4.385e-02]wan_dewa:  45%|####4     | 1566/3500 [1:23:39<1:10:22,  2.18s/it, lr: 2.0e-04 loss: 4.426e-02]wan_dewa:  45%|####4     | 1566/3500 [1:23:39<1:10:22,  2.18s/it, lr: 2.0e-04 loss: 4.426e-02]wan_dewa:  45%|####4     | 1567/3500 [1:23:39<1:11:11,  2.21s/it, lr: 2.0e-04 loss: 4.426e-02]wan_dewa:  45%|####4     | 1567/3500 [1:23:39<1:11:11,  2.21s/it, lr: 2.0e-04 loss: 4.426e-02]wan_dewa:  45%|####4     | 1567/3500 [1:23:42<1:11:11,  2.21s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  45%|####4     | 1567/3500 [1:23:42<1:11:11,  2.21s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  45%|####4     | 1568/3500 [1:23:42<1:13:27,  2.28s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  45%|####4     | 1568/3500 [1:23:42<1:13:27,  2.28s/it, lr: 2.0e-04 loss: 4.660e-02]wan_dewa:  45%|####4     | 1568/3500 [1:23:44<1:13:27,  2.28s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  45%|####4     | 1568/3500 [1:23:44<1:13:27,  2.28s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  45%|####4     | 1569/3500 [1:23:44<1:13:21,  2.28s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  45%|####4     | 1569/3500 [1:23:44<1:13:21,  2.28s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  45%|####4     | 1569/3500 [1:23:52<1:13:21,  2.28s/it, lr: 2.0e-04 loss: 9.139e-02]wan_dewa:  45%|####4     | 1569/3500 [1:23:52<1:13:21,  2.28s/it, lr: 2.0e-04 loss: 9.139e-02]wan_dewa:  45%|####4     | 1570/3500 [1:23:54<1:13:19,  2.28s/it, lr: 2.0e-04 loss: 1.309e-01]wan_dewa:  45%|####4     | 1570/3500 [1:23:54<1:13:19,  2.28s/it, lr: 2.0e-04 loss: 1.309e-01]wan_dewa:  45%|####4     | 1571/3500 [1:23:54<56:35,  1.76s/it, lr: 2.0e-04 loss: 1.309e-01]  wan_dewa:  45%|####4     | 1571/3500 [1:23:54<56:35,  1.76s/it, lr: 2.0e-04 loss: 1.309e-01]  wan_dewa:  45%|####4     | 1571/3500 [1:23:56<56:35,  1.76s/it, lr: 2.0e-04 loss: 2.083e-01]wan_dewa:  45%|####4     | 1571/3500 [1:23:56<56:35,  1.76s/it, lr: 2.0e-04 loss: 2.083e-01]wan_dewa:  45%|####4     | 1572/3500 [1:23:56<1:00:40,  1.89s/it, lr: 2.0e-04 loss: 2.083e-01]wan_dewa:  45%|####4     | 1572/3500 [1:23:56<1:00:40,  1.89s/it, lr: 2.0e-04 loss: 2.083e-01]wan_dewa:  45%|####4     | 1572/3500 [1:23:59<1:00:40,  1.89s/it, lr: 2.0e-04 loss: 1.173e-01]wan_dewa:  45%|####4     | 1572/3500 [1:23:59<1:00:40,  1.89s/it, lr: 2.0e-04 loss: 1.173e-01]wan_dewa:  45%|####4     | 1573/3500 [1:23:59<1:05:18,  2.03s/it, lr: 2.0e-04 loss: 1.173e-01]wan_dewa:  45%|####4     | 1573/3500 [1:23:59<1:05:18,  2.03s/it, lr: 2.0e-04 loss: 1.173e-01]wan_dewa:  45%|####4     | 1573/3500 [1:24:01<1:05:18,  2.03s/it, lr: 2.0e-04 loss: 1.592e-01]wan_dewa:  45%|####4     | 1573/3500 [1:24:01<1:05:18,  2.03s/it, lr: 2.0e-04 loss: 1.592e-01]wan_dewa:  45%|####4     | 1574/3500 [1:24:01<1:07:28,  2.10s/it, lr: 2.0e-04 loss: 1.592e-01]wan_dewa:  45%|####4     | 1574/3500 [1:24:01<1:07:28,  2.10s/it, lr: 2.0e-04 loss: 1.592e-01]wan_dewa:  45%|####4     | 1574/3500 [1:24:06<1:07:28,  2.10s/it, lr: 2.0e-04 loss: 8.971e-02]wan_dewa:  45%|####4     | 1574/3500 [1:24:06<1:07:28,  2.10s/it, lr: 2.0e-04 loss: 8.971e-02]wan_dewa:  45%|####5     | 1575/3500 [1:24:06<1:09:14,  2.16s/it, lr: 2.0e-04 loss: 8.971e-02]wan_dewa:  45%|####5     | 1575/3500 [1:24:06<1:09:14,  2.16s/it, lr: 2.0e-04 loss: 8.971e-02]wan_dewa:  45%|####5     | 1575/3500 [1:24:08<1:09:14,  2.16s/it, lr: 2.0e-04 loss: 3.171e-02]wan_dewa:  45%|####5     | 1575/3500 [1:24:08<1:09:14,  2.16s/it, lr: 2.0e-04 loss: 3.171e-02]wan_dewa:  45%|####5     | 1576/3500 [1:24:08<1:10:16,  2.19s/it, lr: 2.0e-04 loss: 3.171e-02]wan_dewa:  45%|####5     | 1576/3500 [1:24:08<1:10:16,  2.19s/it, lr: 2.0e-04 loss: 3.171e-02]wan_dewa:  45%|####5     | 1576/3500 [1:24:10<1:10:16,  2.19s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  45%|####5     | 1576/3500 [1:24:10<1:10:16,  2.19s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  45%|####5     | 1577/3500 [1:24:10<1:11:00,  2.22s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  45%|####5     | 1577/3500 [1:24:10<1:11:00,  2.22s/it, lr: 2.0e-04 loss: 6.656e-02]wan_dewa:  45%|####5     | 1577/3500 [1:24:13<1:11:00,  2.22s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  45%|####5     | 1577/3500 [1:24:13<1:11:00,  2.22s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  45%|####5     | 1578/3500 [1:24:13<1:14:21,  2.32s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  45%|####5     | 1578/3500 [1:24:13<1:14:21,  2.32s/it, lr: 2.0e-04 loss: 6.350e-02]wan_dewa:  45%|####5     | 1578/3500 [1:24:24<1:14:21,  2.32s/it, lr: 2.0e-04 loss: 2.975e-02]wan_dewa:  45%|####5     | 1578/3500 [1:24:24<1:14:21,  2.32s/it, lr: 2.0e-04 loss: 2.975e-02]wan_dewa:  45%|####5     | 1579/3500 [1:24:24<2:35:33,  4.86s/it, lr: 2.0e-04 loss: 2.975e-02]wan_dewa:  45%|####5     | 1579/3500 [1:24:24<2:35:33,  4.86s/it, lr: 2.0e-04 loss: 2.975e-02]wan_dewa:  45%|####5     | 1579/3500 [1:24:26<2:35:33,  4.86s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  45%|####5     | 1579/3500 [1:24:26<2:35:33,  4.86s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  45%|####5     | 1580/3500 [1:24:28<2:35:28,  4.86s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  45%|####5     | 1580/3500 [1:24:28<2:35:28,  4.86s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  45%|####5     | 1581/3500 [1:24:28<1:40:55,  3.16s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  45%|####5     | 1581/3500 [1:24:28<1:40:55,  3.16s/it, lr: 2.0e-04 loss: 2.583e-02]wan_dewa:  45%|####5     | 1581/3500 [1:24:31<1:40:55,  3.16s/it, lr: 2.0e-04 loss: 6.409e-02]wan_dewa:  45%|####5     | 1581/3500 [1:24:31<1:40:55,  3.16s/it, lr: 2.0e-04 loss: 6.409e-02]wan_dewa:  45%|####5     | 1582/3500 [1:24:31<1:33:54,  2.94s/it, lr: 2.0e-04 loss: 6.409e-02]wan_dewa:  45%|####5     | 1582/3500 [1:24:31<1:33:54,  2.94s/it, lr: 2.0e-04 loss: 6.409e-02]wan_dewa:  45%|####5     | 1582/3500 [1:24:33<1:33:54,  2.94s/it, lr: 2.0e-04 loss: 4.293e-02]wan_dewa:  45%|####5     | 1582/3500 [1:24:33<1:33:54,  2.94s/it, lr: 2.0e-04 loss: 4.293e-02]wan_dewa:  45%|####5     | 1583/3500 [1:24:33<1:29:42,  2.81s/it, lr: 2.0e-04 loss: 4.293e-02]wan_dewa:  45%|####5     | 1583/3500 [1:24:33<1:29:42,  2.81s/it, lr: 2.0e-04 loss: 4.293e-02]wan_dewa:  45%|####5     | 1583/3500 [1:24:35<1:29:42,  2.81s/it, lr: 2.0e-04 loss: 2.825e-02]wan_dewa:  45%|####5     | 1583/3500 [1:24:35<1:29:42,  2.81s/it, lr: 2.0e-04 loss: 2.825e-02]wan_dewa:  45%|####5     | 1584/3500 [1:24:35<1:25:01,  2.66s/it, lr: 2.0e-04 loss: 2.825e-02]wan_dewa:  45%|####5     | 1584/3500 [1:24:35<1:25:01,  2.66s/it, lr: 2.0e-04 loss: 2.825e-02]wan_dewa:  45%|####5     | 1584/3500 [1:24:38<1:25:01,  2.66s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  45%|####5     | 1584/3500 [1:24:38<1:25:01,  2.66s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  45%|####5     | 1585/3500 [1:24:38<1:21:29,  2.55s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  45%|####5     | 1585/3500 [1:24:38<1:21:29,  2.55s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  45%|####5     | 1585/3500 [1:24:40<1:21:29,  2.55s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  45%|####5     | 1585/3500 [1:24:40<1:21:29,  2.55s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  45%|####5     | 1586/3500 [1:24:40<1:18:53,  2.47s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  45%|####5     | 1586/3500 [1:24:40<1:18:53,  2.47s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  45%|####5     | 1586/3500 [1:24:42<1:18:53,  2.47s/it, lr: 2.0e-04 loss: 6.037e-02]wan_dewa:  45%|####5     | 1586/3500 [1:24:42<1:18:53,  2.47s/it, lr: 2.0e-04 loss: 6.037e-02]wan_dewa:  45%|####5     | 1587/3500 [1:24:42<1:17:01,  2.42s/it, lr: 2.0e-04 loss: 6.037e-02]wan_dewa:  45%|####5     | 1587/3500 [1:24:42<1:17:01,  2.42s/it, lr: 2.0e-04 loss: 6.037e-02]wan_dewa:  45%|####5     | 1587/3500 [1:24:45<1:17:01,  2.42s/it, lr: 2.0e-04 loss: 5.530e-02]wan_dewa:  45%|####5     | 1587/3500 [1:24:45<1:17:01,  2.42s/it, lr: 2.0e-04 loss: 5.530e-02]wan_dewa:  45%|####5     | 1588/3500 [1:24:45<1:17:14,  2.42s/it, lr: 2.0e-04 loss: 5.530e-02]wan_dewa:  45%|####5     | 1588/3500 [1:24:45<1:17:14,  2.42s/it, lr: 2.0e-04 loss: 5.530e-02]wan_dewa:  45%|####5     | 1588/3500 [1:24:47<1:17:14,  2.42s/it, lr: 2.0e-04 loss: 4.288e-02]wan_dewa:  45%|####5     | 1588/3500 [1:24:47<1:17:14,  2.42s/it, lr: 2.0e-04 loss: 4.288e-02]wan_dewa:  45%|####5     | 1589/3500 [1:24:47<1:15:49,  2.38s/it, lr: 2.0e-04 loss: 4.288e-02]wan_dewa:  45%|####5     | 1589/3500 [1:24:47<1:15:49,  2.38s/it, lr: 2.0e-04 loss: 4.288e-02]wan_dewa:  45%|####5     | 1589/3500 [1:24:58<1:15:49,  2.38s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  45%|####5     | 1589/3500 [1:24:58<1:15:49,  2.38s/it, lr: 2.0e-04 loss: 5.779e-02]wan_dewa:  45%|####5     | 1590/3500 [1:25:00<1:15:47,  2.38s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  45%|####5     | 1590/3500 [1:25:00<1:15:47,  2.38s/it, lr: 2.0e-04 loss: 6.213e-02]wan_dewa:  45%|####5     | 1591/3500 [1:25:00<57:40,  1.81s/it, lr: 2.0e-04 loss: 6.213e-02]  wan_dewa:  45%|####5     | 1591/3500 [1:25:00<57:40,  1.81s/it, lr: 2.0e-04 loss: 6.213e-02]  wan_dewa:  45%|####5     | 1591/3500 [1:25:03<57:40,  1.81s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  45%|####5     | 1591/3500 [1:25:03<57:40,  1.81s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  45%|####5     | 1592/3500 [1:25:03<1:01:17,  1.93s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  45%|####5     | 1592/3500 [1:25:03<1:01:17,  1.93s/it, lr: 2.0e-04 loss: 8.022e-02]wan_dewa:  45%|####5     | 1592/3500 [1:25:05<1:01:17,  1.93s/it, lr: 2.0e-04 loss: 8.792e-02]wan_dewa:  45%|####5     | 1592/3500 [1:25:05<1:01:17,  1.93s/it, lr: 2.0e-04 loss: 8.792e-02]wan_dewa:  46%|####5     | 1593/3500 [1:25:05<1:05:34,  2.06s/it, lr: 2.0e-04 loss: 8.792e-02]wan_dewa:  46%|####5     | 1593/3500 [1:25:05<1:05:34,  2.06s/it, lr: 2.0e-04 loss: 8.792e-02]wan_dewa:  46%|####5     | 1593/3500 [1:25:07<1:05:34,  2.06s/it, lr: 2.0e-04 loss: 4.098e-02]wan_dewa:  46%|####5     | 1593/3500 [1:25:07<1:05:34,  2.06s/it, lr: 2.0e-04 loss: 4.098e-02]wan_dewa:  46%|####5     | 1594/3500 [1:25:07<1:07:25,  2.12s/it, lr: 2.0e-04 loss: 4.098e-02]wan_dewa:  46%|####5     | 1594/3500 [1:25:07<1:07:25,  2.12s/it, lr: 2.0e-04 loss: 4.098e-02]wan_dewa:  46%|####5     | 1594/3500 [1:25:10<1:07:25,  2.12s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  46%|####5     | 1594/3500 [1:25:10<1:07:25,  2.12s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  46%|####5     | 1595/3500 [1:25:10<1:08:48,  2.17s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  46%|####5     | 1595/3500 [1:25:10<1:08:48,  2.17s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  46%|####5     | 1595/3500 [1:25:12<1:08:48,  2.17s/it, lr: 2.0e-04 loss: 1.870e-01]wan_dewa:  46%|####5     | 1595/3500 [1:25:12<1:08:48,  2.17s/it, lr: 2.0e-04 loss: 1.870e-01]wan_dewa:  46%|####5     | 1596/3500 [1:25:12<1:09:48,  2.20s/it, lr: 2.0e-04 loss: 1.870e-01]wan_dewa:  46%|####5     | 1596/3500 [1:25:12<1:09:48,  2.20s/it, lr: 2.0e-04 loss: 1.870e-01]wan_dewa:  46%|####5     | 1596/3500 [1:25:14<1:09:48,  2.20s/it, lr: 2.0e-04 loss: 6.414e-02]wan_dewa:  46%|####5     | 1596/3500 [1:25:14<1:09:48,  2.20s/it, lr: 2.0e-04 loss: 6.414e-02]wan_dewa:  46%|####5     | 1597/3500 [1:25:14<1:10:32,  2.22s/it, lr: 2.0e-04 loss: 6.414e-02]wan_dewa:  46%|####5     | 1597/3500 [1:25:14<1:10:32,  2.22s/it, lr: 2.0e-04 loss: 6.414e-02]wan_dewa:  46%|####5     | 1597/3500 [1:25:17<1:10:32,  2.22s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  46%|####5     | 1597/3500 [1:25:17<1:10:32,  2.22s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  46%|####5     | 1598/3500 [1:25:17<1:12:38,  2.29s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  46%|####5     | 1598/3500 [1:25:17<1:12:38,  2.29s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  46%|####5     | 1598/3500 [1:25:19<1:12:38,  2.29s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  46%|####5     | 1598/3500 [1:25:19<1:12:38,  2.29s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  46%|####5     | 1599/3500 [1:25:19<1:12:31,  2.29s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  46%|####5     | 1599/3500 [1:25:19<1:12:31,  2.29s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  46%|####5     | 1599/3500 [1:25:32<1:12:31,  2.29s/it, lr: 2.0e-04 loss: 2.882e-02]wan_dewa:  46%|####5     | 1599/3500 [1:25:32<1:12:31,  2.29s/it, lr: 2.0e-04 loss: 2.882e-02]wan_dewa:  46%|####5     | 1600/3500 [1:25:34<1:12:29,  2.29s/it, lr: 2.0e-04 loss: 5.963e-02]wan_dewa:  46%|####5     | 1600/3500 [1:25:34<1:12:29,  2.29s/it, lr: 2.0e-04 loss: 5.963e-02]wan_dewa:  46%|####5     | 1601/3500 [1:25:34<55:52,  1.77s/it, lr: 2.0e-04 loss: 5.963e-02]  wan_dewa:  46%|####5     | 1601/3500 [1:25:34<55:52,  1.77s/it, lr: 2.0e-04 loss: 5.963e-02]  wan_dewa:  46%|####5     | 1601/3500 [1:25:37<55:52,  1.77s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  46%|####5     | 1601/3500 [1:25:37<55:52,  1.77s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  46%|####5     | 1602/3500 [1:25:37<59:48,  1.89s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  46%|####5     | 1602/3500 [1:25:37<59:48,  1.89s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  46%|####5     | 1602/3500 [1:25:39<59:48,  1.89s/it, lr: 2.0e-04 loss: 4.192e-02]wan_dewa:  46%|####5     | 1602/3500 [1:25:39<59:48,  1.89s/it, lr: 2.0e-04 loss: 4.192e-02]wan_dewa:  46%|####5     | 1603/3500 [1:25:39<1:05:20,  2.07s/it, lr: 2.0e-04 loss: 4.192e-02]wan_dewa:  46%|####5     | 1603/3500 [1:25:39<1:05:20,  2.07s/it, lr: 2.0e-04 loss: 4.192e-02]wan_dewa:  46%|####5     | 1603/3500 [1:25:42<1:05:20,  2.07s/it, lr: 2.0e-04 loss: 5.246e-02]wan_dewa:  46%|####5     | 1603/3500 [1:25:42<1:05:20,  2.07s/it, lr: 2.0e-04 loss: 5.246e-02]wan_dewa:  46%|####5     | 1604/3500 [1:25:42<1:07:05,  2.12s/it, lr: 2.0e-04 loss: 5.246e-02]wan_dewa:  46%|####5     | 1604/3500 [1:25:42<1:07:05,  2.12s/it, lr: 2.0e-04 loss: 5.246e-02]wan_dewa:  46%|####5     | 1604/3500 [1:25:44<1:07:05,  2.12s/it, lr: 2.0e-04 loss: 5.466e-02]wan_dewa:  46%|####5     | 1604/3500 [1:25:44<1:07:05,  2.12s/it, lr: 2.0e-04 loss: 5.466e-02]wan_dewa:  46%|####5     | 1605/3500 [1:25:44<1:08:27,  2.17s/it, lr: 2.0e-04 loss: 5.466e-02]wan_dewa:  46%|####5     | 1605/3500 [1:25:44<1:08:27,  2.17s/it, lr: 2.0e-04 loss: 5.466e-02]wan_dewa:  46%|####5     | 1605/3500 [1:25:46<1:08:27,  2.17s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  46%|####5     | 1605/3500 [1:25:46<1:08:27,  2.17s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  46%|####5     | 1606/3500 [1:25:46<1:09:24,  2.20s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  46%|####5     | 1606/3500 [1:25:46<1:09:24,  2.20s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  46%|####5     | 1606/3500 [1:25:48<1:09:24,  2.20s/it, lr: 2.0e-04 loss: 4.642e-02]wan_dewa:  46%|####5     | 1606/3500 [1:25:48<1:09:24,  2.20s/it, lr: 2.0e-04 loss: 4.642e-02]wan_dewa:  46%|####5     | 1607/3500 [1:25:48<1:10:06,  2.22s/it, lr: 2.0e-04 loss: 4.642e-02]wan_dewa:  46%|####5     | 1607/3500 [1:25:48<1:10:06,  2.22s/it, lr: 2.0e-04 loss: 4.642e-02]wan_dewa:  46%|####5     | 1607/3500 [1:25:51<1:10:06,  2.22s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  46%|####5     | 1607/3500 [1:25:51<1:10:06,  2.22s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  46%|####5     | 1608/3500 [1:25:51<1:12:13,  2.29s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  46%|####5     | 1608/3500 [1:25:51<1:12:13,  2.29s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  46%|####5     | 1608/3500 [1:25:53<1:12:13,  2.29s/it, lr: 2.0e-04 loss: 4.471e-02]wan_dewa:  46%|####5     | 1608/3500 [1:25:53<1:12:13,  2.29s/it, lr: 2.0e-04 loss: 4.471e-02]wan_dewa:  46%|####5     | 1609/3500 [1:25:53<1:12:06,  2.29s/it, lr: 2.0e-04 loss: 4.471e-02]wan_dewa:  46%|####5     | 1609/3500 [1:25:53<1:12:06,  2.29s/it, lr: 2.0e-04 loss: 4.471e-02]wan_dewa:  46%|####5     | 1609/3500 [1:26:04<1:12:06,  2.29s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  46%|####5     | 1609/3500 [1:26:04<1:12:06,  2.29s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  46%|####6     | 1610/3500 [1:26:07<1:12:04,  2.29s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  46%|####6     | 1610/3500 [1:26:07<1:12:04,  2.29s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  46%|####6     | 1611/3500 [1:26:07<55:27,  1.76s/it, lr: 2.0e-04 loss: 3.088e-02]  wan_dewa:  46%|####6     | 1611/3500 [1:26:07<55:27,  1.76s/it, lr: 2.0e-04 loss: 3.088e-02]  wan_dewa:  46%|####6     | 1611/3500 [1:26:09<55:27,  1.76s/it, lr: 2.0e-04 loss: 3.040e-01]wan_dewa:  46%|####6     | 1611/3500 [1:26:09<55:27,  1.76s/it, lr: 2.0e-04 loss: 3.040e-01]wan_dewa:  46%|####6     | 1612/3500 [1:26:09<59:24,  1.89s/it, lr: 2.0e-04 loss: 3.040e-01]wan_dewa:  46%|####6     | 1612/3500 [1:26:09<59:24,  1.89s/it, lr: 2.0e-04 loss: 3.040e-01]wan_dewa:  46%|####6     | 1612/3500 [1:26:11<59:24,  1.89s/it, lr: 2.0e-04 loss: 6.250e-02]wan_dewa:  46%|####6     | 1612/3500 [1:26:11<59:24,  1.89s/it, lr: 2.0e-04 loss: 6.250e-02]wan_dewa:  46%|####6     | 1613/3500 [1:26:11<1:02:32,  1.99s/it, lr: 2.0e-04 loss: 6.250e-02]wan_dewa:  46%|####6     | 1613/3500 [1:26:11<1:02:32,  1.99s/it, lr: 2.0e-04 loss: 6.250e-02]wan_dewa:  46%|####6     | 1613/3500 [1:26:14<1:02:32,  1.99s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  46%|####6     | 1613/3500 [1:26:14<1:02:32,  1.99s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  46%|####6     | 1614/3500 [1:26:14<1:06:47,  2.12s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  46%|####6     | 1614/3500 [1:26:14<1:06:47,  2.12s/it, lr: 2.0e-04 loss: 5.567e-02]wan_dewa:  46%|####6     | 1614/3500 [1:26:16<1:06:47,  2.12s/it, lr: 2.0e-04 loss: 2.997e-02]wan_dewa:  46%|####6     | 1614/3500 [1:26:16<1:06:47,  2.12s/it, lr: 2.0e-04 loss: 2.997e-02]wan_dewa:  46%|####6     | 1615/3500 [1:26:16<1:08:03,  2.17s/it, lr: 2.0e-04 loss: 2.997e-02]wan_dewa:  46%|####6     | 1615/3500 [1:26:16<1:08:03,  2.17s/it, lr: 2.0e-04 loss: 2.997e-02]wan_dewa:  46%|####6     | 1615/3500 [1:26:18<1:08:03,  2.17s/it, lr: 2.0e-04 loss: 9.372e-02]wan_dewa:  46%|####6     | 1615/3500 [1:26:18<1:08:03,  2.17s/it, lr: 2.0e-04 loss: 9.372e-02]wan_dewa:  46%|####6     | 1616/3500 [1:26:18<1:08:59,  2.20s/it, lr: 2.0e-04 loss: 9.372e-02]wan_dewa:  46%|####6     | 1616/3500 [1:26:18<1:08:59,  2.20s/it, lr: 2.0e-04 loss: 9.372e-02]wan_dewa:  46%|####6     | 1616/3500 [1:26:20<1:08:59,  2.20s/it, lr: 2.0e-04 loss: 2.052e-01]wan_dewa:  46%|####6     | 1616/3500 [1:26:20<1:08:59,  2.20s/it, lr: 2.0e-04 loss: 2.052e-01]wan_dewa:  46%|####6     | 1617/3500 [1:26:20<1:09:43,  2.22s/it, lr: 2.0e-04 loss: 2.052e-01]wan_dewa:  46%|####6     | 1617/3500 [1:26:20<1:09:43,  2.22s/it, lr: 2.0e-04 loss: 2.052e-01]wan_dewa:  46%|####6     | 1617/3500 [1:26:23<1:09:43,  2.22s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  46%|####6     | 1617/3500 [1:26:23<1:09:43,  2.22s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  46%|####6     | 1618/3500 [1:26:23<1:10:10,  2.24s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  46%|####6     | 1618/3500 [1:26:23<1:10:10,  2.24s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  46%|####6     | 1618/3500 [1:26:25<1:10:10,  2.24s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  46%|####6     | 1618/3500 [1:26:25<1:10:10,  2.24s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  46%|####6     | 1619/3500 [1:26:25<1:12:13,  2.30s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  46%|####6     | 1619/3500 [1:26:25<1:12:13,  2.30s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  46%|####6     | 1619/3500 [1:26:33<1:12:13,  2.30s/it, lr: 2.0e-04 loss: 5.257e-02]wan_dewa:  46%|####6     | 1619/3500 [1:26:33<1:12:13,  2.30s/it, lr: 2.0e-04 loss: 5.257e-02]wan_dewa:  46%|####6     | 1620/3500 [1:26:36<1:12:10,  2.30s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  46%|####6     | 1620/3500 [1:26:36<1:12:10,  2.30s/it, lr: 2.0e-04 loss: 5.647e-02]wan_dewa:  46%|####6     | 1621/3500 [1:26:36<55:27,  1.77s/it, lr: 2.0e-04 loss: 5.647e-02]  wan_dewa:  46%|####6     | 1621/3500 [1:26:36<55:27,  1.77s/it, lr: 2.0e-04 loss: 5.647e-02]  wan_dewa:  46%|####6     | 1621/3500 [1:26:38<55:27,  1.77s/it, lr: 2.0e-04 loss: 5.318e-02]wan_dewa:  46%|####6     | 1621/3500 [1:26:38<55:27,  1.77s/it, lr: 2.0e-04 loss: 5.318e-02]wan_dewa:  46%|####6     | 1622/3500 [1:26:38<59:20,  1.90s/it, lr: 2.0e-04 loss: 5.318e-02]wan_dewa:  46%|####6     | 1622/3500 [1:26:38<59:20,  1.90s/it, lr: 2.0e-04 loss: 5.318e-02]wan_dewa:  46%|####6     | 1622/3500 [1:26:40<59:20,  1.90s/it, lr: 2.0e-04 loss: 2.539e-02]wan_dewa:  46%|####6     | 1622/3500 [1:26:40<59:20,  1.90s/it, lr: 2.0e-04 loss: 2.539e-02]wan_dewa:  46%|####6     | 1623/3500 [1:26:40<1:02:25,  2.00s/it, lr: 2.0e-04 loss: 2.539e-02]wan_dewa:  46%|####6     | 1623/3500 [1:26:40<1:02:25,  2.00s/it, lr: 2.0e-04 loss: 2.539e-02]wan_dewa:  46%|####6     | 1623/3500 [1:26:43<1:02:25,  2.00s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  46%|####6     | 1623/3500 [1:26:43<1:02:25,  2.00s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  46%|####6     | 1624/3500 [1:26:43<1:06:23,  2.12s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  46%|####6     | 1624/3500 [1:26:43<1:06:23,  2.12s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  46%|####6     | 1624/3500 [1:26:47<1:06:23,  2.12s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  46%|####6     | 1624/3500 [1:26:47<1:06:23,  2.12s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  46%|####6     | 1625/3500 [1:26:47<1:07:57,  2.17s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  46%|####6     | 1625/3500 [1:26:47<1:07:57,  2.17s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  46%|####6     | 1625/3500 [1:26:49<1:07:57,  2.17s/it, lr: 2.0e-04 loss: 2.367e-02]wan_dewa:  46%|####6     | 1625/3500 [1:26:49<1:07:57,  2.17s/it, lr: 2.0e-04 loss: 2.367e-02]wan_dewa:  46%|####6     | 1626/3500 [1:26:49<1:08:56,  2.21s/it, lr: 2.0e-04 loss: 2.367e-02]wan_dewa:  46%|####6     | 1626/3500 [1:26:49<1:08:56,  2.21s/it, lr: 2.0e-04 loss: 2.367e-02]wan_dewa:  46%|####6     | 1626/3500 [1:26:52<1:08:56,  2.21s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  46%|####6     | 1626/3500 [1:26:52<1:08:56,  2.21s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  46%|####6     | 1627/3500 [1:26:52<1:09:34,  2.23s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  46%|####6     | 1627/3500 [1:26:52<1:09:34,  2.23s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  46%|####6     | 1627/3500 [1:26:54<1:09:34,  2.23s/it, lr: 2.0e-04 loss: 5.144e-02]wan_dewa:  46%|####6     | 1627/3500 [1:26:54<1:09:34,  2.23s/it, lr: 2.0e-04 loss: 5.144e-02]wan_dewa:  47%|####6     | 1628/3500 [1:26:54<1:10:02,  2.24s/it, lr: 2.0e-04 loss: 5.144e-02]wan_dewa:  47%|####6     | 1628/3500 [1:26:54<1:10:02,  2.24s/it, lr: 2.0e-04 loss: 5.144e-02]wan_dewa:  47%|####6     | 1628/3500 [1:26:57<1:10:02,  2.24s/it, lr: 2.0e-04 loss: 4.252e-02]wan_dewa:  47%|####6     | 1628/3500 [1:26:57<1:10:02,  2.24s/it, lr: 2.0e-04 loss: 4.252e-02]wan_dewa:  47%|####6     | 1629/3500 [1:26:57<1:13:27,  2.36s/it, lr: 2.0e-04 loss: 4.252e-02]wan_dewa:  47%|####6     | 1629/3500 [1:26:57<1:13:27,  2.36s/it, lr: 2.0e-04 loss: 4.252e-02]wan_dewa:  47%|####6     | 1629/3500 [1:27:08<1:13:27,  2.36s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  47%|####6     | 1629/3500 [1:27:08<1:13:27,  2.36s/it, lr: 2.0e-04 loss: 4.464e-02]wan_dewa:  47%|####6     | 1630/3500 [1:27:10<1:13:24,  2.36s/it, lr: 2.0e-04 loss: 2.849e-01]wan_dewa:  47%|####6     | 1630/3500 [1:27:10<1:13:24,  2.36s/it, lr: 2.0e-04 loss: 2.849e-01]wan_dewa:  47%|####6     | 1631/3500 [1:27:10<56:01,  1.80s/it, lr: 2.0e-04 loss: 2.849e-01]  wan_dewa:  47%|####6     | 1631/3500 [1:27:10<56:01,  1.80s/it, lr: 2.0e-04 loss: 2.849e-01]  wan_dewa:  47%|####6     | 1631/3500 [1:27:13<56:01,  1.80s/it, lr: 2.0e-04 loss: 3.468e-02]wan_dewa:  47%|####6     | 1631/3500 [1:27:13<56:01,  1.80s/it, lr: 2.0e-04 loss: 3.468e-02]wan_dewa:  47%|####6     | 1632/3500 [1:27:13<59:36,  1.91s/it, lr: 2.0e-04 loss: 3.468e-02]wan_dewa:  47%|####6     | 1632/3500 [1:27:13<59:36,  1.91s/it, lr: 2.0e-04 loss: 3.468e-02]wan_dewa:  47%|####6     | 1632/3500 [1:27:15<59:36,  1.91s/it, lr: 2.0e-04 loss: 5.018e-02]wan_dewa:  47%|####6     | 1632/3500 [1:27:15<59:36,  1.91s/it, lr: 2.0e-04 loss: 5.018e-02]wan_dewa:  47%|####6     | 1633/3500 [1:27:15<1:02:28,  2.01s/it, lr: 2.0e-04 loss: 5.018e-02]wan_dewa:  47%|####6     | 1633/3500 [1:27:15<1:02:28,  2.01s/it, lr: 2.0e-04 loss: 5.018e-02]wan_dewa:  47%|####6     | 1633/3500 [1:27:17<1:02:28,  2.01s/it, lr: 2.0e-04 loss: 7.788e-02]wan_dewa:  47%|####6     | 1633/3500 [1:27:17<1:02:28,  2.01s/it, lr: 2.0e-04 loss: 7.788e-02]wan_dewa:  47%|####6     | 1634/3500 [1:27:17<1:05:59,  2.12s/it, lr: 2.0e-04 loss: 7.788e-02]wan_dewa:  47%|####6     | 1634/3500 [1:27:17<1:05:59,  2.12s/it, lr: 2.0e-04 loss: 7.788e-02]wan_dewa:  47%|####6     | 1634/3500 [1:27:20<1:05:59,  2.12s/it, lr: 2.0e-04 loss: 3.695e-02]wan_dewa:  47%|####6     | 1634/3500 [1:27:20<1:05:59,  2.12s/it, lr: 2.0e-04 loss: 3.695e-02]wan_dewa:  47%|####6     | 1635/3500 [1:27:20<1:07:15,  2.16s/it, lr: 2.0e-04 loss: 3.695e-02]wan_dewa:  47%|####6     | 1635/3500 [1:27:20<1:07:15,  2.16s/it, lr: 2.0e-04 loss: 3.695e-02]wan_dewa:  47%|####6     | 1635/3500 [1:27:22<1:07:15,  2.16s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  47%|####6     | 1635/3500 [1:27:22<1:07:15,  2.16s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  47%|####6     | 1636/3500 [1:27:22<1:08:12,  2.20s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  47%|####6     | 1636/3500 [1:27:22<1:08:12,  2.20s/it, lr: 2.0e-04 loss: 6.695e-02]wan_dewa:  47%|####6     | 1636/3500 [1:27:24<1:08:12,  2.20s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  47%|####6     | 1636/3500 [1:27:24<1:08:12,  2.20s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  47%|####6     | 1637/3500 [1:27:24<1:08:52,  2.22s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  47%|####6     | 1637/3500 [1:27:24<1:08:52,  2.22s/it, lr: 2.0e-04 loss: 1.133e-01]wan_dewa:  47%|####6     | 1637/3500 [1:27:26<1:08:52,  2.22s/it, lr: 2.0e-04 loss: 2.916e-01]wan_dewa:  47%|####6     | 1637/3500 [1:27:26<1:08:52,  2.22s/it, lr: 2.0e-04 loss: 2.916e-01]wan_dewa:  47%|####6     | 1638/3500 [1:27:26<1:09:24,  2.24s/it, lr: 2.0e-04 loss: 2.916e-01]wan_dewa:  47%|####6     | 1638/3500 [1:27:26<1:09:24,  2.24s/it, lr: 2.0e-04 loss: 2.916e-01]wan_dewa:  47%|####6     | 1638/3500 [1:27:29<1:09:24,  2.24s/it, lr: 2.0e-04 loss: 4.384e-02]wan_dewa:  47%|####6     | 1638/3500 [1:27:29<1:09:24,  2.24s/it, lr: 2.0e-04 loss: 4.384e-02]wan_dewa:  47%|####6     | 1639/3500 [1:27:29<1:11:10,  2.29s/it, lr: 2.0e-04 loss: 4.384e-02]wan_dewa:  47%|####6     | 1639/3500 [1:27:29<1:11:10,  2.29s/it, lr: 2.0e-04 loss: 4.384e-02]wan_dewa:  47%|####6     | 1639/3500 [1:27:40<1:11:10,  2.29s/it, lr: 2.0e-04 loss: 5.619e-02]wan_dewa:  47%|####6     | 1639/3500 [1:27:40<1:11:10,  2.29s/it, lr: 2.0e-04 loss: 5.619e-02]wan_dewa:  47%|####6     | 1640/3500 [1:27:42<1:11:08,  2.29s/it, lr: 2.0e-04 loss: 4.806e-02]wan_dewa:  47%|####6     | 1640/3500 [1:27:42<1:11:08,  2.29s/it, lr: 2.0e-04 loss: 4.806e-02]wan_dewa:  47%|####6     | 1641/3500 [1:27:42<54:42,  1.77s/it, lr: 2.0e-04 loss: 4.806e-02]  wan_dewa:  47%|####6     | 1641/3500 [1:27:42<54:42,  1.77s/it, lr: 2.0e-04 loss: 4.806e-02]  wan_dewa:  47%|####6     | 1641/3500 [1:27:44<54:42,  1.77s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  47%|####6     | 1641/3500 [1:27:44<54:42,  1.77s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  47%|####6     | 1642/3500 [1:27:44<58:36,  1.89s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  47%|####6     | 1642/3500 [1:27:44<58:36,  1.89s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  47%|####6     | 1642/3500 [1:27:47<58:36,  1.89s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  47%|####6     | 1642/3500 [1:27:47<58:36,  1.89s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  47%|####6     | 1643/3500 [1:27:47<1:01:41,  1.99s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  47%|####6     | 1643/3500 [1:27:47<1:01:41,  1.99s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  47%|####6     | 1643/3500 [1:27:49<1:01:41,  1.99s/it, lr: 2.0e-04 loss: 8.560e-02]wan_dewa:  47%|####6     | 1643/3500 [1:27:49<1:01:41,  1.99s/it, lr: 2.0e-04 loss: 8.560e-02]wan_dewa:  47%|####6     | 1644/3500 [1:27:49<1:05:22,  2.11s/it, lr: 2.0e-04 loss: 8.560e-02]wan_dewa:  47%|####6     | 1644/3500 [1:27:49<1:05:22,  2.11s/it, lr: 2.0e-04 loss: 8.560e-02]wan_dewa:  47%|####6     | 1644/3500 [1:27:51<1:05:22,  2.11s/it, lr: 2.0e-04 loss: 5.445e-02]wan_dewa:  47%|####6     | 1644/3500 [1:27:51<1:05:22,  2.11s/it, lr: 2.0e-04 loss: 5.445e-02]wan_dewa:  47%|####6     | 1645/3500 [1:27:51<1:06:46,  2.16s/it, lr: 2.0e-04 loss: 5.445e-02]wan_dewa:  47%|####6     | 1645/3500 [1:27:51<1:06:46,  2.16s/it, lr: 2.0e-04 loss: 5.445e-02]wan_dewa:  47%|####6     | 1645/3500 [1:27:54<1:06:46,  2.16s/it, lr: 2.0e-04 loss: 2.548e-02]wan_dewa:  47%|####6     | 1645/3500 [1:27:54<1:06:46,  2.16s/it, lr: 2.0e-04 loss: 2.548e-02]wan_dewa:  47%|####7     | 1646/3500 [1:27:54<1:07:47,  2.19s/it, lr: 2.0e-04 loss: 2.548e-02]wan_dewa:  47%|####7     | 1646/3500 [1:27:54<1:07:47,  2.19s/it, lr: 2.0e-04 loss: 2.548e-02]wan_dewa:  47%|####7     | 1646/3500 [1:27:56<1:07:47,  2.19s/it, lr: 2.0e-04 loss: 7.637e-02]wan_dewa:  47%|####7     | 1646/3500 [1:27:56<1:07:47,  2.19s/it, lr: 2.0e-04 loss: 7.637e-02]wan_dewa:  47%|####7     | 1647/3500 [1:27:56<1:08:32,  2.22s/it, lr: 2.0e-04 loss: 7.637e-02]wan_dewa:  47%|####7     | 1647/3500 [1:27:56<1:08:32,  2.22s/it, lr: 2.0e-04 loss: 7.637e-02]wan_dewa:  47%|####7     | 1647/3500 [1:27:58<1:08:32,  2.22s/it, lr: 2.0e-04 loss: 4.350e-02]wan_dewa:  47%|####7     | 1647/3500 [1:27:58<1:08:32,  2.22s/it, lr: 2.0e-04 loss: 4.350e-02]wan_dewa:  47%|####7     | 1648/3500 [1:27:58<1:09:05,  2.24s/it, lr: 2.0e-04 loss: 4.350e-02]wan_dewa:  47%|####7     | 1648/3500 [1:27:58<1:09:05,  2.24s/it, lr: 2.0e-04 loss: 4.350e-02]wan_dewa:  47%|####7     | 1648/3500 [1:28:01<1:09:05,  2.24s/it, lr: 2.0e-04 loss: 2.801e-02]wan_dewa:  47%|####7     | 1648/3500 [1:28:01<1:09:05,  2.24s/it, lr: 2.0e-04 loss: 2.801e-02]wan_dewa:  47%|####7     | 1649/3500 [1:28:01<1:11:00,  2.30s/it, lr: 2.0e-04 loss: 2.801e-02]wan_dewa:  47%|####7     | 1649/3500 [1:28:01<1:11:00,  2.30s/it, lr: 2.0e-04 loss: 2.801e-02]wan_dewa:  47%|####7     | 1649/3500 [1:28:14<1:11:00,  2.30s/it, lr: 2.0e-04 loss: 8.152e-02]wan_dewa:  47%|####7     | 1649/3500 [1:28:14<1:11:00,  2.30s/it, lr: 2.0e-04 loss: 8.152e-02]wan_dewa:  47%|####7     | 1650/3500 [1:28:16<1:10:58,  2.30s/it, lr: 2.0e-04 loss: 7.534e-02]wan_dewa:  47%|####7     | 1650/3500 [1:28:16<1:10:58,  2.30s/it, lr: 2.0e-04 loss: 7.534e-02]wan_dewa:  47%|####7     | 1651/3500 [1:28:16<54:34,  1.77s/it, lr: 2.0e-04 loss: 7.534e-02]  wan_dewa:  47%|####7     | 1651/3500 [1:28:16<54:34,  1.77s/it, lr: 2.0e-04 loss: 7.534e-02]  wan_dewa:  47%|####7     | 1651/3500 [1:28:19<54:34,  1.77s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  47%|####7     | 1651/3500 [1:28:19<54:34,  1.77s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  47%|####7     | 1652/3500 [1:28:19<58:22,  1.90s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  47%|####7     | 1652/3500 [1:28:19<58:22,  1.90s/it, lr: 2.0e-04 loss: 4.433e-02]wan_dewa:  47%|####7     | 1652/3500 [1:28:21<58:22,  1.90s/it, lr: 2.0e-04 loss: 1.468e-01]wan_dewa:  47%|####7     | 1652/3500 [1:28:21<58:22,  1.90s/it, lr: 2.0e-04 loss: 1.468e-01]wan_dewa:  47%|####7     | 1653/3500 [1:28:21<1:01:20,  1.99s/it, lr: 2.0e-04 loss: 1.468e-01]wan_dewa:  47%|####7     | 1653/3500 [1:28:21<1:01:20,  1.99s/it, lr: 2.0e-04 loss: 1.468e-01]wan_dewa:  47%|####7     | 1653/3500 [1:28:24<1:01:20,  1.99s/it, lr: 2.0e-04 loss: 9.130e-02]wan_dewa:  47%|####7     | 1653/3500 [1:28:24<1:01:20,  1.99s/it, lr: 2.0e-04 loss: 9.130e-02]wan_dewa:  47%|####7     | 1654/3500 [1:28:24<1:06:19,  2.16s/it, lr: 2.0e-04 loss: 9.130e-02]wan_dewa:  47%|####7     | 1654/3500 [1:28:24<1:06:19,  2.16s/it, lr: 2.0e-04 loss: 9.130e-02]wan_dewa:  47%|####7     | 1654/3500 [1:28:26<1:06:19,  2.16s/it, lr: 2.0e-04 loss: 3.422e-01]wan_dewa:  47%|####7     | 1654/3500 [1:28:26<1:06:19,  2.16s/it, lr: 2.0e-04 loss: 3.422e-01]wan_dewa:  47%|####7     | 1655/3500 [1:28:26<1:07:16,  2.19s/it, lr: 2.0e-04 loss: 3.422e-01]wan_dewa:  47%|####7     | 1655/3500 [1:28:26<1:07:16,  2.19s/it, lr: 2.0e-04 loss: 3.422e-01]wan_dewa:  47%|####7     | 1655/3500 [1:28:28<1:07:16,  2.19s/it, lr: 2.0e-04 loss: 1.425e-01]wan_dewa:  47%|####7     | 1655/3500 [1:28:28<1:07:16,  2.19s/it, lr: 2.0e-04 loss: 1.425e-01]wan_dewa:  47%|####7     | 1656/3500 [1:28:28<1:08:00,  2.21s/it, lr: 2.0e-04 loss: 1.425e-01]wan_dewa:  47%|####7     | 1656/3500 [1:28:28<1:08:00,  2.21s/it, lr: 2.0e-04 loss: 1.425e-01]wan_dewa:  47%|####7     | 1656/3500 [1:28:30<1:08:00,  2.21s/it, lr: 2.0e-04 loss: 7.750e-02]wan_dewa:  47%|####7     | 1656/3500 [1:28:30<1:08:00,  2.21s/it, lr: 2.0e-04 loss: 7.750e-02]wan_dewa:  47%|####7     | 1657/3500 [1:28:30<1:08:29,  2.23s/it, lr: 2.0e-04 loss: 7.750e-02]wan_dewa:  47%|####7     | 1657/3500 [1:28:30<1:08:29,  2.23s/it, lr: 2.0e-04 loss: 7.750e-02]wan_dewa:  47%|####7     | 1657/3500 [1:28:33<1:08:29,  2.23s/it, lr: 2.0e-04 loss: 3.549e-02]wan_dewa:  47%|####7     | 1657/3500 [1:28:33<1:08:29,  2.23s/it, lr: 2.0e-04 loss: 3.549e-02]wan_dewa:  47%|####7     | 1658/3500 [1:28:33<1:08:52,  2.24s/it, lr: 2.0e-04 loss: 3.549e-02]wan_dewa:  47%|####7     | 1658/3500 [1:28:33<1:08:52,  2.24s/it, lr: 2.0e-04 loss: 3.549e-02]wan_dewa:  47%|####7     | 1658/3500 [1:28:35<1:08:52,  2.24s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  47%|####7     | 1658/3500 [1:28:35<1:08:52,  2.24s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  47%|####7     | 1659/3500 [1:28:35<1:09:09,  2.25s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  47%|####7     | 1659/3500 [1:28:35<1:09:09,  2.25s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  47%|####7     | 1659/3500 [1:28:46<1:09:09,  2.25s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  47%|####7     | 1659/3500 [1:28:46<1:09:09,  2.25s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  47%|####7     | 1660/3500 [1:28:48<1:09:06,  2.25s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  47%|####7     | 1660/3500 [1:28:48<1:09:06,  2.25s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  47%|####7     | 1661/3500 [1:28:48<53:32,  1.75s/it, lr: 2.0e-04 loss: 3.452e-02]  wan_dewa:  47%|####7     | 1661/3500 [1:28:48<53:32,  1.75s/it, lr: 2.0e-04 loss: 3.452e-02]  wan_dewa:  47%|####7     | 1661/3500 [1:28:50<53:32,  1.75s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  47%|####7     | 1661/3500 [1:28:50<53:32,  1.75s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  47%|####7     | 1662/3500 [1:28:50<57:32,  1.88s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  47%|####7     | 1662/3500 [1:28:50<57:32,  1.88s/it, lr: 2.0e-04 loss: 5.227e-02]wan_dewa:  47%|####7     | 1662/3500 [1:28:53<57:32,  1.88s/it, lr: 2.0e-04 loss: 2.679e-02]wan_dewa:  47%|####7     | 1662/3500 [1:28:53<57:32,  1.88s/it, lr: 2.0e-04 loss: 2.679e-02]wan_dewa:  48%|####7     | 1663/3500 [1:28:53<1:00:42,  1.98s/it, lr: 2.0e-04 loss: 2.679e-02]wan_dewa:  48%|####7     | 1663/3500 [1:28:53<1:00:42,  1.98s/it, lr: 2.0e-04 loss: 2.679e-02]wan_dewa:  48%|####7     | 1663/3500 [1:28:55<1:00:42,  1.98s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  48%|####7     | 1663/3500 [1:28:55<1:00:42,  1.98s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  48%|####7     | 1664/3500 [1:28:55<1:03:08,  2.06s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  48%|####7     | 1664/3500 [1:28:55<1:03:08,  2.06s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  48%|####7     | 1664/3500 [1:28:57<1:03:08,  2.06s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  48%|####7     | 1664/3500 [1:28:57<1:03:08,  2.06s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  48%|####7     | 1665/3500 [1:28:58<1:06:30,  2.17s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  48%|####7     | 1665/3500 [1:28:58<1:06:30,  2.17s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  48%|####7     | 1665/3500 [1:29:00<1:06:30,  2.17s/it, lr: 2.0e-04 loss: 6.371e-02]wan_dewa:  48%|####7     | 1665/3500 [1:29:00<1:06:30,  2.17s/it, lr: 2.0e-04 loss: 6.371e-02]wan_dewa:  48%|####7     | 1666/3500 [1:29:00<1:07:24,  2.21s/it, lr: 2.0e-04 loss: 6.371e-02]wan_dewa:  48%|####7     | 1666/3500 [1:29:00<1:07:24,  2.21s/it, lr: 2.0e-04 loss: 6.371e-02]wan_dewa:  48%|####7     | 1666/3500 [1:29:02<1:07:24,  2.21s/it, lr: 2.0e-04 loss: 4.587e-02]wan_dewa:  48%|####7     | 1666/3500 [1:29:02<1:07:24,  2.21s/it, lr: 2.0e-04 loss: 4.587e-02]wan_dewa:  48%|####7     | 1667/3500 [1:29:02<1:08:03,  2.23s/it, lr: 2.0e-04 loss: 4.587e-02]wan_dewa:  48%|####7     | 1667/3500 [1:29:02<1:08:03,  2.23s/it, lr: 2.0e-04 loss: 4.587e-02]wan_dewa:  48%|####7     | 1667/3500 [1:29:04<1:08:03,  2.23s/it, lr: 2.0e-04 loss: 7.050e-02]wan_dewa:  48%|####7     | 1667/3500 [1:29:04<1:08:03,  2.23s/it, lr: 2.0e-04 loss: 7.050e-02]wan_dewa:  48%|####7     | 1668/3500 [1:29:04<1:08:30,  2.24s/it, lr: 2.0e-04 loss: 7.050e-02]wan_dewa:  48%|####7     | 1668/3500 [1:29:04<1:08:30,  2.24s/it, lr: 2.0e-04 loss: 7.050e-02]wan_dewa:  48%|####7     | 1668/3500 [1:29:07<1:08:30,  2.24s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  48%|####7     | 1668/3500 [1:29:07<1:08:30,  2.24s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  48%|####7     | 1669/3500 [1:29:07<1:08:50,  2.26s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  48%|####7     | 1669/3500 [1:29:07<1:08:50,  2.26s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  48%|####7     | 1669/3500 [1:29:15<1:08:50,  2.26s/it, lr: 2.0e-04 loss: 4.472e-01]wan_dewa:  48%|####7     | 1669/3500 [1:29:15<1:08:50,  2.26s/it, lr: 2.0e-04 loss: 4.472e-01]wan_dewa:  48%|####7     | 1670/3500 [1:29:17<1:08:47,  2.26s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  48%|####7     | 1670/3500 [1:29:17<1:08:47,  2.26s/it, lr: 2.0e-04 loss: 1.398e-01]wan_dewa:  48%|####7     | 1671/3500 [1:29:17<53:09,  1.74s/it, lr: 2.0e-04 loss: 1.398e-01]  wan_dewa:  48%|####7     | 1671/3500 [1:29:17<53:09,  1.74s/it, lr: 2.0e-04 loss: 1.398e-01]  wan_dewa:  48%|####7     | 1671/3500 [1:29:19<53:09,  1.74s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  48%|####7     | 1671/3500 [1:29:19<53:09,  1.74s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  48%|####7     | 1672/3500 [1:29:19<57:04,  1.87s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  48%|####7     | 1672/3500 [1:29:19<57:04,  1.87s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  48%|####7     | 1672/3500 [1:29:22<57:04,  1.87s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  48%|####7     | 1672/3500 [1:29:22<57:04,  1.87s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  48%|####7     | 1673/3500 [1:29:22<1:00:12,  1.98s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  48%|####7     | 1673/3500 [1:29:22<1:00:12,  1.98s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  48%|####7     | 1673/3500 [1:29:24<1:00:12,  1.98s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:  48%|####7     | 1673/3500 [1:29:24<1:00:12,  1.98s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:  48%|####7     | 1674/3500 [1:29:24<1:02:36,  2.06s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:  48%|####7     | 1674/3500 [1:29:24<1:02:36,  2.06s/it, lr: 2.0e-04 loss: 5.026e-02]wan_dewa:  48%|####7     | 1674/3500 [1:29:29<1:02:36,  2.06s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  48%|####7     | 1674/3500 [1:29:29<1:02:36,  2.06s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  48%|####7     | 1675/3500 [1:29:29<1:07:09,  2.21s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  48%|####7     | 1675/3500 [1:29:29<1:07:09,  2.21s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  48%|####7     | 1675/3500 [1:29:31<1:07:09,  2.21s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  48%|####7     | 1675/3500 [1:29:31<1:07:09,  2.21s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  48%|####7     | 1676/3500 [1:29:31<1:07:38,  2.22s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  48%|####7     | 1676/3500 [1:29:31<1:07:38,  2.22s/it, lr: 2.0e-04 loss: 4.514e-02]wan_dewa:  48%|####7     | 1676/3500 [1:29:33<1:07:38,  2.22s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  48%|####7     | 1676/3500 [1:29:33<1:07:38,  2.22s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  48%|####7     | 1677/3500 [1:29:33<1:08:01,  2.24s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  48%|####7     | 1677/3500 [1:29:33<1:08:01,  2.24s/it, lr: 2.0e-04 loss: 5.522e-02]wan_dewa:  48%|####7     | 1677/3500 [1:29:35<1:08:01,  2.24s/it, lr: 2.0e-04 loss: 3.016e-02]wan_dewa:  48%|####7     | 1677/3500 [1:29:35<1:08:01,  2.24s/it, lr: 2.0e-04 loss: 3.016e-02]wan_dewa:  48%|####7     | 1678/3500 [1:29:35<1:08:17,  2.25s/it, lr: 2.0e-04 loss: 3.016e-02]wan_dewa:  48%|####7     | 1678/3500 [1:29:35<1:08:17,  2.25s/it, lr: 2.0e-04 loss: 3.016e-02]wan_dewa:  48%|####7     | 1678/3500 [1:29:38<1:08:17,  2.25s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  48%|####7     | 1678/3500 [1:29:38<1:08:17,  2.25s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  48%|####7     | 1679/3500 [1:29:38<1:08:29,  2.26s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  48%|####7     | 1679/3500 [1:29:38<1:08:29,  2.26s/it, lr: 2.0e-04 loss: 7.439e-02]wan_dewa:  48%|####7     | 1679/3500 [1:29:49<1:08:29,  2.26s/it, lr: 2.0e-04 loss: 3.971e-02]wan_dewa:  48%|####7     | 1679/3500 [1:29:49<1:08:29,  2.26s/it, lr: 2.0e-04 loss: 3.971e-02]wan_dewa:  48%|####8     | 1680/3500 [1:29:51<1:08:27,  2.26s/it, lr: 2.0e-04 loss: 4.830e-02]wan_dewa:  48%|####8     | 1680/3500 [1:29:51<1:08:27,  2.26s/it, lr: 2.0e-04 loss: 4.830e-02]wan_dewa:  48%|####8     | 1681/3500 [1:29:51<52:58,  1.75s/it, lr: 2.0e-04 loss: 4.830e-02]  wan_dewa:  48%|####8     | 1681/3500 [1:29:51<52:58,  1.75s/it, lr: 2.0e-04 loss: 4.830e-02]  wan_dewa:  48%|####8     | 1681/3500 [1:29:53<52:58,  1.75s/it, lr: 2.0e-04 loss: 4.691e-02]wan_dewa:  48%|####8     | 1681/3500 [1:29:53<52:58,  1.75s/it, lr: 2.0e-04 loss: 4.691e-02]wan_dewa:  48%|####8     | 1682/3500 [1:29:53<56:53,  1.88s/it, lr: 2.0e-04 loss: 4.691e-02]wan_dewa:  48%|####8     | 1682/3500 [1:29:53<56:53,  1.88s/it, lr: 2.0e-04 loss: 4.691e-02]wan_dewa:  48%|####8     | 1682/3500 [1:29:56<56:53,  1.88s/it, lr: 2.0e-04 loss: 5.468e-02]wan_dewa:  48%|####8     | 1682/3500 [1:29:56<56:53,  1.88s/it, lr: 2.0e-04 loss: 5.468e-02]wan_dewa:  48%|####8     | 1683/3500 [1:29:56<1:00:01,  1.98s/it, lr: 2.0e-04 loss: 5.468e-02]wan_dewa:  48%|####8     | 1683/3500 [1:29:56<1:00:01,  1.98s/it, lr: 2.0e-04 loss: 5.468e-02]wan_dewa:  48%|####8     | 1683/3500 [1:29:58<1:00:01,  1.98s/it, lr: 2.0e-04 loss: 5.863e-02]wan_dewa:  48%|####8     | 1683/3500 [1:29:58<1:00:01,  1.98s/it, lr: 2.0e-04 loss: 5.863e-02]wan_dewa:  48%|####8     | 1684/3500 [1:29:58<1:02:27,  2.06s/it, lr: 2.0e-04 loss: 5.863e-02]wan_dewa:  48%|####8     | 1684/3500 [1:29:58<1:02:27,  2.06s/it, lr: 2.0e-04 loss: 5.863e-02]wan_dewa:  48%|####8     | 1684/3500 [1:30:00<1:02:27,  2.06s/it, lr: 2.0e-04 loss: 4.608e-02]wan_dewa:  48%|####8     | 1684/3500 [1:30:00<1:02:27,  2.06s/it, lr: 2.0e-04 loss: 4.608e-02]wan_dewa:  48%|####8     | 1685/3500 [1:30:00<1:05:39,  2.17s/it, lr: 2.0e-04 loss: 4.608e-02]wan_dewa:  48%|####8     | 1685/3500 [1:30:00<1:05:39,  2.17s/it, lr: 2.0e-04 loss: 4.608e-02]wan_dewa:  48%|####8     | 1685/3500 [1:30:03<1:05:39,  2.17s/it, lr: 2.0e-04 loss: 4.597e-02]wan_dewa:  48%|####8     | 1685/3500 [1:30:03<1:05:39,  2.17s/it, lr: 2.0e-04 loss: 4.597e-02]wan_dewa:  48%|####8     | 1686/3500 [1:30:03<1:06:33,  2.20s/it, lr: 2.0e-04 loss: 4.597e-02]wan_dewa:  48%|####8     | 1686/3500 [1:30:03<1:06:33,  2.20s/it, lr: 2.0e-04 loss: 4.597e-02]wan_dewa:  48%|####8     | 1686/3500 [1:30:05<1:06:33,  2.20s/it, lr: 2.0e-04 loss: 4.560e-02]wan_dewa:  48%|####8     | 1686/3500 [1:30:05<1:06:33,  2.20s/it, lr: 2.0e-04 loss: 4.560e-02]wan_dewa:  48%|####8     | 1687/3500 [1:30:05<1:07:13,  2.22s/it, lr: 2.0e-04 loss: 4.560e-02]wan_dewa:  48%|####8     | 1687/3500 [1:30:05<1:07:13,  2.22s/it, lr: 2.0e-04 loss: 4.560e-02]wan_dewa:  48%|####8     | 1687/3500 [1:30:07<1:07:13,  2.22s/it, lr: 2.0e-04 loss: 4.895e-02]wan_dewa:  48%|####8     | 1687/3500 [1:30:07<1:07:13,  2.22s/it, lr: 2.0e-04 loss: 4.895e-02]wan_dewa:  48%|####8     | 1688/3500 [1:30:07<1:07:41,  2.24s/it, lr: 2.0e-04 loss: 4.895e-02]wan_dewa:  48%|####8     | 1688/3500 [1:30:07<1:07:41,  2.24s/it, lr: 2.0e-04 loss: 4.895e-02]wan_dewa:  48%|####8     | 1688/3500 [1:30:10<1:07:41,  2.24s/it, lr: 2.0e-04 loss: 3.381e-02]wan_dewa:  48%|####8     | 1688/3500 [1:30:10<1:07:41,  2.24s/it, lr: 2.0e-04 loss: 3.381e-02]wan_dewa:  48%|####8     | 1689/3500 [1:30:10<1:08:01,  2.25s/it, lr: 2.0e-04 loss: 3.381e-02]wan_dewa:  48%|####8     | 1689/3500 [1:30:10<1:08:01,  2.25s/it, lr: 2.0e-04 loss: 3.381e-02]wan_dewa:  48%|####8     | 1689/3500 [1:30:21<1:08:01,  2.25s/it, lr: 2.0e-04 loss: 1.009e-01]wan_dewa:  48%|####8     | 1689/3500 [1:30:21<1:08:01,  2.25s/it, lr: 2.0e-04 loss: 1.009e-01]wan_dewa:  48%|####8     | 1690/3500 [1:30:23<1:07:59,  2.25s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:  48%|####8     | 1690/3500 [1:30:23<1:07:59,  2.25s/it, lr: 2.0e-04 loss: 1.013e-01]wan_dewa:  48%|####8     | 1691/3500 [1:30:23<54:10,  1.80s/it, lr: 2.0e-04 loss: 1.013e-01]  wan_dewa:  48%|####8     | 1691/3500 [1:30:23<54:10,  1.80s/it, lr: 2.0e-04 loss: 1.013e-01]  wan_dewa:  48%|####8     | 1691/3500 [1:30:26<54:10,  1.80s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  48%|####8     | 1691/3500 [1:30:26<54:10,  1.80s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  48%|####8     | 1692/3500 [1:30:26<57:42,  1.91s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  48%|####8     | 1692/3500 [1:30:26<57:42,  1.91s/it, lr: 2.0e-04 loss: 7.417e-02]wan_dewa:  48%|####8     | 1692/3500 [1:30:28<57:42,  1.91s/it, lr: 2.0e-04 loss: 5.190e-01]wan_dewa:  48%|####8     | 1692/3500 [1:30:28<57:42,  1.91s/it, lr: 2.0e-04 loss: 5.190e-01]wan_dewa:  48%|####8     | 1693/3500 [1:30:28<1:00:31,  2.01s/it, lr: 2.0e-04 loss: 5.190e-01]wan_dewa:  48%|####8     | 1693/3500 [1:30:28<1:00:31,  2.01s/it, lr: 2.0e-04 loss: 5.190e-01]wan_dewa:  48%|####8     | 1693/3500 [1:30:30<1:00:31,  2.01s/it, lr: 2.0e-04 loss: 9.506e-02]wan_dewa:  48%|####8     | 1693/3500 [1:30:30<1:00:31,  2.01s/it, lr: 2.0e-04 loss: 9.506e-02]wan_dewa:  48%|####8     | 1694/3500 [1:30:30<1:02:43,  2.08s/it, lr: 2.0e-04 loss: 9.506e-02]wan_dewa:  48%|####8     | 1694/3500 [1:30:30<1:02:43,  2.08s/it, lr: 2.0e-04 loss: 9.506e-02]wan_dewa:  48%|####8     | 1694/3500 [1:30:32<1:02:43,  2.08s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  48%|####8     | 1694/3500 [1:30:32<1:02:43,  2.08s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  48%|####8     | 1695/3500 [1:30:32<1:04:20,  2.14s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  48%|####8     | 1695/3500 [1:30:32<1:04:20,  2.14s/it, lr: 2.0e-04 loss: 4.014e-02]wan_dewa:  48%|####8     | 1695/3500 [1:30:35<1:04:20,  2.14s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  48%|####8     | 1695/3500 [1:30:35<1:04:20,  2.14s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  48%|####8     | 1696/3500 [1:30:35<1:07:31,  2.25s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  48%|####8     | 1696/3500 [1:30:35<1:07:31,  2.25s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  48%|####8     | 1696/3500 [1:30:37<1:07:31,  2.25s/it, lr: 2.0e-04 loss: 4.289e-02]wan_dewa:  48%|####8     | 1696/3500 [1:30:37<1:07:31,  2.25s/it, lr: 2.0e-04 loss: 4.289e-02]wan_dewa:  48%|####8     | 1697/3500 [1:30:37<1:07:49,  2.26s/it, lr: 2.0e-04 loss: 4.289e-02]wan_dewa:  48%|####8     | 1697/3500 [1:30:37<1:07:49,  2.26s/it, lr: 2.0e-04 loss: 4.289e-02]wan_dewa:  48%|####8     | 1697/3500 [1:30:39<1:07:49,  2.26s/it, lr: 2.0e-04 loss: 9.649e-02]wan_dewa:  48%|####8     | 1697/3500 [1:30:39<1:07:49,  2.26s/it, lr: 2.0e-04 loss: 9.649e-02]wan_dewa:  49%|####8     | 1698/3500 [1:30:39<1:07:59,  2.26s/it, lr: 2.0e-04 loss: 9.649e-02]wan_dewa:  49%|####8     | 1698/3500 [1:30:39<1:07:59,  2.26s/it, lr: 2.0e-04 loss: 9.649e-02]wan_dewa:  49%|####8     | 1698/3500 [1:30:42<1:07:59,  2.26s/it, lr: 2.0e-04 loss: 9.374e-02]wan_dewa:  49%|####8     | 1698/3500 [1:30:42<1:07:59,  2.26s/it, lr: 2.0e-04 loss: 9.374e-02]wan_dewa:  49%|####8     | 1699/3500 [1:30:42<1:08:07,  2.27s/it, lr: 2.0e-04 loss: 9.374e-02]wan_dewa:  49%|####8     | 1699/3500 [1:30:42<1:08:07,  2.27s/it, lr: 2.0e-04 loss: 9.374e-02]wan_dewa:  49%|####8     | 1699/3500 [1:30:55<1:08:07,  2.27s/it, lr: 2.0e-04 loss: 4.903e-02]wan_dewa:  49%|####8     | 1699/3500 [1:30:55<1:08:07,  2.27s/it, lr: 2.0e-04 loss: 4.903e-02]wan_dewa:  49%|####8     | 1700/3500 [1:30:58<1:08:05,  2.27s/it, lr: 2.0e-04 loss: 6.479e-02]wan_dewa:  49%|####8     | 1700/3500 [1:30:58<1:08:05,  2.27s/it, lr: 2.0e-04 loss: 6.479e-02]wan_dewa:  49%|####8     | 1701/3500 [1:30:58<54:56,  1.83s/it, lr: 2.0e-04 loss: 6.479e-02]  wan_dewa:  49%|####8     | 1701/3500 [1:30:58<54:56,  1.83s/it, lr: 2.0e-04 loss: 6.479e-02]  wan_dewa:  49%|####8     | 1701/3500 [1:31:00<54:56,  1.83s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  49%|####8     | 1701/3500 [1:31:00<54:56,  1.83s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  49%|####8     | 1702/3500 [1:31:00<58:11,  1.94s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  49%|####8     | 1702/3500 [1:31:00<58:11,  1.94s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  49%|####8     | 1702/3500 [1:31:02<58:11,  1.94s/it, lr: 2.0e-04 loss: 6.993e-02]wan_dewa:  49%|####8     | 1702/3500 [1:31:02<58:11,  1.94s/it, lr: 2.0e-04 loss: 6.993e-02]wan_dewa:  49%|####8     | 1703/3500 [1:31:02<1:00:45,  2.03s/it, lr: 2.0e-04 loss: 6.993e-02]wan_dewa:  49%|####8     | 1703/3500 [1:31:02<1:00:45,  2.03s/it, lr: 2.0e-04 loss: 6.993e-02]wan_dewa:  49%|####8     | 1703/3500 [1:31:05<1:00:45,  2.03s/it, lr: 2.0e-04 loss: 2.926e-02]wan_dewa:  49%|####8     | 1703/3500 [1:31:05<1:00:45,  2.03s/it, lr: 2.0e-04 loss: 2.926e-02]wan_dewa:  49%|####8     | 1704/3500 [1:31:05<1:02:44,  2.10s/it, lr: 2.0e-04 loss: 2.926e-02]wan_dewa:  49%|####8     | 1704/3500 [1:31:05<1:02:44,  2.10s/it, lr: 2.0e-04 loss: 2.926e-02]wan_dewa:  49%|####8     | 1704/3500 [1:31:07<1:02:44,  2.10s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  49%|####8     | 1704/3500 [1:31:07<1:02:44,  2.10s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  49%|####8     | 1705/3500 [1:31:07<1:04:14,  2.15s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  49%|####8     | 1705/3500 [1:31:07<1:04:14,  2.15s/it, lr: 2.0e-04 loss: 4.542e-02]wan_dewa:  49%|####8     | 1705/3500 [1:31:09<1:04:14,  2.15s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  49%|####8     | 1705/3500 [1:31:09<1:04:14,  2.15s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  49%|####8     | 1706/3500 [1:31:09<1:07:00,  2.24s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  49%|####8     | 1706/3500 [1:31:09<1:07:00,  2.24s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  49%|####8     | 1706/3500 [1:31:12<1:07:00,  2.24s/it, lr: 2.0e-04 loss: 4.879e-02]wan_dewa:  49%|####8     | 1706/3500 [1:31:12<1:07:00,  2.24s/it, lr: 2.0e-04 loss: 4.879e-02]wan_dewa:  49%|####8     | 1707/3500 [1:31:12<1:07:19,  2.25s/it, lr: 2.0e-04 loss: 4.879e-02]wan_dewa:  49%|####8     | 1707/3500 [1:31:12<1:07:19,  2.25s/it, lr: 2.0e-04 loss: 4.879e-02]wan_dewa:  49%|####8     | 1707/3500 [1:31:14<1:07:19,  2.25s/it, lr: 2.0e-04 loss: 3.243e-02]wan_dewa:  49%|####8     | 1707/3500 [1:31:14<1:07:19,  2.25s/it, lr: 2.0e-04 loss: 3.243e-02]wan_dewa:  49%|####8     | 1708/3500 [1:31:14<1:07:32,  2.26s/it, lr: 2.0e-04 loss: 3.243e-02]wan_dewa:  49%|####8     | 1708/3500 [1:31:14<1:07:32,  2.26s/it, lr: 2.0e-04 loss: 3.243e-02]wan_dewa:  49%|####8     | 1708/3500 [1:31:16<1:07:32,  2.26s/it, lr: 2.0e-04 loss: 2.356e-02]wan_dewa:  49%|####8     | 1708/3500 [1:31:16<1:07:32,  2.26s/it, lr: 2.0e-04 loss: 2.356e-02]wan_dewa:  49%|####8     | 1709/3500 [1:31:16<1:07:40,  2.27s/it, lr: 2.0e-04 loss: 2.356e-02]wan_dewa:  49%|####8     | 1709/3500 [1:31:16<1:07:40,  2.27s/it, lr: 2.0e-04 loss: 2.356e-02]wan_dewa:  49%|####8     | 1709/3500 [1:31:27<1:07:40,  2.27s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  49%|####8     | 1709/3500 [1:31:27<1:07:40,  2.27s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  49%|####8     | 1710/3500 [1:31:30<1:07:37,  2.27s/it, lr: 2.0e-04 loss: 3.105e-02]wan_dewa:  49%|####8     | 1710/3500 [1:31:30<1:07:37,  2.27s/it, lr: 2.0e-04 loss: 3.105e-02]wan_dewa:  49%|####8     | 1711/3500 [1:31:30<53:34,  1.80s/it, lr: 2.0e-04 loss: 3.105e-02]  wan_dewa:  49%|####8     | 1711/3500 [1:31:30<53:34,  1.80s/it, lr: 2.0e-04 loss: 3.105e-02]  wan_dewa:  49%|####8     | 1711/3500 [1:31:32<53:34,  1.80s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  49%|####8     | 1711/3500 [1:31:32<53:34,  1.80s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  49%|####8     | 1712/3500 [1:31:32<57:01,  1.91s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  49%|####8     | 1712/3500 [1:31:32<57:01,  1.91s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  49%|####8     | 1712/3500 [1:31:34<57:01,  1.91s/it, lr: 2.0e-04 loss: 1.214e-01]wan_dewa:  49%|####8     | 1712/3500 [1:31:34<57:01,  1.91s/it, lr: 2.0e-04 loss: 1.214e-01]wan_dewa:  49%|####8     | 1713/3500 [1:31:34<59:46,  2.01s/it, lr: 2.0e-04 loss: 1.214e-01]wan_dewa:  49%|####8     | 1713/3500 [1:31:34<59:46,  2.01s/it, lr: 2.0e-04 loss: 1.214e-01]wan_dewa:  49%|####8     | 1713/3500 [1:31:37<59:46,  2.01s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  49%|####8     | 1713/3500 [1:31:37<59:46,  2.01s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  49%|####8     | 1714/3500 [1:31:37<1:01:54,  2.08s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  49%|####8     | 1714/3500 [1:31:37<1:01:54,  2.08s/it, lr: 2.0e-04 loss: 6.557e-02]wan_dewa:  49%|####8     | 1714/3500 [1:31:39<1:01:54,  2.08s/it, lr: 2.0e-04 loss: 1.773e-01]wan_dewa:  49%|####8     | 1714/3500 [1:31:39<1:01:54,  2.08s/it, lr: 2.0e-04 loss: 1.773e-01]wan_dewa:  49%|####9     | 1715/3500 [1:31:39<1:03:28,  2.13s/it, lr: 2.0e-04 loss: 1.773e-01]wan_dewa:  49%|####9     | 1715/3500 [1:31:39<1:03:28,  2.13s/it, lr: 2.0e-04 loss: 1.773e-01]wan_dewa:  49%|####9     | 1715/3500 [1:31:41<1:03:28,  2.13s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  49%|####9     | 1715/3500 [1:31:41<1:03:28,  2.13s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  49%|####9     | 1716/3500 [1:31:41<1:06:18,  2.23s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  49%|####9     | 1716/3500 [1:31:41<1:06:18,  2.23s/it, lr: 2.0e-04 loss: 6.461e-02]wan_dewa:  49%|####9     | 1716/3500 [1:31:44<1:06:18,  2.23s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  49%|####9     | 1716/3500 [1:31:44<1:06:18,  2.23s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  49%|####9     | 1717/3500 [1:31:44<1:06:39,  2.24s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  49%|####9     | 1717/3500 [1:31:44<1:06:39,  2.24s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  49%|####9     | 1717/3500 [1:31:46<1:06:39,  2.24s/it, lr: 2.0e-04 loss: 4.754e-02]wan_dewa:  49%|####9     | 1717/3500 [1:31:46<1:06:39,  2.24s/it, lr: 2.0e-04 loss: 4.754e-02]wan_dewa:  49%|####9     | 1718/3500 [1:31:46<1:06:51,  2.25s/it, lr: 2.0e-04 loss: 4.754e-02]wan_dewa:  49%|####9     | 1718/3500 [1:31:46<1:06:51,  2.25s/it, lr: 2.0e-04 loss: 4.754e-02]wan_dewa:  49%|####9     | 1718/3500 [1:31:48<1:06:51,  2.25s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  49%|####9     | 1718/3500 [1:31:48<1:06:51,  2.25s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  49%|####9     | 1719/3500 [1:31:48<1:07:03,  2.26s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  49%|####9     | 1719/3500 [1:31:48<1:07:03,  2.26s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  49%|####9     | 1719/3500 [1:31:56<1:07:03,  2.26s/it, lr: 2.0e-04 loss: 5.682e-02]wan_dewa:  49%|####9     | 1719/3500 [1:31:56<1:07:03,  2.26s/it, lr: 2.0e-04 loss: 5.682e-02]wan_dewa:  49%|####9     | 1720/3500 [1:31:59<1:07:00,  2.26s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  49%|####9     | 1720/3500 [1:31:59<1:07:00,  2.26s/it, lr: 2.0e-04 loss: 5.116e-02]wan_dewa:  49%|####9     | 1721/3500 [1:31:59<53:06,  1.79s/it, lr: 2.0e-04 loss: 5.116e-02]  wan_dewa:  49%|####9     | 1721/3500 [1:31:59<53:06,  1.79s/it, lr: 2.0e-04 loss: 5.116e-02]  wan_dewa:  49%|####9     | 1721/3500 [1:32:01<53:06,  1.79s/it, lr: 2.0e-04 loss: 3.677e-02]wan_dewa:  49%|####9     | 1721/3500 [1:32:01<53:06,  1.79s/it, lr: 2.0e-04 loss: 3.677e-02]wan_dewa:  49%|####9     | 1722/3500 [1:32:01<56:34,  1.91s/it, lr: 2.0e-04 loss: 3.677e-02]wan_dewa:  49%|####9     | 1722/3500 [1:32:01<56:34,  1.91s/it, lr: 2.0e-04 loss: 3.677e-02]wan_dewa:  49%|####9     | 1722/3500 [1:32:03<56:34,  1.91s/it, lr: 2.0e-04 loss: 4.375e-02]wan_dewa:  49%|####9     | 1722/3500 [1:32:03<56:34,  1.91s/it, lr: 2.0e-04 loss: 4.375e-02]wan_dewa:  49%|####9     | 1723/3500 [1:32:03<59:21,  2.00s/it, lr: 2.0e-04 loss: 4.375e-02]wan_dewa:  49%|####9     | 1723/3500 [1:32:03<59:21,  2.00s/it, lr: 2.0e-04 loss: 4.375e-02]wan_dewa:  49%|####9     | 1723/3500 [1:32:05<59:21,  2.00s/it, lr: 2.0e-04 loss: 4.558e-02]wan_dewa:  49%|####9     | 1723/3500 [1:32:05<59:21,  2.00s/it, lr: 2.0e-04 loss: 4.558e-02]wan_dewa:  49%|####9     | 1724/3500 [1:32:05<1:01:30,  2.08s/it, lr: 2.0e-04 loss: 4.558e-02]wan_dewa:  49%|####9     | 1724/3500 [1:32:05<1:01:30,  2.08s/it, lr: 2.0e-04 loss: 4.558e-02]wan_dewa:  49%|####9     | 1724/3500 [1:32:10<1:01:30,  2.08s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  49%|####9     | 1724/3500 [1:32:10<1:01:30,  2.08s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  49%|####9     | 1725/3500 [1:32:10<1:03:23,  2.14s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  49%|####9     | 1725/3500 [1:32:10<1:03:23,  2.14s/it, lr: 2.0e-04 loss: 2.918e-02]wan_dewa:  49%|####9     | 1725/3500 [1:32:12<1:03:23,  2.14s/it, lr: 2.0e-04 loss: 3.895e-02]wan_dewa:  49%|####9     | 1725/3500 [1:32:12<1:03:23,  2.14s/it, lr: 2.0e-04 loss: 3.895e-02]wan_dewa:  49%|####9     | 1726/3500 [1:32:12<1:04:30,  2.18s/it, lr: 2.0e-04 loss: 3.895e-02]wan_dewa:  49%|####9     | 1726/3500 [1:32:12<1:04:30,  2.18s/it, lr: 2.0e-04 loss: 3.895e-02]wan_dewa:  49%|####9     | 1726/3500 [1:32:15<1:04:30,  2.18s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  49%|####9     | 1726/3500 [1:32:15<1:04:30,  2.18s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  49%|####9     | 1727/3500 [1:32:15<1:08:21,  2.31s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  49%|####9     | 1727/3500 [1:32:15<1:08:21,  2.31s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  49%|####9     | 1727/3500 [1:32:17<1:08:21,  2.31s/it, lr: 2.0e-04 loss: 4.857e-02]wan_dewa:  49%|####9     | 1727/3500 [1:32:17<1:08:21,  2.31s/it, lr: 2.0e-04 loss: 4.857e-02]wan_dewa:  49%|####9     | 1728/3500 [1:32:17<1:07:57,  2.30s/it, lr: 2.0e-04 loss: 4.857e-02]wan_dewa:  49%|####9     | 1728/3500 [1:32:17<1:07:57,  2.30s/it, lr: 2.0e-04 loss: 4.857e-02]wan_dewa:  49%|####9     | 1728/3500 [1:32:19<1:07:57,  2.30s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  49%|####9     | 1728/3500 [1:32:19<1:07:57,  2.30s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  49%|####9     | 1729/3500 [1:32:19<1:07:41,  2.29s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  49%|####9     | 1729/3500 [1:32:19<1:07:41,  2.29s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  49%|####9     | 1729/3500 [1:32:30<1:07:41,  2.29s/it, lr: 2.0e-04 loss: 9.871e-02]wan_dewa:  49%|####9     | 1729/3500 [1:32:30<1:07:41,  2.29s/it, lr: 2.0e-04 loss: 9.871e-02]wan_dewa:  49%|####9     | 1730/3500 [1:32:33<1:07:39,  2.29s/it, lr: 2.0e-04 loss: 4.604e-02]wan_dewa:  49%|####9     | 1730/3500 [1:32:33<1:07:39,  2.29s/it, lr: 2.0e-04 loss: 4.604e-02]wan_dewa:  49%|####9     | 1731/3500 [1:32:33<52:01,  1.76s/it, lr: 2.0e-04 loss: 4.604e-02]  wan_dewa:  49%|####9     | 1731/3500 [1:32:33<52:01,  1.76s/it, lr: 2.0e-04 loss: 4.604e-02]  wan_dewa:  49%|####9     | 1731/3500 [1:32:35<52:01,  1.76s/it, lr: 2.0e-04 loss: 6.726e-02]wan_dewa:  49%|####9     | 1731/3500 [1:32:35<52:01,  1.76s/it, lr: 2.0e-04 loss: 6.726e-02]wan_dewa:  49%|####9     | 1732/3500 [1:32:35<57:15,  1.94s/it, lr: 2.0e-04 loss: 6.726e-02]wan_dewa:  49%|####9     | 1732/3500 [1:32:35<57:15,  1.94s/it, lr: 2.0e-04 loss: 6.726e-02]wan_dewa:  49%|####9     | 1732/3500 [1:32:37<57:15,  1.94s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:  49%|####9     | 1732/3500 [1:32:37<57:15,  1.94s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:  50%|####9     | 1733/3500 [1:32:37<59:44,  2.03s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:  50%|####9     | 1733/3500 [1:32:37<59:44,  2.03s/it, lr: 2.0e-04 loss: 1.449e-01]wan_dewa:  50%|####9     | 1733/3500 [1:32:40<59:44,  2.03s/it, lr: 2.0e-04 loss: 7.887e-02]wan_dewa:  50%|####9     | 1733/3500 [1:32:40<59:44,  2.03s/it, lr: 2.0e-04 loss: 7.887e-02]wan_dewa:  50%|####9     | 1734/3500 [1:32:40<1:01:38,  2.09s/it, lr: 2.0e-04 loss: 7.887e-02]wan_dewa:  50%|####9     | 1734/3500 [1:32:40<1:01:38,  2.09s/it, lr: 2.0e-04 loss: 7.887e-02]wan_dewa:  50%|####9     | 1734/3500 [1:32:42<1:01:38,  2.09s/it, lr: 2.0e-04 loss: 4.458e-02]wan_dewa:  50%|####9     | 1734/3500 [1:32:42<1:01:38,  2.09s/it, lr: 2.0e-04 loss: 4.458e-02]wan_dewa:  50%|####9     | 1735/3500 [1:32:42<1:03:05,  2.14s/it, lr: 2.0e-04 loss: 4.458e-02]wan_dewa:  50%|####9     | 1735/3500 [1:32:42<1:03:05,  2.14s/it, lr: 2.0e-04 loss: 4.458e-02]wan_dewa:  50%|####9     | 1735/3500 [1:32:44<1:03:05,  2.14s/it, lr: 2.0e-04 loss: 8.329e-02]wan_dewa:  50%|####9     | 1735/3500 [1:32:44<1:03:05,  2.14s/it, lr: 2.0e-04 loss: 8.329e-02]wan_dewa:  50%|####9     | 1736/3500 [1:32:44<1:04:08,  2.18s/it, lr: 2.0e-04 loss: 8.329e-02]wan_dewa:  50%|####9     | 1736/3500 [1:32:44<1:04:08,  2.18s/it, lr: 2.0e-04 loss: 8.329e-02]wan_dewa:  50%|####9     | 1736/3500 [1:32:47<1:04:08,  2.18s/it, lr: 2.0e-04 loss: 2.566e-01]wan_dewa:  50%|####9     | 1736/3500 [1:32:47<1:04:08,  2.18s/it, lr: 2.0e-04 loss: 2.566e-01]wan_dewa:  50%|####9     | 1737/3500 [1:32:47<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 2.566e-01]wan_dewa:  50%|####9     | 1737/3500 [1:32:47<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 2.566e-01]wan_dewa:  50%|####9     | 1737/3500 [1:32:49<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 3.289e-02]wan_dewa:  50%|####9     | 1737/3500 [1:32:49<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 3.289e-02]wan_dewa:  50%|####9     | 1738/3500 [1:32:49<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 3.289e-02]wan_dewa:  50%|####9     | 1738/3500 [1:32:49<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 3.289e-02]wan_dewa:  50%|####9     | 1738/3500 [1:32:51<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 7.919e-02]wan_dewa:  50%|####9     | 1738/3500 [1:32:51<1:06:45,  2.27s/it, lr: 2.0e-04 loss: 7.919e-02]wan_dewa:  50%|####9     | 1739/3500 [1:32:51<1:06:47,  2.28s/it, lr: 2.0e-04 loss: 7.919e-02]wan_dewa:  50%|####9     | 1739/3500 [1:32:51<1:06:47,  2.28s/it, lr: 2.0e-04 loss: 7.919e-02]wan_dewa:  50%|####9     | 1739/3500 [1:33:02<1:06:47,  2.28s/it, lr: 2.0e-04 loss: 4.641e-02]wan_dewa:  50%|####9     | 1739/3500 [1:33:02<1:06:47,  2.28s/it, lr: 2.0e-04 loss: 4.641e-02]wan_dewa:  50%|####9     | 1740/3500 [1:33:05<1:06:45,  2.28s/it, lr: 2.0e-04 loss: 5.204e-02]wan_dewa:  50%|####9     | 1740/3500 [1:33:05<1:06:45,  2.28s/it, lr: 2.0e-04 loss: 5.204e-02]wan_dewa:  50%|####9     | 1741/3500 [1:33:05<51:34,  1.76s/it, lr: 2.0e-04 loss: 5.204e-02]  wan_dewa:  50%|####9     | 1741/3500 [1:33:05<51:34,  1.76s/it, lr: 2.0e-04 loss: 5.204e-02]  wan_dewa:  50%|####9     | 1741/3500 [1:33:07<51:34,  1.76s/it, lr: 2.0e-04 loss: 4.559e-02]wan_dewa:  50%|####9     | 1741/3500 [1:33:07<51:34,  1.76s/it, lr: 2.0e-04 loss: 4.559e-02]wan_dewa:  50%|####9     | 1742/3500 [1:33:07<56:57,  1.94s/it, lr: 2.0e-04 loss: 4.559e-02]wan_dewa:  50%|####9     | 1742/3500 [1:33:07<56:57,  1.94s/it, lr: 2.0e-04 loss: 4.559e-02]wan_dewa:  50%|####9     | 1742/3500 [1:33:09<56:57,  1.94s/it, lr: 2.0e-04 loss: 2.309e-02]wan_dewa:  50%|####9     | 1742/3500 [1:33:09<56:57,  1.94s/it, lr: 2.0e-04 loss: 2.309e-02]wan_dewa:  50%|####9     | 1743/3500 [1:33:09<59:25,  2.03s/it, lr: 2.0e-04 loss: 2.309e-02]wan_dewa:  50%|####9     | 1743/3500 [1:33:09<59:25,  2.03s/it, lr: 2.0e-04 loss: 2.309e-02]wan_dewa:  50%|####9     | 1743/3500 [1:33:12<59:25,  2.03s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  50%|####9     | 1743/3500 [1:33:12<59:25,  2.03s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  50%|####9     | 1744/3500 [1:33:12<1:01:19,  2.10s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  50%|####9     | 1744/3500 [1:33:12<1:01:19,  2.10s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  50%|####9     | 1744/3500 [1:33:14<1:01:19,  2.10s/it, lr: 2.0e-04 loss: 5.611e-02]wan_dewa:  50%|####9     | 1744/3500 [1:33:14<1:01:19,  2.10s/it, lr: 2.0e-04 loss: 5.611e-02]wan_dewa:  50%|####9     | 1745/3500 [1:33:14<1:02:45,  2.15s/it, lr: 2.0e-04 loss: 5.611e-02]wan_dewa:  50%|####9     | 1745/3500 [1:33:14<1:02:45,  2.15s/it, lr: 2.0e-04 loss: 5.611e-02]wan_dewa:  50%|####9     | 1745/3500 [1:33:16<1:02:45,  2.15s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  50%|####9     | 1745/3500 [1:33:16<1:02:45,  2.15s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  50%|####9     | 1746/3500 [1:33:16<1:03:47,  2.18s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  50%|####9     | 1746/3500 [1:33:16<1:03:47,  2.18s/it, lr: 2.0e-04 loss: 4.779e-02]wan_dewa:  50%|####9     | 1746/3500 [1:33:19<1:03:47,  2.18s/it, lr: 2.0e-04 loss: 4.160e-02]wan_dewa:  50%|####9     | 1746/3500 [1:33:19<1:03:47,  2.18s/it, lr: 2.0e-04 loss: 4.160e-02]wan_dewa:  50%|####9     | 1747/3500 [1:33:19<1:06:37,  2.28s/it, lr: 2.0e-04 loss: 4.160e-02]wan_dewa:  50%|####9     | 1747/3500 [1:33:19<1:06:37,  2.28s/it, lr: 2.0e-04 loss: 4.160e-02]wan_dewa:  50%|####9     | 1747/3500 [1:33:21<1:06:37,  2.28s/it, lr: 2.0e-04 loss: 3.829e-02]wan_dewa:  50%|####9     | 1747/3500 [1:33:21<1:06:37,  2.28s/it, lr: 2.0e-04 loss: 3.829e-02]wan_dewa:  50%|####9     | 1748/3500 [1:33:21<1:06:39,  2.28s/it, lr: 2.0e-04 loss: 3.829e-02]wan_dewa:  50%|####9     | 1748/3500 [1:33:21<1:06:39,  2.28s/it, lr: 2.0e-04 loss: 3.829e-02]wan_dewa:  50%|####9     | 1748/3500 [1:33:23<1:06:39,  2.28s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  50%|####9     | 1748/3500 [1:33:23<1:06:39,  2.28s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  50%|####9     | 1749/3500 [1:33:23<1:06:38,  2.28s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  50%|####9     | 1749/3500 [1:33:23<1:06:38,  2.28s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  50%|####9     | 1749/3500 [1:33:37<1:06:38,  2.28s/it, lr: 2.0e-04 loss: 1.704e-01]wan_dewa:  50%|####9     | 1749/3500 [1:33:37<1:06:38,  2.28s/it, lr: 2.0e-04 loss: 1.704e-01]
+Saving at step 1750
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000001750.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.61s/it] 24%|##4       | 6/25 [00:27<01:27,  4.61s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:47<01:41,  6.35s/it] 36%|###6      | 9/25 [00:47<01:41,  6.35s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:27,  5.82s/it] 40%|####      | 10/25 [00:51<01:27,  5.82s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.45s/it] 44%|####4     | 11/25 [00:56<01:16,  5.45s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.20s/it] 48%|####8     | 12/25 [01:00<01:07,  5.20s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.65s/it] 92%|#########2| 23/25 [01:51<00:09,  4.65s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.84s/it]Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.84s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.64s/it] 12%|#2        | 3/25 [00:13<01:42,  4.64s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.65s/it] 20%|##        | 5/25 [00:23<01:32,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.79s/it] 36%|###6      | 9/25 [00:45<01:32,  5.79s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.44s/it] 40%|####      | 10/25 [00:50<01:21,  5.44s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.20s/it] 44%|####4     | 11/25 [00:54<01:12,  5.20s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.03s/it] 48%|####8     | 12/25 [00:59<01:05,  5.03s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.74s/it] 64%|######4   | 16/25 [01:18<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.67s/it] 84%|########4 | 21/25 [01:41<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.67s/it] 88%|########8 | 22/25 [01:46<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.29s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.29s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.67s/it] 28%|##8       | 7/25 [00:32<01:23,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.66s/it] 36%|###6      | 9/25 [00:45<01:30,  5.66s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.35s/it] 40%|####      | 10/25 [00:49<01:20,  5.35s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.11s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.11s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.67s/it] 12%|#2        | 3/25 [00:13<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.67s/it] 16%|#6        | 4/25 [00:18<01:37,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.65s/it] 36%|###6      | 9/25 [00:45<01:30,  5.65s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.34s/it] 40%|####      | 10/25 [00:49<01:20,  5.34s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.13s/it] 44%|####4     | 11/25 [00:54<01:11,  5.13s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.04s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.04s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  50%|#####     | 1750/3500 [1:33:41<1:06:36,  2.28s/it, lr: 2.0e-04 loss: 6.344e-02]wan_dewa:  50%|#####     | 1750/3500 [1:33:41<1:06:36,  2.28s/it, lr: 2.0e-04 loss: 6.344e-02]wan_dewa:  50%|#####     | 1751/3500 [1:33:41<1:03:16,  2.17s/it, lr: 2.0e-04 loss: 6.344e-02]wan_dewa:  50%|#####     | 1751/3500 [1:33:41<1:03:16,  2.17s/it, lr: 2.0e-04 loss: 6.344e-02]wan_dewa:  50%|#####     | 1751/3500 [1:33:43<1:03:16,  2.17s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  50%|#####     | 1751/3500 [1:33:43<1:03:16,  2.17s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  50%|#####     | 1752/3500 [1:33:43<1:04:11,  2.20s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  50%|#####     | 1752/3500 [1:33:43<1:04:11,  2.20s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  50%|#####     | 1752/3500 [1:33:45<1:04:11,  2.20s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  50%|#####     | 1752/3500 [1:33:45<1:04:11,  2.20s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  50%|#####     | 1753/3500 [1:33:45<1:04:53,  2.23s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  50%|#####     | 1753/3500 [1:33:45<1:04:53,  2.23s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  50%|#####     | 1753/3500 [1:33:48<1:04:53,  2.23s/it, lr: 2.0e-04 loss: 6.374e-02]wan_dewa:  50%|#####     | 1753/3500 [1:33:48<1:04:53,  2.23s/it, lr: 2.0e-04 loss: 6.374e-02]wan_dewa:  50%|#####     | 1754/3500 [1:33:48<1:05:25,  2.25s/it, lr: 2.0e-04 loss: 6.374e-02]wan_dewa:  50%|#####     | 1754/3500 [1:33:48<1:05:25,  2.25s/it, lr: 2.0e-04 loss: 6.374e-02]wan_dewa:  50%|#####     | 1754/3500 [1:33:50<1:05:25,  2.25s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  50%|#####     | 1754/3500 [1:33:50<1:05:25,  2.25s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  50%|#####     | 1755/3500 [1:33:50<1:07:28,  2.32s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  50%|#####     | 1755/3500 [1:33:50<1:07:28,  2.32s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  50%|#####     | 1755/3500 [1:33:52<1:07:28,  2.32s/it, lr: 2.0e-04 loss: 6.766e-02]wan_dewa:  50%|#####     | 1755/3500 [1:33:52<1:07:28,  2.32s/it, lr: 2.0e-04 loss: 6.766e-02]wan_dewa:  50%|#####     | 1756/3500 [1:33:52<1:07:16,  2.31s/it, lr: 2.0e-04 loss: 6.766e-02]wan_dewa:  50%|#####     | 1756/3500 [1:33:52<1:07:16,  2.31s/it, lr: 2.0e-04 loss: 6.766e-02]wan_dewa:  50%|#####     | 1756/3500 [1:33:55<1:07:16,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  50%|#####     | 1756/3500 [1:33:55<1:07:16,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  50%|#####     | 1757/3500 [1:33:55<1:07:07,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  50%|#####     | 1757/3500 [1:33:55<1:07:07,  2.31s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  50%|#####     | 1757/3500 [1:33:57<1:07:07,  2.31s/it, lr: 2.0e-04 loss: 2.915e-02]wan_dewa:  50%|#####     | 1757/3500 [1:33:57<1:07:07,  2.31s/it, lr: 2.0e-04 loss: 2.915e-02]wan_dewa:  50%|#####     | 1758/3500 [1:33:57<1:07:04,  2.31s/it, lr: 2.0e-04 loss: 2.915e-02]wan_dewa:  50%|#####     | 1758/3500 [1:33:57<1:07:04,  2.31s/it, lr: 2.0e-04 loss: 2.915e-02]wan_dewa:  50%|#####     | 1758/3500 [1:33:59<1:07:04,  2.31s/it, lr: 2.0e-04 loss: 1.312e-01]wan_dewa:  50%|#####     | 1758/3500 [1:33:59<1:07:04,  2.31s/it, lr: 2.0e-04 loss: 1.312e-01]wan_dewa:  50%|#####     | 1759/3500 [1:33:59<1:06:57,  2.31s/it, lr: 2.0e-04 loss: 1.312e-01]wan_dewa:  50%|#####     | 1759/3500 [1:33:59<1:06:57,  2.31s/it, lr: 2.0e-04 loss: 1.312e-01]wan_dewa:  50%|#####     | 1759/3500 [1:34:05<1:06:57,  2.31s/it, lr: 2.0e-04 loss: 3.901e-02]wan_dewa:  50%|#####     | 1759/3500 [1:34:05<1:06:57,  2.31s/it, lr: 2.0e-04 loss: 3.901e-02]wan_dewa:  50%|#####     | 1760/3500 [1:34:08<1:06:55,  2.31s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  50%|#####     | 1760/3500 [1:34:08<1:06:55,  2.31s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  50%|#####     | 1761/3500 [1:34:08<51:31,  1.78s/it, lr: 2.0e-04 loss: 5.402e-02]  wan_dewa:  50%|#####     | 1761/3500 [1:34:08<51:31,  1.78s/it, lr: 2.0e-04 loss: 5.402e-02]  wan_dewa:  50%|#####     | 1761/3500 [1:34:10<51:31,  1.78s/it, lr: 2.0e-04 loss: 2.271e-02]wan_dewa:  50%|#####     | 1761/3500 [1:34:10<51:31,  1.78s/it, lr: 2.0e-04 loss: 2.271e-02]wan_dewa:  50%|#####     | 1762/3500 [1:34:10<55:10,  1.90s/it, lr: 2.0e-04 loss: 2.271e-02]wan_dewa:  50%|#####     | 1762/3500 [1:34:10<55:10,  1.90s/it, lr: 2.0e-04 loss: 2.271e-02]wan_dewa:  50%|#####     | 1762/3500 [1:34:12<55:10,  1.90s/it, lr: 2.0e-04 loss: 4.643e-02]wan_dewa:  50%|#####     | 1762/3500 [1:34:12<55:10,  1.90s/it, lr: 2.0e-04 loss: 4.643e-02]wan_dewa:  50%|#####     | 1763/3500 [1:34:12<58:04,  2.01s/it, lr: 2.0e-04 loss: 4.643e-02]wan_dewa:  50%|#####     | 1763/3500 [1:34:12<58:04,  2.01s/it, lr: 2.0e-04 loss: 4.643e-02]wan_dewa:  50%|#####     | 1763/3500 [1:34:14<58:04,  2.01s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:  50%|#####     | 1763/3500 [1:34:14<58:04,  2.01s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:  50%|#####     | 1764/3500 [1:34:14<1:00:21,  2.09s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:  50%|#####     | 1764/3500 [1:34:14<1:00:21,  2.09s/it, lr: 2.0e-04 loss: 5.397e-02]wan_dewa:  50%|#####     | 1764/3500 [1:34:17<1:00:21,  2.09s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  50%|#####     | 1764/3500 [1:34:17<1:00:21,  2.09s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  50%|#####     | 1765/3500 [1:34:17<1:02:02,  2.15s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  50%|#####     | 1765/3500 [1:34:17<1:02:02,  2.15s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  50%|#####     | 1765/3500 [1:34:19<1:02:02,  2.15s/it, lr: 2.0e-04 loss: 5.821e-02]wan_dewa:  50%|#####     | 1765/3500 [1:34:19<1:02:02,  2.15s/it, lr: 2.0e-04 loss: 5.821e-02]wan_dewa:  50%|#####     | 1766/3500 [1:34:19<1:04:46,  2.24s/it, lr: 2.0e-04 loss: 5.821e-02]wan_dewa:  50%|#####     | 1766/3500 [1:34:19<1:04:46,  2.24s/it, lr: 2.0e-04 loss: 5.821e-02]wan_dewa:  50%|#####     | 1766/3500 [1:34:22<1:04:46,  2.24s/it, lr: 2.0e-04 loss: 3.806e-02]wan_dewa:  50%|#####     | 1766/3500 [1:34:22<1:04:46,  2.24s/it, lr: 2.0e-04 loss: 3.806e-02]wan_dewa:  50%|#####     | 1767/3500 [1:34:22<1:05:14,  2.26s/it, lr: 2.0e-04 loss: 3.806e-02]wan_dewa:  50%|#####     | 1767/3500 [1:34:22<1:05:14,  2.26s/it, lr: 2.0e-04 loss: 3.806e-02]wan_dewa:  50%|#####     | 1767/3500 [1:34:24<1:05:14,  2.26s/it, lr: 2.0e-04 loss: 2.279e-02]wan_dewa:  50%|#####     | 1767/3500 [1:34:24<1:05:14,  2.26s/it, lr: 2.0e-04 loss: 2.279e-02]wan_dewa:  51%|#####     | 1768/3500 [1:34:24<1:05:34,  2.27s/it, lr: 2.0e-04 loss: 2.279e-02]wan_dewa:  51%|#####     | 1768/3500 [1:34:24<1:05:34,  2.27s/it, lr: 2.0e-04 loss: 2.279e-02]wan_dewa:  51%|#####     | 1768/3500 [1:34:26<1:05:34,  2.27s/it, lr: 2.0e-04 loss: 4.476e-02]wan_dewa:  51%|#####     | 1768/3500 [1:34:26<1:05:34,  2.27s/it, lr: 2.0e-04 loss: 4.476e-02]wan_dewa:  51%|#####     | 1769/3500 [1:34:26<1:05:51,  2.28s/it, lr: 2.0e-04 loss: 4.476e-02]wan_dewa:  51%|#####     | 1769/3500 [1:34:26<1:05:51,  2.28s/it, lr: 2.0e-04 loss: 4.476e-02]wan_dewa:  51%|#####     | 1769/3500 [1:34:32<1:05:51,  2.28s/it, lr: 2.0e-04 loss: 8.508e-02]wan_dewa:  51%|#####     | 1769/3500 [1:34:32<1:05:51,  2.28s/it, lr: 2.0e-04 loss: 8.508e-02]wan_dewa:  51%|#####     | 1770/3500 [1:34:34<1:05:48,  2.28s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  51%|#####     | 1770/3500 [1:34:34<1:05:48,  2.28s/it, lr: 2.0e-04 loss: 7.205e-02]wan_dewa:  51%|#####     | 1771/3500 [1:34:34<52:06,  1.81s/it, lr: 2.0e-04 loss: 7.205e-02]  wan_dewa:  51%|#####     | 1771/3500 [1:34:34<52:06,  1.81s/it, lr: 2.0e-04 loss: 7.205e-02]  wan_dewa:  51%|#####     | 1771/3500 [1:34:36<52:06,  1.81s/it, lr: 2.0e-04 loss: 2.419e-01]wan_dewa:  51%|#####     | 1771/3500 [1:34:36<52:06,  1.81s/it, lr: 2.0e-04 loss: 2.419e-01]wan_dewa:  51%|#####     | 1772/3500 [1:34:37<55:32,  1.93s/it, lr: 2.0e-04 loss: 2.419e-01]wan_dewa:  51%|#####     | 1772/3500 [1:34:37<55:32,  1.93s/it, lr: 2.0e-04 loss: 2.419e-01]wan_dewa:  51%|#####     | 1772/3500 [1:34:39<55:32,  1.93s/it, lr: 2.0e-04 loss: 9.394e-02]wan_dewa:  51%|#####     | 1772/3500 [1:34:39<55:32,  1.93s/it, lr: 2.0e-04 loss: 9.394e-02]wan_dewa:  51%|#####     | 1773/3500 [1:34:39<58:17,  2.03s/it, lr: 2.0e-04 loss: 9.394e-02]wan_dewa:  51%|#####     | 1773/3500 [1:34:39<58:17,  2.03s/it, lr: 2.0e-04 loss: 9.394e-02]wan_dewa:  51%|#####     | 1773/3500 [1:34:41<58:17,  2.03s/it, lr: 2.0e-04 loss: 8.225e-02]wan_dewa:  51%|#####     | 1773/3500 [1:34:41<58:17,  2.03s/it, lr: 2.0e-04 loss: 8.225e-02]wan_dewa:  51%|#####     | 1774/3500 [1:34:41<1:00:24,  2.10s/it, lr: 2.0e-04 loss: 8.225e-02]wan_dewa:  51%|#####     | 1774/3500 [1:34:41<1:00:24,  2.10s/it, lr: 2.0e-04 loss: 8.225e-02]wan_dewa:  51%|#####     | 1774/3500 [1:34:46<1:00:24,  2.10s/it, lr: 2.0e-04 loss: 4.750e-01]wan_dewa:  51%|#####     | 1774/3500 [1:34:46<1:00:24,  2.10s/it, lr: 2.0e-04 loss: 4.750e-01]wan_dewa:  51%|#####     | 1775/3500 [1:34:46<1:02:09,  2.16s/it, lr: 2.0e-04 loss: 4.750e-01]wan_dewa:  51%|#####     | 1775/3500 [1:34:46<1:02:09,  2.16s/it, lr: 2.0e-04 loss: 4.750e-01]wan_dewa:  51%|#####     | 1775/3500 [1:34:49<1:02:09,  2.16s/it, lr: 2.0e-04 loss: 9.227e-02]wan_dewa:  51%|#####     | 1775/3500 [1:34:49<1:02:09,  2.16s/it, lr: 2.0e-04 loss: 9.227e-02]wan_dewa:  51%|#####     | 1776/3500 [1:34:49<1:06:05,  2.30s/it, lr: 2.0e-04 loss: 9.227e-02]wan_dewa:  51%|#####     | 1776/3500 [1:34:49<1:06:05,  2.30s/it, lr: 2.0e-04 loss: 9.227e-02]wan_dewa:  51%|#####     | 1776/3500 [1:34:51<1:06:05,  2.30s/it, lr: 2.0e-04 loss: 2.890e-01]wan_dewa:  51%|#####     | 1776/3500 [1:34:51<1:06:05,  2.30s/it, lr: 2.0e-04 loss: 2.890e-01]wan_dewa:  51%|#####     | 1777/3500 [1:34:51<1:06:01,  2.30s/it, lr: 2.0e-04 loss: 2.890e-01]wan_dewa:  51%|#####     | 1777/3500 [1:34:51<1:06:01,  2.30s/it, lr: 2.0e-04 loss: 2.890e-01]wan_dewa:  51%|#####     | 1777/3500 [1:34:53<1:06:01,  2.30s/it, lr: 2.0e-04 loss: 4.507e-02]wan_dewa:  51%|#####     | 1777/3500 [1:34:53<1:06:01,  2.30s/it, lr: 2.0e-04 loss: 4.507e-02]wan_dewa:  51%|#####     | 1778/3500 [1:34:53<1:05:57,  2.30s/it, lr: 2.0e-04 loss: 4.507e-02]wan_dewa:  51%|#####     | 1778/3500 [1:34:53<1:05:57,  2.30s/it, lr: 2.0e-04 loss: 4.507e-02]wan_dewa:  51%|#####     | 1778/3500 [1:34:56<1:05:57,  2.30s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  51%|#####     | 1778/3500 [1:34:56<1:05:57,  2.30s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  51%|#####     | 1779/3500 [1:34:56<1:05:53,  2.30s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  51%|#####     | 1779/3500 [1:34:56<1:05:53,  2.30s/it, lr: 2.0e-04 loss: 4.185e-02]wan_dewa:  51%|#####     | 1779/3500 [1:35:07<1:05:53,  2.30s/it, lr: 2.0e-04 loss: 3.029e-02]wan_dewa:  51%|#####     | 1779/3500 [1:35:07<1:05:53,  2.30s/it, lr: 2.0e-04 loss: 3.029e-02]wan_dewa:  51%|#####     | 1780/3500 [1:35:09<1:05:51,  2.30s/it, lr: 2.0e-04 loss: 3.899e-02]wan_dewa:  51%|#####     | 1780/3500 [1:35:09<1:05:51,  2.30s/it, lr: 2.0e-04 loss: 3.899e-02]wan_dewa:  51%|#####     | 1781/3500 [1:35:09<52:19,  1.83s/it, lr: 2.0e-04 loss: 3.899e-02]  wan_dewa:  51%|#####     | 1781/3500 [1:35:09<52:19,  1.83s/it, lr: 2.0e-04 loss: 3.899e-02]  wan_dewa:  51%|#####     | 1781/3500 [1:35:12<52:19,  1.83s/it, lr: 2.0e-04 loss: 5.356e-02]wan_dewa:  51%|#####     | 1781/3500 [1:35:12<52:19,  1.83s/it, lr: 2.0e-04 loss: 5.356e-02]wan_dewa:  51%|#####     | 1782/3500 [1:35:12<55:34,  1.94s/it, lr: 2.0e-04 loss: 5.356e-02]wan_dewa:  51%|#####     | 1782/3500 [1:35:12<55:34,  1.94s/it, lr: 2.0e-04 loss: 5.356e-02]wan_dewa:  51%|#####     | 1782/3500 [1:35:14<55:34,  1.94s/it, lr: 2.0e-04 loss: 2.201e-02]wan_dewa:  51%|#####     | 1782/3500 [1:35:14<55:34,  1.94s/it, lr: 2.0e-04 loss: 2.201e-02]wan_dewa:  51%|#####     | 1783/3500 [1:35:14<58:09,  2.03s/it, lr: 2.0e-04 loss: 2.201e-02]wan_dewa:  51%|#####     | 1783/3500 [1:35:14<58:09,  2.03s/it, lr: 2.0e-04 loss: 2.201e-02]wan_dewa:  51%|#####     | 1783/3500 [1:35:16<58:09,  2.03s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:  51%|#####     | 1783/3500 [1:35:16<58:09,  2.03s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:  51%|#####     | 1784/3500 [1:35:16<1:00:07,  2.10s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:  51%|#####     | 1784/3500 [1:35:16<1:00:07,  2.10s/it, lr: 2.0e-04 loss: 4.790e-02]wan_dewa:  51%|#####     | 1784/3500 [1:35:18<1:00:07,  2.10s/it, lr: 2.0e-04 loss: 4.525e-02]wan_dewa:  51%|#####     | 1784/3500 [1:35:18<1:00:07,  2.10s/it, lr: 2.0e-04 loss: 4.525e-02]wan_dewa:  51%|#####1    | 1785/3500 [1:35:18<1:01:35,  2.15s/it, lr: 2.0e-04 loss: 4.525e-02]wan_dewa:  51%|#####1    | 1785/3500 [1:35:18<1:01:35,  2.15s/it, lr: 2.0e-04 loss: 4.525e-02]wan_dewa:  51%|#####1    | 1785/3500 [1:35:21<1:01:35,  2.15s/it, lr: 2.0e-04 loss: 3.762e-02]wan_dewa:  51%|#####1    | 1785/3500 [1:35:21<1:01:35,  2.15s/it, lr: 2.0e-04 loss: 3.762e-02]wan_dewa:  51%|#####1    | 1786/3500 [1:35:21<1:02:39,  2.19s/it, lr: 2.0e-04 loss: 3.762e-02]wan_dewa:  51%|#####1    | 1786/3500 [1:35:21<1:02:39,  2.19s/it, lr: 2.0e-04 loss: 3.762e-02]wan_dewa:  51%|#####1    | 1786/3500 [1:35:23<1:02:39,  2.19s/it, lr: 2.0e-04 loss: 6.603e-02]wan_dewa:  51%|#####1    | 1786/3500 [1:35:23<1:02:39,  2.19s/it, lr: 2.0e-04 loss: 6.603e-02]wan_dewa:  51%|#####1    | 1787/3500 [1:35:23<1:05:15,  2.29s/it, lr: 2.0e-04 loss: 6.603e-02]wan_dewa:  51%|#####1    | 1787/3500 [1:35:23<1:05:15,  2.29s/it, lr: 2.0e-04 loss: 6.603e-02]wan_dewa:  51%|#####1    | 1787/3500 [1:35:26<1:05:15,  2.29s/it, lr: 2.0e-04 loss: 4.016e-02]wan_dewa:  51%|#####1    | 1787/3500 [1:35:26<1:05:15,  2.29s/it, lr: 2.0e-04 loss: 4.016e-02]wan_dewa:  51%|#####1    | 1788/3500 [1:35:26<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 4.016e-02]wan_dewa:  51%|#####1    | 1788/3500 [1:35:26<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 4.016e-02]wan_dewa:  51%|#####1    | 1788/3500 [1:35:28<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 5.562e-02]wan_dewa:  51%|#####1    | 1788/3500 [1:35:28<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 5.562e-02]wan_dewa:  51%|#####1    | 1789/3500 [1:35:28<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 5.562e-02]wan_dewa:  51%|#####1    | 1789/3500 [1:35:28<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 5.562e-02]wan_dewa:  51%|#####1    | 1789/3500 [1:35:39<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 6.700e-02]wan_dewa:  51%|#####1    | 1789/3500 [1:35:39<1:05:16,  2.29s/it, lr: 2.0e-04 loss: 6.700e-02]wan_dewa:  51%|#####1    | 1790/3500 [1:35:41<1:05:14,  2.29s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  51%|#####1    | 1790/3500 [1:35:41<1:05:14,  2.29s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  51%|#####1    | 1791/3500 [1:35:41<50:15,  1.76s/it, lr: 2.0e-04 loss: 8.013e-02]  wan_dewa:  51%|#####1    | 1791/3500 [1:35:41<50:15,  1.76s/it, lr: 2.0e-04 loss: 8.013e-02]  wan_dewa:  51%|#####1    | 1791/3500 [1:35:44<50:15,  1.76s/it, lr: 2.0e-04 loss: 2.827e-01]wan_dewa:  51%|#####1    | 1791/3500 [1:35:44<50:15,  1.76s/it, lr: 2.0e-04 loss: 2.827e-01]wan_dewa:  51%|#####1    | 1792/3500 [1:35:44<55:27,  1.95s/it, lr: 2.0e-04 loss: 2.827e-01]wan_dewa:  51%|#####1    | 1792/3500 [1:35:44<55:27,  1.95s/it, lr: 2.0e-04 loss: 2.827e-01]wan_dewa:  51%|#####1    | 1792/3500 [1:35:46<55:27,  1.95s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  51%|#####1    | 1792/3500 [1:35:46<55:27,  1.95s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  51%|#####1    | 1793/3500 [1:35:46<57:52,  2.03s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  51%|#####1    | 1793/3500 [1:35:46<57:52,  2.03s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  51%|#####1    | 1793/3500 [1:35:48<57:52,  2.03s/it, lr: 2.0e-04 loss: 6.610e-02]wan_dewa:  51%|#####1    | 1793/3500 [1:35:48<57:52,  2.03s/it, lr: 2.0e-04 loss: 6.610e-02]wan_dewa:  51%|#####1    | 1794/3500 [1:35:48<59:44,  2.10s/it, lr: 2.0e-04 loss: 6.610e-02]wan_dewa:  51%|#####1    | 1794/3500 [1:35:48<59:44,  2.10s/it, lr: 2.0e-04 loss: 6.610e-02]wan_dewa:  51%|#####1    | 1794/3500 [1:35:51<59:44,  2.10s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  51%|#####1    | 1794/3500 [1:35:51<59:44,  2.10s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  51%|#####1    | 1795/3500 [1:35:51<1:01:09,  2.15s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  51%|#####1    | 1795/3500 [1:35:51<1:01:09,  2.15s/it, lr: 2.0e-04 loss: 6.945e-02]wan_dewa:  51%|#####1    | 1795/3500 [1:35:53<1:01:09,  2.15s/it, lr: 2.0e-04 loss: 6.806e-02]wan_dewa:  51%|#####1    | 1795/3500 [1:35:53<1:01:09,  2.15s/it, lr: 2.0e-04 loss: 6.806e-02]wan_dewa:  51%|#####1    | 1796/3500 [1:35:53<1:02:12,  2.19s/it, lr: 2.0e-04 loss: 6.806e-02]wan_dewa:  51%|#####1    | 1796/3500 [1:35:53<1:02:12,  2.19s/it, lr: 2.0e-04 loss: 6.806e-02]wan_dewa:  51%|#####1    | 1796/3500 [1:35:55<1:02:12,  2.19s/it, lr: 2.0e-04 loss: 1.164e-01]wan_dewa:  51%|#####1    | 1796/3500 [1:35:55<1:02:12,  2.19s/it, lr: 2.0e-04 loss: 1.164e-01]wan_dewa:  51%|#####1    | 1797/3500 [1:35:55<1:04:53,  2.29s/it, lr: 2.0e-04 loss: 1.164e-01]wan_dewa:  51%|#####1    | 1797/3500 [1:35:55<1:04:53,  2.29s/it, lr: 2.0e-04 loss: 1.164e-01]wan_dewa:  51%|#####1    | 1797/3500 [1:35:58<1:04:53,  2.29s/it, lr: 2.0e-04 loss: 8.779e-02]wan_dewa:  51%|#####1    | 1797/3500 [1:35:58<1:04:53,  2.29s/it, lr: 2.0e-04 loss: 8.779e-02]wan_dewa:  51%|#####1    | 1798/3500 [1:35:58<1:04:50,  2.29s/it, lr: 2.0e-04 loss: 8.779e-02]wan_dewa:  51%|#####1    | 1798/3500 [1:35:58<1:04:50,  2.29s/it, lr: 2.0e-04 loss: 8.779e-02]wan_dewa:  51%|#####1    | 1798/3500 [1:36:00<1:04:50,  2.29s/it, lr: 2.0e-04 loss: 6.227e-02]wan_dewa:  51%|#####1    | 1798/3500 [1:36:00<1:04:50,  2.29s/it, lr: 2.0e-04 loss: 6.227e-02]wan_dewa:  51%|#####1    | 1799/3500 [1:36:00<1:04:48,  2.29s/it, lr: 2.0e-04 loss: 6.227e-02]wan_dewa:  51%|#####1    | 1799/3500 [1:36:00<1:04:48,  2.29s/it, lr: 2.0e-04 loss: 6.227e-02]wan_dewa:  51%|#####1    | 1799/3500 [1:36:13<1:04:48,  2.29s/it, lr: 2.0e-04 loss: 4.962e-02]wan_dewa:  51%|#####1    | 1799/3500 [1:36:13<1:04:48,  2.29s/it, lr: 2.0e-04 loss: 4.962e-02]wan_dewa:  51%|#####1    | 1800/3500 [1:36:15<1:04:46,  2.29s/it, lr: 2.0e-04 loss: 2.307e-02]wan_dewa:  51%|#####1    | 1800/3500 [1:36:15<1:04:46,  2.29s/it, lr: 2.0e-04 loss: 2.307e-02]wan_dewa:  51%|#####1    | 1801/3500 [1:36:15<50:00,  1.77s/it, lr: 2.0e-04 loss: 2.307e-02]  wan_dewa:  51%|#####1    | 1801/3500 [1:36:15<50:00,  1.77s/it, lr: 2.0e-04 loss: 2.307e-02]  wan_dewa:  51%|#####1    | 1801/3500 [1:36:18<50:00,  1.77s/it, lr: 2.0e-04 loss: 3.574e-02]wan_dewa:  51%|#####1    | 1801/3500 [1:36:18<50:00,  1.77s/it, lr: 2.0e-04 loss: 3.574e-02]wan_dewa:  51%|#####1    | 1802/3500 [1:36:18<55:49,  1.97s/it, lr: 2.0e-04 loss: 3.574e-02]wan_dewa:  51%|#####1    | 1802/3500 [1:36:18<55:49,  1.97s/it, lr: 2.0e-04 loss: 3.574e-02]wan_dewa:  51%|#####1    | 1802/3500 [1:36:20<55:49,  1.97s/it, lr: 2.0e-04 loss: 3.000e-02]wan_dewa:  51%|#####1    | 1802/3500 [1:36:20<55:49,  1.97s/it, lr: 2.0e-04 loss: 3.000e-02]wan_dewa:  52%|#####1    | 1803/3500 [1:36:20<58:00,  2.05s/it, lr: 2.0e-04 loss: 3.000e-02]wan_dewa:  52%|#####1    | 1803/3500 [1:36:20<58:00,  2.05s/it, lr: 2.0e-04 loss: 3.000e-02]wan_dewa:  52%|#####1    | 1803/3500 [1:36:23<58:00,  2.05s/it, lr: 2.0e-04 loss: 4.675e-02]wan_dewa:  52%|#####1    | 1803/3500 [1:36:23<58:00,  2.05s/it, lr: 2.0e-04 loss: 4.675e-02]wan_dewa:  52%|#####1    | 1804/3500 [1:36:23<59:42,  2.11s/it, lr: 2.0e-04 loss: 4.675e-02]wan_dewa:  52%|#####1    | 1804/3500 [1:36:23<59:42,  2.11s/it, lr: 2.0e-04 loss: 4.675e-02]wan_dewa:  52%|#####1    | 1804/3500 [1:36:25<59:42,  2.11s/it, lr: 2.0e-04 loss: 4.304e-02]wan_dewa:  52%|#####1    | 1804/3500 [1:36:25<59:42,  2.11s/it, lr: 2.0e-04 loss: 4.304e-02]wan_dewa:  52%|#####1    | 1805/3500 [1:36:25<1:00:57,  2.16s/it, lr: 2.0e-04 loss: 4.304e-02]wan_dewa:  52%|#####1    | 1805/3500 [1:36:25<1:00:57,  2.16s/it, lr: 2.0e-04 loss: 4.304e-02]wan_dewa:  52%|#####1    | 1805/3500 [1:36:27<1:00:57,  2.16s/it, lr: 2.0e-04 loss: 5.526e-02]wan_dewa:  52%|#####1    | 1805/3500 [1:36:27<1:00:57,  2.16s/it, lr: 2.0e-04 loss: 5.526e-02]wan_dewa:  52%|#####1    | 1806/3500 [1:36:27<1:01:54,  2.19s/it, lr: 2.0e-04 loss: 5.526e-02]wan_dewa:  52%|#####1    | 1806/3500 [1:36:27<1:01:54,  2.19s/it, lr: 2.0e-04 loss: 5.526e-02]wan_dewa:  52%|#####1    | 1806/3500 [1:36:29<1:01:54,  2.19s/it, lr: 2.0e-04 loss: 6.964e-02]wan_dewa:  52%|#####1    | 1806/3500 [1:36:29<1:01:54,  2.19s/it, lr: 2.0e-04 loss: 6.964e-02]wan_dewa:  52%|#####1    | 1807/3500 [1:36:29<1:02:35,  2.22s/it, lr: 2.0e-04 loss: 6.964e-02]wan_dewa:  52%|#####1    | 1807/3500 [1:36:29<1:02:35,  2.22s/it, lr: 2.0e-04 loss: 6.964e-02]wan_dewa:  52%|#####1    | 1807/3500 [1:36:32<1:02:35,  2.22s/it, lr: 2.0e-04 loss: 3.737e-02]wan_dewa:  52%|#####1    | 1807/3500 [1:36:32<1:02:35,  2.22s/it, lr: 2.0e-04 loss: 3.737e-02]wan_dewa:  52%|#####1    | 1808/3500 [1:36:32<1:04:40,  2.29s/it, lr: 2.0e-04 loss: 3.737e-02]wan_dewa:  52%|#####1    | 1808/3500 [1:36:32<1:04:40,  2.29s/it, lr: 2.0e-04 loss: 3.737e-02]wan_dewa:  52%|#####1    | 1808/3500 [1:36:34<1:04:40,  2.29s/it, lr: 2.0e-04 loss: 3.158e-02]wan_dewa:  52%|#####1    | 1808/3500 [1:36:34<1:04:40,  2.29s/it, lr: 2.0e-04 loss: 3.158e-02]wan_dewa:  52%|#####1    | 1809/3500 [1:36:34<1:04:32,  2.29s/it, lr: 2.0e-04 loss: 3.158e-02]wan_dewa:  52%|#####1    | 1809/3500 [1:36:34<1:04:32,  2.29s/it, lr: 2.0e-04 loss: 3.158e-02]wan_dewa:  52%|#####1    | 1809/3500 [1:36:45<1:04:32,  2.29s/it, lr: 2.0e-04 loss: 6.941e-02]wan_dewa:  52%|#####1    | 1809/3500 [1:36:45<1:04:32,  2.29s/it, lr: 2.0e-04 loss: 6.941e-02]wan_dewa:  52%|#####1    | 1810/3500 [1:36:47<1:04:29,  2.29s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  52%|#####1    | 1810/3500 [1:36:47<1:04:29,  2.29s/it, lr: 2.0e-04 loss: 1.380e-01]wan_dewa:  52%|#####1    | 1811/3500 [1:36:47<49:39,  1.76s/it, lr: 2.0e-04 loss: 1.380e-01]  wan_dewa:  52%|#####1    | 1811/3500 [1:36:47<49:39,  1.76s/it, lr: 2.0e-04 loss: 1.380e-01]  wan_dewa:  52%|#####1    | 1811/3500 [1:36:50<49:39,  1.76s/it, lr: 2.0e-04 loss: 6.266e-02]wan_dewa:  52%|#####1    | 1811/3500 [1:36:50<49:39,  1.76s/it, lr: 2.0e-04 loss: 6.266e-02]wan_dewa:  52%|#####1    | 1812/3500 [1:36:50<53:07,  1.89s/it, lr: 2.0e-04 loss: 6.266e-02]wan_dewa:  52%|#####1    | 1812/3500 [1:36:50<53:07,  1.89s/it, lr: 2.0e-04 loss: 6.266e-02]wan_dewa:  52%|#####1    | 1812/3500 [1:36:52<53:07,  1.89s/it, lr: 2.0e-04 loss: 8.228e-02]wan_dewa:  52%|#####1    | 1812/3500 [1:36:52<53:07,  1.89s/it, lr: 2.0e-04 loss: 8.228e-02]wan_dewa:  52%|#####1    | 1813/3500 [1:36:52<57:17,  2.04s/it, lr: 2.0e-04 loss: 8.228e-02]wan_dewa:  52%|#####1    | 1813/3500 [1:36:52<57:17,  2.04s/it, lr: 2.0e-04 loss: 8.228e-02]wan_dewa:  52%|#####1    | 1813/3500 [1:36:54<57:17,  2.04s/it, lr: 2.0e-04 loss: 3.896e-02]wan_dewa:  52%|#####1    | 1813/3500 [1:36:54<57:17,  2.04s/it, lr: 2.0e-04 loss: 3.896e-02]wan_dewa:  52%|#####1    | 1814/3500 [1:36:54<59:03,  2.10s/it, lr: 2.0e-04 loss: 3.896e-02]wan_dewa:  52%|#####1    | 1814/3500 [1:36:54<59:03,  2.10s/it, lr: 2.0e-04 loss: 3.896e-02]wan_dewa:  52%|#####1    | 1814/3500 [1:36:57<59:03,  2.10s/it, lr: 2.0e-04 loss: 5.092e-01]wan_dewa:  52%|#####1    | 1814/3500 [1:36:57<59:03,  2.10s/it, lr: 2.0e-04 loss: 5.092e-01]wan_dewa:  52%|#####1    | 1815/3500 [1:36:57<1:00:21,  2.15s/it, lr: 2.0e-04 loss: 5.092e-01]wan_dewa:  52%|#####1    | 1815/3500 [1:36:57<1:00:21,  2.15s/it, lr: 2.0e-04 loss: 5.092e-01]wan_dewa:  52%|#####1    | 1815/3500 [1:36:59<1:00:21,  2.15s/it, lr: 2.0e-04 loss: 7.583e-02]wan_dewa:  52%|#####1    | 1815/3500 [1:36:59<1:00:21,  2.15s/it, lr: 2.0e-04 loss: 7.583e-02]wan_dewa:  52%|#####1    | 1816/3500 [1:36:59<1:01:18,  2.18s/it, lr: 2.0e-04 loss: 7.583e-02]wan_dewa:  52%|#####1    | 1816/3500 [1:36:59<1:01:18,  2.18s/it, lr: 2.0e-04 loss: 7.583e-02]wan_dewa:  52%|#####1    | 1816/3500 [1:37:01<1:01:18,  2.18s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  52%|#####1    | 1816/3500 [1:37:01<1:01:18,  2.18s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  52%|#####1    | 1817/3500 [1:37:01<1:02:01,  2.21s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  52%|#####1    | 1817/3500 [1:37:01<1:02:01,  2.21s/it, lr: 2.0e-04 loss: 4.594e-02]wan_dewa:  52%|#####1    | 1817/3500 [1:37:04<1:02:01,  2.21s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  52%|#####1    | 1817/3500 [1:37:04<1:02:01,  2.21s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  52%|#####1    | 1818/3500 [1:37:04<1:04:03,  2.29s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  52%|#####1    | 1818/3500 [1:37:04<1:04:03,  2.29s/it, lr: 2.0e-04 loss: 1.058e-01]wan_dewa:  52%|#####1    | 1818/3500 [1:37:06<1:04:03,  2.29s/it, lr: 2.0e-04 loss: 3.536e-02]wan_dewa:  52%|#####1    | 1818/3500 [1:37:06<1:04:03,  2.29s/it, lr: 2.0e-04 loss: 3.536e-02]wan_dewa:  52%|#####1    | 1819/3500 [1:37:06<1:03:59,  2.28s/it, lr: 2.0e-04 loss: 3.536e-02]wan_dewa:  52%|#####1    | 1819/3500 [1:37:06<1:03:59,  2.28s/it, lr: 2.0e-04 loss: 3.536e-02]wan_dewa:  52%|#####1    | 1819/3500 [1:37:14<1:03:59,  2.28s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  52%|#####1    | 1819/3500 [1:37:14<1:03:59,  2.28s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  52%|#####2    | 1820/3500 [1:37:17<1:03:56,  2.28s/it, lr: 2.0e-04 loss: 6.753e-02]wan_dewa:  52%|#####2    | 1820/3500 [1:37:17<1:03:56,  2.28s/it, lr: 2.0e-04 loss: 6.753e-02]wan_dewa:  52%|#####2    | 1821/3500 [1:37:17<49:18,  1.76s/it, lr: 2.0e-04 loss: 6.753e-02]  wan_dewa:  52%|#####2    | 1821/3500 [1:37:17<49:18,  1.76s/it, lr: 2.0e-04 loss: 6.753e-02]  wan_dewa:  52%|#####2    | 1821/3500 [1:37:19<49:18,  1.76s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  52%|#####2    | 1821/3500 [1:37:19<49:18,  1.76s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  52%|#####2    | 1822/3500 [1:37:19<52:49,  1.89s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  52%|#####2    | 1822/3500 [1:37:19<52:49,  1.89s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  52%|#####2    | 1822/3500 [1:37:21<52:49,  1.89s/it, lr: 2.0e-04 loss: 2.355e-02]wan_dewa:  52%|#####2    | 1822/3500 [1:37:21<52:49,  1.89s/it, lr: 2.0e-04 loss: 2.355e-02]wan_dewa:  52%|#####2    | 1823/3500 [1:37:21<56:57,  2.04s/it, lr: 2.0e-04 loss: 2.355e-02]wan_dewa:  52%|#####2    | 1823/3500 [1:37:21<56:57,  2.04s/it, lr: 2.0e-04 loss: 2.355e-02]wan_dewa:  52%|#####2    | 1823/3500 [1:37:24<56:57,  2.04s/it, lr: 2.0e-04 loss: 4.405e-02]wan_dewa:  52%|#####2    | 1823/3500 [1:37:24<56:57,  2.04s/it, lr: 2.0e-04 loss: 4.405e-02]wan_dewa:  52%|#####2    | 1824/3500 [1:37:24<58:42,  2.10s/it, lr: 2.0e-04 loss: 4.405e-02]wan_dewa:  52%|#####2    | 1824/3500 [1:37:24<58:42,  2.10s/it, lr: 2.0e-04 loss: 4.405e-02]wan_dewa:  52%|#####2    | 1824/3500 [1:37:28<58:42,  2.10s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  52%|#####2    | 1824/3500 [1:37:28<58:42,  2.10s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  52%|#####2    | 1825/3500 [1:37:28<1:00:17,  2.16s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  52%|#####2    | 1825/3500 [1:37:28<1:00:17,  2.16s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  52%|#####2    | 1825/3500 [1:37:30<1:00:17,  2.16s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  52%|#####2    | 1825/3500 [1:37:30<1:00:17,  2.16s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  52%|#####2    | 1826/3500 [1:37:30<1:01:10,  2.19s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  52%|#####2    | 1826/3500 [1:37:30<1:01:10,  2.19s/it, lr: 2.0e-04 loss: 5.161e-02]wan_dewa:  52%|#####2    | 1826/3500 [1:37:33<1:01:10,  2.19s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  52%|#####2    | 1826/3500 [1:37:33<1:01:10,  2.19s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  52%|#####2    | 1827/3500 [1:37:33<1:01:49,  2.22s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  52%|#####2    | 1827/3500 [1:37:33<1:01:49,  2.22s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  52%|#####2    | 1827/3500 [1:37:35<1:01:49,  2.22s/it, lr: 2.0e-04 loss: 6.207e-02]wan_dewa:  52%|#####2    | 1827/3500 [1:37:35<1:01:49,  2.22s/it, lr: 2.0e-04 loss: 6.207e-02]wan_dewa:  52%|#####2    | 1828/3500 [1:37:35<1:05:01,  2.33s/it, lr: 2.0e-04 loss: 6.207e-02]wan_dewa:  52%|#####2    | 1828/3500 [1:37:35<1:05:01,  2.33s/it, lr: 2.0e-04 loss: 6.207e-02]wan_dewa:  52%|#####2    | 1828/3500 [1:37:37<1:05:01,  2.33s/it, lr: 2.0e-04 loss: 2.856e-02]wan_dewa:  52%|#####2    | 1828/3500 [1:37:37<1:05:01,  2.33s/it, lr: 2.0e-04 loss: 2.856e-02]wan_dewa:  52%|#####2    | 1829/3500 [1:37:37<1:04:31,  2.32s/it, lr: 2.0e-04 loss: 2.856e-02]wan_dewa:  52%|#####2    | 1829/3500 [1:37:37<1:04:31,  2.32s/it, lr: 2.0e-04 loss: 2.856e-02]wan_dewa:  52%|#####2    | 1829/3500 [1:37:49<1:04:31,  2.32s/it, lr: 2.0e-04 loss: 6.411e-02]wan_dewa:  52%|#####2    | 1829/3500 [1:37:49<1:04:31,  2.32s/it, lr: 2.0e-04 loss: 6.411e-02]wan_dewa:  52%|#####2    | 1830/3500 [1:37:51<1:04:28,  2.32s/it, lr: 2.0e-04 loss: 4.064e-01]wan_dewa:  52%|#####2    | 1830/3500 [1:37:51<1:04:28,  2.32s/it, lr: 2.0e-04 loss: 4.064e-01]wan_dewa:  52%|#####2    | 1831/3500 [1:37:51<49:25,  1.78s/it, lr: 2.0e-04 loss: 4.064e-01]  wan_dewa:  52%|#####2    | 1831/3500 [1:37:51<49:25,  1.78s/it, lr: 2.0e-04 loss: 4.064e-01]  wan_dewa:  52%|#####2    | 1831/3500 [1:37:53<49:25,  1.78s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  52%|#####2    | 1831/3500 [1:37:53<49:25,  1.78s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  52%|#####2    | 1832/3500 [1:37:53<52:46,  1.90s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  52%|#####2    | 1832/3500 [1:37:53<52:46,  1.90s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  52%|#####2    | 1832/3500 [1:37:56<52:46,  1.90s/it, lr: 2.0e-04 loss: 1.393e-01]wan_dewa:  52%|#####2    | 1832/3500 [1:37:56<52:46,  1.90s/it, lr: 2.0e-04 loss: 1.393e-01]wan_dewa:  52%|#####2    | 1833/3500 [1:37:56<56:57,  2.05s/it, lr: 2.0e-04 loss: 1.393e-01]wan_dewa:  52%|#####2    | 1833/3500 [1:37:56<56:57,  2.05s/it, lr: 2.0e-04 loss: 1.393e-01]wan_dewa:  52%|#####2    | 1833/3500 [1:37:58<56:57,  2.05s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  52%|#####2    | 1833/3500 [1:37:58<56:57,  2.05s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  52%|#####2    | 1834/3500 [1:37:58<58:35,  2.11s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  52%|#####2    | 1834/3500 [1:37:58<58:35,  2.11s/it, lr: 2.0e-04 loss: 6.036e-02]wan_dewa:  52%|#####2    | 1834/3500 [1:38:00<58:35,  2.11s/it, lr: 2.0e-04 loss: 1.680e-01]wan_dewa:  52%|#####2    | 1834/3500 [1:38:00<58:35,  2.11s/it, lr: 2.0e-04 loss: 1.680e-01]wan_dewa:  52%|#####2    | 1835/3500 [1:38:00<59:47,  2.15s/it, lr: 2.0e-04 loss: 1.680e-01]wan_dewa:  52%|#####2    | 1835/3500 [1:38:00<59:47,  2.15s/it, lr: 2.0e-04 loss: 1.680e-01]wan_dewa:  52%|#####2    | 1835/3500 [1:38:03<59:47,  2.15s/it, lr: 2.0e-04 loss: 9.269e-02]wan_dewa:  52%|#####2    | 1835/3500 [1:38:03<59:47,  2.15s/it, lr: 2.0e-04 loss: 9.269e-02]wan_dewa:  52%|#####2    | 1836/3500 [1:38:03<1:00:42,  2.19s/it, lr: 2.0e-04 loss: 9.269e-02]wan_dewa:  52%|#####2    | 1836/3500 [1:38:03<1:00:42,  2.19s/it, lr: 2.0e-04 loss: 9.269e-02]wan_dewa:  52%|#####2    | 1836/3500 [1:38:05<1:00:42,  2.19s/it, lr: 2.0e-04 loss: 4.462e-02]wan_dewa:  52%|#####2    | 1836/3500 [1:38:05<1:00:42,  2.19s/it, lr: 2.0e-04 loss: 4.462e-02]wan_dewa:  52%|#####2    | 1837/3500 [1:38:05<1:01:21,  2.21s/it, lr: 2.0e-04 loss: 4.462e-02]wan_dewa:  52%|#####2    | 1837/3500 [1:38:05<1:01:21,  2.21s/it, lr: 2.0e-04 loss: 4.462e-02]wan_dewa:  52%|#####2    | 1837/3500 [1:38:07<1:01:21,  2.21s/it, lr: 2.0e-04 loss: 3.389e-02]wan_dewa:  52%|#####2    | 1837/3500 [1:38:07<1:01:21,  2.21s/it, lr: 2.0e-04 loss: 3.389e-02]wan_dewa:  53%|#####2    | 1838/3500 [1:38:07<1:03:28,  2.29s/it, lr: 2.0e-04 loss: 3.389e-02]wan_dewa:  53%|#####2    | 1838/3500 [1:38:07<1:03:28,  2.29s/it, lr: 2.0e-04 loss: 3.389e-02]wan_dewa:  53%|#####2    | 1838/3500 [1:38:10<1:03:28,  2.29s/it, lr: 2.0e-04 loss: 4.843e-02]wan_dewa:  53%|#####2    | 1838/3500 [1:38:10<1:03:28,  2.29s/it, lr: 2.0e-04 loss: 4.843e-02]wan_dewa:  53%|#####2    | 1839/3500 [1:38:10<1:03:18,  2.29s/it, lr: 2.0e-04 loss: 4.843e-02]wan_dewa:  53%|#####2    | 1839/3500 [1:38:10<1:03:18,  2.29s/it, lr: 2.0e-04 loss: 4.843e-02]wan_dewa:  53%|#####2    | 1839/3500 [1:38:21<1:03:18,  2.29s/it, lr: 2.0e-04 loss: 2.782e-02]wan_dewa:  53%|#####2    | 1839/3500 [1:38:21<1:03:18,  2.29s/it, lr: 2.0e-04 loss: 2.782e-02]wan_dewa:  53%|#####2    | 1840/3500 [1:38:23<1:03:15,  2.29s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  53%|#####2    | 1840/3500 [1:38:23<1:03:15,  2.29s/it, lr: 2.0e-04 loss: 3.929e-02]wan_dewa:  53%|#####2    | 1841/3500 [1:38:23<48:49,  1.77s/it, lr: 2.0e-04 loss: 3.929e-02]  wan_dewa:  53%|#####2    | 1841/3500 [1:38:23<48:49,  1.77s/it, lr: 2.0e-04 loss: 3.929e-02]  wan_dewa:  53%|#####2    | 1841/3500 [1:38:25<48:49,  1.77s/it, lr: 2.0e-04 loss: 5.132e-02]wan_dewa:  53%|#####2    | 1841/3500 [1:38:25<48:49,  1.77s/it, lr: 2.0e-04 loss: 5.132e-02]wan_dewa:  53%|#####2    | 1842/3500 [1:38:25<52:17,  1.89s/it, lr: 2.0e-04 loss: 5.132e-02]wan_dewa:  53%|#####2    | 1842/3500 [1:38:25<52:17,  1.89s/it, lr: 2.0e-04 loss: 5.132e-02]wan_dewa:  53%|#####2    | 1842/3500 [1:38:28<52:17,  1.89s/it, lr: 2.0e-04 loss: 4.821e-02]wan_dewa:  53%|#####2    | 1842/3500 [1:38:28<52:17,  1.89s/it, lr: 2.0e-04 loss: 4.821e-02]wan_dewa:  53%|#####2    | 1843/3500 [1:38:28<56:34,  2.05s/it, lr: 2.0e-04 loss: 4.821e-02]wan_dewa:  53%|#####2    | 1843/3500 [1:38:28<56:34,  2.05s/it, lr: 2.0e-04 loss: 4.821e-02]wan_dewa:  53%|#####2    | 1843/3500 [1:38:30<56:34,  2.05s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  53%|#####2    | 1843/3500 [1:38:30<56:34,  2.05s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  53%|#####2    | 1844/3500 [1:38:30<58:17,  2.11s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  53%|#####2    | 1844/3500 [1:38:30<58:17,  2.11s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  53%|#####2    | 1844/3500 [1:38:32<58:17,  2.11s/it, lr: 2.0e-04 loss: 3.522e-02]wan_dewa:  53%|#####2    | 1844/3500 [1:38:32<58:17,  2.11s/it, lr: 2.0e-04 loss: 3.522e-02]wan_dewa:  53%|#####2    | 1845/3500 [1:38:32<59:33,  2.16s/it, lr: 2.0e-04 loss: 3.522e-02]wan_dewa:  53%|#####2    | 1845/3500 [1:38:32<59:33,  2.16s/it, lr: 2.0e-04 loss: 3.522e-02]wan_dewa:  53%|#####2    | 1845/3500 [1:38:35<59:33,  2.16s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  53%|#####2    | 1845/3500 [1:38:35<59:33,  2.16s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  53%|#####2    | 1846/3500 [1:38:35<1:00:31,  2.20s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  53%|#####2    | 1846/3500 [1:38:35<1:00:31,  2.20s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  53%|#####2    | 1846/3500 [1:38:37<1:00:31,  2.20s/it, lr: 2.0e-04 loss: 2.899e-02]wan_dewa:  53%|#####2    | 1846/3500 [1:38:37<1:00:31,  2.20s/it, lr: 2.0e-04 loss: 2.899e-02]wan_dewa:  53%|#####2    | 1847/3500 [1:38:37<1:01:13,  2.22s/it, lr: 2.0e-04 loss: 2.899e-02]wan_dewa:  53%|#####2    | 1847/3500 [1:38:37<1:01:13,  2.22s/it, lr: 2.0e-04 loss: 2.899e-02]wan_dewa:  53%|#####2    | 1847/3500 [1:38:39<1:01:13,  2.22s/it, lr: 2.0e-04 loss: 2.217e-02]wan_dewa:  53%|#####2    | 1847/3500 [1:38:39<1:01:13,  2.22s/it, lr: 2.0e-04 loss: 2.217e-02]wan_dewa:  53%|#####2    | 1848/3500 [1:38:39<1:03:30,  2.31s/it, lr: 2.0e-04 loss: 2.217e-02]wan_dewa:  53%|#####2    | 1848/3500 [1:38:39<1:03:30,  2.31s/it, lr: 2.0e-04 loss: 2.217e-02]wan_dewa:  53%|#####2    | 1848/3500 [1:38:42<1:03:30,  2.31s/it, lr: 2.0e-04 loss: 5.539e-02]wan_dewa:  53%|#####2    | 1848/3500 [1:38:42<1:03:30,  2.31s/it, lr: 2.0e-04 loss: 5.539e-02]wan_dewa:  53%|#####2    | 1849/3500 [1:38:42<1:03:20,  2.30s/it, lr: 2.0e-04 loss: 5.539e-02]wan_dewa:  53%|#####2    | 1849/3500 [1:38:42<1:03:20,  2.30s/it, lr: 2.0e-04 loss: 5.539e-02]wan_dewa:  53%|#####2    | 1849/3500 [1:38:55<1:03:20,  2.30s/it, lr: 2.0e-04 loss: 5.802e-02]wan_dewa:  53%|#####2    | 1849/3500 [1:38:55<1:03:20,  2.30s/it, lr: 2.0e-04 loss: 5.802e-02]wan_dewa:  53%|#####2    | 1850/3500 [1:38:57<1:03:18,  2.30s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  53%|#####2    | 1850/3500 [1:38:57<1:03:18,  2.30s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  53%|#####2    | 1851/3500 [1:38:57<48:43,  1.77s/it, lr: 2.0e-04 loss: 1.350e-01]  wan_dewa:  53%|#####2    | 1851/3500 [1:38:57<48:43,  1.77s/it, lr: 2.0e-04 loss: 1.350e-01]  wan_dewa:  53%|#####2    | 1851/3500 [1:38:59<48:43,  1.77s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:  53%|#####2    | 1851/3500 [1:38:59<48:43,  1.77s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:  53%|#####2    | 1852/3500 [1:38:59<52:06,  1.90s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:  53%|#####2    | 1852/3500 [1:38:59<52:06,  1.90s/it, lr: 2.0e-04 loss: 8.596e-02]wan_dewa:  53%|#####2    | 1852/3500 [1:39:02<52:06,  1.90s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  53%|#####2    | 1852/3500 [1:39:02<52:06,  1.90s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  53%|#####2    | 1853/3500 [1:39:02<56:57,  2.07s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  53%|#####2    | 1853/3500 [1:39:02<56:57,  2.07s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  53%|#####2    | 1853/3500 [1:39:04<56:57,  2.07s/it, lr: 2.0e-04 loss: 2.774e-02]wan_dewa:  53%|#####2    | 1853/3500 [1:39:04<56:57,  2.07s/it, lr: 2.0e-04 loss: 2.774e-02]wan_dewa:  53%|#####2    | 1854/3500 [1:39:04<58:24,  2.13s/it, lr: 2.0e-04 loss: 2.774e-02]wan_dewa:  53%|#####2    | 1854/3500 [1:39:04<58:24,  2.13s/it, lr: 2.0e-04 loss: 2.774e-02]wan_dewa:  53%|#####2    | 1854/3500 [1:39:07<58:24,  2.13s/it, lr: 2.0e-04 loss: 5.390e-02]wan_dewa:  53%|#####2    | 1854/3500 [1:39:07<58:24,  2.13s/it, lr: 2.0e-04 loss: 5.390e-02]wan_dewa:  53%|#####3    | 1855/3500 [1:39:07<59:31,  2.17s/it, lr: 2.0e-04 loss: 5.390e-02]wan_dewa:  53%|#####3    | 1855/3500 [1:39:07<59:31,  2.17s/it, lr: 2.0e-04 loss: 5.390e-02]wan_dewa:  53%|#####3    | 1855/3500 [1:39:09<59:31,  2.17s/it, lr: 2.0e-04 loss: 7.259e-02]wan_dewa:  53%|#####3    | 1855/3500 [1:39:09<59:31,  2.17s/it, lr: 2.0e-04 loss: 7.259e-02]wan_dewa:  53%|#####3    | 1856/3500 [1:39:09<1:00:17,  2.20s/it, lr: 2.0e-04 loss: 7.259e-02]wan_dewa:  53%|#####3    | 1856/3500 [1:39:09<1:00:17,  2.20s/it, lr: 2.0e-04 loss: 7.259e-02]wan_dewa:  53%|#####3    | 1856/3500 [1:39:11<1:00:17,  2.20s/it, lr: 2.0e-04 loss: 4.461e-02]wan_dewa:  53%|#####3    | 1856/3500 [1:39:11<1:00:17,  2.20s/it, lr: 2.0e-04 loss: 4.461e-02]wan_dewa:  53%|#####3    | 1857/3500 [1:39:11<1:00:53,  2.22s/it, lr: 2.0e-04 loss: 4.461e-02]wan_dewa:  53%|#####3    | 1857/3500 [1:39:11<1:00:53,  2.22s/it, lr: 2.0e-04 loss: 4.461e-02]wan_dewa:  53%|#####3    | 1857/3500 [1:39:13<1:00:53,  2.22s/it, lr: 2.0e-04 loss: 7.420e-02]wan_dewa:  53%|#####3    | 1857/3500 [1:39:13<1:00:53,  2.22s/it, lr: 2.0e-04 loss: 7.420e-02]wan_dewa:  53%|#####3    | 1858/3500 [1:39:13<1:01:23,  2.24s/it, lr: 2.0e-04 loss: 7.420e-02]wan_dewa:  53%|#####3    | 1858/3500 [1:39:13<1:01:23,  2.24s/it, lr: 2.0e-04 loss: 7.420e-02]wan_dewa:  53%|#####3    | 1858/3500 [1:39:16<1:01:23,  2.24s/it, lr: 2.0e-04 loss: 1.218e-01]wan_dewa:  53%|#####3    | 1858/3500 [1:39:16<1:01:23,  2.24s/it, lr: 2.0e-04 loss: 1.218e-01]wan_dewa:  53%|#####3    | 1859/3500 [1:39:16<1:03:14,  2.31s/it, lr: 2.0e-04 loss: 1.218e-01]wan_dewa:  53%|#####3    | 1859/3500 [1:39:16<1:03:14,  2.31s/it, lr: 2.0e-04 loss: 1.218e-01]wan_dewa:  53%|#####3    | 1859/3500 [1:39:27<1:03:14,  2.31s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  53%|#####3    | 1859/3500 [1:39:27<1:03:14,  2.31s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  53%|#####3    | 1860/3500 [1:39:29<1:03:11,  2.31s/it, lr: 2.0e-04 loss: 4.442e-02]wan_dewa:  53%|#####3    | 1860/3500 [1:39:29<1:03:11,  2.31s/it, lr: 2.0e-04 loss: 4.442e-02]wan_dewa:  53%|#####3    | 1861/3500 [1:39:29<48:28,  1.77s/it, lr: 2.0e-04 loss: 4.442e-02]  wan_dewa:  53%|#####3    | 1861/3500 [1:39:29<48:28,  1.77s/it, lr: 2.0e-04 loss: 4.442e-02]  wan_dewa:  53%|#####3    | 1861/3500 [1:39:31<48:28,  1.77s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  53%|#####3    | 1861/3500 [1:39:31<48:28,  1.77s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  53%|#####3    | 1862/3500 [1:39:31<51:47,  1.90s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  53%|#####3    | 1862/3500 [1:39:31<51:47,  1.90s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  53%|#####3    | 1862/3500 [1:39:34<51:47,  1.90s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  53%|#####3    | 1862/3500 [1:39:34<51:47,  1.90s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  53%|#####3    | 1863/3500 [1:39:34<54:25,  1.99s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  53%|#####3    | 1863/3500 [1:39:34<54:25,  1.99s/it, lr: 2.0e-04 loss: 4.258e-02]wan_dewa:  53%|#####3    | 1863/3500 [1:39:36<54:25,  1.99s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  53%|#####3    | 1863/3500 [1:39:36<54:25,  1.99s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  53%|#####3    | 1864/3500 [1:39:36<57:49,  2.12s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  53%|#####3    | 1864/3500 [1:39:36<57:49,  2.12s/it, lr: 2.0e-04 loss: 4.769e-02]wan_dewa:  53%|#####3    | 1864/3500 [1:39:38<57:49,  2.12s/it, lr: 2.0e-04 loss: 4.926e-02]wan_dewa:  53%|#####3    | 1864/3500 [1:39:38<57:49,  2.12s/it, lr: 2.0e-04 loss: 4.926e-02]wan_dewa:  53%|#####3    | 1865/3500 [1:39:38<58:57,  2.16s/it, lr: 2.0e-04 loss: 4.926e-02]wan_dewa:  53%|#####3    | 1865/3500 [1:39:38<58:57,  2.16s/it, lr: 2.0e-04 loss: 4.926e-02]wan_dewa:  53%|#####3    | 1865/3500 [1:39:41<58:57,  2.16s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  53%|#####3    | 1865/3500 [1:39:41<58:57,  2.16s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  53%|#####3    | 1866/3500 [1:39:41<59:46,  2.20s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  53%|#####3    | 1866/3500 [1:39:41<59:46,  2.20s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  53%|#####3    | 1866/3500 [1:39:43<59:46,  2.20s/it, lr: 2.0e-04 loss: 5.240e-02]wan_dewa:  53%|#####3    | 1866/3500 [1:39:43<59:46,  2.20s/it, lr: 2.0e-04 loss: 5.240e-02]wan_dewa:  53%|#####3    | 1867/3500 [1:39:43<1:00:23,  2.22s/it, lr: 2.0e-04 loss: 5.240e-02]wan_dewa:  53%|#####3    | 1867/3500 [1:39:43<1:00:23,  2.22s/it, lr: 2.0e-04 loss: 5.240e-02]wan_dewa:  53%|#####3    | 1867/3500 [1:39:45<1:00:23,  2.22s/it, lr: 2.0e-04 loss: 2.496e-02]wan_dewa:  53%|#####3    | 1867/3500 [1:39:45<1:00:23,  2.22s/it, lr: 2.0e-04 loss: 2.496e-02]wan_dewa:  53%|#####3    | 1868/3500 [1:39:45<1:00:49,  2.24s/it, lr: 2.0e-04 loss: 2.496e-02]wan_dewa:  53%|#####3    | 1868/3500 [1:39:45<1:00:49,  2.24s/it, lr: 2.0e-04 loss: 2.496e-02]wan_dewa:  53%|#####3    | 1868/3500 [1:39:48<1:00:49,  2.24s/it, lr: 2.0e-04 loss: 2.387e-02]wan_dewa:  53%|#####3    | 1868/3500 [1:39:48<1:00:49,  2.24s/it, lr: 2.0e-04 loss: 2.387e-02]wan_dewa:  53%|#####3    | 1869/3500 [1:39:48<1:02:41,  2.31s/it, lr: 2.0e-04 loss: 2.387e-02]wan_dewa:  53%|#####3    | 1869/3500 [1:39:48<1:02:41,  2.31s/it, lr: 2.0e-04 loss: 2.387e-02]wan_dewa:  53%|#####3    | 1869/3500 [1:39:55<1:02:41,  2.31s/it, lr: 2.0e-04 loss: 1.962e-01]wan_dewa:  53%|#####3    | 1869/3500 [1:39:55<1:02:41,  2.31s/it, lr: 2.0e-04 loss: 1.962e-01]wan_dewa:  53%|#####3    | 1870/3500 [1:39:58<1:02:39,  2.31s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  53%|#####3    | 1870/3500 [1:39:58<1:02:39,  2.31s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  53%|#####3    | 1871/3500 [1:39:58<48:09,  1.77s/it, lr: 2.0e-04 loss: 5.809e-02]  wan_dewa:  53%|#####3    | 1871/3500 [1:39:58<48:09,  1.77s/it, lr: 2.0e-04 loss: 5.809e-02]  wan_dewa:  53%|#####3    | 1871/3500 [1:40:00<48:09,  1.77s/it, lr: 2.0e-04 loss: 7.056e-02]wan_dewa:  53%|#####3    | 1871/3500 [1:40:00<48:09,  1.77s/it, lr: 2.0e-04 loss: 7.056e-02]wan_dewa:  53%|#####3    | 1872/3500 [1:40:00<51:30,  1.90s/it, lr: 2.0e-04 loss: 7.056e-02]wan_dewa:  53%|#####3    | 1872/3500 [1:40:00<51:30,  1.90s/it, lr: 2.0e-04 loss: 7.056e-02]wan_dewa:  53%|#####3    | 1872/3500 [1:40:02<51:30,  1.90s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  53%|#####3    | 1872/3500 [1:40:02<51:30,  1.90s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  54%|#####3    | 1873/3500 [1:40:02<54:10,  2.00s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  54%|#####3    | 1873/3500 [1:40:02<54:10,  2.00s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  54%|#####3    | 1873/3500 [1:40:05<54:10,  2.00s/it, lr: 2.0e-04 loss: 7.324e-02]wan_dewa:  54%|#####3    | 1873/3500 [1:40:05<54:10,  2.00s/it, lr: 2.0e-04 loss: 7.324e-02]wan_dewa:  54%|#####3    | 1874/3500 [1:40:05<57:40,  2.13s/it, lr: 2.0e-04 loss: 7.324e-02]wan_dewa:  54%|#####3    | 1874/3500 [1:40:05<57:40,  2.13s/it, lr: 2.0e-04 loss: 7.324e-02]wan_dewa:  54%|#####3    | 1874/3500 [1:40:09<57:40,  2.13s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:  54%|#####3    | 1874/3500 [1:40:09<57:40,  2.13s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:  54%|#####3    | 1875/3500 [1:40:09<59:05,  2.18s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:  54%|#####3    | 1875/3500 [1:40:09<59:05,  2.18s/it, lr: 2.0e-04 loss: 1.032e-01]wan_dewa:  54%|#####3    | 1875/3500 [1:40:12<59:05,  2.18s/it, lr: 2.0e-04 loss: 9.265e-02]wan_dewa:  54%|#####3    | 1875/3500 [1:40:12<59:05,  2.18s/it, lr: 2.0e-04 loss: 9.265e-02]wan_dewa:  54%|#####3    | 1876/3500 [1:40:12<59:48,  2.21s/it, lr: 2.0e-04 loss: 9.265e-02]wan_dewa:  54%|#####3    | 1876/3500 [1:40:12<59:48,  2.21s/it, lr: 2.0e-04 loss: 9.265e-02]wan_dewa:  54%|#####3    | 1876/3500 [1:40:14<59:48,  2.21s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  54%|#####3    | 1876/3500 [1:40:14<59:48,  2.21s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  54%|#####3    | 1877/3500 [1:40:14<1:00:21,  2.23s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  54%|#####3    | 1877/3500 [1:40:14<1:00:21,  2.23s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  54%|#####3    | 1877/3500 [1:40:16<1:00:21,  2.23s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  54%|#####3    | 1877/3500 [1:40:16<1:00:21,  2.23s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  54%|#####3    | 1878/3500 [1:40:16<1:00:42,  2.25s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  54%|#####3    | 1878/3500 [1:40:16<1:00:42,  2.25s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  54%|#####3    | 1878/3500 [1:40:18<1:00:42,  2.25s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  54%|#####3    | 1878/3500 [1:40:18<1:00:42,  2.25s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  54%|#####3    | 1879/3500 [1:40:18<1:00:58,  2.26s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  54%|#####3    | 1879/3500 [1:40:18<1:00:58,  2.26s/it, lr: 2.0e-04 loss: 6.750e-02]wan_dewa:  54%|#####3    | 1879/3500 [1:40:30<1:00:58,  2.26s/it, lr: 2.0e-04 loss: 7.118e-02]wan_dewa:  54%|#####3    | 1879/3500 [1:40:30<1:00:58,  2.26s/it, lr: 2.0e-04 loss: 7.118e-02]wan_dewa:  54%|#####3    | 1880/3500 [1:40:32<1:00:56,  2.26s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  54%|#####3    | 1880/3500 [1:40:32<1:00:56,  2.26s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa:  54%|#####3    | 1881/3500 [1:40:32<47:10,  1.75s/it, lr: 2.0e-04 loss: 4.672e-02]  wan_dewa:  54%|#####3    | 1881/3500 [1:40:32<47:10,  1.75s/it, lr: 2.0e-04 loss: 4.672e-02]  wan_dewa:  54%|#####3    | 1881/3500 [1:40:34<47:10,  1.75s/it, lr: 2.0e-04 loss: 3.435e-02]wan_dewa:  54%|#####3    | 1881/3500 [1:40:34<47:10,  1.75s/it, lr: 2.0e-04 loss: 3.435e-02]wan_dewa:  54%|#####3    | 1882/3500 [1:40:34<50:38,  1.88s/it, lr: 2.0e-04 loss: 3.435e-02]wan_dewa:  54%|#####3    | 1882/3500 [1:40:34<50:38,  1.88s/it, lr: 2.0e-04 loss: 3.435e-02]wan_dewa:  54%|#####3    | 1882/3500 [1:40:37<50:38,  1.88s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  54%|#####3    | 1882/3500 [1:40:37<50:38,  1.88s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  54%|#####3    | 1883/3500 [1:40:37<53:23,  1.98s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  54%|#####3    | 1883/3500 [1:40:37<53:23,  1.98s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  54%|#####3    | 1883/3500 [1:40:39<53:23,  1.98s/it, lr: 2.0e-04 loss: 4.040e-02]wan_dewa:  54%|#####3    | 1883/3500 [1:40:39<53:23,  1.98s/it, lr: 2.0e-04 loss: 4.040e-02]wan_dewa:  54%|#####3    | 1884/3500 [1:40:39<55:30,  2.06s/it, lr: 2.0e-04 loss: 4.040e-02]wan_dewa:  54%|#####3    | 1884/3500 [1:40:39<55:30,  2.06s/it, lr: 2.0e-04 loss: 4.040e-02]wan_dewa:  54%|#####3    | 1884/3500 [1:40:41<55:30,  2.06s/it, lr: 2.0e-04 loss: 5.147e-02]wan_dewa:  54%|#####3    | 1884/3500 [1:40:41<55:30,  2.06s/it, lr: 2.0e-04 loss: 5.147e-02]wan_dewa:  54%|#####3    | 1885/3500 [1:40:41<58:34,  2.18s/it, lr: 2.0e-04 loss: 5.147e-02]wan_dewa:  54%|#####3    | 1885/3500 [1:40:41<58:34,  2.18s/it, lr: 2.0e-04 loss: 5.147e-02]wan_dewa:  54%|#####3    | 1885/3500 [1:40:44<58:34,  2.18s/it, lr: 2.0e-04 loss: 3.757e-02]wan_dewa:  54%|#####3    | 1885/3500 [1:40:44<58:34,  2.18s/it, lr: 2.0e-04 loss: 3.757e-02]wan_dewa:  54%|#####3    | 1886/3500 [1:40:44<59:19,  2.21s/it, lr: 2.0e-04 loss: 3.757e-02]wan_dewa:  54%|#####3    | 1886/3500 [1:40:44<59:19,  2.21s/it, lr: 2.0e-04 loss: 3.757e-02]wan_dewa:  54%|#####3    | 1886/3500 [1:40:46<59:19,  2.21s/it, lr: 2.0e-04 loss: 3.197e-02]wan_dewa:  54%|#####3    | 1886/3500 [1:40:46<59:19,  2.21s/it, lr: 2.0e-04 loss: 3.197e-02]wan_dewa:  54%|#####3    | 1887/3500 [1:40:46<59:50,  2.23s/it, lr: 2.0e-04 loss: 3.197e-02]wan_dewa:  54%|#####3    | 1887/3500 [1:40:46<59:50,  2.23s/it, lr: 2.0e-04 loss: 3.197e-02]wan_dewa:  54%|#####3    | 1887/3500 [1:40:48<59:50,  2.23s/it, lr: 2.0e-04 loss: 4.439e-02]wan_dewa:  54%|#####3    | 1887/3500 [1:40:48<59:50,  2.23s/it, lr: 2.0e-04 loss: 4.439e-02]wan_dewa:  54%|#####3    | 1888/3500 [1:40:48<1:00:14,  2.24s/it, lr: 2.0e-04 loss: 4.439e-02]wan_dewa:  54%|#####3    | 1888/3500 [1:40:48<1:00:14,  2.24s/it, lr: 2.0e-04 loss: 4.439e-02]wan_dewa:  54%|#####3    | 1888/3500 [1:40:51<1:00:14,  2.24s/it, lr: 2.0e-04 loss: 2.681e-02]wan_dewa:  54%|#####3    | 1888/3500 [1:40:51<1:00:14,  2.24s/it, lr: 2.0e-04 loss: 2.681e-02]wan_dewa:  54%|#####3    | 1889/3500 [1:40:51<1:00:30,  2.25s/it, lr: 2.0e-04 loss: 2.681e-02]wan_dewa:  54%|#####3    | 1889/3500 [1:40:51<1:00:30,  2.25s/it, lr: 2.0e-04 loss: 2.681e-02]wan_dewa:  54%|#####3    | 1889/3500 [1:41:02<1:00:30,  2.25s/it, lr: 2.0e-04 loss: 6.085e-02]wan_dewa:  54%|#####3    | 1889/3500 [1:41:02<1:00:30,  2.25s/it, lr: 2.0e-04 loss: 6.085e-02]wan_dewa:  54%|#####4    | 1890/3500 [1:41:04<1:00:28,  2.25s/it, lr: 2.0e-04 loss: 7.904e-02]wan_dewa:  54%|#####4    | 1890/3500 [1:41:04<1:00:28,  2.25s/it, lr: 2.0e-04 loss: 7.904e-02]wan_dewa:  54%|#####4    | 1891/3500 [1:41:04<46:51,  1.75s/it, lr: 2.0e-04 loss: 7.904e-02]  wan_dewa:  54%|#####4    | 1891/3500 [1:41:04<46:51,  1.75s/it, lr: 2.0e-04 loss: 7.904e-02]  wan_dewa:  54%|#####4    | 1891/3500 [1:41:06<46:51,  1.75s/it, lr: 2.0e-04 loss: 3.257e-02]wan_dewa:  54%|#####4    | 1891/3500 [1:41:06<46:51,  1.75s/it, lr: 2.0e-04 loss: 3.257e-02]wan_dewa:  54%|#####4    | 1892/3500 [1:41:06<50:20,  1.88s/it, lr: 2.0e-04 loss: 3.257e-02]wan_dewa:  54%|#####4    | 1892/3500 [1:41:06<50:20,  1.88s/it, lr: 2.0e-04 loss: 3.257e-02]wan_dewa:  54%|#####4    | 1892/3500 [1:41:09<50:20,  1.88s/it, lr: 2.0e-04 loss: 8.079e-02]wan_dewa:  54%|#####4    | 1892/3500 [1:41:09<50:20,  1.88s/it, lr: 2.0e-04 loss: 8.079e-02]wan_dewa:  54%|#####4    | 1893/3500 [1:41:09<53:06,  1.98s/it, lr: 2.0e-04 loss: 8.079e-02]wan_dewa:  54%|#####4    | 1893/3500 [1:41:09<53:06,  1.98s/it, lr: 2.0e-04 loss: 8.079e-02]wan_dewa:  54%|#####4    | 1893/3500 [1:41:11<53:06,  1.98s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  54%|#####4    | 1893/3500 [1:41:11<53:06,  1.98s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  54%|#####4    | 1894/3500 [1:41:11<55:14,  2.06s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  54%|#####4    | 1894/3500 [1:41:11<55:14,  2.06s/it, lr: 2.0e-04 loss: 4.167e-02]wan_dewa:  54%|#####4    | 1894/3500 [1:41:13<55:14,  2.06s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  54%|#####4    | 1894/3500 [1:41:13<55:14,  2.06s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  54%|#####4    | 1895/3500 [1:41:13<58:19,  2.18s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  54%|#####4    | 1895/3500 [1:41:13<58:19,  2.18s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  54%|#####4    | 1895/3500 [1:41:16<58:19,  2.18s/it, lr: 2.0e-04 loss: 4.569e-02]wan_dewa:  54%|#####4    | 1895/3500 [1:41:16<58:19,  2.18s/it, lr: 2.0e-04 loss: 4.569e-02]wan_dewa:  54%|#####4    | 1896/3500 [1:41:16<59:03,  2.21s/it, lr: 2.0e-04 loss: 4.569e-02]wan_dewa:  54%|#####4    | 1896/3500 [1:41:16<59:03,  2.21s/it, lr: 2.0e-04 loss: 4.569e-02]wan_dewa:  54%|#####4    | 1896/3500 [1:41:18<59:03,  2.21s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  54%|#####4    | 1896/3500 [1:41:18<59:03,  2.21s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  54%|#####4    | 1897/3500 [1:41:18<59:34,  2.23s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  54%|#####4    | 1897/3500 [1:41:18<59:34,  2.23s/it, lr: 2.0e-04 loss: 5.402e-02]wan_dewa:  54%|#####4    | 1897/3500 [1:41:20<59:34,  2.23s/it, lr: 2.0e-04 loss: 1.360e-01]wan_dewa:  54%|#####4    | 1897/3500 [1:41:20<59:34,  2.23s/it, lr: 2.0e-04 loss: 1.360e-01]wan_dewa:  54%|#####4    | 1898/3500 [1:41:20<59:57,  2.25s/it, lr: 2.0e-04 loss: 1.360e-01]wan_dewa:  54%|#####4    | 1898/3500 [1:41:20<59:57,  2.25s/it, lr: 2.0e-04 loss: 1.360e-01]wan_dewa:  54%|#####4    | 1898/3500 [1:41:23<59:57,  2.25s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:  54%|#####4    | 1898/3500 [1:41:23<59:57,  2.25s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:  54%|#####4    | 1899/3500 [1:41:23<1:00:14,  2.26s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:  54%|#####4    | 1899/3500 [1:41:23<1:00:14,  2.26s/it, lr: 2.0e-04 loss: 6.878e-02]wan_dewa:  54%|#####4    | 1899/3500 [1:41:36<1:00:14,  2.26s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  54%|#####4    | 1899/3500 [1:41:36<1:00:14,  2.26s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  54%|#####4    | 1900/3500 [1:41:38<1:00:11,  2.26s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  54%|#####4    | 1900/3500 [1:41:38<1:00:11,  2.26s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  54%|#####4    | 1901/3500 [1:41:38<46:31,  1.75s/it, lr: 2.0e-04 loss: 3.909e-02]  wan_dewa:  54%|#####4    | 1901/3500 [1:41:38<46:31,  1.75s/it, lr: 2.0e-04 loss: 3.909e-02]  wan_dewa:  54%|#####4    | 1901/3500 [1:41:41<46:31,  1.75s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  54%|#####4    | 1901/3500 [1:41:41<46:31,  1.75s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  54%|#####4    | 1902/3500 [1:41:41<49:59,  1.88s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  54%|#####4    | 1902/3500 [1:41:41<49:59,  1.88s/it, lr: 2.0e-04 loss: 3.819e-02]wan_dewa:  54%|#####4    | 1902/3500 [1:41:43<49:59,  1.88s/it, lr: 2.0e-04 loss: 4.453e-02]wan_dewa:  54%|#####4    | 1902/3500 [1:41:43<49:59,  1.88s/it, lr: 2.0e-04 loss: 4.453e-02]wan_dewa:  54%|#####4    | 1903/3500 [1:41:43<52:41,  1.98s/it, lr: 2.0e-04 loss: 4.453e-02]wan_dewa:  54%|#####4    | 1903/3500 [1:41:43<52:41,  1.98s/it, lr: 2.0e-04 loss: 4.453e-02]wan_dewa:  54%|#####4    | 1903/3500 [1:41:45<52:41,  1.98s/it, lr: 2.0e-04 loss: 3.749e-02]wan_dewa:  54%|#####4    | 1903/3500 [1:41:45<52:41,  1.98s/it, lr: 2.0e-04 loss: 3.749e-02]wan_dewa:  54%|#####4    | 1904/3500 [1:41:45<54:46,  2.06s/it, lr: 2.0e-04 loss: 3.749e-02]wan_dewa:  54%|#####4    | 1904/3500 [1:41:45<54:46,  2.06s/it, lr: 2.0e-04 loss: 3.749e-02]wan_dewa:  54%|#####4    | 1904/3500 [1:41:48<54:46,  2.06s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  54%|#####4    | 1904/3500 [1:41:48<54:46,  2.06s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  54%|#####4    | 1905/3500 [1:41:48<57:42,  2.17s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  54%|#####4    | 1905/3500 [1:41:48<57:42,  2.17s/it, lr: 2.0e-04 loss: 4.916e-02]wan_dewa:  54%|#####4    | 1905/3500 [1:41:50<57:42,  2.17s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  54%|#####4    | 1905/3500 [1:41:50<57:42,  2.17s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  54%|#####4    | 1906/3500 [1:41:50<58:28,  2.20s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  54%|#####4    | 1906/3500 [1:41:50<58:28,  2.20s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  54%|#####4    | 1906/3500 [1:41:52<58:28,  2.20s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  54%|#####4    | 1906/3500 [1:41:52<58:28,  2.20s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  54%|#####4    | 1907/3500 [1:41:52<59:00,  2.22s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  54%|#####4    | 1907/3500 [1:41:52<59:00,  2.22s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  54%|#####4    | 1907/3500 [1:41:54<59:00,  2.22s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  54%|#####4    | 1907/3500 [1:41:54<59:00,  2.22s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  55%|#####4    | 1908/3500 [1:41:54<59:24,  2.24s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  55%|#####4    | 1908/3500 [1:41:54<59:24,  2.24s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  55%|#####4    | 1908/3500 [1:41:57<59:24,  2.24s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  55%|#####4    | 1908/3500 [1:41:57<59:24,  2.24s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  55%|#####4    | 1909/3500 [1:41:57<59:40,  2.25s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  55%|#####4    | 1909/3500 [1:41:57<59:40,  2.25s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  55%|#####4    | 1909/3500 [1:42:08<59:40,  2.25s/it, lr: 2.0e-04 loss: 8.135e-02]wan_dewa:  55%|#####4    | 1909/3500 [1:42:08<59:40,  2.25s/it, lr: 2.0e-04 loss: 8.135e-02]wan_dewa:  55%|#####4    | 1910/3500 [1:42:10<59:38,  2.25s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  55%|#####4    | 1910/3500 [1:42:10<59:38,  2.25s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  55%|#####4    | 1911/3500 [1:42:10<46:11,  1.74s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  55%|#####4    | 1911/3500 [1:42:10<46:11,  1.74s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  55%|#####4    | 1911/3500 [1:42:13<46:11,  1.74s/it, lr: 2.0e-04 loss: 3.924e-02]wan_dewa:  55%|#####4    | 1911/3500 [1:42:13<46:11,  1.74s/it, lr: 2.0e-04 loss: 3.924e-02]wan_dewa:  55%|#####4    | 1912/3500 [1:42:13<49:39,  1.88s/it, lr: 2.0e-04 loss: 3.924e-02]wan_dewa:  55%|#####4    | 1912/3500 [1:42:13<49:39,  1.88s/it, lr: 2.0e-04 loss: 3.924e-02]wan_dewa:  55%|#####4    | 1912/3500 [1:42:15<49:39,  1.88s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:  55%|#####4    | 1912/3500 [1:42:15<49:39,  1.88s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:  55%|#####4    | 1913/3500 [1:42:15<52:25,  1.98s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:  55%|#####4    | 1913/3500 [1:42:15<52:25,  1.98s/it, lr: 2.0e-04 loss: 1.015e-01]wan_dewa:  55%|#####4    | 1913/3500 [1:42:17<52:25,  1.98s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  55%|#####4    | 1913/3500 [1:42:17<52:25,  1.98s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  55%|#####4    | 1914/3500 [1:42:17<54:31,  2.06s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  55%|#####4    | 1914/3500 [1:42:17<54:31,  2.06s/it, lr: 2.0e-04 loss: 6.174e-02]wan_dewa:  55%|#####4    | 1914/3500 [1:42:20<54:31,  2.06s/it, lr: 2.0e-04 loss: 2.555e-02]wan_dewa:  55%|#####4    | 1914/3500 [1:42:20<54:31,  2.06s/it, lr: 2.0e-04 loss: 2.555e-02]wan_dewa:  55%|#####4    | 1915/3500 [1:42:20<57:29,  2.18s/it, lr: 2.0e-04 loss: 2.555e-02]wan_dewa:  55%|#####4    | 1915/3500 [1:42:20<57:29,  2.18s/it, lr: 2.0e-04 loss: 2.555e-02]wan_dewa:  55%|#####4    | 1915/3500 [1:42:22<57:29,  2.18s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  55%|#####4    | 1915/3500 [1:42:22<57:29,  2.18s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  55%|#####4    | 1916/3500 [1:42:22<58:16,  2.21s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  55%|#####4    | 1916/3500 [1:42:22<58:16,  2.21s/it, lr: 2.0e-04 loss: 5.030e-02]wan_dewa:  55%|#####4    | 1916/3500 [1:42:24<58:16,  2.21s/it, lr: 2.0e-04 loss: 7.666e-02]wan_dewa:  55%|#####4    | 1916/3500 [1:42:24<58:16,  2.21s/it, lr: 2.0e-04 loss: 7.666e-02]wan_dewa:  55%|#####4    | 1917/3500 [1:42:24<58:49,  2.23s/it, lr: 2.0e-04 loss: 7.666e-02]wan_dewa:  55%|#####4    | 1917/3500 [1:42:24<58:49,  2.23s/it, lr: 2.0e-04 loss: 7.666e-02]wan_dewa:  55%|#####4    | 1917/3500 [1:42:26<58:49,  2.23s/it, lr: 2.0e-04 loss: 8.261e-02]wan_dewa:  55%|#####4    | 1917/3500 [1:42:26<58:49,  2.23s/it, lr: 2.0e-04 loss: 8.261e-02]wan_dewa:  55%|#####4    | 1918/3500 [1:42:26<59:14,  2.25s/it, lr: 2.0e-04 loss: 8.261e-02]wan_dewa:  55%|#####4    | 1918/3500 [1:42:26<59:14,  2.25s/it, lr: 2.0e-04 loss: 8.261e-02]wan_dewa:  55%|#####4    | 1918/3500 [1:42:29<59:14,  2.25s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  55%|#####4    | 1918/3500 [1:42:29<59:14,  2.25s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  55%|#####4    | 1919/3500 [1:42:29<59:31,  2.26s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  55%|#####4    | 1919/3500 [1:42:29<59:31,  2.26s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  55%|#####4    | 1919/3500 [1:42:37<59:31,  2.26s/it, lr: 2.0e-04 loss: 4.406e-02]wan_dewa:  55%|#####4    | 1919/3500 [1:42:37<59:31,  2.26s/it, lr: 2.0e-04 loss: 4.406e-02]wan_dewa:  55%|#####4    | 1920/3500 [1:42:39<59:28,  2.26s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  55%|#####4    | 1920/3500 [1:42:39<59:28,  2.26s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  55%|#####4    | 1921/3500 [1:42:39<47:09,  1.79s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  55%|#####4    | 1921/3500 [1:42:39<47:09,  1.79s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  55%|#####4    | 1921/3500 [1:42:42<47:09,  1.79s/it, lr: 2.0e-04 loss: 3.234e-02]wan_dewa:  55%|#####4    | 1921/3500 [1:42:42<47:09,  1.79s/it, lr: 2.0e-04 loss: 3.234e-02]wan_dewa:  55%|#####4    | 1922/3500 [1:42:42<50:13,  1.91s/it, lr: 2.0e-04 loss: 3.234e-02]wan_dewa:  55%|#####4    | 1922/3500 [1:42:42<50:13,  1.91s/it, lr: 2.0e-04 loss: 3.234e-02]wan_dewa:  55%|#####4    | 1922/3500 [1:42:44<50:13,  1.91s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  55%|#####4    | 1922/3500 [1:42:44<50:13,  1.91s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  55%|#####4    | 1923/3500 [1:42:44<52:40,  2.00s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  55%|#####4    | 1923/3500 [1:42:44<52:40,  2.00s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  55%|#####4    | 1923/3500 [1:42:46<52:40,  2.00s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  55%|#####4    | 1923/3500 [1:42:46<52:40,  2.00s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  55%|#####4    | 1924/3500 [1:42:46<54:34,  2.08s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  55%|#####4    | 1924/3500 [1:42:46<54:34,  2.08s/it, lr: 2.0e-04 loss: 6.448e-02]wan_dewa:  55%|#####4    | 1924/3500 [1:42:51<54:34,  2.08s/it, lr: 2.0e-04 loss: 4.802e-02]wan_dewa:  55%|#####4    | 1924/3500 [1:42:51<54:34,  2.08s/it, lr: 2.0e-04 loss: 4.802e-02]wan_dewa:  55%|#####5    | 1925/3500 [1:42:51<56:16,  2.14s/it, lr: 2.0e-04 loss: 4.802e-02]wan_dewa:  55%|#####5    | 1925/3500 [1:42:51<56:16,  2.14s/it, lr: 2.0e-04 loss: 4.802e-02]wan_dewa:  55%|#####5    | 1925/3500 [1:42:53<56:16,  2.14s/it, lr: 2.0e-04 loss: 4.113e-02]wan_dewa:  55%|#####5    | 1925/3500 [1:42:53<56:16,  2.14s/it, lr: 2.0e-04 loss: 4.113e-02]wan_dewa:  55%|#####5    | 1926/3500 [1:42:53<59:56,  2.29s/it, lr: 2.0e-04 loss: 4.113e-02]wan_dewa:  55%|#####5    | 1926/3500 [1:42:53<59:56,  2.29s/it, lr: 2.0e-04 loss: 4.113e-02]wan_dewa:  55%|#####5    | 1926/3500 [1:42:56<59:56,  2.29s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  55%|#####5    | 1926/3500 [1:42:56<59:56,  2.29s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  55%|#####5    | 1927/3500 [1:42:56<59:49,  2.28s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  55%|#####5    | 1927/3500 [1:42:56<59:49,  2.28s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  55%|#####5    | 1927/3500 [1:42:58<59:49,  2.28s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  55%|#####5    | 1927/3500 [1:42:58<59:49,  2.28s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  55%|#####5    | 1928/3500 [1:42:58<59:42,  2.28s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  55%|#####5    | 1928/3500 [1:42:58<59:42,  2.28s/it, lr: 2.0e-04 loss: 4.201e-02]wan_dewa:  55%|#####5    | 1928/3500 [1:43:00<59:42,  2.28s/it, lr: 2.0e-04 loss: 3.155e-02]wan_dewa:  55%|#####5    | 1928/3500 [1:43:00<59:42,  2.28s/it, lr: 2.0e-04 loss: 3.155e-02]wan_dewa:  55%|#####5    | 1929/3500 [1:43:00<59:38,  2.28s/it, lr: 2.0e-04 loss: 3.155e-02]wan_dewa:  55%|#####5    | 1929/3500 [1:43:00<59:38,  2.28s/it, lr: 2.0e-04 loss: 3.155e-02]wan_dewa:  55%|#####5    | 1929/3500 [1:43:11<59:38,  2.28s/it, lr: 2.0e-04 loss: 3.204e-02]wan_dewa:  55%|#####5    | 1929/3500 [1:43:11<59:38,  2.28s/it, lr: 2.0e-04 loss: 3.204e-02]wan_dewa:  55%|#####5    | 1930/3500 [1:43:14<59:36,  2.28s/it, lr: 2.0e-04 loss: 5.658e-02]wan_dewa:  55%|#####5    | 1930/3500 [1:43:14<59:36,  2.28s/it, lr: 2.0e-04 loss: 5.658e-02]wan_dewa:  55%|#####5    | 1931/3500 [1:43:14<47:24,  1.81s/it, lr: 2.0e-04 loss: 5.658e-02]wan_dewa:  55%|#####5    | 1931/3500 [1:43:14<47:24,  1.81s/it, lr: 2.0e-04 loss: 5.658e-02]wan_dewa:  55%|#####5    | 1931/3500 [1:43:16<47:24,  1.81s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  55%|#####5    | 1931/3500 [1:43:16<47:24,  1.81s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  55%|#####5    | 1932/3500 [1:43:16<50:20,  1.93s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  55%|#####5    | 1932/3500 [1:43:16<50:20,  1.93s/it, lr: 2.0e-04 loss: 3.062e-02]wan_dewa:  55%|#####5    | 1932/3500 [1:43:18<50:20,  1.93s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  55%|#####5    | 1932/3500 [1:43:18<50:20,  1.93s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  55%|#####5    | 1933/3500 [1:43:18<52:39,  2.02s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  55%|#####5    | 1933/3500 [1:43:18<52:39,  2.02s/it, lr: 2.0e-04 loss: 8.564e-02]wan_dewa:  55%|#####5    | 1933/3500 [1:43:21<52:39,  2.02s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  55%|#####5    | 1933/3500 [1:43:21<52:39,  2.02s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  55%|#####5    | 1934/3500 [1:43:21<54:28,  2.09s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  55%|#####5    | 1934/3500 [1:43:21<54:28,  2.09s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  55%|#####5    | 1934/3500 [1:43:23<54:28,  2.09s/it, lr: 2.0e-04 loss: 6.847e-02]wan_dewa:  55%|#####5    | 1934/3500 [1:43:23<54:28,  2.09s/it, lr: 2.0e-04 loss: 6.847e-02]wan_dewa:  55%|#####5    | 1935/3500 [1:43:23<55:49,  2.14s/it, lr: 2.0e-04 loss: 6.847e-02]wan_dewa:  55%|#####5    | 1935/3500 [1:43:23<55:49,  2.14s/it, lr: 2.0e-04 loss: 6.847e-02]wan_dewa:  55%|#####5    | 1935/3500 [1:43:25<55:49,  2.14s/it, lr: 2.0e-04 loss: 2.361e-01]wan_dewa:  55%|#####5    | 1935/3500 [1:43:25<55:49,  2.14s/it, lr: 2.0e-04 loss: 2.361e-01]wan_dewa:  55%|#####5    | 1936/3500 [1:43:25<58:36,  2.25s/it, lr: 2.0e-04 loss: 2.361e-01]wan_dewa:  55%|#####5    | 1936/3500 [1:43:25<58:36,  2.25s/it, lr: 2.0e-04 loss: 2.361e-01]wan_dewa:  55%|#####5    | 1936/3500 [1:43:28<58:36,  2.25s/it, lr: 2.0e-04 loss: 2.358e-01]wan_dewa:  55%|#####5    | 1936/3500 [1:43:28<58:36,  2.25s/it, lr: 2.0e-04 loss: 2.358e-01]wan_dewa:  55%|#####5    | 1937/3500 [1:43:28<58:47,  2.26s/it, lr: 2.0e-04 loss: 2.358e-01]wan_dewa:  55%|#####5    | 1937/3500 [1:43:28<58:47,  2.26s/it, lr: 2.0e-04 loss: 2.358e-01]wan_dewa:  55%|#####5    | 1937/3500 [1:43:30<58:47,  2.26s/it, lr: 2.0e-04 loss: 6.113e-02]wan_dewa:  55%|#####5    | 1937/3500 [1:43:30<58:47,  2.26s/it, lr: 2.0e-04 loss: 6.113e-02]wan_dewa:  55%|#####5    | 1938/3500 [1:43:30<58:56,  2.26s/it, lr: 2.0e-04 loss: 6.113e-02]wan_dewa:  55%|#####5    | 1938/3500 [1:43:30<58:56,  2.26s/it, lr: 2.0e-04 loss: 6.113e-02]wan_dewa:  55%|#####5    | 1938/3500 [1:43:32<58:56,  2.26s/it, lr: 2.0e-04 loss: 6.339e-02]wan_dewa:  55%|#####5    | 1938/3500 [1:43:32<58:56,  2.26s/it, lr: 2.0e-04 loss: 6.339e-02]wan_dewa:  55%|#####5    | 1939/3500 [1:43:32<59:02,  2.27s/it, lr: 2.0e-04 loss: 6.339e-02]wan_dewa:  55%|#####5    | 1939/3500 [1:43:32<59:02,  2.27s/it, lr: 2.0e-04 loss: 6.339e-02]wan_dewa:  55%|#####5    | 1939/3500 [1:43:44<59:02,  2.27s/it, lr: 2.0e-04 loss: 5.619e-02]wan_dewa:  55%|#####5    | 1939/3500 [1:43:44<59:02,  2.27s/it, lr: 2.0e-04 loss: 5.619e-02]wan_dewa:  55%|#####5    | 1940/3500 [1:43:46<58:59,  2.27s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  55%|#####5    | 1940/3500 [1:43:46<58:59,  2.27s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  55%|#####5    | 1941/3500 [1:43:46<46:58,  1.81s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  55%|#####5    | 1941/3500 [1:43:46<46:58,  1.81s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  55%|#####5    | 1941/3500 [1:43:48<46:58,  1.81s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  55%|#####5    | 1941/3500 [1:43:48<46:58,  1.81s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  55%|#####5    | 1942/3500 [1:43:48<49:55,  1.92s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  55%|#####5    | 1942/3500 [1:43:48<49:55,  1.92s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  55%|#####5    | 1942/3500 [1:43:51<49:55,  1.92s/it, lr: 2.0e-04 loss: 5.151e-02]wan_dewa:  55%|#####5    | 1942/3500 [1:43:51<49:55,  1.92s/it, lr: 2.0e-04 loss: 5.151e-02]wan_dewa:  56%|#####5    | 1943/3500 [1:43:51<52:17,  2.02s/it, lr: 2.0e-04 loss: 5.151e-02]wan_dewa:  56%|#####5    | 1943/3500 [1:43:51<52:17,  2.02s/it, lr: 2.0e-04 loss: 5.151e-02]wan_dewa:  56%|#####5    | 1943/3500 [1:43:53<52:17,  2.02s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  56%|#####5    | 1943/3500 [1:43:53<52:17,  2.02s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  56%|#####5    | 1944/3500 [1:43:53<54:07,  2.09s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  56%|#####5    | 1944/3500 [1:43:53<54:07,  2.09s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  56%|#####5    | 1944/3500 [1:43:55<54:07,  2.09s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  56%|#####5    | 1944/3500 [1:43:55<54:07,  2.09s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  56%|#####5    | 1945/3500 [1:43:55<55:29,  2.14s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  56%|#####5    | 1945/3500 [1:43:55<55:29,  2.14s/it, lr: 2.0e-04 loss: 5.159e-02]wan_dewa:  56%|#####5    | 1945/3500 [1:43:57<55:29,  2.14s/it, lr: 2.0e-04 loss: 3.546e-02]wan_dewa:  56%|#####5    | 1945/3500 [1:43:57<55:29,  2.14s/it, lr: 2.0e-04 loss: 3.546e-02]wan_dewa:  56%|#####5    | 1946/3500 [1:43:57<56:28,  2.18s/it, lr: 2.0e-04 loss: 3.546e-02]wan_dewa:  56%|#####5    | 1946/3500 [1:43:57<56:28,  2.18s/it, lr: 2.0e-04 loss: 3.546e-02]wan_dewa:  56%|#####5    | 1946/3500 [1:44:00<56:28,  2.18s/it, lr: 2.0e-04 loss: 6.191e-02]wan_dewa:  56%|#####5    | 1946/3500 [1:44:00<56:28,  2.18s/it, lr: 2.0e-04 loss: 6.191e-02]wan_dewa:  56%|#####5    | 1947/3500 [1:44:00<58:54,  2.28s/it, lr: 2.0e-04 loss: 6.191e-02]wan_dewa:  56%|#####5    | 1947/3500 [1:44:00<58:54,  2.28s/it, lr: 2.0e-04 loss: 6.191e-02]wan_dewa:  56%|#####5    | 1947/3500 [1:44:02<58:54,  2.28s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  56%|#####5    | 1947/3500 [1:44:02<58:54,  2.28s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  56%|#####5    | 1948/3500 [1:44:02<58:55,  2.28s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  56%|#####5    | 1948/3500 [1:44:02<58:55,  2.28s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  56%|#####5    | 1948/3500 [1:44:04<58:55,  2.28s/it, lr: 2.0e-04 loss: 4.226e-02]wan_dewa:  56%|#####5    | 1948/3500 [1:44:04<58:55,  2.28s/it, lr: 2.0e-04 loss: 4.226e-02]wan_dewa:  56%|#####5    | 1949/3500 [1:44:04<58:56,  2.28s/it, lr: 2.0e-04 loss: 4.226e-02]wan_dewa:  56%|#####5    | 1949/3500 [1:44:04<58:56,  2.28s/it, lr: 2.0e-04 loss: 4.226e-02]wan_dewa:  56%|#####5    | 1949/3500 [1:44:18<58:56,  2.28s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:  56%|#####5    | 1949/3500 [1:44:18<58:56,  2.28s/it, lr: 2.0e-04 loss: 5.583e-02]wan_dewa:  56%|#####5    | 1950/3500 [1:44:20<58:54,  2.28s/it, lr: 2.0e-04 loss: 5.896e-02]wan_dewa:  56%|#####5    | 1950/3500 [1:44:20<58:54,  2.28s/it, lr: 2.0e-04 loss: 5.896e-02]wan_dewa:  56%|#####5    | 1951/3500 [1:44:20<45:29,  1.76s/it, lr: 2.0e-04 loss: 5.896e-02]wan_dewa:  56%|#####5    | 1951/3500 [1:44:20<45:29,  1.76s/it, lr: 2.0e-04 loss: 5.896e-02]wan_dewa:  56%|#####5    | 1951/3500 [1:44:23<45:29,  1.76s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  56%|#####5    | 1951/3500 [1:44:23<45:29,  1.76s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  56%|#####5    | 1952/3500 [1:44:23<50:48,  1.97s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  56%|#####5    | 1952/3500 [1:44:23<50:48,  1.97s/it, lr: 2.0e-04 loss: 5.094e-02]wan_dewa:  56%|#####5    | 1952/3500 [1:44:25<50:48,  1.97s/it, lr: 2.0e-04 loss: 2.986e-02]wan_dewa:  56%|#####5    | 1952/3500 [1:44:25<50:48,  1.97s/it, lr: 2.0e-04 loss: 2.986e-02]wan_dewa:  56%|#####5    | 1953/3500 [1:44:25<52:51,  2.05s/it, lr: 2.0e-04 loss: 2.986e-02]wan_dewa:  56%|#####5    | 1953/3500 [1:44:25<52:51,  2.05s/it, lr: 2.0e-04 loss: 2.986e-02]wan_dewa:  56%|#####5    | 1953/3500 [1:44:27<52:51,  2.05s/it, lr: 2.0e-04 loss: 4.526e-02]wan_dewa:  56%|#####5    | 1953/3500 [1:44:27<52:51,  2.05s/it, lr: 2.0e-04 loss: 4.526e-02]wan_dewa:  56%|#####5    | 1954/3500 [1:44:27<54:25,  2.11s/it, lr: 2.0e-04 loss: 4.526e-02]wan_dewa:  56%|#####5    | 1954/3500 [1:44:27<54:25,  2.11s/it, lr: 2.0e-04 loss: 4.526e-02]wan_dewa:  56%|#####5    | 1954/3500 [1:44:29<54:25,  2.11s/it, lr: 2.0e-04 loss: 7.839e-02]wan_dewa:  56%|#####5    | 1954/3500 [1:44:29<54:25,  2.11s/it, lr: 2.0e-04 loss: 7.839e-02]wan_dewa:  56%|#####5    | 1955/3500 [1:44:29<55:35,  2.16s/it, lr: 2.0e-04 loss: 7.839e-02]wan_dewa:  56%|#####5    | 1955/3500 [1:44:29<55:35,  2.16s/it, lr: 2.0e-04 loss: 7.839e-02]wan_dewa:  56%|#####5    | 1955/3500 [1:44:32<55:35,  2.16s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  56%|#####5    | 1955/3500 [1:44:32<55:35,  2.16s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  56%|#####5    | 1956/3500 [1:44:32<56:26,  2.19s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  56%|#####5    | 1956/3500 [1:44:32<56:26,  2.19s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  56%|#####5    | 1956/3500 [1:44:34<56:26,  2.19s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  56%|#####5    | 1956/3500 [1:44:34<56:26,  2.19s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  56%|#####5    | 1957/3500 [1:44:34<58:22,  2.27s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  56%|#####5    | 1957/3500 [1:44:34<58:22,  2.27s/it, lr: 2.0e-04 loss: 8.307e-02]wan_dewa:  56%|#####5    | 1957/3500 [1:44:36<58:22,  2.27s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  56%|#####5    | 1957/3500 [1:44:36<58:22,  2.27s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  56%|#####5    | 1958/3500 [1:44:36<58:25,  2.27s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  56%|#####5    | 1958/3500 [1:44:36<58:25,  2.27s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  56%|#####5    | 1958/3500 [1:44:39<58:25,  2.27s/it, lr: 2.0e-04 loss: 9.133e-02]wan_dewa:  56%|#####5    | 1958/3500 [1:44:39<58:25,  2.27s/it, lr: 2.0e-04 loss: 9.133e-02]wan_dewa:  56%|#####5    | 1959/3500 [1:44:39<58:26,  2.28s/it, lr: 2.0e-04 loss: 9.133e-02]wan_dewa:  56%|#####5    | 1959/3500 [1:44:39<58:26,  2.28s/it, lr: 2.0e-04 loss: 9.133e-02]wan_dewa:  56%|#####5    | 1959/3500 [1:44:50<58:26,  2.28s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  56%|#####5    | 1959/3500 [1:44:50<58:26,  2.28s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  56%|#####6    | 1960/3500 [1:44:52<58:24,  2.28s/it, lr: 2.0e-04 loss: 4.308e-02]wan_dewa:  56%|#####6    | 1960/3500 [1:44:52<58:24,  2.28s/it, lr: 2.0e-04 loss: 4.308e-02]wan_dewa:  56%|#####6    | 1961/3500 [1:44:52<45:07,  1.76s/it, lr: 2.0e-04 loss: 4.308e-02]wan_dewa:  56%|#####6    | 1961/3500 [1:44:52<45:07,  1.76s/it, lr: 2.0e-04 loss: 4.308e-02]wan_dewa:  56%|#####6    | 1961/3500 [1:44:54<45:07,  1.76s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  56%|#####6    | 1961/3500 [1:44:54<45:07,  1.76s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  56%|#####6    | 1962/3500 [1:44:54<49:37,  1.94s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  56%|#####6    | 1962/3500 [1:44:54<49:37,  1.94s/it, lr: 2.0e-04 loss: 4.832e-02]wan_dewa:  56%|#####6    | 1962/3500 [1:44:57<49:37,  1.94s/it, lr: 2.0e-04 loss: 2.533e-02]wan_dewa:  56%|#####6    | 1962/3500 [1:44:57<49:37,  1.94s/it, lr: 2.0e-04 loss: 2.533e-02]wan_dewa:  56%|#####6    | 1963/3500 [1:44:57<51:50,  2.02s/it, lr: 2.0e-04 loss: 2.533e-02]wan_dewa:  56%|#####6    | 1963/3500 [1:44:57<51:50,  2.02s/it, lr: 2.0e-04 loss: 2.533e-02]wan_dewa:  56%|#####6    | 1963/3500 [1:44:59<51:50,  2.02s/it, lr: 2.0e-04 loss: 4.429e-02]wan_dewa:  56%|#####6    | 1963/3500 [1:44:59<51:50,  2.02s/it, lr: 2.0e-04 loss: 4.429e-02]wan_dewa:  56%|#####6    | 1964/3500 [1:44:59<53:32,  2.09s/it, lr: 2.0e-04 loss: 4.429e-02]wan_dewa:  56%|#####6    | 1964/3500 [1:44:59<53:32,  2.09s/it, lr: 2.0e-04 loss: 4.429e-02]wan_dewa:  56%|#####6    | 1964/3500 [1:45:01<53:32,  2.09s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  56%|#####6    | 1964/3500 [1:45:01<53:32,  2.09s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  56%|#####6    | 1965/3500 [1:45:01<54:49,  2.14s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  56%|#####6    | 1965/3500 [1:45:01<54:49,  2.14s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  56%|#####6    | 1965/3500 [1:45:04<54:49,  2.14s/it, lr: 2.0e-04 loss: 5.462e-02]wan_dewa:  56%|#####6    | 1965/3500 [1:45:04<54:49,  2.14s/it, lr: 2.0e-04 loss: 5.462e-02]wan_dewa:  56%|#####6    | 1966/3500 [1:45:04<55:45,  2.18s/it, lr: 2.0e-04 loss: 5.462e-02]wan_dewa:  56%|#####6    | 1966/3500 [1:45:04<55:45,  2.18s/it, lr: 2.0e-04 loss: 5.462e-02]wan_dewa:  56%|#####6    | 1966/3500 [1:45:06<55:45,  2.18s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:  56%|#####6    | 1966/3500 [1:45:06<55:45,  2.18s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:  56%|#####6    | 1967/3500 [1:45:06<57:51,  2.26s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:  56%|#####6    | 1967/3500 [1:45:06<57:51,  2.26s/it, lr: 2.0e-04 loss: 3.597e-02]wan_dewa:  56%|#####6    | 1967/3500 [1:45:08<57:51,  2.26s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  56%|#####6    | 1967/3500 [1:45:08<57:51,  2.26s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  56%|#####6    | 1968/3500 [1:45:08<57:54,  2.27s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  56%|#####6    | 1968/3500 [1:45:08<57:54,  2.27s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  56%|#####6    | 1968/3500 [1:45:11<57:54,  2.27s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  56%|#####6    | 1968/3500 [1:45:11<57:54,  2.27s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  56%|#####6    | 1969/3500 [1:45:11<57:56,  2.27s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  56%|#####6    | 1969/3500 [1:45:11<57:56,  2.27s/it, lr: 2.0e-04 loss: 4.272e-02]wan_dewa:  56%|#####6    | 1969/3500 [1:45:18<57:56,  2.27s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  56%|#####6    | 1969/3500 [1:45:18<57:56,  2.27s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  56%|#####6    | 1970/3500 [1:45:21<57:53,  2.27s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  56%|#####6    | 1970/3500 [1:45:21<57:53,  2.27s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  56%|#####6    | 1971/3500 [1:45:21<44:42,  1.75s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  56%|#####6    | 1971/3500 [1:45:21<44:42,  1.75s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  56%|#####6    | 1971/3500 [1:45:23<44:42,  1.75s/it, lr: 2.0e-04 loss: 1.222e-01]wan_dewa:  56%|#####6    | 1971/3500 [1:45:23<44:42,  1.75s/it, lr: 2.0e-04 loss: 1.222e-01]wan_dewa:  56%|#####6    | 1972/3500 [1:45:23<49:13,  1.93s/it, lr: 2.0e-04 loss: 1.222e-01]wan_dewa:  56%|#####6    | 1972/3500 [1:45:23<49:13,  1.93s/it, lr: 2.0e-04 loss: 1.222e-01]wan_dewa:  56%|#####6    | 1972/3500 [1:45:26<49:13,  1.93s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  56%|#####6    | 1972/3500 [1:45:26<49:13,  1.93s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  56%|#####6    | 1973/3500 [1:45:26<51:27,  2.02s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  56%|#####6    | 1973/3500 [1:45:26<51:27,  2.02s/it, lr: 2.0e-04 loss: 1.210e-01]wan_dewa:  56%|#####6    | 1973/3500 [1:45:28<51:27,  2.02s/it, lr: 2.0e-04 loss: 4.197e-02]wan_dewa:  56%|#####6    | 1973/3500 [1:45:28<51:27,  2.02s/it, lr: 2.0e-04 loss: 4.197e-02]wan_dewa:  56%|#####6    | 1974/3500 [1:45:28<53:10,  2.09s/it, lr: 2.0e-04 loss: 4.197e-02]wan_dewa:  56%|#####6    | 1974/3500 [1:45:28<53:10,  2.09s/it, lr: 2.0e-04 loss: 4.197e-02]wan_dewa:  56%|#####6    | 1974/3500 [1:45:32<53:10,  2.09s/it, lr: 2.0e-04 loss: 6.142e-02]wan_dewa:  56%|#####6    | 1974/3500 [1:45:32<53:10,  2.09s/it, lr: 2.0e-04 loss: 6.142e-02]wan_dewa:  56%|#####6    | 1975/3500 [1:45:32<54:39,  2.15s/it, lr: 2.0e-04 loss: 6.142e-02]wan_dewa:  56%|#####6    | 1975/3500 [1:45:32<54:39,  2.15s/it, lr: 2.0e-04 loss: 6.142e-02]wan_dewa:  56%|#####6    | 1975/3500 [1:45:35<54:39,  2.15s/it, lr: 2.0e-04 loss: 9.849e-02]wan_dewa:  56%|#####6    | 1975/3500 [1:45:35<54:39,  2.15s/it, lr: 2.0e-04 loss: 9.849e-02]wan_dewa:  56%|#####6    | 1976/3500 [1:45:35<55:30,  2.19s/it, lr: 2.0e-04 loss: 9.849e-02]wan_dewa:  56%|#####6    | 1976/3500 [1:45:35<55:30,  2.19s/it, lr: 2.0e-04 loss: 9.849e-02]wan_dewa:  56%|#####6    | 1976/3500 [1:45:37<55:30,  2.19s/it, lr: 2.0e-04 loss: 3.407e-02]wan_dewa:  56%|#####6    | 1976/3500 [1:45:37<55:30,  2.19s/it, lr: 2.0e-04 loss: 3.407e-02]wan_dewa:  56%|#####6    | 1977/3500 [1:45:37<58:37,  2.31s/it, lr: 2.0e-04 loss: 3.407e-02]wan_dewa:  56%|#####6    | 1977/3500 [1:45:37<58:37,  2.31s/it, lr: 2.0e-04 loss: 3.407e-02]wan_dewa:  56%|#####6    | 1977/3500 [1:45:39<58:37,  2.31s/it, lr: 2.0e-04 loss: 2.579e-01]wan_dewa:  56%|#####6    | 1977/3500 [1:45:39<58:37,  2.31s/it, lr: 2.0e-04 loss: 2.579e-01]wan_dewa:  57%|#####6    | 1978/3500 [1:45:39<58:19,  2.30s/it, lr: 2.0e-04 loss: 2.579e-01]wan_dewa:  57%|#####6    | 1978/3500 [1:45:39<58:19,  2.30s/it, lr: 2.0e-04 loss: 2.579e-01]wan_dewa:  57%|#####6    | 1978/3500 [1:45:42<58:19,  2.30s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  57%|#####6    | 1978/3500 [1:45:42<58:19,  2.30s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  57%|#####6    | 1979/3500 [1:45:42<58:07,  2.29s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  57%|#####6    | 1979/3500 [1:45:42<58:07,  2.29s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  57%|#####6    | 1979/3500 [1:45:53<58:07,  2.29s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  57%|#####6    | 1979/3500 [1:45:53<58:07,  2.29s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  57%|#####6    | 1980/3500 [1:45:55<58:05,  2.29s/it, lr: 2.0e-04 loss: 4.494e-02]wan_dewa:  57%|#####6    | 1980/3500 [1:45:55<58:05,  2.29s/it, lr: 2.0e-04 loss: 4.494e-02]wan_dewa:  57%|#####6    | 1981/3500 [1:45:55<44:42,  1.77s/it, lr: 2.0e-04 loss: 4.494e-02]wan_dewa:  57%|#####6    | 1981/3500 [1:45:55<44:42,  1.77s/it, lr: 2.0e-04 loss: 4.494e-02]wan_dewa:  57%|#####6    | 1981/3500 [1:45:57<44:42,  1.77s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  57%|#####6    | 1981/3500 [1:45:57<44:42,  1.77s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  57%|#####6    | 1982/3500 [1:45:57<47:49,  1.89s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  57%|#####6    | 1982/3500 [1:45:57<47:49,  1.89s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  57%|#####6    | 1982/3500 [1:46:00<47:49,  1.89s/it, lr: 2.0e-04 loss: 2.127e-02]wan_dewa:  57%|#####6    | 1982/3500 [1:46:00<47:49,  1.89s/it, lr: 2.0e-04 loss: 2.127e-02]wan_dewa:  57%|#####6    | 1983/3500 [1:46:00<51:41,  2.04s/it, lr: 2.0e-04 loss: 2.127e-02]wan_dewa:  57%|#####6    | 1983/3500 [1:46:00<51:41,  2.04s/it, lr: 2.0e-04 loss: 2.127e-02]wan_dewa:  57%|#####6    | 1983/3500 [1:46:02<51:41,  2.04s/it, lr: 2.0e-04 loss: 3.808e-02]wan_dewa:  57%|#####6    | 1983/3500 [1:46:02<51:41,  2.04s/it, lr: 2.0e-04 loss: 3.808e-02]wan_dewa:  57%|#####6    | 1984/3500 [1:46:02<53:14,  2.11s/it, lr: 2.0e-04 loss: 3.808e-02]wan_dewa:  57%|#####6    | 1984/3500 [1:46:02<53:14,  2.11s/it, lr: 2.0e-04 loss: 3.808e-02]wan_dewa:  57%|#####6    | 1984/3500 [1:46:04<53:14,  2.11s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  57%|#####6    | 1984/3500 [1:46:04<53:14,  2.11s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  57%|#####6    | 1985/3500 [1:46:04<54:23,  2.15s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  57%|#####6    | 1985/3500 [1:46:04<54:23,  2.15s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  57%|#####6    | 1985/3500 [1:46:07<54:23,  2.15s/it, lr: 2.0e-04 loss: 4.260e-02]wan_dewa:  57%|#####6    | 1985/3500 [1:46:07<54:23,  2.15s/it, lr: 2.0e-04 loss: 4.260e-02]wan_dewa:  57%|#####6    | 1986/3500 [1:46:07<55:17,  2.19s/it, lr: 2.0e-04 loss: 4.260e-02]wan_dewa:  57%|#####6    | 1986/3500 [1:46:07<55:17,  2.19s/it, lr: 2.0e-04 loss: 4.260e-02]wan_dewa:  57%|#####6    | 1986/3500 [1:46:09<55:17,  2.19s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  57%|#####6    | 1986/3500 [1:46:09<55:17,  2.19s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  57%|#####6    | 1987/3500 [1:46:09<55:53,  2.22s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  57%|#####6    | 1987/3500 [1:46:09<55:53,  2.22s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  57%|#####6    | 1987/3500 [1:46:11<55:53,  2.22s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  57%|#####6    | 1987/3500 [1:46:11<55:53,  2.22s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  57%|#####6    | 1988/3500 [1:46:11<57:46,  2.29s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  57%|#####6    | 1988/3500 [1:46:11<57:46,  2.29s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  57%|#####6    | 1988/3500 [1:46:14<57:46,  2.29s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  57%|#####6    | 1988/3500 [1:46:14<57:46,  2.29s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  57%|#####6    | 1989/3500 [1:46:14<57:39,  2.29s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  57%|#####6    | 1989/3500 [1:46:14<57:39,  2.29s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  57%|#####6    | 1989/3500 [1:46:24<57:39,  2.29s/it, lr: 2.0e-04 loss: 7.896e-02]wan_dewa:  57%|#####6    | 1989/3500 [1:46:24<57:39,  2.29s/it, lr: 2.0e-04 loss: 7.896e-02]wan_dewa:  57%|#####6    | 1990/3500 [1:46:27<57:37,  2.29s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  57%|#####6    | 1990/3500 [1:46:27<57:37,  2.29s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  57%|#####6    | 1991/3500 [1:46:27<44:27,  1.77s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  57%|#####6    | 1991/3500 [1:46:27<44:27,  1.77s/it, lr: 2.0e-04 loss: 5.899e-02]wan_dewa:  57%|#####6    | 1991/3500 [1:46:29<44:27,  1.77s/it, lr: 2.0e-04 loss: 2.696e-02]wan_dewa:  57%|#####6    | 1991/3500 [1:46:29<44:27,  1.77s/it, lr: 2.0e-04 loss: 2.696e-02]wan_dewa:  57%|#####6    | 1992/3500 [1:46:29<47:33,  1.89s/it, lr: 2.0e-04 loss: 2.696e-02]wan_dewa:  57%|#####6    | 1992/3500 [1:46:29<47:33,  1.89s/it, lr: 2.0e-04 loss: 2.696e-02]wan_dewa:  57%|#####6    | 1992/3500 [1:46:31<47:33,  1.89s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  57%|#####6    | 1992/3500 [1:46:31<47:33,  1.89s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  57%|#####6    | 1993/3500 [1:46:31<51:22,  2.05s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  57%|#####6    | 1993/3500 [1:46:31<51:22,  2.05s/it, lr: 2.0e-04 loss: 4.179e-02]wan_dewa:  57%|#####6    | 1993/3500 [1:46:34<51:22,  2.05s/it, lr: 2.0e-04 loss: 6.130e-02]wan_dewa:  57%|#####6    | 1993/3500 [1:46:34<51:22,  2.05s/it, lr: 2.0e-04 loss: 6.130e-02]wan_dewa:  57%|#####6    | 1994/3500 [1:46:34<52:55,  2.11s/it, lr: 2.0e-04 loss: 6.130e-02]wan_dewa:  57%|#####6    | 1994/3500 [1:46:34<52:55,  2.11s/it, lr: 2.0e-04 loss: 6.130e-02]wan_dewa:  57%|#####6    | 1994/3500 [1:46:36<52:55,  2.11s/it, lr: 2.0e-04 loss: 1.192e-01]wan_dewa:  57%|#####6    | 1994/3500 [1:46:36<52:55,  2.11s/it, lr: 2.0e-04 loss: 1.192e-01]wan_dewa:  57%|#####6    | 1995/3500 [1:46:36<54:04,  2.16s/it, lr: 2.0e-04 loss: 1.192e-01]wan_dewa:  57%|#####6    | 1995/3500 [1:46:36<54:04,  2.16s/it, lr: 2.0e-04 loss: 1.192e-01]wan_dewa:  57%|#####6    | 1995/3500 [1:46:38<54:04,  2.16s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  57%|#####6    | 1995/3500 [1:46:38<54:04,  2.16s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  57%|#####7    | 1996/3500 [1:46:38<54:53,  2.19s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  57%|#####7    | 1996/3500 [1:46:38<54:53,  2.19s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  57%|#####7    | 1996/3500 [1:46:41<54:53,  2.19s/it, lr: 2.0e-04 loss: 6.709e-02]wan_dewa:  57%|#####7    | 1996/3500 [1:46:41<54:53,  2.19s/it, lr: 2.0e-04 loss: 6.709e-02]wan_dewa:  57%|#####7    | 1997/3500 [1:46:41<55:28,  2.21s/it, lr: 2.0e-04 loss: 6.709e-02]wan_dewa:  57%|#####7    | 1997/3500 [1:46:41<55:28,  2.21s/it, lr: 2.0e-04 loss: 6.709e-02]wan_dewa:  57%|#####7    | 1997/3500 [1:46:43<55:28,  2.21s/it, lr: 2.0e-04 loss: 9.590e-02]wan_dewa:  57%|#####7    | 1997/3500 [1:46:43<55:28,  2.21s/it, lr: 2.0e-04 loss: 9.590e-02]wan_dewa:  57%|#####7    | 1998/3500 [1:46:43<57:25,  2.29s/it, lr: 2.0e-04 loss: 9.590e-02]wan_dewa:  57%|#####7    | 1998/3500 [1:46:43<57:25,  2.29s/it, lr: 2.0e-04 loss: 9.590e-02]wan_dewa:  57%|#####7    | 1998/3500 [1:46:45<57:25,  2.29s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  57%|#####7    | 1998/3500 [1:46:45<57:25,  2.29s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  57%|#####7    | 1999/3500 [1:46:45<57:15,  2.29s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  57%|#####7    | 1999/3500 [1:46:45<57:15,  2.29s/it, lr: 2.0e-04 loss: 8.738e-02]wan_dewa:  57%|#####7    | 1999/3500 [1:46:58<57:15,  2.29s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  57%|#####7    | 1999/3500 [1:46:58<57:15,  2.29s/it, lr: 2.0e-04 loss: 5.511e-02]
+Saving at step 2000
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000002000.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.61s/it] 12%|#2        | 3/25 [00:13<01:41,  4.61s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:40,  6.25s/it] 36%|###6      | 9/25 [00:46<01:40,  6.25s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.75s/it] 40%|####      | 10/25 [00:51<01:26,  5.75s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:15,  5.40s/it] 44%|####4     | 11/25 [00:56<01:15,  5.40s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.17s/it] 48%|####8     | 12/25 [01:00<01:07,  5.17s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.81s/it] 60%|######    | 15/25 [01:14<00:48,  4.81s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.72s/it] 68%|######8   | 17/25 [01:23<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.65s/it]100%|##########| 25/25 [02:00<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.84s/it]100%|##########| 25/25 [02:00<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:49, 136.42s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:49, 136.42s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.65s/it] 20%|##        | 5/25 [00:23<01:33,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.65s/it] 28%|##8       | 7/25 [00:32<01:23,  4.65s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.72s/it] 36%|###6      | 9/25 [00:45<01:31,  5.72s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.39s/it] 40%|####      | 10/25 [00:49<01:20,  5.39s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.16s/it] 44%|####4     | 11/25 [00:54<01:12,  5.16s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.67s/it] 88%|########8 | 22/25 [01:45<00:14,  4.67s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.67s/it] 92%|#########2| 23/25 [01:50<00:09,  4.67s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.67s/it]100%|##########| 25/25 [01:59<00:00,  4.67s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.25s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.25s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.67s/it] 24%|##4       | 6/25 [00:27<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.65s/it] 36%|###6      | 9/25 [00:45<01:30,  5.65s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.34s/it] 40%|####      | 10/25 [00:49<01:20,  5.34s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.09s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.09s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:52,  4.68s/it]  4%|4         | 1/25 [00:04<01:52,  4.68s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.69s/it]  8%|8         | 2/25 [00:09<01:47,  4.69s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:43,  4.69s/it] 12%|#2        | 3/25 [00:14<01:43,  4.69s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.70s/it] 16%|#6        | 4/25 [00:18<01:38,  4.70s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.70s/it] 20%|##        | 5/25 [00:23<01:33,  4.70s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:29,  4.70s/it] 24%|##4       | 6/25 [00:28<01:29,  4.70s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.70s/it] 28%|##8       | 7/25 [00:32<01:24,  4.70s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:20,  4.71s/it] 32%|###2      | 8/25 [00:37<01:20,  4.71s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.62s/it] 36%|###6      | 9/25 [00:45<01:29,  5.62s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.32s/it] 40%|####      | 10/25 [00:49<01:19,  5.32s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.12s/it] 44%|####4     | 11/25 [00:54<01:11,  5.12s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.98s/it] 48%|####8     | 12/25 [00:59<01:04,  4.98s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.77s/it] 60%|######    | 15/25 [01:13<00:47,  4.77s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.15s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.15s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  57%|#####7    | 2000/3500 [1:47:02<57:13,  2.29s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  57%|#####7    | 2000/3500 [1:47:02<57:13,  2.29s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  57%|#####7    | 2001/3500 [1:47:02<53:58,  2.16s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  57%|#####7    | 2001/3500 [1:47:02<53:58,  2.16s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  57%|#####7    | 2001/3500 [1:47:05<53:58,  2.16s/it, lr: 2.0e-04 loss: 5.790e-02]wan_dewa:  57%|#####7    | 2001/3500 [1:47:05<53:58,  2.16s/it, lr: 2.0e-04 loss: 5.790e-02]wan_dewa:  57%|#####7    | 2002/3500 [1:47:05<54:46,  2.19s/it, lr: 2.0e-04 loss: 5.790e-02]wan_dewa:  57%|#####7    | 2002/3500 [1:47:05<54:46,  2.19s/it, lr: 2.0e-04 loss: 5.790e-02]wan_dewa:  57%|#####7    | 2002/3500 [1:47:07<54:46,  2.19s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  57%|#####7    | 2002/3500 [1:47:07<54:46,  2.19s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  57%|#####7    | 2003/3500 [1:47:07<55:25,  2.22s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  57%|#####7    | 2003/3500 [1:47:07<55:25,  2.22s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  57%|#####7    | 2003/3500 [1:47:09<55:25,  2.22s/it, lr: 2.0e-04 loss: 4.882e-02]wan_dewa:  57%|#####7    | 2003/3500 [1:47:09<55:25,  2.22s/it, lr: 2.0e-04 loss: 4.882e-02]wan_dewa:  57%|#####7    | 2004/3500 [1:47:09<55:56,  2.24s/it, lr: 2.0e-04 loss: 4.882e-02]wan_dewa:  57%|#####7    | 2004/3500 [1:47:09<55:56,  2.24s/it, lr: 2.0e-04 loss: 4.882e-02]wan_dewa:  57%|#####7    | 2004/3500 [1:47:12<55:56,  2.24s/it, lr: 2.0e-04 loss: 3.006e-02]wan_dewa:  57%|#####7    | 2004/3500 [1:47:12<55:56,  2.24s/it, lr: 2.0e-04 loss: 3.006e-02]wan_dewa:  57%|#####7    | 2005/3500 [1:47:12<57:41,  2.32s/it, lr: 2.0e-04 loss: 3.006e-02]wan_dewa:  57%|#####7    | 2005/3500 [1:47:12<57:41,  2.32s/it, lr: 2.0e-04 loss: 3.006e-02]wan_dewa:  57%|#####7    | 2005/3500 [1:47:14<57:41,  2.32s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  57%|#####7    | 2005/3500 [1:47:14<57:41,  2.32s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  57%|#####7    | 2006/3500 [1:47:14<57:33,  2.31s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  57%|#####7    | 2006/3500 [1:47:14<57:33,  2.31s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  57%|#####7    | 2006/3500 [1:47:16<57:33,  2.31s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  57%|#####7    | 2006/3500 [1:47:16<57:33,  2.31s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  57%|#####7    | 2007/3500 [1:47:16<57:28,  2.31s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  57%|#####7    | 2007/3500 [1:47:16<57:28,  2.31s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  57%|#####7    | 2007/3500 [1:47:19<57:28,  2.31s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  57%|#####7    | 2007/3500 [1:47:19<57:28,  2.31s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  57%|#####7    | 2008/3500 [1:47:19<57:22,  2.31s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  57%|#####7    | 2008/3500 [1:47:19<57:22,  2.31s/it, lr: 2.0e-04 loss: 2.434e-02]wan_dewa:  57%|#####7    | 2008/3500 [1:47:21<57:22,  2.31s/it, lr: 2.0e-04 loss: 2.139e-02]wan_dewa:  57%|#####7    | 2008/3500 [1:47:21<57:22,  2.31s/it, lr: 2.0e-04 loss: 2.139e-02]wan_dewa:  57%|#####7    | 2009/3500 [1:47:21<57:18,  2.31s/it, lr: 2.0e-04 loss: 2.139e-02]wan_dewa:  57%|#####7    | 2009/3500 [1:47:21<57:18,  2.31s/it, lr: 2.0e-04 loss: 2.139e-02]wan_dewa:  57%|#####7    | 2009/3500 [1:47:27<57:18,  2.31s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  57%|#####7    | 2009/3500 [1:47:27<57:18,  2.31s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  57%|#####7    | 2010/3500 [1:47:29<57:16,  2.31s/it, lr: 2.0e-04 loss: 1.829e-01]wan_dewa:  57%|#####7    | 2010/3500 [1:47:29<57:16,  2.31s/it, lr: 2.0e-04 loss: 1.829e-01]wan_dewa:  57%|#####7    | 2011/3500 [1:47:29<44:04,  1.78s/it, lr: 2.0e-04 loss: 1.829e-01]wan_dewa:  57%|#####7    | 2011/3500 [1:47:29<44:04,  1.78s/it, lr: 2.0e-04 loss: 1.829e-01]wan_dewa:  57%|#####7    | 2011/3500 [1:47:31<44:04,  1.78s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  57%|#####7    | 2011/3500 [1:47:31<44:04,  1.78s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  57%|#####7    | 2012/3500 [1:47:31<47:14,  1.90s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  57%|#####7    | 2012/3500 [1:47:31<47:14,  1.90s/it, lr: 2.0e-04 loss: 7.423e-02]wan_dewa:  57%|#####7    | 2012/3500 [1:47:34<47:14,  1.90s/it, lr: 2.0e-04 loss: 2.893e-01]wan_dewa:  57%|#####7    | 2012/3500 [1:47:34<47:14,  1.90s/it, lr: 2.0e-04 loss: 2.893e-01]wan_dewa:  58%|#####7    | 2013/3500 [1:47:34<49:45,  2.01s/it, lr: 2.0e-04 loss: 2.893e-01]wan_dewa:  58%|#####7    | 2013/3500 [1:47:34<49:45,  2.01s/it, lr: 2.0e-04 loss: 2.893e-01]wan_dewa:  58%|#####7    | 2013/3500 [1:47:36<49:45,  2.01s/it, lr: 2.0e-04 loss: 6.079e-02]wan_dewa:  58%|#####7    | 2013/3500 [1:47:36<49:45,  2.01s/it, lr: 2.0e-04 loss: 6.079e-02]wan_dewa:  58%|#####7    | 2014/3500 [1:47:36<51:42,  2.09s/it, lr: 2.0e-04 loss: 6.079e-02]wan_dewa:  58%|#####7    | 2014/3500 [1:47:36<51:42,  2.09s/it, lr: 2.0e-04 loss: 6.079e-02]wan_dewa:  58%|#####7    | 2014/3500 [1:47:38<51:42,  2.09s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  58%|#####7    | 2014/3500 [1:47:38<51:42,  2.09s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  58%|#####7    | 2015/3500 [1:47:38<53:08,  2.15s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  58%|#####7    | 2015/3500 [1:47:38<53:08,  2.15s/it, lr: 2.0e-04 loss: 5.089e-02]wan_dewa:  58%|#####7    | 2015/3500 [1:47:41<53:08,  2.15s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  58%|#####7    | 2015/3500 [1:47:41<53:08,  2.15s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  58%|#####7    | 2016/3500 [1:47:41<55:29,  2.24s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  58%|#####7    | 2016/3500 [1:47:41<55:29,  2.24s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  58%|#####7    | 2016/3500 [1:47:43<55:29,  2.24s/it, lr: 2.0e-04 loss: 5.974e-02]wan_dewa:  58%|#####7    | 2016/3500 [1:47:43<55:29,  2.24s/it, lr: 2.0e-04 loss: 5.974e-02]wan_dewa:  58%|#####7    | 2017/3500 [1:47:43<55:52,  2.26s/it, lr: 2.0e-04 loss: 5.974e-02]wan_dewa:  58%|#####7    | 2017/3500 [1:47:43<55:52,  2.26s/it, lr: 2.0e-04 loss: 5.974e-02]wan_dewa:  58%|#####7    | 2017/3500 [1:47:45<55:52,  2.26s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  58%|#####7    | 2017/3500 [1:47:45<55:52,  2.26s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  58%|#####7    | 2018/3500 [1:47:45<56:09,  2.27s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  58%|#####7    | 2018/3500 [1:47:45<56:09,  2.27s/it, lr: 2.0e-04 loss: 7.185e-02]wan_dewa:  58%|#####7    | 2018/3500 [1:47:48<56:09,  2.27s/it, lr: 2.0e-04 loss: 8.108e-02]wan_dewa:  58%|#####7    | 2018/3500 [1:47:48<56:09,  2.27s/it, lr: 2.0e-04 loss: 8.108e-02]wan_dewa:  58%|#####7    | 2019/3500 [1:47:48<56:19,  2.28s/it, lr: 2.0e-04 loss: 8.108e-02]wan_dewa:  58%|#####7    | 2019/3500 [1:47:48<56:19,  2.28s/it, lr: 2.0e-04 loss: 8.108e-02]wan_dewa:  58%|#####7    | 2019/3500 [1:47:54<56:19,  2.28s/it, lr: 2.0e-04 loss: 3.905e-02]wan_dewa:  58%|#####7    | 2019/3500 [1:47:54<56:19,  2.28s/it, lr: 2.0e-04 loss: 3.905e-02]wan_dewa:  58%|#####7    | 2020/3500 [1:47:56<56:17,  2.28s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  58%|#####7    | 2020/3500 [1:47:56<56:17,  2.28s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  58%|#####7    | 2021/3500 [1:47:56<44:33,  1.81s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  58%|#####7    | 2021/3500 [1:47:56<44:33,  1.81s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  58%|#####7    | 2021/3500 [1:47:58<44:33,  1.81s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  58%|#####7    | 2021/3500 [1:47:58<44:33,  1.81s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  58%|#####7    | 2022/3500 [1:47:58<47:30,  1.93s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  58%|#####7    | 2022/3500 [1:47:58<47:30,  1.93s/it, lr: 2.0e-04 loss: 4.570e-02]wan_dewa:  58%|#####7    | 2022/3500 [1:48:01<47:30,  1.93s/it, lr: 2.0e-04 loss: 3.566e-02]wan_dewa:  58%|#####7    | 2022/3500 [1:48:01<47:30,  1.93s/it, lr: 2.0e-04 loss: 3.566e-02]wan_dewa:  58%|#####7    | 2023/3500 [1:48:01<49:53,  2.03s/it, lr: 2.0e-04 loss: 3.566e-02]wan_dewa:  58%|#####7    | 2023/3500 [1:48:01<49:53,  2.03s/it, lr: 2.0e-04 loss: 3.566e-02]wan_dewa:  58%|#####7    | 2023/3500 [1:48:03<49:53,  2.03s/it, lr: 2.0e-04 loss: 3.188e-02]wan_dewa:  58%|#####7    | 2023/3500 [1:48:03<49:53,  2.03s/it, lr: 2.0e-04 loss: 3.188e-02]wan_dewa:  58%|#####7    | 2024/3500 [1:48:03<51:40,  2.10s/it, lr: 2.0e-04 loss: 3.188e-02]wan_dewa:  58%|#####7    | 2024/3500 [1:48:03<51:40,  2.10s/it, lr: 2.0e-04 loss: 3.188e-02]wan_dewa:  58%|#####7    | 2024/3500 [1:48:08<51:40,  2.10s/it, lr: 2.0e-04 loss: 3.679e-02]wan_dewa:  58%|#####7    | 2024/3500 [1:48:08<51:40,  2.10s/it, lr: 2.0e-04 loss: 3.679e-02]wan_dewa:  58%|#####7    | 2025/3500 [1:48:08<53:12,  2.16s/it, lr: 2.0e-04 loss: 3.679e-02]wan_dewa:  58%|#####7    | 2025/3500 [1:48:08<53:12,  2.16s/it, lr: 2.0e-04 loss: 3.679e-02]wan_dewa:  58%|#####7    | 2025/3500 [1:48:11<53:12,  2.16s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  58%|#####7    | 2025/3500 [1:48:11<53:12,  2.16s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  58%|#####7    | 2026/3500 [1:48:11<56:25,  2.30s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  58%|#####7    | 2026/3500 [1:48:11<56:25,  2.30s/it, lr: 2.0e-04 loss: 4.745e-02]wan_dewa:  58%|#####7    | 2026/3500 [1:48:13<56:25,  2.30s/it, lr: 2.0e-04 loss: 4.188e-02]wan_dewa:  58%|#####7    | 2026/3500 [1:48:13<56:25,  2.30s/it, lr: 2.0e-04 loss: 4.188e-02]wan_dewa:  58%|#####7    | 2027/3500 [1:48:13<56:23,  2.30s/it, lr: 2.0e-04 loss: 4.188e-02]wan_dewa:  58%|#####7    | 2027/3500 [1:48:13<56:23,  2.30s/it, lr: 2.0e-04 loss: 4.188e-02]wan_dewa:  58%|#####7    | 2027/3500 [1:48:15<56:23,  2.30s/it, lr: 2.0e-04 loss: 2.654e-02]wan_dewa:  58%|#####7    | 2027/3500 [1:48:15<56:23,  2.30s/it, lr: 2.0e-04 loss: 2.654e-02]wan_dewa:  58%|#####7    | 2028/3500 [1:48:15<56:20,  2.30s/it, lr: 2.0e-04 loss: 2.654e-02]wan_dewa:  58%|#####7    | 2028/3500 [1:48:15<56:20,  2.30s/it, lr: 2.0e-04 loss: 2.654e-02]wan_dewa:  58%|#####7    | 2028/3500 [1:48:17<56:20,  2.30s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  58%|#####7    | 2028/3500 [1:48:17<56:20,  2.30s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  58%|#####7    | 2029/3500 [1:48:17<56:17,  2.30s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  58%|#####7    | 2029/3500 [1:48:17<56:17,  2.30s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  58%|#####7    | 2029/3500 [1:48:29<56:17,  2.30s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  58%|#####7    | 2029/3500 [1:48:29<56:17,  2.30s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  58%|#####8    | 2030/3500 [1:48:31<56:15,  2.30s/it, lr: 2.0e-04 loss: 4.616e-02]wan_dewa:  58%|#####8    | 2030/3500 [1:48:31<56:15,  2.30s/it, lr: 2.0e-04 loss: 4.616e-02]wan_dewa:  58%|#####8    | 2031/3500 [1:48:31<44:37,  1.82s/it, lr: 2.0e-04 loss: 4.616e-02]wan_dewa:  58%|#####8    | 2031/3500 [1:48:31<44:37,  1.82s/it, lr: 2.0e-04 loss: 4.616e-02]wan_dewa:  58%|#####8    | 2031/3500 [1:48:33<44:37,  1.82s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  58%|#####8    | 2031/3500 [1:48:33<44:37,  1.82s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  58%|#####8    | 2032/3500 [1:48:33<47:22,  1.94s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  58%|#####8    | 2032/3500 [1:48:33<47:22,  1.94s/it, lr: 2.0e-04 loss: 2.794e-02]wan_dewa:  58%|#####8    | 2032/3500 [1:48:36<47:22,  1.94s/it, lr: 2.0e-04 loss: 5.971e-02]wan_dewa:  58%|#####8    | 2032/3500 [1:48:36<47:22,  1.94s/it, lr: 2.0e-04 loss: 5.971e-02]wan_dewa:  58%|#####8    | 2033/3500 [1:48:36<49:36,  2.03s/it, lr: 2.0e-04 loss: 5.971e-02]wan_dewa:  58%|#####8    | 2033/3500 [1:48:36<49:36,  2.03s/it, lr: 2.0e-04 loss: 5.971e-02]wan_dewa:  58%|#####8    | 2033/3500 [1:48:38<49:36,  2.03s/it, lr: 2.0e-04 loss: 7.813e-02]wan_dewa:  58%|#####8    | 2033/3500 [1:48:38<49:36,  2.03s/it, lr: 2.0e-04 loss: 7.813e-02]wan_dewa:  58%|#####8    | 2034/3500 [1:48:38<51:17,  2.10s/it, lr: 2.0e-04 loss: 7.813e-02]wan_dewa:  58%|#####8    | 2034/3500 [1:48:38<51:17,  2.10s/it, lr: 2.0e-04 loss: 7.813e-02]wan_dewa:  58%|#####8    | 2034/3500 [1:48:40<51:17,  2.10s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  58%|#####8    | 2034/3500 [1:48:40<51:17,  2.10s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  58%|#####8    | 2035/3500 [1:48:40<52:36,  2.15s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  58%|#####8    | 2035/3500 [1:48:40<52:36,  2.15s/it, lr: 2.0e-04 loss: 5.005e-02]wan_dewa:  58%|#####8    | 2035/3500 [1:48:43<52:36,  2.15s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  58%|#####8    | 2035/3500 [1:48:43<52:36,  2.15s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  58%|#####8    | 2036/3500 [1:48:43<53:35,  2.20s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  58%|#####8    | 2036/3500 [1:48:43<53:35,  2.20s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  58%|#####8    | 2036/3500 [1:48:45<53:35,  2.20s/it, lr: 2.0e-04 loss: 8.138e-02]wan_dewa:  58%|#####8    | 2036/3500 [1:48:45<53:35,  2.20s/it, lr: 2.0e-04 loss: 8.138e-02]wan_dewa:  58%|#####8    | 2037/3500 [1:48:45<55:48,  2.29s/it, lr: 2.0e-04 loss: 8.138e-02]wan_dewa:  58%|#####8    | 2037/3500 [1:48:45<55:48,  2.29s/it, lr: 2.0e-04 loss: 8.138e-02]wan_dewa:  58%|#####8    | 2037/3500 [1:48:47<55:48,  2.29s/it, lr: 2.0e-04 loss: 1.713e-01]wan_dewa:  58%|#####8    | 2037/3500 [1:48:47<55:48,  2.29s/it, lr: 2.0e-04 loss: 1.713e-01]wan_dewa:  58%|#####8    | 2038/3500 [1:48:47<55:52,  2.29s/it, lr: 2.0e-04 loss: 1.713e-01]wan_dewa:  58%|#####8    | 2038/3500 [1:48:47<55:52,  2.29s/it, lr: 2.0e-04 loss: 1.713e-01]wan_dewa:  58%|#####8    | 2038/3500 [1:48:50<55:52,  2.29s/it, lr: 2.0e-04 loss: 4.336e-02]wan_dewa:  58%|#####8    | 2038/3500 [1:48:50<55:52,  2.29s/it, lr: 2.0e-04 loss: 4.336e-02]wan_dewa:  58%|#####8    | 2039/3500 [1:48:50<55:55,  2.30s/it, lr: 2.0e-04 loss: 4.336e-02]wan_dewa:  58%|#####8    | 2039/3500 [1:48:50<55:55,  2.30s/it, lr: 2.0e-04 loss: 4.336e-02]wan_dewa:  58%|#####8    | 2039/3500 [1:49:01<55:55,  2.30s/it, lr: 2.0e-04 loss: 3.539e-02]wan_dewa:  58%|#####8    | 2039/3500 [1:49:01<55:55,  2.30s/it, lr: 2.0e-04 loss: 3.539e-02]wan_dewa:  58%|#####8    | 2040/3500 [1:49:03<55:52,  2.30s/it, lr: 2.0e-04 loss: 4.519e-02]wan_dewa:  58%|#####8    | 2040/3500 [1:49:03<55:52,  2.30s/it, lr: 2.0e-04 loss: 4.519e-02]wan_dewa:  58%|#####8    | 2041/3500 [1:49:03<42:59,  1.77s/it, lr: 2.0e-04 loss: 4.519e-02]wan_dewa:  58%|#####8    | 2041/3500 [1:49:03<42:59,  1.77s/it, lr: 2.0e-04 loss: 4.519e-02]wan_dewa:  58%|#####8    | 2041/3500 [1:49:06<42:59,  1.77s/it, lr: 2.0e-04 loss: 4.556e-02]wan_dewa:  58%|#####8    | 2041/3500 [1:49:06<42:59,  1.77s/it, lr: 2.0e-04 loss: 4.556e-02]wan_dewa:  58%|#####8    | 2042/3500 [1:49:06<47:20,  1.95s/it, lr: 2.0e-04 loss: 4.556e-02]wan_dewa:  58%|#####8    | 2042/3500 [1:49:06<47:20,  1.95s/it, lr: 2.0e-04 loss: 4.556e-02]wan_dewa:  58%|#####8    | 2042/3500 [1:49:08<47:20,  1.95s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  58%|#####8    | 2042/3500 [1:49:08<47:20,  1.95s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  58%|#####8    | 2043/3500 [1:49:08<49:25,  2.04s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  58%|#####8    | 2043/3500 [1:49:08<49:25,  2.04s/it, lr: 2.0e-04 loss: 6.275e-02]wan_dewa:  58%|#####8    | 2043/3500 [1:49:10<49:25,  2.04s/it, lr: 2.0e-04 loss: 4.393e-02]wan_dewa:  58%|#####8    | 2043/3500 [1:49:10<49:25,  2.04s/it, lr: 2.0e-04 loss: 4.393e-02]wan_dewa:  58%|#####8    | 2044/3500 [1:49:10<51:00,  2.10s/it, lr: 2.0e-04 loss: 4.393e-02]wan_dewa:  58%|#####8    | 2044/3500 [1:49:10<51:00,  2.10s/it, lr: 2.0e-04 loss: 4.393e-02]wan_dewa:  58%|#####8    | 2044/3500 [1:49:13<51:00,  2.10s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  58%|#####8    | 2044/3500 [1:49:13<51:00,  2.10s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  58%|#####8    | 2045/3500 [1:49:13<52:11,  2.15s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  58%|#####8    | 2045/3500 [1:49:13<52:11,  2.15s/it, lr: 2.0e-04 loss: 5.101e-02]wan_dewa:  58%|#####8    | 2045/3500 [1:49:15<52:11,  2.15s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:  58%|#####8    | 2045/3500 [1:49:15<52:11,  2.15s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:  58%|#####8    | 2046/3500 [1:49:15<53:03,  2.19s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:  58%|#####8    | 2046/3500 [1:49:15<53:03,  2.19s/it, lr: 2.0e-04 loss: 4.011e-02]wan_dewa:  58%|#####8    | 2046/3500 [1:49:17<53:03,  2.19s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  58%|#####8    | 2046/3500 [1:49:17<53:03,  2.19s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  58%|#####8    | 2047/3500 [1:49:17<55:12,  2.28s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  58%|#####8    | 2047/3500 [1:49:17<55:12,  2.28s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  58%|#####8    | 2047/3500 [1:49:20<55:12,  2.28s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  58%|#####8    | 2047/3500 [1:49:20<55:12,  2.28s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  59%|#####8    | 2048/3500 [1:49:20<55:11,  2.28s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  59%|#####8    | 2048/3500 [1:49:20<55:11,  2.28s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  59%|#####8    | 2048/3500 [1:49:22<55:11,  2.28s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  59%|#####8    | 2048/3500 [1:49:22<55:11,  2.28s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  59%|#####8    | 2049/3500 [1:49:22<55:09,  2.28s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  59%|#####8    | 2049/3500 [1:49:22<55:09,  2.28s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  59%|#####8    | 2049/3500 [1:49:35<55:09,  2.28s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  59%|#####8    | 2049/3500 [1:49:35<55:09,  2.28s/it, lr: 2.0e-04 loss: 1.161e-01]wan_dewa:  59%|#####8    | 2050/3500 [1:49:37<55:07,  2.28s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  59%|#####8    | 2050/3500 [1:49:37<55:07,  2.28s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  59%|#####8    | 2051/3500 [1:49:37<42:30,  1.76s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  59%|#####8    | 2051/3500 [1:49:37<42:30,  1.76s/it, lr: 2.0e-04 loss: 5.721e-02]wan_dewa:  59%|#####8    | 2051/3500 [1:49:40<42:30,  1.76s/it, lr: 2.0e-04 loss: 8.249e-02]wan_dewa:  59%|#####8    | 2051/3500 [1:49:40<42:30,  1.76s/it, lr: 2.0e-04 loss: 8.249e-02]wan_dewa:  59%|#####8    | 2052/3500 [1:49:40<47:35,  1.97s/it, lr: 2.0e-04 loss: 8.249e-02]wan_dewa:  59%|#####8    | 2052/3500 [1:49:40<47:35,  1.97s/it, lr: 2.0e-04 loss: 8.249e-02]wan_dewa:  59%|#####8    | 2052/3500 [1:49:42<47:35,  1.97s/it, lr: 2.0e-04 loss: 4.233e-02]wan_dewa:  59%|#####8    | 2052/3500 [1:49:42<47:35,  1.97s/it, lr: 2.0e-04 loss: 4.233e-02]wan_dewa:  59%|#####8    | 2053/3500 [1:49:42<49:27,  2.05s/it, lr: 2.0e-04 loss: 4.233e-02]wan_dewa:  59%|#####8    | 2053/3500 [1:49:42<49:27,  2.05s/it, lr: 2.0e-04 loss: 4.233e-02]wan_dewa:  59%|#####8    | 2053/3500 [1:49:44<49:27,  2.05s/it, lr: 2.0e-04 loss: 3.010e-02]wan_dewa:  59%|#####8    | 2053/3500 [1:49:44<49:27,  2.05s/it, lr: 2.0e-04 loss: 3.010e-02]wan_dewa:  59%|#####8    | 2054/3500 [1:49:44<50:53,  2.11s/it, lr: 2.0e-04 loss: 3.010e-02]wan_dewa:  59%|#####8    | 2054/3500 [1:49:44<50:53,  2.11s/it, lr: 2.0e-04 loss: 3.010e-02]wan_dewa:  59%|#####8    | 2054/3500 [1:49:47<50:53,  2.11s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  59%|#####8    | 2054/3500 [1:49:47<50:53,  2.11s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  59%|#####8    | 2055/3500 [1:49:47<52:01,  2.16s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  59%|#####8    | 2055/3500 [1:49:47<52:01,  2.16s/it, lr: 2.0e-04 loss: 1.647e-01]wan_dewa:  59%|#####8    | 2055/3500 [1:49:49<52:01,  2.16s/it, lr: 2.0e-04 loss: 6.740e-02]wan_dewa:  59%|#####8    | 2055/3500 [1:49:49<52:01,  2.16s/it, lr: 2.0e-04 loss: 6.740e-02]wan_dewa:  59%|#####8    | 2056/3500 [1:49:49<52:46,  2.19s/it, lr: 2.0e-04 loss: 6.740e-02]wan_dewa:  59%|#####8    | 2056/3500 [1:49:49<52:46,  2.19s/it, lr: 2.0e-04 loss: 6.740e-02]wan_dewa:  59%|#####8    | 2056/3500 [1:49:51<52:46,  2.19s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  59%|#####8    | 2056/3500 [1:49:51<52:46,  2.19s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  59%|#####8    | 2057/3500 [1:49:51<53:20,  2.22s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  59%|#####8    | 2057/3500 [1:49:51<53:20,  2.22s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  59%|#####8    | 2057/3500 [1:49:54<53:20,  2.22s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  59%|#####8    | 2057/3500 [1:49:54<53:20,  2.22s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  59%|#####8    | 2058/3500 [1:49:54<55:00,  2.29s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  59%|#####8    | 2058/3500 [1:49:54<55:00,  2.29s/it, lr: 2.0e-04 loss: 1.084e-01]wan_dewa:  59%|#####8    | 2058/3500 [1:49:56<55:00,  2.29s/it, lr: 2.0e-04 loss: 3.863e-01]wan_dewa:  59%|#####8    | 2058/3500 [1:49:56<55:00,  2.29s/it, lr: 2.0e-04 loss: 3.863e-01]wan_dewa:  59%|#####8    | 2059/3500 [1:49:56<54:54,  2.29s/it, lr: 2.0e-04 loss: 3.863e-01]wan_dewa:  59%|#####8    | 2059/3500 [1:49:56<54:54,  2.29s/it, lr: 2.0e-04 loss: 3.863e-01]wan_dewa:  59%|#####8    | 2059/3500 [1:50:07<54:54,  2.29s/it, lr: 2.0e-04 loss: 2.538e-02]wan_dewa:  59%|#####8    | 2059/3500 [1:50:07<54:54,  2.29s/it, lr: 2.0e-04 loss: 2.538e-02]wan_dewa:  59%|#####8    | 2060/3500 [1:50:09<54:52,  2.29s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  59%|#####8    | 2060/3500 [1:50:09<54:52,  2.29s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  59%|#####8    | 2061/3500 [1:50:09<42:18,  1.76s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  59%|#####8    | 2061/3500 [1:50:09<42:18,  1.76s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  59%|#####8    | 2061/3500 [1:50:11<42:18,  1.76s/it, lr: 2.0e-04 loss: 4.365e-02]wan_dewa:  59%|#####8    | 2061/3500 [1:50:11<42:18,  1.76s/it, lr: 2.0e-04 loss: 4.365e-02]wan_dewa:  59%|#####8    | 2062/3500 [1:50:11<45:17,  1.89s/it, lr: 2.0e-04 loss: 4.365e-02]wan_dewa:  59%|#####8    | 2062/3500 [1:50:11<45:17,  1.89s/it, lr: 2.0e-04 loss: 4.365e-02]wan_dewa:  59%|#####8    | 2062/3500 [1:50:14<45:17,  1.89s/it, lr: 2.0e-04 loss: 4.253e-02]wan_dewa:  59%|#####8    | 2062/3500 [1:50:14<45:17,  1.89s/it, lr: 2.0e-04 loss: 4.253e-02]wan_dewa:  59%|#####8    | 2063/3500 [1:50:14<48:46,  2.04s/it, lr: 2.0e-04 loss: 4.253e-02]wan_dewa:  59%|#####8    | 2063/3500 [1:50:14<48:46,  2.04s/it, lr: 2.0e-04 loss: 4.253e-02]wan_dewa:  59%|#####8    | 2063/3500 [1:50:16<48:46,  2.04s/it, lr: 2.0e-04 loss: 2.665e-02]wan_dewa:  59%|#####8    | 2063/3500 [1:50:16<48:46,  2.04s/it, lr: 2.0e-04 loss: 2.665e-02]wan_dewa:  59%|#####8    | 2064/3500 [1:50:16<50:17,  2.10s/it, lr: 2.0e-04 loss: 2.665e-02]wan_dewa:  59%|#####8    | 2064/3500 [1:50:16<50:17,  2.10s/it, lr: 2.0e-04 loss: 2.665e-02]wan_dewa:  59%|#####8    | 2064/3500 [1:50:18<50:17,  2.10s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  59%|#####8    | 2064/3500 [1:50:18<50:17,  2.10s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  59%|#####8    | 2065/3500 [1:50:18<51:26,  2.15s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  59%|#####8    | 2065/3500 [1:50:18<51:26,  2.15s/it, lr: 2.0e-04 loss: 5.511e-02]wan_dewa:  59%|#####8    | 2065/3500 [1:50:21<51:26,  2.15s/it, lr: 2.0e-04 loss: 2.514e-02]wan_dewa:  59%|#####8    | 2065/3500 [1:50:21<51:26,  2.15s/it, lr: 2.0e-04 loss: 2.514e-02]wan_dewa:  59%|#####9    | 2066/3500 [1:50:21<52:15,  2.19s/it, lr: 2.0e-04 loss: 2.514e-02]wan_dewa:  59%|#####9    | 2066/3500 [1:50:21<52:15,  2.19s/it, lr: 2.0e-04 loss: 2.514e-02]wan_dewa:  59%|#####9    | 2066/3500 [1:50:23<52:15,  2.19s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  59%|#####9    | 2066/3500 [1:50:23<52:15,  2.19s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  59%|#####9    | 2067/3500 [1:50:23<52:52,  2.21s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  59%|#####9    | 2067/3500 [1:50:23<52:52,  2.21s/it, lr: 2.0e-04 loss: 3.379e-02]wan_dewa:  59%|#####9    | 2067/3500 [1:50:25<52:52,  2.21s/it, lr: 2.0e-04 loss: 3.942e-02]wan_dewa:  59%|#####9    | 2067/3500 [1:50:25<52:52,  2.21s/it, lr: 2.0e-04 loss: 3.942e-02]wan_dewa:  59%|#####9    | 2068/3500 [1:50:25<54:39,  2.29s/it, lr: 2.0e-04 loss: 3.942e-02]wan_dewa:  59%|#####9    | 2068/3500 [1:50:25<54:39,  2.29s/it, lr: 2.0e-04 loss: 3.942e-02]wan_dewa:  59%|#####9    | 2068/3500 [1:50:28<54:39,  2.29s/it, lr: 2.0e-04 loss: 2.574e-02]wan_dewa:  59%|#####9    | 2068/3500 [1:50:28<54:39,  2.29s/it, lr: 2.0e-04 loss: 2.574e-02]wan_dewa:  59%|#####9    | 2069/3500 [1:50:28<54:33,  2.29s/it, lr: 2.0e-04 loss: 2.574e-02]wan_dewa:  59%|#####9    | 2069/3500 [1:50:28<54:33,  2.29s/it, lr: 2.0e-04 loss: 2.574e-02]wan_dewa:  59%|#####9    | 2069/3500 [1:50:35<54:33,  2.29s/it, lr: 2.0e-04 loss: 1.035e-01]wan_dewa:  59%|#####9    | 2069/3500 [1:50:35<54:33,  2.29s/it, lr: 2.0e-04 loss: 1.035e-01]wan_dewa:  59%|#####9    | 2070/3500 [1:50:38<54:31,  2.29s/it, lr: 2.0e-04 loss: 5.747e-02]wan_dewa:  59%|#####9    | 2070/3500 [1:50:38<54:31,  2.29s/it, lr: 2.0e-04 loss: 5.747e-02]wan_dewa:  59%|#####9    | 2071/3500 [1:50:38<41:58,  1.76s/it, lr: 2.0e-04 loss: 5.747e-02]wan_dewa:  59%|#####9    | 2071/3500 [1:50:38<41:58,  1.76s/it, lr: 2.0e-04 loss: 5.747e-02]wan_dewa:  59%|#####9    | 2071/3500 [1:50:40<41:58,  1.76s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:  59%|#####9    | 2071/3500 [1:50:40<41:58,  1.76s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:  59%|#####9    | 2072/3500 [1:50:40<44:56,  1.89s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:  59%|#####9    | 2072/3500 [1:50:40<44:56,  1.89s/it, lr: 2.0e-04 loss: 1.190e-01]wan_dewa:  59%|#####9    | 2072/3500 [1:50:42<44:56,  1.89s/it, lr: 2.0e-04 loss: 7.746e-02]wan_dewa:  59%|#####9    | 2072/3500 [1:50:42<44:56,  1.89s/it, lr: 2.0e-04 loss: 7.746e-02]wan_dewa:  59%|#####9    | 2073/3500 [1:50:42<48:30,  2.04s/it, lr: 2.0e-04 loss: 7.746e-02]wan_dewa:  59%|#####9    | 2073/3500 [1:50:42<48:30,  2.04s/it, lr: 2.0e-04 loss: 7.746e-02]wan_dewa:  59%|#####9    | 2073/3500 [1:50:45<48:30,  2.04s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  59%|#####9    | 2073/3500 [1:50:45<48:30,  2.04s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  59%|#####9    | 2074/3500 [1:50:45<50:02,  2.11s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  59%|#####9    | 2074/3500 [1:50:45<50:02,  2.11s/it, lr: 2.0e-04 loss: 7.062e-02]wan_dewa:  59%|#####9    | 2074/3500 [1:50:49<50:02,  2.11s/it, lr: 2.0e-04 loss: 6.211e-02]wan_dewa:  59%|#####9    | 2074/3500 [1:50:49<50:02,  2.11s/it, lr: 2.0e-04 loss: 6.211e-02]wan_dewa:  59%|#####9    | 2075/3500 [1:50:49<51:22,  2.16s/it, lr: 2.0e-04 loss: 6.211e-02]wan_dewa:  59%|#####9    | 2075/3500 [1:50:49<51:22,  2.16s/it, lr: 2.0e-04 loss: 6.211e-02]wan_dewa:  59%|#####9    | 2075/3500 [1:50:52<51:22,  2.16s/it, lr: 2.0e-04 loss: 1.291e-01]wan_dewa:  59%|#####9    | 2075/3500 [1:50:52<51:22,  2.16s/it, lr: 2.0e-04 loss: 1.291e-01]wan_dewa:  59%|#####9    | 2076/3500 [1:50:52<52:07,  2.20s/it, lr: 2.0e-04 loss: 1.291e-01]wan_dewa:  59%|#####9    | 2076/3500 [1:50:52<52:07,  2.20s/it, lr: 2.0e-04 loss: 1.291e-01]wan_dewa:  59%|#####9    | 2076/3500 [1:50:54<52:07,  2.20s/it, lr: 2.0e-04 loss: 1.714e-01]wan_dewa:  59%|#####9    | 2076/3500 [1:50:54<52:07,  2.20s/it, lr: 2.0e-04 loss: 1.714e-01]wan_dewa:  59%|#####9    | 2077/3500 [1:50:54<52:41,  2.22s/it, lr: 2.0e-04 loss: 1.714e-01]wan_dewa:  59%|#####9    | 2077/3500 [1:50:54<52:41,  2.22s/it, lr: 2.0e-04 loss: 1.714e-01]wan_dewa:  59%|#####9    | 2077/3500 [1:50:56<52:41,  2.22s/it, lr: 2.0e-04 loss: 8.841e-02]wan_dewa:  59%|#####9    | 2077/3500 [1:50:56<52:41,  2.22s/it, lr: 2.0e-04 loss: 8.841e-02]wan_dewa:  59%|#####9    | 2078/3500 [1:50:56<55:21,  2.34s/it, lr: 2.0e-04 loss: 8.841e-02]wan_dewa:  59%|#####9    | 2078/3500 [1:50:56<55:21,  2.34s/it, lr: 2.0e-04 loss: 8.841e-02]wan_dewa:  59%|#####9    | 2078/3500 [1:50:59<55:21,  2.34s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  59%|#####9    | 2078/3500 [1:50:59<55:21,  2.34s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  59%|#####9    | 2079/3500 [1:50:59<54:54,  2.32s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  59%|#####9    | 2079/3500 [1:50:59<54:54,  2.32s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  59%|#####9    | 2079/3500 [1:51:10<54:54,  2.32s/it, lr: 2.0e-04 loss: 3.255e-02]wan_dewa:  59%|#####9    | 2079/3500 [1:51:10<54:54,  2.32s/it, lr: 2.0e-04 loss: 3.255e-02]wan_dewa:  59%|#####9    | 2080/3500 [1:51:12<54:51,  2.32s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  59%|#####9    | 2080/3500 [1:51:12<54:51,  2.32s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  59%|#####9    | 2081/3500 [1:51:12<42:07,  1.78s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  59%|#####9    | 2081/3500 [1:51:12<42:07,  1.78s/it, lr: 2.0e-04 loss: 3.592e-02]wan_dewa:  59%|#####9    | 2081/3500 [1:51:14<42:07,  1.78s/it, lr: 2.0e-04 loss: 2.674e-02]wan_dewa:  59%|#####9    | 2081/3500 [1:51:14<42:07,  1.78s/it, lr: 2.0e-04 loss: 2.674e-02]wan_dewa:  59%|#####9    | 2082/3500 [1:51:14<44:56,  1.90s/it, lr: 2.0e-04 loss: 2.674e-02]wan_dewa:  59%|#####9    | 2082/3500 [1:51:14<44:56,  1.90s/it, lr: 2.0e-04 loss: 2.674e-02]wan_dewa:  59%|#####9    | 2082/3500 [1:51:17<44:56,  1.90s/it, lr: 2.0e-04 loss: 4.311e-02]wan_dewa:  59%|#####9    | 2082/3500 [1:51:17<44:56,  1.90s/it, lr: 2.0e-04 loss: 4.311e-02]wan_dewa:  60%|#####9    | 2083/3500 [1:51:17<48:28,  2.05s/it, lr: 2.0e-04 loss: 4.311e-02]wan_dewa:  60%|#####9    | 2083/3500 [1:51:17<48:28,  2.05s/it, lr: 2.0e-04 loss: 4.311e-02]wan_dewa:  60%|#####9    | 2083/3500 [1:51:19<48:28,  2.05s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  60%|#####9    | 2083/3500 [1:51:19<48:28,  2.05s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  60%|#####9    | 2084/3500 [1:51:19<49:51,  2.11s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  60%|#####9    | 2084/3500 [1:51:19<49:51,  2.11s/it, lr: 2.0e-04 loss: 2.851e-02]wan_dewa:  60%|#####9    | 2084/3500 [1:51:21<49:51,  2.11s/it, lr: 2.0e-04 loss: 4.792e-02]wan_dewa:  60%|#####9    | 2084/3500 [1:51:21<49:51,  2.11s/it, lr: 2.0e-04 loss: 4.792e-02]wan_dewa:  60%|#####9    | 2085/3500 [1:51:21<50:53,  2.16s/it, lr: 2.0e-04 loss: 4.792e-02]wan_dewa:  60%|#####9    | 2085/3500 [1:51:21<50:53,  2.16s/it, lr: 2.0e-04 loss: 4.792e-02]wan_dewa:  60%|#####9    | 2085/3500 [1:51:24<50:53,  2.16s/it, lr: 2.0e-04 loss: 4.508e-02]wan_dewa:  60%|#####9    | 2085/3500 [1:51:24<50:53,  2.16s/it, lr: 2.0e-04 loss: 4.508e-02]wan_dewa:  60%|#####9    | 2086/3500 [1:51:24<51:39,  2.19s/it, lr: 2.0e-04 loss: 4.508e-02]wan_dewa:  60%|#####9    | 2086/3500 [1:51:24<51:39,  2.19s/it, lr: 2.0e-04 loss: 4.508e-02]wan_dewa:  60%|#####9    | 2086/3500 [1:51:26<51:39,  2.19s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  60%|#####9    | 2086/3500 [1:51:26<51:39,  2.19s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  60%|#####9    | 2087/3500 [1:51:26<52:12,  2.22s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  60%|#####9    | 2087/3500 [1:51:26<52:12,  2.22s/it, lr: 2.0e-04 loss: 4.084e-02]wan_dewa:  60%|#####9    | 2087/3500 [1:51:28<52:12,  2.22s/it, lr: 2.0e-04 loss: 5.980e-02]wan_dewa:  60%|#####9    | 2087/3500 [1:51:28<52:12,  2.22s/it, lr: 2.0e-04 loss: 5.980e-02]wan_dewa:  60%|#####9    | 2088/3500 [1:51:28<53:59,  2.29s/it, lr: 2.0e-04 loss: 5.980e-02]wan_dewa:  60%|#####9    | 2088/3500 [1:51:28<53:59,  2.29s/it, lr: 2.0e-04 loss: 5.980e-02]wan_dewa:  60%|#####9    | 2088/3500 [1:51:31<53:59,  2.29s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  60%|#####9    | 2088/3500 [1:51:31<53:59,  2.29s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  60%|#####9    | 2089/3500 [1:51:31<53:49,  2.29s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  60%|#####9    | 2089/3500 [1:51:31<53:49,  2.29s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  60%|#####9    | 2089/3500 [1:51:42<53:49,  2.29s/it, lr: 2.0e-04 loss: 5.607e-02]wan_dewa:  60%|#####9    | 2089/3500 [1:51:42<53:49,  2.29s/it, lr: 2.0e-04 loss: 5.607e-02]wan_dewa:  60%|#####9    | 2090/3500 [1:51:44<53:47,  2.29s/it, lr: 2.0e-04 loss: 6.324e-02]wan_dewa:  60%|#####9    | 2090/3500 [1:51:44<53:47,  2.29s/it, lr: 2.0e-04 loss: 6.324e-02]wan_dewa:  60%|#####9    | 2091/3500 [1:51:44<41:28,  1.77s/it, lr: 2.0e-04 loss: 6.324e-02]wan_dewa:  60%|#####9    | 2091/3500 [1:51:44<41:28,  1.77s/it, lr: 2.0e-04 loss: 6.324e-02]wan_dewa:  60%|#####9    | 2091/3500 [1:51:46<41:28,  1.77s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  60%|#####9    | 2091/3500 [1:51:46<41:28,  1.77s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  60%|#####9    | 2092/3500 [1:51:46<44:25,  1.89s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  60%|#####9    | 2092/3500 [1:51:46<44:25,  1.89s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  60%|#####9    | 2092/3500 [1:51:49<44:25,  1.89s/it, lr: 2.0e-04 loss: 2.592e-01]wan_dewa:  60%|#####9    | 2092/3500 [1:51:49<44:25,  1.89s/it, lr: 2.0e-04 loss: 2.592e-01]wan_dewa:  60%|#####9    | 2093/3500 [1:51:49<46:46,  1.99s/it, lr: 2.0e-04 loss: 2.592e-01]wan_dewa:  60%|#####9    | 2093/3500 [1:51:49<46:46,  1.99s/it, lr: 2.0e-04 loss: 2.592e-01]wan_dewa:  60%|#####9    | 2093/3500 [1:51:51<46:46,  1.99s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  60%|#####9    | 2093/3500 [1:51:51<46:46,  1.99s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  60%|#####9    | 2094/3500 [1:51:51<50:01,  2.14s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  60%|#####9    | 2094/3500 [1:51:51<50:01,  2.14s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  60%|#####9    | 2094/3500 [1:51:53<50:01,  2.14s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  60%|#####9    | 2094/3500 [1:51:53<50:01,  2.14s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  60%|#####9    | 2095/3500 [1:51:53<50:58,  2.18s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  60%|#####9    | 2095/3500 [1:51:53<50:58,  2.18s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  60%|#####9    | 2095/3500 [1:51:56<50:58,  2.18s/it, lr: 2.0e-04 loss: 3.917e-01]wan_dewa:  60%|#####9    | 2095/3500 [1:51:56<50:58,  2.18s/it, lr: 2.0e-04 loss: 3.917e-01]wan_dewa:  60%|#####9    | 2096/3500 [1:51:56<51:42,  2.21s/it, lr: 2.0e-04 loss: 3.917e-01]wan_dewa:  60%|#####9    | 2096/3500 [1:51:56<51:42,  2.21s/it, lr: 2.0e-04 loss: 3.917e-01]wan_dewa:  60%|#####9    | 2096/3500 [1:51:58<51:42,  2.21s/it, lr: 2.0e-04 loss: 5.595e-02]wan_dewa:  60%|#####9    | 2096/3500 [1:51:58<51:42,  2.21s/it, lr: 2.0e-04 loss: 5.595e-02]wan_dewa:  60%|#####9    | 2097/3500 [1:51:58<52:14,  2.23s/it, lr: 2.0e-04 loss: 5.595e-02]wan_dewa:  60%|#####9    | 2097/3500 [1:51:58<52:14,  2.23s/it, lr: 2.0e-04 loss: 5.595e-02]wan_dewa:  60%|#####9    | 2097/3500 [1:52:00<52:14,  2.23s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  60%|#####9    | 2097/3500 [1:52:00<52:14,  2.23s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  60%|#####9    | 2098/3500 [1:52:00<52:33,  2.25s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  60%|#####9    | 2098/3500 [1:52:00<52:33,  2.25s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  60%|#####9    | 2098/3500 [1:52:03<52:33,  2.25s/it, lr: 2.0e-04 loss: 6.234e-02]wan_dewa:  60%|#####9    | 2098/3500 [1:52:03<52:33,  2.25s/it, lr: 2.0e-04 loss: 6.234e-02]wan_dewa:  60%|#####9    | 2099/3500 [1:52:03<54:21,  2.33s/it, lr: 2.0e-04 loss: 6.234e-02]wan_dewa:  60%|#####9    | 2099/3500 [1:52:03<54:21,  2.33s/it, lr: 2.0e-04 loss: 6.234e-02]wan_dewa:  60%|#####9    | 2099/3500 [1:52:16<54:21,  2.33s/it, lr: 2.0e-04 loss: 2.883e-02]wan_dewa:  60%|#####9    | 2099/3500 [1:52:16<54:21,  2.33s/it, lr: 2.0e-04 loss: 2.883e-02]wan_dewa:  60%|######    | 2100/3500 [1:52:19<54:19,  2.33s/it, lr: 2.0e-04 loss: 4.284e-02]wan_dewa:  60%|######    | 2100/3500 [1:52:19<54:19,  2.33s/it, lr: 2.0e-04 loss: 4.284e-02]wan_dewa:  60%|######    | 2101/3500 [1:52:19<41:43,  1.79s/it, lr: 2.0e-04 loss: 4.284e-02]wan_dewa:  60%|######    | 2101/3500 [1:52:19<41:43,  1.79s/it, lr: 2.0e-04 loss: 4.284e-02]wan_dewa:  60%|######    | 2101/3500 [1:52:21<41:43,  1.79s/it, lr: 2.0e-04 loss: 2.580e-02]wan_dewa:  60%|######    | 2101/3500 [1:52:21<41:43,  1.79s/it, lr: 2.0e-04 loss: 2.580e-02]wan_dewa:  60%|######    | 2102/3500 [1:52:21<44:29,  1.91s/it, lr: 2.0e-04 loss: 2.580e-02]wan_dewa:  60%|######    | 2102/3500 [1:52:21<44:29,  1.91s/it, lr: 2.0e-04 loss: 2.580e-02]wan_dewa:  60%|######    | 2102/3500 [1:52:23<44:29,  1.91s/it, lr: 2.0e-04 loss: 3.519e-02]wan_dewa:  60%|######    | 2102/3500 [1:52:23<44:29,  1.91s/it, lr: 2.0e-04 loss: 3.519e-02]wan_dewa:  60%|######    | 2103/3500 [1:52:23<46:41,  2.01s/it, lr: 2.0e-04 loss: 3.519e-02]wan_dewa:  60%|######    | 2103/3500 [1:52:23<46:41,  2.01s/it, lr: 2.0e-04 loss: 3.519e-02]wan_dewa:  60%|######    | 2103/3500 [1:52:26<46:41,  2.01s/it, lr: 2.0e-04 loss: 2.577e-02]wan_dewa:  60%|######    | 2103/3500 [1:52:26<46:41,  2.01s/it, lr: 2.0e-04 loss: 2.577e-02]wan_dewa:  60%|######    | 2104/3500 [1:52:26<50:27,  2.17s/it, lr: 2.0e-04 loss: 2.577e-02]wan_dewa:  60%|######    | 2104/3500 [1:52:26<50:27,  2.17s/it, lr: 2.0e-04 loss: 2.577e-02]wan_dewa:  60%|######    | 2104/3500 [1:52:28<50:27,  2.17s/it, lr: 2.0e-04 loss: 3.664e-02]wan_dewa:  60%|######    | 2104/3500 [1:52:28<50:27,  2.17s/it, lr: 2.0e-04 loss: 3.664e-02]wan_dewa:  60%|######    | 2105/3500 [1:52:28<51:08,  2.20s/it, lr: 2.0e-04 loss: 3.664e-02]wan_dewa:  60%|######    | 2105/3500 [1:52:28<51:08,  2.20s/it, lr: 2.0e-04 loss: 3.664e-02]wan_dewa:  60%|######    | 2105/3500 [1:52:30<51:08,  2.20s/it, lr: 2.0e-04 loss: 4.654e-02]wan_dewa:  60%|######    | 2105/3500 [1:52:30<51:08,  2.20s/it, lr: 2.0e-04 loss: 4.654e-02]wan_dewa:  60%|######    | 2106/3500 [1:52:30<51:37,  2.22s/it, lr: 2.0e-04 loss: 4.654e-02]wan_dewa:  60%|######    | 2106/3500 [1:52:30<51:37,  2.22s/it, lr: 2.0e-04 loss: 4.654e-02]wan_dewa:  60%|######    | 2106/3500 [1:52:33<51:37,  2.22s/it, lr: 2.0e-04 loss: 4.376e-02]wan_dewa:  60%|######    | 2106/3500 [1:52:33<51:37,  2.22s/it, lr: 2.0e-04 loss: 4.376e-02]wan_dewa:  60%|######    | 2107/3500 [1:52:33<51:59,  2.24s/it, lr: 2.0e-04 loss: 4.376e-02]wan_dewa:  60%|######    | 2107/3500 [1:52:33<51:59,  2.24s/it, lr: 2.0e-04 loss: 4.376e-02]wan_dewa:  60%|######    | 2107/3500 [1:52:35<51:59,  2.24s/it, lr: 2.0e-04 loss: 2.831e-02]wan_dewa:  60%|######    | 2107/3500 [1:52:35<51:59,  2.24s/it, lr: 2.0e-04 loss: 2.831e-02]wan_dewa:  60%|######    | 2108/3500 [1:52:35<52:14,  2.25s/it, lr: 2.0e-04 loss: 2.831e-02]wan_dewa:  60%|######    | 2108/3500 [1:52:35<52:14,  2.25s/it, lr: 2.0e-04 loss: 2.831e-02]wan_dewa:  60%|######    | 2108/3500 [1:52:37<52:14,  2.25s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  60%|######    | 2108/3500 [1:52:37<52:14,  2.25s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  60%|######    | 2109/3500 [1:52:37<53:40,  2.32s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  60%|######    | 2109/3500 [1:52:37<53:40,  2.32s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  60%|######    | 2109/3500 [1:52:48<53:40,  2.32s/it, lr: 2.0e-04 loss: 1.358e-01]wan_dewa:  60%|######    | 2109/3500 [1:52:48<53:40,  2.32s/it, lr: 2.0e-04 loss: 1.358e-01]wan_dewa:  60%|######    | 2110/3500 [1:52:50<53:38,  2.32s/it, lr: 2.0e-04 loss: 7.389e-02]wan_dewa:  60%|######    | 2110/3500 [1:52:50<53:38,  2.32s/it, lr: 2.0e-04 loss: 7.389e-02]wan_dewa:  60%|######    | 2111/3500 [1:52:50<41:06,  1.78s/it, lr: 2.0e-04 loss: 7.389e-02]wan_dewa:  60%|######    | 2111/3500 [1:52:50<41:06,  1.78s/it, lr: 2.0e-04 loss: 7.389e-02]wan_dewa:  60%|######    | 2111/3500 [1:52:53<41:06,  1.78s/it, lr: 2.0e-04 loss: 4.932e-02]wan_dewa:  60%|######    | 2111/3500 [1:52:53<41:06,  1.78s/it, lr: 2.0e-04 loss: 4.932e-02]wan_dewa:  60%|######    | 2112/3500 [1:52:53<43:55,  1.90s/it, lr: 2.0e-04 loss: 4.932e-02]wan_dewa:  60%|######    | 2112/3500 [1:52:53<43:55,  1.90s/it, lr: 2.0e-04 loss: 4.932e-02]wan_dewa:  60%|######    | 2112/3500 [1:52:55<43:55,  1.90s/it, lr: 2.0e-04 loss: 7.457e-02]wan_dewa:  60%|######    | 2112/3500 [1:52:55<43:55,  1.90s/it, lr: 2.0e-04 loss: 7.457e-02]wan_dewa:  60%|######    | 2113/3500 [1:52:55<46:09,  2.00s/it, lr: 2.0e-04 loss: 7.457e-02]wan_dewa:  60%|######    | 2113/3500 [1:52:55<46:09,  2.00s/it, lr: 2.0e-04 loss: 7.457e-02]wan_dewa:  60%|######    | 2113/3500 [1:52:57<46:09,  2.00s/it, lr: 2.0e-04 loss: 7.114e-02]wan_dewa:  60%|######    | 2113/3500 [1:52:57<46:09,  2.00s/it, lr: 2.0e-04 loss: 7.114e-02]wan_dewa:  60%|######    | 2114/3500 [1:52:57<49:06,  2.13s/it, lr: 2.0e-04 loss: 7.114e-02]wan_dewa:  60%|######    | 2114/3500 [1:52:57<49:06,  2.13s/it, lr: 2.0e-04 loss: 7.114e-02]wan_dewa:  60%|######    | 2114/3500 [1:53:00<49:06,  2.13s/it, lr: 2.0e-04 loss: 5.504e-02]wan_dewa:  60%|######    | 2114/3500 [1:53:00<49:06,  2.13s/it, lr: 2.0e-04 loss: 5.504e-02]wan_dewa:  60%|######    | 2115/3500 [1:53:00<50:02,  2.17s/it, lr: 2.0e-04 loss: 5.504e-02]wan_dewa:  60%|######    | 2115/3500 [1:53:00<50:02,  2.17s/it, lr: 2.0e-04 loss: 5.504e-02]wan_dewa:  60%|######    | 2115/3500 [1:53:02<50:02,  2.17s/it, lr: 2.0e-04 loss: 2.775e-02]wan_dewa:  60%|######    | 2115/3500 [1:53:02<50:02,  2.17s/it, lr: 2.0e-04 loss: 2.775e-02]wan_dewa:  60%|######    | 2116/3500 [1:53:02<50:44,  2.20s/it, lr: 2.0e-04 loss: 2.775e-02]wan_dewa:  60%|######    | 2116/3500 [1:53:02<50:44,  2.20s/it, lr: 2.0e-04 loss: 2.775e-02]wan_dewa:  60%|######    | 2116/3500 [1:53:04<50:44,  2.20s/it, lr: 2.0e-04 loss: 4.037e-02]wan_dewa:  60%|######    | 2116/3500 [1:53:04<50:44,  2.20s/it, lr: 2.0e-04 loss: 4.037e-02]wan_dewa:  60%|######    | 2117/3500 [1:53:04<51:13,  2.22s/it, lr: 2.0e-04 loss: 4.037e-02]wan_dewa:  60%|######    | 2117/3500 [1:53:04<51:13,  2.22s/it, lr: 2.0e-04 loss: 4.037e-02]wan_dewa:  60%|######    | 2117/3500 [1:53:07<51:13,  2.22s/it, lr: 2.0e-04 loss: 1.122e-01]wan_dewa:  60%|######    | 2117/3500 [1:53:07<51:13,  2.22s/it, lr: 2.0e-04 loss: 1.122e-01]wan_dewa:  61%|######    | 2118/3500 [1:53:07<51:35,  2.24s/it, lr: 2.0e-04 loss: 1.122e-01]wan_dewa:  61%|######    | 2118/3500 [1:53:07<51:35,  2.24s/it, lr: 2.0e-04 loss: 1.122e-01]wan_dewa:  61%|######    | 2118/3500 [1:53:09<51:35,  2.24s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  61%|######    | 2118/3500 [1:53:09<51:35,  2.24s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  61%|######    | 2119/3500 [1:53:09<51:50,  2.25s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  61%|######    | 2119/3500 [1:53:09<51:50,  2.25s/it, lr: 2.0e-04 loss: 6.280e-02]wan_dewa:  61%|######    | 2119/3500 [1:53:17<51:50,  2.25s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  61%|######    | 2119/3500 [1:53:17<51:50,  2.25s/it, lr: 2.0e-04 loss: 3.892e-02]wan_dewa:  61%|######    | 2120/3500 [1:53:19<51:48,  2.25s/it, lr: 2.0e-04 loss: 5.986e-02]wan_dewa:  61%|######    | 2120/3500 [1:53:19<51:48,  2.25s/it, lr: 2.0e-04 loss: 5.986e-02]wan_dewa:  61%|######    | 2121/3500 [1:53:19<40:08,  1.75s/it, lr: 2.0e-04 loss: 5.986e-02]wan_dewa:  61%|######    | 2121/3500 [1:53:19<40:08,  1.75s/it, lr: 2.0e-04 loss: 5.986e-02]wan_dewa:  61%|######    | 2121/3500 [1:53:21<40:08,  1.75s/it, lr: 2.0e-04 loss: 4.564e-02]wan_dewa:  61%|######    | 2121/3500 [1:53:21<40:08,  1.75s/it, lr: 2.0e-04 loss: 4.564e-02]wan_dewa:  61%|######    | 2122/3500 [1:53:21<43:07,  1.88s/it, lr: 2.0e-04 loss: 4.564e-02]wan_dewa:  61%|######    | 2122/3500 [1:53:21<43:07,  1.88s/it, lr: 2.0e-04 loss: 4.564e-02]wan_dewa:  61%|######    | 2122/3500 [1:53:24<43:07,  1.88s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  61%|######    | 2122/3500 [1:53:24<43:07,  1.88s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  61%|######    | 2123/3500 [1:53:24<45:30,  1.98s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  61%|######    | 2123/3500 [1:53:24<45:30,  1.98s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  61%|######    | 2123/3500 [1:53:26<45:30,  1.98s/it, lr: 2.0e-04 loss: 4.254e-02]wan_dewa:  61%|######    | 2123/3500 [1:53:26<45:30,  1.98s/it, lr: 2.0e-04 loss: 4.254e-02]wan_dewa:  61%|######    | 2124/3500 [1:53:26<47:20,  2.06s/it, lr: 2.0e-04 loss: 4.254e-02]wan_dewa:  61%|######    | 2124/3500 [1:53:26<47:20,  2.06s/it, lr: 2.0e-04 loss: 4.254e-02]wan_dewa:  61%|######    | 2124/3500 [1:53:31<47:20,  2.06s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  61%|######    | 2124/3500 [1:53:31<47:20,  2.06s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  61%|######    | 2125/3500 [1:53:31<50:44,  2.21s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  61%|######    | 2125/3500 [1:53:31<50:44,  2.21s/it, lr: 2.0e-04 loss: 4.008e-02]wan_dewa:  61%|######    | 2125/3500 [1:53:33<50:44,  2.21s/it, lr: 2.0e-04 loss: 5.421e-02]wan_dewa:  61%|######    | 2125/3500 [1:53:33<50:44,  2.21s/it, lr: 2.0e-04 loss: 5.421e-02]wan_dewa:  61%|######    | 2126/3500 [1:53:33<51:09,  2.23s/it, lr: 2.0e-04 loss: 5.421e-02]wan_dewa:  61%|######    | 2126/3500 [1:53:33<51:09,  2.23s/it, lr: 2.0e-04 loss: 5.421e-02]wan_dewa:  61%|######    | 2126/3500 [1:53:35<51:09,  2.23s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  61%|######    | 2126/3500 [1:53:35<51:09,  2.23s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  61%|######    | 2127/3500 [1:53:35<51:28,  2.25s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  61%|######    | 2127/3500 [1:53:35<51:28,  2.25s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  61%|######    | 2127/3500 [1:53:38<51:28,  2.25s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  61%|######    | 2127/3500 [1:53:38<51:28,  2.25s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  61%|######    | 2128/3500 [1:53:38<51:39,  2.26s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  61%|######    | 2128/3500 [1:53:38<51:39,  2.26s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  61%|######    | 2128/3500 [1:53:40<51:39,  2.26s/it, lr: 2.0e-04 loss: 3.931e-02]wan_dewa:  61%|######    | 2128/3500 [1:53:40<51:39,  2.26s/it, lr: 2.0e-04 loss: 3.931e-02]wan_dewa:  61%|######    | 2129/3500 [1:53:40<51:46,  2.27s/it, lr: 2.0e-04 loss: 3.931e-02]wan_dewa:  61%|######    | 2129/3500 [1:53:40<51:46,  2.27s/it, lr: 2.0e-04 loss: 3.931e-02]wan_dewa:  61%|######    | 2129/3500 [1:53:51<51:46,  2.27s/it, lr: 2.0e-04 loss: 1.859e-01]wan_dewa:  61%|######    | 2129/3500 [1:53:51<51:46,  2.27s/it, lr: 2.0e-04 loss: 1.859e-01]wan_dewa:  61%|######    | 2130/3500 [1:53:54<51:44,  2.27s/it, lr: 2.0e-04 loss: 6.810e-02]wan_dewa:  61%|######    | 2130/3500 [1:53:54<51:44,  2.27s/it, lr: 2.0e-04 loss: 6.810e-02]wan_dewa:  61%|######    | 2131/3500 [1:53:54<39:59,  1.75s/it, lr: 2.0e-04 loss: 6.810e-02]wan_dewa:  61%|######    | 2131/3500 [1:53:54<39:59,  1.75s/it, lr: 2.0e-04 loss: 6.810e-02]wan_dewa:  61%|######    | 2131/3500 [1:53:56<39:59,  1.75s/it, lr: 2.0e-04 loss: 5.874e-02]wan_dewa:  61%|######    | 2131/3500 [1:53:56<39:59,  1.75s/it, lr: 2.0e-04 loss: 5.874e-02]wan_dewa:  61%|######    | 2132/3500 [1:53:56<42:55,  1.88s/it, lr: 2.0e-04 loss: 5.874e-02]wan_dewa:  61%|######    | 2132/3500 [1:53:56<42:55,  1.88s/it, lr: 2.0e-04 loss: 5.874e-02]wan_dewa:  61%|######    | 2132/3500 [1:53:58<42:55,  1.88s/it, lr: 2.0e-04 loss: 1.548e-01]wan_dewa:  61%|######    | 2132/3500 [1:53:58<42:55,  1.88s/it, lr: 2.0e-04 loss: 1.548e-01]wan_dewa:  61%|######    | 2133/3500 [1:53:58<45:12,  1.98s/it, lr: 2.0e-04 loss: 1.548e-01]wan_dewa:  61%|######    | 2133/3500 [1:53:58<45:12,  1.98s/it, lr: 2.0e-04 loss: 1.548e-01]wan_dewa:  61%|######    | 2133/3500 [1:54:01<45:12,  1.98s/it, lr: 2.0e-04 loss: 5.079e-02]wan_dewa:  61%|######    | 2133/3500 [1:54:01<45:12,  1.98s/it, lr: 2.0e-04 loss: 5.079e-02]wan_dewa:  61%|######    | 2134/3500 [1:54:01<46:59,  2.06s/it, lr: 2.0e-04 loss: 5.079e-02]wan_dewa:  61%|######    | 2134/3500 [1:54:01<46:59,  2.06s/it, lr: 2.0e-04 loss: 5.079e-02]wan_dewa:  61%|######    | 2134/3500 [1:54:03<46:59,  2.06s/it, lr: 2.0e-04 loss: 1.752e-01]wan_dewa:  61%|######    | 2134/3500 [1:54:03<46:59,  2.06s/it, lr: 2.0e-04 loss: 1.752e-01]wan_dewa:  61%|######1   | 2135/3500 [1:54:03<49:49,  2.19s/it, lr: 2.0e-04 loss: 1.752e-01]wan_dewa:  61%|######1   | 2135/3500 [1:54:03<49:49,  2.19s/it, lr: 2.0e-04 loss: 1.752e-01]wan_dewa:  61%|######1   | 2135/3500 [1:54:05<49:49,  2.19s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  61%|######1   | 2135/3500 [1:54:05<49:49,  2.19s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  61%|######1   | 2136/3500 [1:54:05<50:21,  2.22s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  61%|######1   | 2136/3500 [1:54:05<50:21,  2.22s/it, lr: 2.0e-04 loss: 6.642e-02]wan_dewa:  61%|######1   | 2136/3500 [1:54:08<50:21,  2.22s/it, lr: 2.0e-04 loss: 1.989e-01]wan_dewa:  61%|######1   | 2136/3500 [1:54:08<50:21,  2.22s/it, lr: 2.0e-04 loss: 1.989e-01]wan_dewa:  61%|######1   | 2137/3500 [1:54:08<50:43,  2.23s/it, lr: 2.0e-04 loss: 1.989e-01]wan_dewa:  61%|######1   | 2137/3500 [1:54:08<50:43,  2.23s/it, lr: 2.0e-04 loss: 1.989e-01]wan_dewa:  61%|######1   | 2137/3500 [1:54:10<50:43,  2.23s/it, lr: 2.0e-04 loss: 1.440e-01]wan_dewa:  61%|######1   | 2137/3500 [1:54:10<50:43,  2.23s/it, lr: 2.0e-04 loss: 1.440e-01]wan_dewa:  61%|######1   | 2138/3500 [1:54:10<50:59,  2.25s/it, lr: 2.0e-04 loss: 1.440e-01]wan_dewa:  61%|######1   | 2138/3500 [1:54:10<50:59,  2.25s/it, lr: 2.0e-04 loss: 1.440e-01]wan_dewa:  61%|######1   | 2138/3500 [1:54:12<50:59,  2.25s/it, lr: 2.0e-04 loss: 5.149e-02]wan_dewa:  61%|######1   | 2138/3500 [1:54:12<50:59,  2.25s/it, lr: 2.0e-04 loss: 5.149e-02]wan_dewa:  61%|######1   | 2139/3500 [1:54:12<51:10,  2.26s/it, lr: 2.0e-04 loss: 5.149e-02]wan_dewa:  61%|######1   | 2139/3500 [1:54:12<51:10,  2.26s/it, lr: 2.0e-04 loss: 5.149e-02]wan_dewa:  61%|######1   | 2139/3500 [1:54:24<51:10,  2.26s/it, lr: 2.0e-04 loss: 4.256e-02]wan_dewa:  61%|######1   | 2139/3500 [1:54:24<51:10,  2.26s/it, lr: 2.0e-04 loss: 4.256e-02]wan_dewa:  61%|######1   | 2140/3500 [1:54:26<51:08,  2.26s/it, lr: 2.0e-04 loss: 4.397e-02]wan_dewa:  61%|######1   | 2140/3500 [1:54:26<51:08,  2.26s/it, lr: 2.0e-04 loss: 4.397e-02]wan_dewa:  61%|######1   | 2141/3500 [1:54:26<39:35,  1.75s/it, lr: 2.0e-04 loss: 4.397e-02]wan_dewa:  61%|######1   | 2141/3500 [1:54:26<39:35,  1.75s/it, lr: 2.0e-04 loss: 4.397e-02]wan_dewa:  61%|######1   | 2141/3500 [1:54:28<39:35,  1.75s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  61%|######1   | 2141/3500 [1:54:28<39:35,  1.75s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  61%|######1   | 2142/3500 [1:54:28<42:30,  1.88s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  61%|######1   | 2142/3500 [1:54:28<42:30,  1.88s/it, lr: 2.0e-04 loss: 4.046e-02]wan_dewa:  61%|######1   | 2142/3500 [1:54:30<42:30,  1.88s/it, lr: 2.0e-04 loss: 2.158e-02]wan_dewa:  61%|######1   | 2142/3500 [1:54:30<42:30,  1.88s/it, lr: 2.0e-04 loss: 2.158e-02]wan_dewa:  61%|######1   | 2143/3500 [1:54:30<44:50,  1.98s/it, lr: 2.0e-04 loss: 2.158e-02]wan_dewa:  61%|######1   | 2143/3500 [1:54:30<44:50,  1.98s/it, lr: 2.0e-04 loss: 2.158e-02]wan_dewa:  61%|######1   | 2143/3500 [1:54:33<44:50,  1.98s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  61%|######1   | 2143/3500 [1:54:33<44:50,  1.98s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  61%|######1   | 2144/3500 [1:54:33<46:38,  2.06s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  61%|######1   | 2144/3500 [1:54:33<46:38,  2.06s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  61%|######1   | 2144/3500 [1:54:35<46:38,  2.06s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:  61%|######1   | 2144/3500 [1:54:35<46:38,  2.06s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:  61%|######1   | 2145/3500 [1:54:35<49:32,  2.19s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:  61%|######1   | 2145/3500 [1:54:35<49:32,  2.19s/it, lr: 2.0e-04 loss: 4.274e-02]wan_dewa:  61%|######1   | 2145/3500 [1:54:38<49:32,  2.19s/it, lr: 2.0e-04 loss: 4.891e-02]wan_dewa:  61%|######1   | 2145/3500 [1:54:38<49:32,  2.19s/it, lr: 2.0e-04 loss: 4.891e-02]wan_dewa:  61%|######1   | 2146/3500 [1:54:38<50:04,  2.22s/it, lr: 2.0e-04 loss: 4.891e-02]wan_dewa:  61%|######1   | 2146/3500 [1:54:38<50:04,  2.22s/it, lr: 2.0e-04 loss: 4.891e-02]wan_dewa:  61%|######1   | 2146/3500 [1:54:40<50:04,  2.22s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  61%|######1   | 2146/3500 [1:54:40<50:04,  2.22s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  61%|######1   | 2147/3500 [1:54:40<50:29,  2.24s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  61%|######1   | 2147/3500 [1:54:40<50:29,  2.24s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  61%|######1   | 2147/3500 [1:54:42<50:29,  2.24s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  61%|######1   | 2147/3500 [1:54:42<50:29,  2.24s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  61%|######1   | 2148/3500 [1:54:42<50:45,  2.25s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  61%|######1   | 2148/3500 [1:54:42<50:45,  2.25s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  61%|######1   | 2148/3500 [1:54:44<50:45,  2.25s/it, lr: 2.0e-04 loss: 3.727e-02]wan_dewa:  61%|######1   | 2148/3500 [1:54:44<50:45,  2.25s/it, lr: 2.0e-04 loss: 3.727e-02]wan_dewa:  61%|######1   | 2149/3500 [1:54:44<50:57,  2.26s/it, lr: 2.0e-04 loss: 3.727e-02]wan_dewa:  61%|######1   | 2149/3500 [1:54:44<50:57,  2.26s/it, lr: 2.0e-04 loss: 3.727e-02]wan_dewa:  61%|######1   | 2149/3500 [1:54:58<50:57,  2.26s/it, lr: 2.0e-04 loss: 3.262e-02]wan_dewa:  61%|######1   | 2149/3500 [1:54:58<50:57,  2.26s/it, lr: 2.0e-04 loss: 3.262e-02]wan_dewa:  61%|######1   | 2150/3500 [1:55:00<50:55,  2.26s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  61%|######1   | 2150/3500 [1:55:00<50:55,  2.26s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  61%|######1   | 2151/3500 [1:55:00<41:05,  1.83s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  61%|######1   | 2151/3500 [1:55:00<41:05,  1.83s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  61%|######1   | 2151/3500 [1:55:02<41:05,  1.83s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  61%|######1   | 2151/3500 [1:55:02<41:05,  1.83s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  61%|######1   | 2152/3500 [1:55:02<43:31,  1.94s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  61%|######1   | 2152/3500 [1:55:02<43:31,  1.94s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  61%|######1   | 2152/3500 [1:55:05<43:31,  1.94s/it, lr: 2.0e-04 loss: 6.519e-02]wan_dewa:  61%|######1   | 2152/3500 [1:55:05<43:31,  1.94s/it, lr: 2.0e-04 loss: 6.519e-02]wan_dewa:  62%|######1   | 2153/3500 [1:55:05<45:25,  2.02s/it, lr: 2.0e-04 loss: 6.519e-02]wan_dewa:  62%|######1   | 2153/3500 [1:55:05<45:25,  2.02s/it, lr: 2.0e-04 loss: 6.519e-02]wan_dewa:  62%|######1   | 2153/3500 [1:55:07<45:25,  2.02s/it, lr: 2.0e-04 loss: 1.756e-01]wan_dewa:  62%|######1   | 2153/3500 [1:55:07<45:25,  2.02s/it, lr: 2.0e-04 loss: 1.756e-01]wan_dewa:  62%|######1   | 2154/3500 [1:55:07<46:54,  2.09s/it, lr: 2.0e-04 loss: 1.756e-01]wan_dewa:  62%|######1   | 2154/3500 [1:55:07<46:54,  2.09s/it, lr: 2.0e-04 loss: 1.756e-01]wan_dewa:  62%|######1   | 2154/3500 [1:55:09<46:54,  2.09s/it, lr: 2.0e-04 loss: 3.488e-02]wan_dewa:  62%|######1   | 2154/3500 [1:55:09<46:54,  2.09s/it, lr: 2.0e-04 loss: 3.488e-02]wan_dewa:  62%|######1   | 2155/3500 [1:55:09<48:01,  2.14s/it, lr: 2.0e-04 loss: 3.488e-02]wan_dewa:  62%|######1   | 2155/3500 [1:55:09<48:01,  2.14s/it, lr: 2.0e-04 loss: 3.488e-02]wan_dewa:  62%|######1   | 2155/3500 [1:55:12<48:01,  2.14s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  62%|######1   | 2155/3500 [1:55:12<48:01,  2.14s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  62%|######1   | 2156/3500 [1:55:12<50:08,  2.24s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  62%|######1   | 2156/3500 [1:55:12<50:08,  2.24s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  62%|######1   | 2156/3500 [1:55:14<50:08,  2.24s/it, lr: 2.0e-04 loss: 1.109e-01]wan_dewa:  62%|######1   | 2156/3500 [1:55:14<50:08,  2.24s/it, lr: 2.0e-04 loss: 1.109e-01]wan_dewa:  62%|######1   | 2157/3500 [1:55:14<50:21,  2.25s/it, lr: 2.0e-04 loss: 1.109e-01]wan_dewa:  62%|######1   | 2157/3500 [1:55:14<50:21,  2.25s/it, lr: 2.0e-04 loss: 1.109e-01]wan_dewa:  62%|######1   | 2157/3500 [1:55:16<50:21,  2.25s/it, lr: 2.0e-04 loss: 8.223e-02]wan_dewa:  62%|######1   | 2157/3500 [1:55:16<50:21,  2.25s/it, lr: 2.0e-04 loss: 8.223e-02]wan_dewa:  62%|######1   | 2158/3500 [1:55:16<50:30,  2.26s/it, lr: 2.0e-04 loss: 8.223e-02]wan_dewa:  62%|######1   | 2158/3500 [1:55:16<50:30,  2.26s/it, lr: 2.0e-04 loss: 8.223e-02]wan_dewa:  62%|######1   | 2158/3500 [1:55:19<50:30,  2.26s/it, lr: 2.0e-04 loss: 5.363e-02]wan_dewa:  62%|######1   | 2158/3500 [1:55:19<50:30,  2.26s/it, lr: 2.0e-04 loss: 5.363e-02]wan_dewa:  62%|######1   | 2159/3500 [1:55:19<50:35,  2.26s/it, lr: 2.0e-04 loss: 5.363e-02]wan_dewa:  62%|######1   | 2159/3500 [1:55:19<50:35,  2.26s/it, lr: 2.0e-04 loss: 5.363e-02]wan_dewa:  62%|######1   | 2159/3500 [1:55:30<50:35,  2.26s/it, lr: 2.0e-04 loss: 4.124e-02]wan_dewa:  62%|######1   | 2159/3500 [1:55:30<50:35,  2.26s/it, lr: 2.0e-04 loss: 4.124e-02]wan_dewa:  62%|######1   | 2160/3500 [1:55:32<50:32,  2.26s/it, lr: 2.0e-04 loss: 4.659e-02]wan_dewa:  62%|######1   | 2160/3500 [1:55:32<50:32,  2.26s/it, lr: 2.0e-04 loss: 4.659e-02]wan_dewa:  62%|######1   | 2161/3500 [1:55:32<40:00,  1.79s/it, lr: 2.0e-04 loss: 4.659e-02]wan_dewa:  62%|######1   | 2161/3500 [1:55:32<40:00,  1.79s/it, lr: 2.0e-04 loss: 4.659e-02]wan_dewa:  62%|######1   | 2161/3500 [1:55:34<40:00,  1.79s/it, lr: 2.0e-04 loss: 3.590e-02]wan_dewa:  62%|######1   | 2161/3500 [1:55:34<40:00,  1.79s/it, lr: 2.0e-04 loss: 3.590e-02]wan_dewa:  62%|######1   | 2162/3500 [1:55:34<42:38,  1.91s/it, lr: 2.0e-04 loss: 3.590e-02]wan_dewa:  62%|######1   | 2162/3500 [1:55:34<42:38,  1.91s/it, lr: 2.0e-04 loss: 3.590e-02]wan_dewa:  62%|######1   | 2162/3500 [1:55:37<42:38,  1.91s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  62%|######1   | 2162/3500 [1:55:37<42:38,  1.91s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  62%|######1   | 2163/3500 [1:55:37<44:44,  2.01s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  62%|######1   | 2163/3500 [1:55:37<44:44,  2.01s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  62%|######1   | 2163/3500 [1:55:39<44:44,  2.01s/it, lr: 2.0e-04 loss: 4.072e-02]wan_dewa:  62%|######1   | 2163/3500 [1:55:39<44:44,  2.01s/it, lr: 2.0e-04 loss: 4.072e-02]wan_dewa:  62%|######1   | 2164/3500 [1:55:39<46:21,  2.08s/it, lr: 2.0e-04 loss: 4.072e-02]wan_dewa:  62%|######1   | 2164/3500 [1:55:39<46:21,  2.08s/it, lr: 2.0e-04 loss: 4.072e-02]wan_dewa:  62%|######1   | 2164/3500 [1:55:41<46:21,  2.08s/it, lr: 2.0e-04 loss: 3.690e-02]wan_dewa:  62%|######1   | 2164/3500 [1:55:41<46:21,  2.08s/it, lr: 2.0e-04 loss: 3.690e-02]wan_dewa:  62%|######1   | 2165/3500 [1:55:41<47:33,  2.14s/it, lr: 2.0e-04 loss: 3.690e-02]wan_dewa:  62%|######1   | 2165/3500 [1:55:41<47:33,  2.14s/it, lr: 2.0e-04 loss: 3.690e-02]wan_dewa:  62%|######1   | 2165/3500 [1:55:44<47:33,  2.14s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  62%|######1   | 2165/3500 [1:55:44<47:33,  2.14s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  62%|######1   | 2166/3500 [1:55:44<49:39,  2.23s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  62%|######1   | 2166/3500 [1:55:44<49:39,  2.23s/it, lr: 2.0e-04 loss: 4.038e-02]wan_dewa:  62%|######1   | 2166/3500 [1:55:46<49:39,  2.23s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  62%|######1   | 2166/3500 [1:55:46<49:39,  2.23s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  62%|######1   | 2167/3500 [1:55:46<49:56,  2.25s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  62%|######1   | 2167/3500 [1:55:46<49:56,  2.25s/it, lr: 2.0e-04 loss: 4.205e-02]wan_dewa:  62%|######1   | 2167/3500 [1:55:48<49:56,  2.25s/it, lr: 2.0e-04 loss: 4.074e-02]wan_dewa:  62%|######1   | 2167/3500 [1:55:48<49:56,  2.25s/it, lr: 2.0e-04 loss: 4.074e-02]wan_dewa:  62%|######1   | 2168/3500 [1:55:48<50:09,  2.26s/it, lr: 2.0e-04 loss: 4.074e-02]wan_dewa:  62%|######1   | 2168/3500 [1:55:48<50:09,  2.26s/it, lr: 2.0e-04 loss: 4.074e-02]wan_dewa:  62%|######1   | 2168/3500 [1:55:51<50:09,  2.26s/it, lr: 2.0e-04 loss: 4.027e-02]wan_dewa:  62%|######1   | 2168/3500 [1:55:51<50:09,  2.26s/it, lr: 2.0e-04 loss: 4.027e-02]wan_dewa:  62%|######1   | 2169/3500 [1:55:51<50:17,  2.27s/it, lr: 2.0e-04 loss: 4.027e-02]wan_dewa:  62%|######1   | 2169/3500 [1:55:51<50:17,  2.27s/it, lr: 2.0e-04 loss: 4.027e-02]wan_dewa:  62%|######1   | 2169/3500 [1:55:58<50:17,  2.27s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  62%|######1   | 2169/3500 [1:55:58<50:17,  2.27s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  62%|######2   | 2170/3500 [1:56:01<50:14,  2.27s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  62%|######2   | 2170/3500 [1:56:01<50:14,  2.27s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  62%|######2   | 2171/3500 [1:56:01<39:47,  1.80s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  62%|######2   | 2171/3500 [1:56:01<39:47,  1.80s/it, lr: 2.0e-04 loss: 7.349e-02]wan_dewa:  62%|######2   | 2171/3500 [1:56:03<39:47,  1.80s/it, lr: 2.0e-04 loss: 1.544e-01]wan_dewa:  62%|######2   | 2171/3500 [1:56:03<39:47,  1.80s/it, lr: 2.0e-04 loss: 1.544e-01]wan_dewa:  62%|######2   | 2172/3500 [1:56:03<42:22,  1.91s/it, lr: 2.0e-04 loss: 1.544e-01]wan_dewa:  62%|######2   | 2172/3500 [1:56:03<42:22,  1.91s/it, lr: 2.0e-04 loss: 1.544e-01]wan_dewa:  62%|######2   | 2172/3500 [1:56:05<42:22,  1.91s/it, lr: 2.0e-04 loss: 1.375e-01]wan_dewa:  62%|######2   | 2172/3500 [1:56:05<42:22,  1.91s/it, lr: 2.0e-04 loss: 1.375e-01]wan_dewa:  62%|######2   | 2173/3500 [1:56:05<44:24,  2.01s/it, lr: 2.0e-04 loss: 1.375e-01]wan_dewa:  62%|######2   | 2173/3500 [1:56:05<44:24,  2.01s/it, lr: 2.0e-04 loss: 1.375e-01]wan_dewa:  62%|######2   | 2173/3500 [1:56:08<44:24,  2.01s/it, lr: 2.0e-04 loss: 1.435e-01]wan_dewa:  62%|######2   | 2173/3500 [1:56:08<44:24,  2.01s/it, lr: 2.0e-04 loss: 1.435e-01]wan_dewa:  62%|######2   | 2174/3500 [1:56:08<45:58,  2.08s/it, lr: 2.0e-04 loss: 1.435e-01]wan_dewa:  62%|######2   | 2174/3500 [1:56:08<45:58,  2.08s/it, lr: 2.0e-04 loss: 1.435e-01]wan_dewa:  62%|######2   | 2174/3500 [1:56:12<45:58,  2.08s/it, lr: 2.0e-04 loss: 8.439e-02]wan_dewa:  62%|######2   | 2174/3500 [1:56:12<45:58,  2.08s/it, lr: 2.0e-04 loss: 8.439e-02]wan_dewa:  62%|######2   | 2175/3500 [1:56:12<47:19,  2.14s/it, lr: 2.0e-04 loss: 8.439e-02]wan_dewa:  62%|######2   | 2175/3500 [1:56:12<47:19,  2.14s/it, lr: 2.0e-04 loss: 8.439e-02]wan_dewa:  62%|######2   | 2175/3500 [1:56:15<47:19,  2.14s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  62%|######2   | 2175/3500 [1:56:15<47:19,  2.14s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  62%|######2   | 2176/3500 [1:56:15<50:09,  2.27s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  62%|######2   | 2176/3500 [1:56:15<50:09,  2.27s/it, lr: 2.0e-04 loss: 7.030e-02]wan_dewa:  62%|######2   | 2176/3500 [1:56:17<50:09,  2.27s/it, lr: 2.0e-04 loss: 4.907e-02]wan_dewa:  62%|######2   | 2176/3500 [1:56:17<50:09,  2.27s/it, lr: 2.0e-04 loss: 4.907e-02]wan_dewa:  62%|######2   | 2177/3500 [1:56:17<50:09,  2.27s/it, lr: 2.0e-04 loss: 4.907e-02]wan_dewa:  62%|######2   | 2177/3500 [1:56:17<50:09,  2.27s/it, lr: 2.0e-04 loss: 4.907e-02]wan_dewa:  62%|######2   | 2177/3500 [1:56:19<50:09,  2.27s/it, lr: 2.0e-04 loss: 1.284e-01]wan_dewa:  62%|######2   | 2177/3500 [1:56:19<50:09,  2.27s/it, lr: 2.0e-04 loss: 1.284e-01]wan_dewa:  62%|######2   | 2178/3500 [1:56:19<50:05,  2.27s/it, lr: 2.0e-04 loss: 1.284e-01]wan_dewa:  62%|######2   | 2178/3500 [1:56:19<50:05,  2.27s/it, lr: 2.0e-04 loss: 1.284e-01]wan_dewa:  62%|######2   | 2178/3500 [1:56:22<50:05,  2.27s/it, lr: 2.0e-04 loss: 4.944e-02]wan_dewa:  62%|######2   | 2178/3500 [1:56:22<50:05,  2.27s/it, lr: 2.0e-04 loss: 4.944e-02]wan_dewa:  62%|######2   | 2179/3500 [1:56:22<50:03,  2.27s/it, lr: 2.0e-04 loss: 4.944e-02]wan_dewa:  62%|######2   | 2179/3500 [1:56:22<50:03,  2.27s/it, lr: 2.0e-04 loss: 4.944e-02]wan_dewa:  62%|######2   | 2179/3500 [1:56:33<50:03,  2.27s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  62%|######2   | 2179/3500 [1:56:33<50:03,  2.27s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  62%|######2   | 2180/3500 [1:56:35<50:01,  2.27s/it, lr: 2.0e-04 loss: 4.425e-02]wan_dewa:  62%|######2   | 2180/3500 [1:56:35<50:01,  2.27s/it, lr: 2.0e-04 loss: 4.425e-02]wan_dewa:  62%|######2   | 2181/3500 [1:56:35<38:35,  1.76s/it, lr: 2.0e-04 loss: 4.425e-02]wan_dewa:  62%|######2   | 2181/3500 [1:56:35<38:35,  1.76s/it, lr: 2.0e-04 loss: 4.425e-02]wan_dewa:  62%|######2   | 2181/3500 [1:56:38<38:35,  1.76s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  62%|######2   | 2181/3500 [1:56:38<38:35,  1.76s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  62%|######2   | 2182/3500 [1:56:38<42:33,  1.94s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  62%|######2   | 2182/3500 [1:56:38<42:33,  1.94s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  62%|######2   | 2182/3500 [1:56:40<42:33,  1.94s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  62%|######2   | 2182/3500 [1:56:40<42:33,  1.94s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  62%|######2   | 2183/3500 [1:56:40<44:28,  2.03s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  62%|######2   | 2183/3500 [1:56:40<44:28,  2.03s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  62%|######2   | 2183/3500 [1:56:42<44:28,  2.03s/it, lr: 2.0e-04 loss: 3.962e-02]wan_dewa:  62%|######2   | 2183/3500 [1:56:42<44:28,  2.03s/it, lr: 2.0e-04 loss: 3.962e-02]wan_dewa:  62%|######2   | 2184/3500 [1:56:42<45:56,  2.09s/it, lr: 2.0e-04 loss: 3.962e-02]wan_dewa:  62%|######2   | 2184/3500 [1:56:42<45:56,  2.09s/it, lr: 2.0e-04 loss: 3.962e-02]wan_dewa:  62%|######2   | 2184/3500 [1:56:44<45:56,  2.09s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  62%|######2   | 2184/3500 [1:56:44<45:56,  2.09s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  62%|######2   | 2185/3500 [1:56:44<47:02,  2.15s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  62%|######2   | 2185/3500 [1:56:44<47:02,  2.15s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  62%|######2   | 2185/3500 [1:56:47<47:02,  2.15s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  62%|######2   | 2185/3500 [1:56:47<47:02,  2.15s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  62%|######2   | 2186/3500 [1:56:47<47:53,  2.19s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  62%|######2   | 2186/3500 [1:56:47<47:53,  2.19s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  62%|######2   | 2186/3500 [1:56:49<47:53,  2.19s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  62%|######2   | 2186/3500 [1:56:49<47:53,  2.19s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  62%|######2   | 2187/3500 [1:56:49<49:55,  2.28s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  62%|######2   | 2187/3500 [1:56:49<49:55,  2.28s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  62%|######2   | 2187/3500 [1:56:51<49:55,  2.28s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  62%|######2   | 2187/3500 [1:56:51<49:55,  2.28s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  63%|######2   | 2188/3500 [1:56:51<49:54,  2.28s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  63%|######2   | 2188/3500 [1:56:51<49:54,  2.28s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  63%|######2   | 2188/3500 [1:56:54<49:54,  2.28s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  63%|######2   | 2188/3500 [1:56:54<49:54,  2.28s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  63%|######2   | 2189/3500 [1:56:54<49:52,  2.28s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  63%|######2   | 2189/3500 [1:56:54<49:52,  2.28s/it, lr: 2.0e-04 loss: 4.086e-02]wan_dewa:  63%|######2   | 2189/3500 [1:57:05<49:52,  2.28s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  63%|######2   | 2189/3500 [1:57:05<49:52,  2.28s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  63%|######2   | 2190/3500 [1:57:07<49:50,  2.28s/it, lr: 2.0e-04 loss: 5.876e-02]wan_dewa:  63%|######2   | 2190/3500 [1:57:07<49:50,  2.28s/it, lr: 2.0e-04 loss: 5.876e-02]wan_dewa:  63%|######2   | 2191/3500 [1:57:07<38:26,  1.76s/it, lr: 2.0e-04 loss: 5.876e-02]wan_dewa:  63%|######2   | 2191/3500 [1:57:07<38:26,  1.76s/it, lr: 2.0e-04 loss: 5.876e-02]wan_dewa:  63%|######2   | 2191/3500 [1:57:09<38:26,  1.76s/it, lr: 2.0e-04 loss: 4.885e-02]wan_dewa:  63%|######2   | 2191/3500 [1:57:09<38:26,  1.76s/it, lr: 2.0e-04 loss: 4.885e-02]wan_dewa:  63%|######2   | 2192/3500 [1:57:09<42:21,  1.94s/it, lr: 2.0e-04 loss: 4.885e-02]wan_dewa:  63%|######2   | 2192/3500 [1:57:09<42:21,  1.94s/it, lr: 2.0e-04 loss: 4.885e-02]wan_dewa:  63%|######2   | 2192/3500 [1:57:12<42:21,  1.94s/it, lr: 2.0e-04 loss: 4.812e-02]wan_dewa:  63%|######2   | 2192/3500 [1:57:12<42:21,  1.94s/it, lr: 2.0e-04 loss: 4.812e-02]wan_dewa:  63%|######2   | 2193/3500 [1:57:12<44:13,  2.03s/it, lr: 2.0e-04 loss: 4.812e-02]wan_dewa:  63%|######2   | 2193/3500 [1:57:12<44:13,  2.03s/it, lr: 2.0e-04 loss: 4.812e-02]wan_dewa:  63%|######2   | 2193/3500 [1:57:14<44:13,  2.03s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  63%|######2   | 2193/3500 [1:57:14<44:13,  2.03s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  63%|######2   | 2194/3500 [1:57:14<45:41,  2.10s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  63%|######2   | 2194/3500 [1:57:14<45:41,  2.10s/it, lr: 2.0e-04 loss: 5.358e-02]wan_dewa:  63%|######2   | 2194/3500 [1:57:16<45:41,  2.10s/it, lr: 2.0e-04 loss: 4.032e-02]wan_dewa:  63%|######2   | 2194/3500 [1:57:16<45:41,  2.10s/it, lr: 2.0e-04 loss: 4.032e-02]wan_dewa:  63%|######2   | 2195/3500 [1:57:16<46:47,  2.15s/it, lr: 2.0e-04 loss: 4.032e-02]wan_dewa:  63%|######2   | 2195/3500 [1:57:16<46:47,  2.15s/it, lr: 2.0e-04 loss: 4.032e-02]wan_dewa:  63%|######2   | 2195/3500 [1:57:19<46:47,  2.15s/it, lr: 2.0e-04 loss: 7.091e-02]wan_dewa:  63%|######2   | 2195/3500 [1:57:19<46:47,  2.15s/it, lr: 2.0e-04 loss: 7.091e-02]wan_dewa:  63%|######2   | 2196/3500 [1:57:19<47:34,  2.19s/it, lr: 2.0e-04 loss: 7.091e-02]wan_dewa:  63%|######2   | 2196/3500 [1:57:19<47:34,  2.19s/it, lr: 2.0e-04 loss: 7.091e-02]wan_dewa:  63%|######2   | 2196/3500 [1:57:21<47:34,  2.19s/it, lr: 2.0e-04 loss: 6.088e-02]wan_dewa:  63%|######2   | 2196/3500 [1:57:21<47:34,  2.19s/it, lr: 2.0e-04 loss: 6.088e-02]wan_dewa:  63%|######2   | 2197/3500 [1:57:21<49:38,  2.29s/it, lr: 2.0e-04 loss: 6.088e-02]wan_dewa:  63%|######2   | 2197/3500 [1:57:21<49:38,  2.29s/it, lr: 2.0e-04 loss: 6.088e-02]wan_dewa:  63%|######2   | 2197/3500 [1:57:23<49:38,  2.29s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  63%|######2   | 2197/3500 [1:57:23<49:38,  2.29s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  63%|######2   | 2198/3500 [1:57:23<49:36,  2.29s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  63%|######2   | 2198/3500 [1:57:23<49:36,  2.29s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  63%|######2   | 2198/3500 [1:57:26<49:36,  2.29s/it, lr: 2.0e-04 loss: 1.601e-01]wan_dewa:  63%|######2   | 2198/3500 [1:57:26<49:36,  2.29s/it, lr: 2.0e-04 loss: 1.601e-01]wan_dewa:  63%|######2   | 2199/3500 [1:57:26<49:34,  2.29s/it, lr: 2.0e-04 loss: 1.601e-01]wan_dewa:  63%|######2   | 2199/3500 [1:57:26<49:34,  2.29s/it, lr: 2.0e-04 loss: 1.601e-01]wan_dewa:  63%|######2   | 2199/3500 [1:57:39<49:34,  2.29s/it, lr: 2.0e-04 loss: 4.402e-02]wan_dewa:  63%|######2   | 2199/3500 [1:57:39<49:34,  2.29s/it, lr: 2.0e-04 loss: 4.402e-02]wan_dewa:  63%|######2   | 2200/3500 [1:57:41<49:31,  2.29s/it, lr: 2.0e-04 loss: 4.221e-02]wan_dewa:  63%|######2   | 2200/3500 [1:57:41<49:31,  2.29s/it, lr: 2.0e-04 loss: 4.221e-02]wan_dewa:  63%|######2   | 2201/3500 [1:57:41<38:09,  1.76s/it, lr: 2.0e-04 loss: 4.221e-02]wan_dewa:  63%|######2   | 2201/3500 [1:57:41<38:09,  1.76s/it, lr: 2.0e-04 loss: 4.221e-02]wan_dewa:  63%|######2   | 2201/3500 [1:57:44<38:09,  1.76s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  63%|######2   | 2201/3500 [1:57:44<38:09,  1.76s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  63%|######2   | 2202/3500 [1:57:44<42:39,  1.97s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  63%|######2   | 2202/3500 [1:57:44<42:39,  1.97s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  63%|######2   | 2202/3500 [1:57:46<42:39,  1.97s/it, lr: 2.0e-04 loss: 3.172e-02]wan_dewa:  63%|######2   | 2202/3500 [1:57:46<42:39,  1.97s/it, lr: 2.0e-04 loss: 3.172e-02]wan_dewa:  63%|######2   | 2203/3500 [1:57:46<44:20,  2.05s/it, lr: 2.0e-04 loss: 3.172e-02]wan_dewa:  63%|######2   | 2203/3500 [1:57:46<44:20,  2.05s/it, lr: 2.0e-04 loss: 3.172e-02]wan_dewa:  63%|######2   | 2203/3500 [1:57:48<44:20,  2.05s/it, lr: 2.0e-04 loss: 2.416e-02]wan_dewa:  63%|######2   | 2203/3500 [1:57:48<44:20,  2.05s/it, lr: 2.0e-04 loss: 2.416e-02]wan_dewa:  63%|######2   | 2204/3500 [1:57:48<45:37,  2.11s/it, lr: 2.0e-04 loss: 2.416e-02]wan_dewa:  63%|######2   | 2204/3500 [1:57:48<45:37,  2.11s/it, lr: 2.0e-04 loss: 2.416e-02]wan_dewa:  63%|######2   | 2204/3500 [1:57:50<45:37,  2.11s/it, lr: 2.0e-04 loss: 3.843e-02]wan_dewa:  63%|######2   | 2204/3500 [1:57:50<45:37,  2.11s/it, lr: 2.0e-04 loss: 3.843e-02]wan_dewa:  63%|######3   | 2205/3500 [1:57:50<46:35,  2.16s/it, lr: 2.0e-04 loss: 3.843e-02]wan_dewa:  63%|######3   | 2205/3500 [1:57:50<46:35,  2.16s/it, lr: 2.0e-04 loss: 3.843e-02]wan_dewa:  63%|######3   | 2205/3500 [1:57:53<46:35,  2.16s/it, lr: 2.0e-04 loss: 4.093e-02]wan_dewa:  63%|######3   | 2205/3500 [1:57:53<46:35,  2.16s/it, lr: 2.0e-04 loss: 4.093e-02]wan_dewa:  63%|######3   | 2206/3500 [1:57:53<47:18,  2.19s/it, lr: 2.0e-04 loss: 4.093e-02]wan_dewa:  63%|######3   | 2206/3500 [1:57:53<47:18,  2.19s/it, lr: 2.0e-04 loss: 4.093e-02]wan_dewa:  63%|######3   | 2206/3500 [1:57:55<47:18,  2.19s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  63%|######3   | 2206/3500 [1:57:55<47:18,  2.19s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  63%|######3   | 2207/3500 [1:57:55<47:48,  2.22s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  63%|######3   | 2207/3500 [1:57:55<47:48,  2.22s/it, lr: 2.0e-04 loss: 3.332e-02]wan_dewa:  63%|######3   | 2207/3500 [1:57:57<47:48,  2.22s/it, lr: 2.0e-04 loss: 4.421e-02]wan_dewa:  63%|######3   | 2207/3500 [1:57:57<47:48,  2.22s/it, lr: 2.0e-04 loss: 4.421e-02]wan_dewa:  63%|######3   | 2208/3500 [1:57:57<49:28,  2.30s/it, lr: 2.0e-04 loss: 4.421e-02]wan_dewa:  63%|######3   | 2208/3500 [1:57:57<49:28,  2.30s/it, lr: 2.0e-04 loss: 4.421e-02]wan_dewa:  63%|######3   | 2208/3500 [1:58:00<49:28,  2.30s/it, lr: 2.0e-04 loss: 4.043e-02]wan_dewa:  63%|######3   | 2208/3500 [1:58:00<49:28,  2.30s/it, lr: 2.0e-04 loss: 4.043e-02]wan_dewa:  63%|######3   | 2209/3500 [1:58:00<49:21,  2.29s/it, lr: 2.0e-04 loss: 4.043e-02]wan_dewa:  63%|######3   | 2209/3500 [1:58:00<49:21,  2.29s/it, lr: 2.0e-04 loss: 4.043e-02]wan_dewa:  63%|######3   | 2209/3500 [1:58:11<49:21,  2.29s/it, lr: 2.0e-04 loss: 1.086e-01]wan_dewa:  63%|######3   | 2209/3500 [1:58:11<49:21,  2.29s/it, lr: 2.0e-04 loss: 1.086e-01]wan_dewa:  63%|######3   | 2210/3500 [1:58:13<49:18,  2.29s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  63%|######3   | 2210/3500 [1:58:13<49:18,  2.29s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  63%|######3   | 2211/3500 [1:58:13<37:57,  1.77s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  63%|######3   | 2211/3500 [1:58:13<37:57,  1.77s/it, lr: 2.0e-04 loss: 9.719e-02]wan_dewa:  63%|######3   | 2211/3500 [1:58:15<37:57,  1.77s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  63%|######3   | 2211/3500 [1:58:15<37:57,  1.77s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  63%|######3   | 2212/3500 [1:58:15<40:34,  1.89s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  63%|######3   | 2212/3500 [1:58:15<40:34,  1.89s/it, lr: 2.0e-04 loss: 1.072e-01]wan_dewa:  63%|######3   | 2212/3500 [1:58:18<40:34,  1.89s/it, lr: 2.0e-04 loss: 2.537e-02]wan_dewa:  63%|######3   | 2212/3500 [1:58:18<40:34,  1.89s/it, lr: 2.0e-04 loss: 2.537e-02]wan_dewa:  63%|######3   | 2213/3500 [1:58:18<43:46,  2.04s/it, lr: 2.0e-04 loss: 2.537e-02]wan_dewa:  63%|######3   | 2213/3500 [1:58:18<43:46,  2.04s/it, lr: 2.0e-04 loss: 2.537e-02]wan_dewa:  63%|######3   | 2213/3500 [1:58:20<43:46,  2.04s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  63%|######3   | 2213/3500 [1:58:20<43:46,  2.04s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  63%|######3   | 2214/3500 [1:58:20<45:04,  2.10s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  63%|######3   | 2214/3500 [1:58:20<45:04,  2.10s/it, lr: 2.0e-04 loss: 2.121e-01]wan_dewa:  63%|######3   | 2214/3500 [1:58:22<45:04,  2.10s/it, lr: 2.0e-04 loss: 6.863e-02]wan_dewa:  63%|######3   | 2214/3500 [1:58:22<45:04,  2.10s/it, lr: 2.0e-04 loss: 6.863e-02]wan_dewa:  63%|######3   | 2215/3500 [1:58:22<46:03,  2.15s/it, lr: 2.0e-04 loss: 6.863e-02]wan_dewa:  63%|######3   | 2215/3500 [1:58:22<46:03,  2.15s/it, lr: 2.0e-04 loss: 6.863e-02]wan_dewa:  63%|######3   | 2215/3500 [1:58:25<46:03,  2.15s/it, lr: 2.0e-04 loss: 1.411e-01]wan_dewa:  63%|######3   | 2215/3500 [1:58:25<46:03,  2.15s/it, lr: 2.0e-04 loss: 1.411e-01]wan_dewa:  63%|######3   | 2216/3500 [1:58:25<46:46,  2.19s/it, lr: 2.0e-04 loss: 1.411e-01]wan_dewa:  63%|######3   | 2216/3500 [1:58:25<46:46,  2.19s/it, lr: 2.0e-04 loss: 1.411e-01]wan_dewa:  63%|######3   | 2216/3500 [1:58:27<46:46,  2.19s/it, lr: 2.0e-04 loss: 4.279e-02]wan_dewa:  63%|######3   | 2216/3500 [1:58:27<46:46,  2.19s/it, lr: 2.0e-04 loss: 4.279e-02]wan_dewa:  63%|######3   | 2217/3500 [1:58:27<47:17,  2.21s/it, lr: 2.0e-04 loss: 4.279e-02]wan_dewa:  63%|######3   | 2217/3500 [1:58:27<47:17,  2.21s/it, lr: 2.0e-04 loss: 4.279e-02]wan_dewa:  63%|######3   | 2217/3500 [1:58:29<47:17,  2.21s/it, lr: 2.0e-04 loss: 1.233e-01]wan_dewa:  63%|######3   | 2217/3500 [1:58:29<47:17,  2.21s/it, lr: 2.0e-04 loss: 1.233e-01]wan_dewa:  63%|######3   | 2218/3500 [1:58:29<48:50,  2.29s/it, lr: 2.0e-04 loss: 1.233e-01]wan_dewa:  63%|######3   | 2218/3500 [1:58:29<48:50,  2.29s/it, lr: 2.0e-04 loss: 1.233e-01]wan_dewa:  63%|######3   | 2218/3500 [1:58:32<48:50,  2.29s/it, lr: 2.0e-04 loss: 5.464e-02]wan_dewa:  63%|######3   | 2218/3500 [1:58:32<48:50,  2.29s/it, lr: 2.0e-04 loss: 5.464e-02]wan_dewa:  63%|######3   | 2219/3500 [1:58:32<48:44,  2.28s/it, lr: 2.0e-04 loss: 5.464e-02]wan_dewa:  63%|######3   | 2219/3500 [1:58:32<48:44,  2.28s/it, lr: 2.0e-04 loss: 5.464e-02]wan_dewa:  63%|######3   | 2219/3500 [1:58:39<48:44,  2.28s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  63%|######3   | 2219/3500 [1:58:39<48:44,  2.28s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  63%|######3   | 2220/3500 [1:58:42<48:41,  2.28s/it, lr: 2.0e-04 loss: 4.328e-02]wan_dewa:  63%|######3   | 2220/3500 [1:58:42<48:41,  2.28s/it, lr: 2.0e-04 loss: 4.328e-02]wan_dewa:  63%|######3   | 2221/3500 [1:58:42<37:34,  1.76s/it, lr: 2.0e-04 loss: 4.328e-02]wan_dewa:  63%|######3   | 2221/3500 [1:58:42<37:34,  1.76s/it, lr: 2.0e-04 loss: 4.328e-02]wan_dewa:  63%|######3   | 2221/3500 [1:58:44<37:34,  1.76s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  63%|######3   | 2221/3500 [1:58:44<37:34,  1.76s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  63%|######3   | 2222/3500 [1:58:44<40:14,  1.89s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  63%|######3   | 2222/3500 [1:58:44<40:14,  1.89s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  63%|######3   | 2222/3500 [1:58:46<40:14,  1.89s/it, lr: 2.0e-04 loss: 3.483e-02]wan_dewa:  63%|######3   | 2222/3500 [1:58:46<40:14,  1.89s/it, lr: 2.0e-04 loss: 3.483e-02]wan_dewa:  64%|######3   | 2223/3500 [1:58:46<43:24,  2.04s/it, lr: 2.0e-04 loss: 3.483e-02]wan_dewa:  64%|######3   | 2223/3500 [1:58:46<43:24,  2.04s/it, lr: 2.0e-04 loss: 3.483e-02]wan_dewa:  64%|######3   | 2223/3500 [1:58:49<43:24,  2.04s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  64%|######3   | 2223/3500 [1:58:49<43:24,  2.04s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  64%|######3   | 2224/3500 [1:58:49<44:44,  2.10s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  64%|######3   | 2224/3500 [1:58:49<44:44,  2.10s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  64%|######3   | 2224/3500 [1:58:53<44:44,  2.10s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  64%|######3   | 2224/3500 [1:58:53<44:44,  2.10s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  64%|######3   | 2225/3500 [1:58:53<45:55,  2.16s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  64%|######3   | 2225/3500 [1:58:53<45:55,  2.16s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  64%|######3   | 2225/3500 [1:58:56<45:55,  2.16s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  64%|######3   | 2225/3500 [1:58:56<45:55,  2.16s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  64%|######3   | 2226/3500 [1:58:56<46:35,  2.19s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  64%|######3   | 2226/3500 [1:58:56<46:35,  2.19s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  64%|######3   | 2226/3500 [1:58:58<46:35,  2.19s/it, lr: 2.0e-04 loss: 3.001e-02]wan_dewa:  64%|######3   | 2226/3500 [1:58:58<46:35,  2.19s/it, lr: 2.0e-04 loss: 3.001e-02]wan_dewa:  64%|######3   | 2227/3500 [1:58:58<47:03,  2.22s/it, lr: 2.0e-04 loss: 3.001e-02]wan_dewa:  64%|######3   | 2227/3500 [1:58:58<47:03,  2.22s/it, lr: 2.0e-04 loss: 3.001e-02]wan_dewa:  64%|######3   | 2227/3500 [1:59:00<47:03,  2.22s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  64%|######3   | 2227/3500 [1:59:00<47:03,  2.22s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  64%|######3   | 2228/3500 [1:59:00<49:17,  2.33s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  64%|######3   | 2228/3500 [1:59:00<49:17,  2.33s/it, lr: 2.0e-04 loss: 3.452e-02]wan_dewa:  64%|######3   | 2228/3500 [1:59:03<49:17,  2.33s/it, lr: 2.0e-04 loss: 3.876e-02]wan_dewa:  64%|######3   | 2228/3500 [1:59:03<49:17,  2.33s/it, lr: 2.0e-04 loss: 3.876e-02]wan_dewa:  64%|######3   | 2229/3500 [1:59:03<48:59,  2.31s/it, lr: 2.0e-04 loss: 3.876e-02]wan_dewa:  64%|######3   | 2229/3500 [1:59:03<48:59,  2.31s/it, lr: 2.0e-04 loss: 3.876e-02]wan_dewa:  64%|######3   | 2229/3500 [1:59:14<48:59,  2.31s/it, lr: 2.0e-04 loss: 3.878e-01]wan_dewa:  64%|######3   | 2229/3500 [1:59:14<48:59,  2.31s/it, lr: 2.0e-04 loss: 3.878e-01]wan_dewa:  64%|######3   | 2230/3500 [1:59:16<48:57,  2.31s/it, lr: 2.0e-04 loss: 2.636e-02]wan_dewa:  64%|######3   | 2230/3500 [1:59:16<48:57,  2.31s/it, lr: 2.0e-04 loss: 2.636e-02]wan_dewa:  64%|######3   | 2231/3500 [1:59:16<37:40,  1.78s/it, lr: 2.0e-04 loss: 2.636e-02]wan_dewa:  64%|######3   | 2231/3500 [1:59:16<37:40,  1.78s/it, lr: 2.0e-04 loss: 2.636e-02]wan_dewa:  64%|######3   | 2231/3500 [1:59:18<37:40,  1.78s/it, lr: 2.0e-04 loss: 3.345e-01]wan_dewa:  64%|######3   | 2231/3500 [1:59:18<37:40,  1.78s/it, lr: 2.0e-04 loss: 3.345e-01]wan_dewa:  64%|######3   | 2232/3500 [1:59:18<40:15,  1.90s/it, lr: 2.0e-04 loss: 3.345e-01]wan_dewa:  64%|######3   | 2232/3500 [1:59:18<40:15,  1.90s/it, lr: 2.0e-04 loss: 3.345e-01]wan_dewa:  64%|######3   | 2232/3500 [1:59:21<40:15,  1.90s/it, lr: 2.0e-04 loss: 6.398e-02]wan_dewa:  64%|######3   | 2232/3500 [1:59:21<40:15,  1.90s/it, lr: 2.0e-04 loss: 6.398e-02]wan_dewa:  64%|######3   | 2233/3500 [1:59:21<43:13,  2.05s/it, lr: 2.0e-04 loss: 6.398e-02]wan_dewa:  64%|######3   | 2233/3500 [1:59:21<43:13,  2.05s/it, lr: 2.0e-04 loss: 6.398e-02]wan_dewa:  64%|######3   | 2233/3500 [1:59:23<43:13,  2.05s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  64%|######3   | 2233/3500 [1:59:23<43:13,  2.05s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  64%|######3   | 2234/3500 [1:59:23<44:28,  2.11s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  64%|######3   | 2234/3500 [1:59:23<44:28,  2.11s/it, lr: 2.0e-04 loss: 5.925e-02]wan_dewa:  64%|######3   | 2234/3500 [1:59:25<44:28,  2.11s/it, lr: 2.0e-04 loss: 3.136e-02]wan_dewa:  64%|######3   | 2234/3500 [1:59:25<44:28,  2.11s/it, lr: 2.0e-04 loss: 3.136e-02]wan_dewa:  64%|######3   | 2235/3500 [1:59:25<45:25,  2.15s/it, lr: 2.0e-04 loss: 3.136e-02]wan_dewa:  64%|######3   | 2235/3500 [1:59:25<45:25,  2.15s/it, lr: 2.0e-04 loss: 3.136e-02]wan_dewa:  64%|######3   | 2235/3500 [1:59:28<45:25,  2.15s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  64%|######3   | 2235/3500 [1:59:28<45:25,  2.15s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  64%|######3   | 2236/3500 [1:59:28<46:06,  2.19s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  64%|######3   | 2236/3500 [1:59:28<46:06,  2.19s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  64%|######3   | 2236/3500 [1:59:30<46:06,  2.19s/it, lr: 2.0e-04 loss: 4.066e-02]wan_dewa:  64%|######3   | 2236/3500 [1:59:30<46:06,  2.19s/it, lr: 2.0e-04 loss: 4.066e-02]wan_dewa:  64%|######3   | 2237/3500 [1:59:30<46:35,  2.21s/it, lr: 2.0e-04 loss: 4.066e-02]wan_dewa:  64%|######3   | 2237/3500 [1:59:30<46:35,  2.21s/it, lr: 2.0e-04 loss: 4.066e-02]wan_dewa:  64%|######3   | 2237/3500 [1:59:32<46:35,  2.21s/it, lr: 2.0e-04 loss: 5.458e-02]wan_dewa:  64%|######3   | 2237/3500 [1:59:32<46:35,  2.21s/it, lr: 2.0e-04 loss: 5.458e-02]wan_dewa:  64%|######3   | 2238/3500 [1:59:32<48:02,  2.28s/it, lr: 2.0e-04 loss: 5.458e-02]wan_dewa:  64%|######3   | 2238/3500 [1:59:32<48:02,  2.28s/it, lr: 2.0e-04 loss: 5.458e-02]wan_dewa:  64%|######3   | 2238/3500 [1:59:35<48:02,  2.28s/it, lr: 2.0e-04 loss: 8.762e-02]wan_dewa:  64%|######3   | 2238/3500 [1:59:35<48:02,  2.28s/it, lr: 2.0e-04 loss: 8.762e-02]wan_dewa:  64%|######3   | 2239/3500 [1:59:35<47:58,  2.28s/it, lr: 2.0e-04 loss: 8.762e-02]wan_dewa:  64%|######3   | 2239/3500 [1:59:35<47:58,  2.28s/it, lr: 2.0e-04 loss: 8.762e-02]wan_dewa:  64%|######3   | 2239/3500 [1:59:46<47:58,  2.28s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  64%|######3   | 2239/3500 [1:59:46<47:58,  2.28s/it, lr: 2.0e-04 loss: 4.340e-02]wan_dewa:  64%|######4   | 2240/3500 [1:59:48<47:56,  2.28s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  64%|######4   | 2240/3500 [1:59:48<47:56,  2.28s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  64%|######4   | 2241/3500 [1:59:48<36:58,  1.76s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  64%|######4   | 2241/3500 [1:59:48<36:58,  1.76s/it, lr: 2.0e-04 loss: 3.835e-02]wan_dewa:  64%|######4   | 2241/3500 [1:59:50<36:58,  1.76s/it, lr: 2.0e-04 loss: 4.758e-02]wan_dewa:  64%|######4   | 2241/3500 [1:59:50<36:58,  1.76s/it, lr: 2.0e-04 loss: 4.758e-02]wan_dewa:  64%|######4   | 2242/3500 [1:59:50<39:35,  1.89s/it, lr: 2.0e-04 loss: 4.758e-02]wan_dewa:  64%|######4   | 2242/3500 [1:59:50<39:35,  1.89s/it, lr: 2.0e-04 loss: 4.758e-02]wan_dewa:  64%|######4   | 2242/3500 [1:59:53<39:35,  1.89s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  64%|######4   | 2242/3500 [1:59:53<39:35,  1.89s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  64%|######4   | 2243/3500 [1:59:53<42:34,  2.03s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  64%|######4   | 2243/3500 [1:59:53<42:34,  2.03s/it, lr: 2.0e-04 loss: 3.305e-02]wan_dewa:  64%|######4   | 2243/3500 [1:59:55<42:34,  2.03s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  64%|######4   | 2243/3500 [1:59:55<42:34,  2.03s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  64%|######4   | 2244/3500 [1:59:55<43:54,  2.10s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  64%|######4   | 2244/3500 [1:59:55<43:54,  2.10s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  64%|######4   | 2244/3500 [1:59:57<43:54,  2.10s/it, lr: 2.0e-04 loss: 2.444e-02]wan_dewa:  64%|######4   | 2244/3500 [1:59:57<43:54,  2.10s/it, lr: 2.0e-04 loss: 2.444e-02]wan_dewa:  64%|######4   | 2245/3500 [1:59:57<44:53,  2.15s/it, lr: 2.0e-04 loss: 2.444e-02]wan_dewa:  64%|######4   | 2245/3500 [1:59:57<44:53,  2.15s/it, lr: 2.0e-04 loss: 2.444e-02]wan_dewa:  64%|######4   | 2245/3500 [2:00:00<44:53,  2.15s/it, lr: 2.0e-04 loss: 5.861e-02]wan_dewa:  64%|######4   | 2245/3500 [2:00:00<44:53,  2.15s/it, lr: 2.0e-04 loss: 5.861e-02]wan_dewa:  64%|######4   | 2246/3500 [2:00:00<45:38,  2.18s/it, lr: 2.0e-04 loss: 5.861e-02]wan_dewa:  64%|######4   | 2246/3500 [2:00:00<45:38,  2.18s/it, lr: 2.0e-04 loss: 5.861e-02]wan_dewa:  64%|######4   | 2246/3500 [2:00:02<45:38,  2.18s/it, lr: 2.0e-04 loss: 4.411e-02]wan_dewa:  64%|######4   | 2246/3500 [2:00:02<45:38,  2.18s/it, lr: 2.0e-04 loss: 4.411e-02]wan_dewa:  64%|######4   | 2247/3500 [2:00:02<46:11,  2.21s/it, lr: 2.0e-04 loss: 4.411e-02]wan_dewa:  64%|######4   | 2247/3500 [2:00:02<46:11,  2.21s/it, lr: 2.0e-04 loss: 4.411e-02]wan_dewa:  64%|######4   | 2247/3500 [2:00:04<46:11,  2.21s/it, lr: 2.0e-04 loss: 2.284e-02]wan_dewa:  64%|######4   | 2247/3500 [2:00:04<46:11,  2.21s/it, lr: 2.0e-04 loss: 2.284e-02]wan_dewa:  64%|######4   | 2248/3500 [2:00:04<47:40,  2.29s/it, lr: 2.0e-04 loss: 2.284e-02]wan_dewa:  64%|######4   | 2248/3500 [2:00:04<47:40,  2.29s/it, lr: 2.0e-04 loss: 2.284e-02]wan_dewa:  64%|######4   | 2248/3500 [2:00:07<47:40,  2.29s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  64%|######4   | 2248/3500 [2:00:07<47:40,  2.29s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  64%|######4   | 2249/3500 [2:00:07<47:36,  2.28s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  64%|######4   | 2249/3500 [2:00:07<47:36,  2.28s/it, lr: 2.0e-04 loss: 3.990e-02]wan_dewa:  64%|######4   | 2249/3500 [2:00:20<47:36,  2.28s/it, lr: 2.0e-04 loss: 7.103e-02]wan_dewa:  64%|######4   | 2249/3500 [2:00:20<47:36,  2.28s/it, lr: 2.0e-04 loss: 7.103e-02]
+Saving at step 2250
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000002250.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.61s/it] 12%|#2        | 3/25 [00:13<01:41,  4.61s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:41,  6.33s/it] 36%|###6      | 9/25 [00:46<01:41,  6.33s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.80s/it] 40%|####      | 10/25 [00:51<01:26,  5.80s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.44s/it] 44%|####4     | 11/25 [00:56<01:16,  5.44s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.19s/it] 48%|####8     | 12/25 [01:00<01:07,  5.19s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.66s/it] 84%|########4 | 21/25 [01:42<00:18,  4.66s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.65s/it] 96%|#########6| 24/25 [01:56<00:04,  4.65s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.65s/it]100%|##########| 25/25 [02:01<00:00,  4.65s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:50, 136.70s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:50, 136.70s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.65s/it] 20%|##        | 5/25 [00:23<01:33,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.76s/it] 36%|###6      | 9/25 [00:45<01:32,  5.76s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.41s/it] 40%|####      | 10/25 [00:50<01:21,  5.41s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.18s/it] 44%|####4     | 11/25 [00:54<01:12,  5.18s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.02s/it] 48%|####8     | 12/25 [00:59<01:05,  5.02s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.68s/it] 80%|########  | 20/25 [01:36<00:23,  4.68s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.68s/it]100%|##########| 25/25 [02:00<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:21, 130.51s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:21, 130.51s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.62s/it] 36%|###6      | 9/25 [00:45<01:29,  5.62s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.33s/it] 40%|####      | 10/25 [00:49<01:19,  5.33s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.12s/it] 44%|####4     | 11/25 [00:54<01:11,  5.12s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.98s/it] 48%|####8     | 12/25 [00:59<01:04,  4.98s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.28s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.28s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.67s/it]  8%|8         | 2/25 [00:09<01:47,  4.67s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:42,  4.67s/it] 12%|#2        | 3/25 [00:14<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.68s/it] 20%|##        | 5/25 [00:23<01:33,  4.68s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.68s/it] 24%|##4       | 6/25 [00:28<01:28,  4.68s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.68s/it] 28%|##8       | 7/25 [00:32<01:24,  4.68s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.60s/it] 36%|###6      | 9/25 [00:45<01:29,  5.60s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.31s/it] 40%|####      | 10/25 [00:49<01:19,  5.31s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.11s/it] 44%|####4     | 11/25 [00:54<01:11,  5.11s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.98s/it] 48%|####8     | 12/25 [00:59<01:04,  4.98s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.71s/it] 80%|########  | 20/25 [01:36<00:23,  4.71s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.71s/it] 84%|########4 | 21/25 [01:41<00:18,  4.71s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.72s/it] 88%|########8 | 22/25 [01:45<00:14,  4.72s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.72s/it] 92%|#########2| 23/25 [01:50<00:09,  4.72s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.73s/it] 96%|#########6| 24/25 [01:55<00:04,  4.73s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.72s/it]100%|##########| 25/25 [02:00<00:00,  4.72s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.30s/it]Generating Images: 100%|##########| 4/4 [08:34<00:00, 127.30s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  64%|######4   | 2250/3500 [2:00:24<47:34,  2.28s/it, lr: 2.0e-04 loss: 7.296e-02]wan_dewa:  64%|######4   | 2250/3500 [2:00:24<47:34,  2.28s/it, lr: 2.0e-04 loss: 7.296e-02]wan_dewa:  64%|######4   | 2251/3500 [2:00:24<45:19,  2.18s/it, lr: 2.0e-04 loss: 7.296e-02]wan_dewa:  64%|######4   | 2251/3500 [2:00:24<45:19,  2.18s/it, lr: 2.0e-04 loss: 7.296e-02]wan_dewa:  64%|######4   | 2251/3500 [2:00:26<45:19,  2.18s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:  64%|######4   | 2251/3500 [2:00:26<45:19,  2.18s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:  64%|######4   | 2252/3500 [2:00:26<45:55,  2.21s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:  64%|######4   | 2252/3500 [2:00:26<45:55,  2.21s/it, lr: 2.0e-04 loss: 5.423e-02]wan_dewa:  64%|######4   | 2252/3500 [2:00:29<45:55,  2.21s/it, lr: 2.0e-04 loss: 5.074e-02]wan_dewa:  64%|######4   | 2252/3500 [2:00:29<45:55,  2.21s/it, lr: 2.0e-04 loss: 5.074e-02]wan_dewa:  64%|######4   | 2253/3500 [2:00:29<46:23,  2.23s/it, lr: 2.0e-04 loss: 5.074e-02]wan_dewa:  64%|######4   | 2253/3500 [2:00:29<46:23,  2.23s/it, lr: 2.0e-04 loss: 5.074e-02]wan_dewa:  64%|######4   | 2253/3500 [2:00:31<46:23,  2.23s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  64%|######4   | 2253/3500 [2:00:31<46:23,  2.23s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  64%|######4   | 2254/3500 [2:00:31<46:45,  2.25s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  64%|######4   | 2254/3500 [2:00:31<46:45,  2.25s/it, lr: 2.0e-04 loss: 1.129e-01]wan_dewa:  64%|######4   | 2254/3500 [2:00:34<46:45,  2.25s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  64%|######4   | 2254/3500 [2:00:34<46:45,  2.25s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  64%|######4   | 2255/3500 [2:00:34<48:36,  2.34s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  64%|######4   | 2255/3500 [2:00:34<48:36,  2.34s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  64%|######4   | 2255/3500 [2:00:36<48:36,  2.34s/it, lr: 2.0e-04 loss: 7.020e-02]wan_dewa:  64%|######4   | 2255/3500 [2:00:36<48:36,  2.34s/it, lr: 2.0e-04 loss: 7.020e-02]wan_dewa:  64%|######4   | 2256/3500 [2:00:36<48:20,  2.33s/it, lr: 2.0e-04 loss: 7.020e-02]wan_dewa:  64%|######4   | 2256/3500 [2:00:36<48:20,  2.33s/it, lr: 2.0e-04 loss: 7.020e-02]wan_dewa:  64%|######4   | 2256/3500 [2:00:38<48:20,  2.33s/it, lr: 2.0e-04 loss: 5.394e-02]wan_dewa:  64%|######4   | 2256/3500 [2:00:38<48:20,  2.33s/it, lr: 2.0e-04 loss: 5.394e-02]wan_dewa:  64%|######4   | 2257/3500 [2:00:38<48:08,  2.32s/it, lr: 2.0e-04 loss: 5.394e-02]wan_dewa:  64%|######4   | 2257/3500 [2:00:38<48:08,  2.32s/it, lr: 2.0e-04 loss: 5.394e-02]wan_dewa:  64%|######4   | 2257/3500 [2:00:40<48:08,  2.32s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  64%|######4   | 2257/3500 [2:00:40<48:08,  2.32s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  65%|######4   | 2258/3500 [2:00:40<47:59,  2.32s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  65%|######4   | 2258/3500 [2:00:40<47:59,  2.32s/it, lr: 2.0e-04 loss: 6.212e-02]wan_dewa:  65%|######4   | 2258/3500 [2:00:43<47:59,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  65%|######4   | 2258/3500 [2:00:43<47:59,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  65%|######4   | 2259/3500 [2:00:43<47:54,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  65%|######4   | 2259/3500 [2:00:43<47:54,  2.32s/it, lr: 2.0e-04 loss: 6.585e-02]wan_dewa:  65%|######4   | 2259/3500 [2:00:48<47:54,  2.32s/it, lr: 2.0e-04 loss: 4.151e-02]wan_dewa:  65%|######4   | 2259/3500 [2:00:48<47:54,  2.32s/it, lr: 2.0e-04 loss: 4.151e-02]wan_dewa:  65%|######4   | 2260/3500 [2:00:51<47:52,  2.32s/it, lr: 2.0e-04 loss: 4.935e-02]wan_dewa:  65%|######4   | 2260/3500 [2:00:51<47:52,  2.32s/it, lr: 2.0e-04 loss: 4.935e-02]wan_dewa:  65%|######4   | 2261/3500 [2:00:51<37:45,  1.83s/it, lr: 2.0e-04 loss: 4.935e-02]wan_dewa:  65%|######4   | 2261/3500 [2:00:51<37:45,  1.83s/it, lr: 2.0e-04 loss: 4.935e-02]wan_dewa:  65%|######4   | 2261/3500 [2:00:53<37:45,  1.83s/it, lr: 2.0e-04 loss: 3.036e-02]wan_dewa:  65%|######4   | 2261/3500 [2:00:53<37:45,  1.83s/it, lr: 2.0e-04 loss: 3.036e-02]wan_dewa:  65%|######4   | 2262/3500 [2:00:53<40:07,  1.94s/it, lr: 2.0e-04 loss: 3.036e-02]wan_dewa:  65%|######4   | 2262/3500 [2:00:53<40:07,  1.94s/it, lr: 2.0e-04 loss: 3.036e-02]wan_dewa:  65%|######4   | 2262/3500 [2:00:55<40:07,  1.94s/it, lr: 2.0e-04 loss: 4.287e-02]wan_dewa:  65%|######4   | 2262/3500 [2:00:55<40:07,  1.94s/it, lr: 2.0e-04 loss: 4.287e-02]wan_dewa:  65%|######4   | 2263/3500 [2:00:55<42:02,  2.04s/it, lr: 2.0e-04 loss: 4.287e-02]wan_dewa:  65%|######4   | 2263/3500 [2:00:55<42:02,  2.04s/it, lr: 2.0e-04 loss: 4.287e-02]wan_dewa:  65%|######4   | 2263/3500 [2:00:58<42:02,  2.04s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  65%|######4   | 2263/3500 [2:00:58<42:02,  2.04s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  65%|######4   | 2264/3500 [2:00:58<43:27,  2.11s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  65%|######4   | 2264/3500 [2:00:58<43:27,  2.11s/it, lr: 2.0e-04 loss: 2.451e-02]wan_dewa:  65%|######4   | 2264/3500 [2:01:00<43:27,  2.11s/it, lr: 2.0e-04 loss: 3.774e-02]wan_dewa:  65%|######4   | 2264/3500 [2:01:00<43:27,  2.11s/it, lr: 2.0e-04 loss: 3.774e-02]wan_dewa:  65%|######4   | 2265/3500 [2:01:00<44:30,  2.16s/it, lr: 2.0e-04 loss: 3.774e-02]wan_dewa:  65%|######4   | 2265/3500 [2:01:00<44:30,  2.16s/it, lr: 2.0e-04 loss: 3.774e-02]wan_dewa:  65%|######4   | 2265/3500 [2:01:03<44:30,  2.16s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  65%|######4   | 2265/3500 [2:01:03<44:30,  2.16s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  65%|######4   | 2266/3500 [2:01:03<46:25,  2.26s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  65%|######4   | 2266/3500 [2:01:03<46:25,  2.26s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  65%|######4   | 2266/3500 [2:01:05<46:25,  2.26s/it, lr: 2.0e-04 loss: 4.343e-02]wan_dewa:  65%|######4   | 2266/3500 [2:01:05<46:25,  2.26s/it, lr: 2.0e-04 loss: 4.343e-02]wan_dewa:  65%|######4   | 2267/3500 [2:01:05<46:40,  2.27s/it, lr: 2.0e-04 loss: 4.343e-02]wan_dewa:  65%|######4   | 2267/3500 [2:01:05<46:40,  2.27s/it, lr: 2.0e-04 loss: 4.343e-02]wan_dewa:  65%|######4   | 2267/3500 [2:01:07<46:40,  2.27s/it, lr: 2.0e-04 loss: 2.214e-02]wan_dewa:  65%|######4   | 2267/3500 [2:01:07<46:40,  2.27s/it, lr: 2.0e-04 loss: 2.214e-02]wan_dewa:  65%|######4   | 2268/3500 [2:01:07<46:48,  2.28s/it, lr: 2.0e-04 loss: 2.214e-02]wan_dewa:  65%|######4   | 2268/3500 [2:01:07<46:48,  2.28s/it, lr: 2.0e-04 loss: 2.214e-02]wan_dewa:  65%|######4   | 2268/3500 [2:01:09<46:48,  2.28s/it, lr: 2.0e-04 loss: 6.995e-02]wan_dewa:  65%|######4   | 2268/3500 [2:01:09<46:48,  2.28s/it, lr: 2.0e-04 loss: 6.995e-02]wan_dewa:  65%|######4   | 2269/3500 [2:01:09<46:54,  2.29s/it, lr: 2.0e-04 loss: 6.995e-02]wan_dewa:  65%|######4   | 2269/3500 [2:01:09<46:54,  2.29s/it, lr: 2.0e-04 loss: 6.995e-02]wan_dewa:  65%|######4   | 2269/3500 [2:01:15<46:54,  2.29s/it, lr: 2.0e-04 loss: 4.605e-02]wan_dewa:  65%|######4   | 2269/3500 [2:01:15<46:54,  2.29s/it, lr: 2.0e-04 loss: 4.605e-02]wan_dewa:  65%|######4   | 2270/3500 [2:01:17<46:51,  2.29s/it, lr: 2.0e-04 loss: 9.486e-02]wan_dewa:  65%|######4   | 2270/3500 [2:01:17<46:51,  2.29s/it, lr: 2.0e-04 loss: 9.486e-02]wan_dewa:  65%|######4   | 2271/3500 [2:01:17<37:06,  1.81s/it, lr: 2.0e-04 loss: 9.486e-02]wan_dewa:  65%|######4   | 2271/3500 [2:01:17<37:06,  1.81s/it, lr: 2.0e-04 loss: 9.486e-02]wan_dewa:  65%|######4   | 2271/3500 [2:01:20<37:06,  1.81s/it, lr: 2.0e-04 loss: 2.223e-02]wan_dewa:  65%|######4   | 2271/3500 [2:01:20<37:06,  1.81s/it, lr: 2.0e-04 loss: 2.223e-02]wan_dewa:  65%|######4   | 2272/3500 [2:01:20<39:32,  1.93s/it, lr: 2.0e-04 loss: 2.223e-02]wan_dewa:  65%|######4   | 2272/3500 [2:01:20<39:32,  1.93s/it, lr: 2.0e-04 loss: 2.223e-02]wan_dewa:  65%|######4   | 2272/3500 [2:01:22<39:32,  1.93s/it, lr: 2.0e-04 loss: 4.180e-02]wan_dewa:  65%|######4   | 2272/3500 [2:01:22<39:32,  1.93s/it, lr: 2.0e-04 loss: 4.180e-02]wan_dewa:  65%|######4   | 2273/3500 [2:01:22<41:28,  2.03s/it, lr: 2.0e-04 loss: 4.180e-02]wan_dewa:  65%|######4   | 2273/3500 [2:01:22<41:28,  2.03s/it, lr: 2.0e-04 loss: 4.180e-02]wan_dewa:  65%|######4   | 2273/3500 [2:01:24<41:28,  2.03s/it, lr: 2.0e-04 loss: 6.724e-02]wan_dewa:  65%|######4   | 2273/3500 [2:01:24<41:28,  2.03s/it, lr: 2.0e-04 loss: 6.724e-02]wan_dewa:  65%|######4   | 2274/3500 [2:01:24<42:58,  2.10s/it, lr: 2.0e-04 loss: 6.724e-02]wan_dewa:  65%|######4   | 2274/3500 [2:01:24<42:58,  2.10s/it, lr: 2.0e-04 loss: 6.724e-02]wan_dewa:  65%|######4   | 2274/3500 [2:01:29<42:58,  2.10s/it, lr: 2.0e-04 loss: 5.748e-02]wan_dewa:  65%|######4   | 2274/3500 [2:01:29<42:58,  2.10s/it, lr: 2.0e-04 loss: 5.748e-02]wan_dewa:  65%|######5   | 2275/3500 [2:01:29<44:12,  2.17s/it, lr: 2.0e-04 loss: 5.748e-02]wan_dewa:  65%|######5   | 2275/3500 [2:01:29<44:12,  2.17s/it, lr: 2.0e-04 loss: 5.748e-02]wan_dewa:  65%|######5   | 2275/3500 [2:01:32<44:12,  2.17s/it, lr: 2.0e-04 loss: 8.281e-02]wan_dewa:  65%|######5   | 2275/3500 [2:01:32<44:12,  2.17s/it, lr: 2.0e-04 loss: 8.281e-02]wan_dewa:  65%|######5   | 2276/3500 [2:01:32<44:59,  2.21s/it, lr: 2.0e-04 loss: 8.281e-02]wan_dewa:  65%|######5   | 2276/3500 [2:01:32<44:59,  2.21s/it, lr: 2.0e-04 loss: 8.281e-02]wan_dewa:  65%|######5   | 2276/3500 [2:01:34<44:59,  2.21s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  65%|######5   | 2276/3500 [2:01:34<44:59,  2.21s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  65%|######5   | 2277/3500 [2:01:34<47:34,  2.33s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  65%|######5   | 2277/3500 [2:01:34<47:34,  2.33s/it, lr: 2.0e-04 loss: 6.509e-02]wan_dewa:  65%|######5   | 2277/3500 [2:01:36<47:34,  2.33s/it, lr: 2.0e-04 loss: 7.167e-02]wan_dewa:  65%|######5   | 2277/3500 [2:01:36<47:34,  2.33s/it, lr: 2.0e-04 loss: 7.167e-02]wan_dewa:  65%|######5   | 2278/3500 [2:01:36<47:19,  2.32s/it, lr: 2.0e-04 loss: 7.167e-02]wan_dewa:  65%|######5   | 2278/3500 [2:01:36<47:19,  2.32s/it, lr: 2.0e-04 loss: 7.167e-02]wan_dewa:  65%|######5   | 2278/3500 [2:01:39<47:19,  2.32s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  65%|######5   | 2278/3500 [2:01:39<47:19,  2.32s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  65%|######5   | 2279/3500 [2:01:39<47:08,  2.32s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  65%|######5   | 2279/3500 [2:01:39<47:08,  2.32s/it, lr: 2.0e-04 loss: 4.303e-02]wan_dewa:  65%|######5   | 2279/3500 [2:01:50<47:08,  2.32s/it, lr: 2.0e-04 loss: 2.616e-02]wan_dewa:  65%|######5   | 2279/3500 [2:01:50<47:08,  2.32s/it, lr: 2.0e-04 loss: 2.616e-02]wan_dewa:  65%|######5   | 2280/3500 [2:01:52<47:06,  2.32s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  65%|######5   | 2280/3500 [2:01:52<47:06,  2.32s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  65%|######5   | 2281/3500 [2:01:52<36:14,  1.78s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  65%|######5   | 2281/3500 [2:01:52<36:14,  1.78s/it, lr: 2.0e-04 loss: 4.155e-02]wan_dewa:  65%|######5   | 2281/3500 [2:01:55<36:14,  1.78s/it, lr: 2.0e-04 loss: 3.985e-02]wan_dewa:  65%|######5   | 2281/3500 [2:01:55<36:14,  1.78s/it, lr: 2.0e-04 loss: 3.985e-02]wan_dewa:  65%|######5   | 2282/3500 [2:01:55<39:33,  1.95s/it, lr: 2.0e-04 loss: 3.985e-02]wan_dewa:  65%|######5   | 2282/3500 [2:01:55<39:33,  1.95s/it, lr: 2.0e-04 loss: 3.985e-02]wan_dewa:  65%|######5   | 2282/3500 [2:01:57<39:33,  1.95s/it, lr: 2.0e-04 loss: 3.104e-02]wan_dewa:  65%|######5   | 2282/3500 [2:01:57<39:33,  1.95s/it, lr: 2.0e-04 loss: 3.104e-02]wan_dewa:  65%|######5   | 2283/3500 [2:01:57<41:20,  2.04s/it, lr: 2.0e-04 loss: 3.104e-02]wan_dewa:  65%|######5   | 2283/3500 [2:01:57<41:20,  2.04s/it, lr: 2.0e-04 loss: 3.104e-02]wan_dewa:  65%|######5   | 2283/3500 [2:01:59<41:20,  2.04s/it, lr: 2.0e-04 loss: 4.727e-02]wan_dewa:  65%|######5   | 2283/3500 [2:01:59<41:20,  2.04s/it, lr: 2.0e-04 loss: 4.727e-02]wan_dewa:  65%|######5   | 2284/3500 [2:01:59<42:41,  2.11s/it, lr: 2.0e-04 loss: 4.727e-02]wan_dewa:  65%|######5   | 2284/3500 [2:01:59<42:41,  2.11s/it, lr: 2.0e-04 loss: 4.727e-02]wan_dewa:  65%|######5   | 2284/3500 [2:02:02<42:41,  2.11s/it, lr: 2.0e-04 loss: 4.603e-02]wan_dewa:  65%|######5   | 2284/3500 [2:02:02<42:41,  2.11s/it, lr: 2.0e-04 loss: 4.603e-02]wan_dewa:  65%|######5   | 2285/3500 [2:02:02<43:41,  2.16s/it, lr: 2.0e-04 loss: 4.603e-02]wan_dewa:  65%|######5   | 2285/3500 [2:02:02<43:41,  2.16s/it, lr: 2.0e-04 loss: 4.603e-02]wan_dewa:  65%|######5   | 2285/3500 [2:02:04<43:41,  2.16s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  65%|######5   | 2285/3500 [2:02:04<43:41,  2.16s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  65%|######5   | 2286/3500 [2:02:04<44:26,  2.20s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  65%|######5   | 2286/3500 [2:02:04<44:26,  2.20s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  65%|######5   | 2286/3500 [2:02:06<44:26,  2.20s/it, lr: 2.0e-04 loss: 2.985e-02]wan_dewa:  65%|######5   | 2286/3500 [2:02:06<44:26,  2.20s/it, lr: 2.0e-04 loss: 2.985e-02]wan_dewa:  65%|######5   | 2287/3500 [2:02:06<46:01,  2.28s/it, lr: 2.0e-04 loss: 2.985e-02]wan_dewa:  65%|######5   | 2287/3500 [2:02:06<46:01,  2.28s/it, lr: 2.0e-04 loss: 2.985e-02]wan_dewa:  65%|######5   | 2287/3500 [2:02:09<46:01,  2.28s/it, lr: 2.0e-04 loss: 4.647e-02]wan_dewa:  65%|######5   | 2287/3500 [2:02:09<46:01,  2.28s/it, lr: 2.0e-04 loss: 4.647e-02]wan_dewa:  65%|######5   | 2288/3500 [2:02:09<46:06,  2.28s/it, lr: 2.0e-04 loss: 4.647e-02]wan_dewa:  65%|######5   | 2288/3500 [2:02:09<46:06,  2.28s/it, lr: 2.0e-04 loss: 4.647e-02]wan_dewa:  65%|######5   | 2288/3500 [2:02:11<46:06,  2.28s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  65%|######5   | 2288/3500 [2:02:11<46:06,  2.28s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  65%|######5   | 2289/3500 [2:02:11<46:08,  2.29s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  65%|######5   | 2289/3500 [2:02:11<46:08,  2.29s/it, lr: 2.0e-04 loss: 5.855e-02]wan_dewa:  65%|######5   | 2289/3500 [2:02:22<46:08,  2.29s/it, lr: 2.0e-04 loss: 6.060e-02]wan_dewa:  65%|######5   | 2289/3500 [2:02:22<46:08,  2.29s/it, lr: 2.0e-04 loss: 6.060e-02]wan_dewa:  65%|######5   | 2290/3500 [2:02:24<46:05,  2.29s/it, lr: 2.0e-04 loss: 6.689e-02]wan_dewa:  65%|######5   | 2290/3500 [2:02:24<46:05,  2.29s/it, lr: 2.0e-04 loss: 6.689e-02]wan_dewa:  65%|######5   | 2291/3500 [2:02:24<35:33,  1.76s/it, lr: 2.0e-04 loss: 6.689e-02]wan_dewa:  65%|######5   | 2291/3500 [2:02:24<35:33,  1.76s/it, lr: 2.0e-04 loss: 6.689e-02]wan_dewa:  65%|######5   | 2291/3500 [2:02:27<35:33,  1.76s/it, lr: 2.0e-04 loss: 6.312e-02]wan_dewa:  65%|######5   | 2291/3500 [2:02:27<35:33,  1.76s/it, lr: 2.0e-04 loss: 6.312e-02]wan_dewa:  65%|######5   | 2292/3500 [2:02:27<39:02,  1.94s/it, lr: 2.0e-04 loss: 6.312e-02]wan_dewa:  65%|######5   | 2292/3500 [2:02:27<39:02,  1.94s/it, lr: 2.0e-04 loss: 6.312e-02]wan_dewa:  65%|######5   | 2292/3500 [2:02:29<39:02,  1.94s/it, lr: 2.0e-04 loss: 6.150e-02]wan_dewa:  65%|######5   | 2292/3500 [2:02:29<39:02,  1.94s/it, lr: 2.0e-04 loss: 6.150e-02]wan_dewa:  66%|######5   | 2293/3500 [2:02:29<40:47,  2.03s/it, lr: 2.0e-04 loss: 6.150e-02]wan_dewa:  66%|######5   | 2293/3500 [2:02:29<40:47,  2.03s/it, lr: 2.0e-04 loss: 6.150e-02]wan_dewa:  66%|######5   | 2293/3500 [2:02:32<40:47,  2.03s/it, lr: 2.0e-04 loss: 1.925e-01]wan_dewa:  66%|######5   | 2293/3500 [2:02:32<40:47,  2.03s/it, lr: 2.0e-04 loss: 1.925e-01]wan_dewa:  66%|######5   | 2294/3500 [2:02:32<42:08,  2.10s/it, lr: 2.0e-04 loss: 1.925e-01]wan_dewa:  66%|######5   | 2294/3500 [2:02:32<42:08,  2.10s/it, lr: 2.0e-04 loss: 1.925e-01]wan_dewa:  66%|######5   | 2294/3500 [2:02:34<42:08,  2.10s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  66%|######5   | 2294/3500 [2:02:34<42:08,  2.10s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  66%|######5   | 2295/3500 [2:02:34<43:09,  2.15s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  66%|######5   | 2295/3500 [2:02:34<43:09,  2.15s/it, lr: 2.0e-04 loss: 3.436e-02]wan_dewa:  66%|######5   | 2295/3500 [2:02:36<43:09,  2.15s/it, lr: 2.0e-04 loss: 1.264e-01]wan_dewa:  66%|######5   | 2295/3500 [2:02:36<43:09,  2.15s/it, lr: 2.0e-04 loss: 1.264e-01]wan_dewa:  66%|######5   | 2296/3500 [2:02:36<43:54,  2.19s/it, lr: 2.0e-04 loss: 1.264e-01]wan_dewa:  66%|######5   | 2296/3500 [2:02:36<43:54,  2.19s/it, lr: 2.0e-04 loss: 1.264e-01]wan_dewa:  66%|######5   | 2296/3500 [2:02:38<43:54,  2.19s/it, lr: 2.0e-04 loss: 8.033e-02]wan_dewa:  66%|######5   | 2296/3500 [2:02:38<43:54,  2.19s/it, lr: 2.0e-04 loss: 8.033e-02]wan_dewa:  66%|######5   | 2297/3500 [2:02:38<44:26,  2.22s/it, lr: 2.0e-04 loss: 8.033e-02]wan_dewa:  66%|######5   | 2297/3500 [2:02:38<44:26,  2.22s/it, lr: 2.0e-04 loss: 8.033e-02]wan_dewa:  66%|######5   | 2297/3500 [2:02:41<44:26,  2.22s/it, lr: 2.0e-04 loss: 1.215e-01]wan_dewa:  66%|######5   | 2297/3500 [2:02:41<44:26,  2.22s/it, lr: 2.0e-04 loss: 1.215e-01]wan_dewa:  66%|######5   | 2298/3500 [2:02:41<45:51,  2.29s/it, lr: 2.0e-04 loss: 1.215e-01]wan_dewa:  66%|######5   | 2298/3500 [2:02:41<45:51,  2.29s/it, lr: 2.0e-04 loss: 1.215e-01]wan_dewa:  66%|######5   | 2298/3500 [2:02:43<45:51,  2.29s/it, lr: 2.0e-04 loss: 5.474e-02]wan_dewa:  66%|######5   | 2298/3500 [2:02:43<45:51,  2.29s/it, lr: 2.0e-04 loss: 5.474e-02]wan_dewa:  66%|######5   | 2299/3500 [2:02:43<45:47,  2.29s/it, lr: 2.0e-04 loss: 5.474e-02]wan_dewa:  66%|######5   | 2299/3500 [2:02:43<45:47,  2.29s/it, lr: 2.0e-04 loss: 5.474e-02]wan_dewa:  66%|######5   | 2299/3500 [2:02:56<45:47,  2.29s/it, lr: 2.0e-04 loss: 4.213e-02]wan_dewa:  66%|######5   | 2299/3500 [2:02:56<45:47,  2.29s/it, lr: 2.0e-04 loss: 4.213e-02]wan_dewa:  66%|######5   | 2300/3500 [2:02:58<45:45,  2.29s/it, lr: 2.0e-04 loss: 4.263e-02]wan_dewa:  66%|######5   | 2300/3500 [2:02:58<45:45,  2.29s/it, lr: 2.0e-04 loss: 4.263e-02]wan_dewa:  66%|######5   | 2301/3500 [2:02:58<35:15,  1.76s/it, lr: 2.0e-04 loss: 4.263e-02]wan_dewa:  66%|######5   | 2301/3500 [2:02:58<35:15,  1.76s/it, lr: 2.0e-04 loss: 4.263e-02]wan_dewa:  66%|######5   | 2301/3500 [2:03:01<35:15,  1.76s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  66%|######5   | 2301/3500 [2:03:01<35:15,  1.76s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  66%|######5   | 2302/3500 [2:03:01<37:44,  1.89s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  66%|######5   | 2302/3500 [2:03:01<37:44,  1.89s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  66%|######5   | 2302/3500 [2:03:03<37:44,  1.89s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  66%|######5   | 2302/3500 [2:03:03<37:44,  1.89s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  66%|######5   | 2303/3500 [2:03:03<41:18,  2.07s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  66%|######5   | 2303/3500 [2:03:03<41:18,  2.07s/it, lr: 2.0e-04 loss: 3.813e-02]wan_dewa:  66%|######5   | 2303/3500 [2:03:06<41:18,  2.07s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  66%|######5   | 2303/3500 [2:03:06<41:18,  2.07s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  66%|######5   | 2304/3500 [2:03:06<42:22,  2.13s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  66%|######5   | 2304/3500 [2:03:06<42:22,  2.13s/it, lr: 2.0e-04 loss: 2.433e-02]wan_dewa:  66%|######5   | 2304/3500 [2:03:08<42:22,  2.13s/it, lr: 2.0e-04 loss: 4.189e-02]wan_dewa:  66%|######5   | 2304/3500 [2:03:08<42:22,  2.13s/it, lr: 2.0e-04 loss: 4.189e-02]wan_dewa:  66%|######5   | 2305/3500 [2:03:08<43:10,  2.17s/it, lr: 2.0e-04 loss: 4.189e-02]wan_dewa:  66%|######5   | 2305/3500 [2:03:08<43:10,  2.17s/it, lr: 2.0e-04 loss: 4.189e-02]wan_dewa:  66%|######5   | 2305/3500 [2:03:10<43:10,  2.17s/it, lr: 2.0e-04 loss: 4.346e-02]wan_dewa:  66%|######5   | 2305/3500 [2:03:10<43:10,  2.17s/it, lr: 2.0e-04 loss: 4.346e-02]wan_dewa:  66%|######5   | 2306/3500 [2:03:10<43:45,  2.20s/it, lr: 2.0e-04 loss: 4.346e-02]wan_dewa:  66%|######5   | 2306/3500 [2:03:10<43:45,  2.20s/it, lr: 2.0e-04 loss: 4.346e-02]wan_dewa:  66%|######5   | 2306/3500 [2:03:12<43:45,  2.20s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  66%|######5   | 2306/3500 [2:03:12<43:45,  2.20s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  66%|######5   | 2307/3500 [2:03:12<44:11,  2.22s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  66%|######5   | 2307/3500 [2:03:12<44:11,  2.22s/it, lr: 2.0e-04 loss: 4.994e-02]wan_dewa:  66%|######5   | 2307/3500 [2:03:15<44:11,  2.22s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  66%|######5   | 2307/3500 [2:03:15<44:11,  2.22s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  66%|######5   | 2308/3500 [2:03:15<45:35,  2.29s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  66%|######5   | 2308/3500 [2:03:15<45:35,  2.29s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  66%|######5   | 2308/3500 [2:03:17<45:35,  2.29s/it, lr: 2.0e-04 loss: 3.021e-02]wan_dewa:  66%|######5   | 2308/3500 [2:03:17<45:35,  2.29s/it, lr: 2.0e-04 loss: 3.021e-02]wan_dewa:  66%|######5   | 2309/3500 [2:03:17<45:28,  2.29s/it, lr: 2.0e-04 loss: 3.021e-02]wan_dewa:  66%|######5   | 2309/3500 [2:03:17<45:28,  2.29s/it, lr: 2.0e-04 loss: 3.021e-02]wan_dewa:  66%|######5   | 2309/3500 [2:03:28<45:28,  2.29s/it, lr: 2.0e-04 loss: 1.203e-01]wan_dewa:  66%|######5   | 2309/3500 [2:03:28<45:28,  2.29s/it, lr: 2.0e-04 loss: 1.203e-01]wan_dewa:  66%|######6   | 2310/3500 [2:03:31<45:26,  2.29s/it, lr: 2.0e-04 loss: 7.345e-02]wan_dewa:  66%|######6   | 2310/3500 [2:03:31<45:26,  2.29s/it, lr: 2.0e-04 loss: 7.345e-02]wan_dewa:  66%|######6   | 2311/3500 [2:03:31<34:59,  1.77s/it, lr: 2.0e-04 loss: 7.345e-02]wan_dewa:  66%|######6   | 2311/3500 [2:03:31<34:59,  1.77s/it, lr: 2.0e-04 loss: 7.345e-02]wan_dewa:  66%|######6   | 2311/3500 [2:03:33<34:59,  1.77s/it, lr: 2.0e-04 loss: 3.481e-01]wan_dewa:  66%|######6   | 2311/3500 [2:03:33<34:59,  1.77s/it, lr: 2.0e-04 loss: 3.481e-01]wan_dewa:  66%|######6   | 2312/3500 [2:03:33<37:25,  1.89s/it, lr: 2.0e-04 loss: 3.481e-01]wan_dewa:  66%|######6   | 2312/3500 [2:03:33<37:25,  1.89s/it, lr: 2.0e-04 loss: 3.481e-01]wan_dewa:  66%|######6   | 2312/3500 [2:03:35<37:25,  1.89s/it, lr: 2.0e-04 loss: 7.017e-02]wan_dewa:  66%|######6   | 2312/3500 [2:03:35<37:25,  1.89s/it, lr: 2.0e-04 loss: 7.017e-02]wan_dewa:  66%|######6   | 2313/3500 [2:03:35<40:18,  2.04s/it, lr: 2.0e-04 loss: 7.017e-02]wan_dewa:  66%|######6   | 2313/3500 [2:03:35<40:18,  2.04s/it, lr: 2.0e-04 loss: 7.017e-02]wan_dewa:  66%|######6   | 2313/3500 [2:03:38<40:18,  2.04s/it, lr: 2.0e-04 loss: 9.054e-02]wan_dewa:  66%|######6   | 2313/3500 [2:03:38<40:18,  2.04s/it, lr: 2.0e-04 loss: 9.054e-02]wan_dewa:  66%|######6   | 2314/3500 [2:03:38<41:33,  2.10s/it, lr: 2.0e-04 loss: 9.054e-02]wan_dewa:  66%|######6   | 2314/3500 [2:03:38<41:33,  2.10s/it, lr: 2.0e-04 loss: 9.054e-02]wan_dewa:  66%|######6   | 2314/3500 [2:03:40<41:33,  2.10s/it, lr: 2.0e-04 loss: 4.847e-02]wan_dewa:  66%|######6   | 2314/3500 [2:03:40<41:33,  2.10s/it, lr: 2.0e-04 loss: 4.847e-02]wan_dewa:  66%|######6   | 2315/3500 [2:03:40<42:30,  2.15s/it, lr: 2.0e-04 loss: 4.847e-02]wan_dewa:  66%|######6   | 2315/3500 [2:03:40<42:30,  2.15s/it, lr: 2.0e-04 loss: 4.847e-02]wan_dewa:  66%|######6   | 2315/3500 [2:03:42<42:30,  2.15s/it, lr: 2.0e-04 loss: 8.839e-02]wan_dewa:  66%|######6   | 2315/3500 [2:03:42<42:30,  2.15s/it, lr: 2.0e-04 loss: 8.839e-02]wan_dewa:  66%|######6   | 2316/3500 [2:03:42<43:10,  2.19s/it, lr: 2.0e-04 loss: 8.839e-02]wan_dewa:  66%|######6   | 2316/3500 [2:03:42<43:10,  2.19s/it, lr: 2.0e-04 loss: 8.839e-02]wan_dewa:  66%|######6   | 2316/3500 [2:03:44<43:10,  2.19s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:  66%|######6   | 2316/3500 [2:03:44<43:10,  2.19s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:  66%|######6   | 2317/3500 [2:03:44<43:39,  2.21s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:  66%|######6   | 2317/3500 [2:03:44<43:39,  2.21s/it, lr: 2.0e-04 loss: 7.236e-02]wan_dewa:  66%|######6   | 2317/3500 [2:03:47<43:39,  2.21s/it, lr: 2.0e-04 loss: 6.217e-02]wan_dewa:  66%|######6   | 2317/3500 [2:03:47<43:39,  2.21s/it, lr: 2.0e-04 loss: 6.217e-02]wan_dewa:  66%|######6   | 2318/3500 [2:03:47<45:06,  2.29s/it, lr: 2.0e-04 loss: 6.217e-02]wan_dewa:  66%|######6   | 2318/3500 [2:03:47<45:06,  2.29s/it, lr: 2.0e-04 loss: 6.217e-02]wan_dewa:  66%|######6   | 2318/3500 [2:03:49<45:06,  2.29s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  66%|######6   | 2318/3500 [2:03:49<45:06,  2.29s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  66%|######6   | 2319/3500 [2:03:49<45:01,  2.29s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  66%|######6   | 2319/3500 [2:03:49<45:01,  2.29s/it, lr: 2.0e-04 loss: 4.771e-02]wan_dewa:  66%|######6   | 2319/3500 [2:03:57<45:01,  2.29s/it, lr: 2.0e-04 loss: 3.946e-02]wan_dewa:  66%|######6   | 2319/3500 [2:03:57<45:01,  2.29s/it, lr: 2.0e-04 loss: 3.946e-02]wan_dewa:  66%|######6   | 2320/3500 [2:03:59<44:58,  2.29s/it, lr: 2.0e-04 loss: 2.443e-02]wan_dewa:  66%|######6   | 2320/3500 [2:03:59<44:58,  2.29s/it, lr: 2.0e-04 loss: 2.443e-02]wan_dewa:  66%|######6   | 2321/3500 [2:03:59<34:37,  1.76s/it, lr: 2.0e-04 loss: 2.443e-02]wan_dewa:  66%|######6   | 2321/3500 [2:03:59<34:37,  1.76s/it, lr: 2.0e-04 loss: 2.443e-02]wan_dewa:  66%|######6   | 2321/3500 [2:04:01<34:37,  1.76s/it, lr: 2.0e-04 loss: 4.718e-02]wan_dewa:  66%|######6   | 2321/3500 [2:04:01<34:37,  1.76s/it, lr: 2.0e-04 loss: 4.718e-02]wan_dewa:  66%|######6   | 2322/3500 [2:04:01<37:04,  1.89s/it, lr: 2.0e-04 loss: 4.718e-02]wan_dewa:  66%|######6   | 2322/3500 [2:04:01<37:04,  1.89s/it, lr: 2.0e-04 loss: 4.718e-02]wan_dewa:  66%|######6   | 2322/3500 [2:04:04<37:04,  1.89s/it, lr: 2.0e-04 loss: 5.568e-02]wan_dewa:  66%|######6   | 2322/3500 [2:04:04<37:04,  1.89s/it, lr: 2.0e-04 loss: 5.568e-02]wan_dewa:  66%|######6   | 2323/3500 [2:04:04<40:00,  2.04s/it, lr: 2.0e-04 loss: 5.568e-02]wan_dewa:  66%|######6   | 2323/3500 [2:04:04<40:00,  2.04s/it, lr: 2.0e-04 loss: 5.568e-02]wan_dewa:  66%|######6   | 2323/3500 [2:04:06<40:00,  2.04s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  66%|######6   | 2323/3500 [2:04:06<40:00,  2.04s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  66%|######6   | 2324/3500 [2:04:06<41:13,  2.10s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  66%|######6   | 2324/3500 [2:04:06<41:13,  2.10s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  66%|######6   | 2324/3500 [2:04:11<41:13,  2.10s/it, lr: 2.0e-04 loss: 2.604e-02]wan_dewa:  66%|######6   | 2324/3500 [2:04:11<41:13,  2.10s/it, lr: 2.0e-04 loss: 2.604e-02]wan_dewa:  66%|######6   | 2325/3500 [2:04:11<42:21,  2.16s/it, lr: 2.0e-04 loss: 2.604e-02]wan_dewa:  66%|######6   | 2325/3500 [2:04:11<42:21,  2.16s/it, lr: 2.0e-04 loss: 2.604e-02]wan_dewa:  66%|######6   | 2325/3500 [2:04:13<42:21,  2.16s/it, lr: 2.0e-04 loss: 3.865e-02]wan_dewa:  66%|######6   | 2325/3500 [2:04:13<42:21,  2.16s/it, lr: 2.0e-04 loss: 3.865e-02]wan_dewa:  66%|######6   | 2326/3500 [2:04:13<42:56,  2.19s/it, lr: 2.0e-04 loss: 3.865e-02]wan_dewa:  66%|######6   | 2326/3500 [2:04:13<42:56,  2.19s/it, lr: 2.0e-04 loss: 3.865e-02]wan_dewa:  66%|######6   | 2326/3500 [2:04:15<42:56,  2.19s/it, lr: 2.0e-04 loss: 3.908e-02]wan_dewa:  66%|######6   | 2326/3500 [2:04:15<42:56,  2.19s/it, lr: 2.0e-04 loss: 3.908e-02]wan_dewa:  66%|######6   | 2327/3500 [2:04:15<43:22,  2.22s/it, lr: 2.0e-04 loss: 3.908e-02]wan_dewa:  66%|######6   | 2327/3500 [2:04:15<43:22,  2.22s/it, lr: 2.0e-04 loss: 3.908e-02]wan_dewa:  66%|######6   | 2327/3500 [2:04:17<43:22,  2.22s/it, lr: 2.0e-04 loss: 2.759e-02]wan_dewa:  66%|######6   | 2327/3500 [2:04:17<43:22,  2.22s/it, lr: 2.0e-04 loss: 2.759e-02]wan_dewa:  67%|######6   | 2328/3500 [2:04:17<43:41,  2.24s/it, lr: 2.0e-04 loss: 2.759e-02]wan_dewa:  67%|######6   | 2328/3500 [2:04:17<43:41,  2.24s/it, lr: 2.0e-04 loss: 2.759e-02]wan_dewa:  67%|######6   | 2328/3500 [2:04:20<43:41,  2.24s/it, lr: 2.0e-04 loss: 3.469e-02]wan_dewa:  67%|######6   | 2328/3500 [2:04:20<43:41,  2.24s/it, lr: 2.0e-04 loss: 3.469e-02]wan_dewa:  67%|######6   | 2329/3500 [2:04:20<45:41,  2.34s/it, lr: 2.0e-04 loss: 3.469e-02]wan_dewa:  67%|######6   | 2329/3500 [2:04:20<45:41,  2.34s/it, lr: 2.0e-04 loss: 3.469e-02]wan_dewa:  67%|######6   | 2329/3500 [2:04:31<45:41,  2.34s/it, lr: 2.0e-04 loss: 6.966e-02]wan_dewa:  67%|######6   | 2329/3500 [2:04:31<45:41,  2.34s/it, lr: 2.0e-04 loss: 6.966e-02]wan_dewa:  67%|######6   | 2330/3500 [2:04:34<45:39,  2.34s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  67%|######6   | 2330/3500 [2:04:34<45:39,  2.34s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  67%|######6   | 2331/3500 [2:04:34<34:55,  1.79s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  67%|######6   | 2331/3500 [2:04:34<34:55,  1.79s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  67%|######6   | 2331/3500 [2:04:36<34:55,  1.79s/it, lr: 2.0e-04 loss: 1.732e-01]wan_dewa:  67%|######6   | 2331/3500 [2:04:36<34:55,  1.79s/it, lr: 2.0e-04 loss: 1.732e-01]wan_dewa:  67%|######6   | 2332/3500 [2:04:36<37:12,  1.91s/it, lr: 2.0e-04 loss: 1.732e-01]wan_dewa:  67%|######6   | 2332/3500 [2:04:36<37:12,  1.91s/it, lr: 2.0e-04 loss: 1.732e-01]wan_dewa:  67%|######6   | 2332/3500 [2:04:38<37:12,  1.91s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  67%|######6   | 2332/3500 [2:04:38<37:12,  1.91s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  67%|######6   | 2333/3500 [2:04:38<39:00,  2.01s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  67%|######6   | 2333/3500 [2:04:38<39:00,  2.01s/it, lr: 2.0e-04 loss: 5.031e-02]wan_dewa:  67%|######6   | 2333/3500 [2:04:41<39:00,  2.01s/it, lr: 2.0e-04 loss: 6.758e-02]wan_dewa:  67%|######6   | 2333/3500 [2:04:41<39:00,  2.01s/it, lr: 2.0e-04 loss: 6.758e-02]wan_dewa:  67%|######6   | 2334/3500 [2:04:41<41:23,  2.13s/it, lr: 2.0e-04 loss: 6.758e-02]wan_dewa:  67%|######6   | 2334/3500 [2:04:41<41:23,  2.13s/it, lr: 2.0e-04 loss: 6.758e-02]wan_dewa:  67%|######6   | 2334/3500 [2:04:43<41:23,  2.13s/it, lr: 2.0e-04 loss: 7.902e-02]wan_dewa:  67%|######6   | 2334/3500 [2:04:43<41:23,  2.13s/it, lr: 2.0e-04 loss: 7.902e-02]wan_dewa:  67%|######6   | 2335/3500 [2:04:43<42:08,  2.17s/it, lr: 2.0e-04 loss: 7.902e-02]wan_dewa:  67%|######6   | 2335/3500 [2:04:43<42:08,  2.17s/it, lr: 2.0e-04 loss: 7.902e-02]wan_dewa:  67%|######6   | 2335/3500 [2:04:45<42:08,  2.17s/it, lr: 2.0e-04 loss: 9.656e-02]wan_dewa:  67%|######6   | 2335/3500 [2:04:45<42:08,  2.17s/it, lr: 2.0e-04 loss: 9.656e-02]wan_dewa:  67%|######6   | 2336/3500 [2:04:45<42:40,  2.20s/it, lr: 2.0e-04 loss: 9.656e-02]wan_dewa:  67%|######6   | 2336/3500 [2:04:45<42:40,  2.20s/it, lr: 2.0e-04 loss: 9.656e-02]wan_dewa:  67%|######6   | 2336/3500 [2:04:48<42:40,  2.20s/it, lr: 2.0e-04 loss: 8.683e-02]wan_dewa:  67%|######6   | 2336/3500 [2:04:48<42:40,  2.20s/it, lr: 2.0e-04 loss: 8.683e-02]wan_dewa:  67%|######6   | 2337/3500 [2:04:48<43:04,  2.22s/it, lr: 2.0e-04 loss: 8.683e-02]wan_dewa:  67%|######6   | 2337/3500 [2:04:48<43:04,  2.22s/it, lr: 2.0e-04 loss: 8.683e-02]wan_dewa:  67%|######6   | 2337/3500 [2:04:50<43:04,  2.22s/it, lr: 2.0e-04 loss: 3.631e-02]wan_dewa:  67%|######6   | 2337/3500 [2:04:50<43:04,  2.22s/it, lr: 2.0e-04 loss: 3.631e-02]wan_dewa:  67%|######6   | 2338/3500 [2:04:50<43:21,  2.24s/it, lr: 2.0e-04 loss: 3.631e-02]wan_dewa:  67%|######6   | 2338/3500 [2:04:50<43:21,  2.24s/it, lr: 2.0e-04 loss: 3.631e-02]wan_dewa:  67%|######6   | 2338/3500 [2:04:52<43:21,  2.24s/it, lr: 2.0e-04 loss: 2.898e-02]wan_dewa:  67%|######6   | 2338/3500 [2:04:52<43:21,  2.24s/it, lr: 2.0e-04 loss: 2.898e-02]wan_dewa:  67%|######6   | 2339/3500 [2:04:52<44:38,  2.31s/it, lr: 2.0e-04 loss: 2.898e-02]wan_dewa:  67%|######6   | 2339/3500 [2:04:52<44:38,  2.31s/it, lr: 2.0e-04 loss: 2.898e-02]wan_dewa:  67%|######6   | 2339/3500 [2:05:03<44:38,  2.31s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  67%|######6   | 2339/3500 [2:05:03<44:38,  2.31s/it, lr: 2.0e-04 loss: 3.992e-02]wan_dewa:  67%|######6   | 2340/3500 [2:05:06<44:35,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  67%|######6   | 2340/3500 [2:05:06<44:35,  2.31s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  67%|######6   | 2341/3500 [2:05:06<34:16,  1.77s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  67%|######6   | 2341/3500 [2:05:06<34:16,  1.77s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  67%|######6   | 2341/3500 [2:05:08<34:16,  1.77s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  67%|######6   | 2341/3500 [2:05:08<34:16,  1.77s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  67%|######6   | 2342/3500 [2:05:08<36:38,  1.90s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  67%|######6   | 2342/3500 [2:05:08<36:38,  1.90s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  67%|######6   | 2342/3500 [2:05:10<36:38,  1.90s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  67%|######6   | 2342/3500 [2:05:10<36:38,  1.90s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  67%|######6   | 2343/3500 [2:05:10<38:31,  2.00s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  67%|######6   | 2343/3500 [2:05:10<38:31,  2.00s/it, lr: 2.0e-04 loss: 4.794e-02]wan_dewa:  67%|######6   | 2343/3500 [2:05:13<38:31,  2.00s/it, lr: 2.0e-04 loss: 4.644e-02]wan_dewa:  67%|######6   | 2343/3500 [2:05:13<38:31,  2.00s/it, lr: 2.0e-04 loss: 4.644e-02]wan_dewa:  67%|######6   | 2344/3500 [2:05:13<40:58,  2.13s/it, lr: 2.0e-04 loss: 4.644e-02]wan_dewa:  67%|######6   | 2344/3500 [2:05:13<40:58,  2.13s/it, lr: 2.0e-04 loss: 4.644e-02]wan_dewa:  67%|######6   | 2344/3500 [2:05:15<40:58,  2.13s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  67%|######6   | 2344/3500 [2:05:15<40:58,  2.13s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  67%|######7   | 2345/3500 [2:05:15<41:47,  2.17s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  67%|######7   | 2345/3500 [2:05:15<41:47,  2.17s/it, lr: 2.0e-04 loss: 4.708e-02]wan_dewa:  67%|######7   | 2345/3500 [2:05:17<41:47,  2.17s/it, lr: 2.0e-04 loss: 2.391e-02]wan_dewa:  67%|######7   | 2345/3500 [2:05:17<41:47,  2.17s/it, lr: 2.0e-04 loss: 2.391e-02]wan_dewa:  67%|######7   | 2346/3500 [2:05:17<42:21,  2.20s/it, lr: 2.0e-04 loss: 2.391e-02]wan_dewa:  67%|######7   | 2346/3500 [2:05:17<42:21,  2.20s/it, lr: 2.0e-04 loss: 2.391e-02]wan_dewa:  67%|######7   | 2346/3500 [2:05:20<42:21,  2.20s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  67%|######7   | 2346/3500 [2:05:20<42:21,  2.20s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  67%|######7   | 2347/3500 [2:05:20<42:47,  2.23s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  67%|######7   | 2347/3500 [2:05:20<42:47,  2.23s/it, lr: 2.0e-04 loss: 4.610e-02]wan_dewa:  67%|######7   | 2347/3500 [2:05:22<42:47,  2.23s/it, lr: 2.0e-04 loss: 4.859e-02]wan_dewa:  67%|######7   | 2347/3500 [2:05:22<42:47,  2.23s/it, lr: 2.0e-04 loss: 4.859e-02]wan_dewa:  67%|######7   | 2348/3500 [2:05:22<43:05,  2.24s/it, lr: 2.0e-04 loss: 4.859e-02]wan_dewa:  67%|######7   | 2348/3500 [2:05:22<43:05,  2.24s/it, lr: 2.0e-04 loss: 4.859e-02]wan_dewa:  67%|######7   | 2348/3500 [2:05:24<43:05,  2.24s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  67%|######7   | 2348/3500 [2:05:24<43:05,  2.24s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  67%|######7   | 2349/3500 [2:05:24<44:23,  2.31s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  67%|######7   | 2349/3500 [2:05:24<44:23,  2.31s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  67%|######7   | 2349/3500 [2:05:38<44:23,  2.31s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  67%|######7   | 2349/3500 [2:05:38<44:23,  2.31s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  67%|######7   | 2350/3500 [2:05:40<44:21,  2.31s/it, lr: 2.0e-04 loss: 9.166e-02]wan_dewa:  67%|######7   | 2350/3500 [2:05:40<44:21,  2.31s/it, lr: 2.0e-04 loss: 9.166e-02]wan_dewa:  67%|######7   | 2351/3500 [2:05:40<34:03,  1.78s/it, lr: 2.0e-04 loss: 9.166e-02]wan_dewa:  67%|######7   | 2351/3500 [2:05:40<34:03,  1.78s/it, lr: 2.0e-04 loss: 9.166e-02]wan_dewa:  67%|######7   | 2351/3500 [2:05:42<34:03,  1.78s/it, lr: 2.0e-04 loss: 1.314e-01]wan_dewa:  67%|######7   | 2351/3500 [2:05:42<34:03,  1.78s/it, lr: 2.0e-04 loss: 1.314e-01]wan_dewa:  67%|######7   | 2352/3500 [2:05:42<36:22,  1.90s/it, lr: 2.0e-04 loss: 1.314e-01]wan_dewa:  67%|######7   | 2352/3500 [2:05:42<36:22,  1.90s/it, lr: 2.0e-04 loss: 1.314e-01]wan_dewa:  67%|######7   | 2352/3500 [2:05:45<36:22,  1.90s/it, lr: 2.0e-04 loss: 2.729e-01]wan_dewa:  67%|######7   | 2352/3500 [2:05:45<36:22,  1.90s/it, lr: 2.0e-04 loss: 2.729e-01]wan_dewa:  67%|######7   | 2353/3500 [2:05:45<38:11,  2.00s/it, lr: 2.0e-04 loss: 2.729e-01]wan_dewa:  67%|######7   | 2353/3500 [2:05:45<38:11,  2.00s/it, lr: 2.0e-04 loss: 2.729e-01]wan_dewa:  67%|######7   | 2353/3500 [2:05:47<38:11,  2.00s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  67%|######7   | 2353/3500 [2:05:47<38:11,  2.00s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  67%|######7   | 2354/3500 [2:05:47<41:13,  2.16s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  67%|######7   | 2354/3500 [2:05:47<41:13,  2.16s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  67%|######7   | 2354/3500 [2:05:49<41:13,  2.16s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  67%|######7   | 2354/3500 [2:05:49<41:13,  2.16s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  67%|######7   | 2355/3500 [2:05:49<41:49,  2.19s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  67%|######7   | 2355/3500 [2:05:49<41:49,  2.19s/it, lr: 2.0e-04 loss: 5.378e-02]wan_dewa:  67%|######7   | 2355/3500 [2:05:52<41:49,  2.19s/it, lr: 2.0e-04 loss: 4.736e-02]wan_dewa:  67%|######7   | 2355/3500 [2:05:52<41:49,  2.19s/it, lr: 2.0e-04 loss: 4.736e-02]wan_dewa:  67%|######7   | 2356/3500 [2:05:52<42:17,  2.22s/it, lr: 2.0e-04 loss: 4.736e-02]wan_dewa:  67%|######7   | 2356/3500 [2:05:52<42:17,  2.22s/it, lr: 2.0e-04 loss: 4.736e-02]wan_dewa:  67%|######7   | 2356/3500 [2:05:54<42:17,  2.22s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  67%|######7   | 2356/3500 [2:05:54<42:17,  2.22s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  67%|######7   | 2357/3500 [2:05:54<42:34,  2.24s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  67%|######7   | 2357/3500 [2:05:54<42:34,  2.24s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  67%|######7   | 2357/3500 [2:05:56<42:34,  2.24s/it, lr: 2.0e-04 loss: 1.751e-01]wan_dewa:  67%|######7   | 2357/3500 [2:05:56<42:34,  2.24s/it, lr: 2.0e-04 loss: 1.751e-01]wan_dewa:  67%|######7   | 2358/3500 [2:05:56<42:46,  2.25s/it, lr: 2.0e-04 loss: 1.751e-01]wan_dewa:  67%|######7   | 2358/3500 [2:05:56<42:46,  2.25s/it, lr: 2.0e-04 loss: 1.751e-01]wan_dewa:  67%|######7   | 2358/3500 [2:05:59<42:46,  2.25s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  67%|######7   | 2358/3500 [2:05:59<42:46,  2.25s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  67%|######7   | 2359/3500 [2:05:59<44:33,  2.34s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  67%|######7   | 2359/3500 [2:05:59<44:33,  2.34s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  67%|######7   | 2359/3500 [2:06:10<44:33,  2.34s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  67%|######7   | 2359/3500 [2:06:10<44:33,  2.34s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  67%|######7   | 2360/3500 [2:06:12<44:30,  2.34s/it, lr: 2.0e-04 loss: 1.973e-02]wan_dewa:  67%|######7   | 2360/3500 [2:06:12<44:30,  2.34s/it, lr: 2.0e-04 loss: 1.973e-02]wan_dewa:  67%|######7   | 2361/3500 [2:06:12<33:59,  1.79s/it, lr: 2.0e-04 loss: 1.973e-02]wan_dewa:  67%|######7   | 2361/3500 [2:06:12<33:59,  1.79s/it, lr: 2.0e-04 loss: 1.973e-02]wan_dewa:  67%|######7   | 2361/3500 [2:06:15<33:59,  1.79s/it, lr: 2.0e-04 loss: 2.481e-02]wan_dewa:  67%|######7   | 2361/3500 [2:06:15<33:59,  1.79s/it, lr: 2.0e-04 loss: 2.481e-02]wan_dewa:  67%|######7   | 2362/3500 [2:06:15<36:11,  1.91s/it, lr: 2.0e-04 loss: 2.481e-02]wan_dewa:  67%|######7   | 2362/3500 [2:06:15<36:11,  1.91s/it, lr: 2.0e-04 loss: 2.481e-02]wan_dewa:  67%|######7   | 2362/3500 [2:06:17<36:11,  1.91s/it, lr: 2.0e-04 loss: 2.186e-02]wan_dewa:  67%|######7   | 2362/3500 [2:06:17<36:11,  1.91s/it, lr: 2.0e-04 loss: 2.186e-02]wan_dewa:  68%|######7   | 2363/3500 [2:06:17<37:56,  2.00s/it, lr: 2.0e-04 loss: 2.186e-02]wan_dewa:  68%|######7   | 2363/3500 [2:06:17<37:56,  2.00s/it, lr: 2.0e-04 loss: 2.186e-02]wan_dewa:  68%|######7   | 2363/3500 [2:06:19<37:56,  2.00s/it, lr: 2.0e-04 loss: 5.566e-02]wan_dewa:  68%|######7   | 2363/3500 [2:06:19<37:56,  2.00s/it, lr: 2.0e-04 loss: 5.566e-02]wan_dewa:  68%|######7   | 2364/3500 [2:06:19<39:17,  2.08s/it, lr: 2.0e-04 loss: 5.566e-02]wan_dewa:  68%|######7   | 2364/3500 [2:06:19<39:17,  2.08s/it, lr: 2.0e-04 loss: 5.566e-02]wan_dewa:  68%|######7   | 2364/3500 [2:06:22<39:17,  2.08s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  68%|######7   | 2364/3500 [2:06:22<39:17,  2.08s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  68%|######7   | 2365/3500 [2:06:22<41:18,  2.18s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  68%|######7   | 2365/3500 [2:06:22<41:18,  2.18s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  68%|######7   | 2365/3500 [2:06:24<41:18,  2.18s/it, lr: 2.0e-04 loss: 4.479e-02]wan_dewa:  68%|######7   | 2365/3500 [2:06:24<41:18,  2.18s/it, lr: 2.0e-04 loss: 4.479e-02]wan_dewa:  68%|######7   | 2366/3500 [2:06:24<41:46,  2.21s/it, lr: 2.0e-04 loss: 4.479e-02]wan_dewa:  68%|######7   | 2366/3500 [2:06:24<41:46,  2.21s/it, lr: 2.0e-04 loss: 4.479e-02]wan_dewa:  68%|######7   | 2366/3500 [2:06:26<41:46,  2.21s/it, lr: 2.0e-04 loss: 4.372e-02]wan_dewa:  68%|######7   | 2366/3500 [2:06:26<41:46,  2.21s/it, lr: 2.0e-04 loss: 4.372e-02]wan_dewa:  68%|######7   | 2367/3500 [2:06:26<42:05,  2.23s/it, lr: 2.0e-04 loss: 4.372e-02]wan_dewa:  68%|######7   | 2367/3500 [2:06:26<42:05,  2.23s/it, lr: 2.0e-04 loss: 4.372e-02]wan_dewa:  68%|######7   | 2367/3500 [2:06:28<42:05,  2.23s/it, lr: 2.0e-04 loss: 3.700e-02]wan_dewa:  68%|######7   | 2367/3500 [2:06:28<42:05,  2.23s/it, lr: 2.0e-04 loss: 3.700e-02]wan_dewa:  68%|######7   | 2368/3500 [2:06:28<42:18,  2.24s/it, lr: 2.0e-04 loss: 3.700e-02]wan_dewa:  68%|######7   | 2368/3500 [2:06:28<42:18,  2.24s/it, lr: 2.0e-04 loss: 3.700e-02]wan_dewa:  68%|######7   | 2368/3500 [2:06:31<42:18,  2.24s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  68%|######7   | 2368/3500 [2:06:31<42:18,  2.24s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  68%|######7   | 2369/3500 [2:06:31<42:31,  2.26s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  68%|######7   | 2369/3500 [2:06:31<42:31,  2.26s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  68%|######7   | 2369/3500 [2:06:38<42:31,  2.26s/it, lr: 2.0e-04 loss: 7.442e-02]wan_dewa:  68%|######7   | 2369/3500 [2:06:38<42:31,  2.26s/it, lr: 2.0e-04 loss: 7.442e-02]wan_dewa:  68%|######7   | 2370/3500 [2:06:41<42:28,  2.26s/it, lr: 2.0e-04 loss: 5.495e-02]wan_dewa:  68%|######7   | 2370/3500 [2:06:41<42:28,  2.26s/it, lr: 2.0e-04 loss: 5.495e-02]wan_dewa:  68%|######7   | 2371/3500 [2:06:41<32:50,  1.75s/it, lr: 2.0e-04 loss: 5.495e-02]wan_dewa:  68%|######7   | 2371/3500 [2:06:41<32:50,  1.75s/it, lr: 2.0e-04 loss: 5.495e-02]wan_dewa:  68%|######7   | 2371/3500 [2:06:43<32:50,  1.75s/it, lr: 2.0e-04 loss: 7.471e-02]wan_dewa:  68%|######7   | 2371/3500 [2:06:43<32:50,  1.75s/it, lr: 2.0e-04 loss: 7.471e-02]wan_dewa:  68%|######7   | 2372/3500 [2:06:43<35:15,  1.88s/it, lr: 2.0e-04 loss: 7.471e-02]wan_dewa:  68%|######7   | 2372/3500 [2:06:43<35:15,  1.88s/it, lr: 2.0e-04 loss: 7.471e-02]wan_dewa:  68%|######7   | 2372/3500 [2:06:45<35:15,  1.88s/it, lr: 2.0e-04 loss: 9.096e-02]wan_dewa:  68%|######7   | 2372/3500 [2:06:45<35:15,  1.88s/it, lr: 2.0e-04 loss: 9.096e-02]wan_dewa:  68%|######7   | 2373/3500 [2:06:45<37:12,  1.98s/it, lr: 2.0e-04 loss: 9.096e-02]wan_dewa:  68%|######7   | 2373/3500 [2:06:45<37:12,  1.98s/it, lr: 2.0e-04 loss: 9.096e-02]wan_dewa:  68%|######7   | 2373/3500 [2:06:47<37:12,  1.98s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  68%|######7   | 2373/3500 [2:06:47<37:12,  1.98s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  68%|######7   | 2374/3500 [2:06:47<38:41,  2.06s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  68%|######7   | 2374/3500 [2:06:47<38:41,  2.06s/it, lr: 2.0e-04 loss: 5.179e-02]wan_dewa:  68%|######7   | 2374/3500 [2:06:52<38:41,  2.06s/it, lr: 2.0e-04 loss: 7.659e-02]wan_dewa:  68%|######7   | 2374/3500 [2:06:52<38:41,  2.06s/it, lr: 2.0e-04 loss: 7.659e-02]wan_dewa:  68%|######7   | 2375/3500 [2:06:52<41:47,  2.23s/it, lr: 2.0e-04 loss: 7.659e-02]wan_dewa:  68%|######7   | 2375/3500 [2:06:52<41:47,  2.23s/it, lr: 2.0e-04 loss: 7.659e-02]wan_dewa:  68%|######7   | 2375/3500 [2:06:55<41:47,  2.23s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  68%|######7   | 2375/3500 [2:06:55<41:47,  2.23s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  68%|######7   | 2376/3500 [2:06:55<42:03,  2.25s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  68%|######7   | 2376/3500 [2:06:55<42:03,  2.25s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  68%|######7   | 2376/3500 [2:06:57<42:03,  2.25s/it, lr: 2.0e-04 loss: 1.124e-01]wan_dewa:  68%|######7   | 2376/3500 [2:06:57<42:03,  2.25s/it, lr: 2.0e-04 loss: 1.124e-01]wan_dewa:  68%|######7   | 2377/3500 [2:06:57<42:13,  2.26s/it, lr: 2.0e-04 loss: 1.124e-01]wan_dewa:  68%|######7   | 2377/3500 [2:06:57<42:13,  2.26s/it, lr: 2.0e-04 loss: 1.124e-01]wan_dewa:  68%|######7   | 2377/3500 [2:06:59<42:13,  2.26s/it, lr: 2.0e-04 loss: 6.381e-02]wan_dewa:  68%|######7   | 2377/3500 [2:06:59<42:13,  2.26s/it, lr: 2.0e-04 loss: 6.381e-02]wan_dewa:  68%|######7   | 2378/3500 [2:06:59<42:19,  2.26s/it, lr: 2.0e-04 loss: 6.381e-02]wan_dewa:  68%|######7   | 2378/3500 [2:06:59<42:19,  2.26s/it, lr: 2.0e-04 loss: 6.381e-02]wan_dewa:  68%|######7   | 2378/3500 [2:07:01<42:19,  2.26s/it, lr: 2.0e-04 loss: 4.688e-02]wan_dewa:  68%|######7   | 2378/3500 [2:07:01<42:19,  2.26s/it, lr: 2.0e-04 loss: 4.688e-02]wan_dewa:  68%|######7   | 2379/3500 [2:07:01<42:22,  2.27s/it, lr: 2.0e-04 loss: 4.688e-02]wan_dewa:  68%|######7   | 2379/3500 [2:07:01<42:22,  2.27s/it, lr: 2.0e-04 loss: 4.688e-02]wan_dewa:  68%|######7   | 2379/3500 [2:07:13<42:22,  2.27s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  68%|######7   | 2379/3500 [2:07:13<42:22,  2.27s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  68%|######8   | 2380/3500 [2:07:15<42:20,  2.27s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  68%|######8   | 2380/3500 [2:07:15<42:20,  2.27s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  68%|######8   | 2381/3500 [2:07:15<32:41,  1.75s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  68%|######8   | 2381/3500 [2:07:15<32:41,  1.75s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  68%|######8   | 2381/3500 [2:07:17<32:41,  1.75s/it, lr: 2.0e-04 loss: 5.234e-02]wan_dewa:  68%|######8   | 2381/3500 [2:07:17<32:41,  1.75s/it, lr: 2.0e-04 loss: 5.234e-02]wan_dewa:  68%|######8   | 2382/3500 [2:07:17<35:04,  1.88s/it, lr: 2.0e-04 loss: 5.234e-02]wan_dewa:  68%|######8   | 2382/3500 [2:07:17<35:04,  1.88s/it, lr: 2.0e-04 loss: 5.234e-02]wan_dewa:  68%|######8   | 2382/3500 [2:07:20<35:04,  1.88s/it, lr: 2.0e-04 loss: 4.686e-02]wan_dewa:  68%|######8   | 2382/3500 [2:07:20<35:04,  1.88s/it, lr: 2.0e-04 loss: 4.686e-02]wan_dewa:  68%|######8   | 2383/3500 [2:07:20<36:55,  1.98s/it, lr: 2.0e-04 loss: 4.686e-02]wan_dewa:  68%|######8   | 2383/3500 [2:07:20<36:55,  1.98s/it, lr: 2.0e-04 loss: 4.686e-02]wan_dewa:  68%|######8   | 2383/3500 [2:07:22<36:55,  1.98s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  68%|######8   | 2383/3500 [2:07:22<36:55,  1.98s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  68%|######8   | 2384/3500 [2:07:22<38:20,  2.06s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  68%|######8   | 2384/3500 [2:07:22<38:20,  2.06s/it, lr: 2.0e-04 loss: 4.277e-02]wan_dewa:  68%|######8   | 2384/3500 [2:07:24<38:20,  2.06s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  68%|######8   | 2384/3500 [2:07:24<38:20,  2.06s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  68%|######8   | 2385/3500 [2:07:24<39:24,  2.12s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  68%|######8   | 2385/3500 [2:07:24<39:24,  2.12s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  68%|######8   | 2385/3500 [2:07:27<39:24,  2.12s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  68%|######8   | 2385/3500 [2:07:27<39:24,  2.12s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  68%|######8   | 2386/3500 [2:07:27<41:10,  2.22s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  68%|######8   | 2386/3500 [2:07:27<41:10,  2.22s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  68%|######8   | 2386/3500 [2:07:29<41:10,  2.22s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  68%|######8   | 2386/3500 [2:07:29<41:10,  2.22s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  68%|######8   | 2387/3500 [2:07:29<41:26,  2.23s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  68%|######8   | 2387/3500 [2:07:29<41:26,  2.23s/it, lr: 2.0e-04 loss: 4.928e-02]wan_dewa:  68%|######8   | 2387/3500 [2:07:31<41:26,  2.23s/it, lr: 2.0e-04 loss: 2.303e-02]wan_dewa:  68%|######8   | 2387/3500 [2:07:31<41:26,  2.23s/it, lr: 2.0e-04 loss: 2.303e-02]wan_dewa:  68%|######8   | 2388/3500 [2:07:31<41:37,  2.25s/it, lr: 2.0e-04 loss: 2.303e-02]wan_dewa:  68%|######8   | 2388/3500 [2:07:31<41:37,  2.25s/it, lr: 2.0e-04 loss: 2.303e-02]wan_dewa:  68%|######8   | 2388/3500 [2:07:33<41:37,  2.25s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  68%|######8   | 2388/3500 [2:07:33<41:37,  2.25s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  68%|######8   | 2389/3500 [2:07:33<41:46,  2.26s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  68%|######8   | 2389/3500 [2:07:33<41:46,  2.26s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  68%|######8   | 2389/3500 [2:07:44<41:46,  2.26s/it, lr: 2.0e-04 loss: 2.193e-01]wan_dewa:  68%|######8   | 2389/3500 [2:07:44<41:46,  2.26s/it, lr: 2.0e-04 loss: 2.193e-01]wan_dewa:  68%|######8   | 2390/3500 [2:07:47<41:43,  2.26s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  68%|######8   | 2390/3500 [2:07:47<41:43,  2.26s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  68%|######8   | 2391/3500 [2:07:47<33:00,  1.79s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  68%|######8   | 2391/3500 [2:07:47<33:00,  1.79s/it, lr: 2.0e-04 loss: 6.237e-02]wan_dewa:  68%|######8   | 2391/3500 [2:07:49<33:00,  1.79s/it, lr: 2.0e-04 loss: 5.052e-02]wan_dewa:  68%|######8   | 2391/3500 [2:07:49<33:00,  1.79s/it, lr: 2.0e-04 loss: 5.052e-02]wan_dewa:  68%|######8   | 2392/3500 [2:07:49<35:12,  1.91s/it, lr: 2.0e-04 loss: 5.052e-02]wan_dewa:  68%|######8   | 2392/3500 [2:07:49<35:12,  1.91s/it, lr: 2.0e-04 loss: 5.052e-02]wan_dewa:  68%|######8   | 2392/3500 [2:07:51<35:12,  1.91s/it, lr: 2.0e-04 loss: 3.313e-02]wan_dewa:  68%|######8   | 2392/3500 [2:07:51<35:12,  1.91s/it, lr: 2.0e-04 loss: 3.313e-02]wan_dewa:  68%|######8   | 2393/3500 [2:07:51<36:58,  2.00s/it, lr: 2.0e-04 loss: 3.313e-02]wan_dewa:  68%|######8   | 2393/3500 [2:07:51<36:58,  2.00s/it, lr: 2.0e-04 loss: 3.313e-02]wan_dewa:  68%|######8   | 2393/3500 [2:07:53<36:58,  2.00s/it, lr: 2.0e-04 loss: 5.935e-02]wan_dewa:  68%|######8   | 2393/3500 [2:07:53<36:58,  2.00s/it, lr: 2.0e-04 loss: 5.935e-02]wan_dewa:  68%|######8   | 2394/3500 [2:07:53<38:19,  2.08s/it, lr: 2.0e-04 loss: 5.935e-02]wan_dewa:  68%|######8   | 2394/3500 [2:07:53<38:19,  2.08s/it, lr: 2.0e-04 loss: 5.935e-02]wan_dewa:  68%|######8   | 2394/3500 [2:07:56<38:19,  2.08s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  68%|######8   | 2394/3500 [2:07:56<38:19,  2.08s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  68%|######8   | 2395/3500 [2:07:56<39:19,  2.13s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  68%|######8   | 2395/3500 [2:07:56<39:19,  2.13s/it, lr: 2.0e-04 loss: 4.452e-02]wan_dewa:  68%|######8   | 2395/3500 [2:07:58<39:19,  2.13s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  68%|######8   | 2395/3500 [2:07:58<39:19,  2.13s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  68%|######8   | 2396/3500 [2:07:58<40:59,  2.23s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  68%|######8   | 2396/3500 [2:07:58<40:59,  2.23s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  68%|######8   | 2396/3500 [2:08:01<40:59,  2.23s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  68%|######8   | 2396/3500 [2:08:01<40:59,  2.23s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  68%|######8   | 2397/3500 [2:08:01<41:15,  2.24s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  68%|######8   | 2397/3500 [2:08:01<41:15,  2.24s/it, lr: 2.0e-04 loss: 3.748e-02]wan_dewa:  68%|######8   | 2397/3500 [2:08:03<41:15,  2.24s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  68%|######8   | 2397/3500 [2:08:03<41:15,  2.24s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  69%|######8   | 2398/3500 [2:08:03<41:25,  2.26s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  69%|######8   | 2398/3500 [2:08:03<41:25,  2.26s/it, lr: 2.0e-04 loss: 4.863e-02]wan_dewa:  69%|######8   | 2398/3500 [2:08:05<41:25,  2.26s/it, lr: 2.0e-04 loss: 4.316e-02]wan_dewa:  69%|######8   | 2398/3500 [2:08:05<41:25,  2.26s/it, lr: 2.0e-04 loss: 4.316e-02]wan_dewa:  69%|######8   | 2399/3500 [2:08:05<41:32,  2.26s/it, lr: 2.0e-04 loss: 4.316e-02]wan_dewa:  69%|######8   | 2399/3500 [2:08:05<41:32,  2.26s/it, lr: 2.0e-04 loss: 4.316e-02]wan_dewa:  69%|######8   | 2399/3500 [2:08:18<41:32,  2.26s/it, lr: 2.0e-04 loss: 4.504e-02]wan_dewa:  69%|######8   | 2399/3500 [2:08:18<41:32,  2.26s/it, lr: 2.0e-04 loss: 4.504e-02]wan_dewa:  69%|######8   | 2400/3500 [2:08:21<41:29,  2.26s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  69%|######8   | 2400/3500 [2:08:21<41:29,  2.26s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  69%|######8   | 2401/3500 [2:08:21<33:22,  1.82s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  69%|######8   | 2401/3500 [2:08:21<33:22,  1.82s/it, lr: 2.0e-04 loss: 2.399e-02]wan_dewa:  69%|######8   | 2401/3500 [2:08:23<33:22,  1.82s/it, lr: 2.0e-04 loss: 5.064e-02]wan_dewa:  69%|######8   | 2401/3500 [2:08:23<33:22,  1.82s/it, lr: 2.0e-04 loss: 5.064e-02]wan_dewa:  69%|######8   | 2402/3500 [2:08:23<35:21,  1.93s/it, lr: 2.0e-04 loss: 5.064e-02]wan_dewa:  69%|######8   | 2402/3500 [2:08:23<35:21,  1.93s/it, lr: 2.0e-04 loss: 5.064e-02]wan_dewa:  69%|######8   | 2402/3500 [2:08:26<35:21,  1.93s/it, lr: 2.0e-04 loss: 3.699e-02]wan_dewa:  69%|######8   | 2402/3500 [2:08:26<35:21,  1.93s/it, lr: 2.0e-04 loss: 3.699e-02]wan_dewa:  69%|######8   | 2403/3500 [2:08:26<36:57,  2.02s/it, lr: 2.0e-04 loss: 3.699e-02]wan_dewa:  69%|######8   | 2403/3500 [2:08:26<36:57,  2.02s/it, lr: 2.0e-04 loss: 3.699e-02]wan_dewa:  69%|######8   | 2403/3500 [2:08:28<36:57,  2.02s/it, lr: 2.0e-04 loss: 3.954e-02]wan_dewa:  69%|######8   | 2403/3500 [2:08:28<36:57,  2.02s/it, lr: 2.0e-04 loss: 3.954e-02]wan_dewa:  69%|######8   | 2404/3500 [2:08:28<38:09,  2.09s/it, lr: 2.0e-04 loss: 3.954e-02]wan_dewa:  69%|######8   | 2404/3500 [2:08:28<38:09,  2.09s/it, lr: 2.0e-04 loss: 3.954e-02]wan_dewa:  69%|######8   | 2404/3500 [2:08:30<38:09,  2.09s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  69%|######8   | 2404/3500 [2:08:30<38:09,  2.09s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  69%|######8   | 2405/3500 [2:08:30<39:03,  2.14s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  69%|######8   | 2405/3500 [2:08:30<39:03,  2.14s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  69%|######8   | 2405/3500 [2:08:33<39:03,  2.14s/it, lr: 2.0e-04 loss: 2.041e-02]wan_dewa:  69%|######8   | 2405/3500 [2:08:33<39:03,  2.14s/it, lr: 2.0e-04 loss: 2.041e-02]wan_dewa:  69%|######8   | 2406/3500 [2:08:33<40:45,  2.24s/it, lr: 2.0e-04 loss: 2.041e-02]wan_dewa:  69%|######8   | 2406/3500 [2:08:33<40:45,  2.24s/it, lr: 2.0e-04 loss: 2.041e-02]wan_dewa:  69%|######8   | 2406/3500 [2:08:35<40:45,  2.24s/it, lr: 2.0e-04 loss: 4.176e-02]wan_dewa:  69%|######8   | 2406/3500 [2:08:35<40:45,  2.24s/it, lr: 2.0e-04 loss: 4.176e-02]wan_dewa:  69%|######8   | 2407/3500 [2:08:35<40:55,  2.25s/it, lr: 2.0e-04 loss: 4.176e-02]wan_dewa:  69%|######8   | 2407/3500 [2:08:35<40:55,  2.25s/it, lr: 2.0e-04 loss: 4.176e-02]wan_dewa:  69%|######8   | 2407/3500 [2:08:37<40:55,  2.25s/it, lr: 2.0e-04 loss: 4.701e-02]wan_dewa:  69%|######8   | 2407/3500 [2:08:37<40:55,  2.25s/it, lr: 2.0e-04 loss: 4.701e-02]wan_dewa:  69%|######8   | 2408/3500 [2:08:37<41:03,  2.26s/it, lr: 2.0e-04 loss: 4.701e-02]wan_dewa:  69%|######8   | 2408/3500 [2:08:37<41:03,  2.26s/it, lr: 2.0e-04 loss: 4.701e-02]wan_dewa:  69%|######8   | 2408/3500 [2:08:39<41:03,  2.26s/it, lr: 2.0e-04 loss: 4.645e-02]wan_dewa:  69%|######8   | 2408/3500 [2:08:39<41:03,  2.26s/it, lr: 2.0e-04 loss: 4.645e-02]wan_dewa:  69%|######8   | 2409/3500 [2:08:39<41:06,  2.26s/it, lr: 2.0e-04 loss: 4.645e-02]wan_dewa:  69%|######8   | 2409/3500 [2:08:39<41:06,  2.26s/it, lr: 2.0e-04 loss: 4.645e-02]wan_dewa:  69%|######8   | 2409/3500 [2:08:51<41:06,  2.26s/it, lr: 2.0e-04 loss: 1.740e-01]wan_dewa:  69%|######8   | 2409/3500 [2:08:51<41:06,  2.26s/it, lr: 2.0e-04 loss: 1.740e-01]wan_dewa:  69%|######8   | 2410/3500 [2:08:53<41:04,  2.26s/it, lr: 2.0e-04 loss: 1.207e-01]wan_dewa:  69%|######8   | 2410/3500 [2:08:53<41:04,  2.26s/it, lr: 2.0e-04 loss: 1.207e-01]wan_dewa:  69%|######8   | 2411/3500 [2:08:53<32:30,  1.79s/it, lr: 2.0e-04 loss: 1.207e-01]wan_dewa:  69%|######8   | 2411/3500 [2:08:53<32:30,  1.79s/it, lr: 2.0e-04 loss: 1.207e-01]wan_dewa:  69%|######8   | 2411/3500 [2:08:55<32:30,  1.79s/it, lr: 2.0e-04 loss: 9.718e-02]wan_dewa:  69%|######8   | 2411/3500 [2:08:55<32:30,  1.79s/it, lr: 2.0e-04 loss: 9.718e-02]wan_dewa:  69%|######8   | 2412/3500 [2:08:55<34:38,  1.91s/it, lr: 2.0e-04 loss: 9.718e-02]wan_dewa:  69%|######8   | 2412/3500 [2:08:55<34:38,  1.91s/it, lr: 2.0e-04 loss: 9.718e-02]wan_dewa:  69%|######8   | 2412/3500 [2:08:58<34:38,  1.91s/it, lr: 2.0e-04 loss: 7.602e-02]wan_dewa:  69%|######8   | 2412/3500 [2:08:58<34:38,  1.91s/it, lr: 2.0e-04 loss: 7.602e-02]wan_dewa:  69%|######8   | 2413/3500 [2:08:58<36:21,  2.01s/it, lr: 2.0e-04 loss: 7.602e-02]wan_dewa:  69%|######8   | 2413/3500 [2:08:58<36:21,  2.01s/it, lr: 2.0e-04 loss: 7.602e-02]wan_dewa:  69%|######8   | 2413/3500 [2:09:00<36:21,  2.01s/it, lr: 2.0e-04 loss: 3.339e-01]wan_dewa:  69%|######8   | 2413/3500 [2:09:00<36:21,  2.01s/it, lr: 2.0e-04 loss: 3.339e-01]wan_dewa:  69%|######8   | 2414/3500 [2:09:00<37:40,  2.08s/it, lr: 2.0e-04 loss: 3.339e-01]wan_dewa:  69%|######8   | 2414/3500 [2:09:00<37:40,  2.08s/it, lr: 2.0e-04 loss: 3.339e-01]wan_dewa:  69%|######8   | 2414/3500 [2:09:02<37:40,  2.08s/it, lr: 2.0e-04 loss: 5.683e-02]wan_dewa:  69%|######8   | 2414/3500 [2:09:02<37:40,  2.08s/it, lr: 2.0e-04 loss: 5.683e-02]wan_dewa:  69%|######9   | 2415/3500 [2:09:02<38:39,  2.14s/it, lr: 2.0e-04 loss: 5.683e-02]wan_dewa:  69%|######9   | 2415/3500 [2:09:02<38:39,  2.14s/it, lr: 2.0e-04 loss: 5.683e-02]wan_dewa:  69%|######9   | 2415/3500 [2:09:05<38:39,  2.14s/it, lr: 2.0e-04 loss: 3.826e-02]wan_dewa:  69%|######9   | 2415/3500 [2:09:05<38:39,  2.14s/it, lr: 2.0e-04 loss: 3.826e-02]wan_dewa:  69%|######9   | 2416/3500 [2:09:05<39:22,  2.18s/it, lr: 2.0e-04 loss: 3.826e-02]wan_dewa:  69%|######9   | 2416/3500 [2:09:05<39:22,  2.18s/it, lr: 2.0e-04 loss: 3.826e-02]wan_dewa:  69%|######9   | 2416/3500 [2:09:07<39:22,  2.18s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  69%|######9   | 2416/3500 [2:09:07<39:22,  2.18s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  69%|######9   | 2417/3500 [2:09:07<40:51,  2.26s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  69%|######9   | 2417/3500 [2:09:07<40:51,  2.26s/it, lr: 2.0e-04 loss: 3.459e-02]wan_dewa:  69%|######9   | 2417/3500 [2:09:09<40:51,  2.26s/it, lr: 2.0e-04 loss: 4.591e-02]wan_dewa:  69%|######9   | 2417/3500 [2:09:09<40:51,  2.26s/it, lr: 2.0e-04 loss: 4.591e-02]wan_dewa:  69%|######9   | 2418/3500 [2:09:09<40:57,  2.27s/it, lr: 2.0e-04 loss: 4.591e-02]wan_dewa:  69%|######9   | 2418/3500 [2:09:09<40:57,  2.27s/it, lr: 2.0e-04 loss: 4.591e-02]wan_dewa:  69%|######9   | 2418/3500 [2:09:12<40:57,  2.27s/it, lr: 2.0e-04 loss: 4.024e-02]wan_dewa:  69%|######9   | 2418/3500 [2:09:12<40:57,  2.27s/it, lr: 2.0e-04 loss: 4.024e-02]wan_dewa:  69%|######9   | 2419/3500 [2:09:12<40:59,  2.28s/it, lr: 2.0e-04 loss: 4.024e-02]wan_dewa:  69%|######9   | 2419/3500 [2:09:12<40:59,  2.28s/it, lr: 2.0e-04 loss: 4.024e-02]wan_dewa:  69%|######9   | 2419/3500 [2:09:20<40:59,  2.28s/it, lr: 2.0e-04 loss: 3.928e-02]wan_dewa:  69%|######9   | 2419/3500 [2:09:20<40:59,  2.28s/it, lr: 2.0e-04 loss: 3.928e-02]wan_dewa:  69%|######9   | 2420/3500 [2:09:22<40:57,  2.28s/it, lr: 2.0e-04 loss: 3.722e-02]wan_dewa:  69%|######9   | 2420/3500 [2:09:22<40:57,  2.28s/it, lr: 2.0e-04 loss: 3.722e-02]wan_dewa:  69%|######9   | 2421/3500 [2:09:22<31:35,  1.76s/it, lr: 2.0e-04 loss: 3.722e-02]wan_dewa:  69%|######9   | 2421/3500 [2:09:22<31:35,  1.76s/it, lr: 2.0e-04 loss: 3.722e-02]wan_dewa:  69%|######9   | 2421/3500 [2:09:24<31:35,  1.76s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  69%|######9   | 2421/3500 [2:09:24<31:35,  1.76s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  69%|######9   | 2422/3500 [2:09:24<34:47,  1.94s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  69%|######9   | 2422/3500 [2:09:24<34:47,  1.94s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  69%|######9   | 2422/3500 [2:09:27<34:47,  1.94s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  69%|######9   | 2422/3500 [2:09:27<34:47,  1.94s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  69%|######9   | 2423/3500 [2:09:27<36:20,  2.02s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  69%|######9   | 2423/3500 [2:09:27<36:20,  2.02s/it, lr: 2.0e-04 loss: 3.342e-02]wan_dewa:  69%|######9   | 2423/3500 [2:09:29<36:20,  2.02s/it, lr: 2.0e-04 loss: 4.400e-02]wan_dewa:  69%|######9   | 2423/3500 [2:09:29<36:20,  2.02s/it, lr: 2.0e-04 loss: 4.400e-02]wan_dewa:  69%|######9   | 2424/3500 [2:09:29<37:31,  2.09s/it, lr: 2.0e-04 loss: 4.400e-02]wan_dewa:  69%|######9   | 2424/3500 [2:09:29<37:31,  2.09s/it, lr: 2.0e-04 loss: 4.400e-02]wan_dewa:  69%|######9   | 2424/3500 [2:09:33<37:31,  2.09s/it, lr: 2.0e-04 loss: 2.475e-02]wan_dewa:  69%|######9   | 2424/3500 [2:09:33<37:31,  2.09s/it, lr: 2.0e-04 loss: 2.475e-02]wan_dewa:  69%|######9   | 2425/3500 [2:09:33<38:35,  2.15s/it, lr: 2.0e-04 loss: 2.475e-02]wan_dewa:  69%|######9   | 2425/3500 [2:09:33<38:35,  2.15s/it, lr: 2.0e-04 loss: 2.475e-02]wan_dewa:  69%|######9   | 2425/3500 [2:09:36<38:35,  2.15s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  69%|######9   | 2425/3500 [2:09:36<38:35,  2.15s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  69%|######9   | 2426/3500 [2:09:36<39:12,  2.19s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  69%|######9   | 2426/3500 [2:09:36<39:12,  2.19s/it, lr: 2.0e-04 loss: 2.783e-02]wan_dewa:  69%|######9   | 2426/3500 [2:09:38<39:12,  2.19s/it, lr: 2.0e-04 loss: 4.307e-02]wan_dewa:  69%|######9   | 2426/3500 [2:09:38<39:12,  2.19s/it, lr: 2.0e-04 loss: 4.307e-02]wan_dewa:  69%|######9   | 2427/3500 [2:09:38<41:09,  2.30s/it, lr: 2.0e-04 loss: 4.307e-02]wan_dewa:  69%|######9   | 2427/3500 [2:09:38<41:09,  2.30s/it, lr: 2.0e-04 loss: 4.307e-02]wan_dewa:  69%|######9   | 2427/3500 [2:09:41<41:09,  2.30s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  69%|######9   | 2427/3500 [2:09:41<41:09,  2.30s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  69%|######9   | 2428/3500 [2:09:41<40:58,  2.29s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  69%|######9   | 2428/3500 [2:09:41<40:58,  2.29s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  69%|######9   | 2428/3500 [2:09:43<40:58,  2.29s/it, lr: 2.0e-04 loss: 3.739e-02]wan_dewa:  69%|######9   | 2428/3500 [2:09:43<40:58,  2.29s/it, lr: 2.0e-04 loss: 3.739e-02]wan_dewa:  69%|######9   | 2429/3500 [2:09:43<40:51,  2.29s/it, lr: 2.0e-04 loss: 3.739e-02]wan_dewa:  69%|######9   | 2429/3500 [2:09:43<40:51,  2.29s/it, lr: 2.0e-04 loss: 3.739e-02]wan_dewa:  69%|######9   | 2429/3500 [2:09:54<40:51,  2.29s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  69%|######9   | 2429/3500 [2:09:54<40:51,  2.29s/it, lr: 2.0e-04 loss: 5.188e-02]wan_dewa:  69%|######9   | 2430/3500 [2:09:57<40:48,  2.29s/it, lr: 2.0e-04 loss: 9.205e-02]wan_dewa:  69%|######9   | 2430/3500 [2:09:57<40:48,  2.29s/it, lr: 2.0e-04 loss: 9.205e-02]wan_dewa:  69%|######9   | 2431/3500 [2:09:57<31:25,  1.76s/it, lr: 2.0e-04 loss: 9.205e-02]wan_dewa:  69%|######9   | 2431/3500 [2:09:57<31:25,  1.76s/it, lr: 2.0e-04 loss: 9.205e-02]wan_dewa:  69%|######9   | 2431/3500 [2:09:59<31:25,  1.76s/it, lr: 2.0e-04 loss: 9.177e-02]wan_dewa:  69%|######9   | 2431/3500 [2:09:59<31:25,  1.76s/it, lr: 2.0e-04 loss: 9.177e-02]wan_dewa:  69%|######9   | 2432/3500 [2:09:59<34:24,  1.93s/it, lr: 2.0e-04 loss: 9.177e-02]wan_dewa:  69%|######9   | 2432/3500 [2:09:59<34:24,  1.93s/it, lr: 2.0e-04 loss: 9.177e-02]wan_dewa:  69%|######9   | 2432/3500 [2:10:01<34:24,  1.93s/it, lr: 2.0e-04 loss: 8.496e-02]wan_dewa:  69%|######9   | 2432/3500 [2:10:01<34:24,  1.93s/it, lr: 2.0e-04 loss: 8.496e-02]wan_dewa:  70%|######9   | 2433/3500 [2:10:01<35:58,  2.02s/it, lr: 2.0e-04 loss: 8.496e-02]wan_dewa:  70%|######9   | 2433/3500 [2:10:01<35:58,  2.02s/it, lr: 2.0e-04 loss: 8.496e-02]wan_dewa:  70%|######9   | 2433/3500 [2:10:04<35:58,  2.02s/it, lr: 2.0e-04 loss: 6.841e-02]wan_dewa:  70%|######9   | 2433/3500 [2:10:04<35:58,  2.02s/it, lr: 2.0e-04 loss: 6.841e-02]wan_dewa:  70%|######9   | 2434/3500 [2:10:04<37:10,  2.09s/it, lr: 2.0e-04 loss: 6.841e-02]wan_dewa:  70%|######9   | 2434/3500 [2:10:04<37:10,  2.09s/it, lr: 2.0e-04 loss: 6.841e-02]wan_dewa:  70%|######9   | 2434/3500 [2:10:06<37:10,  2.09s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  70%|######9   | 2434/3500 [2:10:06<37:10,  2.09s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  70%|######9   | 2435/3500 [2:10:06<38:04,  2.15s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  70%|######9   | 2435/3500 [2:10:06<38:04,  2.15s/it, lr: 2.0e-04 loss: 6.368e-02]wan_dewa:  70%|######9   | 2435/3500 [2:10:08<38:04,  2.15s/it, lr: 2.0e-04 loss: 8.795e-02]wan_dewa:  70%|######9   | 2435/3500 [2:10:08<38:04,  2.15s/it, lr: 2.0e-04 loss: 8.795e-02]wan_dewa:  70%|######9   | 2436/3500 [2:10:08<38:43,  2.18s/it, lr: 2.0e-04 loss: 8.795e-02]wan_dewa:  70%|######9   | 2436/3500 [2:10:08<38:43,  2.18s/it, lr: 2.0e-04 loss: 8.795e-02]wan_dewa:  70%|######9   | 2436/3500 [2:10:11<38:43,  2.18s/it, lr: 2.0e-04 loss: 6.676e-02]wan_dewa:  70%|######9   | 2436/3500 [2:10:11<38:43,  2.18s/it, lr: 2.0e-04 loss: 6.676e-02]wan_dewa:  70%|######9   | 2437/3500 [2:10:11<40:03,  2.26s/it, lr: 2.0e-04 loss: 6.676e-02]wan_dewa:  70%|######9   | 2437/3500 [2:10:11<40:03,  2.26s/it, lr: 2.0e-04 loss: 6.676e-02]wan_dewa:  70%|######9   | 2437/3500 [2:10:13<40:03,  2.26s/it, lr: 2.0e-04 loss: 1.364e-01]wan_dewa:  70%|######9   | 2437/3500 [2:10:13<40:03,  2.26s/it, lr: 2.0e-04 loss: 1.364e-01]wan_dewa:  70%|######9   | 2438/3500 [2:10:13<40:07,  2.27s/it, lr: 2.0e-04 loss: 1.364e-01]wan_dewa:  70%|######9   | 2438/3500 [2:10:13<40:07,  2.27s/it, lr: 2.0e-04 loss: 1.364e-01]wan_dewa:  70%|######9   | 2438/3500 [2:10:15<40:07,  2.27s/it, lr: 2.0e-04 loss: 9.618e-02]wan_dewa:  70%|######9   | 2438/3500 [2:10:15<40:07,  2.27s/it, lr: 2.0e-04 loss: 9.618e-02]wan_dewa:  70%|######9   | 2439/3500 [2:10:15<40:09,  2.27s/it, lr: 2.0e-04 loss: 9.618e-02]wan_dewa:  70%|######9   | 2439/3500 [2:10:15<40:09,  2.27s/it, lr: 2.0e-04 loss: 9.618e-02]wan_dewa:  70%|######9   | 2439/3500 [2:10:26<40:09,  2.27s/it, lr: 2.0e-04 loss: 2.027e-02]wan_dewa:  70%|######9   | 2439/3500 [2:10:26<40:09,  2.27s/it, lr: 2.0e-04 loss: 2.027e-02]wan_dewa:  70%|######9   | 2440/3500 [2:10:29<40:07,  2.27s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  70%|######9   | 2440/3500 [2:10:29<40:07,  2.27s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  70%|######9   | 2441/3500 [2:10:29<30:58,  1.76s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  70%|######9   | 2441/3500 [2:10:29<30:58,  1.76s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  70%|######9   | 2441/3500 [2:10:31<30:58,  1.76s/it, lr: 2.0e-04 loss: 3.714e-02]wan_dewa:  70%|######9   | 2441/3500 [2:10:31<30:58,  1.76s/it, lr: 2.0e-04 loss: 3.714e-02]wan_dewa:  70%|######9   | 2442/3500 [2:10:31<34:08,  1.94s/it, lr: 2.0e-04 loss: 3.714e-02]wan_dewa:  70%|######9   | 2442/3500 [2:10:31<34:08,  1.94s/it, lr: 2.0e-04 loss: 3.714e-02]wan_dewa:  70%|######9   | 2442/3500 [2:10:33<34:08,  1.94s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  70%|######9   | 2442/3500 [2:10:33<34:08,  1.94s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  70%|######9   | 2443/3500 [2:10:33<35:41,  2.03s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  70%|######9   | 2443/3500 [2:10:33<35:41,  2.03s/it, lr: 2.0e-04 loss: 3.308e-02]wan_dewa:  70%|######9   | 2443/3500 [2:10:36<35:41,  2.03s/it, lr: 2.0e-04 loss: 4.114e-02]wan_dewa:  70%|######9   | 2443/3500 [2:10:36<35:41,  2.03s/it, lr: 2.0e-04 loss: 4.114e-02]wan_dewa:  70%|######9   | 2444/3500 [2:10:36<36:51,  2.09s/it, lr: 2.0e-04 loss: 4.114e-02]wan_dewa:  70%|######9   | 2444/3500 [2:10:36<36:51,  2.09s/it, lr: 2.0e-04 loss: 4.114e-02]wan_dewa:  70%|######9   | 2444/3500 [2:10:38<36:51,  2.09s/it, lr: 2.0e-04 loss: 2.207e-02]wan_dewa:  70%|######9   | 2444/3500 [2:10:38<36:51,  2.09s/it, lr: 2.0e-04 loss: 2.207e-02]wan_dewa:  70%|######9   | 2445/3500 [2:10:38<37:45,  2.15s/it, lr: 2.0e-04 loss: 2.207e-02]wan_dewa:  70%|######9   | 2445/3500 [2:10:38<37:45,  2.15s/it, lr: 2.0e-04 loss: 2.207e-02]wan_dewa:  70%|######9   | 2445/3500 [2:10:40<37:45,  2.15s/it, lr: 2.0e-04 loss: 2.909e-02]wan_dewa:  70%|######9   | 2445/3500 [2:10:40<37:45,  2.15s/it, lr: 2.0e-04 loss: 2.909e-02]wan_dewa:  70%|######9   | 2446/3500 [2:10:40<38:23,  2.19s/it, lr: 2.0e-04 loss: 2.909e-02]wan_dewa:  70%|######9   | 2446/3500 [2:10:40<38:23,  2.19s/it, lr: 2.0e-04 loss: 2.909e-02]wan_dewa:  70%|######9   | 2446/3500 [2:10:43<38:23,  2.19s/it, lr: 2.0e-04 loss: 5.137e-02]wan_dewa:  70%|######9   | 2446/3500 [2:10:43<38:23,  2.19s/it, lr: 2.0e-04 loss: 5.137e-02]wan_dewa:  70%|######9   | 2447/3500 [2:10:43<40:06,  2.29s/it, lr: 2.0e-04 loss: 5.137e-02]wan_dewa:  70%|######9   | 2447/3500 [2:10:43<40:06,  2.29s/it, lr: 2.0e-04 loss: 5.137e-02]wan_dewa:  70%|######9   | 2447/3500 [2:10:45<40:06,  2.29s/it, lr: 2.0e-04 loss: 2.298e-02]wan_dewa:  70%|######9   | 2447/3500 [2:10:45<40:06,  2.29s/it, lr: 2.0e-04 loss: 2.298e-02]wan_dewa:  70%|######9   | 2448/3500 [2:10:45<40:03,  2.28s/it, lr: 2.0e-04 loss: 2.298e-02]wan_dewa:  70%|######9   | 2448/3500 [2:10:45<40:03,  2.28s/it, lr: 2.0e-04 loss: 2.298e-02]wan_dewa:  70%|######9   | 2448/3500 [2:10:47<40:03,  2.28s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  70%|######9   | 2448/3500 [2:10:47<40:03,  2.28s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  70%|######9   | 2449/3500 [2:10:47<40:00,  2.28s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  70%|######9   | 2449/3500 [2:10:47<40:00,  2.28s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  70%|######9   | 2449/3500 [2:11:01<40:00,  2.28s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  70%|######9   | 2449/3500 [2:11:01<40:00,  2.28s/it, lr: 2.0e-04 loss: 4.230e-02]wan_dewa:  70%|#######   | 2450/3500 [2:11:03<39:58,  2.28s/it, lr: 2.0e-04 loss: 1.093e-01]wan_dewa:  70%|#######   | 2450/3500 [2:11:03<39:58,  2.28s/it, lr: 2.0e-04 loss: 1.093e-01]wan_dewa:  70%|#######   | 2451/3500 [2:11:03<30:52,  1.77s/it, lr: 2.0e-04 loss: 1.093e-01]wan_dewa:  70%|#######   | 2451/3500 [2:11:03<30:52,  1.77s/it, lr: 2.0e-04 loss: 1.093e-01]wan_dewa:  70%|#######   | 2451/3500 [2:11:06<30:52,  1.77s/it, lr: 2.0e-04 loss: 8.451e-02]wan_dewa:  70%|#######   | 2451/3500 [2:11:06<30:52,  1.77s/it, lr: 2.0e-04 loss: 8.451e-02]wan_dewa:  70%|#######   | 2452/3500 [2:11:06<34:27,  1.97s/it, lr: 2.0e-04 loss: 8.451e-02]wan_dewa:  70%|#######   | 2452/3500 [2:11:06<34:27,  1.97s/it, lr: 2.0e-04 loss: 8.451e-02]wan_dewa:  70%|#######   | 2452/3500 [2:11:08<34:27,  1.97s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  70%|#######   | 2452/3500 [2:11:08<34:27,  1.97s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  70%|#######   | 2453/3500 [2:11:08<35:47,  2.05s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  70%|#######   | 2453/3500 [2:11:08<35:47,  2.05s/it, lr: 2.0e-04 loss: 7.560e-02]wan_dewa:  70%|#######   | 2453/3500 [2:11:10<35:47,  2.05s/it, lr: 2.0e-04 loss: 5.713e-02]wan_dewa:  70%|#######   | 2453/3500 [2:11:10<35:47,  2.05s/it, lr: 2.0e-04 loss: 5.713e-02]wan_dewa:  70%|#######   | 2454/3500 [2:11:10<36:49,  2.11s/it, lr: 2.0e-04 loss: 5.713e-02]wan_dewa:  70%|#######   | 2454/3500 [2:11:10<36:49,  2.11s/it, lr: 2.0e-04 loss: 5.713e-02]wan_dewa:  70%|#######   | 2454/3500 [2:11:13<36:49,  2.11s/it, lr: 2.0e-04 loss: 5.577e-02]wan_dewa:  70%|#######   | 2454/3500 [2:11:13<36:49,  2.11s/it, lr: 2.0e-04 loss: 5.577e-02]wan_dewa:  70%|#######   | 2455/3500 [2:11:13<37:35,  2.16s/it, lr: 2.0e-04 loss: 5.577e-02]wan_dewa:  70%|#######   | 2455/3500 [2:11:13<37:35,  2.16s/it, lr: 2.0e-04 loss: 5.577e-02]wan_dewa:  70%|#######   | 2455/3500 [2:11:15<37:35,  2.16s/it, lr: 2.0e-04 loss: 1.162e-01]wan_dewa:  70%|#######   | 2455/3500 [2:11:15<37:35,  2.16s/it, lr: 2.0e-04 loss: 1.162e-01]wan_dewa:  70%|#######   | 2456/3500 [2:11:15<38:09,  2.19s/it, lr: 2.0e-04 loss: 1.162e-01]wan_dewa:  70%|#######   | 2456/3500 [2:11:15<38:09,  2.19s/it, lr: 2.0e-04 loss: 1.162e-01]wan_dewa:  70%|#######   | 2456/3500 [2:11:17<38:09,  2.19s/it, lr: 2.0e-04 loss: 1.337e-01]wan_dewa:  70%|#######   | 2456/3500 [2:11:17<38:09,  2.19s/it, lr: 2.0e-04 loss: 1.337e-01]wan_dewa:  70%|#######   | 2457/3500 [2:11:17<38:33,  2.22s/it, lr: 2.0e-04 loss: 1.337e-01]wan_dewa:  70%|#######   | 2457/3500 [2:11:17<38:33,  2.22s/it, lr: 2.0e-04 loss: 1.337e-01]wan_dewa:  70%|#######   | 2457/3500 [2:11:20<38:33,  2.22s/it, lr: 2.0e-04 loss: 1.378e-01]wan_dewa:  70%|#######   | 2457/3500 [2:11:20<38:33,  2.22s/it, lr: 2.0e-04 loss: 1.378e-01]wan_dewa:  70%|#######   | 2458/3500 [2:11:20<39:52,  2.30s/it, lr: 2.0e-04 loss: 1.378e-01]wan_dewa:  70%|#######   | 2458/3500 [2:11:20<39:52,  2.30s/it, lr: 2.0e-04 loss: 1.378e-01]wan_dewa:  70%|#######   | 2458/3500 [2:11:22<39:52,  2.30s/it, lr: 2.0e-04 loss: 4.633e-02]wan_dewa:  70%|#######   | 2458/3500 [2:11:22<39:52,  2.30s/it, lr: 2.0e-04 loss: 4.633e-02]wan_dewa:  70%|#######   | 2459/3500 [2:11:22<39:48,  2.29s/it, lr: 2.0e-04 loss: 4.633e-02]wan_dewa:  70%|#######   | 2459/3500 [2:11:22<39:48,  2.29s/it, lr: 2.0e-04 loss: 4.633e-02]wan_dewa:  70%|#######   | 2459/3500 [2:11:33<39:48,  2.29s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  70%|#######   | 2459/3500 [2:11:33<39:48,  2.29s/it, lr: 2.0e-04 loss: 3.689e-02]wan_dewa:  70%|#######   | 2460/3500 [2:11:35<39:46,  2.29s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  70%|#######   | 2460/3500 [2:11:35<39:46,  2.29s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  70%|#######   | 2461/3500 [2:11:35<30:33,  1.77s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  70%|#######   | 2461/3500 [2:11:35<30:33,  1.77s/it, lr: 2.0e-04 loss: 4.516e-02]wan_dewa:  70%|#######   | 2461/3500 [2:11:37<30:33,  1.77s/it, lr: 2.0e-04 loss: 1.719e-02]wan_dewa:  70%|#######   | 2461/3500 [2:11:37<30:33,  1.77s/it, lr: 2.0e-04 loss: 1.719e-02]wan_dewa:  70%|#######   | 2462/3500 [2:11:37<32:41,  1.89s/it, lr: 2.0e-04 loss: 1.719e-02]wan_dewa:  70%|#######   | 2462/3500 [2:11:37<32:41,  1.89s/it, lr: 2.0e-04 loss: 1.719e-02]wan_dewa:  70%|#######   | 2462/3500 [2:11:40<32:41,  1.89s/it, lr: 2.0e-04 loss: 4.710e-02]wan_dewa:  70%|#######   | 2462/3500 [2:11:40<32:41,  1.89s/it, lr: 2.0e-04 loss: 4.710e-02]wan_dewa:  70%|#######   | 2463/3500 [2:11:40<35:17,  2.04s/it, lr: 2.0e-04 loss: 4.710e-02]wan_dewa:  70%|#######   | 2463/3500 [2:11:40<35:17,  2.04s/it, lr: 2.0e-04 loss: 4.710e-02]wan_dewa:  70%|#######   | 2463/3500 [2:11:42<35:17,  2.04s/it, lr: 2.0e-04 loss: 4.115e-02]wan_dewa:  70%|#######   | 2463/3500 [2:11:42<35:17,  2.04s/it, lr: 2.0e-04 loss: 4.115e-02]wan_dewa:  70%|#######   | 2464/3500 [2:11:42<36:19,  2.10s/it, lr: 2.0e-04 loss: 4.115e-02]wan_dewa:  70%|#######   | 2464/3500 [2:11:42<36:19,  2.10s/it, lr: 2.0e-04 loss: 4.115e-02]wan_dewa:  70%|#######   | 2464/3500 [2:11:45<36:19,  2.10s/it, lr: 2.0e-04 loss: 2.556e-02]wan_dewa:  70%|#######   | 2464/3500 [2:11:45<36:19,  2.10s/it, lr: 2.0e-04 loss: 2.556e-02]wan_dewa:  70%|#######   | 2465/3500 [2:11:45<37:07,  2.15s/it, lr: 2.0e-04 loss: 2.556e-02]wan_dewa:  70%|#######   | 2465/3500 [2:11:45<37:07,  2.15s/it, lr: 2.0e-04 loss: 2.556e-02]wan_dewa:  70%|#######   | 2465/3500 [2:11:47<37:07,  2.15s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  70%|#######   | 2465/3500 [2:11:47<37:07,  2.15s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  70%|#######   | 2466/3500 [2:11:47<37:42,  2.19s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  70%|#######   | 2466/3500 [2:11:47<37:42,  2.19s/it, lr: 2.0e-04 loss: 3.879e-02]wan_dewa:  70%|#######   | 2466/3500 [2:11:49<37:42,  2.19s/it, lr: 2.0e-04 loss: 3.337e-02]wan_dewa:  70%|#######   | 2466/3500 [2:11:49<37:42,  2.19s/it, lr: 2.0e-04 loss: 3.337e-02]wan_dewa:  70%|#######   | 2467/3500 [2:11:49<38:06,  2.21s/it, lr: 2.0e-04 loss: 3.337e-02]wan_dewa:  70%|#######   | 2467/3500 [2:11:49<38:06,  2.21s/it, lr: 2.0e-04 loss: 3.337e-02]wan_dewa:  70%|#######   | 2467/3500 [2:11:52<38:06,  2.21s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  70%|#######   | 2467/3500 [2:11:52<38:06,  2.21s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  71%|#######   | 2468/3500 [2:11:52<39:24,  2.29s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  71%|#######   | 2468/3500 [2:11:52<39:24,  2.29s/it, lr: 2.0e-04 loss: 4.262e-02]wan_dewa:  71%|#######   | 2468/3500 [2:11:54<39:24,  2.29s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  71%|#######   | 2468/3500 [2:11:54<39:24,  2.29s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  71%|#######   | 2469/3500 [2:11:54<39:18,  2.29s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  71%|#######   | 2469/3500 [2:11:54<39:18,  2.29s/it, lr: 2.0e-04 loss: 4.396e-02]wan_dewa:  71%|#######   | 2469/3500 [2:12:02<39:18,  2.29s/it, lr: 2.0e-04 loss: 6.281e-02]wan_dewa:  71%|#######   | 2469/3500 [2:12:02<39:18,  2.29s/it, lr: 2.0e-04 loss: 6.281e-02]wan_dewa:  71%|#######   | 2470/3500 [2:12:04<39:15,  2.29s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  71%|#######   | 2470/3500 [2:12:04<39:15,  2.29s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  71%|#######   | 2471/3500 [2:12:04<30:13,  1.76s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  71%|#######   | 2471/3500 [2:12:04<30:13,  1.76s/it, lr: 2.0e-04 loss: 4.959e-02]wan_dewa:  71%|#######   | 2471/3500 [2:12:06<30:13,  1.76s/it, lr: 2.0e-04 loss: 3.264e-02]wan_dewa:  71%|#######   | 2471/3500 [2:12:06<30:13,  1.76s/it, lr: 2.0e-04 loss: 3.264e-02]wan_dewa:  71%|#######   | 2472/3500 [2:12:06<32:20,  1.89s/it, lr: 2.0e-04 loss: 3.264e-02]wan_dewa:  71%|#######   | 2472/3500 [2:12:06<32:20,  1.89s/it, lr: 2.0e-04 loss: 3.264e-02]wan_dewa:  71%|#######   | 2472/3500 [2:12:09<32:20,  1.89s/it, lr: 2.0e-04 loss: 6.418e-02]wan_dewa:  71%|#######   | 2472/3500 [2:12:09<32:20,  1.89s/it, lr: 2.0e-04 loss: 6.418e-02]wan_dewa:  71%|#######   | 2473/3500 [2:12:09<34:02,  1.99s/it, lr: 2.0e-04 loss: 6.418e-02]wan_dewa:  71%|#######   | 2473/3500 [2:12:09<34:02,  1.99s/it, lr: 2.0e-04 loss: 6.418e-02]wan_dewa:  71%|#######   | 2473/3500 [2:12:11<34:02,  1.99s/it, lr: 2.0e-04 loss: 7.945e-02]wan_dewa:  71%|#######   | 2473/3500 [2:12:11<34:02,  1.99s/it, lr: 2.0e-04 loss: 7.945e-02]wan_dewa:  71%|#######   | 2474/3500 [2:12:11<36:13,  2.12s/it, lr: 2.0e-04 loss: 7.945e-02]wan_dewa:  71%|#######   | 2474/3500 [2:12:11<36:13,  2.12s/it, lr: 2.0e-04 loss: 7.945e-02]wan_dewa:  71%|#######   | 2474/3500 [2:12:16<36:13,  2.12s/it, lr: 2.0e-04 loss: 4.707e-02]wan_dewa:  71%|#######   | 2474/3500 [2:12:16<36:13,  2.12s/it, lr: 2.0e-04 loss: 4.707e-02]wan_dewa:  71%|#######   | 2475/3500 [2:12:16<37:05,  2.17s/it, lr: 2.0e-04 loss: 4.707e-02]wan_dewa:  71%|#######   | 2475/3500 [2:12:16<37:05,  2.17s/it, lr: 2.0e-04 loss: 4.707e-02]wan_dewa:  71%|#######   | 2475/3500 [2:12:18<37:05,  2.17s/it, lr: 2.0e-04 loss: 1.719e-01]wan_dewa:  71%|#######   | 2475/3500 [2:12:18<37:05,  2.17s/it, lr: 2.0e-04 loss: 1.719e-01]wan_dewa:  71%|#######   | 2476/3500 [2:12:18<37:33,  2.20s/it, lr: 2.0e-04 loss: 1.719e-01]wan_dewa:  71%|#######   | 2476/3500 [2:12:18<37:33,  2.20s/it, lr: 2.0e-04 loss: 1.719e-01]wan_dewa:  71%|#######   | 2476/3500 [2:12:20<37:33,  2.20s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:  71%|#######   | 2476/3500 [2:12:20<37:33,  2.20s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:  71%|#######   | 2477/3500 [2:12:20<37:53,  2.22s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:  71%|#######   | 2477/3500 [2:12:20<37:53,  2.22s/it, lr: 2.0e-04 loss: 6.696e-02]wan_dewa:  71%|#######   | 2477/3500 [2:12:22<37:53,  2.22s/it, lr: 2.0e-04 loss: 1.653e-01]wan_dewa:  71%|#######   | 2477/3500 [2:12:22<37:53,  2.22s/it, lr: 2.0e-04 loss: 1.653e-01]wan_dewa:  71%|#######   | 2478/3500 [2:12:22<38:06,  2.24s/it, lr: 2.0e-04 loss: 1.653e-01]wan_dewa:  71%|#######   | 2478/3500 [2:12:22<38:06,  2.24s/it, lr: 2.0e-04 loss: 1.653e-01]wan_dewa:  71%|#######   | 2478/3500 [2:12:25<38:06,  2.24s/it, lr: 2.0e-04 loss: 5.097e-02]wan_dewa:  71%|#######   | 2478/3500 [2:12:25<38:06,  2.24s/it, lr: 2.0e-04 loss: 5.097e-02]wan_dewa:  71%|#######   | 2479/3500 [2:12:25<39:45,  2.34s/it, lr: 2.0e-04 loss: 5.097e-02]wan_dewa:  71%|#######   | 2479/3500 [2:12:25<39:45,  2.34s/it, lr: 2.0e-04 loss: 5.097e-02]wan_dewa:  71%|#######   | 2479/3500 [2:12:36<39:45,  2.34s/it, lr: 2.0e-04 loss: 3.747e-02]wan_dewa:  71%|#######   | 2479/3500 [2:12:36<39:45,  2.34s/it, lr: 2.0e-04 loss: 3.747e-02]wan_dewa:  71%|#######   | 2480/3500 [2:12:38<39:43,  2.34s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  71%|#######   | 2480/3500 [2:12:38<39:43,  2.34s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  71%|#######   | 2481/3500 [2:12:38<30:26,  1.79s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  71%|#######   | 2481/3500 [2:12:38<30:26,  1.79s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  71%|#######   | 2481/3500 [2:12:41<30:26,  1.79s/it, lr: 2.0e-04 loss: 4.119e-02]wan_dewa:  71%|#######   | 2481/3500 [2:12:41<30:26,  1.79s/it, lr: 2.0e-04 loss: 4.119e-02]wan_dewa:  71%|#######   | 2482/3500 [2:12:41<32:24,  1.91s/it, lr: 2.0e-04 loss: 4.119e-02]wan_dewa:  71%|#######   | 2482/3500 [2:12:41<32:24,  1.91s/it, lr: 2.0e-04 loss: 4.119e-02]wan_dewa:  71%|#######   | 2482/3500 [2:12:43<32:24,  1.91s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  71%|#######   | 2482/3500 [2:12:43<32:24,  1.91s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  71%|#######   | 2483/3500 [2:12:43<33:59,  2.01s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  71%|#######   | 2483/3500 [2:12:43<33:59,  2.01s/it, lr: 2.0e-04 loss: 3.334e-02]wan_dewa:  71%|#######   | 2483/3500 [2:12:45<33:59,  2.01s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  71%|#######   | 2483/3500 [2:12:45<33:59,  2.01s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  71%|#######   | 2484/3500 [2:12:45<36:03,  2.13s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  71%|#######   | 2484/3500 [2:12:45<36:03,  2.13s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  71%|#######   | 2484/3500 [2:12:48<36:03,  2.13s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  71%|#######   | 2484/3500 [2:12:48<36:03,  2.13s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  71%|#######1  | 2485/3500 [2:12:48<36:41,  2.17s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  71%|#######1  | 2485/3500 [2:12:48<36:41,  2.17s/it, lr: 2.0e-04 loss: 4.626e-02]wan_dewa:  71%|#######1  | 2485/3500 [2:12:50<36:41,  2.17s/it, lr: 2.0e-04 loss: 2.865e-02]wan_dewa:  71%|#######1  | 2485/3500 [2:12:50<36:41,  2.17s/it, lr: 2.0e-04 loss: 2.865e-02]wan_dewa:  71%|#######1  | 2486/3500 [2:12:50<37:10,  2.20s/it, lr: 2.0e-04 loss: 2.865e-02]wan_dewa:  71%|#######1  | 2486/3500 [2:12:50<37:10,  2.20s/it, lr: 2.0e-04 loss: 2.865e-02]wan_dewa:  71%|#######1  | 2486/3500 [2:12:52<37:10,  2.20s/it, lr: 2.0e-04 loss: 2.340e-02]wan_dewa:  71%|#######1  | 2486/3500 [2:12:52<37:10,  2.20s/it, lr: 2.0e-04 loss: 2.340e-02]wan_dewa:  71%|#######1  | 2487/3500 [2:12:52<37:31,  2.22s/it, lr: 2.0e-04 loss: 2.340e-02]wan_dewa:  71%|#######1  | 2487/3500 [2:12:52<37:31,  2.22s/it, lr: 2.0e-04 loss: 2.340e-02]wan_dewa:  71%|#######1  | 2487/3500 [2:12:55<37:31,  2.22s/it, lr: 2.0e-04 loss: 2.564e-02]wan_dewa:  71%|#######1  | 2487/3500 [2:12:55<37:31,  2.22s/it, lr: 2.0e-04 loss: 2.564e-02]wan_dewa:  71%|#######1  | 2488/3500 [2:12:55<37:45,  2.24s/it, lr: 2.0e-04 loss: 2.564e-02]wan_dewa:  71%|#######1  | 2488/3500 [2:12:55<37:45,  2.24s/it, lr: 2.0e-04 loss: 2.564e-02]wan_dewa:  71%|#######1  | 2488/3500 [2:12:57<37:45,  2.24s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  71%|#######1  | 2488/3500 [2:12:57<37:45,  2.24s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  71%|#######1  | 2489/3500 [2:12:57<37:55,  2.25s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  71%|#######1  | 2489/3500 [2:12:57<37:55,  2.25s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  71%|#######1  | 2489/3500 [2:13:08<37:55,  2.25s/it, lr: 2.0e-04 loss: 4.291e-02]wan_dewa:  71%|#######1  | 2489/3500 [2:13:08<37:55,  2.25s/it, lr: 2.0e-04 loss: 4.291e-02]wan_dewa:  71%|#######1  | 2490/3500 [2:13:10<37:53,  2.25s/it, lr: 2.0e-04 loss: 4.852e-02]wan_dewa:  71%|#######1  | 2490/3500 [2:13:10<37:53,  2.25s/it, lr: 2.0e-04 loss: 4.852e-02]wan_dewa:  71%|#######1  | 2491/3500 [2:13:10<29:19,  1.74s/it, lr: 2.0e-04 loss: 4.852e-02]wan_dewa:  71%|#######1  | 2491/3500 [2:13:10<29:19,  1.74s/it, lr: 2.0e-04 loss: 4.852e-02]wan_dewa:  71%|#######1  | 2491/3500 [2:13:13<29:19,  1.74s/it, lr: 2.0e-04 loss: 1.750e-01]wan_dewa:  71%|#######1  | 2491/3500 [2:13:13<29:19,  1.74s/it, lr: 2.0e-04 loss: 1.750e-01]wan_dewa:  71%|#######1  | 2492/3500 [2:13:13<31:29,  1.87s/it, lr: 2.0e-04 loss: 1.750e-01]wan_dewa:  71%|#######1  | 2492/3500 [2:13:13<31:29,  1.87s/it, lr: 2.0e-04 loss: 1.750e-01]wan_dewa:  71%|#######1  | 2492/3500 [2:13:15<31:29,  1.87s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  71%|#######1  | 2492/3500 [2:13:15<31:29,  1.87s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  71%|#######1  | 2493/3500 [2:13:15<33:12,  1.98s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  71%|#######1  | 2493/3500 [2:13:15<33:12,  1.98s/it, lr: 2.0e-04 loss: 1.455e-01]wan_dewa:  71%|#######1  | 2493/3500 [2:13:17<33:12,  1.98s/it, lr: 2.0e-04 loss: 2.382e-01]wan_dewa:  71%|#######1  | 2493/3500 [2:13:17<33:12,  1.98s/it, lr: 2.0e-04 loss: 2.382e-01]wan_dewa:  71%|#######1  | 2494/3500 [2:13:17<34:31,  2.06s/it, lr: 2.0e-04 loss: 2.382e-01]wan_dewa:  71%|#######1  | 2494/3500 [2:13:17<34:31,  2.06s/it, lr: 2.0e-04 loss: 2.382e-01]wan_dewa:  71%|#######1  | 2494/3500 [2:13:20<34:31,  2.06s/it, lr: 2.0e-04 loss: 4.448e-02]wan_dewa:  71%|#######1  | 2494/3500 [2:13:20<34:31,  2.06s/it, lr: 2.0e-04 loss: 4.448e-02]wan_dewa:  71%|#######1  | 2495/3500 [2:13:20<36:16,  2.17s/it, lr: 2.0e-04 loss: 4.448e-02]wan_dewa:  71%|#######1  | 2495/3500 [2:13:20<36:16,  2.17s/it, lr: 2.0e-04 loss: 4.448e-02]wan_dewa:  71%|#######1  | 2495/3500 [2:13:22<36:16,  2.17s/it, lr: 2.0e-04 loss: 3.781e-01]wan_dewa:  71%|#######1  | 2495/3500 [2:13:22<36:16,  2.17s/it, lr: 2.0e-04 loss: 3.781e-01]wan_dewa:  71%|#######1  | 2496/3500 [2:13:22<36:46,  2.20s/it, lr: 2.0e-04 loss: 3.781e-01]wan_dewa:  71%|#######1  | 2496/3500 [2:13:22<36:46,  2.20s/it, lr: 2.0e-04 loss: 3.781e-01]wan_dewa:  71%|#######1  | 2496/3500 [2:13:24<36:46,  2.20s/it, lr: 2.0e-04 loss: 6.408e-02]wan_dewa:  71%|#######1  | 2496/3500 [2:13:24<36:46,  2.20s/it, lr: 2.0e-04 loss: 6.408e-02]wan_dewa:  71%|#######1  | 2497/3500 [2:13:24<37:07,  2.22s/it, lr: 2.0e-04 loss: 6.408e-02]wan_dewa:  71%|#######1  | 2497/3500 [2:13:24<37:07,  2.22s/it, lr: 2.0e-04 loss: 6.408e-02]wan_dewa:  71%|#######1  | 2497/3500 [2:13:27<37:07,  2.22s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  71%|#######1  | 2497/3500 [2:13:27<37:07,  2.22s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  71%|#######1  | 2498/3500 [2:13:27<37:22,  2.24s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  71%|#######1  | 2498/3500 [2:13:27<37:22,  2.24s/it, lr: 2.0e-04 loss: 6.247e-02]wan_dewa:  71%|#######1  | 2498/3500 [2:13:29<37:22,  2.24s/it, lr: 2.0e-04 loss: 6.058e-02]wan_dewa:  71%|#######1  | 2498/3500 [2:13:29<37:22,  2.24s/it, lr: 2.0e-04 loss: 6.058e-02]wan_dewa:  71%|#######1  | 2499/3500 [2:13:29<37:32,  2.25s/it, lr: 2.0e-04 loss: 6.058e-02]wan_dewa:  71%|#######1  | 2499/3500 [2:13:29<37:32,  2.25s/it, lr: 2.0e-04 loss: 6.058e-02]wan_dewa:  71%|#######1  | 2499/3500 [2:13:42<37:32,  2.25s/it, lr: 2.0e-04 loss: 4.030e-02]wan_dewa:  71%|#######1  | 2499/3500 [2:13:42<37:32,  2.25s/it, lr: 2.0e-04 loss: 4.030e-02]
+Saving at step 2500
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000002500.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.61s/it] 12%|#2        | 3/25 [00:13<01:41,  4.61s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:40,  6.29s/it] 36%|###6      | 9/25 [00:46<01:40,  6.29s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.77s/it] 40%|####      | 10/25 [00:51<01:26,  5.77s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:15,  5.42s/it] 44%|####4     | 11/25 [00:56<01:15,  5.42s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.18s/it] 48%|####8     | 12/25 [01:00<01:07,  5.18s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.01s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.73s/it] 68%|######8   | 17/25 [01:23<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.67s/it] 84%|########4 | 21/25 [01:42<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.66s/it]100%|##########| 25/25 [02:01<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.84s/it]100%|##########| 25/25 [02:01<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.02s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.02s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.65s/it] 20%|##        | 5/25 [00:23<01:33,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.65s/it] 24%|##4       | 6/25 [00:27<01:28,  4.65s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.81s/it] 36%|###6      | 9/25 [00:45<01:32,  5.81s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.45s/it] 40%|####      | 10/25 [00:50<01:21,  5.45s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.21s/it] 44%|####4     | 11/25 [00:54<01:12,  5.21s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.04s/it] 48%|####8     | 12/25 [00:59<01:05,  5.04s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it] 52%|#####2    | 13/25 [01:04<00:59,  4.92s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.79s/it] 60%|######    | 15/25 [01:13<00:47,  4.79s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.68s/it] 88%|########8 | 22/25 [01:46<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.67s/it] 96%|#########6| 24/25 [01:55<00:04,  4.67s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.68s/it]100%|##########| 25/25 [02:00<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.81s/it]100%|##########| 25/25 [02:00<00:00,  4.81s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.23s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.23s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.67s/it] 16%|#6        | 4/25 [00:18<01:37,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.65s/it] 36%|###6      | 9/25 [00:45<01:30,  5.65s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.35s/it] 40%|####      | 10/25 [00:49<01:20,  5.35s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.10s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:08, 128.10s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.67s/it]  8%|8         | 2/25 [00:09<01:47,  4.67s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:42,  4.67s/it] 12%|#2        | 3/25 [00:14<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.65s/it] 36%|###6      | 9/25 [00:45<01:30,  5.65s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.34s/it] 40%|####      | 10/25 [00:49<01:20,  5.34s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.13s/it] 44%|####4     | 11/25 [00:54<01:11,  5.13s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.09s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.09s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  71%|#######1  | 2500/3500 [2:13:46<37:30,  2.25s/it, lr: 2.0e-04 loss: 2.321e-02]wan_dewa:  71%|#######1  | 2500/3500 [2:13:46<37:30,  2.25s/it, lr: 2.0e-04 loss: 2.321e-02]wan_dewa:  71%|#######1  | 2501/3500 [2:13:46<35:38,  2.14s/it, lr: 2.0e-04 loss: 2.321e-02]wan_dewa:  71%|#######1  | 2501/3500 [2:13:46<35:38,  2.14s/it, lr: 2.0e-04 loss: 2.321e-02]wan_dewa:  71%|#######1  | 2501/3500 [2:13:49<35:38,  2.14s/it, lr: 2.0e-04 loss: 4.541e-02]wan_dewa:  71%|#######1  | 2501/3500 [2:13:49<35:38,  2.14s/it, lr: 2.0e-04 loss: 4.541e-02]wan_dewa:  71%|#######1  | 2502/3500 [2:13:49<36:16,  2.18s/it, lr: 2.0e-04 loss: 4.541e-02]wan_dewa:  71%|#######1  | 2502/3500 [2:13:49<36:16,  2.18s/it, lr: 2.0e-04 loss: 4.541e-02]wan_dewa:  71%|#######1  | 2502/3500 [2:13:51<36:16,  2.18s/it, lr: 2.0e-04 loss: 2.866e-02]wan_dewa:  71%|#######1  | 2502/3500 [2:13:51<36:16,  2.18s/it, lr: 2.0e-04 loss: 2.866e-02]wan_dewa:  72%|#######1  | 2503/3500 [2:13:51<36:45,  2.21s/it, lr: 2.0e-04 loss: 2.866e-02]wan_dewa:  72%|#######1  | 2503/3500 [2:13:51<36:45,  2.21s/it, lr: 2.0e-04 loss: 2.866e-02]wan_dewa:  72%|#######1  | 2503/3500 [2:13:53<36:45,  2.21s/it, lr: 2.0e-04 loss: 3.780e-02]wan_dewa:  72%|#######1  | 2503/3500 [2:13:53<36:45,  2.21s/it, lr: 2.0e-04 loss: 3.780e-02]wan_dewa:  72%|#######1  | 2504/3500 [2:13:53<37:08,  2.24s/it, lr: 2.0e-04 loss: 3.780e-02]wan_dewa:  72%|#######1  | 2504/3500 [2:13:53<37:08,  2.24s/it, lr: 2.0e-04 loss: 3.780e-02]wan_dewa:  72%|#######1  | 2504/3500 [2:13:56<37:08,  2.24s/it, lr: 2.0e-04 loss: 3.526e-02]wan_dewa:  72%|#######1  | 2504/3500 [2:13:56<37:08,  2.24s/it, lr: 2.0e-04 loss: 3.526e-02]wan_dewa:  72%|#######1  | 2505/3500 [2:13:56<38:40,  2.33s/it, lr: 2.0e-04 loss: 3.526e-02]wan_dewa:  72%|#######1  | 2505/3500 [2:13:56<38:40,  2.33s/it, lr: 2.0e-04 loss: 3.526e-02]wan_dewa:  72%|#######1  | 2505/3500 [2:13:58<38:40,  2.33s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  72%|#######1  | 2505/3500 [2:13:58<38:40,  2.33s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  72%|#######1  | 2506/3500 [2:13:58<38:30,  2.32s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  72%|#######1  | 2506/3500 [2:13:58<38:30,  2.32s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  72%|#######1  | 2506/3500 [2:14:00<38:30,  2.32s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  72%|#######1  | 2506/3500 [2:14:00<38:30,  2.32s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  72%|#######1  | 2507/3500 [2:14:00<38:22,  2.32s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  72%|#######1  | 2507/3500 [2:14:00<38:22,  2.32s/it, lr: 2.0e-04 loss: 4.566e-02]wan_dewa:  72%|#######1  | 2507/3500 [2:14:03<38:22,  2.32s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  72%|#######1  | 2507/3500 [2:14:03<38:22,  2.32s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  72%|#######1  | 2508/3500 [2:14:03<38:17,  2.32s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  72%|#######1  | 2508/3500 [2:14:03<38:17,  2.32s/it, lr: 2.0e-04 loss: 3.481e-02]wan_dewa:  72%|#######1  | 2508/3500 [2:14:05<38:17,  2.32s/it, lr: 2.0e-04 loss: 1.828e-02]wan_dewa:  72%|#######1  | 2508/3500 [2:14:05<38:17,  2.32s/it, lr: 2.0e-04 loss: 1.828e-02]wan_dewa:  72%|#######1  | 2509/3500 [2:14:05<38:11,  2.31s/it, lr: 2.0e-04 loss: 1.828e-02]wan_dewa:  72%|#######1  | 2509/3500 [2:14:05<38:11,  2.31s/it, lr: 2.0e-04 loss: 1.828e-02]wan_dewa:  72%|#######1  | 2509/3500 [2:14:11<38:11,  2.31s/it, lr: 2.0e-04 loss: 1.434e-01]wan_dewa:  72%|#######1  | 2509/3500 [2:14:11<38:11,  2.31s/it, lr: 2.0e-04 loss: 1.434e-01]wan_dewa:  72%|#######1  | 2510/3500 [2:14:13<38:09,  2.31s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  72%|#######1  | 2510/3500 [2:14:13<38:09,  2.31s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  72%|#######1  | 2511/3500 [2:14:13<30:04,  1.82s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  72%|#######1  | 2511/3500 [2:14:13<30:04,  1.82s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  72%|#######1  | 2511/3500 [2:14:15<30:04,  1.82s/it, lr: 2.0e-04 loss: 5.172e-02]wan_dewa:  72%|#######1  | 2511/3500 [2:14:15<30:04,  1.82s/it, lr: 2.0e-04 loss: 5.172e-02]wan_dewa:  72%|#######1  | 2512/3500 [2:14:15<31:58,  1.94s/it, lr: 2.0e-04 loss: 5.172e-02]wan_dewa:  72%|#######1  | 2512/3500 [2:14:15<31:58,  1.94s/it, lr: 2.0e-04 loss: 5.172e-02]wan_dewa:  72%|#######1  | 2512/3500 [2:14:18<31:58,  1.94s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  72%|#######1  | 2512/3500 [2:14:18<31:58,  1.94s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  72%|#######1  | 2513/3500 [2:14:18<33:29,  2.04s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  72%|#######1  | 2513/3500 [2:14:18<33:29,  2.04s/it, lr: 2.0e-04 loss: 1.001e-01]wan_dewa:  72%|#######1  | 2513/3500 [2:14:20<33:29,  2.04s/it, lr: 2.0e-04 loss: 2.828e-01]wan_dewa:  72%|#######1  | 2513/3500 [2:14:20<33:29,  2.04s/it, lr: 2.0e-04 loss: 2.828e-01]wan_dewa:  72%|#######1  | 2514/3500 [2:14:20<34:38,  2.11s/it, lr: 2.0e-04 loss: 2.828e-01]wan_dewa:  72%|#######1  | 2514/3500 [2:14:20<34:38,  2.11s/it, lr: 2.0e-04 loss: 2.828e-01]wan_dewa:  72%|#######1  | 2514/3500 [2:14:22<34:38,  2.11s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  72%|#######1  | 2514/3500 [2:14:22<34:38,  2.11s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  72%|#######1  | 2515/3500 [2:14:22<35:29,  2.16s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  72%|#######1  | 2515/3500 [2:14:22<35:29,  2.16s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  72%|#######1  | 2515/3500 [2:14:25<35:29,  2.16s/it, lr: 2.0e-04 loss: 6.831e-02]wan_dewa:  72%|#######1  | 2515/3500 [2:14:25<35:29,  2.16s/it, lr: 2.0e-04 loss: 6.831e-02]wan_dewa:  72%|#######1  | 2516/3500 [2:14:25<36:57,  2.25s/it, lr: 2.0e-04 loss: 6.831e-02]wan_dewa:  72%|#######1  | 2516/3500 [2:14:25<36:57,  2.25s/it, lr: 2.0e-04 loss: 6.831e-02]wan_dewa:  72%|#######1  | 2516/3500 [2:14:27<36:57,  2.25s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  72%|#######1  | 2516/3500 [2:14:27<36:57,  2.25s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  72%|#######1  | 2517/3500 [2:14:27<37:07,  2.27s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  72%|#######1  | 2517/3500 [2:14:27<37:07,  2.27s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  72%|#######1  | 2517/3500 [2:14:29<37:07,  2.27s/it, lr: 2.0e-04 loss: 5.167e-02]wan_dewa:  72%|#######1  | 2517/3500 [2:14:29<37:07,  2.27s/it, lr: 2.0e-04 loss: 5.167e-02]wan_dewa:  72%|#######1  | 2518/3500 [2:14:29<37:15,  2.28s/it, lr: 2.0e-04 loss: 5.167e-02]wan_dewa:  72%|#######1  | 2518/3500 [2:14:29<37:15,  2.28s/it, lr: 2.0e-04 loss: 5.167e-02]wan_dewa:  72%|#######1  | 2518/3500 [2:14:32<37:15,  2.28s/it, lr: 2.0e-04 loss: 2.838e-02]wan_dewa:  72%|#######1  | 2518/3500 [2:14:32<37:15,  2.28s/it, lr: 2.0e-04 loss: 2.838e-02]wan_dewa:  72%|#######1  | 2519/3500 [2:14:32<37:21,  2.28s/it, lr: 2.0e-04 loss: 2.838e-02]wan_dewa:  72%|#######1  | 2519/3500 [2:14:32<37:21,  2.28s/it, lr: 2.0e-04 loss: 2.838e-02]wan_dewa:  72%|#######1  | 2519/3500 [2:14:37<37:21,  2.28s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  72%|#######1  | 2519/3500 [2:14:37<37:21,  2.28s/it, lr: 2.0e-04 loss: 3.550e-02]wan_dewa:  72%|#######2  | 2520/3500 [2:14:40<37:19,  2.28s/it, lr: 2.0e-04 loss: 3.274e-02]wan_dewa:  72%|#######2  | 2520/3500 [2:14:40<37:19,  2.28s/it, lr: 2.0e-04 loss: 3.274e-02]wan_dewa:  72%|#######2  | 2521/3500 [2:14:40<29:31,  1.81s/it, lr: 2.0e-04 loss: 3.274e-02]wan_dewa:  72%|#######2  | 2521/3500 [2:14:40<29:31,  1.81s/it, lr: 2.0e-04 loss: 3.274e-02]wan_dewa:  72%|#######2  | 2521/3500 [2:14:42<29:31,  1.81s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  72%|#######2  | 2521/3500 [2:14:42<29:31,  1.81s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  72%|#######2  | 2522/3500 [2:14:42<31:27,  1.93s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  72%|#######2  | 2522/3500 [2:14:42<31:27,  1.93s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  72%|#######2  | 2522/3500 [2:14:45<31:27,  1.93s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  72%|#######2  | 2522/3500 [2:14:45<31:27,  1.93s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  72%|#######2  | 2523/3500 [2:14:45<33:00,  2.03s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  72%|#######2  | 2523/3500 [2:14:45<33:00,  2.03s/it, lr: 2.0e-04 loss: 4.598e-02]wan_dewa:  72%|#######2  | 2523/3500 [2:14:47<33:00,  2.03s/it, lr: 2.0e-04 loss: 3.768e-02]wan_dewa:  72%|#######2  | 2523/3500 [2:14:47<33:00,  2.03s/it, lr: 2.0e-04 loss: 3.768e-02]wan_dewa:  72%|#######2  | 2524/3500 [2:14:47<34:12,  2.10s/it, lr: 2.0e-04 loss: 3.768e-02]wan_dewa:  72%|#######2  | 2524/3500 [2:14:47<34:12,  2.10s/it, lr: 2.0e-04 loss: 3.768e-02]wan_dewa:  72%|#######2  | 2524/3500 [2:14:52<34:12,  2.10s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  72%|#######2  | 2524/3500 [2:14:52<34:12,  2.10s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  72%|#######2  | 2525/3500 [2:14:52<35:12,  2.17s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  72%|#######2  | 2525/3500 [2:14:52<35:12,  2.17s/it, lr: 2.0e-04 loss: 4.488e-02]wan_dewa:  72%|#######2  | 2525/3500 [2:14:54<35:12,  2.17s/it, lr: 2.0e-04 loss: 3.275e-02]wan_dewa:  72%|#######2  | 2525/3500 [2:14:54<35:12,  2.17s/it, lr: 2.0e-04 loss: 3.275e-02]wan_dewa:  72%|#######2  | 2526/3500 [2:14:54<35:45,  2.20s/it, lr: 2.0e-04 loss: 3.275e-02]wan_dewa:  72%|#######2  | 2526/3500 [2:14:54<35:45,  2.20s/it, lr: 2.0e-04 loss: 3.275e-02]wan_dewa:  72%|#######2  | 2526/3500 [2:14:57<35:45,  2.20s/it, lr: 2.0e-04 loss: 3.821e-02]wan_dewa:  72%|#######2  | 2526/3500 [2:14:57<35:45,  2.20s/it, lr: 2.0e-04 loss: 3.821e-02]wan_dewa:  72%|#######2  | 2527/3500 [2:14:57<37:34,  2.32s/it, lr: 2.0e-04 loss: 3.821e-02]wan_dewa:  72%|#######2  | 2527/3500 [2:14:57<37:34,  2.32s/it, lr: 2.0e-04 loss: 3.821e-02]wan_dewa:  72%|#######2  | 2527/3500 [2:14:59<37:34,  2.32s/it, lr: 2.0e-04 loss: 2.822e-02]wan_dewa:  72%|#######2  | 2527/3500 [2:14:59<37:34,  2.32s/it, lr: 2.0e-04 loss: 2.822e-02]wan_dewa:  72%|#######2  | 2528/3500 [2:14:59<37:25,  2.31s/it, lr: 2.0e-04 loss: 2.822e-02]wan_dewa:  72%|#######2  | 2528/3500 [2:14:59<37:25,  2.31s/it, lr: 2.0e-04 loss: 2.822e-02]wan_dewa:  72%|#######2  | 2528/3500 [2:15:01<37:25,  2.31s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  72%|#######2  | 2528/3500 [2:15:01<37:25,  2.31s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  72%|#######2  | 2529/3500 [2:15:01<37:22,  2.31s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  72%|#######2  | 2529/3500 [2:15:01<37:22,  2.31s/it, lr: 2.0e-04 loss: 4.380e-02]wan_dewa:  72%|#######2  | 2529/3500 [2:15:12<37:22,  2.31s/it, lr: 2.0e-04 loss: 1.717e-01]wan_dewa:  72%|#######2  | 2529/3500 [2:15:12<37:22,  2.31s/it, lr: 2.0e-04 loss: 1.717e-01]wan_dewa:  72%|#######2  | 2530/3500 [2:15:15<37:20,  2.31s/it, lr: 2.0e-04 loss: 2.992e-01]wan_dewa:  72%|#######2  | 2530/3500 [2:15:15<37:20,  2.31s/it, lr: 2.0e-04 loss: 2.992e-01]wan_dewa:  72%|#######2  | 2531/3500 [2:15:15<28:42,  1.78s/it, lr: 2.0e-04 loss: 2.992e-01]wan_dewa:  72%|#######2  | 2531/3500 [2:15:15<28:42,  1.78s/it, lr: 2.0e-04 loss: 2.992e-01]wan_dewa:  72%|#######2  | 2531/3500 [2:15:17<28:42,  1.78s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  72%|#######2  | 2531/3500 [2:15:17<28:42,  1.78s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  72%|#######2  | 2532/3500 [2:15:17<31:24,  1.95s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  72%|#######2  | 2532/3500 [2:15:17<31:24,  1.95s/it, lr: 2.0e-04 loss: 3.713e-02]wan_dewa:  72%|#######2  | 2532/3500 [2:15:19<31:24,  1.95s/it, lr: 2.0e-04 loss: 4.897e-02]wan_dewa:  72%|#######2  | 2532/3500 [2:15:19<31:24,  1.95s/it, lr: 2.0e-04 loss: 4.897e-02]wan_dewa:  72%|#######2  | 2533/3500 [2:15:19<32:48,  2.04s/it, lr: 2.0e-04 loss: 4.897e-02]wan_dewa:  72%|#######2  | 2533/3500 [2:15:19<32:48,  2.04s/it, lr: 2.0e-04 loss: 4.897e-02]wan_dewa:  72%|#######2  | 2533/3500 [2:15:22<32:48,  2.04s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  72%|#######2  | 2533/3500 [2:15:22<32:48,  2.04s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  72%|#######2  | 2534/3500 [2:15:22<33:53,  2.10s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  72%|#######2  | 2534/3500 [2:15:22<33:53,  2.10s/it, lr: 2.0e-04 loss: 5.809e-02]wan_dewa:  72%|#######2  | 2534/3500 [2:15:24<33:53,  2.10s/it, lr: 2.0e-04 loss: 6.911e-02]wan_dewa:  72%|#######2  | 2534/3500 [2:15:24<33:53,  2.10s/it, lr: 2.0e-04 loss: 6.911e-02]wan_dewa:  72%|#######2  | 2535/3500 [2:15:24<34:41,  2.16s/it, lr: 2.0e-04 loss: 6.911e-02]wan_dewa:  72%|#######2  | 2535/3500 [2:15:24<34:41,  2.16s/it, lr: 2.0e-04 loss: 6.911e-02]wan_dewa:  72%|#######2  | 2535/3500 [2:15:26<34:41,  2.16s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  72%|#######2  | 2535/3500 [2:15:26<34:41,  2.16s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  72%|#######2  | 2536/3500 [2:15:26<35:16,  2.20s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  72%|#######2  | 2536/3500 [2:15:26<35:16,  2.20s/it, lr: 2.0e-04 loss: 7.789e-02]wan_dewa:  72%|#######2  | 2536/3500 [2:15:29<35:16,  2.20s/it, lr: 2.0e-04 loss: 1.290e-01]wan_dewa:  72%|#######2  | 2536/3500 [2:15:29<35:16,  2.20s/it, lr: 2.0e-04 loss: 1.290e-01]wan_dewa:  72%|#######2  | 2537/3500 [2:15:29<36:28,  2.27s/it, lr: 2.0e-04 loss: 1.290e-01]wan_dewa:  72%|#######2  | 2537/3500 [2:15:29<36:28,  2.27s/it, lr: 2.0e-04 loss: 1.290e-01]wan_dewa:  72%|#######2  | 2537/3500 [2:15:31<36:28,  2.27s/it, lr: 2.0e-04 loss: 2.646e-02]wan_dewa:  72%|#######2  | 2537/3500 [2:15:31<36:28,  2.27s/it, lr: 2.0e-04 loss: 2.646e-02]wan_dewa:  73%|#######2  | 2538/3500 [2:15:31<36:32,  2.28s/it, lr: 2.0e-04 loss: 2.646e-02]wan_dewa:  73%|#######2  | 2538/3500 [2:15:31<36:32,  2.28s/it, lr: 2.0e-04 loss: 2.646e-02]wan_dewa:  73%|#######2  | 2538/3500 [2:15:33<36:32,  2.28s/it, lr: 2.0e-04 loss: 8.651e-02]wan_dewa:  73%|#######2  | 2538/3500 [2:15:33<36:32,  2.28s/it, lr: 2.0e-04 loss: 8.651e-02]wan_dewa:  73%|#######2  | 2539/3500 [2:15:33<36:34,  2.28s/it, lr: 2.0e-04 loss: 8.651e-02]wan_dewa:  73%|#######2  | 2539/3500 [2:15:33<36:34,  2.28s/it, lr: 2.0e-04 loss: 8.651e-02]wan_dewa:  73%|#######2  | 2539/3500 [2:15:44<36:34,  2.28s/it, lr: 2.0e-04 loss: 4.729e-02]wan_dewa:  73%|#######2  | 2539/3500 [2:15:44<36:34,  2.28s/it, lr: 2.0e-04 loss: 4.729e-02]wan_dewa:  73%|#######2  | 2540/3500 [2:15:47<36:32,  2.28s/it, lr: 2.0e-04 loss: 3.787e-02]wan_dewa:  73%|#######2  | 2540/3500 [2:15:47<36:32,  2.28s/it, lr: 2.0e-04 loss: 3.787e-02]wan_dewa:  73%|#######2  | 2541/3500 [2:15:47<28:08,  1.76s/it, lr: 2.0e-04 loss: 3.787e-02]wan_dewa:  73%|#######2  | 2541/3500 [2:15:47<28:08,  1.76s/it, lr: 2.0e-04 loss: 3.787e-02]wan_dewa:  73%|#######2  | 2541/3500 [2:15:49<28:08,  1.76s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2541/3500 [2:15:49<28:08,  1.76s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2542/3500 [2:15:49<30:52,  1.93s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2542/3500 [2:15:49<30:52,  1.93s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2542/3500 [2:15:52<30:52,  1.93s/it, lr: 2.0e-04 loss: 2.506e-02]wan_dewa:  73%|#######2  | 2542/3500 [2:15:52<30:52,  1.93s/it, lr: 2.0e-04 loss: 2.506e-02]wan_dewa:  73%|#######2  | 2543/3500 [2:15:52<32:17,  2.02s/it, lr: 2.0e-04 loss: 2.506e-02]wan_dewa:  73%|#######2  | 2543/3500 [2:15:52<32:17,  2.02s/it, lr: 2.0e-04 loss: 2.506e-02]wan_dewa:  73%|#######2  | 2543/3500 [2:15:54<32:17,  2.02s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2543/3500 [2:15:54<32:17,  2.02s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2544/3500 [2:15:54<33:21,  2.09s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2544/3500 [2:15:54<33:21,  2.09s/it, lr: 2.0e-04 loss: 2.505e-02]wan_dewa:  73%|#######2  | 2544/3500 [2:15:56<33:21,  2.09s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  73%|#######2  | 2544/3500 [2:15:56<33:21,  2.09s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  73%|#######2  | 2545/3500 [2:15:56<34:09,  2.15s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  73%|#######2  | 2545/3500 [2:15:56<34:09,  2.15s/it, lr: 2.0e-04 loss: 3.335e-02]wan_dewa:  73%|#######2  | 2545/3500 [2:15:58<34:09,  2.15s/it, lr: 2.0e-04 loss: 5.199e-02]wan_dewa:  73%|#######2  | 2545/3500 [2:15:58<34:09,  2.15s/it, lr: 2.0e-04 loss: 5.199e-02]wan_dewa:  73%|#######2  | 2546/3500 [2:15:58<34:45,  2.19s/it, lr: 2.0e-04 loss: 5.199e-02]wan_dewa:  73%|#######2  | 2546/3500 [2:15:58<34:45,  2.19s/it, lr: 2.0e-04 loss: 5.199e-02]wan_dewa:  73%|#######2  | 2546/3500 [2:16:01<34:45,  2.19s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  73%|#######2  | 2546/3500 [2:16:01<34:45,  2.19s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  73%|#######2  | 2547/3500 [2:16:01<35:09,  2.21s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  73%|#######2  | 2547/3500 [2:16:01<35:09,  2.21s/it, lr: 2.0e-04 loss: 3.256e-02]wan_dewa:  73%|#######2  | 2547/3500 [2:16:03<35:09,  2.21s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  73%|#######2  | 2547/3500 [2:16:03<35:09,  2.21s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  73%|#######2  | 2548/3500 [2:16:03<36:17,  2.29s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  73%|#######2  | 2548/3500 [2:16:03<36:17,  2.29s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  73%|#######2  | 2548/3500 [2:16:05<36:17,  2.29s/it, lr: 2.0e-04 loss: 4.872e-02]wan_dewa:  73%|#######2  | 2548/3500 [2:16:05<36:17,  2.29s/it, lr: 2.0e-04 loss: 4.872e-02]wan_dewa:  73%|#######2  | 2549/3500 [2:16:05<36:15,  2.29s/it, lr: 2.0e-04 loss: 4.872e-02]wan_dewa:  73%|#######2  | 2549/3500 [2:16:05<36:15,  2.29s/it, lr: 2.0e-04 loss: 4.872e-02]wan_dewa:  73%|#######2  | 2549/3500 [2:16:19<36:15,  2.29s/it, lr: 2.0e-04 loss: 1.865e-01]wan_dewa:  73%|#######2  | 2549/3500 [2:16:19<36:15,  2.29s/it, lr: 2.0e-04 loss: 1.865e-01]wan_dewa:  73%|#######2  | 2550/3500 [2:16:21<36:13,  2.29s/it, lr: 2.0e-04 loss: 7.007e-02]wan_dewa:  73%|#######2  | 2550/3500 [2:16:21<36:13,  2.29s/it, lr: 2.0e-04 loss: 7.007e-02]wan_dewa:  73%|#######2  | 2551/3500 [2:16:21<27:54,  1.76s/it, lr: 2.0e-04 loss: 7.007e-02]wan_dewa:  73%|#######2  | 2551/3500 [2:16:21<27:54,  1.76s/it, lr: 2.0e-04 loss: 7.007e-02]wan_dewa:  73%|#######2  | 2551/3500 [2:16:23<27:54,  1.76s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  73%|#######2  | 2551/3500 [2:16:23<27:54,  1.76s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  73%|#######2  | 2552/3500 [2:16:23<29:52,  1.89s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  73%|#######2  | 2552/3500 [2:16:23<29:52,  1.89s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  73%|#######2  | 2552/3500 [2:16:26<29:52,  1.89s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  73%|#######2  | 2552/3500 [2:16:26<29:52,  1.89s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  73%|#######2  | 2553/3500 [2:16:26<32:44,  2.07s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  73%|#######2  | 2553/3500 [2:16:26<32:44,  2.07s/it, lr: 2.0e-04 loss: 3.909e-02]wan_dewa:  73%|#######2  | 2553/3500 [2:16:28<32:44,  2.07s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  73%|#######2  | 2553/3500 [2:16:28<32:44,  2.07s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  73%|#######2  | 2554/3500 [2:16:28<33:33,  2.13s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  73%|#######2  | 2554/3500 [2:16:28<33:33,  2.13s/it, lr: 2.0e-04 loss: 5.471e-02]wan_dewa:  73%|#######2  | 2554/3500 [2:16:31<33:33,  2.13s/it, lr: 2.0e-04 loss: 5.594e-02]wan_dewa:  73%|#######2  | 2554/3500 [2:16:31<33:33,  2.13s/it, lr: 2.0e-04 loss: 5.594e-02]wan_dewa:  73%|#######3  | 2555/3500 [2:16:31<34:10,  2.17s/it, lr: 2.0e-04 loss: 5.594e-02]wan_dewa:  73%|#######3  | 2555/3500 [2:16:31<34:10,  2.17s/it, lr: 2.0e-04 loss: 5.594e-02]wan_dewa:  73%|#######3  | 2555/3500 [2:16:33<34:10,  2.17s/it, lr: 2.0e-04 loss: 6.305e-02]wan_dewa:  73%|#######3  | 2555/3500 [2:16:33<34:10,  2.17s/it, lr: 2.0e-04 loss: 6.305e-02]wan_dewa:  73%|#######3  | 2556/3500 [2:16:33<34:38,  2.20s/it, lr: 2.0e-04 loss: 6.305e-02]wan_dewa:  73%|#######3  | 2556/3500 [2:16:33<34:38,  2.20s/it, lr: 2.0e-04 loss: 6.305e-02]wan_dewa:  73%|#######3  | 2556/3500 [2:16:35<34:38,  2.20s/it, lr: 2.0e-04 loss: 6.553e-02]wan_dewa:  73%|#######3  | 2556/3500 [2:16:35<34:38,  2.20s/it, lr: 2.0e-04 loss: 6.553e-02]wan_dewa:  73%|#######3  | 2557/3500 [2:16:35<34:57,  2.22s/it, lr: 2.0e-04 loss: 6.553e-02]wan_dewa:  73%|#######3  | 2557/3500 [2:16:35<34:57,  2.22s/it, lr: 2.0e-04 loss: 6.553e-02]wan_dewa:  73%|#######3  | 2557/3500 [2:16:38<34:57,  2.22s/it, lr: 2.0e-04 loss: 1.619e-01]wan_dewa:  73%|#######3  | 2557/3500 [2:16:38<34:57,  2.22s/it, lr: 2.0e-04 loss: 1.619e-01]wan_dewa:  73%|#######3  | 2558/3500 [2:16:38<36:00,  2.29s/it, lr: 2.0e-04 loss: 1.619e-01]wan_dewa:  73%|#######3  | 2558/3500 [2:16:38<36:00,  2.29s/it, lr: 2.0e-04 loss: 1.619e-01]wan_dewa:  73%|#######3  | 2558/3500 [2:16:40<36:00,  2.29s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  73%|#######3  | 2558/3500 [2:16:40<36:00,  2.29s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  73%|#######3  | 2559/3500 [2:16:40<35:55,  2.29s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  73%|#######3  | 2559/3500 [2:16:40<35:55,  2.29s/it, lr: 2.0e-04 loss: 2.750e-02]wan_dewa:  73%|#######3  | 2559/3500 [2:16:51<35:55,  2.29s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  73%|#######3  | 2559/3500 [2:16:51<35:55,  2.29s/it, lr: 2.0e-04 loss: 2.979e-02]wan_dewa:  73%|#######3  | 2560/3500 [2:16:53<35:53,  2.29s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  73%|#######3  | 2560/3500 [2:16:53<35:53,  2.29s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  73%|#######3  | 2561/3500 [2:16:53<27:36,  1.76s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  73%|#######3  | 2561/3500 [2:16:53<27:36,  1.76s/it, lr: 2.0e-04 loss: 3.684e-02]wan_dewa:  73%|#######3  | 2561/3500 [2:16:56<27:36,  1.76s/it, lr: 2.0e-04 loss: 2.370e-02]wan_dewa:  73%|#######3  | 2561/3500 [2:16:56<27:36,  1.76s/it, lr: 2.0e-04 loss: 2.370e-02]wan_dewa:  73%|#######3  | 2562/3500 [2:16:56<29:32,  1.89s/it, lr: 2.0e-04 loss: 2.370e-02]wan_dewa:  73%|#######3  | 2562/3500 [2:16:56<29:32,  1.89s/it, lr: 2.0e-04 loss: 2.370e-02]wan_dewa:  73%|#######3  | 2562/3500 [2:16:58<29:32,  1.89s/it, lr: 2.0e-04 loss: 3.448e-02]wan_dewa:  73%|#######3  | 2562/3500 [2:16:58<29:32,  1.89s/it, lr: 2.0e-04 loss: 3.448e-02]wan_dewa:  73%|#######3  | 2563/3500 [2:16:58<31:51,  2.04s/it, lr: 2.0e-04 loss: 3.448e-02]wan_dewa:  73%|#######3  | 2563/3500 [2:16:58<31:51,  2.04s/it, lr: 2.0e-04 loss: 3.448e-02]wan_dewa:  73%|#######3  | 2563/3500 [2:17:00<31:51,  2.04s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  73%|#######3  | 2563/3500 [2:17:00<31:51,  2.04s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  73%|#######3  | 2564/3500 [2:17:00<32:49,  2.10s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  73%|#######3  | 2564/3500 [2:17:00<32:49,  2.10s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  73%|#######3  | 2564/3500 [2:17:03<32:49,  2.10s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  73%|#######3  | 2564/3500 [2:17:03<32:49,  2.10s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  73%|#######3  | 2565/3500 [2:17:03<33:32,  2.15s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  73%|#######3  | 2565/3500 [2:17:03<33:32,  2.15s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  73%|#######3  | 2565/3500 [2:17:05<33:32,  2.15s/it, lr: 2.0e-04 loss: 4.250e-02]wan_dewa:  73%|#######3  | 2565/3500 [2:17:05<33:32,  2.15s/it, lr: 2.0e-04 loss: 4.250e-02]wan_dewa:  73%|#######3  | 2566/3500 [2:17:05<34:04,  2.19s/it, lr: 2.0e-04 loss: 4.250e-02]wan_dewa:  73%|#######3  | 2566/3500 [2:17:05<34:04,  2.19s/it, lr: 2.0e-04 loss: 4.250e-02]wan_dewa:  73%|#######3  | 2566/3500 [2:17:07<34:04,  2.19s/it, lr: 2.0e-04 loss: 3.532e-02]wan_dewa:  73%|#######3  | 2566/3500 [2:17:07<34:04,  2.19s/it, lr: 2.0e-04 loss: 3.532e-02]wan_dewa:  73%|#######3  | 2567/3500 [2:17:07<34:27,  2.22s/it, lr: 2.0e-04 loss: 3.532e-02]wan_dewa:  73%|#######3  | 2567/3500 [2:17:07<34:27,  2.22s/it, lr: 2.0e-04 loss: 3.532e-02]wan_dewa:  73%|#######3  | 2567/3500 [2:17:10<34:27,  2.22s/it, lr: 2.0e-04 loss: 4.095e-02]wan_dewa:  73%|#######3  | 2567/3500 [2:17:10<34:27,  2.22s/it, lr: 2.0e-04 loss: 4.095e-02]wan_dewa:  73%|#######3  | 2568/3500 [2:17:10<35:33,  2.29s/it, lr: 2.0e-04 loss: 4.095e-02]wan_dewa:  73%|#######3  | 2568/3500 [2:17:10<35:33,  2.29s/it, lr: 2.0e-04 loss: 4.095e-02]wan_dewa:  73%|#######3  | 2568/3500 [2:17:12<35:33,  2.29s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  73%|#######3  | 2568/3500 [2:17:12<35:33,  2.29s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  73%|#######3  | 2569/3500 [2:17:12<35:28,  2.29s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  73%|#######3  | 2569/3500 [2:17:12<35:28,  2.29s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  73%|#######3  | 2569/3500 [2:17:20<35:28,  2.29s/it, lr: 2.0e-04 loss: 2.349e-01]wan_dewa:  73%|#######3  | 2569/3500 [2:17:20<35:28,  2.29s/it, lr: 2.0e-04 loss: 2.349e-01]wan_dewa:  73%|#######3  | 2570/3500 [2:17:22<35:26,  2.29s/it, lr: 2.0e-04 loss: 1.363e-01]wan_dewa:  73%|#######3  | 2570/3500 [2:17:22<35:26,  2.29s/it, lr: 2.0e-04 loss: 1.363e-01]wan_dewa:  73%|#######3  | 2571/3500 [2:17:22<27:16,  1.76s/it, lr: 2.0e-04 loss: 1.363e-01]wan_dewa:  73%|#######3  | 2571/3500 [2:17:22<27:16,  1.76s/it, lr: 2.0e-04 loss: 1.363e-01]wan_dewa:  73%|#######3  | 2571/3500 [2:17:25<27:16,  1.76s/it, lr: 2.0e-04 loss: 2.742e-01]wan_dewa:  73%|#######3  | 2571/3500 [2:17:25<27:16,  1.76s/it, lr: 2.0e-04 loss: 2.742e-01]wan_dewa:  73%|#######3  | 2572/3500 [2:17:25<29:12,  1.89s/it, lr: 2.0e-04 loss: 2.742e-01]wan_dewa:  73%|#######3  | 2572/3500 [2:17:25<29:12,  1.89s/it, lr: 2.0e-04 loss: 2.742e-01]wan_dewa:  73%|#######3  | 2572/3500 [2:17:27<29:12,  1.89s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  73%|#######3  | 2572/3500 [2:17:27<29:12,  1.89s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  74%|#######3  | 2573/3500 [2:17:27<30:45,  1.99s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  74%|#######3  | 2573/3500 [2:17:27<30:45,  1.99s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  74%|#######3  | 2573/3500 [2:17:29<30:45,  1.99s/it, lr: 2.0e-04 loss: 5.187e-02]wan_dewa:  74%|#######3  | 2573/3500 [2:17:29<30:45,  1.99s/it, lr: 2.0e-04 loss: 5.187e-02]wan_dewa:  74%|#######3  | 2574/3500 [2:17:29<32:57,  2.13s/it, lr: 2.0e-04 loss: 5.187e-02]wan_dewa:  74%|#######3  | 2574/3500 [2:17:29<32:57,  2.13s/it, lr: 2.0e-04 loss: 5.187e-02]wan_dewa:  74%|#######3  | 2574/3500 [2:17:34<32:57,  2.13s/it, lr: 2.0e-04 loss: 3.140e-02]wan_dewa:  74%|#######3  | 2574/3500 [2:17:34<32:57,  2.13s/it, lr: 2.0e-04 loss: 3.140e-02]wan_dewa:  74%|#######3  | 2575/3500 [2:17:34<33:40,  2.18s/it, lr: 2.0e-04 loss: 3.140e-02]wan_dewa:  74%|#######3  | 2575/3500 [2:17:34<33:40,  2.18s/it, lr: 2.0e-04 loss: 3.140e-02]wan_dewa:  74%|#######3  | 2575/3500 [2:17:36<33:40,  2.18s/it, lr: 2.0e-04 loss: 2.286e-01]wan_dewa:  74%|#######3  | 2575/3500 [2:17:36<33:40,  2.18s/it, lr: 2.0e-04 loss: 2.286e-01]wan_dewa:  74%|#######3  | 2576/3500 [2:17:36<34:03,  2.21s/it, lr: 2.0e-04 loss: 2.286e-01]wan_dewa:  74%|#######3  | 2576/3500 [2:17:36<34:03,  2.21s/it, lr: 2.0e-04 loss: 2.286e-01]wan_dewa:  74%|#######3  | 2576/3500 [2:17:39<34:03,  2.21s/it, lr: 2.0e-04 loss: 6.566e-02]wan_dewa:  74%|#######3  | 2576/3500 [2:17:39<34:03,  2.21s/it, lr: 2.0e-04 loss: 6.566e-02]wan_dewa:  74%|#######3  | 2577/3500 [2:17:39<34:19,  2.23s/it, lr: 2.0e-04 loss: 6.566e-02]wan_dewa:  74%|#######3  | 2577/3500 [2:17:39<34:19,  2.23s/it, lr: 2.0e-04 loss: 6.566e-02]wan_dewa:  74%|#######3  | 2577/3500 [2:17:41<34:19,  2.23s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  74%|#######3  | 2577/3500 [2:17:41<34:19,  2.23s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  74%|#######3  | 2578/3500 [2:17:41<34:29,  2.24s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  74%|#######3  | 2578/3500 [2:17:41<34:29,  2.24s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  74%|#######3  | 2578/3500 [2:17:43<34:29,  2.24s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  74%|#######3  | 2578/3500 [2:17:43<34:29,  2.24s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  74%|#######3  | 2579/3500 [2:17:43<36:13,  2.36s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  74%|#######3  | 2579/3500 [2:17:43<36:13,  2.36s/it, lr: 2.0e-04 loss: 1.125e-01]wan_dewa:  74%|#######3  | 2579/3500 [2:17:55<36:13,  2.36s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  74%|#######3  | 2579/3500 [2:17:55<36:13,  2.36s/it, lr: 2.0e-04 loss: 3.492e-02]wan_dewa:  74%|#######3  | 2580/3500 [2:17:57<36:10,  2.36s/it, lr: 2.0e-04 loss: 2.219e-02]wan_dewa:  74%|#######3  | 2580/3500 [2:17:57<36:10,  2.36s/it, lr: 2.0e-04 loss: 2.219e-02]wan_dewa:  74%|#######3  | 2581/3500 [2:17:57<27:34,  1.80s/it, lr: 2.0e-04 loss: 2.219e-02]wan_dewa:  74%|#######3  | 2581/3500 [2:17:57<27:34,  1.80s/it, lr: 2.0e-04 loss: 2.219e-02]wan_dewa:  74%|#######3  | 2581/3500 [2:17:59<27:34,  1.80s/it, lr: 2.0e-04 loss: 3.999e-02]wan_dewa:  74%|#######3  | 2581/3500 [2:17:59<27:34,  1.80s/it, lr: 2.0e-04 loss: 3.999e-02]wan_dewa:  74%|#######3  | 2582/3500 [2:17:59<29:18,  1.92s/it, lr: 2.0e-04 loss: 3.999e-02]wan_dewa:  74%|#######3  | 2582/3500 [2:17:59<29:18,  1.92s/it, lr: 2.0e-04 loss: 3.999e-02]wan_dewa:  74%|#######3  | 2582/3500 [2:18:02<29:18,  1.92s/it, lr: 2.0e-04 loss: 3.355e-02]wan_dewa:  74%|#######3  | 2582/3500 [2:18:02<29:18,  1.92s/it, lr: 2.0e-04 loss: 3.355e-02]wan_dewa:  74%|#######3  | 2583/3500 [2:18:02<31:27,  2.06s/it, lr: 2.0e-04 loss: 3.355e-02]wan_dewa:  74%|#######3  | 2583/3500 [2:18:02<31:27,  2.06s/it, lr: 2.0e-04 loss: 3.355e-02]wan_dewa:  74%|#######3  | 2583/3500 [2:18:04<31:27,  2.06s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  74%|#######3  | 2583/3500 [2:18:04<31:27,  2.06s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  74%|#######3  | 2584/3500 [2:18:04<32:20,  2.12s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  74%|#######3  | 2584/3500 [2:18:04<32:20,  2.12s/it, lr: 2.0e-04 loss: 3.882e-02]wan_dewa:  74%|#######3  | 2584/3500 [2:18:06<32:20,  2.12s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  74%|#######3  | 2584/3500 [2:18:06<32:20,  2.12s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  74%|#######3  | 2585/3500 [2:18:06<32:58,  2.16s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  74%|#######3  | 2585/3500 [2:18:06<32:58,  2.16s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  74%|#######3  | 2585/3500 [2:18:09<32:58,  2.16s/it, lr: 2.0e-04 loss: 5.601e-02]wan_dewa:  74%|#######3  | 2585/3500 [2:18:09<32:58,  2.16s/it, lr: 2.0e-04 loss: 5.601e-02]wan_dewa:  74%|#######3  | 2586/3500 [2:18:09<33:26,  2.20s/it, lr: 2.0e-04 loss: 5.601e-02]wan_dewa:  74%|#######3  | 2586/3500 [2:18:09<33:26,  2.20s/it, lr: 2.0e-04 loss: 5.601e-02]wan_dewa:  74%|#######3  | 2586/3500 [2:18:11<33:26,  2.20s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  74%|#######3  | 2586/3500 [2:18:11<33:26,  2.20s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  74%|#######3  | 2587/3500 [2:18:11<33:46,  2.22s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  74%|#######3  | 2587/3500 [2:18:11<33:46,  2.22s/it, lr: 2.0e-04 loss: 3.710e-02]wan_dewa:  74%|#######3  | 2587/3500 [2:18:13<33:46,  2.22s/it, lr: 2.0e-04 loss: 2.438e-02]wan_dewa:  74%|#######3  | 2587/3500 [2:18:13<33:46,  2.22s/it, lr: 2.0e-04 loss: 2.438e-02]wan_dewa:  74%|#######3  | 2588/3500 [2:18:13<33:59,  2.24s/it, lr: 2.0e-04 loss: 2.438e-02]wan_dewa:  74%|#######3  | 2588/3500 [2:18:13<33:59,  2.24s/it, lr: 2.0e-04 loss: 2.438e-02]wan_dewa:  74%|#######3  | 2588/3500 [2:18:16<33:59,  2.24s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  74%|#######3  | 2588/3500 [2:18:16<33:59,  2.24s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  74%|#######3  | 2589/3500 [2:18:16<35:00,  2.31s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  74%|#######3  | 2589/3500 [2:18:16<35:00,  2.31s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  74%|#######3  | 2589/3500 [2:18:26<35:00,  2.31s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  74%|#######3  | 2589/3500 [2:18:26<35:00,  2.31s/it, lr: 2.0e-04 loss: 2.904e-02]wan_dewa:  74%|#######4  | 2590/3500 [2:18:29<34:57,  2.31s/it, lr: 2.0e-04 loss: 8.195e-02]wan_dewa:  74%|#######4  | 2590/3500 [2:18:29<34:57,  2.31s/it, lr: 2.0e-04 loss: 8.195e-02]wan_dewa:  74%|#######4  | 2591/3500 [2:18:29<26:54,  1.78s/it, lr: 2.0e-04 loss: 8.195e-02]wan_dewa:  74%|#######4  | 2591/3500 [2:18:29<26:54,  1.78s/it, lr: 2.0e-04 loss: 8.195e-02]wan_dewa:  74%|#######4  | 2591/3500 [2:18:31<26:54,  1.78s/it, lr: 2.0e-04 loss: 3.764e-01]wan_dewa:  74%|#######4  | 2591/3500 [2:18:31<26:54,  1.78s/it, lr: 2.0e-04 loss: 3.764e-01]wan_dewa:  74%|#######4  | 2592/3500 [2:18:31<28:45,  1.90s/it, lr: 2.0e-04 loss: 3.764e-01]wan_dewa:  74%|#######4  | 2592/3500 [2:18:31<28:45,  1.90s/it, lr: 2.0e-04 loss: 3.764e-01]wan_dewa:  74%|#######4  | 2592/3500 [2:18:33<28:45,  1.90s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  74%|#######4  | 2592/3500 [2:18:33<28:45,  1.90s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  74%|#######4  | 2593/3500 [2:18:33<30:14,  2.00s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  74%|#######4  | 2593/3500 [2:18:33<30:14,  2.00s/it, lr: 2.0e-04 loss: 5.833e-02]wan_dewa:  74%|#######4  | 2593/3500 [2:18:36<30:14,  2.00s/it, lr: 2.0e-04 loss: 5.053e-02]wan_dewa:  74%|#######4  | 2593/3500 [2:18:36<30:14,  2.00s/it, lr: 2.0e-04 loss: 5.053e-02]wan_dewa:  74%|#######4  | 2594/3500 [2:18:36<32:11,  2.13s/it, lr: 2.0e-04 loss: 5.053e-02]wan_dewa:  74%|#######4  | 2594/3500 [2:18:36<32:11,  2.13s/it, lr: 2.0e-04 loss: 5.053e-02]wan_dewa:  74%|#######4  | 2594/3500 [2:18:38<32:11,  2.13s/it, lr: 2.0e-04 loss: 9.411e-02]wan_dewa:  74%|#######4  | 2594/3500 [2:18:38<32:11,  2.13s/it, lr: 2.0e-04 loss: 9.411e-02]wan_dewa:  74%|#######4  | 2595/3500 [2:18:38<32:48,  2.17s/it, lr: 2.0e-04 loss: 9.411e-02]wan_dewa:  74%|#######4  | 2595/3500 [2:18:38<32:48,  2.17s/it, lr: 2.0e-04 loss: 9.411e-02]wan_dewa:  74%|#######4  | 2595/3500 [2:18:40<32:48,  2.17s/it, lr: 2.0e-04 loss: 2.199e-01]wan_dewa:  74%|#######4  | 2595/3500 [2:18:40<32:48,  2.17s/it, lr: 2.0e-04 loss: 2.199e-01]wan_dewa:  74%|#######4  | 2596/3500 [2:18:40<33:13,  2.21s/it, lr: 2.0e-04 loss: 2.199e-01]wan_dewa:  74%|#######4  | 2596/3500 [2:18:40<33:13,  2.21s/it, lr: 2.0e-04 loss: 2.199e-01]wan_dewa:  74%|#######4  | 2596/3500 [2:18:43<33:13,  2.21s/it, lr: 2.0e-04 loss: 3.756e-02]wan_dewa:  74%|#######4  | 2596/3500 [2:18:43<33:13,  2.21s/it, lr: 2.0e-04 loss: 3.756e-02]wan_dewa:  74%|#######4  | 2597/3500 [2:18:43<33:34,  2.23s/it, lr: 2.0e-04 loss: 3.756e-02]wan_dewa:  74%|#######4  | 2597/3500 [2:18:43<33:34,  2.23s/it, lr: 2.0e-04 loss: 3.756e-02]wan_dewa:  74%|#######4  | 2597/3500 [2:18:45<33:34,  2.23s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  74%|#######4  | 2597/3500 [2:18:45<33:34,  2.23s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  74%|#######4  | 2598/3500 [2:18:45<33:46,  2.25s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  74%|#######4  | 2598/3500 [2:18:45<33:46,  2.25s/it, lr: 2.0e-04 loss: 6.190e-02]wan_dewa:  74%|#######4  | 2598/3500 [2:18:47<33:46,  2.25s/it, lr: 2.0e-04 loss: 5.303e-02]wan_dewa:  74%|#######4  | 2598/3500 [2:18:47<33:46,  2.25s/it, lr: 2.0e-04 loss: 5.303e-02]wan_dewa:  74%|#######4  | 2599/3500 [2:18:47<34:50,  2.32s/it, lr: 2.0e-04 loss: 5.303e-02]wan_dewa:  74%|#######4  | 2599/3500 [2:18:47<34:50,  2.32s/it, lr: 2.0e-04 loss: 5.303e-02]wan_dewa:  74%|#######4  | 2599/3500 [2:19:01<34:50,  2.32s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  74%|#######4  | 2599/3500 [2:19:01<34:50,  2.32s/it, lr: 2.0e-04 loss: 4.302e-02]wan_dewa:  74%|#######4  | 2600/3500 [2:19:03<34:48,  2.32s/it, lr: 2.0e-04 loss: 7.379e-02]wan_dewa:  74%|#######4  | 2600/3500 [2:19:03<34:48,  2.32s/it, lr: 2.0e-04 loss: 7.379e-02]wan_dewa:  74%|#######4  | 2601/3500 [2:19:03<26:42,  1.78s/it, lr: 2.0e-04 loss: 7.379e-02]wan_dewa:  74%|#######4  | 2601/3500 [2:19:03<26:42,  1.78s/it, lr: 2.0e-04 loss: 7.379e-02]wan_dewa:  74%|#######4  | 2601/3500 [2:19:05<26:42,  1.78s/it, lr: 2.0e-04 loss: 2.045e-02]wan_dewa:  74%|#######4  | 2601/3500 [2:19:05<26:42,  1.78s/it, lr: 2.0e-04 loss: 2.045e-02]wan_dewa:  74%|#######4  | 2602/3500 [2:19:05<28:30,  1.91s/it, lr: 2.0e-04 loss: 2.045e-02]wan_dewa:  74%|#######4  | 2602/3500 [2:19:05<28:30,  1.91s/it, lr: 2.0e-04 loss: 2.045e-02]wan_dewa:  74%|#######4  | 2602/3500 [2:19:07<28:30,  1.91s/it, lr: 2.0e-04 loss: 3.372e-02]wan_dewa:  74%|#######4  | 2602/3500 [2:19:07<28:30,  1.91s/it, lr: 2.0e-04 loss: 3.372e-02]wan_dewa:  74%|#######4  | 2603/3500 [2:19:07<29:55,  2.00s/it, lr: 2.0e-04 loss: 3.372e-02]wan_dewa:  74%|#######4  | 2603/3500 [2:19:07<29:55,  2.00s/it, lr: 2.0e-04 loss: 3.372e-02]wan_dewa:  74%|#######4  | 2603/3500 [2:19:10<29:55,  2.00s/it, lr: 2.0e-04 loss: 3.538e-02]wan_dewa:  74%|#######4  | 2603/3500 [2:19:10<29:55,  2.00s/it, lr: 2.0e-04 loss: 3.538e-02]wan_dewa:  74%|#######4  | 2604/3500 [2:19:10<32:16,  2.16s/it, lr: 2.0e-04 loss: 3.538e-02]wan_dewa:  74%|#######4  | 2604/3500 [2:19:10<32:16,  2.16s/it, lr: 2.0e-04 loss: 3.538e-02]wan_dewa:  74%|#######4  | 2604/3500 [2:19:12<32:16,  2.16s/it, lr: 2.0e-04 loss: 2.179e-02]wan_dewa:  74%|#######4  | 2604/3500 [2:19:12<32:16,  2.16s/it, lr: 2.0e-04 loss: 2.179e-02]wan_dewa:  74%|#######4  | 2605/3500 [2:19:12<32:43,  2.19s/it, lr: 2.0e-04 loss: 2.179e-02]wan_dewa:  74%|#######4  | 2605/3500 [2:19:12<32:43,  2.19s/it, lr: 2.0e-04 loss: 2.179e-02]wan_dewa:  74%|#######4  | 2605/3500 [2:19:15<32:43,  2.19s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  74%|#######4  | 2605/3500 [2:19:15<32:43,  2.19s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  74%|#######4  | 2606/3500 [2:19:15<33:03,  2.22s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  74%|#######4  | 2606/3500 [2:19:15<33:03,  2.22s/it, lr: 2.0e-04 loss: 3.883e-02]wan_dewa:  74%|#######4  | 2606/3500 [2:19:17<33:03,  2.22s/it, lr: 2.0e-04 loss: 4.339e-02]wan_dewa:  74%|#######4  | 2606/3500 [2:19:17<33:03,  2.22s/it, lr: 2.0e-04 loss: 4.339e-02]wan_dewa:  74%|#######4  | 2607/3500 [2:19:17<33:17,  2.24s/it, lr: 2.0e-04 loss: 4.339e-02]wan_dewa:  74%|#######4  | 2607/3500 [2:19:17<33:17,  2.24s/it, lr: 2.0e-04 loss: 4.339e-02]wan_dewa:  74%|#######4  | 2607/3500 [2:19:19<33:17,  2.24s/it, lr: 2.0e-04 loss: 3.991e-02]wan_dewa:  74%|#######4  | 2607/3500 [2:19:19<33:17,  2.24s/it, lr: 2.0e-04 loss: 3.991e-02]wan_dewa:  75%|#######4  | 2608/3500 [2:19:19<33:26,  2.25s/it, lr: 2.0e-04 loss: 3.991e-02]wan_dewa:  75%|#######4  | 2608/3500 [2:19:19<33:26,  2.25s/it, lr: 2.0e-04 loss: 3.991e-02]wan_dewa:  75%|#######4  | 2608/3500 [2:19:21<33:26,  2.25s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  75%|#######4  | 2608/3500 [2:19:21<33:26,  2.25s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  75%|#######4  | 2609/3500 [2:19:21<33:33,  2.26s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  75%|#######4  | 2609/3500 [2:19:21<33:33,  2.26s/it, lr: 2.0e-04 loss: 5.326e-02]wan_dewa:  75%|#######4  | 2609/3500 [2:19:33<33:33,  2.26s/it, lr: 2.0e-04 loss: 4.880e-02]wan_dewa:  75%|#######4  | 2609/3500 [2:19:33<33:33,  2.26s/it, lr: 2.0e-04 loss: 4.880e-02]wan_dewa:  75%|#######4  | 2610/3500 [2:19:35<33:30,  2.26s/it, lr: 2.0e-04 loss: 3.166e-02]wan_dewa:  75%|#######4  | 2610/3500 [2:19:35<33:30,  2.26s/it, lr: 2.0e-04 loss: 3.166e-02]wan_dewa:  75%|#######4  | 2611/3500 [2:19:35<25:52,  1.75s/it, lr: 2.0e-04 loss: 3.166e-02]wan_dewa:  75%|#######4  | 2611/3500 [2:19:35<25:52,  1.75s/it, lr: 2.0e-04 loss: 3.166e-02]wan_dewa:  75%|#######4  | 2611/3500 [2:19:37<25:52,  1.75s/it, lr: 2.0e-04 loss: 5.362e-02]wan_dewa:  75%|#######4  | 2611/3500 [2:19:37<25:52,  1.75s/it, lr: 2.0e-04 loss: 5.362e-02]wan_dewa:  75%|#######4  | 2612/3500 [2:19:37<27:47,  1.88s/it, lr: 2.0e-04 loss: 5.362e-02]wan_dewa:  75%|#######4  | 2612/3500 [2:19:37<27:47,  1.88s/it, lr: 2.0e-04 loss: 5.362e-02]wan_dewa:  75%|#######4  | 2612/3500 [2:19:40<27:47,  1.88s/it, lr: 2.0e-04 loss: 9.856e-02]wan_dewa:  75%|#######4  | 2612/3500 [2:19:40<27:47,  1.88s/it, lr: 2.0e-04 loss: 9.856e-02]wan_dewa:  75%|#######4  | 2613/3500 [2:19:40<29:16,  1.98s/it, lr: 2.0e-04 loss: 9.856e-02]wan_dewa:  75%|#######4  | 2613/3500 [2:19:40<29:16,  1.98s/it, lr: 2.0e-04 loss: 9.856e-02]wan_dewa:  75%|#######4  | 2613/3500 [2:19:42<29:16,  1.98s/it, lr: 2.0e-04 loss: 4.574e-02]wan_dewa:  75%|#######4  | 2613/3500 [2:19:42<29:16,  1.98s/it, lr: 2.0e-04 loss: 4.574e-02]wan_dewa:  75%|#######4  | 2614/3500 [2:19:42<30:24,  2.06s/it, lr: 2.0e-04 loss: 4.574e-02]wan_dewa:  75%|#######4  | 2614/3500 [2:19:42<30:24,  2.06s/it, lr: 2.0e-04 loss: 4.574e-02]wan_dewa:  75%|#######4  | 2614/3500 [2:19:44<30:24,  2.06s/it, lr: 2.0e-04 loss: 7.595e-02]wan_dewa:  75%|#######4  | 2614/3500 [2:19:44<30:24,  2.06s/it, lr: 2.0e-04 loss: 7.595e-02]wan_dewa:  75%|#######4  | 2615/3500 [2:19:44<32:04,  2.17s/it, lr: 2.0e-04 loss: 7.595e-02]wan_dewa:  75%|#######4  | 2615/3500 [2:19:44<32:04,  2.17s/it, lr: 2.0e-04 loss: 7.595e-02]wan_dewa:  75%|#######4  | 2615/3500 [2:19:47<32:04,  2.17s/it, lr: 2.0e-04 loss: 8.888e-02]wan_dewa:  75%|#######4  | 2615/3500 [2:19:47<32:04,  2.17s/it, lr: 2.0e-04 loss: 8.888e-02]wan_dewa:  75%|#######4  | 2616/3500 [2:19:47<32:27,  2.20s/it, lr: 2.0e-04 loss: 8.888e-02]wan_dewa:  75%|#######4  | 2616/3500 [2:19:47<32:27,  2.20s/it, lr: 2.0e-04 loss: 8.888e-02]wan_dewa:  75%|#######4  | 2616/3500 [2:19:49<32:27,  2.20s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  75%|#######4  | 2616/3500 [2:19:49<32:27,  2.20s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  75%|#######4  | 2617/3500 [2:19:49<32:43,  2.22s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  75%|#######4  | 2617/3500 [2:19:49<32:43,  2.22s/it, lr: 2.0e-04 loss: 8.759e-02]wan_dewa:  75%|#######4  | 2617/3500 [2:19:51<32:43,  2.22s/it, lr: 2.0e-04 loss: 3.147e-02]wan_dewa:  75%|#######4  | 2617/3500 [2:19:51<32:43,  2.22s/it, lr: 2.0e-04 loss: 3.147e-02]wan_dewa:  75%|#######4  | 2618/3500 [2:19:51<32:54,  2.24s/it, lr: 2.0e-04 loss: 3.147e-02]wan_dewa:  75%|#######4  | 2618/3500 [2:19:51<32:54,  2.24s/it, lr: 2.0e-04 loss: 3.147e-02]wan_dewa:  75%|#######4  | 2618/3500 [2:19:53<32:54,  2.24s/it, lr: 2.0e-04 loss: 1.618e-01]wan_dewa:  75%|#######4  | 2618/3500 [2:19:53<32:54,  2.24s/it, lr: 2.0e-04 loss: 1.618e-01]wan_dewa:  75%|#######4  | 2619/3500 [2:19:53<33:02,  2.25s/it, lr: 2.0e-04 loss: 1.618e-01]wan_dewa:  75%|#######4  | 2619/3500 [2:19:53<33:02,  2.25s/it, lr: 2.0e-04 loss: 1.618e-01]wan_dewa:  75%|#######4  | 2619/3500 [2:20:01<33:02,  2.25s/it, lr: 2.0e-04 loss: 4.374e-02]wan_dewa:  75%|#######4  | 2619/3500 [2:20:01<33:02,  2.25s/it, lr: 2.0e-04 loss: 4.374e-02]wan_dewa:  75%|#######4  | 2620/3500 [2:20:04<33:00,  2.25s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  75%|#######4  | 2620/3500 [2:20:04<33:00,  2.25s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  75%|#######4  | 2621/3500 [2:20:04<25:32,  1.74s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  75%|#######4  | 2621/3500 [2:20:04<25:32,  1.74s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  75%|#######4  | 2621/3500 [2:20:06<25:32,  1.74s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  75%|#######4  | 2621/3500 [2:20:06<25:32,  1.74s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  75%|#######4  | 2622/3500 [2:20:06<27:26,  1.88s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  75%|#######4  | 2622/3500 [2:20:06<27:26,  1.88s/it, lr: 2.0e-04 loss: 3.478e-02]wan_dewa:  75%|#######4  | 2622/3500 [2:20:08<27:26,  1.88s/it, lr: 2.0e-04 loss: 4.435e-02]wan_dewa:  75%|#######4  | 2622/3500 [2:20:08<27:26,  1.88s/it, lr: 2.0e-04 loss: 4.435e-02]wan_dewa:  75%|#######4  | 2623/3500 [2:20:08<28:56,  1.98s/it, lr: 2.0e-04 loss: 4.435e-02]wan_dewa:  75%|#######4  | 2623/3500 [2:20:08<28:56,  1.98s/it, lr: 2.0e-04 loss: 4.435e-02]wan_dewa:  75%|#######4  | 2623/3500 [2:20:11<28:56,  1.98s/it, lr: 2.0e-04 loss: 2.568e-02]wan_dewa:  75%|#######4  | 2623/3500 [2:20:11<28:56,  1.98s/it, lr: 2.0e-04 loss: 2.568e-02]wan_dewa:  75%|#######4  | 2624/3500 [2:20:11<30:06,  2.06s/it, lr: 2.0e-04 loss: 2.568e-02]wan_dewa:  75%|#######4  | 2624/3500 [2:20:11<30:06,  2.06s/it, lr: 2.0e-04 loss: 2.568e-02]wan_dewa:  75%|#######4  | 2624/3500 [2:20:15<30:06,  2.06s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  75%|#######4  | 2624/3500 [2:20:15<30:06,  2.06s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  75%|#######5  | 2625/3500 [2:20:15<32:16,  2.21s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  75%|#######5  | 2625/3500 [2:20:15<32:16,  2.21s/it, lr: 2.0e-04 loss: 4.152e-02]wan_dewa:  75%|#######5  | 2625/3500 [2:20:18<32:16,  2.21s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  75%|#######5  | 2625/3500 [2:20:18<32:16,  2.21s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  75%|#######5  | 2626/3500 [2:20:18<32:31,  2.23s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  75%|#######5  | 2626/3500 [2:20:18<32:31,  2.23s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  75%|#######5  | 2626/3500 [2:20:20<32:31,  2.23s/it, lr: 2.0e-04 loss: 3.950e-02]wan_dewa:  75%|#######5  | 2626/3500 [2:20:20<32:31,  2.23s/it, lr: 2.0e-04 loss: 3.950e-02]wan_dewa:  75%|#######5  | 2627/3500 [2:20:20<32:40,  2.25s/it, lr: 2.0e-04 loss: 3.950e-02]wan_dewa:  75%|#######5  | 2627/3500 [2:20:20<32:40,  2.25s/it, lr: 2.0e-04 loss: 3.950e-02]wan_dewa:  75%|#######5  | 2627/3500 [2:20:22<32:40,  2.25s/it, lr: 2.0e-04 loss: 3.917e-02]wan_dewa:  75%|#######5  | 2627/3500 [2:20:22<32:40,  2.25s/it, lr: 2.0e-04 loss: 3.917e-02]wan_dewa:  75%|#######5  | 2628/3500 [2:20:22<32:47,  2.26s/it, lr: 2.0e-04 loss: 3.917e-02]wan_dewa:  75%|#######5  | 2628/3500 [2:20:22<32:47,  2.26s/it, lr: 2.0e-04 loss: 3.917e-02]wan_dewa:  75%|#######5  | 2628/3500 [2:20:25<32:47,  2.26s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  75%|#######5  | 2628/3500 [2:20:25<32:47,  2.26s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  75%|#######5  | 2629/3500 [2:20:25<32:53,  2.27s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  75%|#######5  | 2629/3500 [2:20:25<32:53,  2.27s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  75%|#######5  | 2629/3500 [2:20:36<32:53,  2.27s/it, lr: 2.0e-04 loss: 1.010e-01]wan_dewa:  75%|#######5  | 2629/3500 [2:20:36<32:53,  2.27s/it, lr: 2.0e-04 loss: 1.010e-01]wan_dewa:  75%|#######5  | 2630/3500 [2:20:38<32:51,  2.27s/it, lr: 2.0e-04 loss: 7.134e-02]wan_dewa:  75%|#######5  | 2630/3500 [2:20:38<32:51,  2.27s/it, lr: 2.0e-04 loss: 7.134e-02]wan_dewa:  75%|#######5  | 2631/3500 [2:20:38<25:20,  1.75s/it, lr: 2.0e-04 loss: 7.134e-02]wan_dewa:  75%|#######5  | 2631/3500 [2:20:38<25:20,  1.75s/it, lr: 2.0e-04 loss: 7.134e-02]wan_dewa:  75%|#######5  | 2631/3500 [2:20:40<25:20,  1.75s/it, lr: 2.0e-04 loss: 9.741e-02]wan_dewa:  75%|#######5  | 2631/3500 [2:20:40<25:20,  1.75s/it, lr: 2.0e-04 loss: 9.741e-02]wan_dewa:  75%|#######5  | 2632/3500 [2:20:40<27:10,  1.88s/it, lr: 2.0e-04 loss: 9.741e-02]wan_dewa:  75%|#######5  | 2632/3500 [2:20:40<27:10,  1.88s/it, lr: 2.0e-04 loss: 9.741e-02]wan_dewa:  75%|#######5  | 2632/3500 [2:20:43<27:10,  1.88s/it, lr: 2.0e-04 loss: 7.242e-02]wan_dewa:  75%|#######5  | 2632/3500 [2:20:43<27:10,  1.88s/it, lr: 2.0e-04 loss: 7.242e-02]wan_dewa:  75%|#######5  | 2633/3500 [2:20:43<28:36,  1.98s/it, lr: 2.0e-04 loss: 7.242e-02]wan_dewa:  75%|#######5  | 2633/3500 [2:20:43<28:36,  1.98s/it, lr: 2.0e-04 loss: 7.242e-02]wan_dewa:  75%|#######5  | 2633/3500 [2:20:45<28:36,  1.98s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  75%|#######5  | 2633/3500 [2:20:45<28:36,  1.98s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  75%|#######5  | 2634/3500 [2:20:45<29:44,  2.06s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  75%|#######5  | 2634/3500 [2:20:45<29:44,  2.06s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  75%|#######5  | 2634/3500 [2:20:47<29:44,  2.06s/it, lr: 2.0e-04 loss: 2.102e-02]wan_dewa:  75%|#######5  | 2634/3500 [2:20:47<29:44,  2.06s/it, lr: 2.0e-04 loss: 2.102e-02]wan_dewa:  75%|#######5  | 2635/3500 [2:20:47<30:33,  2.12s/it, lr: 2.0e-04 loss: 2.102e-02]wan_dewa:  75%|#######5  | 2635/3500 [2:20:47<30:33,  2.12s/it, lr: 2.0e-04 loss: 2.102e-02]wan_dewa:  75%|#######5  | 2635/3500 [2:20:50<30:33,  2.12s/it, lr: 2.0e-04 loss: 9.821e-02]wan_dewa:  75%|#######5  | 2635/3500 [2:20:50<30:33,  2.12s/it, lr: 2.0e-04 loss: 9.821e-02]wan_dewa:  75%|#######5  | 2636/3500 [2:20:50<31:59,  2.22s/it, lr: 2.0e-04 loss: 9.821e-02]wan_dewa:  75%|#######5  | 2636/3500 [2:20:50<31:59,  2.22s/it, lr: 2.0e-04 loss: 9.821e-02]wan_dewa:  75%|#######5  | 2636/3500 [2:20:52<31:59,  2.22s/it, lr: 2.0e-04 loss: 2.036e-01]wan_dewa:  75%|#######5  | 2636/3500 [2:20:52<31:59,  2.22s/it, lr: 2.0e-04 loss: 2.036e-01]wan_dewa:  75%|#######5  | 2637/3500 [2:20:52<32:13,  2.24s/it, lr: 2.0e-04 loss: 2.036e-01]wan_dewa:  75%|#######5  | 2637/3500 [2:20:52<32:13,  2.24s/it, lr: 2.0e-04 loss: 2.036e-01]wan_dewa:  75%|#######5  | 2637/3500 [2:20:54<32:13,  2.24s/it, lr: 2.0e-04 loss: 4.609e-02]wan_dewa:  75%|#######5  | 2637/3500 [2:20:54<32:13,  2.24s/it, lr: 2.0e-04 loss: 4.609e-02]wan_dewa:  75%|#######5  | 2638/3500 [2:20:54<32:20,  2.25s/it, lr: 2.0e-04 loss: 4.609e-02]wan_dewa:  75%|#######5  | 2638/3500 [2:20:54<32:20,  2.25s/it, lr: 2.0e-04 loss: 4.609e-02]wan_dewa:  75%|#######5  | 2638/3500 [2:20:57<32:20,  2.25s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  75%|#######5  | 2638/3500 [2:20:57<32:20,  2.25s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  75%|#######5  | 2639/3500 [2:20:57<32:24,  2.26s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  75%|#######5  | 2639/3500 [2:20:57<32:24,  2.26s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  75%|#######5  | 2639/3500 [2:21:08<32:24,  2.26s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  75%|#######5  | 2639/3500 [2:21:08<32:24,  2.26s/it, lr: 2.0e-04 loss: 2.726e-02]wan_dewa:  75%|#######5  | 2640/3500 [2:21:10<32:22,  2.26s/it, lr: 2.0e-04 loss: 2.009e-02]wan_dewa:  75%|#######5  | 2640/3500 [2:21:10<32:22,  2.26s/it, lr: 2.0e-04 loss: 2.009e-02]wan_dewa:  75%|#######5  | 2641/3500 [2:21:10<25:42,  1.80s/it, lr: 2.0e-04 loss: 2.009e-02]wan_dewa:  75%|#######5  | 2641/3500 [2:21:10<25:42,  1.80s/it, lr: 2.0e-04 loss: 2.009e-02]wan_dewa:  75%|#######5  | 2641/3500 [2:21:12<25:42,  1.80s/it, lr: 2.0e-04 loss: 2.318e-02]wan_dewa:  75%|#######5  | 2641/3500 [2:21:12<25:42,  1.80s/it, lr: 2.0e-04 loss: 2.318e-02]wan_dewa:  75%|#######5  | 2642/3500 [2:21:12<27:22,  1.91s/it, lr: 2.0e-04 loss: 2.318e-02]wan_dewa:  75%|#######5  | 2642/3500 [2:21:12<27:22,  1.91s/it, lr: 2.0e-04 loss: 2.318e-02]wan_dewa:  75%|#######5  | 2642/3500 [2:21:15<27:22,  1.91s/it, lr: 2.0e-04 loss: 3.416e-02]wan_dewa:  75%|#######5  | 2642/3500 [2:21:15<27:22,  1.91s/it, lr: 2.0e-04 loss: 3.416e-02]wan_dewa:  76%|#######5  | 2643/3500 [2:21:15<28:41,  2.01s/it, lr: 2.0e-04 loss: 3.416e-02]wan_dewa:  76%|#######5  | 2643/3500 [2:21:15<28:41,  2.01s/it, lr: 2.0e-04 loss: 3.416e-02]wan_dewa:  76%|#######5  | 2643/3500 [2:21:17<28:41,  2.01s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  76%|#######5  | 2643/3500 [2:21:17<28:41,  2.01s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  76%|#######5  | 2644/3500 [2:21:17<29:43,  2.08s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  76%|#######5  | 2644/3500 [2:21:17<29:43,  2.08s/it, lr: 2.0e-04 loss: 3.509e-02]wan_dewa:  76%|#######5  | 2644/3500 [2:21:19<29:43,  2.08s/it, lr: 2.0e-04 loss: 5.181e-02]wan_dewa:  76%|#######5  | 2644/3500 [2:21:19<29:43,  2.08s/it, lr: 2.0e-04 loss: 5.181e-02]wan_dewa:  76%|#######5  | 2645/3500 [2:21:19<30:28,  2.14s/it, lr: 2.0e-04 loss: 5.181e-02]wan_dewa:  76%|#######5  | 2645/3500 [2:21:19<30:28,  2.14s/it, lr: 2.0e-04 loss: 5.181e-02]wan_dewa:  76%|#######5  | 2645/3500 [2:21:22<30:28,  2.14s/it, lr: 2.0e-04 loss: 2.510e-02]wan_dewa:  76%|#######5  | 2645/3500 [2:21:22<30:28,  2.14s/it, lr: 2.0e-04 loss: 2.510e-02]wan_dewa:  76%|#######5  | 2646/3500 [2:21:22<31:55,  2.24s/it, lr: 2.0e-04 loss: 2.510e-02]wan_dewa:  76%|#######5  | 2646/3500 [2:21:22<31:55,  2.24s/it, lr: 2.0e-04 loss: 2.510e-02]wan_dewa:  76%|#######5  | 2646/3500 [2:21:24<31:55,  2.24s/it, lr: 2.0e-04 loss: 3.316e-02]wan_dewa:  76%|#######5  | 2646/3500 [2:21:24<31:55,  2.24s/it, lr: 2.0e-04 loss: 3.316e-02]wan_dewa:  76%|#######5  | 2647/3500 [2:21:24<32:03,  2.26s/it, lr: 2.0e-04 loss: 3.316e-02]wan_dewa:  76%|#######5  | 2647/3500 [2:21:24<32:03,  2.26s/it, lr: 2.0e-04 loss: 3.316e-02]wan_dewa:  76%|#######5  | 2647/3500 [2:21:26<32:03,  2.26s/it, lr: 2.0e-04 loss: 4.515e-02]wan_dewa:  76%|#######5  | 2647/3500 [2:21:26<32:03,  2.26s/it, lr: 2.0e-04 loss: 4.515e-02]wan_dewa:  76%|#######5  | 2648/3500 [2:21:26<32:08,  2.26s/it, lr: 2.0e-04 loss: 4.515e-02]wan_dewa:  76%|#######5  | 2648/3500 [2:21:26<32:08,  2.26s/it, lr: 2.0e-04 loss: 4.515e-02]wan_dewa:  76%|#######5  | 2648/3500 [2:21:29<32:08,  2.26s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  76%|#######5  | 2648/3500 [2:21:29<32:08,  2.26s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  76%|#######5  | 2649/3500 [2:21:29<32:11,  2.27s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  76%|#######5  | 2649/3500 [2:21:29<32:11,  2.27s/it, lr: 2.0e-04 loss: 4.418e-02]wan_dewa:  76%|#######5  | 2649/3500 [2:21:42<32:11,  2.27s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  76%|#######5  | 2649/3500 [2:21:42<32:11,  2.27s/it, lr: 2.0e-04 loss: 4.335e-02]wan_dewa:  76%|#######5  | 2650/3500 [2:21:44<32:08,  2.27s/it, lr: 2.0e-04 loss: 8.489e-02]wan_dewa:  76%|#######5  | 2650/3500 [2:21:44<32:08,  2.27s/it, lr: 2.0e-04 loss: 8.489e-02]wan_dewa:  76%|#######5  | 2651/3500 [2:21:44<25:51,  1.83s/it, lr: 2.0e-04 loss: 8.489e-02]wan_dewa:  76%|#######5  | 2651/3500 [2:21:44<25:51,  1.83s/it, lr: 2.0e-04 loss: 8.489e-02]wan_dewa:  76%|#######5  | 2651/3500 [2:21:47<25:51,  1.83s/it, lr: 2.0e-04 loss: 5.437e-02]wan_dewa:  76%|#######5  | 2651/3500 [2:21:47<25:51,  1.83s/it, lr: 2.0e-04 loss: 5.437e-02]wan_dewa:  76%|#######5  | 2652/3500 [2:21:47<27:21,  1.94s/it, lr: 2.0e-04 loss: 5.437e-02]wan_dewa:  76%|#######5  | 2652/3500 [2:21:47<27:21,  1.94s/it, lr: 2.0e-04 loss: 5.437e-02]wan_dewa:  76%|#######5  | 2652/3500 [2:21:49<27:21,  1.94s/it, lr: 2.0e-04 loss: 5.722e-02]wan_dewa:  76%|#######5  | 2652/3500 [2:21:49<27:21,  1.94s/it, lr: 2.0e-04 loss: 5.722e-02]wan_dewa:  76%|#######5  | 2653/3500 [2:21:49<28:33,  2.02s/it, lr: 2.0e-04 loss: 5.722e-02]wan_dewa:  76%|#######5  | 2653/3500 [2:21:49<28:33,  2.02s/it, lr: 2.0e-04 loss: 5.722e-02]wan_dewa:  76%|#######5  | 2653/3500 [2:21:51<28:33,  2.02s/it, lr: 2.0e-04 loss: 8.459e-02]wan_dewa:  76%|#######5  | 2653/3500 [2:21:51<28:33,  2.02s/it, lr: 2.0e-04 loss: 8.459e-02]wan_dewa:  76%|#######5  | 2654/3500 [2:21:51<29:28,  2.09s/it, lr: 2.0e-04 loss: 8.459e-02]wan_dewa:  76%|#######5  | 2654/3500 [2:21:51<29:28,  2.09s/it, lr: 2.0e-04 loss: 8.459e-02]wan_dewa:  76%|#######5  | 2654/3500 [2:21:54<29:28,  2.09s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  76%|#######5  | 2654/3500 [2:21:54<29:28,  2.09s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  76%|#######5  | 2655/3500 [2:21:54<30:09,  2.14s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  76%|#######5  | 2655/3500 [2:21:54<30:09,  2.14s/it, lr: 2.0e-04 loss: 4.673e-02]wan_dewa:  76%|#######5  | 2655/3500 [2:21:56<30:09,  2.14s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  76%|#######5  | 2655/3500 [2:21:56<30:09,  2.14s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  76%|#######5  | 2656/3500 [2:21:56<31:31,  2.24s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  76%|#######5  | 2656/3500 [2:21:56<31:31,  2.24s/it, lr: 2.0e-04 loss: 5.905e-02]wan_dewa:  76%|#######5  | 2656/3500 [2:21:58<31:31,  2.24s/it, lr: 2.0e-04 loss: 3.393e-02]wan_dewa:  76%|#######5  | 2656/3500 [2:21:58<31:31,  2.24s/it, lr: 2.0e-04 loss: 3.393e-02]wan_dewa:  76%|#######5  | 2657/3500 [2:21:58<31:38,  2.25s/it, lr: 2.0e-04 loss: 3.393e-02]wan_dewa:  76%|#######5  | 2657/3500 [2:21:58<31:38,  2.25s/it, lr: 2.0e-04 loss: 3.393e-02]wan_dewa:  76%|#######5  | 2657/3500 [2:22:01<31:38,  2.25s/it, lr: 2.0e-04 loss: 9.120e-02]wan_dewa:  76%|#######5  | 2657/3500 [2:22:01<31:38,  2.25s/it, lr: 2.0e-04 loss: 9.120e-02]wan_dewa:  76%|#######5  | 2658/3500 [2:22:01<31:41,  2.26s/it, lr: 2.0e-04 loss: 9.120e-02]wan_dewa:  76%|#######5  | 2658/3500 [2:22:01<31:41,  2.26s/it, lr: 2.0e-04 loss: 9.120e-02]wan_dewa:  76%|#######5  | 2658/3500 [2:22:03<31:41,  2.26s/it, lr: 2.0e-04 loss: 6.426e-02]wan_dewa:  76%|#######5  | 2658/3500 [2:22:03<31:41,  2.26s/it, lr: 2.0e-04 loss: 6.426e-02]wan_dewa:  76%|#######5  | 2659/3500 [2:22:03<31:43,  2.26s/it, lr: 2.0e-04 loss: 6.426e-02]wan_dewa:  76%|#######5  | 2659/3500 [2:22:03<31:43,  2.26s/it, lr: 2.0e-04 loss: 6.426e-02]wan_dewa:  76%|#######5  | 2659/3500 [2:22:14<31:43,  2.26s/it, lr: 2.0e-04 loss: 4.125e-02]wan_dewa:  76%|#######5  | 2659/3500 [2:22:14<31:43,  2.26s/it, lr: 2.0e-04 loss: 4.125e-02]wan_dewa:  76%|#######6  | 2660/3500 [2:22:16<31:41,  2.26s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  76%|#######6  | 2660/3500 [2:22:16<31:41,  2.26s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  76%|#######6  | 2661/3500 [2:22:16<24:28,  1.75s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  76%|#######6  | 2661/3500 [2:22:16<24:28,  1.75s/it, lr: 2.0e-04 loss: 3.456e-02]wan_dewa:  76%|#######6  | 2661/3500 [2:22:19<24:28,  1.75s/it, lr: 2.0e-04 loss: 4.035e-02]wan_dewa:  76%|#######6  | 2661/3500 [2:22:19<24:28,  1.75s/it, lr: 2.0e-04 loss: 4.035e-02]wan_dewa:  76%|#######6  | 2662/3500 [2:22:19<26:58,  1.93s/it, lr: 2.0e-04 loss: 4.035e-02]wan_dewa:  76%|#######6  | 2662/3500 [2:22:19<26:58,  1.93s/it, lr: 2.0e-04 loss: 4.035e-02]wan_dewa:  76%|#######6  | 2662/3500 [2:22:21<26:58,  1.93s/it, lr: 2.0e-04 loss: 4.148e-02]wan_dewa:  76%|#######6  | 2662/3500 [2:22:21<26:58,  1.93s/it, lr: 2.0e-04 loss: 4.148e-02]wan_dewa:  76%|#######6  | 2663/3500 [2:22:21<28:13,  2.02s/it, lr: 2.0e-04 loss: 4.148e-02]wan_dewa:  76%|#######6  | 2663/3500 [2:22:21<28:13,  2.02s/it, lr: 2.0e-04 loss: 4.148e-02]wan_dewa:  76%|#######6  | 2663/3500 [2:22:23<28:13,  2.02s/it, lr: 2.0e-04 loss: 1.839e-02]wan_dewa:  76%|#######6  | 2663/3500 [2:22:23<28:13,  2.02s/it, lr: 2.0e-04 loss: 1.839e-02]wan_dewa:  76%|#######6  | 2664/3500 [2:22:23<29:09,  2.09s/it, lr: 2.0e-04 loss: 1.839e-02]wan_dewa:  76%|#######6  | 2664/3500 [2:22:23<29:09,  2.09s/it, lr: 2.0e-04 loss: 1.839e-02]wan_dewa:  76%|#######6  | 2664/3500 [2:22:26<29:09,  2.09s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  76%|#######6  | 2664/3500 [2:22:26<29:09,  2.09s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  76%|#######6  | 2665/3500 [2:22:26<29:52,  2.15s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  76%|#######6  | 2665/3500 [2:22:26<29:52,  2.15s/it, lr: 2.0e-04 loss: 3.761e-02]wan_dewa:  76%|#######6  | 2665/3500 [2:22:28<29:52,  2.15s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  76%|#######6  | 2665/3500 [2:22:28<29:52,  2.15s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  76%|#######6  | 2666/3500 [2:22:28<30:23,  2.19s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  76%|#######6  | 2666/3500 [2:22:28<30:23,  2.19s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  76%|#######6  | 2666/3500 [2:22:30<30:23,  2.19s/it, lr: 2.0e-04 loss: 4.351e-02]wan_dewa:  76%|#######6  | 2666/3500 [2:22:30<30:23,  2.19s/it, lr: 2.0e-04 loss: 4.351e-02]wan_dewa:  76%|#######6  | 2667/3500 [2:22:30<31:33,  2.27s/it, lr: 2.0e-04 loss: 4.351e-02]wan_dewa:  76%|#######6  | 2667/3500 [2:22:30<31:33,  2.27s/it, lr: 2.0e-04 loss: 4.351e-02]wan_dewa:  76%|#######6  | 2667/3500 [2:22:33<31:33,  2.27s/it, lr: 2.0e-04 loss: 3.382e-02]wan_dewa:  76%|#######6  | 2667/3500 [2:22:33<31:33,  2.27s/it, lr: 2.0e-04 loss: 3.382e-02]wan_dewa:  76%|#######6  | 2668/3500 [2:22:33<31:33,  2.28s/it, lr: 2.0e-04 loss: 3.382e-02]wan_dewa:  76%|#######6  | 2668/3500 [2:22:33<31:33,  2.28s/it, lr: 2.0e-04 loss: 3.382e-02]wan_dewa:  76%|#######6  | 2668/3500 [2:22:35<31:33,  2.28s/it, lr: 2.0e-04 loss: 3.907e-02]wan_dewa:  76%|#######6  | 2668/3500 [2:22:35<31:33,  2.28s/it, lr: 2.0e-04 loss: 3.907e-02]wan_dewa:  76%|#######6  | 2669/3500 [2:22:35<31:34,  2.28s/it, lr: 2.0e-04 loss: 3.907e-02]wan_dewa:  76%|#######6  | 2669/3500 [2:22:35<31:34,  2.28s/it, lr: 2.0e-04 loss: 3.907e-02]wan_dewa:  76%|#######6  | 2669/3500 [2:22:43<31:34,  2.28s/it, lr: 2.0e-04 loss: 5.102e-02]wan_dewa:  76%|#######6  | 2669/3500 [2:22:43<31:34,  2.28s/it, lr: 2.0e-04 loss: 5.102e-02]wan_dewa:  76%|#######6  | 2670/3500 [2:22:45<31:32,  2.28s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  76%|#######6  | 2670/3500 [2:22:45<31:32,  2.28s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  76%|#######6  | 2671/3500 [2:22:45<24:16,  1.76s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  76%|#######6  | 2671/3500 [2:22:45<24:16,  1.76s/it, lr: 2.0e-04 loss: 6.420e-02]wan_dewa:  76%|#######6  | 2671/3500 [2:22:47<24:16,  1.76s/it, lr: 2.0e-04 loss: 3.052e-02]wan_dewa:  76%|#######6  | 2671/3500 [2:22:47<24:16,  1.76s/it, lr: 2.0e-04 loss: 3.052e-02]wan_dewa:  76%|#######6  | 2672/3500 [2:22:47<26:40,  1.93s/it, lr: 2.0e-04 loss: 3.052e-02]wan_dewa:  76%|#######6  | 2672/3500 [2:22:47<26:40,  1.93s/it, lr: 2.0e-04 loss: 3.052e-02]wan_dewa:  76%|#######6  | 2672/3500 [2:22:50<26:40,  1.93s/it, lr: 2.0e-04 loss: 3.734e-02]wan_dewa:  76%|#######6  | 2672/3500 [2:22:50<26:40,  1.93s/it, lr: 2.0e-04 loss: 3.734e-02]wan_dewa:  76%|#######6  | 2673/3500 [2:22:50<27:52,  2.02s/it, lr: 2.0e-04 loss: 3.734e-02]wan_dewa:  76%|#######6  | 2673/3500 [2:22:50<27:52,  2.02s/it, lr: 2.0e-04 loss: 3.734e-02]wan_dewa:  76%|#######6  | 2673/3500 [2:22:52<27:52,  2.02s/it, lr: 2.0e-04 loss: 5.524e-02]wan_dewa:  76%|#######6  | 2673/3500 [2:22:52<27:52,  2.02s/it, lr: 2.0e-04 loss: 5.524e-02]wan_dewa:  76%|#######6  | 2674/3500 [2:22:52<28:47,  2.09s/it, lr: 2.0e-04 loss: 5.524e-02]wan_dewa:  76%|#######6  | 2674/3500 [2:22:52<28:47,  2.09s/it, lr: 2.0e-04 loss: 5.524e-02]wan_dewa:  76%|#######6  | 2674/3500 [2:22:56<28:47,  2.09s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  76%|#######6  | 2674/3500 [2:22:56<28:47,  2.09s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  76%|#######6  | 2675/3500 [2:22:56<29:34,  2.15s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  76%|#######6  | 2675/3500 [2:22:56<29:34,  2.15s/it, lr: 2.0e-04 loss: 1.181e-01]wan_dewa:  76%|#######6  | 2675/3500 [2:22:59<29:34,  2.15s/it, lr: 2.0e-04 loss: 1.978e-01]wan_dewa:  76%|#######6  | 2675/3500 [2:22:59<29:34,  2.15s/it, lr: 2.0e-04 loss: 1.978e-01]wan_dewa:  76%|#######6  | 2676/3500 [2:22:59<30:01,  2.19s/it, lr: 2.0e-04 loss: 1.978e-01]wan_dewa:  76%|#######6  | 2676/3500 [2:22:59<30:01,  2.19s/it, lr: 2.0e-04 loss: 1.978e-01]wan_dewa:  76%|#######6  | 2676/3500 [2:23:01<30:01,  2.19s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  76%|#######6  | 2676/3500 [2:23:01<30:01,  2.19s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  76%|#######6  | 2677/3500 [2:23:01<31:49,  2.32s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  76%|#######6  | 2677/3500 [2:23:01<31:49,  2.32s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  76%|#######6  | 2677/3500 [2:23:04<31:49,  2.32s/it, lr: 2.0e-04 loss: 5.000e-02]wan_dewa:  76%|#######6  | 2677/3500 [2:23:04<31:49,  2.32s/it, lr: 2.0e-04 loss: 5.000e-02]wan_dewa:  77%|#######6  | 2678/3500 [2:23:04<31:35,  2.31s/it, lr: 2.0e-04 loss: 5.000e-02]wan_dewa:  77%|#######6  | 2678/3500 [2:23:04<31:35,  2.31s/it, lr: 2.0e-04 loss: 5.000e-02]wan_dewa:  77%|#######6  | 2678/3500 [2:23:06<31:35,  2.31s/it, lr: 2.0e-04 loss: 2.534e-02]wan_dewa:  77%|#######6  | 2678/3500 [2:23:06<31:35,  2.31s/it, lr: 2.0e-04 loss: 2.534e-02]wan_dewa:  77%|#######6  | 2679/3500 [2:23:06<31:26,  2.30s/it, lr: 2.0e-04 loss: 2.534e-02]wan_dewa:  77%|#######6  | 2679/3500 [2:23:06<31:26,  2.30s/it, lr: 2.0e-04 loss: 2.534e-02]wan_dewa:  77%|#######6  | 2679/3500 [2:23:17<31:26,  2.30s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  77%|#######6  | 2679/3500 [2:23:17<31:26,  2.30s/it, lr: 2.0e-04 loss: 3.582e-02]wan_dewa:  77%|#######6  | 2680/3500 [2:23:19<31:23,  2.30s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  77%|#######6  | 2680/3500 [2:23:19<31:23,  2.30s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  77%|#######6  | 2681/3500 [2:23:19<24:08,  1.77s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  77%|#######6  | 2681/3500 [2:23:19<24:08,  1.77s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  77%|#######6  | 2681/3500 [2:23:22<24:08,  1.77s/it, lr: 2.0e-04 loss: 4.050e-02]wan_dewa:  77%|#######6  | 2681/3500 [2:23:22<24:08,  1.77s/it, lr: 2.0e-04 loss: 4.050e-02]wan_dewa:  77%|#######6  | 2682/3500 [2:23:22<26:34,  1.95s/it, lr: 2.0e-04 loss: 4.050e-02]wan_dewa:  77%|#######6  | 2682/3500 [2:23:22<26:34,  1.95s/it, lr: 2.0e-04 loss: 4.050e-02]wan_dewa:  77%|#######6  | 2682/3500 [2:23:24<26:34,  1.95s/it, lr: 2.0e-04 loss: 3.309e-02]wan_dewa:  77%|#######6  | 2682/3500 [2:23:24<26:34,  1.95s/it, lr: 2.0e-04 loss: 3.309e-02]wan_dewa:  77%|#######6  | 2683/3500 [2:23:24<27:41,  2.03s/it, lr: 2.0e-04 loss: 3.309e-02]wan_dewa:  77%|#######6  | 2683/3500 [2:23:24<27:41,  2.03s/it, lr: 2.0e-04 loss: 3.309e-02]wan_dewa:  77%|#######6  | 2683/3500 [2:23:27<27:41,  2.03s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  77%|#######6  | 2683/3500 [2:23:27<27:41,  2.03s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  77%|#######6  | 2684/3500 [2:23:27<28:33,  2.10s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  77%|#######6  | 2684/3500 [2:23:27<28:33,  2.10s/it, lr: 2.0e-04 loss: 4.147e-02]wan_dewa:  77%|#######6  | 2684/3500 [2:23:29<28:33,  2.10s/it, lr: 2.0e-04 loss: 3.454e-02]wan_dewa:  77%|#######6  | 2684/3500 [2:23:29<28:33,  2.10s/it, lr: 2.0e-04 loss: 3.454e-02]wan_dewa:  77%|#######6  | 2685/3500 [2:23:29<29:11,  2.15s/it, lr: 2.0e-04 loss: 3.454e-02]wan_dewa:  77%|#######6  | 2685/3500 [2:23:29<29:11,  2.15s/it, lr: 2.0e-04 loss: 3.454e-02]wan_dewa:  77%|#######6  | 2685/3500 [2:23:31<29:11,  2.15s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  77%|#######6  | 2685/3500 [2:23:31<29:11,  2.15s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  77%|#######6  | 2686/3500 [2:23:31<29:41,  2.19s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  77%|#######6  | 2686/3500 [2:23:31<29:41,  2.19s/it, lr: 2.0e-04 loss: 3.584e-02]wan_dewa:  77%|#######6  | 2686/3500 [2:23:34<29:41,  2.19s/it, lr: 2.0e-04 loss: 2.080e-02]wan_dewa:  77%|#######6  | 2686/3500 [2:23:34<29:41,  2.19s/it, lr: 2.0e-04 loss: 2.080e-02]wan_dewa:  77%|#######6  | 2687/3500 [2:23:34<31:05,  2.29s/it, lr: 2.0e-04 loss: 2.080e-02]wan_dewa:  77%|#######6  | 2687/3500 [2:23:34<31:05,  2.29s/it, lr: 2.0e-04 loss: 2.080e-02]wan_dewa:  77%|#######6  | 2687/3500 [2:23:36<31:05,  2.29s/it, lr: 2.0e-04 loss: 3.333e-02]wan_dewa:  77%|#######6  | 2687/3500 [2:23:36<31:05,  2.29s/it, lr: 2.0e-04 loss: 3.333e-02]wan_dewa:  77%|#######6  | 2688/3500 [2:23:36<31:00,  2.29s/it, lr: 2.0e-04 loss: 3.333e-02]wan_dewa:  77%|#######6  | 2688/3500 [2:23:36<31:00,  2.29s/it, lr: 2.0e-04 loss: 3.333e-02]wan_dewa:  77%|#######6  | 2688/3500 [2:23:38<31:00,  2.29s/it, lr: 2.0e-04 loss: 4.294e-02]wan_dewa:  77%|#######6  | 2688/3500 [2:23:38<31:00,  2.29s/it, lr: 2.0e-04 loss: 4.294e-02]wan_dewa:  77%|#######6  | 2689/3500 [2:23:38<30:55,  2.29s/it, lr: 2.0e-04 loss: 4.294e-02]wan_dewa:  77%|#######6  | 2689/3500 [2:23:38<30:55,  2.29s/it, lr: 2.0e-04 loss: 4.294e-02]wan_dewa:  77%|#######6  | 2689/3500 [2:23:49<30:55,  2.29s/it, lr: 2.0e-04 loss: 8.493e-02]wan_dewa:  77%|#######6  | 2689/3500 [2:23:49<30:55,  2.29s/it, lr: 2.0e-04 loss: 8.493e-02]wan_dewa:  77%|#######6  | 2690/3500 [2:23:52<30:53,  2.29s/it, lr: 2.0e-04 loss: 4.700e-02]wan_dewa:  77%|#######6  | 2690/3500 [2:23:52<30:53,  2.29s/it, lr: 2.0e-04 loss: 4.700e-02]wan_dewa:  77%|#######6  | 2691/3500 [2:23:52<23:46,  1.76s/it, lr: 2.0e-04 loss: 4.700e-02]wan_dewa:  77%|#######6  | 2691/3500 [2:23:52<23:46,  1.76s/it, lr: 2.0e-04 loss: 4.700e-02]wan_dewa:  77%|#######6  | 2691/3500 [2:23:54<23:46,  1.76s/it, lr: 2.0e-04 loss: 1.082e-01]wan_dewa:  77%|#######6  | 2691/3500 [2:23:54<23:46,  1.76s/it, lr: 2.0e-04 loss: 1.082e-01]wan_dewa:  77%|#######6  | 2692/3500 [2:23:54<26:13,  1.95s/it, lr: 2.0e-04 loss: 1.082e-01]wan_dewa:  77%|#######6  | 2692/3500 [2:23:54<26:13,  1.95s/it, lr: 2.0e-04 loss: 1.082e-01]wan_dewa:  77%|#######6  | 2692/3500 [2:23:56<26:13,  1.95s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  77%|#######6  | 2692/3500 [2:23:56<26:13,  1.95s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  77%|#######6  | 2693/3500 [2:23:56<27:20,  2.03s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  77%|#######6  | 2693/3500 [2:23:56<27:20,  2.03s/it, lr: 2.0e-04 loss: 8.526e-02]wan_dewa:  77%|#######6  | 2693/3500 [2:23:59<27:20,  2.03s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  77%|#######6  | 2693/3500 [2:23:59<27:20,  2.03s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  77%|#######6  | 2694/3500 [2:23:59<28:13,  2.10s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  77%|#######6  | 2694/3500 [2:23:59<28:13,  2.10s/it, lr: 2.0e-04 loss: 7.248e-02]wan_dewa:  77%|#######6  | 2694/3500 [2:24:01<28:13,  2.10s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  77%|#######6  | 2694/3500 [2:24:01<28:13,  2.10s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  77%|#######7  | 2695/3500 [2:24:01<28:52,  2.15s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  77%|#######7  | 2695/3500 [2:24:01<28:52,  2.15s/it, lr: 2.0e-04 loss: 1.049e-01]wan_dewa:  77%|#######7  | 2695/3500 [2:24:03<28:52,  2.15s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  77%|#######7  | 2695/3500 [2:24:03<28:52,  2.15s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  77%|#######7  | 2696/3500 [2:24:03<29:20,  2.19s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  77%|#######7  | 2696/3500 [2:24:03<29:20,  2.19s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  77%|#######7  | 2696/3500 [2:24:06<29:20,  2.19s/it, lr: 2.0e-04 loss: 2.168e-02]wan_dewa:  77%|#######7  | 2696/3500 [2:24:06<29:20,  2.19s/it, lr: 2.0e-04 loss: 2.168e-02]wan_dewa:  77%|#######7  | 2697/3500 [2:24:06<29:40,  2.22s/it, lr: 2.0e-04 loss: 2.168e-02]wan_dewa:  77%|#######7  | 2697/3500 [2:24:06<29:40,  2.22s/it, lr: 2.0e-04 loss: 2.168e-02]wan_dewa:  77%|#######7  | 2697/3500 [2:24:08<29:40,  2.22s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2697/3500 [2:24:08<29:40,  2.22s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2698/3500 [2:24:08<30:50,  2.31s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2698/3500 [2:24:08<30:50,  2.31s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2698/3500 [2:24:10<30:50,  2.31s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2698/3500 [2:24:10<30:50,  2.31s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2699/3500 [2:24:10<30:43,  2.30s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2699/3500 [2:24:10<30:43,  2.30s/it, lr: 2.0e-04 loss: 4.366e-02]wan_dewa:  77%|#######7  | 2699/3500 [2:24:24<30:43,  2.30s/it, lr: 2.0e-04 loss: 2.245e-02]wan_dewa:  77%|#######7  | 2699/3500 [2:24:24<30:43,  2.30s/it, lr: 2.0e-04 loss: 2.245e-02]wan_dewa:  77%|#######7  | 2700/3500 [2:24:26<30:40,  2.30s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  77%|#######7  | 2700/3500 [2:24:26<30:40,  2.30s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  77%|#######7  | 2701/3500 [2:24:26<23:38,  1.77s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  77%|#######7  | 2701/3500 [2:24:26<23:38,  1.77s/it, lr: 2.0e-04 loss: 3.593e-02]wan_dewa:  77%|#######7  | 2701/3500 [2:24:28<23:38,  1.77s/it, lr: 2.0e-04 loss: 3.741e-02]wan_dewa:  77%|#######7  | 2701/3500 [2:24:28<23:38,  1.77s/it, lr: 2.0e-04 loss: 3.741e-02]wan_dewa:  77%|#######7  | 2702/3500 [2:24:28<25:17,  1.90s/it, lr: 2.0e-04 loss: 3.741e-02]wan_dewa:  77%|#######7  | 2702/3500 [2:24:28<25:17,  1.90s/it, lr: 2.0e-04 loss: 3.741e-02]wan_dewa:  77%|#######7  | 2702/3500 [2:24:31<25:17,  1.90s/it, lr: 2.0e-04 loss: 4.427e-02]wan_dewa:  77%|#######7  | 2702/3500 [2:24:31<25:17,  1.90s/it, lr: 2.0e-04 loss: 4.427e-02]wan_dewa:  77%|#######7  | 2703/3500 [2:24:31<27:36,  2.08s/it, lr: 2.0e-04 loss: 4.427e-02]wan_dewa:  77%|#######7  | 2703/3500 [2:24:31<27:36,  2.08s/it, lr: 2.0e-04 loss: 4.427e-02]wan_dewa:  77%|#######7  | 2703/3500 [2:24:33<27:36,  2.08s/it, lr: 2.0e-04 loss: 4.255e-02]wan_dewa:  77%|#######7  | 2703/3500 [2:24:33<27:36,  2.08s/it, lr: 2.0e-04 loss: 4.255e-02]wan_dewa:  77%|#######7  | 2704/3500 [2:24:33<28:17,  2.13s/it, lr: 2.0e-04 loss: 4.255e-02]wan_dewa:  77%|#######7  | 2704/3500 [2:24:33<28:17,  2.13s/it, lr: 2.0e-04 loss: 4.255e-02]wan_dewa:  77%|#######7  | 2704/3500 [2:24:35<28:17,  2.13s/it, lr: 2.0e-04 loss: 4.243e-02]wan_dewa:  77%|#######7  | 2704/3500 [2:24:35<28:17,  2.13s/it, lr: 2.0e-04 loss: 4.243e-02]wan_dewa:  77%|#######7  | 2705/3500 [2:24:35<28:48,  2.17s/it, lr: 2.0e-04 loss: 4.243e-02]wan_dewa:  77%|#######7  | 2705/3500 [2:24:35<28:48,  2.17s/it, lr: 2.0e-04 loss: 4.243e-02]wan_dewa:  77%|#######7  | 2705/3500 [2:24:38<28:48,  2.17s/it, lr: 2.0e-04 loss: 4.154e-02]wan_dewa:  77%|#######7  | 2705/3500 [2:24:38<28:48,  2.17s/it, lr: 2.0e-04 loss: 4.154e-02]wan_dewa:  77%|#######7  | 2706/3500 [2:24:38<29:10,  2.20s/it, lr: 2.0e-04 loss: 4.154e-02]wan_dewa:  77%|#######7  | 2706/3500 [2:24:38<29:10,  2.20s/it, lr: 2.0e-04 loss: 4.154e-02]wan_dewa:  77%|#######7  | 2706/3500 [2:24:40<29:10,  2.20s/it, lr: 2.0e-04 loss: 1.863e-02]wan_dewa:  77%|#######7  | 2706/3500 [2:24:40<29:10,  2.20s/it, lr: 2.0e-04 loss: 1.863e-02]wan_dewa:  77%|#######7  | 2707/3500 [2:24:40<29:26,  2.23s/it, lr: 2.0e-04 loss: 1.863e-02]wan_dewa:  77%|#######7  | 2707/3500 [2:24:40<29:26,  2.23s/it, lr: 2.0e-04 loss: 1.863e-02]wan_dewa:  77%|#######7  | 2707/3500 [2:24:42<29:26,  2.23s/it, lr: 2.0e-04 loss: 2.165e-02]wan_dewa:  77%|#######7  | 2707/3500 [2:24:42<29:26,  2.23s/it, lr: 2.0e-04 loss: 2.165e-02]wan_dewa:  77%|#######7  | 2708/3500 [2:24:42<30:24,  2.30s/it, lr: 2.0e-04 loss: 2.165e-02]wan_dewa:  77%|#######7  | 2708/3500 [2:24:42<30:24,  2.30s/it, lr: 2.0e-04 loss: 2.165e-02]wan_dewa:  77%|#######7  | 2708/3500 [2:24:45<30:24,  2.30s/it, lr: 2.0e-04 loss: 4.498e-02]wan_dewa:  77%|#######7  | 2708/3500 [2:24:45<30:24,  2.30s/it, lr: 2.0e-04 loss: 4.498e-02]wan_dewa:  77%|#######7  | 2709/3500 [2:24:45<30:17,  2.30s/it, lr: 2.0e-04 loss: 4.498e-02]wan_dewa:  77%|#######7  | 2709/3500 [2:24:45<30:17,  2.30s/it, lr: 2.0e-04 loss: 4.498e-02]wan_dewa:  77%|#######7  | 2709/3500 [2:24:56<30:17,  2.30s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:  77%|#######7  | 2709/3500 [2:24:56<30:17,  2.30s/it, lr: 2.0e-04 loss: 6.827e-02]wan_dewa:  77%|#######7  | 2710/3500 [2:24:58<30:15,  2.30s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  77%|#######7  | 2710/3500 [2:24:58<30:15,  2.30s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  77%|#######7  | 2711/3500 [2:24:58<23:15,  1.77s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  77%|#######7  | 2711/3500 [2:24:58<23:15,  1.77s/it, lr: 2.0e-04 loss: 1.022e-01]wan_dewa:  77%|#######7  | 2711/3500 [2:25:00<23:15,  1.77s/it, lr: 2.0e-04 loss: 5.782e-02]wan_dewa:  77%|#######7  | 2711/3500 [2:25:00<23:15,  1.77s/it, lr: 2.0e-04 loss: 5.782e-02]wan_dewa:  77%|#######7  | 2712/3500 [2:25:00<24:51,  1.89s/it, lr: 2.0e-04 loss: 5.782e-02]wan_dewa:  77%|#######7  | 2712/3500 [2:25:00<24:51,  1.89s/it, lr: 2.0e-04 loss: 5.782e-02]wan_dewa:  77%|#######7  | 2712/3500 [2:25:03<24:51,  1.89s/it, lr: 2.0e-04 loss: 4.480e-02]wan_dewa:  77%|#######7  | 2712/3500 [2:25:03<24:51,  1.89s/it, lr: 2.0e-04 loss: 4.480e-02]wan_dewa:  78%|#######7  | 2713/3500 [2:25:03<26:07,  1.99s/it, lr: 2.0e-04 loss: 4.480e-02]wan_dewa:  78%|#######7  | 2713/3500 [2:25:03<26:07,  1.99s/it, lr: 2.0e-04 loss: 4.480e-02]wan_dewa:  78%|#######7  | 2713/3500 [2:25:05<26:07,  1.99s/it, lr: 2.0e-04 loss: 4.967e-02]wan_dewa:  78%|#######7  | 2713/3500 [2:25:05<26:07,  1.99s/it, lr: 2.0e-04 loss: 4.967e-02]wan_dewa:  78%|#######7  | 2714/3500 [2:25:05<27:47,  2.12s/it, lr: 2.0e-04 loss: 4.967e-02]wan_dewa:  78%|#######7  | 2714/3500 [2:25:05<27:47,  2.12s/it, lr: 2.0e-04 loss: 4.967e-02]wan_dewa:  78%|#######7  | 2714/3500 [2:25:07<27:47,  2.12s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  78%|#######7  | 2714/3500 [2:25:07<27:47,  2.12s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  78%|#######7  | 2715/3500 [2:25:07<28:18,  2.16s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  78%|#######7  | 2715/3500 [2:25:07<28:18,  2.16s/it, lr: 2.0e-04 loss: 1.070e-01]wan_dewa:  78%|#######7  | 2715/3500 [2:25:10<28:18,  2.16s/it, lr: 2.0e-04 loss: 7.390e-02]wan_dewa:  78%|#######7  | 2715/3500 [2:25:10<28:18,  2.16s/it, lr: 2.0e-04 loss: 7.390e-02]wan_dewa:  78%|#######7  | 2716/3500 [2:25:10<28:41,  2.20s/it, lr: 2.0e-04 loss: 7.390e-02]wan_dewa:  78%|#######7  | 2716/3500 [2:25:10<28:41,  2.20s/it, lr: 2.0e-04 loss: 7.390e-02]wan_dewa:  78%|#######7  | 2716/3500 [2:25:12<28:41,  2.20s/it, lr: 2.0e-04 loss: 4.319e-02]wan_dewa:  78%|#######7  | 2716/3500 [2:25:12<28:41,  2.20s/it, lr: 2.0e-04 loss: 4.319e-02]wan_dewa:  78%|#######7  | 2717/3500 [2:25:12<28:57,  2.22s/it, lr: 2.0e-04 loss: 4.319e-02]wan_dewa:  78%|#######7  | 2717/3500 [2:25:12<28:57,  2.22s/it, lr: 2.0e-04 loss: 4.319e-02]wan_dewa:  78%|#######7  | 2717/3500 [2:25:14<28:57,  2.22s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  78%|#######7  | 2717/3500 [2:25:14<28:57,  2.22s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  78%|#######7  | 2718/3500 [2:25:14<29:09,  2.24s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  78%|#######7  | 2718/3500 [2:25:14<29:09,  2.24s/it, lr: 2.0e-04 loss: 5.066e-02]wan_dewa:  78%|#######7  | 2718/3500 [2:25:17<29:09,  2.24s/it, lr: 2.0e-04 loss: 4.415e-02]wan_dewa:  78%|#######7  | 2718/3500 [2:25:17<29:09,  2.24s/it, lr: 2.0e-04 loss: 4.415e-02]wan_dewa:  78%|#######7  | 2719/3500 [2:25:17<29:59,  2.30s/it, lr: 2.0e-04 loss: 4.415e-02]wan_dewa:  78%|#######7  | 2719/3500 [2:25:17<29:59,  2.30s/it, lr: 2.0e-04 loss: 4.415e-02]wan_dewa:  78%|#######7  | 2719/3500 [2:25:25<29:59,  2.30s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  78%|#######7  | 2719/3500 [2:25:25<29:59,  2.30s/it, lr: 2.0e-04 loss: 3.598e-02]wan_dewa:  78%|#######7  | 2720/3500 [2:25:27<29:57,  2.30s/it, lr: 2.0e-04 loss: 3.666e-02]wan_dewa:  78%|#######7  | 2720/3500 [2:25:27<29:57,  2.30s/it, lr: 2.0e-04 loss: 3.666e-02]wan_dewa:  78%|#######7  | 2721/3500 [2:25:27<22:59,  1.77s/it, lr: 2.0e-04 loss: 3.666e-02]wan_dewa:  78%|#######7  | 2721/3500 [2:25:27<22:59,  1.77s/it, lr: 2.0e-04 loss: 3.666e-02]wan_dewa:  78%|#######7  | 2721/3500 [2:25:29<22:59,  1.77s/it, lr: 2.0e-04 loss: 3.516e-02]wan_dewa:  78%|#######7  | 2721/3500 [2:25:29<22:59,  1.77s/it, lr: 2.0e-04 loss: 3.516e-02]wan_dewa:  78%|#######7  | 2722/3500 [2:25:29<24:34,  1.89s/it, lr: 2.0e-04 loss: 3.516e-02]wan_dewa:  78%|#######7  | 2722/3500 [2:25:29<24:34,  1.89s/it, lr: 2.0e-04 loss: 3.516e-02]wan_dewa:  78%|#######7  | 2722/3500 [2:25:31<24:34,  1.89s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  78%|#######7  | 2722/3500 [2:25:31<24:34,  1.89s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  78%|#######7  | 2723/3500 [2:25:31<25:49,  1.99s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  78%|#######7  | 2723/3500 [2:25:31<25:49,  1.99s/it, lr: 2.0e-04 loss: 3.268e-02]wan_dewa:  78%|#######7  | 2723/3500 [2:25:34<25:49,  1.99s/it, lr: 2.0e-04 loss: 2.281e-02]wan_dewa:  78%|#######7  | 2723/3500 [2:25:34<25:49,  1.99s/it, lr: 2.0e-04 loss: 2.281e-02]wan_dewa:  78%|#######7  | 2724/3500 [2:25:34<27:29,  2.13s/it, lr: 2.0e-04 loss: 2.281e-02]wan_dewa:  78%|#######7  | 2724/3500 [2:25:34<27:29,  2.13s/it, lr: 2.0e-04 loss: 2.281e-02]wan_dewa:  78%|#######7  | 2724/3500 [2:25:38<27:29,  2.13s/it, lr: 2.0e-04 loss: 3.625e-02]wan_dewa:  78%|#######7  | 2724/3500 [2:25:38<27:29,  2.13s/it, lr: 2.0e-04 loss: 3.625e-02]wan_dewa:  78%|#######7  | 2725/3500 [2:25:38<28:07,  2.18s/it, lr: 2.0e-04 loss: 3.625e-02]wan_dewa:  78%|#######7  | 2725/3500 [2:25:38<28:07,  2.18s/it, lr: 2.0e-04 loss: 3.625e-02]wan_dewa:  78%|#######7  | 2725/3500 [2:25:41<28:07,  2.18s/it, lr: 2.0e-04 loss: 3.023e-02]wan_dewa:  78%|#######7  | 2725/3500 [2:25:41<28:07,  2.18s/it, lr: 2.0e-04 loss: 3.023e-02]wan_dewa:  78%|#######7  | 2726/3500 [2:25:41<28:28,  2.21s/it, lr: 2.0e-04 loss: 3.023e-02]wan_dewa:  78%|#######7  | 2726/3500 [2:25:41<28:28,  2.21s/it, lr: 2.0e-04 loss: 3.023e-02]wan_dewa:  78%|#######7  | 2726/3500 [2:25:43<28:28,  2.21s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  78%|#######7  | 2726/3500 [2:25:43<28:28,  2.21s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  78%|#######7  | 2727/3500 [2:25:43<28:42,  2.23s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  78%|#######7  | 2727/3500 [2:25:43<28:42,  2.23s/it, lr: 2.0e-04 loss: 3.250e-02]wan_dewa:  78%|#######7  | 2727/3500 [2:25:45<28:42,  2.23s/it, lr: 2.0e-04 loss: 2.576e-02]wan_dewa:  78%|#######7  | 2727/3500 [2:25:45<28:42,  2.23s/it, lr: 2.0e-04 loss: 2.576e-02]wan_dewa:  78%|#######7  | 2728/3500 [2:25:45<28:51,  2.24s/it, lr: 2.0e-04 loss: 2.576e-02]wan_dewa:  78%|#######7  | 2728/3500 [2:25:45<28:51,  2.24s/it, lr: 2.0e-04 loss: 2.576e-02]wan_dewa:  78%|#######7  | 2728/3500 [2:25:48<28:51,  2.24s/it, lr: 2.0e-04 loss: 4.586e-02]wan_dewa:  78%|#######7  | 2728/3500 [2:25:48<28:51,  2.24s/it, lr: 2.0e-04 loss: 4.586e-02]wan_dewa:  78%|#######7  | 2729/3500 [2:25:48<28:57,  2.25s/it, lr: 2.0e-04 loss: 4.586e-02]wan_dewa:  78%|#######7  | 2729/3500 [2:25:48<28:57,  2.25s/it, lr: 2.0e-04 loss: 4.586e-02]wan_dewa:  78%|#######7  | 2729/3500 [2:25:59<28:57,  2.25s/it, lr: 2.0e-04 loss: 6.657e-02]wan_dewa:  78%|#######7  | 2729/3500 [2:25:59<28:57,  2.25s/it, lr: 2.0e-04 loss: 6.657e-02]wan_dewa:  78%|#######8  | 2730/3500 [2:26:01<28:55,  2.25s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  78%|#######8  | 2730/3500 [2:26:01<28:55,  2.25s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  78%|#######8  | 2731/3500 [2:26:01<22:24,  1.75s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  78%|#######8  | 2731/3500 [2:26:01<22:24,  1.75s/it, lr: 2.0e-04 loss: 5.055e-02]wan_dewa:  78%|#######8  | 2731/3500 [2:26:04<22:24,  1.75s/it, lr: 2.0e-04 loss: 1.377e-01]wan_dewa:  78%|#######8  | 2731/3500 [2:26:04<22:24,  1.75s/it, lr: 2.0e-04 loss: 1.377e-01]wan_dewa:  78%|#######8  | 2732/3500 [2:26:04<24:02,  1.88s/it, lr: 2.0e-04 loss: 1.377e-01]wan_dewa:  78%|#######8  | 2732/3500 [2:26:04<24:02,  1.88s/it, lr: 2.0e-04 loss: 1.377e-01]wan_dewa:  78%|#######8  | 2732/3500 [2:26:06<24:02,  1.88s/it, lr: 2.0e-04 loss: 7.528e-02]wan_dewa:  78%|#######8  | 2732/3500 [2:26:06<24:02,  1.88s/it, lr: 2.0e-04 loss: 7.528e-02]wan_dewa:  78%|#######8  | 2733/3500 [2:26:06<25:21,  1.98s/it, lr: 2.0e-04 loss: 7.528e-02]wan_dewa:  78%|#######8  | 2733/3500 [2:26:06<25:21,  1.98s/it, lr: 2.0e-04 loss: 7.528e-02]wan_dewa:  78%|#######8  | 2733/3500 [2:26:08<25:21,  1.98s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  78%|#######8  | 2733/3500 [2:26:08<25:21,  1.98s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  78%|#######8  | 2734/3500 [2:26:08<26:20,  2.06s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  78%|#######8  | 2734/3500 [2:26:08<26:20,  2.06s/it, lr: 2.0e-04 loss: 6.045e-02]wan_dewa:  78%|#######8  | 2734/3500 [2:26:11<26:20,  2.06s/it, lr: 2.0e-04 loss: 2.754e-01]wan_dewa:  78%|#######8  | 2734/3500 [2:26:11<26:20,  2.06s/it, lr: 2.0e-04 loss: 2.754e-01]wan_dewa:  78%|#######8  | 2735/3500 [2:26:11<27:46,  2.18s/it, lr: 2.0e-04 loss: 2.754e-01]wan_dewa:  78%|#######8  | 2735/3500 [2:26:11<27:46,  2.18s/it, lr: 2.0e-04 loss: 2.754e-01]wan_dewa:  78%|#######8  | 2735/3500 [2:26:13<27:46,  2.18s/it, lr: 2.0e-04 loss: 5.820e-02]wan_dewa:  78%|#######8  | 2735/3500 [2:26:13<27:46,  2.18s/it, lr: 2.0e-04 loss: 5.820e-02]wan_dewa:  78%|#######8  | 2736/3500 [2:26:13<28:06,  2.21s/it, lr: 2.0e-04 loss: 5.820e-02]wan_dewa:  78%|#######8  | 2736/3500 [2:26:13<28:06,  2.21s/it, lr: 2.0e-04 loss: 5.820e-02]wan_dewa:  78%|#######8  | 2736/3500 [2:26:15<28:06,  2.21s/it, lr: 2.0e-04 loss: 6.187e-02]wan_dewa:  78%|#######8  | 2736/3500 [2:26:15<28:06,  2.21s/it, lr: 2.0e-04 loss: 6.187e-02]wan_dewa:  78%|#######8  | 2737/3500 [2:26:15<28:19,  2.23s/it, lr: 2.0e-04 loss: 6.187e-02]wan_dewa:  78%|#######8  | 2737/3500 [2:26:15<28:19,  2.23s/it, lr: 2.0e-04 loss: 6.187e-02]wan_dewa:  78%|#######8  | 2737/3500 [2:26:18<28:19,  2.23s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  78%|#######8  | 2737/3500 [2:26:18<28:19,  2.23s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  78%|#######8  | 2738/3500 [2:26:18<28:28,  2.24s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  78%|#######8  | 2738/3500 [2:26:18<28:28,  2.24s/it, lr: 2.0e-04 loss: 1.563e-01]wan_dewa:  78%|#######8  | 2738/3500 [2:26:20<28:28,  2.24s/it, lr: 2.0e-04 loss: 8.422e-02]wan_dewa:  78%|#######8  | 2738/3500 [2:26:20<28:28,  2.24s/it, lr: 2.0e-04 loss: 8.422e-02]wan_dewa:  78%|#######8  | 2739/3500 [2:26:20<28:35,  2.25s/it, lr: 2.0e-04 loss: 8.422e-02]wan_dewa:  78%|#######8  | 2739/3500 [2:26:20<28:35,  2.25s/it, lr: 2.0e-04 loss: 8.422e-02]wan_dewa:  78%|#######8  | 2739/3500 [2:26:31<28:35,  2.25s/it, lr: 2.0e-04 loss: 2.203e-02]wan_dewa:  78%|#######8  | 2739/3500 [2:26:31<28:35,  2.25s/it, lr: 2.0e-04 loss: 2.203e-02]wan_dewa:  78%|#######8  | 2740/3500 [2:26:34<28:33,  2.25s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  78%|#######8  | 2740/3500 [2:26:34<28:33,  2.25s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  78%|#######8  | 2741/3500 [2:26:34<22:03,  1.74s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  78%|#######8  | 2741/3500 [2:26:34<22:03,  1.74s/it, lr: 2.0e-04 loss: 3.508e-02]wan_dewa:  78%|#######8  | 2741/3500 [2:26:36<22:03,  1.74s/it, lr: 2.0e-04 loss: 4.583e-02]wan_dewa:  78%|#######8  | 2741/3500 [2:26:36<22:03,  1.74s/it, lr: 2.0e-04 loss: 4.583e-02]wan_dewa:  78%|#######8  | 2742/3500 [2:26:36<23:40,  1.87s/it, lr: 2.0e-04 loss: 4.583e-02]wan_dewa:  78%|#######8  | 2742/3500 [2:26:36<23:40,  1.87s/it, lr: 2.0e-04 loss: 4.583e-02]wan_dewa:  78%|#######8  | 2742/3500 [2:26:38<23:40,  1.87s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  78%|#######8  | 2742/3500 [2:26:38<23:40,  1.87s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  78%|#######8  | 2743/3500 [2:26:38<24:58,  1.98s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  78%|#######8  | 2743/3500 [2:26:38<24:58,  1.98s/it, lr: 2.0e-04 loss: 4.410e-02]wan_dewa:  78%|#######8  | 2743/3500 [2:26:40<24:58,  1.98s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  78%|#######8  | 2743/3500 [2:26:40<24:58,  1.98s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  78%|#######8  | 2744/3500 [2:26:40<25:57,  2.06s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  78%|#######8  | 2744/3500 [2:26:40<25:57,  2.06s/it, lr: 2.0e-04 loss: 2.895e-02]wan_dewa:  78%|#######8  | 2744/3500 [2:26:43<25:57,  2.06s/it, lr: 2.0e-04 loss: 3.261e-02]wan_dewa:  78%|#######8  | 2744/3500 [2:26:43<25:57,  2.06s/it, lr: 2.0e-04 loss: 3.261e-02]wan_dewa:  78%|#######8  | 2745/3500 [2:26:43<27:23,  2.18s/it, lr: 2.0e-04 loss: 3.261e-02]wan_dewa:  78%|#######8  | 2745/3500 [2:26:43<27:23,  2.18s/it, lr: 2.0e-04 loss: 3.261e-02]wan_dewa:  78%|#######8  | 2745/3500 [2:26:45<27:23,  2.18s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  78%|#######8  | 2745/3500 [2:26:45<27:23,  2.18s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  78%|#######8  | 2746/3500 [2:26:45<27:43,  2.21s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  78%|#######8  | 2746/3500 [2:26:45<27:43,  2.21s/it, lr: 2.0e-04 loss: 4.217e-02]wan_dewa:  78%|#######8  | 2746/3500 [2:26:47<27:43,  2.21s/it, lr: 2.0e-04 loss: 2.712e-02]wan_dewa:  78%|#######8  | 2746/3500 [2:26:47<27:43,  2.21s/it, lr: 2.0e-04 loss: 2.712e-02]wan_dewa:  78%|#######8  | 2747/3500 [2:26:47<27:57,  2.23s/it, lr: 2.0e-04 loss: 2.712e-02]wan_dewa:  78%|#######8  | 2747/3500 [2:26:47<27:57,  2.23s/it, lr: 2.0e-04 loss: 2.712e-02]wan_dewa:  78%|#######8  | 2747/3500 [2:26:50<27:57,  2.23s/it, lr: 2.0e-04 loss: 1.871e-02]wan_dewa:  78%|#######8  | 2747/3500 [2:26:50<27:57,  2.23s/it, lr: 2.0e-04 loss: 1.871e-02]wan_dewa:  79%|#######8  | 2748/3500 [2:26:50<28:06,  2.24s/it, lr: 2.0e-04 loss: 1.871e-02]wan_dewa:  79%|#######8  | 2748/3500 [2:26:50<28:06,  2.24s/it, lr: 2.0e-04 loss: 1.871e-02]wan_dewa:  79%|#######8  | 2748/3500 [2:26:52<28:06,  2.24s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  79%|#######8  | 2748/3500 [2:26:52<28:06,  2.24s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  79%|#######8  | 2749/3500 [2:26:52<28:12,  2.25s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  79%|#######8  | 2749/3500 [2:26:52<28:12,  2.25s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  79%|#######8  | 2749/3500 [2:27:06<28:12,  2.25s/it, lr: 2.0e-04 loss: 5.473e-02]wan_dewa:  79%|#######8  | 2749/3500 [2:27:06<28:12,  2.25s/it, lr: 2.0e-04 loss: 5.473e-02]
+Saving at step 2750
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000002750.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000250_high_noise.safetensors
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000250_low_noise.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.61s/it] 12%|#2        | 3/25 [00:13<01:41,  4.61s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:47<01:41,  6.36s/it] 36%|###6      | 9/25 [00:47<01:41,  6.36s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:27,  5.82s/it] 40%|####      | 10/25 [00:51<01:27,  5.82s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.45s/it] 44%|####4     | 11/25 [00:56<01:16,  5.45s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.20s/it] 48%|####8     | 12/25 [01:00<01:07,  5.20s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.03s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:54,  4.91s/it] 56%|#####6    | 14/25 [01:10<00:54,  4.91s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.83s/it] 60%|######    | 15/25 [01:14<00:48,  4.83s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:38<00:23,  4.67s/it] 80%|########  | 20/25 [01:38<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.67s/it] 84%|########4 | 21/25 [01:42<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:52<00:09,  4.66s/it] 92%|#########2| 23/25 [01:52<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.66s/it]100%|##########| 25/25 [02:01<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.26s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.26s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.74s/it] 36%|###6      | 9/25 [00:45<01:31,  5.74s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.40s/it] 40%|####      | 10/25 [00:50<01:21,  5.40s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.17s/it] 44%|####4     | 11/25 [00:54<01:12,  5.17s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.02s/it] 48%|####8     | 12/25 [00:59<01:05,  5.02s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.69s/it] 88%|########8 | 22/25 [01:46<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.68s/it]100%|##########| 25/25 [02:00<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.42s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.42s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.67s/it] 12%|#2        | 3/25 [00:13<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.68s/it] 28%|##8       | 7/25 [00:32<01:24,  4.68s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.64s/it] 36%|###6      | 9/25 [00:45<01:30,  5.64s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.34s/it] 40%|####      | 10/25 [00:49<01:20,  5.34s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.13s/it] 44%|####4     | 11/25 [00:54<01:11,  5.13s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.69s/it] 96%|#########6| 24/25 [01:55<00:04,  4.69s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.69s/it]100%|##########| 25/25 [01:59<00:00,  4.69s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.27s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.27s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:52,  4.67s/it]  4%|4         | 1/25 [00:04<01:52,  4.67s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.67s/it]  8%|8         | 2/25 [00:09<01:47,  4.67s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:42,  4.67s/it] 12%|#2        | 3/25 [00:14<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.68s/it] 20%|##        | 5/25 [00:23<01:33,  4.68s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.68s/it] 24%|##4       | 6/25 [00:28<01:28,  4.68s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.68s/it] 28%|##8       | 7/25 [00:32<01:24,  4.68s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:44<01:29,  5.58s/it] 36%|###6      | 9/25 [00:44<01:29,  5.58s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.30s/it] 40%|####      | 10/25 [00:49<01:19,  5.30s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.11s/it] 44%|####4     | 11/25 [00:54<01:11,  5.11s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:58<01:04,  4.97s/it] 48%|####8     | 12/25 [00:58<01:04,  4.97s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.70s/it] 84%|########4 | 21/25 [01:41<00:18,  4.70s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.69s/it] 96%|#########6| 24/25 [01:55<00:04,  4.69s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.69s/it]100%|##########| 25/25 [01:59<00:00,  4.69s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.20s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.20s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  79%|#######8  | 2750/3500 [2:27:10<28:10,  2.25s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  79%|#######8  | 2750/3500 [2:27:10<28:10,  2.25s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  79%|#######8  | 2751/3500 [2:27:10<26:52,  2.15s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  79%|#######8  | 2751/3500 [2:27:10<26:52,  2.15s/it, lr: 2.0e-04 loss: 5.540e-02]wan_dewa:  79%|#######8  | 2751/3500 [2:27:12<26:52,  2.15s/it, lr: 2.0e-04 loss: 6.541e-02]wan_dewa:  79%|#######8  | 2751/3500 [2:27:12<26:52,  2.15s/it, lr: 2.0e-04 loss: 6.541e-02]wan_dewa:  79%|#######8  | 2752/3500 [2:27:12<27:19,  2.19s/it, lr: 2.0e-04 loss: 6.541e-02]wan_dewa:  79%|#######8  | 2752/3500 [2:27:12<27:19,  2.19s/it, lr: 2.0e-04 loss: 6.541e-02]wan_dewa:  79%|#######8  | 2752/3500 [2:27:14<27:19,  2.19s/it, lr: 2.0e-04 loss: 4.881e-02]wan_dewa:  79%|#######8  | 2752/3500 [2:27:14<27:19,  2.19s/it, lr: 2.0e-04 loss: 4.881e-02]wan_dewa:  79%|#######8  | 2753/3500 [2:27:14<27:39,  2.22s/it, lr: 2.0e-04 loss: 4.881e-02]wan_dewa:  79%|#######8  | 2753/3500 [2:27:14<27:39,  2.22s/it, lr: 2.0e-04 loss: 4.881e-02]wan_dewa:  79%|#######8  | 2753/3500 [2:27:17<27:39,  2.22s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  79%|#######8  | 2753/3500 [2:27:17<27:39,  2.22s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  79%|#######8  | 2754/3500 [2:27:17<27:54,  2.24s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  79%|#######8  | 2754/3500 [2:27:17<27:54,  2.24s/it, lr: 2.0e-04 loss: 5.136e-02]wan_dewa:  79%|#######8  | 2754/3500 [2:27:19<27:54,  2.24s/it, lr: 2.0e-04 loss: 8.558e-02]wan_dewa:  79%|#######8  | 2754/3500 [2:27:19<27:54,  2.24s/it, lr: 2.0e-04 loss: 8.558e-02]wan_dewa:  79%|#######8  | 2755/3500 [2:27:19<29:01,  2.34s/it, lr: 2.0e-04 loss: 8.558e-02]wan_dewa:  79%|#######8  | 2755/3500 [2:27:19<29:01,  2.34s/it, lr: 2.0e-04 loss: 8.558e-02]wan_dewa:  79%|#######8  | 2755/3500 [2:27:21<29:01,  2.34s/it, lr: 2.0e-04 loss: 1.672e-01]wan_dewa:  79%|#######8  | 2755/3500 [2:27:21<29:01,  2.34s/it, lr: 2.0e-04 loss: 1.672e-01]wan_dewa:  79%|#######8  | 2756/3500 [2:27:21<28:53,  2.33s/it, lr: 2.0e-04 loss: 1.672e-01]wan_dewa:  79%|#######8  | 2756/3500 [2:27:21<28:53,  2.33s/it, lr: 2.0e-04 loss: 1.672e-01]wan_dewa:  79%|#######8  | 2756/3500 [2:27:24<28:53,  2.33s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  79%|#######8  | 2756/3500 [2:27:24<28:53,  2.33s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  79%|#######8  | 2757/3500 [2:27:24<28:46,  2.32s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  79%|#######8  | 2757/3500 [2:27:24<28:46,  2.32s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  79%|#######8  | 2757/3500 [2:27:26<28:46,  2.32s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  79%|#######8  | 2757/3500 [2:27:26<28:46,  2.32s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  79%|#######8  | 2758/3500 [2:27:26<28:40,  2.32s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  79%|#######8  | 2758/3500 [2:27:26<28:40,  2.32s/it, lr: 2.0e-04 loss: 4.042e-02]wan_dewa:  79%|#######8  | 2758/3500 [2:27:28<28:40,  2.32s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  79%|#######8  | 2758/3500 [2:27:28<28:40,  2.32s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  79%|#######8  | 2759/3500 [2:27:28<28:36,  2.32s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  79%|#######8  | 2759/3500 [2:27:28<28:36,  2.32s/it, lr: 2.0e-04 loss: 1.045e-01]wan_dewa:  79%|#######8  | 2759/3500 [2:27:34<28:36,  2.32s/it, lr: 2.0e-04 loss: 3.633e-02]wan_dewa:  79%|#######8  | 2759/3500 [2:27:34<28:36,  2.32s/it, lr: 2.0e-04 loss: 3.633e-02]wan_dewa:  79%|#######8  | 2760/3500 [2:27:36<28:33,  2.32s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  79%|#######8  | 2760/3500 [2:27:36<28:33,  2.32s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  79%|#######8  | 2761/3500 [2:27:36<22:29,  1.83s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  79%|#######8  | 2761/3500 [2:27:36<22:29,  1.83s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  79%|#######8  | 2761/3500 [2:27:39<22:29,  1.83s/it, lr: 2.0e-04 loss: 3.862e-02]wan_dewa:  79%|#######8  | 2761/3500 [2:27:39<22:29,  1.83s/it, lr: 2.0e-04 loss: 3.862e-02]wan_dewa:  79%|#######8  | 2762/3500 [2:27:39<23:53,  1.94s/it, lr: 2.0e-04 loss: 3.862e-02]wan_dewa:  79%|#######8  | 2762/3500 [2:27:39<23:53,  1.94s/it, lr: 2.0e-04 loss: 3.862e-02]wan_dewa:  79%|#######8  | 2762/3500 [2:27:41<23:53,  1.94s/it, lr: 2.0e-04 loss: 5.630e-02]wan_dewa:  79%|#######8  | 2762/3500 [2:27:41<23:53,  1.94s/it, lr: 2.0e-04 loss: 5.630e-02]wan_dewa:  79%|#######8  | 2763/3500 [2:27:41<25:01,  2.04s/it, lr: 2.0e-04 loss: 5.630e-02]wan_dewa:  79%|#######8  | 2763/3500 [2:27:41<25:01,  2.04s/it, lr: 2.0e-04 loss: 5.630e-02]wan_dewa:  79%|#######8  | 2763/3500 [2:27:43<25:01,  2.04s/it, lr: 2.0e-04 loss: 3.417e-02]wan_dewa:  79%|#######8  | 2763/3500 [2:27:43<25:01,  2.04s/it, lr: 2.0e-04 loss: 3.417e-02]wan_dewa:  79%|#######8  | 2764/3500 [2:27:43<25:52,  2.11s/it, lr: 2.0e-04 loss: 3.417e-02]wan_dewa:  79%|#######8  | 2764/3500 [2:27:43<25:52,  2.11s/it, lr: 2.0e-04 loss: 3.417e-02]wan_dewa:  79%|#######8  | 2764/3500 [2:27:46<25:52,  2.11s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  79%|#######8  | 2764/3500 [2:27:46<25:52,  2.11s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  79%|#######9  | 2765/3500 [2:27:46<26:29,  2.16s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  79%|#######9  | 2765/3500 [2:27:46<26:29,  2.16s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  79%|#######9  | 2765/3500 [2:27:48<26:29,  2.16s/it, lr: 2.0e-04 loss: 3.170e-02]wan_dewa:  79%|#######9  | 2765/3500 [2:27:48<26:29,  2.16s/it, lr: 2.0e-04 loss: 3.170e-02]wan_dewa:  79%|#######9  | 2766/3500 [2:27:48<27:35,  2.26s/it, lr: 2.0e-04 loss: 3.170e-02]wan_dewa:  79%|#######9  | 2766/3500 [2:27:48<27:35,  2.26s/it, lr: 2.0e-04 loss: 3.170e-02]wan_dewa:  79%|#######9  | 2766/3500 [2:27:50<27:35,  2.26s/it, lr: 2.0e-04 loss: 4.228e-02]wan_dewa:  79%|#######9  | 2766/3500 [2:27:50<27:35,  2.26s/it, lr: 2.0e-04 loss: 4.228e-02]wan_dewa:  79%|#######9  | 2767/3500 [2:27:50<27:44,  2.27s/it, lr: 2.0e-04 loss: 4.228e-02]wan_dewa:  79%|#######9  | 2767/3500 [2:27:50<27:44,  2.27s/it, lr: 2.0e-04 loss: 4.228e-02]wan_dewa:  79%|#######9  | 2767/3500 [2:27:53<27:44,  2.27s/it, lr: 2.0e-04 loss: 4.503e-02]wan_dewa:  79%|#######9  | 2767/3500 [2:27:53<27:44,  2.27s/it, lr: 2.0e-04 loss: 4.503e-02]wan_dewa:  79%|#######9  | 2768/3500 [2:27:53<27:50,  2.28s/it, lr: 2.0e-04 loss: 4.503e-02]wan_dewa:  79%|#######9  | 2768/3500 [2:27:53<27:50,  2.28s/it, lr: 2.0e-04 loss: 4.503e-02]wan_dewa:  79%|#######9  | 2768/3500 [2:27:55<27:50,  2.28s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  79%|#######9  | 2768/3500 [2:27:55<27:50,  2.28s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  79%|#######9  | 2769/3500 [2:27:55<27:53,  2.29s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  79%|#######9  | 2769/3500 [2:27:55<27:53,  2.29s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  79%|#######9  | 2769/3500 [2:28:00<27:53,  2.29s/it, lr: 2.0e-04 loss: 4.251e-01]wan_dewa:  79%|#######9  | 2769/3500 [2:28:00<27:53,  2.29s/it, lr: 2.0e-04 loss: 4.251e-01]wan_dewa:  79%|#######9  | 2770/3500 [2:28:03<27:51,  2.29s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  79%|#######9  | 2770/3500 [2:28:03<27:51,  2.29s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  79%|#######9  | 2771/3500 [2:28:03<22:02,  1.81s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  79%|#######9  | 2771/3500 [2:28:03<22:02,  1.81s/it, lr: 2.0e-04 loss: 1.382e-01]wan_dewa:  79%|#######9  | 2771/3500 [2:28:05<22:02,  1.81s/it, lr: 2.0e-04 loss: 5.528e-02]wan_dewa:  79%|#######9  | 2771/3500 [2:28:05<22:02,  1.81s/it, lr: 2.0e-04 loss: 5.528e-02]wan_dewa:  79%|#######9  | 2772/3500 [2:28:05<23:29,  1.94s/it, lr: 2.0e-04 loss: 5.528e-02]wan_dewa:  79%|#######9  | 2772/3500 [2:28:05<23:29,  1.94s/it, lr: 2.0e-04 loss: 5.528e-02]wan_dewa:  79%|#######9  | 2772/3500 [2:28:07<23:29,  1.94s/it, lr: 2.0e-04 loss: 6.329e-02]wan_dewa:  79%|#######9  | 2772/3500 [2:28:07<23:29,  1.94s/it, lr: 2.0e-04 loss: 6.329e-02]wan_dewa:  79%|#######9  | 2773/3500 [2:28:07<24:37,  2.03s/it, lr: 2.0e-04 loss: 6.329e-02]wan_dewa:  79%|#######9  | 2773/3500 [2:28:07<24:37,  2.03s/it, lr: 2.0e-04 loss: 6.329e-02]wan_dewa:  79%|#######9  | 2773/3500 [2:28:10<24:37,  2.03s/it, lr: 2.0e-04 loss: 5.337e-02]wan_dewa:  79%|#######9  | 2773/3500 [2:28:10<24:37,  2.03s/it, lr: 2.0e-04 loss: 5.337e-02]wan_dewa:  79%|#######9  | 2774/3500 [2:28:10<25:29,  2.11s/it, lr: 2.0e-04 loss: 5.337e-02]wan_dewa:  79%|#######9  | 2774/3500 [2:28:10<25:29,  2.11s/it, lr: 2.0e-04 loss: 5.337e-02]wan_dewa:  79%|#######9  | 2774/3500 [2:28:15<25:29,  2.11s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  79%|#######9  | 2774/3500 [2:28:15<25:29,  2.11s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  79%|#######9  | 2775/3500 [2:28:15<26:12,  2.17s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  79%|#######9  | 2775/3500 [2:28:15<26:12,  2.17s/it, lr: 2.0e-04 loss: 3.827e-02]wan_dewa:  79%|#######9  | 2775/3500 [2:28:17<26:12,  2.17s/it, lr: 2.0e-04 loss: 1.016e-01]wan_dewa:  79%|#######9  | 2775/3500 [2:28:17<26:12,  2.17s/it, lr: 2.0e-04 loss: 1.016e-01]wan_dewa:  79%|#######9  | 2776/3500 [2:28:17<26:38,  2.21s/it, lr: 2.0e-04 loss: 1.016e-01]wan_dewa:  79%|#######9  | 2776/3500 [2:28:17<26:38,  2.21s/it, lr: 2.0e-04 loss: 1.016e-01]wan_dewa:  79%|#######9  | 2776/3500 [2:28:20<26:38,  2.21s/it, lr: 2.0e-04 loss: 6.561e-02]wan_dewa:  79%|#######9  | 2776/3500 [2:28:20<26:38,  2.21s/it, lr: 2.0e-04 loss: 6.561e-02]wan_dewa:  79%|#######9  | 2777/3500 [2:28:20<28:19,  2.35s/it, lr: 2.0e-04 loss: 6.561e-02]wan_dewa:  79%|#######9  | 2777/3500 [2:28:20<28:19,  2.35s/it, lr: 2.0e-04 loss: 6.561e-02]wan_dewa:  79%|#######9  | 2777/3500 [2:28:22<28:19,  2.35s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  79%|#######9  | 2777/3500 [2:28:22<28:19,  2.35s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  79%|#######9  | 2778/3500 [2:28:22<28:06,  2.34s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  79%|#######9  | 2778/3500 [2:28:22<28:06,  2.34s/it, lr: 2.0e-04 loss: 3.872e-02]wan_dewa:  79%|#######9  | 2778/3500 [2:28:24<28:06,  2.34s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  79%|#######9  | 2778/3500 [2:28:24<28:06,  2.34s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  79%|#######9  | 2779/3500 [2:28:24<27:56,  2.33s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  79%|#######9  | 2779/3500 [2:28:24<27:56,  2.33s/it, lr: 2.0e-04 loss: 5.353e-02]wan_dewa:  79%|#######9  | 2779/3500 [2:28:36<27:56,  2.33s/it, lr: 2.0e-04 loss: 4.699e-02]wan_dewa:  79%|#######9  | 2779/3500 [2:28:36<27:56,  2.33s/it, lr: 2.0e-04 loss: 4.699e-02]wan_dewa:  79%|#######9  | 2780/3500 [2:28:38<27:54,  2.33s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  79%|#######9  | 2780/3500 [2:28:38<27:54,  2.33s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  79%|#######9  | 2781/3500 [2:28:38<21:25,  1.79s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  79%|#######9  | 2781/3500 [2:28:38<21:25,  1.79s/it, lr: 2.0e-04 loss: 3.866e-02]wan_dewa:  79%|#######9  | 2781/3500 [2:28:40<21:25,  1.79s/it, lr: 2.0e-04 loss: 2.907e-02]wan_dewa:  79%|#######9  | 2781/3500 [2:28:40<21:25,  1.79s/it, lr: 2.0e-04 loss: 2.907e-02]wan_dewa:  79%|#######9  | 2782/3500 [2:28:40<23:36,  1.97s/it, lr: 2.0e-04 loss: 2.907e-02]wan_dewa:  79%|#######9  | 2782/3500 [2:28:40<23:36,  1.97s/it, lr: 2.0e-04 loss: 2.907e-02]wan_dewa:  79%|#######9  | 2782/3500 [2:28:43<23:36,  1.97s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  79%|#######9  | 2782/3500 [2:28:43<23:36,  1.97s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  80%|#######9  | 2783/3500 [2:28:43<24:34,  2.06s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  80%|#######9  | 2783/3500 [2:28:43<24:34,  2.06s/it, lr: 2.0e-04 loss: 3.527e-02]wan_dewa:  80%|#######9  | 2783/3500 [2:28:45<24:34,  2.06s/it, lr: 2.0e-04 loss: 3.703e-02]wan_dewa:  80%|#######9  | 2783/3500 [2:28:45<24:34,  2.06s/it, lr: 2.0e-04 loss: 3.703e-02]wan_dewa:  80%|#######9  | 2784/3500 [2:28:45<25:18,  2.12s/it, lr: 2.0e-04 loss: 3.703e-02]wan_dewa:  80%|#######9  | 2784/3500 [2:28:45<25:18,  2.12s/it, lr: 2.0e-04 loss: 3.703e-02]wan_dewa:  80%|#######9  | 2784/3500 [2:28:47<25:18,  2.12s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  80%|#######9  | 2784/3500 [2:28:47<25:18,  2.12s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  80%|#######9  | 2785/3500 [2:28:47<25:50,  2.17s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  80%|#######9  | 2785/3500 [2:28:47<25:50,  2.17s/it, lr: 2.0e-04 loss: 3.425e-02]wan_dewa:  80%|#######9  | 2785/3500 [2:28:50<25:50,  2.17s/it, lr: 2.0e-04 loss: 1.901e-02]wan_dewa:  80%|#######9  | 2785/3500 [2:28:50<25:50,  2.17s/it, lr: 2.0e-04 loss: 1.901e-02]wan_dewa:  80%|#######9  | 2786/3500 [2:28:50<26:14,  2.20s/it, lr: 2.0e-04 loss: 1.901e-02]wan_dewa:  80%|#######9  | 2786/3500 [2:28:50<26:14,  2.20s/it, lr: 2.0e-04 loss: 1.901e-02]wan_dewa:  80%|#######9  | 2786/3500 [2:28:52<26:14,  2.20s/it, lr: 2.0e-04 loss: 3.797e-02]wan_dewa:  80%|#######9  | 2786/3500 [2:28:52<26:14,  2.20s/it, lr: 2.0e-04 loss: 3.797e-02]wan_dewa:  80%|#######9  | 2787/3500 [2:28:52<27:18,  2.30s/it, lr: 2.0e-04 loss: 3.797e-02]wan_dewa:  80%|#######9  | 2787/3500 [2:28:52<27:18,  2.30s/it, lr: 2.0e-04 loss: 3.797e-02]wan_dewa:  80%|#######9  | 2787/3500 [2:28:54<27:18,  2.30s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  80%|#######9  | 2787/3500 [2:28:54<27:18,  2.30s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  80%|#######9  | 2788/3500 [2:28:54<27:16,  2.30s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  80%|#######9  | 2788/3500 [2:28:54<27:16,  2.30s/it, lr: 2.0e-04 loss: 4.422e-02]wan_dewa:  80%|#######9  | 2788/3500 [2:28:57<27:16,  2.30s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  80%|#######9  | 2788/3500 [2:28:57<27:16,  2.30s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  80%|#######9  | 2789/3500 [2:28:57<27:14,  2.30s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  80%|#######9  | 2789/3500 [2:28:57<27:14,  2.30s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  80%|#######9  | 2789/3500 [2:29:08<27:14,  2.30s/it, lr: 2.0e-04 loss: 6.912e-02]wan_dewa:  80%|#######9  | 2789/3500 [2:29:08<27:14,  2.30s/it, lr: 2.0e-04 loss: 6.912e-02]wan_dewa:  80%|#######9  | 2790/3500 [2:29:10<27:12,  2.30s/it, lr: 2.0e-04 loss: 3.096e-02]wan_dewa:  80%|#######9  | 2790/3500 [2:29:10<27:12,  2.30s/it, lr: 2.0e-04 loss: 3.096e-02]wan_dewa:  80%|#######9  | 2791/3500 [2:29:10<20:55,  1.77s/it, lr: 2.0e-04 loss: 3.096e-02]wan_dewa:  80%|#######9  | 2791/3500 [2:29:10<20:55,  1.77s/it, lr: 2.0e-04 loss: 3.096e-02]wan_dewa:  80%|#######9  | 2791/3500 [2:29:13<20:55,  1.77s/it, lr: 2.0e-04 loss: 4.200e-02]wan_dewa:  80%|#######9  | 2791/3500 [2:29:13<20:55,  1.77s/it, lr: 2.0e-04 loss: 4.200e-02]wan_dewa:  80%|#######9  | 2792/3500 [2:29:13<23:08,  1.96s/it, lr: 2.0e-04 loss: 4.200e-02]wan_dewa:  80%|#######9  | 2792/3500 [2:29:13<23:08,  1.96s/it, lr: 2.0e-04 loss: 4.200e-02]wan_dewa:  80%|#######9  | 2792/3500 [2:29:15<23:08,  1.96s/it, lr: 2.0e-04 loss: 5.278e-02]wan_dewa:  80%|#######9  | 2792/3500 [2:29:15<23:08,  1.96s/it, lr: 2.0e-04 loss: 5.278e-02]wan_dewa:  80%|#######9  | 2793/3500 [2:29:15<24:05,  2.04s/it, lr: 2.0e-04 loss: 5.278e-02]wan_dewa:  80%|#######9  | 2793/3500 [2:29:15<24:05,  2.04s/it, lr: 2.0e-04 loss: 5.278e-02]wan_dewa:  80%|#######9  | 2793/3500 [2:29:17<24:05,  2.04s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  80%|#######9  | 2793/3500 [2:29:17<24:05,  2.04s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  80%|#######9  | 2794/3500 [2:29:17<24:48,  2.11s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  80%|#######9  | 2794/3500 [2:29:17<24:48,  2.11s/it, lr: 2.0e-04 loss: 5.678e-02]wan_dewa:  80%|#######9  | 2794/3500 [2:29:20<24:48,  2.11s/it, lr: 2.0e-04 loss: 5.152e-02]wan_dewa:  80%|#######9  | 2794/3500 [2:29:20<24:48,  2.11s/it, lr: 2.0e-04 loss: 5.152e-02]wan_dewa:  80%|#######9  | 2795/3500 [2:29:20<25:21,  2.16s/it, lr: 2.0e-04 loss: 5.152e-02]wan_dewa:  80%|#######9  | 2795/3500 [2:29:20<25:21,  2.16s/it, lr: 2.0e-04 loss: 5.152e-02]wan_dewa:  80%|#######9  | 2795/3500 [2:29:22<25:21,  2.16s/it, lr: 2.0e-04 loss: 4.685e-02]wan_dewa:  80%|#######9  | 2795/3500 [2:29:22<25:21,  2.16s/it, lr: 2.0e-04 loss: 4.685e-02]wan_dewa:  80%|#######9  | 2796/3500 [2:29:22<25:44,  2.19s/it, lr: 2.0e-04 loss: 4.685e-02]wan_dewa:  80%|#######9  | 2796/3500 [2:29:22<25:44,  2.19s/it, lr: 2.0e-04 loss: 4.685e-02]wan_dewa:  80%|#######9  | 2796/3500 [2:29:24<25:44,  2.19s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  80%|#######9  | 2796/3500 [2:29:24<25:44,  2.19s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  80%|#######9  | 2797/3500 [2:29:24<26:00,  2.22s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  80%|#######9  | 2797/3500 [2:29:24<26:00,  2.22s/it, lr: 2.0e-04 loss: 1.366e-01]wan_dewa:  80%|#######9  | 2797/3500 [2:29:27<26:00,  2.22s/it, lr: 2.0e-04 loss: 2.606e-01]wan_dewa:  80%|#######9  | 2797/3500 [2:29:27<26:00,  2.22s/it, lr: 2.0e-04 loss: 2.606e-01]wan_dewa:  80%|#######9  | 2798/3500 [2:29:27<27:01,  2.31s/it, lr: 2.0e-04 loss: 2.606e-01]wan_dewa:  80%|#######9  | 2798/3500 [2:29:27<27:01,  2.31s/it, lr: 2.0e-04 loss: 2.606e-01]wan_dewa:  80%|#######9  | 2798/3500 [2:29:29<27:01,  2.31s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  80%|#######9  | 2798/3500 [2:29:29<27:01,  2.31s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  80%|#######9  | 2799/3500 [2:29:29<26:54,  2.30s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  80%|#######9  | 2799/3500 [2:29:29<26:54,  2.30s/it, lr: 2.0e-04 loss: 3.368e-02]wan_dewa:  80%|#######9  | 2799/3500 [2:29:42<26:54,  2.30s/it, lr: 2.0e-04 loss: 3.163e-02]wan_dewa:  80%|#######9  | 2799/3500 [2:29:42<26:54,  2.30s/it, lr: 2.0e-04 loss: 3.163e-02]wan_dewa:  80%|########  | 2800/3500 [2:29:44<26:52,  2.30s/it, lr: 2.0e-04 loss: 4.341e-02]wan_dewa:  80%|########  | 2800/3500 [2:29:44<26:52,  2.30s/it, lr: 2.0e-04 loss: 4.341e-02]wan_dewa:  80%|########  | 2801/3500 [2:29:44<20:38,  1.77s/it, lr: 2.0e-04 loss: 4.341e-02]wan_dewa:  80%|########  | 2801/3500 [2:29:44<20:38,  1.77s/it, lr: 2.0e-04 loss: 4.341e-02]wan_dewa:  80%|########  | 2801/3500 [2:29:47<20:38,  1.77s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  80%|########  | 2801/3500 [2:29:47<20:38,  1.77s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  80%|########  | 2802/3500 [2:29:47<22:03,  1.90s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  80%|########  | 2802/3500 [2:29:47<22:03,  1.90s/it, lr: 2.0e-04 loss: 4.268e-02]wan_dewa:  80%|########  | 2802/3500 [2:29:49<22:03,  1.90s/it, lr: 2.0e-04 loss: 2.032e-02]wan_dewa:  80%|########  | 2802/3500 [2:29:49<22:03,  1.90s/it, lr: 2.0e-04 loss: 2.032e-02]wan_dewa:  80%|########  | 2803/3500 [2:29:49<24:09,  2.08s/it, lr: 2.0e-04 loss: 2.032e-02]wan_dewa:  80%|########  | 2803/3500 [2:29:49<24:09,  2.08s/it, lr: 2.0e-04 loss: 2.032e-02]wan_dewa:  80%|########  | 2803/3500 [2:29:52<24:09,  2.08s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  80%|########  | 2803/3500 [2:29:52<24:09,  2.08s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  80%|########  | 2804/3500 [2:29:52<24:44,  2.13s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  80%|########  | 2804/3500 [2:29:52<24:44,  2.13s/it, lr: 2.0e-04 loss: 3.409e-02]wan_dewa:  80%|########  | 2804/3500 [2:29:54<24:44,  2.13s/it, lr: 2.0e-04 loss: 3.959e-02]wan_dewa:  80%|########  | 2804/3500 [2:29:54<24:44,  2.13s/it, lr: 2.0e-04 loss: 3.959e-02]wan_dewa:  80%|########  | 2805/3500 [2:29:54<25:11,  2.17s/it, lr: 2.0e-04 loss: 3.959e-02]wan_dewa:  80%|########  | 2805/3500 [2:29:54<25:11,  2.17s/it, lr: 2.0e-04 loss: 3.959e-02]wan_dewa:  80%|########  | 2805/3500 [2:29:56<25:11,  2.17s/it, lr: 2.0e-04 loss: 3.645e-02]wan_dewa:  80%|########  | 2805/3500 [2:29:56<25:11,  2.17s/it, lr: 2.0e-04 loss: 3.645e-02]wan_dewa:  80%|########  | 2806/3500 [2:29:56<25:30,  2.20s/it, lr: 2.0e-04 loss: 3.645e-02]wan_dewa:  80%|########  | 2806/3500 [2:29:56<25:30,  2.20s/it, lr: 2.0e-04 loss: 3.645e-02]wan_dewa:  80%|########  | 2806/3500 [2:29:58<25:30,  2.20s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  80%|########  | 2806/3500 [2:29:58<25:30,  2.20s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  80%|########  | 2807/3500 [2:29:58<25:43,  2.23s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  80%|########  | 2807/3500 [2:29:58<25:43,  2.23s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  80%|########  | 2807/3500 [2:30:01<25:43,  2.23s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  80%|########  | 2807/3500 [2:30:01<25:43,  2.23s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  80%|########  | 2808/3500 [2:30:01<26:33,  2.30s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  80%|########  | 2808/3500 [2:30:01<26:33,  2.30s/it, lr: 2.0e-04 loss: 4.109e-02]wan_dewa:  80%|########  | 2808/3500 [2:30:03<26:33,  2.30s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  80%|########  | 2808/3500 [2:30:03<26:33,  2.30s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  80%|########  | 2809/3500 [2:30:03<26:28,  2.30s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  80%|########  | 2809/3500 [2:30:03<26:28,  2.30s/it, lr: 2.0e-04 loss: 4.021e-02]wan_dewa:  80%|########  | 2809/3500 [2:30:14<26:28,  2.30s/it, lr: 2.0e-04 loss: 7.422e-02]wan_dewa:  80%|########  | 2809/3500 [2:30:14<26:28,  2.30s/it, lr: 2.0e-04 loss: 7.422e-02]wan_dewa:  80%|########  | 2810/3500 [2:30:17<26:26,  2.30s/it, lr: 2.0e-04 loss: 5.200e-02]wan_dewa:  80%|########  | 2810/3500 [2:30:17<26:26,  2.30s/it, lr: 2.0e-04 loss: 5.200e-02]wan_dewa:  80%|########  | 2811/3500 [2:30:17<20:20,  1.77s/it, lr: 2.0e-04 loss: 5.200e-02]wan_dewa:  80%|########  | 2811/3500 [2:30:17<20:20,  1.77s/it, lr: 2.0e-04 loss: 5.200e-02]wan_dewa:  80%|########  | 2811/3500 [2:30:19<20:20,  1.77s/it, lr: 2.0e-04 loss: 9.024e-02]wan_dewa:  80%|########  | 2811/3500 [2:30:19<20:20,  1.77s/it, lr: 2.0e-04 loss: 9.024e-02]wan_dewa:  80%|########  | 2812/3500 [2:30:19<21:44,  1.90s/it, lr: 2.0e-04 loss: 9.024e-02]wan_dewa:  80%|########  | 2812/3500 [2:30:19<21:44,  1.90s/it, lr: 2.0e-04 loss: 9.024e-02]wan_dewa:  80%|########  | 2812/3500 [2:30:21<21:44,  1.90s/it, lr: 2.0e-04 loss: 6.682e-02]wan_dewa:  80%|########  | 2812/3500 [2:30:21<21:44,  1.90s/it, lr: 2.0e-04 loss: 6.682e-02]wan_dewa:  80%|########  | 2813/3500 [2:30:21<23:24,  2.04s/it, lr: 2.0e-04 loss: 6.682e-02]wan_dewa:  80%|########  | 2813/3500 [2:30:21<23:24,  2.04s/it, lr: 2.0e-04 loss: 6.682e-02]wan_dewa:  80%|########  | 2813/3500 [2:30:24<23:24,  2.04s/it, lr: 2.0e-04 loss: 3.149e-02]wan_dewa:  80%|########  | 2813/3500 [2:30:24<23:24,  2.04s/it, lr: 2.0e-04 loss: 3.149e-02]wan_dewa:  80%|########  | 2814/3500 [2:30:24<24:06,  2.11s/it, lr: 2.0e-04 loss: 3.149e-02]wan_dewa:  80%|########  | 2814/3500 [2:30:24<24:06,  2.11s/it, lr: 2.0e-04 loss: 3.149e-02]wan_dewa:  80%|########  | 2814/3500 [2:30:26<24:06,  2.11s/it, lr: 2.0e-04 loss: 4.954e-02]wan_dewa:  80%|########  | 2814/3500 [2:30:26<24:06,  2.11s/it, lr: 2.0e-04 loss: 4.954e-02]wan_dewa:  80%|########  | 2815/3500 [2:30:26<24:37,  2.16s/it, lr: 2.0e-04 loss: 4.954e-02]wan_dewa:  80%|########  | 2815/3500 [2:30:26<24:37,  2.16s/it, lr: 2.0e-04 loss: 4.954e-02]wan_dewa:  80%|########  | 2815/3500 [2:30:28<24:37,  2.16s/it, lr: 2.0e-04 loss: 1.450e-01]wan_dewa:  80%|########  | 2815/3500 [2:30:28<24:37,  2.16s/it, lr: 2.0e-04 loss: 1.450e-01]wan_dewa:  80%|########  | 2816/3500 [2:30:28<24:59,  2.19s/it, lr: 2.0e-04 loss: 1.450e-01]wan_dewa:  80%|########  | 2816/3500 [2:30:28<24:59,  2.19s/it, lr: 2.0e-04 loss: 1.450e-01]wan_dewa:  80%|########  | 2816/3500 [2:30:30<24:59,  2.19s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  80%|########  | 2816/3500 [2:30:30<24:59,  2.19s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  80%|########  | 2817/3500 [2:30:30<25:15,  2.22s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  80%|########  | 2817/3500 [2:30:30<25:15,  2.22s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  80%|########  | 2817/3500 [2:30:33<25:15,  2.22s/it, lr: 2.0e-04 loss: 6.423e-02]wan_dewa:  80%|########  | 2817/3500 [2:30:33<25:15,  2.22s/it, lr: 2.0e-04 loss: 6.423e-02]wan_dewa:  81%|########  | 2818/3500 [2:30:33<26:08,  2.30s/it, lr: 2.0e-04 loss: 6.423e-02]wan_dewa:  81%|########  | 2818/3500 [2:30:33<26:08,  2.30s/it, lr: 2.0e-04 loss: 6.423e-02]wan_dewa:  81%|########  | 2818/3500 [2:30:35<26:08,  2.30s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  81%|########  | 2818/3500 [2:30:35<26:08,  2.30s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  81%|########  | 2819/3500 [2:30:35<26:02,  2.30s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  81%|########  | 2819/3500 [2:30:35<26:02,  2.30s/it, lr: 2.0e-04 loss: 4.456e-02]wan_dewa:  81%|########  | 2819/3500 [2:30:43<26:02,  2.30s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  81%|########  | 2819/3500 [2:30:43<26:02,  2.30s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  81%|########  | 2820/3500 [2:30:45<26:00,  2.30s/it, lr: 2.0e-04 loss: 3.916e-02]wan_dewa:  81%|########  | 2820/3500 [2:30:45<26:00,  2.30s/it, lr: 2.0e-04 loss: 3.916e-02]wan_dewa:  81%|########  | 2821/3500 [2:30:45<20:00,  1.77s/it, lr: 2.0e-04 loss: 3.916e-02]wan_dewa:  81%|########  | 2821/3500 [2:30:45<20:00,  1.77s/it, lr: 2.0e-04 loss: 3.916e-02]wan_dewa:  81%|########  | 2821/3500 [2:30:48<20:00,  1.77s/it, lr: 2.0e-04 loss: 3.919e-02]wan_dewa:  81%|########  | 2821/3500 [2:30:48<20:00,  1.77s/it, lr: 2.0e-04 loss: 3.919e-02]wan_dewa:  81%|########  | 2822/3500 [2:30:48<21:23,  1.89s/it, lr: 2.0e-04 loss: 3.919e-02]wan_dewa:  81%|########  | 2822/3500 [2:30:48<21:23,  1.89s/it, lr: 2.0e-04 loss: 3.919e-02]wan_dewa:  81%|########  | 2822/3500 [2:30:50<21:23,  1.89s/it, lr: 2.0e-04 loss: 4.950e-02]wan_dewa:  81%|########  | 2822/3500 [2:30:50<21:23,  1.89s/it, lr: 2.0e-04 loss: 4.950e-02]wan_dewa:  81%|########  | 2823/3500 [2:30:50<22:30,  1.99s/it, lr: 2.0e-04 loss: 4.950e-02]wan_dewa:  81%|########  | 2823/3500 [2:30:50<22:30,  1.99s/it, lr: 2.0e-04 loss: 4.950e-02]wan_dewa:  81%|########  | 2823/3500 [2:30:53<22:30,  1.99s/it, lr: 2.0e-04 loss: 2.546e-02]wan_dewa:  81%|########  | 2823/3500 [2:30:53<22:30,  1.99s/it, lr: 2.0e-04 loss: 2.546e-02]wan_dewa:  81%|########  | 2824/3500 [2:30:53<23:59,  2.13s/it, lr: 2.0e-04 loss: 2.546e-02]wan_dewa:  81%|########  | 2824/3500 [2:30:53<23:59,  2.13s/it, lr: 2.0e-04 loss: 2.546e-02]wan_dewa:  81%|########  | 2824/3500 [2:30:57<23:59,  2.13s/it, lr: 2.0e-04 loss: 3.221e-02]wan_dewa:  81%|########  | 2824/3500 [2:30:57<23:59,  2.13s/it, lr: 2.0e-04 loss: 3.221e-02]wan_dewa:  81%|########  | 2825/3500 [2:30:57<24:30,  2.18s/it, lr: 2.0e-04 loss: 3.221e-02]wan_dewa:  81%|########  | 2825/3500 [2:30:57<24:30,  2.18s/it, lr: 2.0e-04 loss: 3.221e-02]wan_dewa:  81%|########  | 2825/3500 [2:30:59<24:30,  2.18s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  81%|########  | 2825/3500 [2:30:59<24:30,  2.18s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  81%|########  | 2826/3500 [2:30:59<24:48,  2.21s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  81%|########  | 2826/3500 [2:30:59<24:48,  2.21s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  81%|########  | 2826/3500 [2:31:02<24:48,  2.21s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  81%|########  | 2826/3500 [2:31:02<24:48,  2.21s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  81%|########  | 2827/3500 [2:31:02<25:00,  2.23s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  81%|########  | 2827/3500 [2:31:02<25:00,  2.23s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  81%|########  | 2827/3500 [2:31:04<25:00,  2.23s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  81%|########  | 2827/3500 [2:31:04<25:00,  2.23s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  81%|########  | 2828/3500 [2:31:04<25:08,  2.24s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  81%|########  | 2828/3500 [2:31:04<25:08,  2.24s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  81%|########  | 2828/3500 [2:31:06<25:08,  2.24s/it, lr: 2.0e-04 loss: 3.778e-02]wan_dewa:  81%|########  | 2828/3500 [2:31:06<25:08,  2.24s/it, lr: 2.0e-04 loss: 3.778e-02]wan_dewa:  81%|########  | 2829/3500 [2:31:07<26:23,  2.36s/it, lr: 2.0e-04 loss: 3.778e-02]wan_dewa:  81%|########  | 2829/3500 [2:31:07<26:23,  2.36s/it, lr: 2.0e-04 loss: 3.778e-02]wan_dewa:  81%|########  | 2829/3500 [2:31:18<26:23,  2.36s/it, lr: 2.0e-04 loss: 1.396e-01]wan_dewa:  81%|########  | 2829/3500 [2:31:18<26:23,  2.36s/it, lr: 2.0e-04 loss: 1.396e-01]wan_dewa:  81%|########  | 2830/3500 [2:31:20<26:21,  2.36s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  81%|########  | 2830/3500 [2:31:20<26:21,  2.36s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  81%|########  | 2831/3500 [2:31:20<20:06,  1.80s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  81%|########  | 2831/3500 [2:31:20<20:06,  1.80s/it, lr: 2.0e-04 loss: 3.728e-02]wan_dewa:  81%|########  | 2831/3500 [2:31:23<20:06,  1.80s/it, lr: 2.0e-04 loss: 2.465e-02]wan_dewa:  81%|########  | 2831/3500 [2:31:23<20:06,  1.80s/it, lr: 2.0e-04 loss: 2.465e-02]wan_dewa:  81%|########  | 2832/3500 [2:31:23<21:22,  1.92s/it, lr: 2.0e-04 loss: 2.465e-02]wan_dewa:  81%|########  | 2832/3500 [2:31:23<21:22,  1.92s/it, lr: 2.0e-04 loss: 2.465e-02]wan_dewa:  81%|########  | 2832/3500 [2:31:25<21:22,  1.92s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  81%|########  | 2832/3500 [2:31:25<21:22,  1.92s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  81%|########  | 2833/3500 [2:31:25<22:22,  2.01s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  81%|########  | 2833/3500 [2:31:25<22:22,  2.01s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  81%|########  | 2833/3500 [2:31:27<22:22,  2.01s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  81%|########  | 2833/3500 [2:31:27<22:22,  2.01s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  81%|########  | 2834/3500 [2:31:27<23:45,  2.14s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  81%|########  | 2834/3500 [2:31:27<23:45,  2.14s/it, lr: 2.0e-04 loss: 4.791e-02]wan_dewa:  81%|########  | 2834/3500 [2:31:30<23:45,  2.14s/it, lr: 2.0e-04 loss: 8.278e-02]wan_dewa:  81%|########  | 2834/3500 [2:31:30<23:45,  2.14s/it, lr: 2.0e-04 loss: 8.278e-02]wan_dewa:  81%|########1 | 2835/3500 [2:31:30<24:08,  2.18s/it, lr: 2.0e-04 loss: 8.278e-02]wan_dewa:  81%|########1 | 2835/3500 [2:31:30<24:08,  2.18s/it, lr: 2.0e-04 loss: 8.278e-02]wan_dewa:  81%|########1 | 2835/3500 [2:31:32<24:08,  2.18s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  81%|########1 | 2835/3500 [2:31:32<24:08,  2.18s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  81%|########1 | 2836/3500 [2:31:32<24:25,  2.21s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  81%|########1 | 2836/3500 [2:31:32<24:25,  2.21s/it, lr: 2.0e-04 loss: 5.664e-02]wan_dewa:  81%|########1 | 2836/3500 [2:31:34<24:25,  2.21s/it, lr: 2.0e-04 loss: 5.619e-01]wan_dewa:  81%|########1 | 2836/3500 [2:31:34<24:25,  2.21s/it, lr: 2.0e-04 loss: 5.619e-01]wan_dewa:  81%|########1 | 2837/3500 [2:31:34<24:37,  2.23s/it, lr: 2.0e-04 loss: 5.619e-01]wan_dewa:  81%|########1 | 2837/3500 [2:31:34<24:37,  2.23s/it, lr: 2.0e-04 loss: 5.619e-01]wan_dewa:  81%|########1 | 2837/3500 [2:31:36<24:37,  2.23s/it, lr: 2.0e-04 loss: 7.184e-02]wan_dewa:  81%|########1 | 2837/3500 [2:31:36<24:37,  2.23s/it, lr: 2.0e-04 loss: 7.184e-02]wan_dewa:  81%|########1 | 2838/3500 [2:31:36<24:45,  2.24s/it, lr: 2.0e-04 loss: 7.184e-02]wan_dewa:  81%|########1 | 2838/3500 [2:31:36<24:45,  2.24s/it, lr: 2.0e-04 loss: 7.184e-02]wan_dewa:  81%|########1 | 2838/3500 [2:31:39<24:45,  2.24s/it, lr: 2.0e-04 loss: 1.145e-01]wan_dewa:  81%|########1 | 2838/3500 [2:31:39<24:45,  2.24s/it, lr: 2.0e-04 loss: 1.145e-01]wan_dewa:  81%|########1 | 2839/3500 [2:31:39<25:33,  2.32s/it, lr: 2.0e-04 loss: 1.145e-01]wan_dewa:  81%|########1 | 2839/3500 [2:31:39<25:33,  2.32s/it, lr: 2.0e-04 loss: 1.145e-01]wan_dewa:  81%|########1 | 2839/3500 [2:31:50<25:33,  2.32s/it, lr: 2.0e-04 loss: 2.507e-02]wan_dewa:  81%|########1 | 2839/3500 [2:31:50<25:33,  2.32s/it, lr: 2.0e-04 loss: 2.507e-02]wan_dewa:  81%|########1 | 2840/3500 [2:31:52<25:31,  2.32s/it, lr: 2.0e-04 loss: 3.500e-02]wan_dewa:  81%|########1 | 2840/3500 [2:31:52<25:31,  2.32s/it, lr: 2.0e-04 loss: 3.500e-02]wan_dewa:  81%|########1 | 2841/3500 [2:31:52<19:33,  1.78s/it, lr: 2.0e-04 loss: 3.500e-02]wan_dewa:  81%|########1 | 2841/3500 [2:31:52<19:33,  1.78s/it, lr: 2.0e-04 loss: 3.500e-02]wan_dewa:  81%|########1 | 2841/3500 [2:31:54<19:33,  1.78s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  81%|########1 | 2841/3500 [2:31:54<19:33,  1.78s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  81%|########1 | 2842/3500 [2:31:54<20:53,  1.91s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  81%|########1 | 2842/3500 [2:31:54<20:53,  1.91s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  81%|########1 | 2842/3500 [2:31:57<20:53,  1.91s/it, lr: 2.0e-04 loss: 1.997e-02]wan_dewa:  81%|########1 | 2842/3500 [2:31:57<20:53,  1.91s/it, lr: 2.0e-04 loss: 1.997e-02]wan_dewa:  81%|########1 | 2843/3500 [2:31:57<21:56,  2.00s/it, lr: 2.0e-04 loss: 1.997e-02]wan_dewa:  81%|########1 | 2843/3500 [2:31:57<21:56,  2.00s/it, lr: 2.0e-04 loss: 1.997e-02]wan_dewa:  81%|########1 | 2843/3500 [2:31:59<21:56,  2.00s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  81%|########1 | 2843/3500 [2:31:59<21:56,  2.00s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  81%|########1 | 2844/3500 [2:31:59<23:23,  2.14s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  81%|########1 | 2844/3500 [2:31:59<23:23,  2.14s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  81%|########1 | 2844/3500 [2:32:01<23:23,  2.14s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  81%|########1 | 2844/3500 [2:32:01<23:23,  2.14s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  81%|########1 | 2845/3500 [2:32:01<23:47,  2.18s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  81%|########1 | 2845/3500 [2:32:01<23:47,  2.18s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  81%|########1 | 2845/3500 [2:32:04<23:47,  2.18s/it, lr: 2.0e-04 loss: 2.711e-02]wan_dewa:  81%|########1 | 2845/3500 [2:32:04<23:47,  2.18s/it, lr: 2.0e-04 loss: 2.711e-02]wan_dewa:  81%|########1 | 2846/3500 [2:32:04<24:05,  2.21s/it, lr: 2.0e-04 loss: 2.711e-02]wan_dewa:  81%|########1 | 2846/3500 [2:32:04<24:05,  2.21s/it, lr: 2.0e-04 loss: 2.711e-02]wan_dewa:  81%|########1 | 2846/3500 [2:32:06<24:05,  2.21s/it, lr: 2.0e-04 loss: 2.919e-02]wan_dewa:  81%|########1 | 2846/3500 [2:32:06<24:05,  2.21s/it, lr: 2.0e-04 loss: 2.919e-02]wan_dewa:  81%|########1 | 2847/3500 [2:32:06<24:18,  2.23s/it, lr: 2.0e-04 loss: 2.919e-02]wan_dewa:  81%|########1 | 2847/3500 [2:32:06<24:18,  2.23s/it, lr: 2.0e-04 loss: 2.919e-02]wan_dewa:  81%|########1 | 2847/3500 [2:32:08<24:18,  2.23s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  81%|########1 | 2847/3500 [2:32:08<24:18,  2.23s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  81%|########1 | 2848/3500 [2:32:08<24:26,  2.25s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  81%|########1 | 2848/3500 [2:32:08<24:26,  2.25s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  81%|########1 | 2848/3500 [2:32:11<24:26,  2.25s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  81%|########1 | 2848/3500 [2:32:11<24:26,  2.25s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  81%|########1 | 2849/3500 [2:32:11<25:16,  2.33s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  81%|########1 | 2849/3500 [2:32:11<25:16,  2.33s/it, lr: 2.0e-04 loss: 3.933e-02]wan_dewa:  81%|########1 | 2849/3500 [2:32:25<25:16,  2.33s/it, lr: 2.0e-04 loss: 1.779e-01]wan_dewa:  81%|########1 | 2849/3500 [2:32:25<25:16,  2.33s/it, lr: 2.0e-04 loss: 1.779e-01]wan_dewa:  81%|########1 | 2850/3500 [2:32:27<25:13,  2.33s/it, lr: 2.0e-04 loss: 8.375e-02]wan_dewa:  81%|########1 | 2850/3500 [2:32:27<25:13,  2.33s/it, lr: 2.0e-04 loss: 8.375e-02]wan_dewa:  81%|########1 | 2851/3500 [2:32:27<19:19,  1.79s/it, lr: 2.0e-04 loss: 8.375e-02]wan_dewa:  81%|########1 | 2851/3500 [2:32:27<19:19,  1.79s/it, lr: 2.0e-04 loss: 8.375e-02]wan_dewa:  81%|########1 | 2851/3500 [2:32:29<19:19,  1.79s/it, lr: 2.0e-04 loss: 2.304e-02]wan_dewa:  81%|########1 | 2851/3500 [2:32:29<19:19,  1.79s/it, lr: 2.0e-04 loss: 2.304e-02]wan_dewa:  81%|########1 | 2852/3500 [2:32:29<20:37,  1.91s/it, lr: 2.0e-04 loss: 2.304e-02]wan_dewa:  81%|########1 | 2852/3500 [2:32:29<20:37,  1.91s/it, lr: 2.0e-04 loss: 2.304e-02]wan_dewa:  81%|########1 | 2852/3500 [2:32:31<20:37,  1.91s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  81%|########1 | 2852/3500 [2:32:31<20:37,  1.91s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  82%|########1 | 2853/3500 [2:32:31<21:37,  2.01s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  82%|########1 | 2853/3500 [2:32:31<21:37,  2.01s/it, lr: 2.0e-04 loss: 7.762e-02]wan_dewa:  82%|########1 | 2853/3500 [2:32:34<21:37,  2.01s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  82%|########1 | 2853/3500 [2:32:34<21:37,  2.01s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  82%|########1 | 2854/3500 [2:32:34<23:26,  2.18s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  82%|########1 | 2854/3500 [2:32:34<23:26,  2.18s/it, lr: 2.0e-04 loss: 2.655e-02]wan_dewa:  82%|########1 | 2854/3500 [2:32:36<23:26,  2.18s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  82%|########1 | 2854/3500 [2:32:36<23:26,  2.18s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  82%|########1 | 2855/3500 [2:32:36<23:42,  2.20s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  82%|########1 | 2855/3500 [2:32:36<23:42,  2.20s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  82%|########1 | 2855/3500 [2:32:39<23:42,  2.20s/it, lr: 2.0e-04 loss: 3.505e-02]wan_dewa:  82%|########1 | 2855/3500 [2:32:39<23:42,  2.20s/it, lr: 2.0e-04 loss: 3.505e-02]wan_dewa:  82%|########1 | 2856/3500 [2:32:39<23:53,  2.23s/it, lr: 2.0e-04 loss: 3.505e-02]wan_dewa:  82%|########1 | 2856/3500 [2:32:39<23:53,  2.23s/it, lr: 2.0e-04 loss: 3.505e-02]wan_dewa:  82%|########1 | 2856/3500 [2:32:41<23:53,  2.23s/it, lr: 2.0e-04 loss: 5.478e-02]wan_dewa:  82%|########1 | 2856/3500 [2:32:41<23:53,  2.23s/it, lr: 2.0e-04 loss: 5.478e-02]wan_dewa:  82%|########1 | 2857/3500 [2:32:41<24:01,  2.24s/it, lr: 2.0e-04 loss: 5.478e-02]wan_dewa:  82%|########1 | 2857/3500 [2:32:41<24:01,  2.24s/it, lr: 2.0e-04 loss: 5.478e-02]wan_dewa:  82%|########1 | 2857/3500 [2:32:43<24:01,  2.24s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  82%|########1 | 2857/3500 [2:32:43<24:01,  2.24s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  82%|########1 | 2858/3500 [2:32:43<24:07,  2.25s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  82%|########1 | 2858/3500 [2:32:43<24:07,  2.25s/it, lr: 2.0e-04 loss: 2.753e-02]wan_dewa:  82%|########1 | 2858/3500 [2:32:45<24:07,  2.25s/it, lr: 2.0e-04 loss: 4.617e-02]wan_dewa:  82%|########1 | 2858/3500 [2:32:45<24:07,  2.25s/it, lr: 2.0e-04 loss: 4.617e-02]wan_dewa:  82%|########1 | 2859/3500 [2:32:45<24:10,  2.26s/it, lr: 2.0e-04 loss: 4.617e-02]wan_dewa:  82%|########1 | 2859/3500 [2:32:45<24:10,  2.26s/it, lr: 2.0e-04 loss: 4.617e-02]wan_dewa:  82%|########1 | 2859/3500 [2:32:56<24:10,  2.26s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  82%|########1 | 2859/3500 [2:32:56<24:10,  2.26s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  82%|########1 | 2860/3500 [2:32:59<24:08,  2.26s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  82%|########1 | 2860/3500 [2:32:59<24:08,  2.26s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  82%|########1 | 2861/3500 [2:32:59<18:37,  1.75s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  82%|########1 | 2861/3500 [2:32:59<18:37,  1.75s/it, lr: 2.0e-04 loss: 3.530e-02]wan_dewa:  82%|########1 | 2861/3500 [2:33:01<18:37,  1.75s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  82%|########1 | 2861/3500 [2:33:01<18:37,  1.75s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  82%|########1 | 2862/3500 [2:33:01<19:57,  1.88s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  82%|########1 | 2862/3500 [2:33:01<19:57,  1.88s/it, lr: 2.0e-04 loss: 3.824e-02]wan_dewa:  82%|########1 | 2862/3500 [2:33:03<19:57,  1.88s/it, lr: 2.0e-04 loss: 3.972e-02]wan_dewa:  82%|########1 | 2862/3500 [2:33:03<19:57,  1.88s/it, lr: 2.0e-04 loss: 3.972e-02]wan_dewa:  82%|########1 | 2863/3500 [2:33:03<21:01,  1.98s/it, lr: 2.0e-04 loss: 3.972e-02]wan_dewa:  82%|########1 | 2863/3500 [2:33:03<21:01,  1.98s/it, lr: 2.0e-04 loss: 3.972e-02]wan_dewa:  82%|########1 | 2863/3500 [2:33:06<21:01,  1.98s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  82%|########1 | 2863/3500 [2:33:06<21:01,  1.98s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  82%|########1 | 2864/3500 [2:33:06<21:50,  2.06s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  82%|########1 | 2864/3500 [2:33:06<21:50,  2.06s/it, lr: 2.0e-04 loss: 3.890e-02]wan_dewa:  82%|########1 | 2864/3500 [2:33:08<21:50,  2.06s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  82%|########1 | 2864/3500 [2:33:08<21:50,  2.06s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  82%|########1 | 2865/3500 [2:33:08<23:03,  2.18s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  82%|########1 | 2865/3500 [2:33:08<23:03,  2.18s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  82%|########1 | 2865/3500 [2:33:10<23:03,  2.18s/it, lr: 2.0e-04 loss: 3.190e-02]wan_dewa:  82%|########1 | 2865/3500 [2:33:10<23:03,  2.18s/it, lr: 2.0e-04 loss: 3.190e-02]wan_dewa:  82%|########1 | 2866/3500 [2:33:10<23:18,  2.21s/it, lr: 2.0e-04 loss: 3.190e-02]wan_dewa:  82%|########1 | 2866/3500 [2:33:10<23:18,  2.21s/it, lr: 2.0e-04 loss: 3.190e-02]wan_dewa:  82%|########1 | 2866/3500 [2:33:13<23:18,  2.21s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  82%|########1 | 2866/3500 [2:33:13<23:18,  2.21s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  82%|########1 | 2867/3500 [2:33:13<23:29,  2.23s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  82%|########1 | 2867/3500 [2:33:13<23:29,  2.23s/it, lr: 2.0e-04 loss: 3.206e-02]wan_dewa:  82%|########1 | 2867/3500 [2:33:15<23:29,  2.23s/it, lr: 2.0e-04 loss: 3.851e-02]wan_dewa:  82%|########1 | 2867/3500 [2:33:15<23:29,  2.23s/it, lr: 2.0e-04 loss: 3.851e-02]wan_dewa:  82%|########1 | 2868/3500 [2:33:15<23:36,  2.24s/it, lr: 2.0e-04 loss: 3.851e-02]wan_dewa:  82%|########1 | 2868/3500 [2:33:15<23:36,  2.24s/it, lr: 2.0e-04 loss: 3.851e-02]wan_dewa:  82%|########1 | 2868/3500 [2:33:17<23:36,  2.24s/it, lr: 2.0e-04 loss: 3.433e-02]wan_dewa:  82%|########1 | 2868/3500 [2:33:17<23:36,  2.24s/it, lr: 2.0e-04 loss: 3.433e-02]wan_dewa:  82%|########1 | 2869/3500 [2:33:17<23:43,  2.26s/it, lr: 2.0e-04 loss: 3.433e-02]wan_dewa:  82%|########1 | 2869/3500 [2:33:17<23:43,  2.26s/it, lr: 2.0e-04 loss: 3.433e-02]wan_dewa:  82%|########1 | 2869/3500 [2:33:25<23:43,  2.26s/it, lr: 2.0e-04 loss: 7.965e-02]wan_dewa:  82%|########1 | 2869/3500 [2:33:25<23:43,  2.26s/it, lr: 2.0e-04 loss: 7.965e-02]wan_dewa:  82%|########2 | 2870/3500 [2:33:27<23:41,  2.26s/it, lr: 2.0e-04 loss: 9.552e-02]wan_dewa:  82%|########2 | 2870/3500 [2:33:27<23:41,  2.26s/it, lr: 2.0e-04 loss: 9.552e-02]wan_dewa:  82%|########2 | 2871/3500 [2:33:27<18:18,  1.75s/it, lr: 2.0e-04 loss: 9.552e-02]wan_dewa:  82%|########2 | 2871/3500 [2:33:27<18:18,  1.75s/it, lr: 2.0e-04 loss: 9.552e-02]wan_dewa:  82%|########2 | 2871/3500 [2:33:30<18:18,  1.75s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2871/3500 [2:33:30<18:18,  1.75s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2872/3500 [2:33:30<19:39,  1.88s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2872/3500 [2:33:30<19:39,  1.88s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2872/3500 [2:33:32<19:39,  1.88s/it, lr: 2.0e-04 loss: 1.343e-01]wan_dewa:  82%|########2 | 2872/3500 [2:33:32<19:39,  1.88s/it, lr: 2.0e-04 loss: 1.343e-01]wan_dewa:  82%|########2 | 2873/3500 [2:33:32<20:43,  1.98s/it, lr: 2.0e-04 loss: 1.343e-01]wan_dewa:  82%|########2 | 2873/3500 [2:33:32<20:43,  1.98s/it, lr: 2.0e-04 loss: 1.343e-01]wan_dewa:  82%|########2 | 2873/3500 [2:33:34<20:43,  1.98s/it, lr: 2.0e-04 loss: 4.871e-02]wan_dewa:  82%|########2 | 2873/3500 [2:33:34<20:43,  1.98s/it, lr: 2.0e-04 loss: 4.871e-02]wan_dewa:  82%|########2 | 2874/3500 [2:33:34<21:32,  2.06s/it, lr: 2.0e-04 loss: 4.871e-02]wan_dewa:  82%|########2 | 2874/3500 [2:33:34<21:32,  2.06s/it, lr: 2.0e-04 loss: 4.871e-02]wan_dewa:  82%|########2 | 2874/3500 [2:33:39<21:32,  2.06s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  82%|########2 | 2874/3500 [2:33:39<21:32,  2.06s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  82%|########2 | 2875/3500 [2:33:39<23:03,  2.21s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  82%|########2 | 2875/3500 [2:33:39<23:03,  2.21s/it, lr: 2.0e-04 loss: 7.530e-02]wan_dewa:  82%|########2 | 2875/3500 [2:33:41<23:03,  2.21s/it, lr: 2.0e-04 loss: 4.919e-02]wan_dewa:  82%|########2 | 2875/3500 [2:33:41<23:03,  2.21s/it, lr: 2.0e-04 loss: 4.919e-02]wan_dewa:  82%|########2 | 2876/3500 [2:33:41<23:14,  2.23s/it, lr: 2.0e-04 loss: 4.919e-02]wan_dewa:  82%|########2 | 2876/3500 [2:33:41<23:14,  2.23s/it, lr: 2.0e-04 loss: 4.919e-02]wan_dewa:  82%|########2 | 2876/3500 [2:33:44<23:14,  2.23s/it, lr: 2.0e-04 loss: 4.486e-02]wan_dewa:  82%|########2 | 2876/3500 [2:33:44<23:14,  2.23s/it, lr: 2.0e-04 loss: 4.486e-02]wan_dewa:  82%|########2 | 2877/3500 [2:33:44<23:20,  2.25s/it, lr: 2.0e-04 loss: 4.486e-02]wan_dewa:  82%|########2 | 2877/3500 [2:33:44<23:20,  2.25s/it, lr: 2.0e-04 loss: 4.486e-02]wan_dewa:  82%|########2 | 2877/3500 [2:33:46<23:20,  2.25s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  82%|########2 | 2877/3500 [2:33:46<23:20,  2.25s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  82%|########2 | 2878/3500 [2:33:46<23:24,  2.26s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  82%|########2 | 2878/3500 [2:33:46<23:24,  2.26s/it, lr: 2.0e-04 loss: 3.785e-02]wan_dewa:  82%|########2 | 2878/3500 [2:33:48<23:24,  2.26s/it, lr: 2.0e-04 loss: 5.454e-02]wan_dewa:  82%|########2 | 2878/3500 [2:33:48<23:24,  2.26s/it, lr: 2.0e-04 loss: 5.454e-02]wan_dewa:  82%|########2 | 2879/3500 [2:33:48<23:26,  2.27s/it, lr: 2.0e-04 loss: 5.454e-02]wan_dewa:  82%|########2 | 2879/3500 [2:33:48<23:26,  2.27s/it, lr: 2.0e-04 loss: 5.454e-02]wan_dewa:  82%|########2 | 2879/3500 [2:33:59<23:26,  2.27s/it, lr: 2.0e-04 loss: 3.715e-02]wan_dewa:  82%|########2 | 2879/3500 [2:33:59<23:26,  2.27s/it, lr: 2.0e-04 loss: 3.715e-02]wan_dewa:  82%|########2 | 2880/3500 [2:34:02<23:24,  2.27s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  82%|########2 | 2880/3500 [2:34:02<23:24,  2.27s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  82%|########2 | 2881/3500 [2:34:02<18:25,  1.79s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  82%|########2 | 2881/3500 [2:34:02<18:25,  1.79s/it, lr: 2.0e-04 loss: 2.099e-02]wan_dewa:  82%|########2 | 2881/3500 [2:34:04<18:25,  1.79s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  82%|########2 | 2881/3500 [2:34:04<18:25,  1.79s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  82%|########2 | 2882/3500 [2:34:04<19:38,  1.91s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  82%|########2 | 2882/3500 [2:34:04<19:38,  1.91s/it, lr: 2.0e-04 loss: 3.520e-02]wan_dewa:  82%|########2 | 2882/3500 [2:34:06<19:38,  1.91s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  82%|########2 | 2882/3500 [2:34:06<19:38,  1.91s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  82%|########2 | 2883/3500 [2:34:06<20:36,  2.00s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  82%|########2 | 2883/3500 [2:34:06<20:36,  2.00s/it, lr: 2.0e-04 loss: 4.334e-02]wan_dewa:  82%|########2 | 2883/3500 [2:34:09<20:36,  2.00s/it, lr: 2.0e-04 loss: 2.969e-02]wan_dewa:  82%|########2 | 2883/3500 [2:34:09<20:36,  2.00s/it, lr: 2.0e-04 loss: 2.969e-02]wan_dewa:  82%|########2 | 2884/3500 [2:34:09<21:19,  2.08s/it, lr: 2.0e-04 loss: 2.969e-02]wan_dewa:  82%|########2 | 2884/3500 [2:34:09<21:19,  2.08s/it, lr: 2.0e-04 loss: 2.969e-02]wan_dewa:  82%|########2 | 2884/3500 [2:34:11<21:19,  2.08s/it, lr: 2.0e-04 loss: 3.750e-02]wan_dewa:  82%|########2 | 2884/3500 [2:34:11<21:19,  2.08s/it, lr: 2.0e-04 loss: 3.750e-02]wan_dewa:  82%|########2 | 2885/3500 [2:34:11<21:51,  2.13s/it, lr: 2.0e-04 loss: 3.750e-02]wan_dewa:  82%|########2 | 2885/3500 [2:34:11<21:51,  2.13s/it, lr: 2.0e-04 loss: 3.750e-02]wan_dewa:  82%|########2 | 2885/3500 [2:34:13<21:51,  2.13s/it, lr: 2.0e-04 loss: 4.517e-02]wan_dewa:  82%|########2 | 2885/3500 [2:34:13<21:51,  2.13s/it, lr: 2.0e-04 loss: 4.517e-02]wan_dewa:  82%|########2 | 2886/3500 [2:34:13<22:42,  2.22s/it, lr: 2.0e-04 loss: 4.517e-02]wan_dewa:  82%|########2 | 2886/3500 [2:34:13<22:42,  2.22s/it, lr: 2.0e-04 loss: 4.517e-02]wan_dewa:  82%|########2 | 2886/3500 [2:34:16<22:42,  2.22s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2886/3500 [2:34:16<22:42,  2.22s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2887/3500 [2:34:16<22:50,  2.24s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2887/3500 [2:34:16<22:50,  2.24s/it, lr: 2.0e-04 loss: 3.130e-02]wan_dewa:  82%|########2 | 2887/3500 [2:34:18<22:50,  2.24s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  82%|########2 | 2887/3500 [2:34:18<22:50,  2.24s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  83%|########2 | 2888/3500 [2:34:18<22:56,  2.25s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  83%|########2 | 2888/3500 [2:34:18<22:56,  2.25s/it, lr: 2.0e-04 loss: 4.301e-02]wan_dewa:  83%|########2 | 2888/3500 [2:34:20<22:56,  2.25s/it, lr: 2.0e-04 loss: 3.669e-02]wan_dewa:  83%|########2 | 2888/3500 [2:34:20<22:56,  2.25s/it, lr: 2.0e-04 loss: 3.669e-02]wan_dewa:  83%|########2 | 2889/3500 [2:34:20<22:59,  2.26s/it, lr: 2.0e-04 loss: 3.669e-02]wan_dewa:  83%|########2 | 2889/3500 [2:34:20<22:59,  2.26s/it, lr: 2.0e-04 loss: 3.669e-02]wan_dewa:  83%|########2 | 2889/3500 [2:34:31<22:59,  2.26s/it, lr: 2.0e-04 loss: 4.807e-02]wan_dewa:  83%|########2 | 2889/3500 [2:34:31<22:59,  2.26s/it, lr: 2.0e-04 loss: 4.807e-02]wan_dewa:  83%|########2 | 2890/3500 [2:34:34<22:57,  2.26s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  83%|########2 | 2890/3500 [2:34:34<22:57,  2.26s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  83%|########2 | 2891/3500 [2:34:34<18:08,  1.79s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  83%|########2 | 2891/3500 [2:34:34<18:08,  1.79s/it, lr: 2.0e-04 loss: 1.350e-01]wan_dewa:  83%|########2 | 2891/3500 [2:34:36<18:08,  1.79s/it, lr: 2.0e-04 loss: 3.406e-02]wan_dewa:  83%|########2 | 2891/3500 [2:34:36<18:08,  1.79s/it, lr: 2.0e-04 loss: 3.406e-02]wan_dewa:  83%|########2 | 2892/3500 [2:34:36<19:20,  1.91s/it, lr: 2.0e-04 loss: 3.406e-02]wan_dewa:  83%|########2 | 2892/3500 [2:34:36<19:20,  1.91s/it, lr: 2.0e-04 loss: 3.406e-02]wan_dewa:  83%|########2 | 2892/3500 [2:34:38<19:20,  1.91s/it, lr: 2.0e-04 loss: 7.290e-02]wan_dewa:  83%|########2 | 2892/3500 [2:34:38<19:20,  1.91s/it, lr: 2.0e-04 loss: 7.290e-02]wan_dewa:  83%|########2 | 2893/3500 [2:34:38<20:16,  2.00s/it, lr: 2.0e-04 loss: 7.290e-02]wan_dewa:  83%|########2 | 2893/3500 [2:34:38<20:16,  2.00s/it, lr: 2.0e-04 loss: 7.290e-02]wan_dewa:  83%|########2 | 2893/3500 [2:34:41<20:16,  2.00s/it, lr: 2.0e-04 loss: 1.286e-01]wan_dewa:  83%|########2 | 2893/3500 [2:34:41<20:16,  2.00s/it, lr: 2.0e-04 loss: 1.286e-01]wan_dewa:  83%|########2 | 2894/3500 [2:34:41<21:00,  2.08s/it, lr: 2.0e-04 loss: 1.286e-01]wan_dewa:  83%|########2 | 2894/3500 [2:34:41<21:00,  2.08s/it, lr: 2.0e-04 loss: 1.286e-01]wan_dewa:  83%|########2 | 2894/3500 [2:34:43<21:00,  2.08s/it, lr: 2.0e-04 loss: 2.349e-02]wan_dewa:  83%|########2 | 2894/3500 [2:34:43<21:00,  2.08s/it, lr: 2.0e-04 loss: 2.349e-02]wan_dewa:  83%|########2 | 2895/3500 [2:34:43<21:31,  2.14s/it, lr: 2.0e-04 loss: 2.349e-02]wan_dewa:  83%|########2 | 2895/3500 [2:34:43<21:31,  2.14s/it, lr: 2.0e-04 loss: 2.349e-02]wan_dewa:  83%|########2 | 2895/3500 [2:34:45<21:31,  2.14s/it, lr: 2.0e-04 loss: 5.921e-02]wan_dewa:  83%|########2 | 2895/3500 [2:34:45<21:31,  2.14s/it, lr: 2.0e-04 loss: 5.921e-02]wan_dewa:  83%|########2 | 2896/3500 [2:34:45<21:55,  2.18s/it, lr: 2.0e-04 loss: 5.921e-02]wan_dewa:  83%|########2 | 2896/3500 [2:34:45<21:55,  2.18s/it, lr: 2.0e-04 loss: 5.921e-02]wan_dewa:  83%|########2 | 2896/3500 [2:34:48<21:55,  2.18s/it, lr: 2.0e-04 loss: 4.702e-02]wan_dewa:  83%|########2 | 2896/3500 [2:34:48<21:55,  2.18s/it, lr: 2.0e-04 loss: 4.702e-02]wan_dewa:  83%|########2 | 2897/3500 [2:34:48<22:39,  2.26s/it, lr: 2.0e-04 loss: 4.702e-02]wan_dewa:  83%|########2 | 2897/3500 [2:34:48<22:39,  2.26s/it, lr: 2.0e-04 loss: 4.702e-02]wan_dewa:  83%|########2 | 2897/3500 [2:34:50<22:39,  2.26s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  83%|########2 | 2897/3500 [2:34:50<22:39,  2.26s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  83%|########2 | 2898/3500 [2:34:50<22:42,  2.26s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  83%|########2 | 2898/3500 [2:34:50<22:42,  2.26s/it, lr: 2.0e-04 loss: 5.164e-02]wan_dewa:  83%|########2 | 2898/3500 [2:34:52<22:42,  2.26s/it, lr: 2.0e-04 loss: 1.644e-01]wan_dewa:  83%|########2 | 2898/3500 [2:34:52<22:42,  2.26s/it, lr: 2.0e-04 loss: 1.644e-01]wan_dewa:  83%|########2 | 2899/3500 [2:34:52<22:44,  2.27s/it, lr: 2.0e-04 loss: 1.644e-01]wan_dewa:  83%|########2 | 2899/3500 [2:34:52<22:44,  2.27s/it, lr: 2.0e-04 loss: 1.644e-01]wan_dewa:  83%|########2 | 2899/3500 [2:35:06<22:44,  2.27s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  83%|########2 | 2899/3500 [2:35:06<22:44,  2.27s/it, lr: 2.0e-04 loss: 4.099e-02]wan_dewa:  83%|########2 | 2900/3500 [2:35:08<22:42,  2.27s/it, lr: 2.0e-04 loss: 2.961e-02]wan_dewa:  83%|########2 | 2900/3500 [2:35:08<22:42,  2.27s/it, lr: 2.0e-04 loss: 2.961e-02]wan_dewa:  83%|########2 | 2901/3500 [2:35:08<17:31,  1.76s/it, lr: 2.0e-04 loss: 2.961e-02]wan_dewa:  83%|########2 | 2901/3500 [2:35:08<17:31,  1.76s/it, lr: 2.0e-04 loss: 2.961e-02]wan_dewa:  83%|########2 | 2901/3500 [2:35:10<17:31,  1.76s/it, lr: 2.0e-04 loss: 2.226e-02]wan_dewa:  83%|########2 | 2901/3500 [2:35:10<17:31,  1.76s/it, lr: 2.0e-04 loss: 2.226e-02]wan_dewa:  83%|########2 | 2902/3500 [2:35:10<19:33,  1.96s/it, lr: 2.0e-04 loss: 2.226e-02]wan_dewa:  83%|########2 | 2902/3500 [2:35:10<19:33,  1.96s/it, lr: 2.0e-04 loss: 2.226e-02]wan_dewa:  83%|########2 | 2902/3500 [2:35:13<19:33,  1.96s/it, lr: 2.0e-04 loss: 2.697e-02]wan_dewa:  83%|########2 | 2902/3500 [2:35:13<19:33,  1.96s/it, lr: 2.0e-04 loss: 2.697e-02]wan_dewa:  83%|########2 | 2903/3500 [2:35:13<20:20,  2.04s/it, lr: 2.0e-04 loss: 2.697e-02]wan_dewa:  83%|########2 | 2903/3500 [2:35:13<20:20,  2.04s/it, lr: 2.0e-04 loss: 2.697e-02]wan_dewa:  83%|########2 | 2903/3500 [2:35:15<20:20,  2.04s/it, lr: 2.0e-04 loss: 4.242e-02]wan_dewa:  83%|########2 | 2903/3500 [2:35:15<20:20,  2.04s/it, lr: 2.0e-04 loss: 4.242e-02]wan_dewa:  83%|########2 | 2904/3500 [2:35:15<20:55,  2.11s/it, lr: 2.0e-04 loss: 4.242e-02]wan_dewa:  83%|########2 | 2904/3500 [2:35:15<20:55,  2.11s/it, lr: 2.0e-04 loss: 4.242e-02]wan_dewa:  83%|########2 | 2904/3500 [2:35:17<20:55,  2.11s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  83%|########2 | 2904/3500 [2:35:17<20:55,  2.11s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  83%|########2 | 2905/3500 [2:35:17<21:21,  2.15s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  83%|########2 | 2905/3500 [2:35:17<21:21,  2.15s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  83%|########2 | 2905/3500 [2:35:20<21:21,  2.15s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  83%|########2 | 2905/3500 [2:35:20<21:21,  2.15s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  83%|########3 | 2906/3500 [2:35:20<21:41,  2.19s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  83%|########3 | 2906/3500 [2:35:20<21:41,  2.19s/it, lr: 2.0e-04 loss: 3.885e-02]wan_dewa:  83%|########3 | 2906/3500 [2:35:22<21:41,  2.19s/it, lr: 2.0e-04 loss: 2.806e-02]wan_dewa:  83%|########3 | 2906/3500 [2:35:22<21:41,  2.19s/it, lr: 2.0e-04 loss: 2.806e-02]wan_dewa:  83%|########3 | 2907/3500 [2:35:22<22:26,  2.27s/it, lr: 2.0e-04 loss: 2.806e-02]wan_dewa:  83%|########3 | 2907/3500 [2:35:22<22:26,  2.27s/it, lr: 2.0e-04 loss: 2.806e-02]wan_dewa:  83%|########3 | 2907/3500 [2:35:24<22:26,  2.27s/it, lr: 2.0e-04 loss: 3.446e-02]wan_dewa:  83%|########3 | 2907/3500 [2:35:24<22:26,  2.27s/it, lr: 2.0e-04 loss: 3.446e-02]wan_dewa:  83%|########3 | 2908/3500 [2:35:24<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.446e-02]wan_dewa:  83%|########3 | 2908/3500 [2:35:24<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.446e-02]wan_dewa:  83%|########3 | 2908/3500 [2:35:27<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.704e-02]wan_dewa:  83%|########3 | 2908/3500 [2:35:27<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.704e-02]wan_dewa:  83%|########3 | 2909/3500 [2:35:27<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.704e-02]wan_dewa:  83%|########3 | 2909/3500 [2:35:27<22:27,  2.28s/it, lr: 2.0e-04 loss: 3.704e-02]wan_dewa:  83%|########3 | 2909/3500 [2:35:38<22:27,  2.28s/it, lr: 2.0e-04 loss: 5.285e-02]wan_dewa:  83%|########3 | 2909/3500 [2:35:38<22:27,  2.28s/it, lr: 2.0e-04 loss: 5.285e-02]wan_dewa:  83%|########3 | 2910/3500 [2:35:40<22:25,  2.28s/it, lr: 2.0e-04 loss: 7.698e-02]wan_dewa:  83%|########3 | 2910/3500 [2:35:40<22:25,  2.28s/it, lr: 2.0e-04 loss: 7.698e-02]wan_dewa:  83%|########3 | 2911/3500 [2:35:40<17:16,  1.76s/it, lr: 2.0e-04 loss: 7.698e-02]wan_dewa:  83%|########3 | 2911/3500 [2:35:40<17:16,  1.76s/it, lr: 2.0e-04 loss: 7.698e-02]wan_dewa:  83%|########3 | 2911/3500 [2:35:43<17:16,  1.76s/it, lr: 2.0e-04 loss: 7.458e-02]wan_dewa:  83%|########3 | 2911/3500 [2:35:43<17:16,  1.76s/it, lr: 2.0e-04 loss: 7.458e-02]wan_dewa:  83%|########3 | 2912/3500 [2:35:43<18:56,  1.93s/it, lr: 2.0e-04 loss: 7.458e-02]wan_dewa:  83%|########3 | 2912/3500 [2:35:43<18:56,  1.93s/it, lr: 2.0e-04 loss: 7.458e-02]wan_dewa:  83%|########3 | 2912/3500 [2:35:45<18:56,  1.93s/it, lr: 2.0e-04 loss: 7.544e-02]wan_dewa:  83%|########3 | 2912/3500 [2:35:45<18:56,  1.93s/it, lr: 2.0e-04 loss: 7.544e-02]wan_dewa:  83%|########3 | 2913/3500 [2:35:45<19:48,  2.02s/it, lr: 2.0e-04 loss: 7.544e-02]wan_dewa:  83%|########3 | 2913/3500 [2:35:45<19:48,  2.02s/it, lr: 2.0e-04 loss: 7.544e-02]wan_dewa:  83%|########3 | 2913/3500 [2:35:47<19:48,  2.02s/it, lr: 2.0e-04 loss: 3.275e-01]wan_dewa:  83%|########3 | 2913/3500 [2:35:47<19:48,  2.02s/it, lr: 2.0e-04 loss: 3.275e-01]wan_dewa:  83%|########3 | 2914/3500 [2:35:47<20:27,  2.09s/it, lr: 2.0e-04 loss: 3.275e-01]wan_dewa:  83%|########3 | 2914/3500 [2:35:47<20:27,  2.09s/it, lr: 2.0e-04 loss: 3.275e-01]wan_dewa:  83%|########3 | 2914/3500 [2:35:49<20:27,  2.09s/it, lr: 2.0e-04 loss: 6.759e-02]wan_dewa:  83%|########3 | 2914/3500 [2:35:49<20:27,  2.09s/it, lr: 2.0e-04 loss: 6.759e-02]wan_dewa:  83%|########3 | 2915/3500 [2:35:49<20:56,  2.15s/it, lr: 2.0e-04 loss: 6.759e-02]wan_dewa:  83%|########3 | 2915/3500 [2:35:49<20:56,  2.15s/it, lr: 2.0e-04 loss: 6.759e-02]wan_dewa:  83%|########3 | 2915/3500 [2:35:52<20:56,  2.15s/it, lr: 2.0e-04 loss: 3.133e-02]wan_dewa:  83%|########3 | 2915/3500 [2:35:52<20:56,  2.15s/it, lr: 2.0e-04 loss: 3.133e-02]wan_dewa:  83%|########3 | 2916/3500 [2:35:52<21:17,  2.19s/it, lr: 2.0e-04 loss: 3.133e-02]wan_dewa:  83%|########3 | 2916/3500 [2:35:52<21:17,  2.19s/it, lr: 2.0e-04 loss: 3.133e-02]wan_dewa:  83%|########3 | 2916/3500 [2:35:54<21:17,  2.19s/it, lr: 2.0e-04 loss: 2.078e-01]wan_dewa:  83%|########3 | 2916/3500 [2:35:54<21:17,  2.19s/it, lr: 2.0e-04 loss: 2.078e-01]wan_dewa:  83%|########3 | 2917/3500 [2:35:54<22:02,  2.27s/it, lr: 2.0e-04 loss: 2.078e-01]wan_dewa:  83%|########3 | 2917/3500 [2:35:54<22:02,  2.27s/it, lr: 2.0e-04 loss: 2.078e-01]wan_dewa:  83%|########3 | 2917/3500 [2:35:56<22:02,  2.27s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:  83%|########3 | 2917/3500 [2:35:56<22:02,  2.27s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:  83%|########3 | 2918/3500 [2:35:56<22:02,  2.27s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:  83%|########3 | 2918/3500 [2:35:56<22:02,  2.27s/it, lr: 2.0e-04 loss: 7.695e-02]wan_dewa:  83%|########3 | 2918/3500 [2:35:59<22:02,  2.27s/it, lr: 2.0e-04 loss: 1.913e-01]wan_dewa:  83%|########3 | 2918/3500 [2:35:59<22:02,  2.27s/it, lr: 2.0e-04 loss: 1.913e-01]wan_dewa:  83%|########3 | 2919/3500 [2:35:59<22:02,  2.28s/it, lr: 2.0e-04 loss: 1.913e-01]wan_dewa:  83%|########3 | 2919/3500 [2:35:59<22:02,  2.28s/it, lr: 2.0e-04 loss: 1.913e-01]wan_dewa:  83%|########3 | 2919/3500 [2:36:06<22:02,  2.28s/it, lr: 2.0e-04 loss: 2.439e-02]wan_dewa:  83%|########3 | 2919/3500 [2:36:06<22:02,  2.28s/it, lr: 2.0e-04 loss: 2.439e-02]wan_dewa:  83%|########3 | 2920/3500 [2:36:09<22:00,  2.28s/it, lr: 2.0e-04 loss: 3.115e-02]wan_dewa:  83%|########3 | 2920/3500 [2:36:09<22:00,  2.28s/it, lr: 2.0e-04 loss: 3.115e-02]wan_dewa:  83%|########3 | 2921/3500 [2:36:09<16:56,  1.76s/it, lr: 2.0e-04 loss: 3.115e-02]wan_dewa:  83%|########3 | 2921/3500 [2:36:09<16:56,  1.76s/it, lr: 2.0e-04 loss: 3.115e-02]wan_dewa:  83%|########3 | 2921/3500 [2:36:11<16:56,  1.76s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  83%|########3 | 2921/3500 [2:36:11<16:56,  1.76s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  83%|########3 | 2922/3500 [2:36:11<18:36,  1.93s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  83%|########3 | 2922/3500 [2:36:11<18:36,  1.93s/it, lr: 2.0e-04 loss: 3.830e-02]wan_dewa:  83%|########3 | 2922/3500 [2:36:13<18:36,  1.93s/it, lr: 2.0e-04 loss: 2.723e-02]wan_dewa:  83%|########3 | 2922/3500 [2:36:13<18:36,  1.93s/it, lr: 2.0e-04 loss: 2.723e-02]wan_dewa:  84%|########3 | 2923/3500 [2:36:13<19:26,  2.02s/it, lr: 2.0e-04 loss: 2.723e-02]wan_dewa:  84%|########3 | 2923/3500 [2:36:13<19:26,  2.02s/it, lr: 2.0e-04 loss: 2.723e-02]wan_dewa:  84%|########3 | 2923/3500 [2:36:16<19:26,  2.02s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:  84%|########3 | 2923/3500 [2:36:16<19:26,  2.02s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:  84%|########3 | 2924/3500 [2:36:16<20:03,  2.09s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:  84%|########3 | 2924/3500 [2:36:16<20:03,  2.09s/it, lr: 2.0e-04 loss: 4.227e-02]wan_dewa:  84%|########3 | 2924/3500 [2:36:20<20:03,  2.09s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  84%|########3 | 2924/3500 [2:36:20<20:03,  2.09s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  84%|########3 | 2925/3500 [2:36:20<20:36,  2.15s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  84%|########3 | 2925/3500 [2:36:20<20:36,  2.15s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  84%|########3 | 2925/3500 [2:36:22<20:36,  2.15s/it, lr: 2.0e-04 loss: 2.428e-02]wan_dewa:  84%|########3 | 2925/3500 [2:36:22<20:36,  2.15s/it, lr: 2.0e-04 loss: 2.428e-02]wan_dewa:  84%|########3 | 2926/3500 [2:36:22<20:55,  2.19s/it, lr: 2.0e-04 loss: 2.428e-02]wan_dewa:  84%|########3 | 2926/3500 [2:36:22<20:55,  2.19s/it, lr: 2.0e-04 loss: 2.428e-02]wan_dewa:  84%|########3 | 2926/3500 [2:36:25<20:55,  2.19s/it, lr: 2.0e-04 loss: 3.199e-02]wan_dewa:  84%|########3 | 2926/3500 [2:36:25<20:55,  2.19s/it, lr: 2.0e-04 loss: 3.199e-02]wan_dewa:  84%|########3 | 2927/3500 [2:36:25<21:08,  2.21s/it, lr: 2.0e-04 loss: 3.199e-02]wan_dewa:  84%|########3 | 2927/3500 [2:36:25<21:08,  2.21s/it, lr: 2.0e-04 loss: 3.199e-02]wan_dewa:  84%|########3 | 2927/3500 [2:36:27<21:08,  2.21s/it, lr: 2.0e-04 loss: 3.902e-02]wan_dewa:  84%|########3 | 2927/3500 [2:36:27<21:08,  2.21s/it, lr: 2.0e-04 loss: 3.902e-02]wan_dewa:  84%|########3 | 2928/3500 [2:36:27<22:07,  2.32s/it, lr: 2.0e-04 loss: 3.902e-02]wan_dewa:  84%|########3 | 2928/3500 [2:36:27<22:07,  2.32s/it, lr: 2.0e-04 loss: 3.902e-02]wan_dewa:  84%|########3 | 2928/3500 [2:36:30<22:07,  2.32s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  84%|########3 | 2928/3500 [2:36:30<22:07,  2.32s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  84%|########3 | 2929/3500 [2:36:30<21:58,  2.31s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  84%|########3 | 2929/3500 [2:36:30<21:58,  2.31s/it, lr: 2.0e-04 loss: 3.831e-02]wan_dewa:  84%|########3 | 2929/3500 [2:36:41<21:58,  2.31s/it, lr: 2.0e-04 loss: 1.469e-01]wan_dewa:  84%|########3 | 2929/3500 [2:36:41<21:58,  2.31s/it, lr: 2.0e-04 loss: 1.469e-01]wan_dewa:  84%|########3 | 2930/3500 [2:36:43<21:56,  2.31s/it, lr: 2.0e-04 loss: 3.792e-02]wan_dewa:  84%|########3 | 2930/3500 [2:36:43<21:56,  2.31s/it, lr: 2.0e-04 loss: 3.792e-02]wan_dewa:  84%|########3 | 2931/3500 [2:36:43<16:51,  1.78s/it, lr: 2.0e-04 loss: 3.792e-02]wan_dewa:  84%|########3 | 2931/3500 [2:36:43<16:51,  1.78s/it, lr: 2.0e-04 loss: 3.792e-02]wan_dewa:  84%|########3 | 2931/3500 [2:36:45<16:51,  1.78s/it, lr: 2.0e-04 loss: 8.050e-02]wan_dewa:  84%|########3 | 2931/3500 [2:36:45<16:51,  1.78s/it, lr: 2.0e-04 loss: 8.050e-02]wan_dewa:  84%|########3 | 2932/3500 [2:36:45<18:00,  1.90s/it, lr: 2.0e-04 loss: 8.050e-02]wan_dewa:  84%|########3 | 2932/3500 [2:36:45<18:00,  1.90s/it, lr: 2.0e-04 loss: 8.050e-02]wan_dewa:  84%|########3 | 2932/3500 [2:36:48<18:00,  1.90s/it, lr: 2.0e-04 loss: 5.153e-02]wan_dewa:  84%|########3 | 2932/3500 [2:36:48<18:00,  1.90s/it, lr: 2.0e-04 loss: 5.153e-02]wan_dewa:  84%|########3 | 2933/3500 [2:36:48<19:18,  2.04s/it, lr: 2.0e-04 loss: 5.153e-02]wan_dewa:  84%|########3 | 2933/3500 [2:36:48<19:18,  2.04s/it, lr: 2.0e-04 loss: 5.153e-02]wan_dewa:  84%|########3 | 2933/3500 [2:36:59<19:18,  2.04s/it, lr: 2.0e-04 loss: 4.323e-02]wan_dewa:  84%|########3 | 2933/3500 [2:36:59<19:18,  2.04s/it, lr: 2.0e-04 loss: 4.323e-02]wan_dewa:  84%|########3 | 2934/3500 [2:36:59<42:39,  4.52s/it, lr: 2.0e-04 loss: 4.323e-02]wan_dewa:  84%|########3 | 2934/3500 [2:36:59<42:39,  4.52s/it, lr: 2.0e-04 loss: 4.323e-02]wan_dewa:  84%|########3 | 2934/3500 [2:37:07<42:39,  4.52s/it, lr: 2.0e-04 loss: 6.171e-02]wan_dewa:  84%|########3 | 2934/3500 [2:37:07<42:39,  4.52s/it, lr: 2.0e-04 loss: 6.171e-02]wan_dewa:  84%|########3 | 2935/3500 [2:37:07<50:36,  5.37s/it, lr: 2.0e-04 loss: 6.171e-02]wan_dewa:  84%|########3 | 2935/3500 [2:37:07<50:36,  5.37s/it, lr: 2.0e-04 loss: 6.171e-02]wan_dewa:  84%|########3 | 2935/3500 [2:37:09<50:36,  5.37s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  84%|########3 | 2935/3500 [2:37:09<50:36,  5.37s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  84%|########3 | 2936/3500 [2:37:09<42:15,  4.50s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  84%|########3 | 2936/3500 [2:37:09<42:15,  4.50s/it, lr: 2.0e-04 loss: 5.065e-02]wan_dewa:  84%|########3 | 2936/3500 [2:37:12<42:15,  4.50s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  84%|########3 | 2936/3500 [2:37:12<42:15,  4.50s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  84%|########3 | 2937/3500 [2:37:12<36:58,  3.94s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  84%|########3 | 2937/3500 [2:37:12<36:58,  3.94s/it, lr: 2.0e-04 loss: 8.283e-02]wan_dewa:  84%|########3 | 2937/3500 [2:37:14<36:58,  3.94s/it, lr: 2.0e-04 loss: 8.829e-02]wan_dewa:  84%|########3 | 2937/3500 [2:37:14<36:58,  3.94s/it, lr: 2.0e-04 loss: 8.829e-02]wan_dewa:  84%|########3 | 2938/3500 [2:37:14<32:21,  3.45s/it, lr: 2.0e-04 loss: 8.829e-02]wan_dewa:  84%|########3 | 2938/3500 [2:37:14<32:21,  3.45s/it, lr: 2.0e-04 loss: 8.829e-02]wan_dewa:  84%|########3 | 2938/3500 [2:37:16<32:21,  3.45s/it, lr: 2.0e-04 loss: 2.839e-01]wan_dewa:  84%|########3 | 2938/3500 [2:37:16<32:21,  3.45s/it, lr: 2.0e-04 loss: 2.839e-01]wan_dewa:  84%|########3 | 2939/3500 [2:37:16<29:03,  3.11s/it, lr: 2.0e-04 loss: 2.839e-01]wan_dewa:  84%|########3 | 2939/3500 [2:37:16<29:03,  3.11s/it, lr: 2.0e-04 loss: 2.839e-01]wan_dewa:  84%|########3 | 2939/3500 [2:37:24<29:03,  3.11s/it, lr: 2.0e-04 loss: 2.640e-02]wan_dewa:  84%|########3 | 2939/3500 [2:37:24<29:03,  3.11s/it, lr: 2.0e-04 loss: 2.640e-02]wan_dewa:  84%|########4 | 2940/3500 [2:37:26<29:00,  3.11s/it, lr: 2.0e-04 loss: 2.420e-02]wan_dewa:  84%|########4 | 2940/3500 [2:37:26<29:00,  3.11s/it, lr: 2.0e-04 loss: 2.420e-02]wan_dewa:  84%|########4 | 2941/3500 [2:37:26<20:32,  2.21s/it, lr: 2.0e-04 loss: 2.420e-02]wan_dewa:  84%|########4 | 2941/3500 [2:37:26<20:32,  2.21s/it, lr: 2.0e-04 loss: 2.420e-02]wan_dewa:  84%|########4 | 2941/3500 [2:37:28<20:32,  2.21s/it, lr: 2.0e-04 loss: 2.446e-02]wan_dewa:  84%|########4 | 2941/3500 [2:37:28<20:32,  2.21s/it, lr: 2.0e-04 loss: 2.446e-02]wan_dewa:  84%|########4 | 2942/3500 [2:37:28<20:39,  2.22s/it, lr: 2.0e-04 loss: 2.446e-02]wan_dewa:  84%|########4 | 2942/3500 [2:37:28<20:39,  2.22s/it, lr: 2.0e-04 loss: 2.446e-02]wan_dewa:  84%|########4 | 2942/3500 [2:37:31<20:39,  2.22s/it, lr: 2.0e-04 loss: 3.479e-02]wan_dewa:  84%|########4 | 2942/3500 [2:37:31<20:39,  2.22s/it, lr: 2.0e-04 loss: 3.479e-02]wan_dewa:  84%|########4 | 2943/3500 [2:37:31<21:08,  2.28s/it, lr: 2.0e-04 loss: 3.479e-02]wan_dewa:  84%|########4 | 2943/3500 [2:37:31<21:08,  2.28s/it, lr: 2.0e-04 loss: 3.479e-02]wan_dewa:  84%|########4 | 2943/3500 [2:37:33<21:08,  2.28s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  84%|########4 | 2943/3500 [2:37:33<21:08,  2.28s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  84%|########4 | 2944/3500 [2:37:33<21:05,  2.28s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  84%|########4 | 2944/3500 [2:37:33<21:05,  2.28s/it, lr: 2.0e-04 loss: 3.709e-02]wan_dewa:  84%|########4 | 2944/3500 [2:37:35<21:05,  2.28s/it, lr: 2.0e-04 loss: 1.730e-02]wan_dewa:  84%|########4 | 2944/3500 [2:37:35<21:05,  2.28s/it, lr: 2.0e-04 loss: 1.730e-02]wan_dewa:  84%|########4 | 2945/3500 [2:37:35<21:02,  2.27s/it, lr: 2.0e-04 loss: 1.730e-02]wan_dewa:  84%|########4 | 2945/3500 [2:37:35<21:02,  2.27s/it, lr: 2.0e-04 loss: 1.730e-02]wan_dewa:  84%|########4 | 2945/3500 [2:37:38<21:02,  2.27s/it, lr: 2.0e-04 loss: 3.871e-02]wan_dewa:  84%|########4 | 2945/3500 [2:37:38<21:02,  2.27s/it, lr: 2.0e-04 loss: 3.871e-02]wan_dewa:  84%|########4 | 2946/3500 [2:37:38<20:59,  2.27s/it, lr: 2.0e-04 loss: 3.871e-02]wan_dewa:  84%|########4 | 2946/3500 [2:37:38<20:59,  2.27s/it, lr: 2.0e-04 loss: 3.871e-02]wan_dewa:  84%|########4 | 2946/3500 [2:37:40<20:59,  2.27s/it, lr: 2.0e-04 loss: 3.162e-02]wan_dewa:  84%|########4 | 2946/3500 [2:37:40<20:59,  2.27s/it, lr: 2.0e-04 loss: 3.162e-02]wan_dewa:  84%|########4 | 2947/3500 [2:37:40<20:57,  2.27s/it, lr: 2.0e-04 loss: 3.162e-02]wan_dewa:  84%|########4 | 2947/3500 [2:37:40<20:57,  2.27s/it, lr: 2.0e-04 loss: 3.162e-02]wan_dewa:  84%|########4 | 2947/3500 [2:37:42<20:57,  2.27s/it, lr: 2.0e-04 loss: 3.857e-02]wan_dewa:  84%|########4 | 2947/3500 [2:37:42<20:57,  2.27s/it, lr: 2.0e-04 loss: 3.857e-02]wan_dewa:  84%|########4 | 2948/3500 [2:37:42<21:22,  2.32s/it, lr: 2.0e-04 loss: 3.857e-02]wan_dewa:  84%|########4 | 2948/3500 [2:37:42<21:22,  2.32s/it, lr: 2.0e-04 loss: 3.857e-02]wan_dewa:  84%|########4 | 2948/3500 [2:37:45<21:22,  2.32s/it, lr: 2.0e-04 loss: 3.760e-02]wan_dewa:  84%|########4 | 2948/3500 [2:37:45<21:22,  2.32s/it, lr: 2.0e-04 loss: 3.760e-02]wan_dewa:  84%|########4 | 2949/3500 [2:37:45<21:12,  2.31s/it, lr: 2.0e-04 loss: 3.760e-02]wan_dewa:  84%|########4 | 2949/3500 [2:37:45<21:12,  2.31s/it, lr: 2.0e-04 loss: 3.760e-02]wan_dewa:  84%|########4 | 2949/3500 [2:37:58<21:12,  2.31s/it, lr: 2.0e-04 loss: 2.188e-01]wan_dewa:  84%|########4 | 2949/3500 [2:37:58<21:12,  2.31s/it, lr: 2.0e-04 loss: 2.188e-01]wan_dewa:  84%|########4 | 2950/3500 [2:38:01<21:09,  2.31s/it, lr: 2.0e-04 loss: 2.571e-02]wan_dewa:  84%|########4 | 2950/3500 [2:38:01<21:09,  2.31s/it, lr: 2.0e-04 loss: 2.571e-02]wan_dewa:  84%|########4 | 2951/3500 [2:38:01<16:15,  1.78s/it, lr: 2.0e-04 loss: 2.571e-02]wan_dewa:  84%|########4 | 2951/3500 [2:38:01<16:15,  1.78s/it, lr: 2.0e-04 loss: 2.571e-02]wan_dewa:  84%|########4 | 2951/3500 [2:38:03<16:15,  1.78s/it, lr: 2.0e-04 loss: 3.253e-02]wan_dewa:  84%|########4 | 2951/3500 [2:38:03<16:15,  1.78s/it, lr: 2.0e-04 loss: 3.253e-02]wan_dewa:  84%|########4 | 2952/3500 [2:38:03<17:21,  1.90s/it, lr: 2.0e-04 loss: 3.253e-02]wan_dewa:  84%|########4 | 2952/3500 [2:38:03<17:21,  1.90s/it, lr: 2.0e-04 loss: 3.253e-02]wan_dewa:  84%|########4 | 2952/3500 [2:38:06<17:21,  1.90s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  84%|########4 | 2952/3500 [2:38:06<17:21,  1.90s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  84%|########4 | 2953/3500 [2:38:06<18:56,  2.08s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  84%|########4 | 2953/3500 [2:38:06<18:56,  2.08s/it, lr: 2.0e-04 loss: 5.255e-02]wan_dewa:  84%|########4 | 2953/3500 [2:38:08<18:56,  2.08s/it, lr: 2.0e-04 loss: 6.195e-02]wan_dewa:  84%|########4 | 2953/3500 [2:38:08<18:56,  2.08s/it, lr: 2.0e-04 loss: 6.195e-02]wan_dewa:  84%|########4 | 2954/3500 [2:38:08<19:23,  2.13s/it, lr: 2.0e-04 loss: 6.195e-02]wan_dewa:  84%|########4 | 2954/3500 [2:38:08<19:23,  2.13s/it, lr: 2.0e-04 loss: 6.195e-02]wan_dewa:  84%|########4 | 2954/3500 [2:38:10<19:23,  2.13s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  84%|########4 | 2954/3500 [2:38:10<19:23,  2.13s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  84%|########4 | 2955/3500 [2:38:10<19:42,  2.17s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  84%|########4 | 2955/3500 [2:38:10<19:42,  2.17s/it, lr: 2.0e-04 loss: 4.949e-02]wan_dewa:  84%|########4 | 2955/3500 [2:38:12<19:42,  2.17s/it, lr: 2.0e-04 loss: 2.183e-01]wan_dewa:  84%|########4 | 2955/3500 [2:38:12<19:42,  2.17s/it, lr: 2.0e-04 loss: 2.183e-01]wan_dewa:  84%|########4 | 2956/3500 [2:38:12<19:56,  2.20s/it, lr: 2.0e-04 loss: 2.183e-01]wan_dewa:  84%|########4 | 2956/3500 [2:38:12<19:56,  2.20s/it, lr: 2.0e-04 loss: 2.183e-01]wan_dewa:  84%|########4 | 2956/3500 [2:38:15<19:56,  2.20s/it, lr: 2.0e-04 loss: 6.732e-02]wan_dewa:  84%|########4 | 2956/3500 [2:38:15<19:56,  2.20s/it, lr: 2.0e-04 loss: 6.732e-02]wan_dewa:  84%|########4 | 2957/3500 [2:38:15<20:05,  2.22s/it, lr: 2.0e-04 loss: 6.732e-02]wan_dewa:  84%|########4 | 2957/3500 [2:38:15<20:05,  2.22s/it, lr: 2.0e-04 loss: 6.732e-02]wan_dewa:  84%|########4 | 2957/3500 [2:38:17<20:05,  2.22s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  84%|########4 | 2957/3500 [2:38:17<20:05,  2.22s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  85%|########4 | 2958/3500 [2:38:17<20:11,  2.24s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  85%|########4 | 2958/3500 [2:38:17<20:11,  2.24s/it, lr: 2.0e-04 loss: 4.543e-02]wan_dewa:  85%|########4 | 2958/3500 [2:38:19<20:11,  2.24s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  85%|########4 | 2958/3500 [2:38:19<20:11,  2.24s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  85%|########4 | 2959/3500 [2:38:19<20:44,  2.30s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  85%|########4 | 2959/3500 [2:38:19<20:44,  2.30s/it, lr: 2.0e-04 loss: 6.302e-02]wan_dewa:  85%|########4 | 2959/3500 [2:38:30<20:44,  2.30s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  85%|########4 | 2959/3500 [2:38:30<20:44,  2.30s/it, lr: 2.0e-04 loss: 3.822e-02]wan_dewa:  85%|########4 | 2960/3500 [2:38:33<20:42,  2.30s/it, lr: 2.0e-04 loss: 2.602e-02]wan_dewa:  85%|########4 | 2960/3500 [2:38:33<20:42,  2.30s/it, lr: 2.0e-04 loss: 2.602e-02]wan_dewa:  85%|########4 | 2961/3500 [2:38:33<15:53,  1.77s/it, lr: 2.0e-04 loss: 2.602e-02]wan_dewa:  85%|########4 | 2961/3500 [2:38:33<15:53,  1.77s/it, lr: 2.0e-04 loss: 2.602e-02]wan_dewa:  85%|########4 | 2961/3500 [2:38:35<15:53,  1.77s/it, lr: 2.0e-04 loss: 2.624e-02]wan_dewa:  85%|########4 | 2961/3500 [2:38:35<15:53,  1.77s/it, lr: 2.0e-04 loss: 2.624e-02]wan_dewa:  85%|########4 | 2962/3500 [2:38:35<16:58,  1.89s/it, lr: 2.0e-04 loss: 2.624e-02]wan_dewa:  85%|########4 | 2962/3500 [2:38:35<16:58,  1.89s/it, lr: 2.0e-04 loss: 2.624e-02]wan_dewa:  85%|########4 | 2962/3500 [2:38:37<16:58,  1.89s/it, lr: 2.0e-04 loss: 3.525e-02]wan_dewa:  85%|########4 | 2962/3500 [2:38:37<16:58,  1.89s/it, lr: 2.0e-04 loss: 3.525e-02]wan_dewa:  85%|########4 | 2963/3500 [2:38:37<17:49,  1.99s/it, lr: 2.0e-04 loss: 3.525e-02]wan_dewa:  85%|########4 | 2963/3500 [2:38:37<17:49,  1.99s/it, lr: 2.0e-04 loss: 3.525e-02]wan_dewa:  85%|########4 | 2963/3500 [2:38:40<17:49,  1.99s/it, lr: 2.0e-04 loss: 2.589e-02]wan_dewa:  85%|########4 | 2963/3500 [2:38:40<17:49,  1.99s/it, lr: 2.0e-04 loss: 2.589e-02]wan_dewa:  85%|########4 | 2964/3500 [2:38:40<18:54,  2.12s/it, lr: 2.0e-04 loss: 2.589e-02]wan_dewa:  85%|########4 | 2964/3500 [2:38:40<18:54,  2.12s/it, lr: 2.0e-04 loss: 2.589e-02]wan_dewa:  85%|########4 | 2964/3500 [2:38:42<18:54,  2.12s/it, lr: 2.0e-04 loss: 3.988e-02]wan_dewa:  85%|########4 | 2964/3500 [2:38:42<18:54,  2.12s/it, lr: 2.0e-04 loss: 3.988e-02]wan_dewa:  85%|########4 | 2965/3500 [2:38:42<19:15,  2.16s/it, lr: 2.0e-04 loss: 3.988e-02]wan_dewa:  85%|########4 | 2965/3500 [2:38:42<19:15,  2.16s/it, lr: 2.0e-04 loss: 3.988e-02]wan_dewa:  85%|########4 | 2965/3500 [2:38:44<19:15,  2.16s/it, lr: 2.0e-04 loss: 1.853e-02]wan_dewa:  85%|########4 | 2965/3500 [2:38:44<19:15,  2.16s/it, lr: 2.0e-04 loss: 1.853e-02]wan_dewa:  85%|########4 | 2966/3500 [2:38:44<19:30,  2.19s/it, lr: 2.0e-04 loss: 1.853e-02]wan_dewa:  85%|########4 | 2966/3500 [2:38:44<19:30,  2.19s/it, lr: 2.0e-04 loss: 1.853e-02]wan_dewa:  85%|########4 | 2966/3500 [2:38:46<19:30,  2.19s/it, lr: 2.0e-04 loss: 3.682e-02]wan_dewa:  85%|########4 | 2966/3500 [2:38:46<19:30,  2.19s/it, lr: 2.0e-04 loss: 3.682e-02]wan_dewa:  85%|########4 | 2967/3500 [2:38:46<19:41,  2.22s/it, lr: 2.0e-04 loss: 3.682e-02]wan_dewa:  85%|########4 | 2967/3500 [2:38:46<19:41,  2.22s/it, lr: 2.0e-04 loss: 3.682e-02]wan_dewa:  85%|########4 | 2967/3500 [2:38:49<19:41,  2.22s/it, lr: 2.0e-04 loss: 4.012e-02]wan_dewa:  85%|########4 | 2967/3500 [2:38:49<19:41,  2.22s/it, lr: 2.0e-04 loss: 4.012e-02]wan_dewa:  85%|########4 | 2968/3500 [2:38:49<19:48,  2.23s/it, lr: 2.0e-04 loss: 4.012e-02]wan_dewa:  85%|########4 | 2968/3500 [2:38:49<19:48,  2.23s/it, lr: 2.0e-04 loss: 4.012e-02]wan_dewa:  85%|########4 | 2968/3500 [2:38:51<19:48,  2.23s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  85%|########4 | 2968/3500 [2:38:51<19:48,  2.23s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  85%|########4 | 2969/3500 [2:38:51<20:21,  2.30s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  85%|########4 | 2969/3500 [2:38:51<20:21,  2.30s/it, lr: 2.0e-04 loss: 2.484e-02]wan_dewa:  85%|########4 | 2969/3500 [2:38:59<20:21,  2.30s/it, lr: 2.0e-04 loss: 7.246e-02]wan_dewa:  85%|########4 | 2969/3500 [2:38:59<20:21,  2.30s/it, lr: 2.0e-04 loss: 7.246e-02]wan_dewa:  85%|########4 | 2970/3500 [2:39:01<20:18,  2.30s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  85%|########4 | 2970/3500 [2:39:01<20:18,  2.30s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  85%|########4 | 2971/3500 [2:39:01<15:35,  1.77s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  85%|########4 | 2971/3500 [2:39:01<15:35,  1.77s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  85%|########4 | 2971/3500 [2:39:03<15:35,  1.77s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  85%|########4 | 2971/3500 [2:39:03<15:35,  1.77s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  85%|########4 | 2972/3500 [2:39:03<16:39,  1.89s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  85%|########4 | 2972/3500 [2:39:03<16:39,  1.89s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  85%|########4 | 2972/3500 [2:39:06<16:39,  1.89s/it, lr: 2.0e-04 loss: 6.004e-02]wan_dewa:  85%|########4 | 2972/3500 [2:39:06<16:39,  1.89s/it, lr: 2.0e-04 loss: 6.004e-02]wan_dewa:  85%|########4 | 2973/3500 [2:39:06<17:29,  1.99s/it, lr: 2.0e-04 loss: 6.004e-02]wan_dewa:  85%|########4 | 2973/3500 [2:39:06<17:29,  1.99s/it, lr: 2.0e-04 loss: 6.004e-02]wan_dewa:  85%|########4 | 2973/3500 [2:39:08<17:29,  1.99s/it, lr: 2.0e-04 loss: 2.189e-02]wan_dewa:  85%|########4 | 2973/3500 [2:39:08<17:29,  1.99s/it, lr: 2.0e-04 loss: 2.189e-02]wan_dewa:  85%|########4 | 2974/3500 [2:39:08<18:35,  2.12s/it, lr: 2.0e-04 loss: 2.189e-02]wan_dewa:  85%|########4 | 2974/3500 [2:39:08<18:35,  2.12s/it, lr: 2.0e-04 loss: 2.189e-02]wan_dewa:  85%|########4 | 2974/3500 [2:39:13<18:35,  2.12s/it, lr: 2.0e-04 loss: 3.932e-02]wan_dewa:  85%|########4 | 2974/3500 [2:39:13<18:35,  2.12s/it, lr: 2.0e-04 loss: 3.932e-02]wan_dewa:  85%|########5 | 2975/3500 [2:39:13<19:01,  2.17s/it, lr: 2.0e-04 loss: 3.932e-02]wan_dewa:  85%|########5 | 2975/3500 [2:39:13<19:01,  2.17s/it, lr: 2.0e-04 loss: 3.932e-02]wan_dewa:  85%|########5 | 2975/3500 [2:39:15<19:01,  2.17s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:  85%|########5 | 2975/3500 [2:39:15<19:01,  2.17s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:  85%|########5 | 2976/3500 [2:39:15<19:16,  2.21s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:  85%|########5 | 2976/3500 [2:39:15<19:16,  2.21s/it, lr: 2.0e-04 loss: 1.379e-01]wan_dewa:  85%|########5 | 2976/3500 [2:39:17<19:16,  2.21s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  85%|########5 | 2976/3500 [2:39:17<19:16,  2.21s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  85%|########5 | 2977/3500 [2:39:17<19:26,  2.23s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  85%|########5 | 2977/3500 [2:39:17<19:26,  2.23s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  85%|########5 | 2977/3500 [2:39:20<19:26,  2.23s/it, lr: 2.0e-04 loss: 5.113e-02]wan_dewa:  85%|########5 | 2977/3500 [2:39:20<19:26,  2.23s/it, lr: 2.0e-04 loss: 5.113e-02]wan_dewa:  85%|########5 | 2978/3500 [2:39:20<19:33,  2.25s/it, lr: 2.0e-04 loss: 5.113e-02]wan_dewa:  85%|########5 | 2978/3500 [2:39:20<19:33,  2.25s/it, lr: 2.0e-04 loss: 5.113e-02]wan_dewa:  85%|########5 | 2978/3500 [2:39:22<19:33,  2.25s/it, lr: 2.0e-04 loss: 5.784e-02]wan_dewa:  85%|########5 | 2978/3500 [2:39:22<19:33,  2.25s/it, lr: 2.0e-04 loss: 5.784e-02]wan_dewa:  85%|########5 | 2979/3500 [2:39:22<19:36,  2.26s/it, lr: 2.0e-04 loss: 5.784e-02]wan_dewa:  85%|########5 | 2979/3500 [2:39:22<19:36,  2.26s/it, lr: 2.0e-04 loss: 5.784e-02]wan_dewa:  85%|########5 | 2979/3500 [2:39:33<19:36,  2.26s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  85%|########5 | 2979/3500 [2:39:33<19:36,  2.26s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  85%|########5 | 2980/3500 [2:39:35<19:34,  2.26s/it, lr: 2.0e-04 loss: 2.272e-02]wan_dewa:  85%|########5 | 2980/3500 [2:39:35<19:34,  2.26s/it, lr: 2.0e-04 loss: 2.272e-02]wan_dewa:  85%|########5 | 2981/3500 [2:39:35<15:07,  1.75s/it, lr: 2.0e-04 loss: 2.272e-02]wan_dewa:  85%|########5 | 2981/3500 [2:39:35<15:07,  1.75s/it, lr: 2.0e-04 loss: 2.272e-02]wan_dewa:  85%|########5 | 2981/3500 [2:39:38<15:07,  1.75s/it, lr: 2.0e-04 loss: 3.090e-02]wan_dewa:  85%|########5 | 2981/3500 [2:39:38<15:07,  1.75s/it, lr: 2.0e-04 loss: 3.090e-02]wan_dewa:  85%|########5 | 2982/3500 [2:39:38<16:12,  1.88s/it, lr: 2.0e-04 loss: 3.090e-02]wan_dewa:  85%|########5 | 2982/3500 [2:39:38<16:12,  1.88s/it, lr: 2.0e-04 loss: 3.090e-02]wan_dewa:  85%|########5 | 2982/3500 [2:39:40<16:12,  1.88s/it, lr: 2.0e-04 loss: 2.466e-02]wan_dewa:  85%|########5 | 2982/3500 [2:39:40<16:12,  1.88s/it, lr: 2.0e-04 loss: 2.466e-02]wan_dewa:  85%|########5 | 2983/3500 [2:39:40<17:03,  1.98s/it, lr: 2.0e-04 loss: 2.466e-02]wan_dewa:  85%|########5 | 2983/3500 [2:39:40<17:03,  1.98s/it, lr: 2.0e-04 loss: 2.466e-02]wan_dewa:  85%|########5 | 2983/3500 [2:39:42<17:03,  1.98s/it, lr: 2.0e-04 loss: 2.129e-02]wan_dewa:  85%|########5 | 2983/3500 [2:39:42<17:03,  1.98s/it, lr: 2.0e-04 loss: 2.129e-02]wan_dewa:  85%|########5 | 2984/3500 [2:39:42<17:42,  2.06s/it, lr: 2.0e-04 loss: 2.129e-02]wan_dewa:  85%|########5 | 2984/3500 [2:39:42<17:42,  2.06s/it, lr: 2.0e-04 loss: 2.129e-02]wan_dewa:  85%|########5 | 2984/3500 [2:39:45<17:42,  2.06s/it, lr: 2.0e-04 loss: 3.612e-02]wan_dewa:  85%|########5 | 2984/3500 [2:39:45<17:42,  2.06s/it, lr: 2.0e-04 loss: 3.612e-02]wan_dewa:  85%|########5 | 2985/3500 [2:39:45<18:39,  2.17s/it, lr: 2.0e-04 loss: 3.612e-02]wan_dewa:  85%|########5 | 2985/3500 [2:39:45<18:39,  2.17s/it, lr: 2.0e-04 loss: 3.612e-02]wan_dewa:  85%|########5 | 2985/3500 [2:39:47<18:39,  2.17s/it, lr: 2.0e-04 loss: 3.650e-02]wan_dewa:  85%|########5 | 2985/3500 [2:39:47<18:39,  2.17s/it, lr: 2.0e-04 loss: 3.650e-02]wan_dewa:  85%|########5 | 2986/3500 [2:39:47<18:52,  2.20s/it, lr: 2.0e-04 loss: 3.650e-02]wan_dewa:  85%|########5 | 2986/3500 [2:39:47<18:52,  2.20s/it, lr: 2.0e-04 loss: 3.650e-02]wan_dewa:  85%|########5 | 2986/3500 [2:39:49<18:52,  2.20s/it, lr: 2.0e-04 loss: 3.975e-02]wan_dewa:  85%|########5 | 2986/3500 [2:39:49<18:52,  2.20s/it, lr: 2.0e-04 loss: 3.975e-02]wan_dewa:  85%|########5 | 2987/3500 [2:39:49<19:00,  2.22s/it, lr: 2.0e-04 loss: 3.975e-02]wan_dewa:  85%|########5 | 2987/3500 [2:39:49<19:00,  2.22s/it, lr: 2.0e-04 loss: 3.975e-02]wan_dewa:  85%|########5 | 2987/3500 [2:39:52<19:00,  2.22s/it, lr: 2.0e-04 loss: 4.440e-02]wan_dewa:  85%|########5 | 2987/3500 [2:39:52<19:00,  2.22s/it, lr: 2.0e-04 loss: 4.440e-02]wan_dewa:  85%|########5 | 2988/3500 [2:39:52<19:06,  2.24s/it, lr: 2.0e-04 loss: 4.440e-02]wan_dewa:  85%|########5 | 2988/3500 [2:39:52<19:06,  2.24s/it, lr: 2.0e-04 loss: 4.440e-02]wan_dewa:  85%|########5 | 2988/3500 [2:39:54<19:06,  2.24s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  85%|########5 | 2988/3500 [2:39:54<19:06,  2.24s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  85%|########5 | 2989/3500 [2:39:54<19:10,  2.25s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  85%|########5 | 2989/3500 [2:39:54<19:10,  2.25s/it, lr: 2.0e-04 loss: 3.766e-02]wan_dewa:  85%|########5 | 2989/3500 [2:40:05<19:10,  2.25s/it, lr: 2.0e-04 loss: 3.344e-02]wan_dewa:  85%|########5 | 2989/3500 [2:40:05<19:10,  2.25s/it, lr: 2.0e-04 loss: 3.344e-02]wan_dewa:  85%|########5 | 2990/3500 [2:40:07<19:07,  2.25s/it, lr: 2.0e-04 loss: 7.071e-02]wan_dewa:  85%|########5 | 2990/3500 [2:40:07<19:07,  2.25s/it, lr: 2.0e-04 loss: 7.071e-02]wan_dewa:  85%|########5 | 2991/3500 [2:40:07<14:46,  1.74s/it, lr: 2.0e-04 loss: 7.071e-02]wan_dewa:  85%|########5 | 2991/3500 [2:40:07<14:46,  1.74s/it, lr: 2.0e-04 loss: 7.071e-02]wan_dewa:  85%|########5 | 2991/3500 [2:40:10<14:46,  1.74s/it, lr: 2.0e-04 loss: 4.337e-02]wan_dewa:  85%|########5 | 2991/3500 [2:40:10<14:46,  1.74s/it, lr: 2.0e-04 loss: 4.337e-02]wan_dewa:  85%|########5 | 2992/3500 [2:40:10<15:51,  1.87s/it, lr: 2.0e-04 loss: 4.337e-02]wan_dewa:  85%|########5 | 2992/3500 [2:40:10<15:51,  1.87s/it, lr: 2.0e-04 loss: 4.337e-02]wan_dewa:  85%|########5 | 2992/3500 [2:40:12<15:51,  1.87s/it, lr: 2.0e-04 loss: 6.892e-02]wan_dewa:  85%|########5 | 2992/3500 [2:40:12<15:51,  1.87s/it, lr: 2.0e-04 loss: 6.892e-02]wan_dewa:  86%|########5 | 2993/3500 [2:40:12<16:41,  1.98s/it, lr: 2.0e-04 loss: 6.892e-02]wan_dewa:  86%|########5 | 2993/3500 [2:40:12<16:41,  1.98s/it, lr: 2.0e-04 loss: 6.892e-02]wan_dewa:  86%|########5 | 2993/3500 [2:40:14<16:41,  1.98s/it, lr: 2.0e-04 loss: 5.133e-02]wan_dewa:  86%|########5 | 2993/3500 [2:40:14<16:41,  1.98s/it, lr: 2.0e-04 loss: 5.133e-02]wan_dewa:  86%|########5 | 2994/3500 [2:40:14<17:20,  2.06s/it, lr: 2.0e-04 loss: 5.133e-02]wan_dewa:  86%|########5 | 2994/3500 [2:40:14<17:20,  2.06s/it, lr: 2.0e-04 loss: 5.133e-02]wan_dewa:  86%|########5 | 2994/3500 [2:40:17<17:20,  2.06s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  86%|########5 | 2994/3500 [2:40:17<17:20,  2.06s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  86%|########5 | 2995/3500 [2:40:17<18:18,  2.18s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  86%|########5 | 2995/3500 [2:40:17<18:18,  2.18s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  86%|########5 | 2995/3500 [2:40:19<18:18,  2.18s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  86%|########5 | 2995/3500 [2:40:19<18:18,  2.18s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  86%|########5 | 2996/3500 [2:40:19<18:31,  2.20s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  86%|########5 | 2996/3500 [2:40:19<18:31,  2.20s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  86%|########5 | 2996/3500 [2:40:21<18:31,  2.20s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  86%|########5 | 2996/3500 [2:40:21<18:31,  2.20s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  86%|########5 | 2997/3500 [2:40:21<18:39,  2.23s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  86%|########5 | 2997/3500 [2:40:21<18:39,  2.23s/it, lr: 2.0e-04 loss: 1.313e-01]wan_dewa:  86%|########5 | 2997/3500 [2:40:23<18:39,  2.23s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  86%|########5 | 2997/3500 [2:40:23<18:39,  2.23s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  86%|########5 | 2998/3500 [2:40:23<18:44,  2.24s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  86%|########5 | 2998/3500 [2:40:23<18:44,  2.24s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  86%|########5 | 2998/3500 [2:40:26<18:44,  2.24s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  86%|########5 | 2998/3500 [2:40:26<18:44,  2.24s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  86%|########5 | 2999/3500 [2:40:26<18:47,  2.25s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  86%|########5 | 2999/3500 [2:40:26<18:47,  2.25s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  86%|########5 | 2999/3500 [2:40:39<18:47,  2.25s/it, lr: 2.0e-04 loss: 2.354e-02]wan_dewa:  86%|########5 | 2999/3500 [2:40:39<18:47,  2.25s/it, lr: 2.0e-04 loss: 2.354e-02]
+Saving at step 3000
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000003000.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000500_high_noise.safetensors
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000500_low_noise.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.60s/it] 12%|#2        | 3/25 [00:13<01:41,  4.60s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:39,  6.23s/it] 36%|###6      | 9/25 [00:46<01:39,  6.23s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.74s/it] 40%|####      | 10/25 [00:51<01:26,  5.74s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:55<01:15,  5.39s/it] 44%|####4     | 11/25 [00:55<01:15,  5.39s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.16s/it] 48%|####8     | 12/25 [01:00<01:07,  5.16s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.81s/it] 60%|######    | 15/25 [01:14<00:48,  4.81s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.76s/it] 64%|######4   | 16/25 [01:19<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.72s/it] 68%|######8   | 17/25 [01:23<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.68s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.67s/it] 84%|########4 | 21/25 [01:42<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:13,  4.66s/it] 88%|########8 | 22/25 [01:46<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.66s/it]100%|##########| 25/25 [02:00<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.84s/it]100%|##########| 25/25 [02:00<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.24s/it]Generating Images:  25%|##5       | 1/4 [02:16<06:48, 136.24s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.64s/it]  8%|8         | 2/25 [00:09<01:46,  4.64s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.65s/it] 20%|##        | 5/25 [00:23<01:33,  4.65s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.72s/it] 36%|###6      | 9/25 [00:45<01:31,  5.72s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:20,  5.39s/it] 40%|####      | 10/25 [00:49<01:20,  5.39s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.16s/it] 44%|####4     | 11/25 [00:54<01:12,  5.16s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.26s/it]Generating Images:  50%|#####     | 2/4 [04:22<04:20, 130.26s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.67s/it] 12%|#2        | 3/25 [00:13<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.68s/it] 28%|##8       | 7/25 [00:32<01:24,  4.68s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.60s/it] 36%|###6      | 9/25 [00:45<01:29,  5.60s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.31s/it] 40%|####      | 10/25 [00:49<01:19,  5.31s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.11s/it] 44%|####4     | 11/25 [00:54<01:11,  5.11s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.98s/it] 48%|####8     | 12/25 [00:59<01:04,  4.98s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.69s/it] 96%|#########6| 24/25 [01:55<00:04,  4.69s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.69s/it]100%|##########| 25/25 [01:59<00:00,  4.69s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:27<02:07, 128.00s/it]Generating Images:  75%|#######5  | 3/4 [06:27<02:07, 128.00s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.67s/it]  4%|4         | 1/25 [00:04<01:51,  4.67s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.67s/it]  8%|8         | 2/25 [00:09<01:47,  4.67s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:42,  4.67s/it] 12%|#2        | 3/25 [00:14<01:42,  4.67s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.68s/it] 20%|##        | 5/25 [00:23<01:33,  4.68s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.68s/it] 24%|##4       | 6/25 [00:28<01:28,  4.68s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.68s/it] 28%|##8       | 7/25 [00:32<01:24,  4.68s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.62s/it] 36%|###6      | 9/25 [00:45<01:29,  5.62s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.32s/it] 40%|####      | 10/25 [00:49<01:19,  5.32s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.12s/it] 44%|####4     | 11/25 [00:54<01:11,  5.12s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.99s/it] 48%|####8     | 12/25 [00:59<01:04,  4.99s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 126.99s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 126.99s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  86%|########5 | 3000/3500 [2:40:43<18:45,  2.25s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  86%|########5 | 3000/3500 [2:40:43<18:45,  2.25s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  86%|########5 | 3001/3500 [2:40:43<17:49,  2.14s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  86%|########5 | 3001/3500 [2:40:43<17:49,  2.14s/it, lr: 2.0e-04 loss: 6.103e-02]wan_dewa:  86%|########5 | 3001/3500 [2:40:46<17:49,  2.14s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  86%|########5 | 3001/3500 [2:40:46<17:49,  2.14s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  86%|########5 | 3002/3500 [2:40:46<18:06,  2.18s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  86%|########5 | 3002/3500 [2:40:46<18:06,  2.18s/it, lr: 2.0e-04 loss: 3.732e-02]wan_dewa:  86%|########5 | 3002/3500 [2:40:48<18:06,  2.18s/it, lr: 2.0e-04 loss: 2.385e-02]wan_dewa:  86%|########5 | 3002/3500 [2:40:48<18:06,  2.18s/it, lr: 2.0e-04 loss: 2.385e-02]wan_dewa:  86%|########5 | 3003/3500 [2:40:48<18:20,  2.21s/it, lr: 2.0e-04 loss: 2.385e-02]wan_dewa:  86%|########5 | 3003/3500 [2:40:48<18:20,  2.21s/it, lr: 2.0e-04 loss: 2.385e-02]wan_dewa:  86%|########5 | 3003/3500 [2:40:50<18:20,  2.21s/it, lr: 2.0e-04 loss: 4.347e-02]wan_dewa:  86%|########5 | 3003/3500 [2:40:50<18:20,  2.21s/it, lr: 2.0e-04 loss: 4.347e-02]wan_dewa:  86%|########5 | 3004/3500 [2:40:50<18:30,  2.24s/it, lr: 2.0e-04 loss: 4.347e-02]wan_dewa:  86%|########5 | 3004/3500 [2:40:50<18:30,  2.24s/it, lr: 2.0e-04 loss: 4.347e-02]wan_dewa:  86%|########5 | 3004/3500 [2:40:53<18:30,  2.24s/it, lr: 2.0e-04 loss: 2.122e-02]wan_dewa:  86%|########5 | 3004/3500 [2:40:53<18:30,  2.24s/it, lr: 2.0e-04 loss: 2.122e-02]wan_dewa:  86%|########5 | 3005/3500 [2:40:53<19:14,  2.33s/it, lr: 2.0e-04 loss: 2.122e-02]wan_dewa:  86%|########5 | 3005/3500 [2:40:53<19:14,  2.33s/it, lr: 2.0e-04 loss: 2.122e-02]wan_dewa:  86%|########5 | 3005/3500 [2:40:55<19:14,  2.33s/it, lr: 2.0e-04 loss: 2.623e-02]wan_dewa:  86%|########5 | 3005/3500 [2:40:55<19:14,  2.33s/it, lr: 2.0e-04 loss: 2.623e-02]wan_dewa:  86%|########5 | 3006/3500 [2:40:55<19:09,  2.33s/it, lr: 2.0e-04 loss: 2.623e-02]wan_dewa:  86%|########5 | 3006/3500 [2:40:55<19:09,  2.33s/it, lr: 2.0e-04 loss: 2.623e-02]wan_dewa:  86%|########5 | 3006/3500 [2:40:57<19:09,  2.33s/it, lr: 2.0e-04 loss: 5.019e-02]wan_dewa:  86%|########5 | 3006/3500 [2:40:57<19:09,  2.33s/it, lr: 2.0e-04 loss: 5.019e-02]wan_dewa:  86%|########5 | 3007/3500 [2:40:57<19:04,  2.32s/it, lr: 2.0e-04 loss: 5.019e-02]wan_dewa:  86%|########5 | 3007/3500 [2:40:57<19:04,  2.32s/it, lr: 2.0e-04 loss: 5.019e-02]wan_dewa:  86%|########5 | 3007/3500 [2:41:00<19:04,  2.32s/it, lr: 2.0e-04 loss: 3.477e-02]wan_dewa:  86%|########5 | 3007/3500 [2:41:00<19:04,  2.32s/it, lr: 2.0e-04 loss: 3.477e-02]wan_dewa:  86%|########5 | 3008/3500 [2:41:00<18:59,  2.32s/it, lr: 2.0e-04 loss: 3.477e-02]wan_dewa:  86%|########5 | 3008/3500 [2:41:00<18:59,  2.32s/it, lr: 2.0e-04 loss: 3.477e-02]wan_dewa:  86%|########5 | 3008/3500 [2:41:02<18:59,  2.32s/it, lr: 2.0e-04 loss: 3.711e-02]wan_dewa:  86%|########5 | 3008/3500 [2:41:02<18:59,  2.32s/it, lr: 2.0e-04 loss: 3.711e-02]wan_dewa:  86%|########5 | 3009/3500 [2:41:02<18:56,  2.31s/it, lr: 2.0e-04 loss: 3.711e-02]wan_dewa:  86%|########5 | 3009/3500 [2:41:02<18:56,  2.31s/it, lr: 2.0e-04 loss: 3.711e-02]wan_dewa:  86%|########5 | 3009/3500 [2:41:08<18:56,  2.31s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  86%|########5 | 3009/3500 [2:41:08<18:56,  2.31s/it, lr: 2.0e-04 loss: 6.940e-02]wan_dewa:  86%|########6 | 3010/3500 [2:41:10<18:54,  2.31s/it, lr: 2.0e-04 loss: 4.667e-02]wan_dewa:  86%|########6 | 3010/3500 [2:41:10<18:54,  2.31s/it, lr: 2.0e-04 loss: 4.667e-02]wan_dewa:  86%|########6 | 3011/3500 [2:41:10<14:53,  1.83s/it, lr: 2.0e-04 loss: 4.667e-02]wan_dewa:  86%|########6 | 3011/3500 [2:41:10<14:53,  1.83s/it, lr: 2.0e-04 loss: 4.667e-02]wan_dewa:  86%|########6 | 3011/3500 [2:41:12<14:53,  1.83s/it, lr: 2.0e-04 loss: 6.061e-02]wan_dewa:  86%|########6 | 3011/3500 [2:41:12<14:53,  1.83s/it, lr: 2.0e-04 loss: 6.061e-02]wan_dewa:  86%|########6 | 3012/3500 [2:41:12<15:48,  1.94s/it, lr: 2.0e-04 loss: 6.061e-02]wan_dewa:  86%|########6 | 3012/3500 [2:41:12<15:48,  1.94s/it, lr: 2.0e-04 loss: 6.061e-02]wan_dewa:  86%|########6 | 3012/3500 [2:41:15<15:48,  1.94s/it, lr: 2.0e-04 loss: 2.867e-02]wan_dewa:  86%|########6 | 3012/3500 [2:41:15<15:48,  1.94s/it, lr: 2.0e-04 loss: 2.867e-02]wan_dewa:  86%|########6 | 3013/3500 [2:41:15<16:31,  2.04s/it, lr: 2.0e-04 loss: 2.867e-02]wan_dewa:  86%|########6 | 3013/3500 [2:41:15<16:31,  2.04s/it, lr: 2.0e-04 loss: 2.867e-02]wan_dewa:  86%|########6 | 3013/3500 [2:41:17<16:31,  2.04s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  86%|########6 | 3013/3500 [2:41:17<16:31,  2.04s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  86%|########6 | 3014/3500 [2:41:17<17:04,  2.11s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  86%|########6 | 3014/3500 [2:41:17<17:04,  2.11s/it, lr: 2.0e-04 loss: 1.080e-01]wan_dewa:  86%|########6 | 3014/3500 [2:41:19<17:04,  2.11s/it, lr: 2.0e-04 loss: 7.443e-02]wan_dewa:  86%|########6 | 3014/3500 [2:41:19<17:04,  2.11s/it, lr: 2.0e-04 loss: 7.443e-02]wan_dewa:  86%|########6 | 3015/3500 [2:41:19<17:29,  2.16s/it, lr: 2.0e-04 loss: 7.443e-02]wan_dewa:  86%|########6 | 3015/3500 [2:41:19<17:29,  2.16s/it, lr: 2.0e-04 loss: 7.443e-02]wan_dewa:  86%|########6 | 3015/3500 [2:41:22<17:29,  2.16s/it, lr: 2.0e-04 loss: 7.576e-02]wan_dewa:  86%|########6 | 3015/3500 [2:41:22<17:29,  2.16s/it, lr: 2.0e-04 loss: 7.576e-02]wan_dewa:  86%|########6 | 3016/3500 [2:41:22<18:11,  2.26s/it, lr: 2.0e-04 loss: 7.576e-02]wan_dewa:  86%|########6 | 3016/3500 [2:41:22<18:11,  2.26s/it, lr: 2.0e-04 loss: 7.576e-02]wan_dewa:  86%|########6 | 3016/3500 [2:41:24<18:11,  2.26s/it, lr: 2.0e-04 loss: 3.217e-02]wan_dewa:  86%|########6 | 3016/3500 [2:41:24<18:11,  2.26s/it, lr: 2.0e-04 loss: 3.217e-02]wan_dewa:  86%|########6 | 3017/3500 [2:41:24<18:16,  2.27s/it, lr: 2.0e-04 loss: 3.217e-02]wan_dewa:  86%|########6 | 3017/3500 [2:41:24<18:16,  2.27s/it, lr: 2.0e-04 loss: 3.217e-02]wan_dewa:  86%|########6 | 3017/3500 [2:41:26<18:16,  2.27s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  86%|########6 | 3017/3500 [2:41:26<18:16,  2.27s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  86%|########6 | 3018/3500 [2:41:26<18:19,  2.28s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  86%|########6 | 3018/3500 [2:41:26<18:19,  2.28s/it, lr: 2.0e-04 loss: 3.627e-02]wan_dewa:  86%|########6 | 3018/3500 [2:41:29<18:19,  2.28s/it, lr: 2.0e-04 loss: 5.536e-01]wan_dewa:  86%|########6 | 3018/3500 [2:41:29<18:19,  2.28s/it, lr: 2.0e-04 loss: 5.536e-01]wan_dewa:  86%|########6 | 3019/3500 [2:41:29<18:20,  2.29s/it, lr: 2.0e-04 loss: 5.536e-01]wan_dewa:  86%|########6 | 3019/3500 [2:41:29<18:20,  2.29s/it, lr: 2.0e-04 loss: 5.536e-01]wan_dewa:  86%|########6 | 3019/3500 [2:41:34<18:20,  2.29s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  86%|########6 | 3019/3500 [2:41:34<18:20,  2.29s/it, lr: 2.0e-04 loss: 3.823e-02]wan_dewa:  86%|########6 | 3020/3500 [2:41:37<18:18,  2.29s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  86%|########6 | 3020/3500 [2:41:37<18:18,  2.29s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  86%|########6 | 3021/3500 [2:41:37<14:28,  1.81s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  86%|########6 | 3021/3500 [2:41:37<14:28,  1.81s/it, lr: 2.0e-04 loss: 4.029e-02]wan_dewa:  86%|########6 | 3021/3500 [2:41:39<14:28,  1.81s/it, lr: 2.0e-04 loss: 5.261e-02]wan_dewa:  86%|########6 | 3021/3500 [2:41:39<14:28,  1.81s/it, lr: 2.0e-04 loss: 5.261e-02]wan_dewa:  86%|########6 | 3022/3500 [2:41:39<15:24,  1.93s/it, lr: 2.0e-04 loss: 5.261e-02]wan_dewa:  86%|########6 | 3022/3500 [2:41:39<15:24,  1.93s/it, lr: 2.0e-04 loss: 5.261e-02]wan_dewa:  86%|########6 | 3022/3500 [2:41:42<15:24,  1.93s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  86%|########6 | 3022/3500 [2:41:42<15:24,  1.93s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  86%|########6 | 3023/3500 [2:41:42<16:08,  2.03s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  86%|########6 | 3023/3500 [2:41:42<16:08,  2.03s/it, lr: 2.0e-04 loss: 6.072e-02]wan_dewa:  86%|########6 | 3023/3500 [2:41:44<16:08,  2.03s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  86%|########6 | 3023/3500 [2:41:44<16:08,  2.03s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  86%|########6 | 3024/3500 [2:41:44<16:41,  2.10s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  86%|########6 | 3024/3500 [2:41:44<16:41,  2.10s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  86%|########6 | 3024/3500 [2:41:49<16:41,  2.10s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  86%|########6 | 3024/3500 [2:41:49<16:41,  2.10s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  86%|########6 | 3025/3500 [2:41:49<17:09,  2.17s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  86%|########6 | 3025/3500 [2:41:49<17:09,  2.17s/it, lr: 2.0e-04 loss: 5.396e-02]wan_dewa:  86%|########6 | 3025/3500 [2:41:51<17:09,  2.17s/it, lr: 2.0e-04 loss: 2.236e-02]wan_dewa:  86%|########6 | 3025/3500 [2:41:51<17:09,  2.17s/it, lr: 2.0e-04 loss: 2.236e-02]wan_dewa:  86%|########6 | 3026/3500 [2:41:51<17:25,  2.20s/it, lr: 2.0e-04 loss: 2.236e-02]wan_dewa:  86%|########6 | 3026/3500 [2:41:51<17:25,  2.20s/it, lr: 2.0e-04 loss: 2.236e-02]wan_dewa:  86%|########6 | 3026/3500 [2:41:54<17:25,  2.20s/it, lr: 2.0e-04 loss: 3.037e-02]wan_dewa:  86%|########6 | 3026/3500 [2:41:54<17:25,  2.20s/it, lr: 2.0e-04 loss: 3.037e-02]wan_dewa:  86%|########6 | 3027/3500 [2:41:54<18:22,  2.33s/it, lr: 2.0e-04 loss: 3.037e-02]wan_dewa:  86%|########6 | 3027/3500 [2:41:54<18:22,  2.33s/it, lr: 2.0e-04 loss: 3.037e-02]wan_dewa:  86%|########6 | 3027/3500 [2:41:56<18:22,  2.33s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  86%|########6 | 3027/3500 [2:41:56<18:22,  2.33s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  87%|########6 | 3028/3500 [2:41:56<18:15,  2.32s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  87%|########6 | 3028/3500 [2:41:56<18:15,  2.32s/it, lr: 2.0e-04 loss: 3.788e-02]wan_dewa:  87%|########6 | 3028/3500 [2:41:58<18:15,  2.32s/it, lr: 2.0e-04 loss: 2.772e-02]wan_dewa:  87%|########6 | 3028/3500 [2:41:58<18:15,  2.32s/it, lr: 2.0e-04 loss: 2.772e-02]wan_dewa:  87%|########6 | 3029/3500 [2:41:58<18:10,  2.31s/it, lr: 2.0e-04 loss: 2.772e-02]wan_dewa:  87%|########6 | 3029/3500 [2:41:58<18:10,  2.31s/it, lr: 2.0e-04 loss: 2.772e-02]wan_dewa:  87%|########6 | 3029/3500 [2:42:10<18:10,  2.31s/it, lr: 2.0e-04 loss: 4.802e-01]wan_dewa:  87%|########6 | 3029/3500 [2:42:10<18:10,  2.31s/it, lr: 2.0e-04 loss: 4.802e-01]wan_dewa:  87%|########6 | 3030/3500 [2:42:12<18:07,  2.31s/it, lr: 2.0e-04 loss: 2.517e-02]wan_dewa:  87%|########6 | 3030/3500 [2:42:12<18:07,  2.31s/it, lr: 2.0e-04 loss: 2.517e-02]wan_dewa:  87%|########6 | 3031/3500 [2:42:12<13:56,  1.78s/it, lr: 2.0e-04 loss: 2.517e-02]wan_dewa:  87%|########6 | 3031/3500 [2:42:12<13:56,  1.78s/it, lr: 2.0e-04 loss: 2.517e-02]wan_dewa:  87%|########6 | 3031/3500 [2:42:15<13:56,  1.78s/it, lr: 2.0e-04 loss: 4.363e-02]wan_dewa:  87%|########6 | 3031/3500 [2:42:15<13:56,  1.78s/it, lr: 2.0e-04 loss: 4.363e-02]wan_dewa:  87%|########6 | 3032/3500 [2:42:15<15:18,  1.96s/it, lr: 2.0e-04 loss: 4.363e-02]wan_dewa:  87%|########6 | 3032/3500 [2:42:15<15:18,  1.96s/it, lr: 2.0e-04 loss: 4.363e-02]wan_dewa:  87%|########6 | 3032/3500 [2:42:17<15:18,  1.96s/it, lr: 2.0e-04 loss: 4.674e-02]wan_dewa:  87%|########6 | 3032/3500 [2:42:17<15:18,  1.96s/it, lr: 2.0e-04 loss: 4.674e-02]wan_dewa:  87%|########6 | 3033/3500 [2:42:17<15:56,  2.05s/it, lr: 2.0e-04 loss: 4.674e-02]wan_dewa:  87%|########6 | 3033/3500 [2:42:17<15:56,  2.05s/it, lr: 2.0e-04 loss: 4.674e-02]wan_dewa:  87%|########6 | 3033/3500 [2:42:19<15:56,  2.05s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  87%|########6 | 3033/3500 [2:42:19<15:56,  2.05s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  87%|########6 | 3034/3500 [2:42:19<16:25,  2.11s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  87%|########6 | 3034/3500 [2:42:19<16:25,  2.11s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  87%|########6 | 3034/3500 [2:42:21<16:25,  2.11s/it, lr: 2.0e-04 loss: 5.887e-02]wan_dewa:  87%|########6 | 3034/3500 [2:42:21<16:25,  2.11s/it, lr: 2.0e-04 loss: 5.887e-02]wan_dewa:  87%|########6 | 3035/3500 [2:42:21<16:46,  2.16s/it, lr: 2.0e-04 loss: 5.887e-02]wan_dewa:  87%|########6 | 3035/3500 [2:42:21<16:46,  2.16s/it, lr: 2.0e-04 loss: 5.887e-02]wan_dewa:  87%|########6 | 3035/3500 [2:42:24<16:46,  2.16s/it, lr: 2.0e-04 loss: 9.958e-02]wan_dewa:  87%|########6 | 3035/3500 [2:42:24<16:46,  2.16s/it, lr: 2.0e-04 loss: 9.958e-02]wan_dewa:  87%|########6 | 3036/3500 [2:42:24<17:01,  2.20s/it, lr: 2.0e-04 loss: 9.958e-02]wan_dewa:  87%|########6 | 3036/3500 [2:42:24<17:01,  2.20s/it, lr: 2.0e-04 loss: 9.958e-02]wan_dewa:  87%|########6 | 3036/3500 [2:42:26<17:01,  2.20s/it, lr: 2.0e-04 loss: 1.992e-01]wan_dewa:  87%|########6 | 3036/3500 [2:42:26<17:01,  2.20s/it, lr: 2.0e-04 loss: 1.992e-01]wan_dewa:  87%|########6 | 3037/3500 [2:42:26<17:40,  2.29s/it, lr: 2.0e-04 loss: 1.992e-01]wan_dewa:  87%|########6 | 3037/3500 [2:42:26<17:40,  2.29s/it, lr: 2.0e-04 loss: 1.992e-01]wan_dewa:  87%|########6 | 3037/3500 [2:42:28<17:40,  2.29s/it, lr: 2.0e-04 loss: 4.817e-02]wan_dewa:  87%|########6 | 3037/3500 [2:42:28<17:40,  2.29s/it, lr: 2.0e-04 loss: 4.817e-02]wan_dewa:  87%|########6 | 3038/3500 [2:42:28<17:38,  2.29s/it, lr: 2.0e-04 loss: 4.817e-02]wan_dewa:  87%|########6 | 3038/3500 [2:42:28<17:38,  2.29s/it, lr: 2.0e-04 loss: 4.817e-02]wan_dewa:  87%|########6 | 3038/3500 [2:42:31<17:38,  2.29s/it, lr: 2.0e-04 loss: 3.413e-02]wan_dewa:  87%|########6 | 3038/3500 [2:42:31<17:38,  2.29s/it, lr: 2.0e-04 loss: 3.413e-02]wan_dewa:  87%|########6 | 3039/3500 [2:42:31<17:36,  2.29s/it, lr: 2.0e-04 loss: 3.413e-02]wan_dewa:  87%|########6 | 3039/3500 [2:42:31<17:36,  2.29s/it, lr: 2.0e-04 loss: 3.413e-02]wan_dewa:  87%|########6 | 3039/3500 [2:42:42<17:36,  2.29s/it, lr: 2.0e-04 loss: 3.847e-02]wan_dewa:  87%|########6 | 3039/3500 [2:42:42<17:36,  2.29s/it, lr: 2.0e-04 loss: 3.847e-02]wan_dewa:  87%|########6 | 3040/3500 [2:42:44<17:34,  2.29s/it, lr: 2.0e-04 loss: 4.408e-02]wan_dewa:  87%|########6 | 3040/3500 [2:42:44<17:34,  2.29s/it, lr: 2.0e-04 loss: 4.408e-02]wan_dewa:  87%|########6 | 3041/3500 [2:42:44<13:30,  1.77s/it, lr: 2.0e-04 loss: 4.408e-02]wan_dewa:  87%|########6 | 3041/3500 [2:42:44<13:30,  1.77s/it, lr: 2.0e-04 loss: 4.408e-02]wan_dewa:  87%|########6 | 3041/3500 [2:42:47<13:30,  1.77s/it, lr: 2.0e-04 loss: 4.299e-02]wan_dewa:  87%|########6 | 3041/3500 [2:42:47<13:30,  1.77s/it, lr: 2.0e-04 loss: 4.299e-02]wan_dewa:  87%|########6 | 3042/3500 [2:42:47<14:53,  1.95s/it, lr: 2.0e-04 loss: 4.299e-02]wan_dewa:  87%|########6 | 3042/3500 [2:42:47<14:53,  1.95s/it, lr: 2.0e-04 loss: 4.299e-02]wan_dewa:  87%|########6 | 3042/3500 [2:42:49<14:53,  1.95s/it, lr: 2.0e-04 loss: 3.754e-02]wan_dewa:  87%|########6 | 3042/3500 [2:42:49<14:53,  1.95s/it, lr: 2.0e-04 loss: 3.754e-02]wan_dewa:  87%|########6 | 3043/3500 [2:42:49<15:30,  2.04s/it, lr: 2.0e-04 loss: 3.754e-02]wan_dewa:  87%|########6 | 3043/3500 [2:42:49<15:30,  2.04s/it, lr: 2.0e-04 loss: 3.754e-02]wan_dewa:  87%|########6 | 3043/3500 [2:42:51<15:30,  2.04s/it, lr: 2.0e-04 loss: 3.041e-02]wan_dewa:  87%|########6 | 3043/3500 [2:42:51<15:30,  2.04s/it, lr: 2.0e-04 loss: 3.041e-02]wan_dewa:  87%|########6 | 3044/3500 [2:42:51<15:59,  2.10s/it, lr: 2.0e-04 loss: 3.041e-02]wan_dewa:  87%|########6 | 3044/3500 [2:42:51<15:59,  2.10s/it, lr: 2.0e-04 loss: 3.041e-02]wan_dewa:  87%|########6 | 3044/3500 [2:42:54<15:59,  2.10s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  87%|########6 | 3044/3500 [2:42:54<15:59,  2.10s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  87%|########7 | 3045/3500 [2:42:54<16:20,  2.15s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  87%|########7 | 3045/3500 [2:42:54<16:20,  2.15s/it, lr: 2.0e-04 loss: 4.070e-02]wan_dewa:  87%|########7 | 3045/3500 [2:42:56<16:20,  2.15s/it, lr: 2.0e-04 loss: 2.582e-02]wan_dewa:  87%|########7 | 3045/3500 [2:42:56<16:20,  2.15s/it, lr: 2.0e-04 loss: 2.582e-02]wan_dewa:  87%|########7 | 3046/3500 [2:42:56<16:35,  2.19s/it, lr: 2.0e-04 loss: 2.582e-02]wan_dewa:  87%|########7 | 3046/3500 [2:42:56<16:35,  2.19s/it, lr: 2.0e-04 loss: 2.582e-02]wan_dewa:  87%|########7 | 3046/3500 [2:42:58<16:35,  2.19s/it, lr: 2.0e-04 loss: 3.698e-02]wan_dewa:  87%|########7 | 3046/3500 [2:42:58<16:35,  2.19s/it, lr: 2.0e-04 loss: 3.698e-02]wan_dewa:  87%|########7 | 3047/3500 [2:42:58<16:46,  2.22s/it, lr: 2.0e-04 loss: 3.698e-02]wan_dewa:  87%|########7 | 3047/3500 [2:42:58<16:46,  2.22s/it, lr: 2.0e-04 loss: 3.698e-02]wan_dewa:  87%|########7 | 3047/3500 [2:43:01<16:46,  2.22s/it, lr: 2.0e-04 loss: 2.684e-02]wan_dewa:  87%|########7 | 3047/3500 [2:43:01<16:46,  2.22s/it, lr: 2.0e-04 loss: 2.684e-02]wan_dewa:  87%|########7 | 3048/3500 [2:43:01<17:21,  2.30s/it, lr: 2.0e-04 loss: 2.684e-02]wan_dewa:  87%|########7 | 3048/3500 [2:43:01<17:21,  2.30s/it, lr: 2.0e-04 loss: 2.684e-02]wan_dewa:  87%|########7 | 3048/3500 [2:43:03<17:21,  2.30s/it, lr: 2.0e-04 loss: 5.312e-02]wan_dewa:  87%|########7 | 3048/3500 [2:43:03<17:21,  2.30s/it, lr: 2.0e-04 loss: 5.312e-02]wan_dewa:  87%|########7 | 3049/3500 [2:43:03<17:17,  2.30s/it, lr: 2.0e-04 loss: 5.312e-02]wan_dewa:  87%|########7 | 3049/3500 [2:43:03<17:17,  2.30s/it, lr: 2.0e-04 loss: 5.312e-02]wan_dewa:  87%|########7 | 3049/3500 [2:43:17<17:17,  2.30s/it, lr: 2.0e-04 loss: 6.144e-02]wan_dewa:  87%|########7 | 3049/3500 [2:43:17<17:17,  2.30s/it, lr: 2.0e-04 loss: 6.144e-02]wan_dewa:  87%|########7 | 3050/3500 [2:43:19<17:14,  2.30s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  87%|########7 | 3050/3500 [2:43:19<17:14,  2.30s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  87%|########7 | 3051/3500 [2:43:19<13:16,  1.77s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  87%|########7 | 3051/3500 [2:43:19<13:16,  1.77s/it, lr: 2.0e-04 loss: 6.352e-02]wan_dewa:  87%|########7 | 3051/3500 [2:43:21<13:16,  1.77s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  87%|########7 | 3051/3500 [2:43:21<13:16,  1.77s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  87%|########7 | 3052/3500 [2:43:21<14:10,  1.90s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  87%|########7 | 3052/3500 [2:43:21<14:10,  1.90s/it, lr: 2.0e-04 loss: 4.622e-02]wan_dewa:  87%|########7 | 3052/3500 [2:43:24<14:10,  1.90s/it, lr: 2.0e-04 loss: 2.296e-01]wan_dewa:  87%|########7 | 3052/3500 [2:43:24<14:10,  1.90s/it, lr: 2.0e-04 loss: 2.296e-01]wan_dewa:  87%|########7 | 3053/3500 [2:43:24<15:29,  2.08s/it, lr: 2.0e-04 loss: 2.296e-01]wan_dewa:  87%|########7 | 3053/3500 [2:43:24<15:29,  2.08s/it, lr: 2.0e-04 loss: 2.296e-01]wan_dewa:  87%|########7 | 3053/3500 [2:43:26<15:29,  2.08s/it, lr: 2.0e-04 loss: 5.571e-02]wan_dewa:  87%|########7 | 3053/3500 [2:43:26<15:29,  2.08s/it, lr: 2.0e-04 loss: 5.571e-02]wan_dewa:  87%|########7 | 3054/3500 [2:43:26<15:51,  2.13s/it, lr: 2.0e-04 loss: 5.571e-02]wan_dewa:  87%|########7 | 3054/3500 [2:43:26<15:51,  2.13s/it, lr: 2.0e-04 loss: 5.571e-02]wan_dewa:  87%|########7 | 3054/3500 [2:43:29<15:51,  2.13s/it, lr: 2.0e-04 loss: 2.922e-02]wan_dewa:  87%|########7 | 3054/3500 [2:43:29<15:51,  2.13s/it, lr: 2.0e-04 loss: 2.922e-02]wan_dewa:  87%|########7 | 3055/3500 [2:43:29<16:07,  2.17s/it, lr: 2.0e-04 loss: 2.922e-02]wan_dewa:  87%|########7 | 3055/3500 [2:43:29<16:07,  2.17s/it, lr: 2.0e-04 loss: 2.922e-02]wan_dewa:  87%|########7 | 3055/3500 [2:43:31<16:07,  2.17s/it, lr: 2.0e-04 loss: 5.961e-02]wan_dewa:  87%|########7 | 3055/3500 [2:43:31<16:07,  2.17s/it, lr: 2.0e-04 loss: 5.961e-02]wan_dewa:  87%|########7 | 3056/3500 [2:43:31<16:19,  2.21s/it, lr: 2.0e-04 loss: 5.961e-02]wan_dewa:  87%|########7 | 3056/3500 [2:43:31<16:19,  2.21s/it, lr: 2.0e-04 loss: 5.961e-02]wan_dewa:  87%|########7 | 3056/3500 [2:43:33<16:19,  2.21s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  87%|########7 | 3056/3500 [2:43:33<16:19,  2.21s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  87%|########7 | 3057/3500 [2:43:33<16:26,  2.23s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  87%|########7 | 3057/3500 [2:43:33<16:26,  2.23s/it, lr: 2.0e-04 loss: 3.534e-02]wan_dewa:  87%|########7 | 3057/3500 [2:43:36<16:26,  2.23s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  87%|########7 | 3057/3500 [2:43:36<16:26,  2.23s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  87%|########7 | 3058/3500 [2:43:36<16:57,  2.30s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  87%|########7 | 3058/3500 [2:43:36<16:57,  2.30s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  87%|########7 | 3058/3500 [2:43:38<16:57,  2.30s/it, lr: 2.0e-04 loss: 4.314e-02]wan_dewa:  87%|########7 | 3058/3500 [2:43:38<16:57,  2.30s/it, lr: 2.0e-04 loss: 4.314e-02]wan_dewa:  87%|########7 | 3059/3500 [2:43:38<16:52,  2.30s/it, lr: 2.0e-04 loss: 4.314e-02]wan_dewa:  87%|########7 | 3059/3500 [2:43:38<16:52,  2.30s/it, lr: 2.0e-04 loss: 4.314e-02]wan_dewa:  87%|########7 | 3059/3500 [2:43:49<16:52,  2.30s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  87%|########7 | 3059/3500 [2:43:49<16:52,  2.30s/it, lr: 2.0e-04 loss: 3.423e-02]wan_dewa:  87%|########7 | 3060/3500 [2:43:51<16:50,  2.30s/it, lr: 2.0e-04 loss: 3.828e-02]wan_dewa:  87%|########7 | 3060/3500 [2:43:51<16:50,  2.30s/it, lr: 2.0e-04 loss: 3.828e-02]wan_dewa:  87%|########7 | 3061/3500 [2:43:51<12:56,  1.77s/it, lr: 2.0e-04 loss: 3.828e-02]wan_dewa:  87%|########7 | 3061/3500 [2:43:51<12:56,  1.77s/it, lr: 2.0e-04 loss: 3.828e-02]wan_dewa:  87%|########7 | 3061/3500 [2:43:54<12:56,  1.77s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  87%|########7 | 3061/3500 [2:43:54<12:56,  1.77s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  87%|########7 | 3062/3500 [2:43:54<13:49,  1.89s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  87%|########7 | 3062/3500 [2:43:54<13:49,  1.89s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  87%|########7 | 3062/3500 [2:43:56<13:49,  1.89s/it, lr: 2.0e-04 loss: 4.102e-02]wan_dewa:  87%|########7 | 3062/3500 [2:43:56<13:49,  1.89s/it, lr: 2.0e-04 loss: 4.102e-02]wan_dewa:  88%|########7 | 3063/3500 [2:43:56<14:53,  2.05s/it, lr: 2.0e-04 loss: 4.102e-02]wan_dewa:  88%|########7 | 3063/3500 [2:43:56<14:53,  2.05s/it, lr: 2.0e-04 loss: 4.102e-02]wan_dewa:  88%|########7 | 3063/3500 [2:43:58<14:53,  2.05s/it, lr: 2.0e-04 loss: 2.017e-02]wan_dewa:  88%|########7 | 3063/3500 [2:43:58<14:53,  2.05s/it, lr: 2.0e-04 loss: 2.017e-02]wan_dewa:  88%|########7 | 3064/3500 [2:43:58<15:19,  2.11s/it, lr: 2.0e-04 loss: 2.017e-02]wan_dewa:  88%|########7 | 3064/3500 [2:43:58<15:19,  2.11s/it, lr: 2.0e-04 loss: 2.017e-02]wan_dewa:  88%|########7 | 3064/3500 [2:44:01<15:19,  2.11s/it, lr: 2.0e-04 loss: 4.203e-02]wan_dewa:  88%|########7 | 3064/3500 [2:44:01<15:19,  2.11s/it, lr: 2.0e-04 loss: 4.203e-02]wan_dewa:  88%|########7 | 3065/3500 [2:44:01<15:38,  2.16s/it, lr: 2.0e-04 loss: 4.203e-02]wan_dewa:  88%|########7 | 3065/3500 [2:44:01<15:38,  2.16s/it, lr: 2.0e-04 loss: 4.203e-02]wan_dewa:  88%|########7 | 3065/3500 [2:44:03<15:38,  2.16s/it, lr: 2.0e-04 loss: 3.290e-02]wan_dewa:  88%|########7 | 3065/3500 [2:44:03<15:38,  2.16s/it, lr: 2.0e-04 loss: 3.290e-02]wan_dewa:  88%|########7 | 3066/3500 [2:44:03<15:51,  2.19s/it, lr: 2.0e-04 loss: 3.290e-02]wan_dewa:  88%|########7 | 3066/3500 [2:44:03<15:51,  2.19s/it, lr: 2.0e-04 loss: 3.290e-02]wan_dewa:  88%|########7 | 3066/3500 [2:44:05<15:51,  2.19s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  88%|########7 | 3066/3500 [2:44:05<15:51,  2.19s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  88%|########7 | 3067/3500 [2:44:05<15:59,  2.22s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  88%|########7 | 3067/3500 [2:44:05<15:59,  2.22s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  88%|########7 | 3067/3500 [2:44:07<15:59,  2.22s/it, lr: 2.0e-04 loss: 4.477e-02]wan_dewa:  88%|########7 | 3067/3500 [2:44:07<15:59,  2.22s/it, lr: 2.0e-04 loss: 4.477e-02]wan_dewa:  88%|########7 | 3068/3500 [2:44:07<16:06,  2.24s/it, lr: 2.0e-04 loss: 4.477e-02]wan_dewa:  88%|########7 | 3068/3500 [2:44:07<16:06,  2.24s/it, lr: 2.0e-04 loss: 4.477e-02]wan_dewa:  88%|########7 | 3068/3500 [2:44:10<16:06,  2.24s/it, lr: 2.0e-04 loss: 4.862e-02]wan_dewa:  88%|########7 | 3068/3500 [2:44:10<16:06,  2.24s/it, lr: 2.0e-04 loss: 4.862e-02]wan_dewa:  88%|########7 | 3069/3500 [2:44:10<16:35,  2.31s/it, lr: 2.0e-04 loss: 4.862e-02]wan_dewa:  88%|########7 | 3069/3500 [2:44:10<16:35,  2.31s/it, lr: 2.0e-04 loss: 4.862e-02]wan_dewa:  88%|########7 | 3069/3500 [2:44:18<16:35,  2.31s/it, lr: 2.0e-04 loss: 6.322e-02]wan_dewa:  88%|########7 | 3069/3500 [2:44:18<16:35,  2.31s/it, lr: 2.0e-04 loss: 6.322e-02]wan_dewa:  88%|########7 | 3070/3500 [2:44:20<16:32,  2.31s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  88%|########7 | 3070/3500 [2:44:20<16:32,  2.31s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  88%|########7 | 3071/3500 [2:44:20<12:41,  1.78s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  88%|########7 | 3071/3500 [2:44:20<12:41,  1.78s/it, lr: 2.0e-04 loss: 8.199e-02]wan_dewa:  88%|########7 | 3071/3500 [2:44:22<12:41,  1.78s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  88%|########7 | 3071/3500 [2:44:22<12:41,  1.78s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  88%|########7 | 3072/3500 [2:44:22<13:32,  1.90s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  88%|########7 | 3072/3500 [2:44:22<13:32,  1.90s/it, lr: 2.0e-04 loss: 4.787e-02]wan_dewa:  88%|########7 | 3072/3500 [2:44:24<13:32,  1.90s/it, lr: 2.0e-04 loss: 5.737e-02]wan_dewa:  88%|########7 | 3072/3500 [2:44:24<13:32,  1.90s/it, lr: 2.0e-04 loss: 5.737e-02]wan_dewa:  88%|########7 | 3073/3500 [2:44:24<14:13,  2.00s/it, lr: 2.0e-04 loss: 5.737e-02]wan_dewa:  88%|########7 | 3073/3500 [2:44:24<14:13,  2.00s/it, lr: 2.0e-04 loss: 5.737e-02]wan_dewa:  88%|########7 | 3073/3500 [2:44:27<14:13,  2.00s/it, lr: 2.0e-04 loss: 3.717e-01]wan_dewa:  88%|########7 | 3073/3500 [2:44:27<14:13,  2.00s/it, lr: 2.0e-04 loss: 3.717e-01]wan_dewa:  88%|########7 | 3074/3500 [2:44:27<15:06,  2.13s/it, lr: 2.0e-04 loss: 3.717e-01]wan_dewa:  88%|########7 | 3074/3500 [2:44:27<15:06,  2.13s/it, lr: 2.0e-04 loss: 3.717e-01]wan_dewa:  88%|########7 | 3074/3500 [2:44:31<15:06,  2.13s/it, lr: 2.0e-04 loss: 5.616e-01]wan_dewa:  88%|########7 | 3074/3500 [2:44:31<15:06,  2.13s/it, lr: 2.0e-04 loss: 5.616e-01]wan_dewa:  88%|########7 | 3075/3500 [2:44:31<15:26,  2.18s/it, lr: 2.0e-04 loss: 5.616e-01]wan_dewa:  88%|########7 | 3075/3500 [2:44:31<15:26,  2.18s/it, lr: 2.0e-04 loss: 5.616e-01]wan_dewa:  88%|########7 | 3075/3500 [2:44:34<15:26,  2.18s/it, lr: 2.0e-04 loss: 4.168e-02]wan_dewa:  88%|########7 | 3075/3500 [2:44:34<15:26,  2.18s/it, lr: 2.0e-04 loss: 4.168e-02]wan_dewa:  88%|########7 | 3076/3500 [2:44:34<15:35,  2.21s/it, lr: 2.0e-04 loss: 4.168e-02]wan_dewa:  88%|########7 | 3076/3500 [2:44:34<15:35,  2.21s/it, lr: 2.0e-04 loss: 4.168e-02]wan_dewa:  88%|########7 | 3076/3500 [2:44:36<15:35,  2.21s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  88%|########7 | 3076/3500 [2:44:36<15:35,  2.21s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  88%|########7 | 3077/3500 [2:44:36<15:42,  2.23s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  88%|########7 | 3077/3500 [2:44:36<15:42,  2.23s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  88%|########7 | 3077/3500 [2:44:38<15:42,  2.23s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  88%|########7 | 3077/3500 [2:44:38<15:42,  2.23s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  88%|########7 | 3078/3500 [2:44:38<15:46,  2.24s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  88%|########7 | 3078/3500 [2:44:38<15:46,  2.24s/it, lr: 2.0e-04 loss: 7.474e-02]wan_dewa:  88%|########7 | 3078/3500 [2:44:41<15:46,  2.24s/it, lr: 2.0e-04 loss: 4.251e-02]wan_dewa:  88%|########7 | 3078/3500 [2:44:41<15:46,  2.24s/it, lr: 2.0e-04 loss: 4.251e-02]wan_dewa:  88%|########7 | 3079/3500 [2:44:41<16:31,  2.35s/it, lr: 2.0e-04 loss: 4.251e-02]wan_dewa:  88%|########7 | 3079/3500 [2:44:41<16:31,  2.35s/it, lr: 2.0e-04 loss: 4.251e-02]wan_dewa:  88%|########7 | 3079/3500 [2:44:52<16:31,  2.35s/it, lr: 2.0e-04 loss: 3.993e-02]wan_dewa:  88%|########7 | 3079/3500 [2:44:52<16:31,  2.35s/it, lr: 2.0e-04 loss: 3.993e-02]wan_dewa:  88%|########8 | 3080/3500 [2:44:55<16:29,  2.35s/it, lr: 2.0e-04 loss: 6.686e-02]wan_dewa:  88%|########8 | 3080/3500 [2:44:55<16:29,  2.35s/it, lr: 2.0e-04 loss: 6.686e-02]wan_dewa:  88%|########8 | 3081/3500 [2:44:55<12:33,  1.80s/it, lr: 2.0e-04 loss: 6.686e-02]wan_dewa:  88%|########8 | 3081/3500 [2:44:55<12:33,  1.80s/it, lr: 2.0e-04 loss: 6.686e-02]wan_dewa:  88%|########8 | 3081/3500 [2:44:57<12:33,  1.80s/it, lr: 2.0e-04 loss: 3.939e-02]wan_dewa:  88%|########8 | 3081/3500 [2:44:57<12:33,  1.80s/it, lr: 2.0e-04 loss: 3.939e-02]wan_dewa:  88%|########8 | 3082/3500 [2:44:57<13:20,  1.92s/it, lr: 2.0e-04 loss: 3.939e-02]wan_dewa:  88%|########8 | 3082/3500 [2:44:57<13:20,  1.92s/it, lr: 2.0e-04 loss: 3.939e-02]wan_dewa:  88%|########8 | 3082/3500 [2:44:59<13:20,  1.92s/it, lr: 2.0e-04 loss: 3.294e-02]wan_dewa:  88%|########8 | 3082/3500 [2:44:59<13:20,  1.92s/it, lr: 2.0e-04 loss: 3.294e-02]wan_dewa:  88%|########8 | 3083/3500 [2:44:59<13:57,  2.01s/it, lr: 2.0e-04 loss: 3.294e-02]wan_dewa:  88%|########8 | 3083/3500 [2:44:59<13:57,  2.01s/it, lr: 2.0e-04 loss: 3.294e-02]wan_dewa:  88%|########8 | 3083/3500 [2:45:02<13:57,  2.01s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  88%|########8 | 3083/3500 [2:45:02<13:57,  2.01s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  88%|########8 | 3084/3500 [2:45:02<14:50,  2.14s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  88%|########8 | 3084/3500 [2:45:02<14:50,  2.14s/it, lr: 2.0e-04 loss: 3.216e-02]wan_dewa:  88%|########8 | 3084/3500 [2:45:04<14:50,  2.14s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  88%|########8 | 3084/3500 [2:45:04<14:50,  2.14s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  88%|########8 | 3085/3500 [2:45:04<15:03,  2.18s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  88%|########8 | 3085/3500 [2:45:04<15:03,  2.18s/it, lr: 2.0e-04 loss: 3.088e-02]wan_dewa:  88%|########8 | 3085/3500 [2:45:06<15:03,  2.18s/it, lr: 2.0e-04 loss: 4.846e-02]wan_dewa:  88%|########8 | 3085/3500 [2:45:06<15:03,  2.18s/it, lr: 2.0e-04 loss: 4.846e-02]wan_dewa:  88%|########8 | 3086/3500 [2:45:06<15:13,  2.21s/it, lr: 2.0e-04 loss: 4.846e-02]wan_dewa:  88%|########8 | 3086/3500 [2:45:06<15:13,  2.21s/it, lr: 2.0e-04 loss: 4.846e-02]wan_dewa:  88%|########8 | 3086/3500 [2:45:08<15:13,  2.21s/it, lr: 2.0e-04 loss: 3.411e-02]wan_dewa:  88%|########8 | 3086/3500 [2:45:08<15:13,  2.21s/it, lr: 2.0e-04 loss: 3.411e-02]wan_dewa:  88%|########8 | 3087/3500 [2:45:09<15:19,  2.23s/it, lr: 2.0e-04 loss: 3.411e-02]wan_dewa:  88%|########8 | 3087/3500 [2:45:09<15:19,  2.23s/it, lr: 2.0e-04 loss: 3.411e-02]wan_dewa:  88%|########8 | 3087/3500 [2:45:11<15:19,  2.23s/it, lr: 2.0e-04 loss: 2.736e-02]wan_dewa:  88%|########8 | 3087/3500 [2:45:11<15:19,  2.23s/it, lr: 2.0e-04 loss: 2.736e-02]wan_dewa:  88%|########8 | 3088/3500 [2:45:11<15:23,  2.24s/it, lr: 2.0e-04 loss: 2.736e-02]wan_dewa:  88%|########8 | 3088/3500 [2:45:11<15:23,  2.24s/it, lr: 2.0e-04 loss: 2.736e-02]wan_dewa:  88%|########8 | 3088/3500 [2:45:13<15:23,  2.24s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  88%|########8 | 3088/3500 [2:45:13<15:23,  2.24s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  88%|########8 | 3089/3500 [2:45:13<15:53,  2.32s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  88%|########8 | 3089/3500 [2:45:13<15:53,  2.32s/it, lr: 2.0e-04 loss: 2.034e-02]wan_dewa:  88%|########8 | 3089/3500 [2:45:25<15:53,  2.32s/it, lr: 2.0e-04 loss: 4.796e-02]wan_dewa:  88%|########8 | 3089/3500 [2:45:25<15:53,  2.32s/it, lr: 2.0e-04 loss: 4.796e-02]wan_dewa:  88%|########8 | 3090/3500 [2:45:27<15:51,  2.32s/it, lr: 2.0e-04 loss: 1.878e-01]wan_dewa:  88%|########8 | 3090/3500 [2:45:27<15:51,  2.32s/it, lr: 2.0e-04 loss: 1.878e-01]wan_dewa:  88%|########8 | 3091/3500 [2:45:27<12:09,  1.78s/it, lr: 2.0e-04 loss: 1.878e-01]wan_dewa:  88%|########8 | 3091/3500 [2:45:27<12:09,  1.78s/it, lr: 2.0e-04 loss: 1.878e-01]wan_dewa:  88%|########8 | 3091/3500 [2:45:29<12:09,  1.78s/it, lr: 2.0e-04 loss: 6.145e-01]wan_dewa:  88%|########8 | 3091/3500 [2:45:29<12:09,  1.78s/it, lr: 2.0e-04 loss: 6.145e-01]wan_dewa:  88%|########8 | 3092/3500 [2:45:29<12:57,  1.91s/it, lr: 2.0e-04 loss: 6.145e-01]wan_dewa:  88%|########8 | 3092/3500 [2:45:29<12:57,  1.91s/it, lr: 2.0e-04 loss: 6.145e-01]wan_dewa:  88%|########8 | 3092/3500 [2:45:31<12:57,  1.91s/it, lr: 2.0e-04 loss: 4.996e-02]wan_dewa:  88%|########8 | 3092/3500 [2:45:31<12:57,  1.91s/it, lr: 2.0e-04 loss: 4.996e-02]wan_dewa:  88%|########8 | 3093/3500 [2:45:31<13:36,  2.01s/it, lr: 2.0e-04 loss: 4.996e-02]wan_dewa:  88%|########8 | 3093/3500 [2:45:31<13:36,  2.01s/it, lr: 2.0e-04 loss: 4.996e-02]wan_dewa:  88%|########8 | 3093/3500 [2:45:34<13:36,  2.01s/it, lr: 2.0e-04 loss: 2.278e-02]wan_dewa:  88%|########8 | 3093/3500 [2:45:34<13:36,  2.01s/it, lr: 2.0e-04 loss: 2.278e-02]wan_dewa:  88%|########8 | 3094/3500 [2:45:34<14:29,  2.14s/it, lr: 2.0e-04 loss: 2.278e-02]wan_dewa:  88%|########8 | 3094/3500 [2:45:34<14:29,  2.14s/it, lr: 2.0e-04 loss: 2.278e-02]wan_dewa:  88%|########8 | 3094/3500 [2:45:36<14:29,  2.14s/it, lr: 2.0e-04 loss: 2.648e-02]wan_dewa:  88%|########8 | 3094/3500 [2:45:36<14:29,  2.14s/it, lr: 2.0e-04 loss: 2.648e-02]wan_dewa:  88%|########8 | 3095/3500 [2:45:36<14:44,  2.18s/it, lr: 2.0e-04 loss: 2.648e-02]wan_dewa:  88%|########8 | 3095/3500 [2:45:36<14:44,  2.18s/it, lr: 2.0e-04 loss: 2.648e-02]wan_dewa:  88%|########8 | 3095/3500 [2:45:38<14:44,  2.18s/it, lr: 2.0e-04 loss: 5.938e-02]wan_dewa:  88%|########8 | 3095/3500 [2:45:38<14:44,  2.18s/it, lr: 2.0e-04 loss: 5.938e-02]wan_dewa:  88%|########8 | 3096/3500 [2:45:38<14:54,  2.21s/it, lr: 2.0e-04 loss: 5.938e-02]wan_dewa:  88%|########8 | 3096/3500 [2:45:38<14:54,  2.21s/it, lr: 2.0e-04 loss: 5.938e-02]wan_dewa:  88%|########8 | 3096/3500 [2:45:41<14:54,  2.21s/it, lr: 2.0e-04 loss: 3.261e-01]wan_dewa:  88%|########8 | 3096/3500 [2:45:41<14:54,  2.21s/it, lr: 2.0e-04 loss: 3.261e-01]wan_dewa:  88%|########8 | 3097/3500 [2:45:41<15:00,  2.23s/it, lr: 2.0e-04 loss: 3.261e-01]wan_dewa:  88%|########8 | 3097/3500 [2:45:41<15:00,  2.23s/it, lr: 2.0e-04 loss: 3.261e-01]wan_dewa:  88%|########8 | 3097/3500 [2:45:43<15:00,  2.23s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  88%|########8 | 3097/3500 [2:45:43<15:00,  2.23s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  89%|########8 | 3098/3500 [2:45:43<15:04,  2.25s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  89%|########8 | 3098/3500 [2:45:43<15:04,  2.25s/it, lr: 2.0e-04 loss: 1.304e-01]wan_dewa:  89%|########8 | 3098/3500 [2:45:45<15:04,  2.25s/it, lr: 2.0e-04 loss: 4.816e-02]wan_dewa:  89%|########8 | 3098/3500 [2:45:45<15:04,  2.25s/it, lr: 2.0e-04 loss: 4.816e-02]wan_dewa:  89%|########8 | 3099/3500 [2:45:45<15:07,  2.26s/it, lr: 2.0e-04 loss: 4.816e-02]wan_dewa:  89%|########8 | 3099/3500 [2:45:45<15:07,  2.26s/it, lr: 2.0e-04 loss: 4.816e-02]wan_dewa:  89%|########8 | 3099/3500 [2:45:59<15:07,  2.26s/it, lr: 2.0e-04 loss: 3.177e-02]wan_dewa:  89%|########8 | 3099/3500 [2:45:59<15:07,  2.26s/it, lr: 2.0e-04 loss: 3.177e-02]wan_dewa:  89%|########8 | 3100/3500 [2:46:01<15:05,  2.26s/it, lr: 2.0e-04 loss: 4.068e-02]wan_dewa:  89%|########8 | 3100/3500 [2:46:01<15:05,  2.26s/it, lr: 2.0e-04 loss: 4.068e-02]wan_dewa:  89%|########8 | 3101/3500 [2:46:01<11:39,  1.75s/it, lr: 2.0e-04 loss: 4.068e-02]wan_dewa:  89%|########8 | 3101/3500 [2:46:01<11:39,  1.75s/it, lr: 2.0e-04 loss: 4.068e-02]wan_dewa:  89%|########8 | 3101/3500 [2:46:03<11:39,  1.75s/it, lr: 2.0e-04 loss: 4.077e-02]wan_dewa:  89%|########8 | 3101/3500 [2:46:03<11:39,  1.75s/it, lr: 2.0e-04 loss: 4.077e-02]wan_dewa:  89%|########8 | 3102/3500 [2:46:03<12:29,  1.88s/it, lr: 2.0e-04 loss: 4.077e-02]wan_dewa:  89%|########8 | 3102/3500 [2:46:03<12:29,  1.88s/it, lr: 2.0e-04 loss: 4.077e-02]wan_dewa:  89%|########8 | 3102/3500 [2:46:06<12:29,  1.88s/it, lr: 2.0e-04 loss: 2.358e-02]wan_dewa:  89%|########8 | 3102/3500 [2:46:06<12:29,  1.88s/it, lr: 2.0e-04 loss: 2.358e-02]wan_dewa:  89%|########8 | 3103/3500 [2:46:06<13:07,  1.98s/it, lr: 2.0e-04 loss: 2.358e-02]wan_dewa:  89%|########8 | 3103/3500 [2:46:06<13:07,  1.98s/it, lr: 2.0e-04 loss: 2.358e-02]wan_dewa:  89%|########8 | 3103/3500 [2:46:08<13:07,  1.98s/it, lr: 2.0e-04 loss: 2.311e-02]wan_dewa:  89%|########8 | 3103/3500 [2:46:08<13:07,  1.98s/it, lr: 2.0e-04 loss: 2.311e-02]wan_dewa:  89%|########8 | 3104/3500 [2:46:08<13:37,  2.07s/it, lr: 2.0e-04 loss: 2.311e-02]wan_dewa:  89%|########8 | 3104/3500 [2:46:08<13:37,  2.07s/it, lr: 2.0e-04 loss: 2.311e-02]wan_dewa:  89%|########8 | 3104/3500 [2:46:10<13:37,  2.07s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  89%|########8 | 3104/3500 [2:46:10<13:37,  2.07s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  89%|########8 | 3105/3500 [2:46:10<14:19,  2.18s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  89%|########8 | 3105/3500 [2:46:10<14:19,  2.18s/it, lr: 2.0e-04 loss: 2.998e-02]wan_dewa:  89%|########8 | 3105/3500 [2:46:13<14:19,  2.18s/it, lr: 2.0e-04 loss: 3.472e-02]wan_dewa:  89%|########8 | 3105/3500 [2:46:13<14:19,  2.18s/it, lr: 2.0e-04 loss: 3.472e-02]wan_dewa:  89%|########8 | 3106/3500 [2:46:13<14:29,  2.21s/it, lr: 2.0e-04 loss: 3.472e-02]wan_dewa:  89%|########8 | 3106/3500 [2:46:13<14:29,  2.21s/it, lr: 2.0e-04 loss: 3.472e-02]wan_dewa:  89%|########8 | 3106/3500 [2:46:15<14:29,  2.21s/it, lr: 2.0e-04 loss: 6.152e-02]wan_dewa:  89%|########8 | 3106/3500 [2:46:15<14:29,  2.21s/it, lr: 2.0e-04 loss: 6.152e-02]wan_dewa:  89%|########8 | 3107/3500 [2:46:15<14:36,  2.23s/it, lr: 2.0e-04 loss: 6.152e-02]wan_dewa:  89%|########8 | 3107/3500 [2:46:15<14:36,  2.23s/it, lr: 2.0e-04 loss: 6.152e-02]wan_dewa:  89%|########8 | 3107/3500 [2:46:17<14:36,  2.23s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  89%|########8 | 3107/3500 [2:46:17<14:36,  2.23s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  89%|########8 | 3108/3500 [2:46:17<14:41,  2.25s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  89%|########8 | 3108/3500 [2:46:17<14:41,  2.25s/it, lr: 2.0e-04 loss: 3.092e-02]wan_dewa:  89%|########8 | 3108/3500 [2:46:20<14:41,  2.25s/it, lr: 2.0e-04 loss: 2.091e-02]wan_dewa:  89%|########8 | 3108/3500 [2:46:20<14:41,  2.25s/it, lr: 2.0e-04 loss: 2.091e-02]wan_dewa:  89%|########8 | 3109/3500 [2:46:20<14:43,  2.26s/it, lr: 2.0e-04 loss: 2.091e-02]wan_dewa:  89%|########8 | 3109/3500 [2:46:20<14:43,  2.26s/it, lr: 2.0e-04 loss: 2.091e-02]wan_dewa:  89%|########8 | 3109/3500 [2:46:31<14:43,  2.26s/it, lr: 2.0e-04 loss: 2.286e-02]wan_dewa:  89%|########8 | 3109/3500 [2:46:31<14:43,  2.26s/it, lr: 2.0e-04 loss: 2.286e-02]wan_dewa:  89%|########8 | 3110/3500 [2:46:33<14:41,  2.26s/it, lr: 2.0e-04 loss: 7.527e-02]wan_dewa:  89%|########8 | 3110/3500 [2:46:33<14:41,  2.26s/it, lr: 2.0e-04 loss: 7.527e-02]wan_dewa:  89%|########8 | 3111/3500 [2:46:33<11:20,  1.75s/it, lr: 2.0e-04 loss: 7.527e-02]wan_dewa:  89%|########8 | 3111/3500 [2:46:33<11:20,  1.75s/it, lr: 2.0e-04 loss: 7.527e-02]wan_dewa:  89%|########8 | 3111/3500 [2:46:35<11:20,  1.75s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  89%|########8 | 3111/3500 [2:46:35<11:20,  1.75s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  89%|########8 | 3112/3500 [2:46:35<12:08,  1.88s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  89%|########8 | 3112/3500 [2:46:35<12:08,  1.88s/it, lr: 2.0e-04 loss: 6.849e-02]wan_dewa:  89%|########8 | 3112/3500 [2:46:38<12:08,  1.88s/it, lr: 2.0e-04 loss: 1.335e-01]wan_dewa:  89%|########8 | 3112/3500 [2:46:38<12:08,  1.88s/it, lr: 2.0e-04 loss: 1.335e-01]wan_dewa:  89%|########8 | 3113/3500 [2:46:38<12:46,  1.98s/it, lr: 2.0e-04 loss: 1.335e-01]wan_dewa:  89%|########8 | 3113/3500 [2:46:38<12:46,  1.98s/it, lr: 2.0e-04 loss: 1.335e-01]wan_dewa:  89%|########8 | 3113/3500 [2:46:40<12:46,  1.98s/it, lr: 2.0e-04 loss: 1.324e-01]wan_dewa:  89%|########8 | 3113/3500 [2:46:40<12:46,  1.98s/it, lr: 2.0e-04 loss: 1.324e-01]wan_dewa:  89%|########8 | 3114/3500 [2:46:40<13:15,  2.06s/it, lr: 2.0e-04 loss: 1.324e-01]wan_dewa:  89%|########8 | 3114/3500 [2:46:40<13:15,  2.06s/it, lr: 2.0e-04 loss: 1.324e-01]wan_dewa:  89%|########8 | 3114/3500 [2:46:42<13:15,  2.06s/it, lr: 2.0e-04 loss: 1.626e-01]wan_dewa:  89%|########8 | 3114/3500 [2:46:42<13:15,  2.06s/it, lr: 2.0e-04 loss: 1.626e-01]wan_dewa:  89%|########9 | 3115/3500 [2:46:42<13:58,  2.18s/it, lr: 2.0e-04 loss: 1.626e-01]wan_dewa:  89%|########9 | 3115/3500 [2:46:42<13:58,  2.18s/it, lr: 2.0e-04 loss: 1.626e-01]wan_dewa:  89%|########9 | 3115/3500 [2:46:45<13:58,  2.18s/it, lr: 2.0e-04 loss: 1.404e-01]wan_dewa:  89%|########9 | 3115/3500 [2:46:45<13:58,  2.18s/it, lr: 2.0e-04 loss: 1.404e-01]wan_dewa:  89%|########9 | 3116/3500 [2:46:45<14:07,  2.21s/it, lr: 2.0e-04 loss: 1.404e-01]wan_dewa:  89%|########9 | 3116/3500 [2:46:45<14:07,  2.21s/it, lr: 2.0e-04 loss: 1.404e-01]wan_dewa:  89%|########9 | 3116/3500 [2:46:47<14:07,  2.21s/it, lr: 2.0e-04 loss: 6.238e-02]wan_dewa:  89%|########9 | 3116/3500 [2:46:47<14:07,  2.21s/it, lr: 2.0e-04 loss: 6.238e-02]wan_dewa:  89%|########9 | 3117/3500 [2:46:47<14:13,  2.23s/it, lr: 2.0e-04 loss: 6.238e-02]wan_dewa:  89%|########9 | 3117/3500 [2:46:47<14:13,  2.23s/it, lr: 2.0e-04 loss: 6.238e-02]wan_dewa:  89%|########9 | 3117/3500 [2:46:49<14:13,  2.23s/it, lr: 2.0e-04 loss: 5.069e-02]wan_dewa:  89%|########9 | 3117/3500 [2:46:49<14:13,  2.23s/it, lr: 2.0e-04 loss: 5.069e-02]wan_dewa:  89%|########9 | 3118/3500 [2:46:49<14:16,  2.24s/it, lr: 2.0e-04 loss: 5.069e-02]wan_dewa:  89%|########9 | 3118/3500 [2:46:49<14:16,  2.24s/it, lr: 2.0e-04 loss: 5.069e-02]wan_dewa:  89%|########9 | 3118/3500 [2:46:52<14:16,  2.24s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  89%|########9 | 3118/3500 [2:46:52<14:16,  2.24s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  89%|########9 | 3119/3500 [2:46:52<14:18,  2.25s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  89%|########9 | 3119/3500 [2:46:52<14:18,  2.25s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  89%|########9 | 3119/3500 [2:46:59<14:18,  2.25s/it, lr: 2.0e-04 loss: 4.111e-02]wan_dewa:  89%|########9 | 3119/3500 [2:46:59<14:18,  2.25s/it, lr: 2.0e-04 loss: 4.111e-02]wan_dewa:  89%|########9 | 3120/3500 [2:47:02<14:16,  2.25s/it, lr: 2.0e-04 loss: 3.562e-02]wan_dewa:  89%|########9 | 3120/3500 [2:47:02<14:16,  2.25s/it, lr: 2.0e-04 loss: 3.562e-02]wan_dewa:  89%|########9 | 3121/3500 [2:47:02<11:22,  1.80s/it, lr: 2.0e-04 loss: 3.562e-02]wan_dewa:  89%|########9 | 3121/3500 [2:47:02<11:22,  1.80s/it, lr: 2.0e-04 loss: 3.562e-02]wan_dewa:  89%|########9 | 3121/3500 [2:47:04<11:22,  1.80s/it, lr: 2.0e-04 loss: 4.621e-02]wan_dewa:  89%|########9 | 3121/3500 [2:47:04<11:22,  1.80s/it, lr: 2.0e-04 loss: 4.621e-02]wan_dewa:  89%|########9 | 3122/3500 [2:47:04<12:04,  1.92s/it, lr: 2.0e-04 loss: 4.621e-02]wan_dewa:  89%|########9 | 3122/3500 [2:47:04<12:04,  1.92s/it, lr: 2.0e-04 loss: 4.621e-02]wan_dewa:  89%|########9 | 3122/3500 [2:47:06<12:04,  1.92s/it, lr: 2.0e-04 loss: 3.345e-02]wan_dewa:  89%|########9 | 3122/3500 [2:47:06<12:04,  1.92s/it, lr: 2.0e-04 loss: 3.345e-02]wan_dewa:  89%|########9 | 3123/3500 [2:47:06<12:38,  2.01s/it, lr: 2.0e-04 loss: 3.345e-02]wan_dewa:  89%|########9 | 3123/3500 [2:47:06<12:38,  2.01s/it, lr: 2.0e-04 loss: 3.345e-02]wan_dewa:  89%|########9 | 3123/3500 [2:47:09<12:38,  2.01s/it, lr: 2.0e-04 loss: 1.780e-02]wan_dewa:  89%|########9 | 3123/3500 [2:47:09<12:38,  2.01s/it, lr: 2.0e-04 loss: 1.780e-02]wan_dewa:  89%|########9 | 3124/3500 [2:47:09<13:04,  2.09s/it, lr: 2.0e-04 loss: 1.780e-02]wan_dewa:  89%|########9 | 3124/3500 [2:47:09<13:04,  2.09s/it, lr: 2.0e-04 loss: 1.780e-02]wan_dewa:  89%|########9 | 3124/3500 [2:47:13<13:04,  2.09s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  89%|########9 | 3124/3500 [2:47:13<13:04,  2.09s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  89%|########9 | 3125/3500 [2:47:13<13:25,  2.15s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  89%|########9 | 3125/3500 [2:47:13<13:25,  2.15s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  89%|########9 | 3125/3500 [2:47:16<13:25,  2.15s/it, lr: 2.0e-04 loss: 3.076e-02]wan_dewa:  89%|########9 | 3125/3500 [2:47:16<13:25,  2.15s/it, lr: 2.0e-04 loss: 3.076e-02]wan_dewa:  89%|########9 | 3126/3500 [2:47:16<14:14,  2.29s/it, lr: 2.0e-04 loss: 3.076e-02]wan_dewa:  89%|########9 | 3126/3500 [2:47:16<14:14,  2.29s/it, lr: 2.0e-04 loss: 3.076e-02]wan_dewa:  89%|########9 | 3126/3500 [2:47:18<14:14,  2.29s/it, lr: 2.0e-04 loss: 3.523e-02]wan_dewa:  89%|########9 | 3126/3500 [2:47:18<14:14,  2.29s/it, lr: 2.0e-04 loss: 3.523e-02]wan_dewa:  89%|########9 | 3127/3500 [2:47:18<14:12,  2.29s/it, lr: 2.0e-04 loss: 3.523e-02]wan_dewa:  89%|########9 | 3127/3500 [2:47:18<14:12,  2.29s/it, lr: 2.0e-04 loss: 3.523e-02]wan_dewa:  89%|########9 | 3127/3500 [2:47:20<14:12,  2.29s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  89%|########9 | 3127/3500 [2:47:20<14:12,  2.29s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  89%|########9 | 3128/3500 [2:47:20<14:09,  2.28s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  89%|########9 | 3128/3500 [2:47:20<14:09,  2.28s/it, lr: 2.0e-04 loss: 3.854e-02]wan_dewa:  89%|########9 | 3128/3500 [2:47:23<14:09,  2.28s/it, lr: 2.0e-04 loss: 4.153e-02]wan_dewa:  89%|########9 | 3128/3500 [2:47:23<14:09,  2.28s/it, lr: 2.0e-04 loss: 4.153e-02]wan_dewa:  89%|########9 | 3129/3500 [2:47:23<14:07,  2.28s/it, lr: 2.0e-04 loss: 4.153e-02]wan_dewa:  89%|########9 | 3129/3500 [2:47:23<14:07,  2.28s/it, lr: 2.0e-04 loss: 4.153e-02]wan_dewa:  89%|########9 | 3129/3500 [2:47:34<14:07,  2.28s/it, lr: 2.0e-04 loss: 4.677e-01]wan_dewa:  89%|########9 | 3129/3500 [2:47:34<14:07,  2.28s/it, lr: 2.0e-04 loss: 4.677e-01]wan_dewa:  89%|########9 | 3130/3500 [2:47:37<14:05,  2.28s/it, lr: 2.0e-04 loss: 1.269e-01]wan_dewa:  89%|########9 | 3130/3500 [2:47:37<14:05,  2.28s/it, lr: 2.0e-04 loss: 1.269e-01]wan_dewa:  89%|########9 | 3131/3500 [2:47:37<11:08,  1.81s/it, lr: 2.0e-04 loss: 1.269e-01]wan_dewa:  89%|########9 | 3131/3500 [2:47:37<11:08,  1.81s/it, lr: 2.0e-04 loss: 1.269e-01]wan_dewa:  89%|########9 | 3131/3500 [2:47:39<11:08,  1.81s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  89%|########9 | 3131/3500 [2:47:39<11:08,  1.81s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  89%|########9 | 3132/3500 [2:47:39<11:48,  1.93s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  89%|########9 | 3132/3500 [2:47:39<11:48,  1.93s/it, lr: 2.0e-04 loss: 2.675e-02]wan_dewa:  89%|########9 | 3132/3500 [2:47:41<11:48,  1.93s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  89%|########9 | 3132/3500 [2:47:41<11:48,  1.93s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  90%|########9 | 3133/3500 [2:47:41<12:20,  2.02s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  90%|########9 | 3133/3500 [2:47:41<12:20,  2.02s/it, lr: 2.0e-04 loss: 5.777e-02]wan_dewa:  90%|########9 | 3133/3500 [2:47:43<12:20,  2.02s/it, lr: 2.0e-04 loss: 2.090e-01]wan_dewa:  90%|########9 | 3133/3500 [2:47:43<12:20,  2.02s/it, lr: 2.0e-04 loss: 2.090e-01]wan_dewa:  90%|########9 | 3134/3500 [2:47:43<12:44,  2.09s/it, lr: 2.0e-04 loss: 2.090e-01]wan_dewa:  90%|########9 | 3134/3500 [2:47:43<12:44,  2.09s/it, lr: 2.0e-04 loss: 2.090e-01]wan_dewa:  90%|########9 | 3134/3500 [2:47:46<12:44,  2.09s/it, lr: 2.0e-04 loss: 1.359e-01]wan_dewa:  90%|########9 | 3134/3500 [2:47:46<12:44,  2.09s/it, lr: 2.0e-04 loss: 1.359e-01]wan_dewa:  90%|########9 | 3135/3500 [2:47:46<13:01,  2.14s/it, lr: 2.0e-04 loss: 1.359e-01]wan_dewa:  90%|########9 | 3135/3500 [2:47:46<13:01,  2.14s/it, lr: 2.0e-04 loss: 1.359e-01]wan_dewa:  90%|########9 | 3135/3500 [2:47:48<13:01,  2.14s/it, lr: 2.0e-04 loss: 1.911e-01]wan_dewa:  90%|########9 | 3135/3500 [2:47:48<13:01,  2.14s/it, lr: 2.0e-04 loss: 1.911e-01]wan_dewa:  90%|########9 | 3136/3500 [2:47:48<13:36,  2.24s/it, lr: 2.0e-04 loss: 1.911e-01]wan_dewa:  90%|########9 | 3136/3500 [2:47:48<13:36,  2.24s/it, lr: 2.0e-04 loss: 1.911e-01]wan_dewa:  90%|########9 | 3136/3500 [2:47:50<13:36,  2.24s/it, lr: 2.0e-04 loss: 1.152e-01]wan_dewa:  90%|########9 | 3136/3500 [2:47:50<13:36,  2.24s/it, lr: 2.0e-04 loss: 1.152e-01]wan_dewa:  90%|########9 | 3137/3500 [2:47:50<13:38,  2.25s/it, lr: 2.0e-04 loss: 1.152e-01]wan_dewa:  90%|########9 | 3137/3500 [2:47:50<13:38,  2.25s/it, lr: 2.0e-04 loss: 1.152e-01]wan_dewa:  90%|########9 | 3137/3500 [2:47:53<13:38,  2.25s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  90%|########9 | 3137/3500 [2:47:53<13:38,  2.25s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  90%|########9 | 3138/3500 [2:47:53<13:38,  2.26s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  90%|########9 | 3138/3500 [2:47:53<13:38,  2.26s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  90%|########9 | 3138/3500 [2:47:55<13:38,  2.26s/it, lr: 2.0e-04 loss: 5.694e-02]wan_dewa:  90%|########9 | 3138/3500 [2:47:55<13:38,  2.26s/it, lr: 2.0e-04 loss: 5.694e-02]wan_dewa:  90%|########9 | 3139/3500 [2:47:55<13:38,  2.27s/it, lr: 2.0e-04 loss: 5.694e-02]wan_dewa:  90%|########9 | 3139/3500 [2:47:55<13:38,  2.27s/it, lr: 2.0e-04 loss: 5.694e-02]wan_dewa:  90%|########9 | 3139/3500 [2:48:06<13:38,  2.27s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  90%|########9 | 3139/3500 [2:48:06<13:38,  2.27s/it, lr: 2.0e-04 loss: 2.627e-02]wan_dewa:  90%|########9 | 3140/3500 [2:48:09<13:36,  2.27s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  90%|########9 | 3140/3500 [2:48:09<13:36,  2.27s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  90%|########9 | 3141/3500 [2:48:09<10:48,  1.81s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  90%|########9 | 3141/3500 [2:48:09<10:48,  1.81s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  90%|########9 | 3141/3500 [2:48:11<10:48,  1.81s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  90%|########9 | 3141/3500 [2:48:11<10:48,  1.81s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  90%|########9 | 3142/3500 [2:48:11<11:28,  1.92s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  90%|########9 | 3142/3500 [2:48:11<11:28,  1.92s/it, lr: 2.0e-04 loss: 3.707e-02]wan_dewa:  90%|########9 | 3142/3500 [2:48:13<11:28,  1.92s/it, lr: 2.0e-04 loss: 2.584e-02]wan_dewa:  90%|########9 | 3142/3500 [2:48:13<11:28,  1.92s/it, lr: 2.0e-04 loss: 2.584e-02]wan_dewa:  90%|########9 | 3143/3500 [2:48:13<11:59,  2.02s/it, lr: 2.0e-04 loss: 2.584e-02]wan_dewa:  90%|########9 | 3143/3500 [2:48:13<11:59,  2.02s/it, lr: 2.0e-04 loss: 2.584e-02]wan_dewa:  90%|########9 | 3143/3500 [2:48:15<11:59,  2.02s/it, lr: 2.0e-04 loss: 3.570e-02]wan_dewa:  90%|########9 | 3143/3500 [2:48:15<11:59,  2.02s/it, lr: 2.0e-04 loss: 3.570e-02]wan_dewa:  90%|########9 | 3144/3500 [2:48:15<12:23,  2.09s/it, lr: 2.0e-04 loss: 3.570e-02]wan_dewa:  90%|########9 | 3144/3500 [2:48:15<12:23,  2.09s/it, lr: 2.0e-04 loss: 3.570e-02]wan_dewa:  90%|########9 | 3144/3500 [2:48:18<12:23,  2.09s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  90%|########9 | 3144/3500 [2:48:18<12:23,  2.09s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  90%|########9 | 3145/3500 [2:48:18<12:40,  2.14s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  90%|########9 | 3145/3500 [2:48:18<12:40,  2.14s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  90%|########9 | 3145/3500 [2:48:20<12:40,  2.14s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  90%|########9 | 3145/3500 [2:48:20<12:40,  2.14s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  90%|########9 | 3146/3500 [2:48:20<12:53,  2.19s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  90%|########9 | 3146/3500 [2:48:20<12:53,  2.19s/it, lr: 2.0e-04 loss: 3.008e-02]wan_dewa:  90%|########9 | 3146/3500 [2:48:23<12:53,  2.19s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  90%|########9 | 3146/3500 [2:48:23<12:53,  2.19s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  90%|########9 | 3147/3500 [2:48:23<13:27,  2.29s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  90%|########9 | 3147/3500 [2:48:23<13:27,  2.29s/it, lr: 2.0e-04 loss: 4.134e-02]wan_dewa:  90%|########9 | 3147/3500 [2:48:25<13:27,  2.29s/it, lr: 2.0e-04 loss: 3.637e-02]wan_dewa:  90%|########9 | 3147/3500 [2:48:25<13:27,  2.29s/it, lr: 2.0e-04 loss: 3.637e-02]wan_dewa:  90%|########9 | 3148/3500 [2:48:25<13:25,  2.29s/it, lr: 2.0e-04 loss: 3.637e-02]wan_dewa:  90%|########9 | 3148/3500 [2:48:25<13:25,  2.29s/it, lr: 2.0e-04 loss: 3.637e-02]wan_dewa:  90%|########9 | 3148/3500 [2:48:27<13:25,  2.29s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  90%|########9 | 3148/3500 [2:48:27<13:25,  2.29s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  90%|########9 | 3149/3500 [2:48:27<13:23,  2.29s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  90%|########9 | 3149/3500 [2:48:27<13:23,  2.29s/it, lr: 2.0e-04 loss: 3.799e-02]wan_dewa:  90%|########9 | 3149/3500 [2:48:41<13:23,  2.29s/it, lr: 2.0e-04 loss: 5.448e-02]wan_dewa:  90%|########9 | 3149/3500 [2:48:41<13:23,  2.29s/it, lr: 2.0e-04 loss: 5.448e-02]wan_dewa:  90%|######### | 3150/3500 [2:48:43<13:20,  2.29s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  90%|######### | 3150/3500 [2:48:43<13:20,  2.29s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  90%|######### | 3151/3500 [2:48:43<10:15,  1.76s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  90%|######### | 3151/3500 [2:48:43<10:15,  1.76s/it, lr: 2.0e-04 loss: 3.726e-02]wan_dewa:  90%|######### | 3151/3500 [2:48:46<10:15,  1.76s/it, lr: 2.0e-04 loss: 6.809e-02]wan_dewa:  90%|######### | 3151/3500 [2:48:46<10:15,  1.76s/it, lr: 2.0e-04 loss: 6.809e-02]wan_dewa:  90%|######### | 3152/3500 [2:48:46<11:28,  1.98s/it, lr: 2.0e-04 loss: 6.809e-02]wan_dewa:  90%|######### | 3152/3500 [2:48:46<11:28,  1.98s/it, lr: 2.0e-04 loss: 6.809e-02]wan_dewa:  90%|######### | 3152/3500 [2:48:48<11:28,  1.98s/it, lr: 2.0e-04 loss: 2.704e-02]wan_dewa:  90%|######### | 3152/3500 [2:48:48<11:28,  1.98s/it, lr: 2.0e-04 loss: 2.704e-02]wan_dewa:  90%|######### | 3153/3500 [2:48:48<11:53,  2.06s/it, lr: 2.0e-04 loss: 2.704e-02]wan_dewa:  90%|######### | 3153/3500 [2:48:48<11:53,  2.06s/it, lr: 2.0e-04 loss: 2.704e-02]wan_dewa:  90%|######### | 3153/3500 [2:48:50<11:53,  2.06s/it, lr: 2.0e-04 loss: 7.918e-02]wan_dewa:  90%|######### | 3153/3500 [2:48:50<11:53,  2.06s/it, lr: 2.0e-04 loss: 7.918e-02]wan_dewa:  90%|######### | 3154/3500 [2:48:50<12:11,  2.12s/it, lr: 2.0e-04 loss: 7.918e-02]wan_dewa:  90%|######### | 3154/3500 [2:48:50<12:11,  2.12s/it, lr: 2.0e-04 loss: 7.918e-02]wan_dewa:  90%|######### | 3154/3500 [2:48:53<12:11,  2.12s/it, lr: 2.0e-04 loss: 1.673e-01]wan_dewa:  90%|######### | 3154/3500 [2:48:53<12:11,  2.12s/it, lr: 2.0e-04 loss: 1.673e-01]wan_dewa:  90%|######### | 3155/3500 [2:48:53<12:24,  2.16s/it, lr: 2.0e-04 loss: 1.673e-01]wan_dewa:  90%|######### | 3155/3500 [2:48:53<12:24,  2.16s/it, lr: 2.0e-04 loss: 1.673e-01]wan_dewa:  90%|######### | 3155/3500 [2:48:55<12:24,  2.16s/it, lr: 2.0e-04 loss: 3.984e-02]wan_dewa:  90%|######### | 3155/3500 [2:48:55<12:24,  2.16s/it, lr: 2.0e-04 loss: 3.984e-02]wan_dewa:  90%|######### | 3156/3500 [2:48:55<12:34,  2.19s/it, lr: 2.0e-04 loss: 3.984e-02]wan_dewa:  90%|######### | 3156/3500 [2:48:55<12:34,  2.19s/it, lr: 2.0e-04 loss: 3.984e-02]wan_dewa:  90%|######### | 3156/3500 [2:48:57<12:34,  2.19s/it, lr: 2.0e-04 loss: 3.973e-01]wan_dewa:  90%|######### | 3156/3500 [2:48:57<12:34,  2.19s/it, lr: 2.0e-04 loss: 3.973e-01]wan_dewa:  90%|######### | 3157/3500 [2:48:57<13:00,  2.28s/it, lr: 2.0e-04 loss: 3.973e-01]wan_dewa:  90%|######### | 3157/3500 [2:48:57<13:00,  2.28s/it, lr: 2.0e-04 loss: 3.973e-01]wan_dewa:  90%|######### | 3157/3500 [2:49:00<13:00,  2.28s/it, lr: 2.0e-04 loss: 2.389e-02]wan_dewa:  90%|######### | 3157/3500 [2:49:00<13:00,  2.28s/it, lr: 2.0e-04 loss: 2.389e-02]wan_dewa:  90%|######### | 3158/3500 [2:49:00<12:58,  2.28s/it, lr: 2.0e-04 loss: 2.389e-02]wan_dewa:  90%|######### | 3158/3500 [2:49:00<12:58,  2.28s/it, lr: 2.0e-04 loss: 2.389e-02]wan_dewa:  90%|######### | 3158/3500 [2:49:02<12:58,  2.28s/it, lr: 2.0e-04 loss: 6.452e-02]wan_dewa:  90%|######### | 3158/3500 [2:49:02<12:58,  2.28s/it, lr: 2.0e-04 loss: 6.452e-02]wan_dewa:  90%|######### | 3159/3500 [2:49:02<12:56,  2.28s/it, lr: 2.0e-04 loss: 6.452e-02]wan_dewa:  90%|######### | 3159/3500 [2:49:02<12:56,  2.28s/it, lr: 2.0e-04 loss: 6.452e-02]wan_dewa:  90%|######### | 3159/3500 [2:49:13<12:56,  2.28s/it, lr: 2.0e-04 loss: 3.102e-02]wan_dewa:  90%|######### | 3159/3500 [2:49:13<12:56,  2.28s/it, lr: 2.0e-04 loss: 3.102e-02]wan_dewa:  90%|######### | 3160/3500 [2:49:15<12:54,  2.28s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  90%|######### | 3160/3500 [2:49:15<12:54,  2.28s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  90%|######### | 3161/3500 [2:49:15<09:56,  1.76s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  90%|######### | 3161/3500 [2:49:15<09:56,  1.76s/it, lr: 2.0e-04 loss: 3.395e-02]wan_dewa:  90%|######### | 3161/3500 [2:49:18<09:56,  1.76s/it, lr: 2.0e-04 loss: 2.816e-02]wan_dewa:  90%|######### | 3161/3500 [2:49:18<09:56,  1.76s/it, lr: 2.0e-04 loss: 2.816e-02]wan_dewa:  90%|######### | 3162/3500 [2:49:18<10:53,  1.93s/it, lr: 2.0e-04 loss: 2.816e-02]wan_dewa:  90%|######### | 3162/3500 [2:49:18<10:53,  1.93s/it, lr: 2.0e-04 loss: 2.816e-02]wan_dewa:  90%|######### | 3162/3500 [2:49:20<10:53,  1.93s/it, lr: 2.0e-04 loss: 2.386e-02]wan_dewa:  90%|######### | 3162/3500 [2:49:20<10:53,  1.93s/it, lr: 2.0e-04 loss: 2.386e-02]wan_dewa:  90%|######### | 3163/3500 [2:49:20<11:21,  2.02s/it, lr: 2.0e-04 loss: 2.386e-02]wan_dewa:  90%|######### | 3163/3500 [2:49:20<11:21,  2.02s/it, lr: 2.0e-04 loss: 2.386e-02]wan_dewa:  90%|######### | 3163/3500 [2:49:22<11:21,  2.02s/it, lr: 2.0e-04 loss: 3.091e-02]wan_dewa:  90%|######### | 3163/3500 [2:49:22<11:21,  2.02s/it, lr: 2.0e-04 loss: 3.091e-02]wan_dewa:  90%|######### | 3164/3500 [2:49:22<11:43,  2.10s/it, lr: 2.0e-04 loss: 3.091e-02]wan_dewa:  90%|######### | 3164/3500 [2:49:22<11:43,  2.10s/it, lr: 2.0e-04 loss: 3.091e-02]wan_dewa:  90%|######### | 3164/3500 [2:49:25<11:43,  2.10s/it, lr: 2.0e-04 loss: 4.282e-02]wan_dewa:  90%|######### | 3164/3500 [2:49:25<11:43,  2.10s/it, lr: 2.0e-04 loss: 4.282e-02]wan_dewa:  90%|######### | 3165/3500 [2:49:25<11:59,  2.15s/it, lr: 2.0e-04 loss: 4.282e-02]wan_dewa:  90%|######### | 3165/3500 [2:49:25<11:59,  2.15s/it, lr: 2.0e-04 loss: 4.282e-02]wan_dewa:  90%|######### | 3165/3500 [2:49:27<11:59,  2.15s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  90%|######### | 3165/3500 [2:49:27<11:59,  2.15s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  90%|######### | 3166/3500 [2:49:27<12:10,  2.19s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  90%|######### | 3166/3500 [2:49:27<12:10,  2.19s/it, lr: 2.0e-04 loss: 3.979e-02]wan_dewa:  90%|######### | 3166/3500 [2:49:29<12:10,  2.19s/it, lr: 2.0e-04 loss: 4.049e-02]wan_dewa:  90%|######### | 3166/3500 [2:49:29<12:10,  2.19s/it, lr: 2.0e-04 loss: 4.049e-02]wan_dewa:  90%|######### | 3167/3500 [2:49:29<12:37,  2.27s/it, lr: 2.0e-04 loss: 4.049e-02]wan_dewa:  90%|######### | 3167/3500 [2:49:29<12:37,  2.27s/it, lr: 2.0e-04 loss: 4.049e-02]wan_dewa:  90%|######### | 3167/3500 [2:49:32<12:37,  2.27s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  90%|######### | 3167/3500 [2:49:32<12:37,  2.27s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  91%|######### | 3168/3500 [2:49:32<12:36,  2.28s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  91%|######### | 3168/3500 [2:49:32<12:36,  2.28s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  91%|######### | 3168/3500 [2:49:34<12:36,  2.28s/it, lr: 2.0e-04 loss: 2.283e-02]wan_dewa:  91%|######### | 3168/3500 [2:49:34<12:36,  2.28s/it, lr: 2.0e-04 loss: 2.283e-02]wan_dewa:  91%|######### | 3169/3500 [2:49:34<12:34,  2.28s/it, lr: 2.0e-04 loss: 2.283e-02]wan_dewa:  91%|######### | 3169/3500 [2:49:34<12:34,  2.28s/it, lr: 2.0e-04 loss: 2.283e-02]wan_dewa:  91%|######### | 3169/3500 [2:49:42<12:34,  2.28s/it, lr: 2.0e-04 loss: 5.629e-02]wan_dewa:  91%|######### | 3169/3500 [2:49:42<12:34,  2.28s/it, lr: 2.0e-04 loss: 5.629e-02]wan_dewa:  91%|######### | 3170/3500 [2:49:44<12:32,  2.28s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  91%|######### | 3170/3500 [2:49:44<12:32,  2.28s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  91%|######### | 3171/3500 [2:49:44<09:38,  1.76s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  91%|######### | 3171/3500 [2:49:44<09:38,  1.76s/it, lr: 2.0e-04 loss: 1.947e-01]wan_dewa:  91%|######### | 3171/3500 [2:49:46<09:38,  1.76s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  91%|######### | 3171/3500 [2:49:46<09:38,  1.76s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  91%|######### | 3172/3500 [2:49:46<10:34,  1.94s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  91%|######### | 3172/3500 [2:49:46<10:34,  1.94s/it, lr: 2.0e-04 loss: 5.602e-02]wan_dewa:  91%|######### | 3172/3500 [2:49:49<10:34,  1.94s/it, lr: 2.0e-04 loss: 7.935e-02]wan_dewa:  91%|######### | 3172/3500 [2:49:49<10:34,  1.94s/it, lr: 2.0e-04 loss: 7.935e-02]wan_dewa:  91%|######### | 3173/3500 [2:49:49<11:01,  2.02s/it, lr: 2.0e-04 loss: 7.935e-02]wan_dewa:  91%|######### | 3173/3500 [2:49:49<11:01,  2.02s/it, lr: 2.0e-04 loss: 7.935e-02]wan_dewa:  91%|######### | 3173/3500 [2:49:51<11:01,  2.02s/it, lr: 2.0e-04 loss: 3.116e-01]wan_dewa:  91%|######### | 3173/3500 [2:49:51<11:01,  2.02s/it, lr: 2.0e-04 loss: 3.116e-01]wan_dewa:  91%|######### | 3174/3500 [2:49:51<11:22,  2.09s/it, lr: 2.0e-04 loss: 3.116e-01]wan_dewa:  91%|######### | 3174/3500 [2:49:51<11:22,  2.09s/it, lr: 2.0e-04 loss: 3.116e-01]wan_dewa:  91%|######### | 3174/3500 [2:49:56<11:22,  2.09s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  91%|######### | 3174/3500 [2:49:56<11:22,  2.09s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  91%|######### | 3175/3500 [2:49:56<11:39,  2.15s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  91%|######### | 3175/3500 [2:49:56<11:39,  2.15s/it, lr: 2.0e-04 loss: 8.013e-02]wan_dewa:  91%|######### | 3175/3500 [2:49:58<11:39,  2.15s/it, lr: 2.0e-04 loss: 3.050e-02]wan_dewa:  91%|######### | 3175/3500 [2:49:58<11:39,  2.15s/it, lr: 2.0e-04 loss: 3.050e-02]wan_dewa:  91%|######### | 3176/3500 [2:49:58<11:49,  2.19s/it, lr: 2.0e-04 loss: 3.050e-02]wan_dewa:  91%|######### | 3176/3500 [2:49:58<11:49,  2.19s/it, lr: 2.0e-04 loss: 3.050e-02]wan_dewa:  91%|######### | 3176/3500 [2:50:00<11:49,  2.19s/it, lr: 2.0e-04 loss: 1.365e-01]wan_dewa:  91%|######### | 3176/3500 [2:50:00<11:49,  2.19s/it, lr: 2.0e-04 loss: 1.365e-01]wan_dewa:  91%|######### | 3177/3500 [2:50:00<12:27,  2.31s/it, lr: 2.0e-04 loss: 1.365e-01]wan_dewa:  91%|######### | 3177/3500 [2:50:00<12:27,  2.31s/it, lr: 2.0e-04 loss: 1.365e-01]wan_dewa:  91%|######### | 3177/3500 [2:50:03<12:27,  2.31s/it, lr: 2.0e-04 loss: 5.867e-02]wan_dewa:  91%|######### | 3177/3500 [2:50:03<12:27,  2.31s/it, lr: 2.0e-04 loss: 5.867e-02]wan_dewa:  91%|######### | 3178/3500 [2:50:03<12:21,  2.30s/it, lr: 2.0e-04 loss: 5.867e-02]wan_dewa:  91%|######### | 3178/3500 [2:50:03<12:21,  2.30s/it, lr: 2.0e-04 loss: 5.867e-02]wan_dewa:  91%|######### | 3178/3500 [2:50:05<12:21,  2.30s/it, lr: 2.0e-04 loss: 3.191e-02]wan_dewa:  91%|######### | 3178/3500 [2:50:05<12:21,  2.30s/it, lr: 2.0e-04 loss: 3.191e-02]wan_dewa:  91%|######### | 3179/3500 [2:50:05<12:17,  2.30s/it, lr: 2.0e-04 loss: 3.191e-02]wan_dewa:  91%|######### | 3179/3500 [2:50:05<12:17,  2.30s/it, lr: 2.0e-04 loss: 3.191e-02]wan_dewa:  91%|######### | 3179/3500 [2:50:16<12:17,  2.30s/it, lr: 2.0e-04 loss: 2.135e-02]wan_dewa:  91%|######### | 3179/3500 [2:50:16<12:17,  2.30s/it, lr: 2.0e-04 loss: 2.135e-02]wan_dewa:  91%|######### | 3180/3500 [2:50:19<12:14,  2.30s/it, lr: 2.0e-04 loss: 1.718e-02]wan_dewa:  91%|######### | 3180/3500 [2:50:19<12:14,  2.30s/it, lr: 2.0e-04 loss: 1.718e-02]wan_dewa:  91%|######### | 3181/3500 [2:50:19<09:23,  1.77s/it, lr: 2.0e-04 loss: 1.718e-02]wan_dewa:  91%|######### | 3181/3500 [2:50:19<09:23,  1.77s/it, lr: 2.0e-04 loss: 1.718e-02]wan_dewa:  91%|######### | 3181/3500 [2:50:21<09:23,  1.77s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  91%|######### | 3181/3500 [2:50:21<09:23,  1.77s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  91%|######### | 3182/3500 [2:50:21<10:19,  1.95s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  91%|######### | 3182/3500 [2:50:21<10:19,  1.95s/it, lr: 2.0e-04 loss: 3.580e-02]wan_dewa:  91%|######### | 3182/3500 [2:50:23<10:19,  1.95s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  91%|######### | 3182/3500 [2:50:23<10:19,  1.95s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  91%|######### | 3183/3500 [2:50:23<10:44,  2.03s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  91%|######### | 3183/3500 [2:50:23<10:44,  2.03s/it, lr: 2.0e-04 loss: 1.810e-02]wan_dewa:  91%|######### | 3183/3500 [2:50:26<10:44,  2.03s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  91%|######### | 3183/3500 [2:50:26<10:44,  2.03s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  91%|######### | 3184/3500 [2:50:26<11:03,  2.10s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  91%|######### | 3184/3500 [2:50:26<11:03,  2.10s/it, lr: 2.0e-04 loss: 3.283e-02]wan_dewa:  91%|######### | 3184/3500 [2:50:28<11:03,  2.10s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  91%|######### | 3184/3500 [2:50:28<11:03,  2.10s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  91%|#########1| 3185/3500 [2:50:28<11:17,  2.15s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  91%|#########1| 3185/3500 [2:50:28<11:17,  2.15s/it, lr: 2.0e-04 loss: 3.225e-02]wan_dewa:  91%|#########1| 3185/3500 [2:50:30<11:17,  2.15s/it, lr: 2.0e-04 loss: 2.803e-02]wan_dewa:  91%|#########1| 3185/3500 [2:50:30<11:17,  2.15s/it, lr: 2.0e-04 loss: 2.803e-02]wan_dewa:  91%|#########1| 3186/3500 [2:50:30<11:27,  2.19s/it, lr: 2.0e-04 loss: 2.803e-02]wan_dewa:  91%|#########1| 3186/3500 [2:50:30<11:27,  2.19s/it, lr: 2.0e-04 loss: 2.803e-02]wan_dewa:  91%|#########1| 3186/3500 [2:50:33<11:27,  2.19s/it, lr: 2.0e-04 loss: 3.035e-02]wan_dewa:  91%|#########1| 3186/3500 [2:50:33<11:27,  2.19s/it, lr: 2.0e-04 loss: 3.035e-02]wan_dewa:  91%|#########1| 3187/3500 [2:50:33<11:33,  2.22s/it, lr: 2.0e-04 loss: 3.035e-02]wan_dewa:  91%|#########1| 3187/3500 [2:50:33<11:33,  2.22s/it, lr: 2.0e-04 loss: 3.035e-02]wan_dewa:  91%|#########1| 3187/3500 [2:50:35<11:33,  2.22s/it, lr: 2.0e-04 loss: 3.576e-02]wan_dewa:  91%|#########1| 3187/3500 [2:50:35<11:33,  2.22s/it, lr: 2.0e-04 loss: 3.576e-02]wan_dewa:  91%|#########1| 3188/3500 [2:50:35<11:57,  2.30s/it, lr: 2.0e-04 loss: 3.576e-02]wan_dewa:  91%|#########1| 3188/3500 [2:50:35<11:57,  2.30s/it, lr: 2.0e-04 loss: 3.576e-02]wan_dewa:  91%|#########1| 3188/3500 [2:50:37<11:57,  2.30s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  91%|#########1| 3188/3500 [2:50:37<11:57,  2.30s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  91%|#########1| 3189/3500 [2:50:37<11:53,  2.30s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  91%|#########1| 3189/3500 [2:50:37<11:53,  2.30s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  91%|#########1| 3189/3500 [2:50:49<11:53,  2.30s/it, lr: 2.0e-04 loss: 8.095e-02]wan_dewa:  91%|#########1| 3189/3500 [2:50:49<11:53,  2.30s/it, lr: 2.0e-04 loss: 8.095e-02]wan_dewa:  91%|#########1| 3190/3500 [2:50:51<11:51,  2.30s/it, lr: 2.0e-04 loss: 8.626e-02]wan_dewa:  91%|#########1| 3190/3500 [2:50:51<11:51,  2.30s/it, lr: 2.0e-04 loss: 8.626e-02]wan_dewa:  91%|#########1| 3191/3500 [2:50:51<09:06,  1.77s/it, lr: 2.0e-04 loss: 8.626e-02]wan_dewa:  91%|#########1| 3191/3500 [2:50:51<09:06,  1.77s/it, lr: 2.0e-04 loss: 8.626e-02]wan_dewa:  91%|#########1| 3191/3500 [2:50:53<09:06,  1.77s/it, lr: 2.0e-04 loss: 6.573e-02]wan_dewa:  91%|#########1| 3191/3500 [2:50:53<09:06,  1.77s/it, lr: 2.0e-04 loss: 6.573e-02]wan_dewa:  91%|#########1| 3192/3500 [2:50:53<09:43,  1.90s/it, lr: 2.0e-04 loss: 6.573e-02]wan_dewa:  91%|#########1| 3192/3500 [2:50:53<09:43,  1.90s/it, lr: 2.0e-04 loss: 6.573e-02]wan_dewa:  91%|#########1| 3192/3500 [2:50:56<09:43,  1.90s/it, lr: 2.0e-04 loss: 4.493e-02]wan_dewa:  91%|#########1| 3192/3500 [2:50:56<09:43,  1.90s/it, lr: 2.0e-04 loss: 4.493e-02]wan_dewa:  91%|#########1| 3193/3500 [2:50:56<10:30,  2.05s/it, lr: 2.0e-04 loss: 4.493e-02]wan_dewa:  91%|#########1| 3193/3500 [2:50:56<10:30,  2.05s/it, lr: 2.0e-04 loss: 4.493e-02]wan_dewa:  91%|#########1| 3193/3500 [2:50:58<10:30,  2.05s/it, lr: 2.0e-04 loss: 2.952e-02]wan_dewa:  91%|#########1| 3193/3500 [2:50:58<10:30,  2.05s/it, lr: 2.0e-04 loss: 2.952e-02]wan_dewa:  91%|#########1| 3194/3500 [2:50:58<10:47,  2.11s/it, lr: 2.0e-04 loss: 2.952e-02]wan_dewa:  91%|#########1| 3194/3500 [2:50:58<10:47,  2.11s/it, lr: 2.0e-04 loss: 2.952e-02]wan_dewa:  91%|#########1| 3194/3500 [2:51:00<10:47,  2.11s/it, lr: 2.0e-04 loss: 1.552e-01]wan_dewa:  91%|#########1| 3194/3500 [2:51:00<10:47,  2.11s/it, lr: 2.0e-04 loss: 1.552e-01]wan_dewa:  91%|#########1| 3195/3500 [2:51:00<10:59,  2.16s/it, lr: 2.0e-04 loss: 1.552e-01]wan_dewa:  91%|#########1| 3195/3500 [2:51:00<10:59,  2.16s/it, lr: 2.0e-04 loss: 1.552e-01]wan_dewa:  91%|#########1| 3195/3500 [2:51:03<10:59,  2.16s/it, lr: 2.0e-04 loss: 9.035e-02]wan_dewa:  91%|#########1| 3195/3500 [2:51:03<10:59,  2.16s/it, lr: 2.0e-04 loss: 9.035e-02]wan_dewa:  91%|#########1| 3196/3500 [2:51:03<11:07,  2.20s/it, lr: 2.0e-04 loss: 9.035e-02]wan_dewa:  91%|#########1| 3196/3500 [2:51:03<11:07,  2.20s/it, lr: 2.0e-04 loss: 9.035e-02]wan_dewa:  91%|#########1| 3196/3500 [2:51:05<11:07,  2.20s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  91%|#########1| 3196/3500 [2:51:05<11:07,  2.20s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  91%|#########1| 3197/3500 [2:51:05<11:13,  2.22s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  91%|#########1| 3197/3500 [2:51:05<11:13,  2.22s/it, lr: 2.0e-04 loss: 1.198e-01]wan_dewa:  91%|#########1| 3197/3500 [2:51:08<11:13,  2.22s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  91%|#########1| 3197/3500 [2:51:08<11:13,  2.22s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  91%|#########1| 3198/3500 [2:51:08<11:36,  2.31s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  91%|#########1| 3198/3500 [2:51:08<11:36,  2.31s/it, lr: 2.0e-04 loss: 7.310e-02]wan_dewa:  91%|#########1| 3198/3500 [2:51:10<11:36,  2.31s/it, lr: 2.0e-04 loss: 8.588e-02]wan_dewa:  91%|#########1| 3198/3500 [2:51:10<11:36,  2.31s/it, lr: 2.0e-04 loss: 8.588e-02]wan_dewa:  91%|#########1| 3199/3500 [2:51:10<11:32,  2.30s/it, lr: 2.0e-04 loss: 8.588e-02]wan_dewa:  91%|#########1| 3199/3500 [2:51:10<11:32,  2.30s/it, lr: 2.0e-04 loss: 8.588e-02]wan_dewa:  91%|#########1| 3199/3500 [2:51:23<11:32,  2.30s/it, lr: 2.0e-04 loss: 1.724e-02]wan_dewa:  91%|#########1| 3199/3500 [2:51:23<11:32,  2.30s/it, lr: 2.0e-04 loss: 1.724e-02]wan_dewa:  91%|#########1| 3200/3500 [2:51:25<11:30,  2.30s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  91%|#########1| 3200/3500 [2:51:25<11:30,  2.30s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  91%|#########1| 3201/3500 [2:51:25<08:49,  1.77s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  91%|#########1| 3201/3500 [2:51:25<08:49,  1.77s/it, lr: 2.0e-04 loss: 3.602e-02]wan_dewa:  91%|#########1| 3201/3500 [2:51:28<08:49,  1.77s/it, lr: 2.0e-04 loss: 3.561e-02]wan_dewa:  91%|#########1| 3201/3500 [2:51:28<08:49,  1.77s/it, lr: 2.0e-04 loss: 3.561e-02]wan_dewa:  91%|#########1| 3202/3500 [2:51:28<09:25,  1.90s/it, lr: 2.0e-04 loss: 3.561e-02]wan_dewa:  91%|#########1| 3202/3500 [2:51:28<09:25,  1.90s/it, lr: 2.0e-04 loss: 3.561e-02]wan_dewa:  91%|#########1| 3202/3500 [2:51:30<09:25,  1.90s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  91%|#########1| 3202/3500 [2:51:30<09:25,  1.90s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  92%|#########1| 3203/3500 [2:51:30<10:18,  2.08s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  92%|#########1| 3203/3500 [2:51:30<10:18,  2.08s/it, lr: 2.0e-04 loss: 3.775e-02]wan_dewa:  92%|#########1| 3203/3500 [2:51:33<10:18,  2.08s/it, lr: 2.0e-04 loss: 2.362e-02]wan_dewa:  92%|#########1| 3203/3500 [2:51:33<10:18,  2.08s/it, lr: 2.0e-04 loss: 2.362e-02]wan_dewa:  92%|#########1| 3204/3500 [2:51:33<10:32,  2.14s/it, lr: 2.0e-04 loss: 2.362e-02]wan_dewa:  92%|#########1| 3204/3500 [2:51:33<10:32,  2.14s/it, lr: 2.0e-04 loss: 2.362e-02]wan_dewa:  92%|#########1| 3204/3500 [2:51:35<10:32,  2.14s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  92%|#########1| 3204/3500 [2:51:35<10:32,  2.14s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  92%|#########1| 3205/3500 [2:51:35<10:42,  2.18s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  92%|#########1| 3205/3500 [2:51:35<10:42,  2.18s/it, lr: 2.0e-04 loss: 3.362e-02]wan_dewa:  92%|#########1| 3205/3500 [2:51:37<10:42,  2.18s/it, lr: 2.0e-04 loss: 2.572e-02]wan_dewa:  92%|#########1| 3205/3500 [2:51:37<10:42,  2.18s/it, lr: 2.0e-04 loss: 2.572e-02]wan_dewa:  92%|#########1| 3206/3500 [2:51:37<10:48,  2.21s/it, lr: 2.0e-04 loss: 2.572e-02]wan_dewa:  92%|#########1| 3206/3500 [2:51:37<10:48,  2.21s/it, lr: 2.0e-04 loss: 2.572e-02]wan_dewa:  92%|#########1| 3206/3500 [2:51:40<10:48,  2.21s/it, lr: 2.0e-04 loss: 4.009e-02]wan_dewa:  92%|#########1| 3206/3500 [2:51:40<10:48,  2.21s/it, lr: 2.0e-04 loss: 4.009e-02]wan_dewa:  92%|#########1| 3207/3500 [2:51:40<10:53,  2.23s/it, lr: 2.0e-04 loss: 4.009e-02]wan_dewa:  92%|#########1| 3207/3500 [2:51:40<10:53,  2.23s/it, lr: 2.0e-04 loss: 4.009e-02]wan_dewa:  92%|#########1| 3207/3500 [2:51:42<10:53,  2.23s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  92%|#########1| 3207/3500 [2:51:42<10:53,  2.23s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  92%|#########1| 3208/3500 [2:51:42<11:13,  2.31s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  92%|#########1| 3208/3500 [2:51:42<11:13,  2.31s/it, lr: 2.0e-04 loss: 4.071e-02]wan_dewa:  92%|#########1| 3208/3500 [2:51:44<11:13,  2.31s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  92%|#########1| 3208/3500 [2:51:44<11:13,  2.31s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  92%|#########1| 3209/3500 [2:51:44<11:09,  2.30s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  92%|#########1| 3209/3500 [2:51:44<11:09,  2.30s/it, lr: 2.0e-04 loss: 4.489e-02]wan_dewa:  92%|#########1| 3209/3500 [2:51:55<11:09,  2.30s/it, lr: 2.0e-04 loss: 2.478e-02]wan_dewa:  92%|#########1| 3209/3500 [2:51:55<11:09,  2.30s/it, lr: 2.0e-04 loss: 2.478e-02]wan_dewa:  92%|#########1| 3210/3500 [2:51:57<11:07,  2.30s/it, lr: 2.0e-04 loss: 8.617e-02]wan_dewa:  92%|#########1| 3210/3500 [2:51:57<11:07,  2.30s/it, lr: 2.0e-04 loss: 8.617e-02]wan_dewa:  92%|#########1| 3211/3500 [2:51:57<08:31,  1.77s/it, lr: 2.0e-04 loss: 8.617e-02]wan_dewa:  92%|#########1| 3211/3500 [2:51:57<08:31,  1.77s/it, lr: 2.0e-04 loss: 8.617e-02]wan_dewa:  92%|#########1| 3211/3500 [2:52:00<08:31,  1.77s/it, lr: 2.0e-04 loss: 5.062e-02]wan_dewa:  92%|#########1| 3211/3500 [2:52:00<08:31,  1.77s/it, lr: 2.0e-04 loss: 5.062e-02]wan_dewa:  92%|#########1| 3212/3500 [2:52:00<09:05,  1.89s/it, lr: 2.0e-04 loss: 5.062e-02]wan_dewa:  92%|#########1| 3212/3500 [2:52:00<09:05,  1.89s/it, lr: 2.0e-04 loss: 5.062e-02]wan_dewa:  92%|#########1| 3212/3500 [2:52:02<09:05,  1.89s/it, lr: 2.0e-04 loss: 5.036e-02]wan_dewa:  92%|#########1| 3212/3500 [2:52:02<09:05,  1.89s/it, lr: 2.0e-04 loss: 5.036e-02]wan_dewa:  92%|#########1| 3213/3500 [2:52:02<09:31,  1.99s/it, lr: 2.0e-04 loss: 5.036e-02]wan_dewa:  92%|#########1| 3213/3500 [2:52:02<09:31,  1.99s/it, lr: 2.0e-04 loss: 5.036e-02]wan_dewa:  92%|#########1| 3213/3500 [2:52:04<09:31,  1.99s/it, lr: 2.0e-04 loss: 2.860e-01]wan_dewa:  92%|#########1| 3213/3500 [2:52:04<09:31,  1.99s/it, lr: 2.0e-04 loss: 2.860e-01]wan_dewa:  92%|#########1| 3214/3500 [2:52:04<10:06,  2.12s/it, lr: 2.0e-04 loss: 2.860e-01]wan_dewa:  92%|#########1| 3214/3500 [2:52:04<10:06,  2.12s/it, lr: 2.0e-04 loss: 2.860e-01]wan_dewa:  92%|#########1| 3214/3500 [2:52:07<10:06,  2.12s/it, lr: 2.0e-04 loss: 4.362e-02]wan_dewa:  92%|#########1| 3214/3500 [2:52:07<10:06,  2.12s/it, lr: 2.0e-04 loss: 4.362e-02]wan_dewa:  92%|#########1| 3215/3500 [2:52:07<10:16,  2.16s/it, lr: 2.0e-04 loss: 4.362e-02]wan_dewa:  92%|#########1| 3215/3500 [2:52:07<10:16,  2.16s/it, lr: 2.0e-04 loss: 4.362e-02]wan_dewa:  92%|#########1| 3215/3500 [2:52:09<10:16,  2.16s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa:  92%|#########1| 3215/3500 [2:52:09<10:16,  2.16s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa:  92%|#########1| 3216/3500 [2:52:09<10:23,  2.20s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa:  92%|#########1| 3216/3500 [2:52:09<10:23,  2.20s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa:  92%|#########1| 3216/3500 [2:52:11<10:23,  2.20s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  92%|#########1| 3216/3500 [2:52:11<10:23,  2.20s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  92%|#########1| 3217/3500 [2:52:11<10:28,  2.22s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  92%|#########1| 3217/3500 [2:52:11<10:28,  2.22s/it, lr: 2.0e-04 loss: 1.453e-01]wan_dewa:  92%|#########1| 3217/3500 [2:52:14<10:28,  2.22s/it, lr: 2.0e-04 loss: 5.580e-02]wan_dewa:  92%|#########1| 3217/3500 [2:52:14<10:28,  2.22s/it, lr: 2.0e-04 loss: 5.580e-02]wan_dewa:  92%|#########1| 3218/3500 [2:52:14<10:30,  2.24s/it, lr: 2.0e-04 loss: 5.580e-02]wan_dewa:  92%|#########1| 3218/3500 [2:52:14<10:30,  2.24s/it, lr: 2.0e-04 loss: 5.580e-02]wan_dewa:  92%|#########1| 3218/3500 [2:52:16<10:30,  2.24s/it, lr: 2.0e-04 loss: 6.027e-02]wan_dewa:  92%|#########1| 3218/3500 [2:52:16<10:30,  2.24s/it, lr: 2.0e-04 loss: 6.027e-02]wan_dewa:  92%|#########1| 3219/3500 [2:52:16<10:49,  2.31s/it, lr: 2.0e-04 loss: 6.027e-02]wan_dewa:  92%|#########1| 3219/3500 [2:52:16<10:49,  2.31s/it, lr: 2.0e-04 loss: 6.027e-02]wan_dewa:  92%|#########1| 3219/3500 [2:52:24<10:49,  2.31s/it, lr: 2.0e-04 loss: 3.211e-02]wan_dewa:  92%|#########1| 3219/3500 [2:52:24<10:49,  2.31s/it, lr: 2.0e-04 loss: 3.211e-02]wan_dewa:  92%|#########2| 3220/3500 [2:52:26<10:47,  2.31s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  92%|#########2| 3220/3500 [2:52:26<10:47,  2.31s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  92%|#########2| 3221/3500 [2:52:26<08:15,  1.77s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  92%|#########2| 3221/3500 [2:52:26<08:15,  1.77s/it, lr: 2.0e-04 loss: 2.768e-02]wan_dewa:  92%|#########2| 3221/3500 [2:52:28<08:15,  1.77s/it, lr: 2.0e-04 loss: 3.655e-02]wan_dewa:  92%|#########2| 3221/3500 [2:52:28<08:15,  1.77s/it, lr: 2.0e-04 loss: 3.655e-02]wan_dewa:  92%|#########2| 3222/3500 [2:52:28<08:47,  1.90s/it, lr: 2.0e-04 loss: 3.655e-02]wan_dewa:  92%|#########2| 3222/3500 [2:52:28<08:47,  1.90s/it, lr: 2.0e-04 loss: 3.655e-02]wan_dewa:  92%|#########2| 3222/3500 [2:52:31<08:47,  1.90s/it, lr: 2.0e-04 loss: 2.818e-02]wan_dewa:  92%|#########2| 3222/3500 [2:52:31<08:47,  1.90s/it, lr: 2.0e-04 loss: 2.818e-02]wan_dewa:  92%|#########2| 3223/3500 [2:52:31<09:13,  2.00s/it, lr: 2.0e-04 loss: 2.818e-02]wan_dewa:  92%|#########2| 3223/3500 [2:52:31<09:13,  2.00s/it, lr: 2.0e-04 loss: 2.818e-02]wan_dewa:  92%|#########2| 3223/3500 [2:52:33<09:13,  2.00s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  92%|#########2| 3223/3500 [2:52:33<09:13,  2.00s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  92%|#########2| 3224/3500 [2:52:33<09:47,  2.13s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  92%|#########2| 3224/3500 [2:52:33<09:47,  2.13s/it, lr: 2.0e-04 loss: 3.622e-02]wan_dewa:  92%|#########2| 3224/3500 [2:52:38<09:47,  2.13s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  92%|#########2| 3224/3500 [2:52:38<09:47,  2.13s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  92%|#########2| 3225/3500 [2:52:38<09:59,  2.18s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  92%|#########2| 3225/3500 [2:52:38<09:59,  2.18s/it, lr: 2.0e-04 loss: 3.461e-02]wan_dewa:  92%|#########2| 3225/3500 [2:52:40<09:59,  2.18s/it, lr: 2.0e-04 loss: 3.178e-02]wan_dewa:  92%|#########2| 3225/3500 [2:52:40<09:59,  2.18s/it, lr: 2.0e-04 loss: 3.178e-02]wan_dewa:  92%|#########2| 3226/3500 [2:52:40<10:05,  2.21s/it, lr: 2.0e-04 loss: 3.178e-02]wan_dewa:  92%|#########2| 3226/3500 [2:52:40<10:05,  2.21s/it, lr: 2.0e-04 loss: 3.178e-02]wan_dewa:  92%|#########2| 3226/3500 [2:52:42<10:05,  2.21s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  92%|#########2| 3226/3500 [2:52:42<10:05,  2.21s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  92%|#########2| 3227/3500 [2:52:42<10:08,  2.23s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  92%|#########2| 3227/3500 [2:52:42<10:08,  2.23s/it, lr: 2.0e-04 loss: 3.054e-02]wan_dewa:  92%|#########2| 3227/3500 [2:52:44<10:08,  2.23s/it, lr: 2.0e-04 loss: 2.777e-02]wan_dewa:  92%|#########2| 3227/3500 [2:52:44<10:08,  2.23s/it, lr: 2.0e-04 loss: 2.777e-02]wan_dewa:  92%|#########2| 3228/3500 [2:52:44<10:10,  2.24s/it, lr: 2.0e-04 loss: 2.777e-02]wan_dewa:  92%|#########2| 3228/3500 [2:52:44<10:10,  2.24s/it, lr: 2.0e-04 loss: 2.777e-02]wan_dewa:  92%|#########2| 3228/3500 [2:52:47<10:10,  2.24s/it, lr: 2.0e-04 loss: 2.761e-02]wan_dewa:  92%|#########2| 3228/3500 [2:52:47<10:10,  2.24s/it, lr: 2.0e-04 loss: 2.761e-02]wan_dewa:  92%|#########2| 3229/3500 [2:52:47<10:10,  2.25s/it, lr: 2.0e-04 loss: 2.761e-02]wan_dewa:  92%|#########2| 3229/3500 [2:52:47<10:10,  2.25s/it, lr: 2.0e-04 loss: 2.761e-02]wan_dewa:  92%|#########2| 3229/3500 [2:52:58<10:10,  2.25s/it, lr: 2.0e-04 loss: 4.703e-02]wan_dewa:  92%|#########2| 3229/3500 [2:52:58<10:10,  2.25s/it, lr: 2.0e-04 loss: 4.703e-02]wan_dewa:  92%|#########2| 3230/3500 [2:53:01<10:08,  2.25s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  92%|#########2| 3230/3500 [2:53:01<10:08,  2.25s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  92%|#########2| 3231/3500 [2:53:01<07:49,  1.75s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  92%|#########2| 3231/3500 [2:53:01<07:49,  1.75s/it, lr: 2.0e-04 loss: 5.697e-02]wan_dewa:  92%|#########2| 3231/3500 [2:53:03<07:49,  1.75s/it, lr: 2.0e-04 loss: 3.718e-02]wan_dewa:  92%|#########2| 3231/3500 [2:53:03<07:49,  1.75s/it, lr: 2.0e-04 loss: 3.718e-02]wan_dewa:  92%|#########2| 3232/3500 [2:53:03<08:22,  1.88s/it, lr: 2.0e-04 loss: 3.718e-02]wan_dewa:  92%|#########2| 3232/3500 [2:53:03<08:22,  1.88s/it, lr: 2.0e-04 loss: 3.718e-02]wan_dewa:  92%|#########2| 3232/3500 [2:53:05<08:22,  1.88s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  92%|#########2| 3232/3500 [2:53:05<08:22,  1.88s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  92%|#########2| 3233/3500 [2:53:05<08:48,  1.98s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  92%|#########2| 3233/3500 [2:53:05<08:48,  1.98s/it, lr: 2.0e-04 loss: 3.511e-02]wan_dewa:  92%|#########2| 3233/3500 [2:53:08<08:48,  1.98s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  92%|#########2| 3233/3500 [2:53:08<08:48,  1.98s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  92%|#########2| 3234/3500 [2:53:08<09:07,  2.06s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  92%|#########2| 3234/3500 [2:53:08<09:07,  2.06s/it, lr: 2.0e-04 loss: 4.391e-02]wan_dewa:  92%|#########2| 3234/3500 [2:53:10<09:07,  2.06s/it, lr: 2.0e-04 loss: 6.184e-01]wan_dewa:  92%|#########2| 3234/3500 [2:53:10<09:07,  2.06s/it, lr: 2.0e-04 loss: 6.184e-01]wan_dewa:  92%|#########2| 3235/3500 [2:53:10<09:35,  2.17s/it, lr: 2.0e-04 loss: 6.184e-01]wan_dewa:  92%|#########2| 3235/3500 [2:53:10<09:35,  2.17s/it, lr: 2.0e-04 loss: 6.184e-01]wan_dewa:  92%|#########2| 3235/3500 [2:53:12<09:35,  2.17s/it, lr: 2.0e-04 loss: 7.459e-02]wan_dewa:  92%|#########2| 3235/3500 [2:53:12<09:35,  2.17s/it, lr: 2.0e-04 loss: 7.459e-02]wan_dewa:  92%|#########2| 3236/3500 [2:53:12<09:40,  2.20s/it, lr: 2.0e-04 loss: 7.459e-02]wan_dewa:  92%|#########2| 3236/3500 [2:53:12<09:40,  2.20s/it, lr: 2.0e-04 loss: 7.459e-02]wan_dewa:  92%|#########2| 3236/3500 [2:53:15<09:40,  2.20s/it, lr: 2.0e-04 loss: 1.213e-01]wan_dewa:  92%|#########2| 3236/3500 [2:53:15<09:40,  2.20s/it, lr: 2.0e-04 loss: 1.213e-01]wan_dewa:  92%|#########2| 3237/3500 [2:53:15<09:44,  2.22s/it, lr: 2.0e-04 loss: 1.213e-01]wan_dewa:  92%|#########2| 3237/3500 [2:53:15<09:44,  2.22s/it, lr: 2.0e-04 loss: 1.213e-01]wan_dewa:  92%|#########2| 3237/3500 [2:53:17<09:44,  2.22s/it, lr: 2.0e-04 loss: 3.465e-02]wan_dewa:  92%|#########2| 3237/3500 [2:53:17<09:44,  2.22s/it, lr: 2.0e-04 loss: 3.465e-02]wan_dewa:  93%|#########2| 3238/3500 [2:53:17<09:46,  2.24s/it, lr: 2.0e-04 loss: 3.465e-02]wan_dewa:  93%|#########2| 3238/3500 [2:53:17<09:46,  2.24s/it, lr: 2.0e-04 loss: 3.465e-02]wan_dewa:  93%|#########2| 3238/3500 [2:53:19<09:46,  2.24s/it, lr: 2.0e-04 loss: 6.954e-02]wan_dewa:  93%|#########2| 3238/3500 [2:53:19<09:46,  2.24s/it, lr: 2.0e-04 loss: 6.954e-02]wan_dewa:  93%|#########2| 3239/3500 [2:53:19<09:47,  2.25s/it, lr: 2.0e-04 loss: 6.954e-02]wan_dewa:  93%|#########2| 3239/3500 [2:53:19<09:47,  2.25s/it, lr: 2.0e-04 loss: 6.954e-02]wan_dewa:  93%|#########2| 3239/3500 [2:53:30<09:47,  2.25s/it, lr: 2.0e-04 loss: 2.417e-02]wan_dewa:  93%|#########2| 3239/3500 [2:53:30<09:47,  2.25s/it, lr: 2.0e-04 loss: 2.417e-02]wan_dewa:  93%|#########2| 3240/3500 [2:53:33<09:45,  2.25s/it, lr: 2.0e-04 loss: 2.132e-02]wan_dewa:  93%|#########2| 3240/3500 [2:53:33<09:45,  2.25s/it, lr: 2.0e-04 loss: 2.132e-02]wan_dewa:  93%|#########2| 3241/3500 [2:53:33<07:31,  1.74s/it, lr: 2.0e-04 loss: 2.132e-02]wan_dewa:  93%|#########2| 3241/3500 [2:53:33<07:31,  1.74s/it, lr: 2.0e-04 loss: 2.132e-02]wan_dewa:  93%|#########2| 3241/3500 [2:53:35<07:31,  1.74s/it, lr: 2.0e-04 loss: 4.170e-02]wan_dewa:  93%|#########2| 3241/3500 [2:53:35<07:31,  1.74s/it, lr: 2.0e-04 loss: 4.170e-02]wan_dewa:  93%|#########2| 3242/3500 [2:53:35<08:03,  1.87s/it, lr: 2.0e-04 loss: 4.170e-02]wan_dewa:  93%|#########2| 3242/3500 [2:53:35<08:03,  1.87s/it, lr: 2.0e-04 loss: 4.170e-02]wan_dewa:  93%|#########2| 3242/3500 [2:53:37<08:03,  1.87s/it, lr: 2.0e-04 loss: 3.303e-02]wan_dewa:  93%|#########2| 3242/3500 [2:53:37<08:03,  1.87s/it, lr: 2.0e-04 loss: 3.303e-02]wan_dewa:  93%|#########2| 3243/3500 [2:53:37<08:28,  1.98s/it, lr: 2.0e-04 loss: 3.303e-02]wan_dewa:  93%|#########2| 3243/3500 [2:53:37<08:28,  1.98s/it, lr: 2.0e-04 loss: 3.303e-02]wan_dewa:  93%|#########2| 3243/3500 [2:53:40<08:28,  1.98s/it, lr: 2.0e-04 loss: 1.968e-02]wan_dewa:  93%|#########2| 3243/3500 [2:53:40<08:28,  1.98s/it, lr: 2.0e-04 loss: 1.968e-02]wan_dewa:  93%|#########2| 3244/3500 [2:53:40<08:47,  2.06s/it, lr: 2.0e-04 loss: 1.968e-02]wan_dewa:  93%|#########2| 3244/3500 [2:53:40<08:47,  2.06s/it, lr: 2.0e-04 loss: 1.968e-02]wan_dewa:  93%|#########2| 3244/3500 [2:53:42<08:47,  2.06s/it, lr: 2.0e-04 loss: 3.776e-02]wan_dewa:  93%|#########2| 3244/3500 [2:53:42<08:47,  2.06s/it, lr: 2.0e-04 loss: 3.776e-02]wan_dewa:  93%|#########2| 3245/3500 [2:53:42<09:15,  2.18s/it, lr: 2.0e-04 loss: 3.776e-02]wan_dewa:  93%|#########2| 3245/3500 [2:53:42<09:15,  2.18s/it, lr: 2.0e-04 loss: 3.776e-02]wan_dewa:  93%|#########2| 3245/3500 [2:53:44<09:15,  2.18s/it, lr: 2.0e-04 loss: 4.539e-02]wan_dewa:  93%|#########2| 3245/3500 [2:53:44<09:15,  2.18s/it, lr: 2.0e-04 loss: 4.539e-02]wan_dewa:  93%|#########2| 3246/3500 [2:53:44<09:20,  2.21s/it, lr: 2.0e-04 loss: 4.539e-02]wan_dewa:  93%|#########2| 3246/3500 [2:53:44<09:20,  2.21s/it, lr: 2.0e-04 loss: 4.539e-02]wan_dewa:  93%|#########2| 3246/3500 [2:53:47<09:20,  2.21s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  93%|#########2| 3246/3500 [2:53:47<09:20,  2.21s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  93%|#########2| 3247/3500 [2:53:47<09:23,  2.23s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  93%|#########2| 3247/3500 [2:53:47<09:23,  2.23s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  93%|#########2| 3247/3500 [2:53:49<09:23,  2.23s/it, lr: 2.0e-04 loss: 3.213e-02]wan_dewa:  93%|#########2| 3247/3500 [2:53:49<09:23,  2.23s/it, lr: 2.0e-04 loss: 3.213e-02]wan_dewa:  93%|#########2| 3248/3500 [2:53:49<09:25,  2.24s/it, lr: 2.0e-04 loss: 3.213e-02]wan_dewa:  93%|#########2| 3248/3500 [2:53:49<09:25,  2.24s/it, lr: 2.0e-04 loss: 3.213e-02]wan_dewa:  93%|#########2| 3248/3500 [2:53:51<09:25,  2.24s/it, lr: 2.0e-04 loss: 3.366e-02]wan_dewa:  93%|#########2| 3248/3500 [2:53:51<09:25,  2.24s/it, lr: 2.0e-04 loss: 3.366e-02]wan_dewa:  93%|#########2| 3249/3500 [2:53:51<09:26,  2.26s/it, lr: 2.0e-04 loss: 3.366e-02]wan_dewa:  93%|#########2| 3249/3500 [2:53:51<09:26,  2.26s/it, lr: 2.0e-04 loss: 3.366e-02]wan_dewa:  93%|#########2| 3249/3500 [2:54:05<09:26,  2.26s/it, lr: 2.0e-04 loss: 4.842e-02]wan_dewa:  93%|#########2| 3249/3500 [2:54:05<09:26,  2.26s/it, lr: 2.0e-04 loss: 4.842e-02]
+Saving at step 3250
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa_000003250.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000750_high_noise.safetensors
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000000750_low_noise.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:50,  4.60s/it]  4%|4         | 1/25 [00:04<01:50,  4.60s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:45,  4.60s/it]  8%|8         | 2/25 [00:09<01:45,  4.60s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.61s/it] 12%|#2        | 3/25 [00:13<01:41,  4.61s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:36,  4.61s/it] 16%|#6        | 4/25 [00:18<01:36,  4.61s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:32,  4.61s/it] 20%|##        | 5/25 [00:23<01:32,  4.61s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:27,  4.62s/it] 24%|##4       | 6/25 [00:27<01:27,  4.62s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.62s/it] 28%|##8       | 7/25 [00:32<01:23,  4.62s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:36<01:18,  4.62s/it] 32%|###2      | 8/25 [00:36<01:18,  4.62s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:46<01:41,  6.32s/it] 36%|###6      | 9/25 [00:46<01:41,  6.32s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:51<01:26,  5.80s/it] 40%|####      | 10/25 [00:51<01:26,  5.80s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:56<01:16,  5.44s/it] 44%|####4     | 11/25 [00:56<01:16,  5.44s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.19s/it] 48%|####8     | 12/25 [01:00<01:07,  5.19s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.02s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it] 56%|#####6    | 14/25 [01:10<00:53,  4.90s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:24<00:37,  4.73s/it] 68%|######8   | 17/25 [01:24<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.70s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.67s/it] 80%|########  | 20/25 [01:37<00:23,  4.67s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.67s/it] 84%|########4 | 21/25 [01:42<00:18,  4.67s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.66s/it] 88%|########8 | 22/25 [01:47<00:13,  4.66s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:01<00:00,  4.66s/it]100%|##########| 25/25 [02:01<00:00,  4.66s/it][A[A[A[A100%|##########| 25/25 [02:01<00:00,  4.85s/it]100%|##########| 25/25 [02:01<00:00,  4.85s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.91s/it]Generating Images:  25%|##5       | 1/4 [02:15<06:47, 135.91s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:51,  4.64s/it]  4%|4         | 1/25 [00:04<01:51,  4.64s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.65s/it] 16%|#6        | 4/25 [00:18<01:37,  4.65s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:32,  5.75s/it] 36%|###6      | 9/25 [00:45<01:32,  5.75s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:21,  5.41s/it] 40%|####      | 10/25 [00:50<01:21,  5.41s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.18s/it] 44%|####4     | 11/25 [00:54<01:12,  5.18s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.02s/it] 48%|####8     | 12/25 [00:59<01:05,  5.02s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.91s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.75s/it] 64%|######4   | 16/25 [01:18<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.70s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.68s/it] 88%|########8 | 22/25 [01:46<00:14,  4.68s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.68s/it]100%|##########| 25/25 [02:00<00:00,  4.68s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.80s/it]100%|##########| 25/25 [02:00<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  50%|#####     | 2/4 [04:21<04:20, 130.13s/it]Generating Images:  50%|#####     | 2/4 [04:21<04:20, 130.13s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:53,  4.71s/it]  4%|4         | 1/25 [00:04<01:53,  4.71s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:48,  4.73s/it]  8%|8         | 2/25 [00:09<01:48,  4.73s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:44,  4.74s/it] 12%|#2        | 3/25 [00:14<01:44,  4.74s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:39,  4.75s/it] 16%|#6        | 4/25 [00:18<01:39,  4.75s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:35,  4.75s/it] 20%|##        | 5/25 [00:23<01:35,  4.75s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:30,  4.77s/it] 24%|##4       | 6/25 [00:28<01:30,  4.77s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:33<01:25,  4.77s/it] 28%|##8       | 7/25 [00:33<01:25,  4.77s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:38<01:21,  4.77s/it] 32%|###2      | 8/25 [00:38<01:21,  4.77s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.69s/it] 36%|###6      | 9/25 [00:45<01:30,  5.69s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:50<01:20,  5.37s/it] 40%|####      | 10/25 [00:50<01:20,  5.37s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:55<01:12,  5.15s/it] 44%|####4     | 11/25 [00:55<01:12,  5.15s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:04<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:04<00:58,  4.90s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.84s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.84s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.79s/it] 60%|######    | 15/25 [01:13<00:47,  4.79s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:18<00:42,  4.76s/it] 64%|######4   | 16/25 [01:18<00:42,  4.76s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.73s/it] 68%|######8   | 17/25 [01:23<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:32<00:28,  4.71s/it] 76%|#######6  | 19/25 [01:32<00:28,  4.71s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:37<00:23,  4.70s/it] 80%|########  | 20/25 [01:37<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.70s/it] 84%|########4 | 21/25 [01:41<00:18,  4.70s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:46<00:14,  4.70s/it] 88%|########8 | 22/25 [01:46<00:14,  4.70s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.69s/it] 92%|#########2| 23/25 [01:51<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.69s/it] 96%|#########6| 24/25 [01:55<00:04,  4.69s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [02:00<00:00,  4.69s/it]100%|##########| 25/25 [02:00<00:00,  4.69s/it][A[A[A[A100%|##########| 25/25 [02:00<00:00,  4.83s/it]100%|##########| 25/25 [02:00<00:00,  4.83s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.35s/it]Generating Images:  75%|#######5  | 3/4 [06:28<02:08, 128.35s/it][A[AUnloading vae
+Unloading transformer
+Unloading text encoder
+
+
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A[A[A
+
+
+
+  4%|4         | 1/25 [00:04<01:52,  4.68s/it]  4%|4         | 1/25 [00:04<01:52,  4.68s/it][A[A[A[A
+
+
+
+  8%|8         | 2/25 [00:09<01:47,  4.67s/it]  8%|8         | 2/25 [00:09<01:47,  4.67s/it][A[A[A[A
+
+
+
+ 12%|#2        | 3/25 [00:14<01:42,  4.68s/it] 12%|#2        | 3/25 [00:14<01:42,  4.68s/it][A[A[A[A
+
+
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.68s/it] 16%|#6        | 4/25 [00:18<01:38,  4.68s/it][A[A[A[A
+
+
+
+ 20%|##        | 5/25 [00:23<01:33,  4.68s/it] 20%|##        | 5/25 [00:23<01:33,  4.68s/it][A[A[A[A
+
+
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.68s/it] 24%|##4       | 6/25 [00:28<01:28,  4.68s/it][A[A[A[A
+
+
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.69s/it] 28%|##8       | 7/25 [00:32<01:24,  4.69s/it][A[A[A[A
+
+
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.69s/it] 32%|###2      | 8/25 [00:37<01:19,  4.69s/it][A[A[A[A
+
+
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.60s/it] 36%|###6      | 9/25 [00:45<01:29,  5.60s/it][A[A[A[A
+
+
+
+ 40%|####      | 10/25 [00:49<01:19,  5.31s/it] 40%|####      | 10/25 [00:49<01:19,  5.31s/it][A[A[A[A
+
+
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.11s/it] 44%|####4     | 11/25 [00:54<01:11,  5.11s/it][A[A[A[A
+
+
+
+ 48%|####8     | 12/25 [00:59<01:04,  4.98s/it] 48%|####8     | 12/25 [00:59<01:04,  4.98s/it][A[A[A[A
+
+
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.89s/it][A[A[A[A
+
+
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.82s/it][A[A[A[A
+
+
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A[A[A
+
+
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A[A[A
+
+
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.73s/it] 68%|######8   | 17/25 [01:22<00:37,  4.73s/it][A[A[A[A
+
+
+
+ 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it] 72%|#######2  | 18/25 [01:27<00:33,  4.72s/it][A[A[A[A
+
+
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.71s/it][A[A[A[A
+
+
+
+ 80%|########  | 20/25 [01:36<00:23,  4.70s/it] 80%|########  | 20/25 [01:36<00:23,  4.70s/it][A[A[A[A
+
+
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.70s/it] 84%|########4 | 21/25 [01:41<00:18,  4.70s/it][A[A[A[A
+
+
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A[A[A
+
+
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.69s/it] 92%|#########2| 23/25 [01:50<00:09,  4.69s/it][A[A[A[A
+
+
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.69s/it] 96%|#########6| 24/25 [01:55<00:04,  4.69s/it][A[A[A[A
+
+
+
+100%|##########| 25/25 [01:59<00:00,  4.69s/it]100%|##########| 25/25 [01:59<00:00,  4.69s/it][A[A[A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+
+
+Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.13s/it]Generating Images: 100%|##########| 4/4 [08:33<00:00, 127.13s/it][A[A
+
+                                                                                                                                  [A[Awan_dewa:  93%|#########2| 3250/3500 [2:54:09<09:23,  2.26s/it, lr: 2.0e-04 loss: 9.967e-02]wan_dewa:  93%|#########2| 3250/3500 [2:54:09<09:23,  2.26s/it, lr: 2.0e-04 loss: 9.967e-02]wan_dewa:  93%|#########2| 3251/3500 [2:54:09<08:53,  2.14s/it, lr: 2.0e-04 loss: 9.967e-02]wan_dewa:  93%|#########2| 3251/3500 [2:54:09<08:53,  2.14s/it, lr: 2.0e-04 loss: 9.967e-02]wan_dewa:  93%|#########2| 3251/3500 [2:54:11<08:53,  2.14s/it, lr: 2.0e-04 loss: 2.013e-02]wan_dewa:  93%|#########2| 3251/3500 [2:54:11<08:53,  2.14s/it, lr: 2.0e-04 loss: 2.013e-02]wan_dewa:  93%|#########2| 3252/3500 [2:54:11<09:01,  2.18s/it, lr: 2.0e-04 loss: 2.013e-02]wan_dewa:  93%|#########2| 3252/3500 [2:54:11<09:01,  2.18s/it, lr: 2.0e-04 loss: 2.013e-02]wan_dewa:  93%|#########2| 3252/3500 [2:54:14<09:01,  2.18s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  93%|#########2| 3252/3500 [2:54:14<09:01,  2.18s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  93%|#########2| 3253/3500 [2:54:14<09:07,  2.22s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  93%|#########2| 3253/3500 [2:54:14<09:07,  2.22s/it, lr: 2.0e-04 loss: 3.229e-02]wan_dewa:  93%|#########2| 3253/3500 [2:54:16<09:07,  2.22s/it, lr: 2.0e-04 loss: 2.811e-02]wan_dewa:  93%|#########2| 3253/3500 [2:54:16<09:07,  2.22s/it, lr: 2.0e-04 loss: 2.811e-02]wan_dewa:  93%|#########2| 3254/3500 [2:54:16<09:11,  2.24s/it, lr: 2.0e-04 loss: 2.811e-02]wan_dewa:  93%|#########2| 3254/3500 [2:54:16<09:11,  2.24s/it, lr: 2.0e-04 loss: 2.811e-02]wan_dewa:  93%|#########2| 3254/3500 [2:54:18<09:11,  2.24s/it, lr: 2.0e-04 loss: 3.359e-02]wan_dewa:  93%|#########2| 3254/3500 [2:54:18<09:11,  2.24s/it, lr: 2.0e-04 loss: 3.359e-02]wan_dewa:  93%|#########3| 3255/3500 [2:54:18<09:31,  2.33s/it, lr: 2.0e-04 loss: 3.359e-02]wan_dewa:  93%|#########3| 3255/3500 [2:54:18<09:31,  2.33s/it, lr: 2.0e-04 loss: 3.359e-02]wan_dewa:  93%|#########3| 3255/3500 [2:54:21<09:31,  2.33s/it, lr: 2.0e-04 loss: 7.344e-02]wan_dewa:  93%|#########3| 3255/3500 [2:54:21<09:31,  2.33s/it, lr: 2.0e-04 loss: 7.344e-02]wan_dewa:  93%|#########3| 3256/3500 [2:54:21<09:27,  2.33s/it, lr: 2.0e-04 loss: 7.344e-02]wan_dewa:  93%|#########3| 3256/3500 [2:54:21<09:27,  2.33s/it, lr: 2.0e-04 loss: 7.344e-02]wan_dewa:  93%|#########3| 3256/3500 [2:54:23<09:27,  2.33s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  93%|#########3| 3256/3500 [2:54:23<09:27,  2.33s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  93%|#########3| 3257/3500 [2:54:23<09:24,  2.32s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  93%|#########3| 3257/3500 [2:54:23<09:24,  2.32s/it, lr: 2.0e-04 loss: 5.767e-02]wan_dewa:  93%|#########3| 3257/3500 [2:54:25<09:24,  2.32s/it, lr: 2.0e-04 loss: 2.954e-02]wan_dewa:  93%|#########3| 3257/3500 [2:54:25<09:24,  2.32s/it, lr: 2.0e-04 loss: 2.954e-02]wan_dewa:  93%|#########3| 3258/3500 [2:54:25<09:21,  2.32s/it, lr: 2.0e-04 loss: 2.954e-02]wan_dewa:  93%|#########3| 3258/3500 [2:54:25<09:21,  2.32s/it, lr: 2.0e-04 loss: 2.954e-02]wan_dewa:  93%|#########3| 3258/3500 [2:54:28<09:21,  2.32s/it, lr: 2.0e-04 loss: 6.357e-02]wan_dewa:  93%|#########3| 3258/3500 [2:54:28<09:21,  2.32s/it, lr: 2.0e-04 loss: 6.357e-02]wan_dewa:  93%|#########3| 3259/3500 [2:54:28<09:18,  2.32s/it, lr: 2.0e-04 loss: 6.357e-02]wan_dewa:  93%|#########3| 3259/3500 [2:54:28<09:18,  2.32s/it, lr: 2.0e-04 loss: 6.357e-02]wan_dewa:  93%|#########3| 3259/3500 [2:54:33<09:18,  2.32s/it, lr: 2.0e-04 loss: 3.128e-02]wan_dewa:  93%|#########3| 3259/3500 [2:54:33<09:18,  2.32s/it, lr: 2.0e-04 loss: 3.128e-02]wan_dewa:  93%|#########3| 3260/3500 [2:54:35<09:16,  2.32s/it, lr: 2.0e-04 loss: 2.348e-02]wan_dewa:  93%|#########3| 3260/3500 [2:54:35<09:16,  2.32s/it, lr: 2.0e-04 loss: 2.348e-02]wan_dewa:  93%|#########3| 3261/3500 [2:54:35<07:16,  1.83s/it, lr: 2.0e-04 loss: 2.348e-02]wan_dewa:  93%|#########3| 3261/3500 [2:54:35<07:16,  1.83s/it, lr: 2.0e-04 loss: 2.348e-02]wan_dewa:  93%|#########3| 3261/3500 [2:54:38<07:16,  1.83s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  93%|#########3| 3261/3500 [2:54:38<07:16,  1.83s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  93%|#########3| 3262/3500 [2:54:38<07:43,  1.95s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  93%|#########3| 3262/3500 [2:54:38<07:43,  1.95s/it, lr: 2.0e-04 loss: 3.764e-02]wan_dewa:  93%|#########3| 3262/3500 [2:54:40<07:43,  1.95s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  93%|#########3| 3262/3500 [2:54:40<07:43,  1.95s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  93%|#########3| 3263/3500 [2:54:40<08:03,  2.04s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  93%|#########3| 3263/3500 [2:54:40<08:03,  2.04s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  93%|#########3| 3263/3500 [2:54:42<08:03,  2.04s/it, lr: 2.0e-04 loss: 2.162e-02]wan_dewa:  93%|#########3| 3263/3500 [2:54:42<08:03,  2.04s/it, lr: 2.0e-04 loss: 2.162e-02]wan_dewa:  93%|#########3| 3264/3500 [2:54:42<08:18,  2.11s/it, lr: 2.0e-04 loss: 2.162e-02]wan_dewa:  93%|#########3| 3264/3500 [2:54:42<08:18,  2.11s/it, lr: 2.0e-04 loss: 2.162e-02]wan_dewa:  93%|#########3| 3264/3500 [2:54:45<08:18,  2.11s/it, lr: 2.0e-04 loss: 2.850e-02]wan_dewa:  93%|#########3| 3264/3500 [2:54:45<08:18,  2.11s/it, lr: 2.0e-04 loss: 2.850e-02]wan_dewa:  93%|#########3| 3265/3500 [2:54:45<08:28,  2.17s/it, lr: 2.0e-04 loss: 2.850e-02]wan_dewa:  93%|#########3| 3265/3500 [2:54:45<08:28,  2.17s/it, lr: 2.0e-04 loss: 2.850e-02]wan_dewa:  93%|#########3| 3265/3500 [2:54:47<08:28,  2.17s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  93%|#########3| 3265/3500 [2:54:47<08:28,  2.17s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  93%|#########3| 3266/3500 [2:54:47<08:48,  2.26s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  93%|#########3| 3266/3500 [2:54:47<08:48,  2.26s/it, lr: 2.0e-04 loss: 4.450e-02]wan_dewa:  93%|#########3| 3266/3500 [2:54:49<08:48,  2.26s/it, lr: 2.0e-04 loss: 4.036e-02]wan_dewa:  93%|#########3| 3266/3500 [2:54:49<08:48,  2.26s/it, lr: 2.0e-04 loss: 4.036e-02]wan_dewa:  93%|#########3| 3267/3500 [2:54:49<08:49,  2.27s/it, lr: 2.0e-04 loss: 4.036e-02]wan_dewa:  93%|#########3| 3267/3500 [2:54:49<08:49,  2.27s/it, lr: 2.0e-04 loss: 4.036e-02]wan_dewa:  93%|#########3| 3267/3500 [2:54:52<08:49,  2.27s/it, lr: 2.0e-04 loss: 4.164e-02]wan_dewa:  93%|#########3| 3267/3500 [2:54:52<08:49,  2.27s/it, lr: 2.0e-04 loss: 4.164e-02]wan_dewa:  93%|#########3| 3268/3500 [2:54:52<08:49,  2.28s/it, lr: 2.0e-04 loss: 4.164e-02]wan_dewa:  93%|#########3| 3268/3500 [2:54:52<08:49,  2.28s/it, lr: 2.0e-04 loss: 4.164e-02]wan_dewa:  93%|#########3| 3268/3500 [2:54:54<08:49,  2.28s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  93%|#########3| 3268/3500 [2:54:54<08:49,  2.28s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  93%|#########3| 3269/3500 [2:54:54<08:49,  2.29s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  93%|#########3| 3269/3500 [2:54:54<08:49,  2.29s/it, lr: 2.0e-04 loss: 3.770e-02]wan_dewa:  93%|#########3| 3269/3500 [2:54:59<08:49,  2.29s/it, lr: 2.0e-04 loss: 2.717e-01]wan_dewa:  93%|#########3| 3269/3500 [2:54:59<08:49,  2.29s/it, lr: 2.0e-04 loss: 2.717e-01]wan_dewa:  93%|#########3| 3270/3500 [2:55:02<08:46,  2.29s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  93%|#########3| 3270/3500 [2:55:02<08:46,  2.29s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  93%|#########3| 3271/3500 [2:55:02<06:55,  1.82s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  93%|#########3| 3271/3500 [2:55:02<06:55,  1.82s/it, lr: 2.0e-04 loss: 1.540e-01]wan_dewa:  93%|#########3| 3271/3500 [2:55:04<06:55,  1.82s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  93%|#########3| 3271/3500 [2:55:04<06:55,  1.82s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  93%|#########3| 3272/3500 [2:55:04<07:21,  1.94s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  93%|#########3| 3272/3500 [2:55:04<07:21,  1.94s/it, lr: 2.0e-04 loss: 3.989e-02]wan_dewa:  93%|#########3| 3272/3500 [2:55:06<07:21,  1.94s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  93%|#########3| 3272/3500 [2:55:06<07:21,  1.94s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  94%|#########3| 3273/3500 [2:55:06<07:41,  2.03s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  94%|#########3| 3273/3500 [2:55:06<07:41,  2.03s/it, lr: 2.0e-04 loss: 5.165e-02]wan_dewa:  94%|#########3| 3273/3500 [2:55:09<07:41,  2.03s/it, lr: 2.0e-04 loss: 2.603e-01]wan_dewa:  94%|#########3| 3273/3500 [2:55:09<07:41,  2.03s/it, lr: 2.0e-04 loss: 2.603e-01]wan_dewa:  94%|#########3| 3274/3500 [2:55:09<07:55,  2.11s/it, lr: 2.0e-04 loss: 2.603e-01]wan_dewa:  94%|#########3| 3274/3500 [2:55:09<07:55,  2.11s/it, lr: 2.0e-04 loss: 2.603e-01]wan_dewa:  94%|#########3| 3274/3500 [2:55:14<07:55,  2.11s/it, lr: 2.0e-04 loss: 6.064e-02]wan_dewa:  94%|#########3| 3274/3500 [2:55:14<07:55,  2.11s/it, lr: 2.0e-04 loss: 6.064e-02]wan_dewa:  94%|#########3| 3275/3500 [2:55:14<08:08,  2.17s/it, lr: 2.0e-04 loss: 6.064e-02]wan_dewa:  94%|#########3| 3275/3500 [2:55:14<08:08,  2.17s/it, lr: 2.0e-04 loss: 6.064e-02]wan_dewa:  94%|#########3| 3275/3500 [2:55:16<08:08,  2.17s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  94%|#########3| 3275/3500 [2:55:16<08:08,  2.17s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  94%|#########3| 3276/3500 [2:55:16<08:14,  2.21s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  94%|#########3| 3276/3500 [2:55:16<08:14,  2.21s/it, lr: 2.0e-04 loss: 6.095e-02]wan_dewa:  94%|#########3| 3276/3500 [2:55:19<08:14,  2.21s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  94%|#########3| 3276/3500 [2:55:19<08:14,  2.21s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  94%|#########3| 3277/3500 [2:55:19<08:40,  2.33s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  94%|#########3| 3277/3500 [2:55:19<08:40,  2.33s/it, lr: 2.0e-04 loss: 5.459e-02]wan_dewa:  94%|#########3| 3277/3500 [2:55:21<08:40,  2.33s/it, lr: 2.0e-04 loss: 4.750e-02]wan_dewa:  94%|#########3| 3277/3500 [2:55:21<08:40,  2.33s/it, lr: 2.0e-04 loss: 4.750e-02]wan_dewa:  94%|#########3| 3278/3500 [2:55:21<08:36,  2.33s/it, lr: 2.0e-04 loss: 4.750e-02]wan_dewa:  94%|#########3| 3278/3500 [2:55:21<08:36,  2.33s/it, lr: 2.0e-04 loss: 4.750e-02]wan_dewa:  94%|#########3| 3278/3500 [2:55:23<08:36,  2.33s/it, lr: 2.0e-04 loss: 5.387e-02]wan_dewa:  94%|#########3| 3278/3500 [2:55:23<08:36,  2.33s/it, lr: 2.0e-04 loss: 5.387e-02]wan_dewa:  94%|#########3| 3279/3500 [2:55:23<08:32,  2.32s/it, lr: 2.0e-04 loss: 5.387e-02]wan_dewa:  94%|#########3| 3279/3500 [2:55:23<08:32,  2.32s/it, lr: 2.0e-04 loss: 5.387e-02]wan_dewa:  94%|#########3| 3279/3500 [2:55:35<08:32,  2.32s/it, lr: 2.0e-04 loss: 3.142e-02]wan_dewa:  94%|#########3| 3279/3500 [2:55:35<08:32,  2.32s/it, lr: 2.0e-04 loss: 3.142e-02]wan_dewa:  94%|#########3| 3280/3500 [2:55:37<08:30,  2.32s/it, lr: 2.0e-04 loss: 4.210e-02]wan_dewa:  94%|#########3| 3280/3500 [2:55:37<08:30,  2.32s/it, lr: 2.0e-04 loss: 4.210e-02]wan_dewa:  94%|#########3| 3281/3500 [2:55:37<06:30,  1.78s/it, lr: 2.0e-04 loss: 4.210e-02]wan_dewa:  94%|#########3| 3281/3500 [2:55:37<06:30,  1.78s/it, lr: 2.0e-04 loss: 4.210e-02]wan_dewa:  94%|#########3| 3281/3500 [2:55:39<06:30,  1.78s/it, lr: 2.0e-04 loss: 2.250e-02]wan_dewa:  94%|#########3| 3281/3500 [2:55:39<06:30,  1.78s/it, lr: 2.0e-04 loss: 2.250e-02]wan_dewa:  94%|#########3| 3282/3500 [2:55:39<07:08,  1.97s/it, lr: 2.0e-04 loss: 2.250e-02]wan_dewa:  94%|#########3| 3282/3500 [2:55:39<07:08,  1.97s/it, lr: 2.0e-04 loss: 2.250e-02]wan_dewa:  94%|#########3| 3282/3500 [2:55:42<07:08,  1.97s/it, lr: 2.0e-04 loss: 3.815e-02]wan_dewa:  94%|#########3| 3282/3500 [2:55:42<07:08,  1.97s/it, lr: 2.0e-04 loss: 3.815e-02]wan_dewa:  94%|#########3| 3283/3500 [2:55:42<07:25,  2.05s/it, lr: 2.0e-04 loss: 3.815e-02]wan_dewa:  94%|#########3| 3283/3500 [2:55:42<07:25,  2.05s/it, lr: 2.0e-04 loss: 3.815e-02]wan_dewa:  94%|#########3| 3283/3500 [2:55:44<07:25,  2.05s/it, lr: 2.0e-04 loss: 3.476e-02]wan_dewa:  94%|#########3| 3283/3500 [2:55:44<07:25,  2.05s/it, lr: 2.0e-04 loss: 3.476e-02]wan_dewa:  94%|#########3| 3284/3500 [2:55:44<07:37,  2.12s/it, lr: 2.0e-04 loss: 3.476e-02]wan_dewa:  94%|#########3| 3284/3500 [2:55:44<07:37,  2.12s/it, lr: 2.0e-04 loss: 3.476e-02]wan_dewa:  94%|#########3| 3284/3500 [2:55:46<07:37,  2.12s/it, lr: 2.0e-04 loss: 3.721e-02]wan_dewa:  94%|#########3| 3284/3500 [2:55:46<07:37,  2.12s/it, lr: 2.0e-04 loss: 3.721e-02]wan_dewa:  94%|#########3| 3285/3500 [2:55:46<07:46,  2.17s/it, lr: 2.0e-04 loss: 3.721e-02]wan_dewa:  94%|#########3| 3285/3500 [2:55:46<07:46,  2.17s/it, lr: 2.0e-04 loss: 3.721e-02]wan_dewa:  94%|#########3| 3285/3500 [2:55:49<07:46,  2.17s/it, lr: 2.0e-04 loss: 2.557e-02]wan_dewa:  94%|#########3| 3285/3500 [2:55:49<07:46,  2.17s/it, lr: 2.0e-04 loss: 2.557e-02]wan_dewa:  94%|#########3| 3286/3500 [2:55:49<07:51,  2.20s/it, lr: 2.0e-04 loss: 2.557e-02]wan_dewa:  94%|#########3| 3286/3500 [2:55:49<07:51,  2.20s/it, lr: 2.0e-04 loss: 2.557e-02]wan_dewa:  94%|#########3| 3286/3500 [2:55:51<07:51,  2.20s/it, lr: 2.0e-04 loss: 2.685e-02]wan_dewa:  94%|#########3| 3286/3500 [2:55:51<07:51,  2.20s/it, lr: 2.0e-04 loss: 2.685e-02]wan_dewa:  94%|#########3| 3287/3500 [2:55:51<08:09,  2.30s/it, lr: 2.0e-04 loss: 2.685e-02]wan_dewa:  94%|#########3| 3287/3500 [2:55:51<08:09,  2.30s/it, lr: 2.0e-04 loss: 2.685e-02]wan_dewa:  94%|#########3| 3287/3500 [2:55:53<08:09,  2.30s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  94%|#########3| 3287/3500 [2:55:53<08:09,  2.30s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  94%|#########3| 3288/3500 [2:55:53<08:07,  2.30s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  94%|#########3| 3288/3500 [2:55:53<08:07,  2.30s/it, lr: 2.0e-04 loss: 3.187e-02]wan_dewa:  94%|#########3| 3288/3500 [2:55:56<08:07,  2.30s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  94%|#########3| 3288/3500 [2:55:56<08:07,  2.30s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  94%|#########3| 3289/3500 [2:55:56<08:05,  2.30s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  94%|#########3| 3289/3500 [2:55:56<08:05,  2.30s/it, lr: 2.0e-04 loss: 3.589e-02]wan_dewa:  94%|#########3| 3289/3500 [2:56:07<08:05,  2.30s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  94%|#########3| 3289/3500 [2:56:07<08:05,  2.30s/it, lr: 2.0e-04 loss: 2.749e-02]wan_dewa:  94%|#########3| 3290/3500 [2:56:09<08:02,  2.30s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  94%|#########3| 3290/3500 [2:56:09<08:02,  2.30s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  94%|#########4| 3291/3500 [2:56:09<06:10,  1.77s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  94%|#########4| 3291/3500 [2:56:09<06:10,  1.77s/it, lr: 2.0e-04 loss: 1.024e-01]wan_dewa:  94%|#########4| 3291/3500 [2:56:12<06:10,  1.77s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  94%|#########4| 3291/3500 [2:56:12<06:10,  1.77s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  94%|#########4| 3292/3500 [2:56:12<06:44,  1.94s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  94%|#########4| 3292/3500 [2:56:12<06:44,  1.94s/it, lr: 2.0e-04 loss: 5.897e-02]wan_dewa:  94%|#########4| 3292/3500 [2:56:14<06:44,  1.94s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  94%|#########4| 3292/3500 [2:56:14<06:44,  1.94s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  94%|#########4| 3293/3500 [2:56:14<07:01,  2.04s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  94%|#########4| 3293/3500 [2:56:14<07:01,  2.04s/it, lr: 2.0e-04 loss: 5.695e-02]wan_dewa:  94%|#########4| 3293/3500 [2:56:16<07:01,  2.04s/it, lr: 2.0e-04 loss: 5.485e-02]wan_dewa:  94%|#########4| 3293/3500 [2:56:16<07:01,  2.04s/it, lr: 2.0e-04 loss: 5.485e-02]wan_dewa:  94%|#########4| 3294/3500 [2:56:16<07:14,  2.11s/it, lr: 2.0e-04 loss: 5.485e-02]wan_dewa:  94%|#########4| 3294/3500 [2:56:16<07:14,  2.11s/it, lr: 2.0e-04 loss: 5.485e-02]wan_dewa:  94%|#########4| 3294/3500 [2:56:19<07:14,  2.11s/it, lr: 2.0e-04 loss: 6.323e-02]wan_dewa:  94%|#########4| 3294/3500 [2:56:19<07:14,  2.11s/it, lr: 2.0e-04 loss: 6.323e-02]wan_dewa:  94%|#########4| 3295/3500 [2:56:19<07:22,  2.16s/it, lr: 2.0e-04 loss: 6.323e-02]wan_dewa:  94%|#########4| 3295/3500 [2:56:19<07:22,  2.16s/it, lr: 2.0e-04 loss: 6.323e-02]wan_dewa:  94%|#########4| 3295/3500 [2:56:21<07:22,  2.16s/it, lr: 2.0e-04 loss: 2.579e-02]wan_dewa:  94%|#########4| 3295/3500 [2:56:21<07:22,  2.16s/it, lr: 2.0e-04 loss: 2.579e-02]wan_dewa:  94%|#########4| 3296/3500 [2:56:21<07:28,  2.20s/it, lr: 2.0e-04 loss: 2.579e-02]wan_dewa:  94%|#########4| 3296/3500 [2:56:21<07:28,  2.20s/it, lr: 2.0e-04 loss: 2.579e-02]wan_dewa:  94%|#########4| 3296/3500 [2:56:23<07:28,  2.20s/it, lr: 2.0e-04 loss: 2.265e-02]wan_dewa:  94%|#########4| 3296/3500 [2:56:23<07:28,  2.20s/it, lr: 2.0e-04 loss: 2.265e-02]wan_dewa:  94%|#########4| 3297/3500 [2:56:23<07:32,  2.23s/it, lr: 2.0e-04 loss: 2.265e-02]wan_dewa:  94%|#########4| 3297/3500 [2:56:23<07:32,  2.23s/it, lr: 2.0e-04 loss: 2.265e-02]wan_dewa:  94%|#########4| 3297/3500 [2:56:26<07:32,  2.23s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  94%|#########4| 3297/3500 [2:56:26<07:32,  2.23s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  94%|#########4| 3298/3500 [2:56:26<07:48,  2.32s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  94%|#########4| 3298/3500 [2:56:26<07:48,  2.32s/it, lr: 2.0e-04 loss: 1.321e-01]wan_dewa:  94%|#########4| 3298/3500 [2:56:28<07:48,  2.32s/it, lr: 2.0e-04 loss: 8.273e-02]wan_dewa:  94%|#########4| 3298/3500 [2:56:28<07:48,  2.32s/it, lr: 2.0e-04 loss: 8.273e-02]wan_dewa:  94%|#########4| 3299/3500 [2:56:28<07:45,  2.32s/it, lr: 2.0e-04 loss: 8.273e-02]wan_dewa:  94%|#########4| 3299/3500 [2:56:28<07:45,  2.32s/it, lr: 2.0e-04 loss: 8.273e-02]wan_dewa:  94%|#########4| 3299/3500 [2:56:41<07:45,  2.32s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  94%|#########4| 3299/3500 [2:56:41<07:45,  2.32s/it, lr: 2.0e-04 loss: 4.110e-02]wan_dewa:  94%|#########4| 3300/3500 [2:56:43<07:43,  2.32s/it, lr: 2.0e-04 loss: 2.197e-02]wan_dewa:  94%|#########4| 3300/3500 [2:56:43<07:43,  2.32s/it, lr: 2.0e-04 loss: 2.197e-02]wan_dewa:  94%|#########4| 3301/3500 [2:56:43<05:54,  1.78s/it, lr: 2.0e-04 loss: 2.197e-02]wan_dewa:  94%|#########4| 3301/3500 [2:56:43<05:54,  1.78s/it, lr: 2.0e-04 loss: 2.197e-02]wan_dewa:  94%|#########4| 3301/3500 [2:56:46<05:54,  1.78s/it, lr: 2.0e-04 loss: 2.894e-02]wan_dewa:  94%|#########4| 3301/3500 [2:56:46<05:54,  1.78s/it, lr: 2.0e-04 loss: 2.894e-02]wan_dewa:  94%|#########4| 3302/3500 [2:56:46<06:16,  1.90s/it, lr: 2.0e-04 loss: 2.894e-02]wan_dewa:  94%|#########4| 3302/3500 [2:56:46<06:16,  1.90s/it, lr: 2.0e-04 loss: 2.894e-02]wan_dewa:  94%|#########4| 3302/3500 [2:56:48<06:16,  1.90s/it, lr: 2.0e-04 loss: 2.932e-02]wan_dewa:  94%|#########4| 3302/3500 [2:56:48<06:16,  1.90s/it, lr: 2.0e-04 loss: 2.932e-02]wan_dewa:  94%|#########4| 3303/3500 [2:56:48<06:51,  2.09s/it, lr: 2.0e-04 loss: 2.932e-02]wan_dewa:  94%|#########4| 3303/3500 [2:56:48<06:51,  2.09s/it, lr: 2.0e-04 loss: 2.932e-02]wan_dewa:  94%|#########4| 3303/3500 [2:56:51<06:51,  2.09s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  94%|#########4| 3303/3500 [2:56:51<06:51,  2.09s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  94%|#########4| 3304/3500 [2:56:51<06:59,  2.14s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  94%|#########4| 3304/3500 [2:56:51<06:59,  2.14s/it, lr: 2.0e-04 loss: 3.296e-02]wan_dewa:  94%|#########4| 3304/3500 [2:56:53<06:59,  2.14s/it, lr: 2.0e-04 loss: 2.991e-02]wan_dewa:  94%|#########4| 3304/3500 [2:56:53<06:59,  2.14s/it, lr: 2.0e-04 loss: 2.991e-02]wan_dewa:  94%|#########4| 3305/3500 [2:56:53<07:05,  2.18s/it, lr: 2.0e-04 loss: 2.991e-02]wan_dewa:  94%|#########4| 3305/3500 [2:56:53<07:05,  2.18s/it, lr: 2.0e-04 loss: 2.991e-02]wan_dewa:  94%|#########4| 3305/3500 [2:56:55<07:05,  2.18s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  94%|#########4| 3305/3500 [2:56:55<07:05,  2.18s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  94%|#########4| 3306/3500 [2:56:55<07:08,  2.21s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  94%|#########4| 3306/3500 [2:56:55<07:08,  2.21s/it, lr: 2.0e-04 loss: 3.403e-02]wan_dewa:  94%|#########4| 3306/3500 [2:56:57<07:08,  2.21s/it, lr: 2.0e-04 loss: 3.524e-02]wan_dewa:  94%|#########4| 3306/3500 [2:56:57<07:08,  2.21s/it, lr: 2.0e-04 loss: 3.524e-02]wan_dewa:  94%|#########4| 3307/3500 [2:56:57<07:10,  2.23s/it, lr: 2.0e-04 loss: 3.524e-02]wan_dewa:  94%|#########4| 3307/3500 [2:56:57<07:10,  2.23s/it, lr: 2.0e-04 loss: 3.524e-02]wan_dewa:  94%|#########4| 3307/3500 [2:57:00<07:10,  2.23s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  94%|#########4| 3307/3500 [2:57:00<07:10,  2.23s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  95%|#########4| 3308/3500 [2:57:00<07:22,  2.31s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  95%|#########4| 3308/3500 [2:57:00<07:22,  2.31s/it, lr: 2.0e-04 loss: 3.659e-02]wan_dewa:  95%|#########4| 3308/3500 [2:57:02<07:22,  2.31s/it, lr: 2.0e-04 loss: 3.499e-02]wan_dewa:  95%|#########4| 3308/3500 [2:57:02<07:22,  2.31s/it, lr: 2.0e-04 loss: 3.499e-02]wan_dewa:  95%|#########4| 3309/3500 [2:57:02<07:19,  2.30s/it, lr: 2.0e-04 loss: 3.499e-02]wan_dewa:  95%|#########4| 3309/3500 [2:57:02<07:19,  2.30s/it, lr: 2.0e-04 loss: 3.499e-02]wan_dewa:  95%|#########4| 3309/3500 [2:57:13<07:19,  2.30s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  95%|#########4| 3309/3500 [2:57:13<07:19,  2.30s/it, lr: 2.0e-04 loss: 2.122e-01]wan_dewa:  95%|#########4| 3310/3500 [2:57:16<07:16,  2.30s/it, lr: 2.0e-04 loss: 9.624e-02]wan_dewa:  95%|#########4| 3310/3500 [2:57:16<07:16,  2.30s/it, lr: 2.0e-04 loss: 9.624e-02]wan_dewa:  95%|#########4| 3311/3500 [2:57:16<05:34,  1.77s/it, lr: 2.0e-04 loss: 9.624e-02]wan_dewa:  95%|#########4| 3311/3500 [2:57:16<05:34,  1.77s/it, lr: 2.0e-04 loss: 9.624e-02]wan_dewa:  95%|#########4| 3311/3500 [2:57:18<05:34,  1.77s/it, lr: 2.0e-04 loss: 8.700e-02]wan_dewa:  95%|#########4| 3311/3500 [2:57:18<05:34,  1.77s/it, lr: 2.0e-04 loss: 8.700e-02]wan_dewa:  95%|#########4| 3312/3500 [2:57:18<05:56,  1.90s/it, lr: 2.0e-04 loss: 8.700e-02]wan_dewa:  95%|#########4| 3312/3500 [2:57:18<05:56,  1.90s/it, lr: 2.0e-04 loss: 8.700e-02]wan_dewa:  95%|#########4| 3312/3500 [2:57:20<05:56,  1.90s/it, lr: 2.0e-04 loss: 5.479e-02]wan_dewa:  95%|#########4| 3312/3500 [2:57:20<05:56,  1.90s/it, lr: 2.0e-04 loss: 5.479e-02]wan_dewa:  95%|#########4| 3313/3500 [2:57:20<06:24,  2.06s/it, lr: 2.0e-04 loss: 5.479e-02]wan_dewa:  95%|#########4| 3313/3500 [2:57:20<06:24,  2.06s/it, lr: 2.0e-04 loss: 5.479e-02]wan_dewa:  95%|#########4| 3313/3500 [2:57:23<06:24,  2.06s/it, lr: 2.0e-04 loss: 5.258e-02]wan_dewa:  95%|#########4| 3313/3500 [2:57:23<06:24,  2.06s/it, lr: 2.0e-04 loss: 5.258e-02]wan_dewa:  95%|#########4| 3314/3500 [2:57:23<06:34,  2.12s/it, lr: 2.0e-04 loss: 5.258e-02]wan_dewa:  95%|#########4| 3314/3500 [2:57:23<06:34,  2.12s/it, lr: 2.0e-04 loss: 5.258e-02]wan_dewa:  95%|#########4| 3314/3500 [2:57:25<06:34,  2.12s/it, lr: 2.0e-04 loss: 7.437e-02]wan_dewa:  95%|#########4| 3314/3500 [2:57:25<06:34,  2.12s/it, lr: 2.0e-04 loss: 7.437e-02]wan_dewa:  95%|#########4| 3315/3500 [2:57:25<06:41,  2.17s/it, lr: 2.0e-04 loss: 7.437e-02]wan_dewa:  95%|#########4| 3315/3500 [2:57:25<06:41,  2.17s/it, lr: 2.0e-04 loss: 7.437e-02]wan_dewa:  95%|#########4| 3315/3500 [2:57:27<06:41,  2.17s/it, lr: 2.0e-04 loss: 4.678e-02]wan_dewa:  95%|#########4| 3315/3500 [2:57:27<06:41,  2.17s/it, lr: 2.0e-04 loss: 4.678e-02]wan_dewa:  95%|#########4| 3316/3500 [2:57:27<06:46,  2.21s/it, lr: 2.0e-04 loss: 4.678e-02]wan_dewa:  95%|#########4| 3316/3500 [2:57:27<06:46,  2.21s/it, lr: 2.0e-04 loss: 4.678e-02]wan_dewa:  95%|#########4| 3316/3500 [2:57:30<06:46,  2.21s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  95%|#########4| 3316/3500 [2:57:30<06:46,  2.21s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  95%|#########4| 3317/3500 [2:57:30<06:48,  2.23s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  95%|#########4| 3317/3500 [2:57:30<06:48,  2.23s/it, lr: 2.0e-04 loss: 4.171e-02]wan_dewa:  95%|#########4| 3317/3500 [2:57:32<06:48,  2.23s/it, lr: 2.0e-04 loss: 2.113e-01]wan_dewa:  95%|#########4| 3317/3500 [2:57:32<06:48,  2.23s/it, lr: 2.0e-04 loss: 2.113e-01]wan_dewa:  95%|#########4| 3318/3500 [2:57:32<06:49,  2.25s/it, lr: 2.0e-04 loss: 2.113e-01]wan_dewa:  95%|#########4| 3318/3500 [2:57:32<06:49,  2.25s/it, lr: 2.0e-04 loss: 2.113e-01]wan_dewa:  95%|#########4| 3318/3500 [2:57:34<06:49,  2.25s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  95%|#########4| 3318/3500 [2:57:34<06:49,  2.25s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  95%|#########4| 3319/3500 [2:57:34<07:00,  2.32s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  95%|#########4| 3319/3500 [2:57:34<07:00,  2.32s/it, lr: 2.0e-04 loss: 4.367e-02]wan_dewa:  95%|#########4| 3319/3500 [2:57:42<07:00,  2.32s/it, lr: 2.0e-04 loss: 3.930e-02]wan_dewa:  95%|#########4| 3319/3500 [2:57:42<07:00,  2.32s/it, lr: 2.0e-04 loss: 3.930e-02]wan_dewa:  95%|#########4| 3320/3500 [2:57:44<06:58,  2.32s/it, lr: 2.0e-04 loss: 4.601e-02]wan_dewa:  95%|#########4| 3320/3500 [2:57:44<06:58,  2.32s/it, lr: 2.0e-04 loss: 4.601e-02]wan_dewa:  95%|#########4| 3321/3500 [2:57:44<05:19,  1.78s/it, lr: 2.0e-04 loss: 4.601e-02]wan_dewa:  95%|#########4| 3321/3500 [2:57:44<05:19,  1.78s/it, lr: 2.0e-04 loss: 4.601e-02]wan_dewa:  95%|#########4| 3321/3500 [2:57:47<05:19,  1.78s/it, lr: 2.0e-04 loss: 3.503e-02]wan_dewa:  95%|#########4| 3321/3500 [2:57:47<05:19,  1.78s/it, lr: 2.0e-04 loss: 3.503e-02]wan_dewa:  95%|#########4| 3322/3500 [2:57:47<05:39,  1.91s/it, lr: 2.0e-04 loss: 3.503e-02]wan_dewa:  95%|#########4| 3322/3500 [2:57:47<05:39,  1.91s/it, lr: 2.0e-04 loss: 3.503e-02]wan_dewa:  95%|#########4| 3322/3500 [2:57:49<05:39,  1.91s/it, lr: 2.0e-04 loss: 1.768e-02]wan_dewa:  95%|#########4| 3322/3500 [2:57:49<05:39,  1.91s/it, lr: 2.0e-04 loss: 1.768e-02]wan_dewa:  95%|#########4| 3323/3500 [2:57:49<05:54,  2.00s/it, lr: 2.0e-04 loss: 1.768e-02]wan_dewa:  95%|#########4| 3323/3500 [2:57:49<05:54,  2.00s/it, lr: 2.0e-04 loss: 1.768e-02]wan_dewa:  95%|#########4| 3323/3500 [2:57:51<05:54,  2.00s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  95%|#########4| 3323/3500 [2:57:51<05:54,  2.00s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  95%|#########4| 3324/3500 [2:57:51<06:15,  2.13s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  95%|#########4| 3324/3500 [2:57:51<06:15,  2.13s/it, lr: 2.0e-04 loss: 3.941e-02]wan_dewa:  95%|#########4| 3324/3500 [2:57:56<06:15,  2.13s/it, lr: 2.0e-04 loss: 1.517e-02]wan_dewa:  95%|#########4| 3324/3500 [2:57:56<06:15,  2.13s/it, lr: 2.0e-04 loss: 1.517e-02]wan_dewa:  95%|#########5| 3325/3500 [2:57:56<06:22,  2.18s/it, lr: 2.0e-04 loss: 1.517e-02]wan_dewa:  95%|#########5| 3325/3500 [2:57:56<06:22,  2.18s/it, lr: 2.0e-04 loss: 1.517e-02]wan_dewa:  95%|#########5| 3325/3500 [2:57:58<06:22,  2.18s/it, lr: 2.0e-04 loss: 2.965e-02]wan_dewa:  95%|#########5| 3325/3500 [2:57:58<06:22,  2.18s/it, lr: 2.0e-04 loss: 2.965e-02]wan_dewa:  95%|#########5| 3326/3500 [2:57:58<06:24,  2.21s/it, lr: 2.0e-04 loss: 2.965e-02]wan_dewa:  95%|#########5| 3326/3500 [2:57:58<06:24,  2.21s/it, lr: 2.0e-04 loss: 2.965e-02]wan_dewa:  95%|#########5| 3326/3500 [2:58:01<06:24,  2.21s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  95%|#########5| 3326/3500 [2:58:01<06:24,  2.21s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  95%|#########5| 3327/3500 [2:58:01<06:26,  2.23s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  95%|#########5| 3327/3500 [2:58:01<06:26,  2.23s/it, lr: 2.0e-04 loss: 3.373e-02]wan_dewa:  95%|#########5| 3327/3500 [2:58:03<06:26,  2.23s/it, lr: 2.0e-04 loss: 2.569e-02]wan_dewa:  95%|#########5| 3327/3500 [2:58:03<06:26,  2.23s/it, lr: 2.0e-04 loss: 2.569e-02]wan_dewa:  95%|#########5| 3328/3500 [2:58:03<06:26,  2.25s/it, lr: 2.0e-04 loss: 2.569e-02]wan_dewa:  95%|#########5| 3328/3500 [2:58:03<06:26,  2.25s/it, lr: 2.0e-04 loss: 2.569e-02]wan_dewa:  95%|#########5| 3328/3500 [2:58:06<06:26,  2.25s/it, lr: 2.0e-04 loss: 3.717e-02]wan_dewa:  95%|#########5| 3328/3500 [2:58:06<06:26,  2.25s/it, lr: 2.0e-04 loss: 3.717e-02]wan_dewa:  95%|#########5| 3329/3500 [2:58:06<06:43,  2.36s/it, lr: 2.0e-04 loss: 3.717e-02]wan_dewa:  95%|#########5| 3329/3500 [2:58:06<06:43,  2.36s/it, lr: 2.0e-04 loss: 3.717e-02]wan_dewa:  95%|#########5| 3329/3500 [2:58:17<06:43,  2.36s/it, lr: 2.0e-04 loss: 2.758e-01]wan_dewa:  95%|#########5| 3329/3500 [2:58:17<06:43,  2.36s/it, lr: 2.0e-04 loss: 2.758e-01]wan_dewa:  95%|#########5| 3330/3500 [2:58:19<06:41,  2.36s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  95%|#########5| 3330/3500 [2:58:19<06:41,  2.36s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  95%|#########5| 3331/3500 [2:58:19<05:04,  1.80s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  95%|#########5| 3331/3500 [2:58:19<05:04,  1.80s/it, lr: 2.0e-04 loss: 5.769e-02]wan_dewa:  95%|#########5| 3331/3500 [2:58:21<05:04,  1.80s/it, lr: 2.0e-04 loss: 3.839e-02]wan_dewa:  95%|#########5| 3331/3500 [2:58:21<05:04,  1.80s/it, lr: 2.0e-04 loss: 3.839e-02]wan_dewa:  95%|#########5| 3332/3500 [2:58:21<05:22,  1.92s/it, lr: 2.0e-04 loss: 3.839e-02]wan_dewa:  95%|#########5| 3332/3500 [2:58:21<05:22,  1.92s/it, lr: 2.0e-04 loss: 3.839e-02]wan_dewa:  95%|#########5| 3332/3500 [2:58:24<05:22,  1.92s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  95%|#########5| 3332/3500 [2:58:24<05:22,  1.92s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  95%|#########5| 3333/3500 [2:58:24<05:35,  2.01s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  95%|#########5| 3333/3500 [2:58:24<05:35,  2.01s/it, lr: 2.0e-04 loss: 5.617e-02]wan_dewa:  95%|#########5| 3333/3500 [2:58:26<05:35,  2.01s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  95%|#########5| 3333/3500 [2:58:26<05:35,  2.01s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  95%|#########5| 3334/3500 [2:58:26<05:56,  2.14s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  95%|#########5| 3334/3500 [2:58:26<05:56,  2.14s/it, lr: 2.0e-04 loss: 5.740e-02]wan_dewa:  95%|#########5| 3334/3500 [2:58:28<05:56,  2.14s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:  95%|#########5| 3334/3500 [2:58:28<05:56,  2.14s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:  95%|#########5| 3335/3500 [2:58:28<06:00,  2.18s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:  95%|#########5| 3335/3500 [2:58:28<06:00,  2.18s/it, lr: 2.0e-04 loss: 1.081e-01]wan_dewa:  95%|#########5| 3335/3500 [2:58:31<06:00,  2.18s/it, lr: 2.0e-04 loss: 5.063e-02]wan_dewa:  95%|#########5| 3335/3500 [2:58:31<06:00,  2.18s/it, lr: 2.0e-04 loss: 5.063e-02]wan_dewa:  95%|#########5| 3336/3500 [2:58:31<06:02,  2.21s/it, lr: 2.0e-04 loss: 5.063e-02]wan_dewa:  95%|#########5| 3336/3500 [2:58:31<06:02,  2.21s/it, lr: 2.0e-04 loss: 5.063e-02]wan_dewa:  95%|#########5| 3336/3500 [2:58:33<06:02,  2.21s/it, lr: 2.0e-04 loss: 5.047e-02]wan_dewa:  95%|#########5| 3336/3500 [2:58:33<06:02,  2.21s/it, lr: 2.0e-04 loss: 5.047e-02]wan_dewa:  95%|#########5| 3337/3500 [2:58:33<06:03,  2.23s/it, lr: 2.0e-04 loss: 5.047e-02]wan_dewa:  95%|#########5| 3337/3500 [2:58:33<06:03,  2.23s/it, lr: 2.0e-04 loss: 5.047e-02]wan_dewa:  95%|#########5| 3337/3500 [2:58:35<06:03,  2.23s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  95%|#########5| 3337/3500 [2:58:35<06:03,  2.23s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  95%|#########5| 3338/3500 [2:58:35<06:03,  2.24s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  95%|#########5| 3338/3500 [2:58:35<06:03,  2.24s/it, lr: 2.0e-04 loss: 4.407e-02]wan_dewa:  95%|#########5| 3338/3500 [2:58:38<06:03,  2.24s/it, lr: 2.0e-04 loss: 4.108e-02]wan_dewa:  95%|#########5| 3338/3500 [2:58:38<06:03,  2.24s/it, lr: 2.0e-04 loss: 4.108e-02]wan_dewa:  95%|#########5| 3339/3500 [2:58:38<06:14,  2.33s/it, lr: 2.0e-04 loss: 4.108e-02]wan_dewa:  95%|#########5| 3339/3500 [2:58:38<06:14,  2.33s/it, lr: 2.0e-04 loss: 4.108e-02]wan_dewa:  95%|#########5| 3339/3500 [2:58:49<06:14,  2.33s/it, lr: 2.0e-04 loss: 4.577e-02]wan_dewa:  95%|#########5| 3339/3500 [2:58:49<06:14,  2.33s/it, lr: 2.0e-04 loss: 4.577e-02]wan_dewa:  95%|#########5| 3340/3500 [2:58:51<06:12,  2.33s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  95%|#########5| 3340/3500 [2:58:51<06:12,  2.33s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  95%|#########5| 3341/3500 [2:58:51<04:44,  1.79s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  95%|#########5| 3341/3500 [2:58:51<04:44,  1.79s/it, lr: 2.0e-04 loss: 4.137e-02]wan_dewa:  95%|#########5| 3341/3500 [2:58:53<04:44,  1.79s/it, lr: 2.0e-04 loss: 2.498e-02]wan_dewa:  95%|#########5| 3341/3500 [2:58:53<04:44,  1.79s/it, lr: 2.0e-04 loss: 2.498e-02]wan_dewa:  95%|#########5| 3342/3500 [2:58:53<05:01,  1.91s/it, lr: 2.0e-04 loss: 2.498e-02]wan_dewa:  95%|#########5| 3342/3500 [2:58:53<05:01,  1.91s/it, lr: 2.0e-04 loss: 2.498e-02]wan_dewa:  95%|#########5| 3342/3500 [2:58:56<05:01,  1.91s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  95%|#########5| 3342/3500 [2:58:56<05:01,  1.91s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  96%|#########5| 3343/3500 [2:58:56<05:15,  2.01s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  96%|#########5| 3343/3500 [2:58:56<05:15,  2.01s/it, lr: 2.0e-04 loss: 3.724e-02]wan_dewa:  96%|#########5| 3343/3500 [2:58:58<05:15,  2.01s/it, lr: 2.0e-04 loss: 2.912e-02]wan_dewa:  96%|#########5| 3343/3500 [2:58:58<05:15,  2.01s/it, lr: 2.0e-04 loss: 2.912e-02]wan_dewa:  96%|#########5| 3344/3500 [2:58:58<05:34,  2.15s/it, lr: 2.0e-04 loss: 2.912e-02]wan_dewa:  96%|#########5| 3344/3500 [2:58:58<05:34,  2.15s/it, lr: 2.0e-04 loss: 2.912e-02]wan_dewa:  96%|#########5| 3344/3500 [2:59:00<05:34,  2.15s/it, lr: 2.0e-04 loss: 3.397e-02]wan_dewa:  96%|#########5| 3344/3500 [2:59:00<05:34,  2.15s/it, lr: 2.0e-04 loss: 3.397e-02]wan_dewa:  96%|#########5| 3345/3500 [2:59:00<05:38,  2.19s/it, lr: 2.0e-04 loss: 3.397e-02]wan_dewa:  96%|#########5| 3345/3500 [2:59:00<05:38,  2.19s/it, lr: 2.0e-04 loss: 3.397e-02]wan_dewa:  96%|#########5| 3345/3500 [2:59:03<05:38,  2.19s/it, lr: 2.0e-04 loss: 3.331e-02]wan_dewa:  96%|#########5| 3345/3500 [2:59:03<05:38,  2.19s/it, lr: 2.0e-04 loss: 3.331e-02]wan_dewa:  96%|#########5| 3346/3500 [2:59:03<05:41,  2.22s/it, lr: 2.0e-04 loss: 3.331e-02]wan_dewa:  96%|#########5| 3346/3500 [2:59:03<05:41,  2.22s/it, lr: 2.0e-04 loss: 3.331e-02]wan_dewa:  96%|#########5| 3346/3500 [2:59:05<05:41,  2.22s/it, lr: 2.0e-04 loss: 2.626e-02]wan_dewa:  96%|#########5| 3346/3500 [2:59:05<05:41,  2.22s/it, lr: 2.0e-04 loss: 2.626e-02]wan_dewa:  96%|#########5| 3347/3500 [2:59:05<05:42,  2.24s/it, lr: 2.0e-04 loss: 2.626e-02]wan_dewa:  96%|#########5| 3347/3500 [2:59:05<05:42,  2.24s/it, lr: 2.0e-04 loss: 2.626e-02]wan_dewa:  96%|#########5| 3347/3500 [2:59:07<05:42,  2.24s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  96%|#########5| 3347/3500 [2:59:07<05:42,  2.24s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  96%|#########5| 3348/3500 [2:59:07<05:42,  2.26s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  96%|#########5| 3348/3500 [2:59:07<05:42,  2.26s/it, lr: 2.0e-04 loss: 3.485e-02]wan_dewa:  96%|#########5| 3348/3500 [2:59:10<05:42,  2.26s/it, lr: 2.0e-04 loss: 2.123e-02]wan_dewa:  96%|#########5| 3348/3500 [2:59:10<05:42,  2.26s/it, lr: 2.0e-04 loss: 2.123e-02]wan_dewa:  96%|#########5| 3349/3500 [2:59:10<05:42,  2.27s/it, lr: 2.0e-04 loss: 2.123e-02]wan_dewa:  96%|#########5| 3349/3500 [2:59:10<05:42,  2.27s/it, lr: 2.0e-04 loss: 2.123e-02]wan_dewa:  96%|#########5| 3349/3500 [2:59:23<05:42,  2.27s/it, lr: 2.0e-04 loss: 4.244e-02]wan_dewa:  96%|#########5| 3349/3500 [2:59:23<05:42,  2.27s/it, lr: 2.0e-04 loss: 4.244e-02]wan_dewa:  96%|#########5| 3350/3500 [2:59:25<05:39,  2.27s/it, lr: 2.0e-04 loss: 4.785e-02]wan_dewa:  96%|#########5| 3350/3500 [2:59:25<05:39,  2.27s/it, lr: 2.0e-04 loss: 4.785e-02]wan_dewa:  96%|#########5| 3351/3500 [2:59:26<04:20,  1.75s/it, lr: 2.0e-04 loss: 4.785e-02]wan_dewa:  96%|#########5| 3351/3500 [2:59:26<04:20,  1.75s/it, lr: 2.0e-04 loss: 4.785e-02]wan_dewa:  96%|#########5| 3351/3500 [2:59:28<04:20,  1.75s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  96%|#########5| 3351/3500 [2:59:28<04:20,  1.75s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  96%|#########5| 3352/3500 [2:59:28<04:38,  1.88s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  96%|#########5| 3352/3500 [2:59:28<04:38,  1.88s/it, lr: 2.0e-04 loss: 5.743e-02]wan_dewa:  96%|#########5| 3352/3500 [2:59:30<04:38,  1.88s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  96%|#########5| 3352/3500 [2:59:30<04:38,  1.88s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  96%|#########5| 3353/3500 [2:59:30<04:51,  1.98s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  96%|#########5| 3353/3500 [2:59:30<04:51,  1.98s/it, lr: 2.0e-04 loss: 4.048e-02]wan_dewa:  96%|#########5| 3353/3500 [2:59:32<04:51,  1.98s/it, lr: 2.0e-04 loss: 5.875e-02]wan_dewa:  96%|#########5| 3353/3500 [2:59:32<04:51,  1.98s/it, lr: 2.0e-04 loss: 5.875e-02]wan_dewa:  96%|#########5| 3354/3500 [2:59:32<05:01,  2.06s/it, lr: 2.0e-04 loss: 5.875e-02]wan_dewa:  96%|#########5| 3354/3500 [2:59:32<05:01,  2.06s/it, lr: 2.0e-04 loss: 5.875e-02]wan_dewa:  96%|#########5| 3354/3500 [2:59:35<05:01,  2.06s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  96%|#########5| 3354/3500 [2:59:35<05:01,  2.06s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  96%|#########5| 3355/3500 [2:59:35<05:15,  2.18s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  96%|#########5| 3355/3500 [2:59:35<05:15,  2.18s/it, lr: 2.0e-04 loss: 8.088e-02]wan_dewa:  96%|#########5| 3355/3500 [2:59:37<05:15,  2.18s/it, lr: 2.0e-04 loss: 1.054e-01]wan_dewa:  96%|#########5| 3355/3500 [2:59:37<05:15,  2.18s/it, lr: 2.0e-04 loss: 1.054e-01]wan_dewa:  96%|#########5| 3356/3500 [2:59:37<05:17,  2.21s/it, lr: 2.0e-04 loss: 1.054e-01]wan_dewa:  96%|#########5| 3356/3500 [2:59:37<05:17,  2.21s/it, lr: 2.0e-04 loss: 1.054e-01]wan_dewa:  96%|#########5| 3356/3500 [2:59:39<05:17,  2.21s/it, lr: 2.0e-04 loss: 6.369e-02]wan_dewa:  96%|#########5| 3356/3500 [2:59:39<05:17,  2.21s/it, lr: 2.0e-04 loss: 6.369e-02]wan_dewa:  96%|#########5| 3357/3500 [2:59:39<05:18,  2.23s/it, lr: 2.0e-04 loss: 6.369e-02]wan_dewa:  96%|#########5| 3357/3500 [2:59:39<05:18,  2.23s/it, lr: 2.0e-04 loss: 6.369e-02]wan_dewa:  96%|#########5| 3357/3500 [2:59:42<05:18,  2.23s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  96%|#########5| 3357/3500 [2:59:42<05:18,  2.23s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  96%|#########5| 3358/3500 [2:59:42<05:18,  2.24s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  96%|#########5| 3358/3500 [2:59:42<05:18,  2.24s/it, lr: 2.0e-04 loss: 5.989e-02]wan_dewa:  96%|#########5| 3358/3500 [2:59:44<05:18,  2.24s/it, lr: 2.0e-04 loss: 3.947e-02]wan_dewa:  96%|#########5| 3358/3500 [2:59:44<05:18,  2.24s/it, lr: 2.0e-04 loss: 3.947e-02]wan_dewa:  96%|#########5| 3359/3500 [2:59:44<05:17,  2.25s/it, lr: 2.0e-04 loss: 3.947e-02]wan_dewa:  96%|#########5| 3359/3500 [2:59:44<05:17,  2.25s/it, lr: 2.0e-04 loss: 3.947e-02]wan_dewa:  96%|#########5| 3359/3500 [2:59:55<05:17,  2.25s/it, lr: 2.0e-04 loss: 2.573e-02]wan_dewa:  96%|#########5| 3359/3500 [2:59:55<05:17,  2.25s/it, lr: 2.0e-04 loss: 2.573e-02]wan_dewa:  96%|#########6| 3360/3500 [2:59:57<05:15,  2.25s/it, lr: 2.0e-04 loss: 2.262e-02]wan_dewa:  96%|#########6| 3360/3500 [2:59:57<05:15,  2.25s/it, lr: 2.0e-04 loss: 2.262e-02]wan_dewa:  96%|#########6| 3361/3500 [2:59:57<04:02,  1.74s/it, lr: 2.0e-04 loss: 2.262e-02]wan_dewa:  96%|#########6| 3361/3500 [2:59:57<04:02,  1.74s/it, lr: 2.0e-04 loss: 2.262e-02]wan_dewa:  96%|#########6| 3361/3500 [3:00:00<04:02,  1.74s/it, lr: 2.0e-04 loss: 1.592e-02]wan_dewa:  96%|#########6| 3361/3500 [3:00:00<04:02,  1.74s/it, lr: 2.0e-04 loss: 1.592e-02]wan_dewa:  96%|#########6| 3362/3500 [3:00:00<04:18,  1.87s/it, lr: 2.0e-04 loss: 1.592e-02]wan_dewa:  96%|#########6| 3362/3500 [3:00:00<04:18,  1.87s/it, lr: 2.0e-04 loss: 1.592e-02]wan_dewa:  96%|#########6| 3362/3500 [3:00:02<04:18,  1.87s/it, lr: 2.0e-04 loss: 1.932e-02]wan_dewa:  96%|#########6| 3362/3500 [3:00:02<04:18,  1.87s/it, lr: 2.0e-04 loss: 1.932e-02]wan_dewa:  96%|#########6| 3363/3500 [3:00:02<04:31,  1.98s/it, lr: 2.0e-04 loss: 1.932e-02]wan_dewa:  96%|#########6| 3363/3500 [3:00:02<04:31,  1.98s/it, lr: 2.0e-04 loss: 1.932e-02]wan_dewa:  96%|#########6| 3363/3500 [3:00:04<04:31,  1.98s/it, lr: 2.0e-04 loss: 3.180e-02]wan_dewa:  96%|#########6| 3363/3500 [3:00:04<04:31,  1.98s/it, lr: 2.0e-04 loss: 3.180e-02]wan_dewa:  96%|#########6| 3364/3500 [3:00:04<04:39,  2.06s/it, lr: 2.0e-04 loss: 3.180e-02]wan_dewa:  96%|#########6| 3364/3500 [3:00:04<04:39,  2.06s/it, lr: 2.0e-04 loss: 3.180e-02]wan_dewa:  96%|#########6| 3364/3500 [3:00:07<04:39,  2.06s/it, lr: 2.0e-04 loss: 2.293e-02]wan_dewa:  96%|#########6| 3364/3500 [3:00:07<04:39,  2.06s/it, lr: 2.0e-04 loss: 2.293e-02]wan_dewa:  96%|#########6| 3365/3500 [3:00:07<04:53,  2.18s/it, lr: 2.0e-04 loss: 2.293e-02]wan_dewa:  96%|#########6| 3365/3500 [3:00:07<04:53,  2.18s/it, lr: 2.0e-04 loss: 2.293e-02]wan_dewa:  96%|#########6| 3365/3500 [3:00:09<04:53,  2.18s/it, lr: 2.0e-04 loss: 3.108e-02]wan_dewa:  96%|#########6| 3365/3500 [3:00:09<04:53,  2.18s/it, lr: 2.0e-04 loss: 3.108e-02]wan_dewa:  96%|#########6| 3366/3500 [3:00:09<04:55,  2.21s/it, lr: 2.0e-04 loss: 3.108e-02]wan_dewa:  96%|#########6| 3366/3500 [3:00:09<04:55,  2.21s/it, lr: 2.0e-04 loss: 3.108e-02]wan_dewa:  96%|#########6| 3366/3500 [3:00:11<04:55,  2.21s/it, lr: 2.0e-04 loss: 5.210e-02]wan_dewa:  96%|#########6| 3366/3500 [3:00:11<04:55,  2.21s/it, lr: 2.0e-04 loss: 5.210e-02]wan_dewa:  96%|#########6| 3367/3500 [3:00:11<04:56,  2.23s/it, lr: 2.0e-04 loss: 5.210e-02]wan_dewa:  96%|#########6| 3367/3500 [3:00:11<04:56,  2.23s/it, lr: 2.0e-04 loss: 5.210e-02]wan_dewa:  96%|#########6| 3367/3500 [3:00:13<04:56,  2.23s/it, lr: 2.0e-04 loss: 2.650e-02]wan_dewa:  96%|#########6| 3367/3500 [3:00:13<04:56,  2.23s/it, lr: 2.0e-04 loss: 2.650e-02]wan_dewa:  96%|#########6| 3368/3500 [3:00:13<04:55,  2.24s/it, lr: 2.0e-04 loss: 2.650e-02]wan_dewa:  96%|#########6| 3368/3500 [3:00:13<04:55,  2.24s/it, lr: 2.0e-04 loss: 2.650e-02]wan_dewa:  96%|#########6| 3368/3500 [3:00:16<04:55,  2.24s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  96%|#########6| 3368/3500 [3:00:16<04:55,  2.24s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  96%|#########6| 3369/3500 [3:00:16<04:55,  2.26s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  96%|#########6| 3369/3500 [3:00:16<04:55,  2.26s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  96%|#########6| 3369/3500 [3:00:23<04:55,  2.26s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  96%|#########6| 3369/3500 [3:00:23<04:55,  2.26s/it, lr: 2.0e-04 loss: 5.076e-02]wan_dewa:  96%|#########6| 3370/3500 [3:00:26<04:53,  2.26s/it, lr: 2.0e-04 loss: 2.643e-02]wan_dewa:  96%|#########6| 3370/3500 [3:00:26<04:53,  2.26s/it, lr: 2.0e-04 loss: 2.643e-02]wan_dewa:  96%|#########6| 3371/3500 [3:00:26<03:51,  1.79s/it, lr: 2.0e-04 loss: 2.643e-02]wan_dewa:  96%|#########6| 3371/3500 [3:00:26<03:51,  1.79s/it, lr: 2.0e-04 loss: 2.643e-02]wan_dewa:  96%|#########6| 3371/3500 [3:00:28<03:51,  1.79s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  96%|#########6| 3371/3500 [3:00:28<03:51,  1.79s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  96%|#########6| 3372/3500 [3:00:28<04:04,  1.91s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  96%|#########6| 3372/3500 [3:00:28<04:04,  1.91s/it, lr: 2.0e-04 loss: 5.819e-02]wan_dewa:  96%|#########6| 3372/3500 [3:00:30<04:04,  1.91s/it, lr: 2.0e-04 loss: 1.705e-01]wan_dewa:  96%|#########6| 3372/3500 [3:00:30<04:04,  1.91s/it, lr: 2.0e-04 loss: 1.705e-01]wan_dewa:  96%|#########6| 3373/3500 [3:00:30<04:15,  2.01s/it, lr: 2.0e-04 loss: 1.705e-01]wan_dewa:  96%|#########6| 3373/3500 [3:00:30<04:15,  2.01s/it, lr: 2.0e-04 loss: 1.705e-01]wan_dewa:  96%|#########6| 3373/3500 [3:00:33<04:15,  2.01s/it, lr: 2.0e-04 loss: 5.023e-02]wan_dewa:  96%|#########6| 3373/3500 [3:00:33<04:15,  2.01s/it, lr: 2.0e-04 loss: 5.023e-02]wan_dewa:  96%|#########6| 3374/3500 [3:00:33<04:22,  2.08s/it, lr: 2.0e-04 loss: 5.023e-02]wan_dewa:  96%|#########6| 3374/3500 [3:00:33<04:22,  2.08s/it, lr: 2.0e-04 loss: 5.023e-02]wan_dewa:  96%|#########6| 3374/3500 [3:00:37<04:22,  2.08s/it, lr: 2.0e-04 loss: 5.677e-02]wan_dewa:  96%|#########6| 3374/3500 [3:00:37<04:22,  2.08s/it, lr: 2.0e-04 loss: 5.677e-02]wan_dewa:  96%|#########6| 3375/3500 [3:00:37<04:28,  2.15s/it, lr: 2.0e-04 loss: 5.677e-02]wan_dewa:  96%|#########6| 3375/3500 [3:00:37<04:28,  2.15s/it, lr: 2.0e-04 loss: 5.677e-02]wan_dewa:  96%|#########6| 3375/3500 [3:00:40<04:28,  2.15s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  96%|#########6| 3375/3500 [3:00:40<04:28,  2.15s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  96%|#########6| 3376/3500 [3:00:40<04:42,  2.28s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  96%|#########6| 3376/3500 [3:00:40<04:42,  2.28s/it, lr: 2.0e-04 loss: 4.915e-02]wan_dewa:  96%|#########6| 3376/3500 [3:00:42<04:42,  2.28s/it, lr: 2.0e-04 loss: 7.790e-02]wan_dewa:  96%|#########6| 3376/3500 [3:00:42<04:42,  2.28s/it, lr: 2.0e-04 loss: 7.790e-02]wan_dewa:  96%|#########6| 3377/3500 [3:00:42<04:40,  2.28s/it, lr: 2.0e-04 loss: 7.790e-02]wan_dewa:  96%|#########6| 3377/3500 [3:00:42<04:40,  2.28s/it, lr: 2.0e-04 loss: 7.790e-02]wan_dewa:  96%|#########6| 3377/3500 [3:00:44<04:40,  2.28s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  96%|#########6| 3377/3500 [3:00:44<04:40,  2.28s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  97%|#########6| 3378/3500 [3:00:44<04:38,  2.28s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  97%|#########6| 3378/3500 [3:00:44<04:38,  2.28s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  97%|#########6| 3378/3500 [3:00:47<04:38,  2.28s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  97%|#########6| 3378/3500 [3:00:47<04:38,  2.28s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  97%|#########6| 3379/3500 [3:00:47<04:36,  2.28s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  97%|#########6| 3379/3500 [3:00:47<04:36,  2.28s/it, lr: 2.0e-04 loss: 4.103e-02]wan_dewa:  97%|#########6| 3379/3500 [3:00:58<04:36,  2.28s/it, lr: 2.0e-04 loss: 2.812e-02]wan_dewa:  97%|#########6| 3379/3500 [3:00:58<04:36,  2.28s/it, lr: 2.0e-04 loss: 2.812e-02]wan_dewa:  97%|#########6| 3380/3500 [3:01:01<04:34,  2.28s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  97%|#########6| 3380/3500 [3:01:01<04:34,  2.28s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  97%|#########6| 3381/3500 [3:01:01<03:35,  1.81s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  97%|#########6| 3381/3500 [3:01:01<03:35,  1.81s/it, lr: 2.0e-04 loss: 2.903e-02]wan_dewa:  97%|#########6| 3381/3500 [3:01:03<03:35,  1.81s/it, lr: 2.0e-04 loss: 1.886e-02]wan_dewa:  97%|#########6| 3381/3500 [3:01:03<03:35,  1.81s/it, lr: 2.0e-04 loss: 1.886e-02]wan_dewa:  97%|#########6| 3382/3500 [3:01:03<03:47,  1.93s/it, lr: 2.0e-04 loss: 1.886e-02]wan_dewa:  97%|#########6| 3382/3500 [3:01:03<03:47,  1.93s/it, lr: 2.0e-04 loss: 1.886e-02]wan_dewa:  97%|#########6| 3382/3500 [3:01:05<03:47,  1.93s/it, lr: 2.0e-04 loss: 2.247e-02]wan_dewa:  97%|#########6| 3382/3500 [3:01:05<03:47,  1.93s/it, lr: 2.0e-04 loss: 2.247e-02]wan_dewa:  97%|#########6| 3383/3500 [3:01:05<03:56,  2.02s/it, lr: 2.0e-04 loss: 2.247e-02]wan_dewa:  97%|#########6| 3383/3500 [3:01:05<03:56,  2.02s/it, lr: 2.0e-04 loss: 2.247e-02]wan_dewa:  97%|#########6| 3383/3500 [3:01:07<03:56,  2.02s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  97%|#########6| 3383/3500 [3:01:07<03:56,  2.02s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  97%|#########6| 3384/3500 [3:01:07<04:02,  2.09s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  97%|#########6| 3384/3500 [3:01:07<04:02,  2.09s/it, lr: 2.0e-04 loss: 3.696e-02]wan_dewa:  97%|#########6| 3384/3500 [3:01:10<04:02,  2.09s/it, lr: 2.0e-04 loss: 7.721e-02]wan_dewa:  97%|#########6| 3384/3500 [3:01:10<04:02,  2.09s/it, lr: 2.0e-04 loss: 7.721e-02]wan_dewa:  97%|#########6| 3385/3500 [3:01:10<04:06,  2.14s/it, lr: 2.0e-04 loss: 7.721e-02]wan_dewa:  97%|#########6| 3385/3500 [3:01:10<04:06,  2.14s/it, lr: 2.0e-04 loss: 7.721e-02]wan_dewa:  97%|#########6| 3385/3500 [3:01:12<04:06,  2.14s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  97%|#########6| 3385/3500 [3:01:12<04:06,  2.14s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  97%|#########6| 3386/3500 [3:01:12<04:15,  2.24s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  97%|#########6| 3386/3500 [3:01:12<04:15,  2.24s/it, lr: 2.0e-04 loss: 3.398e-02]wan_dewa:  97%|#########6| 3386/3500 [3:01:14<04:15,  2.24s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########6| 3386/3500 [3:01:14<04:15,  2.24s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########6| 3387/3500 [3:01:14<04:14,  2.25s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########6| 3387/3500 [3:01:14<04:14,  2.25s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########6| 3387/3500 [3:01:17<04:14,  2.25s/it, lr: 2.0e-04 loss: 2.031e-02]wan_dewa:  97%|#########6| 3387/3500 [3:01:17<04:14,  2.25s/it, lr: 2.0e-04 loss: 2.031e-02]wan_dewa:  97%|#########6| 3388/3500 [3:01:17<04:13,  2.26s/it, lr: 2.0e-04 loss: 2.031e-02]wan_dewa:  97%|#########6| 3388/3500 [3:01:17<04:13,  2.26s/it, lr: 2.0e-04 loss: 2.031e-02]wan_dewa:  97%|#########6| 3388/3500 [3:01:19<04:13,  2.26s/it, lr: 2.0e-04 loss: 1.605e-02]wan_dewa:  97%|#########6| 3388/3500 [3:01:19<04:13,  2.26s/it, lr: 2.0e-04 loss: 1.605e-02]wan_dewa:  97%|#########6| 3389/3500 [3:01:19<04:11,  2.27s/it, lr: 2.0e-04 loss: 1.605e-02]wan_dewa:  97%|#########6| 3389/3500 [3:01:19<04:11,  2.27s/it, lr: 2.0e-04 loss: 1.605e-02]wan_dewa:  97%|#########6| 3389/3500 [3:01:30<04:11,  2.27s/it, lr: 2.0e-04 loss: 5.275e-02]wan_dewa:  97%|#########6| 3389/3500 [3:01:30<04:11,  2.27s/it, lr: 2.0e-04 loss: 5.275e-02]wan_dewa:  97%|#########6| 3390/3500 [3:01:33<04:09,  2.27s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  97%|#########6| 3390/3500 [3:01:33<04:09,  2.27s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  97%|#########6| 3391/3500 [3:01:33<03:16,  1.81s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  97%|#########6| 3391/3500 [3:01:33<03:16,  1.81s/it, lr: 2.0e-04 loss: 2.770e-02]wan_dewa:  97%|#########6| 3391/3500 [3:01:35<03:16,  1.81s/it, lr: 2.0e-04 loss: 6.846e-02]wan_dewa:  97%|#########6| 3391/3500 [3:01:35<03:16,  1.81s/it, lr: 2.0e-04 loss: 6.846e-02]wan_dewa:  97%|#########6| 3392/3500 [3:01:35<03:27,  1.92s/it, lr: 2.0e-04 loss: 6.846e-02]wan_dewa:  97%|#########6| 3392/3500 [3:01:35<03:27,  1.92s/it, lr: 2.0e-04 loss: 6.846e-02]wan_dewa:  97%|#########6| 3392/3500 [3:01:37<03:27,  1.92s/it, lr: 2.0e-04 loss: 9.086e-02]wan_dewa:  97%|#########6| 3392/3500 [3:01:37<03:27,  1.92s/it, lr: 2.0e-04 loss: 9.086e-02]wan_dewa:  97%|#########6| 3393/3500 [3:01:37<03:35,  2.02s/it, lr: 2.0e-04 loss: 9.086e-02]wan_dewa:  97%|#########6| 3393/3500 [3:01:37<03:35,  2.02s/it, lr: 2.0e-04 loss: 9.086e-02]wan_dewa:  97%|#########6| 3393/3500 [3:01:39<03:35,  2.02s/it, lr: 2.0e-04 loss: 1.327e-01]wan_dewa:  97%|#########6| 3393/3500 [3:01:39<03:35,  2.02s/it, lr: 2.0e-04 loss: 1.327e-01]wan_dewa:  97%|#########6| 3394/3500 [3:01:39<03:41,  2.09s/it, lr: 2.0e-04 loss: 1.327e-01]wan_dewa:  97%|#########6| 3394/3500 [3:01:39<03:41,  2.09s/it, lr: 2.0e-04 loss: 1.327e-01]wan_dewa:  97%|#########6| 3394/3500 [3:01:42<03:41,  2.09s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:  97%|#########6| 3394/3500 [3:01:42<03:41,  2.09s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:  97%|#########7| 3395/3500 [3:01:42<03:45,  2.14s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:  97%|#########7| 3395/3500 [3:01:42<03:45,  2.14s/it, lr: 2.0e-04 loss: 4.825e-02]wan_dewa:  97%|#########7| 3395/3500 [3:01:44<03:45,  2.14s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  97%|#########7| 3395/3500 [3:01:44<03:45,  2.14s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  97%|#########7| 3396/3500 [3:01:44<03:47,  2.18s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  97%|#########7| 3396/3500 [3:01:44<03:47,  2.18s/it, lr: 2.0e-04 loss: 1.126e-01]wan_dewa:  97%|#########7| 3396/3500 [3:01:47<03:47,  2.18s/it, lr: 2.0e-04 loss: 4.687e-02]wan_dewa:  97%|#########7| 3396/3500 [3:01:47<03:47,  2.18s/it, lr: 2.0e-04 loss: 4.687e-02]wan_dewa:  97%|#########7| 3397/3500 [3:01:47<03:55,  2.29s/it, lr: 2.0e-04 loss: 4.687e-02]wan_dewa:  97%|#########7| 3397/3500 [3:01:47<03:55,  2.29s/it, lr: 2.0e-04 loss: 4.687e-02]wan_dewa:  97%|#########7| 3397/3500 [3:01:49<03:55,  2.29s/it, lr: 2.0e-04 loss: 7.592e-02]wan_dewa:  97%|#########7| 3397/3500 [3:01:49<03:55,  2.29s/it, lr: 2.0e-04 loss: 7.592e-02]wan_dewa:  97%|#########7| 3398/3500 [3:01:49<03:53,  2.29s/it, lr: 2.0e-04 loss: 7.592e-02]wan_dewa:  97%|#########7| 3398/3500 [3:01:49<03:53,  2.29s/it, lr: 2.0e-04 loss: 7.592e-02]wan_dewa:  97%|#########7| 3398/3500 [3:01:51<03:53,  2.29s/it, lr: 2.0e-04 loss: 4.163e-02]wan_dewa:  97%|#########7| 3398/3500 [3:01:51<03:53,  2.29s/it, lr: 2.0e-04 loss: 4.163e-02]wan_dewa:  97%|#########7| 3399/3500 [3:01:51<03:51,  2.29s/it, lr: 2.0e-04 loss: 4.163e-02]wan_dewa:  97%|#########7| 3399/3500 [3:01:51<03:51,  2.29s/it, lr: 2.0e-04 loss: 4.163e-02]wan_dewa:  97%|#########7| 3399/3500 [3:02:04<03:51,  2.29s/it, lr: 2.0e-04 loss: 4.698e-02]wan_dewa:  97%|#########7| 3399/3500 [3:02:04<03:51,  2.29s/it, lr: 2.0e-04 loss: 4.698e-02]wan_dewa:  97%|#########7| 3400/3500 [3:02:07<03:49,  2.29s/it, lr: 2.0e-04 loss: 2.378e-02]wan_dewa:  97%|#########7| 3400/3500 [3:02:07<03:49,  2.29s/it, lr: 2.0e-04 loss: 2.378e-02]wan_dewa:  97%|#########7| 3401/3500 [3:02:07<02:54,  1.76s/it, lr: 2.0e-04 loss: 2.378e-02]wan_dewa:  97%|#########7| 3401/3500 [3:02:07<02:54,  1.76s/it, lr: 2.0e-04 loss: 2.378e-02]wan_dewa:  97%|#########7| 3401/3500 [3:02:09<02:54,  1.76s/it, lr: 2.0e-04 loss: 1.439e-02]wan_dewa:  97%|#########7| 3401/3500 [3:02:09<02:54,  1.76s/it, lr: 2.0e-04 loss: 1.439e-02]wan_dewa:  97%|#########7| 3402/3500 [3:02:09<03:12,  1.97s/it, lr: 2.0e-04 loss: 1.439e-02]wan_dewa:  97%|#########7| 3402/3500 [3:02:09<03:12,  1.97s/it, lr: 2.0e-04 loss: 1.439e-02]wan_dewa:  97%|#########7| 3402/3500 [3:02:11<03:12,  1.97s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  97%|#########7| 3402/3500 [3:02:11<03:12,  1.97s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  97%|#########7| 3403/3500 [3:02:11<03:18,  2.05s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  97%|#########7| 3403/3500 [3:02:11<03:18,  2.05s/it, lr: 2.0e-04 loss: 3.688e-02]wan_dewa:  97%|#########7| 3403/3500 [3:02:14<03:18,  2.05s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  97%|#########7| 3403/3500 [3:02:14<03:18,  2.05s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  97%|#########7| 3404/3500 [3:02:14<03:22,  2.11s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  97%|#########7| 3404/3500 [3:02:14<03:22,  2.11s/it, lr: 2.0e-04 loss: 3.634e-02]wan_dewa:  97%|#########7| 3404/3500 [3:02:16<03:22,  2.11s/it, lr: 2.0e-04 loss: 2.804e-02]wan_dewa:  97%|#########7| 3404/3500 [3:02:16<03:22,  2.11s/it, lr: 2.0e-04 loss: 2.804e-02]wan_dewa:  97%|#########7| 3405/3500 [3:02:16<03:24,  2.16s/it, lr: 2.0e-04 loss: 2.804e-02]wan_dewa:  97%|#########7| 3405/3500 [3:02:16<03:24,  2.16s/it, lr: 2.0e-04 loss: 2.804e-02]wan_dewa:  97%|#########7| 3405/3500 [3:02:18<03:24,  2.16s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  97%|#########7| 3405/3500 [3:02:18<03:24,  2.16s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  97%|#########7| 3406/3500 [3:02:18<03:26,  2.19s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  97%|#########7| 3406/3500 [3:02:18<03:26,  2.19s/it, lr: 2.0e-04 loss: 4.317e-02]wan_dewa:  97%|#########7| 3406/3500 [3:02:21<03:26,  2.19s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########7| 3406/3500 [3:02:21<03:26,  2.19s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########7| 3407/3500 [3:02:21<03:31,  2.28s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########7| 3407/3500 [3:02:21<03:31,  2.28s/it, lr: 2.0e-04 loss: 3.740e-02]wan_dewa:  97%|#########7| 3407/3500 [3:02:23<03:31,  2.28s/it, lr: 2.0e-04 loss: 3.302e-02]wan_dewa:  97%|#########7| 3407/3500 [3:02:23<03:31,  2.28s/it, lr: 2.0e-04 loss: 3.302e-02]wan_dewa:  97%|#########7| 3408/3500 [3:02:23<03:29,  2.28s/it, lr: 2.0e-04 loss: 3.302e-02]wan_dewa:  97%|#########7| 3408/3500 [3:02:23<03:29,  2.28s/it, lr: 2.0e-04 loss: 3.302e-02]wan_dewa:  97%|#########7| 3408/3500 [3:02:25<03:29,  2.28s/it, lr: 2.0e-04 loss: 1.875e-02]wan_dewa:  97%|#########7| 3408/3500 [3:02:25<03:29,  2.28s/it, lr: 2.0e-04 loss: 1.875e-02]wan_dewa:  97%|#########7| 3409/3500 [3:02:25<03:27,  2.28s/it, lr: 2.0e-04 loss: 1.875e-02]wan_dewa:  97%|#########7| 3409/3500 [3:02:25<03:27,  2.28s/it, lr: 2.0e-04 loss: 1.875e-02]wan_dewa:  97%|#########7| 3409/3500 [3:02:36<03:27,  2.28s/it, lr: 2.0e-04 loss: 5.513e-02]wan_dewa:  97%|#########7| 3409/3500 [3:02:36<03:27,  2.28s/it, lr: 2.0e-04 loss: 5.513e-02]wan_dewa:  97%|#########7| 3410/3500 [3:02:39<03:24,  2.28s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  97%|#########7| 3410/3500 [3:02:39<03:24,  2.28s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  97%|#########7| 3411/3500 [3:02:39<02:36,  1.76s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  97%|#########7| 3411/3500 [3:02:39<02:36,  1.76s/it, lr: 2.0e-04 loss: 4.981e-02]wan_dewa:  97%|#########7| 3411/3500 [3:02:41<02:36,  1.76s/it, lr: 2.0e-04 loss: 5.901e-02]wan_dewa:  97%|#########7| 3411/3500 [3:02:41<02:36,  1.76s/it, lr: 2.0e-04 loss: 5.901e-02]wan_dewa:  97%|#########7| 3412/3500 [3:02:41<02:50,  1.93s/it, lr: 2.0e-04 loss: 5.901e-02]wan_dewa:  97%|#########7| 3412/3500 [3:02:41<02:50,  1.93s/it, lr: 2.0e-04 loss: 5.901e-02]wan_dewa:  97%|#########7| 3412/3500 [3:02:43<02:50,  1.93s/it, lr: 2.0e-04 loss: 5.388e-02]wan_dewa:  97%|#########7| 3412/3500 [3:02:43<02:50,  1.93s/it, lr: 2.0e-04 loss: 5.388e-02]wan_dewa:  98%|#########7| 3413/3500 [3:02:43<02:56,  2.02s/it, lr: 2.0e-04 loss: 5.388e-02]wan_dewa:  98%|#########7| 3413/3500 [3:02:43<02:56,  2.02s/it, lr: 2.0e-04 loss: 5.388e-02]wan_dewa:  98%|#########7| 3413/3500 [3:02:46<02:56,  2.02s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  98%|#########7| 3413/3500 [3:02:46<02:56,  2.02s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  98%|#########7| 3414/3500 [3:02:46<03:00,  2.09s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  98%|#########7| 3414/3500 [3:02:46<03:00,  2.09s/it, lr: 2.0e-04 loss: 1.362e-01]wan_dewa:  98%|#########7| 3414/3500 [3:02:48<03:00,  2.09s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  98%|#########7| 3414/3500 [3:02:48<03:00,  2.09s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  98%|#########7| 3415/3500 [3:02:48<03:02,  2.15s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  98%|#########7| 3415/3500 [3:02:48<03:02,  2.15s/it, lr: 2.0e-04 loss: 6.528e-02]wan_dewa:  98%|#########7| 3415/3500 [3:02:50<03:02,  2.15s/it, lr: 2.0e-04 loss: 5.373e-02]wan_dewa:  98%|#########7| 3415/3500 [3:02:50<03:02,  2.15s/it, lr: 2.0e-04 loss: 5.373e-02]wan_dewa:  98%|#########7| 3416/3500 [3:02:50<03:03,  2.19s/it, lr: 2.0e-04 loss: 5.373e-02]wan_dewa:  98%|#########7| 3416/3500 [3:02:50<03:03,  2.19s/it, lr: 2.0e-04 loss: 5.373e-02]wan_dewa:  98%|#########7| 3416/3500 [3:02:53<03:03,  2.19s/it, lr: 2.0e-04 loss: 5.488e-02]wan_dewa:  98%|#########7| 3416/3500 [3:02:53<03:03,  2.19s/it, lr: 2.0e-04 loss: 5.488e-02]wan_dewa:  98%|#########7| 3417/3500 [3:02:53<03:08,  2.27s/it, lr: 2.0e-04 loss: 5.488e-02]wan_dewa:  98%|#########7| 3417/3500 [3:02:53<03:08,  2.27s/it, lr: 2.0e-04 loss: 5.488e-02]wan_dewa:  98%|#########7| 3417/3500 [3:02:55<03:08,  2.27s/it, lr: 2.0e-04 loss: 6.123e-02]wan_dewa:  98%|#########7| 3417/3500 [3:02:55<03:08,  2.27s/it, lr: 2.0e-04 loss: 6.123e-02]wan_dewa:  98%|#########7| 3418/3500 [3:02:55<03:06,  2.28s/it, lr: 2.0e-04 loss: 6.123e-02]wan_dewa:  98%|#########7| 3418/3500 [3:02:55<03:06,  2.28s/it, lr: 2.0e-04 loss: 6.123e-02]wan_dewa:  98%|#########7| 3418/3500 [3:02:57<03:06,  2.28s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  98%|#########7| 3418/3500 [3:02:57<03:06,  2.28s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  98%|#########7| 3419/3500 [3:02:57<03:04,  2.28s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  98%|#########7| 3419/3500 [3:02:57<03:04,  2.28s/it, lr: 2.0e-04 loss: 3.301e-02]wan_dewa:  98%|#########7| 3419/3500 [3:03:05<03:04,  2.28s/it, lr: 2.0e-04 loss: 3.648e-02]wan_dewa:  98%|#########7| 3419/3500 [3:03:05<03:04,  2.28s/it, lr: 2.0e-04 loss: 3.648e-02]wan_dewa:  98%|#########7| 3420/3500 [3:03:07<03:02,  2.28s/it, lr: 2.0e-04 loss: 7.077e-02]wan_dewa:  98%|#########7| 3420/3500 [3:03:07<03:02,  2.28s/it, lr: 2.0e-04 loss: 7.077e-02]wan_dewa:  98%|#########7| 3421/3500 [3:03:07<02:18,  1.76s/it, lr: 2.0e-04 loss: 7.077e-02]wan_dewa:  98%|#########7| 3421/3500 [3:03:07<02:18,  1.76s/it, lr: 2.0e-04 loss: 7.077e-02]wan_dewa:  98%|#########7| 3421/3500 [3:03:10<02:18,  1.76s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  98%|#########7| 3421/3500 [3:03:10<02:18,  1.76s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  98%|#########7| 3422/3500 [3:03:10<02:27,  1.89s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  98%|#########7| 3422/3500 [3:03:10<02:27,  1.89s/it, lr: 2.0e-04 loss: 2.479e-02]wan_dewa:  98%|#########7| 3422/3500 [3:03:12<02:27,  1.89s/it, lr: 2.0e-04 loss: 3.084e-02]wan_dewa:  98%|#########7| 3422/3500 [3:03:12<02:27,  1.89s/it, lr: 2.0e-04 loss: 3.084e-02]wan_dewa:  98%|#########7| 3423/3500 [3:03:12<02:36,  2.04s/it, lr: 2.0e-04 loss: 3.084e-02]wan_dewa:  98%|#########7| 3423/3500 [3:03:12<02:36,  2.04s/it, lr: 2.0e-04 loss: 3.084e-02]wan_dewa:  98%|#########7| 3423/3500 [3:03:14<02:36,  2.04s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  98%|#########7| 3423/3500 [3:03:14<02:36,  2.04s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  98%|#########7| 3424/3500 [3:03:14<02:39,  2.10s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  98%|#########7| 3424/3500 [3:03:14<02:39,  2.10s/it, lr: 2.0e-04 loss: 2.647e-02]wan_dewa:  98%|#########7| 3424/3500 [3:03:19<02:39,  2.10s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  98%|#########7| 3424/3500 [3:03:19<02:39,  2.10s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  98%|#########7| 3425/3500 [3:03:19<02:42,  2.16s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  98%|#########7| 3425/3500 [3:03:19<02:42,  2.16s/it, lr: 2.0e-04 loss: 4.801e-02]wan_dewa:  98%|#########7| 3425/3500 [3:03:21<02:42,  2.16s/it, lr: 2.0e-04 loss: 4.266e-02]wan_dewa:  98%|#########7| 3425/3500 [3:03:21<02:42,  2.16s/it, lr: 2.0e-04 loss: 4.266e-02]wan_dewa:  98%|#########7| 3426/3500 [3:03:21<02:42,  2.20s/it, lr: 2.0e-04 loss: 4.266e-02]wan_dewa:  98%|#########7| 3426/3500 [3:03:21<02:42,  2.20s/it, lr: 2.0e-04 loss: 4.266e-02]wan_dewa:  98%|#########7| 3426/3500 [3:03:23<02:42,  2.20s/it, lr: 2.0e-04 loss: 7.672e-02]wan_dewa:  98%|#########7| 3426/3500 [3:03:23<02:42,  2.20s/it, lr: 2.0e-04 loss: 7.672e-02]wan_dewa:  98%|#########7| 3427/3500 [3:03:23<02:42,  2.22s/it, lr: 2.0e-04 loss: 7.672e-02]wan_dewa:  98%|#########7| 3427/3500 [3:03:23<02:42,  2.22s/it, lr: 2.0e-04 loss: 7.672e-02]wan_dewa:  98%|#########7| 3427/3500 [3:03:26<02:42,  2.22s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  98%|#########7| 3427/3500 [3:03:26<02:42,  2.22s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  98%|#########7| 3428/3500 [3:03:26<02:48,  2.35s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  98%|#########7| 3428/3500 [3:03:26<02:48,  2.35s/it, lr: 2.0e-04 loss: 5.054e-02]wan_dewa:  98%|#########7| 3428/3500 [3:03:28<02:48,  2.35s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  98%|#########7| 3428/3500 [3:03:28<02:48,  2.35s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  98%|#########7| 3429/3500 [3:03:28<02:45,  2.33s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  98%|#########7| 3429/3500 [3:03:28<02:45,  2.33s/it, lr: 2.0e-04 loss: 5.096e-02]wan_dewa:  98%|#########7| 3429/3500 [3:03:40<02:45,  2.33s/it, lr: 2.0e-04 loss: 6.932e-02]wan_dewa:  98%|#########7| 3429/3500 [3:03:40<02:45,  2.33s/it, lr: 2.0e-04 loss: 6.932e-02]wan_dewa:  98%|#########8| 3430/3500 [3:03:42<02:42,  2.33s/it, lr: 2.0e-04 loss: 1.503e-01]wan_dewa:  98%|#########8| 3430/3500 [3:03:42<02:42,  2.33s/it, lr: 2.0e-04 loss: 1.503e-01]wan_dewa:  98%|#########8| 3431/3500 [3:03:42<02:03,  1.78s/it, lr: 2.0e-04 loss: 1.503e-01]wan_dewa:  98%|#########8| 3431/3500 [3:03:42<02:03,  1.78s/it, lr: 2.0e-04 loss: 1.503e-01]wan_dewa:  98%|#########8| 3431/3500 [3:03:44<02:03,  1.78s/it, lr: 2.0e-04 loss: 9.947e-02]wan_dewa:  98%|#########8| 3431/3500 [3:03:44<02:03,  1.78s/it, lr: 2.0e-04 loss: 9.947e-02]wan_dewa:  98%|#########8| 3432/3500 [3:03:44<02:09,  1.91s/it, lr: 2.0e-04 loss: 9.947e-02]wan_dewa:  98%|#########8| 3432/3500 [3:03:44<02:09,  1.91s/it, lr: 2.0e-04 loss: 9.947e-02]wan_dewa:  98%|#########8| 3432/3500 [3:03:47<02:09,  1.91s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  98%|#########8| 3432/3500 [3:03:47<02:09,  1.91s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  98%|#########8| 3433/3500 [3:03:47<02:18,  2.07s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  98%|#########8| 3433/3500 [3:03:47<02:18,  2.07s/it, lr: 2.0e-04 loss: 5.399e-02]wan_dewa:  98%|#########8| 3433/3500 [3:03:49<02:18,  2.07s/it, lr: 2.0e-04 loss: 6.871e-02]wan_dewa:  98%|#########8| 3433/3500 [3:03:49<02:18,  2.07s/it, lr: 2.0e-04 loss: 6.871e-02]wan_dewa:  98%|#########8| 3434/3500 [3:03:49<02:20,  2.13s/it, lr: 2.0e-04 loss: 6.871e-02]wan_dewa:  98%|#########8| 3434/3500 [3:03:49<02:20,  2.13s/it, lr: 2.0e-04 loss: 6.871e-02]wan_dewa:  98%|#########8| 3434/3500 [3:03:52<02:20,  2.13s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  98%|#########8| 3434/3500 [3:03:52<02:20,  2.13s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  98%|#########8| 3435/3500 [3:03:52<02:21,  2.17s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  98%|#########8| 3435/3500 [3:03:52<02:21,  2.17s/it, lr: 2.0e-04 loss: 1.258e-01]wan_dewa:  98%|#########8| 3435/3500 [3:03:54<02:21,  2.17s/it, lr: 2.0e-04 loss: 2.493e-02]wan_dewa:  98%|#########8| 3435/3500 [3:03:54<02:21,  2.17s/it, lr: 2.0e-04 loss: 2.493e-02]wan_dewa:  98%|#########8| 3436/3500 [3:03:54<02:20,  2.20s/it, lr: 2.0e-04 loss: 2.493e-02]wan_dewa:  98%|#########8| 3436/3500 [3:03:54<02:20,  2.20s/it, lr: 2.0e-04 loss: 2.493e-02]wan_dewa:  98%|#########8| 3436/3500 [3:03:56<02:20,  2.20s/it, lr: 2.0e-04 loss: 4.548e-02]wan_dewa:  98%|#########8| 3436/3500 [3:03:56<02:20,  2.20s/it, lr: 2.0e-04 loss: 4.548e-02]wan_dewa:  98%|#########8| 3437/3500 [3:03:56<02:20,  2.23s/it, lr: 2.0e-04 loss: 4.548e-02]wan_dewa:  98%|#########8| 3437/3500 [3:03:56<02:20,  2.23s/it, lr: 2.0e-04 loss: 4.548e-02]wan_dewa:  98%|#########8| 3437/3500 [3:03:59<02:20,  2.23s/it, lr: 2.0e-04 loss: 1.613e-01]wan_dewa:  98%|#########8| 3437/3500 [3:03:59<02:20,  2.23s/it, lr: 2.0e-04 loss: 1.613e-01]wan_dewa:  98%|#########8| 3438/3500 [3:03:59<02:23,  2.31s/it, lr: 2.0e-04 loss: 1.613e-01]wan_dewa:  98%|#########8| 3438/3500 [3:03:59<02:23,  2.31s/it, lr: 2.0e-04 loss: 1.613e-01]wan_dewa:  98%|#########8| 3438/3500 [3:04:01<02:23,  2.31s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  98%|#########8| 3438/3500 [3:04:01<02:23,  2.31s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  98%|#########8| 3439/3500 [3:04:01<02:20,  2.30s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  98%|#########8| 3439/3500 [3:04:01<02:20,  2.30s/it, lr: 2.0e-04 loss: 5.725e-02]wan_dewa:  98%|#########8| 3439/3500 [3:04:12<02:20,  2.30s/it, lr: 2.0e-04 loss: 2.588e-02]wan_dewa:  98%|#########8| 3439/3500 [3:04:12<02:20,  2.30s/it, lr: 2.0e-04 loss: 2.588e-02]wan_dewa:  98%|#########8| 3440/3500 [3:04:14<02:18,  2.30s/it, lr: 2.0e-04 loss: 2.048e-02]wan_dewa:  98%|#########8| 3440/3500 [3:04:14<02:18,  2.30s/it, lr: 2.0e-04 loss: 2.048e-02]wan_dewa:  98%|#########8| 3441/3500 [3:04:14<01:44,  1.77s/it, lr: 2.0e-04 loss: 2.048e-02]wan_dewa:  98%|#########8| 3441/3500 [3:04:14<01:44,  1.77s/it, lr: 2.0e-04 loss: 2.048e-02]wan_dewa:  98%|#########8| 3441/3500 [3:04:16<01:44,  1.77s/it, lr: 2.0e-04 loss: 4.840e-02]wan_dewa:  98%|#########8| 3441/3500 [3:04:16<01:44,  1.77s/it, lr: 2.0e-04 loss: 4.840e-02]wan_dewa:  98%|#########8| 3442/3500 [3:04:16<01:50,  1.90s/it, lr: 2.0e-04 loss: 4.840e-02]wan_dewa:  98%|#########8| 3442/3500 [3:04:16<01:50,  1.90s/it, lr: 2.0e-04 loss: 4.840e-02]wan_dewa:  98%|#########8| 3442/3500 [3:04:19<01:50,  1.90s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  98%|#########8| 3442/3500 [3:04:19<01:50,  1.90s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  98%|#########8| 3443/3500 [3:04:19<01:57,  2.06s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  98%|#########8| 3443/3500 [3:04:19<01:57,  2.06s/it, lr: 2.0e-04 loss: 6.010e-02]wan_dewa:  98%|#########8| 3443/3500 [3:04:21<01:57,  2.06s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  98%|#########8| 3443/3500 [3:04:21<01:57,  2.06s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  98%|#########8| 3444/3500 [3:04:21<01:58,  2.12s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  98%|#########8| 3444/3500 [3:04:21<01:58,  2.12s/it, lr: 2.0e-04 loss: 7.543e-02]wan_dewa:  98%|#########8| 3444/3500 [3:04:23<01:58,  2.12s/it, lr: 2.0e-04 loss: 2.062e-02]wan_dewa:  98%|#########8| 3444/3500 [3:04:23<01:58,  2.12s/it, lr: 2.0e-04 loss: 2.062e-02]wan_dewa:  98%|#########8| 3445/3500 [3:04:23<01:59,  2.17s/it, lr: 2.0e-04 loss: 2.062e-02]wan_dewa:  98%|#########8| 3445/3500 [3:04:23<01:59,  2.17s/it, lr: 2.0e-04 loss: 2.062e-02]wan_dewa:  98%|#########8| 3445/3500 [3:04:26<01:59,  2.17s/it, lr: 2.0e-04 loss: 5.193e-02]wan_dewa:  98%|#########8| 3445/3500 [3:04:26<01:59,  2.17s/it, lr: 2.0e-04 loss: 5.193e-02]wan_dewa:  98%|#########8| 3446/3500 [3:04:26<01:58,  2.20s/it, lr: 2.0e-04 loss: 5.193e-02]wan_dewa:  98%|#########8| 3446/3500 [3:04:26<01:58,  2.20s/it, lr: 2.0e-04 loss: 5.193e-02]wan_dewa:  98%|#########8| 3446/3500 [3:04:28<01:58,  2.20s/it, lr: 2.0e-04 loss: 3.071e-02]wan_dewa:  98%|#########8| 3446/3500 [3:04:28<01:58,  2.20s/it, lr: 2.0e-04 loss: 3.071e-02]wan_dewa:  98%|#########8| 3447/3500 [3:04:28<01:58,  2.23s/it, lr: 2.0e-04 loss: 3.071e-02]wan_dewa:  98%|#########8| 3447/3500 [3:04:28<01:58,  2.23s/it, lr: 2.0e-04 loss: 3.071e-02]wan_dewa:  98%|#########8| 3447/3500 [3:04:30<01:58,  2.23s/it, lr: 2.0e-04 loss: 3.017e-02]wan_dewa:  98%|#########8| 3447/3500 [3:04:30<01:58,  2.23s/it, lr: 2.0e-04 loss: 3.017e-02]wan_dewa:  99%|#########8| 3448/3500 [3:04:30<01:56,  2.24s/it, lr: 2.0e-04 loss: 3.017e-02]wan_dewa:  99%|#########8| 3448/3500 [3:04:30<01:56,  2.24s/it, lr: 2.0e-04 loss: 3.017e-02]wan_dewa:  99%|#########8| 3448/3500 [3:04:33<01:56,  2.24s/it, lr: 2.0e-04 loss: 3.422e-02]wan_dewa:  99%|#########8| 3448/3500 [3:04:33<01:56,  2.24s/it, lr: 2.0e-04 loss: 3.422e-02]wan_dewa:  99%|#########8| 3449/3500 [3:04:33<01:58,  2.33s/it, lr: 2.0e-04 loss: 3.422e-02]wan_dewa:  99%|#########8| 3449/3500 [3:04:33<01:58,  2.33s/it, lr: 2.0e-04 loss: 3.422e-02]wan_dewa:  99%|#########8| 3449/3500 [3:04:46<01:58,  2.33s/it, lr: 2.0e-04 loss: 8.652e-02]wan_dewa:  99%|#########8| 3449/3500 [3:04:46<01:58,  2.33s/it, lr: 2.0e-04 loss: 8.652e-02]wan_dewa:  99%|#########8| 3450/3500 [3:04:48<01:56,  2.33s/it, lr: 2.0e-04 loss: 3.437e-02]wan_dewa:  99%|#########8| 3450/3500 [3:04:48<01:56,  2.33s/it, lr: 2.0e-04 loss: 3.437e-02]wan_dewa:  99%|#########8| 3451/3500 [3:04:48<01:27,  1.78s/it, lr: 2.0e-04 loss: 3.437e-02]wan_dewa:  99%|#########8| 3451/3500 [3:04:48<01:27,  1.78s/it, lr: 2.0e-04 loss: 3.437e-02]wan_dewa:  99%|#########8| 3451/3500 [3:04:51<01:27,  1.78s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:  99%|#########8| 3451/3500 [3:04:51<01:27,  1.78s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:  99%|#########8| 3452/3500 [3:04:51<01:31,  1.91s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:  99%|#########8| 3452/3500 [3:04:51<01:31,  1.91s/it, lr: 2.0e-04 loss: 1.248e-01]wan_dewa:  99%|#########8| 3452/3500 [3:04:53<01:31,  1.91s/it, lr: 2.0e-04 loss: 2.842e-02]wan_dewa:  99%|#########8| 3452/3500 [3:04:53<01:31,  1.91s/it, lr: 2.0e-04 loss: 2.842e-02]wan_dewa:  99%|#########8| 3453/3500 [3:04:53<01:34,  2.00s/it, lr: 2.0e-04 loss: 2.842e-02]wan_dewa:  99%|#########8| 3453/3500 [3:04:53<01:34,  2.00s/it, lr: 2.0e-04 loss: 2.842e-02]wan_dewa:  99%|#########8| 3453/3500 [3:04:56<01:34,  2.00s/it, lr: 2.0e-04 loss: 3.463e-02]wan_dewa:  99%|#########8| 3453/3500 [3:04:56<01:34,  2.00s/it, lr: 2.0e-04 loss: 3.463e-02]wan_dewa:  99%|#########8| 3454/3500 [3:04:56<01:39,  2.17s/it, lr: 2.0e-04 loss: 3.463e-02]wan_dewa:  99%|#########8| 3454/3500 [3:04:56<01:39,  2.17s/it, lr: 2.0e-04 loss: 3.463e-02]wan_dewa:  99%|#########8| 3454/3500 [3:04:58<01:39,  2.17s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  99%|#########8| 3454/3500 [3:04:58<01:39,  2.17s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  99%|#########8| 3455/3500 [3:04:58<01:39,  2.20s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  99%|#########8| 3455/3500 [3:04:58<01:39,  2.20s/it, lr: 2.0e-04 loss: 5.592e-02]wan_dewa:  99%|#########8| 3455/3500 [3:05:00<01:39,  2.20s/it, lr: 2.0e-04 loss: 5.290e-02]wan_dewa:  99%|#########8| 3455/3500 [3:05:00<01:39,  2.20s/it, lr: 2.0e-04 loss: 5.290e-02]wan_dewa:  99%|#########8| 3456/3500 [3:05:00<01:38,  2.23s/it, lr: 2.0e-04 loss: 5.290e-02]wan_dewa:  99%|#########8| 3456/3500 [3:05:00<01:38,  2.23s/it, lr: 2.0e-04 loss: 5.290e-02]wan_dewa:  99%|#########8| 3456/3500 [3:05:02<01:38,  2.23s/it, lr: 2.0e-04 loss: 8.835e-02]wan_dewa:  99%|#########8| 3456/3500 [3:05:02<01:38,  2.23s/it, lr: 2.0e-04 loss: 8.835e-02]wan_dewa:  99%|#########8| 3457/3500 [3:05:02<01:36,  2.24s/it, lr: 2.0e-04 loss: 8.835e-02]wan_dewa:  99%|#########8| 3457/3500 [3:05:02<01:36,  2.24s/it, lr: 2.0e-04 loss: 8.835e-02]wan_dewa:  99%|#########8| 3457/3500 [3:05:05<01:36,  2.24s/it, lr: 2.0e-04 loss: 8.206e-02]wan_dewa:  99%|#########8| 3457/3500 [3:05:05<01:36,  2.24s/it, lr: 2.0e-04 loss: 8.206e-02]wan_dewa:  99%|#########8| 3458/3500 [3:05:05<01:34,  2.26s/it, lr: 2.0e-04 loss: 8.206e-02]wan_dewa:  99%|#########8| 3458/3500 [3:05:05<01:34,  2.26s/it, lr: 2.0e-04 loss: 8.206e-02]wan_dewa:  99%|#########8| 3458/3500 [3:05:07<01:34,  2.26s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:  99%|#########8| 3458/3500 [3:05:07<01:34,  2.26s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:  99%|#########8| 3459/3500 [3:05:07<01:35,  2.32s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:  99%|#########8| 3459/3500 [3:05:07<01:35,  2.32s/it, lr: 2.0e-04 loss: 1.023e-01]wan_dewa:  99%|#########8| 3459/3500 [3:05:18<01:35,  2.32s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  99%|#########8| 3459/3500 [3:05:18<01:35,  2.32s/it, lr: 2.0e-04 loss: 4.041e-02]wan_dewa:  99%|#########8| 3460/3500 [3:05:20<01:32,  2.32s/it, lr: 2.0e-04 loss: 3.925e-02]wan_dewa:  99%|#########8| 3460/3500 [3:05:20<01:32,  2.32s/it, lr: 2.0e-04 loss: 3.925e-02]wan_dewa:  99%|#########8| 3461/3500 [3:05:20<01:09,  1.78s/it, lr: 2.0e-04 loss: 3.925e-02]wan_dewa:  99%|#########8| 3461/3500 [3:05:20<01:09,  1.78s/it, lr: 2.0e-04 loss: 3.925e-02]wan_dewa:  99%|#########8| 3461/3500 [3:05:23<01:09,  1.78s/it, lr: 2.0e-04 loss: 3.046e-02]wan_dewa:  99%|#########8| 3461/3500 [3:05:23<01:09,  1.78s/it, lr: 2.0e-04 loss: 3.046e-02]wan_dewa:  99%|#########8| 3462/3500 [3:05:23<01:12,  1.90s/it, lr: 2.0e-04 loss: 3.046e-02]wan_dewa:  99%|#########8| 3462/3500 [3:05:23<01:12,  1.90s/it, lr: 2.0e-04 loss: 3.046e-02]wan_dewa:  99%|#########8| 3462/3500 [3:05:25<01:12,  1.90s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  99%|#########8| 3462/3500 [3:05:25<01:12,  1.90s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  99%|#########8| 3463/3500 [3:05:25<01:13,  2.00s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  99%|#########8| 3463/3500 [3:05:25<01:13,  2.00s/it, lr: 2.0e-04 loss: 2.194e-02]wan_dewa:  99%|#########8| 3463/3500 [3:05:27<01:13,  2.00s/it, lr: 2.0e-04 loss: 4.358e-02]wan_dewa:  99%|#########8| 3463/3500 [3:05:27<01:13,  2.00s/it, lr: 2.0e-04 loss: 4.358e-02]wan_dewa:  99%|#########8| 3464/3500 [3:05:27<01:16,  2.13s/it, lr: 2.0e-04 loss: 4.358e-02]wan_dewa:  99%|#########8| 3464/3500 [3:05:27<01:16,  2.13s/it, lr: 2.0e-04 loss: 4.358e-02]wan_dewa:  99%|#########8| 3464/3500 [3:05:30<01:16,  2.13s/it, lr: 2.0e-04 loss: 4.478e-02]wan_dewa:  99%|#########8| 3464/3500 [3:05:30<01:16,  2.13s/it, lr: 2.0e-04 loss: 4.478e-02]wan_dewa:  99%|#########9| 3465/3500 [3:05:30<01:15,  2.17s/it, lr: 2.0e-04 loss: 4.478e-02]wan_dewa:  99%|#########9| 3465/3500 [3:05:30<01:15,  2.17s/it, lr: 2.0e-04 loss: 4.478e-02]wan_dewa:  99%|#########9| 3465/3500 [3:05:32<01:15,  2.17s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  99%|#########9| 3465/3500 [3:05:32<01:15,  2.17s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  99%|#########9| 3466/3500 [3:05:32<01:14,  2.20s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  99%|#########9| 3466/3500 [3:05:32<01:14,  2.20s/it, lr: 2.0e-04 loss: 5.189e-02]wan_dewa:  99%|#########9| 3466/3500 [3:05:34<01:14,  2.20s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  99%|#########9| 3466/3500 [3:05:34<01:14,  2.20s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  99%|#########9| 3467/3500 [3:05:34<01:13,  2.22s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  99%|#########9| 3467/3500 [3:05:34<01:13,  2.22s/it, lr: 2.0e-04 loss: 3.502e-02]wan_dewa:  99%|#########9| 3467/3500 [3:05:36<01:13,  2.22s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  99%|#########9| 3467/3500 [3:05:36<01:13,  2.22s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  99%|#########9| 3468/3500 [3:05:36<01:11,  2.24s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  99%|#########9| 3468/3500 [3:05:36<01:11,  2.24s/it, lr: 2.0e-04 loss: 4.345e-02]wan_dewa:  99%|#########9| 3468/3500 [3:05:39<01:11,  2.24s/it, lr: 2.0e-04 loss: 4.748e-02]wan_dewa:  99%|#########9| 3468/3500 [3:05:39<01:11,  2.24s/it, lr: 2.0e-04 loss: 4.748e-02]wan_dewa:  99%|#########9| 3469/3500 [3:05:39<01:11,  2.31s/it, lr: 2.0e-04 loss: 4.748e-02]wan_dewa:  99%|#########9| 3469/3500 [3:05:39<01:11,  2.31s/it, lr: 2.0e-04 loss: 4.748e-02]wan_dewa:  99%|#########9| 3469/3500 [3:05:47<01:11,  2.31s/it, lr: 2.0e-04 loss: 7.072e-02]wan_dewa:  99%|#########9| 3469/3500 [3:05:47<01:11,  2.31s/it, lr: 2.0e-04 loss: 7.072e-02]wan_dewa:  99%|#########9| 3470/3500 [3:05:49<01:09,  2.31s/it, lr: 2.0e-04 loss: 5.700e-02]wan_dewa:  99%|#########9| 3470/3500 [3:05:49<01:09,  2.31s/it, lr: 2.0e-04 loss: 5.700e-02]wan_dewa:  99%|#########9| 3471/3500 [3:05:49<00:51,  1.78s/it, lr: 2.0e-04 loss: 5.700e-02]wan_dewa:  99%|#########9| 3471/3500 [3:05:49<00:51,  1.78s/it, lr: 2.0e-04 loss: 5.700e-02]wan_dewa:  99%|#########9| 3471/3500 [3:05:51<00:51,  1.78s/it, lr: 2.0e-04 loss: 8.254e-02]wan_dewa:  99%|#########9| 3471/3500 [3:05:51<00:51,  1.78s/it, lr: 2.0e-04 loss: 8.254e-02]wan_dewa:  99%|#########9| 3472/3500 [3:05:51<00:53,  1.90s/it, lr: 2.0e-04 loss: 8.254e-02]wan_dewa:  99%|#########9| 3472/3500 [3:05:51<00:53,  1.90s/it, lr: 2.0e-04 loss: 8.254e-02]wan_dewa:  99%|#########9| 3472/3500 [3:05:53<00:53,  1.90s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  99%|#########9| 3472/3500 [3:05:53<00:53,  1.90s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  99%|#########9| 3473/3500 [3:05:53<00:53,  2.00s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  99%|#########9| 3473/3500 [3:05:53<00:53,  2.00s/it, lr: 2.0e-04 loss: 3.600e-02]wan_dewa:  99%|#########9| 3473/3500 [3:05:56<00:53,  2.00s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  99%|#########9| 3473/3500 [3:05:56<00:53,  2.00s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  99%|#########9| 3474/3500 [3:05:56<00:53,  2.07s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  99%|#########9| 3474/3500 [3:05:56<00:53,  2.07s/it, lr: 2.0e-04 loss: 1.141e-01]wan_dewa:  99%|#########9| 3474/3500 [3:06:01<00:53,  2.07s/it, lr: 2.0e-04 loss: 1.268e-01]wan_dewa:  99%|#########9| 3474/3500 [3:06:01<00:53,  2.07s/it, lr: 2.0e-04 loss: 1.268e-01]wan_dewa:  99%|#########9| 3475/3500 [3:06:01<00:55,  2.23s/it, lr: 2.0e-04 loss: 1.268e-01]wan_dewa:  99%|#########9| 3475/3500 [3:06:01<00:55,  2.23s/it, lr: 2.0e-04 loss: 1.268e-01]wan_dewa:  99%|#########9| 3475/3500 [3:06:03<00:55,  2.23s/it, lr: 2.0e-04 loss: 8.938e-02]wan_dewa:  99%|#########9| 3475/3500 [3:06:03<00:55,  2.23s/it, lr: 2.0e-04 loss: 8.938e-02]wan_dewa:  99%|#########9| 3476/3500 [3:06:03<00:53,  2.25s/it, lr: 2.0e-04 loss: 8.938e-02]wan_dewa:  99%|#########9| 3476/3500 [3:06:03<00:53,  2.25s/it, lr: 2.0e-04 loss: 8.938e-02]wan_dewa:  99%|#########9| 3476/3500 [3:06:05<00:53,  2.25s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  99%|#########9| 3476/3500 [3:06:05<00:53,  2.25s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  99%|#########9| 3477/3500 [3:06:05<00:51,  2.26s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  99%|#########9| 3477/3500 [3:06:05<00:51,  2.26s/it, lr: 2.0e-04 loss: 6.342e-02]wan_dewa:  99%|#########9| 3477/3500 [3:06:08<00:51,  2.26s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  99%|#########9| 3477/3500 [3:06:08<00:51,  2.26s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  99%|#########9| 3478/3500 [3:06:08<00:49,  2.26s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  99%|#########9| 3478/3500 [3:06:08<00:49,  2.26s/it, lr: 2.0e-04 loss: 5.277e-02]wan_dewa:  99%|#########9| 3478/3500 [3:06:10<00:49,  2.26s/it, lr: 2.0e-04 loss: 3.817e-02]wan_dewa:  99%|#########9| 3478/3500 [3:06:10<00:49,  2.26s/it, lr: 2.0e-04 loss: 3.817e-02]wan_dewa:  99%|#########9| 3479/3500 [3:06:10<00:47,  2.27s/it, lr: 2.0e-04 loss: 3.817e-02]wan_dewa:  99%|#########9| 3479/3500 [3:06:10<00:47,  2.27s/it, lr: 2.0e-04 loss: 3.817e-02]wan_dewa:  99%|#########9| 3479/3500 [3:06:21<00:47,  2.27s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  99%|#########9| 3479/3500 [3:06:21<00:47,  2.27s/it, lr: 2.0e-04 loss: 3.845e-02]wan_dewa:  99%|#########9| 3480/3500 [3:06:23<00:45,  2.27s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  99%|#########9| 3480/3500 [3:06:23<00:45,  2.27s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  99%|#########9| 3481/3500 [3:06:23<00:33,  1.75s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  99%|#########9| 3481/3500 [3:06:23<00:33,  1.75s/it, lr: 2.0e-04 loss: 4.128e-02]wan_dewa:  99%|#########9| 3481/3500 [3:06:25<00:33,  1.75s/it, lr: 2.0e-04 loss: 2.824e-02]wan_dewa:  99%|#########9| 3481/3500 [3:06:25<00:33,  1.75s/it, lr: 2.0e-04 loss: 2.824e-02]wan_dewa:  99%|#########9| 3482/3500 [3:06:25<00:33,  1.88s/it, lr: 2.0e-04 loss: 2.824e-02]wan_dewa:  99%|#########9| 3482/3500 [3:06:25<00:33,  1.88s/it, lr: 2.0e-04 loss: 2.824e-02]wan_dewa:  99%|#########9| 3482/3500 [3:06:28<00:33,  1.88s/it, lr: 2.0e-04 loss: 1.841e-02]wan_dewa:  99%|#########9| 3482/3500 [3:06:28<00:33,  1.88s/it, lr: 2.0e-04 loss: 1.841e-02]wan_dewa: 100%|#########9| 3483/3500 [3:06:28<00:33,  1.98s/it, lr: 2.0e-04 loss: 1.841e-02]wan_dewa: 100%|#########9| 3483/3500 [3:06:28<00:33,  1.98s/it, lr: 2.0e-04 loss: 1.841e-02]wan_dewa: 100%|#########9| 3483/3500 [3:06:30<00:33,  1.98s/it, lr: 2.0e-04 loss: 4.640e-02]wan_dewa: 100%|#########9| 3483/3500 [3:06:30<00:33,  1.98s/it, lr: 2.0e-04 loss: 4.640e-02]wan_dewa: 100%|#########9| 3484/3500 [3:06:30<00:32,  2.06s/it, lr: 2.0e-04 loss: 4.640e-02]wan_dewa: 100%|#########9| 3484/3500 [3:06:30<00:32,  2.06s/it, lr: 2.0e-04 loss: 4.640e-02]wan_dewa: 100%|#########9| 3484/3500 [3:06:32<00:32,  2.06s/it, lr: 2.0e-04 loss: 2.939e-02]wan_dewa: 100%|#########9| 3484/3500 [3:06:32<00:32,  2.06s/it, lr: 2.0e-04 loss: 2.939e-02]wan_dewa: 100%|#########9| 3485/3500 [3:06:32<00:32,  2.19s/it, lr: 2.0e-04 loss: 2.939e-02]wan_dewa: 100%|#########9| 3485/3500 [3:06:32<00:32,  2.19s/it, lr: 2.0e-04 loss: 2.939e-02]wan_dewa: 100%|#########9| 3485/3500 [3:06:35<00:32,  2.19s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa: 100%|#########9| 3485/3500 [3:06:35<00:32,  2.19s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa: 100%|#########9| 3486/3500 [3:06:35<00:30,  2.21s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa: 100%|#########9| 3486/3500 [3:06:35<00:30,  2.21s/it, lr: 2.0e-04 loss: 4.672e-02]wan_dewa: 100%|#########9| 3486/3500 [3:06:37<00:30,  2.21s/it, lr: 2.0e-04 loss: 4.501e-02]wan_dewa: 100%|#########9| 3486/3500 [3:06:37<00:30,  2.21s/it, lr: 2.0e-04 loss: 4.501e-02]wan_dewa: 100%|#########9| 3487/3500 [3:06:37<00:29,  2.23s/it, lr: 2.0e-04 loss: 4.501e-02]wan_dewa: 100%|#########9| 3487/3500 [3:06:37<00:29,  2.23s/it, lr: 2.0e-04 loss: 4.501e-02]wan_dewa: 100%|#########9| 3487/3500 [3:06:39<00:29,  2.23s/it, lr: 2.0e-04 loss: 3.693e-02]wan_dewa: 100%|#########9| 3487/3500 [3:06:39<00:29,  2.23s/it, lr: 2.0e-04 loss: 3.693e-02]wan_dewa: 100%|#########9| 3488/3500 [3:06:39<00:26,  2.24s/it, lr: 2.0e-04 loss: 3.693e-02]wan_dewa: 100%|#########9| 3488/3500 [3:06:39<00:26,  2.24s/it, lr: 2.0e-04 loss: 3.693e-02]wan_dewa: 100%|#########9| 3488/3500 [3:06:42<00:26,  2.24s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa: 100%|#########9| 3488/3500 [3:06:42<00:26,  2.24s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa: 100%|#########9| 3489/3500 [3:06:42<00:24,  2.25s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa: 100%|#########9| 3489/3500 [3:06:42<00:24,  2.25s/it, lr: 2.0e-04 loss: 4.045e-02]wan_dewa: 100%|#########9| 3489/3500 [3:06:53<00:24,  2.25s/it, lr: 2.0e-04 loss: 6.946e-02]wan_dewa: 100%|#########9| 3489/3500 [3:06:53<00:24,  2.25s/it, lr: 2.0e-04 loss: 6.946e-02]wan_dewa: 100%|#########9| 3490/3500 [3:06:55<00:22,  2.25s/it, lr: 2.0e-04 loss: 2.700e-02]wan_dewa: 100%|#########9| 3490/3500 [3:06:55<00:22,  2.25s/it, lr: 2.0e-04 loss: 2.700e-02]wan_dewa: 100%|#########9| 3491/3500 [3:06:55<00:15,  1.75s/it, lr: 2.0e-04 loss: 2.700e-02]wan_dewa: 100%|#########9| 3491/3500 [3:06:55<00:15,  1.75s/it, lr: 2.0e-04 loss: 2.700e-02]wan_dewa: 100%|#########9| 3491/3500 [3:06:58<00:15,  1.75s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa: 100%|#########9| 3491/3500 [3:06:58<00:15,  1.75s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa: 100%|#########9| 3492/3500 [3:06:58<00:15,  1.88s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa: 100%|#########9| 3492/3500 [3:06:58<00:15,  1.88s/it, lr: 2.0e-04 loss: 6.501e-02]wan_dewa: 100%|#########9| 3492/3500 [3:07:00<00:15,  1.88s/it, lr: 2.0e-04 loss: 8.704e-02]wan_dewa: 100%|#########9| 3492/3500 [3:07:00<00:15,  1.88s/it, lr: 2.0e-04 loss: 8.704e-02]wan_dewa: 100%|#########9| 3493/3500 [3:07:00<00:13,  1.98s/it, lr: 2.0e-04 loss: 8.704e-02]wan_dewa: 100%|#########9| 3493/3500 [3:07:00<00:13,  1.98s/it, lr: 2.0e-04 loss: 8.704e-02]wan_dewa: 100%|#########9| 3493/3500 [3:07:02<00:13,  1.98s/it, lr: 2.0e-04 loss: 3.220e-02]wan_dewa: 100%|#########9| 3493/3500 [3:07:02<00:13,  1.98s/it, lr: 2.0e-04 loss: 3.220e-02]wan_dewa: 100%|#########9| 3494/3500 [3:07:02<00:12,  2.06s/it, lr: 2.0e-04 loss: 3.220e-02]wan_dewa: 100%|#########9| 3494/3500 [3:07:02<00:12,  2.06s/it, lr: 2.0e-04 loss: 3.220e-02]wan_dewa: 100%|#########9| 3494/3500 [3:07:05<00:12,  2.06s/it, lr: 2.0e-04 loss: 9.614e-02]wan_dewa: 100%|#########9| 3494/3500 [3:07:05<00:12,  2.06s/it, lr: 2.0e-04 loss: 9.614e-02]wan_dewa: 100%|#########9| 3495/3500 [3:07:05<00:10,  2.12s/it, lr: 2.0e-04 loss: 9.614e-02]wan_dewa: 100%|#########9| 3495/3500 [3:07:05<00:10,  2.12s/it, lr: 2.0e-04 loss: 9.614e-02]wan_dewa: 100%|#########9| 3495/3500 [3:07:07<00:10,  2.12s/it, lr: 2.0e-04 loss: 7.569e-02]wan_dewa: 100%|#########9| 3495/3500 [3:07:07<00:10,  2.12s/it, lr: 2.0e-04 loss: 7.569e-02]wan_dewa: 100%|#########9| 3496/3500 [3:07:07<00:08,  2.24s/it, lr: 2.0e-04 loss: 7.569e-02]wan_dewa: 100%|#########9| 3496/3500 [3:07:07<00:08,  2.24s/it, lr: 2.0e-04 loss: 7.569e-02]wan_dewa: 100%|#########9| 3496/3500 [3:07:09<00:08,  2.24s/it, lr: 2.0e-04 loss: 3.945e-02]wan_dewa: 100%|#########9| 3496/3500 [3:07:09<00:08,  2.24s/it, lr: 2.0e-04 loss: 3.945e-02]wan_dewa: 100%|#########9| 3497/3500 [3:07:09<00:06,  2.25s/it, lr: 2.0e-04 loss: 3.945e-02]wan_dewa: 100%|#########9| 3497/3500 [3:07:09<00:06,  2.25s/it, lr: 2.0e-04 loss: 3.945e-02]wan_dewa: 100%|#########9| 3497/3500 [3:07:12<00:06,  2.25s/it, lr: 2.0e-04 loss: 6.931e-02]wan_dewa: 100%|#########9| 3497/3500 [3:07:12<00:06,  2.25s/it, lr: 2.0e-04 loss: 6.931e-02]wan_dewa: 100%|#########9| 3498/3500 [3:07:12<00:04,  2.26s/it, lr: 2.0e-04 loss: 6.931e-02]wan_dewa: 100%|#########9| 3498/3500 [3:07:12<00:04,  2.26s/it, lr: 2.0e-04 loss: 6.931e-02]wan_dewa: 100%|#########9| 3498/3500 [3:07:14<00:04,  2.26s/it, lr: 2.0e-04 loss: 4.550e-02]wan_dewa: 100%|#########9| 3498/3500 [3:07:14<00:04,  2.26s/it, lr: 2.0e-04 loss: 4.550e-02]wan_dewa: 100%|#########9| 3499/3500 [3:07:14<00:02,  2.27s/it, lr: 2.0e-04 loss: 4.550e-02]wan_dewa: 100%|#########9| 3499/3500 [3:07:14<00:02,  2.27s/it, lr: 2.0e-04 loss: 4.550e-02]wan_dewa: 100%|#########9| 3499/3500 [3:07:14<00:03,  3.21s/it, lr: 2.0e-04 loss: 4.550e-02]wan_dewa: 100%|#########9| 3499/3500 [3:07:14<00:03,  3.21s/it, lr: 2.0e-04 loss: 4.550e-02]
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:50,  4.62s/it]  4%|4         | 1/25 [00:04<01:50,  4.62s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:46,  4.62s/it]  8%|8         | 2/25 [00:09<01:46,  4.62s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:41,  4.63s/it] 12%|#2        | 3/25 [00:13<01:41,  4.63s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.63s/it] 16%|#6        | 4/25 [00:18<01:37,  4.63s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:32,  4.63s/it] 20%|##        | 5/25 [00:23<01:32,  4.63s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.63s/it] 24%|##4       | 6/25 [00:27<01:28,  4.63s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.64s/it] 28%|##8       | 7/25 [00:32<01:23,  4.64s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:18,  4.64s/it] 32%|###2      | 8/25 [00:37<01:18,  4.64s/it][A[A
+
+ 36%|###6      | 9/25 [00:46<01:39,  6.21s/it] 36%|###6      | 9/25 [00:46<01:39,  6.21s/it][A[A
+
+ 40%|####      | 10/25 [00:51<01:25,  5.72s/it] 40%|####      | 10/25 [00:51<01:25,  5.72s/it][A[A
+
+ 44%|####4     | 11/25 [00:55<01:15,  5.39s/it] 44%|####4     | 11/25 [00:55<01:15,  5.39s/it][A[A
+
+ 48%|####8     | 12/25 [01:00<01:07,  5.16s/it] 48%|####8     | 12/25 [01:00<01:07,  5.16s/it][A[A
+
+ 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it] 52%|#####2    | 13/25 [01:05<01:00,  5.00s/it][A[A
+
+ 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it] 56%|#####6    | 14/25 [01:09<00:53,  4.89s/it][A[A
+
+ 60%|######    | 15/25 [01:14<00:48,  4.82s/it] 60%|######    | 15/25 [01:14<00:48,  4.82s/it][A[A
+
+ 64%|######4   | 16/25 [01:19<00:42,  4.77s/it] 64%|######4   | 16/25 [01:19<00:42,  4.77s/it][A[A
+
+ 68%|######8   | 17/25 [01:23<00:37,  4.73s/it] 68%|######8   | 17/25 [01:23<00:37,  4.73s/it][A[A
+
+ 72%|#######2  | 18/25 [01:28<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:28<00:32,  4.71s/it][A[A
+
+ 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:33<00:28,  4.69s/it][A[A
+
+ 80%|########  | 20/25 [01:37<00:23,  4.68s/it] 80%|########  | 20/25 [01:37<00:23,  4.68s/it][A[A
+
+ 84%|########4 | 21/25 [01:42<00:18,  4.67s/it] 84%|########4 | 21/25 [01:42<00:18,  4.67s/it][A[A
+
+ 88%|########8 | 22/25 [01:47<00:13,  4.67s/it] 88%|########8 | 22/25 [01:47<00:13,  4.67s/it][A[A
+
+ 92%|#########2| 23/25 [01:51<00:09,  4.66s/it] 92%|#########2| 23/25 [01:51<00:09,  4.66s/it][A[A
+
+ 96%|#########6| 24/25 [01:56<00:04,  4.66s/it] 96%|#########6| 24/25 [01:56<00:04,  4.66s/it][A[A
+
+100%|##########| 25/25 [02:01<00:00,  4.66s/it]100%|##########| 25/25 [02:01<00:00,  4.66s/it][A[A100%|##########| 25/25 [02:01<00:00,  4.84s/it]100%|##########| 25/25 [02:01<00:00,  4.84s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  25%|##5       | 1/4 [02:12<06:36, 132.25s/it]Generating Images:  25%|##5       | 1/4 [02:12<06:36, 132.25s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.65s/it]  4%|4         | 1/25 [00:04<01:51,  4.65s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:46,  4.65s/it]  8%|8         | 2/25 [00:09<01:46,  4.65s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.65s/it] 12%|#2        | 3/25 [00:13<01:42,  4.65s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.66s/it] 16%|#6        | 4/25 [00:18<01:37,  4.66s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:33,  4.66s/it] 20%|##        | 5/25 [00:23<01:33,  4.66s/it][A[A
+
+ 24%|##4       | 6/25 [00:27<01:28,  4.66s/it] 24%|##4       | 6/25 [00:27<01:28,  4.66s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:23,  4.66s/it] 28%|##8       | 7/25 [00:32<01:23,  4.66s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.66s/it] 32%|###2      | 8/25 [00:37<01:19,  4.66s/it][A[A
+
+ 36%|###6      | 9/25 [00:45<01:31,  5.71s/it] 36%|###6      | 9/25 [00:45<01:31,  5.71s/it][A[A
+
+ 40%|####      | 10/25 [00:49<01:20,  5.39s/it] 40%|####      | 10/25 [00:49<01:20,  5.39s/it][A[A
+
+ 44%|####4     | 11/25 [00:54<01:12,  5.16s/it] 44%|####4     | 11/25 [00:54<01:12,  5.16s/it][A[A
+
+ 48%|####8     | 12/25 [00:59<01:05,  5.01s/it] 48%|####8     | 12/25 [00:59<01:05,  5.01s/it][A[A
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.70s/it][A[A
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  50%|#####     | 2/4 [04:18<04:16, 128.49s/it]Generating Images:  50%|#####     | 2/4 [04:18<04:16, 128.49s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.66s/it] 12%|#2        | 3/25 [00:13<01:42,  4.66s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:37,  4.67s/it] 16%|#6        | 4/25 [00:18<01:37,  4.67s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.68s/it] 32%|###2      | 8/25 [00:37<01:19,  4.68s/it][A[A
+
+ 36%|###6      | 9/25 [00:45<01:30,  5.66s/it] 36%|###6      | 9/25 [00:45<01:30,  5.66s/it][A[A
+
+ 40%|####      | 10/25 [00:49<01:20,  5.35s/it] 40%|####      | 10/25 [00:49<01:20,  5.35s/it][A[A
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.14s/it] 44%|####4     | 11/25 [00:54<01:11,  5.14s/it][A[A
+
+ 48%|####8     | 12/25 [00:59<01:04,  5.00s/it] 48%|####8     | 12/25 [00:59<01:04,  5.00s/it][A[A
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.90s/it][A[A
+
+ 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it] 56%|#####6    | 14/25 [01:08<00:53,  4.83s/it][A[A
+
+ 60%|######    | 15/25 [01:13<00:47,  4.78s/it] 60%|######    | 15/25 [01:13<00:47,  4.78s/it][A[A
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.75s/it] 64%|######4   | 16/25 [01:17<00:42,  4.75s/it][A[A
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A
+
+ 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it] 72%|#######2  | 18/25 [01:27<00:32,  4.71s/it][A[A
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.70s/it][A[A
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.69s/it] 84%|########4 | 21/25 [01:41<00:18,  4.69s/it][A[A
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.69s/it] 88%|########8 | 22/25 [01:45<00:14,  4.69s/it][A[A
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A100%|##########| 25/25 [01:59<00:00,  4.80s/it]100%|##########| 25/25 [01:59<00:00,  4.80s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images:  75%|#######5  | 3/4 [06:23<02:07, 127.10s/it]Generating Images:  75%|#######5  | 3/4 [06:23<02:07, 127.10s/it]Unloading vae
+Unloading transformer
+Unloading text encoder
+
+
+  0%|          | 0/25 [00:00<?, ?it/s]  0%|          | 0/25 [00:00<?, ?it/s][A[A
+
+  4%|4         | 1/25 [00:04<01:51,  4.66s/it]  4%|4         | 1/25 [00:04<01:51,  4.66s/it][A[A
+
+  8%|8         | 2/25 [00:09<01:47,  4.66s/it]  8%|8         | 2/25 [00:09<01:47,  4.66s/it][A[A
+
+ 12%|#2        | 3/25 [00:13<01:42,  4.67s/it] 12%|#2        | 3/25 [00:13<01:42,  4.67s/it][A[A
+
+ 16%|#6        | 4/25 [00:18<01:38,  4.67s/it] 16%|#6        | 4/25 [00:18<01:38,  4.67s/it][A[A
+
+ 20%|##        | 5/25 [00:23<01:33,  4.67s/it] 20%|##        | 5/25 [00:23<01:33,  4.67s/it][A[A
+
+ 24%|##4       | 6/25 [00:28<01:28,  4.67s/it] 24%|##4       | 6/25 [00:28<01:28,  4.67s/it][A[A
+
+ 28%|##8       | 7/25 [00:32<01:24,  4.67s/it] 28%|##8       | 7/25 [00:32<01:24,  4.67s/it][A[A
+
+ 32%|###2      | 8/25 [00:37<01:19,  4.67s/it] 32%|###2      | 8/25 [00:37<01:19,  4.67s/it][A[A
+
+ 36%|###6      | 9/25 [00:45<01:29,  5.60s/it] 36%|###6      | 9/25 [00:45<01:29,  5.60s/it][A[A
+
+ 40%|####      | 10/25 [00:49<01:19,  5.31s/it] 40%|####      | 10/25 [00:49<01:19,  5.31s/it][A[A
+
+ 44%|####4     | 11/25 [00:54<01:11,  5.11s/it] 44%|####4     | 11/25 [00:54<01:11,  5.11s/it][A[A
+
+ 48%|####8     | 12/25 [00:58<01:04,  4.97s/it] 48%|####8     | 12/25 [00:58<01:04,  4.97s/it][A[A
+
+ 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it] 52%|#####2    | 13/25 [01:03<00:58,  4.88s/it][A[A
+
+ 56%|#####6    | 14/25 [01:08<00:52,  4.81s/it] 56%|#####6    | 14/25 [01:08<00:52,  4.81s/it][A[A
+
+ 60%|######    | 15/25 [01:12<00:47,  4.77s/it] 60%|######    | 15/25 [01:12<00:47,  4.77s/it][A[A
+
+ 64%|######4   | 16/25 [01:17<00:42,  4.74s/it] 64%|######4   | 16/25 [01:17<00:42,  4.74s/it][A[A
+
+ 68%|######8   | 17/25 [01:22<00:37,  4.72s/it] 68%|######8   | 17/25 [01:22<00:37,  4.72s/it][A[A
+
+ 72%|#######2  | 18/25 [01:26<00:32,  4.70s/it] 72%|#######2  | 18/25 [01:26<00:32,  4.70s/it][A[A
+
+ 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it] 76%|#######6  | 19/25 [01:31<00:28,  4.69s/it][A[A
+
+ 80%|########  | 20/25 [01:36<00:23,  4.69s/it] 80%|########  | 20/25 [01:36<00:23,  4.69s/it][A[A
+
+ 84%|########4 | 21/25 [01:41<00:18,  4.68s/it] 84%|########4 | 21/25 [01:41<00:18,  4.68s/it][A[A
+
+ 88%|########8 | 22/25 [01:45<00:14,  4.68s/it] 88%|########8 | 22/25 [01:45<00:14,  4.68s/it][A[A
+
+ 92%|#########2| 23/25 [01:50<00:09,  4.68s/it] 92%|#########2| 23/25 [01:50<00:09,  4.68s/it][A[A
+
+ 96%|#########6| 24/25 [01:55<00:04,  4.68s/it] 96%|#########6| 24/25 [01:55<00:04,  4.68s/it][A[A
+
+100%|##########| 25/25 [01:59<00:00,  4.68s/it]100%|##########| 25/25 [01:59<00:00,  4.68s/it][A[A100%|##########| 25/25 [01:59<00:00,  4.79s/it]100%|##########| 25/25 [01:59<00:00,  4.79s/it]
+
+Unloading transformer
+Loading Vae
+Generating Images: 100%|##########| 4/4 [08:28<00:00, 126.32s/it]Generating Images: 100%|##########| 4/4 [08:28<00:00, 126.32s/it]                                                                                                                                  
+Saved checkpoint to /app/ai-toolkit/output/wan_dewa/wan_dewa.safetensors
+Saved optimizer to /app/ai-toolkit/output/wan_dewa/optimizer.pt
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000001000_high_noise.safetensors
+Removing old save: /app/ai-toolkit/output/wan_dewa/wan_dewa_000001000_low_noise.safetensors
diff --git a/optimizer.pt b/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6060d4237bb4feda15259a44f51d66c1ae006abb
--- /dev/null
+++ b/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1c3b55d488dc09f5ecc3ccd8761feddd1020396e084eade40279ba068be305d
+size 313383269
diff --git a/samples/1758843894746__000000000_0.jpg b/samples/1758843894746__000000000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..287f61c6136fdb8169fdfc9550cee1adfc099531
--- /dev/null
+++ b/samples/1758843894746__000000000_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:302060c6f346a061ad5d7fc517e8c9c253977b85dffab78e085abfa578bf4823
+size 119463
diff --git a/samples/1758844017427__000000000_1.jpg b/samples/1758844017427__000000000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..bbd605bc198c3615047dbb9a1743f0c86dfea450
--- /dev/null
+++ b/samples/1758844017427__000000000_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebc0d5a9b66858f07045328415b69fcf1d877b5664fbd782714a9794bca35351
+size 108538
diff --git a/samples/1758844140487__000000000_2.jpg b/samples/1758844140487__000000000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..b05c04470d544795f1c124a6bd455714875cea14
Binary files /dev/null and b/samples/1758844140487__000000000_2.jpg differ
diff --git a/samples/1758844264214__000000000_3.jpg b/samples/1758844264214__000000000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..504bc0bbe3ff65d2745d50000be59617394900d8
Binary files /dev/null and b/samples/1758844264214__000000000_3.jpg differ
diff --git a/samples/1758845231301__000000250_0.jpg b/samples/1758845231301__000000250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..a1be812335099faef22fba64f80ce16dca964e6e
--- /dev/null
+++ b/samples/1758845231301__000000250_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0ad0801e18249f60e0b03c575808a7e84300e13720e1c1a7eeea3859c0484e6
+size 111796
diff --git a/samples/1758845357677__000000250_1.jpg b/samples/1758845357677__000000250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..cdc2639ef0306d8d4de615347726a6e8c9f68b67
--- /dev/null
+++ b/samples/1758845357677__000000250_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38b9f2061330c895359c7e360b797f0f0ca57512c5f26be832b687d82356017d
+size 134536
diff --git a/samples/1758845483352__000000250_2.jpg b/samples/1758845483352__000000250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..4b4fe1c1c427bbd9abc3abb3f3d9e050079de525
Binary files /dev/null and b/samples/1758845483352__000000250_2.jpg differ
diff --git a/samples/1758845608753__000000250_3.jpg b/samples/1758845608753__000000250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..793c478db554e394abc40ebbe016b6473878543e
Binary files /dev/null and b/samples/1758845608753__000000250_3.jpg differ
diff --git a/samples/1758846565751__000000500_0.jpg b/samples/1758846565751__000000500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..3bb8c309b364de2137d2aedb408b8d92b1df32d9
--- /dev/null
+++ b/samples/1758846565751__000000500_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e56dec3b6449db684522d65ca8b9be4194489882543f74f663002edb442f4bcb
+size 104855
diff --git a/samples/1758846692407__000000500_1.jpg b/samples/1758846692407__000000500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..08a1f5703fc3c7776e80681982f47f2976d00ca3
--- /dev/null
+++ b/samples/1758846692407__000000500_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c16f46378466a259ee46a0848ff8498e24b83ad3050ab8ea7f40c406b5e2fc6
+size 136909
diff --git a/samples/1758846818375__000000500_2.jpg b/samples/1758846818375__000000500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..f4cdd92291303cc042254da29049a84434650c99
Binary files /dev/null and b/samples/1758846818375__000000500_2.jpg differ
diff --git a/samples/1758846944094__000000500_3.jpg b/samples/1758846944094__000000500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..85e08922a4aba4ad00ba00008cbf3c6d3c9145f6
Binary files /dev/null and b/samples/1758846944094__000000500_3.jpg differ
diff --git a/samples/1758847901716__000000750_0.jpg b/samples/1758847901716__000000750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8a35c4762f4f84332c507655d8a9cfd2ed1f9f38
--- /dev/null
+++ b/samples/1758847901716__000000750_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d31fc1d923490adca0ab9b0938b7b6125fedc9f607058614f6863912dfec228
+size 129402
diff --git a/samples/1758848028069__000000750_1.jpg b/samples/1758848028069__000000750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..da298c466ed28413ebcb2626862edbb94f461a24
--- /dev/null
+++ b/samples/1758848028069__000000750_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:71b8e7254ff0ebfeba44eb1c193f75d5c72903fa37b3bb9078dbb094c4359ae3
+size 138593
diff --git a/samples/1758848154071__000000750_2.jpg b/samples/1758848154071__000000750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..f8cab5cbb85d9a224128a5af3359b2d216b5a7bd
Binary files /dev/null and b/samples/1758848154071__000000750_2.jpg differ
diff --git a/samples/1758848279271__000000750_3.jpg b/samples/1758848279271__000000750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..086db11c2040fcbded1e44962bec752efec42b68
Binary files /dev/null and b/samples/1758848279271__000000750_3.jpg differ
diff --git a/samples/1758849236074__000001000_0.jpg b/samples/1758849236074__000001000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8c7a08c7e37af101f01461211a496613b24d79d6
--- /dev/null
+++ b/samples/1758849236074__000001000_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce41fad72aa51d835122f01eb182c15078450e6198dc58a0bacbab1472feea29
+size 141592
diff --git a/samples/1758849362296__000001000_1.jpg b/samples/1758849362296__000001000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..860b352c4aaea6baec55beb91b15375bd9823da6
--- /dev/null
+++ b/samples/1758849362296__000001000_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f94c5ece7c0e7c5534f252ed9df6d9f70317b2e13840c1c74590e43306ecede9
+size 129601
diff --git a/samples/1758849488430__000001000_2.jpg b/samples/1758849488430__000001000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..efe5e8b2af796cb90cf07b5da4e9f91e7f7b95c4
--- /dev/null
+++ b/samples/1758849488430__000001000_2.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:118cf42401a471e989eae428d8cc71f70626ad4675fc1a61b0d4fc61717ca833
+size 101841
diff --git a/samples/1758849614007__000001000_3.jpg b/samples/1758849614007__000001000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8ebf7dae84aaf34625c301a17b2722b7412fc91c
Binary files /dev/null and b/samples/1758849614007__000001000_3.jpg differ
diff --git a/samples/1758850570560__000001250_0.jpg b/samples/1758850570560__000001250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e8f0fffba18184bd5bf900f2c434577f7955d619
--- /dev/null
+++ b/samples/1758850570560__000001250_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3cee11570a0181ab469869e967a30d4c54f7da2ed9765f69430543190e3f1599
+size 133625
diff --git a/samples/1758850696962__000001250_1.jpg b/samples/1758850696962__000001250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..a8b05a7a199ab5e9c2857a286fc730c7a43c4e7c
--- /dev/null
+++ b/samples/1758850696962__000001250_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c019e3fb0c16253d74d0fdac1722c51f9a28477e9bc347c598e6bccd7ba867a
+size 134473
diff --git a/samples/1758850822628__000001250_2.jpg b/samples/1758850822628__000001250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e7d0d1af6ae9e60efcaa02a1812869de46fa93da
Binary files /dev/null and b/samples/1758850822628__000001250_2.jpg differ
diff --git a/samples/1758850948139__000001250_3.jpg b/samples/1758850948139__000001250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..790c440598690176e1e607d28f6b5163218f0c3d
Binary files /dev/null and b/samples/1758850948139__000001250_3.jpg differ
diff --git a/samples/1758851904671__000001500_0.jpg b/samples/1758851904671__000001500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..cad584e4a3196b22c55113437c2a5b6ae54d7fb1
--- /dev/null
+++ b/samples/1758851904671__000001500_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f8228cc5cb76f455903e6dd7539950a99070e31f54fbf5c96511dd9aa45613d
+size 127619
diff --git a/samples/1758852030870__000001500_1.jpg b/samples/1758852030870__000001500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..2c0376bbc7b05379d3aa9866fb03cd512e75280a
--- /dev/null
+++ b/samples/1758852030870__000001500_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d63187fc35d010a8c883f2253ca7d41decaa632fa01dc86f746d7c997c0d44e
+size 144886
diff --git a/samples/1758852156563__000001500_2.jpg b/samples/1758852156563__000001500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..25301078ef554c06a8cf686a68ee924f7802821a
Binary files /dev/null and b/samples/1758852156563__000001500_2.jpg differ
diff --git a/samples/1758852282047__000001500_3.jpg b/samples/1758852282047__000001500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..c548000087f782c75c9d75599ac6e6a6aa707905
Binary files /dev/null and b/samples/1758852282047__000001500_3.jpg differ
diff --git a/samples/1758853239252__000001750_0.jpg b/samples/1758853239252__000001750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..410d0a10dd580dc75c07c2e6f36d2430e205f7bd
--- /dev/null
+++ b/samples/1758853239252__000001750_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b19a6045d14585a1371ae156455e99c8306f0bfabd69104a9b71d341d64124ca
+size 124946
diff --git a/samples/1758853365704__000001750_1.jpg b/samples/1758853365704__000001750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..ef61ce11369d7b91e4f2736245fefa99c650fb82
--- /dev/null
+++ b/samples/1758853365704__000001750_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3e2c159bc34ecec4db70b5eb0fae157432f2e14500a61412411e428d0903b33
+size 136023
diff --git a/samples/1758853491186__000001750_2.jpg b/samples/1758853491186__000001750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..4354d304a42f8679bb28912c2d854c2ce6d2b69f
Binary files /dev/null and b/samples/1758853491186__000001750_2.jpg differ
diff --git a/samples/1758853616584__000001750_3.jpg b/samples/1758853616584__000001750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..6ef1ae02d2bb715e271608473be23fd40ed7c3d1
Binary files /dev/null and b/samples/1758853616584__000001750_3.jpg differ
diff --git a/samples/1758854574518__000002000_0.jpg b/samples/1758854574518__000002000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..cef0b34bdbd0c9ff8cdb64cce15b5f36894a03c0
--- /dev/null
+++ b/samples/1758854574518__000002000_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c037bd0c74fba8abf4827dfbb410529103f8e637cf31ad3068a1abade995cdb7
+size 120148
diff --git a/samples/1758854700459__000002000_1.jpg b/samples/1758854700459__000002000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..184d7422236db80c6024a178ef962279e601aae3
--- /dev/null
+++ b/samples/1758854700459__000002000_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f586e3539752b8f7b324cf6d045471f9766654c5fde279b55dc2e05f544c496
+size 133623
diff --git a/samples/1758854825970__000002000_2.jpg b/samples/1758854825970__000002000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..1bba057af40b47a3f4c3cab5affa49d209eef2da
Binary files /dev/null and b/samples/1758854825970__000002000_2.jpg differ
diff --git a/samples/1758854951683__000002000_3.jpg b/samples/1758854951683__000002000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..08acf82fc00545b9e2c0f908618ab0235ea6e7f5
Binary files /dev/null and b/samples/1758854951683__000002000_3.jpg differ
diff --git a/samples/1758855910203__000002250_0.jpg b/samples/1758855910203__000002250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..2a075a3f365df9189a4979dd8266119cf3f7f6ae
--- /dev/null
+++ b/samples/1758855910203__000002250_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:205de78845a3ccc09f7d9911db1da371f06cd4f1fc03457b888e523dd3f65437
+size 120983
diff --git a/samples/1758856036364__000002250_1.jpg b/samples/1758856036364__000002250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e2c869ed2d4806b0e921229a83d622cc2d3987f9
--- /dev/null
+++ b/samples/1758856036364__000002250_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7683fd24e925c957418aa9d722db5aab00f9eac80004060d126288996befa73
+size 157746
diff --git a/samples/1758856162009__000002250_2.jpg b/samples/1758856162009__000002250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0259a79521f2a6b88a805dba27a0231484c71821
Binary files /dev/null and b/samples/1758856162009__000002250_2.jpg differ
diff --git a/samples/1758856287777__000002250_3.jpg b/samples/1758856287777__000002250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..7eec5206c6ddf4532ff4ba73881aed2ddd9a0bd2
Binary files /dev/null and b/samples/1758856287777__000002250_3.jpg differ
diff --git a/samples/1758857245953__000002500_0.jpg b/samples/1758857245953__000002500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..670c3da4354b4d9865a0649ec68611e8a23775e9
--- /dev/null
+++ b/samples/1758857245953__000002500_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:854dac10d5cb0c95d6dcc4566897aa8064cb6d2ff51d4408a7ecc5c46876c9d0
+size 125915
diff --git a/samples/1758857372128__000002500_1.jpg b/samples/1758857372128__000002500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..3f8b5d33d6179bb17c4890d1665ebcfb8cf5fb2a
--- /dev/null
+++ b/samples/1758857372128__000002500_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36d59f2d65c062844a0637cab021bf4a864bca9880deef48a5f74a65fa80a8f8
+size 139820
diff --git a/samples/1758857497684__000002500_2.jpg b/samples/1758857497684__000002500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..f1f6d5794055a62591880909b10a0e849a80b4c0
Binary files /dev/null and b/samples/1758857497684__000002500_2.jpg differ
diff --git a/samples/1758857623264__000002500_3.jpg b/samples/1758857623264__000002500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..2246286c3ef44327c45d25c6ada3365eb30fe153
Binary files /dev/null and b/samples/1758857623264__000002500_3.jpg differ
diff --git a/samples/1758858583467__000002750_0.jpg b/samples/1758858583467__000002750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..d88e96caabb6531c2d8775a6e4e3840448e41ddd
--- /dev/null
+++ b/samples/1758858583467__000002750_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1cf84d2b84dbe2b7a16ab3b121dd6fe9aa334ce686f1318baf7c743c282bf91c
+size 121885
diff --git a/samples/1758858709776__000002750_1.jpg b/samples/1758858709776__000002750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..ac53bce63ffa297efb555ebbb9d690519bfbae72
--- /dev/null
+++ b/samples/1758858709776__000002750_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:87453a1be65ad664ea6ccf608d0f4f11b9f59a9e092391d92ce9de8aa4849070
+size 145608
diff --git a/samples/1758858835464__000002750_2.jpg b/samples/1758858835464__000002750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e68b479e8f6afbf0d65000e97a63efd9401d69a4
Binary files /dev/null and b/samples/1758858835464__000002750_2.jpg differ
diff --git a/samples/1758858961069__000002750_3.jpg b/samples/1758858961069__000002750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..ec8f314f2e1dba229a2d5b88e5593e93129449f0
Binary files /dev/null and b/samples/1758858961069__000002750_3.jpg differ
diff --git a/samples/1758859930728__000003000_0.jpg b/samples/1758859930728__000003000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e2dba80342c7a34e64822f83b292e648b149a59c
--- /dev/null
+++ b/samples/1758859930728__000003000_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:393ed6a07ef8197aa4309479c75359218f4bff9f8352254022646da647f34dbf
+size 124899
diff --git a/samples/1758860056799__000003000_1.jpg b/samples/1758860056799__000003000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..d29e8547382b02d2375d4e0516c9bb0ee306ae0a
--- /dev/null
+++ b/samples/1758860056799__000003000_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d80b3ff02ffc608e7c9905c5d0a27be743045a396215a67c17a92ea74d208361
+size 139091
diff --git a/samples/1758860182101__000003000_2.jpg b/samples/1758860182101__000003000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..5df8ff131a1cecbb8c4537c5d868f0ce0eca8a69
Binary files /dev/null and b/samples/1758860182101__000003000_2.jpg differ
diff --git a/samples/1758860307533__000003000_3.jpg b/samples/1758860307533__000003000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..67919dc4706453895ebd262603379e3e1a724d05
Binary files /dev/null and b/samples/1758860307533__000003000_3.jpg differ
diff --git a/samples/1758861269184__000003250_0.jpg b/samples/1758861269184__000003250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..abf2de330a918493176d094c58a90a1c1760c833
--- /dev/null
+++ b/samples/1758861269184__000003250_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8907c6c41293594fc090f882263285ce9e19d1df2b4abe8ac294c32741cd87ac
+size 124837
diff --git a/samples/1758861395260__000003250_1.jpg b/samples/1758861395260__000003250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..2e0b66911a0b24142c2f01438aa40280fb53f0c6
--- /dev/null
+++ b/samples/1758861395260__000003250_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e4d50dfd95621a58aa94441c9ffbb1acfe67628834345d8db23dc0bd3b9a061b
+size 146144
diff --git a/samples/1758861521492__000003250_2.jpg b/samples/1758861521492__000003250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..6e2b05a2e10a2eb136e83711d719785cbf617515
Binary files /dev/null and b/samples/1758861521492__000003250_2.jpg differ
diff --git a/samples/1758861646763__000003250_3.jpg b/samples/1758861646763__000003250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..b9e4da10f5f5f1961189d15adc3b90b8ddbc6b05
Binary files /dev/null and b/samples/1758861646763__000003250_3.jpg differ
diff --git a/samples/1758862582214__000003500_0.jpg b/samples/1758862582214__000003500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..c1e56e1b79f559f26f8bfc7d42261b9f7455d860
--- /dev/null
+++ b/samples/1758862582214__000003500_0.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f06d54a4abef5494f51e53b0ace7ce13a66e066feca8eea2b8f0065bd48f388c
+size 122844
diff --git a/samples/1758862708072__000003500_1.jpg b/samples/1758862708072__000003500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0f2d075c02f7bb19ccd7d7a1b550ad9a8e2aac9c
--- /dev/null
+++ b/samples/1758862708072__000003500_1.jpg
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:233a85bdeb6745edcf2f1d38ca818d5bcbe732c1c28df6b4b1b81a7674697ca2
+size 122373
diff --git a/samples/1758862833515__000003500_2.jpg b/samples/1758862833515__000003500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..9b18e24996e9e05bd2ba6ceebf0ce8fbfd1e8cfa
Binary files /dev/null and b/samples/1758862833515__000003500_2.jpg differ
diff --git a/samples/1758862958637__000003500_3.jpg b/samples/1758862958637__000003500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..02fb183e77a5d69a44a9aca754ff8512966df976
Binary files /dev/null and b/samples/1758862958637__000003500_3.jpg differ
diff --git a/wan_dewa_000001250_high_noise.safetensors b/wan_dewa_000001250_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a54d1104c23ab1a0ab37747462a340fa14661e00
--- /dev/null
+++ b/wan_dewa_000001250_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43f3cb5e7f05895d06d7ab289100a90fe44a4bb55e3c19e3d05497544af4773b
+size 153453544
diff --git a/wan_dewa_000001250_low_noise.safetensors b/wan_dewa_000001250_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8241198624285325306cf501c5544869dd1f7c0a
--- /dev/null
+++ b/wan_dewa_000001250_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c47eab6dc0c0eeaef46f5096465670a880c2dd6cf222bff2aca4a3b1979c11ec
+size 153453544
diff --git a/wan_dewa_000001500_high_noise.safetensors b/wan_dewa_000001500_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..dfbaf2eb0711aa520aae80757c8c2984dfeee278
--- /dev/null
+++ b/wan_dewa_000001500_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a0c95fac72047299d96d59b1eeadbedeac5e91d107523eba3a59ae0a5605db
+size 153453544
diff --git a/wan_dewa_000001500_low_noise.safetensors b/wan_dewa_000001500_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ed72da3d4a5e079514e9ffcb818b5087d3d7ddc9
--- /dev/null
+++ b/wan_dewa_000001500_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9007ee23c86a1768896d61c56613bee1fbf0a3b112b38a8794d5e9d87f01ce22
+size 153453544
diff --git a/wan_dewa_000001750_high_noise.safetensors b/wan_dewa_000001750_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..81a1f2c7f3f562c3a96d3e3d63e763c381dee683
--- /dev/null
+++ b/wan_dewa_000001750_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74c0b3be92917c9c16aa788c6edaeeffdfe06b6830e8d5dd1902cebc557a96a4
+size 153453544
diff --git a/wan_dewa_000001750_low_noise.safetensors b/wan_dewa_000001750_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..43b60d2e4a15ffef203edaa7ea12203e0c36be88
--- /dev/null
+++ b/wan_dewa_000001750_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d30737122b5f6da7a13120c00fb87613d21f5d8d4533f5bec9c4df8b07312093
+size 153453544
diff --git a/wan_dewa_000002000_high_noise.safetensors b/wan_dewa_000002000_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..68f30984d1ed5950feb5378b895b55e4c2a6cc8f
--- /dev/null
+++ b/wan_dewa_000002000_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b54ce45a7dc0a4947e4861b4796f5c0ed67a4373d462fb54732035b7346ba425
+size 153453544
diff --git a/wan_dewa_000002000_low_noise.safetensors b/wan_dewa_000002000_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..59c22f0755585007e5322c25e125a1ddf8b38e23
--- /dev/null
+++ b/wan_dewa_000002000_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25a06979e00ca8a68c7e59276cf715b82dfdc14dd3e2a773585feda73a68290c
+size 153453544
diff --git a/wan_dewa_000002250_high_noise.safetensors b/wan_dewa_000002250_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5c1b2d1e96e133bb1bfa419d13422b6cfe7ded89
--- /dev/null
+++ b/wan_dewa_000002250_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e02ddbfce9dc982ac48723dbb1fca63fbbe0bdedebe1558ce954e71b35af4ff7
+size 153453544
diff --git a/wan_dewa_000002250_low_noise.safetensors b/wan_dewa_000002250_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..52ca16b71b64cce638ff9a9ee3566913f4d946f4
--- /dev/null
+++ b/wan_dewa_000002250_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0a268b7a0f219534e83bc9974be7ec8f8446b137f3300f8f92ef779923e4784
+size 153453544
diff --git a/wan_dewa_000002500_high_noise.safetensors b/wan_dewa_000002500_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..98d8349fd175ff0e02af618ba91e0149de5d6914
--- /dev/null
+++ b/wan_dewa_000002500_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:165c9c8d13488a5d428bab3ecb58cb98e339ae05f58d2bde450d7918da01bd5b
+size 153453544
diff --git a/wan_dewa_000002500_low_noise.safetensors b/wan_dewa_000002500_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a0ab39060e223eab940fc78435d8af428aa54377
--- /dev/null
+++ b/wan_dewa_000002500_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f746dfec8d8f12286f5363daeaa88ec972c67ee9a0b5357521fe686a1248df52
+size 153453544
diff --git a/wan_dewa_000002750_high_noise.safetensors b/wan_dewa_000002750_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c8ae07a1af729e9a77a34d9c2fbd8bd00e66ccba
--- /dev/null
+++ b/wan_dewa_000002750_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:34cbe104fadae8a5daa805824d289329edc85c3450a44fa543e3213c435cad1c
+size 153453544
diff --git a/wan_dewa_000002750_low_noise.safetensors b/wan_dewa_000002750_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c77bfa9e0adbba3bc4e972cc61803e5d5d23ab18
--- /dev/null
+++ b/wan_dewa_000002750_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc3ce0121efcafdf50db2df20556a3c2e26ee9e99272037150b95ff44ec91f40
+size 153453544
diff --git a/wan_dewa_000003000_high_noise.safetensors b/wan_dewa_000003000_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e0b33a8426c320f8dd97c552b252c4c57b661ae8
--- /dev/null
+++ b/wan_dewa_000003000_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a603462f64f888836317cbb545db3b52c8c6b189bead4e24aa6e8c691440e31d
+size 153453544
diff --git a/wan_dewa_000003000_low_noise.safetensors b/wan_dewa_000003000_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..843a4385ba7972916f7ff713564343dcea261bcc
--- /dev/null
+++ b/wan_dewa_000003000_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c060dfa84981831326b15125ef6fafced1337161efb16a2bb7a0e0944e49672
+size 153453544
diff --git a/wan_dewa_000003250_high_noise.safetensors b/wan_dewa_000003250_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..bb6f9e880117e87c55086634ad59473f0333ea48
--- /dev/null
+++ b/wan_dewa_000003250_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:734db1aed6c5b186c1f92b5d0fd9e048fc1aacd22db33afc0c422e41e217e1ee
+size 153453544
diff --git a/wan_dewa_000003250_low_noise.safetensors b/wan_dewa_000003250_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..dc3e22b0426427fc512f135ed53086916dd0eaa4
--- /dev/null
+++ b/wan_dewa_000003250_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32e83e1871771556cc9b4c51a77dfcf8577417508e3587ac958b110b197cd98d
+size 153453544
diff --git a/wan_dewa_high_noise.safetensors b/wan_dewa_high_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ede5e726d88cb559e3f20fa5bc5e060193fc8b3d
--- /dev/null
+++ b/wan_dewa_high_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c158edd74dbf5216f45f3455dffabe13556f6cc57561f3bc0eefd71fde254646
+size 153453544
diff --git a/wan_dewa_low_noise.safetensors b/wan_dewa_low_noise.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..94d302ef812dcbc9a82da6bfefa23e91ad786ad3
--- /dev/null
+++ b/wan_dewa_low_noise.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb333561cbc51575f97b21d62559264237ec9631b1800d74d7b4793bf979d3cb
+size 153453544