baohuynhbk14
/

miniCPM_finetune_lora_viet_vqa

@@ -3,107 +3,121 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 1000,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08333333333333333,
-      "grad_norm": 1.0525362491607666,
       "learning_rate": 1e-06,
-      "loss": 1.5648,
       "step": 5
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 1.0406826734542847,
       "learning_rate": 1e-06,
-      "loss": 1.4231,
       "step": 10
     },
     {
-      "epoch": 0.25,
-      "grad_norm": 1.1155447959899902,
       "learning_rate": 1e-06,
-      "loss": 1.4725,
       "step": 15
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 1.1421337127685547,
       "learning_rate": 1e-06,
-      "loss": 1.4378,
       "step": 20
     },
     {
-      "epoch": 0.4166666666666667,
-      "grad_norm": 1.1258127689361572,
       "learning_rate": 1e-06,
-      "loss": 1.4757,
       "step": 25
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.9541631937026978,
       "learning_rate": 1e-06,
-      "loss": 1.4635,
       "step": 30
     },
     {
-      "epoch": 0.5833333333333334,
-      "grad_norm": 0.9896816611289978,
       "learning_rate": 1e-06,
-      "loss": 1.4231,
       "step": 35
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.9481335282325745,
       "learning_rate": 1e-06,
-      "loss": 1.3768,
       "step": 40
     },
     {
-      "epoch": 0.75,
-      "grad_norm": 1.1283329725265503,
       "learning_rate": 1e-06,
-      "loss": 1.3612,
       "step": 45
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.891376256942749,
       "learning_rate": 1e-06,
-      "loss": 1.4153,
       "step": 50
     },
     {
-      "epoch": 0.9166666666666666,
-      "grad_norm": 1.1683685779571533,
       "learning_rate": 1e-06,
-      "loss": 1.4396,
       "step": 55
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.9238619208335876,
       "learning_rate": 1e-06,
-      "loss": 1.4343,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "step": 60,
-      "total_flos": 4.573495361431142e+16,
-      "train_loss": 1.440619428952535,
-      "train_runtime": 599.9581,
-      "train_samples_per_second": 1.593,
-      "train_steps_per_second": 0.1
     }
   ],
   "logging_steps": 5,
-  "max_steps": 60,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
@@ -119,7 +133,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.573495361431142e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 1000,
+  "global_step": 72,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06944444444444445,
+      "grad_norm": 4.683212757110596,
       "learning_rate": 1e-06,
+      "loss": 2.5448,
       "step": 5
     },
     {
+      "epoch": 0.1388888888888889,
+      "grad_norm": 4.721557140350342,
       "learning_rate": 1e-06,
+      "loss": 2.4235,
       "step": 10
     },
     {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 3.7502753734588623,
       "learning_rate": 1e-06,
+      "loss": 2.5413,
       "step": 15
     },
     {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 4.788341045379639,
       "learning_rate": 1e-06,
+      "loss": 2.7545,
       "step": 20
     },
     {
+      "epoch": 0.3472222222222222,
+      "grad_norm": 4.027582168579102,
       "learning_rate": 1e-06,
+      "loss": 2.398,
       "step": 25
     },
     {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 4.083437442779541,
       "learning_rate": 1e-06,
+      "loss": 2.737,
       "step": 30
     },
     {
+      "epoch": 0.4861111111111111,
+      "grad_norm": 3.840348720550537,
       "learning_rate": 1e-06,
+      "loss": 2.6366,
       "step": 35
     },
     {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 3.376926898956299,
       "learning_rate": 1e-06,
+      "loss": 2.5638,
       "step": 40
     },
     {
+      "epoch": 0.625,
+      "grad_norm": 3.656587600708008,
       "learning_rate": 1e-06,
+      "loss": 2.7568,
       "step": 45
     },
     {
+      "epoch": 0.6944444444444444,
+      "grad_norm": 2.5398614406585693,
       "learning_rate": 1e-06,
+      "loss": 2.3856,
       "step": 50
     },
     {
+      "epoch": 0.7638888888888888,
+      "grad_norm": 2.253296136856079,
       "learning_rate": 1e-06,
+      "loss": 2.268,
       "step": 55
     },
     {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 2.464299201965332,
       "learning_rate": 1e-06,
+      "loss": 2.45,
       "step": 60
     },
+    {
+      "epoch": 0.9027777777777778,
+      "grad_norm": 2.9303369522094727,
+      "learning_rate": 1e-06,
+      "loss": 2.5548,
+      "step": 65
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "grad_norm": 1.658677339553833,
+      "learning_rate": 1e-06,
+      "loss": 2.3566,
+      "step": 70
+    },
     {
       "epoch": 1.0,
+      "step": 72,
+      "total_flos": 4.988916731582874e+16,
+      "train_loss": 2.5252017312579684,
+      "train_runtime": 672.6439,
+      "train_samples_per_second": 1.713,
+      "train_steps_per_second": 0.107
     }
   ],
   "logging_steps": 5,
+  "max_steps": 72,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 4.988916731582874e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null