Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5be01825ddc487915292db37d62ff62b8d6ed0f8c74279a313c72a200f7d91f7
 size 1783055976

 version https://git-lfs.github.com/spec/v1
+oid sha256:acc87b56bfea0921f67b82fd6fb0ff13a0dce7525f5dcac74b700919b5b7da60
 size 1783055976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa4e94e49b6113a881a4e33ab16b3c39d397235b7cffc6987b8fbcca73489c72
 size 3566169867

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fe5a8e62d2a35845881303c9c91d1fd60669d4548386f6d6eb35cdd3962cfe5
 size 3566169867

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3a77d4a8b98ce027a4d6a3b9fb5d7c904e27ec1efd5c0468c24fa26bb738316
 size 14455

 version https://git-lfs.github.com/spec/v1
+oid sha256:dba4fde4ee04d2f472bb4dea96a48e8fdf7891d2b0694a8f012e8133a2e176ae
 size 14455

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c50f7ca4fd505471874984aa92be108b5378e85599e099ca2e0075af31141d8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:579bb6a92f2b71fde64b38b0a9a0620dcd61523c3257dcf20e2dc548cb235123
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04067603571355936,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -86,6 +86,84 @@
       "eval_samples_per_second": 3.094,
       "eval_steps_per_second": 0.774,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -105,7 +183,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1883244249088e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08135207142711871,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.094,
       "eval_steps_per_second": 0.774,
       "step": 500
+    },
+    {
+      "epoch": 0.044743639284915294,
+      "grad_norm": 10.40243148803711,
+      "learning_rate": 2.4796747967479675e-05,
+      "loss": 2.9854,
+      "step": 550
+    },
+    {
+      "epoch": 0.048811242856271225,
+      "grad_norm": 9.785271644592285,
+      "learning_rate": 2.7055103884372178e-05,
+      "loss": 2.918,
+      "step": 600
+    },
+    {
+      "epoch": 0.05287884642762716,
+      "grad_norm": 9.53836727142334,
+      "learning_rate": 2.931345980126468e-05,
+      "loss": 2.9519,
+      "step": 650
+    },
+    {
+      "epoch": 0.0569464499989831,
+      "grad_norm": 9.973458290100098,
+      "learning_rate": 3.1571815718157185e-05,
+      "loss": 2.9703,
+      "step": 700
+    },
+    {
+      "epoch": 0.06101405357033903,
+      "grad_norm": 9.470365524291992,
+      "learning_rate": 3.3830171635049685e-05,
+      "loss": 2.9412,
+      "step": 750
+    },
+    {
+      "epoch": 0.06508165714169498,
+      "grad_norm": 9.310904502868652,
+      "learning_rate": 3.6088527551942185e-05,
+      "loss": 2.9269,
+      "step": 800
+    },
+    {
+      "epoch": 0.0691492607130509,
+      "grad_norm": 9.931621551513672,
+      "learning_rate": 3.8346883468834685e-05,
+      "loss": 2.8926,
+      "step": 850
+    },
+    {
+      "epoch": 0.07321686428440684,
+      "grad_norm": 10.827827453613281,
+      "learning_rate": 4.060523938572719e-05,
+      "loss": 2.8518,
+      "step": 900
+    },
+    {
+      "epoch": 0.07728446785576278,
+      "grad_norm": 10.306633949279785,
+      "learning_rate": 4.28635953026197e-05,
+      "loss": 2.8674,
+      "step": 950
+    },
+    {
+      "epoch": 0.08135207142711871,
+      "grad_norm": 9.62368106842041,
+      "learning_rate": 4.51219512195122e-05,
+      "loss": 2.8594,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08135207142711871,
+      "eval_loss": 2.8507587909698486,
+      "eval_runtime": 642.7633,
+      "eval_samples_per_second": 3.091,
+      "eval_steps_per_second": 0.773,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.3766488498176e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null