aksamlan
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-jagged_hunting_beaver

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af2e185b8d08f2fa20e5a9a936c05687467b73413144c3969a9ab114091cec8a
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4020f2b3d49ef12431b822752f29895e281f2ad30038feb0be237a745bf31bf
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.768292692209798e-06,
-    "train_runtime": 200.4297,
-    "train_samples": 20,
-    "train_samples_per_second": 0.798,
-    "train_steps_per_second": 0.1
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.425745412892866e-06,
+    "train_runtime": 177.9462,
+    "train_samples": 14,
+    "train_samples_per_second": 0.899,
+    "train_steps_per_second": 0.112
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.768292692209798e-06,
-    "train_runtime": 200.4297,
-    "train_samples": 20,
-    "train_samples_per_second": 0.798,
-    "train_steps_per_second": 0.1
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.425745412892866e-06,
+    "train_runtime": 177.9462,
+    "train_samples": 14,
+    "train_samples_per_second": 0.899,
+    "train_steps_per_second": 0.112
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 302.6875,
-      "epoch": 0.4,
-      "grad_norm": 2.107053279876709,
-      "kl": 0.001833398244343698,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 0.6121698692440987,
-      "reward_std": 0.7188298236578703,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.34723235201090574,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.13993750419467688,
       "step": 2
     },
     {
-      "completion_length": 302.5,
-      "epoch": 0.8,
-      "grad_norm": 2.666794776916504,
-      "kl": 0.02018403948022751,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.8020964106544852,
-      "reward_std": 0.5309067370835692,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.29853392392396927,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.0035625100135803223,
       "step": 4
     },
     {
-      "completion_length": 492.0,
-      "epoch": 1.2,
-      "grad_norm": 1.4782581329345703,
-      "kl": 0.0017244854752789252,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 0.753280152566731,
-      "reward_std": 0.9823426175862551,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.28684263746254146,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.09143750462681055,
       "step": 6
     },
     {
-      "completion_length": 458.9375,
-      "epoch": 1.6,
-      "grad_norm": 2.416404962539673,
-      "kl": 0.0026180234526691493,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.2846465739421546,
-      "reward_std": 1.141023407690227,
-      "rewards/concensus_correctness_reward_func": 0.21074999868869781,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.45814658515155315,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.36574999801814556,
       "step": 8
     },
     {
-      "completion_length": 360.6875,
-      "epoch": 2.0,
-      "grad_norm": 8.60208797454834,
-      "kl": 0.0025160184886772186,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.591901202686131,
-      "reward_std": 1.8193573111202568,
-      "rewards/concensus_correctness_reward_func": 0.5272499993443489,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.39571370277553797,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2939375042915344,
       "step": 10
     },
     {
-      "completion_length": 452.625,
-      "epoch": 2.4,
-      "grad_norm": 2.5068929195404053,
-      "kl": 0.0019544935057638213,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.7135184425860643,
-      "reward_std": 0.8140879347920418,
-      "rewards/concensus_correctness_reward_func": 0.1171249970793724,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.30308092199265957,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.04331250116229057,
       "step": 12
     },
     {
-      "completion_length": 315.0625,
-      "epoch": 2.8,
-      "grad_norm": 3.2494900226593018,
-      "kl": 0.01614819017413538,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.636540960520506,
-      "reward_std": 2.4551502619870007,
-      "rewards/concensus_correctness_reward_func": 1.3697500005364418,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.2268535066395998,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.08506249729543924,
       "step": 14
     },
     {
-      "completion_length": 459.4375,
-      "epoch": 3.2,
-      "grad_norm": 2.0964574813842773,
-      "kl": 0.0013882217381251394,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.8315258803777397,
-      "reward_std": 0.5543470710981637,
-      "rewards/concensus_correctness_reward_func": 0.3542499914765358,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.28727589966729283,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.06000000424683094,
       "step": 16
     },
     {
-      "completion_length": 476.125,
-      "epoch": 3.6,
-      "grad_norm": 2.4637372493743896,
-      "kl": 0.001981627065106295,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.526203976944089,
-      "reward_std": 1.0305481338873506,
-      "rewards/concensus_correctness_reward_func": 0.4403750002384186,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.34639142733067274,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3644375130534172,
       "step": 18
     },
     {
-      "completion_length": 404.5,
-      "epoch": 4.0,
-      "grad_norm": 3.0885298252105713,
-      "kl": 0.007382418974884786,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 2.3384321611374617,
-      "reward_std": 2.554030758328736,
-      "rewards/concensus_correctness_reward_func": 1.3282499983906746,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.625,
-      "rewards/question_recreation_reward_func": 0.39343212731182575,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.00824999762699008,
       "step": 20
     },
     {
-      "epoch": 4.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 5.768292692209798e-06,
-      "train_runtime": 200.4297,
-      "train_samples_per_second": 0.798,
-      "train_steps_per_second": 0.1
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 560.875,
+      "epoch": 0.5714285714285714,
+      "grad_norm": 3.723012924194336,
+      "kl": 0.001292824381380342,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.2683439403772354,
+      "reward_std": 0.4880548566579819,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.18340644519776106,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.08493749611079693,
       "step": 2
     },
     {
+      "completion_length": 368.5,
+      "epoch": 1.0,
+      "grad_norm": 2.7846364974975586,
+      "kl": 0.0019923485233448446,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.3504849374294281,
+      "reward_std": 0.5885173020263513,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.16666666666666666,
+      "rewards/question_recreation_reward_func": 0.32073493115603924,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.13691666078132889,
       "step": 4
     },
     {
+      "completion_length": 404.0625,
+      "epoch": 1.5714285714285714,
+      "grad_norm": 1.3856635093688965,
+      "kl": 0.001339340211416129,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.17506105825304985,
+      "reward_std": 0.17539560986915603,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.26862356066703796,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.09356250427663326,
       "step": 6
     },
     {
+      "completion_length": 362.5833333333333,
+      "epoch": 2.0,
+      "grad_norm": 3.5829715728759766,
+      "kl": 0.0027290927149200193,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.13131776824593544,
+      "reward_std": 1.2102658259512584,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3333333333333333,
+      "rewards/question_recreation_reward_func": 0.34065108249584836,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.5426666289567947,
       "step": 8
     },
     {
+      "completion_length": 574.5625,
+      "epoch": 2.571428571428571,
+      "grad_norm": 1.413923740386963,
+      "kl": 0.001252249610843137,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.6071861740201712,
+      "reward_std": 0.5157831413671374,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.2425611785147339,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2396250031888485,
       "step": 10
     },
     {
+      "completion_length": 349.0833333333333,
+      "epoch": 3.0,
+      "grad_norm": 0.9041206240653992,
+      "kl": 0.0015493201305313657,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.0826210839052995,
+      "reward_std": 0.5416930752495924,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.16666666666666666,
+      "rewards/question_recreation_reward_func": 0.2487044216444095,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.3327499922985832,
       "step": 12
     },
     {
+      "completion_length": 445.6875,
+      "epoch": 3.571428571428571,
+      "grad_norm": 2.1271238327026367,
+      "kl": 0.011247969196119811,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.35610084887593985,
+      "reward_std": 0.3311492399079725,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.19797584787011147,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.033125000074505806,
       "step": 14
     },
     {
+      "completion_length": 408.8333333333333,
+      "epoch": 4.0,
+      "grad_norm": 0.9073309302330017,
+      "kl": 0.0028479883524899683,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.3536644255121549,
+      "reward_std": 0.37826905337472755,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.20783109093705812,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.14583333333333334,
       "step": 16
     },
     {
+      "completion_length": 434.5625,
+      "epoch": 4.571428571428571,
+      "grad_norm": 1.3901129961013794,
+      "kl": 0.0013948993582744151,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.8019987307488918,
+      "reward_std": 0.349066823546309,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.22418621787801385,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3278125021606684,
       "step": 18
     },
     {
+      "completion_length": 317.75,
+      "epoch": 5.0,
+      "grad_norm": 1.5961576700210571,
+      "kl": 0.0014533416154639174,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.8478754280755917,
+      "reward_std": 0.8306181892597427,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5190421013782421,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.32883333166440326,
       "step": 20
     },
     {
+      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.425745412892866e-06,
+      "train_runtime": 177.9462,
+      "train_samples_per_second": 0.899,
+      "train_steps_per_second": 0.112
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {