End of training

Browse files

Files changed (6) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +108 -108
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "o_proj",
     "gate_proj",
     "v_proj",
     "up_proj",
-    "k_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
+    "q_proj",
     "v_proj",
+    "down_proj",
+    "o_proj",
     "up_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5a51b4040a19973c720d802e8f5f9a771e95e3fff84fd727220f76425bbaa97
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2e185b8d08f2fa20e5a9a936c05687467b73413144c3969a9ab114091cec8a
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.1884203192712447e-06,
-    "train_runtime": 902.394,
-    "train_samples": 14,
-    "train_samples_per_second": 0.177,
-    "train_steps_per_second": 0.022
 }

 {
     "total_flos": 0.0,
+    "train_loss": 5.768292692209798e-06,
+    "train_runtime": 200.4297,
+    "train_samples": 20,
+    "train_samples_per_second": 0.798,
+    "train_steps_per_second": 0.1
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.1884203192712447e-06,
-    "train_runtime": 902.394,
-    "train_samples": 14,
-    "train_samples_per_second": 0.177,
-    "train_steps_per_second": 0.022
 }

 {
     "total_flos": 0.0,
+    "train_loss": 5.768292692209798e-06,
+    "train_runtime": 200.4297,
+    "train_samples": 20,
+    "train_samples_per_second": 0.798,
+    "train_steps_per_second": 0.1
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 301.5,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 2.232272148132324,
-      "kl": 0.0018541848403401673,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 0.45612623821944,
-      "reward_std": 0.5151664768345654,
       "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.39943871926516294,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.06831250712275505,
       "step": 2
     },
     {
-      "completion_length": 311.3333333333333,
-      "epoch": 1.0,
-      "grad_norm": 1.4702999591827393,
-      "kl": 0.0050174497106733424,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.8970370069146156,
-      "reward_std": 0.8781636481483778,
-      "rewards/concensus_correctness_reward_func": 0.12100000182787578,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.37737033516168594,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.23199999332427979,
       "step": 4
     },
     {
-      "completion_length": 514.9375,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 1.3403030633926392,
-      "kl": 0.001357531833491521,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 0.6555701491888613,
-      "reward_std": 0.23883495072368532,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4013201443012804,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2542500011622906,
       "step": 6
     },
     {
-      "completion_length": 378.0,
-      "epoch": 2.0,
-      "grad_norm": 1.7449222803115845,
-      "kl": 0.006958900814424851,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 0.3588735560576121,
-      "reward_std": 0.629735231709977,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.26887355496486026,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.08999999612569809,
       "step": 8
     },
     {
-      "completion_length": 341.1875,
-      "epoch": 2.571428571428571,
-      "grad_norm": 2.0134317874908447,
-      "kl": 0.0014359224660438485,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 0.4259331510402262,
-      "reward_std": 0.6845499253831804,
-      "rewards/concensus_correctness_reward_func": 0.005750000011175871,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.24549564579501748,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.17468749731779099,
       "step": 10
     },
     {
-      "completion_length": 389.5,
-      "epoch": 3.0,
-      "grad_norm": 2.063610315322876,
-      "kl": 0.0021239970034609237,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.18445197741190592,
-      "reward_std": 0.8077608893314997,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4092019697030385,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.22475000222524008,
       "step": 12
     },
     {
-      "completion_length": 319.9375,
-      "epoch": 3.571428571428571,
-      "grad_norm": 2.1642396450042725,
-      "kl": 0.0013046743788436288,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 0.8358976086601615,
-      "reward_std": 0.746830245363526,
-      "rewards/concensus_correctness_reward_func": 0.09075000137090683,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.24089760053902864,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2542500044219196,
       "step": 14
     },
     {
-      "completion_length": 296.9166666666667,
-      "epoch": 4.0,
-      "grad_norm": 4.305713176727295,
-      "kl": 0.0027486189113308987,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.5075265454749266,
-      "reward_std": 0.25510102945069474,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.3080265335738659,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.19950000445048013,
       "step": 16
     },
     {
-      "completion_length": 429.625,
-      "epoch": 4.571428571428571,
-      "grad_norm": 1.4546928405761719,
-      "kl": 0.001753502117935568,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 0.5715110902674496,
-      "reward_std": 0.6498683242825791,
-      "rewards/concensus_correctness_reward_func": 0.09075000137090683,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.2488860827870667,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.10687500238418579,
       "step": 18
     },
     {
-      "completion_length": 277.6666666666667,
-      "epoch": 5.0,
-      "grad_norm": 1.6004384756088257,
-      "kl": 0.002019081419954697,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 0.38764297496527433,
-      "reward_std": 0.18386375376333794,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.18605964817106724,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.20158333455522856,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 2.1884203192712447e-06,
-      "train_runtime": 902.394,
-      "train_samples_per_second": 0.177,
-      "train_steps_per_second": 0.022
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 302.6875,
+      "epoch": 0.4,
+      "grad_norm": 2.107053279876709,
+      "kl": 0.001833398244343698,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.6121698692440987,
+      "reward_std": 0.7188298236578703,
       "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.34723235201090574,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.13993750419467688,
       "step": 2
     },
     {
+      "completion_length": 302.5,
+      "epoch": 0.8,
+      "grad_norm": 2.666794776916504,
+      "kl": 0.02018403948022751,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.8020964106544852,
+      "reward_std": 0.5309067370835692,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5,
+      "rewards/question_recreation_reward_func": 0.29853392392396927,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0035625100135803223,
       "step": 4
     },
     {
+      "completion_length": 492.0,
+      "epoch": 1.2,
+      "grad_norm": 1.4782581329345703,
+      "kl": 0.0017244854752789252,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.753280152566731,
+      "reward_std": 0.9823426175862551,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.28684263746254146,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.09143750462681055,
       "step": 6
     },
     {
+      "completion_length": 458.9375,
+      "epoch": 1.6,
+      "grad_norm": 2.416404962539673,
+      "kl": 0.0026180234526691493,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.2846465739421546,
+      "reward_std": 1.141023407690227,
+      "rewards/concensus_correctness_reward_func": 0.21074999868869781,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.45814658515155315,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.36574999801814556,
       "step": 8
     },
     {
+      "completion_length": 360.6875,
+      "epoch": 2.0,
+      "grad_norm": 8.60208797454834,
+      "kl": 0.0025160184886772186,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.591901202686131,
+      "reward_std": 1.8193573111202568,
+      "rewards/concensus_correctness_reward_func": 0.5272499993443489,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.39571370277553797,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2939375042915344,
       "step": 10
     },
     {
+      "completion_length": 452.625,
+      "epoch": 2.4,
+      "grad_norm": 2.5068929195404053,
+      "kl": 0.0019544935057638213,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.7135184425860643,
+      "reward_std": 0.8140879347920418,
+      "rewards/concensus_correctness_reward_func": 0.1171249970793724,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.30308092199265957,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.04331250116229057,
       "step": 12
     },
     {
+      "completion_length": 315.0625,
+      "epoch": 2.8,
+      "grad_norm": 3.2494900226593018,
+      "kl": 0.01614819017413538,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.636540960520506,
+      "reward_std": 2.4551502619870007,
+      "rewards/concensus_correctness_reward_func": 1.3697500005364418,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.2268535066395998,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.08506249729543924,
       "step": 14
     },
     {
+      "completion_length": 459.4375,
+      "epoch": 3.2,
+      "grad_norm": 2.0964574813842773,
+      "kl": 0.0013882217381251394,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.8315258803777397,
+      "reward_std": 0.5543470710981637,
+      "rewards/concensus_correctness_reward_func": 0.3542499914765358,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.28727589966729283,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.06000000424683094,
       "step": 16
     },
     {
+      "completion_length": 476.125,
+      "epoch": 3.6,
+      "grad_norm": 2.4637372493743896,
+      "kl": 0.001981627065106295,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.526203976944089,
+      "reward_std": 1.0305481338873506,
+      "rewards/concensus_correctness_reward_func": 0.4403750002384186,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.34639142733067274,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3644375130534172,
       "step": 18
     },
     {
+      "completion_length": 404.5,
+      "epoch": 4.0,
+      "grad_norm": 3.0885298252105713,
+      "kl": 0.007382418974884786,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 2.3384321611374617,
+      "reward_std": 2.554030758328736,
+      "rewards/concensus_correctness_reward_func": 1.3282499983906746,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.625,
+      "rewards/question_recreation_reward_func": 0.39343212731182575,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.00824999762699008,
       "step": 20
     },
     {
+      "epoch": 4.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 5.768292692209798e-06,
+      "train_runtime": 200.4297,
+      "train_samples_per_second": 0.798,
+      "train_steps_per_second": 0.1
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f772d7a2c2a4f4c937ab339e1dd147604d1dd57379a67f1fed1656c6c0874f8
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:9169c0942bc8bc04566337d6a93210c08227e31dcb370d41ee4434d4ab8e6ea1
 size 6008