tomvoelker
/

gpt22gpt2-gpt2-cnn-dailymail-seed42

@@ -1,16 +1,16 @@
 {
     "epoch": 2.999832822513235,
-    "test_loss": 2.405472993850708,
-    "test_rouge1": 0.30014736256715036,
-    "test_rouge2": 0.08990177140739183,
-    "test_rougeL": 0.17839451537149986,
-    "test_rougeLsum": 0.2793680267506967,
-    "test_runtime": 3332.6261,
-    "test_samples_per_second": 3.448,
-    "test_steps_per_second": 0.216,
     "total_flos": 5.251566637814907e+17,
-    "train_loss": 2.7471534659841614,
-    "train_runtime": 62610.6103,
-    "train_samples_per_second": 13.757,
-    "train_steps_per_second": 0.43
 }

 {
     "epoch": 2.999832822513235,
+    "test_loss": 2.3661417961120605,
+    "test_rouge1": 0.24069119580905096,
+    "test_rouge2": 0.06279204840567007,
+    "test_rougeL": 0.1497130207459511,
+    "test_rougeLsum": 0.22519873523651693,
+    "test_runtime": 3342.168,
+    "test_samples_per_second": 3.438,
+    "test_steps_per_second": 0.215,
     "total_flos": 5.251566637814907e+17,
+    "train_loss": 2.7409434880486105,
+    "train_runtime": 62948.108,
+    "train_samples_per_second": 13.683,
+    "train_steps_per_second": 0.428
 }

test_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "test_loss": 2.405472993850708,
-    "test_rouge1": 0.30014736256715036,
-    "test_rouge2": 0.08990177140739183,
-    "test_rougeL": 0.17839451537149986,
-    "test_rougeLsum": 0.2793680267506967,
-    "test_runtime": 3332.6261,
-    "test_samples_per_second": 3.448,
-    "test_steps_per_second": 0.216
 }

 {
+    "test_loss": 2.3661417961120605,
+    "test_rouge1": 0.24069119580905096,
+    "test_rouge2": 0.06279204840567007,
+    "test_rougeL": 0.1497130207459511,
+    "test_rougeLsum": 0.22519873523651693,
+    "test_runtime": 3342.168,
+    "test_samples_per_second": 3.438,
+    "test_steps_per_second": 0.215
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.999832822513235,
     "total_flos": 5.251566637814907e+17,
-    "train_loss": 2.7471534659841614,
-    "train_runtime": 62610.6103,
-    "train_samples_per_second": 13.757,
-    "train_steps_per_second": 0.43
 }

 {
     "epoch": 2.999832822513235,
     "total_flos": 5.251566637814907e+17,
+    "train_loss": 2.7409434880486105,
+    "train_runtime": 62948.108,
+    "train_samples_per_second": 13.683,
+    "train_steps_per_second": 0.428
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.09498188720823034,
-  "best_model_checkpoint": "/bartabsa-reproduce/outputs/gpt22gpt2_42/checkpoint-26000",
   "epoch": 2.999832822513235,
   "eval_steps": 2000,
   "global_step": 26916,
@@ -10,539 +10,539 @@
   "log_history": [
     {
       "epoch": 0.05572582892170521,
-      "grad_norm": 4.041100025177002,
       "learning_rate": 2.5e-05,
-      "loss": 4.6671,
       "step": 500
     },
     {
       "epoch": 0.11145165784341042,
-      "grad_norm": 2.432424545288086,
       "learning_rate": 5e-05,
-      "loss": 3.4845,
       "step": 1000
     },
     {
       "epoch": 0.16717748676511562,
-      "grad_norm": 1.953045129776001,
       "learning_rate": 4.9035344960642076e-05,
-      "loss": 3.3593,
       "step": 1500
     },
     {
       "epoch": 0.22290331568682084,
-      "grad_norm": 1.6982029676437378,
       "learning_rate": 4.807068992128415e-05,
-      "loss": 3.2585,
       "step": 2000
     },
     {
       "epoch": 0.22290331568682084,
-      "eval_loss": 3.0468475818634033,
-      "eval_rouge1": 0.20414052990162646,
-      "eval_rouge2": 0.0368331377057871,
-      "eval_rougeL": 0.12707636549492063,
-      "eval_rougeLsum": 0.19158184931332545,
-      "eval_runtime": 3954.9669,
-      "eval_samples_per_second": 3.38,
-      "eval_steps_per_second": 0.211,
       "step": 2000
     },
     {
       "epoch": 0.27862914460852606,
-      "grad_norm": 1.7004557847976685,
       "learning_rate": 4.7106034881926225e-05,
-      "loss": 3.1954,
       "step": 2500
     },
     {
       "epoch": 0.33435497353023125,
-      "grad_norm": 1.7124439477920532,
       "learning_rate": 4.61413798425683e-05,
-      "loss": 3.1283,
       "step": 3000
     },
     {
       "epoch": 0.3900808024519365,
-      "grad_norm": 1.6656184196472168,
       "learning_rate": 4.517672480321037e-05,
-      "loss": 3.074,
       "step": 3500
     },
     {
       "epoch": 0.4458066313736417,
-      "grad_norm": 1.6584104299545288,
       "learning_rate": 4.421206976385245e-05,
-      "loss": 3.021,
       "step": 4000
     },
     {
       "epoch": 0.4458066313736417,
-      "eval_loss": 2.824082136154175,
-      "eval_rouge1": 0.24506751051320486,
-      "eval_rouge2": 0.054679372312090684,
-      "eval_rougeL": 0.14905741774213627,
-      "eval_rougeLsum": 0.22935701387043644,
-      "eval_runtime": 3934.6858,
-      "eval_samples_per_second": 3.397,
       "eval_steps_per_second": 0.212,
       "step": 4000
     },
     {
       "epoch": 0.5015324602953469,
-      "grad_norm": 1.7051591873168945,
       "learning_rate": 4.324741472449452e-05,
-      "loss": 2.9832,
       "step": 4500
     },
     {
       "epoch": 0.5572582892170521,
-      "grad_norm": 1.6298202276229858,
       "learning_rate": 4.2282759685136595e-05,
-      "loss": 2.9583,
       "step": 5000
     },
     {
       "epoch": 0.6129841181387573,
-      "grad_norm": 1.6464300155639648,
       "learning_rate": 4.131810464577867e-05,
-      "loss": 2.9228,
       "step": 5500
     },
     {
       "epoch": 0.6687099470604625,
-      "grad_norm": 1.739127278327942,
       "learning_rate": 4.035344960642074e-05,
-      "loss": 2.9032,
       "step": 6000
     },
     {
       "epoch": 0.6687099470604625,
-      "eval_loss": 2.7089996337890625,
-      "eval_rouge1": 0.2663717664757944,
-      "eval_rouge2": 0.06537748809482974,
-      "eval_rougeL": 0.1592442331800362,
-      "eval_rougeLsum": 0.24867499259615916,
-      "eval_runtime": 3934.9758,
-      "eval_samples_per_second": 3.397,
-      "eval_steps_per_second": 0.212,
       "step": 6000
     },
     {
       "epoch": 0.7244357759821677,
-      "grad_norm": 1.7684314250946045,
       "learning_rate": 3.938879456706282e-05,
-      "loss": 2.882,
       "step": 6500
     },
     {
       "epoch": 0.780161604903873,
-      "grad_norm": 1.6454176902770996,
       "learning_rate": 3.84241395277049e-05,
-      "loss": 2.865,
       "step": 7000
     },
     {
       "epoch": 0.8358874338255782,
-      "grad_norm": 1.666963815689087,
       "learning_rate": 3.745948448834697e-05,
-      "loss": 2.8506,
       "step": 7500
     },
     {
       "epoch": 0.8916132627472834,
-      "grad_norm": 1.8170151710510254,
       "learning_rate": 3.6494829448989046e-05,
-      "loss": 2.8327,
       "step": 8000
     },
     {
       "epoch": 0.8916132627472834,
-      "eval_loss": 2.642709732055664,
-      "eval_rouge1": 0.2751055377920662,
-      "eval_rouge2": 0.07034575867678786,
-      "eval_rougeL": 0.16339764548616517,
-      "eval_rougeLsum": 0.25646025355771046,
-      "eval_runtime": 3890.3417,
-      "eval_samples_per_second": 3.436,
-      "eval_steps_per_second": 0.215,
       "step": 8000
     },
     {
       "epoch": 0.9473390916689886,
-      "grad_norm": 1.5809513330459595,
       "learning_rate": 3.553017440963112e-05,
-      "loss": 2.8165,
       "step": 8500
     },
     {
       "epoch": 1.0030649205906939,
-      "grad_norm": 1.7124121189117432,
       "learning_rate": 3.4565519370273194e-05,
-      "loss": 2.7999,
       "step": 9000
     },
     {
       "epoch": 1.058790749512399,
-      "grad_norm": 1.7687199115753174,
       "learning_rate": 3.360086433091527e-05,
-      "loss": 2.7008,
       "step": 9500
     },
     {
       "epoch": 1.1145165784341042,
-      "grad_norm": 1.5963129997253418,
       "learning_rate": 3.263620929155734e-05,
-      "loss": 2.6888,
       "step": 10000
     },
     {
       "epoch": 1.1145165784341042,
-      "eval_loss": 2.59445858001709,
-      "eval_rouge1": 0.2837999756517398,
-      "eval_rouge2": 0.07560808665349861,
-      "eval_rougeL": 0.1683748136203092,
-      "eval_rougeLsum": 0.2645926430882342,
-      "eval_runtime": 3881.3598,
-      "eval_samples_per_second": 3.444,
-      "eval_steps_per_second": 0.215,
       "step": 10000
     },
     {
       "epoch": 1.1702424073558095,
-      "grad_norm": 1.5700680017471313,
       "learning_rate": 3.1671554252199416e-05,
-      "loss": 2.6877,
       "step": 10500
     },
     {
       "epoch": 1.2259682362775146,
-      "grad_norm": 1.6018140316009521,
       "learning_rate": 3.070689921284149e-05,
-      "loss": 2.6832,
       "step": 11000
     },
     {
       "epoch": 1.28169406519922,
-      "grad_norm": 1.6392451524734497,
       "learning_rate": 2.9742244173483564e-05,
-      "loss": 2.6644,
       "step": 11500
     },
     {
       "epoch": 1.337419894120925,
-      "grad_norm": 1.6229345798492432,
       "learning_rate": 2.8777589134125638e-05,
-      "loss": 2.6639,
       "step": 12000
     },
     {
       "epoch": 1.337419894120925,
-      "eval_loss": 2.552922487258911,
-      "eval_rouge1": 0.29085662314708605,
-      "eval_rouge2": 0.0793640709354625,
-      "eval_rougeL": 0.17167813435302517,
-      "eval_rougeLsum": 0.2712184275883871,
-      "eval_runtime": 3882.9542,
-      "eval_samples_per_second": 3.443,
-      "eval_steps_per_second": 0.215,
       "step": 12000
     },
     {
       "epoch": 1.3931457230426303,
-      "grad_norm": 1.6006370782852173,
       "learning_rate": 2.7812934094767712e-05,
-      "loss": 2.6644,
       "step": 12500
     },
     {
       "epoch": 1.4488715519643356,
-      "grad_norm": 1.647545337677002,
       "learning_rate": 2.6848279055409786e-05,
-      "loss": 2.6594,
       "step": 13000
     },
     {
       "epoch": 1.5045973808860407,
-      "grad_norm": 1.629269003868103,
       "learning_rate": 2.588362401605186e-05,
-      "loss": 2.6461,
       "step": 13500
     },
     {
       "epoch": 1.5603232098077457,
-      "grad_norm": 1.6553572416305542,
       "learning_rate": 2.4918968976693934e-05,
-      "loss": 2.6351,
       "step": 14000
     },
     {
       "epoch": 1.5603232098077457,
-      "eval_loss": 2.515895366668701,
-      "eval_rouge1": 0.2917033862169448,
-      "eval_rouge2": 0.08093829177522276,
-      "eval_rougeL": 0.17244898354413596,
-      "eval_rougeLsum": 0.2717652486926211,
-      "eval_runtime": 3880.2314,
-      "eval_samples_per_second": 3.445,
-      "eval_steps_per_second": 0.215,
       "step": 14000
     },
     {
       "epoch": 1.616049038729451,
-      "grad_norm": 1.8069674968719482,
       "learning_rate": 2.3954313937336008e-05,
-      "loss": 2.635,
       "step": 14500
     },
     {
       "epoch": 1.6717748676511563,
-      "grad_norm": 1.620038628578186,
       "learning_rate": 2.2989658897978082e-05,
-      "loss": 2.6173,
       "step": 15000
     },
     {
       "epoch": 1.7275006965728616,
-      "grad_norm": 1.6973850727081299,
       "learning_rate": 2.2025003858620156e-05,
-      "loss": 2.6134,
       "step": 15500
     },
     {
       "epoch": 1.7832265254945667,
-      "grad_norm": 1.762335181236267,
       "learning_rate": 2.1060348819262234e-05,
-      "loss": 2.6154,
       "step": 16000
     },
     {
       "epoch": 1.7832265254945667,
-      "eval_loss": 2.4802534580230713,
-      "eval_rouge1": 0.2993308883027235,
-      "eval_rouge2": 0.08591108128077216,
-      "eval_rougeL": 0.17652195635463208,
-      "eval_rougeLsum": 0.2793858239831221,
-      "eval_runtime": 3852.8094,
-      "eval_samples_per_second": 3.47,
-      "eval_steps_per_second": 0.217,
       "step": 16000
     },
     {
       "epoch": 1.8389523544162718,
-      "grad_norm": 1.8116912841796875,
       "learning_rate": 2.0095693779904308e-05,
-      "loss": 2.6106,
       "step": 16500
     },
     {
       "epoch": 1.894678183337977,
-      "grad_norm": 1.81112802028656,
       "learning_rate": 1.9131038740546382e-05,
-      "loss": 2.5978,
       "step": 17000
     },
     {
       "epoch": 1.9504040122596824,
-      "grad_norm": 1.9138634204864502,
       "learning_rate": 1.8166383701188456e-05,
-      "loss": 2.5951,
       "step": 17500
     },
     {
       "epoch": 2.0061298411813877,
-      "grad_norm": 1.8298559188842773,
       "learning_rate": 1.720172866183053e-05,
-      "loss": 2.5888,
       "step": 18000
     },
     {
       "epoch": 2.0061298411813877,
-      "eval_loss": 2.4529457092285156,
-      "eval_rouge1": 0.30422361394671005,
-      "eval_rouge2": 0.08905283916557813,
-      "eval_rougeL": 0.1793231859010479,
-      "eval_rougeLsum": 0.2836599615028822,
-      "eval_runtime": 3878.3678,
-      "eval_samples_per_second": 3.447,
       "eval_steps_per_second": 0.216,
       "step": 18000
     },
     {
       "epoch": 2.0618556701030926,
-      "grad_norm": 1.7736088037490845,
       "learning_rate": 1.6237073622472604e-05,
-      "loss": 2.5044,
       "step": 18500
     },
     {
       "epoch": 2.117581499024798,
-      "grad_norm": 2.166782855987549,
       "learning_rate": 1.5272418583114678e-05,
-      "loss": 2.5033,
       "step": 19000
     },
     {
       "epoch": 2.173307327946503,
-      "grad_norm": 2.1640796661376953,
       "learning_rate": 1.4307763543756752e-05,
-      "loss": 2.5094,
       "step": 19500
     },
     {
       "epoch": 2.2290331568682085,
-      "grad_norm": 2.0196428298950195,
       "learning_rate": 1.3343108504398828e-05,
-      "loss": 2.508,
       "step": 20000
     },
     {
       "epoch": 2.2290331568682085,
-      "eval_loss": 2.433751106262207,
-      "eval_rouge1": 0.30609130777182225,
-      "eval_rouge2": 0.09102846739541004,
-      "eval_rougeL": 0.18076964405517054,
-      "eval_rougeLsum": 0.2854008545253584,
-      "eval_runtime": 3855.7671,
-      "eval_samples_per_second": 3.467,
-      "eval_steps_per_second": 0.217,
       "step": 20000
     },
     {
       "epoch": 2.2847589857899138,
-      "grad_norm": 2.035296678543091,
       "learning_rate": 1.2378453465040902e-05,
-      "loss": 2.493,
       "step": 20500
     },
     {
       "epoch": 2.340484814711619,
-      "grad_norm": 2.1855478286743164,
       "learning_rate": 1.1413798425682977e-05,
-      "loss": 2.4977,
       "step": 21000
     },
     {
       "epoch": 2.396210643633324,
-      "grad_norm": 2.0839128494262695,
       "learning_rate": 1.0449143386325052e-05,
-      "loss": 2.4902,
       "step": 21500
     },
     {
       "epoch": 2.4519364725550292,
-      "grad_norm": 2.094590425491333,
       "learning_rate": 9.484488346967126e-06,
-      "loss": 2.4864,
       "step": 22000
     },
     {
       "epoch": 2.4519364725550292,
-      "eval_loss": 2.4146804809570312,
-      "eval_rouge1": 0.3078587783094971,
-      "eval_rouge2": 0.0924346301955819,
-      "eval_rougeL": 0.18175483469212192,
-      "eval_rougeLsum": 0.2867290629199985,
-      "eval_runtime": 3892.4925,
-      "eval_samples_per_second": 3.434,
       "eval_steps_per_second": 0.215,
       "step": 22000
     },
     {
       "epoch": 2.5076623014767345,
-      "grad_norm": 1.884666919708252,
       "learning_rate": 8.5198333076092e-06,
-      "loss": 2.4762,
       "step": 22500
     },
     {
       "epoch": 2.56338813039844,
-      "grad_norm": 2.1555168628692627,
       "learning_rate": 7.5551782682512745e-06,
-      "loss": 2.475,
       "step": 23000
     },
     {
       "epoch": 2.6191139593201447,
-      "grad_norm": 2.227051019668579,
       "learning_rate": 6.5905232288933485e-06,
-      "loss": 2.4787,
       "step": 23500
     },
     {
       "epoch": 2.67483978824185,
-      "grad_norm": 1.9909260272979736,
       "learning_rate": 5.6258681895354226e-06,
-      "loss": 2.472,
       "step": 24000
     },
     {
       "epoch": 2.67483978824185,
-      "eval_loss": 2.399353504180908,
-      "eval_rouge1": 0.310019871588452,
-      "eval_rouge2": 0.09398335137757877,
-      "eval_rougeL": 0.18325719765288911,
-      "eval_rougeLsum": 0.28927642168730905,
-      "eval_runtime": 3895.1314,
-      "eval_samples_per_second": 3.432,
       "eval_steps_per_second": 0.215,
       "step": 24000
     },
     {
       "epoch": 2.7305656171635553,
-      "grad_norm": 1.9598902463912964,
       "learning_rate": 4.661213150177497e-06,
-      "loss": 2.4851,
       "step": 24500
     },
     {
       "epoch": 2.7862914460852606,
-      "grad_norm": 2.2174415588378906,
       "learning_rate": 3.6965581108195706e-06,
-      "loss": 2.4702,
       "step": 25000
     },
     {
       "epoch": 2.842017275006966,
-      "grad_norm": 2.0245871543884277,
       "learning_rate": 2.7319030714616455e-06,
-      "loss": 2.4762,
       "step": 25500
     },
     {
       "epoch": 2.897743103928671,
-      "grad_norm": 2.0211620330810547,
       "learning_rate": 1.7672480321037198e-06,
-      "loss": 2.4727,
       "step": 26000
     },
     {
       "epoch": 2.897743103928671,
-      "eval_loss": 2.3910329341888428,
-      "eval_rouge1": 0.3114248373581785,
-      "eval_rouge2": 0.09498188720823034,
-      "eval_rougeL": 0.18378574041919338,
-      "eval_rougeLsum": 0.290684624851027,
-      "eval_runtime": 3893.8898,
-      "eval_samples_per_second": 3.433,
       "eval_steps_per_second": 0.215,
       "step": 26000
     },
     {
       "epoch": 2.953468932850376,
-      "grad_norm": 2.2476003170013428,
       "learning_rate": 8.025929927457941e-07,
-      "loss": 2.4671,
       "step": 26500
     },
     {
       "epoch": 2.999832822513235,
       "step": 26916,
       "total_flos": 5.251566637814907e+17,
-      "train_loss": 2.7471534659841614,
-      "train_runtime": 62610.6103,
-      "train_samples_per_second": 13.757,
-      "train_steps_per_second": 0.43
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 0.07459307722662609,
+  "best_model_checkpoint": "/bartabsa-reproduce/outputs/gpt22gpt2_42/checkpoint-20000",
   "epoch": 2.999832822513235,
   "eval_steps": 2000,
   "global_step": 26916,
   "log_history": [
     {
       "epoch": 0.05572582892170521,
+      "grad_norm": 3.767733097076416,
       "learning_rate": 2.5e-05,
+      "loss": 4.6099,
       "step": 500
     },
     {
       "epoch": 0.11145165784341042,
+      "grad_norm": 2.3378305435180664,
       "learning_rate": 5e-05,
+      "loss": 3.4791,
       "step": 1000
     },
     {
       "epoch": 0.16717748676511562,
+      "grad_norm": 1.7727080583572388,
       "learning_rate": 4.9035344960642076e-05,
+      "loss": 3.3408,
       "step": 1500
     },
     {
       "epoch": 0.22290331568682084,
+      "grad_norm": 1.6580827236175537,
       "learning_rate": 4.807068992128415e-05,
+      "loss": 3.2453,
       "step": 2000
     },
     {
       "epoch": 0.22290331568682084,
+      "eval_loss": 3.040846347808838,
+      "eval_rouge1": 0.2030762835922255,
+      "eval_rouge2": 0.03654806097360143,
+      "eval_rougeL": 0.1269024607851587,
+      "eval_rougeLsum": 0.19064872923784548,
+      "eval_runtime": 3935.594,
+      "eval_samples_per_second": 3.397,
+      "eval_steps_per_second": 0.212,
       "step": 2000
     },
     {
       "epoch": 0.27862914460852606,
+      "grad_norm": 1.6749674081802368,
       "learning_rate": 4.7106034881926225e-05,
+      "loss": 3.1966,
       "step": 2500
     },
     {
       "epoch": 0.33435497353023125,
+      "grad_norm": 1.6479393243789673,
       "learning_rate": 4.61413798425683e-05,
+      "loss": 3.1416,
       "step": 3000
     },
     {
       "epoch": 0.3900808024519365,
+      "grad_norm": 1.6228386163711548,
       "learning_rate": 4.517672480321037e-05,
+      "loss": 3.0931,
       "step": 3500
     },
     {
       "epoch": 0.4458066313736417,
+      "grad_norm": 1.6669822931289673,
       "learning_rate": 4.421206976385245e-05,
+      "loss": 3.0421,
       "step": 4000
     },
     {
       "epoch": 0.4458066313736417,
+      "eval_loss": 2.8455963134765625,
+      "eval_rouge1": 0.2380314893051126,
+      "eval_rouge2": 0.05128827161353091,
+      "eval_rougeL": 0.1453227983282736,
+      "eval_rougeLsum": 0.22321551567650025,
+      "eval_runtime": 3950.4694,
+      "eval_samples_per_second": 3.384,
       "eval_steps_per_second": 0.212,
       "step": 4000
     },
     {
       "epoch": 0.5015324602953469,
+      "grad_norm": 1.721129059791565,
       "learning_rate": 4.324741472449452e-05,
+      "loss": 3.0031,
       "step": 4500
     },
     {
       "epoch": 0.5572582892170521,
+      "grad_norm": 1.6570061445236206,
       "learning_rate": 4.2282759685136595e-05,
+      "loss": 2.9799,
       "step": 5000
     },
     {
       "epoch": 0.6129841181387573,
+      "grad_norm": 1.6984457969665527,
       "learning_rate": 4.131810464577867e-05,
+      "loss": 2.9441,
       "step": 5500
     },
     {
       "epoch": 0.6687099470604625,
+      "grad_norm": 1.780073642730713,
       "learning_rate": 4.035344960642074e-05,
+      "loss": 2.9227,
       "step": 6000
     },
     {
       "epoch": 0.6687099470604625,
+      "eval_loss": 2.728790044784546,
+      "eval_rouge1": 0.2595394320658464,
+      "eval_rouge2": 0.06168732304612659,
+      "eval_rougeL": 0.15581664226279762,
+      "eval_rougeLsum": 0.2423658467883625,
+      "eval_runtime": 3924.3137,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 0.213,
       "step": 6000
     },
     {
       "epoch": 0.7244357759821677,
+      "grad_norm": 1.7621432542800903,
       "learning_rate": 3.938879456706282e-05,
+      "loss": 2.9003,
       "step": 6500
     },
     {
       "epoch": 0.780161604903873,
+      "grad_norm": 1.6608766317367554,
       "learning_rate": 3.84241395277049e-05,
+      "loss": 2.8805,
       "step": 7000
     },
     {
       "epoch": 0.8358874338255782,
+      "grad_norm": 1.6685175895690918,
       "learning_rate": 3.745948448834697e-05,
+      "loss": 2.8633,
       "step": 7500
     },
     {
       "epoch": 0.8916132627472834,
+      "grad_norm": 1.766258955001831,
       "learning_rate": 3.6494829448989046e-05,
+      "loss": 2.8436,
       "step": 8000
     },
     {
       "epoch": 0.8916132627472834,
+      "eval_loss": 2.6555898189544678,
+      "eval_rouge1": 0.2583863310766251,
+      "eval_rouge2": 0.06324442312681633,
+      "eval_rougeL": 0.1554957409851852,
+      "eval_rougeLsum": 0.24164198724587968,
+      "eval_runtime": 3936.4212,
+      "eval_samples_per_second": 3.396,
+      "eval_steps_per_second": 0.212,
       "step": 8000
     },
     {
       "epoch": 0.9473390916689886,
+      "grad_norm": 1.59657621383667,
       "learning_rate": 3.553017440963112e-05,
+      "loss": 2.8263,
       "step": 8500
     },
     {
       "epoch": 1.0030649205906939,
+      "grad_norm": 1.5849162340164185,
       "learning_rate": 3.4565519370273194e-05,
+      "loss": 2.8088,
       "step": 9000
     },
     {
       "epoch": 1.058790749512399,
+      "grad_norm": 1.7484833002090454,
       "learning_rate": 3.360086433091527e-05,
+      "loss": 2.7095,
       "step": 9500
     },
     {
       "epoch": 1.1145165784341042,
+      "grad_norm": 1.5881661176681519,
       "learning_rate": 3.263620929155734e-05,
+      "loss": 2.6961,
       "step": 10000
     },
     {
       "epoch": 1.1145165784341042,
+      "eval_loss": 2.5992419719696045,
+      "eval_rouge1": 0.25777068407797354,
+      "eval_rouge2": 0.06420331632465279,
+      "eval_rougeL": 0.15702078007420395,
+      "eval_rougeLsum": 0.2409777539933322,
+      "eval_runtime": 3924.4889,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 0.213,
       "step": 10000
     },
     {
       "epoch": 1.1702424073558095,
+      "grad_norm": 1.5762600898742676,
       "learning_rate": 3.1671554252199416e-05,
+      "loss": 2.6942,
       "step": 10500
     },
     {
       "epoch": 1.2259682362775146,
+      "grad_norm": 1.630346655845642,
       "learning_rate": 3.070689921284149e-05,
+      "loss": 2.688,
       "step": 11000
     },
     {
       "epoch": 1.28169406519922,
+      "grad_norm": 1.6222407817840576,
       "learning_rate": 2.9742244173483564e-05,
+      "loss": 2.6682,
       "step": 11500
     },
     {
       "epoch": 1.337419894120925,
+      "grad_norm": 1.6392185688018799,
       "learning_rate": 2.8777589134125638e-05,
+      "loss": 2.6662,
       "step": 12000
     },
     {
       "epoch": 1.337419894120925,
+      "eval_loss": 2.551286458969116,
+      "eval_rouge1": 0.27486750620247946,
+      "eval_rouge2": 0.07168156814787813,
+      "eval_rougeL": 0.1642252769198796,
+      "eval_rougeLsum": 0.25714973714244077,
+      "eval_runtime": 3900.0246,
+      "eval_samples_per_second": 3.428,
+      "eval_steps_per_second": 0.214,
       "step": 12000
     },
     {
       "epoch": 1.3931457230426303,
+      "grad_norm": 1.5941892862319946,
       "learning_rate": 2.7812934094767712e-05,
+      "loss": 2.6653,
       "step": 12500
     },
     {
       "epoch": 1.4488715519643356,
+      "grad_norm": 1.6253877878189087,
       "learning_rate": 2.6848279055409786e-05,
+      "loss": 2.6586,
       "step": 13000
     },
     {
       "epoch": 1.5045973808860407,
+      "grad_norm": 1.6063872575759888,
       "learning_rate": 2.588362401605186e-05,
+      "loss": 2.6443,
       "step": 13500
     },
     {
       "epoch": 1.5603232098077457,
+      "grad_norm": 1.713887095451355,
       "learning_rate": 2.4918968976693934e-05,
+      "loss": 2.6312,
       "step": 14000
     },
     {
       "epoch": 1.5603232098077457,
+      "eval_loss": 2.508091688156128,
+      "eval_rouge1": 0.2530435850081141,
+      "eval_rouge2": 0.06384506041315902,
+      "eval_rougeL": 0.1543038576804575,
+      "eval_rougeLsum": 0.2366360294033542,
+      "eval_runtime": 3907.0776,
+      "eval_samples_per_second": 3.421,
+      "eval_steps_per_second": 0.214,
       "step": 14000
     },
     {
       "epoch": 1.616049038729451,
+      "grad_norm": 1.8332961797714233,
       "learning_rate": 2.3954313937336008e-05,
+      "loss": 2.63,
       "step": 14500
     },
     {
       "epoch": 1.6717748676511563,
+      "grad_norm": 1.6101057529449463,
       "learning_rate": 2.2989658897978082e-05,
+      "loss": 2.6114,
       "step": 15000
     },
     {
       "epoch": 1.7275006965728616,
+      "grad_norm": 1.7273740768432617,
       "learning_rate": 2.2025003858620156e-05,
+      "loss": 2.6051,
       "step": 15500
     },
     {
       "epoch": 1.7832265254945667,
+      "grad_norm": 1.7632737159729004,
       "learning_rate": 2.1060348819262234e-05,
+      "loss": 2.6058,
       "step": 16000
     },
     {
       "epoch": 1.7832265254945667,
+      "eval_loss": 2.463944911956787,
+      "eval_rouge1": 0.2636323697106167,
+      "eval_rouge2": 0.07174514437983107,
+      "eval_rougeL": 0.1601389399578005,
+      "eval_rougeLsum": 0.2469347915587097,
+      "eval_runtime": 3915.9785,
+      "eval_samples_per_second": 3.414,
+      "eval_steps_per_second": 0.213,
       "step": 16000
     },
     {
       "epoch": 1.8389523544162718,
+      "grad_norm": 1.8221988677978516,
       "learning_rate": 2.0095693779904308e-05,
+      "loss": 2.5988,
       "step": 16500
     },
     {
       "epoch": 1.894678183337977,
+      "grad_norm": 1.8893871307373047,
       "learning_rate": 1.9131038740546382e-05,
+      "loss": 2.5847,
       "step": 17000
     },
     {
       "epoch": 1.9504040122596824,
+      "grad_norm": 1.953140139579773,
       "learning_rate": 1.8166383701188456e-05,
+      "loss": 2.5804,
       "step": 17500
     },
     {
       "epoch": 2.0061298411813877,
+      "grad_norm": 1.8473776578903198,
       "learning_rate": 1.720172866183053e-05,
+      "loss": 2.5725,
       "step": 18000
     },
     {
       "epoch": 2.0061298411813877,
+      "eval_loss": 2.4292125701904297,
+      "eval_rouge1": 0.2567421048616416,
+      "eval_rouge2": 0.06891060288535017,
+      "eval_rougeL": 0.15595194613787078,
+      "eval_rougeLsum": 0.24070474254739155,
+      "eval_runtime": 3869.9616,
+      "eval_samples_per_second": 3.454,
       "eval_steps_per_second": 0.216,
       "step": 18000
     },
     {
       "epoch": 2.0618556701030926,
+      "grad_norm": 1.7851742506027222,
       "learning_rate": 1.6237073622472604e-05,
+      "loss": 2.489,
       "step": 18500
     },
     {
       "epoch": 2.117581499024798,
+      "grad_norm": 2.2768101692199707,
       "learning_rate": 1.5272418583114678e-05,
+      "loss": 2.4861,
       "step": 19000
     },
     {
       "epoch": 2.173307327946503,
+      "grad_norm": 2.209219455718994,
       "learning_rate": 1.4307763543756752e-05,
+      "loss": 2.4912,
       "step": 19500
     },
     {
       "epoch": 2.2290331568682085,
+      "grad_norm": 2.0397818088531494,
       "learning_rate": 1.3343108504398828e-05,
+      "loss": 2.4892,
       "step": 20000
     },
     {
       "epoch": 2.2290331568682085,
+      "eval_loss": 2.4027278423309326,
+      "eval_rouge1": 0.2706722599374948,
+      "eval_rouge2": 0.07459307722662609,
+      "eval_rougeL": 0.16398173707926839,
+      "eval_rougeLsum": 0.2530942151578608,
+      "eval_runtime": 3893.765,
+      "eval_samples_per_second": 3.433,
+      "eval_steps_per_second": 0.215,
       "step": 20000
     },
     {
       "epoch": 2.2847589857899138,
+      "grad_norm": 2.035895824432373,
       "learning_rate": 1.2378453465040902e-05,
+      "loss": 2.4728,
       "step": 20500
     },
     {
       "epoch": 2.340484814711619,
+      "grad_norm": 2.106766939163208,
       "learning_rate": 1.1413798425682977e-05,
+      "loss": 2.4768,
       "step": 21000
     },
     {
       "epoch": 2.396210643633324,
+      "grad_norm": 2.103576183319092,
       "learning_rate": 1.0449143386325052e-05,
+      "loss": 2.4689,
       "step": 21500
     },
     {
       "epoch": 2.4519364725550292,
+      "grad_norm": 2.0902152061462402,
       "learning_rate": 9.484488346967126e-06,
+      "loss": 2.4647,
       "step": 22000
     },
     {
       "epoch": 2.4519364725550292,
+      "eval_loss": 2.3800978660583496,
+      "eval_rouge1": 0.25082265645038193,
+      "eval_rouge2": 0.06640380147549775,
+      "eval_rougeL": 0.1539963772798671,
+      "eval_rougeLsum": 0.23498739580707717,
+      "eval_runtime": 3884.9364,
+      "eval_samples_per_second": 3.441,
       "eval_steps_per_second": 0.215,
       "step": 22000
     },
     {
       "epoch": 2.5076623014767345,
+      "grad_norm": 1.8595211505889893,
       "learning_rate": 8.5198333076092e-06,
+      "loss": 2.4541,
       "step": 22500
     },
     {
       "epoch": 2.56338813039844,
+      "grad_norm": 2.1612913608551025,
       "learning_rate": 7.5551782682512745e-06,
+      "loss": 2.4519,
       "step": 23000
     },
     {
       "epoch": 2.6191139593201447,
+      "grad_norm": 2.2538599967956543,
       "learning_rate": 6.5905232288933485e-06,
+      "loss": 2.4544,
       "step": 23500
     },
     {
       "epoch": 2.67483978824185,
+      "grad_norm": 2.060137987136841,
       "learning_rate": 5.6258681895354226e-06,
+      "loss": 2.4479,
       "step": 24000
     },
     {
       "epoch": 2.67483978824185,
+      "eval_loss": 2.361970901489258,
+      "eval_rouge1": 0.263764877338478,
+      "eval_rouge2": 0.07266606751022181,
+      "eval_rougeL": 0.1608073972426968,
+      "eval_rougeLsum": 0.24731330981409283,
+      "eval_runtime": 3893.8374,
+      "eval_samples_per_second": 3.433,
       "eval_steps_per_second": 0.215,
       "step": 24000
     },
     {
       "epoch": 2.7305656171635553,
+      "grad_norm": 1.9665076732635498,
       "learning_rate": 4.661213150177497e-06,
+      "loss": 2.4587,
       "step": 24500
     },
     {
       "epoch": 2.7862914460852606,
+      "grad_norm": 2.218065023422241,
       "learning_rate": 3.6965581108195706e-06,
+      "loss": 2.4458,
       "step": 25000
     },
     {
       "epoch": 2.842017275006966,
+      "grad_norm": 2.042405605316162,
       "learning_rate": 2.7319030714616455e-06,
+      "loss": 2.4513,
       "step": 25500
     },
     {
       "epoch": 2.897743103928671,
+      "grad_norm": 1.9766805171966553,
       "learning_rate": 1.7672480321037198e-06,
+      "loss": 2.4474,
       "step": 26000
     },
     {
       "epoch": 2.897743103928671,
+      "eval_loss": 2.3526828289031982,
+      "eval_rouge1": 0.2544085209463849,
+      "eval_rouge2": 0.06856415444008992,
+      "eval_rougeL": 0.15601198971765073,
+      "eval_rougeLsum": 0.23845835139467592,
+      "eval_runtime": 3886.9121,
+      "eval_samples_per_second": 3.439,
       "eval_steps_per_second": 0.215,
       "step": 26000
     },
     {
       "epoch": 2.953468932850376,
+      "grad_norm": 2.4569876194000244,
       "learning_rate": 8.025929927457941e-07,
+      "loss": 2.4411,
       "step": 26500
     },
     {
       "epoch": 2.999832822513235,
       "step": 26916,
       "total_flos": 5.251566637814907e+17,
+      "train_loss": 2.7409434880486105,
+      "train_runtime": 62948.108,
+      "train_samples_per_second": 13.683,
+      "train_steps_per_second": 0.428
     }
   ],
   "logging_steps": 500,