{
  "best_metric": 1.358161449432373,
  "best_model_checkpoint": "/leonardo_work/AIFAC_5C0_174/ahochleh/lora-transferability/output/models/Qwen2.5-7B_openthoughts_lrc/checkpoint-7400",
  "epoch": 1.1946666666666665,
  "eval_steps": 200,
  "global_step": 7400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.333333333333333e-05,
      "grad_norm": 0.017663535983957833,
      "learning_rate": 0.0001,
      "loss": 1.2851,
      "step": 1
    },
    {
      "epoch": 0.00010666666666666667,
      "grad_norm": 0.019045901437460214,
      "learning_rate": 0.0001,
      "loss": 1.3386,
      "step": 2
    },
    {
      "epoch": 0.00016,
      "grad_norm": 0.040626311097590344,
      "learning_rate": 0.0001,
      "loss": 1.3481,
      "step": 3
    },
    {
      "epoch": 0.00021333333333333333,
      "grad_norm": 0.02036167462487858,
      "learning_rate": 0.0001,
      "loss": 1.3394,
      "step": 4
    },
    {
      "epoch": 0.0002666666666666667,
      "grad_norm": 0.021079644337874338,
      "learning_rate": 0.0001,
      "loss": 1.2781,
      "step": 5
    },
    {
      "epoch": 0.00032,
      "grad_norm": 0.02456331072308504,
      "learning_rate": 0.0001,
      "loss": 1.2759,
      "step": 6
    },
    {
      "epoch": 0.0003733333333333333,
      "grad_norm": 0.02574756282403388,
      "learning_rate": 0.0001,
      "loss": 1.2822,
      "step": 7
    },
    {
      "epoch": 0.00042666666666666667,
      "grad_norm": 0.020452790742183886,
      "learning_rate": 0.0001,
      "loss": 1.2741,
      "step": 8
    },
    {
      "epoch": 0.00048,
      "grad_norm": 0.022974487064571184,
      "learning_rate": 0.0001,
      "loss": 1.2232,
      "step": 9
    },
    {
      "epoch": 0.0005333333333333334,
      "grad_norm": 0.03322565045040931,
      "learning_rate": 0.0001,
      "loss": 1.2736,
      "step": 10
    },
    {
      "epoch": 0.0005866666666666667,
      "grad_norm": 0.02956456488679643,
      "learning_rate": 0.0001,
      "loss": 1.247,
      "step": 11
    },
    {
      "epoch": 0.00064,
      "grad_norm": 0.02168306912081603,
      "learning_rate": 0.0001,
      "loss": 1.2169,
      "step": 12
    },
    {
      "epoch": 0.0006933333333333333,
      "grad_norm": 0.022361870048187463,
      "learning_rate": 0.0001,
      "loss": 1.2363,
      "step": 13
    },
    {
      "epoch": 0.0007466666666666666,
      "grad_norm": 0.02376362612896722,
      "learning_rate": 0.0001,
      "loss": 1.2536,
      "step": 14
    },
    {
      "epoch": 0.0008,
      "grad_norm": 0.029034593258185748,
      "learning_rate": 0.0001,
      "loss": 1.2462,
      "step": 15
    },
    {
      "epoch": 0.0008533333333333333,
      "grad_norm": 0.023657592719445227,
      "learning_rate": 0.0001,
      "loss": 1.2161,
      "step": 16
    },
    {
      "epoch": 0.0009066666666666666,
      "grad_norm": 0.022641704453159297,
      "learning_rate": 0.0001,
      "loss": 1.2128,
      "step": 17
    },
    {
      "epoch": 0.00096,
      "grad_norm": 0.020311526742182503,
      "learning_rate": 0.0001,
      "loss": 1.1668,
      "step": 18
    },
    {
      "epoch": 0.0010133333333333333,
      "grad_norm": 0.023774882884098115,
      "learning_rate": 0.0001,
      "loss": 1.1876,
      "step": 19
    },
    {
      "epoch": 0.0010666666666666667,
      "grad_norm": 0.023435346843676392,
      "learning_rate": 0.0001,
      "loss": 1.196,
      "step": 20
    },
    {
      "epoch": 0.00112,
      "grad_norm": 0.0202262806047923,
      "learning_rate": 0.0001,
      "loss": 1.1923,
      "step": 21
    },
    {
      "epoch": 0.0011733333333333333,
      "grad_norm": 0.02144623757822789,
      "learning_rate": 0.0001,
      "loss": 1.2012,
      "step": 22
    },
    {
      "epoch": 0.0012266666666666667,
      "grad_norm": 0.0201617567358022,
      "learning_rate": 0.0001,
      "loss": 1.19,
      "step": 23
    },
    {
      "epoch": 0.00128,
      "grad_norm": 0.018419463152263324,
      "learning_rate": 0.0001,
      "loss": 1.1822,
      "step": 24
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 0.01846724961733521,
      "learning_rate": 0.0001,
      "loss": 1.1678,
      "step": 25
    },
    {
      "epoch": 0.0013866666666666667,
      "grad_norm": 0.019184613840958157,
      "learning_rate": 0.0001,
      "loss": 1.2129,
      "step": 26
    },
    {
      "epoch": 0.00144,
      "grad_norm": 0.018819324313548307,
      "learning_rate": 0.0001,
      "loss": 1.1961,
      "step": 27
    },
    {
      "epoch": 0.0014933333333333333,
      "grad_norm": 0.01832186624369802,
      "learning_rate": 0.0001,
      "loss": 1.1963,
      "step": 28
    },
    {
      "epoch": 0.0015466666666666667,
      "grad_norm": 0.01651266186352045,
      "learning_rate": 0.0001,
      "loss": 1.1771,
      "step": 29
    },
    {
      "epoch": 0.0016,
      "grad_norm": 0.01592594563048431,
      "learning_rate": 0.0001,
      "loss": 1.1797,
      "step": 30
    },
    {
      "epoch": 0.0016533333333333333,
      "grad_norm": 0.019461088377968366,
      "learning_rate": 0.0001,
      "loss": 1.1208,
      "step": 31
    },
    {
      "epoch": 0.0017066666666666667,
      "grad_norm": 0.0168301023097901,
      "learning_rate": 0.0001,
      "loss": 1.1587,
      "step": 32
    },
    {
      "epoch": 0.00176,
      "grad_norm": 0.01747679214570985,
      "learning_rate": 0.0001,
      "loss": 1.1658,
      "step": 33
    },
    {
      "epoch": 0.0018133333333333332,
      "grad_norm": 0.0185202216354917,
      "learning_rate": 0.0001,
      "loss": 1.1433,
      "step": 34
    },
    {
      "epoch": 0.0018666666666666666,
      "grad_norm": 0.017636562910814738,
      "learning_rate": 0.0001,
      "loss": 1.1773,
      "step": 35
    },
    {
      "epoch": 0.00192,
      "grad_norm": 0.01898649683732413,
      "learning_rate": 0.0001,
      "loss": 1.1744,
      "step": 36
    },
    {
      "epoch": 0.0019733333333333334,
      "grad_norm": 0.0168480946606765,
      "learning_rate": 0.0001,
      "loss": 1.1458,
      "step": 37
    },
    {
      "epoch": 0.0020266666666666666,
      "grad_norm": 0.019529780302859606,
      "learning_rate": 0.0001,
      "loss": 1.1769,
      "step": 38
    },
    {
      "epoch": 0.00208,
      "grad_norm": 0.018378736692672405,
      "learning_rate": 0.0001,
      "loss": 1.1145,
      "step": 39
    },
    {
      "epoch": 0.0021333333333333334,
      "grad_norm": 0.018561990641567855,
      "learning_rate": 0.0001,
      "loss": 1.1505,
      "step": 40
    },
    {
      "epoch": 0.0021866666666666666,
      "grad_norm": 0.019595710048582,
      "learning_rate": 0.0001,
      "loss": 1.1706,
      "step": 41
    },
    {
      "epoch": 0.00224,
      "grad_norm": 0.01723885512620191,
      "learning_rate": 0.0001,
      "loss": 1.0743,
      "step": 42
    },
    {
      "epoch": 0.0022933333333333334,
      "grad_norm": 0.020970230781914477,
      "learning_rate": 0.0001,
      "loss": 1.1477,
      "step": 43
    },
    {
      "epoch": 0.0023466666666666666,
      "grad_norm": 0.01747766223448201,
      "learning_rate": 0.0001,
      "loss": 1.1369,
      "step": 44
    },
    {
      "epoch": 0.0024,
      "grad_norm": 0.022322939149236103,
      "learning_rate": 0.0001,
      "loss": 1.1643,
      "step": 45
    },
    {
      "epoch": 0.0024533333333333334,
      "grad_norm": 0.01933666405055695,
      "learning_rate": 0.0001,
      "loss": 1.132,
      "step": 46
    },
    {
      "epoch": 0.0025066666666666666,
      "grad_norm": 0.01820440810809091,
      "learning_rate": 0.0001,
      "loss": 1.1702,
      "step": 47
    },
    {
      "epoch": 0.00256,
      "grad_norm": 0.020901926256680293,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 48
    },
    {
      "epoch": 0.0026133333333333334,
      "grad_norm": 0.02266426968178372,
      "learning_rate": 0.0001,
      "loss": 1.1868,
      "step": 49
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.02045471979926694,
      "learning_rate": 0.0001,
      "loss": 1.124,
      "step": 50
    },
    {
      "epoch": 0.00272,
      "grad_norm": 0.020428646490662984,
      "learning_rate": 0.0001,
      "loss": 1.1586,
      "step": 51
    },
    {
      "epoch": 0.0027733333333333334,
      "grad_norm": 0.02283069620954967,
      "learning_rate": 0.0001,
      "loss": 1.1124,
      "step": 52
    },
    {
      "epoch": 0.0028266666666666666,
      "grad_norm": 0.020431781519662916,
      "learning_rate": 0.0001,
      "loss": 1.1339,
      "step": 53
    },
    {
      "epoch": 0.00288,
      "grad_norm": 0.018296043477837764,
      "learning_rate": 0.0001,
      "loss": 1.08,
      "step": 54
    },
    {
      "epoch": 0.0029333333333333334,
      "grad_norm": 0.019769980849317578,
      "learning_rate": 0.0001,
      "loss": 1.2115,
      "step": 55
    },
    {
      "epoch": 0.0029866666666666665,
      "grad_norm": 0.018349336281229915,
      "learning_rate": 0.0001,
      "loss": 1.0953,
      "step": 56
    },
    {
      "epoch": 0.00304,
      "grad_norm": 0.021340822597750022,
      "learning_rate": 0.0001,
      "loss": 1.112,
      "step": 57
    },
    {
      "epoch": 0.0030933333333333334,
      "grad_norm": 0.021205791237932158,
      "learning_rate": 0.0001,
      "loss": 1.1319,
      "step": 58
    },
    {
      "epoch": 0.0031466666666666665,
      "grad_norm": 0.018840643855392632,
      "learning_rate": 0.0001,
      "loss": 1.1057,
      "step": 59
    },
    {
      "epoch": 0.0032,
      "grad_norm": 0.01996167612298934,
      "learning_rate": 0.0001,
      "loss": 1.1454,
      "step": 60
    },
    {
      "epoch": 0.0032533333333333333,
      "grad_norm": 0.0206921266276397,
      "learning_rate": 0.0001,
      "loss": 1.0957,
      "step": 61
    },
    {
      "epoch": 0.0033066666666666665,
      "grad_norm": 0.022366877812907533,
      "learning_rate": 0.0001,
      "loss": 1.1182,
      "step": 62
    },
    {
      "epoch": 0.00336,
      "grad_norm": 0.019894907897840822,
      "learning_rate": 0.0001,
      "loss": 1.142,
      "step": 63
    },
    {
      "epoch": 0.0034133333333333333,
      "grad_norm": 0.02230021168006463,
      "learning_rate": 0.0001,
      "loss": 1.0673,
      "step": 64
    },
    {
      "epoch": 0.0034666666666666665,
      "grad_norm": 0.02274359400474783,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 65
    },
    {
      "epoch": 0.00352,
      "grad_norm": 0.01911665109076629,
      "learning_rate": 0.0001,
      "loss": 1.0955,
      "step": 66
    },
    {
      "epoch": 0.0035733333333333333,
      "grad_norm": 0.021169614524847495,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 67
    },
    {
      "epoch": 0.0036266666666666665,
      "grad_norm": 0.022306947829863855,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 68
    },
    {
      "epoch": 0.00368,
      "grad_norm": 0.02399697508573963,
      "learning_rate": 0.0001,
      "loss": 1.1329,
      "step": 69
    },
    {
      "epoch": 0.0037333333333333333,
      "grad_norm": 0.022557666480114306,
      "learning_rate": 0.0001,
      "loss": 1.1235,
      "step": 70
    },
    {
      "epoch": 0.0037866666666666665,
      "grad_norm": 0.024881109806363145,
      "learning_rate": 0.0001,
      "loss": 1.1017,
      "step": 71
    },
    {
      "epoch": 0.00384,
      "grad_norm": 0.0213415342371312,
      "learning_rate": 0.0001,
      "loss": 1.1515,
      "step": 72
    },
    {
      "epoch": 0.0038933333333333333,
      "grad_norm": 0.026076390092072337,
      "learning_rate": 0.0001,
      "loss": 1.1292,
      "step": 73
    },
    {
      "epoch": 0.003946666666666667,
      "grad_norm": 0.02291805139654699,
      "learning_rate": 0.0001,
      "loss": 1.1258,
      "step": 74
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.022509948988868995,
      "learning_rate": 0.0001,
      "loss": 1.1106,
      "step": 75
    },
    {
      "epoch": 0.004053333333333333,
      "grad_norm": 0.026440628872700073,
      "learning_rate": 0.0001,
      "loss": 1.0949,
      "step": 76
    },
    {
      "epoch": 0.0041066666666666665,
      "grad_norm": 0.0230542777991158,
      "learning_rate": 0.0001,
      "loss": 1.0854,
      "step": 77
    },
    {
      "epoch": 0.00416,
      "grad_norm": 0.02528260148409545,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 78
    },
    {
      "epoch": 0.004213333333333334,
      "grad_norm": 0.02159758025703304,
      "learning_rate": 0.0001,
      "loss": 1.1371,
      "step": 79
    },
    {
      "epoch": 0.004266666666666667,
      "grad_norm": 0.024619883227926107,
      "learning_rate": 0.0001,
      "loss": 1.1259,
      "step": 80
    },
    {
      "epoch": 0.00432,
      "grad_norm": 0.028027358033021,
      "learning_rate": 0.0001,
      "loss": 1.1394,
      "step": 81
    },
    {
      "epoch": 0.004373333333333333,
      "grad_norm": 0.0240314163084437,
      "learning_rate": 0.0001,
      "loss": 1.0882,
      "step": 82
    },
    {
      "epoch": 0.004426666666666666,
      "grad_norm": 0.02760626929155725,
      "learning_rate": 0.0001,
      "loss": 1.0783,
      "step": 83
    },
    {
      "epoch": 0.00448,
      "grad_norm": 0.02612768589454587,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 84
    },
    {
      "epoch": 0.004533333333333334,
      "grad_norm": 0.02344713260341745,
      "learning_rate": 0.0001,
      "loss": 1.1095,
      "step": 85
    },
    {
      "epoch": 0.004586666666666667,
      "grad_norm": 0.024144060481023133,
      "learning_rate": 0.0001,
      "loss": 1.1412,
      "step": 86
    },
    {
      "epoch": 0.00464,
      "grad_norm": 0.02621237204120152,
      "learning_rate": 0.0001,
      "loss": 1.1281,
      "step": 87
    },
    {
      "epoch": 0.004693333333333333,
      "grad_norm": 0.026984655607370928,
      "learning_rate": 0.0001,
      "loss": 1.118,
      "step": 88
    },
    {
      "epoch": 0.004746666666666666,
      "grad_norm": 0.02394842786614117,
      "learning_rate": 0.0001,
      "loss": 1.1157,
      "step": 89
    },
    {
      "epoch": 0.0048,
      "grad_norm": 0.02308805596503825,
      "learning_rate": 0.0001,
      "loss": 1.0954,
      "step": 90
    },
    {
      "epoch": 0.004853333333333334,
      "grad_norm": 0.02641446783650999,
      "learning_rate": 0.0001,
      "loss": 1.1977,
      "step": 91
    },
    {
      "epoch": 0.004906666666666667,
      "grad_norm": 0.02628224000749557,
      "learning_rate": 0.0001,
      "loss": 1.0381,
      "step": 92
    },
    {
      "epoch": 0.00496,
      "grad_norm": 0.0262711888727942,
      "learning_rate": 0.0001,
      "loss": 1.0804,
      "step": 93
    },
    {
      "epoch": 0.005013333333333333,
      "grad_norm": 0.028852404195580973,
      "learning_rate": 0.0001,
      "loss": 1.0847,
      "step": 94
    },
    {
      "epoch": 0.005066666666666666,
      "grad_norm": 0.022820012487008153,
      "learning_rate": 0.0001,
      "loss": 1.0983,
      "step": 95
    },
    {
      "epoch": 0.00512,
      "grad_norm": 0.027684130043247292,
      "learning_rate": 0.0001,
      "loss": 1.1937,
      "step": 96
    },
    {
      "epoch": 0.005173333333333334,
      "grad_norm": 0.024770212365944143,
      "learning_rate": 0.0001,
      "loss": 1.1115,
      "step": 97
    },
    {
      "epoch": 0.005226666666666667,
      "grad_norm": 0.027494101888264684,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 98
    },
    {
      "epoch": 0.00528,
      "grad_norm": 0.028068591916916897,
      "learning_rate": 0.0001,
      "loss": 1.1198,
      "step": 99
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 0.025215653660767015,
      "learning_rate": 0.0001,
      "loss": 1.0789,
      "step": 100
    },
    {
      "epoch": 0.005386666666666666,
      "grad_norm": 0.02617302078474964,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 101
    },
    {
      "epoch": 0.00544,
      "grad_norm": 0.023807385684215778,
      "learning_rate": 0.0001,
      "loss": 1.1229,
      "step": 102
    },
    {
      "epoch": 0.005493333333333334,
      "grad_norm": 0.029317144217495813,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 103
    },
    {
      "epoch": 0.005546666666666667,
      "grad_norm": 0.02774344185697802,
      "learning_rate": 0.0001,
      "loss": 1.1502,
      "step": 104
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.03121423939416175,
      "learning_rate": 0.0001,
      "loss": 1.1989,
      "step": 105
    },
    {
      "epoch": 0.005653333333333333,
      "grad_norm": 0.028168171591932172,
      "learning_rate": 0.0001,
      "loss": 1.0944,
      "step": 106
    },
    {
      "epoch": 0.005706666666666666,
      "grad_norm": 0.02433804240030303,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 107
    },
    {
      "epoch": 0.00576,
      "grad_norm": 0.027260996841302933,
      "learning_rate": 0.0001,
      "loss": 1.0762,
      "step": 108
    },
    {
      "epoch": 0.0058133333333333335,
      "grad_norm": 0.025572432554085187,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 109
    },
    {
      "epoch": 0.005866666666666667,
      "grad_norm": 0.030597638921935663,
      "learning_rate": 0.0001,
      "loss": 1.1201,
      "step": 110
    },
    {
      "epoch": 0.00592,
      "grad_norm": 0.025224536725061118,
      "learning_rate": 0.0001,
      "loss": 1.0667,
      "step": 111
    },
    {
      "epoch": 0.005973333333333333,
      "grad_norm": 0.0321935508085268,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 112
    },
    {
      "epoch": 0.006026666666666666,
      "grad_norm": 0.027980799700585705,
      "learning_rate": 0.0001,
      "loss": 1.1006,
      "step": 113
    },
    {
      "epoch": 0.00608,
      "grad_norm": 0.03037305660606416,
      "learning_rate": 0.0001,
      "loss": 1.091,
      "step": 114
    },
    {
      "epoch": 0.0061333333333333335,
      "grad_norm": 0.023866879394773586,
      "learning_rate": 0.0001,
      "loss": 1.105,
      "step": 115
    },
    {
      "epoch": 0.006186666666666667,
      "grad_norm": 0.03248916000693501,
      "learning_rate": 0.0001,
      "loss": 1.0927,
      "step": 116
    },
    {
      "epoch": 0.00624,
      "grad_norm": 0.030583352782920434,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 117
    },
    {
      "epoch": 0.006293333333333333,
      "grad_norm": 0.02600505865067891,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 118
    },
    {
      "epoch": 0.006346666666666666,
      "grad_norm": 0.03210617414476007,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 119
    },
    {
      "epoch": 0.0064,
      "grad_norm": 0.026414605867270017,
      "learning_rate": 0.0001,
      "loss": 1.1234,
      "step": 120
    },
    {
      "epoch": 0.0064533333333333335,
      "grad_norm": 0.029831579361245805,
      "learning_rate": 0.0001,
      "loss": 1.1231,
      "step": 121
    },
    {
      "epoch": 0.006506666666666667,
      "grad_norm": 0.03903353067292734,
      "learning_rate": 0.0001,
      "loss": 1.1309,
      "step": 122
    },
    {
      "epoch": 0.00656,
      "grad_norm": 0.025073552110052105,
      "learning_rate": 0.0001,
      "loss": 1.1192,
      "step": 123
    },
    {
      "epoch": 0.006613333333333333,
      "grad_norm": 0.03884135633408205,
      "learning_rate": 0.0001,
      "loss": 1.1032,
      "step": 124
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.025911124270801084,
      "learning_rate": 0.0001,
      "loss": 1.1439,
      "step": 125
    },
    {
      "epoch": 0.00672,
      "grad_norm": 0.0411337863161015,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 126
    },
    {
      "epoch": 0.0067733333333333335,
      "grad_norm": 0.028822101803103718,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 127
    },
    {
      "epoch": 0.006826666666666667,
      "grad_norm": 0.030315384805135674,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 128
    },
    {
      "epoch": 0.00688,
      "grad_norm": 0.02898101474669884,
      "learning_rate": 0.0001,
      "loss": 1.0669,
      "step": 129
    },
    {
      "epoch": 0.006933333333333333,
      "grad_norm": 0.030957894227308772,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 130
    },
    {
      "epoch": 0.006986666666666667,
      "grad_norm": 0.028211613583629815,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 131
    },
    {
      "epoch": 0.00704,
      "grad_norm": 0.03119816452688914,
      "learning_rate": 0.0001,
      "loss": 1.0768,
      "step": 132
    },
    {
      "epoch": 0.0070933333333333334,
      "grad_norm": 0.027015001492647513,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 133
    },
    {
      "epoch": 0.007146666666666667,
      "grad_norm": 0.027416668668713742,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 134
    },
    {
      "epoch": 0.0072,
      "grad_norm": 0.033612080287052704,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 135
    },
    {
      "epoch": 0.007253333333333333,
      "grad_norm": 0.02847556645412267,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 136
    },
    {
      "epoch": 0.007306666666666667,
      "grad_norm": 0.030942116760774373,
      "learning_rate": 0.0001,
      "loss": 1.1008,
      "step": 137
    },
    {
      "epoch": 0.00736,
      "grad_norm": 0.03937632453183713,
      "learning_rate": 0.0001,
      "loss": 1.0481,
      "step": 138
    },
    {
      "epoch": 0.007413333333333333,
      "grad_norm": 0.034978623142463375,
      "learning_rate": 0.0001,
      "loss": 1.1072,
      "step": 139
    },
    {
      "epoch": 0.007466666666666667,
      "grad_norm": 0.03295011953113239,
      "learning_rate": 0.0001,
      "loss": 1.1178,
      "step": 140
    },
    {
      "epoch": 0.00752,
      "grad_norm": 0.036305639130275257,
      "learning_rate": 0.0001,
      "loss": 1.0754,
      "step": 141
    },
    {
      "epoch": 0.007573333333333333,
      "grad_norm": 0.029533299062835094,
      "learning_rate": 0.0001,
      "loss": 1.1093,
      "step": 142
    },
    {
      "epoch": 0.007626666666666667,
      "grad_norm": 0.028700473652073708,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 143
    },
    {
      "epoch": 0.00768,
      "grad_norm": 0.03449586335694953,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 144
    },
    {
      "epoch": 0.007733333333333333,
      "grad_norm": 0.030621392049860134,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 145
    },
    {
      "epoch": 0.0077866666666666666,
      "grad_norm": 0.030669253137562656,
      "learning_rate": 0.0001,
      "loss": 1.138,
      "step": 146
    },
    {
      "epoch": 0.00784,
      "grad_norm": 0.0326978961412198,
      "learning_rate": 0.0001,
      "loss": 1.0628,
      "step": 147
    },
    {
      "epoch": 0.007893333333333334,
      "grad_norm": 0.02595212462751761,
      "learning_rate": 0.0001,
      "loss": 1.0908,
      "step": 148
    },
    {
      "epoch": 0.007946666666666666,
      "grad_norm": 0.03054212089490085,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 149
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.02989665153550542,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 150
    },
    {
      "epoch": 0.008053333333333332,
      "grad_norm": 0.03284186158764758,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 151
    },
    {
      "epoch": 0.008106666666666667,
      "grad_norm": 0.026431410101557674,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 152
    },
    {
      "epoch": 0.00816,
      "grad_norm": 0.03556175947247141,
      "learning_rate": 0.0001,
      "loss": 1.0672,
      "step": 153
    },
    {
      "epoch": 0.008213333333333333,
      "grad_norm": 0.03312777514368852,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 154
    },
    {
      "epoch": 0.008266666666666667,
      "grad_norm": 0.034095158189905925,
      "learning_rate": 0.0001,
      "loss": 1.0788,
      "step": 155
    },
    {
      "epoch": 0.00832,
      "grad_norm": 0.029675226922119612,
      "learning_rate": 0.0001,
      "loss": 1.0646,
      "step": 156
    },
    {
      "epoch": 0.008373333333333333,
      "grad_norm": 0.029642245637533884,
      "learning_rate": 0.0001,
      "loss": 1.1023,
      "step": 157
    },
    {
      "epoch": 0.008426666666666667,
      "grad_norm": 0.0316882903580528,
      "learning_rate": 0.0001,
      "loss": 1.1032,
      "step": 158
    },
    {
      "epoch": 0.00848,
      "grad_norm": 0.030398811807450663,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 159
    },
    {
      "epoch": 0.008533333333333334,
      "grad_norm": 0.028622241938623755,
      "learning_rate": 0.0001,
      "loss": 1.1911,
      "step": 160
    },
    {
      "epoch": 0.008586666666666666,
      "grad_norm": 0.030878425197920233,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 161
    },
    {
      "epoch": 0.00864,
      "grad_norm": 0.030551687902506713,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 162
    },
    {
      "epoch": 0.008693333333333334,
      "grad_norm": 0.02616507706190728,
      "learning_rate": 0.0001,
      "loss": 1.0764,
      "step": 163
    },
    {
      "epoch": 0.008746666666666666,
      "grad_norm": 0.03306618170823384,
      "learning_rate": 0.0001,
      "loss": 1.0315,
      "step": 164
    },
    {
      "epoch": 0.0088,
      "grad_norm": 0.030468090986927567,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 165
    },
    {
      "epoch": 0.008853333333333333,
      "grad_norm": 0.030484937784253374,
      "learning_rate": 0.0001,
      "loss": 1.0994,
      "step": 166
    },
    {
      "epoch": 0.008906666666666667,
      "grad_norm": 0.02436297674078621,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 167
    },
    {
      "epoch": 0.00896,
      "grad_norm": 0.029546291148058058,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "step": 168
    },
    {
      "epoch": 0.009013333333333333,
      "grad_norm": 0.027771428992338913,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 169
    },
    {
      "epoch": 0.009066666666666667,
      "grad_norm": 0.02446932578340339,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 170
    },
    {
      "epoch": 0.00912,
      "grad_norm": 0.025946328395637305,
      "learning_rate": 0.0001,
      "loss": 1.0664,
      "step": 171
    },
    {
      "epoch": 0.009173333333333334,
      "grad_norm": 0.025711044698923182,
      "learning_rate": 0.0001,
      "loss": 1.1023,
      "step": 172
    },
    {
      "epoch": 0.009226666666666666,
      "grad_norm": 0.02843683469636292,
      "learning_rate": 0.0001,
      "loss": 1.0664,
      "step": 173
    },
    {
      "epoch": 0.00928,
      "grad_norm": 0.028625066904893793,
      "learning_rate": 0.0001,
      "loss": 1.1065,
      "step": 174
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.026222597089346756,
      "learning_rate": 0.0001,
      "loss": 1.0928,
      "step": 175
    },
    {
      "epoch": 0.009386666666666666,
      "grad_norm": 0.030016093375412906,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 176
    },
    {
      "epoch": 0.00944,
      "grad_norm": 0.026762861619253595,
      "learning_rate": 0.0001,
      "loss": 1.0982,
      "step": 177
    },
    {
      "epoch": 0.009493333333333333,
      "grad_norm": 0.02924314921734599,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 178
    },
    {
      "epoch": 0.009546666666666667,
      "grad_norm": 0.03190498414770447,
      "learning_rate": 0.0001,
      "loss": 1.076,
      "step": 179
    },
    {
      "epoch": 0.0096,
      "grad_norm": 0.026313375645259457,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 180
    },
    {
      "epoch": 0.009653333333333333,
      "grad_norm": 0.028387707678660303,
      "learning_rate": 0.0001,
      "loss": 1.1284,
      "step": 181
    },
    {
      "epoch": 0.009706666666666667,
      "grad_norm": 0.023473497175759403,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 182
    },
    {
      "epoch": 0.00976,
      "grad_norm": 0.03027101342433051,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 183
    },
    {
      "epoch": 0.009813333333333334,
      "grad_norm": 0.024727172011912026,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 184
    },
    {
      "epoch": 0.009866666666666666,
      "grad_norm": 0.029937693082934983,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 185
    },
    {
      "epoch": 0.00992,
      "grad_norm": 0.023075693331877877,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 186
    },
    {
      "epoch": 0.009973333333333334,
      "grad_norm": 0.030530753457832613,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 187
    },
    {
      "epoch": 0.010026666666666666,
      "grad_norm": 0.023823152503381035,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 188
    },
    {
      "epoch": 0.01008,
      "grad_norm": 0.02865813717051232,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 189
    },
    {
      "epoch": 0.010133333333333333,
      "grad_norm": 0.02409752713778315,
      "learning_rate": 0.0001,
      "loss": 1.1176,
      "step": 190
    },
    {
      "epoch": 0.010186666666666667,
      "grad_norm": 0.03136103252142913,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 191
    },
    {
      "epoch": 0.01024,
      "grad_norm": 0.024976015498924982,
      "learning_rate": 0.0001,
      "loss": 1.0986,
      "step": 192
    },
    {
      "epoch": 0.010293333333333333,
      "grad_norm": 0.030268189210588402,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 193
    },
    {
      "epoch": 0.010346666666666667,
      "grad_norm": 0.026081446558559367,
      "learning_rate": 0.0001,
      "loss": 1.0987,
      "step": 194
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.029272574892080832,
      "learning_rate": 0.0001,
      "loss": 1.1228,
      "step": 195
    },
    {
      "epoch": 0.010453333333333334,
      "grad_norm": 0.028444370366998047,
      "learning_rate": 0.0001,
      "loss": 1.0627,
      "step": 196
    },
    {
      "epoch": 0.010506666666666666,
      "grad_norm": 0.02871989966492329,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 197
    },
    {
      "epoch": 0.01056,
      "grad_norm": 0.026683222419199053,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 198
    },
    {
      "epoch": 0.010613333333333334,
      "grad_norm": 0.03102078373330611,
      "learning_rate": 0.0001,
      "loss": 1.0982,
      "step": 199
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 0.024925348589159332,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 200
    },
    {
      "epoch": 0.010666666666666666,
      "eval_accuracy": 0.5994892765793127,
      "eval_loss": 1.4720326662063599,
      "eval_runtime": 64.0332,
      "eval_samples_per_second": 15.617,
      "eval_steps_per_second": 0.5,
      "step": 200
    },
    {
      "epoch": 0.01072,
      "grad_norm": 0.0316568442785842,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 201
    },
    {
      "epoch": 0.010773333333333333,
      "grad_norm": 0.029488540862034826,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 202
    },
    {
      "epoch": 0.010826666666666667,
      "grad_norm": 0.03270372948892288,
      "learning_rate": 0.0001,
      "loss": 1.1027,
      "step": 203
    },
    {
      "epoch": 0.01088,
      "grad_norm": 0.026249914459016466,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 204
    },
    {
      "epoch": 0.010933333333333333,
      "grad_norm": 0.036076515998888274,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 205
    },
    {
      "epoch": 0.010986666666666667,
      "grad_norm": 0.028660418517231483,
      "learning_rate": 0.0001,
      "loss": 1.0922,
      "step": 206
    },
    {
      "epoch": 0.01104,
      "grad_norm": 0.03464428925277351,
      "learning_rate": 0.0001,
      "loss": 1.0825,
      "step": 207
    },
    {
      "epoch": 0.011093333333333334,
      "grad_norm": 0.03499278386784176,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 208
    },
    {
      "epoch": 0.011146666666666666,
      "grad_norm": 0.03455491380319108,
      "learning_rate": 0.0001,
      "loss": 1.1851,
      "step": 209
    },
    {
      "epoch": 0.0112,
      "grad_norm": 0.03556355607620968,
      "learning_rate": 0.0001,
      "loss": 1.1095,
      "step": 210
    },
    {
      "epoch": 0.011253333333333334,
      "grad_norm": 0.027996921018236753,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 211
    },
    {
      "epoch": 0.011306666666666666,
      "grad_norm": 0.033919884475156446,
      "learning_rate": 0.0001,
      "loss": 1.151,
      "step": 212
    },
    {
      "epoch": 0.01136,
      "grad_norm": 0.03179790669262934,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 213
    },
    {
      "epoch": 0.011413333333333333,
      "grad_norm": 0.034354530415734434,
      "learning_rate": 0.0001,
      "loss": 1.1146,
      "step": 214
    },
    {
      "epoch": 0.011466666666666667,
      "grad_norm": 0.03363381354597863,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 215
    },
    {
      "epoch": 0.01152,
      "grad_norm": 0.027585856330821976,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 216
    },
    {
      "epoch": 0.011573333333333333,
      "grad_norm": 0.03687603187735977,
      "learning_rate": 0.0001,
      "loss": 1.1113,
      "step": 217
    },
    {
      "epoch": 0.011626666666666667,
      "grad_norm": 0.031044148398233003,
      "learning_rate": 0.0001,
      "loss": 1.0642,
      "step": 218
    },
    {
      "epoch": 0.01168,
      "grad_norm": 0.03764672380440334,
      "learning_rate": 0.0001,
      "loss": 1.0963,
      "step": 219
    },
    {
      "epoch": 0.011733333333333333,
      "grad_norm": 0.027914178328522027,
      "learning_rate": 0.0001,
      "loss": 1.0609,
      "step": 220
    },
    {
      "epoch": 0.011786666666666668,
      "grad_norm": 0.03951760149032919,
      "learning_rate": 0.0001,
      "loss": 1.1319,
      "step": 221
    },
    {
      "epoch": 0.01184,
      "grad_norm": 0.034632178742719816,
      "learning_rate": 0.0001,
      "loss": 1.0665,
      "step": 222
    },
    {
      "epoch": 0.011893333333333334,
      "grad_norm": 0.03145482034798728,
      "learning_rate": 0.0001,
      "loss": 1.1083,
      "step": 223
    },
    {
      "epoch": 0.011946666666666666,
      "grad_norm": 0.028622820086677346,
      "learning_rate": 0.0001,
      "loss": 1.106,
      "step": 224
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.03713441908996785,
      "learning_rate": 0.0001,
      "loss": 1.1149,
      "step": 225
    },
    {
      "epoch": 0.012053333333333333,
      "grad_norm": 0.029442226710517116,
      "learning_rate": 0.0001,
      "loss": 1.1165,
      "step": 226
    },
    {
      "epoch": 0.012106666666666667,
      "grad_norm": 0.03983023301502642,
      "learning_rate": 0.0001,
      "loss": 1.0819,
      "step": 227
    },
    {
      "epoch": 0.01216,
      "grad_norm": 0.02871890963411655,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 228
    },
    {
      "epoch": 0.012213333333333333,
      "grad_norm": 0.0339422135806941,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 229
    },
    {
      "epoch": 0.012266666666666667,
      "grad_norm": 0.029295544671822406,
      "learning_rate": 0.0001,
      "loss": 1.1026,
      "step": 230
    },
    {
      "epoch": 0.01232,
      "grad_norm": 0.03117100028630677,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 231
    },
    {
      "epoch": 0.012373333333333333,
      "grad_norm": 0.03272720116909769,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 232
    },
    {
      "epoch": 0.012426666666666667,
      "grad_norm": 0.032903369710183934,
      "learning_rate": 0.0001,
      "loss": 1.0711,
      "step": 233
    },
    {
      "epoch": 0.01248,
      "grad_norm": 0.026522446346979263,
      "learning_rate": 0.0001,
      "loss": 1.0556,
      "step": 234
    },
    {
      "epoch": 0.012533333333333334,
      "grad_norm": 0.0313667578669662,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 235
    },
    {
      "epoch": 0.012586666666666666,
      "grad_norm": 0.024441583614101686,
      "learning_rate": 0.0001,
      "loss": 1.0817,
      "step": 236
    },
    {
      "epoch": 0.01264,
      "grad_norm": 0.030687588030212466,
      "learning_rate": 0.0001,
      "loss": 1.0936,
      "step": 237
    },
    {
      "epoch": 0.012693333333333333,
      "grad_norm": 0.026725161148006413,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 238
    },
    {
      "epoch": 0.012746666666666667,
      "grad_norm": 0.0341335664388797,
      "learning_rate": 0.0001,
      "loss": 1.0895,
      "step": 239
    },
    {
      "epoch": 0.0128,
      "grad_norm": 0.02556524501453891,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 240
    },
    {
      "epoch": 0.012853333333333333,
      "grad_norm": 0.03266580181401952,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 241
    },
    {
      "epoch": 0.012906666666666667,
      "grad_norm": 0.02420254561644533,
      "learning_rate": 0.0001,
      "loss": 1.0974,
      "step": 242
    },
    {
      "epoch": 0.01296,
      "grad_norm": 0.032663609242733156,
      "learning_rate": 0.0001,
      "loss": 1.1148,
      "step": 243
    },
    {
      "epoch": 0.013013333333333333,
      "grad_norm": 0.029372208748646,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 244
    },
    {
      "epoch": 0.013066666666666667,
      "grad_norm": 0.032611033861686727,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 245
    },
    {
      "epoch": 0.01312,
      "grad_norm": 0.028764390691977424,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 246
    },
    {
      "epoch": 0.013173333333333334,
      "grad_norm": 0.02853643403071029,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 247
    },
    {
      "epoch": 0.013226666666666666,
      "grad_norm": 0.026393256047266497,
      "learning_rate": 0.0001,
      "loss": 1.0928,
      "step": 248
    },
    {
      "epoch": 0.01328,
      "grad_norm": 0.030058717821202726,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 249
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.025503126626144908,
      "learning_rate": 0.0001,
      "loss": 1.1051,
      "step": 250
    },
    {
      "epoch": 0.013386666666666667,
      "grad_norm": 0.03192773525242038,
      "learning_rate": 0.0001,
      "loss": 1.0981,
      "step": 251
    },
    {
      "epoch": 0.01344,
      "grad_norm": 0.03087365928002955,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 252
    },
    {
      "epoch": 0.013493333333333333,
      "grad_norm": 0.027264835049182718,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 253
    },
    {
      "epoch": 0.013546666666666667,
      "grad_norm": 0.03203806040322685,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 254
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.028435121546608523,
      "learning_rate": 0.0001,
      "loss": 1.0842,
      "step": 255
    },
    {
      "epoch": 0.013653333333333333,
      "grad_norm": 0.02789540168079048,
      "learning_rate": 0.0001,
      "loss": 1.1021,
      "step": 256
    },
    {
      "epoch": 0.013706666666666667,
      "grad_norm": 0.03230653992990404,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 257
    },
    {
      "epoch": 0.01376,
      "grad_norm": 0.02842524369187931,
      "learning_rate": 0.0001,
      "loss": 1.1362,
      "step": 258
    },
    {
      "epoch": 0.013813333333333334,
      "grad_norm": 0.03192343054835773,
      "learning_rate": 0.0001,
      "loss": 1.0945,
      "step": 259
    },
    {
      "epoch": 0.013866666666666666,
      "grad_norm": 0.028430943047898668,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 260
    },
    {
      "epoch": 0.01392,
      "grad_norm": 0.027727809893507527,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 261
    },
    {
      "epoch": 0.013973333333333334,
      "grad_norm": 0.028186279813022404,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 262
    },
    {
      "epoch": 0.014026666666666666,
      "grad_norm": 0.03124689523487801,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 263
    },
    {
      "epoch": 0.01408,
      "grad_norm": 0.027622431240190815,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 264
    },
    {
      "epoch": 0.014133333333333333,
      "grad_norm": 0.02709341351532001,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 265
    },
    {
      "epoch": 0.014186666666666667,
      "grad_norm": 0.027655100539760544,
      "learning_rate": 0.0001,
      "loss": 1.0873,
      "step": 266
    },
    {
      "epoch": 0.01424,
      "grad_norm": 0.026073125536718738,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 267
    },
    {
      "epoch": 0.014293333333333333,
      "grad_norm": 0.02758550868453682,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 268
    },
    {
      "epoch": 0.014346666666666667,
      "grad_norm": 0.028454174421323895,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 269
    },
    {
      "epoch": 0.0144,
      "grad_norm": 0.029867413981346007,
      "learning_rate": 0.0001,
      "loss": 1.1298,
      "step": 270
    },
    {
      "epoch": 0.014453333333333334,
      "grad_norm": 0.029986167180212155,
      "learning_rate": 0.0001,
      "loss": 1.1042,
      "step": 271
    },
    {
      "epoch": 0.014506666666666666,
      "grad_norm": 0.029757465367408323,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 272
    },
    {
      "epoch": 0.01456,
      "grad_norm": 0.031816140547927925,
      "learning_rate": 0.0001,
      "loss": 1.1605,
      "step": 273
    },
    {
      "epoch": 0.014613333333333334,
      "grad_norm": 0.028829857830680077,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 274
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.032753645427159854,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 275
    },
    {
      "epoch": 0.01472,
      "grad_norm": 0.026395045026196336,
      "learning_rate": 0.0001,
      "loss": 1.1568,
      "step": 276
    },
    {
      "epoch": 0.014773333333333333,
      "grad_norm": 0.032515847673883186,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 277
    },
    {
      "epoch": 0.014826666666666667,
      "grad_norm": 0.031092394270422992,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 278
    },
    {
      "epoch": 0.01488,
      "grad_norm": 0.03200153316376056,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 279
    },
    {
      "epoch": 0.014933333333333333,
      "grad_norm": 0.03156614483660119,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 280
    },
    {
      "epoch": 0.014986666666666667,
      "grad_norm": 0.03422292317044305,
      "learning_rate": 0.0001,
      "loss": 1.1088,
      "step": 281
    },
    {
      "epoch": 0.01504,
      "grad_norm": 0.030615084871283046,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 282
    },
    {
      "epoch": 0.015093333333333334,
      "grad_norm": 0.041856508510729126,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 283
    },
    {
      "epoch": 0.015146666666666666,
      "grad_norm": 0.030255434345494908,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 284
    },
    {
      "epoch": 0.0152,
      "grad_norm": 0.047847076194265425,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 285
    },
    {
      "epoch": 0.015253333333333334,
      "grad_norm": 0.029642002087216762,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 286
    },
    {
      "epoch": 0.015306666666666666,
      "grad_norm": 0.03884378012758909,
      "learning_rate": 0.0001,
      "loss": 1.068,
      "step": 287
    },
    {
      "epoch": 0.01536,
      "grad_norm": 0.035224974127389654,
      "learning_rate": 0.0001,
      "loss": 1.118,
      "step": 288
    },
    {
      "epoch": 0.015413333333333333,
      "grad_norm": 0.026067067449157006,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 289
    },
    {
      "epoch": 0.015466666666666667,
      "grad_norm": 0.04154574080729332,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 290
    },
    {
      "epoch": 0.01552,
      "grad_norm": 0.02922863155265625,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 291
    },
    {
      "epoch": 0.015573333333333333,
      "grad_norm": 0.03759135682927236,
      "learning_rate": 0.0001,
      "loss": 1.1074,
      "step": 292
    },
    {
      "epoch": 0.015626666666666667,
      "grad_norm": 0.02768527333698743,
      "learning_rate": 0.0001,
      "loss": 1.0832,
      "step": 293
    },
    {
      "epoch": 0.01568,
      "grad_norm": 0.028540400069516168,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 294
    },
    {
      "epoch": 0.015733333333333332,
      "grad_norm": 0.03785712025203911,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 295
    },
    {
      "epoch": 0.015786666666666668,
      "grad_norm": 0.03056094132989058,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 296
    },
    {
      "epoch": 0.01584,
      "grad_norm": 0.03159285738338081,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 297
    },
    {
      "epoch": 0.015893333333333332,
      "grad_norm": 0.035974216268575804,
      "learning_rate": 0.0001,
      "loss": 1.0613,
      "step": 298
    },
    {
      "epoch": 0.015946666666666668,
      "grad_norm": 0.030947377010682443,
      "learning_rate": 0.0001,
      "loss": 1.1092,
      "step": 299
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.033898563438806525,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 300
    },
    {
      "epoch": 0.016053333333333333,
      "grad_norm": 0.03292576051008011,
      "learning_rate": 0.0001,
      "loss": 1.0887,
      "step": 301
    },
    {
      "epoch": 0.016106666666666665,
      "grad_norm": 0.031749365812221826,
      "learning_rate": 0.0001,
      "loss": 1.0969,
      "step": 302
    },
    {
      "epoch": 0.01616,
      "grad_norm": 0.029785513340430385,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 303
    },
    {
      "epoch": 0.016213333333333333,
      "grad_norm": 0.031742247722212874,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 304
    },
    {
      "epoch": 0.016266666666666665,
      "grad_norm": 0.03134762620808533,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 305
    },
    {
      "epoch": 0.01632,
      "grad_norm": 0.035003819557545446,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 306
    },
    {
      "epoch": 0.016373333333333333,
      "grad_norm": 0.03296922340582736,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 307
    },
    {
      "epoch": 0.016426666666666666,
      "grad_norm": 0.03117154954741794,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 308
    },
    {
      "epoch": 0.01648,
      "grad_norm": 0.029912372061067876,
      "learning_rate": 0.0001,
      "loss": 1.0732,
      "step": 309
    },
    {
      "epoch": 0.016533333333333334,
      "grad_norm": 0.04487232292890057,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 310
    },
    {
      "epoch": 0.016586666666666666,
      "grad_norm": 0.03081273512723902,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 311
    },
    {
      "epoch": 0.01664,
      "grad_norm": 0.03281915569187027,
      "learning_rate": 0.0001,
      "loss": 1.0563,
      "step": 312
    },
    {
      "epoch": 0.016693333333333334,
      "grad_norm": 0.029292829792812388,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 313
    },
    {
      "epoch": 0.016746666666666667,
      "grad_norm": 0.02977200434254926,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 314
    },
    {
      "epoch": 0.0168,
      "grad_norm": 0.027179631564878907,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 315
    },
    {
      "epoch": 0.016853333333333335,
      "grad_norm": 0.02707133743343452,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 316
    },
    {
      "epoch": 0.016906666666666667,
      "grad_norm": 0.027862420414370256,
      "learning_rate": 0.0001,
      "loss": 1.0784,
      "step": 317
    },
    {
      "epoch": 0.01696,
      "grad_norm": 0.024751619732911904,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 318
    },
    {
      "epoch": 0.01701333333333333,
      "grad_norm": 0.031493765173030604,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 319
    },
    {
      "epoch": 0.017066666666666667,
      "grad_norm": 0.028696386778704255,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 320
    },
    {
      "epoch": 0.01712,
      "grad_norm": 0.03415118878092258,
      "learning_rate": 0.0001,
      "loss": 1.0772,
      "step": 321
    },
    {
      "epoch": 0.017173333333333332,
      "grad_norm": 0.02995010953902378,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 322
    },
    {
      "epoch": 0.017226666666666668,
      "grad_norm": 0.03580808487326185,
      "learning_rate": 0.0001,
      "loss": 1.0612,
      "step": 323
    },
    {
      "epoch": 0.01728,
      "grad_norm": 0.03506423701369882,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 324
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.03466479476243407,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 325
    },
    {
      "epoch": 0.01738666666666667,
      "grad_norm": 0.03214391804179624,
      "learning_rate": 0.0001,
      "loss": 1.0812,
      "step": 326
    },
    {
      "epoch": 0.01744,
      "grad_norm": 0.028072159375967753,
      "learning_rate": 0.0001,
      "loss": 1.0963,
      "step": 327
    },
    {
      "epoch": 0.017493333333333333,
      "grad_norm": 0.031494434621519414,
      "learning_rate": 0.0001,
      "loss": 1.1078,
      "step": 328
    },
    {
      "epoch": 0.017546666666666665,
      "grad_norm": 0.031617913967152994,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 329
    },
    {
      "epoch": 0.0176,
      "grad_norm": 0.0329875799682057,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 330
    },
    {
      "epoch": 0.017653333333333333,
      "grad_norm": 0.029467640878076403,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 331
    },
    {
      "epoch": 0.017706666666666666,
      "grad_norm": 0.03052182121481663,
      "learning_rate": 0.0001,
      "loss": 1.0755,
      "step": 332
    },
    {
      "epoch": 0.01776,
      "grad_norm": 0.02559458807134852,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 333
    },
    {
      "epoch": 0.017813333333333334,
      "grad_norm": 0.02703684933326687,
      "learning_rate": 0.0001,
      "loss": 1.0864,
      "step": 334
    },
    {
      "epoch": 0.017866666666666666,
      "grad_norm": 0.026753531972531313,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 335
    },
    {
      "epoch": 0.01792,
      "grad_norm": 0.026916556699741197,
      "learning_rate": 0.0001,
      "loss": 1.075,
      "step": 336
    },
    {
      "epoch": 0.017973333333333334,
      "grad_norm": 0.025738137328926707,
      "learning_rate": 0.0001,
      "loss": 1.1118,
      "step": 337
    },
    {
      "epoch": 0.018026666666666667,
      "grad_norm": 0.02567237774910536,
      "learning_rate": 0.0001,
      "loss": 1.1171,
      "step": 338
    },
    {
      "epoch": 0.01808,
      "grad_norm": 0.026013833568443275,
      "learning_rate": 0.0001,
      "loss": 1.0911,
      "step": 339
    },
    {
      "epoch": 0.018133333333333335,
      "grad_norm": 0.027028788146671114,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 340
    },
    {
      "epoch": 0.018186666666666667,
      "grad_norm": 0.023988082488905483,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 341
    },
    {
      "epoch": 0.01824,
      "grad_norm": 0.026303446832233002,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 342
    },
    {
      "epoch": 0.018293333333333335,
      "grad_norm": 0.02427904886173714,
      "learning_rate": 0.0001,
      "loss": 1.0531,
      "step": 343
    },
    {
      "epoch": 0.018346666666666667,
      "grad_norm": 0.023390434640162036,
      "learning_rate": 0.0001,
      "loss": 1.0632,
      "step": 344
    },
    {
      "epoch": 0.0184,
      "grad_norm": 0.028486247841189936,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 345
    },
    {
      "epoch": 0.018453333333333332,
      "grad_norm": 0.024377650723664605,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 346
    },
    {
      "epoch": 0.018506666666666668,
      "grad_norm": 0.030887395887601296,
      "learning_rate": 0.0001,
      "loss": 1.0857,
      "step": 347
    },
    {
      "epoch": 0.01856,
      "grad_norm": 0.02674271547203887,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 348
    },
    {
      "epoch": 0.018613333333333332,
      "grad_norm": 0.029958343257763205,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 349
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 0.02721468036424237,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 350
    },
    {
      "epoch": 0.01872,
      "grad_norm": 0.03041357064666306,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 351
    },
    {
      "epoch": 0.018773333333333333,
      "grad_norm": 0.025530909097418928,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 352
    },
    {
      "epoch": 0.018826666666666665,
      "grad_norm": 0.029046980447655,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 353
    },
    {
      "epoch": 0.01888,
      "grad_norm": 0.02742225734624913,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 354
    },
    {
      "epoch": 0.018933333333333333,
      "grad_norm": 0.02817214536206837,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 355
    },
    {
      "epoch": 0.018986666666666666,
      "grad_norm": 0.028177786714841432,
      "learning_rate": 0.0001,
      "loss": 1.1266,
      "step": 356
    },
    {
      "epoch": 0.01904,
      "grad_norm": 0.036940352302188284,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 357
    },
    {
      "epoch": 0.019093333333333334,
      "grad_norm": 0.02891213109646514,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 358
    },
    {
      "epoch": 0.019146666666666666,
      "grad_norm": 0.035077638590988815,
      "learning_rate": 0.0001,
      "loss": 1.1065,
      "step": 359
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.027029906296890737,
      "learning_rate": 0.0001,
      "loss": 1.0932,
      "step": 360
    },
    {
      "epoch": 0.019253333333333334,
      "grad_norm": 0.028542269376271526,
      "learning_rate": 0.0001,
      "loss": 1.0999,
      "step": 361
    },
    {
      "epoch": 0.019306666666666666,
      "grad_norm": 0.03555033316971397,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 362
    },
    {
      "epoch": 0.01936,
      "grad_norm": 0.02804863106584758,
      "learning_rate": 0.0001,
      "loss": 1.0604,
      "step": 363
    },
    {
      "epoch": 0.019413333333333335,
      "grad_norm": 0.03343706544181945,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 364
    },
    {
      "epoch": 0.019466666666666667,
      "grad_norm": 0.03368558088032251,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 365
    },
    {
      "epoch": 0.01952,
      "grad_norm": 0.030220655249612118,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 366
    },
    {
      "epoch": 0.019573333333333335,
      "grad_norm": 0.029117713883176303,
      "learning_rate": 0.0001,
      "loss": 1.1224,
      "step": 367
    },
    {
      "epoch": 0.019626666666666667,
      "grad_norm": 0.031636676066211435,
      "learning_rate": 0.0001,
      "loss": 1.0971,
      "step": 368
    },
    {
      "epoch": 0.01968,
      "grad_norm": 0.025851792712128695,
      "learning_rate": 0.0001,
      "loss": 1.0808,
      "step": 369
    },
    {
      "epoch": 0.019733333333333332,
      "grad_norm": 0.027299446409118307,
      "learning_rate": 0.0001,
      "loss": 1.0784,
      "step": 370
    },
    {
      "epoch": 0.019786666666666668,
      "grad_norm": 0.028099557032940214,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 371
    },
    {
      "epoch": 0.01984,
      "grad_norm": 0.026366419496810567,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 372
    },
    {
      "epoch": 0.019893333333333332,
      "grad_norm": 0.025729039831486382,
      "learning_rate": 0.0001,
      "loss": 1.0516,
      "step": 373
    },
    {
      "epoch": 0.019946666666666668,
      "grad_norm": 0.02890713408278688,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 374
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.027887343477902646,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 375
    },
    {
      "epoch": 0.020053333333333333,
      "grad_norm": 0.025907081160040965,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 376
    },
    {
      "epoch": 0.020106666666666665,
      "grad_norm": 0.026435137519446417,
      "learning_rate": 0.0001,
      "loss": 1.0937,
      "step": 377
    },
    {
      "epoch": 0.02016,
      "grad_norm": 0.0253290870695598,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 378
    },
    {
      "epoch": 0.020213333333333333,
      "grad_norm": 0.026734068911816202,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 379
    },
    {
      "epoch": 0.020266666666666665,
      "grad_norm": 0.03393577567452843,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 380
    },
    {
      "epoch": 0.02032,
      "grad_norm": 0.02828326274802342,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 381
    },
    {
      "epoch": 0.020373333333333334,
      "grad_norm": 0.02860485461026611,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 382
    },
    {
      "epoch": 0.020426666666666666,
      "grad_norm": 0.026478529379975944,
      "learning_rate": 0.0001,
      "loss": 1.0941,
      "step": 383
    },
    {
      "epoch": 0.02048,
      "grad_norm": 0.027481746097079915,
      "learning_rate": 0.0001,
      "loss": 1.1043,
      "step": 384
    },
    {
      "epoch": 0.020533333333333334,
      "grad_norm": 0.027006969234312356,
      "learning_rate": 0.0001,
      "loss": 1.1279,
      "step": 385
    },
    {
      "epoch": 0.020586666666666666,
      "grad_norm": 0.028720064065126408,
      "learning_rate": 0.0001,
      "loss": 1.0274,
      "step": 386
    },
    {
      "epoch": 0.02064,
      "grad_norm": 0.027529008097351197,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 387
    },
    {
      "epoch": 0.020693333333333334,
      "grad_norm": 0.03158791587970711,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 388
    },
    {
      "epoch": 0.020746666666666667,
      "grad_norm": 0.0291389379537766,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 389
    },
    {
      "epoch": 0.0208,
      "grad_norm": 0.026310647414075156,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 390
    },
    {
      "epoch": 0.020853333333333335,
      "grad_norm": 0.029681993096700644,
      "learning_rate": 0.0001,
      "loss": 1.1108,
      "step": 391
    },
    {
      "epoch": 0.020906666666666667,
      "grad_norm": 0.026459941461558376,
      "learning_rate": 0.0001,
      "loss": 1.0914,
      "step": 392
    },
    {
      "epoch": 0.02096,
      "grad_norm": 0.026362412568191183,
      "learning_rate": 0.0001,
      "loss": 1.056,
      "step": 393
    },
    {
      "epoch": 0.021013333333333332,
      "grad_norm": 0.026093317445612677,
      "learning_rate": 0.0001,
      "loss": 1.0737,
      "step": 394
    },
    {
      "epoch": 0.021066666666666668,
      "grad_norm": 0.025638727214101386,
      "learning_rate": 0.0001,
      "loss": 1.0656,
      "step": 395
    },
    {
      "epoch": 0.02112,
      "grad_norm": 0.028232502494594188,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 396
    },
    {
      "epoch": 0.021173333333333332,
      "grad_norm": 0.02906780589841371,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 397
    },
    {
      "epoch": 0.021226666666666668,
      "grad_norm": 0.025717361098639903,
      "learning_rate": 0.0001,
      "loss": 1.058,
      "step": 398
    },
    {
      "epoch": 0.02128,
      "grad_norm": 0.02652830785176825,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 399
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 0.025167052204156423,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 400
    },
    {
      "epoch": 0.021333333333333333,
      "eval_accuracy": 0.6031766972522907,
      "eval_loss": 1.4504541158676147,
      "eval_runtime": 62.3335,
      "eval_samples_per_second": 16.043,
      "eval_steps_per_second": 0.513,
      "step": 400
    },
    {
      "epoch": 0.021386666666666665,
      "grad_norm": 0.029053357525178344,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 401
    },
    {
      "epoch": 0.02144,
      "grad_norm": 0.029474045819068078,
      "learning_rate": 0.0001,
      "loss": 1.0607,
      "step": 402
    },
    {
      "epoch": 0.021493333333333333,
      "grad_norm": 0.025678794455837924,
      "learning_rate": 0.0001,
      "loss": 1.0363,
      "step": 403
    },
    {
      "epoch": 0.021546666666666665,
      "grad_norm": 0.03227659639217607,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 404
    },
    {
      "epoch": 0.0216,
      "grad_norm": 0.02884093933159816,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 405
    },
    {
      "epoch": 0.021653333333333333,
      "grad_norm": 0.026513728040301318,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 406
    },
    {
      "epoch": 0.021706666666666666,
      "grad_norm": 0.030849289634637234,
      "learning_rate": 0.0001,
      "loss": 1.0563,
      "step": 407
    },
    {
      "epoch": 0.02176,
      "grad_norm": 0.03153134056187864,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 408
    },
    {
      "epoch": 0.021813333333333334,
      "grad_norm": 0.030167919251293484,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 409
    },
    {
      "epoch": 0.021866666666666666,
      "grad_norm": 0.03779516349808776,
      "learning_rate": 0.0001,
      "loss": 1.0775,
      "step": 410
    },
    {
      "epoch": 0.02192,
      "grad_norm": 0.03487583611834528,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 411
    },
    {
      "epoch": 0.021973333333333334,
      "grad_norm": 0.03340258412178405,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 412
    },
    {
      "epoch": 0.022026666666666667,
      "grad_norm": 0.02992368088330469,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 413
    },
    {
      "epoch": 0.02208,
      "grad_norm": 0.028447780043733484,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 414
    },
    {
      "epoch": 0.022133333333333335,
      "grad_norm": 0.03082770040515954,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 415
    },
    {
      "epoch": 0.022186666666666667,
      "grad_norm": 0.03142775534057516,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 416
    },
    {
      "epoch": 0.02224,
      "grad_norm": 0.03039707881525997,
      "learning_rate": 0.0001,
      "loss": 1.1004,
      "step": 417
    },
    {
      "epoch": 0.02229333333333333,
      "grad_norm": 0.035482902760430986,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 418
    },
    {
      "epoch": 0.022346666666666667,
      "grad_norm": 0.0311600162316943,
      "learning_rate": 0.0001,
      "loss": 1.083,
      "step": 419
    },
    {
      "epoch": 0.0224,
      "grad_norm": 0.02598116713955271,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 420
    },
    {
      "epoch": 0.022453333333333332,
      "grad_norm": 0.028539749918331213,
      "learning_rate": 0.0001,
      "loss": 1.1239,
      "step": 421
    },
    {
      "epoch": 0.022506666666666668,
      "grad_norm": 0.02794856360914057,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 422
    },
    {
      "epoch": 0.02256,
      "grad_norm": 0.026963534370146734,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 423
    },
    {
      "epoch": 0.022613333333333333,
      "grad_norm": 0.029060493516265676,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 424
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.026189659354252996,
      "learning_rate": 0.0001,
      "loss": 1.0796,
      "step": 425
    },
    {
      "epoch": 0.02272,
      "grad_norm": 0.028693064238298812,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 426
    },
    {
      "epoch": 0.022773333333333333,
      "grad_norm": 0.025348928366226316,
      "learning_rate": 0.0001,
      "loss": 1.0848,
      "step": 427
    },
    {
      "epoch": 0.022826666666666665,
      "grad_norm": 0.02885848930611813,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 428
    },
    {
      "epoch": 0.02288,
      "grad_norm": 0.02629223229615296,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 429
    },
    {
      "epoch": 0.022933333333333333,
      "grad_norm": 0.027409049751057055,
      "learning_rate": 0.0001,
      "loss": 1.061,
      "step": 430
    },
    {
      "epoch": 0.022986666666666666,
      "grad_norm": 0.02780451142825781,
      "learning_rate": 0.0001,
      "loss": 1.0552,
      "step": 431
    },
    {
      "epoch": 0.02304,
      "grad_norm": 0.029522800413640884,
      "learning_rate": 0.0001,
      "loss": 1.0533,
      "step": 432
    },
    {
      "epoch": 0.023093333333333334,
      "grad_norm": 0.030455229875625784,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 433
    },
    {
      "epoch": 0.023146666666666666,
      "grad_norm": 0.03173636241329264,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 434
    },
    {
      "epoch": 0.0232,
      "grad_norm": 0.03168326600402686,
      "learning_rate": 0.0001,
      "loss": 1.0628,
      "step": 435
    },
    {
      "epoch": 0.023253333333333334,
      "grad_norm": 0.026215702129123965,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 436
    },
    {
      "epoch": 0.023306666666666667,
      "grad_norm": 0.035464794520461466,
      "learning_rate": 0.0001,
      "loss": 1.0772,
      "step": 437
    },
    {
      "epoch": 0.02336,
      "grad_norm": 0.02855595177866171,
      "learning_rate": 0.0001,
      "loss": 1.098,
      "step": 438
    },
    {
      "epoch": 0.023413333333333335,
      "grad_norm": 0.04002437828765943,
      "learning_rate": 0.0001,
      "loss": 1.089,
      "step": 439
    },
    {
      "epoch": 0.023466666666666667,
      "grad_norm": 0.03585573294824762,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 440
    },
    {
      "epoch": 0.02352,
      "grad_norm": 0.043418690636598985,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 441
    },
    {
      "epoch": 0.023573333333333335,
      "grad_norm": 0.0290614894491396,
      "learning_rate": 0.0001,
      "loss": 1.0859,
      "step": 442
    },
    {
      "epoch": 0.023626666666666667,
      "grad_norm": 0.0290944822288765,
      "learning_rate": 0.0001,
      "loss": 1.126,
      "step": 443
    },
    {
      "epoch": 0.02368,
      "grad_norm": 0.030186607335437106,
      "learning_rate": 0.0001,
      "loss": 1.087,
      "step": 444
    },
    {
      "epoch": 0.023733333333333332,
      "grad_norm": 0.02814069752913434,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 445
    },
    {
      "epoch": 0.023786666666666668,
      "grad_norm": 0.03233398519193545,
      "learning_rate": 0.0001,
      "loss": 1.0532,
      "step": 446
    },
    {
      "epoch": 0.02384,
      "grad_norm": 0.03063285078969354,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 447
    },
    {
      "epoch": 0.023893333333333332,
      "grad_norm": 0.033114650713262056,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 448
    },
    {
      "epoch": 0.023946666666666668,
      "grad_norm": 0.03491959026821597,
      "learning_rate": 0.0001,
      "loss": 1.0721,
      "step": 449
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.026318486959858924,
      "learning_rate": 0.0001,
      "loss": 1.0659,
      "step": 450
    },
    {
      "epoch": 0.024053333333333333,
      "grad_norm": 0.04080394535435901,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 451
    },
    {
      "epoch": 0.024106666666666665,
      "grad_norm": 0.03246981772136912,
      "learning_rate": 0.0001,
      "loss": 1.0795,
      "step": 452
    },
    {
      "epoch": 0.02416,
      "grad_norm": 0.03711499410275952,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 453
    },
    {
      "epoch": 0.024213333333333333,
      "grad_norm": 0.03389334869976908,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 454
    },
    {
      "epoch": 0.024266666666666666,
      "grad_norm": 0.03060692008215914,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 455
    },
    {
      "epoch": 0.02432,
      "grad_norm": 0.03240637929991925,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 456
    },
    {
      "epoch": 0.024373333333333334,
      "grad_norm": 0.03309869330586512,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 457
    },
    {
      "epoch": 0.024426666666666666,
      "grad_norm": 0.029231242062182545,
      "learning_rate": 0.0001,
      "loss": 1.0936,
      "step": 458
    },
    {
      "epoch": 0.02448,
      "grad_norm": 0.035605870022303046,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 459
    },
    {
      "epoch": 0.024533333333333334,
      "grad_norm": 0.032122017264580076,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 460
    },
    {
      "epoch": 0.024586666666666666,
      "grad_norm": 0.03627076642877057,
      "learning_rate": 0.0001,
      "loss": 1.0836,
      "step": 461
    },
    {
      "epoch": 0.02464,
      "grad_norm": 0.02736588232960089,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 462
    },
    {
      "epoch": 0.024693333333333334,
      "grad_norm": 0.032870392142688235,
      "learning_rate": 0.0001,
      "loss": 1.0666,
      "step": 463
    },
    {
      "epoch": 0.024746666666666667,
      "grad_norm": 0.02580065579028054,
      "learning_rate": 0.0001,
      "loss": 1.0515,
      "step": 464
    },
    {
      "epoch": 0.0248,
      "grad_norm": 0.030460139904030313,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 465
    },
    {
      "epoch": 0.024853333333333335,
      "grad_norm": 0.02737468320120218,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 466
    },
    {
      "epoch": 0.024906666666666667,
      "grad_norm": 0.03475517154737565,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 467
    },
    {
      "epoch": 0.02496,
      "grad_norm": 0.028928836775852042,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 468
    },
    {
      "epoch": 0.025013333333333332,
      "grad_norm": 0.035307137381791795,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 469
    },
    {
      "epoch": 0.025066666666666668,
      "grad_norm": 0.026823401948891615,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 470
    },
    {
      "epoch": 0.02512,
      "grad_norm": 0.0357739238856504,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 471
    },
    {
      "epoch": 0.025173333333333332,
      "grad_norm": 0.02708876927708111,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 472
    },
    {
      "epoch": 0.025226666666666668,
      "grad_norm": 0.033064805821763264,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 473
    },
    {
      "epoch": 0.02528,
      "grad_norm": 0.027573131632937994,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 474
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.03168991555601376,
      "learning_rate": 0.0001,
      "loss": 1.0835,
      "step": 475
    },
    {
      "epoch": 0.025386666666666665,
      "grad_norm": 0.026789578605463115,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 476
    },
    {
      "epoch": 0.02544,
      "grad_norm": 0.029621588067924365,
      "learning_rate": 0.0001,
      "loss": 1.0663,
      "step": 477
    },
    {
      "epoch": 0.025493333333333333,
      "grad_norm": 0.0256933807176801,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 478
    },
    {
      "epoch": 0.025546666666666665,
      "grad_norm": 0.031583332157905514,
      "learning_rate": 0.0001,
      "loss": 1.0984,
      "step": 479
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.028610464318737584,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 480
    },
    {
      "epoch": 0.025653333333333334,
      "grad_norm": 0.03182093744252328,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 481
    },
    {
      "epoch": 0.025706666666666666,
      "grad_norm": 0.027101991844817215,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 482
    },
    {
      "epoch": 0.02576,
      "grad_norm": 0.03559697773609355,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 483
    },
    {
      "epoch": 0.025813333333333334,
      "grad_norm": 0.029373287519758855,
      "learning_rate": 0.0001,
      "loss": 1.0795,
      "step": 484
    },
    {
      "epoch": 0.025866666666666666,
      "grad_norm": 0.030874499025079473,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 485
    },
    {
      "epoch": 0.02592,
      "grad_norm": 0.03160479471651721,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 486
    },
    {
      "epoch": 0.025973333333333334,
      "grad_norm": 0.03447887590022929,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 487
    },
    {
      "epoch": 0.026026666666666667,
      "grad_norm": 0.030774359975939802,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 488
    },
    {
      "epoch": 0.02608,
      "grad_norm": 0.028798000478720626,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 489
    },
    {
      "epoch": 0.026133333333333335,
      "grad_norm": 0.03390295207044085,
      "learning_rate": 0.0001,
      "loss": 1.0608,
      "step": 490
    },
    {
      "epoch": 0.026186666666666667,
      "grad_norm": 0.026205318620701235,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 491
    },
    {
      "epoch": 0.02624,
      "grad_norm": 0.030382545007108054,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 492
    },
    {
      "epoch": 0.026293333333333332,
      "grad_norm": 0.02632373090852729,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 493
    },
    {
      "epoch": 0.026346666666666668,
      "grad_norm": 0.034629311803308915,
      "learning_rate": 0.0001,
      "loss": 1.0849,
      "step": 494
    },
    {
      "epoch": 0.0264,
      "grad_norm": 0.02794974055789051,
      "learning_rate": 0.0001,
      "loss": 1.0658,
      "step": 495
    },
    {
      "epoch": 0.026453333333333332,
      "grad_norm": 0.034484018595900924,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 496
    },
    {
      "epoch": 0.026506666666666668,
      "grad_norm": 0.027226653491494283,
      "learning_rate": 0.0001,
      "loss": 1.0898,
      "step": 497
    },
    {
      "epoch": 0.02656,
      "grad_norm": 0.0366132176620981,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 498
    },
    {
      "epoch": 0.026613333333333333,
      "grad_norm": 0.029198913488547064,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 499
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.03677223145835217,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 500
    },
    {
      "epoch": 0.02672,
      "grad_norm": 0.02651990731901792,
      "learning_rate": 0.0001,
      "loss": 1.0962,
      "step": 501
    },
    {
      "epoch": 0.026773333333333333,
      "grad_norm": 0.03355077719282936,
      "learning_rate": 0.0001,
      "loss": 1.0907,
      "step": 502
    },
    {
      "epoch": 0.026826666666666665,
      "grad_norm": 0.02915868522934527,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 503
    },
    {
      "epoch": 0.02688,
      "grad_norm": 0.030235182446328727,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 504
    },
    {
      "epoch": 0.026933333333333333,
      "grad_norm": 0.032098510499524925,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 505
    },
    {
      "epoch": 0.026986666666666666,
      "grad_norm": 0.029866292922145002,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 506
    },
    {
      "epoch": 0.02704,
      "grad_norm": 0.03344940987833942,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 507
    },
    {
      "epoch": 0.027093333333333334,
      "grad_norm": 0.032703648734689325,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 508
    },
    {
      "epoch": 0.027146666666666666,
      "grad_norm": 0.030647095309253046,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 509
    },
    {
      "epoch": 0.0272,
      "grad_norm": 0.03225772763011113,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 510
    },
    {
      "epoch": 0.027253333333333334,
      "grad_norm": 0.026884104279355815,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 511
    },
    {
      "epoch": 0.027306666666666667,
      "grad_norm": 0.03559905848690804,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 512
    },
    {
      "epoch": 0.02736,
      "grad_norm": 0.025339288225932833,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 513
    },
    {
      "epoch": 0.027413333333333335,
      "grad_norm": 0.02825279695243195,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 514
    },
    {
      "epoch": 0.027466666666666667,
      "grad_norm": 0.027726730912414992,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 515
    },
    {
      "epoch": 0.02752,
      "grad_norm": 0.027358196476371093,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 516
    },
    {
      "epoch": 0.02757333333333333,
      "grad_norm": 0.025184591999536324,
      "learning_rate": 0.0001,
      "loss": 1.0667,
      "step": 517
    },
    {
      "epoch": 0.027626666666666667,
      "grad_norm": 0.028091983114919894,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 518
    },
    {
      "epoch": 0.02768,
      "grad_norm": 0.025422931865888544,
      "learning_rate": 0.0001,
      "loss": 1.0582,
      "step": 519
    },
    {
      "epoch": 0.027733333333333332,
      "grad_norm": 0.027449346212440853,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 520
    },
    {
      "epoch": 0.027786666666666668,
      "grad_norm": 0.0226677266044884,
      "learning_rate": 0.0001,
      "loss": 1.0547,
      "step": 521
    },
    {
      "epoch": 0.02784,
      "grad_norm": 0.029673940261652584,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 522
    },
    {
      "epoch": 0.027893333333333332,
      "grad_norm": 0.026922235760732487,
      "learning_rate": 0.0001,
      "loss": 1.0505,
      "step": 523
    },
    {
      "epoch": 0.02794666666666667,
      "grad_norm": 0.025413857251451656,
      "learning_rate": 0.0001,
      "loss": 1.0449,
      "step": 524
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.026132355495133704,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 525
    },
    {
      "epoch": 0.028053333333333333,
      "grad_norm": 0.029086541686811053,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 526
    },
    {
      "epoch": 0.028106666666666665,
      "grad_norm": 0.028055930897560945,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 527
    },
    {
      "epoch": 0.02816,
      "grad_norm": 0.029840799240583228,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 528
    },
    {
      "epoch": 0.028213333333333333,
      "grad_norm": 0.026251648807173542,
      "learning_rate": 0.0001,
      "loss": 1.0811,
      "step": 529
    },
    {
      "epoch": 0.028266666666666666,
      "grad_norm": 0.029243541996501757,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 530
    },
    {
      "epoch": 0.02832,
      "grad_norm": 0.025780477919854453,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 531
    },
    {
      "epoch": 0.028373333333333334,
      "grad_norm": 0.031714624601496204,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 532
    },
    {
      "epoch": 0.028426666666666666,
      "grad_norm": 0.026892706111064008,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 533
    },
    {
      "epoch": 0.02848,
      "grad_norm": 0.0335277111953333,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 534
    },
    {
      "epoch": 0.028533333333333334,
      "grad_norm": 0.024376756145341696,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 535
    },
    {
      "epoch": 0.028586666666666666,
      "grad_norm": 0.026528967455148288,
      "learning_rate": 0.0001,
      "loss": 1.0607,
      "step": 536
    },
    {
      "epoch": 0.02864,
      "grad_norm": 0.03104583148634439,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 537
    },
    {
      "epoch": 0.028693333333333335,
      "grad_norm": 0.02563386891700496,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 538
    },
    {
      "epoch": 0.028746666666666667,
      "grad_norm": 0.030424101368903257,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 539
    },
    {
      "epoch": 0.0288,
      "grad_norm": 0.025122909052099962,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 540
    },
    {
      "epoch": 0.028853333333333335,
      "grad_norm": 0.027986777277271207,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 541
    },
    {
      "epoch": 0.028906666666666667,
      "grad_norm": 0.028366504481278976,
      "learning_rate": 0.0001,
      "loss": 1.08,
      "step": 542
    },
    {
      "epoch": 0.02896,
      "grad_norm": 0.02488252560475833,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 543
    },
    {
      "epoch": 0.029013333333333332,
      "grad_norm": 0.02771674283303712,
      "learning_rate": 0.0001,
      "loss": 1.0876,
      "step": 544
    },
    {
      "epoch": 0.029066666666666668,
      "grad_norm": 0.023043430088074683,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 545
    },
    {
      "epoch": 0.02912,
      "grad_norm": 0.026836814258446483,
      "learning_rate": 0.0001,
      "loss": 1.0553,
      "step": 546
    },
    {
      "epoch": 0.029173333333333332,
      "grad_norm": 0.02572272778382521,
      "learning_rate": 0.0001,
      "loss": 1.0499,
      "step": 547
    },
    {
      "epoch": 0.029226666666666668,
      "grad_norm": 0.024144153975780923,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 548
    },
    {
      "epoch": 0.02928,
      "grad_norm": 0.024425685767587794,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 549
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.024001550929373328,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 550
    },
    {
      "epoch": 0.029386666666666665,
      "grad_norm": 0.02666933853610983,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 551
    },
    {
      "epoch": 0.02944,
      "grad_norm": 0.02573731726673591,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 552
    },
    {
      "epoch": 0.029493333333333333,
      "grad_norm": 0.02623993818553527,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 553
    },
    {
      "epoch": 0.029546666666666666,
      "grad_norm": 0.02764017128615615,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 554
    },
    {
      "epoch": 0.0296,
      "grad_norm": 0.02517507624746559,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 555
    },
    {
      "epoch": 0.029653333333333334,
      "grad_norm": 0.028589097697550005,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 556
    },
    {
      "epoch": 0.029706666666666666,
      "grad_norm": 0.030190744770913033,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 557
    },
    {
      "epoch": 0.02976,
      "grad_norm": 0.027635184601247646,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 558
    },
    {
      "epoch": 0.029813333333333334,
      "grad_norm": 0.030248276071141625,
      "learning_rate": 0.0001,
      "loss": 1.0615,
      "step": 559
    },
    {
      "epoch": 0.029866666666666666,
      "grad_norm": 0.03149026965789896,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 560
    },
    {
      "epoch": 0.02992,
      "grad_norm": 0.026488963368527855,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 561
    },
    {
      "epoch": 0.029973333333333334,
      "grad_norm": 0.03156056628715051,
      "learning_rate": 0.0001,
      "loss": 1.1064,
      "step": 562
    },
    {
      "epoch": 0.030026666666666667,
      "grad_norm": 0.026772923721642618,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 563
    },
    {
      "epoch": 0.03008,
      "grad_norm": 0.038827517285053986,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 564
    },
    {
      "epoch": 0.030133333333333335,
      "grad_norm": 0.028417039583703018,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 565
    },
    {
      "epoch": 0.030186666666666667,
      "grad_norm": 0.029024640825169812,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 566
    },
    {
      "epoch": 0.03024,
      "grad_norm": 0.030815764401784105,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 567
    },
    {
      "epoch": 0.030293333333333332,
      "grad_norm": 0.032176126369767806,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 568
    },
    {
      "epoch": 0.030346666666666668,
      "grad_norm": 0.03548818342529221,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 569
    },
    {
      "epoch": 0.0304,
      "grad_norm": 0.03152919410060147,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 570
    },
    {
      "epoch": 0.030453333333333332,
      "grad_norm": 0.029509791077301034,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 571
    },
    {
      "epoch": 0.030506666666666668,
      "grad_norm": 0.03177426421126197,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 572
    },
    {
      "epoch": 0.03056,
      "grad_norm": 0.03140684345863599,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 573
    },
    {
      "epoch": 0.030613333333333333,
      "grad_norm": 0.028387595365111578,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 574
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.03550348870504331,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 575
    },
    {
      "epoch": 0.03072,
      "grad_norm": 0.02860428962580057,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 576
    },
    {
      "epoch": 0.030773333333333333,
      "grad_norm": 0.032033012137331396,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 577
    },
    {
      "epoch": 0.030826666666666665,
      "grad_norm": 0.028652449871259623,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 578
    },
    {
      "epoch": 0.03088,
      "grad_norm": 0.036854493411152246,
      "learning_rate": 0.0001,
      "loss": 1.0941,
      "step": 579
    },
    {
      "epoch": 0.030933333333333334,
      "grad_norm": 0.03144872596853934,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 580
    },
    {
      "epoch": 0.030986666666666666,
      "grad_norm": 0.032146801934203724,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 581
    },
    {
      "epoch": 0.03104,
      "grad_norm": 0.02872348390190022,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 582
    },
    {
      "epoch": 0.031093333333333334,
      "grad_norm": 0.036941293121842654,
      "learning_rate": 0.0001,
      "loss": 1.06,
      "step": 583
    },
    {
      "epoch": 0.031146666666666666,
      "grad_norm": 0.028896635015294977,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 584
    },
    {
      "epoch": 0.0312,
      "grad_norm": 0.032509037386965825,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 585
    },
    {
      "epoch": 0.031253333333333334,
      "grad_norm": 0.026783272691399063,
      "learning_rate": 0.0001,
      "loss": 1.073,
      "step": 586
    },
    {
      "epoch": 0.03130666666666666,
      "grad_norm": 0.028201980116136813,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 587
    },
    {
      "epoch": 0.03136,
      "grad_norm": 0.031472833110860174,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 588
    },
    {
      "epoch": 0.031413333333333335,
      "grad_norm": 0.02561743775327991,
      "learning_rate": 0.0001,
      "loss": 1.1446,
      "step": 589
    },
    {
      "epoch": 0.031466666666666664,
      "grad_norm": 0.02857336989244412,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 590
    },
    {
      "epoch": 0.03152,
      "grad_norm": 0.033339459213100914,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 591
    },
    {
      "epoch": 0.031573333333333335,
      "grad_norm": 0.02520360108681762,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 592
    },
    {
      "epoch": 0.031626666666666664,
      "grad_norm": 0.02966068583757507,
      "learning_rate": 0.0001,
      "loss": 1.0643,
      "step": 593
    },
    {
      "epoch": 0.03168,
      "grad_norm": 0.03104121529036495,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 594
    },
    {
      "epoch": 0.031733333333333336,
      "grad_norm": 0.027301957706175103,
      "learning_rate": 0.0001,
      "loss": 1.0745,
      "step": 595
    },
    {
      "epoch": 0.031786666666666664,
      "grad_norm": 0.03488774725506519,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 596
    },
    {
      "epoch": 0.03184,
      "grad_norm": 0.02707810299028643,
      "learning_rate": 0.0001,
      "loss": 1.0507,
      "step": 597
    },
    {
      "epoch": 0.031893333333333336,
      "grad_norm": 0.0322932263549692,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 598
    },
    {
      "epoch": 0.031946666666666665,
      "grad_norm": 0.02787814023638413,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 599
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.029467224734742736,
      "learning_rate": 0.0001,
      "loss": 1.05,
      "step": 600
    },
    {
      "epoch": 0.032,
      "eval_accuracy": 0.6054293540235649,
      "eval_loss": 1.4374525547027588,
      "eval_runtime": 62.0912,
      "eval_samples_per_second": 16.105,
      "eval_steps_per_second": 0.515,
      "step": 600
    },
    {
      "epoch": 0.032053333333333336,
      "grad_norm": 0.029442314704859494,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 601
    },
    {
      "epoch": 0.032106666666666665,
      "grad_norm": 0.0315822861964183,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 602
    },
    {
      "epoch": 0.03216,
      "grad_norm": 0.031044050460379495,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 603
    },
    {
      "epoch": 0.03221333333333333,
      "grad_norm": 0.0320737073739536,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 604
    },
    {
      "epoch": 0.032266666666666666,
      "grad_norm": 0.03116399409367164,
      "learning_rate": 0.0001,
      "loss": 1.0641,
      "step": 605
    },
    {
      "epoch": 0.03232,
      "grad_norm": 0.02902664089507814,
      "learning_rate": 0.0001,
      "loss": 1.0822,
      "step": 606
    },
    {
      "epoch": 0.03237333333333333,
      "grad_norm": 0.02743228317735314,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 607
    },
    {
      "epoch": 0.032426666666666666,
      "grad_norm": 0.03049060377227915,
      "learning_rate": 0.0001,
      "loss": 1.0886,
      "step": 608
    },
    {
      "epoch": 0.03248,
      "grad_norm": 0.030620285970369036,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 609
    },
    {
      "epoch": 0.03253333333333333,
      "grad_norm": 0.027453568346793748,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 610
    },
    {
      "epoch": 0.03258666666666667,
      "grad_norm": 0.028622317641376696,
      "learning_rate": 0.0001,
      "loss": 1.0837,
      "step": 611
    },
    {
      "epoch": 0.03264,
      "grad_norm": 0.029710954031531907,
      "learning_rate": 0.0001,
      "loss": 1.0775,
      "step": 612
    },
    {
      "epoch": 0.03269333333333333,
      "grad_norm": 0.026041232029131906,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 613
    },
    {
      "epoch": 0.03274666666666667,
      "grad_norm": 0.03082650346920606,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 614
    },
    {
      "epoch": 0.0328,
      "grad_norm": 0.025642962998964396,
      "learning_rate": 0.0001,
      "loss": 1.0948,
      "step": 615
    },
    {
      "epoch": 0.03285333333333333,
      "grad_norm": 0.026592884166059358,
      "learning_rate": 0.0001,
      "loss": 1.111,
      "step": 616
    },
    {
      "epoch": 0.03290666666666667,
      "grad_norm": 0.026511958477497,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 617
    },
    {
      "epoch": 0.03296,
      "grad_norm": 0.02994628486890638,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 618
    },
    {
      "epoch": 0.03301333333333333,
      "grad_norm": 0.028691406228624348,
      "learning_rate": 0.0001,
      "loss": 1.0785,
      "step": 619
    },
    {
      "epoch": 0.03306666666666667,
      "grad_norm": 0.025828833086042266,
      "learning_rate": 0.0001,
      "loss": 1.0481,
      "step": 620
    },
    {
      "epoch": 0.03312,
      "grad_norm": 0.026737514314920413,
      "learning_rate": 0.0001,
      "loss": 1.1035,
      "step": 621
    },
    {
      "epoch": 0.03317333333333333,
      "grad_norm": 0.029197476259429336,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 622
    },
    {
      "epoch": 0.03322666666666667,
      "grad_norm": 0.024648165353941858,
      "learning_rate": 0.0001,
      "loss": 1.1104,
      "step": 623
    },
    {
      "epoch": 0.03328,
      "grad_norm": 0.030263619862331045,
      "learning_rate": 0.0001,
      "loss": 1.1207,
      "step": 624
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.029513683866545768,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 625
    },
    {
      "epoch": 0.03338666666666667,
      "grad_norm": 0.027830298720054186,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 626
    },
    {
      "epoch": 0.03344,
      "grad_norm": 0.029741220158497214,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 627
    },
    {
      "epoch": 0.03349333333333333,
      "grad_norm": 0.029649247016086167,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 628
    },
    {
      "epoch": 0.03354666666666667,
      "grad_norm": 0.029771957066470067,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 629
    },
    {
      "epoch": 0.0336,
      "grad_norm": 0.02524012296167611,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 630
    },
    {
      "epoch": 0.033653333333333334,
      "grad_norm": 0.0253636486784129,
      "learning_rate": 0.0001,
      "loss": 1.0719,
      "step": 631
    },
    {
      "epoch": 0.03370666666666667,
      "grad_norm": 0.0301207519450283,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 632
    },
    {
      "epoch": 0.03376,
      "grad_norm": 0.025200984519095006,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 633
    },
    {
      "epoch": 0.033813333333333334,
      "grad_norm": 0.026202270849513667,
      "learning_rate": 0.0001,
      "loss": 1.0581,
      "step": 634
    },
    {
      "epoch": 0.03386666666666667,
      "grad_norm": 0.02718622752986432,
      "learning_rate": 0.0001,
      "loss": 1.0553,
      "step": 635
    },
    {
      "epoch": 0.03392,
      "grad_norm": 0.02847223530413084,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 636
    },
    {
      "epoch": 0.033973333333333335,
      "grad_norm": 0.028141133249394403,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 637
    },
    {
      "epoch": 0.03402666666666666,
      "grad_norm": 0.027803697109497857,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 638
    },
    {
      "epoch": 0.03408,
      "grad_norm": 0.025860133228893974,
      "learning_rate": 0.0001,
      "loss": 1.0478,
      "step": 639
    },
    {
      "epoch": 0.034133333333333335,
      "grad_norm": 0.02624092268602613,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 640
    },
    {
      "epoch": 0.034186666666666664,
      "grad_norm": 0.02830680761297857,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 641
    },
    {
      "epoch": 0.03424,
      "grad_norm": 0.027440795752189422,
      "learning_rate": 0.0001,
      "loss": 1.0709,
      "step": 642
    },
    {
      "epoch": 0.034293333333333335,
      "grad_norm": 0.02842495697281179,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 643
    },
    {
      "epoch": 0.034346666666666664,
      "grad_norm": 0.026877087653101168,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 644
    },
    {
      "epoch": 0.0344,
      "grad_norm": 0.031291205618477376,
      "learning_rate": 0.0001,
      "loss": 1.0514,
      "step": 645
    },
    {
      "epoch": 0.034453333333333336,
      "grad_norm": 0.027220769170152172,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 646
    },
    {
      "epoch": 0.034506666666666665,
      "grad_norm": 0.034450347058666515,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 647
    },
    {
      "epoch": 0.03456,
      "grad_norm": 0.02474358421090832,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 648
    },
    {
      "epoch": 0.034613333333333336,
      "grad_norm": 0.02852515746927132,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 649
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.02806506063075934,
      "learning_rate": 0.0001,
      "loss": 1.0501,
      "step": 650
    },
    {
      "epoch": 0.03472,
      "grad_norm": 0.030041188129474285,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 651
    },
    {
      "epoch": 0.03477333333333334,
      "grad_norm": 0.027421503437624027,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 652
    },
    {
      "epoch": 0.034826666666666665,
      "grad_norm": 0.03307946742691569,
      "learning_rate": 0.0001,
      "loss": 1.0523,
      "step": 653
    },
    {
      "epoch": 0.03488,
      "grad_norm": 0.024415846045076517,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 654
    },
    {
      "epoch": 0.03493333333333333,
      "grad_norm": 0.03138882184583716,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 655
    },
    {
      "epoch": 0.034986666666666666,
      "grad_norm": 0.026448367364929868,
      "learning_rate": 0.0001,
      "loss": 1.0205,
      "step": 656
    },
    {
      "epoch": 0.03504,
      "grad_norm": 0.029342221583600215,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 657
    },
    {
      "epoch": 0.03509333333333333,
      "grad_norm": 0.03038647314125687,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 658
    },
    {
      "epoch": 0.035146666666666666,
      "grad_norm": 0.02775980593405033,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 659
    },
    {
      "epoch": 0.0352,
      "grad_norm": 0.026088659147883955,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 660
    },
    {
      "epoch": 0.03525333333333333,
      "grad_norm": 0.029625559678343332,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 661
    },
    {
      "epoch": 0.03530666666666667,
      "grad_norm": 0.027313788130980413,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 662
    },
    {
      "epoch": 0.03536,
      "grad_norm": 0.03331499740465693,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 663
    },
    {
      "epoch": 0.03541333333333333,
      "grad_norm": 0.030514783497164282,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 664
    },
    {
      "epoch": 0.03546666666666667,
      "grad_norm": 0.02713831987788137,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 665
    },
    {
      "epoch": 0.03552,
      "grad_norm": 0.029875217710297927,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 666
    },
    {
      "epoch": 0.03557333333333333,
      "grad_norm": 0.026468342889627728,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 667
    },
    {
      "epoch": 0.03562666666666667,
      "grad_norm": 0.02919312996312141,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 668
    },
    {
      "epoch": 0.03568,
      "grad_norm": 0.030901880152681808,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 669
    },
    {
      "epoch": 0.03573333333333333,
      "grad_norm": 0.027031590786473124,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 670
    },
    {
      "epoch": 0.03578666666666667,
      "grad_norm": 0.029739424686526857,
      "learning_rate": 0.0001,
      "loss": 1.0814,
      "step": 671
    },
    {
      "epoch": 0.03584,
      "grad_norm": 0.03133699636596671,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 672
    },
    {
      "epoch": 0.03589333333333333,
      "grad_norm": 0.025661635645964066,
      "learning_rate": 0.0001,
      "loss": 1.1161,
      "step": 673
    },
    {
      "epoch": 0.03594666666666667,
      "grad_norm": 0.033243356210014646,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 674
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.02651931561965799,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 675
    },
    {
      "epoch": 0.03605333333333333,
      "grad_norm": 0.030756323518494756,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 676
    },
    {
      "epoch": 0.03610666666666667,
      "grad_norm": 0.029870545925031324,
      "learning_rate": 0.0001,
      "loss": 1.1165,
      "step": 677
    },
    {
      "epoch": 0.03616,
      "grad_norm": 0.0265488035721901,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 678
    },
    {
      "epoch": 0.036213333333333333,
      "grad_norm": 0.03185938576378988,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 679
    },
    {
      "epoch": 0.03626666666666667,
      "grad_norm": 0.02917796576032436,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 680
    },
    {
      "epoch": 0.03632,
      "grad_norm": 0.02810637908954052,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 681
    },
    {
      "epoch": 0.036373333333333334,
      "grad_norm": 0.03404403242385817,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 682
    },
    {
      "epoch": 0.03642666666666667,
      "grad_norm": 0.02651473722355262,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 683
    },
    {
      "epoch": 0.03648,
      "grad_norm": 0.03317655777753852,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 684
    },
    {
      "epoch": 0.036533333333333334,
      "grad_norm": 0.026765529601745244,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 685
    },
    {
      "epoch": 0.03658666666666667,
      "grad_norm": 0.03337148184797978,
      "learning_rate": 0.0001,
      "loss": 1.1005,
      "step": 686
    },
    {
      "epoch": 0.03664,
      "grad_norm": 0.02819962056557692,
      "learning_rate": 0.0001,
      "loss": 1.0758,
      "step": 687
    },
    {
      "epoch": 0.036693333333333335,
      "grad_norm": 0.03210247987681375,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 688
    },
    {
      "epoch": 0.036746666666666664,
      "grad_norm": 0.03232827308693877,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 689
    },
    {
      "epoch": 0.0368,
      "grad_norm": 0.03446768596225845,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 690
    },
    {
      "epoch": 0.036853333333333335,
      "grad_norm": 0.026897559503242113,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 691
    },
    {
      "epoch": 0.036906666666666664,
      "grad_norm": 0.029446631318678595,
      "learning_rate": 0.0001,
      "loss": 1.0477,
      "step": 692
    },
    {
      "epoch": 0.03696,
      "grad_norm": 0.032762331751153534,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 693
    },
    {
      "epoch": 0.037013333333333336,
      "grad_norm": 0.0281957658742352,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 694
    },
    {
      "epoch": 0.037066666666666664,
      "grad_norm": 0.02724850861016724,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 695
    },
    {
      "epoch": 0.03712,
      "grad_norm": 0.023148234203756595,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 696
    },
    {
      "epoch": 0.037173333333333336,
      "grad_norm": 0.02438329862235821,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 697
    },
    {
      "epoch": 0.037226666666666665,
      "grad_norm": 0.029746514340246336,
      "learning_rate": 0.0001,
      "loss": 1.1037,
      "step": 698
    },
    {
      "epoch": 0.03728,
      "grad_norm": 0.02460138737361887,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 699
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.028136426250659978,
      "learning_rate": 0.0001,
      "loss": 1.0767,
      "step": 700
    },
    {
      "epoch": 0.037386666666666665,
      "grad_norm": 0.02593148419061818,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 701
    },
    {
      "epoch": 0.03744,
      "grad_norm": 0.03229869015677275,
      "learning_rate": 0.0001,
      "loss": 1.1232,
      "step": 702
    },
    {
      "epoch": 0.03749333333333333,
      "grad_norm": 0.0272899279506961,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 703
    },
    {
      "epoch": 0.037546666666666666,
      "grad_norm": 0.031003158476783026,
      "learning_rate": 0.0001,
      "loss": 1.0549,
      "step": 704
    },
    {
      "epoch": 0.0376,
      "grad_norm": 0.029569893252869125,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 705
    },
    {
      "epoch": 0.03765333333333333,
      "grad_norm": 0.029938159923103624,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 706
    },
    {
      "epoch": 0.037706666666666666,
      "grad_norm": 0.02600762378192995,
      "learning_rate": 0.0001,
      "loss": 1.0764,
      "step": 707
    },
    {
      "epoch": 0.03776,
      "grad_norm": 0.028209872030893854,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 708
    },
    {
      "epoch": 0.03781333333333333,
      "grad_norm": 0.024802092602009492,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 709
    },
    {
      "epoch": 0.037866666666666667,
      "grad_norm": 0.025137906895737205,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 710
    },
    {
      "epoch": 0.03792,
      "grad_norm": 0.030244055295908946,
      "learning_rate": 0.0001,
      "loss": 1.1005,
      "step": 711
    },
    {
      "epoch": 0.03797333333333333,
      "grad_norm": 0.023607379391306738,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 712
    },
    {
      "epoch": 0.03802666666666667,
      "grad_norm": 0.026010705861925113,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 713
    },
    {
      "epoch": 0.03808,
      "grad_norm": 0.026746865614794394,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 714
    },
    {
      "epoch": 0.03813333333333333,
      "grad_norm": 0.029268328376316065,
      "learning_rate": 0.0001,
      "loss": 1.1037,
      "step": 715
    },
    {
      "epoch": 0.03818666666666667,
      "grad_norm": 0.028164921527962718,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 716
    },
    {
      "epoch": 0.03824,
      "grad_norm": 0.026653349268801866,
      "learning_rate": 0.0001,
      "loss": 1.0644,
      "step": 717
    },
    {
      "epoch": 0.03829333333333333,
      "grad_norm": 0.027779322896187765,
      "learning_rate": 0.0001,
      "loss": 1.0778,
      "step": 718
    },
    {
      "epoch": 0.03834666666666667,
      "grad_norm": 0.02716044130446403,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 719
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.028955600466157444,
      "learning_rate": 0.0001,
      "loss": 1.0858,
      "step": 720
    },
    {
      "epoch": 0.03845333333333333,
      "grad_norm": 0.02692199040163914,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 721
    },
    {
      "epoch": 0.03850666666666667,
      "grad_norm": 0.027917011781956817,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 722
    },
    {
      "epoch": 0.03856,
      "grad_norm": 0.027219037133144053,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 723
    },
    {
      "epoch": 0.03861333333333333,
      "grad_norm": 0.0299733011308284,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 724
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.02740215314308012,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 725
    },
    {
      "epoch": 0.03872,
      "grad_norm": 0.028295373095918817,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 726
    },
    {
      "epoch": 0.03877333333333333,
      "grad_norm": 0.028247695599226994,
      "learning_rate": 0.0001,
      "loss": 1.0702,
      "step": 727
    },
    {
      "epoch": 0.03882666666666667,
      "grad_norm": 0.025961451300866772,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 728
    },
    {
      "epoch": 0.03888,
      "grad_norm": 0.031133313696705606,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 729
    },
    {
      "epoch": 0.038933333333333334,
      "grad_norm": 0.02773277118047147,
      "learning_rate": 0.0001,
      "loss": 1.0604,
      "step": 730
    },
    {
      "epoch": 0.03898666666666667,
      "grad_norm": 0.03001493305971132,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 731
    },
    {
      "epoch": 0.03904,
      "grad_norm": 0.026973731063982445,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 732
    },
    {
      "epoch": 0.039093333333333334,
      "grad_norm": 0.030376146440363846,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 733
    },
    {
      "epoch": 0.03914666666666667,
      "grad_norm": 0.027357657227751988,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 734
    },
    {
      "epoch": 0.0392,
      "grad_norm": 0.02750576574072316,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 735
    },
    {
      "epoch": 0.039253333333333335,
      "grad_norm": 0.03265162169157673,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 736
    },
    {
      "epoch": 0.03930666666666666,
      "grad_norm": 0.025014085583874034,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 737
    },
    {
      "epoch": 0.03936,
      "grad_norm": 0.03237202030888492,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 738
    },
    {
      "epoch": 0.039413333333333335,
      "grad_norm": 0.027461699076853703,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 739
    },
    {
      "epoch": 0.039466666666666664,
      "grad_norm": 0.031325031567587286,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 740
    },
    {
      "epoch": 0.03952,
      "grad_norm": 0.030453728770916868,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 741
    },
    {
      "epoch": 0.039573333333333335,
      "grad_norm": 0.02943091094307162,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 742
    },
    {
      "epoch": 0.039626666666666664,
      "grad_norm": 0.030391933689108846,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 743
    },
    {
      "epoch": 0.03968,
      "grad_norm": 0.03448463373425907,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 744
    },
    {
      "epoch": 0.039733333333333336,
      "grad_norm": 0.026142254203839345,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 745
    },
    {
      "epoch": 0.039786666666666665,
      "grad_norm": 0.03202916519352381,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 746
    },
    {
      "epoch": 0.03984,
      "grad_norm": 0.023781815104029977,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 747
    },
    {
      "epoch": 0.039893333333333336,
      "grad_norm": 0.029031046885221467,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 748
    },
    {
      "epoch": 0.039946666666666665,
      "grad_norm": 0.026079542357992126,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 749
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.026882403635630703,
      "learning_rate": 0.0001,
      "loss": 1.0793,
      "step": 750
    },
    {
      "epoch": 0.04005333333333334,
      "grad_norm": 0.026003312619162028,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 751
    },
    {
      "epoch": 0.040106666666666665,
      "grad_norm": 0.028952496808054392,
      "learning_rate": 0.0001,
      "loss": 1.0731,
      "step": 752
    },
    {
      "epoch": 0.04016,
      "grad_norm": 0.027781130938632756,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 753
    },
    {
      "epoch": 0.04021333333333333,
      "grad_norm": 0.026733557978303214,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 754
    },
    {
      "epoch": 0.040266666666666666,
      "grad_norm": 0.029619895774231214,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 755
    },
    {
      "epoch": 0.04032,
      "grad_norm": 0.025986463353329322,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 756
    },
    {
      "epoch": 0.04037333333333333,
      "grad_norm": 0.025729881302954404,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 757
    },
    {
      "epoch": 0.040426666666666666,
      "grad_norm": 0.025973762228878147,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 758
    },
    {
      "epoch": 0.04048,
      "grad_norm": 0.027831946321555466,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 759
    },
    {
      "epoch": 0.04053333333333333,
      "grad_norm": 0.023723124249157426,
      "learning_rate": 0.0001,
      "loss": 1.0805,
      "step": 760
    },
    {
      "epoch": 0.04058666666666667,
      "grad_norm": 0.024409018879416225,
      "learning_rate": 0.0001,
      "loss": 1.1149,
      "step": 761
    },
    {
      "epoch": 0.04064,
      "grad_norm": 0.02599894182832873,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 762
    },
    {
      "epoch": 0.04069333333333333,
      "grad_norm": 0.026537162424658794,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 763
    },
    {
      "epoch": 0.04074666666666667,
      "grad_norm": 0.025880993280216896,
      "learning_rate": 0.0001,
      "loss": 1.0757,
      "step": 764
    },
    {
      "epoch": 0.0408,
      "grad_norm": 0.02506965819873307,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 765
    },
    {
      "epoch": 0.04085333333333333,
      "grad_norm": 0.02536139529720351,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 766
    },
    {
      "epoch": 0.04090666666666667,
      "grad_norm": 0.02970527215447741,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 767
    },
    {
      "epoch": 0.04096,
      "grad_norm": 0.025118771183072812,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 768
    },
    {
      "epoch": 0.04101333333333333,
      "grad_norm": 0.026288985573433867,
      "learning_rate": 0.0001,
      "loss": 1.0471,
      "step": 769
    },
    {
      "epoch": 0.04106666666666667,
      "grad_norm": 0.027271600816907965,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 770
    },
    {
      "epoch": 0.04112,
      "grad_norm": 0.030354044923674085,
      "learning_rate": 0.0001,
      "loss": 1.0741,
      "step": 771
    },
    {
      "epoch": 0.04117333333333333,
      "grad_norm": 0.02622513945137329,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 772
    },
    {
      "epoch": 0.04122666666666667,
      "grad_norm": 0.028177909995223804,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 773
    },
    {
      "epoch": 0.04128,
      "grad_norm": 0.02833113727351829,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 774
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.025911071618273676,
      "learning_rate": 0.0001,
      "loss": 1.0767,
      "step": 775
    },
    {
      "epoch": 0.04138666666666667,
      "grad_norm": 0.027931049233247074,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 776
    },
    {
      "epoch": 0.04144,
      "grad_norm": 0.03386380872322391,
      "learning_rate": 0.0001,
      "loss": 1.0856,
      "step": 777
    },
    {
      "epoch": 0.04149333333333333,
      "grad_norm": 0.03215934079112651,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 778
    },
    {
      "epoch": 0.04154666666666667,
      "grad_norm": 0.031808495402366015,
      "learning_rate": 0.0001,
      "loss": 1.0377,
      "step": 779
    },
    {
      "epoch": 0.0416,
      "grad_norm": 0.025840807078132324,
      "learning_rate": 0.0001,
      "loss": 1.101,
      "step": 780
    },
    {
      "epoch": 0.041653333333333334,
      "grad_norm": 0.030238852197037553,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 781
    },
    {
      "epoch": 0.04170666666666667,
      "grad_norm": 0.027447774180194593,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 782
    },
    {
      "epoch": 0.04176,
      "grad_norm": 0.028798570223231384,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 783
    },
    {
      "epoch": 0.041813333333333334,
      "grad_norm": 0.0256322210687924,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 784
    },
    {
      "epoch": 0.04186666666666667,
      "grad_norm": 0.02806223828827209,
      "learning_rate": 0.0001,
      "loss": 1.0785,
      "step": 785
    },
    {
      "epoch": 0.04192,
      "grad_norm": 0.026213708664652294,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 786
    },
    {
      "epoch": 0.041973333333333335,
      "grad_norm": 0.02720503458938639,
      "learning_rate": 0.0001,
      "loss": 1.0455,
      "step": 787
    },
    {
      "epoch": 0.042026666666666664,
      "grad_norm": 0.025686311433147313,
      "learning_rate": 0.0001,
      "loss": 1.0378,
      "step": 788
    },
    {
      "epoch": 0.04208,
      "grad_norm": 0.02513551846750815,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 789
    },
    {
      "epoch": 0.042133333333333335,
      "grad_norm": 0.025322570579306657,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 790
    },
    {
      "epoch": 0.042186666666666664,
      "grad_norm": 0.023569924939221342,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 791
    },
    {
      "epoch": 0.04224,
      "grad_norm": 0.025538850759327804,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 792
    },
    {
      "epoch": 0.042293333333333336,
      "grad_norm": 0.02602153335702122,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 793
    },
    {
      "epoch": 0.042346666666666664,
      "grad_norm": 0.027366433563260364,
      "learning_rate": 0.0001,
      "loss": 1.0373,
      "step": 794
    },
    {
      "epoch": 0.0424,
      "grad_norm": 0.026325880860775832,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 795
    },
    {
      "epoch": 0.042453333333333336,
      "grad_norm": 0.025630381306590642,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 796
    },
    {
      "epoch": 0.042506666666666665,
      "grad_norm": 0.02845945089868684,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 797
    },
    {
      "epoch": 0.04256,
      "grad_norm": 0.02884539665460236,
      "learning_rate": 0.0001,
      "loss": 1.0841,
      "step": 798
    },
    {
      "epoch": 0.042613333333333336,
      "grad_norm": 0.029387731430493474,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 799
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.025881026316409355,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 800
    },
    {
      "epoch": 0.042666666666666665,
      "eval_accuracy": 0.6070635908507251,
      "eval_loss": 1.4281765222549438,
      "eval_runtime": 63.3183,
      "eval_samples_per_second": 15.793,
      "eval_steps_per_second": 0.505,
      "step": 800
    },
    {
      "epoch": 0.04272,
      "grad_norm": 0.029166882820575512,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 801
    },
    {
      "epoch": 0.04277333333333333,
      "grad_norm": 0.0250304770118888,
      "learning_rate": 0.0001,
      "loss": 1.0426,
      "step": 802
    },
    {
      "epoch": 0.042826666666666666,
      "grad_norm": 0.030677898791501974,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 803
    },
    {
      "epoch": 0.04288,
      "grad_norm": 0.027003872301718947,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 804
    },
    {
      "epoch": 0.04293333333333333,
      "grad_norm": 0.029722623664073657,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 805
    },
    {
      "epoch": 0.042986666666666666,
      "grad_norm": 0.025830480105869136,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 806
    },
    {
      "epoch": 0.04304,
      "grad_norm": 0.025094127707010614,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 807
    },
    {
      "epoch": 0.04309333333333333,
      "grad_norm": 0.03399191864821582,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 808
    },
    {
      "epoch": 0.043146666666666667,
      "grad_norm": 0.02663254034691933,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 809
    },
    {
      "epoch": 0.0432,
      "grad_norm": 0.03316585433082221,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 810
    },
    {
      "epoch": 0.04325333333333333,
      "grad_norm": 0.02666646257083002,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 811
    },
    {
      "epoch": 0.04330666666666667,
      "grad_norm": 0.028243938168319598,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 812
    },
    {
      "epoch": 0.04336,
      "grad_norm": 0.029180611506753707,
      "learning_rate": 0.0001,
      "loss": 1.1224,
      "step": 813
    },
    {
      "epoch": 0.04341333333333333,
      "grad_norm": 0.03015300324313961,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 814
    },
    {
      "epoch": 0.04346666666666667,
      "grad_norm": 0.030535963377852464,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 815
    },
    {
      "epoch": 0.04352,
      "grad_norm": 0.026258368369023597,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 816
    },
    {
      "epoch": 0.04357333333333333,
      "grad_norm": 0.03148727800128241,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 817
    },
    {
      "epoch": 0.04362666666666667,
      "grad_norm": 0.026962935127549294,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 818
    },
    {
      "epoch": 0.04368,
      "grad_norm": 0.03099516799542764,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 819
    },
    {
      "epoch": 0.04373333333333333,
      "grad_norm": 0.027660875209212087,
      "learning_rate": 0.0001,
      "loss": 1.0678,
      "step": 820
    },
    {
      "epoch": 0.04378666666666667,
      "grad_norm": 0.026764545220323805,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 821
    },
    {
      "epoch": 0.04384,
      "grad_norm": 0.03219562491030368,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 822
    },
    {
      "epoch": 0.04389333333333333,
      "grad_norm": 0.029178001850638235,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 823
    },
    {
      "epoch": 0.04394666666666667,
      "grad_norm": 0.028677693722987795,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 824
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.031671662566301724,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 825
    },
    {
      "epoch": 0.04405333333333333,
      "grad_norm": 0.02364173144547327,
      "learning_rate": 0.0001,
      "loss": 1.0613,
      "step": 826
    },
    {
      "epoch": 0.04410666666666667,
      "grad_norm": 0.030558845012044714,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 827
    },
    {
      "epoch": 0.04416,
      "grad_norm": 0.029615828974508915,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 828
    },
    {
      "epoch": 0.044213333333333334,
      "grad_norm": 0.027560347249488065,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 829
    },
    {
      "epoch": 0.04426666666666667,
      "grad_norm": 0.02651364890773219,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 830
    },
    {
      "epoch": 0.04432,
      "grad_norm": 0.030157698260727527,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 831
    },
    {
      "epoch": 0.044373333333333334,
      "grad_norm": 0.02853813958840772,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 832
    },
    {
      "epoch": 0.04442666666666667,
      "grad_norm": 0.027255234754136964,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 833
    },
    {
      "epoch": 0.04448,
      "grad_norm": 0.030997396681927917,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 834
    },
    {
      "epoch": 0.044533333333333334,
      "grad_norm": 0.026006883921332068,
      "learning_rate": 0.0001,
      "loss": 1.0361,
      "step": 835
    },
    {
      "epoch": 0.04458666666666666,
      "grad_norm": 0.02723376576368481,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 836
    },
    {
      "epoch": 0.04464,
      "grad_norm": 0.02907354280903025,
      "learning_rate": 0.0001,
      "loss": 1.0768,
      "step": 837
    },
    {
      "epoch": 0.044693333333333335,
      "grad_norm": 0.02454786990368478,
      "learning_rate": 0.0001,
      "loss": 1.0851,
      "step": 838
    },
    {
      "epoch": 0.044746666666666664,
      "grad_norm": 0.029245046413531754,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 839
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.023636608506140265,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 840
    },
    {
      "epoch": 0.044853333333333335,
      "grad_norm": 0.026821550293091273,
      "learning_rate": 0.0001,
      "loss": 1.0751,
      "step": 841
    },
    {
      "epoch": 0.044906666666666664,
      "grad_norm": 0.023579630491512706,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 842
    },
    {
      "epoch": 0.04496,
      "grad_norm": 0.024849862421515965,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 843
    },
    {
      "epoch": 0.045013333333333336,
      "grad_norm": 0.025584371274505965,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 844
    },
    {
      "epoch": 0.045066666666666665,
      "grad_norm": 0.026239644874107387,
      "learning_rate": 0.0001,
      "loss": 1.0688,
      "step": 845
    },
    {
      "epoch": 0.04512,
      "grad_norm": 0.025550271758790568,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 846
    },
    {
      "epoch": 0.045173333333333336,
      "grad_norm": 0.02625977319875168,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 847
    },
    {
      "epoch": 0.045226666666666665,
      "grad_norm": 0.026635003193319306,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 848
    },
    {
      "epoch": 0.04528,
      "grad_norm": 0.024061494469878514,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 849
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.026714488730389906,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 850
    },
    {
      "epoch": 0.045386666666666665,
      "grad_norm": 0.024730658039716958,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 851
    },
    {
      "epoch": 0.04544,
      "grad_norm": 0.02718835792563627,
      "learning_rate": 0.0001,
      "loss": 1.0673,
      "step": 852
    },
    {
      "epoch": 0.04549333333333333,
      "grad_norm": 0.02441681391807533,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 853
    },
    {
      "epoch": 0.045546666666666666,
      "grad_norm": 0.026865227160608504,
      "learning_rate": 0.0001,
      "loss": 1.0919,
      "step": 854
    },
    {
      "epoch": 0.0456,
      "grad_norm": 0.025148982499951615,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 855
    },
    {
      "epoch": 0.04565333333333333,
      "grad_norm": 0.02594747063669678,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 856
    },
    {
      "epoch": 0.045706666666666666,
      "grad_norm": 0.02428189394776864,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 857
    },
    {
      "epoch": 0.04576,
      "grad_norm": 0.024536461948441435,
      "learning_rate": 0.0001,
      "loss": 1.0509,
      "step": 858
    },
    {
      "epoch": 0.04581333333333333,
      "grad_norm": 0.02439492161711063,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 859
    },
    {
      "epoch": 0.04586666666666667,
      "grad_norm": 0.025643491596401575,
      "learning_rate": 0.0001,
      "loss": 1.1235,
      "step": 860
    },
    {
      "epoch": 0.04592,
      "grad_norm": 0.027406018505493065,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 861
    },
    {
      "epoch": 0.04597333333333333,
      "grad_norm": 0.026358568639206152,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 862
    },
    {
      "epoch": 0.04602666666666667,
      "grad_norm": 0.034589733239701694,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 863
    },
    {
      "epoch": 0.04608,
      "grad_norm": 0.026697480867421183,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 864
    },
    {
      "epoch": 0.04613333333333333,
      "grad_norm": 0.026118070373238444,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 865
    },
    {
      "epoch": 0.04618666666666667,
      "grad_norm": 0.03311993920300801,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 866
    },
    {
      "epoch": 0.04624,
      "grad_norm": 0.02541670861160208,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 867
    },
    {
      "epoch": 0.04629333333333333,
      "grad_norm": 0.03192569631342193,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 868
    },
    {
      "epoch": 0.04634666666666667,
      "grad_norm": 0.028360484249675532,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 869
    },
    {
      "epoch": 0.0464,
      "grad_norm": 0.028765376975513374,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 870
    },
    {
      "epoch": 0.04645333333333333,
      "grad_norm": 0.03106507609430417,
      "learning_rate": 0.0001,
      "loss": 1.0652,
      "step": 871
    },
    {
      "epoch": 0.04650666666666667,
      "grad_norm": 0.02788284325442229,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 872
    },
    {
      "epoch": 0.04656,
      "grad_norm": 0.032772881749993786,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 873
    },
    {
      "epoch": 0.04661333333333333,
      "grad_norm": 0.027748818317682947,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 874
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.030669521043367454,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 875
    },
    {
      "epoch": 0.04672,
      "grad_norm": 0.027938866780504692,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 876
    },
    {
      "epoch": 0.04677333333333333,
      "grad_norm": 0.028897145772550443,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 877
    },
    {
      "epoch": 0.04682666666666667,
      "grad_norm": 0.027563295125290033,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 878
    },
    {
      "epoch": 0.04688,
      "grad_norm": 0.03053359180292864,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 879
    },
    {
      "epoch": 0.046933333333333334,
      "grad_norm": 0.030128218536925155,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 880
    },
    {
      "epoch": 0.04698666666666667,
      "grad_norm": 0.028544472551416372,
      "learning_rate": 0.0001,
      "loss": 1.0911,
      "step": 881
    },
    {
      "epoch": 0.04704,
      "grad_norm": 0.030167810066356493,
      "learning_rate": 0.0001,
      "loss": 1.0452,
      "step": 882
    },
    {
      "epoch": 0.047093333333333334,
      "grad_norm": 0.02408297505641106,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 883
    },
    {
      "epoch": 0.04714666666666667,
      "grad_norm": 0.027774780971964057,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 884
    },
    {
      "epoch": 0.0472,
      "grad_norm": 0.025400460687023188,
      "learning_rate": 0.0001,
      "loss": 1.0593,
      "step": 885
    },
    {
      "epoch": 0.047253333333333335,
      "grad_norm": 0.02709911794207296,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 886
    },
    {
      "epoch": 0.047306666666666664,
      "grad_norm": 0.025319198473964438,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 887
    },
    {
      "epoch": 0.04736,
      "grad_norm": 0.026180757328368835,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 888
    },
    {
      "epoch": 0.047413333333333335,
      "grad_norm": 0.025285573551095335,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 889
    },
    {
      "epoch": 0.047466666666666664,
      "grad_norm": 0.02843670045959905,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 890
    },
    {
      "epoch": 0.04752,
      "grad_norm": 0.025997312301233654,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 891
    },
    {
      "epoch": 0.047573333333333336,
      "grad_norm": 0.024073069076504146,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 892
    },
    {
      "epoch": 0.047626666666666664,
      "grad_norm": 0.023853858637453446,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 893
    },
    {
      "epoch": 0.04768,
      "grad_norm": 0.025311517497015795,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 894
    },
    {
      "epoch": 0.047733333333333336,
      "grad_norm": 0.026987392764467363,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 895
    },
    {
      "epoch": 0.047786666666666665,
      "grad_norm": 0.022174378532711547,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 896
    },
    {
      "epoch": 0.04784,
      "grad_norm": 0.026317338230162874,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 897
    },
    {
      "epoch": 0.047893333333333336,
      "grad_norm": 0.026420583777472976,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 898
    },
    {
      "epoch": 0.047946666666666665,
      "grad_norm": 0.026985587613239652,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 899
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.025839416552008523,
      "learning_rate": 0.0001,
      "loss": 1.0796,
      "step": 900
    },
    {
      "epoch": 0.04805333333333334,
      "grad_norm": 0.02672940975746081,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 901
    },
    {
      "epoch": 0.048106666666666666,
      "grad_norm": 0.02684830673190323,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 902
    },
    {
      "epoch": 0.04816,
      "grad_norm": 0.028077869874641965,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 903
    },
    {
      "epoch": 0.04821333333333333,
      "grad_norm": 0.025370399817479655,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 904
    },
    {
      "epoch": 0.048266666666666666,
      "grad_norm": 0.02859832025368656,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 905
    },
    {
      "epoch": 0.04832,
      "grad_norm": 0.02320408974355129,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 906
    },
    {
      "epoch": 0.04837333333333333,
      "grad_norm": 0.02743463118936736,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 907
    },
    {
      "epoch": 0.048426666666666666,
      "grad_norm": 0.026355248799057453,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 908
    },
    {
      "epoch": 0.04848,
      "grad_norm": 0.026926398814250813,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 909
    },
    {
      "epoch": 0.04853333333333333,
      "grad_norm": 0.027068166487552038,
      "learning_rate": 0.0001,
      "loss": 1.0681,
      "step": 910
    },
    {
      "epoch": 0.04858666666666667,
      "grad_norm": 0.028936813190210933,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 911
    },
    {
      "epoch": 0.04864,
      "grad_norm": 0.026876465152889058,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 912
    },
    {
      "epoch": 0.04869333333333333,
      "grad_norm": 0.025860693424968707,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 913
    },
    {
      "epoch": 0.04874666666666667,
      "grad_norm": 0.027172969127865813,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 914
    },
    {
      "epoch": 0.0488,
      "grad_norm": 0.0304406822720065,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 915
    },
    {
      "epoch": 0.04885333333333333,
      "grad_norm": 0.024412252530495844,
      "learning_rate": 0.0001,
      "loss": 1.0669,
      "step": 916
    },
    {
      "epoch": 0.04890666666666667,
      "grad_norm": 0.027523271470342073,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 917
    },
    {
      "epoch": 0.04896,
      "grad_norm": 0.027066314860441,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 918
    },
    {
      "epoch": 0.04901333333333333,
      "grad_norm": 0.027317828995139397,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 919
    },
    {
      "epoch": 0.04906666666666667,
      "grad_norm": 0.025990364604618222,
      "learning_rate": 0.0001,
      "loss": 1.066,
      "step": 920
    },
    {
      "epoch": 0.04912,
      "grad_norm": 0.027079533660723725,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 921
    },
    {
      "epoch": 0.04917333333333333,
      "grad_norm": 0.024080255184311845,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 922
    },
    {
      "epoch": 0.04922666666666667,
      "grad_norm": 0.02593109200355588,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 923
    },
    {
      "epoch": 0.04928,
      "grad_norm": 0.02645199023580068,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 924
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 0.025368483903947164,
      "learning_rate": 0.0001,
      "loss": 1.097,
      "step": 925
    },
    {
      "epoch": 0.04938666666666667,
      "grad_norm": 0.02478047998121872,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 926
    },
    {
      "epoch": 0.04944,
      "grad_norm": 0.02591348378320989,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 927
    },
    {
      "epoch": 0.049493333333333334,
      "grad_norm": 0.02569723491190671,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 928
    },
    {
      "epoch": 0.04954666666666667,
      "grad_norm": 0.024865093791188467,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 929
    },
    {
      "epoch": 0.0496,
      "grad_norm": 0.030038278118051875,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 930
    },
    {
      "epoch": 0.049653333333333334,
      "grad_norm": 0.026371312851266843,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 931
    },
    {
      "epoch": 0.04970666666666667,
      "grad_norm": 0.03144426885514294,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 932
    },
    {
      "epoch": 0.04976,
      "grad_norm": 0.0265786517902255,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 933
    },
    {
      "epoch": 0.049813333333333334,
      "grad_norm": 0.024413710676982007,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 934
    },
    {
      "epoch": 0.04986666666666666,
      "grad_norm": 0.02904755195288663,
      "learning_rate": 0.0001,
      "loss": 1.0788,
      "step": 935
    },
    {
      "epoch": 0.04992,
      "grad_norm": 0.02734009419719898,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 936
    },
    {
      "epoch": 0.049973333333333335,
      "grad_norm": 0.02646274786062384,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 937
    },
    {
      "epoch": 0.050026666666666664,
      "grad_norm": 0.026412713213344766,
      "learning_rate": 0.0001,
      "loss": 1.0732,
      "step": 938
    },
    {
      "epoch": 0.05008,
      "grad_norm": 0.027264523122307607,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 939
    },
    {
      "epoch": 0.050133333333333335,
      "grad_norm": 0.025345845129705905,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 940
    },
    {
      "epoch": 0.050186666666666664,
      "grad_norm": 0.027965398766579438,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 941
    },
    {
      "epoch": 0.05024,
      "grad_norm": 0.027435233247793758,
      "learning_rate": 0.0001,
      "loss": 1.0559,
      "step": 942
    },
    {
      "epoch": 0.050293333333333336,
      "grad_norm": 0.02582942963464495,
      "learning_rate": 0.0001,
      "loss": 1.0598,
      "step": 943
    },
    {
      "epoch": 0.050346666666666665,
      "grad_norm": 0.025823728286010116,
      "learning_rate": 0.0001,
      "loss": 1.0678,
      "step": 944
    },
    {
      "epoch": 0.0504,
      "grad_norm": 0.025016110287567075,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 945
    },
    {
      "epoch": 0.050453333333333336,
      "grad_norm": 0.027570944011150574,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 946
    },
    {
      "epoch": 0.050506666666666665,
      "grad_norm": 0.024839988020182096,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 947
    },
    {
      "epoch": 0.05056,
      "grad_norm": 0.027533709631797812,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 948
    },
    {
      "epoch": 0.05061333333333334,
      "grad_norm": 0.02899469275876491,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 949
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.02896434589284753,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 950
    },
    {
      "epoch": 0.05072,
      "grad_norm": 0.028188084863381774,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 951
    },
    {
      "epoch": 0.05077333333333333,
      "grad_norm": 0.028748892035582663,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 952
    },
    {
      "epoch": 0.050826666666666666,
      "grad_norm": 0.025433672299958885,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 953
    },
    {
      "epoch": 0.05088,
      "grad_norm": 0.029959377039149325,
      "learning_rate": 0.0001,
      "loss": 1.101,
      "step": 954
    },
    {
      "epoch": 0.05093333333333333,
      "grad_norm": 0.02682554949601614,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 955
    },
    {
      "epoch": 0.050986666666666666,
      "grad_norm": 0.027120290332370355,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 956
    },
    {
      "epoch": 0.05104,
      "grad_norm": 0.02690236478496663,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 957
    },
    {
      "epoch": 0.05109333333333333,
      "grad_norm": 0.026675812874743455,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 958
    },
    {
      "epoch": 0.05114666666666667,
      "grad_norm": 0.026364405774591797,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 959
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.027814352258148815,
      "learning_rate": 0.0001,
      "loss": 1.0844,
      "step": 960
    },
    {
      "epoch": 0.05125333333333333,
      "grad_norm": 0.027738221405318647,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 961
    },
    {
      "epoch": 0.05130666666666667,
      "grad_norm": 0.027369845499384125,
      "learning_rate": 0.0001,
      "loss": 1.0471,
      "step": 962
    },
    {
      "epoch": 0.05136,
      "grad_norm": 0.025132221193387694,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 963
    },
    {
      "epoch": 0.05141333333333333,
      "grad_norm": 0.030297032526235963,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 964
    },
    {
      "epoch": 0.05146666666666667,
      "grad_norm": 0.02644867889376138,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 965
    },
    {
      "epoch": 0.05152,
      "grad_norm": 0.03049722617314322,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 966
    },
    {
      "epoch": 0.05157333333333333,
      "grad_norm": 0.028141916645024353,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 967
    },
    {
      "epoch": 0.05162666666666667,
      "grad_norm": 0.030003585043015302,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 968
    },
    {
      "epoch": 0.05168,
      "grad_norm": 0.02500327513306962,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 969
    },
    {
      "epoch": 0.05173333333333333,
      "grad_norm": 0.02990281455380819,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 970
    },
    {
      "epoch": 0.05178666666666667,
      "grad_norm": 0.026333817100010478,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 971
    },
    {
      "epoch": 0.05184,
      "grad_norm": 0.028524374297923222,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 972
    },
    {
      "epoch": 0.05189333333333333,
      "grad_norm": 0.027317215329043767,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 973
    },
    {
      "epoch": 0.05194666666666667,
      "grad_norm": 0.030435227042540237,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 974
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.025082776008801544,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 975
    },
    {
      "epoch": 0.05205333333333333,
      "grad_norm": 0.02893818436583638,
      "learning_rate": 0.0001,
      "loss": 1.0711,
      "step": 976
    },
    {
      "epoch": 0.05210666666666667,
      "grad_norm": 0.02612253334341159,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 977
    },
    {
      "epoch": 0.05216,
      "grad_norm": 0.026092979692290217,
      "learning_rate": 0.0001,
      "loss": 1.0829,
      "step": 978
    },
    {
      "epoch": 0.052213333333333334,
      "grad_norm": 0.025524365116835358,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 979
    },
    {
      "epoch": 0.05226666666666667,
      "grad_norm": 0.027720041655663448,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 980
    },
    {
      "epoch": 0.05232,
      "grad_norm": 0.024973777971759016,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 981
    },
    {
      "epoch": 0.052373333333333334,
      "grad_norm": 0.029835791611434046,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 982
    },
    {
      "epoch": 0.05242666666666667,
      "grad_norm": 0.028518983156906114,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 983
    },
    {
      "epoch": 0.05248,
      "grad_norm": 0.039967544616223406,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 984
    },
    {
      "epoch": 0.052533333333333335,
      "grad_norm": 0.024999511244421534,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 985
    },
    {
      "epoch": 0.052586666666666664,
      "grad_norm": 0.028192180814693775,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 986
    },
    {
      "epoch": 0.05264,
      "grad_norm": 0.02968235006879617,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 987
    },
    {
      "epoch": 0.052693333333333335,
      "grad_norm": 0.026646665214108932,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 988
    },
    {
      "epoch": 0.052746666666666664,
      "grad_norm": 0.026930742779090234,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 989
    },
    {
      "epoch": 0.0528,
      "grad_norm": 0.028004656983621683,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 990
    },
    {
      "epoch": 0.052853333333333335,
      "grad_norm": 0.028004316974029577,
      "learning_rate": 0.0001,
      "loss": 1.0885,
      "step": 991
    },
    {
      "epoch": 0.052906666666666664,
      "grad_norm": 0.030172617982809555,
      "learning_rate": 0.0001,
      "loss": 1.089,
      "step": 992
    },
    {
      "epoch": 0.05296,
      "grad_norm": 0.026748883940639064,
      "learning_rate": 0.0001,
      "loss": 1.1072,
      "step": 993
    },
    {
      "epoch": 0.053013333333333336,
      "grad_norm": 0.02642645750061407,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 994
    },
    {
      "epoch": 0.053066666666666665,
      "grad_norm": 0.026932331471971573,
      "learning_rate": 0.0001,
      "loss": 1.0759,
      "step": 995
    },
    {
      "epoch": 0.05312,
      "grad_norm": 0.029597573500736288,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 996
    },
    {
      "epoch": 0.053173333333333336,
      "grad_norm": 0.028665005103213174,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 997
    },
    {
      "epoch": 0.053226666666666665,
      "grad_norm": 0.02879866280813181,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 998
    },
    {
      "epoch": 0.05328,
      "grad_norm": 0.028666575589889665,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 999
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.025823360118417495,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 1000
    },
    {
      "epoch": 0.05333333333333334,
      "eval_accuracy": 0.608425892609353,
      "eval_loss": 1.42054283618927,
      "eval_runtime": 63.1939,
      "eval_samples_per_second": 15.824,
      "eval_steps_per_second": 0.506,
      "step": 1000
    },
    {
      "epoch": 0.053386666666666666,
      "grad_norm": 0.0265499324664092,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 1001
    },
    {
      "epoch": 0.05344,
      "grad_norm": 0.02669196878349345,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1002
    },
    {
      "epoch": 0.05349333333333333,
      "grad_norm": 0.02633389128540039,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 1003
    },
    {
      "epoch": 0.053546666666666666,
      "grad_norm": 0.025691553483379422,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 1004
    },
    {
      "epoch": 0.0536,
      "grad_norm": 0.030641399926046524,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 1005
    },
    {
      "epoch": 0.05365333333333333,
      "grad_norm": 0.02874273411762921,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 1006
    },
    {
      "epoch": 0.053706666666666666,
      "grad_norm": 0.026649641596944832,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 1007
    },
    {
      "epoch": 0.05376,
      "grad_norm": 0.029790176804929958,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 1008
    },
    {
      "epoch": 0.05381333333333333,
      "grad_norm": 0.02987051523481069,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 1009
    },
    {
      "epoch": 0.05386666666666667,
      "grad_norm": 0.02586195979942284,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 1010
    },
    {
      "epoch": 0.05392,
      "grad_norm": 0.030974482984548607,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 1011
    },
    {
      "epoch": 0.05397333333333333,
      "grad_norm": 0.025383014598281916,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 1012
    },
    {
      "epoch": 0.05402666666666667,
      "grad_norm": 0.028852803538615905,
      "learning_rate": 0.0001,
      "loss": 1.0666,
      "step": 1013
    },
    {
      "epoch": 0.05408,
      "grad_norm": 0.025985020574556903,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 1014
    },
    {
      "epoch": 0.05413333333333333,
      "grad_norm": 0.026622781078273695,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 1015
    },
    {
      "epoch": 0.05418666666666667,
      "grad_norm": 0.024312560144085713,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1016
    },
    {
      "epoch": 0.05424,
      "grad_norm": 0.024780255838161975,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 1017
    },
    {
      "epoch": 0.05429333333333333,
      "grad_norm": 0.024313611120055204,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1018
    },
    {
      "epoch": 0.05434666666666667,
      "grad_norm": 0.02503470083032177,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 1019
    },
    {
      "epoch": 0.0544,
      "grad_norm": 0.026291185891508057,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1020
    },
    {
      "epoch": 0.05445333333333333,
      "grad_norm": 0.024841459527093816,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 1021
    },
    {
      "epoch": 0.05450666666666667,
      "grad_norm": 0.0273833451042017,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 1022
    },
    {
      "epoch": 0.05456,
      "grad_norm": 0.027282764025504495,
      "learning_rate": 0.0001,
      "loss": 1.0904,
      "step": 1023
    },
    {
      "epoch": 0.05461333333333333,
      "grad_norm": 0.027433998803467727,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 1024
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.02502238653544039,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 1025
    },
    {
      "epoch": 0.05472,
      "grad_norm": 0.0324382307143064,
      "learning_rate": 0.0001,
      "loss": 1.0814,
      "step": 1026
    },
    {
      "epoch": 0.054773333333333334,
      "grad_norm": 0.027098034815702776,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 1027
    },
    {
      "epoch": 0.05482666666666667,
      "grad_norm": 0.03012494377718488,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 1028
    },
    {
      "epoch": 0.05488,
      "grad_norm": 0.027790913024391458,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 1029
    },
    {
      "epoch": 0.054933333333333334,
      "grad_norm": 0.026201153847054896,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 1030
    },
    {
      "epoch": 0.05498666666666667,
      "grad_norm": 0.0311184229227619,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 1031
    },
    {
      "epoch": 0.05504,
      "grad_norm": 0.025576190666408274,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 1032
    },
    {
      "epoch": 0.055093333333333334,
      "grad_norm": 0.02802484699145669,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 1033
    },
    {
      "epoch": 0.05514666666666666,
      "grad_norm": 0.025620756089379464,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 1034
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.025800276805562898,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 1035
    },
    {
      "epoch": 0.055253333333333335,
      "grad_norm": 0.0286019510853285,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 1036
    },
    {
      "epoch": 0.055306666666666664,
      "grad_norm": 0.02481896753390645,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 1037
    },
    {
      "epoch": 0.05536,
      "grad_norm": 0.028088407209215516,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 1038
    },
    {
      "epoch": 0.055413333333333335,
      "grad_norm": 0.026390332649408484,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 1039
    },
    {
      "epoch": 0.055466666666666664,
      "grad_norm": 0.02953481986232811,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 1040
    },
    {
      "epoch": 0.05552,
      "grad_norm": 0.025380485281236136,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 1041
    },
    {
      "epoch": 0.055573333333333336,
      "grad_norm": 0.027863228723082493,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 1042
    },
    {
      "epoch": 0.055626666666666665,
      "grad_norm": 0.02912162318309667,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 1043
    },
    {
      "epoch": 0.05568,
      "grad_norm": 0.025534780035975754,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1044
    },
    {
      "epoch": 0.055733333333333336,
      "grad_norm": 0.029677697705012992,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 1045
    },
    {
      "epoch": 0.055786666666666665,
      "grad_norm": 0.028630547969815873,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "step": 1046
    },
    {
      "epoch": 0.05584,
      "grad_norm": 0.027775349510290512,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 1047
    },
    {
      "epoch": 0.05589333333333334,
      "grad_norm": 0.026579624209351282,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 1048
    },
    {
      "epoch": 0.055946666666666665,
      "grad_norm": 0.027111562344977972,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 1049
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.026788967583012777,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 1050
    },
    {
      "epoch": 0.05605333333333333,
      "grad_norm": 0.026400936585694892,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 1051
    },
    {
      "epoch": 0.056106666666666666,
      "grad_norm": 0.024894716279123798,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 1052
    },
    {
      "epoch": 0.05616,
      "grad_norm": 0.02769241643827714,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 1053
    },
    {
      "epoch": 0.05621333333333333,
      "grad_norm": 0.026192410976461095,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 1054
    },
    {
      "epoch": 0.056266666666666666,
      "grad_norm": 0.027738684442750707,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 1055
    },
    {
      "epoch": 0.05632,
      "grad_norm": 0.025270659526073384,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 1056
    },
    {
      "epoch": 0.05637333333333333,
      "grad_norm": 0.029409145090161994,
      "learning_rate": 0.0001,
      "loss": 1.0858,
      "step": 1057
    },
    {
      "epoch": 0.05642666666666667,
      "grad_norm": 0.028362951697167245,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 1058
    },
    {
      "epoch": 0.05648,
      "grad_norm": 0.0356889094796731,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 1059
    },
    {
      "epoch": 0.05653333333333333,
      "grad_norm": 0.029232598984724342,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 1060
    },
    {
      "epoch": 0.05658666666666667,
      "grad_norm": 0.03031924641523104,
      "learning_rate": 0.0001,
      "loss": 1.0922,
      "step": 1061
    },
    {
      "epoch": 0.05664,
      "grad_norm": 0.031272174301218744,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 1062
    },
    {
      "epoch": 0.05669333333333333,
      "grad_norm": 0.030804814803784927,
      "learning_rate": 0.0001,
      "loss": 1.0453,
      "step": 1063
    },
    {
      "epoch": 0.05674666666666667,
      "grad_norm": 0.03017300637579168,
      "learning_rate": 0.0001,
      "loss": 1.0782,
      "step": 1064
    },
    {
      "epoch": 0.0568,
      "grad_norm": 0.031175082600882413,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 1065
    },
    {
      "epoch": 0.05685333333333333,
      "grad_norm": 0.029838643738389715,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 1066
    },
    {
      "epoch": 0.05690666666666667,
      "grad_norm": 0.0269718053542977,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 1067
    },
    {
      "epoch": 0.05696,
      "grad_norm": 0.028444237460184898,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 1068
    },
    {
      "epoch": 0.05701333333333333,
      "grad_norm": 0.026897019330090706,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 1069
    },
    {
      "epoch": 0.05706666666666667,
      "grad_norm": 0.02556935096272631,
      "learning_rate": 0.0001,
      "loss": 1.056,
      "step": 1070
    },
    {
      "epoch": 0.05712,
      "grad_norm": 0.025627567252700868,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 1071
    },
    {
      "epoch": 0.05717333333333333,
      "grad_norm": 0.02478527813045131,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 1072
    },
    {
      "epoch": 0.05722666666666667,
      "grad_norm": 0.0270730864924882,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1073
    },
    {
      "epoch": 0.05728,
      "grad_norm": 0.0229439485973904,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1074
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 0.031395004834123136,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 1075
    },
    {
      "epoch": 0.05738666666666667,
      "grad_norm": 0.024281516341736056,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 1076
    },
    {
      "epoch": 0.05744,
      "grad_norm": 0.025026572582949002,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 1077
    },
    {
      "epoch": 0.057493333333333334,
      "grad_norm": 0.0248173535341957,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 1078
    },
    {
      "epoch": 0.05754666666666667,
      "grad_norm": 0.02451710653263882,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1079
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.027150106416602225,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1080
    },
    {
      "epoch": 0.057653333333333334,
      "grad_norm": 0.02785309655471986,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1081
    },
    {
      "epoch": 0.05770666666666667,
      "grad_norm": 0.029147381719421342,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 1082
    },
    {
      "epoch": 0.05776,
      "grad_norm": 0.027222301983349947,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 1083
    },
    {
      "epoch": 0.057813333333333335,
      "grad_norm": 0.027304377366049768,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 1084
    },
    {
      "epoch": 0.057866666666666663,
      "grad_norm": 0.030649248280361373,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 1085
    },
    {
      "epoch": 0.05792,
      "grad_norm": 0.02616413118101414,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 1086
    },
    {
      "epoch": 0.057973333333333335,
      "grad_norm": 0.03240203697268141,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 1087
    },
    {
      "epoch": 0.058026666666666664,
      "grad_norm": 0.02656319140839796,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 1088
    },
    {
      "epoch": 0.05808,
      "grad_norm": 0.029804261858774217,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1089
    },
    {
      "epoch": 0.058133333333333335,
      "grad_norm": 0.024507745405010783,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 1090
    },
    {
      "epoch": 0.058186666666666664,
      "grad_norm": 0.028614677645995804,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 1091
    },
    {
      "epoch": 0.05824,
      "grad_norm": 0.02730141133831606,
      "learning_rate": 0.0001,
      "loss": 1.0816,
      "step": 1092
    },
    {
      "epoch": 0.058293333333333336,
      "grad_norm": 0.026856559929422676,
      "learning_rate": 0.0001,
      "loss": 1.0596,
      "step": 1093
    },
    {
      "epoch": 0.058346666666666665,
      "grad_norm": 0.030125000009188028,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 1094
    },
    {
      "epoch": 0.0584,
      "grad_norm": 0.02822822681316328,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1095
    },
    {
      "epoch": 0.058453333333333336,
      "grad_norm": 0.028726550084903695,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 1096
    },
    {
      "epoch": 0.058506666666666665,
      "grad_norm": 0.03311596232827745,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1097
    },
    {
      "epoch": 0.05856,
      "grad_norm": 0.02558660030061805,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 1098
    },
    {
      "epoch": 0.05861333333333334,
      "grad_norm": 0.029214945157847817,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 1099
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 0.034859276356250565,
      "learning_rate": 0.0001,
      "loss": 1.0408,
      "step": 1100
    },
    {
      "epoch": 0.05872,
      "grad_norm": 0.024499089519218722,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 1101
    },
    {
      "epoch": 0.05877333333333333,
      "grad_norm": 0.03917125008043877,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 1102
    },
    {
      "epoch": 0.058826666666666666,
      "grad_norm": 0.030070951639903278,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1103
    },
    {
      "epoch": 0.05888,
      "grad_norm": 0.02841266292481491,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 1104
    },
    {
      "epoch": 0.05893333333333333,
      "grad_norm": 0.035030533751566964,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 1105
    },
    {
      "epoch": 0.058986666666666666,
      "grad_norm": 0.03161746500403546,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 1106
    },
    {
      "epoch": 0.05904,
      "grad_norm": 0.026892338958252895,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 1107
    },
    {
      "epoch": 0.05909333333333333,
      "grad_norm": 0.027618371847000913,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1108
    },
    {
      "epoch": 0.05914666666666667,
      "grad_norm": 0.03038083148378131,
      "learning_rate": 0.0001,
      "loss": 1.1225,
      "step": 1109
    },
    {
      "epoch": 0.0592,
      "grad_norm": 0.02678803561226073,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 1110
    },
    {
      "epoch": 0.05925333333333333,
      "grad_norm": 0.02941165053959532,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 1111
    },
    {
      "epoch": 0.05930666666666667,
      "grad_norm": 0.026039696968818218,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 1112
    },
    {
      "epoch": 0.05936,
      "grad_norm": 0.024966229115687452,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1113
    },
    {
      "epoch": 0.05941333333333333,
      "grad_norm": 0.025852763802697066,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 1114
    },
    {
      "epoch": 0.05946666666666667,
      "grad_norm": 0.026193296828074208,
      "learning_rate": 0.0001,
      "loss": 1.0615,
      "step": 1115
    },
    {
      "epoch": 0.05952,
      "grad_norm": 0.028442111438614758,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1116
    },
    {
      "epoch": 0.05957333333333333,
      "grad_norm": 0.024106801229830086,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 1117
    },
    {
      "epoch": 0.05962666666666667,
      "grad_norm": 0.02667480954901167,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 1118
    },
    {
      "epoch": 0.05968,
      "grad_norm": 0.026080305550090874,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 1119
    },
    {
      "epoch": 0.05973333333333333,
      "grad_norm": 0.026856299161321578,
      "learning_rate": 0.0001,
      "loss": 1.0515,
      "step": 1120
    },
    {
      "epoch": 0.05978666666666667,
      "grad_norm": 0.023798886367481526,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 1121
    },
    {
      "epoch": 0.05984,
      "grad_norm": 0.026579711979091748,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 1122
    },
    {
      "epoch": 0.05989333333333333,
      "grad_norm": 0.027325433016494333,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1123
    },
    {
      "epoch": 0.05994666666666667,
      "grad_norm": 0.027229007789417052,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1124
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.02452497501818222,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 1125
    },
    {
      "epoch": 0.060053333333333334,
      "grad_norm": 0.027053944168461047,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 1126
    },
    {
      "epoch": 0.06010666666666667,
      "grad_norm": 0.02395684098263132,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1127
    },
    {
      "epoch": 0.06016,
      "grad_norm": 0.025402690119086888,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 1128
    },
    {
      "epoch": 0.060213333333333334,
      "grad_norm": 0.028298265596709754,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 1129
    },
    {
      "epoch": 0.06026666666666667,
      "grad_norm": 0.02550116730976038,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1130
    },
    {
      "epoch": 0.06032,
      "grad_norm": 0.02957446803272572,
      "learning_rate": 0.0001,
      "loss": 1.095,
      "step": 1131
    },
    {
      "epoch": 0.060373333333333334,
      "grad_norm": 0.028210377376644825,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 1132
    },
    {
      "epoch": 0.06042666666666666,
      "grad_norm": 0.029877364005796735,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1133
    },
    {
      "epoch": 0.06048,
      "grad_norm": 0.026917806460731122,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 1134
    },
    {
      "epoch": 0.060533333333333335,
      "grad_norm": 0.028789528574731486,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1135
    },
    {
      "epoch": 0.060586666666666664,
      "grad_norm": 0.02563949503825346,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 1136
    },
    {
      "epoch": 0.06064,
      "grad_norm": 0.026870868341438408,
      "learning_rate": 0.0001,
      "loss": 1.0992,
      "step": 1137
    },
    {
      "epoch": 0.060693333333333335,
      "grad_norm": 0.0286721545731373,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1138
    },
    {
      "epoch": 0.060746666666666664,
      "grad_norm": 0.025824123895936503,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 1139
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.026495456712234123,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 1140
    },
    {
      "epoch": 0.060853333333333336,
      "grad_norm": 0.027742756716972624,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 1141
    },
    {
      "epoch": 0.060906666666666665,
      "grad_norm": 0.026476499149065198,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 1142
    },
    {
      "epoch": 0.06096,
      "grad_norm": 0.029998708291151383,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 1143
    },
    {
      "epoch": 0.061013333333333336,
      "grad_norm": 0.033285392215665434,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 1144
    },
    {
      "epoch": 0.061066666666666665,
      "grad_norm": 0.027757102614244113,
      "learning_rate": 0.0001,
      "loss": 1.0469,
      "step": 1145
    },
    {
      "epoch": 0.06112,
      "grad_norm": 0.030629655629175002,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 1146
    },
    {
      "epoch": 0.061173333333333337,
      "grad_norm": 0.02824585376490924,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 1147
    },
    {
      "epoch": 0.061226666666666665,
      "grad_norm": 0.027738822094293097,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 1148
    },
    {
      "epoch": 0.06128,
      "grad_norm": 0.03007159983648022,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 1149
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.02633425287765423,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1150
    },
    {
      "epoch": 0.061386666666666666,
      "grad_norm": 0.02631452059151884,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1151
    },
    {
      "epoch": 0.06144,
      "grad_norm": 0.03182396939436865,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 1152
    },
    {
      "epoch": 0.06149333333333333,
      "grad_norm": 0.025714005127244432,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 1153
    },
    {
      "epoch": 0.061546666666666666,
      "grad_norm": 0.0271639086332221,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1154
    },
    {
      "epoch": 0.0616,
      "grad_norm": 0.028352709585798243,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 1155
    },
    {
      "epoch": 0.06165333333333333,
      "grad_norm": 0.024135919470443454,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1156
    },
    {
      "epoch": 0.06170666666666667,
      "grad_norm": 0.02417877110993241,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 1157
    },
    {
      "epoch": 0.06176,
      "grad_norm": 0.02912100814541876,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1158
    },
    {
      "epoch": 0.06181333333333333,
      "grad_norm": 0.02465972183830763,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 1159
    },
    {
      "epoch": 0.06186666666666667,
      "grad_norm": 0.029824622774776315,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 1160
    },
    {
      "epoch": 0.06192,
      "grad_norm": 0.02783668221315413,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 1161
    },
    {
      "epoch": 0.06197333333333333,
      "grad_norm": 0.02426248245170162,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1162
    },
    {
      "epoch": 0.06202666666666667,
      "grad_norm": 0.027765981870981938,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 1163
    },
    {
      "epoch": 0.06208,
      "grad_norm": 0.02904792175175561,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1164
    },
    {
      "epoch": 0.06213333333333333,
      "grad_norm": 0.0256322440775795,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 1165
    },
    {
      "epoch": 0.06218666666666667,
      "grad_norm": 0.026933365681143143,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 1166
    },
    {
      "epoch": 0.06224,
      "grad_norm": 0.025639519959545408,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1167
    },
    {
      "epoch": 0.06229333333333333,
      "grad_norm": 0.02512172278499975,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 1168
    },
    {
      "epoch": 0.06234666666666667,
      "grad_norm": 0.03087493026653598,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1169
    },
    {
      "epoch": 0.0624,
      "grad_norm": 0.024808629333722874,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1170
    },
    {
      "epoch": 0.06245333333333333,
      "grad_norm": 0.02587395315160505,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1171
    },
    {
      "epoch": 0.06250666666666667,
      "grad_norm": 0.025298769274184393,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 1172
    },
    {
      "epoch": 0.06256,
      "grad_norm": 0.02882868832032538,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 1173
    },
    {
      "epoch": 0.06261333333333333,
      "grad_norm": 0.027071893651391597,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 1174
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.024495988188868296,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 1175
    },
    {
      "epoch": 0.06272,
      "grad_norm": 0.02694021361055139,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 1176
    },
    {
      "epoch": 0.06277333333333333,
      "grad_norm": 0.029333687784020807,
      "learning_rate": 0.0001,
      "loss": 1.0712,
      "step": 1177
    },
    {
      "epoch": 0.06282666666666667,
      "grad_norm": 0.02740913163321832,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1178
    },
    {
      "epoch": 0.06288,
      "grad_norm": 0.025442113783102384,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 1179
    },
    {
      "epoch": 0.06293333333333333,
      "grad_norm": 0.02929807524297121,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 1180
    },
    {
      "epoch": 0.06298666666666666,
      "grad_norm": 0.026332639082518032,
      "learning_rate": 0.0001,
      "loss": 1.0637,
      "step": 1181
    },
    {
      "epoch": 0.06304,
      "grad_norm": 0.027297019514507175,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 1182
    },
    {
      "epoch": 0.06309333333333333,
      "grad_norm": 0.02864463911416425,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 1183
    },
    {
      "epoch": 0.06314666666666667,
      "grad_norm": 0.025312377764215712,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 1184
    },
    {
      "epoch": 0.0632,
      "grad_norm": 0.026637189946072205,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1185
    },
    {
      "epoch": 0.06325333333333333,
      "grad_norm": 0.027417509468840896,
      "learning_rate": 0.0001,
      "loss": 1.0274,
      "step": 1186
    },
    {
      "epoch": 0.06330666666666666,
      "grad_norm": 0.026560854514583662,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1187
    },
    {
      "epoch": 0.06336,
      "grad_norm": 0.0258769665229114,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 1188
    },
    {
      "epoch": 0.06341333333333334,
      "grad_norm": 0.025811046353212606,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 1189
    },
    {
      "epoch": 0.06346666666666667,
      "grad_norm": 0.02738878545484558,
      "learning_rate": 0.0001,
      "loss": 1.0741,
      "step": 1190
    },
    {
      "epoch": 0.06352,
      "grad_norm": 0.029174192579285132,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 1191
    },
    {
      "epoch": 0.06357333333333333,
      "grad_norm": 0.02854182097090182,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1192
    },
    {
      "epoch": 0.06362666666666666,
      "grad_norm": 0.027424624452766267,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 1193
    },
    {
      "epoch": 0.06368,
      "grad_norm": 0.026235611455217522,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1194
    },
    {
      "epoch": 0.06373333333333334,
      "grad_norm": 0.028870647569580306,
      "learning_rate": 0.0001,
      "loss": 1.0555,
      "step": 1195
    },
    {
      "epoch": 0.06378666666666667,
      "grad_norm": 0.02528805845584082,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 1196
    },
    {
      "epoch": 0.06384,
      "grad_norm": 0.025494601187859355,
      "learning_rate": 0.0001,
      "loss": 1.1178,
      "step": 1197
    },
    {
      "epoch": 0.06389333333333333,
      "grad_norm": 0.0286342065350762,
      "learning_rate": 0.0001,
      "loss": 1.0349,
      "step": 1198
    },
    {
      "epoch": 0.06394666666666667,
      "grad_norm": 0.024922047986647326,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 1199
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.02595703889463048,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 1200
    },
    {
      "epoch": 0.064,
      "eval_accuracy": 0.6094079701488295,
      "eval_loss": 1.4146265983581543,
      "eval_runtime": 62.6049,
      "eval_samples_per_second": 15.973,
      "eval_steps_per_second": 0.511,
      "step": 1200
    },
    {
      "epoch": 0.06405333333333334,
      "grad_norm": 0.025006146105032,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1201
    },
    {
      "epoch": 0.06410666666666667,
      "grad_norm": 0.023302451693381493,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 1202
    },
    {
      "epoch": 0.06416,
      "grad_norm": 0.02756625751186389,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 1203
    },
    {
      "epoch": 0.06421333333333333,
      "grad_norm": 0.028889553311601937,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 1204
    },
    {
      "epoch": 0.06426666666666667,
      "grad_norm": 0.0258553390249828,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 1205
    },
    {
      "epoch": 0.06432,
      "grad_norm": 0.027885402443482556,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 1206
    },
    {
      "epoch": 0.06437333333333334,
      "grad_norm": 0.02864132619478893,
      "learning_rate": 0.0001,
      "loss": 1.0782,
      "step": 1207
    },
    {
      "epoch": 0.06442666666666666,
      "grad_norm": 0.027856345190251184,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1208
    },
    {
      "epoch": 0.06448,
      "grad_norm": 0.028927463928279672,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 1209
    },
    {
      "epoch": 0.06453333333333333,
      "grad_norm": 0.02619708377546426,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 1210
    },
    {
      "epoch": 0.06458666666666667,
      "grad_norm": 0.02609704904526853,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 1211
    },
    {
      "epoch": 0.06464,
      "grad_norm": 0.02508451037364046,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1212
    },
    {
      "epoch": 0.06469333333333334,
      "grad_norm": 0.029978631434535077,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 1213
    },
    {
      "epoch": 0.06474666666666666,
      "grad_norm": 0.025455921952942592,
      "learning_rate": 0.0001,
      "loss": 1.0961,
      "step": 1214
    },
    {
      "epoch": 0.0648,
      "grad_norm": 0.025925635048354635,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1215
    },
    {
      "epoch": 0.06485333333333333,
      "grad_norm": 0.027555575223156097,
      "learning_rate": 0.0001,
      "loss": 1.0531,
      "step": 1216
    },
    {
      "epoch": 0.06490666666666667,
      "grad_norm": 0.02563121538808906,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 1217
    },
    {
      "epoch": 0.06496,
      "grad_norm": 0.026839783159929968,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1218
    },
    {
      "epoch": 0.06501333333333334,
      "grad_norm": 0.027408562317606494,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 1219
    },
    {
      "epoch": 0.06506666666666666,
      "grad_norm": 0.026846467879478128,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1220
    },
    {
      "epoch": 0.06512,
      "grad_norm": 0.026434673262489827,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1221
    },
    {
      "epoch": 0.06517333333333333,
      "grad_norm": 0.03046924188185476,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 1222
    },
    {
      "epoch": 0.06522666666666667,
      "grad_norm": 0.02878832248631362,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 1223
    },
    {
      "epoch": 0.06528,
      "grad_norm": 0.02915463656577247,
      "learning_rate": 0.0001,
      "loss": 1.0508,
      "step": 1224
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.026974753797952805,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 1225
    },
    {
      "epoch": 0.06538666666666666,
      "grad_norm": 0.031014277128188127,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 1226
    },
    {
      "epoch": 0.06544,
      "grad_norm": 0.026926747968858744,
      "learning_rate": 0.0001,
      "loss": 1.0665,
      "step": 1227
    },
    {
      "epoch": 0.06549333333333333,
      "grad_norm": 0.030408435853748632,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 1228
    },
    {
      "epoch": 0.06554666666666667,
      "grad_norm": 0.02766460018758552,
      "learning_rate": 0.0001,
      "loss": 1.1043,
      "step": 1229
    },
    {
      "epoch": 0.0656,
      "grad_norm": 0.0317122605999316,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 1230
    },
    {
      "epoch": 0.06565333333333333,
      "grad_norm": 0.02681023907289104,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 1231
    },
    {
      "epoch": 0.06570666666666666,
      "grad_norm": 0.0256881770124526,
      "learning_rate": 0.0001,
      "loss": 1.0828,
      "step": 1232
    },
    {
      "epoch": 0.06576,
      "grad_norm": 0.026920603142038133,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 1233
    },
    {
      "epoch": 0.06581333333333333,
      "grad_norm": 0.02596776927624475,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1234
    },
    {
      "epoch": 0.06586666666666667,
      "grad_norm": 0.024292401571502437,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1235
    },
    {
      "epoch": 0.06592,
      "grad_norm": 0.02635273388302963,
      "learning_rate": 0.0001,
      "loss": 1.1033,
      "step": 1236
    },
    {
      "epoch": 0.06597333333333333,
      "grad_norm": 0.02462399459492257,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 1237
    },
    {
      "epoch": 0.06602666666666666,
      "grad_norm": 0.03161845079093626,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1238
    },
    {
      "epoch": 0.06608,
      "grad_norm": 0.025139767398414566,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 1239
    },
    {
      "epoch": 0.06613333333333334,
      "grad_norm": 0.025024285423379537,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 1240
    },
    {
      "epoch": 0.06618666666666667,
      "grad_norm": 0.028347531338522487,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 1241
    },
    {
      "epoch": 0.06624,
      "grad_norm": 0.025977373158516563,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 1242
    },
    {
      "epoch": 0.06629333333333333,
      "grad_norm": 0.026784423462018946,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 1243
    },
    {
      "epoch": 0.06634666666666666,
      "grad_norm": 0.02568457117414041,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1244
    },
    {
      "epoch": 0.0664,
      "grad_norm": 0.02616800466335011,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 1245
    },
    {
      "epoch": 0.06645333333333334,
      "grad_norm": 0.025462786683873754,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 1246
    },
    {
      "epoch": 0.06650666666666667,
      "grad_norm": 0.025872375314676004,
      "learning_rate": 0.0001,
      "loss": 1.0543,
      "step": 1247
    },
    {
      "epoch": 0.06656,
      "grad_norm": 0.02506994383474883,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 1248
    },
    {
      "epoch": 0.06661333333333333,
      "grad_norm": 0.025847320638486885,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 1249
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.026745081752356473,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 1250
    },
    {
      "epoch": 0.06672,
      "grad_norm": 0.027741835071670197,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 1251
    },
    {
      "epoch": 0.06677333333333334,
      "grad_norm": 0.027644034574452348,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 1252
    },
    {
      "epoch": 0.06682666666666667,
      "grad_norm": 0.02544188879538882,
      "learning_rate": 0.0001,
      "loss": 1.0465,
      "step": 1253
    },
    {
      "epoch": 0.06688,
      "grad_norm": 0.027975085767387976,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 1254
    },
    {
      "epoch": 0.06693333333333333,
      "grad_norm": 0.027255598042277746,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 1255
    },
    {
      "epoch": 0.06698666666666667,
      "grad_norm": 0.02842361237600284,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 1256
    },
    {
      "epoch": 0.06704,
      "grad_norm": 0.028814577585038303,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 1257
    },
    {
      "epoch": 0.06709333333333334,
      "grad_norm": 0.02814786406105282,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 1258
    },
    {
      "epoch": 0.06714666666666666,
      "grad_norm": 0.02891141639711133,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 1259
    },
    {
      "epoch": 0.0672,
      "grad_norm": 0.026794144506704035,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 1260
    },
    {
      "epoch": 0.06725333333333333,
      "grad_norm": 0.02823908905551989,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1261
    },
    {
      "epoch": 0.06730666666666667,
      "grad_norm": 0.029270264026953416,
      "learning_rate": 0.0001,
      "loss": 1.0594,
      "step": 1262
    },
    {
      "epoch": 0.06736,
      "grad_norm": 0.02652632414381041,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1263
    },
    {
      "epoch": 0.06741333333333334,
      "grad_norm": 0.02430010332162236,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1264
    },
    {
      "epoch": 0.06746666666666666,
      "grad_norm": 0.02659779485584086,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1265
    },
    {
      "epoch": 0.06752,
      "grad_norm": 0.02531247834702308,
      "learning_rate": 0.0001,
      "loss": 1.0783,
      "step": 1266
    },
    {
      "epoch": 0.06757333333333333,
      "grad_norm": 0.02883933025521461,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 1267
    },
    {
      "epoch": 0.06762666666666667,
      "grad_norm": 0.0274786243655685,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1268
    },
    {
      "epoch": 0.06768,
      "grad_norm": 0.02769640097334381,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1269
    },
    {
      "epoch": 0.06773333333333334,
      "grad_norm": 0.028649126031639265,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 1270
    },
    {
      "epoch": 0.06778666666666666,
      "grad_norm": 0.027017088430006962,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1271
    },
    {
      "epoch": 0.06784,
      "grad_norm": 0.033991790414947425,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 1272
    },
    {
      "epoch": 0.06789333333333333,
      "grad_norm": 0.024885722258324486,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 1273
    },
    {
      "epoch": 0.06794666666666667,
      "grad_norm": 0.031204081484248865,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 1274
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.0280430843495176,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 1275
    },
    {
      "epoch": 0.06805333333333333,
      "grad_norm": 0.029155153995824506,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 1276
    },
    {
      "epoch": 0.06810666666666666,
      "grad_norm": 0.026424848643547362,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 1277
    },
    {
      "epoch": 0.06816,
      "grad_norm": 0.02736100516122246,
      "learning_rate": 0.0001,
      "loss": 1.0583,
      "step": 1278
    },
    {
      "epoch": 0.06821333333333333,
      "grad_norm": 0.027128600656127707,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 1279
    },
    {
      "epoch": 0.06826666666666667,
      "grad_norm": 0.02901267133914117,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 1280
    },
    {
      "epoch": 0.06832,
      "grad_norm": 0.02662489798980497,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1281
    },
    {
      "epoch": 0.06837333333333333,
      "grad_norm": 0.028953221794727455,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 1282
    },
    {
      "epoch": 0.06842666666666666,
      "grad_norm": 0.028360559984817325,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 1283
    },
    {
      "epoch": 0.06848,
      "grad_norm": 0.024057346442448117,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1284
    },
    {
      "epoch": 0.06853333333333333,
      "grad_norm": 0.03060536481022083,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 1285
    },
    {
      "epoch": 0.06858666666666667,
      "grad_norm": 0.027019990077935964,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 1286
    },
    {
      "epoch": 0.06864,
      "grad_norm": 0.02749414070196188,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 1287
    },
    {
      "epoch": 0.06869333333333333,
      "grad_norm": 0.026981357440273187,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 1288
    },
    {
      "epoch": 0.06874666666666666,
      "grad_norm": 0.027362719811891416,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 1289
    },
    {
      "epoch": 0.0688,
      "grad_norm": 0.029889227051165968,
      "learning_rate": 0.0001,
      "loss": 1.0416,
      "step": 1290
    },
    {
      "epoch": 0.06885333333333334,
      "grad_norm": 0.026597553155036407,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 1291
    },
    {
      "epoch": 0.06890666666666667,
      "grad_norm": 0.02972841625397455,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 1292
    },
    {
      "epoch": 0.06896,
      "grad_norm": 0.025891266695906297,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1293
    },
    {
      "epoch": 0.06901333333333333,
      "grad_norm": 0.027378921112252794,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1294
    },
    {
      "epoch": 0.06906666666666667,
      "grad_norm": 0.028541802212397292,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 1295
    },
    {
      "epoch": 0.06912,
      "grad_norm": 0.031651053512126326,
      "learning_rate": 0.0001,
      "loss": 1.0346,
      "step": 1296
    },
    {
      "epoch": 0.06917333333333334,
      "grad_norm": 0.030042875547908236,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 1297
    },
    {
      "epoch": 0.06922666666666667,
      "grad_norm": 0.028816004913370854,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 1298
    },
    {
      "epoch": 0.06928,
      "grad_norm": 0.03260465168484061,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1299
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.027843094738074038,
      "learning_rate": 0.0001,
      "loss": 1.0489,
      "step": 1300
    },
    {
      "epoch": 0.06938666666666667,
      "grad_norm": 0.032538847285893055,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 1301
    },
    {
      "epoch": 0.06944,
      "grad_norm": 0.032759680324852804,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1302
    },
    {
      "epoch": 0.06949333333333334,
      "grad_norm": 0.026635415468196897,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 1303
    },
    {
      "epoch": 0.06954666666666667,
      "grad_norm": 0.03187223320205728,
      "learning_rate": 0.0001,
      "loss": 1.0827,
      "step": 1304
    },
    {
      "epoch": 0.0696,
      "grad_norm": 0.030787004412473878,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 1305
    },
    {
      "epoch": 0.06965333333333333,
      "grad_norm": 0.026974504209705395,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 1306
    },
    {
      "epoch": 0.06970666666666667,
      "grad_norm": 0.02906029502264328,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 1307
    },
    {
      "epoch": 0.06976,
      "grad_norm": 0.029194325776091583,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 1308
    },
    {
      "epoch": 0.06981333333333334,
      "grad_norm": 0.02820215517342032,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 1309
    },
    {
      "epoch": 0.06986666666666666,
      "grad_norm": 0.027319034659265395,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 1310
    },
    {
      "epoch": 0.06992,
      "grad_norm": 0.028077075870165284,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1311
    },
    {
      "epoch": 0.06997333333333333,
      "grad_norm": 0.029509625027748284,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 1312
    },
    {
      "epoch": 0.07002666666666667,
      "grad_norm": 0.030147768232247227,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 1313
    },
    {
      "epoch": 0.07008,
      "grad_norm": 0.027285186534265114,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 1314
    },
    {
      "epoch": 0.07013333333333334,
      "grad_norm": 0.025321646951779218,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 1315
    },
    {
      "epoch": 0.07018666666666666,
      "grad_norm": 0.02691693402784399,
      "learning_rate": 0.0001,
      "loss": 1.1293,
      "step": 1316
    },
    {
      "epoch": 0.07024,
      "grad_norm": 0.025534594950626825,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 1317
    },
    {
      "epoch": 0.07029333333333333,
      "grad_norm": 0.02649083149261357,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 1318
    },
    {
      "epoch": 0.07034666666666667,
      "grad_norm": 0.026277226768910755,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 1319
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.027398607788365104,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 1320
    },
    {
      "epoch": 0.07045333333333334,
      "grad_norm": 0.026428122377360943,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1321
    },
    {
      "epoch": 0.07050666666666666,
      "grad_norm": 0.02541721756398702,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 1322
    },
    {
      "epoch": 0.07056,
      "grad_norm": 0.02689101051312156,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 1323
    },
    {
      "epoch": 0.07061333333333333,
      "grad_norm": 0.025945837105768497,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 1324
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.026099896594061988,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 1325
    },
    {
      "epoch": 0.07072,
      "grad_norm": 0.024062990827848723,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 1326
    },
    {
      "epoch": 0.07077333333333333,
      "grad_norm": 0.026879534250893376,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 1327
    },
    {
      "epoch": 0.07082666666666666,
      "grad_norm": 0.028099462759973038,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1328
    },
    {
      "epoch": 0.07088,
      "grad_norm": 0.026544649630919546,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 1329
    },
    {
      "epoch": 0.07093333333333333,
      "grad_norm": 0.02897181914255022,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 1330
    },
    {
      "epoch": 0.07098666666666667,
      "grad_norm": 0.023933883331079223,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 1331
    },
    {
      "epoch": 0.07104,
      "grad_norm": 0.02538986160516313,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 1332
    },
    {
      "epoch": 0.07109333333333333,
      "grad_norm": 0.0265663156710299,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 1333
    },
    {
      "epoch": 0.07114666666666666,
      "grad_norm": 0.0239861447205062,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1334
    },
    {
      "epoch": 0.0712,
      "grad_norm": 0.02379961060855267,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1335
    },
    {
      "epoch": 0.07125333333333334,
      "grad_norm": 0.024009322968357425,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 1336
    },
    {
      "epoch": 0.07130666666666667,
      "grad_norm": 0.02509195275163291,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 1337
    },
    {
      "epoch": 0.07136,
      "grad_norm": 0.025893697700334097,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 1338
    },
    {
      "epoch": 0.07141333333333333,
      "grad_norm": 0.02654644434040771,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1339
    },
    {
      "epoch": 0.07146666666666666,
      "grad_norm": 0.02809402951932729,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 1340
    },
    {
      "epoch": 0.07152,
      "grad_norm": 0.02339045672910295,
      "learning_rate": 0.0001,
      "loss": 1.0758,
      "step": 1341
    },
    {
      "epoch": 0.07157333333333334,
      "grad_norm": 0.027063600676679136,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 1342
    },
    {
      "epoch": 0.07162666666666667,
      "grad_norm": 0.025168153082569093,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1343
    },
    {
      "epoch": 0.07168,
      "grad_norm": 0.026026402405670057,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 1344
    },
    {
      "epoch": 0.07173333333333333,
      "grad_norm": 0.025892084728334548,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 1345
    },
    {
      "epoch": 0.07178666666666667,
      "grad_norm": 0.025489183773404266,
      "learning_rate": 0.0001,
      "loss": 1.0572,
      "step": 1346
    },
    {
      "epoch": 0.07184,
      "grad_norm": 0.024387102589902687,
      "learning_rate": 0.0001,
      "loss": 1.0484,
      "step": 1347
    },
    {
      "epoch": 0.07189333333333334,
      "grad_norm": 0.025667957552132463,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 1348
    },
    {
      "epoch": 0.07194666666666667,
      "grad_norm": 0.02528838374054606,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 1349
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.024477210580103426,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 1350
    },
    {
      "epoch": 0.07205333333333333,
      "grad_norm": 0.02454427566427297,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 1351
    },
    {
      "epoch": 0.07210666666666667,
      "grad_norm": 0.02493510621312888,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 1352
    },
    {
      "epoch": 0.07216,
      "grad_norm": 0.025563205302989986,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 1353
    },
    {
      "epoch": 0.07221333333333334,
      "grad_norm": 0.026555736001282422,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 1354
    },
    {
      "epoch": 0.07226666666666667,
      "grad_norm": 0.027886715980864066,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 1355
    },
    {
      "epoch": 0.07232,
      "grad_norm": 0.026862591958340374,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 1356
    },
    {
      "epoch": 0.07237333333333333,
      "grad_norm": 0.02450102229785219,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1357
    },
    {
      "epoch": 0.07242666666666667,
      "grad_norm": 0.03017835114182462,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 1358
    },
    {
      "epoch": 0.07248,
      "grad_norm": 0.024396781209132395,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 1359
    },
    {
      "epoch": 0.07253333333333334,
      "grad_norm": 0.03096770865771595,
      "learning_rate": 0.0001,
      "loss": 1.048,
      "step": 1360
    },
    {
      "epoch": 0.07258666666666666,
      "grad_norm": 0.025131864256425367,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 1361
    },
    {
      "epoch": 0.07264,
      "grad_norm": 0.029576091811344383,
      "learning_rate": 0.0001,
      "loss": 1.0913,
      "step": 1362
    },
    {
      "epoch": 0.07269333333333333,
      "grad_norm": 0.02680199230351138,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1363
    },
    {
      "epoch": 0.07274666666666667,
      "grad_norm": 0.03076291724760087,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 1364
    },
    {
      "epoch": 0.0728,
      "grad_norm": 0.027447185061334273,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 1365
    },
    {
      "epoch": 0.07285333333333334,
      "grad_norm": 0.025651937082384075,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 1366
    },
    {
      "epoch": 0.07290666666666666,
      "grad_norm": 0.028266820143522123,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 1367
    },
    {
      "epoch": 0.07296,
      "grad_norm": 0.029851111110083737,
      "learning_rate": 0.0001,
      "loss": 1.0445,
      "step": 1368
    },
    {
      "epoch": 0.07301333333333333,
      "grad_norm": 0.027108955431101544,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 1369
    },
    {
      "epoch": 0.07306666666666667,
      "grad_norm": 0.024594783784580555,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 1370
    },
    {
      "epoch": 0.07312,
      "grad_norm": 0.03135498974097117,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 1371
    },
    {
      "epoch": 0.07317333333333334,
      "grad_norm": 0.024414977381463615,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 1372
    },
    {
      "epoch": 0.07322666666666666,
      "grad_norm": 0.026957727828609862,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 1373
    },
    {
      "epoch": 0.07328,
      "grad_norm": 0.027665378230717186,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 1374
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.0246563662375451,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1375
    },
    {
      "epoch": 0.07338666666666667,
      "grad_norm": 0.025401436666538456,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1376
    },
    {
      "epoch": 0.07344,
      "grad_norm": 0.027730107961576014,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 1377
    },
    {
      "epoch": 0.07349333333333333,
      "grad_norm": 0.026594856690591563,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 1378
    },
    {
      "epoch": 0.07354666666666666,
      "grad_norm": 0.029101882243459404,
      "learning_rate": 0.0001,
      "loss": 1.0838,
      "step": 1379
    },
    {
      "epoch": 0.0736,
      "grad_norm": 0.02706048643050515,
      "learning_rate": 0.0001,
      "loss": 1.0021,
      "step": 1380
    },
    {
      "epoch": 0.07365333333333333,
      "grad_norm": 0.03435964672147377,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 1381
    },
    {
      "epoch": 0.07370666666666667,
      "grad_norm": 0.02714609464766141,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1382
    },
    {
      "epoch": 0.07376,
      "grad_norm": 0.029611157348967725,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1383
    },
    {
      "epoch": 0.07381333333333333,
      "grad_norm": 0.032337982504664575,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1384
    },
    {
      "epoch": 0.07386666666666666,
      "grad_norm": 0.028218474796060152,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 1385
    },
    {
      "epoch": 0.07392,
      "grad_norm": 0.032564381119096444,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 1386
    },
    {
      "epoch": 0.07397333333333334,
      "grad_norm": 0.029059849146736663,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1387
    },
    {
      "epoch": 0.07402666666666667,
      "grad_norm": 0.02351801503151605,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 1388
    },
    {
      "epoch": 0.07408,
      "grad_norm": 0.02846830098577435,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 1389
    },
    {
      "epoch": 0.07413333333333333,
      "grad_norm": 0.02580114042583524,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 1390
    },
    {
      "epoch": 0.07418666666666666,
      "grad_norm": 0.02445854163584432,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 1391
    },
    {
      "epoch": 0.07424,
      "grad_norm": 0.030414908626434572,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 1392
    },
    {
      "epoch": 0.07429333333333334,
      "grad_norm": 0.025382475624449848,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 1393
    },
    {
      "epoch": 0.07434666666666667,
      "grad_norm": 0.026000771015036336,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 1394
    },
    {
      "epoch": 0.0744,
      "grad_norm": 0.02513105909117264,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 1395
    },
    {
      "epoch": 0.07445333333333333,
      "grad_norm": 0.02475762404862143,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 1396
    },
    {
      "epoch": 0.07450666666666667,
      "grad_norm": 0.023635728950784002,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 1397
    },
    {
      "epoch": 0.07456,
      "grad_norm": 0.025219994648708905,
      "learning_rate": 0.0001,
      "loss": 1.1169,
      "step": 1398
    },
    {
      "epoch": 0.07461333333333334,
      "grad_norm": 0.02491988761612225,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 1399
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.02535005376728199,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 1400
    },
    {
      "epoch": 0.07466666666666667,
      "eval_accuracy": 0.6103045881533959,
      "eval_loss": 1.4095321893692017,
      "eval_runtime": 62.6217,
      "eval_samples_per_second": 15.969,
      "eval_steps_per_second": 0.511,
      "step": 1400
    },
    {
      "epoch": 0.07472,
      "grad_norm": 0.026012314129310727,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 1401
    },
    {
      "epoch": 0.07477333333333333,
      "grad_norm": 0.025893976851029836,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 1402
    },
    {
      "epoch": 0.07482666666666667,
      "grad_norm": 0.0240110593160091,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 1403
    },
    {
      "epoch": 0.07488,
      "grad_norm": 0.02635510786734542,
      "learning_rate": 0.0001,
      "loss": 1.0408,
      "step": 1404
    },
    {
      "epoch": 0.07493333333333334,
      "grad_norm": 0.02570373517723136,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 1405
    },
    {
      "epoch": 0.07498666666666666,
      "grad_norm": 0.02807055488409623,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 1406
    },
    {
      "epoch": 0.07504,
      "grad_norm": 0.027513771531304517,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 1407
    },
    {
      "epoch": 0.07509333333333333,
      "grad_norm": 0.023814227361889467,
      "learning_rate": 0.0001,
      "loss": 1.0371,
      "step": 1408
    },
    {
      "epoch": 0.07514666666666667,
      "grad_norm": 0.02606023315631416,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 1409
    },
    {
      "epoch": 0.0752,
      "grad_norm": 0.027546984043710514,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1410
    },
    {
      "epoch": 0.07525333333333334,
      "grad_norm": 0.024336004197795247,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 1411
    },
    {
      "epoch": 0.07530666666666666,
      "grad_norm": 0.02732908658398586,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 1412
    },
    {
      "epoch": 0.07536,
      "grad_norm": 0.029369861039019982,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 1413
    },
    {
      "epoch": 0.07541333333333333,
      "grad_norm": 0.023923676279976172,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1414
    },
    {
      "epoch": 0.07546666666666667,
      "grad_norm": 0.025057306517821884,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 1415
    },
    {
      "epoch": 0.07552,
      "grad_norm": 0.02505682546189634,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1416
    },
    {
      "epoch": 0.07557333333333334,
      "grad_norm": 0.028840599211460146,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 1417
    },
    {
      "epoch": 0.07562666666666666,
      "grad_norm": 0.027448751401812473,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 1418
    },
    {
      "epoch": 0.07568,
      "grad_norm": 0.02966017862930943,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1419
    },
    {
      "epoch": 0.07573333333333333,
      "grad_norm": 0.02492399847816971,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1420
    },
    {
      "epoch": 0.07578666666666667,
      "grad_norm": 0.03006725059252591,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1421
    },
    {
      "epoch": 0.07584,
      "grad_norm": 0.029537479497250448,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 1422
    },
    {
      "epoch": 0.07589333333333333,
      "grad_norm": 0.02901613302495655,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 1423
    },
    {
      "epoch": 0.07594666666666666,
      "grad_norm": 0.027508144351500705,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1424
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.029702143386262387,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 1425
    },
    {
      "epoch": 0.07605333333333333,
      "grad_norm": 0.024736993225071932,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 1426
    },
    {
      "epoch": 0.07610666666666667,
      "grad_norm": 0.028122174663138173,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 1427
    },
    {
      "epoch": 0.07616,
      "grad_norm": 0.02450585206675225,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1428
    },
    {
      "epoch": 0.07621333333333333,
      "grad_norm": 0.028577388551303356,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 1429
    },
    {
      "epoch": 0.07626666666666666,
      "grad_norm": 0.02768082714758481,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1430
    },
    {
      "epoch": 0.07632,
      "grad_norm": 0.02655409131128702,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 1431
    },
    {
      "epoch": 0.07637333333333333,
      "grad_norm": 0.024870560940262604,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1432
    },
    {
      "epoch": 0.07642666666666667,
      "grad_norm": 0.0260458776490873,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 1433
    },
    {
      "epoch": 0.07648,
      "grad_norm": 0.02727453220768935,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 1434
    },
    {
      "epoch": 0.07653333333333333,
      "grad_norm": 0.026650986431354766,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 1435
    },
    {
      "epoch": 0.07658666666666666,
      "grad_norm": 0.024925818619230045,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 1436
    },
    {
      "epoch": 0.07664,
      "grad_norm": 0.025676772012487956,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 1437
    },
    {
      "epoch": 0.07669333333333334,
      "grad_norm": 0.0287086981294998,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1438
    },
    {
      "epoch": 0.07674666666666667,
      "grad_norm": 0.027871399354941827,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1439
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.027132265004396344,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 1440
    },
    {
      "epoch": 0.07685333333333333,
      "grad_norm": 0.02605179277427003,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 1441
    },
    {
      "epoch": 0.07690666666666666,
      "grad_norm": 0.025758097401796392,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 1442
    },
    {
      "epoch": 0.07696,
      "grad_norm": 0.024996659133176984,
      "learning_rate": 0.0001,
      "loss": 1.0656,
      "step": 1443
    },
    {
      "epoch": 0.07701333333333334,
      "grad_norm": 0.02442899087787655,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 1444
    },
    {
      "epoch": 0.07706666666666667,
      "grad_norm": 0.02443430176445531,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 1445
    },
    {
      "epoch": 0.07712,
      "grad_norm": 0.025650934020766233,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1446
    },
    {
      "epoch": 0.07717333333333333,
      "grad_norm": 0.025306222577944112,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1447
    },
    {
      "epoch": 0.07722666666666667,
      "grad_norm": 0.0262292774417146,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1448
    },
    {
      "epoch": 0.07728,
      "grad_norm": 0.02423715147115418,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1449
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.0269984285530036,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 1450
    },
    {
      "epoch": 0.07738666666666667,
      "grad_norm": 0.027126665281884288,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 1451
    },
    {
      "epoch": 0.07744,
      "grad_norm": 0.03138624637334413,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 1452
    },
    {
      "epoch": 0.07749333333333333,
      "grad_norm": 0.025883858553079165,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 1453
    },
    {
      "epoch": 0.07754666666666667,
      "grad_norm": 0.026621442764872598,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 1454
    },
    {
      "epoch": 0.0776,
      "grad_norm": 0.026600035609405836,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 1455
    },
    {
      "epoch": 0.07765333333333334,
      "grad_norm": 0.026979302471470228,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 1456
    },
    {
      "epoch": 0.07770666666666666,
      "grad_norm": 0.02832302052740779,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 1457
    },
    {
      "epoch": 0.07776,
      "grad_norm": 0.025659184067769677,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 1458
    },
    {
      "epoch": 0.07781333333333333,
      "grad_norm": 0.026696425896964915,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 1459
    },
    {
      "epoch": 0.07786666666666667,
      "grad_norm": 0.033841330665127324,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 1460
    },
    {
      "epoch": 0.07792,
      "grad_norm": 0.024588383268653955,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 1461
    },
    {
      "epoch": 0.07797333333333334,
      "grad_norm": 0.026325632962495075,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1462
    },
    {
      "epoch": 0.07802666666666666,
      "grad_norm": 0.028131952107641987,
      "learning_rate": 0.0001,
      "loss": 0.8988,
      "step": 1463
    },
    {
      "epoch": 0.07808,
      "grad_norm": 0.026376107430261902,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 1464
    },
    {
      "epoch": 0.07813333333333333,
      "grad_norm": 0.027021427412766336,
      "learning_rate": 0.0001,
      "loss": 1.0823,
      "step": 1465
    },
    {
      "epoch": 0.07818666666666667,
      "grad_norm": 0.027418039478907977,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 1466
    },
    {
      "epoch": 0.07824,
      "grad_norm": 0.027859472592700236,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 1467
    },
    {
      "epoch": 0.07829333333333334,
      "grad_norm": 0.03220011750691752,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 1468
    },
    {
      "epoch": 0.07834666666666666,
      "grad_norm": 0.024319311801535546,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 1469
    },
    {
      "epoch": 0.0784,
      "grad_norm": 0.030228615758626582,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 1470
    },
    {
      "epoch": 0.07845333333333333,
      "grad_norm": 0.027359424539138564,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 1471
    },
    {
      "epoch": 0.07850666666666667,
      "grad_norm": 0.024168730979594863,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 1472
    },
    {
      "epoch": 0.07856,
      "grad_norm": 0.031135867672891226,
      "learning_rate": 0.0001,
      "loss": 1.0535,
      "step": 1473
    },
    {
      "epoch": 0.07861333333333333,
      "grad_norm": 0.026926637428491038,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 1474
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.028662341515440545,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 1475
    },
    {
      "epoch": 0.07872,
      "grad_norm": 0.02555852851103561,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 1476
    },
    {
      "epoch": 0.07877333333333333,
      "grad_norm": 0.02769242082125727,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 1477
    },
    {
      "epoch": 0.07882666666666667,
      "grad_norm": 0.02592877474854719,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1478
    },
    {
      "epoch": 0.07888,
      "grad_norm": 0.028511490914730733,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1479
    },
    {
      "epoch": 0.07893333333333333,
      "grad_norm": 0.026296129709602985,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 1480
    },
    {
      "epoch": 0.07898666666666666,
      "grad_norm": 0.027506558456873793,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 1481
    },
    {
      "epoch": 0.07904,
      "grad_norm": 0.026816889738867387,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1482
    },
    {
      "epoch": 0.07909333333333333,
      "grad_norm": 0.027649549516000096,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 1483
    },
    {
      "epoch": 0.07914666666666667,
      "grad_norm": 0.024826594992913453,
      "learning_rate": 0.0001,
      "loss": 1.0643,
      "step": 1484
    },
    {
      "epoch": 0.0792,
      "grad_norm": 0.025550258031028415,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1485
    },
    {
      "epoch": 0.07925333333333333,
      "grad_norm": 0.026068139579292438,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 1486
    },
    {
      "epoch": 0.07930666666666666,
      "grad_norm": 0.027987411085139444,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 1487
    },
    {
      "epoch": 0.07936,
      "grad_norm": 0.025995164818431924,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 1488
    },
    {
      "epoch": 0.07941333333333334,
      "grad_norm": 0.02833540118368808,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1489
    },
    {
      "epoch": 0.07946666666666667,
      "grad_norm": 0.024665815224698122,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 1490
    },
    {
      "epoch": 0.07952,
      "grad_norm": 0.02639763830876645,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 1491
    },
    {
      "epoch": 0.07957333333333333,
      "grad_norm": 0.027083752830472714,
      "learning_rate": 0.0001,
      "loss": 1.0421,
      "step": 1492
    },
    {
      "epoch": 0.07962666666666667,
      "grad_norm": 0.02655411754022525,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 1493
    },
    {
      "epoch": 0.07968,
      "grad_norm": 0.02745146655196488,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 1494
    },
    {
      "epoch": 0.07973333333333334,
      "grad_norm": 0.02445296371406402,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1495
    },
    {
      "epoch": 0.07978666666666667,
      "grad_norm": 0.028516743813376516,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 1496
    },
    {
      "epoch": 0.07984,
      "grad_norm": 0.026085156464398792,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 1497
    },
    {
      "epoch": 0.07989333333333333,
      "grad_norm": 0.025448896990108355,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1498
    },
    {
      "epoch": 0.07994666666666667,
      "grad_norm": 0.02560201252372325,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1499
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.024802506952111763,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 1500
    },
    {
      "epoch": 0.08005333333333334,
      "grad_norm": 0.025672595426071608,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 1501
    },
    {
      "epoch": 0.08010666666666667,
      "grad_norm": 0.028329502075389344,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1502
    },
    {
      "epoch": 0.08016,
      "grad_norm": 0.023923861830010384,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 1503
    },
    {
      "epoch": 0.08021333333333333,
      "grad_norm": 0.024630270212932286,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 1504
    },
    {
      "epoch": 0.08026666666666667,
      "grad_norm": 0.02704844848805633,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1505
    },
    {
      "epoch": 0.08032,
      "grad_norm": 0.02428959008146988,
      "learning_rate": 0.0001,
      "loss": 1.0621,
      "step": 1506
    },
    {
      "epoch": 0.08037333333333334,
      "grad_norm": 0.025446428535003868,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1507
    },
    {
      "epoch": 0.08042666666666666,
      "grad_norm": 0.02839200885346731,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 1508
    },
    {
      "epoch": 0.08048,
      "grad_norm": 0.028788849504164264,
      "learning_rate": 0.0001,
      "loss": 1.0599,
      "step": 1509
    },
    {
      "epoch": 0.08053333333333333,
      "grad_norm": 0.025207757095997815,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 1510
    },
    {
      "epoch": 0.08058666666666667,
      "grad_norm": 0.02677842090881838,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1511
    },
    {
      "epoch": 0.08064,
      "grad_norm": 0.02565301183102452,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 1512
    },
    {
      "epoch": 0.08069333333333334,
      "grad_norm": 0.026226111553809998,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 1513
    },
    {
      "epoch": 0.08074666666666666,
      "grad_norm": 0.024709652161331516,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 1514
    },
    {
      "epoch": 0.0808,
      "grad_norm": 0.025894945681426577,
      "learning_rate": 0.0001,
      "loss": 1.1411,
      "step": 1515
    },
    {
      "epoch": 0.08085333333333333,
      "grad_norm": 0.024529750482093982,
      "learning_rate": 0.0001,
      "loss": 1.0636,
      "step": 1516
    },
    {
      "epoch": 0.08090666666666667,
      "grad_norm": 0.02589059582040195,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1517
    },
    {
      "epoch": 0.08096,
      "grad_norm": 0.02702135080489518,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 1518
    },
    {
      "epoch": 0.08101333333333334,
      "grad_norm": 0.026967181331547917,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1519
    },
    {
      "epoch": 0.08106666666666666,
      "grad_norm": 0.025877032261151345,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 1520
    },
    {
      "epoch": 0.08112,
      "grad_norm": 0.027165801429333742,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 1521
    },
    {
      "epoch": 0.08117333333333333,
      "grad_norm": 0.027568306939459185,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 1522
    },
    {
      "epoch": 0.08122666666666667,
      "grad_norm": 0.025450710661348158,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 1523
    },
    {
      "epoch": 0.08128,
      "grad_norm": 0.02512198460412537,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 1524
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 0.028772551346375894,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1525
    },
    {
      "epoch": 0.08138666666666666,
      "grad_norm": 0.026460648715757405,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1526
    },
    {
      "epoch": 0.08144,
      "grad_norm": 0.031349379049980426,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1527
    },
    {
      "epoch": 0.08149333333333333,
      "grad_norm": 0.02852689662496742,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1528
    },
    {
      "epoch": 0.08154666666666667,
      "grad_norm": 0.03016885115287303,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 1529
    },
    {
      "epoch": 0.0816,
      "grad_norm": 0.02881736964158352,
      "learning_rate": 0.0001,
      "loss": 1.0535,
      "step": 1530
    },
    {
      "epoch": 0.08165333333333333,
      "grad_norm": 0.03129168134587699,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 1531
    },
    {
      "epoch": 0.08170666666666666,
      "grad_norm": 0.03395029571148873,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1532
    },
    {
      "epoch": 0.08176,
      "grad_norm": 0.0284696254799978,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 1533
    },
    {
      "epoch": 0.08181333333333334,
      "grad_norm": 0.031141181179036713,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 1534
    },
    {
      "epoch": 0.08186666666666667,
      "grad_norm": 0.028889959278568304,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 1535
    },
    {
      "epoch": 0.08192,
      "grad_norm": 0.02923687668874673,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 1536
    },
    {
      "epoch": 0.08197333333333333,
      "grad_norm": 0.03243264624480576,
      "learning_rate": 0.0001,
      "loss": 1.0265,
      "step": 1537
    },
    {
      "epoch": 0.08202666666666666,
      "grad_norm": 0.031751486896107274,
      "learning_rate": 0.0001,
      "loss": 1.0302,
      "step": 1538
    },
    {
      "epoch": 0.08208,
      "grad_norm": 0.026908536628659552,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1539
    },
    {
      "epoch": 0.08213333333333334,
      "grad_norm": 0.026452865475235277,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 1540
    },
    {
      "epoch": 0.08218666666666667,
      "grad_norm": 0.02634122758876933,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 1541
    },
    {
      "epoch": 0.08224,
      "grad_norm": 0.024462032214949813,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 1542
    },
    {
      "epoch": 0.08229333333333333,
      "grad_norm": 0.02886855025762443,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 1543
    },
    {
      "epoch": 0.08234666666666667,
      "grad_norm": 0.024844432162052593,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 1544
    },
    {
      "epoch": 0.0824,
      "grad_norm": 0.02667694241083205,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1545
    },
    {
      "epoch": 0.08245333333333334,
      "grad_norm": 0.027217021282552198,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 1546
    },
    {
      "epoch": 0.08250666666666667,
      "grad_norm": 0.027402348497841726,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 1547
    },
    {
      "epoch": 0.08256,
      "grad_norm": 0.025271742904781912,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 1548
    },
    {
      "epoch": 0.08261333333333333,
      "grad_norm": 0.028853498860755052,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 1549
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.02637818554629524,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 1550
    },
    {
      "epoch": 0.08272,
      "grad_norm": 0.027152391497240597,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1551
    },
    {
      "epoch": 0.08277333333333334,
      "grad_norm": 0.030990156635862773,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 1552
    },
    {
      "epoch": 0.08282666666666667,
      "grad_norm": 0.027535614654092034,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 1553
    },
    {
      "epoch": 0.08288,
      "grad_norm": 0.02923735550935302,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 1554
    },
    {
      "epoch": 0.08293333333333333,
      "grad_norm": 0.02625690829483926,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 1555
    },
    {
      "epoch": 0.08298666666666667,
      "grad_norm": 0.025239970946088996,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 1556
    },
    {
      "epoch": 0.08304,
      "grad_norm": 0.02633667201976562,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 1557
    },
    {
      "epoch": 0.08309333333333334,
      "grad_norm": 0.02729809787232353,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 1558
    },
    {
      "epoch": 0.08314666666666666,
      "grad_norm": 0.029699752635502195,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 1559
    },
    {
      "epoch": 0.0832,
      "grad_norm": 0.02481791339729372,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 1560
    },
    {
      "epoch": 0.08325333333333333,
      "grad_norm": 0.027365490445984048,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 1561
    },
    {
      "epoch": 0.08330666666666667,
      "grad_norm": 0.02472597973698374,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 1562
    },
    {
      "epoch": 0.08336,
      "grad_norm": 0.027768346048782602,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 1563
    },
    {
      "epoch": 0.08341333333333334,
      "grad_norm": 0.025728658318964568,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 1564
    },
    {
      "epoch": 0.08346666666666666,
      "grad_norm": 0.02586553781614546,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 1565
    },
    {
      "epoch": 0.08352,
      "grad_norm": 0.02553693242261939,
      "learning_rate": 0.0001,
      "loss": 1.0683,
      "step": 1566
    },
    {
      "epoch": 0.08357333333333333,
      "grad_norm": 0.026735360596725873,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 1567
    },
    {
      "epoch": 0.08362666666666667,
      "grad_norm": 0.026995346702144832,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1568
    },
    {
      "epoch": 0.08368,
      "grad_norm": 0.02578036468245732,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 1569
    },
    {
      "epoch": 0.08373333333333334,
      "grad_norm": 0.02664008019348427,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1570
    },
    {
      "epoch": 0.08378666666666666,
      "grad_norm": 0.029823983044379082,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 1571
    },
    {
      "epoch": 0.08384,
      "grad_norm": 0.023818900662485383,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 1572
    },
    {
      "epoch": 0.08389333333333333,
      "grad_norm": 0.02435022822384678,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 1573
    },
    {
      "epoch": 0.08394666666666667,
      "grad_norm": 0.02507708371610949,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1574
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.023913553638367026,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 1575
    },
    {
      "epoch": 0.08405333333333333,
      "grad_norm": 0.02568587703158502,
      "learning_rate": 0.0001,
      "loss": 1.0717,
      "step": 1576
    },
    {
      "epoch": 0.08410666666666666,
      "grad_norm": 0.025944895421864032,
      "learning_rate": 0.0001,
      "loss": 1.0526,
      "step": 1577
    },
    {
      "epoch": 0.08416,
      "grad_norm": 0.02646828619855901,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 1578
    },
    {
      "epoch": 0.08421333333333333,
      "grad_norm": 0.025017327459500173,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 1579
    },
    {
      "epoch": 0.08426666666666667,
      "grad_norm": 0.025283419385447873,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1580
    },
    {
      "epoch": 0.08432,
      "grad_norm": 0.027223075998950373,
      "learning_rate": 0.0001,
      "loss": 1.0855,
      "step": 1581
    },
    {
      "epoch": 0.08437333333333333,
      "grad_norm": 0.023793914633807686,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1582
    },
    {
      "epoch": 0.08442666666666666,
      "grad_norm": 0.02710413380255237,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 1583
    },
    {
      "epoch": 0.08448,
      "grad_norm": 0.025049181167726087,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 1584
    },
    {
      "epoch": 0.08453333333333334,
      "grad_norm": 0.02629292705725318,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 1585
    },
    {
      "epoch": 0.08458666666666667,
      "grad_norm": 0.02520748871995693,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 1586
    },
    {
      "epoch": 0.08464,
      "grad_norm": 0.02843349929480919,
      "learning_rate": 0.0001,
      "loss": 1.0619,
      "step": 1587
    },
    {
      "epoch": 0.08469333333333333,
      "grad_norm": 0.026836174255504115,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 1588
    },
    {
      "epoch": 0.08474666666666666,
      "grad_norm": 0.024843639483892115,
      "learning_rate": 0.0001,
      "loss": 1.0837,
      "step": 1589
    },
    {
      "epoch": 0.0848,
      "grad_norm": 0.030244325504555757,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 1590
    },
    {
      "epoch": 0.08485333333333334,
      "grad_norm": 0.02657709651189101,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 1591
    },
    {
      "epoch": 0.08490666666666667,
      "grad_norm": 0.02763528265193033,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 1592
    },
    {
      "epoch": 0.08496,
      "grad_norm": 0.02706134080795604,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 1593
    },
    {
      "epoch": 0.08501333333333333,
      "grad_norm": 0.026873050487400754,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 1594
    },
    {
      "epoch": 0.08506666666666667,
      "grad_norm": 0.02625830900610149,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 1595
    },
    {
      "epoch": 0.08512,
      "grad_norm": 0.025403924046330264,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 1596
    },
    {
      "epoch": 0.08517333333333334,
      "grad_norm": 0.027074432906036717,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 1597
    },
    {
      "epoch": 0.08522666666666667,
      "grad_norm": 0.02364806341704116,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1598
    },
    {
      "epoch": 0.08528,
      "grad_norm": 0.02643864527379029,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1599
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.027524541238944548,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1600
    },
    {
      "epoch": 0.08533333333333333,
      "eval_accuracy": 0.6111164200630435,
      "eval_loss": 1.4051686525344849,
      "eval_runtime": 62.3124,
      "eval_samples_per_second": 16.048,
      "eval_steps_per_second": 0.514,
      "step": 1600
    },
    {
      "epoch": 0.08538666666666667,
      "grad_norm": 0.024333860457797122,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1601
    },
    {
      "epoch": 0.08544,
      "grad_norm": 0.028871405646871996,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 1602
    },
    {
      "epoch": 0.08549333333333334,
      "grad_norm": 0.025524074282346144,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 1603
    },
    {
      "epoch": 0.08554666666666666,
      "grad_norm": 0.027338458430915938,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 1604
    },
    {
      "epoch": 0.0856,
      "grad_norm": 0.02718197945014735,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 1605
    },
    {
      "epoch": 0.08565333333333333,
      "grad_norm": 0.027048704369950827,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 1606
    },
    {
      "epoch": 0.08570666666666667,
      "grad_norm": 0.02761106787873851,
      "learning_rate": 0.0001,
      "loss": 1.0458,
      "step": 1607
    },
    {
      "epoch": 0.08576,
      "grad_norm": 0.02878431664877957,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 1608
    },
    {
      "epoch": 0.08581333333333334,
      "grad_norm": 0.026939563731929548,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 1609
    },
    {
      "epoch": 0.08586666666666666,
      "grad_norm": 0.025351258581296547,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 1610
    },
    {
      "epoch": 0.08592,
      "grad_norm": 0.025921022097349863,
      "learning_rate": 0.0001,
      "loss": 1.074,
      "step": 1611
    },
    {
      "epoch": 0.08597333333333333,
      "grad_norm": 0.026906411444533228,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 1612
    },
    {
      "epoch": 0.08602666666666667,
      "grad_norm": 0.027938239313429567,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 1613
    },
    {
      "epoch": 0.08608,
      "grad_norm": 0.03104342664970851,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 1614
    },
    {
      "epoch": 0.08613333333333334,
      "grad_norm": 0.023911488479491448,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1615
    },
    {
      "epoch": 0.08618666666666666,
      "grad_norm": 0.02748881469877469,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 1616
    },
    {
      "epoch": 0.08624,
      "grad_norm": 0.027981382134354804,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 1617
    },
    {
      "epoch": 0.08629333333333333,
      "grad_norm": 0.02384819178907592,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 1618
    },
    {
      "epoch": 0.08634666666666667,
      "grad_norm": 0.02682580440277934,
      "learning_rate": 0.0001,
      "loss": 1.058,
      "step": 1619
    },
    {
      "epoch": 0.0864,
      "grad_norm": 0.027393850021443702,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 1620
    },
    {
      "epoch": 0.08645333333333333,
      "grad_norm": 0.025514055877307703,
      "learning_rate": 0.0001,
      "loss": 1.0987,
      "step": 1621
    },
    {
      "epoch": 0.08650666666666666,
      "grad_norm": 0.03246291050599303,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 1622
    },
    {
      "epoch": 0.08656,
      "grad_norm": 0.03116930717625424,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 1623
    },
    {
      "epoch": 0.08661333333333333,
      "grad_norm": 0.027942244165248268,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 1624
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.029544866859618355,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1625
    },
    {
      "epoch": 0.08672,
      "grad_norm": 0.027719445613050512,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 1626
    },
    {
      "epoch": 0.08677333333333333,
      "grad_norm": 0.029063922189782414,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 1627
    },
    {
      "epoch": 0.08682666666666666,
      "grad_norm": 0.026125284237836527,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 1628
    },
    {
      "epoch": 0.08688,
      "grad_norm": 0.028649155519534477,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 1629
    },
    {
      "epoch": 0.08693333333333333,
      "grad_norm": 0.02514183244715916,
      "learning_rate": 0.0001,
      "loss": 1.0246,
      "step": 1630
    },
    {
      "epoch": 0.08698666666666667,
      "grad_norm": 0.026914914148138295,
      "learning_rate": 0.0001,
      "loss": 1.0659,
      "step": 1631
    },
    {
      "epoch": 0.08704,
      "grad_norm": 0.026892289746215037,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 1632
    },
    {
      "epoch": 0.08709333333333333,
      "grad_norm": 0.02780507037563323,
      "learning_rate": 0.0001,
      "loss": 1.0442,
      "step": 1633
    },
    {
      "epoch": 0.08714666666666666,
      "grad_norm": 0.02725497993423547,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1634
    },
    {
      "epoch": 0.0872,
      "grad_norm": 0.02454640770351659,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1635
    },
    {
      "epoch": 0.08725333333333334,
      "grad_norm": 0.02873437278170768,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 1636
    },
    {
      "epoch": 0.08730666666666667,
      "grad_norm": 0.02428603185801352,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 1637
    },
    {
      "epoch": 0.08736,
      "grad_norm": 0.02395485818679434,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 1638
    },
    {
      "epoch": 0.08741333333333333,
      "grad_norm": 0.025068727051273523,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 1639
    },
    {
      "epoch": 0.08746666666666666,
      "grad_norm": 0.02764220420059766,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 1640
    },
    {
      "epoch": 0.08752,
      "grad_norm": 0.027516404586483915,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1641
    },
    {
      "epoch": 0.08757333333333334,
      "grad_norm": 0.027620191736511365,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1642
    },
    {
      "epoch": 0.08762666666666667,
      "grad_norm": 0.024105948224103578,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 1643
    },
    {
      "epoch": 0.08768,
      "grad_norm": 0.024704928453450233,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 1644
    },
    {
      "epoch": 0.08773333333333333,
      "grad_norm": 0.02587444906541705,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 1645
    },
    {
      "epoch": 0.08778666666666667,
      "grad_norm": 0.029882130682068617,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 1646
    },
    {
      "epoch": 0.08784,
      "grad_norm": 0.023523680702732513,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1647
    },
    {
      "epoch": 0.08789333333333334,
      "grad_norm": 0.03161279412790102,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 1648
    },
    {
      "epoch": 0.08794666666666667,
      "grad_norm": 0.026111464804400124,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 1649
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.02369524085610575,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1650
    },
    {
      "epoch": 0.08805333333333333,
      "grad_norm": 0.026724448795401586,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1651
    },
    {
      "epoch": 0.08810666666666667,
      "grad_norm": 0.02434652811431213,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 1652
    },
    {
      "epoch": 0.08816,
      "grad_norm": 0.02641802642256993,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 1653
    },
    {
      "epoch": 0.08821333333333334,
      "grad_norm": 0.02704088025815972,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 1654
    },
    {
      "epoch": 0.08826666666666666,
      "grad_norm": 0.026580655933756088,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1655
    },
    {
      "epoch": 0.08832,
      "grad_norm": 0.025541002932235494,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 1656
    },
    {
      "epoch": 0.08837333333333333,
      "grad_norm": 0.02425335744978024,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 1657
    },
    {
      "epoch": 0.08842666666666667,
      "grad_norm": 0.025029864562193624,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 1658
    },
    {
      "epoch": 0.08848,
      "grad_norm": 0.0258564929170752,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 1659
    },
    {
      "epoch": 0.08853333333333334,
      "grad_norm": 0.02532436277157024,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 1660
    },
    {
      "epoch": 0.08858666666666666,
      "grad_norm": 0.02331636109425414,
      "learning_rate": 0.0001,
      "loss": 1.0454,
      "step": 1661
    },
    {
      "epoch": 0.08864,
      "grad_norm": 0.026312235223190022,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 1662
    },
    {
      "epoch": 0.08869333333333333,
      "grad_norm": 0.02491033015725192,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1663
    },
    {
      "epoch": 0.08874666666666667,
      "grad_norm": 0.02454194957278418,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 1664
    },
    {
      "epoch": 0.0888,
      "grad_norm": 0.02576786164535435,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1665
    },
    {
      "epoch": 0.08885333333333334,
      "grad_norm": 0.024897808986337595,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 1666
    },
    {
      "epoch": 0.08890666666666666,
      "grad_norm": 0.027395751137081897,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1667
    },
    {
      "epoch": 0.08896,
      "grad_norm": 0.023969278879351286,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1668
    },
    {
      "epoch": 0.08901333333333333,
      "grad_norm": 0.028213584504482914,
      "learning_rate": 0.0001,
      "loss": 1.0293,
      "step": 1669
    },
    {
      "epoch": 0.08906666666666667,
      "grad_norm": 0.0262724947876903,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 1670
    },
    {
      "epoch": 0.08912,
      "grad_norm": 0.02819361528058505,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 1671
    },
    {
      "epoch": 0.08917333333333333,
      "grad_norm": 0.026433207744932123,
      "learning_rate": 0.0001,
      "loss": 1.0716,
      "step": 1672
    },
    {
      "epoch": 0.08922666666666666,
      "grad_norm": 0.027583189213461916,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 1673
    },
    {
      "epoch": 0.08928,
      "grad_norm": 0.03334037978148873,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 1674
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.025799672207011414,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1675
    },
    {
      "epoch": 0.08938666666666667,
      "grad_norm": 0.030178915478207755,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 1676
    },
    {
      "epoch": 0.08944,
      "grad_norm": 0.031286293077241574,
      "learning_rate": 0.0001,
      "loss": 1.0411,
      "step": 1677
    },
    {
      "epoch": 0.08949333333333333,
      "grad_norm": 0.026584444541368858,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 1678
    },
    {
      "epoch": 0.08954666666666666,
      "grad_norm": 0.026960636323574913,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 1679
    },
    {
      "epoch": 0.0896,
      "grad_norm": 0.027705183975991404,
      "learning_rate": 0.0001,
      "loss": 1.0469,
      "step": 1680
    },
    {
      "epoch": 0.08965333333333333,
      "grad_norm": 0.025136739959075987,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 1681
    },
    {
      "epoch": 0.08970666666666667,
      "grad_norm": 0.026736461705802014,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 1682
    },
    {
      "epoch": 0.08976,
      "grad_norm": 0.028525250848681818,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 1683
    },
    {
      "epoch": 0.08981333333333333,
      "grad_norm": 0.02676341902486581,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 1684
    },
    {
      "epoch": 0.08986666666666666,
      "grad_norm": 0.024986884908375157,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 1685
    },
    {
      "epoch": 0.08992,
      "grad_norm": 0.0271127230468846,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 1686
    },
    {
      "epoch": 0.08997333333333334,
      "grad_norm": 0.02432142211509463,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1687
    },
    {
      "epoch": 0.09002666666666667,
      "grad_norm": 0.023718455176784132,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 1688
    },
    {
      "epoch": 0.09008,
      "grad_norm": 0.025190807199383432,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 1689
    },
    {
      "epoch": 0.09013333333333333,
      "grad_norm": 0.02679934260588532,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 1690
    },
    {
      "epoch": 0.09018666666666666,
      "grad_norm": 0.02499328437889648,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 1691
    },
    {
      "epoch": 0.09024,
      "grad_norm": 0.026114553358626526,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1692
    },
    {
      "epoch": 0.09029333333333334,
      "grad_norm": 0.02759223264635291,
      "learning_rate": 0.0001,
      "loss": 1.0597,
      "step": 1693
    },
    {
      "epoch": 0.09034666666666667,
      "grad_norm": 0.02477337762464771,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1694
    },
    {
      "epoch": 0.0904,
      "grad_norm": 0.030597370145696044,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1695
    },
    {
      "epoch": 0.09045333333333333,
      "grad_norm": 0.0269802342504588,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1696
    },
    {
      "epoch": 0.09050666666666667,
      "grad_norm": 0.028398027754227593,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 1697
    },
    {
      "epoch": 0.09056,
      "grad_norm": 0.02632898383592627,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 1698
    },
    {
      "epoch": 0.09061333333333334,
      "grad_norm": 0.026515849132896733,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 1699
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.025155368958244148,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 1700
    },
    {
      "epoch": 0.09072,
      "grad_norm": 0.027698319155554787,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 1701
    },
    {
      "epoch": 0.09077333333333333,
      "grad_norm": 0.02797775958278094,
      "learning_rate": 0.0001,
      "loss": 1.0786,
      "step": 1702
    },
    {
      "epoch": 0.09082666666666667,
      "grad_norm": 0.024382992456232475,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1703
    },
    {
      "epoch": 0.09088,
      "grad_norm": 0.02952066494495971,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1704
    },
    {
      "epoch": 0.09093333333333334,
      "grad_norm": 0.02899875864966753,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 1705
    },
    {
      "epoch": 0.09098666666666666,
      "grad_norm": 0.026592968723358867,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 1706
    },
    {
      "epoch": 0.09104,
      "grad_norm": 0.030095527237822748,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 1707
    },
    {
      "epoch": 0.09109333333333333,
      "grad_norm": 0.02715821974390595,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1708
    },
    {
      "epoch": 0.09114666666666667,
      "grad_norm": 0.027274376064868367,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 1709
    },
    {
      "epoch": 0.0912,
      "grad_norm": 0.030510571714560775,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1710
    },
    {
      "epoch": 0.09125333333333334,
      "grad_norm": 0.026075248117775816,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 1711
    },
    {
      "epoch": 0.09130666666666666,
      "grad_norm": 0.02689173076707366,
      "learning_rate": 0.0001,
      "loss": 1.0624,
      "step": 1712
    },
    {
      "epoch": 0.09136,
      "grad_norm": 0.024428361835030922,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 1713
    },
    {
      "epoch": 0.09141333333333333,
      "grad_norm": 0.02846834767866163,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 1714
    },
    {
      "epoch": 0.09146666666666667,
      "grad_norm": 0.027712228909874643,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 1715
    },
    {
      "epoch": 0.09152,
      "grad_norm": 0.029249827378259485,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 1716
    },
    {
      "epoch": 0.09157333333333334,
      "grad_norm": 0.02676265195772794,
      "learning_rate": 0.0001,
      "loss": 1.0787,
      "step": 1717
    },
    {
      "epoch": 0.09162666666666666,
      "grad_norm": 0.026417364972317784,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 1718
    },
    {
      "epoch": 0.09168,
      "grad_norm": 0.02616057926094756,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 1719
    },
    {
      "epoch": 0.09173333333333333,
      "grad_norm": 0.026234734860853134,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 1720
    },
    {
      "epoch": 0.09178666666666667,
      "grad_norm": 0.02740101369343298,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 1721
    },
    {
      "epoch": 0.09184,
      "grad_norm": 0.024539701504416735,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1722
    },
    {
      "epoch": 0.09189333333333333,
      "grad_norm": 0.026474563542769735,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 1723
    },
    {
      "epoch": 0.09194666666666666,
      "grad_norm": 0.024552329386387097,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 1724
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.023491981119751097,
      "learning_rate": 0.0001,
      "loss": 1.0291,
      "step": 1725
    },
    {
      "epoch": 0.09205333333333333,
      "grad_norm": 0.025442738392128725,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 1726
    },
    {
      "epoch": 0.09210666666666667,
      "grad_norm": 0.02894522853190607,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 1727
    },
    {
      "epoch": 0.09216,
      "grad_norm": 0.02563683882378615,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 1728
    },
    {
      "epoch": 0.09221333333333333,
      "grad_norm": 0.025999817213072776,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 1729
    },
    {
      "epoch": 0.09226666666666666,
      "grad_norm": 0.028409682757899516,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 1730
    },
    {
      "epoch": 0.09232,
      "grad_norm": 0.025394641858095045,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 1731
    },
    {
      "epoch": 0.09237333333333334,
      "grad_norm": 0.02526101493891038,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 1732
    },
    {
      "epoch": 0.09242666666666667,
      "grad_norm": 0.028404987165490607,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 1733
    },
    {
      "epoch": 0.09248,
      "grad_norm": 0.025651584142426888,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 1734
    },
    {
      "epoch": 0.09253333333333333,
      "grad_norm": 0.02437145064307925,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 1735
    },
    {
      "epoch": 0.09258666666666666,
      "grad_norm": 0.026212105608985792,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 1736
    },
    {
      "epoch": 0.09264,
      "grad_norm": 0.027990822097352142,
      "learning_rate": 0.0001,
      "loss": 1.0271,
      "step": 1737
    },
    {
      "epoch": 0.09269333333333334,
      "grad_norm": 0.024368786657260787,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 1738
    },
    {
      "epoch": 0.09274666666666667,
      "grad_norm": 0.026037695697492907,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 1739
    },
    {
      "epoch": 0.0928,
      "grad_norm": 0.027122951737729564,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 1740
    },
    {
      "epoch": 0.09285333333333333,
      "grad_norm": 0.023528733016336824,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 1741
    },
    {
      "epoch": 0.09290666666666667,
      "grad_norm": 0.02716075871002687,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 1742
    },
    {
      "epoch": 0.09296,
      "grad_norm": 0.026061910702890774,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1743
    },
    {
      "epoch": 0.09301333333333334,
      "grad_norm": 0.025498591143851043,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1744
    },
    {
      "epoch": 0.09306666666666667,
      "grad_norm": 0.02753189620518896,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 1745
    },
    {
      "epoch": 0.09312,
      "grad_norm": 0.026410139711493787,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1746
    },
    {
      "epoch": 0.09317333333333333,
      "grad_norm": 0.02352162010348392,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1747
    },
    {
      "epoch": 0.09322666666666667,
      "grad_norm": 0.025293605198432895,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1748
    },
    {
      "epoch": 0.09328,
      "grad_norm": 0.026499699243056417,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 1749
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.024018577571171568,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1750
    },
    {
      "epoch": 0.09338666666666667,
      "grad_norm": 0.0258354690331234,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 1751
    },
    {
      "epoch": 0.09344,
      "grad_norm": 0.027881464814561805,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 1752
    },
    {
      "epoch": 0.09349333333333333,
      "grad_norm": 0.02734276690280944,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1753
    },
    {
      "epoch": 0.09354666666666667,
      "grad_norm": 0.023597517684438688,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 1754
    },
    {
      "epoch": 0.0936,
      "grad_norm": 0.02523499115527569,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 1755
    },
    {
      "epoch": 0.09365333333333334,
      "grad_norm": 0.026698421265167332,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 1756
    },
    {
      "epoch": 0.09370666666666666,
      "grad_norm": 0.02572376629924787,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1757
    },
    {
      "epoch": 0.09376,
      "grad_norm": 0.026939146007016586,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 1758
    },
    {
      "epoch": 0.09381333333333333,
      "grad_norm": 0.02469809148471521,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 1759
    },
    {
      "epoch": 0.09386666666666667,
      "grad_norm": 0.024083144609128162,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 1760
    },
    {
      "epoch": 0.09392,
      "grad_norm": 0.03286444010305604,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 1761
    },
    {
      "epoch": 0.09397333333333334,
      "grad_norm": 0.02535318325816316,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 1762
    },
    {
      "epoch": 0.09402666666666666,
      "grad_norm": 0.02609278320812464,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 1763
    },
    {
      "epoch": 0.09408,
      "grad_norm": 0.0301802693528634,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 1764
    },
    {
      "epoch": 0.09413333333333333,
      "grad_norm": 0.02674836627990494,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 1765
    },
    {
      "epoch": 0.09418666666666667,
      "grad_norm": 0.02862390419340115,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 1766
    },
    {
      "epoch": 0.09424,
      "grad_norm": 0.032028635798749795,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 1767
    },
    {
      "epoch": 0.09429333333333334,
      "grad_norm": 0.02919962683289195,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 1768
    },
    {
      "epoch": 0.09434666666666666,
      "grad_norm": 0.029720593006157026,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 1769
    },
    {
      "epoch": 0.0944,
      "grad_norm": 0.028929824526491132,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1770
    },
    {
      "epoch": 0.09445333333333333,
      "grad_norm": 0.02551252284860104,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 1771
    },
    {
      "epoch": 0.09450666666666667,
      "grad_norm": 0.02791962427811782,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 1772
    },
    {
      "epoch": 0.09456,
      "grad_norm": 0.026555815047303703,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 1773
    },
    {
      "epoch": 0.09461333333333333,
      "grad_norm": 0.029418712513713204,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 1774
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.03439212182632328,
      "learning_rate": 0.0001,
      "loss": 1.0457,
      "step": 1775
    },
    {
      "epoch": 0.09472,
      "grad_norm": 0.027321044234176778,
      "learning_rate": 0.0001,
      "loss": 1.078,
      "step": 1776
    },
    {
      "epoch": 0.09477333333333333,
      "grad_norm": 0.030670738780217758,
      "learning_rate": 0.0001,
      "loss": 1.1129,
      "step": 1777
    },
    {
      "epoch": 0.09482666666666667,
      "grad_norm": 0.029383832265691454,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 1778
    },
    {
      "epoch": 0.09488,
      "grad_norm": 0.02720325300478246,
      "learning_rate": 0.0001,
      "loss": 1.0402,
      "step": 1779
    },
    {
      "epoch": 0.09493333333333333,
      "grad_norm": 0.028869254098936505,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1780
    },
    {
      "epoch": 0.09498666666666666,
      "grad_norm": 0.031482732271876396,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 1781
    },
    {
      "epoch": 0.09504,
      "grad_norm": 0.027812352464561867,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 1782
    },
    {
      "epoch": 0.09509333333333334,
      "grad_norm": 0.02795522155764562,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 1783
    },
    {
      "epoch": 0.09514666666666667,
      "grad_norm": 0.027468503020127197,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1784
    },
    {
      "epoch": 0.0952,
      "grad_norm": 0.024921094476944523,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 1785
    },
    {
      "epoch": 0.09525333333333333,
      "grad_norm": 0.027751712130999067,
      "learning_rate": 0.0001,
      "loss": 1.0585,
      "step": 1786
    },
    {
      "epoch": 0.09530666666666666,
      "grad_norm": 0.02837704226553712,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 1787
    },
    {
      "epoch": 0.09536,
      "grad_norm": 0.02693760585726541,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 1788
    },
    {
      "epoch": 0.09541333333333334,
      "grad_norm": 0.024990361247057558,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 1789
    },
    {
      "epoch": 0.09546666666666667,
      "grad_norm": 0.028547143362786735,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 1790
    },
    {
      "epoch": 0.09552,
      "grad_norm": 0.025239653871196078,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 1791
    },
    {
      "epoch": 0.09557333333333333,
      "grad_norm": 0.03229651057235325,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 1792
    },
    {
      "epoch": 0.09562666666666667,
      "grad_norm": 0.02750077221088778,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1793
    },
    {
      "epoch": 0.09568,
      "grad_norm": 0.02558573558556958,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1794
    },
    {
      "epoch": 0.09573333333333334,
      "grad_norm": 0.028222107457715147,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 1795
    },
    {
      "epoch": 0.09578666666666667,
      "grad_norm": 0.027468523254279027,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 1796
    },
    {
      "epoch": 0.09584,
      "grad_norm": 0.025223288196050308,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 1797
    },
    {
      "epoch": 0.09589333333333333,
      "grad_norm": 0.026517673595087225,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 1798
    },
    {
      "epoch": 0.09594666666666667,
      "grad_norm": 0.02647175800062843,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 1799
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.02717602330948198,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 1800
    },
    {
      "epoch": 0.096,
      "eval_accuracy": 0.6117149061834115,
      "eval_loss": 1.4017579555511475,
      "eval_runtime": 63.9275,
      "eval_samples_per_second": 15.643,
      "eval_steps_per_second": 0.501,
      "step": 1800
    },
    {
      "epoch": 0.09605333333333334,
      "grad_norm": 0.026474170603097015,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1801
    },
    {
      "epoch": 0.09610666666666667,
      "grad_norm": 0.024332581358247896,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 1802
    },
    {
      "epoch": 0.09616,
      "grad_norm": 0.027823690981710756,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 1803
    },
    {
      "epoch": 0.09621333333333333,
      "grad_norm": 0.025689156649572973,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 1804
    },
    {
      "epoch": 0.09626666666666667,
      "grad_norm": 0.028318192894736794,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1805
    },
    {
      "epoch": 0.09632,
      "grad_norm": 0.024948618317884128,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1806
    },
    {
      "epoch": 0.09637333333333334,
      "grad_norm": 0.025092836099335887,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 1807
    },
    {
      "epoch": 0.09642666666666666,
      "grad_norm": 0.02868225498337703,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 1808
    },
    {
      "epoch": 0.09648,
      "grad_norm": 0.027579504013672918,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 1809
    },
    {
      "epoch": 0.09653333333333333,
      "grad_norm": 0.023955397764145323,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 1810
    },
    {
      "epoch": 0.09658666666666667,
      "grad_norm": 0.027131767205174347,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 1811
    },
    {
      "epoch": 0.09664,
      "grad_norm": 0.02637946898112252,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 1812
    },
    {
      "epoch": 0.09669333333333334,
      "grad_norm": 0.0249877761111989,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 1813
    },
    {
      "epoch": 0.09674666666666666,
      "grad_norm": 0.02435569218021375,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 1814
    },
    {
      "epoch": 0.0968,
      "grad_norm": 0.026471375545286908,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 1815
    },
    {
      "epoch": 0.09685333333333333,
      "grad_norm": 0.02705057781996632,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 1816
    },
    {
      "epoch": 0.09690666666666667,
      "grad_norm": 0.024508447914617214,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 1817
    },
    {
      "epoch": 0.09696,
      "grad_norm": 0.02471515119382699,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 1818
    },
    {
      "epoch": 0.09701333333333333,
      "grad_norm": 0.02519809349355615,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 1819
    },
    {
      "epoch": 0.09706666666666666,
      "grad_norm": 0.027894246158050605,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 1820
    },
    {
      "epoch": 0.09712,
      "grad_norm": 0.02650671061756029,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 1821
    },
    {
      "epoch": 0.09717333333333333,
      "grad_norm": 0.026982299988329017,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 1822
    },
    {
      "epoch": 0.09722666666666667,
      "grad_norm": 0.027720655944704537,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 1823
    },
    {
      "epoch": 0.09728,
      "grad_norm": 0.028951348718284337,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 1824
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.026756757646060433,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 1825
    },
    {
      "epoch": 0.09738666666666666,
      "grad_norm": 0.028343509352317667,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 1826
    },
    {
      "epoch": 0.09744,
      "grad_norm": 0.028011296921425913,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 1827
    },
    {
      "epoch": 0.09749333333333333,
      "grad_norm": 0.02820925690620987,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 1828
    },
    {
      "epoch": 0.09754666666666667,
      "grad_norm": 0.029122488372928138,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 1829
    },
    {
      "epoch": 0.0976,
      "grad_norm": 0.029938284161811022,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 1830
    },
    {
      "epoch": 0.09765333333333333,
      "grad_norm": 0.026110081154672758,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 1831
    },
    {
      "epoch": 0.09770666666666666,
      "grad_norm": 0.03180641510840036,
      "learning_rate": 0.0001,
      "loss": 1.0626,
      "step": 1832
    },
    {
      "epoch": 0.09776,
      "grad_norm": 0.031391791359206146,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 1833
    },
    {
      "epoch": 0.09781333333333334,
      "grad_norm": 0.03036022022416799,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 1834
    },
    {
      "epoch": 0.09786666666666667,
      "grad_norm": 0.030569257426462083,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 1835
    },
    {
      "epoch": 0.09792,
      "grad_norm": 0.029279558116151655,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 1836
    },
    {
      "epoch": 0.09797333333333333,
      "grad_norm": 0.025776614016403392,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 1837
    },
    {
      "epoch": 0.09802666666666666,
      "grad_norm": 0.027116568659026848,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 1838
    },
    {
      "epoch": 0.09808,
      "grad_norm": 0.02862946957222765,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 1839
    },
    {
      "epoch": 0.09813333333333334,
      "grad_norm": 0.026582030847286064,
      "learning_rate": 0.0001,
      "loss": 1.0898,
      "step": 1840
    },
    {
      "epoch": 0.09818666666666667,
      "grad_norm": 0.027558736708423723,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 1841
    },
    {
      "epoch": 0.09824,
      "grad_norm": 0.026918146332382112,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1842
    },
    {
      "epoch": 0.09829333333333333,
      "grad_norm": 0.026220423836761764,
      "learning_rate": 0.0001,
      "loss": 1.0427,
      "step": 1843
    },
    {
      "epoch": 0.09834666666666667,
      "grad_norm": 0.027341757737839867,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 1844
    },
    {
      "epoch": 0.0984,
      "grad_norm": 0.03077203941912083,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 1845
    },
    {
      "epoch": 0.09845333333333334,
      "grad_norm": 0.024721607580795137,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 1846
    },
    {
      "epoch": 0.09850666666666667,
      "grad_norm": 0.026722780123306807,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 1847
    },
    {
      "epoch": 0.09856,
      "grad_norm": 0.02822684111347732,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 1848
    },
    {
      "epoch": 0.09861333333333333,
      "grad_norm": 0.02546732186006609,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 1849
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.02769913557590931,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1850
    },
    {
      "epoch": 0.09872,
      "grad_norm": 0.025367627036535854,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1851
    },
    {
      "epoch": 0.09877333333333334,
      "grad_norm": 0.025516870154589193,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1852
    },
    {
      "epoch": 0.09882666666666666,
      "grad_norm": 0.02850170173129112,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1853
    },
    {
      "epoch": 0.09888,
      "grad_norm": 0.024316710862384343,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 1854
    },
    {
      "epoch": 0.09893333333333333,
      "grad_norm": 0.027704142445614345,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 1855
    },
    {
      "epoch": 0.09898666666666667,
      "grad_norm": 0.026212797075420326,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1856
    },
    {
      "epoch": 0.09904,
      "grad_norm": 0.02655944895114864,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 1857
    },
    {
      "epoch": 0.09909333333333334,
      "grad_norm": 0.024671669543793826,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 1858
    },
    {
      "epoch": 0.09914666666666666,
      "grad_norm": 0.024421498576460532,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1859
    },
    {
      "epoch": 0.0992,
      "grad_norm": 0.023854420082805937,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1860
    },
    {
      "epoch": 0.09925333333333333,
      "grad_norm": 0.02428955736881184,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 1861
    },
    {
      "epoch": 0.09930666666666667,
      "grad_norm": 0.026649005740785735,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 1862
    },
    {
      "epoch": 0.09936,
      "grad_norm": 0.027735739310567723,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 1863
    },
    {
      "epoch": 0.09941333333333334,
      "grad_norm": 0.024455062062683542,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 1864
    },
    {
      "epoch": 0.09946666666666666,
      "grad_norm": 0.024040579326079864,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 1865
    },
    {
      "epoch": 0.09952,
      "grad_norm": 0.026970134807268998,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 1866
    },
    {
      "epoch": 0.09957333333333333,
      "grad_norm": 0.025892452018809558,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 1867
    },
    {
      "epoch": 0.09962666666666667,
      "grad_norm": 0.027867194156961827,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 1868
    },
    {
      "epoch": 0.09968,
      "grad_norm": 0.0243704870711029,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 1869
    },
    {
      "epoch": 0.09973333333333333,
      "grad_norm": 0.028308412592797896,
      "learning_rate": 0.0001,
      "loss": 1.0777,
      "step": 1870
    },
    {
      "epoch": 0.09978666666666666,
      "grad_norm": 0.027009309904881117,
      "learning_rate": 0.0001,
      "loss": 1.0945,
      "step": 1871
    },
    {
      "epoch": 0.09984,
      "grad_norm": 0.02863369094801097,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1872
    },
    {
      "epoch": 0.09989333333333333,
      "grad_norm": 0.025717993922258098,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1873
    },
    {
      "epoch": 0.09994666666666667,
      "grad_norm": 0.026863420998601537,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 1874
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.02583073216285001,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 1875
    },
    {
      "epoch": 0.10005333333333333,
      "grad_norm": 0.0276424618591933,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1876
    },
    {
      "epoch": 0.10010666666666666,
      "grad_norm": 0.024954585680697965,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 1877
    },
    {
      "epoch": 0.10016,
      "grad_norm": 0.025946171754408123,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 1878
    },
    {
      "epoch": 0.10021333333333333,
      "grad_norm": 0.02709503114111363,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1879
    },
    {
      "epoch": 0.10026666666666667,
      "grad_norm": 0.02563694793596819,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 1880
    },
    {
      "epoch": 0.10032,
      "grad_norm": 0.02477156782106925,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 1881
    },
    {
      "epoch": 0.10037333333333333,
      "grad_norm": 0.02551557701433031,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 1882
    },
    {
      "epoch": 0.10042666666666666,
      "grad_norm": 0.02570531366445619,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 1883
    },
    {
      "epoch": 0.10048,
      "grad_norm": 0.02399273575370972,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 1884
    },
    {
      "epoch": 0.10053333333333334,
      "grad_norm": 0.024072758475031313,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 1885
    },
    {
      "epoch": 0.10058666666666667,
      "grad_norm": 0.02433747128627947,
      "learning_rate": 0.0001,
      "loss": 1.1223,
      "step": 1886
    },
    {
      "epoch": 0.10064,
      "grad_norm": 0.03303525614659945,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 1887
    },
    {
      "epoch": 0.10069333333333333,
      "grad_norm": 0.02332029137483146,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 1888
    },
    {
      "epoch": 0.10074666666666666,
      "grad_norm": 0.02777416592039625,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 1889
    },
    {
      "epoch": 0.1008,
      "grad_norm": 0.025270277818516276,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 1890
    },
    {
      "epoch": 0.10085333333333334,
      "grad_norm": 0.025404611992190868,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 1891
    },
    {
      "epoch": 0.10090666666666667,
      "grad_norm": 0.026128368207249158,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 1892
    },
    {
      "epoch": 0.10096,
      "grad_norm": 0.02442779372121171,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 1893
    },
    {
      "epoch": 0.10101333333333333,
      "grad_norm": 0.02487319894098852,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 1894
    },
    {
      "epoch": 0.10106666666666667,
      "grad_norm": 0.023395152764658922,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 1895
    },
    {
      "epoch": 0.10112,
      "grad_norm": 0.02510831742104269,
      "learning_rate": 0.0001,
      "loss": 1.0951,
      "step": 1896
    },
    {
      "epoch": 0.10117333333333334,
      "grad_norm": 0.024851943473627423,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 1897
    },
    {
      "epoch": 0.10122666666666667,
      "grad_norm": 0.024322109316710198,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 1898
    },
    {
      "epoch": 0.10128,
      "grad_norm": 0.02333669161288907,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 1899
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.024147932672948177,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 1900
    },
    {
      "epoch": 0.10138666666666667,
      "grad_norm": 0.024903475437280883,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 1901
    },
    {
      "epoch": 0.10144,
      "grad_norm": 0.026711218139195605,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 1902
    },
    {
      "epoch": 0.10149333333333334,
      "grad_norm": 0.02484719580986286,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1903
    },
    {
      "epoch": 0.10154666666666666,
      "grad_norm": 0.02906016147654106,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 1904
    },
    {
      "epoch": 0.1016,
      "grad_norm": 0.02614413787796812,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 1905
    },
    {
      "epoch": 0.10165333333333333,
      "grad_norm": 0.027502067753524612,
      "learning_rate": 0.0001,
      "loss": 1.0825,
      "step": 1906
    },
    {
      "epoch": 0.10170666666666667,
      "grad_norm": 0.025413807720129338,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 1907
    },
    {
      "epoch": 0.10176,
      "grad_norm": 0.026141474564551452,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 1908
    },
    {
      "epoch": 0.10181333333333334,
      "grad_norm": 0.024715573803985463,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 1909
    },
    {
      "epoch": 0.10186666666666666,
      "grad_norm": 0.029804406447989595,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 1910
    },
    {
      "epoch": 0.10192,
      "grad_norm": 0.027504463726386142,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 1911
    },
    {
      "epoch": 0.10197333333333333,
      "grad_norm": 0.025145610773627345,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1912
    },
    {
      "epoch": 0.10202666666666667,
      "grad_norm": 0.03093082703882014,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 1913
    },
    {
      "epoch": 0.10208,
      "grad_norm": 0.02851026308543958,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 1914
    },
    {
      "epoch": 0.10213333333333334,
      "grad_norm": 0.027187190166202586,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 1915
    },
    {
      "epoch": 0.10218666666666666,
      "grad_norm": 0.02791952218613602,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 1916
    },
    {
      "epoch": 0.10224,
      "grad_norm": 0.031260068552164115,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 1917
    },
    {
      "epoch": 0.10229333333333333,
      "grad_norm": 0.024601403397165423,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 1918
    },
    {
      "epoch": 0.10234666666666667,
      "grad_norm": 0.029228849255080486,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 1919
    },
    {
      "epoch": 0.1024,
      "grad_norm": 0.029265121470891196,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 1920
    },
    {
      "epoch": 0.10245333333333333,
      "grad_norm": 0.026853127011340867,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 1921
    },
    {
      "epoch": 0.10250666666666666,
      "grad_norm": 0.029246142836743927,
      "learning_rate": 0.0001,
      "loss": 1.0383,
      "step": 1922
    },
    {
      "epoch": 0.10256,
      "grad_norm": 0.025856190939471526,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 1923
    },
    {
      "epoch": 0.10261333333333333,
      "grad_norm": 0.0267755548079927,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 1924
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 0.026690684977771387,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 1925
    },
    {
      "epoch": 0.10272,
      "grad_norm": 0.026618639866638587,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 1926
    },
    {
      "epoch": 0.10277333333333333,
      "grad_norm": 0.02596768822875572,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 1927
    },
    {
      "epoch": 0.10282666666666666,
      "grad_norm": 0.028649441489260408,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 1928
    },
    {
      "epoch": 0.10288,
      "grad_norm": 0.026475914507270742,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 1929
    },
    {
      "epoch": 0.10293333333333334,
      "grad_norm": 0.027746107603944192,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 1930
    },
    {
      "epoch": 0.10298666666666667,
      "grad_norm": 0.02657877018326379,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1931
    },
    {
      "epoch": 0.10304,
      "grad_norm": 0.02999225571761472,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 1932
    },
    {
      "epoch": 0.10309333333333333,
      "grad_norm": 0.02461548146482592,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 1933
    },
    {
      "epoch": 0.10314666666666666,
      "grad_norm": 0.025478776721493405,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 1934
    },
    {
      "epoch": 0.1032,
      "grad_norm": 0.027208605498652963,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1935
    },
    {
      "epoch": 0.10325333333333334,
      "grad_norm": 0.02392304188911514,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1936
    },
    {
      "epoch": 0.10330666666666667,
      "grad_norm": 0.026268404338796923,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 1937
    },
    {
      "epoch": 0.10336,
      "grad_norm": 0.026412222358779425,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 1938
    },
    {
      "epoch": 0.10341333333333333,
      "grad_norm": 0.025308864875314037,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 1939
    },
    {
      "epoch": 0.10346666666666667,
      "grad_norm": 0.02683519855809526,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 1940
    },
    {
      "epoch": 0.10352,
      "grad_norm": 0.02487007182962759,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1941
    },
    {
      "epoch": 0.10357333333333334,
      "grad_norm": 0.02548284013803566,
      "learning_rate": 0.0001,
      "loss": 1.0293,
      "step": 1942
    },
    {
      "epoch": 0.10362666666666667,
      "grad_norm": 0.027483480805573564,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 1943
    },
    {
      "epoch": 0.10368,
      "grad_norm": 0.025357852215251633,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 1944
    },
    {
      "epoch": 0.10373333333333333,
      "grad_norm": 0.024417443712794525,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 1945
    },
    {
      "epoch": 0.10378666666666667,
      "grad_norm": 0.025212515050863245,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1946
    },
    {
      "epoch": 0.10384,
      "grad_norm": 0.02715287927450849,
      "learning_rate": 0.0001,
      "loss": 1.0888,
      "step": 1947
    },
    {
      "epoch": 0.10389333333333334,
      "grad_norm": 0.02464481080682214,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 1948
    },
    {
      "epoch": 0.10394666666666667,
      "grad_norm": 0.025267557867188442,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1949
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.026403671552678303,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 1950
    },
    {
      "epoch": 0.10405333333333333,
      "grad_norm": 0.02660930428931585,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1951
    },
    {
      "epoch": 0.10410666666666667,
      "grad_norm": 0.02559204134810665,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 1952
    },
    {
      "epoch": 0.10416,
      "grad_norm": 0.02833656163479924,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 1953
    },
    {
      "epoch": 0.10421333333333334,
      "grad_norm": 0.025026132686761626,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 1954
    },
    {
      "epoch": 0.10426666666666666,
      "grad_norm": 0.027099366214257754,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 1955
    },
    {
      "epoch": 0.10432,
      "grad_norm": 0.026555571292262853,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 1956
    },
    {
      "epoch": 0.10437333333333333,
      "grad_norm": 0.02766922898797857,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 1957
    },
    {
      "epoch": 0.10442666666666667,
      "grad_norm": 0.027884693599386702,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1958
    },
    {
      "epoch": 0.10448,
      "grad_norm": 0.02750964309412206,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 1959
    },
    {
      "epoch": 0.10453333333333334,
      "grad_norm": 0.027391580582628857,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 1960
    },
    {
      "epoch": 0.10458666666666666,
      "grad_norm": 0.028291123470079015,
      "learning_rate": 0.0001,
      "loss": 1.0661,
      "step": 1961
    },
    {
      "epoch": 0.10464,
      "grad_norm": 0.024367357579490802,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 1962
    },
    {
      "epoch": 0.10469333333333333,
      "grad_norm": 0.026896705245996903,
      "learning_rate": 0.0001,
      "loss": 1.048,
      "step": 1963
    },
    {
      "epoch": 0.10474666666666667,
      "grad_norm": 0.024014784925605673,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 1964
    },
    {
      "epoch": 0.1048,
      "grad_norm": 0.02624009237364406,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1965
    },
    {
      "epoch": 0.10485333333333334,
      "grad_norm": 0.026485778716663005,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 1966
    },
    {
      "epoch": 0.10490666666666666,
      "grad_norm": 0.02696097436545561,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 1967
    },
    {
      "epoch": 0.10496,
      "grad_norm": 0.025456156688193687,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 1968
    },
    {
      "epoch": 0.10501333333333333,
      "grad_norm": 0.025841252224660004,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 1969
    },
    {
      "epoch": 0.10506666666666667,
      "grad_norm": 0.026600776297318815,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1970
    },
    {
      "epoch": 0.10512,
      "grad_norm": 0.024445464919730178,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 1971
    },
    {
      "epoch": 0.10517333333333333,
      "grad_norm": 0.027320711199589585,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 1972
    },
    {
      "epoch": 0.10522666666666666,
      "grad_norm": 0.0271909061216866,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 1973
    },
    {
      "epoch": 0.10528,
      "grad_norm": 0.02668642502060246,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1974
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.02692076832247553,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 1975
    },
    {
      "epoch": 0.10538666666666667,
      "grad_norm": 0.02911911198221922,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1976
    },
    {
      "epoch": 0.10544,
      "grad_norm": 0.026305641868667337,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 1977
    },
    {
      "epoch": 0.10549333333333333,
      "grad_norm": 0.027819519887910694,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 1978
    },
    {
      "epoch": 0.10554666666666666,
      "grad_norm": 0.028878339990009338,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1979
    },
    {
      "epoch": 0.1056,
      "grad_norm": 0.024715884763626402,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1980
    },
    {
      "epoch": 0.10565333333333334,
      "grad_norm": 0.026698224581276256,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1981
    },
    {
      "epoch": 0.10570666666666667,
      "grad_norm": 0.026797746759935723,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1982
    },
    {
      "epoch": 0.10576,
      "grad_norm": 0.02637697289529258,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 1983
    },
    {
      "epoch": 0.10581333333333333,
      "grad_norm": 0.027490889894038525,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 1984
    },
    {
      "epoch": 0.10586666666666666,
      "grad_norm": 0.028784755916305305,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 1985
    },
    {
      "epoch": 0.10592,
      "grad_norm": 0.026430533461847344,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 1986
    },
    {
      "epoch": 0.10597333333333334,
      "grad_norm": 0.02771385361866348,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 1987
    },
    {
      "epoch": 0.10602666666666667,
      "grad_norm": 0.025820626387133817,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 1988
    },
    {
      "epoch": 0.10608,
      "grad_norm": 0.02501093499965385,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 1989
    },
    {
      "epoch": 0.10613333333333333,
      "grad_norm": 0.025393065878287234,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 1990
    },
    {
      "epoch": 0.10618666666666667,
      "grad_norm": 0.02433525861005163,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 1991
    },
    {
      "epoch": 0.10624,
      "grad_norm": 0.025743988477036673,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 1992
    },
    {
      "epoch": 0.10629333333333334,
      "grad_norm": 0.024186730462006176,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 1993
    },
    {
      "epoch": 0.10634666666666667,
      "grad_norm": 0.024408849496376284,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1994
    },
    {
      "epoch": 0.1064,
      "grad_norm": 0.02531392651852765,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 1995
    },
    {
      "epoch": 0.10645333333333333,
      "grad_norm": 0.02397712578046048,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 1996
    },
    {
      "epoch": 0.10650666666666667,
      "grad_norm": 0.0249083873345864,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 1997
    },
    {
      "epoch": 0.10656,
      "grad_norm": 0.02596409446287122,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1998
    },
    {
      "epoch": 0.10661333333333334,
      "grad_norm": 0.02387360256428351,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 1999
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.027009784346743636,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 2000
    },
    {
      "epoch": 0.10666666666666667,
      "eval_accuracy": 0.6123432930393983,
      "eval_loss": 1.3981534242630005,
      "eval_runtime": 63.8076,
      "eval_samples_per_second": 15.672,
      "eval_steps_per_second": 0.502,
      "step": 2000
    },
    {
      "epoch": 0.10672,
      "grad_norm": 0.027742784353426045,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 2001
    },
    {
      "epoch": 0.10677333333333333,
      "grad_norm": 0.027769249333219316,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2002
    },
    {
      "epoch": 0.10682666666666667,
      "grad_norm": 0.026781943052861093,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 2003
    },
    {
      "epoch": 0.10688,
      "grad_norm": 0.02779960157225846,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 2004
    },
    {
      "epoch": 0.10693333333333334,
      "grad_norm": 0.025469473704442438,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 2005
    },
    {
      "epoch": 0.10698666666666666,
      "grad_norm": 0.023461746510397025,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 2006
    },
    {
      "epoch": 0.10704,
      "grad_norm": 0.02535358148092865,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 2007
    },
    {
      "epoch": 0.10709333333333333,
      "grad_norm": 0.024463807766439652,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 2008
    },
    {
      "epoch": 0.10714666666666667,
      "grad_norm": 0.025121991933841827,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2009
    },
    {
      "epoch": 0.1072,
      "grad_norm": 0.025142435222194854,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 2010
    },
    {
      "epoch": 0.10725333333333334,
      "grad_norm": 0.026532337434997024,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 2011
    },
    {
      "epoch": 0.10730666666666666,
      "grad_norm": 0.025678967032873416,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 2012
    },
    {
      "epoch": 0.10736,
      "grad_norm": 0.02638969883814826,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2013
    },
    {
      "epoch": 0.10741333333333333,
      "grad_norm": 0.027287102957817756,
      "learning_rate": 0.0001,
      "loss": 1.0369,
      "step": 2014
    },
    {
      "epoch": 0.10746666666666667,
      "grad_norm": 0.02433789329818884,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 2015
    },
    {
      "epoch": 0.10752,
      "grad_norm": 0.026432855369620846,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2016
    },
    {
      "epoch": 0.10757333333333334,
      "grad_norm": 0.0250285047702418,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2017
    },
    {
      "epoch": 0.10762666666666666,
      "grad_norm": 0.025969295652722393,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2018
    },
    {
      "epoch": 0.10768,
      "grad_norm": 0.026765351775885002,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 2019
    },
    {
      "epoch": 0.10773333333333333,
      "grad_norm": 0.028706935050714335,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 2020
    },
    {
      "epoch": 0.10778666666666667,
      "grad_norm": 0.02514746546500298,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 2021
    },
    {
      "epoch": 0.10784,
      "grad_norm": 0.0276558051163848,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 2022
    },
    {
      "epoch": 0.10789333333333333,
      "grad_norm": 0.029356735832268208,
      "learning_rate": 0.0001,
      "loss": 1.0651,
      "step": 2023
    },
    {
      "epoch": 0.10794666666666666,
      "grad_norm": 0.02426845761695361,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 2024
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.025014991705868496,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 2025
    },
    {
      "epoch": 0.10805333333333333,
      "grad_norm": 0.024023155685142905,
      "learning_rate": 0.0001,
      "loss": 1.0757,
      "step": 2026
    },
    {
      "epoch": 0.10810666666666667,
      "grad_norm": 0.023053028889462587,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 2027
    },
    {
      "epoch": 0.10816,
      "grad_norm": 0.025082387792870926,
      "learning_rate": 0.0001,
      "loss": 1.0642,
      "step": 2028
    },
    {
      "epoch": 0.10821333333333333,
      "grad_norm": 0.024912207721723933,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 2029
    },
    {
      "epoch": 0.10826666666666666,
      "grad_norm": 0.027902969002500187,
      "learning_rate": 0.0001,
      "loss": 1.0534,
      "step": 2030
    },
    {
      "epoch": 0.10832,
      "grad_norm": 0.025225899202238954,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2031
    },
    {
      "epoch": 0.10837333333333334,
      "grad_norm": 0.028384338649014844,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 2032
    },
    {
      "epoch": 0.10842666666666667,
      "grad_norm": 0.02722072073030891,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2033
    },
    {
      "epoch": 0.10848,
      "grad_norm": 0.02491788083447504,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 2034
    },
    {
      "epoch": 0.10853333333333333,
      "grad_norm": 0.027438717639746334,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2035
    },
    {
      "epoch": 0.10858666666666666,
      "grad_norm": 0.027217281258194913,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 2036
    },
    {
      "epoch": 0.10864,
      "grad_norm": 0.02860720024638957,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 2037
    },
    {
      "epoch": 0.10869333333333334,
      "grad_norm": 0.028686436736618588,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 2038
    },
    {
      "epoch": 0.10874666666666667,
      "grad_norm": 0.027651875297500104,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 2039
    },
    {
      "epoch": 0.1088,
      "grad_norm": 0.029419184242827155,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 2040
    },
    {
      "epoch": 0.10885333333333333,
      "grad_norm": 0.028633842914572116,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 2041
    },
    {
      "epoch": 0.10890666666666667,
      "grad_norm": 0.02608425873008601,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 2042
    },
    {
      "epoch": 0.10896,
      "grad_norm": 0.02848020612327443,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 2043
    },
    {
      "epoch": 0.10901333333333334,
      "grad_norm": 0.025439913900451142,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 2044
    },
    {
      "epoch": 0.10906666666666667,
      "grad_norm": 0.027209960957807634,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 2045
    },
    {
      "epoch": 0.10912,
      "grad_norm": 0.02957948621369767,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2046
    },
    {
      "epoch": 0.10917333333333333,
      "grad_norm": 0.02719346865932927,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 2047
    },
    {
      "epoch": 0.10922666666666667,
      "grad_norm": 0.026246616476969225,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 2048
    },
    {
      "epoch": 0.10928,
      "grad_norm": 0.030369343364549398,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 2049
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 0.027175235093055555,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 2050
    },
    {
      "epoch": 0.10938666666666666,
      "grad_norm": 0.026846670429355204,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 2051
    },
    {
      "epoch": 0.10944,
      "grad_norm": 0.026511130866680003,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 2052
    },
    {
      "epoch": 0.10949333333333333,
      "grad_norm": 0.031949039533228495,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 2053
    },
    {
      "epoch": 0.10954666666666667,
      "grad_norm": 0.02557427169446271,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 2054
    },
    {
      "epoch": 0.1096,
      "grad_norm": 0.02604242031391767,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 2055
    },
    {
      "epoch": 0.10965333333333334,
      "grad_norm": 0.028615658723816117,
      "learning_rate": 0.0001,
      "loss": 1.0614,
      "step": 2056
    },
    {
      "epoch": 0.10970666666666666,
      "grad_norm": 0.024816087769466352,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 2057
    },
    {
      "epoch": 0.10976,
      "grad_norm": 0.026815582701237864,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 2058
    },
    {
      "epoch": 0.10981333333333333,
      "grad_norm": 0.0262103891548872,
      "learning_rate": 0.0001,
      "loss": 1.064,
      "step": 2059
    },
    {
      "epoch": 0.10986666666666667,
      "grad_norm": 0.025708121771794955,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 2060
    },
    {
      "epoch": 0.10992,
      "grad_norm": 0.027747267004105354,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 2061
    },
    {
      "epoch": 0.10997333333333334,
      "grad_norm": 0.02484047787658274,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 2062
    },
    {
      "epoch": 0.11002666666666666,
      "grad_norm": 0.027922309626286668,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 2063
    },
    {
      "epoch": 0.11008,
      "grad_norm": 0.025017010434681238,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 2064
    },
    {
      "epoch": 0.11013333333333333,
      "grad_norm": 0.0248505692191287,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2065
    },
    {
      "epoch": 0.11018666666666667,
      "grad_norm": 0.029069271241668932,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 2066
    },
    {
      "epoch": 0.11024,
      "grad_norm": 0.02548443556454319,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 2067
    },
    {
      "epoch": 0.11029333333333333,
      "grad_norm": 0.028869277951330336,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 2068
    },
    {
      "epoch": 0.11034666666666666,
      "grad_norm": 0.02637719041733675,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2069
    },
    {
      "epoch": 0.1104,
      "grad_norm": 0.025214657186896777,
      "learning_rate": 0.0001,
      "loss": 1.0306,
      "step": 2070
    },
    {
      "epoch": 0.11045333333333333,
      "grad_norm": 0.0275084818588604,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 2071
    },
    {
      "epoch": 0.11050666666666667,
      "grad_norm": 0.025966631301063817,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2072
    },
    {
      "epoch": 0.11056,
      "grad_norm": 0.024043813656554454,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 2073
    },
    {
      "epoch": 0.11061333333333333,
      "grad_norm": 0.026358396195291314,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 2074
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.02733722459492818,
      "learning_rate": 0.0001,
      "loss": 1.0452,
      "step": 2075
    },
    {
      "epoch": 0.11072,
      "grad_norm": 0.026535197720730642,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 2076
    },
    {
      "epoch": 0.11077333333333333,
      "grad_norm": 0.02685990440864437,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 2077
    },
    {
      "epoch": 0.11082666666666667,
      "grad_norm": 0.026634582996653902,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 2078
    },
    {
      "epoch": 0.11088,
      "grad_norm": 0.027176844352423287,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 2079
    },
    {
      "epoch": 0.11093333333333333,
      "grad_norm": 0.02575597278270332,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 2080
    },
    {
      "epoch": 0.11098666666666666,
      "grad_norm": 0.024559954273952165,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 2081
    },
    {
      "epoch": 0.11104,
      "grad_norm": 0.024950386761133706,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 2082
    },
    {
      "epoch": 0.11109333333333334,
      "grad_norm": 0.023868522128561987,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2083
    },
    {
      "epoch": 0.11114666666666667,
      "grad_norm": 0.026421875590016245,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 2084
    },
    {
      "epoch": 0.1112,
      "grad_norm": 0.023669395488374222,
      "learning_rate": 0.0001,
      "loss": 1.0959,
      "step": 2085
    },
    {
      "epoch": 0.11125333333333333,
      "grad_norm": 0.024661938863483116,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 2086
    },
    {
      "epoch": 0.11130666666666666,
      "grad_norm": 0.023881553735706013,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2087
    },
    {
      "epoch": 0.11136,
      "grad_norm": 0.02488575308248183,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2088
    },
    {
      "epoch": 0.11141333333333334,
      "grad_norm": 0.02443067274307477,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 2089
    },
    {
      "epoch": 0.11146666666666667,
      "grad_norm": 0.02393087303245719,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 2090
    },
    {
      "epoch": 0.11152,
      "grad_norm": 0.02510129848522317,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 2091
    },
    {
      "epoch": 0.11157333333333333,
      "grad_norm": 0.024360672155185965,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 2092
    },
    {
      "epoch": 0.11162666666666667,
      "grad_norm": 0.027495095082865333,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 2093
    },
    {
      "epoch": 0.11168,
      "grad_norm": 0.024597163069599224,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 2094
    },
    {
      "epoch": 0.11173333333333334,
      "grad_norm": 0.02548759606357906,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 2095
    },
    {
      "epoch": 0.11178666666666667,
      "grad_norm": 0.02388532768351436,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 2096
    },
    {
      "epoch": 0.11184,
      "grad_norm": 0.025241366364395747,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 2097
    },
    {
      "epoch": 0.11189333333333333,
      "grad_norm": 0.024283780621253408,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2098
    },
    {
      "epoch": 0.11194666666666667,
      "grad_norm": 0.02397924849142294,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 2099
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.02394590902714468,
      "learning_rate": 0.0001,
      "loss": 1.0271,
      "step": 2100
    },
    {
      "epoch": 0.11205333333333334,
      "grad_norm": 0.026508119620060958,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 2101
    },
    {
      "epoch": 0.11210666666666666,
      "grad_norm": 0.023689860835280314,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 2102
    },
    {
      "epoch": 0.11216,
      "grad_norm": 0.024299791428500254,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 2103
    },
    {
      "epoch": 0.11221333333333333,
      "grad_norm": 0.024697222950058634,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 2104
    },
    {
      "epoch": 0.11226666666666667,
      "grad_norm": 0.025070019023772858,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2105
    },
    {
      "epoch": 0.11232,
      "grad_norm": 0.024426040661199272,
      "learning_rate": 0.0001,
      "loss": 0.9113,
      "step": 2106
    },
    {
      "epoch": 0.11237333333333334,
      "grad_norm": 0.025437384340030518,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2107
    },
    {
      "epoch": 0.11242666666666666,
      "grad_norm": 0.024405281651730414,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 2108
    },
    {
      "epoch": 0.11248,
      "grad_norm": 0.026111820242574746,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 2109
    },
    {
      "epoch": 0.11253333333333333,
      "grad_norm": 0.025403810037248894,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 2110
    },
    {
      "epoch": 0.11258666666666667,
      "grad_norm": 0.02344339304681239,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 2111
    },
    {
      "epoch": 0.11264,
      "grad_norm": 0.02547941289802202,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2112
    },
    {
      "epoch": 0.11269333333333334,
      "grad_norm": 0.02653567149376508,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 2113
    },
    {
      "epoch": 0.11274666666666666,
      "grad_norm": 0.025806705609436546,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 2114
    },
    {
      "epoch": 0.1128,
      "grad_norm": 0.02632978171864206,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2115
    },
    {
      "epoch": 0.11285333333333333,
      "grad_norm": 0.028726545421277293,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2116
    },
    {
      "epoch": 0.11290666666666667,
      "grad_norm": 0.029537317447038802,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 2117
    },
    {
      "epoch": 0.11296,
      "grad_norm": 0.025566935821927088,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 2118
    },
    {
      "epoch": 0.11301333333333333,
      "grad_norm": 0.026348353325164157,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 2119
    },
    {
      "epoch": 0.11306666666666666,
      "grad_norm": 0.028456596938348695,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2120
    },
    {
      "epoch": 0.11312,
      "grad_norm": 0.025711155782399922,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2121
    },
    {
      "epoch": 0.11317333333333333,
      "grad_norm": 0.026831048992979282,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 2122
    },
    {
      "epoch": 0.11322666666666667,
      "grad_norm": 0.026519774545114165,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 2123
    },
    {
      "epoch": 0.11328,
      "grad_norm": 0.02561187419602871,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 2124
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.02499713023744051,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 2125
    },
    {
      "epoch": 0.11338666666666666,
      "grad_norm": 0.027188142557324994,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2126
    },
    {
      "epoch": 0.11344,
      "grad_norm": 0.025829479945882833,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 2127
    },
    {
      "epoch": 0.11349333333333333,
      "grad_norm": 0.025590529280256548,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2128
    },
    {
      "epoch": 0.11354666666666667,
      "grad_norm": 0.025105861896526208,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 2129
    },
    {
      "epoch": 0.1136,
      "grad_norm": 0.02478240323442967,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 2130
    },
    {
      "epoch": 0.11365333333333333,
      "grad_norm": 0.026729487245765175,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 2131
    },
    {
      "epoch": 0.11370666666666666,
      "grad_norm": 0.024163514705901116,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 2132
    },
    {
      "epoch": 0.11376,
      "grad_norm": 0.0251970161349959,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 2133
    },
    {
      "epoch": 0.11381333333333334,
      "grad_norm": 0.025548084977616705,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2134
    },
    {
      "epoch": 0.11386666666666667,
      "grad_norm": 0.02558494837667576,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 2135
    },
    {
      "epoch": 0.11392,
      "grad_norm": 0.026479998889485264,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 2136
    },
    {
      "epoch": 0.11397333333333333,
      "grad_norm": 0.02669569326000752,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2137
    },
    {
      "epoch": 0.11402666666666667,
      "grad_norm": 0.028505811579913533,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 2138
    },
    {
      "epoch": 0.11408,
      "grad_norm": 0.025834098851613738,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 2139
    },
    {
      "epoch": 0.11413333333333334,
      "grad_norm": 0.028263465436620748,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 2140
    },
    {
      "epoch": 0.11418666666666667,
      "grad_norm": 0.025028575761081327,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 2141
    },
    {
      "epoch": 0.11424,
      "grad_norm": 0.02491420736179301,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 2142
    },
    {
      "epoch": 0.11429333333333333,
      "grad_norm": 0.025524255050032047,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 2143
    },
    {
      "epoch": 0.11434666666666667,
      "grad_norm": 0.023813079788056524,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2144
    },
    {
      "epoch": 0.1144,
      "grad_norm": 0.02582461420766471,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 2145
    },
    {
      "epoch": 0.11445333333333334,
      "grad_norm": 0.025470043529205722,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 2146
    },
    {
      "epoch": 0.11450666666666667,
      "grad_norm": 0.024923656566735803,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 2147
    },
    {
      "epoch": 0.11456,
      "grad_norm": 0.025511512300976848,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2148
    },
    {
      "epoch": 0.11461333333333333,
      "grad_norm": 0.02640557009199673,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 2149
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.02408924397605639,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 2150
    },
    {
      "epoch": 0.11472,
      "grad_norm": 0.02631311666127592,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2151
    },
    {
      "epoch": 0.11477333333333334,
      "grad_norm": 0.024600700473147004,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 2152
    },
    {
      "epoch": 0.11482666666666666,
      "grad_norm": 0.02501648714994939,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 2153
    },
    {
      "epoch": 0.11488,
      "grad_norm": 0.02395526142938342,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 2154
    },
    {
      "epoch": 0.11493333333333333,
      "grad_norm": 0.024870331139526258,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2155
    },
    {
      "epoch": 0.11498666666666667,
      "grad_norm": 0.023881387043714664,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2156
    },
    {
      "epoch": 0.11504,
      "grad_norm": 0.027182444619142862,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 2157
    },
    {
      "epoch": 0.11509333333333334,
      "grad_norm": 0.026538848672725667,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 2158
    },
    {
      "epoch": 0.11514666666666666,
      "grad_norm": 0.029701252435740746,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 2159
    },
    {
      "epoch": 0.1152,
      "grad_norm": 0.025367714095643784,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 2160
    },
    {
      "epoch": 0.11525333333333333,
      "grad_norm": 0.025827633540537614,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 2161
    },
    {
      "epoch": 0.11530666666666667,
      "grad_norm": 0.026948062670853628,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2162
    },
    {
      "epoch": 0.11536,
      "grad_norm": 0.02699895684854266,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2163
    },
    {
      "epoch": 0.11541333333333334,
      "grad_norm": 0.028115170220504845,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 2164
    },
    {
      "epoch": 0.11546666666666666,
      "grad_norm": 0.02346122533434368,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 2165
    },
    {
      "epoch": 0.11552,
      "grad_norm": 0.024809099692921464,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2166
    },
    {
      "epoch": 0.11557333333333333,
      "grad_norm": 0.025255762490050567,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 2167
    },
    {
      "epoch": 0.11562666666666667,
      "grad_norm": 0.025471629978375272,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 2168
    },
    {
      "epoch": 0.11568,
      "grad_norm": 0.026934947170753842,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 2169
    },
    {
      "epoch": 0.11573333333333333,
      "grad_norm": 0.025141800537033892,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 2170
    },
    {
      "epoch": 0.11578666666666666,
      "grad_norm": 0.02587008193707526,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2171
    },
    {
      "epoch": 0.11584,
      "grad_norm": 0.023292921017200426,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 2172
    },
    {
      "epoch": 0.11589333333333333,
      "grad_norm": 0.025524203599054412,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 2173
    },
    {
      "epoch": 0.11594666666666667,
      "grad_norm": 0.028251193599291128,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 2174
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.027883744965098843,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 2175
    },
    {
      "epoch": 0.11605333333333333,
      "grad_norm": 0.025414836198772932,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 2176
    },
    {
      "epoch": 0.11610666666666666,
      "grad_norm": 0.02749178847621007,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2177
    },
    {
      "epoch": 0.11616,
      "grad_norm": 0.02900638392204523,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 2178
    },
    {
      "epoch": 0.11621333333333334,
      "grad_norm": 0.026942494721799375,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 2179
    },
    {
      "epoch": 0.11626666666666667,
      "grad_norm": 0.03020466338435861,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 2180
    },
    {
      "epoch": 0.11632,
      "grad_norm": 0.026672907941511715,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 2181
    },
    {
      "epoch": 0.11637333333333333,
      "grad_norm": 0.02585952896216991,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 2182
    },
    {
      "epoch": 0.11642666666666666,
      "grad_norm": 0.031111452523205397,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 2183
    },
    {
      "epoch": 0.11648,
      "grad_norm": 0.027303613813678938,
      "learning_rate": 0.0001,
      "loss": 1.035,
      "step": 2184
    },
    {
      "epoch": 0.11653333333333334,
      "grad_norm": 0.02607216215240182,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 2185
    },
    {
      "epoch": 0.11658666666666667,
      "grad_norm": 0.0252004913760288,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 2186
    },
    {
      "epoch": 0.11664,
      "grad_norm": 0.025978245350445496,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 2187
    },
    {
      "epoch": 0.11669333333333333,
      "grad_norm": 0.0249562201003815,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2188
    },
    {
      "epoch": 0.11674666666666667,
      "grad_norm": 0.02659815952995092,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 2189
    },
    {
      "epoch": 0.1168,
      "grad_norm": 0.023313342383045953,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 2190
    },
    {
      "epoch": 0.11685333333333334,
      "grad_norm": 0.024586920277902588,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 2191
    },
    {
      "epoch": 0.11690666666666667,
      "grad_norm": 0.02635315315740599,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2192
    },
    {
      "epoch": 0.11696,
      "grad_norm": 0.026663139144916567,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 2193
    },
    {
      "epoch": 0.11701333333333333,
      "grad_norm": 0.029163529836532632,
      "learning_rate": 0.0001,
      "loss": 1.0636,
      "step": 2194
    },
    {
      "epoch": 0.11706666666666667,
      "grad_norm": 0.02375087992844998,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2195
    },
    {
      "epoch": 0.11712,
      "grad_norm": 0.02704762426529672,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2196
    },
    {
      "epoch": 0.11717333333333334,
      "grad_norm": 0.025275270574401557,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2197
    },
    {
      "epoch": 0.11722666666666667,
      "grad_norm": 0.025901552150734145,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 2198
    },
    {
      "epoch": 0.11728,
      "grad_norm": 0.024033233245106006,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 2199
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.027105058366041383,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 2200
    },
    {
      "epoch": 0.11733333333333333,
      "eval_accuracy": 0.6128739637526313,
      "eval_loss": 1.395006537437439,
      "eval_runtime": 63.1586,
      "eval_samples_per_second": 15.833,
      "eval_steps_per_second": 0.507,
      "step": 2200
    },
    {
      "epoch": 0.11738666666666667,
      "grad_norm": 0.02478482517119919,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 2201
    },
    {
      "epoch": 0.11744,
      "grad_norm": 0.027570169184380912,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2202
    },
    {
      "epoch": 0.11749333333333334,
      "grad_norm": 0.02711610687161766,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 2203
    },
    {
      "epoch": 0.11754666666666666,
      "grad_norm": 0.024089632198276825,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 2204
    },
    {
      "epoch": 0.1176,
      "grad_norm": 0.029024347408009934,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 2205
    },
    {
      "epoch": 0.11765333333333333,
      "grad_norm": 0.023486078775297677,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 2206
    },
    {
      "epoch": 0.11770666666666667,
      "grad_norm": 0.02488725243225441,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 2207
    },
    {
      "epoch": 0.11776,
      "grad_norm": 0.028135197386752013,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2208
    },
    {
      "epoch": 0.11781333333333334,
      "grad_norm": 0.02409954318468765,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2209
    },
    {
      "epoch": 0.11786666666666666,
      "grad_norm": 0.028528765087592327,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2210
    },
    {
      "epoch": 0.11792,
      "grad_norm": 0.02638979909472164,
      "learning_rate": 0.0001,
      "loss": 1.0691,
      "step": 2211
    },
    {
      "epoch": 0.11797333333333333,
      "grad_norm": 0.026060209929790926,
      "learning_rate": 0.0001,
      "loss": 1.0652,
      "step": 2212
    },
    {
      "epoch": 0.11802666666666667,
      "grad_norm": 0.025195091875581544,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 2213
    },
    {
      "epoch": 0.11808,
      "grad_norm": 0.024691992479500754,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 2214
    },
    {
      "epoch": 0.11813333333333334,
      "grad_norm": 0.025585358124083066,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 2215
    },
    {
      "epoch": 0.11818666666666666,
      "grad_norm": 0.02671291736365302,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 2216
    },
    {
      "epoch": 0.11824,
      "grad_norm": 0.02659700390525089,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 2217
    },
    {
      "epoch": 0.11829333333333333,
      "grad_norm": 0.027240987325132637,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2218
    },
    {
      "epoch": 0.11834666666666667,
      "grad_norm": 0.027643460931971717,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 2219
    },
    {
      "epoch": 0.1184,
      "grad_norm": 0.027329912138762465,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 2220
    },
    {
      "epoch": 0.11845333333333333,
      "grad_norm": 0.024115136954137383,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 2221
    },
    {
      "epoch": 0.11850666666666666,
      "grad_norm": 0.026424180147690456,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2222
    },
    {
      "epoch": 0.11856,
      "grad_norm": 0.025253483946143088,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 2223
    },
    {
      "epoch": 0.11861333333333333,
      "grad_norm": 0.024878362585387635,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 2224
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.024217331106613057,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 2225
    },
    {
      "epoch": 0.11872,
      "grad_norm": 0.026135317848791136,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2226
    },
    {
      "epoch": 0.11877333333333333,
      "grad_norm": 0.022600537355349896,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 2227
    },
    {
      "epoch": 0.11882666666666666,
      "grad_norm": 0.024101452305747527,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 2228
    },
    {
      "epoch": 0.11888,
      "grad_norm": 0.02909712696665901,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 2229
    },
    {
      "epoch": 0.11893333333333334,
      "grad_norm": 0.024348529252693325,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 2230
    },
    {
      "epoch": 0.11898666666666667,
      "grad_norm": 0.023139462152396536,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2231
    },
    {
      "epoch": 0.11904,
      "grad_norm": 0.025573246889224053,
      "learning_rate": 0.0001,
      "loss": 1.0592,
      "step": 2232
    },
    {
      "epoch": 0.11909333333333333,
      "grad_norm": 0.0265533180260822,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 2233
    },
    {
      "epoch": 0.11914666666666666,
      "grad_norm": 0.024775480491924913,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 2234
    },
    {
      "epoch": 0.1192,
      "grad_norm": 0.02791296818461633,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 2235
    },
    {
      "epoch": 0.11925333333333334,
      "grad_norm": 0.02493075563355415,
      "learning_rate": 0.0001,
      "loss": 0.9142,
      "step": 2236
    },
    {
      "epoch": 0.11930666666666667,
      "grad_norm": 0.025385716218320677,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 2237
    },
    {
      "epoch": 0.11936,
      "grad_norm": 0.025235061425476768,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2238
    },
    {
      "epoch": 0.11941333333333333,
      "grad_norm": 0.02716148586099377,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 2239
    },
    {
      "epoch": 0.11946666666666667,
      "grad_norm": 0.023903046714259843,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 2240
    },
    {
      "epoch": 0.11952,
      "grad_norm": 0.028375828560216327,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 2241
    },
    {
      "epoch": 0.11957333333333334,
      "grad_norm": 0.02474316461667185,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 2242
    },
    {
      "epoch": 0.11962666666666667,
      "grad_norm": 0.024792544225092108,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2243
    },
    {
      "epoch": 0.11968,
      "grad_norm": 0.0266972827166745,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 2244
    },
    {
      "epoch": 0.11973333333333333,
      "grad_norm": 0.02460394153459942,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 2245
    },
    {
      "epoch": 0.11978666666666667,
      "grad_norm": 0.025426073009645486,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 2246
    },
    {
      "epoch": 0.11984,
      "grad_norm": 0.024972036172600902,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 2247
    },
    {
      "epoch": 0.11989333333333334,
      "grad_norm": 0.026952260205288056,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 2248
    },
    {
      "epoch": 0.11994666666666666,
      "grad_norm": 0.024526908562663072,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2249
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.024264137688234287,
      "learning_rate": 0.0001,
      "loss": 1.0641,
      "step": 2250
    },
    {
      "epoch": 0.12005333333333333,
      "grad_norm": 0.02683594638712846,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 2251
    },
    {
      "epoch": 0.12010666666666667,
      "grad_norm": 0.02575785909783277,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 2252
    },
    {
      "epoch": 0.12016,
      "grad_norm": 0.02507322268481655,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 2253
    },
    {
      "epoch": 0.12021333333333334,
      "grad_norm": 0.025405427393187928,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 2254
    },
    {
      "epoch": 0.12026666666666666,
      "grad_norm": 0.026983804964890206,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 2255
    },
    {
      "epoch": 0.12032,
      "grad_norm": 0.02654267161033317,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2256
    },
    {
      "epoch": 0.12037333333333333,
      "grad_norm": 0.025841584251070332,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 2257
    },
    {
      "epoch": 0.12042666666666667,
      "grad_norm": 0.024024897657589778,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 2258
    },
    {
      "epoch": 0.12048,
      "grad_norm": 0.024679692467250734,
      "learning_rate": 0.0001,
      "loss": 1.0112,
      "step": 2259
    },
    {
      "epoch": 0.12053333333333334,
      "grad_norm": 0.023716317010130623,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 2260
    },
    {
      "epoch": 0.12058666666666666,
      "grad_norm": 0.02545887553813254,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 2261
    },
    {
      "epoch": 0.12064,
      "grad_norm": 0.02561845887876053,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 2262
    },
    {
      "epoch": 0.12069333333333333,
      "grad_norm": 0.024059550123871877,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 2263
    },
    {
      "epoch": 0.12074666666666667,
      "grad_norm": 0.025250166181388367,
      "learning_rate": 0.0001,
      "loss": 1.0552,
      "step": 2264
    },
    {
      "epoch": 0.1208,
      "grad_norm": 0.023607059496769445,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 2265
    },
    {
      "epoch": 0.12085333333333333,
      "grad_norm": 0.02298476421905342,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2266
    },
    {
      "epoch": 0.12090666666666666,
      "grad_norm": 0.026655938457062683,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2267
    },
    {
      "epoch": 0.12096,
      "grad_norm": 0.024828170889288393,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 2268
    },
    {
      "epoch": 0.12101333333333333,
      "grad_norm": 0.027899760042119085,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2269
    },
    {
      "epoch": 0.12106666666666667,
      "grad_norm": 0.025095891605177858,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 2270
    },
    {
      "epoch": 0.12112,
      "grad_norm": 0.025537045908159202,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 2271
    },
    {
      "epoch": 0.12117333333333333,
      "grad_norm": 0.03003173688453457,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 2272
    },
    {
      "epoch": 0.12122666666666666,
      "grad_norm": 0.024338157207714227,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2273
    },
    {
      "epoch": 0.12128,
      "grad_norm": 0.026393140026234618,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 2274
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.025956432948580476,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 2275
    },
    {
      "epoch": 0.12138666666666667,
      "grad_norm": 0.023792936063251446,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2276
    },
    {
      "epoch": 0.12144,
      "grad_norm": 0.02468068989357024,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 2277
    },
    {
      "epoch": 0.12149333333333333,
      "grad_norm": 0.02673159107880864,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2278
    },
    {
      "epoch": 0.12154666666666666,
      "grad_norm": 0.02504438775151449,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 2279
    },
    {
      "epoch": 0.1216,
      "grad_norm": 0.027277504793960152,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2280
    },
    {
      "epoch": 0.12165333333333334,
      "grad_norm": 0.026755016764954603,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 2281
    },
    {
      "epoch": 0.12170666666666667,
      "grad_norm": 0.025003836238070818,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2282
    },
    {
      "epoch": 0.12176,
      "grad_norm": 0.02593767349932197,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2283
    },
    {
      "epoch": 0.12181333333333333,
      "grad_norm": 0.028582759107997076,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 2284
    },
    {
      "epoch": 0.12186666666666666,
      "grad_norm": 0.025686488189980528,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 2285
    },
    {
      "epoch": 0.12192,
      "grad_norm": 0.031207993823977556,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2286
    },
    {
      "epoch": 0.12197333333333334,
      "grad_norm": 0.025392439244568903,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 2287
    },
    {
      "epoch": 0.12202666666666667,
      "grad_norm": 0.025445577594875923,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 2288
    },
    {
      "epoch": 0.12208,
      "grad_norm": 0.026741925094306965,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 2289
    },
    {
      "epoch": 0.12213333333333333,
      "grad_norm": 0.02667242735905432,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 2290
    },
    {
      "epoch": 0.12218666666666667,
      "grad_norm": 0.0237866162073877,
      "learning_rate": 0.0001,
      "loss": 1.0508,
      "step": 2291
    },
    {
      "epoch": 0.12224,
      "grad_norm": 0.027056687542109464,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2292
    },
    {
      "epoch": 0.12229333333333334,
      "grad_norm": 0.02329431378207358,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2293
    },
    {
      "epoch": 0.12234666666666667,
      "grad_norm": 0.026644150280245225,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2294
    },
    {
      "epoch": 0.1224,
      "grad_norm": 0.02417354345914636,
      "learning_rate": 0.0001,
      "loss": 0.9799,
      "step": 2295
    },
    {
      "epoch": 0.12245333333333333,
      "grad_norm": 0.02706610783330873,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2296
    },
    {
      "epoch": 0.12250666666666667,
      "grad_norm": 0.026589492127304427,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 2297
    },
    {
      "epoch": 0.12256,
      "grad_norm": 0.023102243852307632,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 2298
    },
    {
      "epoch": 0.12261333333333334,
      "grad_norm": 0.025783684292017224,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 2299
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.024287853394697745,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2300
    },
    {
      "epoch": 0.12272,
      "grad_norm": 0.02373041746419001,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 2301
    },
    {
      "epoch": 0.12277333333333333,
      "grad_norm": 0.02412243536749563,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 2302
    },
    {
      "epoch": 0.12282666666666667,
      "grad_norm": 0.02486951768026473,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 2303
    },
    {
      "epoch": 0.12288,
      "grad_norm": 0.02603473484554617,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 2304
    },
    {
      "epoch": 0.12293333333333334,
      "grad_norm": 0.023719358418685714,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 2305
    },
    {
      "epoch": 0.12298666666666666,
      "grad_norm": 0.026025718985220988,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 2306
    },
    {
      "epoch": 0.12304,
      "grad_norm": 0.024908400459131515,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 2307
    },
    {
      "epoch": 0.12309333333333333,
      "grad_norm": 0.025320953616971488,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 2308
    },
    {
      "epoch": 0.12314666666666667,
      "grad_norm": 0.02733710781460175,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 2309
    },
    {
      "epoch": 0.1232,
      "grad_norm": 0.02622614362205955,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 2310
    },
    {
      "epoch": 0.12325333333333334,
      "grad_norm": 0.026346971821382466,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 2311
    },
    {
      "epoch": 0.12330666666666666,
      "grad_norm": 0.025951277406270068,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 2312
    },
    {
      "epoch": 0.12336,
      "grad_norm": 0.025561704135771596,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 2313
    },
    {
      "epoch": 0.12341333333333333,
      "grad_norm": 0.025299638498359915,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 2314
    },
    {
      "epoch": 0.12346666666666667,
      "grad_norm": 0.02739093425398755,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 2315
    },
    {
      "epoch": 0.12352,
      "grad_norm": 0.02521513628295191,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 2316
    },
    {
      "epoch": 0.12357333333333333,
      "grad_norm": 0.026189532820918963,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 2317
    },
    {
      "epoch": 0.12362666666666666,
      "grad_norm": 0.023910240059815624,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 2318
    },
    {
      "epoch": 0.12368,
      "grad_norm": 0.02497478094878405,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 2319
    },
    {
      "epoch": 0.12373333333333333,
      "grad_norm": 0.02656036491144507,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2320
    },
    {
      "epoch": 0.12378666666666667,
      "grad_norm": 0.02779863671775531,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2321
    },
    {
      "epoch": 0.12384,
      "grad_norm": 0.026700532236986645,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2322
    },
    {
      "epoch": 0.12389333333333333,
      "grad_norm": 0.0296532015130582,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 2323
    },
    {
      "epoch": 0.12394666666666666,
      "grad_norm": 0.02685835241122253,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 2324
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.02510581740354633,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2325
    },
    {
      "epoch": 0.12405333333333333,
      "grad_norm": 0.028857047104012896,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 2326
    },
    {
      "epoch": 0.12410666666666667,
      "grad_norm": 0.028185509569834233,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2327
    },
    {
      "epoch": 0.12416,
      "grad_norm": 0.02539353861850295,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2328
    },
    {
      "epoch": 0.12421333333333333,
      "grad_norm": 0.03108222333558156,
      "learning_rate": 0.0001,
      "loss": 1.0779,
      "step": 2329
    },
    {
      "epoch": 0.12426666666666666,
      "grad_norm": 0.027972158118336737,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 2330
    },
    {
      "epoch": 0.12432,
      "grad_norm": 0.029512758317712467,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 2331
    },
    {
      "epoch": 0.12437333333333334,
      "grad_norm": 0.0297690540641671,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 2332
    },
    {
      "epoch": 0.12442666666666667,
      "grad_norm": 0.02762344083258665,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 2333
    },
    {
      "epoch": 0.12448,
      "grad_norm": 0.023923237192540314,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 2334
    },
    {
      "epoch": 0.12453333333333333,
      "grad_norm": 0.03038605050438039,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 2335
    },
    {
      "epoch": 0.12458666666666667,
      "grad_norm": 0.026178815528928676,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 2336
    },
    {
      "epoch": 0.12464,
      "grad_norm": 0.024144204676639577,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "step": 2337
    },
    {
      "epoch": 0.12469333333333334,
      "grad_norm": 0.026133992423928703,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2338
    },
    {
      "epoch": 0.12474666666666667,
      "grad_norm": 0.024459517998669,
      "learning_rate": 0.0001,
      "loss": 1.0506,
      "step": 2339
    },
    {
      "epoch": 0.1248,
      "grad_norm": 0.027166214043406883,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 2340
    },
    {
      "epoch": 0.12485333333333333,
      "grad_norm": 0.024912182419569287,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 2341
    },
    {
      "epoch": 0.12490666666666667,
      "grad_norm": 0.025082113393327596,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 2342
    },
    {
      "epoch": 0.12496,
      "grad_norm": 0.025263949997530878,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 2343
    },
    {
      "epoch": 0.12501333333333334,
      "grad_norm": 0.027570713139985187,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 2344
    },
    {
      "epoch": 0.12506666666666666,
      "grad_norm": 0.026262066231156855,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 2345
    },
    {
      "epoch": 0.12512,
      "grad_norm": 0.024540365054332654,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2346
    },
    {
      "epoch": 0.12517333333333333,
      "grad_norm": 0.026731365645079493,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 2347
    },
    {
      "epoch": 0.12522666666666665,
      "grad_norm": 0.023640325089695546,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2348
    },
    {
      "epoch": 0.12528,
      "grad_norm": 0.02703555614219968,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 2349
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.029079870961655145,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 2350
    },
    {
      "epoch": 0.12538666666666667,
      "grad_norm": 0.02597254551271711,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 2351
    },
    {
      "epoch": 0.12544,
      "grad_norm": 0.024751314155041865,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 2352
    },
    {
      "epoch": 0.12549333333333335,
      "grad_norm": 0.02448393101161119,
      "learning_rate": 0.0001,
      "loss": 1.0672,
      "step": 2353
    },
    {
      "epoch": 0.12554666666666667,
      "grad_norm": 0.026098804491193214,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2354
    },
    {
      "epoch": 0.1256,
      "grad_norm": 0.02620008497566,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2355
    },
    {
      "epoch": 0.12565333333333334,
      "grad_norm": 0.02450381694613561,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 2356
    },
    {
      "epoch": 0.12570666666666666,
      "grad_norm": 0.025142600053837505,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2357
    },
    {
      "epoch": 0.12576,
      "grad_norm": 0.0251836775377677,
      "learning_rate": 0.0001,
      "loss": 1.0449,
      "step": 2358
    },
    {
      "epoch": 0.12581333333333333,
      "grad_norm": 0.025141950917241092,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2359
    },
    {
      "epoch": 0.12586666666666665,
      "grad_norm": 0.02767041615324229,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2360
    },
    {
      "epoch": 0.12592,
      "grad_norm": 0.02583453418140071,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 2361
    },
    {
      "epoch": 0.12597333333333333,
      "grad_norm": 0.02474236197058599,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 2362
    },
    {
      "epoch": 0.12602666666666668,
      "grad_norm": 0.02604301268899962,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 2363
    },
    {
      "epoch": 0.12608,
      "grad_norm": 0.026472180865333858,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2364
    },
    {
      "epoch": 0.12613333333333332,
      "grad_norm": 0.023995616953468194,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 2365
    },
    {
      "epoch": 0.12618666666666667,
      "grad_norm": 0.027306594724428146,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 2366
    },
    {
      "epoch": 0.12624,
      "grad_norm": 0.02485576147395608,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 2367
    },
    {
      "epoch": 0.12629333333333334,
      "grad_norm": 0.02669452136723653,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 2368
    },
    {
      "epoch": 0.12634666666666666,
      "grad_norm": 0.030182812358767585,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 2369
    },
    {
      "epoch": 0.1264,
      "grad_norm": 0.027020314733657312,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2370
    },
    {
      "epoch": 0.12645333333333333,
      "grad_norm": 0.02728580794401608,
      "learning_rate": 0.0001,
      "loss": 1.0212,
      "step": 2371
    },
    {
      "epoch": 0.12650666666666666,
      "grad_norm": 0.02690873082005825,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 2372
    },
    {
      "epoch": 0.12656,
      "grad_norm": 0.025090378054911683,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 2373
    },
    {
      "epoch": 0.12661333333333333,
      "grad_norm": 0.025345502004403896,
      "learning_rate": 0.0001,
      "loss": 0.9142,
      "step": 2374
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.026061706156184413,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 2375
    },
    {
      "epoch": 0.12672,
      "grad_norm": 0.02486405372653554,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 2376
    },
    {
      "epoch": 0.12677333333333332,
      "grad_norm": 0.02568641379744047,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2377
    },
    {
      "epoch": 0.12682666666666667,
      "grad_norm": 0.025105387676051152,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 2378
    },
    {
      "epoch": 0.12688,
      "grad_norm": 0.026173299716930904,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 2379
    },
    {
      "epoch": 0.12693333333333334,
      "grad_norm": 0.02879403116005916,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 2380
    },
    {
      "epoch": 0.12698666666666666,
      "grad_norm": 0.02704904926732383,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 2381
    },
    {
      "epoch": 0.12704,
      "grad_norm": 0.025840035082245298,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2382
    },
    {
      "epoch": 0.12709333333333334,
      "grad_norm": 0.025967705431076987,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 2383
    },
    {
      "epoch": 0.12714666666666666,
      "grad_norm": 0.025253734628724867,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 2384
    },
    {
      "epoch": 0.1272,
      "grad_norm": 0.024618778932433166,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 2385
    },
    {
      "epoch": 0.12725333333333333,
      "grad_norm": 0.02653231012833248,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2386
    },
    {
      "epoch": 0.12730666666666668,
      "grad_norm": 0.026717012718468894,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 2387
    },
    {
      "epoch": 0.12736,
      "grad_norm": 0.025581640783423315,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 2388
    },
    {
      "epoch": 0.12741333333333332,
      "grad_norm": 0.02548903571596071,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2389
    },
    {
      "epoch": 0.12746666666666667,
      "grad_norm": 0.02767852990118225,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 2390
    },
    {
      "epoch": 0.12752,
      "grad_norm": 0.026052203453361452,
      "learning_rate": 0.0001,
      "loss": 1.0655,
      "step": 2391
    },
    {
      "epoch": 0.12757333333333334,
      "grad_norm": 0.02534168219379452,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 2392
    },
    {
      "epoch": 0.12762666666666667,
      "grad_norm": 0.026221011247794405,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 2393
    },
    {
      "epoch": 0.12768,
      "grad_norm": 0.02509062530441474,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 2394
    },
    {
      "epoch": 0.12773333333333334,
      "grad_norm": 0.026097979084296764,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 2395
    },
    {
      "epoch": 0.12778666666666666,
      "grad_norm": 0.02510367887266051,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 2396
    },
    {
      "epoch": 0.12784,
      "grad_norm": 0.026264658669516074,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 2397
    },
    {
      "epoch": 0.12789333333333333,
      "grad_norm": 0.025529962480647414,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2398
    },
    {
      "epoch": 0.12794666666666665,
      "grad_norm": 0.025080028405239697,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 2399
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.025360113678051986,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2400
    },
    {
      "epoch": 0.128,
      "eval_accuracy": 0.6133737235702583,
      "eval_loss": 1.3925503492355347,
      "eval_runtime": 63.0259,
      "eval_samples_per_second": 15.866,
      "eval_steps_per_second": 0.508,
      "step": 2400
    },
    {
      "epoch": 0.12805333333333332,
      "grad_norm": 0.027075521786471598,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2401
    },
    {
      "epoch": 0.12810666666666667,
      "grad_norm": 0.02880467614813902,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 2402
    },
    {
      "epoch": 0.12816,
      "grad_norm": 0.026650682993478503,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 2403
    },
    {
      "epoch": 0.12821333333333335,
      "grad_norm": 0.02836891149328657,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 2404
    },
    {
      "epoch": 0.12826666666666667,
      "grad_norm": 0.025603379514517327,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2405
    },
    {
      "epoch": 0.12832,
      "grad_norm": 0.02676535820608139,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "step": 2406
    },
    {
      "epoch": 0.12837333333333334,
      "grad_norm": 0.02599093536549144,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2407
    },
    {
      "epoch": 0.12842666666666666,
      "grad_norm": 0.0271121202558267,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2408
    },
    {
      "epoch": 0.12848,
      "grad_norm": 0.025994231231715684,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2409
    },
    {
      "epoch": 0.12853333333333333,
      "grad_norm": 0.025929592310601626,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 2410
    },
    {
      "epoch": 0.12858666666666665,
      "grad_norm": 0.02707486312618192,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 2411
    },
    {
      "epoch": 0.12864,
      "grad_norm": 0.026292993034618604,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 2412
    },
    {
      "epoch": 0.12869333333333333,
      "grad_norm": 0.02755841232990589,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 2413
    },
    {
      "epoch": 0.12874666666666668,
      "grad_norm": 0.02746351608929294,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2414
    },
    {
      "epoch": 0.1288,
      "grad_norm": 0.02498874824628734,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2415
    },
    {
      "epoch": 0.12885333333333332,
      "grad_norm": 0.025633893473424686,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 2416
    },
    {
      "epoch": 0.12890666666666667,
      "grad_norm": 0.028261768738729338,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2417
    },
    {
      "epoch": 0.12896,
      "grad_norm": 0.024845765337774786,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 2418
    },
    {
      "epoch": 0.12901333333333334,
      "grad_norm": 0.0224777196916003,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 2419
    },
    {
      "epoch": 0.12906666666666666,
      "grad_norm": 0.026297030714830142,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 2420
    },
    {
      "epoch": 0.12912,
      "grad_norm": 0.02724522980083961,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 2421
    },
    {
      "epoch": 0.12917333333333333,
      "grad_norm": 0.024700423410813105,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 2422
    },
    {
      "epoch": 0.12922666666666666,
      "grad_norm": 0.024804525836374856,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 2423
    },
    {
      "epoch": 0.12928,
      "grad_norm": 0.026964047831832507,
      "learning_rate": 0.0001,
      "loss": 1.0614,
      "step": 2424
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.026118136786538113,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 2425
    },
    {
      "epoch": 0.12938666666666668,
      "grad_norm": 0.024866215486403047,
      "learning_rate": 0.0001,
      "loss": 1.0427,
      "step": 2426
    },
    {
      "epoch": 0.12944,
      "grad_norm": 0.02643360598580856,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2427
    },
    {
      "epoch": 0.12949333333333332,
      "grad_norm": 0.02572323700260064,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 2428
    },
    {
      "epoch": 0.12954666666666667,
      "grad_norm": 0.02583573440614129,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 2429
    },
    {
      "epoch": 0.1296,
      "grad_norm": 0.02578171477727797,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 2430
    },
    {
      "epoch": 0.12965333333333334,
      "grad_norm": 0.02651372954792764,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 2431
    },
    {
      "epoch": 0.12970666666666666,
      "grad_norm": 0.026432713056399652,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 2432
    },
    {
      "epoch": 0.12976,
      "grad_norm": 0.027388267153690485,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 2433
    },
    {
      "epoch": 0.12981333333333334,
      "grad_norm": 0.026174403976917855,
      "learning_rate": 0.0001,
      "loss": 0.8993,
      "step": 2434
    },
    {
      "epoch": 0.12986666666666666,
      "grad_norm": 0.024122930540919768,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2435
    },
    {
      "epoch": 0.12992,
      "grad_norm": 0.025666486335540067,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 2436
    },
    {
      "epoch": 0.12997333333333333,
      "grad_norm": 0.026066719904246246,
      "learning_rate": 0.0001,
      "loss": 1.0544,
      "step": 2437
    },
    {
      "epoch": 0.13002666666666668,
      "grad_norm": 0.025182112697953205,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 2438
    },
    {
      "epoch": 0.13008,
      "grad_norm": 0.024535260762843913,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 2439
    },
    {
      "epoch": 0.13013333333333332,
      "grad_norm": 0.024416571145252548,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2440
    },
    {
      "epoch": 0.13018666666666667,
      "grad_norm": 0.02391126898492755,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 2441
    },
    {
      "epoch": 0.13024,
      "grad_norm": 0.024560959142077995,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 2442
    },
    {
      "epoch": 0.13029333333333334,
      "grad_norm": 0.025998225500617603,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2443
    },
    {
      "epoch": 0.13034666666666667,
      "grad_norm": 0.024911989440932737,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 2444
    },
    {
      "epoch": 0.1304,
      "grad_norm": 0.028004916357241998,
      "learning_rate": 0.0001,
      "loss": 1.0212,
      "step": 2445
    },
    {
      "epoch": 0.13045333333333334,
      "grad_norm": 0.024435807169905642,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2446
    },
    {
      "epoch": 0.13050666666666666,
      "grad_norm": 0.02801550106551659,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 2447
    },
    {
      "epoch": 0.13056,
      "grad_norm": 0.025119826258274178,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 2448
    },
    {
      "epoch": 0.13061333333333333,
      "grad_norm": 0.02659907987405048,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 2449
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.025863118885475038,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 2450
    },
    {
      "epoch": 0.13072,
      "grad_norm": 0.02472980560800673,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 2451
    },
    {
      "epoch": 0.13077333333333332,
      "grad_norm": 0.02702333219902197,
      "learning_rate": 0.0001,
      "loss": 1.0346,
      "step": 2452
    },
    {
      "epoch": 0.13082666666666667,
      "grad_norm": 0.024930989847762798,
      "learning_rate": 0.0001,
      "loss": 1.0696,
      "step": 2453
    },
    {
      "epoch": 0.13088,
      "grad_norm": 0.024150482060243804,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 2454
    },
    {
      "epoch": 0.13093333333333335,
      "grad_norm": 0.02364410166627155,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 2455
    },
    {
      "epoch": 0.13098666666666667,
      "grad_norm": 0.023821035101190026,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 2456
    },
    {
      "epoch": 0.13104,
      "grad_norm": 0.023923516597349252,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 2457
    },
    {
      "epoch": 0.13109333333333334,
      "grad_norm": 0.02551790445893866,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 2458
    },
    {
      "epoch": 0.13114666666666666,
      "grad_norm": 0.02483273971393887,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 2459
    },
    {
      "epoch": 0.1312,
      "grad_norm": 0.02461865339019222,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 2460
    },
    {
      "epoch": 0.13125333333333333,
      "grad_norm": 0.02455703558888106,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2461
    },
    {
      "epoch": 0.13130666666666665,
      "grad_norm": 0.02524383031581255,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 2462
    },
    {
      "epoch": 0.13136,
      "grad_norm": 0.02522301412102058,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 2463
    },
    {
      "epoch": 0.13141333333333333,
      "grad_norm": 0.0268511384475676,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 2464
    },
    {
      "epoch": 0.13146666666666668,
      "grad_norm": 0.029099604870096257,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 2465
    },
    {
      "epoch": 0.13152,
      "grad_norm": 0.02741869701032861,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 2466
    },
    {
      "epoch": 0.13157333333333332,
      "grad_norm": 0.029369066447517474,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 2467
    },
    {
      "epoch": 0.13162666666666667,
      "grad_norm": 0.02613223249688684,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 2468
    },
    {
      "epoch": 0.13168,
      "grad_norm": 0.02536596122007687,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 2469
    },
    {
      "epoch": 0.13173333333333334,
      "grad_norm": 0.02719621566525172,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 2470
    },
    {
      "epoch": 0.13178666666666666,
      "grad_norm": 0.028786361560080596,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 2471
    },
    {
      "epoch": 0.13184,
      "grad_norm": 0.025602704222974653,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 2472
    },
    {
      "epoch": 0.13189333333333333,
      "grad_norm": 0.02657073908728971,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2473
    },
    {
      "epoch": 0.13194666666666666,
      "grad_norm": 0.027510085222281606,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2474
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.025618112335544518,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2475
    },
    {
      "epoch": 0.13205333333333333,
      "grad_norm": 0.02570976419270122,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2476
    },
    {
      "epoch": 0.13210666666666668,
      "grad_norm": 0.0246319574090792,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 2477
    },
    {
      "epoch": 0.13216,
      "grad_norm": 0.02920879760455919,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 2478
    },
    {
      "epoch": 0.13221333333333332,
      "grad_norm": 0.024994654669793785,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 2479
    },
    {
      "epoch": 0.13226666666666667,
      "grad_norm": 0.026068430444058675,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 2480
    },
    {
      "epoch": 0.13232,
      "grad_norm": 0.026241739557376725,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 2481
    },
    {
      "epoch": 0.13237333333333334,
      "grad_norm": 0.025162046115399465,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 2482
    },
    {
      "epoch": 0.13242666666666666,
      "grad_norm": 0.024684821347290064,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2483
    },
    {
      "epoch": 0.13248,
      "grad_norm": 0.024299043851432795,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2484
    },
    {
      "epoch": 0.13253333333333334,
      "grad_norm": 0.024998497651999123,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2485
    },
    {
      "epoch": 0.13258666666666666,
      "grad_norm": 0.025150903811544202,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 2486
    },
    {
      "epoch": 0.13264,
      "grad_norm": 0.02344402529837302,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2487
    },
    {
      "epoch": 0.13269333333333333,
      "grad_norm": 0.02633707780924448,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 2488
    },
    {
      "epoch": 0.13274666666666668,
      "grad_norm": 0.025922990723189404,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 2489
    },
    {
      "epoch": 0.1328,
      "grad_norm": 0.02446600879368933,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2490
    },
    {
      "epoch": 0.13285333333333332,
      "grad_norm": 0.02783556649677125,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2491
    },
    {
      "epoch": 0.13290666666666667,
      "grad_norm": 0.02550965999156629,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 2492
    },
    {
      "epoch": 0.13296,
      "grad_norm": 0.023626581358753104,
      "learning_rate": 0.0001,
      "loss": 0.8944,
      "step": 2493
    },
    {
      "epoch": 0.13301333333333334,
      "grad_norm": 0.0272380801041015,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 2494
    },
    {
      "epoch": 0.13306666666666667,
      "grad_norm": 0.024161819465906096,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2495
    },
    {
      "epoch": 0.13312,
      "grad_norm": 0.024038644659621713,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2496
    },
    {
      "epoch": 0.13317333333333334,
      "grad_norm": 0.025690120704842334,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 2497
    },
    {
      "epoch": 0.13322666666666666,
      "grad_norm": 0.025481203037644857,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 2498
    },
    {
      "epoch": 0.13328,
      "grad_norm": 0.025247965401708664,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 2499
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.02604799015353619,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2500
    },
    {
      "epoch": 0.13338666666666665,
      "grad_norm": 0.024398811532141393,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 2501
    },
    {
      "epoch": 0.13344,
      "grad_norm": 0.025160226790277466,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 2502
    },
    {
      "epoch": 0.13349333333333332,
      "grad_norm": 0.024851872008412525,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 2503
    },
    {
      "epoch": 0.13354666666666667,
      "grad_norm": 0.024544597948660426,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 2504
    },
    {
      "epoch": 0.1336,
      "grad_norm": 0.025356448408922747,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 2505
    },
    {
      "epoch": 0.13365333333333335,
      "grad_norm": 0.023029183931546397,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2506
    },
    {
      "epoch": 0.13370666666666667,
      "grad_norm": 0.0255310565561867,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 2507
    },
    {
      "epoch": 0.13376,
      "grad_norm": 0.02506433148271178,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 2508
    },
    {
      "epoch": 0.13381333333333334,
      "grad_norm": 0.024761488373354325,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 2509
    },
    {
      "epoch": 0.13386666666666666,
      "grad_norm": 0.024240754115842023,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 2510
    },
    {
      "epoch": 0.13392,
      "grad_norm": 0.026926926035797476,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 2511
    },
    {
      "epoch": 0.13397333333333333,
      "grad_norm": 0.024576993638280722,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 2512
    },
    {
      "epoch": 0.13402666666666666,
      "grad_norm": 0.025223425176094126,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 2513
    },
    {
      "epoch": 0.13408,
      "grad_norm": 0.02520736421510069,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 2514
    },
    {
      "epoch": 0.13413333333333333,
      "grad_norm": 0.027406228809847298,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 2515
    },
    {
      "epoch": 0.13418666666666668,
      "grad_norm": 0.02670488124021878,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2516
    },
    {
      "epoch": 0.13424,
      "grad_norm": 0.025391527655479276,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2517
    },
    {
      "epoch": 0.13429333333333332,
      "grad_norm": 0.027439148170195233,
      "learning_rate": 0.0001,
      "loss": 1.0762,
      "step": 2518
    },
    {
      "epoch": 0.13434666666666667,
      "grad_norm": 0.024122146037374212,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2519
    },
    {
      "epoch": 0.1344,
      "grad_norm": 0.024898554608580033,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 2520
    },
    {
      "epoch": 0.13445333333333334,
      "grad_norm": 0.024973639289104937,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 2521
    },
    {
      "epoch": 0.13450666666666666,
      "grad_norm": 0.02670475542851642,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 2522
    },
    {
      "epoch": 0.13456,
      "grad_norm": 0.025078268785836716,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2523
    },
    {
      "epoch": 0.13461333333333333,
      "grad_norm": 0.024404365236869594,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 2524
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.027738032727339195,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 2525
    },
    {
      "epoch": 0.13472,
      "grad_norm": 0.027028164811448454,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 2526
    },
    {
      "epoch": 0.13477333333333333,
      "grad_norm": 0.02546854523960517,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2527
    },
    {
      "epoch": 0.13482666666666668,
      "grad_norm": 0.026124650828617483,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 2528
    },
    {
      "epoch": 0.13488,
      "grad_norm": 0.025627013974166914,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 2529
    },
    {
      "epoch": 0.13493333333333332,
      "grad_norm": 0.02687073605553383,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2530
    },
    {
      "epoch": 0.13498666666666667,
      "grad_norm": 0.024829464592065177,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 2531
    },
    {
      "epoch": 0.13504,
      "grad_norm": 0.026850340576137458,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 2532
    },
    {
      "epoch": 0.13509333333333334,
      "grad_norm": 0.026390952638277638,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 2533
    },
    {
      "epoch": 0.13514666666666666,
      "grad_norm": 0.02844218782775634,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2534
    },
    {
      "epoch": 0.1352,
      "grad_norm": 0.02476326903400325,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 2535
    },
    {
      "epoch": 0.13525333333333334,
      "grad_norm": 0.03186783148762189,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 2536
    },
    {
      "epoch": 0.13530666666666666,
      "grad_norm": 0.02464017061223821,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 2537
    },
    {
      "epoch": 0.13536,
      "grad_norm": 0.027282031428026442,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 2538
    },
    {
      "epoch": 0.13541333333333333,
      "grad_norm": 0.02735323479130206,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 2539
    },
    {
      "epoch": 0.13546666666666668,
      "grad_norm": 0.025104209436796966,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 2540
    },
    {
      "epoch": 0.13552,
      "grad_norm": 0.025756674832892713,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2541
    },
    {
      "epoch": 0.13557333333333332,
      "grad_norm": 0.02657393036747659,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2542
    },
    {
      "epoch": 0.13562666666666667,
      "grad_norm": 0.024482143629784948,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 2543
    },
    {
      "epoch": 0.13568,
      "grad_norm": 0.02838431289836272,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 2544
    },
    {
      "epoch": 0.13573333333333334,
      "grad_norm": 0.02432841321590284,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 2545
    },
    {
      "epoch": 0.13578666666666667,
      "grad_norm": 0.025037331336264592,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 2546
    },
    {
      "epoch": 0.13584,
      "grad_norm": 0.028215491948489536,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 2547
    },
    {
      "epoch": 0.13589333333333334,
      "grad_norm": 0.025759057998646064,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 2548
    },
    {
      "epoch": 0.13594666666666666,
      "grad_norm": 0.024869386461811145,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 2549
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.026275333401595782,
      "learning_rate": 0.0001,
      "loss": 0.9317,
      "step": 2550
    },
    {
      "epoch": 0.13605333333333333,
      "grad_norm": 0.025140021533499927,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 2551
    },
    {
      "epoch": 0.13610666666666665,
      "grad_norm": 0.024816949849497998,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 2552
    },
    {
      "epoch": 0.13616,
      "grad_norm": 0.024732592806981795,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 2553
    },
    {
      "epoch": 0.13621333333333333,
      "grad_norm": 0.027276506592735904,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 2554
    },
    {
      "epoch": 0.13626666666666667,
      "grad_norm": 0.026085535992041175,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 2555
    },
    {
      "epoch": 0.13632,
      "grad_norm": 0.0248413515083484,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 2556
    },
    {
      "epoch": 0.13637333333333335,
      "grad_norm": 0.027673867925348625,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 2557
    },
    {
      "epoch": 0.13642666666666667,
      "grad_norm": 0.02695344144965508,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 2558
    },
    {
      "epoch": 0.13648,
      "grad_norm": 0.027903411915496376,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 2559
    },
    {
      "epoch": 0.13653333333333334,
      "grad_norm": 0.02546242200937013,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2560
    },
    {
      "epoch": 0.13658666666666666,
      "grad_norm": 0.026228288998459647,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 2561
    },
    {
      "epoch": 0.13664,
      "grad_norm": 0.025721312026925434,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 2562
    },
    {
      "epoch": 0.13669333333333333,
      "grad_norm": 0.026183412423374595,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 2563
    },
    {
      "epoch": 0.13674666666666666,
      "grad_norm": 0.02585875399781246,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 2564
    },
    {
      "epoch": 0.1368,
      "grad_norm": 0.02501941730778989,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2565
    },
    {
      "epoch": 0.13685333333333333,
      "grad_norm": 0.026684856971090756,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 2566
    },
    {
      "epoch": 0.13690666666666668,
      "grad_norm": 0.024946264000052745,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 2567
    },
    {
      "epoch": 0.13696,
      "grad_norm": 0.025612862109991526,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 2568
    },
    {
      "epoch": 0.13701333333333332,
      "grad_norm": 0.026334521302552028,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 2569
    },
    {
      "epoch": 0.13706666666666667,
      "grad_norm": 0.023763591171388126,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2570
    },
    {
      "epoch": 0.13712,
      "grad_norm": 0.029498249723808906,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 2571
    },
    {
      "epoch": 0.13717333333333334,
      "grad_norm": 0.024593921883491014,
      "learning_rate": 0.0001,
      "loss": 1.0476,
      "step": 2572
    },
    {
      "epoch": 0.13722666666666666,
      "grad_norm": 0.024077919992433743,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 2573
    },
    {
      "epoch": 0.13728,
      "grad_norm": 0.02607019916301255,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 2574
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.023720366288824055,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 2575
    },
    {
      "epoch": 0.13738666666666666,
      "grad_norm": 0.025292896484229256,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 2576
    },
    {
      "epoch": 0.13744,
      "grad_norm": 0.025071731661950106,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 2577
    },
    {
      "epoch": 0.13749333333333333,
      "grad_norm": 0.023552720616178493,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 2578
    },
    {
      "epoch": 0.13754666666666668,
      "grad_norm": 0.024087673908280118,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 2579
    },
    {
      "epoch": 0.1376,
      "grad_norm": 0.025345917840909317,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2580
    },
    {
      "epoch": 0.13765333333333332,
      "grad_norm": 0.026321341078370742,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 2581
    },
    {
      "epoch": 0.13770666666666667,
      "grad_norm": 0.02841851854318182,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 2582
    },
    {
      "epoch": 0.13776,
      "grad_norm": 0.026095912629496915,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 2583
    },
    {
      "epoch": 0.13781333333333334,
      "grad_norm": 0.026026993599244354,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 2584
    },
    {
      "epoch": 0.13786666666666667,
      "grad_norm": 0.02444476046365975,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 2585
    },
    {
      "epoch": 0.13792,
      "grad_norm": 0.026195904902520106,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 2586
    },
    {
      "epoch": 0.13797333333333334,
      "grad_norm": 0.024042333761926247,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 2587
    },
    {
      "epoch": 0.13802666666666666,
      "grad_norm": 0.027787867805233454,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 2588
    },
    {
      "epoch": 0.13808,
      "grad_norm": 0.023178406567787208,
      "learning_rate": 0.0001,
      "loss": 1.0544,
      "step": 2589
    },
    {
      "epoch": 0.13813333333333333,
      "grad_norm": 0.024588025202470137,
      "learning_rate": 0.0001,
      "loss": 1.0501,
      "step": 2590
    },
    {
      "epoch": 0.13818666666666668,
      "grad_norm": 0.02853139722965526,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 2591
    },
    {
      "epoch": 0.13824,
      "grad_norm": 0.02575936731255047,
      "learning_rate": 0.0001,
      "loss": 1.0557,
      "step": 2592
    },
    {
      "epoch": 0.13829333333333332,
      "grad_norm": 0.025254462076794826,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 2593
    },
    {
      "epoch": 0.13834666666666667,
      "grad_norm": 0.025730025679997937,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 2594
    },
    {
      "epoch": 0.1384,
      "grad_norm": 0.027112233256905482,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 2595
    },
    {
      "epoch": 0.13845333333333334,
      "grad_norm": 0.025551615892635632,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2596
    },
    {
      "epoch": 0.13850666666666667,
      "grad_norm": 0.025260338718270173,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2597
    },
    {
      "epoch": 0.13856,
      "grad_norm": 0.02890897324716828,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 2598
    },
    {
      "epoch": 0.13861333333333334,
      "grad_norm": 0.02391456311206752,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 2599
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.028134965192061767,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 2600
    },
    {
      "epoch": 0.13866666666666666,
      "eval_accuracy": 0.6137333405256724,
      "eval_loss": 1.3900363445281982,
      "eval_runtime": 63.0234,
      "eval_samples_per_second": 15.867,
      "eval_steps_per_second": 0.508,
      "step": 2600
    },
    {
      "epoch": 0.13872,
      "grad_norm": 0.024862943747980766,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 2601
    },
    {
      "epoch": 0.13877333333333333,
      "grad_norm": 0.025525051220570173,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2602
    },
    {
      "epoch": 0.13882666666666665,
      "grad_norm": 0.027003436235548423,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 2603
    },
    {
      "epoch": 0.13888,
      "grad_norm": 0.023663377952534207,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 2604
    },
    {
      "epoch": 0.13893333333333333,
      "grad_norm": 0.024631317510611567,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 2605
    },
    {
      "epoch": 0.13898666666666668,
      "grad_norm": 0.02485033763178534,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 2606
    },
    {
      "epoch": 0.13904,
      "grad_norm": 0.025780986143720305,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2607
    },
    {
      "epoch": 0.13909333333333335,
      "grad_norm": 0.025408207878083056,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 2608
    },
    {
      "epoch": 0.13914666666666667,
      "grad_norm": 0.02450030345203153,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2609
    },
    {
      "epoch": 0.1392,
      "grad_norm": 0.02595900558949242,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 2610
    },
    {
      "epoch": 0.13925333333333334,
      "grad_norm": 0.024393722625318085,
      "learning_rate": 0.0001,
      "loss": 1.0733,
      "step": 2611
    },
    {
      "epoch": 0.13930666666666666,
      "grad_norm": 0.029334215775210715,
      "learning_rate": 0.0001,
      "loss": 0.9207,
      "step": 2612
    },
    {
      "epoch": 0.13936,
      "grad_norm": 0.026502231075397086,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 2613
    },
    {
      "epoch": 0.13941333333333333,
      "grad_norm": 0.026007597025093608,
      "learning_rate": 0.0001,
      "loss": 1.0371,
      "step": 2614
    },
    {
      "epoch": 0.13946666666666666,
      "grad_norm": 0.02594532716270889,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 2615
    },
    {
      "epoch": 0.13952,
      "grad_norm": 0.02514381398934066,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 2616
    },
    {
      "epoch": 0.13957333333333333,
      "grad_norm": 0.027272351724306147,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 2617
    },
    {
      "epoch": 0.13962666666666668,
      "grad_norm": 0.025583557086364003,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 2618
    },
    {
      "epoch": 0.13968,
      "grad_norm": 0.028493818318657715,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 2619
    },
    {
      "epoch": 0.13973333333333332,
      "grad_norm": 0.0287296137797384,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 2620
    },
    {
      "epoch": 0.13978666666666667,
      "grad_norm": 0.02292089251573787,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 2621
    },
    {
      "epoch": 0.13984,
      "grad_norm": 0.028698104981451866,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 2622
    },
    {
      "epoch": 0.13989333333333334,
      "grad_norm": 0.0246713364256968,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2623
    },
    {
      "epoch": 0.13994666666666666,
      "grad_norm": 0.02633970641846593,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 2624
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.02537741989665436,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 2625
    },
    {
      "epoch": 0.14005333333333334,
      "grad_norm": 0.02708875876902672,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 2626
    },
    {
      "epoch": 0.14010666666666666,
      "grad_norm": 0.024308085237655132,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 2627
    },
    {
      "epoch": 0.14016,
      "grad_norm": 0.02596377461267972,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 2628
    },
    {
      "epoch": 0.14021333333333333,
      "grad_norm": 0.025272053211035723,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 2629
    },
    {
      "epoch": 0.14026666666666668,
      "grad_norm": 0.02755252140793635,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 2630
    },
    {
      "epoch": 0.14032,
      "grad_norm": 0.027866052313090812,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2631
    },
    {
      "epoch": 0.14037333333333332,
      "grad_norm": 0.025391482655007992,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 2632
    },
    {
      "epoch": 0.14042666666666667,
      "grad_norm": 0.025498570337314685,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 2633
    },
    {
      "epoch": 0.14048,
      "grad_norm": 0.025341810499454758,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 2634
    },
    {
      "epoch": 0.14053333333333334,
      "grad_norm": 0.025746259971403937,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 2635
    },
    {
      "epoch": 0.14058666666666667,
      "grad_norm": 0.025809588909920685,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 2636
    },
    {
      "epoch": 0.14064,
      "grad_norm": 0.02557680311449539,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 2637
    },
    {
      "epoch": 0.14069333333333334,
      "grad_norm": 0.038947207133825656,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 2638
    },
    {
      "epoch": 0.14074666666666666,
      "grad_norm": 0.025439636224794046,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 2639
    },
    {
      "epoch": 0.1408,
      "grad_norm": 0.026536376473168616,
      "learning_rate": 0.0001,
      "loss": 1.0907,
      "step": 2640
    },
    {
      "epoch": 0.14085333333333333,
      "grad_norm": 0.025688111298227817,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 2641
    },
    {
      "epoch": 0.14090666666666668,
      "grad_norm": 0.026505147509797034,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 2642
    },
    {
      "epoch": 0.14096,
      "grad_norm": 0.02842259260340287,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2643
    },
    {
      "epoch": 0.14101333333333332,
      "grad_norm": 0.027257631233449927,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 2644
    },
    {
      "epoch": 0.14106666666666667,
      "grad_norm": 0.025542899428963622,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 2645
    },
    {
      "epoch": 0.14112,
      "grad_norm": 0.026771752704557436,
      "learning_rate": 0.0001,
      "loss": 1.0526,
      "step": 2646
    },
    {
      "epoch": 0.14117333333333335,
      "grad_norm": 0.02455576281192113,
      "learning_rate": 0.0001,
      "loss": 1.0377,
      "step": 2647
    },
    {
      "epoch": 0.14122666666666667,
      "grad_norm": 0.025369563102262013,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 2648
    },
    {
      "epoch": 0.14128,
      "grad_norm": 0.029961673435334738,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 2649
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 0.023264132383748286,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 2650
    },
    {
      "epoch": 0.14138666666666666,
      "grad_norm": 0.027984391888712875,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2651
    },
    {
      "epoch": 0.14144,
      "grad_norm": 0.027018386389746782,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 2652
    },
    {
      "epoch": 0.14149333333333333,
      "grad_norm": 0.028409441680205292,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 2653
    },
    {
      "epoch": 0.14154666666666665,
      "grad_norm": 0.02511401735616857,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 2654
    },
    {
      "epoch": 0.1416,
      "grad_norm": 0.02476112740198162,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 2655
    },
    {
      "epoch": 0.14165333333333333,
      "grad_norm": 0.02893587637632726,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 2656
    },
    {
      "epoch": 0.14170666666666668,
      "grad_norm": 0.023552981067350237,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 2657
    },
    {
      "epoch": 0.14176,
      "grad_norm": 0.02622360133242475,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 2658
    },
    {
      "epoch": 0.14181333333333335,
      "grad_norm": 0.024786651432153004,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2659
    },
    {
      "epoch": 0.14186666666666667,
      "grad_norm": 0.02530066919481406,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2660
    },
    {
      "epoch": 0.14192,
      "grad_norm": 0.0260942729000623,
      "learning_rate": 0.0001,
      "loss": 1.0685,
      "step": 2661
    },
    {
      "epoch": 0.14197333333333334,
      "grad_norm": 0.0255219969521345,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 2662
    },
    {
      "epoch": 0.14202666666666666,
      "grad_norm": 0.023966830505345954,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 2663
    },
    {
      "epoch": 0.14208,
      "grad_norm": 0.025926387207645195,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2664
    },
    {
      "epoch": 0.14213333333333333,
      "grad_norm": 0.026225994829786724,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 2665
    },
    {
      "epoch": 0.14218666666666666,
      "grad_norm": 0.02696788502115314,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 2666
    },
    {
      "epoch": 0.14224,
      "grad_norm": 0.026776764312423457,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 2667
    },
    {
      "epoch": 0.14229333333333333,
      "grad_norm": 0.025963764538398916,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 2668
    },
    {
      "epoch": 0.14234666666666668,
      "grad_norm": 0.029425250246592972,
      "learning_rate": 0.0001,
      "loss": 0.8891,
      "step": 2669
    },
    {
      "epoch": 0.1424,
      "grad_norm": 0.027846219934749682,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 2670
    },
    {
      "epoch": 0.14245333333333332,
      "grad_norm": 0.02850328939279767,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 2671
    },
    {
      "epoch": 0.14250666666666667,
      "grad_norm": 0.029692858359051826,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 2672
    },
    {
      "epoch": 0.14256,
      "grad_norm": 0.0281631365061367,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2673
    },
    {
      "epoch": 0.14261333333333334,
      "grad_norm": 0.024229058701941624,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2674
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.027874118432111735,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 2675
    },
    {
      "epoch": 0.14272,
      "grad_norm": 0.028495394679346035,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2676
    },
    {
      "epoch": 0.14277333333333334,
      "grad_norm": 0.02563590256219751,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 2677
    },
    {
      "epoch": 0.14282666666666666,
      "grad_norm": 0.02586419990803338,
      "learning_rate": 0.0001,
      "loss": 1.0555,
      "step": 2678
    },
    {
      "epoch": 0.14288,
      "grad_norm": 0.03013638140770379,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 2679
    },
    {
      "epoch": 0.14293333333333333,
      "grad_norm": 0.024957557098993364,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2680
    },
    {
      "epoch": 0.14298666666666668,
      "grad_norm": 0.025151006626037097,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 2681
    },
    {
      "epoch": 0.14304,
      "grad_norm": 0.026778775588101635,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 2682
    },
    {
      "epoch": 0.14309333333333332,
      "grad_norm": 0.02484208449566377,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 2683
    },
    {
      "epoch": 0.14314666666666667,
      "grad_norm": 0.026558853204208158,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 2684
    },
    {
      "epoch": 0.1432,
      "grad_norm": 0.02279163461348191,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 2685
    },
    {
      "epoch": 0.14325333333333334,
      "grad_norm": 0.024493234205147568,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2686
    },
    {
      "epoch": 0.14330666666666667,
      "grad_norm": 0.025118562888041658,
      "learning_rate": 0.0001,
      "loss": 1.0528,
      "step": 2687
    },
    {
      "epoch": 0.14336,
      "grad_norm": 0.02481912398764666,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 2688
    },
    {
      "epoch": 0.14341333333333334,
      "grad_norm": 0.02438143287695143,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2689
    },
    {
      "epoch": 0.14346666666666666,
      "grad_norm": 0.02615728006824538,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 2690
    },
    {
      "epoch": 0.14352,
      "grad_norm": 0.026064675062291466,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 2691
    },
    {
      "epoch": 0.14357333333333333,
      "grad_norm": 0.02444728195182971,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 2692
    },
    {
      "epoch": 0.14362666666666668,
      "grad_norm": 0.025073866154143247,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2693
    },
    {
      "epoch": 0.14368,
      "grad_norm": 0.025448441414364125,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 2694
    },
    {
      "epoch": 0.14373333333333332,
      "grad_norm": 0.02467075097100307,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 2695
    },
    {
      "epoch": 0.14378666666666667,
      "grad_norm": 0.026280009175482465,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2696
    },
    {
      "epoch": 0.14384,
      "grad_norm": 0.0273784225417393,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 2697
    },
    {
      "epoch": 0.14389333333333335,
      "grad_norm": 0.025019042285155144,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 2698
    },
    {
      "epoch": 0.14394666666666667,
      "grad_norm": 0.024229334900956315,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 2699
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.025810613426563937,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 2700
    },
    {
      "epoch": 0.14405333333333334,
      "grad_norm": 0.023932449443283942,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 2701
    },
    {
      "epoch": 0.14410666666666666,
      "grad_norm": 0.02550725318706644,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 2702
    },
    {
      "epoch": 0.14416,
      "grad_norm": 0.025373906620327267,
      "learning_rate": 0.0001,
      "loss": 0.9336,
      "step": 2703
    },
    {
      "epoch": 0.14421333333333333,
      "grad_norm": 0.026265336433578597,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 2704
    },
    {
      "epoch": 0.14426666666666665,
      "grad_norm": 0.02498384589544867,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2705
    },
    {
      "epoch": 0.14432,
      "grad_norm": 0.0247373958350784,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 2706
    },
    {
      "epoch": 0.14437333333333333,
      "grad_norm": 0.02517943615096499,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 2707
    },
    {
      "epoch": 0.14442666666666668,
      "grad_norm": 0.025531195053796595,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 2708
    },
    {
      "epoch": 0.14448,
      "grad_norm": 0.026069787148781973,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2709
    },
    {
      "epoch": 0.14453333333333335,
      "grad_norm": 0.024690351545501175,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2710
    },
    {
      "epoch": 0.14458666666666667,
      "grad_norm": 0.02587904706943516,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2711
    },
    {
      "epoch": 0.14464,
      "grad_norm": 0.028272996949695987,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 2712
    },
    {
      "epoch": 0.14469333333333334,
      "grad_norm": 0.025863652917902588,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 2713
    },
    {
      "epoch": 0.14474666666666666,
      "grad_norm": 0.024604782384084395,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2714
    },
    {
      "epoch": 0.1448,
      "grad_norm": 0.02802595113903341,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 2715
    },
    {
      "epoch": 0.14485333333333333,
      "grad_norm": 0.02610098480349537,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 2716
    },
    {
      "epoch": 0.14490666666666666,
      "grad_norm": 0.027245629016469125,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 2717
    },
    {
      "epoch": 0.14496,
      "grad_norm": 0.026818265854891447,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 2718
    },
    {
      "epoch": 0.14501333333333333,
      "grad_norm": 0.027226937644376992,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2719
    },
    {
      "epoch": 0.14506666666666668,
      "grad_norm": 0.02625520212515318,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 2720
    },
    {
      "epoch": 0.14512,
      "grad_norm": 0.027772670146473964,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2721
    },
    {
      "epoch": 0.14517333333333332,
      "grad_norm": 0.02408441084347495,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 2722
    },
    {
      "epoch": 0.14522666666666667,
      "grad_norm": 0.026666380285320628,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2723
    },
    {
      "epoch": 0.14528,
      "grad_norm": 0.02697281582160539,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 2724
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.02689380444065316,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 2725
    },
    {
      "epoch": 0.14538666666666666,
      "grad_norm": 0.02651993280043551,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 2726
    },
    {
      "epoch": 0.14544,
      "grad_norm": 0.02919969371434643,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 2727
    },
    {
      "epoch": 0.14549333333333334,
      "grad_norm": 0.023680235004573745,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2728
    },
    {
      "epoch": 0.14554666666666666,
      "grad_norm": 0.024530714130020077,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 2729
    },
    {
      "epoch": 0.1456,
      "grad_norm": 0.027970079859773143,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 2730
    },
    {
      "epoch": 0.14565333333333333,
      "grad_norm": 0.024533302154258984,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 2731
    },
    {
      "epoch": 0.14570666666666668,
      "grad_norm": 0.028375678711412108,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2732
    },
    {
      "epoch": 0.14576,
      "grad_norm": 0.026321284073009467,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 2733
    },
    {
      "epoch": 0.14581333333333332,
      "grad_norm": 0.024665802843255237,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 2734
    },
    {
      "epoch": 0.14586666666666667,
      "grad_norm": 0.026652343681344774,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 2735
    },
    {
      "epoch": 0.14592,
      "grad_norm": 0.03758628154063529,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 2736
    },
    {
      "epoch": 0.14597333333333334,
      "grad_norm": 0.025710509044604354,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 2737
    },
    {
      "epoch": 0.14602666666666667,
      "grad_norm": 0.024955987550990162,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 2738
    },
    {
      "epoch": 0.14608,
      "grad_norm": 0.02697638559364808,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2739
    },
    {
      "epoch": 0.14613333333333334,
      "grad_norm": 0.024792137384114506,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 2740
    },
    {
      "epoch": 0.14618666666666666,
      "grad_norm": 0.02489193806116384,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 2741
    },
    {
      "epoch": 0.14624,
      "grad_norm": 0.02447527882413921,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 2742
    },
    {
      "epoch": 0.14629333333333333,
      "grad_norm": 0.026311897810817074,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 2743
    },
    {
      "epoch": 0.14634666666666668,
      "grad_norm": 0.025468308510182294,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2744
    },
    {
      "epoch": 0.1464,
      "grad_norm": 0.024538090057487538,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 2745
    },
    {
      "epoch": 0.14645333333333332,
      "grad_norm": 0.028289484215942417,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 2746
    },
    {
      "epoch": 0.14650666666666667,
      "grad_norm": 0.024181043604899696,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 2747
    },
    {
      "epoch": 0.14656,
      "grad_norm": 0.026365849626972943,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 2748
    },
    {
      "epoch": 0.14661333333333335,
      "grad_norm": 0.024868929720185437,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2749
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.025390836999145402,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 2750
    },
    {
      "epoch": 0.14672,
      "grad_norm": 0.02696300339727224,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2751
    },
    {
      "epoch": 0.14677333333333334,
      "grad_norm": 0.027356040955980942,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 2752
    },
    {
      "epoch": 0.14682666666666666,
      "grad_norm": 0.02613914827878609,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2753
    },
    {
      "epoch": 0.14688,
      "grad_norm": 0.026464411637016346,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 2754
    },
    {
      "epoch": 0.14693333333333333,
      "grad_norm": 0.028048320914655867,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2755
    },
    {
      "epoch": 0.14698666666666665,
      "grad_norm": 0.024288520501070415,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 2756
    },
    {
      "epoch": 0.14704,
      "grad_norm": 0.025465650267997568,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 2757
    },
    {
      "epoch": 0.14709333333333333,
      "grad_norm": 0.026366848071242625,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 2758
    },
    {
      "epoch": 0.14714666666666668,
      "grad_norm": 0.025568848242606548,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2759
    },
    {
      "epoch": 0.1472,
      "grad_norm": 0.025147463118760444,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 2760
    },
    {
      "epoch": 0.14725333333333335,
      "grad_norm": 0.025305144505655457,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 2761
    },
    {
      "epoch": 0.14730666666666667,
      "grad_norm": 0.028522066482270594,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 2762
    },
    {
      "epoch": 0.14736,
      "grad_norm": 0.025909302017571613,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 2763
    },
    {
      "epoch": 0.14741333333333334,
      "grad_norm": 0.02608745829928049,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 2764
    },
    {
      "epoch": 0.14746666666666666,
      "grad_norm": 0.024293182052040365,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 2765
    },
    {
      "epoch": 0.14752,
      "grad_norm": 0.027601253351873068,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2766
    },
    {
      "epoch": 0.14757333333333333,
      "grad_norm": 0.02678148978714192,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 2767
    },
    {
      "epoch": 0.14762666666666666,
      "grad_norm": 0.025706594111318943,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2768
    },
    {
      "epoch": 0.14768,
      "grad_norm": 0.030563969262975176,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 2769
    },
    {
      "epoch": 0.14773333333333333,
      "grad_norm": 0.026582521359890313,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 2770
    },
    {
      "epoch": 0.14778666666666668,
      "grad_norm": 0.0267643591917065,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2771
    },
    {
      "epoch": 0.14784,
      "grad_norm": 0.02917170873893574,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 2772
    },
    {
      "epoch": 0.14789333333333332,
      "grad_norm": 0.024958019784447626,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 2773
    },
    {
      "epoch": 0.14794666666666667,
      "grad_norm": 0.026637681952243693,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 2774
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.026847482602202263,
      "learning_rate": 0.0001,
      "loss": 1.0509,
      "step": 2775
    },
    {
      "epoch": 0.14805333333333334,
      "grad_norm": 0.025349565617077924,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 2776
    },
    {
      "epoch": 0.14810666666666666,
      "grad_norm": 0.028531804694556708,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 2777
    },
    {
      "epoch": 0.14816,
      "grad_norm": 0.028485615631246103,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 2778
    },
    {
      "epoch": 0.14821333333333334,
      "grad_norm": 0.025051916858277384,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 2779
    },
    {
      "epoch": 0.14826666666666666,
      "grad_norm": 0.026063240393538318,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 2780
    },
    {
      "epoch": 0.14832,
      "grad_norm": 0.026538621968167756,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 2781
    },
    {
      "epoch": 0.14837333333333333,
      "grad_norm": 0.02480622064429203,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 2782
    },
    {
      "epoch": 0.14842666666666668,
      "grad_norm": 0.02495916066621976,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 2783
    },
    {
      "epoch": 0.14848,
      "grad_norm": 0.0257358721476807,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 2784
    },
    {
      "epoch": 0.14853333333333332,
      "grad_norm": 0.02532600034816729,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 2785
    },
    {
      "epoch": 0.14858666666666667,
      "grad_norm": 0.025353435664473446,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 2786
    },
    {
      "epoch": 0.14864,
      "grad_norm": 0.025393443934055487,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2787
    },
    {
      "epoch": 0.14869333333333334,
      "grad_norm": 0.023056172004120096,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 2788
    },
    {
      "epoch": 0.14874666666666667,
      "grad_norm": 0.027186109769382877,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2789
    },
    {
      "epoch": 0.1488,
      "grad_norm": 0.024644320198268226,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2790
    },
    {
      "epoch": 0.14885333333333334,
      "grad_norm": 0.02507849102034624,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 2791
    },
    {
      "epoch": 0.14890666666666666,
      "grad_norm": 0.026119738538197372,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 2792
    },
    {
      "epoch": 0.14896,
      "grad_norm": 0.024508947204707903,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2793
    },
    {
      "epoch": 0.14901333333333333,
      "grad_norm": 0.026141021240131606,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 2794
    },
    {
      "epoch": 0.14906666666666665,
      "grad_norm": 0.026229248884924925,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 2795
    },
    {
      "epoch": 0.14912,
      "grad_norm": 0.024916547319886097,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 2796
    },
    {
      "epoch": 0.14917333333333332,
      "grad_norm": 0.02429602905394022,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 2797
    },
    {
      "epoch": 0.14922666666666667,
      "grad_norm": 0.02603921363949961,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 2798
    },
    {
      "epoch": 0.14928,
      "grad_norm": 0.027163011894236103,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 2799
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.026519805970047976,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2800
    },
    {
      "epoch": 0.14933333333333335,
      "eval_accuracy": 0.6142322922153098,
      "eval_loss": 1.3876816034317017,
      "eval_runtime": 62.6961,
      "eval_samples_per_second": 15.95,
      "eval_steps_per_second": 0.51,
      "step": 2800
    },
    {
      "epoch": 0.14938666666666667,
      "grad_norm": 0.025259762171917343,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2801
    },
    {
      "epoch": 0.14944,
      "grad_norm": 0.02641761425582143,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 2802
    },
    {
      "epoch": 0.14949333333333334,
      "grad_norm": 0.025959940332761625,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 2803
    },
    {
      "epoch": 0.14954666666666666,
      "grad_norm": 0.02653497873745994,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 2804
    },
    {
      "epoch": 0.1496,
      "grad_norm": 0.025771163535298933,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 2805
    },
    {
      "epoch": 0.14965333333333333,
      "grad_norm": 0.025184705755336385,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 2806
    },
    {
      "epoch": 0.14970666666666665,
      "grad_norm": 0.024994797074663438,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2807
    },
    {
      "epoch": 0.14976,
      "grad_norm": 0.025238282406946252,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2808
    },
    {
      "epoch": 0.14981333333333333,
      "grad_norm": 0.02811567870839069,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 2809
    },
    {
      "epoch": 0.14986666666666668,
      "grad_norm": 0.023763318270643347,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 2810
    },
    {
      "epoch": 0.14992,
      "grad_norm": 0.0268199205727535,
      "learning_rate": 0.0001,
      "loss": 1.0383,
      "step": 2811
    },
    {
      "epoch": 0.14997333333333332,
      "grad_norm": 0.025932318117399714,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2812
    },
    {
      "epoch": 0.15002666666666667,
      "grad_norm": 0.024998930469127933,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 2813
    },
    {
      "epoch": 0.15008,
      "grad_norm": 0.02825838714858251,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2814
    },
    {
      "epoch": 0.15013333333333334,
      "grad_norm": 0.026473397994837323,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 2815
    },
    {
      "epoch": 0.15018666666666666,
      "grad_norm": 0.028552343157916948,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 2816
    },
    {
      "epoch": 0.15024,
      "grad_norm": 0.02748728265055934,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 2817
    },
    {
      "epoch": 0.15029333333333333,
      "grad_norm": 0.024761626464740213,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 2818
    },
    {
      "epoch": 0.15034666666666666,
      "grad_norm": 0.027059420307986616,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 2819
    },
    {
      "epoch": 0.1504,
      "grad_norm": 0.027569625358395425,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2820
    },
    {
      "epoch": 0.15045333333333333,
      "grad_norm": 0.02712669710043036,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2821
    },
    {
      "epoch": 0.15050666666666668,
      "grad_norm": 0.027695748058775924,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 2822
    },
    {
      "epoch": 0.15056,
      "grad_norm": 0.026204979771394108,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 2823
    },
    {
      "epoch": 0.15061333333333332,
      "grad_norm": 0.02678504226732912,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2824
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.025557768021001716,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2825
    },
    {
      "epoch": 0.15072,
      "grad_norm": 0.025902075978160098,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 2826
    },
    {
      "epoch": 0.15077333333333334,
      "grad_norm": 0.024570037540073603,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2827
    },
    {
      "epoch": 0.15082666666666666,
      "grad_norm": 0.024518015835212743,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 2828
    },
    {
      "epoch": 0.15088,
      "grad_norm": 0.028019139677122773,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 2829
    },
    {
      "epoch": 0.15093333333333334,
      "grad_norm": 0.0252106089534479,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 2830
    },
    {
      "epoch": 0.15098666666666666,
      "grad_norm": 0.024870765502341706,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 2831
    },
    {
      "epoch": 0.15104,
      "grad_norm": 0.024142507060385187,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 2832
    },
    {
      "epoch": 0.15109333333333333,
      "grad_norm": 0.02586636862557448,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 2833
    },
    {
      "epoch": 0.15114666666666668,
      "grad_norm": 0.024306646342336154,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 2834
    },
    {
      "epoch": 0.1512,
      "grad_norm": 0.024932177069190074,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 2835
    },
    {
      "epoch": 0.15125333333333332,
      "grad_norm": 0.023981629302701542,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 2836
    },
    {
      "epoch": 0.15130666666666667,
      "grad_norm": 0.025647594265063068,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 2837
    },
    {
      "epoch": 0.15136,
      "grad_norm": 0.025140152853785087,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 2838
    },
    {
      "epoch": 0.15141333333333334,
      "grad_norm": 0.025956743427338537,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 2839
    },
    {
      "epoch": 0.15146666666666667,
      "grad_norm": 0.026324040383475116,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 2840
    },
    {
      "epoch": 0.15152,
      "grad_norm": 0.023347207743926415,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 2841
    },
    {
      "epoch": 0.15157333333333334,
      "grad_norm": 0.024344378511040824,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 2842
    },
    {
      "epoch": 0.15162666666666666,
      "grad_norm": 0.02352253442801217,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 2843
    },
    {
      "epoch": 0.15168,
      "grad_norm": 0.02580567258039093,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2844
    },
    {
      "epoch": 0.15173333333333333,
      "grad_norm": 0.025402294982914013,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 2845
    },
    {
      "epoch": 0.15178666666666665,
      "grad_norm": 0.027109818538447655,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 2846
    },
    {
      "epoch": 0.15184,
      "grad_norm": 0.024091682672027152,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2847
    },
    {
      "epoch": 0.15189333333333332,
      "grad_norm": 0.027502083945716217,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 2848
    },
    {
      "epoch": 0.15194666666666667,
      "grad_norm": 0.029453276137018872,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 2849
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.025507345571367152,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2850
    },
    {
      "epoch": 0.15205333333333335,
      "grad_norm": 0.02646848161088942,
      "learning_rate": 0.0001,
      "loss": 1.074,
      "step": 2851
    },
    {
      "epoch": 0.15210666666666667,
      "grad_norm": 0.02478216598167861,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 2852
    },
    {
      "epoch": 0.15216,
      "grad_norm": 0.02687524002967929,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2853
    },
    {
      "epoch": 0.15221333333333334,
      "grad_norm": 0.026157905375242207,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 2854
    },
    {
      "epoch": 0.15226666666666666,
      "grad_norm": 0.02402650131173148,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 2855
    },
    {
      "epoch": 0.15232,
      "grad_norm": 0.02860048297481251,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 2856
    },
    {
      "epoch": 0.15237333333333333,
      "grad_norm": 0.025176096548402842,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2857
    },
    {
      "epoch": 0.15242666666666665,
      "grad_norm": 0.027467237475186566,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2858
    },
    {
      "epoch": 0.15248,
      "grad_norm": 0.02886570244758702,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2859
    },
    {
      "epoch": 0.15253333333333333,
      "grad_norm": 0.026482200654146887,
      "learning_rate": 0.0001,
      "loss": 1.0594,
      "step": 2860
    },
    {
      "epoch": 0.15258666666666668,
      "grad_norm": 0.029101784518223144,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 2861
    },
    {
      "epoch": 0.15264,
      "grad_norm": 0.028870559197568417,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 2862
    },
    {
      "epoch": 0.15269333333333332,
      "grad_norm": 0.02499655237392917,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 2863
    },
    {
      "epoch": 0.15274666666666667,
      "grad_norm": 0.029124618471810824,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 2864
    },
    {
      "epoch": 0.1528,
      "grad_norm": 0.025623667574923372,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 2865
    },
    {
      "epoch": 0.15285333333333334,
      "grad_norm": 0.0263314742372988,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 2866
    },
    {
      "epoch": 0.15290666666666666,
      "grad_norm": 0.027473923713546018,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2867
    },
    {
      "epoch": 0.15296,
      "grad_norm": 0.026740285432682614,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 2868
    },
    {
      "epoch": 0.15301333333333333,
      "grad_norm": 0.025642024092611966,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 2869
    },
    {
      "epoch": 0.15306666666666666,
      "grad_norm": 0.027941689072311638,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 2870
    },
    {
      "epoch": 0.15312,
      "grad_norm": 0.026886166818726555,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2871
    },
    {
      "epoch": 0.15317333333333333,
      "grad_norm": 0.025956399943030242,
      "learning_rate": 0.0001,
      "loss": 1.0651,
      "step": 2872
    },
    {
      "epoch": 0.15322666666666668,
      "grad_norm": 0.02496829391349327,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2873
    },
    {
      "epoch": 0.15328,
      "grad_norm": 0.028030230193752736,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2874
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.028107673515865562,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2875
    },
    {
      "epoch": 0.15338666666666667,
      "grad_norm": 0.024488053532057127,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 2876
    },
    {
      "epoch": 0.15344,
      "grad_norm": 0.025534504759887236,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 2877
    },
    {
      "epoch": 0.15349333333333334,
      "grad_norm": 0.026642606418642113,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 2878
    },
    {
      "epoch": 0.15354666666666666,
      "grad_norm": 0.027423167833179288,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2879
    },
    {
      "epoch": 0.1536,
      "grad_norm": 0.026383439198404395,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 2880
    },
    {
      "epoch": 0.15365333333333334,
      "grad_norm": 0.026240562216157507,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 2881
    },
    {
      "epoch": 0.15370666666666666,
      "grad_norm": 0.02508074013650424,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 2882
    },
    {
      "epoch": 0.15376,
      "grad_norm": 0.02544960920796674,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 2883
    },
    {
      "epoch": 0.15381333333333333,
      "grad_norm": 0.026963058693386374,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 2884
    },
    {
      "epoch": 0.15386666666666668,
      "grad_norm": 0.025783636586228717,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2885
    },
    {
      "epoch": 0.15392,
      "grad_norm": 0.025582755970970966,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 2886
    },
    {
      "epoch": 0.15397333333333332,
      "grad_norm": 0.0286688248810289,
      "learning_rate": 0.0001,
      "loss": 1.0478,
      "step": 2887
    },
    {
      "epoch": 0.15402666666666667,
      "grad_norm": 0.02768135178020395,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 2888
    },
    {
      "epoch": 0.15408,
      "grad_norm": 0.023794124668508308,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 2889
    },
    {
      "epoch": 0.15413333333333334,
      "grad_norm": 0.02750504335717201,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 2890
    },
    {
      "epoch": 0.15418666666666667,
      "grad_norm": 0.026191349940291677,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 2891
    },
    {
      "epoch": 0.15424,
      "grad_norm": 0.024696918983346878,
      "learning_rate": 0.0001,
      "loss": 1.0605,
      "step": 2892
    },
    {
      "epoch": 0.15429333333333334,
      "grad_norm": 0.026340187703055806,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 2893
    },
    {
      "epoch": 0.15434666666666666,
      "grad_norm": 0.025413172249173617,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 2894
    },
    {
      "epoch": 0.1544,
      "grad_norm": 0.024858848560205586,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 2895
    },
    {
      "epoch": 0.15445333333333333,
      "grad_norm": 0.02696435983458583,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 2896
    },
    {
      "epoch": 0.15450666666666665,
      "grad_norm": 0.026879793794955347,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2897
    },
    {
      "epoch": 0.15456,
      "grad_norm": 0.02679418918734415,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 2898
    },
    {
      "epoch": 0.15461333333333332,
      "grad_norm": 0.02645374335716224,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 2899
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.02356068026821912,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 2900
    },
    {
      "epoch": 0.15472,
      "grad_norm": 0.0260781199485307,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 2901
    },
    {
      "epoch": 0.15477333333333335,
      "grad_norm": 0.02635388449414467,
      "learning_rate": 0.0001,
      "loss": 0.9205,
      "step": 2902
    },
    {
      "epoch": 0.15482666666666667,
      "grad_norm": 0.025679073252705163,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 2903
    },
    {
      "epoch": 0.15488,
      "grad_norm": 0.02305148571701831,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 2904
    },
    {
      "epoch": 0.15493333333333334,
      "grad_norm": 0.028531907207965893,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2905
    },
    {
      "epoch": 0.15498666666666666,
      "grad_norm": 0.02603270385963536,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 2906
    },
    {
      "epoch": 0.15504,
      "grad_norm": 0.023247193298052665,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2907
    },
    {
      "epoch": 0.15509333333333333,
      "grad_norm": 0.02700138124482521,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 2908
    },
    {
      "epoch": 0.15514666666666665,
      "grad_norm": 0.02565754081814756,
      "learning_rate": 0.0001,
      "loss": 1.0538,
      "step": 2909
    },
    {
      "epoch": 0.1552,
      "grad_norm": 0.024080574046992497,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2910
    },
    {
      "epoch": 0.15525333333333333,
      "grad_norm": 0.02423325700959463,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2911
    },
    {
      "epoch": 0.15530666666666668,
      "grad_norm": 0.023228922476173062,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 2912
    },
    {
      "epoch": 0.15536,
      "grad_norm": 0.023807776599991247,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 2913
    },
    {
      "epoch": 0.15541333333333332,
      "grad_norm": 0.024233330943693874,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 2914
    },
    {
      "epoch": 0.15546666666666667,
      "grad_norm": 0.02346841287487636,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 2915
    },
    {
      "epoch": 0.15552,
      "grad_norm": 0.026866844121666046,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 2916
    },
    {
      "epoch": 0.15557333333333334,
      "grad_norm": 0.02482809408694699,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 2917
    },
    {
      "epoch": 0.15562666666666666,
      "grad_norm": 0.022114177095012115,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 2918
    },
    {
      "epoch": 0.15568,
      "grad_norm": 0.023023911995734943,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 2919
    },
    {
      "epoch": 0.15573333333333333,
      "grad_norm": 0.024489129005438818,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 2920
    },
    {
      "epoch": 0.15578666666666666,
      "grad_norm": 0.023643757575632602,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2921
    },
    {
      "epoch": 0.15584,
      "grad_norm": 0.02493299795366879,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 2922
    },
    {
      "epoch": 0.15589333333333333,
      "grad_norm": 0.022718692512396235,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 2923
    },
    {
      "epoch": 0.15594666666666668,
      "grad_norm": 0.024508605798101907,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 2924
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.0244201032201887,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 2925
    },
    {
      "epoch": 0.15605333333333332,
      "grad_norm": 0.026007032990576797,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 2926
    },
    {
      "epoch": 0.15610666666666667,
      "grad_norm": 0.024988536064674032,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 2927
    },
    {
      "epoch": 0.15616,
      "grad_norm": 0.02308851937062763,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 2928
    },
    {
      "epoch": 0.15621333333333334,
      "grad_norm": 0.027182725501162523,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2929
    },
    {
      "epoch": 0.15626666666666666,
      "grad_norm": 0.026370869461416556,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 2930
    },
    {
      "epoch": 0.15632,
      "grad_norm": 0.025177320752811764,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 2931
    },
    {
      "epoch": 0.15637333333333334,
      "grad_norm": 0.02411229155185329,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 2932
    },
    {
      "epoch": 0.15642666666666666,
      "grad_norm": 0.02464022597099645,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 2933
    },
    {
      "epoch": 0.15648,
      "grad_norm": 0.02440597837068386,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 2934
    },
    {
      "epoch": 0.15653333333333333,
      "grad_norm": 0.025871409485083454,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 2935
    },
    {
      "epoch": 0.15658666666666668,
      "grad_norm": 0.024702302892641383,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 2936
    },
    {
      "epoch": 0.15664,
      "grad_norm": 0.025122662366576818,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 2937
    },
    {
      "epoch": 0.15669333333333332,
      "grad_norm": 0.02575777453791192,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2938
    },
    {
      "epoch": 0.15674666666666667,
      "grad_norm": 0.023798312079073305,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 2939
    },
    {
      "epoch": 0.1568,
      "grad_norm": 0.024918865804232866,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 2940
    },
    {
      "epoch": 0.15685333333333334,
      "grad_norm": 0.026252243851745308,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 2941
    },
    {
      "epoch": 0.15690666666666667,
      "grad_norm": 0.0256053371918376,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2942
    },
    {
      "epoch": 0.15696,
      "grad_norm": 0.023665931585266187,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 2943
    },
    {
      "epoch": 0.15701333333333334,
      "grad_norm": 0.026506361624277816,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 2944
    },
    {
      "epoch": 0.15706666666666666,
      "grad_norm": 0.024041613649712263,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 2945
    },
    {
      "epoch": 0.15712,
      "grad_norm": 0.025713715531546822,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 2946
    },
    {
      "epoch": 0.15717333333333333,
      "grad_norm": 0.024286959391905776,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 2947
    },
    {
      "epoch": 0.15722666666666665,
      "grad_norm": 0.026061433436757358,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 2948
    },
    {
      "epoch": 0.15728,
      "grad_norm": 0.024450097195880788,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2949
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.025243804347275675,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 2950
    },
    {
      "epoch": 0.15738666666666667,
      "grad_norm": 0.02734795826591654,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 2951
    },
    {
      "epoch": 0.15744,
      "grad_norm": 0.024878057228376733,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 2952
    },
    {
      "epoch": 0.15749333333333335,
      "grad_norm": 0.026183892789422604,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2953
    },
    {
      "epoch": 0.15754666666666667,
      "grad_norm": 0.0260967284757879,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2954
    },
    {
      "epoch": 0.1576,
      "grad_norm": 0.024381564279411762,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 2955
    },
    {
      "epoch": 0.15765333333333334,
      "grad_norm": 0.028348181082798903,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 2956
    },
    {
      "epoch": 0.15770666666666666,
      "grad_norm": 0.026961869611770377,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 2957
    },
    {
      "epoch": 0.15776,
      "grad_norm": 0.027271809641877923,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 2958
    },
    {
      "epoch": 0.15781333333333333,
      "grad_norm": 0.024557782106172862,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2959
    },
    {
      "epoch": 0.15786666666666666,
      "grad_norm": 0.026130866042834287,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 2960
    },
    {
      "epoch": 0.15792,
      "grad_norm": 0.026444163399854264,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 2961
    },
    {
      "epoch": 0.15797333333333333,
      "grad_norm": 0.02380726771498953,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 2962
    },
    {
      "epoch": 0.15802666666666668,
      "grad_norm": 0.026556544892373038,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 2963
    },
    {
      "epoch": 0.15808,
      "grad_norm": 0.026324616292196377,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 2964
    },
    {
      "epoch": 0.15813333333333332,
      "grad_norm": 0.02627968723708019,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 2965
    },
    {
      "epoch": 0.15818666666666667,
      "grad_norm": 0.0269544049572685,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 2966
    },
    {
      "epoch": 0.15824,
      "grad_norm": 0.02675029404099204,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2967
    },
    {
      "epoch": 0.15829333333333334,
      "grad_norm": 0.026361807134961245,
      "learning_rate": 0.0001,
      "loss": 1.065,
      "step": 2968
    },
    {
      "epoch": 0.15834666666666666,
      "grad_norm": 0.026857293382601247,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2969
    },
    {
      "epoch": 0.1584,
      "grad_norm": 0.023634975322612602,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 2970
    },
    {
      "epoch": 0.15845333333333333,
      "grad_norm": 0.02826128303623428,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 2971
    },
    {
      "epoch": 0.15850666666666666,
      "grad_norm": 0.02498207643729721,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 2972
    },
    {
      "epoch": 0.15856,
      "grad_norm": 0.025039036589847578,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2973
    },
    {
      "epoch": 0.15861333333333333,
      "grad_norm": 0.02420203338998239,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 2974
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.02520117740654435,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 2975
    },
    {
      "epoch": 0.15872,
      "grad_norm": 0.02463416373436397,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 2976
    },
    {
      "epoch": 0.15877333333333332,
      "grad_norm": 0.024280360649431062,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2977
    },
    {
      "epoch": 0.15882666666666667,
      "grad_norm": 0.024230936144297655,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2978
    },
    {
      "epoch": 0.15888,
      "grad_norm": 0.024779852112806134,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 2979
    },
    {
      "epoch": 0.15893333333333334,
      "grad_norm": 0.024442020686881717,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 2980
    },
    {
      "epoch": 0.15898666666666667,
      "grad_norm": 0.02363717135431708,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 2981
    },
    {
      "epoch": 0.15904,
      "grad_norm": 0.023738472777105918,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 2982
    },
    {
      "epoch": 0.15909333333333334,
      "grad_norm": 0.024021486943556925,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2983
    },
    {
      "epoch": 0.15914666666666666,
      "grad_norm": 0.02393024458221936,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 2984
    },
    {
      "epoch": 0.1592,
      "grad_norm": 0.026950702490471348,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2985
    },
    {
      "epoch": 0.15925333333333333,
      "grad_norm": 0.02363930267556382,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 2986
    },
    {
      "epoch": 0.15930666666666668,
      "grad_norm": 0.02550620628082037,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 2987
    },
    {
      "epoch": 0.15936,
      "grad_norm": 0.024415491437071647,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 2988
    },
    {
      "epoch": 0.15941333333333332,
      "grad_norm": 0.023893024159728916,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 2989
    },
    {
      "epoch": 0.15946666666666667,
      "grad_norm": 0.02472691366597289,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 2990
    },
    {
      "epoch": 0.15952,
      "grad_norm": 0.02397109971751671,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2991
    },
    {
      "epoch": 0.15957333333333334,
      "grad_norm": 0.026859938587138442,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2992
    },
    {
      "epoch": 0.15962666666666667,
      "grad_norm": 0.0242660769624829,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2993
    },
    {
      "epoch": 0.15968,
      "grad_norm": 0.0239915366025158,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2994
    },
    {
      "epoch": 0.15973333333333334,
      "grad_norm": 0.02392535137991501,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 2995
    },
    {
      "epoch": 0.15978666666666666,
      "grad_norm": 0.023373773966374644,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 2996
    },
    {
      "epoch": 0.15984,
      "grad_norm": 0.022954071139498523,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 2997
    },
    {
      "epoch": 0.15989333333333333,
      "grad_norm": 0.024727701893953784,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2998
    },
    {
      "epoch": 0.15994666666666665,
      "grad_norm": 0.023148217941958742,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2999
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.024948230330894224,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 3000
    },
    {
      "epoch": 0.16,
      "eval_accuracy": 0.6145619410911062,
      "eval_loss": 1.3855246305465698,
      "eval_runtime": 62.5608,
      "eval_samples_per_second": 15.984,
      "eval_steps_per_second": 0.512,
      "step": 3000
    },
    {
      "epoch": 0.16005333333333333,
      "grad_norm": 0.024297398694448528,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3001
    },
    {
      "epoch": 0.16010666666666667,
      "grad_norm": 0.02354096793624368,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 3002
    },
    {
      "epoch": 0.16016,
      "grad_norm": 0.02490644935891289,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 3003
    },
    {
      "epoch": 0.16021333333333335,
      "grad_norm": 0.02292379009168702,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 3004
    },
    {
      "epoch": 0.16026666666666667,
      "grad_norm": 0.026373001802781598,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 3005
    },
    {
      "epoch": 0.16032,
      "grad_norm": 0.02410989849741998,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 3006
    },
    {
      "epoch": 0.16037333333333334,
      "grad_norm": 0.0224550000519139,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 3007
    },
    {
      "epoch": 0.16042666666666666,
      "grad_norm": 0.028049375572750723,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 3008
    },
    {
      "epoch": 0.16048,
      "grad_norm": 0.024998836275669078,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 3009
    },
    {
      "epoch": 0.16053333333333333,
      "grad_norm": 0.027438294521016697,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 3010
    },
    {
      "epoch": 0.16058666666666666,
      "grad_norm": 0.03037611546015116,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3011
    },
    {
      "epoch": 0.16064,
      "grad_norm": 0.025647671895109834,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 3012
    },
    {
      "epoch": 0.16069333333333333,
      "grad_norm": 0.02582760973758508,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 3013
    },
    {
      "epoch": 0.16074666666666668,
      "grad_norm": 0.027131278788327724,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 3014
    },
    {
      "epoch": 0.1608,
      "grad_norm": 0.026326258741276407,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 3015
    },
    {
      "epoch": 0.16085333333333332,
      "grad_norm": 0.025658520709495005,
      "learning_rate": 0.0001,
      "loss": 1.0612,
      "step": 3016
    },
    {
      "epoch": 0.16090666666666667,
      "grad_norm": 0.0262832168747172,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 3017
    },
    {
      "epoch": 0.16096,
      "grad_norm": 0.02466851974623505,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 3018
    },
    {
      "epoch": 0.16101333333333334,
      "grad_norm": 0.023529208533452133,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 3019
    },
    {
      "epoch": 0.16106666666666666,
      "grad_norm": 0.025223685413576592,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 3020
    },
    {
      "epoch": 0.16112,
      "grad_norm": 0.0252405375550761,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 3021
    },
    {
      "epoch": 0.16117333333333334,
      "grad_norm": 0.0239408558561943,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 3022
    },
    {
      "epoch": 0.16122666666666666,
      "grad_norm": 0.024274526148322248,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3023
    },
    {
      "epoch": 0.16128,
      "grad_norm": 0.027277085747479397,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 3024
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.026589991405756866,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 3025
    },
    {
      "epoch": 0.16138666666666668,
      "grad_norm": 0.025561322873803177,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3026
    },
    {
      "epoch": 0.16144,
      "grad_norm": 0.02489068110691095,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 3027
    },
    {
      "epoch": 0.16149333333333332,
      "grad_norm": 0.025828247419996633,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 3028
    },
    {
      "epoch": 0.16154666666666667,
      "grad_norm": 0.026736368166451818,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 3029
    },
    {
      "epoch": 0.1616,
      "grad_norm": 0.023946717464056744,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 3030
    },
    {
      "epoch": 0.16165333333333334,
      "grad_norm": 0.028180241598548227,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 3031
    },
    {
      "epoch": 0.16170666666666667,
      "grad_norm": 0.02492086248684902,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 3032
    },
    {
      "epoch": 0.16176,
      "grad_norm": 0.026000795786105434,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 3033
    },
    {
      "epoch": 0.16181333333333334,
      "grad_norm": 0.02556433012116321,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3034
    },
    {
      "epoch": 0.16186666666666666,
      "grad_norm": 0.024524568069721732,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3035
    },
    {
      "epoch": 0.16192,
      "grad_norm": 0.026577513615034912,
      "learning_rate": 0.0001,
      "loss": 1.0456,
      "step": 3036
    },
    {
      "epoch": 0.16197333333333333,
      "grad_norm": 0.024332818594759786,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3037
    },
    {
      "epoch": 0.16202666666666668,
      "grad_norm": 0.02627285748871402,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 3038
    },
    {
      "epoch": 0.16208,
      "grad_norm": 0.026279141831189456,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 3039
    },
    {
      "epoch": 0.16213333333333332,
      "grad_norm": 0.02399849423640993,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 3040
    },
    {
      "epoch": 0.16218666666666667,
      "grad_norm": 0.025497502736511045,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3041
    },
    {
      "epoch": 0.16224,
      "grad_norm": 0.024533501676096,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 3042
    },
    {
      "epoch": 0.16229333333333334,
      "grad_norm": 0.025069233226097526,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 3043
    },
    {
      "epoch": 0.16234666666666667,
      "grad_norm": 0.02754265182539945,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 3044
    },
    {
      "epoch": 0.1624,
      "grad_norm": 0.02445071620088234,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 3045
    },
    {
      "epoch": 0.16245333333333334,
      "grad_norm": 0.027325879723132974,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3046
    },
    {
      "epoch": 0.16250666666666666,
      "grad_norm": 0.025308663459589504,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 3047
    },
    {
      "epoch": 0.16256,
      "grad_norm": 0.023518980066552012,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 3048
    },
    {
      "epoch": 0.16261333333333333,
      "grad_norm": 0.030151119830745504,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 3049
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.024808663306564283,
      "learning_rate": 0.0001,
      "loss": 1.0859,
      "step": 3050
    },
    {
      "epoch": 0.16272,
      "grad_norm": 0.026304930329921445,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 3051
    },
    {
      "epoch": 0.16277333333333333,
      "grad_norm": 0.026178347232392502,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 3052
    },
    {
      "epoch": 0.16282666666666668,
      "grad_norm": 0.026728534904462118,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3053
    },
    {
      "epoch": 0.16288,
      "grad_norm": 0.0261920024023932,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 3054
    },
    {
      "epoch": 0.16293333333333335,
      "grad_norm": 0.026571907043389208,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 3055
    },
    {
      "epoch": 0.16298666666666667,
      "grad_norm": 0.027083921860829665,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 3056
    },
    {
      "epoch": 0.16304,
      "grad_norm": 0.024579076193239062,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 3057
    },
    {
      "epoch": 0.16309333333333334,
      "grad_norm": 0.02650501142943744,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 3058
    },
    {
      "epoch": 0.16314666666666666,
      "grad_norm": 0.026147161632386638,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 3059
    },
    {
      "epoch": 0.1632,
      "grad_norm": 0.02382256311624333,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 3060
    },
    {
      "epoch": 0.16325333333333333,
      "grad_norm": 0.026960634115609044,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 3061
    },
    {
      "epoch": 0.16330666666666666,
      "grad_norm": 0.026716835249932597,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 3062
    },
    {
      "epoch": 0.16336,
      "grad_norm": 0.026568990118151097,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3063
    },
    {
      "epoch": 0.16341333333333333,
      "grad_norm": 0.02357075350547116,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 3064
    },
    {
      "epoch": 0.16346666666666668,
      "grad_norm": 0.026443648902009842,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 3065
    },
    {
      "epoch": 0.16352,
      "grad_norm": 0.02646612140659116,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 3066
    },
    {
      "epoch": 0.16357333333333332,
      "grad_norm": 0.024134314102768503,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 3067
    },
    {
      "epoch": 0.16362666666666667,
      "grad_norm": 0.02487344551537423,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 3068
    },
    {
      "epoch": 0.16368,
      "grad_norm": 0.028226006510698207,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 3069
    },
    {
      "epoch": 0.16373333333333334,
      "grad_norm": 0.023593569778890034,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 3070
    },
    {
      "epoch": 0.16378666666666666,
      "grad_norm": 0.026470009776063515,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 3071
    },
    {
      "epoch": 0.16384,
      "grad_norm": 0.025123454445675927,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 3072
    },
    {
      "epoch": 0.16389333333333334,
      "grad_norm": 0.02684709004188173,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 3073
    },
    {
      "epoch": 0.16394666666666666,
      "grad_norm": 0.024530046984176573,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 3074
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.027707417248179312,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3075
    },
    {
      "epoch": 0.16405333333333333,
      "grad_norm": 0.024588790514335643,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3076
    },
    {
      "epoch": 0.16410666666666668,
      "grad_norm": 0.025576951143114816,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 3077
    },
    {
      "epoch": 0.16416,
      "grad_norm": 0.02541160634125404,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3078
    },
    {
      "epoch": 0.16421333333333332,
      "grad_norm": 0.024070229236235287,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 3079
    },
    {
      "epoch": 0.16426666666666667,
      "grad_norm": 0.024967784129060547,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 3080
    },
    {
      "epoch": 0.16432,
      "grad_norm": 0.025138814007413624,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 3081
    },
    {
      "epoch": 0.16437333333333334,
      "grad_norm": 0.022867659075528176,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 3082
    },
    {
      "epoch": 0.16442666666666667,
      "grad_norm": 0.024103029285883995,
      "learning_rate": 0.0001,
      "loss": 1.0351,
      "step": 3083
    },
    {
      "epoch": 0.16448,
      "grad_norm": 0.025211983264825114,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3084
    },
    {
      "epoch": 0.16453333333333334,
      "grad_norm": 0.026179153759899848,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 3085
    },
    {
      "epoch": 0.16458666666666666,
      "grad_norm": 0.026084361434783015,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 3086
    },
    {
      "epoch": 0.16464,
      "grad_norm": 0.02717258673818343,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3087
    },
    {
      "epoch": 0.16469333333333333,
      "grad_norm": 0.02187546106831263,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 3088
    },
    {
      "epoch": 0.16474666666666668,
      "grad_norm": 0.025100883947215467,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 3089
    },
    {
      "epoch": 0.1648,
      "grad_norm": 0.024991853111418542,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3090
    },
    {
      "epoch": 0.16485333333333332,
      "grad_norm": 0.0225194900201007,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 3091
    },
    {
      "epoch": 0.16490666666666667,
      "grad_norm": 0.023857903159306304,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 3092
    },
    {
      "epoch": 0.16496,
      "grad_norm": 0.025173932621857645,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 3093
    },
    {
      "epoch": 0.16501333333333335,
      "grad_norm": 0.023483049894360175,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 3094
    },
    {
      "epoch": 0.16506666666666667,
      "grad_norm": 0.02289583661011337,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 3095
    },
    {
      "epoch": 0.16512,
      "grad_norm": 0.02305217937453157,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 3096
    },
    {
      "epoch": 0.16517333333333334,
      "grad_norm": 0.0244077168393719,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 3097
    },
    {
      "epoch": 0.16522666666666666,
      "grad_norm": 0.024013383137571273,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 3098
    },
    {
      "epoch": 0.16528,
      "grad_norm": 0.024353815261923498,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 3099
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.02387560893725555,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 3100
    },
    {
      "epoch": 0.16538666666666665,
      "grad_norm": 0.023722092544277148,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 3101
    },
    {
      "epoch": 0.16544,
      "grad_norm": 0.02486301252486058,
      "learning_rate": 0.0001,
      "loss": 0.9028,
      "step": 3102
    },
    {
      "epoch": 0.16549333333333333,
      "grad_norm": 0.023437222724659264,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 3103
    },
    {
      "epoch": 0.16554666666666668,
      "grad_norm": 0.026300381645389736,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 3104
    },
    {
      "epoch": 0.1656,
      "grad_norm": 0.025721508547217206,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 3105
    },
    {
      "epoch": 0.16565333333333335,
      "grad_norm": 0.02580341655128775,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3106
    },
    {
      "epoch": 0.16570666666666667,
      "grad_norm": 0.024717062203306467,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3107
    },
    {
      "epoch": 0.16576,
      "grad_norm": 0.027188333990225043,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3108
    },
    {
      "epoch": 0.16581333333333334,
      "grad_norm": 0.023020663315678914,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 3109
    },
    {
      "epoch": 0.16586666666666666,
      "grad_norm": 0.024927681379550436,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 3110
    },
    {
      "epoch": 0.16592,
      "grad_norm": 0.02300807474738058,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 3111
    },
    {
      "epoch": 0.16597333333333333,
      "grad_norm": 0.02527258483893534,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 3112
    },
    {
      "epoch": 0.16602666666666666,
      "grad_norm": 0.023229282310007135,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 3113
    },
    {
      "epoch": 0.16608,
      "grad_norm": 0.024032332620529673,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 3114
    },
    {
      "epoch": 0.16613333333333333,
      "grad_norm": 0.02365747735019262,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 3115
    },
    {
      "epoch": 0.16618666666666668,
      "grad_norm": 0.02556911101012355,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 3116
    },
    {
      "epoch": 0.16624,
      "grad_norm": 0.02401078689070725,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 3117
    },
    {
      "epoch": 0.16629333333333332,
      "grad_norm": 0.02429074860029864,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 3118
    },
    {
      "epoch": 0.16634666666666667,
      "grad_norm": 0.02281245384831461,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3119
    },
    {
      "epoch": 0.1664,
      "grad_norm": 0.02835063674141327,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 3120
    },
    {
      "epoch": 0.16645333333333334,
      "grad_norm": 0.023480373007969367,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 3121
    },
    {
      "epoch": 0.16650666666666666,
      "grad_norm": 0.024248112454402,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 3122
    },
    {
      "epoch": 0.16656,
      "grad_norm": 0.02579459354609858,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 3123
    },
    {
      "epoch": 0.16661333333333334,
      "grad_norm": 0.025261760124564235,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 3124
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.02543498121782552,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3125
    },
    {
      "epoch": 0.16672,
      "grad_norm": 0.026597739513616242,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 3126
    },
    {
      "epoch": 0.16677333333333333,
      "grad_norm": 0.025687889311139918,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 3127
    },
    {
      "epoch": 0.16682666666666668,
      "grad_norm": 0.024851635500503934,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 3128
    },
    {
      "epoch": 0.16688,
      "grad_norm": 0.028111840472852288,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 3129
    },
    {
      "epoch": 0.16693333333333332,
      "grad_norm": 0.026313770985350253,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 3130
    },
    {
      "epoch": 0.16698666666666667,
      "grad_norm": 0.0271653712980646,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 3131
    },
    {
      "epoch": 0.16704,
      "grad_norm": 0.02570071099396188,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 3132
    },
    {
      "epoch": 0.16709333333333334,
      "grad_norm": 0.026840296213947918,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3133
    },
    {
      "epoch": 0.16714666666666667,
      "grad_norm": 0.028089885710986334,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 3134
    },
    {
      "epoch": 0.1672,
      "grad_norm": 0.028599376803054747,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 3135
    },
    {
      "epoch": 0.16725333333333334,
      "grad_norm": 0.02489973169805591,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 3136
    },
    {
      "epoch": 0.16730666666666666,
      "grad_norm": 0.025210532622558443,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3137
    },
    {
      "epoch": 0.16736,
      "grad_norm": 0.02776235111523642,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 3138
    },
    {
      "epoch": 0.16741333333333333,
      "grad_norm": 0.029314540733893828,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 3139
    },
    {
      "epoch": 0.16746666666666668,
      "grad_norm": 0.023814781635805783,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 3140
    },
    {
      "epoch": 0.16752,
      "grad_norm": 0.027673750199779214,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 3141
    },
    {
      "epoch": 0.16757333333333332,
      "grad_norm": 0.026446895425971173,
      "learning_rate": 0.0001,
      "loss": 0.9146,
      "step": 3142
    },
    {
      "epoch": 0.16762666666666667,
      "grad_norm": 0.02297891072497885,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 3143
    },
    {
      "epoch": 0.16768,
      "grad_norm": 0.02879619364818138,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 3144
    },
    {
      "epoch": 0.16773333333333335,
      "grad_norm": 0.027461768963410623,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 3145
    },
    {
      "epoch": 0.16778666666666667,
      "grad_norm": 0.024095347011667025,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3146
    },
    {
      "epoch": 0.16784,
      "grad_norm": 0.02867530925723784,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 3147
    },
    {
      "epoch": 0.16789333333333334,
      "grad_norm": 0.02599638080902355,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3148
    },
    {
      "epoch": 0.16794666666666666,
      "grad_norm": 0.024544708020736657,
      "learning_rate": 0.0001,
      "loss": 1.0848,
      "step": 3149
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.027332653835688732,
      "learning_rate": 0.0001,
      "loss": 1.0445,
      "step": 3150
    },
    {
      "epoch": 0.16805333333333333,
      "grad_norm": 0.025170238104129196,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 3151
    },
    {
      "epoch": 0.16810666666666665,
      "grad_norm": 0.02573356166532215,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3152
    },
    {
      "epoch": 0.16816,
      "grad_norm": 0.024826402111960806,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3153
    },
    {
      "epoch": 0.16821333333333333,
      "grad_norm": 0.026116630903400034,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 3154
    },
    {
      "epoch": 0.16826666666666668,
      "grad_norm": 0.026717699627494894,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 3155
    },
    {
      "epoch": 0.16832,
      "grad_norm": 0.02567605815777642,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 3156
    },
    {
      "epoch": 0.16837333333333335,
      "grad_norm": 0.02581423057659599,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 3157
    },
    {
      "epoch": 0.16842666666666667,
      "grad_norm": 0.024584267749455692,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 3158
    },
    {
      "epoch": 0.16848,
      "grad_norm": 0.024065228082501795,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 3159
    },
    {
      "epoch": 0.16853333333333334,
      "grad_norm": 0.02421884344099641,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 3160
    },
    {
      "epoch": 0.16858666666666666,
      "grad_norm": 0.0256546196169228,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 3161
    },
    {
      "epoch": 0.16864,
      "grad_norm": 0.023208010609823707,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 3162
    },
    {
      "epoch": 0.16869333333333333,
      "grad_norm": 0.02457271386022546,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 3163
    },
    {
      "epoch": 0.16874666666666666,
      "grad_norm": 0.025515012925885622,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 3164
    },
    {
      "epoch": 0.1688,
      "grad_norm": 0.024822399393591058,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3165
    },
    {
      "epoch": 0.16885333333333333,
      "grad_norm": 0.02458972030896367,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 3166
    },
    {
      "epoch": 0.16890666666666668,
      "grad_norm": 0.026199447232320608,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3167
    },
    {
      "epoch": 0.16896,
      "grad_norm": 0.02675883761232502,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 3168
    },
    {
      "epoch": 0.16901333333333332,
      "grad_norm": 0.025939088832118016,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 3169
    },
    {
      "epoch": 0.16906666666666667,
      "grad_norm": 0.026368958569529893,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 3170
    },
    {
      "epoch": 0.16912,
      "grad_norm": 0.025107305071063155,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 3171
    },
    {
      "epoch": 0.16917333333333334,
      "grad_norm": 0.026921672819041335,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 3172
    },
    {
      "epoch": 0.16922666666666666,
      "grad_norm": 0.023754524988048475,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 3173
    },
    {
      "epoch": 0.16928,
      "grad_norm": 0.02686021477712718,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 3174
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.025031581374756112,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 3175
    },
    {
      "epoch": 0.16938666666666666,
      "grad_norm": 0.024881324076897974,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3176
    },
    {
      "epoch": 0.16944,
      "grad_norm": 0.025820365057906015,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 3177
    },
    {
      "epoch": 0.16949333333333333,
      "grad_norm": 0.025137167173628884,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3178
    },
    {
      "epoch": 0.16954666666666668,
      "grad_norm": 0.02496282420793538,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 3179
    },
    {
      "epoch": 0.1696,
      "grad_norm": 0.026753886007206892,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 3180
    },
    {
      "epoch": 0.16965333333333332,
      "grad_norm": 0.025768187568977002,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 3181
    },
    {
      "epoch": 0.16970666666666667,
      "grad_norm": 0.026004737358098263,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 3182
    },
    {
      "epoch": 0.16976,
      "grad_norm": 0.02571949370738354,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 3183
    },
    {
      "epoch": 0.16981333333333334,
      "grad_norm": 0.025839358743692798,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3184
    },
    {
      "epoch": 0.16986666666666667,
      "grad_norm": 0.02773116383640443,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 3185
    },
    {
      "epoch": 0.16992,
      "grad_norm": 0.02993519678356065,
      "learning_rate": 0.0001,
      "loss": 0.8967,
      "step": 3186
    },
    {
      "epoch": 0.16997333333333334,
      "grad_norm": 0.02316813463921109,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3187
    },
    {
      "epoch": 0.17002666666666666,
      "grad_norm": 0.025701665510525988,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 3188
    },
    {
      "epoch": 0.17008,
      "grad_norm": 0.02462250943729555,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 3189
    },
    {
      "epoch": 0.17013333333333333,
      "grad_norm": 0.024599668574557726,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 3190
    },
    {
      "epoch": 0.17018666666666668,
      "grad_norm": 0.02344840065227566,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 3191
    },
    {
      "epoch": 0.17024,
      "grad_norm": 0.02379148680864617,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 3192
    },
    {
      "epoch": 0.17029333333333332,
      "grad_norm": 0.026793758542982354,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 3193
    },
    {
      "epoch": 0.17034666666666667,
      "grad_norm": 0.025927946608626525,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 3194
    },
    {
      "epoch": 0.1704,
      "grad_norm": 0.027963789007362315,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 3195
    },
    {
      "epoch": 0.17045333333333335,
      "grad_norm": 0.025086104082581197,
      "learning_rate": 0.0001,
      "loss": 0.8819,
      "step": 3196
    },
    {
      "epoch": 0.17050666666666667,
      "grad_norm": 0.02575706337822479,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 3197
    },
    {
      "epoch": 0.17056,
      "grad_norm": 0.02398344839381579,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 3198
    },
    {
      "epoch": 0.17061333333333334,
      "grad_norm": 0.02911692100943575,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 3199
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.026549805837459896,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 3200
    },
    {
      "epoch": 0.17066666666666666,
      "eval_accuracy": 0.6148952938868553,
      "eval_loss": 1.3836640119552612,
      "eval_runtime": 62.3514,
      "eval_samples_per_second": 16.038,
      "eval_steps_per_second": 0.513,
      "step": 3200
    },
    {
      "epoch": 0.17072,
      "grad_norm": 0.025180253996484728,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 3201
    },
    {
      "epoch": 0.17077333333333333,
      "grad_norm": 0.02937578117060558,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 3202
    },
    {
      "epoch": 0.17082666666666665,
      "grad_norm": 0.026394351412294816,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 3203
    },
    {
      "epoch": 0.17088,
      "grad_norm": 0.0253902081369493,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 3204
    },
    {
      "epoch": 0.17093333333333333,
      "grad_norm": 0.024961573055152557,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 3205
    },
    {
      "epoch": 0.17098666666666668,
      "grad_norm": 0.02431309271029481,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3206
    },
    {
      "epoch": 0.17104,
      "grad_norm": 0.025267501174650823,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 3207
    },
    {
      "epoch": 0.17109333333333332,
      "grad_norm": 0.023016209361155254,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 3208
    },
    {
      "epoch": 0.17114666666666667,
      "grad_norm": 0.029420455658514238,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 3209
    },
    {
      "epoch": 0.1712,
      "grad_norm": 0.025537264144258005,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 3210
    },
    {
      "epoch": 0.17125333333333334,
      "grad_norm": 0.024652627306706074,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 3211
    },
    {
      "epoch": 0.17130666666666666,
      "grad_norm": 0.023528966491634724,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 3212
    },
    {
      "epoch": 0.17136,
      "grad_norm": 0.023587512290345294,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 3213
    },
    {
      "epoch": 0.17141333333333333,
      "grad_norm": 0.023813890730982397,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 3214
    },
    {
      "epoch": 0.17146666666666666,
      "grad_norm": 0.025231937173622022,
      "learning_rate": 0.0001,
      "loss": 1.0812,
      "step": 3215
    },
    {
      "epoch": 0.17152,
      "grad_norm": 0.024815432590172107,
      "learning_rate": 0.0001,
      "loss": 1.0716,
      "step": 3216
    },
    {
      "epoch": 0.17157333333333333,
      "grad_norm": 0.024772286659863224,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 3217
    },
    {
      "epoch": 0.17162666666666668,
      "grad_norm": 0.025991491627035138,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3218
    },
    {
      "epoch": 0.17168,
      "grad_norm": 0.02570544138876579,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 3219
    },
    {
      "epoch": 0.17173333333333332,
      "grad_norm": 0.02402967462411596,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 3220
    },
    {
      "epoch": 0.17178666666666667,
      "grad_norm": 0.026766748492244485,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 3221
    },
    {
      "epoch": 0.17184,
      "grad_norm": 0.026133135533397796,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 3222
    },
    {
      "epoch": 0.17189333333333334,
      "grad_norm": 0.026094978850537718,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3223
    },
    {
      "epoch": 0.17194666666666666,
      "grad_norm": 0.026553672417286067,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 3224
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.026287396500706578,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 3225
    },
    {
      "epoch": 0.17205333333333334,
      "grad_norm": 0.02549072879334232,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 3226
    },
    {
      "epoch": 0.17210666666666666,
      "grad_norm": 0.023777766881523877,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 3227
    },
    {
      "epoch": 0.17216,
      "grad_norm": 0.025197569598541653,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 3228
    },
    {
      "epoch": 0.17221333333333333,
      "grad_norm": 0.029203595172221212,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 3229
    },
    {
      "epoch": 0.17226666666666668,
      "grad_norm": 0.02565999840536797,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 3230
    },
    {
      "epoch": 0.17232,
      "grad_norm": 0.024698466210046243,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 3231
    },
    {
      "epoch": 0.17237333333333332,
      "grad_norm": 0.02476613962728062,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 3232
    },
    {
      "epoch": 0.17242666666666667,
      "grad_norm": 0.023000990619386503,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 3233
    },
    {
      "epoch": 0.17248,
      "grad_norm": 0.02481676534774418,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3234
    },
    {
      "epoch": 0.17253333333333334,
      "grad_norm": 0.02316009609097262,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 3235
    },
    {
      "epoch": 0.17258666666666667,
      "grad_norm": 0.02430514384116189,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 3236
    },
    {
      "epoch": 0.17264,
      "grad_norm": 0.02411396056308451,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3237
    },
    {
      "epoch": 0.17269333333333334,
      "grad_norm": 0.024682086048844993,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 3238
    },
    {
      "epoch": 0.17274666666666666,
      "grad_norm": 0.023734650968473422,
      "learning_rate": 0.0001,
      "loss": 1.0491,
      "step": 3239
    },
    {
      "epoch": 0.1728,
      "grad_norm": 0.023112553593343837,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 3240
    },
    {
      "epoch": 0.17285333333333333,
      "grad_norm": 0.023614553545185577,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 3241
    },
    {
      "epoch": 0.17290666666666665,
      "grad_norm": 0.024986510655095964,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 3242
    },
    {
      "epoch": 0.17296,
      "grad_norm": 0.02413172008614967,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3243
    },
    {
      "epoch": 0.17301333333333332,
      "grad_norm": 0.026729789631091707,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3244
    },
    {
      "epoch": 0.17306666666666667,
      "grad_norm": 0.02686316927307677,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 3245
    },
    {
      "epoch": 0.17312,
      "grad_norm": 0.024551927210796513,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 3246
    },
    {
      "epoch": 0.17317333333333335,
      "grad_norm": 0.027864444270083992,
      "learning_rate": 0.0001,
      "loss": 1.0841,
      "step": 3247
    },
    {
      "epoch": 0.17322666666666667,
      "grad_norm": 0.02668807440874764,
      "learning_rate": 0.0001,
      "loss": 0.9074,
      "step": 3248
    },
    {
      "epoch": 0.17328,
      "grad_norm": 0.024124829995790492,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 3249
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.025930345242203254,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 3250
    },
    {
      "epoch": 0.17338666666666666,
      "grad_norm": 0.025480269205712492,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 3251
    },
    {
      "epoch": 0.17344,
      "grad_norm": 0.02498706522597276,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3252
    },
    {
      "epoch": 0.17349333333333333,
      "grad_norm": 0.024167800841631337,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 3253
    },
    {
      "epoch": 0.17354666666666665,
      "grad_norm": 0.024374511754638045,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 3254
    },
    {
      "epoch": 0.1736,
      "grad_norm": 0.025424948649484472,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 3255
    },
    {
      "epoch": 0.17365333333333333,
      "grad_norm": 0.023547229593546146,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3256
    },
    {
      "epoch": 0.17370666666666668,
      "grad_norm": 0.026604589121466498,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3257
    },
    {
      "epoch": 0.17376,
      "grad_norm": 0.025645795272443025,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 3258
    },
    {
      "epoch": 0.17381333333333332,
      "grad_norm": 0.02507952360873121,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 3259
    },
    {
      "epoch": 0.17386666666666667,
      "grad_norm": 0.024342816368392986,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 3260
    },
    {
      "epoch": 0.17392,
      "grad_norm": 0.02807401699005808,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 3261
    },
    {
      "epoch": 0.17397333333333334,
      "grad_norm": 0.023172335836664233,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3262
    },
    {
      "epoch": 0.17402666666666666,
      "grad_norm": 0.024857028009847133,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3263
    },
    {
      "epoch": 0.17408,
      "grad_norm": 0.027643427976389388,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 3264
    },
    {
      "epoch": 0.17413333333333333,
      "grad_norm": 0.02561759939905144,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3265
    },
    {
      "epoch": 0.17418666666666666,
      "grad_norm": 0.025162804669445236,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 3266
    },
    {
      "epoch": 0.17424,
      "grad_norm": 0.028701710316663947,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 3267
    },
    {
      "epoch": 0.17429333333333333,
      "grad_norm": 0.02733915521536416,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 3268
    },
    {
      "epoch": 0.17434666666666668,
      "grad_norm": 0.029075667107138284,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 3269
    },
    {
      "epoch": 0.1744,
      "grad_norm": 0.02653160084217948,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 3270
    },
    {
      "epoch": 0.17445333333333332,
      "grad_norm": 0.02835227613630983,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 3271
    },
    {
      "epoch": 0.17450666666666667,
      "grad_norm": 0.02419417781202281,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 3272
    },
    {
      "epoch": 0.17456,
      "grad_norm": 0.025234444657224575,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 3273
    },
    {
      "epoch": 0.17461333333333334,
      "grad_norm": 0.02623576327156178,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 3274
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.025078277168629183,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 3275
    },
    {
      "epoch": 0.17472,
      "grad_norm": 0.024871816292535685,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 3276
    },
    {
      "epoch": 0.17477333333333334,
      "grad_norm": 0.025507221010659675,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 3277
    },
    {
      "epoch": 0.17482666666666666,
      "grad_norm": 0.023165644603191374,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3278
    },
    {
      "epoch": 0.17488,
      "grad_norm": 0.024480223694639328,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 3279
    },
    {
      "epoch": 0.17493333333333333,
      "grad_norm": 0.025135070616603895,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 3280
    },
    {
      "epoch": 0.17498666666666668,
      "grad_norm": 0.025202331306909707,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 3281
    },
    {
      "epoch": 0.17504,
      "grad_norm": 0.02772264888081956,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 3282
    },
    {
      "epoch": 0.17509333333333332,
      "grad_norm": 0.026353809767062614,
      "learning_rate": 0.0001,
      "loss": 1.1162,
      "step": 3283
    },
    {
      "epoch": 0.17514666666666667,
      "grad_norm": 0.028267453071198576,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 3284
    },
    {
      "epoch": 0.1752,
      "grad_norm": 0.024530706735911238,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3285
    },
    {
      "epoch": 0.17525333333333334,
      "grad_norm": 0.0259056445759679,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 3286
    },
    {
      "epoch": 0.17530666666666667,
      "grad_norm": 0.025622966521847684,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 3287
    },
    {
      "epoch": 0.17536,
      "grad_norm": 0.024815579974000846,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 3288
    },
    {
      "epoch": 0.17541333333333334,
      "grad_norm": 0.025669547245977614,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 3289
    },
    {
      "epoch": 0.17546666666666666,
      "grad_norm": 0.024513910544881758,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 3290
    },
    {
      "epoch": 0.17552,
      "grad_norm": 0.024852612682380478,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 3291
    },
    {
      "epoch": 0.17557333333333333,
      "grad_norm": 0.02467697048306532,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 3292
    },
    {
      "epoch": 0.17562666666666665,
      "grad_norm": 0.024953749313015756,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 3293
    },
    {
      "epoch": 0.17568,
      "grad_norm": 0.0267438503497353,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 3294
    },
    {
      "epoch": 0.17573333333333332,
      "grad_norm": 0.024629173835076765,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 3295
    },
    {
      "epoch": 0.17578666666666667,
      "grad_norm": 0.026741944569232113,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 3296
    },
    {
      "epoch": 0.17584,
      "grad_norm": 0.02575150917189237,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 3297
    },
    {
      "epoch": 0.17589333333333335,
      "grad_norm": 0.024188102805792856,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 3298
    },
    {
      "epoch": 0.17594666666666667,
      "grad_norm": 0.02460434512223889,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3299
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.02661081455985677,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 3300
    },
    {
      "epoch": 0.17605333333333334,
      "grad_norm": 0.028647450435440546,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 3301
    },
    {
      "epoch": 0.17610666666666666,
      "grad_norm": 0.027339896767391524,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 3302
    },
    {
      "epoch": 0.17616,
      "grad_norm": 0.023483652562482176,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 3303
    },
    {
      "epoch": 0.17621333333333333,
      "grad_norm": 0.026663309664095934,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 3304
    },
    {
      "epoch": 0.17626666666666665,
      "grad_norm": 0.027202116347814748,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3305
    },
    {
      "epoch": 0.17632,
      "grad_norm": 0.02390439583667912,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 3306
    },
    {
      "epoch": 0.17637333333333333,
      "grad_norm": 0.02726673877515778,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 3307
    },
    {
      "epoch": 0.17642666666666668,
      "grad_norm": 0.030836237003722705,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 3308
    },
    {
      "epoch": 0.17648,
      "grad_norm": 0.027554319159455946,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3309
    },
    {
      "epoch": 0.17653333333333332,
      "grad_norm": 0.02409846627460086,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 3310
    },
    {
      "epoch": 0.17658666666666667,
      "grad_norm": 0.029351347270393006,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 3311
    },
    {
      "epoch": 0.17664,
      "grad_norm": 0.024751479812259714,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 3312
    },
    {
      "epoch": 0.17669333333333334,
      "grad_norm": 0.026252964674900504,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 3313
    },
    {
      "epoch": 0.17674666666666666,
      "grad_norm": 0.02467546788227699,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 3314
    },
    {
      "epoch": 0.1768,
      "grad_norm": 0.028397330824945975,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3315
    },
    {
      "epoch": 0.17685333333333333,
      "grad_norm": 0.024608656361176977,
      "learning_rate": 0.0001,
      "loss": 1.0291,
      "step": 3316
    },
    {
      "epoch": 0.17690666666666666,
      "grad_norm": 0.02586550291288537,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 3317
    },
    {
      "epoch": 0.17696,
      "grad_norm": 0.025777067756935324,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 3318
    },
    {
      "epoch": 0.17701333333333333,
      "grad_norm": 0.023691145871176034,
      "learning_rate": 0.0001,
      "loss": 0.9081,
      "step": 3319
    },
    {
      "epoch": 0.17706666666666668,
      "grad_norm": 0.02439266025195327,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3320
    },
    {
      "epoch": 0.17712,
      "grad_norm": 0.025569110341384576,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 3321
    },
    {
      "epoch": 0.17717333333333332,
      "grad_norm": 0.023220496813552184,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 3322
    },
    {
      "epoch": 0.17722666666666667,
      "grad_norm": 0.026562486666884263,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3323
    },
    {
      "epoch": 0.17728,
      "grad_norm": 0.025668681309924658,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 3324
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.025637225992535827,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 3325
    },
    {
      "epoch": 0.17738666666666666,
      "grad_norm": 0.02672393205563525,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 3326
    },
    {
      "epoch": 0.17744,
      "grad_norm": 0.027030260042634077,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 3327
    },
    {
      "epoch": 0.17749333333333334,
      "grad_norm": 0.026086547322097118,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 3328
    },
    {
      "epoch": 0.17754666666666666,
      "grad_norm": 0.02465233840387541,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 3329
    },
    {
      "epoch": 0.1776,
      "grad_norm": 0.025730868432308474,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3330
    },
    {
      "epoch": 0.17765333333333333,
      "grad_norm": 0.025685968925867577,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 3331
    },
    {
      "epoch": 0.17770666666666668,
      "grad_norm": 0.025893342650091983,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 3332
    },
    {
      "epoch": 0.17776,
      "grad_norm": 0.02784994798971849,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 3333
    },
    {
      "epoch": 0.17781333333333332,
      "grad_norm": 0.024324606839358914,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 3334
    },
    {
      "epoch": 0.17786666666666667,
      "grad_norm": 0.02745575682717646,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 3335
    },
    {
      "epoch": 0.17792,
      "grad_norm": 0.026578476312241268,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 3336
    },
    {
      "epoch": 0.17797333333333334,
      "grad_norm": 0.026738034471297727,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 3337
    },
    {
      "epoch": 0.17802666666666667,
      "grad_norm": 0.02642963077882504,
      "learning_rate": 0.0001,
      "loss": 1.0506,
      "step": 3338
    },
    {
      "epoch": 0.17808,
      "grad_norm": 0.026137199647165824,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 3339
    },
    {
      "epoch": 0.17813333333333334,
      "grad_norm": 0.028944488140847664,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 3340
    },
    {
      "epoch": 0.17818666666666666,
      "grad_norm": 0.025802608387355125,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 3341
    },
    {
      "epoch": 0.17824,
      "grad_norm": 0.024481492653230234,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 3342
    },
    {
      "epoch": 0.17829333333333333,
      "grad_norm": 0.027879991209138016,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 3343
    },
    {
      "epoch": 0.17834666666666665,
      "grad_norm": 0.028173536594283913,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 3344
    },
    {
      "epoch": 0.1784,
      "grad_norm": 0.025966632937853378,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 3345
    },
    {
      "epoch": 0.17845333333333332,
      "grad_norm": 0.02654554243205197,
      "learning_rate": 0.0001,
      "loss": 1.0378,
      "step": 3346
    },
    {
      "epoch": 0.17850666666666667,
      "grad_norm": 0.024949525696071975,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3347
    },
    {
      "epoch": 0.17856,
      "grad_norm": 0.029127633729205772,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3348
    },
    {
      "epoch": 0.17861333333333335,
      "grad_norm": 0.027058521363336526,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 3349
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.025771294287852534,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3350
    },
    {
      "epoch": 0.17872,
      "grad_norm": 0.030058750163883464,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 3351
    },
    {
      "epoch": 0.17877333333333334,
      "grad_norm": 0.023340980478636322,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 3352
    },
    {
      "epoch": 0.17882666666666666,
      "grad_norm": 0.02824652280486865,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 3353
    },
    {
      "epoch": 0.17888,
      "grad_norm": 0.024822069482217986,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 3354
    },
    {
      "epoch": 0.17893333333333333,
      "grad_norm": 0.027340586673662726,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 3355
    },
    {
      "epoch": 0.17898666666666666,
      "grad_norm": 0.025101475684207196,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 3356
    },
    {
      "epoch": 0.17904,
      "grad_norm": 0.02454697458967666,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3357
    },
    {
      "epoch": 0.17909333333333333,
      "grad_norm": 0.02495894069592039,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 3358
    },
    {
      "epoch": 0.17914666666666668,
      "grad_norm": 0.026273941374103577,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 3359
    },
    {
      "epoch": 0.1792,
      "grad_norm": 0.025518725024426377,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 3360
    },
    {
      "epoch": 0.17925333333333332,
      "grad_norm": 0.025701186908437083,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 3361
    },
    {
      "epoch": 0.17930666666666667,
      "grad_norm": 0.024420279120936386,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 3362
    },
    {
      "epoch": 0.17936,
      "grad_norm": 0.025025327561413103,
      "learning_rate": 0.0001,
      "loss": 0.9322,
      "step": 3363
    },
    {
      "epoch": 0.17941333333333334,
      "grad_norm": 0.024841550583651957,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 3364
    },
    {
      "epoch": 0.17946666666666666,
      "grad_norm": 0.025676338869691583,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 3365
    },
    {
      "epoch": 0.17952,
      "grad_norm": 0.026326257810716135,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 3366
    },
    {
      "epoch": 0.17957333333333333,
      "grad_norm": 0.02474256194517646,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3367
    },
    {
      "epoch": 0.17962666666666666,
      "grad_norm": 0.027963947238114444,
      "learning_rate": 0.0001,
      "loss": 0.9474,
      "step": 3368
    },
    {
      "epoch": 0.17968,
      "grad_norm": 0.02493890587771712,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 3369
    },
    {
      "epoch": 0.17973333333333333,
      "grad_norm": 0.026847349493475087,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 3370
    },
    {
      "epoch": 0.17978666666666668,
      "grad_norm": 0.022916206877024937,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 3371
    },
    {
      "epoch": 0.17984,
      "grad_norm": 0.029671281375378052,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 3372
    },
    {
      "epoch": 0.17989333333333332,
      "grad_norm": 0.02422641311479583,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 3373
    },
    {
      "epoch": 0.17994666666666667,
      "grad_norm": 0.026006887185620334,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 3374
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.026493320899817988,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3375
    },
    {
      "epoch": 0.18005333333333334,
      "grad_norm": 0.024660360305645727,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 3376
    },
    {
      "epoch": 0.18010666666666666,
      "grad_norm": 0.023720236686848622,
      "learning_rate": 0.0001,
      "loss": 0.8575,
      "step": 3377
    },
    {
      "epoch": 0.18016,
      "grad_norm": 0.025327407036899247,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 3378
    },
    {
      "epoch": 0.18021333333333334,
      "grad_norm": 0.024494421057157535,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 3379
    },
    {
      "epoch": 0.18026666666666666,
      "grad_norm": 0.025014865978980085,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 3380
    },
    {
      "epoch": 0.18032,
      "grad_norm": 0.02556562189346021,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 3381
    },
    {
      "epoch": 0.18037333333333333,
      "grad_norm": 0.027662016741659932,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 3382
    },
    {
      "epoch": 0.18042666666666668,
      "grad_norm": 0.02610529119376462,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3383
    },
    {
      "epoch": 0.18048,
      "grad_norm": 0.0261524509885641,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 3384
    },
    {
      "epoch": 0.18053333333333332,
      "grad_norm": 0.026636151742726665,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 3385
    },
    {
      "epoch": 0.18058666666666667,
      "grad_norm": 0.028885523092490463,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3386
    },
    {
      "epoch": 0.18064,
      "grad_norm": 0.030280298664756126,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 3387
    },
    {
      "epoch": 0.18069333333333334,
      "grad_norm": 0.024046419548378644,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 3388
    },
    {
      "epoch": 0.18074666666666667,
      "grad_norm": 0.026271644100280774,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3389
    },
    {
      "epoch": 0.1808,
      "grad_norm": 0.025345570104632755,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 3390
    },
    {
      "epoch": 0.18085333333333334,
      "grad_norm": 0.024593655955514694,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 3391
    },
    {
      "epoch": 0.18090666666666666,
      "grad_norm": 0.026836422020053582,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 3392
    },
    {
      "epoch": 0.18096,
      "grad_norm": 0.02758681178000765,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 3393
    },
    {
      "epoch": 0.18101333333333333,
      "grad_norm": 0.025361288459162922,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 3394
    },
    {
      "epoch": 0.18106666666666665,
      "grad_norm": 0.025714324293475345,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 3395
    },
    {
      "epoch": 0.18112,
      "grad_norm": 0.027658523246141167,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 3396
    },
    {
      "epoch": 0.18117333333333333,
      "grad_norm": 0.025741311848737118,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 3397
    },
    {
      "epoch": 0.18122666666666667,
      "grad_norm": 0.02658568450472719,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3398
    },
    {
      "epoch": 0.18128,
      "grad_norm": 0.02679139169631185,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3399
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.025746278088033318,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 3400
    },
    {
      "epoch": 0.18133333333333335,
      "eval_accuracy": 0.6152154472587726,
      "eval_loss": 1.3818577527999878,
      "eval_runtime": 62.849,
      "eval_samples_per_second": 15.911,
      "eval_steps_per_second": 0.509,
      "step": 3400
    },
    {
      "epoch": 0.18138666666666667,
      "grad_norm": 0.02788404577520953,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 3401
    },
    {
      "epoch": 0.18144,
      "grad_norm": 0.029107590696340915,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 3402
    },
    {
      "epoch": 0.18149333333333334,
      "grad_norm": 0.02463337126691339,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 3403
    },
    {
      "epoch": 0.18154666666666666,
      "grad_norm": 0.026536865830945593,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 3404
    },
    {
      "epoch": 0.1816,
      "grad_norm": 0.026605887534267837,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 3405
    },
    {
      "epoch": 0.18165333333333333,
      "grad_norm": 0.02642094802780444,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 3406
    },
    {
      "epoch": 0.18170666666666666,
      "grad_norm": 0.026914393671230667,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3407
    },
    {
      "epoch": 0.18176,
      "grad_norm": 0.024075004807619045,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 3408
    },
    {
      "epoch": 0.18181333333333333,
      "grad_norm": 0.027571736409787686,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 3409
    },
    {
      "epoch": 0.18186666666666668,
      "grad_norm": 0.029090476812969654,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 3410
    },
    {
      "epoch": 0.18192,
      "grad_norm": 0.02606263242880765,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 3411
    },
    {
      "epoch": 0.18197333333333332,
      "grad_norm": 0.02467601869414292,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 3412
    },
    {
      "epoch": 0.18202666666666667,
      "grad_norm": 0.024705144745746834,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3413
    },
    {
      "epoch": 0.18208,
      "grad_norm": 0.02683304124968671,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 3414
    },
    {
      "epoch": 0.18213333333333334,
      "grad_norm": 0.025897132758175886,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 3415
    },
    {
      "epoch": 0.18218666666666666,
      "grad_norm": 0.02818584018538754,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 3416
    },
    {
      "epoch": 0.18224,
      "grad_norm": 0.027049378353121305,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 3417
    },
    {
      "epoch": 0.18229333333333334,
      "grad_norm": 0.02719652785136033,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 3418
    },
    {
      "epoch": 0.18234666666666666,
      "grad_norm": 0.025956379535244132,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3419
    },
    {
      "epoch": 0.1824,
      "grad_norm": 0.02355652114916388,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 3420
    },
    {
      "epoch": 0.18245333333333333,
      "grad_norm": 0.027175423258480758,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3421
    },
    {
      "epoch": 0.18250666666666668,
      "grad_norm": 0.02479632812414812,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3422
    },
    {
      "epoch": 0.18256,
      "grad_norm": 0.02434525944908548,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 3423
    },
    {
      "epoch": 0.18261333333333332,
      "grad_norm": 0.024152741586693605,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 3424
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.025923698298901243,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 3425
    },
    {
      "epoch": 0.18272,
      "grad_norm": 0.023881379800550724,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 3426
    },
    {
      "epoch": 0.18277333333333334,
      "grad_norm": 0.025130436970779792,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3427
    },
    {
      "epoch": 0.18282666666666667,
      "grad_norm": 0.025910273530369423,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 3428
    },
    {
      "epoch": 0.18288,
      "grad_norm": 0.022987892614521107,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3429
    },
    {
      "epoch": 0.18293333333333334,
      "grad_norm": 0.025216789935996364,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 3430
    },
    {
      "epoch": 0.18298666666666666,
      "grad_norm": 0.022414665646417427,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 3431
    },
    {
      "epoch": 0.18304,
      "grad_norm": 0.026144131000426726,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 3432
    },
    {
      "epoch": 0.18309333333333333,
      "grad_norm": 0.026874572064510664,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 3433
    },
    {
      "epoch": 0.18314666666666668,
      "grad_norm": 0.025354152592850787,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 3434
    },
    {
      "epoch": 0.1832,
      "grad_norm": 0.027292528327281337,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 3435
    },
    {
      "epoch": 0.18325333333333332,
      "grad_norm": 0.025792740216296954,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 3436
    },
    {
      "epoch": 0.18330666666666667,
      "grad_norm": 0.028028936273908723,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 3437
    },
    {
      "epoch": 0.18336,
      "grad_norm": 0.026069064151915237,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 3438
    },
    {
      "epoch": 0.18341333333333334,
      "grad_norm": 0.025598157056008826,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 3439
    },
    {
      "epoch": 0.18346666666666667,
      "grad_norm": 0.028918364437689793,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 3440
    },
    {
      "epoch": 0.18352,
      "grad_norm": 0.024758234097893215,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 3441
    },
    {
      "epoch": 0.18357333333333334,
      "grad_norm": 0.02588462313960585,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 3442
    },
    {
      "epoch": 0.18362666666666666,
      "grad_norm": 0.026697745928053067,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 3443
    },
    {
      "epoch": 0.18368,
      "grad_norm": 0.028080256300182117,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 3444
    },
    {
      "epoch": 0.18373333333333333,
      "grad_norm": 0.026136989785748823,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3445
    },
    {
      "epoch": 0.18378666666666665,
      "grad_norm": 0.02833538675212735,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 3446
    },
    {
      "epoch": 0.18384,
      "grad_norm": 0.02732873250591658,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3447
    },
    {
      "epoch": 0.18389333333333333,
      "grad_norm": 0.02620511472470825,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 3448
    },
    {
      "epoch": 0.18394666666666667,
      "grad_norm": 0.02426819705710967,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3449
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.02791431859195201,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 3450
    },
    {
      "epoch": 0.18405333333333335,
      "grad_norm": 0.02558173110536595,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 3451
    },
    {
      "epoch": 0.18410666666666667,
      "grad_norm": 0.025035677618851535,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 3452
    },
    {
      "epoch": 0.18416,
      "grad_norm": 0.02833836423072665,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3453
    },
    {
      "epoch": 0.18421333333333334,
      "grad_norm": 0.025505732240270182,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 3454
    },
    {
      "epoch": 0.18426666666666666,
      "grad_norm": 0.02672197301873966,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 3455
    },
    {
      "epoch": 0.18432,
      "grad_norm": 0.027576477931748763,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3456
    },
    {
      "epoch": 0.18437333333333333,
      "grad_norm": 0.027159731391570685,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 3457
    },
    {
      "epoch": 0.18442666666666666,
      "grad_norm": 0.026955744534445016,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 3458
    },
    {
      "epoch": 0.18448,
      "grad_norm": 0.027882522231527766,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3459
    },
    {
      "epoch": 0.18453333333333333,
      "grad_norm": 0.025523919294513243,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 3460
    },
    {
      "epoch": 0.18458666666666668,
      "grad_norm": 0.028135753684217932,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 3461
    },
    {
      "epoch": 0.18464,
      "grad_norm": 0.02919719550404935,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3462
    },
    {
      "epoch": 0.18469333333333332,
      "grad_norm": 0.030156908959569777,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 3463
    },
    {
      "epoch": 0.18474666666666667,
      "grad_norm": 0.02483120909762595,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 3464
    },
    {
      "epoch": 0.1848,
      "grad_norm": 0.027484478045092787,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 3465
    },
    {
      "epoch": 0.18485333333333334,
      "grad_norm": 0.028196399404294328,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3466
    },
    {
      "epoch": 0.18490666666666666,
      "grad_norm": 0.028376927999862345,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3467
    },
    {
      "epoch": 0.18496,
      "grad_norm": 0.025303580311752186,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 3468
    },
    {
      "epoch": 0.18501333333333334,
      "grad_norm": 0.02908489426235198,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 3469
    },
    {
      "epoch": 0.18506666666666666,
      "grad_norm": 0.02633498621475778,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 3470
    },
    {
      "epoch": 0.18512,
      "grad_norm": 0.02541710799380631,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 3471
    },
    {
      "epoch": 0.18517333333333333,
      "grad_norm": 0.025950494509351205,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 3472
    },
    {
      "epoch": 0.18522666666666668,
      "grad_norm": 0.027029085305819704,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 3473
    },
    {
      "epoch": 0.18528,
      "grad_norm": 0.0255995620284965,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 3474
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.026879805814112822,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 3475
    },
    {
      "epoch": 0.18538666666666667,
      "grad_norm": 0.024992550638913955,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3476
    },
    {
      "epoch": 0.18544,
      "grad_norm": 0.02791509696450787,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 3477
    },
    {
      "epoch": 0.18549333333333334,
      "grad_norm": 0.02427486396924571,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3478
    },
    {
      "epoch": 0.18554666666666667,
      "grad_norm": 0.026970205597306663,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3479
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.025142232348328398,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 3480
    },
    {
      "epoch": 0.18565333333333334,
      "grad_norm": 0.024579284393436162,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3481
    },
    {
      "epoch": 0.18570666666666666,
      "grad_norm": 0.025199643763289835,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 3482
    },
    {
      "epoch": 0.18576,
      "grad_norm": 0.02552305776156749,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 3483
    },
    {
      "epoch": 0.18581333333333333,
      "grad_norm": 0.02590679008891178,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 3484
    },
    {
      "epoch": 0.18586666666666668,
      "grad_norm": 0.02552023726323634,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 3485
    },
    {
      "epoch": 0.18592,
      "grad_norm": 0.02463898813792729,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3486
    },
    {
      "epoch": 0.18597333333333332,
      "grad_norm": 0.026545348869412597,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3487
    },
    {
      "epoch": 0.18602666666666667,
      "grad_norm": 0.024563805691566496,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 3488
    },
    {
      "epoch": 0.18608,
      "grad_norm": 0.026147704213181175,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 3489
    },
    {
      "epoch": 0.18613333333333335,
      "grad_norm": 0.024728224555209392,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3490
    },
    {
      "epoch": 0.18618666666666667,
      "grad_norm": 0.027092326426092835,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 3491
    },
    {
      "epoch": 0.18624,
      "grad_norm": 0.029892874849365095,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 3492
    },
    {
      "epoch": 0.18629333333333334,
      "grad_norm": 0.02538997906325339,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 3493
    },
    {
      "epoch": 0.18634666666666666,
      "grad_norm": 0.023746872719874267,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 3494
    },
    {
      "epoch": 0.1864,
      "grad_norm": 0.025789089572454276,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 3495
    },
    {
      "epoch": 0.18645333333333333,
      "grad_norm": 0.025796761565649168,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 3496
    },
    {
      "epoch": 0.18650666666666665,
      "grad_norm": 0.02335943707322247,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 3497
    },
    {
      "epoch": 0.18656,
      "grad_norm": 0.02715244718661702,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 3498
    },
    {
      "epoch": 0.18661333333333333,
      "grad_norm": 0.025536798513648803,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 3499
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.026207805977841003,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 3500
    },
    {
      "epoch": 0.18672,
      "grad_norm": 0.024706190809151228,
      "learning_rate": 0.0001,
      "loss": 1.0744,
      "step": 3501
    },
    {
      "epoch": 0.18677333333333335,
      "grad_norm": 0.024120531649981153,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 3502
    },
    {
      "epoch": 0.18682666666666667,
      "grad_norm": 0.02739806030820672,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 3503
    },
    {
      "epoch": 0.18688,
      "grad_norm": 0.02390316820868975,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 3504
    },
    {
      "epoch": 0.18693333333333334,
      "grad_norm": 0.024413636650209524,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3505
    },
    {
      "epoch": 0.18698666666666666,
      "grad_norm": 0.024184848408398116,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3506
    },
    {
      "epoch": 0.18704,
      "grad_norm": 0.027179447094897002,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 3507
    },
    {
      "epoch": 0.18709333333333333,
      "grad_norm": 0.02615699103404311,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 3508
    },
    {
      "epoch": 0.18714666666666666,
      "grad_norm": 0.024523123947458123,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 3509
    },
    {
      "epoch": 0.1872,
      "grad_norm": 0.025248483210581683,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 3510
    },
    {
      "epoch": 0.18725333333333333,
      "grad_norm": 0.025302320572677943,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 3511
    },
    {
      "epoch": 0.18730666666666668,
      "grad_norm": 0.027253578075014512,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3512
    },
    {
      "epoch": 0.18736,
      "grad_norm": 0.022861325841719914,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 3513
    },
    {
      "epoch": 0.18741333333333332,
      "grad_norm": 0.024893480388474547,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 3514
    },
    {
      "epoch": 0.18746666666666667,
      "grad_norm": 0.02592449821000051,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 3515
    },
    {
      "epoch": 0.18752,
      "grad_norm": 0.023953847962230077,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 3516
    },
    {
      "epoch": 0.18757333333333334,
      "grad_norm": 0.025104227828563,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 3517
    },
    {
      "epoch": 0.18762666666666666,
      "grad_norm": 0.02478229841068402,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 3518
    },
    {
      "epoch": 0.18768,
      "grad_norm": 0.0239915080111181,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3519
    },
    {
      "epoch": 0.18773333333333334,
      "grad_norm": 0.02442893138764159,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 3520
    },
    {
      "epoch": 0.18778666666666666,
      "grad_norm": 0.025652093385124586,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 3521
    },
    {
      "epoch": 0.18784,
      "grad_norm": 0.025371196966063075,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 3522
    },
    {
      "epoch": 0.18789333333333333,
      "grad_norm": 0.0248476163954093,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3523
    },
    {
      "epoch": 0.18794666666666668,
      "grad_norm": 0.0253167020577384,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 3524
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.02775090894238502,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3525
    },
    {
      "epoch": 0.18805333333333332,
      "grad_norm": 0.023501308997575115,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3526
    },
    {
      "epoch": 0.18810666666666667,
      "grad_norm": 0.027311165358979612,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 3527
    },
    {
      "epoch": 0.18816,
      "grad_norm": 0.024838790706314003,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 3528
    },
    {
      "epoch": 0.18821333333333334,
      "grad_norm": 0.025972614879531838,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 3529
    },
    {
      "epoch": 0.18826666666666667,
      "grad_norm": 0.02498794777051121,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 3530
    },
    {
      "epoch": 0.18832,
      "grad_norm": 0.024654044677827162,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 3531
    },
    {
      "epoch": 0.18837333333333334,
      "grad_norm": 0.026046568551439976,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 3532
    },
    {
      "epoch": 0.18842666666666666,
      "grad_norm": 0.026949441411058376,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 3533
    },
    {
      "epoch": 0.18848,
      "grad_norm": 0.02467053612107203,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3534
    },
    {
      "epoch": 0.18853333333333333,
      "grad_norm": 0.025870594614373455,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 3535
    },
    {
      "epoch": 0.18858666666666668,
      "grad_norm": 0.023237968971323176,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 3536
    },
    {
      "epoch": 0.18864,
      "grad_norm": 0.024620283622012153,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3537
    },
    {
      "epoch": 0.18869333333333332,
      "grad_norm": 0.026938732703581054,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 3538
    },
    {
      "epoch": 0.18874666666666667,
      "grad_norm": 0.02417372607076218,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3539
    },
    {
      "epoch": 0.1888,
      "grad_norm": 0.02448401593182751,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 3540
    },
    {
      "epoch": 0.18885333333333335,
      "grad_norm": 0.025142978607788923,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 3541
    },
    {
      "epoch": 0.18890666666666667,
      "grad_norm": 0.025510598135688407,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 3542
    },
    {
      "epoch": 0.18896,
      "grad_norm": 0.025848527123143197,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 3543
    },
    {
      "epoch": 0.18901333333333334,
      "grad_norm": 0.02585960910265177,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 3544
    },
    {
      "epoch": 0.18906666666666666,
      "grad_norm": 0.025832039061583597,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 3545
    },
    {
      "epoch": 0.18912,
      "grad_norm": 0.026160370100400645,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 3546
    },
    {
      "epoch": 0.18917333333333333,
      "grad_norm": 0.025483734998501248,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 3547
    },
    {
      "epoch": 0.18922666666666665,
      "grad_norm": 0.025333360545155753,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 3548
    },
    {
      "epoch": 0.18928,
      "grad_norm": 0.024779958119791726,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 3549
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.026915940332873502,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 3550
    },
    {
      "epoch": 0.18938666666666668,
      "grad_norm": 0.026869694538272173,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 3551
    },
    {
      "epoch": 0.18944,
      "grad_norm": 0.024177499053490363,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 3552
    },
    {
      "epoch": 0.18949333333333335,
      "grad_norm": 0.025049740588224262,
      "learning_rate": 0.0001,
      "loss": 1.0593,
      "step": 3553
    },
    {
      "epoch": 0.18954666666666667,
      "grad_norm": 0.025639618430278018,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 3554
    },
    {
      "epoch": 0.1896,
      "grad_norm": 0.02653293793139913,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 3555
    },
    {
      "epoch": 0.18965333333333334,
      "grad_norm": 0.025676541826989443,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3556
    },
    {
      "epoch": 0.18970666666666666,
      "grad_norm": 0.02516697577008408,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3557
    },
    {
      "epoch": 0.18976,
      "grad_norm": 0.0248231752157476,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3558
    },
    {
      "epoch": 0.18981333333333333,
      "grad_norm": 0.023818203842600437,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3559
    },
    {
      "epoch": 0.18986666666666666,
      "grad_norm": 0.02528214604773688,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 3560
    },
    {
      "epoch": 0.18992,
      "grad_norm": 0.025212838508673178,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 3561
    },
    {
      "epoch": 0.18997333333333333,
      "grad_norm": 0.02353122736053764,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 3562
    },
    {
      "epoch": 0.19002666666666668,
      "grad_norm": 0.024634261509167442,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 3563
    },
    {
      "epoch": 0.19008,
      "grad_norm": 0.027023723563781556,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3564
    },
    {
      "epoch": 0.19013333333333332,
      "grad_norm": 0.025110148656220743,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 3565
    },
    {
      "epoch": 0.19018666666666667,
      "grad_norm": 0.026954089871143436,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 3566
    },
    {
      "epoch": 0.19024,
      "grad_norm": 0.023971854684056673,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 3567
    },
    {
      "epoch": 0.19029333333333334,
      "grad_norm": 0.026203484451579384,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 3568
    },
    {
      "epoch": 0.19034666666666666,
      "grad_norm": 0.02387057954556583,
      "learning_rate": 0.0001,
      "loss": 0.9035,
      "step": 3569
    },
    {
      "epoch": 0.1904,
      "grad_norm": 0.0236108639796415,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3570
    },
    {
      "epoch": 0.19045333333333334,
      "grad_norm": 0.02706742958840352,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 3571
    },
    {
      "epoch": 0.19050666666666666,
      "grad_norm": 0.024998928957616757,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 3572
    },
    {
      "epoch": 0.19056,
      "grad_norm": 0.02600483332276982,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 3573
    },
    {
      "epoch": 0.19061333333333333,
      "grad_norm": 0.024040156149145123,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3574
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.02379483291879239,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 3575
    },
    {
      "epoch": 0.19072,
      "grad_norm": 0.022623264853640957,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 3576
    },
    {
      "epoch": 0.19077333333333332,
      "grad_norm": 0.024931770540795744,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 3577
    },
    {
      "epoch": 0.19082666666666667,
      "grad_norm": 0.025337895268664052,
      "learning_rate": 0.0001,
      "loss": 1.0476,
      "step": 3578
    },
    {
      "epoch": 0.19088,
      "grad_norm": 0.02554606043802528,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 3579
    },
    {
      "epoch": 0.19093333333333334,
      "grad_norm": 0.024500993538555747,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 3580
    },
    {
      "epoch": 0.19098666666666667,
      "grad_norm": 0.023051430351425196,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 3581
    },
    {
      "epoch": 0.19104,
      "grad_norm": 0.02525567403677667,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 3582
    },
    {
      "epoch": 0.19109333333333334,
      "grad_norm": 0.023828146982157385,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 3583
    },
    {
      "epoch": 0.19114666666666666,
      "grad_norm": 0.023606249021235145,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 3584
    },
    {
      "epoch": 0.1912,
      "grad_norm": 0.024845600327747987,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 3585
    },
    {
      "epoch": 0.19125333333333333,
      "grad_norm": 0.023738330457918008,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 3586
    },
    {
      "epoch": 0.19130666666666668,
      "grad_norm": 0.025952689408167563,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3587
    },
    {
      "epoch": 0.19136,
      "grad_norm": 0.0279980463767368,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 3588
    },
    {
      "epoch": 0.19141333333333332,
      "grad_norm": 0.02617497340050425,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 3589
    },
    {
      "epoch": 0.19146666666666667,
      "grad_norm": 0.024606101869877564,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 3590
    },
    {
      "epoch": 0.19152,
      "grad_norm": 0.02501007808968401,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 3591
    },
    {
      "epoch": 0.19157333333333335,
      "grad_norm": 0.02316753054899678,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 3592
    },
    {
      "epoch": 0.19162666666666667,
      "grad_norm": 0.025186039134125485,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 3593
    },
    {
      "epoch": 0.19168,
      "grad_norm": 0.024511459809401785,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 3594
    },
    {
      "epoch": 0.19173333333333334,
      "grad_norm": 0.023159418308673418,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 3595
    },
    {
      "epoch": 0.19178666666666666,
      "grad_norm": 0.02617156770229588,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 3596
    },
    {
      "epoch": 0.19184,
      "grad_norm": 0.021813341689924506,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 3597
    },
    {
      "epoch": 0.19189333333333333,
      "grad_norm": 0.03098183094643312,
      "learning_rate": 0.0001,
      "loss": 1.0388,
      "step": 3598
    },
    {
      "epoch": 0.19194666666666665,
      "grad_norm": 0.024539351719329774,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 3599
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.02525617638084879,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 3600
    },
    {
      "epoch": 0.192,
      "eval_accuracy": 0.6154520940717549,
      "eval_loss": 1.3799831867218018,
      "eval_runtime": 62.8814,
      "eval_samples_per_second": 15.903,
      "eval_steps_per_second": 0.509,
      "step": 3600
    },
    {
      "epoch": 0.19205333333333333,
      "grad_norm": 0.024791917491729012,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 3601
    },
    {
      "epoch": 0.19210666666666668,
      "grad_norm": 0.024616725758454947,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 3602
    },
    {
      "epoch": 0.19216,
      "grad_norm": 0.023352453416244427,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "step": 3603
    },
    {
      "epoch": 0.19221333333333335,
      "grad_norm": 0.026110998122366037,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 3604
    },
    {
      "epoch": 0.19226666666666667,
      "grad_norm": 0.022331335353308484,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 3605
    },
    {
      "epoch": 0.19232,
      "grad_norm": 0.02321975066521064,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 3606
    },
    {
      "epoch": 0.19237333333333334,
      "grad_norm": 0.0250055747110722,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 3607
    },
    {
      "epoch": 0.19242666666666666,
      "grad_norm": 0.026504121886228395,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3608
    },
    {
      "epoch": 0.19248,
      "grad_norm": 0.023741964417325435,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 3609
    },
    {
      "epoch": 0.19253333333333333,
      "grad_norm": 0.025149179704440614,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 3610
    },
    {
      "epoch": 0.19258666666666666,
      "grad_norm": 0.025741423800449435,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 3611
    },
    {
      "epoch": 0.19264,
      "grad_norm": 0.02461265197607647,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 3612
    },
    {
      "epoch": 0.19269333333333333,
      "grad_norm": 0.023928591276251195,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 3613
    },
    {
      "epoch": 0.19274666666666668,
      "grad_norm": 0.023427816997769534,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 3614
    },
    {
      "epoch": 0.1928,
      "grad_norm": 0.02322050453860059,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 3615
    },
    {
      "epoch": 0.19285333333333332,
      "grad_norm": 0.025410467985991607,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 3616
    },
    {
      "epoch": 0.19290666666666667,
      "grad_norm": 0.02400055908851686,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3617
    },
    {
      "epoch": 0.19296,
      "grad_norm": 0.026357786101753298,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 3618
    },
    {
      "epoch": 0.19301333333333334,
      "grad_norm": 0.024707052966720648,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 3619
    },
    {
      "epoch": 0.19306666666666666,
      "grad_norm": 0.027444457300150136,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 3620
    },
    {
      "epoch": 0.19312,
      "grad_norm": 0.02465745513195673,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 3621
    },
    {
      "epoch": 0.19317333333333334,
      "grad_norm": 0.02512725002128322,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 3622
    },
    {
      "epoch": 0.19322666666666666,
      "grad_norm": 0.026046396924255026,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3623
    },
    {
      "epoch": 0.19328,
      "grad_norm": 0.024704042673263676,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 3624
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.025933923324255575,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3625
    },
    {
      "epoch": 0.19338666666666668,
      "grad_norm": 0.02633496854483942,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 3626
    },
    {
      "epoch": 0.19344,
      "grad_norm": 0.02623837393680218,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 3627
    },
    {
      "epoch": 0.19349333333333332,
      "grad_norm": 0.025552706354754484,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 3628
    },
    {
      "epoch": 0.19354666666666667,
      "grad_norm": 0.02749257266191957,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 3629
    },
    {
      "epoch": 0.1936,
      "grad_norm": 0.02851493830300891,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 3630
    },
    {
      "epoch": 0.19365333333333334,
      "grad_norm": 0.025807606515633734,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 3631
    },
    {
      "epoch": 0.19370666666666667,
      "grad_norm": 0.026695313171951167,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3632
    },
    {
      "epoch": 0.19376,
      "grad_norm": 0.026493790099997923,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3633
    },
    {
      "epoch": 0.19381333333333334,
      "grad_norm": 0.03189821168016517,
      "learning_rate": 0.0001,
      "loss": 1.024,
      "step": 3634
    },
    {
      "epoch": 0.19386666666666666,
      "grad_norm": 0.025573592706431954,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 3635
    },
    {
      "epoch": 0.19392,
      "grad_norm": 0.022925120839929872,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3636
    },
    {
      "epoch": 0.19397333333333333,
      "grad_norm": 0.023222502013119362,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3637
    },
    {
      "epoch": 0.19402666666666665,
      "grad_norm": 0.02684147684640962,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3638
    },
    {
      "epoch": 0.19408,
      "grad_norm": 0.02415745033735449,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3639
    },
    {
      "epoch": 0.19413333333333332,
      "grad_norm": 0.025262349683537084,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 3640
    },
    {
      "epoch": 0.19418666666666667,
      "grad_norm": 0.026889569671373355,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 3641
    },
    {
      "epoch": 0.19424,
      "grad_norm": 0.027779882552581122,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 3642
    },
    {
      "epoch": 0.19429333333333335,
      "grad_norm": 0.023003390587205057,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 3643
    },
    {
      "epoch": 0.19434666666666667,
      "grad_norm": 0.028404683305478153,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 3644
    },
    {
      "epoch": 0.1944,
      "grad_norm": 0.024757751761847288,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3645
    },
    {
      "epoch": 0.19445333333333334,
      "grad_norm": 0.02546845802827426,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 3646
    },
    {
      "epoch": 0.19450666666666666,
      "grad_norm": 0.02783766413385135,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 3647
    },
    {
      "epoch": 0.19456,
      "grad_norm": 0.023371912710149458,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 3648
    },
    {
      "epoch": 0.19461333333333333,
      "grad_norm": 0.023907196966929042,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3649
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.027259425014316017,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 3650
    },
    {
      "epoch": 0.19472,
      "grad_norm": 0.02363261963820187,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 3651
    },
    {
      "epoch": 0.19477333333333333,
      "grad_norm": 0.027307802520385276,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 3652
    },
    {
      "epoch": 0.19482666666666668,
      "grad_norm": 0.02607828960889171,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 3653
    },
    {
      "epoch": 0.19488,
      "grad_norm": 0.024041736312024806,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 3654
    },
    {
      "epoch": 0.19493333333333332,
      "grad_norm": 0.026196735993107626,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 3655
    },
    {
      "epoch": 0.19498666666666667,
      "grad_norm": 0.026472281559358293,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 3656
    },
    {
      "epoch": 0.19504,
      "grad_norm": 0.026918906507798185,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 3657
    },
    {
      "epoch": 0.19509333333333334,
      "grad_norm": 0.02581396300972499,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 3658
    },
    {
      "epoch": 0.19514666666666666,
      "grad_norm": 0.02704061370875191,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 3659
    },
    {
      "epoch": 0.1952,
      "grad_norm": 0.024647511183305895,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 3660
    },
    {
      "epoch": 0.19525333333333333,
      "grad_norm": 0.025903646432295178,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 3661
    },
    {
      "epoch": 0.19530666666666666,
      "grad_norm": 0.02579657133362515,
      "learning_rate": 0.0001,
      "loss": 0.9203,
      "step": 3662
    },
    {
      "epoch": 0.19536,
      "grad_norm": 0.02790382339175459,
      "learning_rate": 0.0001,
      "loss": 1.0306,
      "step": 3663
    },
    {
      "epoch": 0.19541333333333333,
      "grad_norm": 0.025906346817223327,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 3664
    },
    {
      "epoch": 0.19546666666666668,
      "grad_norm": 0.02735645522275257,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 3665
    },
    {
      "epoch": 0.19552,
      "grad_norm": 0.027401876835391838,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3666
    },
    {
      "epoch": 0.19557333333333332,
      "grad_norm": 0.026985162806974883,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 3667
    },
    {
      "epoch": 0.19562666666666667,
      "grad_norm": 0.028031223967979142,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 3668
    },
    {
      "epoch": 0.19568,
      "grad_norm": 0.02574595417487729,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 3669
    },
    {
      "epoch": 0.19573333333333334,
      "grad_norm": 0.026185999030864524,
      "learning_rate": 0.0001,
      "loss": 1.0519,
      "step": 3670
    },
    {
      "epoch": 0.19578666666666666,
      "grad_norm": 0.025721592671271915,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 3671
    },
    {
      "epoch": 0.19584,
      "grad_norm": 0.02625063800281071,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 3672
    },
    {
      "epoch": 0.19589333333333334,
      "grad_norm": 0.02849329487704224,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 3673
    },
    {
      "epoch": 0.19594666666666666,
      "grad_norm": 0.02439895461068646,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 3674
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.024837637626310954,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 3675
    },
    {
      "epoch": 0.19605333333333333,
      "grad_norm": 0.02764462891998952,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 3676
    },
    {
      "epoch": 0.19610666666666668,
      "grad_norm": 0.024420825290900054,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3677
    },
    {
      "epoch": 0.19616,
      "grad_norm": 0.024940603221638782,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 3678
    },
    {
      "epoch": 0.19621333333333332,
      "grad_norm": 0.026638880506615,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 3679
    },
    {
      "epoch": 0.19626666666666667,
      "grad_norm": 0.02447615462285521,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 3680
    },
    {
      "epoch": 0.19632,
      "grad_norm": 0.023346794747188232,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 3681
    },
    {
      "epoch": 0.19637333333333334,
      "grad_norm": 0.0275302696166071,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 3682
    },
    {
      "epoch": 0.19642666666666667,
      "grad_norm": 0.02708553382970011,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 3683
    },
    {
      "epoch": 0.19648,
      "grad_norm": 0.024417432913200587,
      "learning_rate": 0.0001,
      "loss": 1.0802,
      "step": 3684
    },
    {
      "epoch": 0.19653333333333334,
      "grad_norm": 0.027668548703664964,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 3685
    },
    {
      "epoch": 0.19658666666666666,
      "grad_norm": 0.02754645547090657,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3686
    },
    {
      "epoch": 0.19664,
      "grad_norm": 0.025540740658579746,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 3687
    },
    {
      "epoch": 0.19669333333333333,
      "grad_norm": 0.024242447669713212,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 3688
    },
    {
      "epoch": 0.19674666666666665,
      "grad_norm": 0.026037753717685092,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 3689
    },
    {
      "epoch": 0.1968,
      "grad_norm": 0.02377169212702068,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 3690
    },
    {
      "epoch": 0.19685333333333332,
      "grad_norm": 0.024044858929617323,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 3691
    },
    {
      "epoch": 0.19690666666666667,
      "grad_norm": 0.025499128783070008,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3692
    },
    {
      "epoch": 0.19696,
      "grad_norm": 0.025900685863266635,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3693
    },
    {
      "epoch": 0.19701333333333335,
      "grad_norm": 0.02587906628277292,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 3694
    },
    {
      "epoch": 0.19706666666666667,
      "grad_norm": 0.025280489473282052,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 3695
    },
    {
      "epoch": 0.19712,
      "grad_norm": 0.025186264154007244,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3696
    },
    {
      "epoch": 0.19717333333333334,
      "grad_norm": 0.02247670440571041,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3697
    },
    {
      "epoch": 0.19722666666666666,
      "grad_norm": 0.022879763987245498,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3698
    },
    {
      "epoch": 0.19728,
      "grad_norm": 0.02749369867061824,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 3699
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.027654290598640604,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3700
    },
    {
      "epoch": 0.19738666666666665,
      "grad_norm": 0.024051078434315323,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 3701
    },
    {
      "epoch": 0.19744,
      "grad_norm": 0.025424997308673276,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3702
    },
    {
      "epoch": 0.19749333333333333,
      "grad_norm": 0.026795722677970438,
      "learning_rate": 0.0001,
      "loss": 0.8685,
      "step": 3703
    },
    {
      "epoch": 0.19754666666666668,
      "grad_norm": 0.02409147229606473,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 3704
    },
    {
      "epoch": 0.1976,
      "grad_norm": 0.03045727363341014,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 3705
    },
    {
      "epoch": 0.19765333333333332,
      "grad_norm": 0.02756989193109836,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 3706
    },
    {
      "epoch": 0.19770666666666667,
      "grad_norm": 0.02415310055539668,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 3707
    },
    {
      "epoch": 0.19776,
      "grad_norm": 0.025336275768586276,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 3708
    },
    {
      "epoch": 0.19781333333333334,
      "grad_norm": 0.02898139651495417,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 3709
    },
    {
      "epoch": 0.19786666666666666,
      "grad_norm": 0.02651434307661715,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 3710
    },
    {
      "epoch": 0.19792,
      "grad_norm": 0.023739460396023107,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 3711
    },
    {
      "epoch": 0.19797333333333333,
      "grad_norm": 0.02512279421082305,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 3712
    },
    {
      "epoch": 0.19802666666666666,
      "grad_norm": 0.02277507376072582,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 3713
    },
    {
      "epoch": 0.19808,
      "grad_norm": 0.024832561109122298,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 3714
    },
    {
      "epoch": 0.19813333333333333,
      "grad_norm": 0.023916545558309885,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 3715
    },
    {
      "epoch": 0.19818666666666668,
      "grad_norm": 0.025080199404929268,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 3716
    },
    {
      "epoch": 0.19824,
      "grad_norm": 0.02408285135466368,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 3717
    },
    {
      "epoch": 0.19829333333333332,
      "grad_norm": 0.025882560285844455,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 3718
    },
    {
      "epoch": 0.19834666666666667,
      "grad_norm": 0.022458135460567685,
      "learning_rate": 0.0001,
      "loss": 0.8725,
      "step": 3719
    },
    {
      "epoch": 0.1984,
      "grad_norm": 0.022909997984635295,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 3720
    },
    {
      "epoch": 0.19845333333333334,
      "grad_norm": 0.023778868057754275,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 3721
    },
    {
      "epoch": 0.19850666666666666,
      "grad_norm": 0.025273450317901954,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 3722
    },
    {
      "epoch": 0.19856,
      "grad_norm": 0.02404703069173558,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 3723
    },
    {
      "epoch": 0.19861333333333334,
      "grad_norm": 0.023684785435321622,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 3724
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.02779843087905376,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 3725
    },
    {
      "epoch": 0.19872,
      "grad_norm": 0.023229786389898102,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3726
    },
    {
      "epoch": 0.19877333333333333,
      "grad_norm": 0.024189147230062887,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3727
    },
    {
      "epoch": 0.19882666666666668,
      "grad_norm": 0.024817448932531853,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 3728
    },
    {
      "epoch": 0.19888,
      "grad_norm": 0.02465571495183219,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 3729
    },
    {
      "epoch": 0.19893333333333332,
      "grad_norm": 0.0237866121208367,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3730
    },
    {
      "epoch": 0.19898666666666667,
      "grad_norm": 0.024365423201641742,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3731
    },
    {
      "epoch": 0.19904,
      "grad_norm": 0.025162883880848374,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 3732
    },
    {
      "epoch": 0.19909333333333334,
      "grad_norm": 0.024477981102318438,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 3733
    },
    {
      "epoch": 0.19914666666666667,
      "grad_norm": 0.02377156536687535,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 3734
    },
    {
      "epoch": 0.1992,
      "grad_norm": 0.025617010108787207,
      "learning_rate": 0.0001,
      "loss": 1.0112,
      "step": 3735
    },
    {
      "epoch": 0.19925333333333334,
      "grad_norm": 0.026209587276197734,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 3736
    },
    {
      "epoch": 0.19930666666666666,
      "grad_norm": 0.02235037149951266,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 3737
    },
    {
      "epoch": 0.19936,
      "grad_norm": 0.025714588931102053,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 3738
    },
    {
      "epoch": 0.19941333333333333,
      "grad_norm": 0.026930362372302584,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 3739
    },
    {
      "epoch": 0.19946666666666665,
      "grad_norm": 0.026131806238581166,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3740
    },
    {
      "epoch": 0.19952,
      "grad_norm": 0.025286782127623694,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 3741
    },
    {
      "epoch": 0.19957333333333332,
      "grad_norm": 0.027316706917672375,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3742
    },
    {
      "epoch": 0.19962666666666667,
      "grad_norm": 0.026745623654205124,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 3743
    },
    {
      "epoch": 0.19968,
      "grad_norm": 0.026199884405598,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 3744
    },
    {
      "epoch": 0.19973333333333335,
      "grad_norm": 0.025682544820224206,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 3745
    },
    {
      "epoch": 0.19978666666666667,
      "grad_norm": 0.025580766642949296,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3746
    },
    {
      "epoch": 0.19984,
      "grad_norm": 0.0245724762396678,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3747
    },
    {
      "epoch": 0.19989333333333334,
      "grad_norm": 0.026573387539112734,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 3748
    },
    {
      "epoch": 0.19994666666666666,
      "grad_norm": 0.024893891883652996,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 3749
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.023737414788091098,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 3750
    },
    {
      "epoch": 1.0000533333333332,
      "grad_norm": 0.02583156688549282,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 3751
    },
    {
      "epoch": 1.0001066666666667,
      "grad_norm": 0.025767466056066373,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 3752
    },
    {
      "epoch": 1.00016,
      "grad_norm": 0.023190266713711563,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 3753
    },
    {
      "epoch": 1.0002133333333334,
      "grad_norm": 0.024068071963363528,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 3754
    },
    {
      "epoch": 1.0002666666666666,
      "grad_norm": 0.024698629782457838,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 3755
    },
    {
      "epoch": 1.00032,
      "grad_norm": 0.025675555265607906,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 3756
    },
    {
      "epoch": 1.0003733333333333,
      "grad_norm": 0.025284813922952305,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3757
    },
    {
      "epoch": 1.0004266666666666,
      "grad_norm": 0.026656838635101782,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 3758
    },
    {
      "epoch": 1.00048,
      "grad_norm": 0.024492340764220032,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 3759
    },
    {
      "epoch": 1.0005333333333333,
      "grad_norm": 0.02732808376026254,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 3760
    },
    {
      "epoch": 1.0005866666666667,
      "grad_norm": 0.02633970557836499,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3761
    },
    {
      "epoch": 1.00064,
      "grad_norm": 0.024122880625484826,
      "learning_rate": 0.0001,
      "loss": 1.0633,
      "step": 3762
    },
    {
      "epoch": 1.0006933333333334,
      "grad_norm": 0.025902440165373398,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 3763
    },
    {
      "epoch": 1.0007466666666667,
      "grad_norm": 0.024959689762436676,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 3764
    },
    {
      "epoch": 1.0008,
      "grad_norm": 0.023597387979281032,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 3765
    },
    {
      "epoch": 1.0008533333333334,
      "grad_norm": 0.024290691876415485,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 3766
    },
    {
      "epoch": 1.0009066666666666,
      "grad_norm": 0.024424096330799287,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3767
    },
    {
      "epoch": 1.00096,
      "grad_norm": 0.024906420192111048,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3768
    },
    {
      "epoch": 1.0010133333333333,
      "grad_norm": 0.026737977038396483,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 3769
    },
    {
      "epoch": 1.0010666666666668,
      "grad_norm": 0.025471343808850327,
      "learning_rate": 0.0001,
      "loss": 0.9091,
      "step": 3770
    },
    {
      "epoch": 1.00112,
      "grad_norm": 0.02422831139123784,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 3771
    },
    {
      "epoch": 1.0011733333333332,
      "grad_norm": 0.026959526279475662,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 3772
    },
    {
      "epoch": 1.0012266666666667,
      "grad_norm": 0.025588070743008312,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3773
    },
    {
      "epoch": 1.00128,
      "grad_norm": 0.023180874823010574,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 3774
    },
    {
      "epoch": 1.0013333333333334,
      "grad_norm": 0.02532615302502994,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 3775
    },
    {
      "epoch": 1.0013866666666666,
      "grad_norm": 0.024971424816228688,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3776
    },
    {
      "epoch": 1.00144,
      "grad_norm": 0.025114845658459596,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 3777
    },
    {
      "epoch": 1.0014933333333333,
      "grad_norm": 0.025751500235605494,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 3778
    },
    {
      "epoch": 1.0015466666666666,
      "grad_norm": 0.026734131475627965,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 3779
    },
    {
      "epoch": 1.0016,
      "grad_norm": 0.024870494690413282,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 3780
    },
    {
      "epoch": 1.0016533333333333,
      "grad_norm": 0.024180328853293184,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 3781
    },
    {
      "epoch": 1.0017066666666667,
      "grad_norm": 0.025123868598353753,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 3782
    },
    {
      "epoch": 1.00176,
      "grad_norm": 0.02382614320796107,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 3783
    },
    {
      "epoch": 1.0018133333333332,
      "grad_norm": 0.027970412257055932,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 3784
    },
    {
      "epoch": 1.0018666666666667,
      "grad_norm": 0.024919940175561473,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 3785
    },
    {
      "epoch": 1.00192,
      "grad_norm": 0.025921238321606126,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 3786
    },
    {
      "epoch": 1.0019733333333334,
      "grad_norm": 0.025651710213165885,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3787
    },
    {
      "epoch": 1.0020266666666666,
      "grad_norm": 0.026151744066692167,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 3788
    },
    {
      "epoch": 1.00208,
      "grad_norm": 0.028067804418459005,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 3789
    },
    {
      "epoch": 1.0021333333333333,
      "grad_norm": 0.02383620860440485,
      "learning_rate": 0.0001,
      "loss": 0.9311,
      "step": 3790
    },
    {
      "epoch": 1.0021866666666666,
      "grad_norm": 0.024445530135626326,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 3791
    },
    {
      "epoch": 1.00224,
      "grad_norm": 0.02787918238493275,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 3792
    },
    {
      "epoch": 1.0022933333333333,
      "grad_norm": 0.025442137057842738,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 3793
    },
    {
      "epoch": 1.0023466666666667,
      "grad_norm": 0.024497796956759726,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3794
    },
    {
      "epoch": 1.0024,
      "grad_norm": 0.02684164629802733,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3795
    },
    {
      "epoch": 1.0024533333333334,
      "grad_norm": 0.026595629506693776,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 3796
    },
    {
      "epoch": 1.0025066666666667,
      "grad_norm": 0.024263126691609137,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3797
    },
    {
      "epoch": 1.00256,
      "grad_norm": 0.024859150556965786,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 3798
    },
    {
      "epoch": 1.0026133333333334,
      "grad_norm": 0.024944097721154367,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 3799
    },
    {
      "epoch": 1.0026666666666666,
      "grad_norm": 0.024998940149307168,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 3800
    },
    {
      "epoch": 1.0026666666666666,
      "eval_accuracy": 0.6157979728513443,
      "eval_loss": 1.3785719871520996,
      "eval_runtime": 62.3541,
      "eval_samples_per_second": 16.037,
      "eval_steps_per_second": 0.513,
      "step": 3800
    },
    {
      "epoch": 1.00272,
      "grad_norm": 0.02676081968569236,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3801
    },
    {
      "epoch": 1.0027733333333333,
      "grad_norm": 0.02477033221128215,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3802
    },
    {
      "epoch": 1.0028266666666668,
      "grad_norm": 0.02541571130122805,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 3803
    },
    {
      "epoch": 1.00288,
      "grad_norm": 0.024541224579099834,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 3804
    },
    {
      "epoch": 1.0029333333333332,
      "grad_norm": 0.025648522846961612,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 3805
    },
    {
      "epoch": 1.0029866666666667,
      "grad_norm": 0.023858318524824867,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 3806
    },
    {
      "epoch": 1.00304,
      "grad_norm": 0.025049654995340273,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 3807
    },
    {
      "epoch": 1.0030933333333334,
      "grad_norm": 0.024949732571705685,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 3808
    },
    {
      "epoch": 1.0031466666666666,
      "grad_norm": 0.02564584060086987,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 3809
    },
    {
      "epoch": 1.0032,
      "grad_norm": 0.026973217919570792,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3810
    },
    {
      "epoch": 1.0032533333333333,
      "grad_norm": 0.027077102384985577,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3811
    },
    {
      "epoch": 1.0033066666666666,
      "grad_norm": 0.026690750793033714,
      "learning_rate": 0.0001,
      "loss": 0.9072,
      "step": 3812
    },
    {
      "epoch": 1.00336,
      "grad_norm": 0.025856664830476023,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 3813
    },
    {
      "epoch": 1.0034133333333333,
      "grad_norm": 0.028384591640819024,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 3814
    },
    {
      "epoch": 1.0034666666666667,
      "grad_norm": 0.027722817047142564,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 3815
    },
    {
      "epoch": 1.00352,
      "grad_norm": 0.025488262282887,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3816
    },
    {
      "epoch": 1.0035733333333334,
      "grad_norm": 0.030019038306814454,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 3817
    },
    {
      "epoch": 1.0036266666666667,
      "grad_norm": 0.02629645823318278,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 3818
    },
    {
      "epoch": 1.00368,
      "grad_norm": 0.027243965030957763,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 3819
    },
    {
      "epoch": 1.0037333333333334,
      "grad_norm": 0.026195299873453207,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 3820
    },
    {
      "epoch": 1.0037866666666666,
      "grad_norm": 0.026525040834195754,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 3821
    },
    {
      "epoch": 1.00384,
      "grad_norm": 0.027066842011141658,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 3822
    },
    {
      "epoch": 1.0038933333333333,
      "grad_norm": 0.02690871906514206,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 3823
    },
    {
      "epoch": 1.0039466666666668,
      "grad_norm": 0.028042714402612523,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 3824
    },
    {
      "epoch": 1.004,
      "grad_norm": 0.027483002895225952,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3825
    },
    {
      "epoch": 1.0040533333333332,
      "grad_norm": 0.02549475557459848,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3826
    },
    {
      "epoch": 1.0041066666666667,
      "grad_norm": 0.028867818505548464,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 3827
    },
    {
      "epoch": 1.00416,
      "grad_norm": 0.027840721097360882,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 3828
    },
    {
      "epoch": 1.0042133333333334,
      "grad_norm": 0.028739634734158522,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 3829
    },
    {
      "epoch": 1.0042666666666666,
      "grad_norm": 0.029358516605755804,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 3830
    },
    {
      "epoch": 1.00432,
      "grad_norm": 0.024433513954576016,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 3831
    },
    {
      "epoch": 1.0043733333333333,
      "grad_norm": 0.02542992876746367,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 3832
    },
    {
      "epoch": 1.0044266666666666,
      "grad_norm": 0.027128584019290154,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 3833
    },
    {
      "epoch": 1.00448,
      "grad_norm": 0.024676446454077985,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 3834
    },
    {
      "epoch": 1.0045333333333333,
      "grad_norm": 0.028389944773164737,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 3835
    },
    {
      "epoch": 1.0045866666666667,
      "grad_norm": 0.024912339157538776,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 3836
    },
    {
      "epoch": 1.00464,
      "grad_norm": 0.026911879634413164,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 3837
    },
    {
      "epoch": 1.0046933333333334,
      "grad_norm": 0.02433614037110017,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 3838
    },
    {
      "epoch": 1.0047466666666667,
      "grad_norm": 0.02361020269784555,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 3839
    },
    {
      "epoch": 1.0048,
      "grad_norm": 0.02356740682536174,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3840
    },
    {
      "epoch": 1.0048533333333334,
      "grad_norm": 0.023288668709623876,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 3841
    },
    {
      "epoch": 1.0049066666666666,
      "grad_norm": 0.024066905474937058,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3842
    },
    {
      "epoch": 1.00496,
      "grad_norm": 0.024166394354955326,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 3843
    },
    {
      "epoch": 1.0050133333333333,
      "grad_norm": 0.026007638091742613,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 3844
    },
    {
      "epoch": 1.0050666666666668,
      "grad_norm": 0.02370967808483521,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 3845
    },
    {
      "epoch": 1.00512,
      "grad_norm": 0.022946534268108297,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3846
    },
    {
      "epoch": 1.0051733333333333,
      "grad_norm": 0.024230813296235713,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3847
    },
    {
      "epoch": 1.0052266666666667,
      "grad_norm": 0.02492538319142767,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 3848
    },
    {
      "epoch": 1.00528,
      "grad_norm": 0.024241620251644502,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 3849
    },
    {
      "epoch": 1.0053333333333334,
      "grad_norm": 0.02819803066565441,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "step": 3850
    },
    {
      "epoch": 1.0053866666666667,
      "grad_norm": 0.026367339032643284,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 3851
    },
    {
      "epoch": 1.0054400000000001,
      "grad_norm": 0.026739471013831836,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 3852
    },
    {
      "epoch": 1.0054933333333334,
      "grad_norm": 0.023863081744223535,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3853
    },
    {
      "epoch": 1.0055466666666666,
      "grad_norm": 0.023948223319405243,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 3854
    },
    {
      "epoch": 1.0056,
      "grad_norm": 0.023754696749724448,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 3855
    },
    {
      "epoch": 1.0056533333333333,
      "grad_norm": 0.024714904031646112,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 3856
    },
    {
      "epoch": 1.0057066666666667,
      "grad_norm": 0.02338660274367247,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 3857
    },
    {
      "epoch": 1.00576,
      "grad_norm": 0.023556395855848792,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 3858
    },
    {
      "epoch": 1.0058133333333332,
      "grad_norm": 0.025186956686858414,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 3859
    },
    {
      "epoch": 1.0058666666666667,
      "grad_norm": 0.024518714045880595,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 3860
    },
    {
      "epoch": 1.00592,
      "grad_norm": 0.02368122266291138,
      "learning_rate": 0.0001,
      "loss": 0.9054,
      "step": 3861
    },
    {
      "epoch": 1.0059733333333334,
      "grad_norm": 0.024944739480370987,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 3862
    },
    {
      "epoch": 1.0060266666666666,
      "grad_norm": 0.023518169222986534,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3863
    },
    {
      "epoch": 1.00608,
      "grad_norm": 0.02517444198431426,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 3864
    },
    {
      "epoch": 1.0061333333333333,
      "grad_norm": 0.025304002093735657,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 3865
    },
    {
      "epoch": 1.0061866666666666,
      "grad_norm": 0.023000230861759997,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 3866
    },
    {
      "epoch": 1.00624,
      "grad_norm": 0.02580258604109287,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 3867
    },
    {
      "epoch": 1.0062933333333333,
      "grad_norm": 0.02870867445488332,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 3868
    },
    {
      "epoch": 1.0063466666666667,
      "grad_norm": 0.02313878180800255,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 3869
    },
    {
      "epoch": 1.0064,
      "grad_norm": 0.02472746442555317,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 3870
    },
    {
      "epoch": 1.0064533333333334,
      "grad_norm": 0.023698142171947,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 3871
    },
    {
      "epoch": 1.0065066666666667,
      "grad_norm": 0.022870216701590215,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 3872
    },
    {
      "epoch": 1.00656,
      "grad_norm": 0.02372377929899294,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3873
    },
    {
      "epoch": 1.0066133333333334,
      "grad_norm": 0.02408693347142562,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 3874
    },
    {
      "epoch": 1.0066666666666666,
      "grad_norm": 0.02352546623984074,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 3875
    },
    {
      "epoch": 1.00672,
      "grad_norm": 0.025157397473635622,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 3876
    },
    {
      "epoch": 1.0067733333333333,
      "grad_norm": 0.02575128063178392,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 3877
    },
    {
      "epoch": 1.0068266666666668,
      "grad_norm": 0.025326275022360796,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3878
    },
    {
      "epoch": 1.00688,
      "grad_norm": 0.025939841327391758,
      "learning_rate": 0.0001,
      "loss": 1.0596,
      "step": 3879
    },
    {
      "epoch": 1.0069333333333332,
      "grad_norm": 0.02377417489879775,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 3880
    },
    {
      "epoch": 1.0069866666666667,
      "grad_norm": 0.025410850430155393,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 3881
    },
    {
      "epoch": 1.00704,
      "grad_norm": 0.024475426964721915,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 3882
    },
    {
      "epoch": 1.0070933333333334,
      "grad_norm": 0.024786067375904268,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3883
    },
    {
      "epoch": 1.0071466666666666,
      "grad_norm": 0.02634910784073417,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 3884
    },
    {
      "epoch": 1.0072,
      "grad_norm": 0.02492780368449725,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 3885
    },
    {
      "epoch": 1.0072533333333333,
      "grad_norm": 0.02513263545153101,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "step": 3886
    },
    {
      "epoch": 1.0073066666666666,
      "grad_norm": 0.02306762440181721,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 3887
    },
    {
      "epoch": 1.00736,
      "grad_norm": 0.03183415485160566,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 3888
    },
    {
      "epoch": 1.0074133333333333,
      "grad_norm": 0.024637118161564903,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 3889
    },
    {
      "epoch": 1.0074666666666667,
      "grad_norm": 0.026275857452338625,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 3890
    },
    {
      "epoch": 1.00752,
      "grad_norm": 0.024990904414050916,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3891
    },
    {
      "epoch": 1.0075733333333334,
      "grad_norm": 0.025281662100547057,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 3892
    },
    {
      "epoch": 1.0076266666666667,
      "grad_norm": 0.02395083557628087,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 3893
    },
    {
      "epoch": 1.00768,
      "grad_norm": 0.02422446580071551,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 3894
    },
    {
      "epoch": 1.0077333333333334,
      "grad_norm": 0.024066486254591603,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 3895
    },
    {
      "epoch": 1.0077866666666666,
      "grad_norm": 0.024478756761334316,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 3896
    },
    {
      "epoch": 1.00784,
      "grad_norm": 0.02492771068975414,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3897
    },
    {
      "epoch": 1.0078933333333333,
      "grad_norm": 0.02316381871817615,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 3898
    },
    {
      "epoch": 1.0079466666666668,
      "grad_norm": 0.024045023185481573,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 3899
    },
    {
      "epoch": 1.008,
      "grad_norm": 0.024201023608132647,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 3900
    },
    {
      "epoch": 1.0080533333333332,
      "grad_norm": 0.02519619252479933,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 3901
    },
    {
      "epoch": 1.0081066666666667,
      "grad_norm": 0.024983110720075363,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 3902
    },
    {
      "epoch": 1.00816,
      "grad_norm": 0.025996222696692026,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3903
    },
    {
      "epoch": 1.0082133333333334,
      "grad_norm": 0.02415428830548552,
      "learning_rate": 0.0001,
      "loss": 0.9319,
      "step": 3904
    },
    {
      "epoch": 1.0082666666666666,
      "grad_norm": 0.025816059098976184,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 3905
    },
    {
      "epoch": 1.00832,
      "grad_norm": 0.02460610825175619,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 3906
    },
    {
      "epoch": 1.0083733333333333,
      "grad_norm": 0.024922569865508743,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 3907
    },
    {
      "epoch": 1.0084266666666666,
      "grad_norm": 0.02385833601886371,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3908
    },
    {
      "epoch": 1.00848,
      "grad_norm": 0.028487739023755433,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 3909
    },
    {
      "epoch": 1.0085333333333333,
      "grad_norm": 0.024221722699809912,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 3910
    },
    {
      "epoch": 1.0085866666666667,
      "grad_norm": 0.02412116896201808,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 3911
    },
    {
      "epoch": 1.00864,
      "grad_norm": 0.023853438086638173,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 3912
    },
    {
      "epoch": 1.0086933333333334,
      "grad_norm": 0.025379814422142766,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 3913
    },
    {
      "epoch": 1.0087466666666667,
      "grad_norm": 0.02584030350418239,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3914
    },
    {
      "epoch": 1.0088,
      "grad_norm": 0.02573667152334552,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 3915
    },
    {
      "epoch": 1.0088533333333334,
      "grad_norm": 0.023662823012658922,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 3916
    },
    {
      "epoch": 1.0089066666666666,
      "grad_norm": 0.02310282829034401,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 3917
    },
    {
      "epoch": 1.00896,
      "grad_norm": 0.02397406133501,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 3918
    },
    {
      "epoch": 1.0090133333333333,
      "grad_norm": 0.02685420607446201,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 3919
    },
    {
      "epoch": 1.0090666666666666,
      "grad_norm": 0.02429517539211287,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 3920
    },
    {
      "epoch": 1.00912,
      "grad_norm": 0.02397681407753184,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 3921
    },
    {
      "epoch": 1.0091733333333333,
      "grad_norm": 0.025469894167383652,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 3922
    },
    {
      "epoch": 1.0092266666666667,
      "grad_norm": 0.024472834585150597,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 3923
    },
    {
      "epoch": 1.00928,
      "grad_norm": 0.025758701520334885,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 3924
    },
    {
      "epoch": 1.0093333333333334,
      "grad_norm": 0.02686868870186343,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 3925
    },
    {
      "epoch": 1.0093866666666667,
      "grad_norm": 0.027070017538439996,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3926
    },
    {
      "epoch": 1.00944,
      "grad_norm": 0.02627622425993862,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 3927
    },
    {
      "epoch": 1.0094933333333334,
      "grad_norm": 0.026679032660493252,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 3928
    },
    {
      "epoch": 1.0095466666666666,
      "grad_norm": 0.02378349567813148,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 3929
    },
    {
      "epoch": 1.0096,
      "grad_norm": 0.029272395542631825,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 3930
    },
    {
      "epoch": 1.0096533333333333,
      "grad_norm": 0.025007187701308414,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 3931
    },
    {
      "epoch": 1.0097066666666668,
      "grad_norm": 0.02566341332410845,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 3932
    },
    {
      "epoch": 1.00976,
      "grad_norm": 0.02359052261343419,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 3933
    },
    {
      "epoch": 1.0098133333333332,
      "grad_norm": 0.024915786571942964,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3934
    },
    {
      "epoch": 1.0098666666666667,
      "grad_norm": 0.023903042905324617,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 3935
    },
    {
      "epoch": 1.00992,
      "grad_norm": 0.02532916927496072,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3936
    },
    {
      "epoch": 1.0099733333333334,
      "grad_norm": 0.024214396435361586,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 3937
    },
    {
      "epoch": 1.0100266666666666,
      "grad_norm": 0.02473817481196218,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 3938
    },
    {
      "epoch": 1.01008,
      "grad_norm": 0.027558083922269924,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 3939
    },
    {
      "epoch": 1.0101333333333333,
      "grad_norm": 0.026634231032450318,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 3940
    },
    {
      "epoch": 1.0101866666666666,
      "grad_norm": 0.025605328208565297,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 3941
    },
    {
      "epoch": 1.01024,
      "grad_norm": 0.024913270335292004,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 3942
    },
    {
      "epoch": 1.0102933333333333,
      "grad_norm": 0.027137800430893772,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 3943
    },
    {
      "epoch": 1.0103466666666667,
      "grad_norm": 0.022508277294662083,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 3944
    },
    {
      "epoch": 1.0104,
      "grad_norm": 0.026156829849488854,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3945
    },
    {
      "epoch": 1.0104533333333334,
      "grad_norm": 0.024856597141466527,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3946
    },
    {
      "epoch": 1.0105066666666667,
      "grad_norm": 0.02587737558736356,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 3947
    },
    {
      "epoch": 1.01056,
      "grad_norm": 0.025866966914672312,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 3948
    },
    {
      "epoch": 1.0106133333333334,
      "grad_norm": 0.02578345355089943,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 3949
    },
    {
      "epoch": 1.0106666666666666,
      "grad_norm": 0.024272730842819067,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 3950
    },
    {
      "epoch": 1.01072,
      "grad_norm": 0.02454699127260331,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 3951
    },
    {
      "epoch": 1.0107733333333333,
      "grad_norm": 0.025084289388201862,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3952
    },
    {
      "epoch": 1.0108266666666668,
      "grad_norm": 0.025110014537504905,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 3953
    },
    {
      "epoch": 1.01088,
      "grad_norm": 0.025461352803916277,
      "learning_rate": 0.0001,
      "loss": 0.8733,
      "step": 3954
    },
    {
      "epoch": 1.0109333333333332,
      "grad_norm": 0.025551794767601287,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 3955
    },
    {
      "epoch": 1.0109866666666667,
      "grad_norm": 0.02453816479545975,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 3956
    },
    {
      "epoch": 1.01104,
      "grad_norm": 0.024866890430422138,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 3957
    },
    {
      "epoch": 1.0110933333333334,
      "grad_norm": 0.024973532375632223,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 3958
    },
    {
      "epoch": 1.0111466666666666,
      "grad_norm": 0.02431623027174192,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 3959
    },
    {
      "epoch": 1.0112,
      "grad_norm": 0.025963366166829958,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 3960
    },
    {
      "epoch": 1.0112533333333333,
      "grad_norm": 0.024512873443969338,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 3961
    },
    {
      "epoch": 1.0113066666666666,
      "grad_norm": 0.024690236963096312,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 3962
    },
    {
      "epoch": 1.01136,
      "grad_norm": 0.026952975233490533,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3963
    },
    {
      "epoch": 1.0114133333333333,
      "grad_norm": 0.025970917220198307,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3964
    },
    {
      "epoch": 1.0114666666666667,
      "grad_norm": 0.028044438358287054,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 3965
    },
    {
      "epoch": 1.01152,
      "grad_norm": 0.024586269578215227,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 3966
    },
    {
      "epoch": 1.0115733333333334,
      "grad_norm": 0.024749090695704298,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3967
    },
    {
      "epoch": 1.0116266666666667,
      "grad_norm": 0.024798089095539357,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 3968
    },
    {
      "epoch": 1.01168,
      "grad_norm": 0.02241221459139068,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 3969
    },
    {
      "epoch": 1.0117333333333334,
      "grad_norm": 0.0254296600033354,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 3970
    },
    {
      "epoch": 1.0117866666666666,
      "grad_norm": 0.0254723803964814,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 3971
    },
    {
      "epoch": 1.01184,
      "grad_norm": 0.025381602148877195,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 3972
    },
    {
      "epoch": 1.0118933333333333,
      "grad_norm": 0.023837126630587492,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 3973
    },
    {
      "epoch": 1.0119466666666668,
      "grad_norm": 0.024620497736742967,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 3974
    },
    {
      "epoch": 1.012,
      "grad_norm": 0.02473227159088827,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 3975
    },
    {
      "epoch": 1.0120533333333332,
      "grad_norm": 0.02517371402328296,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 3976
    },
    {
      "epoch": 1.0121066666666667,
      "grad_norm": 0.02455988206688856,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3977
    },
    {
      "epoch": 1.01216,
      "grad_norm": 0.02457190786840691,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 3978
    },
    {
      "epoch": 1.0122133333333334,
      "grad_norm": 0.024610392641510402,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 3979
    },
    {
      "epoch": 1.0122666666666666,
      "grad_norm": 0.02498208024904959,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3980
    },
    {
      "epoch": 1.01232,
      "grad_norm": 0.023628188763282973,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 3981
    },
    {
      "epoch": 1.0123733333333333,
      "grad_norm": 0.027172493495719062,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 3982
    },
    {
      "epoch": 1.0124266666666666,
      "grad_norm": 0.024535346568434632,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 3983
    },
    {
      "epoch": 1.01248,
      "grad_norm": 0.02555108171437443,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 3984
    },
    {
      "epoch": 1.0125333333333333,
      "grad_norm": 0.025212243792050403,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 3985
    },
    {
      "epoch": 1.0125866666666667,
      "grad_norm": 0.02779406650842899,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 3986
    },
    {
      "epoch": 1.01264,
      "grad_norm": 0.025746386753390013,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 3987
    },
    {
      "epoch": 1.0126933333333332,
      "grad_norm": 0.02383907129600073,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3988
    },
    {
      "epoch": 1.0127466666666667,
      "grad_norm": 0.02493137688748293,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 3989
    },
    {
      "epoch": 1.0128,
      "grad_norm": 0.024319146593413474,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 3990
    },
    {
      "epoch": 1.0128533333333334,
      "grad_norm": 0.02377903980775023,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 3991
    },
    {
      "epoch": 1.0129066666666666,
      "grad_norm": 0.023545792662725357,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 3992
    },
    {
      "epoch": 1.01296,
      "grad_norm": 0.023825684225529657,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3993
    },
    {
      "epoch": 1.0130133333333333,
      "grad_norm": 0.025730787037393635,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3994
    },
    {
      "epoch": 1.0130666666666666,
      "grad_norm": 0.022567936666779954,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3995
    },
    {
      "epoch": 1.01312,
      "grad_norm": 0.024661724532625325,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 3996
    },
    {
      "epoch": 1.0131733333333333,
      "grad_norm": 0.027402951746011203,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 3997
    },
    {
      "epoch": 1.0132266666666667,
      "grad_norm": 0.02300211429546036,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 3998
    },
    {
      "epoch": 1.01328,
      "grad_norm": 0.02459167375639152,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 3999
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 0.025300118203461036,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 4000
    },
    {
      "epoch": 1.0133333333333334,
      "eval_accuracy": 0.6161377233270118,
      "eval_loss": 1.3768357038497925,
      "eval_runtime": 62.9053,
      "eval_samples_per_second": 15.897,
      "eval_steps_per_second": 0.509,
      "step": 4000
    },
    {
      "epoch": 1.0133866666666667,
      "grad_norm": 0.024401736334903317,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4001
    },
    {
      "epoch": 1.01344,
      "grad_norm": 0.023402635337184424,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 4002
    },
    {
      "epoch": 1.0134933333333334,
      "grad_norm": 0.02497774166628667,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 4003
    },
    {
      "epoch": 1.0135466666666666,
      "grad_norm": 0.02419492904661464,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 4004
    },
    {
      "epoch": 1.0136,
      "grad_norm": 0.02299012056879063,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4005
    },
    {
      "epoch": 1.0136533333333333,
      "grad_norm": 0.026349668112276726,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 4006
    },
    {
      "epoch": 1.0137066666666668,
      "grad_norm": 0.024598253297648823,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 4007
    },
    {
      "epoch": 1.01376,
      "grad_norm": 0.023309102052932056,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 4008
    },
    {
      "epoch": 1.0138133333333332,
      "grad_norm": 0.02424135192534958,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4009
    },
    {
      "epoch": 1.0138666666666667,
      "grad_norm": 0.025371776868437983,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 4010
    },
    {
      "epoch": 1.01392,
      "grad_norm": 0.024813713429698656,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 4011
    },
    {
      "epoch": 1.0139733333333334,
      "grad_norm": 0.025245780676116235,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 4012
    },
    {
      "epoch": 1.0140266666666666,
      "grad_norm": 0.024615087755400396,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4013
    },
    {
      "epoch": 1.01408,
      "grad_norm": 0.026190527911027765,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 4014
    },
    {
      "epoch": 1.0141333333333333,
      "grad_norm": 0.024047436758947036,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4015
    },
    {
      "epoch": 1.0141866666666666,
      "grad_norm": 0.025549809797534087,
      "learning_rate": 0.0001,
      "loss": 0.89,
      "step": 4016
    },
    {
      "epoch": 1.01424,
      "grad_norm": 0.02406558530305454,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4017
    },
    {
      "epoch": 1.0142933333333333,
      "grad_norm": 0.024026534000748667,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 4018
    },
    {
      "epoch": 1.0143466666666667,
      "grad_norm": 0.024051943080777256,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 4019
    },
    {
      "epoch": 1.0144,
      "grad_norm": 0.024397535425769865,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4020
    },
    {
      "epoch": 1.0144533333333334,
      "grad_norm": 0.025146324396967155,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 4021
    },
    {
      "epoch": 1.0145066666666667,
      "grad_norm": 0.02591941322480823,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 4022
    },
    {
      "epoch": 1.01456,
      "grad_norm": 0.024450737815708903,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4023
    },
    {
      "epoch": 1.0146133333333334,
      "grad_norm": 0.024729552651682703,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 4024
    },
    {
      "epoch": 1.0146666666666666,
      "grad_norm": 0.02429522960476348,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 4025
    },
    {
      "epoch": 1.01472,
      "grad_norm": 0.02403209266263719,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4026
    },
    {
      "epoch": 1.0147733333333333,
      "grad_norm": 0.02691841914983897,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 4027
    },
    {
      "epoch": 1.0148266666666668,
      "grad_norm": 0.023168551860072908,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 4028
    },
    {
      "epoch": 1.01488,
      "grad_norm": 0.02401694891768317,
      "learning_rate": 0.0001,
      "loss": 1.0635,
      "step": 4029
    },
    {
      "epoch": 1.0149333333333332,
      "grad_norm": 0.027310443599578148,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4030
    },
    {
      "epoch": 1.0149866666666667,
      "grad_norm": 0.02303301050801776,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 4031
    },
    {
      "epoch": 1.01504,
      "grad_norm": 0.026779989522999547,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 4032
    },
    {
      "epoch": 1.0150933333333334,
      "grad_norm": 0.02504550359186479,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 4033
    },
    {
      "epoch": 1.0151466666666666,
      "grad_norm": 0.023393612089213586,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 4034
    },
    {
      "epoch": 1.0152,
      "grad_norm": 0.024182630595674392,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4035
    },
    {
      "epoch": 1.0152533333333333,
      "grad_norm": 0.024542390551731717,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 4036
    },
    {
      "epoch": 1.0153066666666666,
      "grad_norm": 0.023969144773092012,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 4037
    },
    {
      "epoch": 1.01536,
      "grad_norm": 0.02291007402333025,
      "learning_rate": 0.0001,
      "loss": 0.9198,
      "step": 4038
    },
    {
      "epoch": 1.0154133333333333,
      "grad_norm": 0.025245568094686928,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4039
    },
    {
      "epoch": 1.0154666666666667,
      "grad_norm": 0.024970843564914694,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 4040
    },
    {
      "epoch": 1.01552,
      "grad_norm": 0.023429104818229865,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4041
    },
    {
      "epoch": 1.0155733333333334,
      "grad_norm": 0.02434959741679764,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 4042
    },
    {
      "epoch": 1.0156266666666667,
      "grad_norm": 0.02375572110687424,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4043
    },
    {
      "epoch": 1.01568,
      "grad_norm": 0.026574508512991344,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 4044
    },
    {
      "epoch": 1.0157333333333334,
      "grad_norm": 0.024431818279765077,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 4045
    },
    {
      "epoch": 1.0157866666666666,
      "grad_norm": 0.023777427544750915,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4046
    },
    {
      "epoch": 1.01584,
      "grad_norm": 0.025062910784340715,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 4047
    },
    {
      "epoch": 1.0158933333333333,
      "grad_norm": 0.023794493320734536,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 4048
    },
    {
      "epoch": 1.0159466666666668,
      "grad_norm": 0.024085905171688026,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 4049
    },
    {
      "epoch": 1.016,
      "grad_norm": 0.024223923209526387,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 4050
    },
    {
      "epoch": 1.0160533333333333,
      "grad_norm": 0.025194317917699497,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 4051
    },
    {
      "epoch": 1.0161066666666667,
      "grad_norm": 0.024968025709456148,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 4052
    },
    {
      "epoch": 1.01616,
      "grad_norm": 0.024216756749862272,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 4053
    },
    {
      "epoch": 1.0162133333333334,
      "grad_norm": 0.024117816729277014,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 4054
    },
    {
      "epoch": 1.0162666666666667,
      "grad_norm": 0.025676151494944354,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 4055
    },
    {
      "epoch": 1.01632,
      "grad_norm": 0.024080141217131198,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 4056
    },
    {
      "epoch": 1.0163733333333334,
      "grad_norm": 0.024149229752895424,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 4057
    },
    {
      "epoch": 1.0164266666666666,
      "grad_norm": 0.023416754536336102,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 4058
    },
    {
      "epoch": 1.01648,
      "grad_norm": 0.023816267182400135,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 4059
    },
    {
      "epoch": 1.0165333333333333,
      "grad_norm": 0.025524821110679243,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 4060
    },
    {
      "epoch": 1.0165866666666667,
      "grad_norm": 0.024900996036066107,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 4061
    },
    {
      "epoch": 1.01664,
      "grad_norm": 0.022898840636870473,
      "learning_rate": 0.0001,
      "loss": 0.9297,
      "step": 4062
    },
    {
      "epoch": 1.0166933333333332,
      "grad_norm": 0.02390264006647945,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 4063
    },
    {
      "epoch": 1.0167466666666667,
      "grad_norm": 0.02692670940626363,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 4064
    },
    {
      "epoch": 1.0168,
      "grad_norm": 0.02417870633043578,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 4065
    },
    {
      "epoch": 1.0168533333333334,
      "grad_norm": 0.022452071696152848,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 4066
    },
    {
      "epoch": 1.0169066666666666,
      "grad_norm": 0.027166134747440597,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4067
    },
    {
      "epoch": 1.01696,
      "grad_norm": 0.024389623165115743,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4068
    },
    {
      "epoch": 1.0170133333333333,
      "grad_norm": 0.027244323896705912,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 4069
    },
    {
      "epoch": 1.0170666666666666,
      "grad_norm": 0.024583748425092932,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 4070
    },
    {
      "epoch": 1.01712,
      "grad_norm": 0.027111702844846472,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 4071
    },
    {
      "epoch": 1.0171733333333333,
      "grad_norm": 0.025525220157123316,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 4072
    },
    {
      "epoch": 1.0172266666666667,
      "grad_norm": 0.02443430865262133,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 4073
    },
    {
      "epoch": 1.01728,
      "grad_norm": 0.02589414859861792,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 4074
    },
    {
      "epoch": 1.0173333333333334,
      "grad_norm": 0.027781153821673298,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4075
    },
    {
      "epoch": 1.0173866666666667,
      "grad_norm": 0.024385649993450255,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 4076
    },
    {
      "epoch": 1.01744,
      "grad_norm": 0.025145601432764404,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4077
    },
    {
      "epoch": 1.0174933333333334,
      "grad_norm": 0.023627818063698913,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 4078
    },
    {
      "epoch": 1.0175466666666666,
      "grad_norm": 0.025863232127185786,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 4079
    },
    {
      "epoch": 1.0176,
      "grad_norm": 0.02415786960376307,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 4080
    },
    {
      "epoch": 1.0176533333333333,
      "grad_norm": 0.022401420445532387,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 4081
    },
    {
      "epoch": 1.0177066666666668,
      "grad_norm": 0.023892468048364507,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 4082
    },
    {
      "epoch": 1.01776,
      "grad_norm": 0.024805797385968723,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 4083
    },
    {
      "epoch": 1.0178133333333332,
      "grad_norm": 0.02529069363410495,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4084
    },
    {
      "epoch": 1.0178666666666667,
      "grad_norm": 0.0266347508649238,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 4085
    },
    {
      "epoch": 1.01792,
      "grad_norm": 0.025288145408278596,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 4086
    },
    {
      "epoch": 1.0179733333333334,
      "grad_norm": 0.027402681329733586,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4087
    },
    {
      "epoch": 1.0180266666666666,
      "grad_norm": 0.024045769225857952,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 4088
    },
    {
      "epoch": 1.01808,
      "grad_norm": 0.02728435886219315,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 4089
    },
    {
      "epoch": 1.0181333333333333,
      "grad_norm": 0.02424342889023854,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 4090
    },
    {
      "epoch": 1.0181866666666666,
      "grad_norm": 0.02425626815271567,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 4091
    },
    {
      "epoch": 1.01824,
      "grad_norm": 0.026728037033616505,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 4092
    },
    {
      "epoch": 1.0182933333333333,
      "grad_norm": 0.02572072699101144,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 4093
    },
    {
      "epoch": 1.0183466666666667,
      "grad_norm": 0.026001246581351466,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4094
    },
    {
      "epoch": 1.0184,
      "grad_norm": 0.02415717685516126,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 4095
    },
    {
      "epoch": 1.0184533333333334,
      "grad_norm": 0.025311895054499572,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 4096
    },
    {
      "epoch": 1.0185066666666667,
      "grad_norm": 0.028551152825276697,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 4097
    },
    {
      "epoch": 1.01856,
      "grad_norm": 0.023966585706657082,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 4098
    },
    {
      "epoch": 1.0186133333333334,
      "grad_norm": 0.02747707946971332,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 4099
    },
    {
      "epoch": 1.0186666666666666,
      "grad_norm": 0.02666619967922408,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "step": 4100
    },
    {
      "epoch": 1.01872,
      "grad_norm": 0.02493553000123412,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 4101
    },
    {
      "epoch": 1.0187733333333333,
      "grad_norm": 0.025303131629016814,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4102
    },
    {
      "epoch": 1.0188266666666668,
      "grad_norm": 0.02336137932285871,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4103
    },
    {
      "epoch": 1.01888,
      "grad_norm": 0.024758310752105085,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 4104
    },
    {
      "epoch": 1.0189333333333332,
      "grad_norm": 0.023055098682861964,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 4105
    },
    {
      "epoch": 1.0189866666666667,
      "grad_norm": 0.024169489796884106,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4106
    },
    {
      "epoch": 1.01904,
      "grad_norm": 0.023721781034357355,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 4107
    },
    {
      "epoch": 1.0190933333333334,
      "grad_norm": 0.022618999494931243,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 4108
    },
    {
      "epoch": 1.0191466666666666,
      "grad_norm": 0.022910364900022497,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 4109
    },
    {
      "epoch": 1.0192,
      "grad_norm": 0.023620911972919097,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 4110
    },
    {
      "epoch": 1.0192533333333333,
      "grad_norm": 0.024055717715391535,
      "learning_rate": 0.0001,
      "loss": 0.9387,
      "step": 4111
    },
    {
      "epoch": 1.0193066666666666,
      "grad_norm": 0.02370950132239785,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 4112
    },
    {
      "epoch": 1.01936,
      "grad_norm": 0.024351229965112582,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 4113
    },
    {
      "epoch": 1.0194133333333333,
      "grad_norm": 0.02450065003645881,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 4114
    },
    {
      "epoch": 1.0194666666666667,
      "grad_norm": 0.024324340524869238,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 4115
    },
    {
      "epoch": 1.01952,
      "grad_norm": 0.026641537297933622,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 4116
    },
    {
      "epoch": 1.0195733333333334,
      "grad_norm": 0.025506364472169096,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 4117
    },
    {
      "epoch": 1.0196266666666667,
      "grad_norm": 0.024630710957555407,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 4118
    },
    {
      "epoch": 1.01968,
      "grad_norm": 0.025051292008608856,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 4119
    },
    {
      "epoch": 1.0197333333333334,
      "grad_norm": 0.025467829572196843,
      "learning_rate": 0.0001,
      "loss": 0.9074,
      "step": 4120
    },
    {
      "epoch": 1.0197866666666666,
      "grad_norm": 0.02743346218508081,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 4121
    },
    {
      "epoch": 1.01984,
      "grad_norm": 0.02601745208831305,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 4122
    },
    {
      "epoch": 1.0198933333333333,
      "grad_norm": 0.02903390203321502,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 4123
    },
    {
      "epoch": 1.0199466666666668,
      "grad_norm": 0.025683327480831745,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 4124
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.025153452159095372,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4125
    },
    {
      "epoch": 1.0200533333333333,
      "grad_norm": 0.027200766342311482,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4126
    },
    {
      "epoch": 1.0201066666666667,
      "grad_norm": 0.023780357847930044,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 4127
    },
    {
      "epoch": 1.02016,
      "grad_norm": 0.024822824017287352,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 4128
    },
    {
      "epoch": 1.0202133333333334,
      "grad_norm": 0.024840871724469853,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 4129
    },
    {
      "epoch": 1.0202666666666667,
      "grad_norm": 0.024890630484610606,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 4130
    },
    {
      "epoch": 1.02032,
      "grad_norm": 0.024998941243433395,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 4131
    },
    {
      "epoch": 1.0203733333333334,
      "grad_norm": 0.026874930646019864,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 4132
    },
    {
      "epoch": 1.0204266666666666,
      "grad_norm": 0.02554332070339355,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 4133
    },
    {
      "epoch": 1.02048,
      "grad_norm": 0.025183354741602923,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 4134
    },
    {
      "epoch": 1.0205333333333333,
      "grad_norm": 0.025269493984554588,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 4135
    },
    {
      "epoch": 1.0205866666666668,
      "grad_norm": 0.027601872952328098,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 4136
    },
    {
      "epoch": 1.02064,
      "grad_norm": 0.025037202311629606,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 4137
    },
    {
      "epoch": 1.0206933333333332,
      "grad_norm": 0.025137580913825897,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4138
    },
    {
      "epoch": 1.0207466666666667,
      "grad_norm": 0.02455992193506293,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 4139
    },
    {
      "epoch": 1.0208,
      "grad_norm": 0.02484563850529631,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4140
    },
    {
      "epoch": 1.0208533333333334,
      "grad_norm": 0.024308699085402764,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4141
    },
    {
      "epoch": 1.0209066666666666,
      "grad_norm": 0.02428214467306464,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 4142
    },
    {
      "epoch": 1.02096,
      "grad_norm": 0.025557876713386184,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 4143
    },
    {
      "epoch": 1.0210133333333333,
      "grad_norm": 0.023962139855590255,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 4144
    },
    {
      "epoch": 1.0210666666666666,
      "grad_norm": 0.025337579379357815,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 4145
    },
    {
      "epoch": 1.02112,
      "grad_norm": 0.02640176571145335,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4146
    },
    {
      "epoch": 1.0211733333333333,
      "grad_norm": 0.024657297930128243,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4147
    },
    {
      "epoch": 1.0212266666666667,
      "grad_norm": 0.026551045089252306,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 4148
    },
    {
      "epoch": 1.02128,
      "grad_norm": 0.028461246081560882,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 4149
    },
    {
      "epoch": 1.0213333333333334,
      "grad_norm": 0.02469780131154835,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 4150
    },
    {
      "epoch": 1.0213866666666667,
      "grad_norm": 0.02433568030963084,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 4151
    },
    {
      "epoch": 1.02144,
      "grad_norm": 0.026237101797698188,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 4152
    },
    {
      "epoch": 1.0214933333333334,
      "grad_norm": 0.026802775825936494,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 4153
    },
    {
      "epoch": 1.0215466666666666,
      "grad_norm": 0.028156450452574942,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 4154
    },
    {
      "epoch": 1.0216,
      "grad_norm": 0.023727973803753705,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 4155
    },
    {
      "epoch": 1.0216533333333333,
      "grad_norm": 0.02522283179229633,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 4156
    },
    {
      "epoch": 1.0217066666666668,
      "grad_norm": 0.027478685831952232,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 4157
    },
    {
      "epoch": 1.02176,
      "grad_norm": 0.024920031103950604,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 4158
    },
    {
      "epoch": 1.0218133333333332,
      "grad_norm": 0.024504692151936566,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 4159
    },
    {
      "epoch": 1.0218666666666667,
      "grad_norm": 0.024260429066378746,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 4160
    },
    {
      "epoch": 1.02192,
      "grad_norm": 0.023630107797452223,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 4161
    },
    {
      "epoch": 1.0219733333333334,
      "grad_norm": 0.022815903287836063,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 4162
    },
    {
      "epoch": 1.0220266666666666,
      "grad_norm": 0.025335160376828387,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 4163
    },
    {
      "epoch": 1.02208,
      "grad_norm": 0.023801613003010504,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 4164
    },
    {
      "epoch": 1.0221333333333333,
      "grad_norm": 0.025765969566585438,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 4165
    },
    {
      "epoch": 1.0221866666666666,
      "grad_norm": 0.024706388519419517,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 4166
    },
    {
      "epoch": 1.02224,
      "grad_norm": 0.02401186234107778,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 4167
    },
    {
      "epoch": 1.0222933333333333,
      "grad_norm": 0.023986236191737748,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4168
    },
    {
      "epoch": 1.0223466666666667,
      "grad_norm": 0.026289493691338265,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4169
    },
    {
      "epoch": 1.0224,
      "grad_norm": 0.02580269656502028,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4170
    },
    {
      "epoch": 1.0224533333333334,
      "grad_norm": 0.025636308556642784,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4171
    },
    {
      "epoch": 1.0225066666666667,
      "grad_norm": 0.02499546340605594,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 4172
    },
    {
      "epoch": 1.02256,
      "grad_norm": 0.027178549477794973,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4173
    },
    {
      "epoch": 1.0226133333333334,
      "grad_norm": 0.02583047036758767,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4174
    },
    {
      "epoch": 1.0226666666666666,
      "grad_norm": 0.024759252493346113,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4175
    },
    {
      "epoch": 1.02272,
      "grad_norm": 0.024439241924788545,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 4176
    },
    {
      "epoch": 1.0227733333333333,
      "grad_norm": 0.026144269417161206,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 4177
    },
    {
      "epoch": 1.0228266666666668,
      "grad_norm": 0.023662733735556274,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 4178
    },
    {
      "epoch": 1.02288,
      "grad_norm": 0.024509834819547736,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 4179
    },
    {
      "epoch": 1.0229333333333333,
      "grad_norm": 0.02378596626010149,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 4180
    },
    {
      "epoch": 1.0229866666666667,
      "grad_norm": 0.023872125258735732,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 4181
    },
    {
      "epoch": 1.02304,
      "grad_norm": 0.024248945886809987,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4182
    },
    {
      "epoch": 1.0230933333333334,
      "grad_norm": 0.02638296427452288,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 4183
    },
    {
      "epoch": 1.0231466666666666,
      "grad_norm": 0.023752798479666513,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4184
    },
    {
      "epoch": 1.0232,
      "grad_norm": 0.0244903761632705,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 4185
    },
    {
      "epoch": 1.0232533333333333,
      "grad_norm": 0.02400288051199754,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 4186
    },
    {
      "epoch": 1.0233066666666666,
      "grad_norm": 0.02470766224948326,
      "learning_rate": 0.0001,
      "loss": 1.0381,
      "step": 4187
    },
    {
      "epoch": 1.02336,
      "grad_norm": 0.02355413659345114,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4188
    },
    {
      "epoch": 1.0234133333333333,
      "grad_norm": 0.02388100247943962,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4189
    },
    {
      "epoch": 1.0234666666666667,
      "grad_norm": 0.025357342699613802,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 4190
    },
    {
      "epoch": 1.02352,
      "grad_norm": 0.02575088633592105,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 4191
    },
    {
      "epoch": 1.0235733333333332,
      "grad_norm": 0.029527897800382896,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4192
    },
    {
      "epoch": 1.0236266666666667,
      "grad_norm": 0.025043147558702156,
      "learning_rate": 0.0001,
      "loss": 0.9015,
      "step": 4193
    },
    {
      "epoch": 1.02368,
      "grad_norm": 0.024580433160842255,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 4194
    },
    {
      "epoch": 1.0237333333333334,
      "grad_norm": 0.02340031743784862,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 4195
    },
    {
      "epoch": 1.0237866666666666,
      "grad_norm": 0.02420780125366667,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 4196
    },
    {
      "epoch": 1.02384,
      "grad_norm": 0.026050326311486207,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4197
    },
    {
      "epoch": 1.0238933333333333,
      "grad_norm": 0.025149369827947087,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4198
    },
    {
      "epoch": 1.0239466666666666,
      "grad_norm": 0.023892363656792412,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 4199
    },
    {
      "epoch": 1.024,
      "grad_norm": 0.02566189572365672,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 4200
    },
    {
      "epoch": 1.024,
      "eval_accuracy": 0.6163969977237055,
      "eval_loss": 1.3754934072494507,
      "eval_runtime": 63.0025,
      "eval_samples_per_second": 15.872,
      "eval_steps_per_second": 0.508,
      "step": 4200
    },
    {
      "epoch": 1.0240533333333333,
      "grad_norm": 0.025757819350837697,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 4201
    },
    {
      "epoch": 1.0241066666666667,
      "grad_norm": 0.02274859172447308,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 4202
    },
    {
      "epoch": 1.02416,
      "grad_norm": 0.023509825243217135,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 4203
    },
    {
      "epoch": 1.0242133333333334,
      "grad_norm": 0.025230977021746055,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 4204
    },
    {
      "epoch": 1.0242666666666667,
      "grad_norm": 0.024245317829138035,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 4205
    },
    {
      "epoch": 1.02432,
      "grad_norm": 0.027243114802443805,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 4206
    },
    {
      "epoch": 1.0243733333333334,
      "grad_norm": 0.02443178643907904,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 4207
    },
    {
      "epoch": 1.0244266666666666,
      "grad_norm": 0.02383922271287295,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 4208
    },
    {
      "epoch": 1.02448,
      "grad_norm": 0.023755291448099566,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 4209
    },
    {
      "epoch": 1.0245333333333333,
      "grad_norm": 0.026294497879866312,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 4210
    },
    {
      "epoch": 1.0245866666666668,
      "grad_norm": 0.02690498125505039,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4211
    },
    {
      "epoch": 1.02464,
      "grad_norm": 0.02477867275406131,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 4212
    },
    {
      "epoch": 1.0246933333333332,
      "grad_norm": 0.024827954229988305,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 4213
    },
    {
      "epoch": 1.0247466666666667,
      "grad_norm": 0.024371325373032684,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 4214
    },
    {
      "epoch": 1.0248,
      "grad_norm": 0.02561491411833602,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 4215
    },
    {
      "epoch": 1.0248533333333334,
      "grad_norm": 0.02796261491312149,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 4216
    },
    {
      "epoch": 1.0249066666666666,
      "grad_norm": 0.026632895693282723,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4217
    },
    {
      "epoch": 1.02496,
      "grad_norm": 0.02589439772571267,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 4218
    },
    {
      "epoch": 1.0250133333333333,
      "grad_norm": 0.02521081036334982,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 4219
    },
    {
      "epoch": 1.0250666666666666,
      "grad_norm": 0.02529107487237992,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 4220
    },
    {
      "epoch": 1.02512,
      "grad_norm": 0.024515291844046043,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 4221
    },
    {
      "epoch": 1.0251733333333333,
      "grad_norm": 0.024838117340690215,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 4222
    },
    {
      "epoch": 1.0252266666666667,
      "grad_norm": 0.023670168335518684,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4223
    },
    {
      "epoch": 1.02528,
      "grad_norm": 0.02661077691417788,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 4224
    },
    {
      "epoch": 1.0253333333333334,
      "grad_norm": 0.02478137932288543,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 4225
    },
    {
      "epoch": 1.0253866666666667,
      "grad_norm": 0.025248234730067518,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 4226
    },
    {
      "epoch": 1.02544,
      "grad_norm": 0.027711947373968007,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 4227
    },
    {
      "epoch": 1.0254933333333334,
      "grad_norm": 0.023258435108042007,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4228
    },
    {
      "epoch": 1.0255466666666666,
      "grad_norm": 0.02754599791450017,
      "learning_rate": 0.0001,
      "loss": 0.9063,
      "step": 4229
    },
    {
      "epoch": 1.0256,
      "grad_norm": 0.024617906423117997,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4230
    },
    {
      "epoch": 1.0256533333333333,
      "grad_norm": 0.028169952580668345,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 4231
    },
    {
      "epoch": 1.0257066666666668,
      "grad_norm": 0.025525385289548435,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 4232
    },
    {
      "epoch": 1.02576,
      "grad_norm": 0.022582059247794162,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 4233
    },
    {
      "epoch": 1.0258133333333332,
      "grad_norm": 0.02616881260705403,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 4234
    },
    {
      "epoch": 1.0258666666666667,
      "grad_norm": 0.02423244185384149,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 4235
    },
    {
      "epoch": 1.02592,
      "grad_norm": 0.025208082299036275,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 4236
    },
    {
      "epoch": 1.0259733333333334,
      "grad_norm": 0.02399358357271551,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 4237
    },
    {
      "epoch": 1.0260266666666666,
      "grad_norm": 0.023129095037977093,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 4238
    },
    {
      "epoch": 1.02608,
      "grad_norm": 0.025159819790718747,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 4239
    },
    {
      "epoch": 1.0261333333333333,
      "grad_norm": 0.024229836119730334,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 4240
    },
    {
      "epoch": 1.0261866666666666,
      "grad_norm": 0.023716819218191073,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4241
    },
    {
      "epoch": 1.02624,
      "grad_norm": 0.024265561245790438,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 4242
    },
    {
      "epoch": 1.0262933333333333,
      "grad_norm": 0.026910018087133,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 4243
    },
    {
      "epoch": 1.0263466666666667,
      "grad_norm": 0.02377315183034239,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 4244
    },
    {
      "epoch": 1.0264,
      "grad_norm": 0.023817492941111462,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 4245
    },
    {
      "epoch": 1.0264533333333334,
      "grad_norm": 0.024700992675754836,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 4246
    },
    {
      "epoch": 1.0265066666666667,
      "grad_norm": 0.02258932091016264,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 4247
    },
    {
      "epoch": 1.02656,
      "grad_norm": 0.023189136344470427,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 4248
    },
    {
      "epoch": 1.0266133333333334,
      "grad_norm": 0.025482108281791246,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 4249
    },
    {
      "epoch": 1.0266666666666666,
      "grad_norm": 0.022444208622756475,
      "learning_rate": 0.0001,
      "loss": 1.0457,
      "step": 4250
    },
    {
      "epoch": 1.02672,
      "grad_norm": 0.02395312958551581,
      "learning_rate": 0.0001,
      "loss": 0.8937,
      "step": 4251
    },
    {
      "epoch": 1.0267733333333333,
      "grad_norm": 0.025047043149197097,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 4252
    },
    {
      "epoch": 1.0268266666666666,
      "grad_norm": 0.024540772470668364,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 4253
    },
    {
      "epoch": 1.02688,
      "grad_norm": 0.024210391743783276,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 4254
    },
    {
      "epoch": 1.0269333333333333,
      "grad_norm": 0.026500925885753687,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4255
    },
    {
      "epoch": 1.0269866666666667,
      "grad_norm": 0.025699284347707484,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 4256
    },
    {
      "epoch": 1.02704,
      "grad_norm": 0.02491254462299456,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 4257
    },
    {
      "epoch": 1.0270933333333334,
      "grad_norm": 0.025494990959672805,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 4258
    },
    {
      "epoch": 1.0271466666666667,
      "grad_norm": 0.02677047645596867,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 4259
    },
    {
      "epoch": 1.0272,
      "grad_norm": 0.0228694195959811,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4260
    },
    {
      "epoch": 1.0272533333333334,
      "grad_norm": 0.02467011446118184,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 4261
    },
    {
      "epoch": 1.0273066666666666,
      "grad_norm": 0.023509740813012624,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 4262
    },
    {
      "epoch": 1.02736,
      "grad_norm": 0.0236942917588092,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 4263
    },
    {
      "epoch": 1.0274133333333333,
      "grad_norm": 0.02643805327802295,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 4264
    },
    {
      "epoch": 1.0274666666666668,
      "grad_norm": 0.026363647734668354,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4265
    },
    {
      "epoch": 1.02752,
      "grad_norm": 0.02458946230102932,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4266
    },
    {
      "epoch": 1.0275733333333332,
      "grad_norm": 0.022917276261132907,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 4267
    },
    {
      "epoch": 1.0276266666666667,
      "grad_norm": 0.022764512109325844,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 4268
    },
    {
      "epoch": 1.02768,
      "grad_norm": 0.0253911903715269,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 4269
    },
    {
      "epoch": 1.0277333333333334,
      "grad_norm": 0.025978849899519714,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 4270
    },
    {
      "epoch": 1.0277866666666666,
      "grad_norm": 0.023669500576070084,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 4271
    },
    {
      "epoch": 1.02784,
      "grad_norm": 0.02536997140677609,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4272
    },
    {
      "epoch": 1.0278933333333333,
      "grad_norm": 0.029368914681030072,
      "learning_rate": 0.0001,
      "loss": 0.9395,
      "step": 4273
    },
    {
      "epoch": 1.0279466666666666,
      "grad_norm": 0.02575754226644346,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 4274
    },
    {
      "epoch": 1.028,
      "grad_norm": 0.02566301120318066,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 4275
    },
    {
      "epoch": 1.0280533333333333,
      "grad_norm": 0.027820438785357296,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 4276
    },
    {
      "epoch": 1.0281066666666667,
      "grad_norm": 0.026220877601838923,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 4277
    },
    {
      "epoch": 1.02816,
      "grad_norm": 0.02617707499339664,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 4278
    },
    {
      "epoch": 1.0282133333333334,
      "grad_norm": 0.02878241245412763,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 4279
    },
    {
      "epoch": 1.0282666666666667,
      "grad_norm": 0.025783527859206606,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 4280
    },
    {
      "epoch": 1.02832,
      "grad_norm": 0.025777751046414533,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 4281
    },
    {
      "epoch": 1.0283733333333334,
      "grad_norm": 0.025639495857233675,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 4282
    },
    {
      "epoch": 1.0284266666666666,
      "grad_norm": 0.02738738279656186,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 4283
    },
    {
      "epoch": 1.02848,
      "grad_norm": 0.026323120954187942,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 4284
    },
    {
      "epoch": 1.0285333333333333,
      "grad_norm": 0.028426308662848874,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 4285
    },
    {
      "epoch": 1.0285866666666668,
      "grad_norm": 0.026593542417480034,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 4286
    },
    {
      "epoch": 1.02864,
      "grad_norm": 0.02524807215116622,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4287
    },
    {
      "epoch": 1.0286933333333332,
      "grad_norm": 0.028335361699683093,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4288
    },
    {
      "epoch": 1.0287466666666667,
      "grad_norm": 0.027583180918601458,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 4289
    },
    {
      "epoch": 1.0288,
      "grad_norm": 0.026026566587630674,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 4290
    },
    {
      "epoch": 1.0288533333333334,
      "grad_norm": 0.025576501420392746,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 4291
    },
    {
      "epoch": 1.0289066666666666,
      "grad_norm": 0.026925961628276047,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 4292
    },
    {
      "epoch": 1.02896,
      "grad_norm": 0.029254960243026016,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4293
    },
    {
      "epoch": 1.0290133333333333,
      "grad_norm": 0.0268116988921987,
      "learning_rate": 0.0001,
      "loss": 0.9059,
      "step": 4294
    },
    {
      "epoch": 1.0290666666666666,
      "grad_norm": 0.027067795729607037,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 4295
    },
    {
      "epoch": 1.02912,
      "grad_norm": 0.026317178572110196,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4296
    },
    {
      "epoch": 1.0291733333333333,
      "grad_norm": 0.026895896496077362,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 4297
    },
    {
      "epoch": 1.0292266666666667,
      "grad_norm": 0.025020189761913756,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 4298
    },
    {
      "epoch": 1.02928,
      "grad_norm": 0.025448591993093708,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 4299
    },
    {
      "epoch": 1.0293333333333334,
      "grad_norm": 0.02567631742769724,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 4300
    },
    {
      "epoch": 1.0293866666666667,
      "grad_norm": 0.024411978842765438,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 4301
    },
    {
      "epoch": 1.02944,
      "grad_norm": 0.02377654433828922,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 4302
    },
    {
      "epoch": 1.0294933333333334,
      "grad_norm": 0.024108862755279806,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 4303
    },
    {
      "epoch": 1.0295466666666666,
      "grad_norm": 0.025463742668227995,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4304
    },
    {
      "epoch": 1.0296,
      "grad_norm": 0.02321989052038827,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 4305
    },
    {
      "epoch": 1.0296533333333333,
      "grad_norm": 0.023776664862300022,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4306
    },
    {
      "epoch": 1.0297066666666668,
      "grad_norm": 0.02344914079716262,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 4307
    },
    {
      "epoch": 1.02976,
      "grad_norm": 0.025229423651016686,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4308
    },
    {
      "epoch": 1.0298133333333332,
      "grad_norm": 0.025456256348178403,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 4309
    },
    {
      "epoch": 1.0298666666666667,
      "grad_norm": 0.025128603417346716,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 4310
    },
    {
      "epoch": 1.02992,
      "grad_norm": 0.026242289675936965,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 4311
    },
    {
      "epoch": 1.0299733333333334,
      "grad_norm": 0.02399052406729695,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 4312
    },
    {
      "epoch": 1.0300266666666666,
      "grad_norm": 0.025982513311280386,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4313
    },
    {
      "epoch": 1.03008,
      "grad_norm": 0.02411895177416584,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 4314
    },
    {
      "epoch": 1.0301333333333333,
      "grad_norm": 0.024923100606675592,
      "learning_rate": 0.0001,
      "loss": 1.0571,
      "step": 4315
    },
    {
      "epoch": 1.0301866666666666,
      "grad_norm": 0.024973431470361115,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 4316
    },
    {
      "epoch": 1.03024,
      "grad_norm": 0.023395798526695103,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4317
    },
    {
      "epoch": 1.0302933333333333,
      "grad_norm": 0.022264920284184406,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 4318
    },
    {
      "epoch": 1.0303466666666667,
      "grad_norm": 0.025568730874433107,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 4319
    },
    {
      "epoch": 1.0304,
      "grad_norm": 0.024048287978844292,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 4320
    },
    {
      "epoch": 1.0304533333333334,
      "grad_norm": 0.02389408744299466,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4321
    },
    {
      "epoch": 1.0305066666666667,
      "grad_norm": 0.024444186986998705,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 4322
    },
    {
      "epoch": 1.03056,
      "grad_norm": 0.0246123745556494,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 4323
    },
    {
      "epoch": 1.0306133333333334,
      "grad_norm": 0.02567902852490298,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 4324
    },
    {
      "epoch": 1.0306666666666666,
      "grad_norm": 0.022670618974959617,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4325
    },
    {
      "epoch": 1.03072,
      "grad_norm": 0.02720792095462256,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 4326
    },
    {
      "epoch": 1.0307733333333333,
      "grad_norm": 0.026527306967050735,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 4327
    },
    {
      "epoch": 1.0308266666666666,
      "grad_norm": 0.026399010240317766,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 4328
    },
    {
      "epoch": 1.03088,
      "grad_norm": 0.02607285711339187,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 4329
    },
    {
      "epoch": 1.0309333333333333,
      "grad_norm": 0.024319620784189835,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "step": 4330
    },
    {
      "epoch": 1.0309866666666667,
      "grad_norm": 0.03120793890497213,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 4331
    },
    {
      "epoch": 1.03104,
      "grad_norm": 0.024867933106001095,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 4332
    },
    {
      "epoch": 1.0310933333333334,
      "grad_norm": 0.029699794311045774,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 4333
    },
    {
      "epoch": 1.0311466666666667,
      "grad_norm": 0.024974075195886382,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 4334
    },
    {
      "epoch": 1.0312,
      "grad_norm": 0.025947215881945374,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4335
    },
    {
      "epoch": 1.0312533333333334,
      "grad_norm": 0.024864597663456292,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 4336
    },
    {
      "epoch": 1.0313066666666666,
      "grad_norm": 0.02599251211695308,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 4337
    },
    {
      "epoch": 1.03136,
      "grad_norm": 0.026387564099077946,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4338
    },
    {
      "epoch": 1.0314133333333333,
      "grad_norm": 0.023118325636099984,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 4339
    },
    {
      "epoch": 1.0314666666666668,
      "grad_norm": 0.029289524021950678,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 4340
    },
    {
      "epoch": 1.03152,
      "grad_norm": 0.024628058818613775,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 4341
    },
    {
      "epoch": 1.0315733333333332,
      "grad_norm": 0.023918913275264474,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4342
    },
    {
      "epoch": 1.0316266666666667,
      "grad_norm": 0.024016165892047164,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 4343
    },
    {
      "epoch": 1.03168,
      "grad_norm": 0.024874708892190175,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 4344
    },
    {
      "epoch": 1.0317333333333334,
      "grad_norm": 0.025756089413754617,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 4345
    },
    {
      "epoch": 1.0317866666666666,
      "grad_norm": 0.02739419143286228,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 4346
    },
    {
      "epoch": 1.03184,
      "grad_norm": 0.02550908599923386,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 4347
    },
    {
      "epoch": 1.0318933333333333,
      "grad_norm": 0.024175868408284566,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 4348
    },
    {
      "epoch": 1.0319466666666666,
      "grad_norm": 0.025480675286379352,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 4349
    },
    {
      "epoch": 1.032,
      "grad_norm": 0.03042768661310683,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 4350
    },
    {
      "epoch": 1.0320533333333333,
      "grad_norm": 0.027414447490000722,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4351
    },
    {
      "epoch": 1.0321066666666667,
      "grad_norm": 0.02415670855053957,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4352
    },
    {
      "epoch": 1.03216,
      "grad_norm": 0.02394215615722101,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 4353
    },
    {
      "epoch": 1.0322133333333334,
      "grad_norm": 0.024373744392058975,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4354
    },
    {
      "epoch": 1.0322666666666667,
      "grad_norm": 0.023928272493046434,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 4355
    },
    {
      "epoch": 1.03232,
      "grad_norm": 0.02494705803990358,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 4356
    },
    {
      "epoch": 1.0323733333333334,
      "grad_norm": 0.024775685601080556,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 4357
    },
    {
      "epoch": 1.0324266666666666,
      "grad_norm": 0.026350505294905728,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 4358
    },
    {
      "epoch": 1.03248,
      "grad_norm": 0.024342431861324797,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4359
    },
    {
      "epoch": 1.0325333333333333,
      "grad_norm": 0.025861767045243466,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 4360
    },
    {
      "epoch": 1.0325866666666668,
      "grad_norm": 0.02542389993367001,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4361
    },
    {
      "epoch": 1.03264,
      "grad_norm": 0.0254856966498487,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4362
    },
    {
      "epoch": 1.0326933333333332,
      "grad_norm": 0.024961515761701414,
      "learning_rate": 0.0001,
      "loss": 1.0979,
      "step": 4363
    },
    {
      "epoch": 1.0327466666666667,
      "grad_norm": 0.02408427021790226,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 4364
    },
    {
      "epoch": 1.0328,
      "grad_norm": 0.02604187145292836,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4365
    },
    {
      "epoch": 1.0328533333333334,
      "grad_norm": 0.025536238711197246,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4366
    },
    {
      "epoch": 1.0329066666666666,
      "grad_norm": 0.025052212850444885,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 4367
    },
    {
      "epoch": 1.03296,
      "grad_norm": 0.025049713283329163,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 4368
    },
    {
      "epoch": 1.0330133333333333,
      "grad_norm": 0.025583061501768364,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 4369
    },
    {
      "epoch": 1.0330666666666666,
      "grad_norm": 0.025446083855381187,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 4370
    },
    {
      "epoch": 1.03312,
      "grad_norm": 0.027154509040958185,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 4371
    },
    {
      "epoch": 1.0331733333333333,
      "grad_norm": 0.026169098415782403,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 4372
    },
    {
      "epoch": 1.0332266666666667,
      "grad_norm": 0.02448927409727445,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 4373
    },
    {
      "epoch": 1.03328,
      "grad_norm": 0.024224463171966883,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4374
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.022864155479363917,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 4375
    },
    {
      "epoch": 1.0333866666666667,
      "grad_norm": 0.024570795695502766,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 4376
    },
    {
      "epoch": 1.03344,
      "grad_norm": 0.023470169794178562,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 4377
    },
    {
      "epoch": 1.0334933333333334,
      "grad_norm": 0.02421188030212079,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 4378
    },
    {
      "epoch": 1.0335466666666666,
      "grad_norm": 0.024810686093180826,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 4379
    },
    {
      "epoch": 1.0336,
      "grad_norm": 0.023861613388549138,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 4380
    },
    {
      "epoch": 1.0336533333333333,
      "grad_norm": 0.025491489683430218,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 4381
    },
    {
      "epoch": 1.0337066666666668,
      "grad_norm": 0.025993701394744727,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 4382
    },
    {
      "epoch": 1.03376,
      "grad_norm": 0.028484331654828977,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4383
    },
    {
      "epoch": 1.0338133333333333,
      "grad_norm": 0.02575526118439295,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 4384
    },
    {
      "epoch": 1.0338666666666667,
      "grad_norm": 0.02464909841573038,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 4385
    },
    {
      "epoch": 1.03392,
      "grad_norm": 0.027648024537842472,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4386
    },
    {
      "epoch": 1.0339733333333334,
      "grad_norm": 0.02465296509018974,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 4387
    },
    {
      "epoch": 1.0340266666666666,
      "grad_norm": 0.02327347911343244,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 4388
    },
    {
      "epoch": 1.0340799999999999,
      "grad_norm": 0.025094085935789507,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 4389
    },
    {
      "epoch": 1.0341333333333333,
      "grad_norm": 0.022611752861814643,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 4390
    },
    {
      "epoch": 1.0341866666666666,
      "grad_norm": 0.024234671436660374,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 4391
    },
    {
      "epoch": 1.03424,
      "grad_norm": 0.026565131905770013,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 4392
    },
    {
      "epoch": 1.0342933333333333,
      "grad_norm": 0.024886736108678517,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 4393
    },
    {
      "epoch": 1.0343466666666667,
      "grad_norm": 0.022436182394740323,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 4394
    },
    {
      "epoch": 1.0344,
      "grad_norm": 0.024456048953384407,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 4395
    },
    {
      "epoch": 1.0344533333333334,
      "grad_norm": 0.025697543185784523,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 4396
    },
    {
      "epoch": 1.0345066666666667,
      "grad_norm": 0.026508310036915467,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4397
    },
    {
      "epoch": 1.03456,
      "grad_norm": 0.023465710991408192,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4398
    },
    {
      "epoch": 1.0346133333333334,
      "grad_norm": 0.025845382036942893,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 4399
    },
    {
      "epoch": 1.0346666666666666,
      "grad_norm": 0.023304480038983468,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 4400
    },
    {
      "epoch": 1.0346666666666666,
      "eval_accuracy": 0.6166564741523967,
      "eval_loss": 1.3741999864578247,
      "eval_runtime": 62.299,
      "eval_samples_per_second": 16.052,
      "eval_steps_per_second": 0.514,
      "step": 4400
    },
    {
      "epoch": 1.03472,
      "grad_norm": 0.027116480772113826,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 4401
    },
    {
      "epoch": 1.0347733333333333,
      "grad_norm": 0.02401692387355954,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 4402
    },
    {
      "epoch": 1.0348266666666666,
      "grad_norm": 0.025800299630515323,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 4403
    },
    {
      "epoch": 1.03488,
      "grad_norm": 0.027287051463186805,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 4404
    },
    {
      "epoch": 1.0349333333333333,
      "grad_norm": 0.023910189765620996,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 4405
    },
    {
      "epoch": 1.0349866666666667,
      "grad_norm": 0.027022402361306323,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 4406
    },
    {
      "epoch": 1.03504,
      "grad_norm": 0.02632668916401222,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 4407
    },
    {
      "epoch": 1.0350933333333334,
      "grad_norm": 0.02276799220710144,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "step": 4408
    },
    {
      "epoch": 1.0351466666666667,
      "grad_norm": 0.025844124098613974,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 4409
    },
    {
      "epoch": 1.0352,
      "grad_norm": 0.02380432568556784,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 4410
    },
    {
      "epoch": 1.0352533333333334,
      "grad_norm": 0.025276555802474995,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4411
    },
    {
      "epoch": 1.0353066666666666,
      "grad_norm": 0.026404769700472577,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 4412
    },
    {
      "epoch": 1.03536,
      "grad_norm": 0.02636272118449618,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 4413
    },
    {
      "epoch": 1.0354133333333333,
      "grad_norm": 0.02544410829690844,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4414
    },
    {
      "epoch": 1.0354666666666668,
      "grad_norm": 0.0238391877976126,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 4415
    },
    {
      "epoch": 1.03552,
      "grad_norm": 0.027974711173806815,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 4416
    },
    {
      "epoch": 1.0355733333333332,
      "grad_norm": 0.0270989837347207,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 4417
    },
    {
      "epoch": 1.0356266666666667,
      "grad_norm": 0.02555008918054024,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 4418
    },
    {
      "epoch": 1.03568,
      "grad_norm": 0.025744912568249952,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 4419
    },
    {
      "epoch": 1.0357333333333334,
      "grad_norm": 0.025425896519866095,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 4420
    },
    {
      "epoch": 1.0357866666666666,
      "grad_norm": 0.023162149685641748,
      "learning_rate": 0.0001,
      "loss": 0.9136,
      "step": 4421
    },
    {
      "epoch": 1.03584,
      "grad_norm": 0.026213839644814885,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 4422
    },
    {
      "epoch": 1.0358933333333333,
      "grad_norm": 0.024066356112987648,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 4423
    },
    {
      "epoch": 1.0359466666666666,
      "grad_norm": 0.02347285057489438,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 4424
    },
    {
      "epoch": 1.036,
      "grad_norm": 0.023313961231884485,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4425
    },
    {
      "epoch": 1.0360533333333333,
      "grad_norm": 0.024123586953697915,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4426
    },
    {
      "epoch": 1.0361066666666667,
      "grad_norm": 0.024735930442330613,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 4427
    },
    {
      "epoch": 1.03616,
      "grad_norm": 0.024990214156672012,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 4428
    },
    {
      "epoch": 1.0362133333333334,
      "grad_norm": 0.02577260111469301,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 4429
    },
    {
      "epoch": 1.0362666666666667,
      "grad_norm": 0.02532575443472955,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4430
    },
    {
      "epoch": 1.03632,
      "grad_norm": 0.023122510409245314,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 4431
    },
    {
      "epoch": 1.0363733333333334,
      "grad_norm": 0.024866071017654767,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 4432
    },
    {
      "epoch": 1.0364266666666666,
      "grad_norm": 0.023101538386004993,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 4433
    },
    {
      "epoch": 1.03648,
      "grad_norm": 0.024213214148099422,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 4434
    },
    {
      "epoch": 1.0365333333333333,
      "grad_norm": 0.023955866136895963,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4435
    },
    {
      "epoch": 1.0365866666666668,
      "grad_norm": 0.02691565641191495,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 4436
    },
    {
      "epoch": 1.03664,
      "grad_norm": 0.024125860642450623,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 4437
    },
    {
      "epoch": 1.0366933333333332,
      "grad_norm": 0.025236960092368057,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 4438
    },
    {
      "epoch": 1.0367466666666667,
      "grad_norm": 0.024072237589028746,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 4439
    },
    {
      "epoch": 1.0368,
      "grad_norm": 0.02408611059289758,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 4440
    },
    {
      "epoch": 1.0368533333333334,
      "grad_norm": 0.024075662883812056,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 4441
    },
    {
      "epoch": 1.0369066666666666,
      "grad_norm": 0.027080702287202923,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 4442
    },
    {
      "epoch": 1.03696,
      "grad_norm": 0.023619155522881435,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4443
    },
    {
      "epoch": 1.0370133333333333,
      "grad_norm": 0.023587880284994416,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 4444
    },
    {
      "epoch": 1.0370666666666666,
      "grad_norm": 0.025067367082562565,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4445
    },
    {
      "epoch": 1.03712,
      "grad_norm": 0.02817739406678738,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4446
    },
    {
      "epoch": 1.0371733333333333,
      "grad_norm": 0.024489101589444576,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4447
    },
    {
      "epoch": 1.0372266666666667,
      "grad_norm": 0.024294513424600834,
      "learning_rate": 0.0001,
      "loss": 0.91,
      "step": 4448
    },
    {
      "epoch": 1.03728,
      "grad_norm": 0.02478770222471264,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4449
    },
    {
      "epoch": 1.0373333333333334,
      "grad_norm": 0.024451154059373606,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 4450
    },
    {
      "epoch": 1.0373866666666667,
      "grad_norm": 0.02420203351117213,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 4451
    },
    {
      "epoch": 1.03744,
      "grad_norm": 0.025282594045943366,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 4452
    },
    {
      "epoch": 1.0374933333333334,
      "grad_norm": 0.02489921646500652,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 4453
    },
    {
      "epoch": 1.0375466666666666,
      "grad_norm": 0.02480739654250344,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 4454
    },
    {
      "epoch": 1.0376,
      "grad_norm": 0.025569647172893846,
      "learning_rate": 0.0001,
      "loss": 0.9315,
      "step": 4455
    },
    {
      "epoch": 1.0376533333333333,
      "grad_norm": 0.02663170866217121,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 4456
    },
    {
      "epoch": 1.0377066666666668,
      "grad_norm": 0.023481199862477337,
      "learning_rate": 0.0001,
      "loss": 1.0326,
      "step": 4457
    },
    {
      "epoch": 1.03776,
      "grad_norm": 0.025786338837010897,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4458
    },
    {
      "epoch": 1.0378133333333333,
      "grad_norm": 0.025144151538960515,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 4459
    },
    {
      "epoch": 1.0378666666666667,
      "grad_norm": 0.024965583324808104,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 4460
    },
    {
      "epoch": 1.03792,
      "grad_norm": 0.023492374751200515,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 4461
    },
    {
      "epoch": 1.0379733333333334,
      "grad_norm": 0.023979212888402865,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 4462
    },
    {
      "epoch": 1.0380266666666667,
      "grad_norm": 0.026591357140337956,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4463
    },
    {
      "epoch": 1.03808,
      "grad_norm": 0.02607645364605039,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 4464
    },
    {
      "epoch": 1.0381333333333334,
      "grad_norm": 0.02444469568987499,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 4465
    },
    {
      "epoch": 1.0381866666666666,
      "grad_norm": 0.025245895101101236,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 4466
    },
    {
      "epoch": 1.03824,
      "grad_norm": 0.024939180907881185,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4467
    },
    {
      "epoch": 1.0382933333333333,
      "grad_norm": 0.025966268075698757,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 4468
    },
    {
      "epoch": 1.0383466666666668,
      "grad_norm": 0.024337117024424947,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4469
    },
    {
      "epoch": 1.0384,
      "grad_norm": 0.024475508927404112,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 4470
    },
    {
      "epoch": 1.0384533333333332,
      "grad_norm": 0.02614709205103336,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 4471
    },
    {
      "epoch": 1.0385066666666667,
      "grad_norm": 0.02426120113071668,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4472
    },
    {
      "epoch": 1.03856,
      "grad_norm": 0.026300878063701526,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 4473
    },
    {
      "epoch": 1.0386133333333334,
      "grad_norm": 0.025247763767449447,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 4474
    },
    {
      "epoch": 1.0386666666666666,
      "grad_norm": 0.02278396203942889,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 4475
    },
    {
      "epoch": 1.03872,
      "grad_norm": 0.024630879624903696,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 4476
    },
    {
      "epoch": 1.0387733333333333,
      "grad_norm": 0.024963410048783084,
      "learning_rate": 0.0001,
      "loss": 0.9013,
      "step": 4477
    },
    {
      "epoch": 1.0388266666666666,
      "grad_norm": 0.023901081271432742,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 4478
    },
    {
      "epoch": 1.03888,
      "grad_norm": 0.025340266619465476,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 4479
    },
    {
      "epoch": 1.0389333333333333,
      "grad_norm": 0.0245353356806933,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 4480
    },
    {
      "epoch": 1.0389866666666667,
      "grad_norm": 0.03905487242881286,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4481
    },
    {
      "epoch": 1.03904,
      "grad_norm": 0.027193343506409746,
      "learning_rate": 0.0001,
      "loss": 1.0565,
      "step": 4482
    },
    {
      "epoch": 1.0390933333333334,
      "grad_norm": 0.027272960212350327,
      "learning_rate": 0.0001,
      "loss": 0.9064,
      "step": 4483
    },
    {
      "epoch": 1.0391466666666667,
      "grad_norm": 0.0228718200696725,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4484
    },
    {
      "epoch": 1.0392,
      "grad_norm": 0.02683101721383208,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4485
    },
    {
      "epoch": 1.0392533333333334,
      "grad_norm": 0.023974053110856403,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 4486
    },
    {
      "epoch": 1.0393066666666666,
      "grad_norm": 0.02550482353459311,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4487
    },
    {
      "epoch": 1.03936,
      "grad_norm": 0.027987214724039724,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4488
    },
    {
      "epoch": 1.0394133333333333,
      "grad_norm": 0.02400081727067451,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 4489
    },
    {
      "epoch": 1.0394666666666668,
      "grad_norm": 0.027156578774371193,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 4490
    },
    {
      "epoch": 1.03952,
      "grad_norm": 0.02437435696510714,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 4491
    },
    {
      "epoch": 1.0395733333333332,
      "grad_norm": 0.024651744631625203,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 4492
    },
    {
      "epoch": 1.0396266666666667,
      "grad_norm": 0.025072490297579606,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 4493
    },
    {
      "epoch": 1.03968,
      "grad_norm": 0.025607110050825013,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 4494
    },
    {
      "epoch": 1.0397333333333334,
      "grad_norm": 0.027109865722087973,
      "learning_rate": 0.0001,
      "loss": 0.933,
      "step": 4495
    },
    {
      "epoch": 1.0397866666666666,
      "grad_norm": 0.02360725268976757,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 4496
    },
    {
      "epoch": 1.03984,
      "grad_norm": 0.02819133325988624,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 4497
    },
    {
      "epoch": 1.0398933333333333,
      "grad_norm": 0.024789812463013927,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 4498
    },
    {
      "epoch": 1.0399466666666666,
      "grad_norm": 0.024464652674272957,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 4499
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.02596819314543035,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 4500
    },
    {
      "epoch": 1.0400533333333333,
      "grad_norm": 0.024790172482480638,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4501
    },
    {
      "epoch": 1.0401066666666667,
      "grad_norm": 0.026010801235574057,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 4502
    },
    {
      "epoch": 1.04016,
      "grad_norm": 0.02582622327731876,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4503
    },
    {
      "epoch": 1.0402133333333334,
      "grad_norm": 0.026765130068596193,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4504
    },
    {
      "epoch": 1.0402666666666667,
      "grad_norm": 0.025088402752272365,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 4505
    },
    {
      "epoch": 1.04032,
      "grad_norm": 0.027724809343285507,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 4506
    },
    {
      "epoch": 1.0403733333333334,
      "grad_norm": 0.025271051755231574,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 4507
    },
    {
      "epoch": 1.0404266666666666,
      "grad_norm": 0.023736336411044747,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 4508
    },
    {
      "epoch": 1.04048,
      "grad_norm": 0.025632362303793968,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 4509
    },
    {
      "epoch": 1.0405333333333333,
      "grad_norm": 0.028446325731549798,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 4510
    },
    {
      "epoch": 1.0405866666666668,
      "grad_norm": 0.023979329003568743,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 4511
    },
    {
      "epoch": 1.04064,
      "grad_norm": 0.023886036428375744,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 4512
    },
    {
      "epoch": 1.0406933333333332,
      "grad_norm": 0.02451916390541396,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4513
    },
    {
      "epoch": 1.0407466666666667,
      "grad_norm": 0.025049500326144544,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4514
    },
    {
      "epoch": 1.0408,
      "grad_norm": 0.0235203574431286,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 4515
    },
    {
      "epoch": 1.0408533333333334,
      "grad_norm": 0.023897460277742078,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 4516
    },
    {
      "epoch": 1.0409066666666666,
      "grad_norm": 0.023694076091394733,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 4517
    },
    {
      "epoch": 1.04096,
      "grad_norm": 0.023340033290487863,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 4518
    },
    {
      "epoch": 1.0410133333333333,
      "grad_norm": 0.02534117624844101,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4519
    },
    {
      "epoch": 1.0410666666666666,
      "grad_norm": 0.024055934364912848,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 4520
    },
    {
      "epoch": 1.04112,
      "grad_norm": 0.023858028423329024,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4521
    },
    {
      "epoch": 1.0411733333333333,
      "grad_norm": 0.023704208975235917,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 4522
    },
    {
      "epoch": 1.0412266666666667,
      "grad_norm": 0.023070841363613166,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 4523
    },
    {
      "epoch": 1.04128,
      "grad_norm": 0.02406657765301327,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 4524
    },
    {
      "epoch": 1.0413333333333332,
      "grad_norm": 0.02679264341009875,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 4525
    },
    {
      "epoch": 1.0413866666666667,
      "grad_norm": 0.026888432968897626,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 4526
    },
    {
      "epoch": 1.04144,
      "grad_norm": 0.024123607871148648,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4527
    },
    {
      "epoch": 1.0414933333333334,
      "grad_norm": 0.023566369461423764,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 4528
    },
    {
      "epoch": 1.0415466666666666,
      "grad_norm": 0.0239291037045171,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4529
    },
    {
      "epoch": 1.0416,
      "grad_norm": 0.02657468649716144,
      "learning_rate": 0.0001,
      "loss": 1.0369,
      "step": 4530
    },
    {
      "epoch": 1.0416533333333333,
      "grad_norm": 0.023984798780702365,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 4531
    },
    {
      "epoch": 1.0417066666666668,
      "grad_norm": 0.025571757980399394,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 4532
    },
    {
      "epoch": 1.04176,
      "grad_norm": 0.024319106908739677,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 4533
    },
    {
      "epoch": 1.0418133333333333,
      "grad_norm": 0.025544295945672462,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 4534
    },
    {
      "epoch": 1.0418666666666667,
      "grad_norm": 0.024764598668316283,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 4535
    },
    {
      "epoch": 1.04192,
      "grad_norm": 0.024949071258798763,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 4536
    },
    {
      "epoch": 1.0419733333333334,
      "grad_norm": 0.025195932687757133,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 4537
    },
    {
      "epoch": 1.0420266666666667,
      "grad_norm": 0.023269465957548578,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 4538
    },
    {
      "epoch": 1.04208,
      "grad_norm": 0.024410308204329212,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 4539
    },
    {
      "epoch": 1.0421333333333334,
      "grad_norm": 0.02486814927121173,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 4540
    },
    {
      "epoch": 1.0421866666666666,
      "grad_norm": 0.023447112431081666,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 4541
    },
    {
      "epoch": 1.04224,
      "grad_norm": 0.024101005980671768,
      "learning_rate": 0.0001,
      "loss": 0.9285,
      "step": 4542
    },
    {
      "epoch": 1.0422933333333333,
      "grad_norm": 0.02531607311717079,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 4543
    },
    {
      "epoch": 1.0423466666666668,
      "grad_norm": 0.023747713270462767,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4544
    },
    {
      "epoch": 1.0424,
      "grad_norm": 0.025165212436178128,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4545
    },
    {
      "epoch": 1.0424533333333332,
      "grad_norm": 0.02635156888408271,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 4546
    },
    {
      "epoch": 1.0425066666666667,
      "grad_norm": 0.028349284518643388,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 4547
    },
    {
      "epoch": 1.04256,
      "grad_norm": 0.02270046618575519,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 4548
    },
    {
      "epoch": 1.0426133333333334,
      "grad_norm": 0.028260368627069748,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4549
    },
    {
      "epoch": 1.0426666666666666,
      "grad_norm": 0.024667387831793744,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 4550
    },
    {
      "epoch": 1.04272,
      "grad_norm": 0.02788057728319677,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4551
    },
    {
      "epoch": 1.0427733333333333,
      "grad_norm": 0.025483996445298418,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4552
    },
    {
      "epoch": 1.0428266666666666,
      "grad_norm": 0.02475064356816004,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 4553
    },
    {
      "epoch": 1.04288,
      "grad_norm": 0.027401259418959344,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 4554
    },
    {
      "epoch": 1.0429333333333333,
      "grad_norm": 0.026621269842579138,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 4555
    },
    {
      "epoch": 1.0429866666666667,
      "grad_norm": 0.02458399136076081,
      "learning_rate": 0.0001,
      "loss": 0.9976,
      "step": 4556
    },
    {
      "epoch": 1.04304,
      "grad_norm": 0.026338745537164938,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4557
    },
    {
      "epoch": 1.0430933333333334,
      "grad_norm": 0.025430109834033265,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 4558
    },
    {
      "epoch": 1.0431466666666667,
      "grad_norm": 0.025255403879022024,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 4559
    },
    {
      "epoch": 1.0432,
      "grad_norm": 0.025233842263503926,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 4560
    },
    {
      "epoch": 1.0432533333333334,
      "grad_norm": 0.024876465122339098,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 4561
    },
    {
      "epoch": 1.0433066666666666,
      "grad_norm": 0.024806039930383817,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 4562
    },
    {
      "epoch": 1.04336,
      "grad_norm": 0.023970132923629837,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 4563
    },
    {
      "epoch": 1.0434133333333333,
      "grad_norm": 0.024500205477346347,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 4564
    },
    {
      "epoch": 1.0434666666666668,
      "grad_norm": 0.024669780015740963,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 4565
    },
    {
      "epoch": 1.04352,
      "grad_norm": 0.024557306490017708,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 4566
    },
    {
      "epoch": 1.0435733333333332,
      "grad_norm": 0.024950259749004958,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 4567
    },
    {
      "epoch": 1.0436266666666667,
      "grad_norm": 0.025268703090243747,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 4568
    },
    {
      "epoch": 1.04368,
      "grad_norm": 0.0247990589789008,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 4569
    },
    {
      "epoch": 1.0437333333333334,
      "grad_norm": 0.02386040926587902,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 4570
    },
    {
      "epoch": 1.0437866666666666,
      "grad_norm": 0.026379063633156043,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 4571
    },
    {
      "epoch": 1.04384,
      "grad_norm": 0.026545742960822745,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 4572
    },
    {
      "epoch": 1.0438933333333333,
      "grad_norm": 0.026218497734636984,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 4573
    },
    {
      "epoch": 1.0439466666666666,
      "grad_norm": 0.025264386993253708,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 4574
    },
    {
      "epoch": 1.044,
      "grad_norm": 0.023620734562074742,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 4575
    },
    {
      "epoch": 1.0440533333333333,
      "grad_norm": 0.024871791237559334,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 4576
    },
    {
      "epoch": 1.0441066666666667,
      "grad_norm": 0.025300138262202954,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4577
    },
    {
      "epoch": 1.04416,
      "grad_norm": 0.024304350063144003,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 4578
    },
    {
      "epoch": 1.0442133333333334,
      "grad_norm": 0.02620528203138692,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 4579
    },
    {
      "epoch": 1.0442666666666667,
      "grad_norm": 0.025090013818155617,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 4580
    },
    {
      "epoch": 1.04432,
      "grad_norm": 0.022617785374904793,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4581
    },
    {
      "epoch": 1.0443733333333334,
      "grad_norm": 0.024596435654643985,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 4582
    },
    {
      "epoch": 1.0444266666666666,
      "grad_norm": 0.024245083502844034,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 4583
    },
    {
      "epoch": 1.04448,
      "grad_norm": 0.024484664085861235,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 4584
    },
    {
      "epoch": 1.0445333333333333,
      "grad_norm": 0.024633959458881256,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 4585
    },
    {
      "epoch": 1.0445866666666666,
      "grad_norm": 0.024255926370469263,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 4586
    },
    {
      "epoch": 1.04464,
      "grad_norm": 0.023663578414773977,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 4587
    },
    {
      "epoch": 1.0446933333333333,
      "grad_norm": 0.02391667239138612,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 4588
    },
    {
      "epoch": 1.0447466666666667,
      "grad_norm": 0.02553877713252693,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 4589
    },
    {
      "epoch": 1.0448,
      "grad_norm": 0.026338493283970737,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 4590
    },
    {
      "epoch": 1.0448533333333334,
      "grad_norm": 0.02440962132157381,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 4591
    },
    {
      "epoch": 1.0449066666666667,
      "grad_norm": 0.024677437151617333,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4592
    },
    {
      "epoch": 1.04496,
      "grad_norm": 0.02347156646884193,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 4593
    },
    {
      "epoch": 1.0450133333333333,
      "grad_norm": 0.025245762371635193,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 4594
    },
    {
      "epoch": 1.0450666666666666,
      "grad_norm": 0.02465998230513875,
      "learning_rate": 0.0001,
      "loss": 1.0205,
      "step": 4595
    },
    {
      "epoch": 1.04512,
      "grad_norm": 0.027332140462820446,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 4596
    },
    {
      "epoch": 1.0451733333333333,
      "grad_norm": 0.024268685581193893,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 4597
    },
    {
      "epoch": 1.0452266666666667,
      "grad_norm": 0.024051700629198394,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 4598
    },
    {
      "epoch": 1.04528,
      "grad_norm": 0.024203817562597943,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4599
    },
    {
      "epoch": 1.0453333333333332,
      "grad_norm": 0.022789101415309543,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 4600
    },
    {
      "epoch": 1.0453333333333332,
      "eval_accuracy": 0.6168919761173935,
      "eval_loss": 1.3724803924560547,
      "eval_runtime": 62.4718,
      "eval_samples_per_second": 16.007,
      "eval_steps_per_second": 0.512,
      "step": 4600
    },
    {
      "epoch": 1.0453866666666667,
      "grad_norm": 0.025426405280464047,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 4601
    },
    {
      "epoch": 1.04544,
      "grad_norm": 0.023430924704057603,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 4602
    },
    {
      "epoch": 1.0454933333333334,
      "grad_norm": 0.022816565210101863,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4603
    },
    {
      "epoch": 1.0455466666666666,
      "grad_norm": 0.02465880437511415,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 4604
    },
    {
      "epoch": 1.0456,
      "grad_norm": 0.02456890885510141,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4605
    },
    {
      "epoch": 1.0456533333333333,
      "grad_norm": 0.023385175068900907,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 4606
    },
    {
      "epoch": 1.0457066666666666,
      "grad_norm": 0.026229503702818267,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4607
    },
    {
      "epoch": 1.04576,
      "grad_norm": 0.026767626769473477,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4608
    },
    {
      "epoch": 1.0458133333333333,
      "grad_norm": 0.025512086967688287,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 4609
    },
    {
      "epoch": 1.0458666666666667,
      "grad_norm": 0.026087742054467556,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 4610
    },
    {
      "epoch": 1.04592,
      "grad_norm": 0.022996540436250233,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 4611
    },
    {
      "epoch": 1.0459733333333334,
      "grad_norm": 0.024527010675760127,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4612
    },
    {
      "epoch": 1.0460266666666667,
      "grad_norm": 0.024438653360109676,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 4613
    },
    {
      "epoch": 1.04608,
      "grad_norm": 0.02831404890155385,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4614
    },
    {
      "epoch": 1.0461333333333334,
      "grad_norm": 0.02728298868478119,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 4615
    },
    {
      "epoch": 1.0461866666666666,
      "grad_norm": 0.02387853321245983,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 4616
    },
    {
      "epoch": 1.04624,
      "grad_norm": 0.024428413180684085,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4617
    },
    {
      "epoch": 1.0462933333333333,
      "grad_norm": 0.02474849073011206,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 4618
    },
    {
      "epoch": 1.0463466666666668,
      "grad_norm": 0.02442382011533083,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 4619
    },
    {
      "epoch": 1.0464,
      "grad_norm": 0.024995037357289817,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 4620
    },
    {
      "epoch": 1.0464533333333332,
      "grad_norm": 0.024898148606462254,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 4621
    },
    {
      "epoch": 1.0465066666666667,
      "grad_norm": 0.023587918492046295,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4622
    },
    {
      "epoch": 1.04656,
      "grad_norm": 0.02492636059938225,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 4623
    },
    {
      "epoch": 1.0466133333333334,
      "grad_norm": 0.025238711538063462,
      "learning_rate": 0.0001,
      "loss": 0.929,
      "step": 4624
    },
    {
      "epoch": 1.0466666666666666,
      "grad_norm": 0.023994586375122185,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4625
    },
    {
      "epoch": 1.04672,
      "grad_norm": 0.025132529345868574,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 4626
    },
    {
      "epoch": 1.0467733333333333,
      "grad_norm": 0.02814688002081715,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 4627
    },
    {
      "epoch": 1.0468266666666666,
      "grad_norm": 0.025783114961229977,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 4628
    },
    {
      "epoch": 1.04688,
      "grad_norm": 0.024277570726444632,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 4629
    },
    {
      "epoch": 1.0469333333333333,
      "grad_norm": 0.025274461360368653,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 4630
    },
    {
      "epoch": 1.0469866666666667,
      "grad_norm": 0.025831444594482784,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 4631
    },
    {
      "epoch": 1.04704,
      "grad_norm": 0.02296292661328548,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 4632
    },
    {
      "epoch": 1.0470933333333334,
      "grad_norm": 0.025490667533507563,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 4633
    },
    {
      "epoch": 1.0471466666666667,
      "grad_norm": 0.0260676690272804,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 4634
    },
    {
      "epoch": 1.0472,
      "grad_norm": 0.024536959760065764,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 4635
    },
    {
      "epoch": 1.0472533333333334,
      "grad_norm": 0.025145931046813667,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4636
    },
    {
      "epoch": 1.0473066666666666,
      "grad_norm": 0.023973236751558248,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 4637
    },
    {
      "epoch": 1.04736,
      "grad_norm": 0.024187041045529677,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 4638
    },
    {
      "epoch": 1.0474133333333333,
      "grad_norm": 0.024299650222289183,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 4639
    },
    {
      "epoch": 1.0474666666666668,
      "grad_norm": 0.024286477514761214,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 4640
    },
    {
      "epoch": 1.04752,
      "grad_norm": 0.025598246557793202,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 4641
    },
    {
      "epoch": 1.0475733333333332,
      "grad_norm": 0.023133879623416283,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 4642
    },
    {
      "epoch": 1.0476266666666667,
      "grad_norm": 0.02413981692828351,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4643
    },
    {
      "epoch": 1.04768,
      "grad_norm": 0.02572896873505987,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 4644
    },
    {
      "epoch": 1.0477333333333334,
      "grad_norm": 0.024957456118566177,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 4645
    },
    {
      "epoch": 1.0477866666666666,
      "grad_norm": 0.025207633268940863,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4646
    },
    {
      "epoch": 1.04784,
      "grad_norm": 0.024105884566740066,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 4647
    },
    {
      "epoch": 1.0478933333333333,
      "grad_norm": 0.025381432148465062,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4648
    },
    {
      "epoch": 1.0479466666666666,
      "grad_norm": 0.02397292227056436,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 4649
    },
    {
      "epoch": 1.048,
      "grad_norm": 0.023355107756818844,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 4650
    },
    {
      "epoch": 1.0480533333333333,
      "grad_norm": 0.026222554466286043,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 4651
    },
    {
      "epoch": 1.0481066666666667,
      "grad_norm": 0.0248556311050615,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 4652
    },
    {
      "epoch": 1.04816,
      "grad_norm": 0.023490318614393917,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4653
    },
    {
      "epoch": 1.0482133333333334,
      "grad_norm": 0.02522146180436512,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 4654
    },
    {
      "epoch": 1.0482666666666667,
      "grad_norm": 0.02433549936339459,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 4655
    },
    {
      "epoch": 1.04832,
      "grad_norm": 0.025871358118956547,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 4656
    },
    {
      "epoch": 1.0483733333333334,
      "grad_norm": 0.02319385270310378,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 4657
    },
    {
      "epoch": 1.0484266666666666,
      "grad_norm": 0.022662541681987895,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 4658
    },
    {
      "epoch": 1.04848,
      "grad_norm": 0.02500208267473639,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4659
    },
    {
      "epoch": 1.0485333333333333,
      "grad_norm": 0.024200757010987672,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 4660
    },
    {
      "epoch": 1.0485866666666666,
      "grad_norm": 0.024205550928579095,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 4661
    },
    {
      "epoch": 1.04864,
      "grad_norm": 0.02327440739511144,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 4662
    },
    {
      "epoch": 1.0486933333333333,
      "grad_norm": 0.02319673242128205,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 4663
    },
    {
      "epoch": 1.0487466666666667,
      "grad_norm": 0.02373375386211413,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 4664
    },
    {
      "epoch": 1.0488,
      "grad_norm": 0.02678946417643041,
      "learning_rate": 0.0001,
      "loss": 0.8902,
      "step": 4665
    },
    {
      "epoch": 1.0488533333333334,
      "grad_norm": 0.025263962682654947,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 4666
    },
    {
      "epoch": 1.0489066666666667,
      "grad_norm": 0.023532354151708974,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 4667
    },
    {
      "epoch": 1.04896,
      "grad_norm": 0.026543268363293453,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 4668
    },
    {
      "epoch": 1.0490133333333334,
      "grad_norm": 0.02603136074760292,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 4669
    },
    {
      "epoch": 1.0490666666666666,
      "grad_norm": 0.024071611336666136,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 4670
    },
    {
      "epoch": 1.04912,
      "grad_norm": 0.027084858376106438,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 4671
    },
    {
      "epoch": 1.0491733333333333,
      "grad_norm": 0.025885795029240845,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 4672
    },
    {
      "epoch": 1.0492266666666668,
      "grad_norm": 0.024085732544912936,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 4673
    },
    {
      "epoch": 1.04928,
      "grad_norm": 0.025594899978931697,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 4674
    },
    {
      "epoch": 1.0493333333333332,
      "grad_norm": 0.02408576316934152,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 4675
    },
    {
      "epoch": 1.0493866666666667,
      "grad_norm": 0.02596881503248052,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 4676
    },
    {
      "epoch": 1.04944,
      "grad_norm": 0.025064644553687326,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 4677
    },
    {
      "epoch": 1.0494933333333334,
      "grad_norm": 0.02507645760973957,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 4678
    },
    {
      "epoch": 1.0495466666666666,
      "grad_norm": 0.0254080290813533,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 4679
    },
    {
      "epoch": 1.0496,
      "grad_norm": 0.02277140290581303,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4680
    },
    {
      "epoch": 1.0496533333333333,
      "grad_norm": 0.024275806955961814,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 4681
    },
    {
      "epoch": 1.0497066666666666,
      "grad_norm": 0.024259506763314707,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 4682
    },
    {
      "epoch": 1.04976,
      "grad_norm": 0.024525033795932776,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4683
    },
    {
      "epoch": 1.0498133333333333,
      "grad_norm": 0.026077750309968745,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 4684
    },
    {
      "epoch": 1.0498666666666667,
      "grad_norm": 0.025398725611135143,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 4685
    },
    {
      "epoch": 1.04992,
      "grad_norm": 0.025389648060087967,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 4686
    },
    {
      "epoch": 1.0499733333333334,
      "grad_norm": 0.02290345949458434,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 4687
    },
    {
      "epoch": 1.0500266666666667,
      "grad_norm": 0.02369011771074451,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 4688
    },
    {
      "epoch": 1.05008,
      "grad_norm": 0.023638552652013086,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 4689
    },
    {
      "epoch": 1.0501333333333334,
      "grad_norm": 0.023098009057421084,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 4690
    },
    {
      "epoch": 1.0501866666666666,
      "grad_norm": 0.02559601956104272,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 4691
    },
    {
      "epoch": 1.05024,
      "grad_norm": 0.024011492091222237,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4692
    },
    {
      "epoch": 1.0502933333333333,
      "grad_norm": 0.02523173407832122,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4693
    },
    {
      "epoch": 1.0503466666666668,
      "grad_norm": 0.0235163667690614,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 4694
    },
    {
      "epoch": 1.0504,
      "grad_norm": 0.023343424012841816,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 4695
    },
    {
      "epoch": 1.0504533333333332,
      "grad_norm": 0.02426859596955542,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4696
    },
    {
      "epoch": 1.0505066666666667,
      "grad_norm": 0.024317003004787233,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4697
    },
    {
      "epoch": 1.05056,
      "grad_norm": 0.024680464935016147,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4698
    },
    {
      "epoch": 1.0506133333333334,
      "grad_norm": 0.026992369703224658,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 4699
    },
    {
      "epoch": 1.0506666666666666,
      "grad_norm": 0.02516290016408624,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 4700
    },
    {
      "epoch": 1.05072,
      "grad_norm": 0.023937696104451178,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 4701
    },
    {
      "epoch": 1.0507733333333333,
      "grad_norm": 0.024982838259031585,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4702
    },
    {
      "epoch": 1.0508266666666666,
      "grad_norm": 0.026087653021307864,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 4703
    },
    {
      "epoch": 1.05088,
      "grad_norm": 0.023228986472867034,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 4704
    },
    {
      "epoch": 1.0509333333333333,
      "grad_norm": 0.023182605671037266,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 4705
    },
    {
      "epoch": 1.0509866666666667,
      "grad_norm": 0.02400882366152043,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4706
    },
    {
      "epoch": 1.05104,
      "grad_norm": 0.025267314377974845,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 4707
    },
    {
      "epoch": 1.0510933333333334,
      "grad_norm": 0.02529848855131258,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 4708
    },
    {
      "epoch": 1.0511466666666667,
      "grad_norm": 0.024267247425655655,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 4709
    },
    {
      "epoch": 1.0512,
      "grad_norm": 0.023757053037638715,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4710
    },
    {
      "epoch": 1.0512533333333334,
      "grad_norm": 0.024442467712321312,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 4711
    },
    {
      "epoch": 1.0513066666666666,
      "grad_norm": 0.026054048999075523,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4712
    },
    {
      "epoch": 1.05136,
      "grad_norm": 0.02508502672005415,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 4713
    },
    {
      "epoch": 1.0514133333333333,
      "grad_norm": 0.025382109307611866,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 4714
    },
    {
      "epoch": 1.0514666666666668,
      "grad_norm": 0.022946217889120168,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 4715
    },
    {
      "epoch": 1.05152,
      "grad_norm": 0.023486731469221176,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 4716
    },
    {
      "epoch": 1.0515733333333332,
      "grad_norm": 0.025396392421213762,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 4717
    },
    {
      "epoch": 1.0516266666666667,
      "grad_norm": 0.024446079832931122,
      "learning_rate": 0.0001,
      "loss": 0.935,
      "step": 4718
    },
    {
      "epoch": 1.05168,
      "grad_norm": 0.02716059707943564,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 4719
    },
    {
      "epoch": 1.0517333333333334,
      "grad_norm": 0.027149818245267753,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 4720
    },
    {
      "epoch": 1.0517866666666666,
      "grad_norm": 0.025413537391659077,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 4721
    },
    {
      "epoch": 1.0518399999999999,
      "grad_norm": 0.027216648163904372,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 4722
    },
    {
      "epoch": 1.0518933333333333,
      "grad_norm": 0.02833249830023696,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 4723
    },
    {
      "epoch": 1.0519466666666666,
      "grad_norm": 0.02389817063370327,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "step": 4724
    },
    {
      "epoch": 1.052,
      "grad_norm": 0.024372944611794622,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 4725
    },
    {
      "epoch": 1.0520533333333333,
      "grad_norm": 0.0253043480323509,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 4726
    },
    {
      "epoch": 1.0521066666666667,
      "grad_norm": 0.023592638144693534,
      "learning_rate": 0.0001,
      "loss": 1.034,
      "step": 4727
    },
    {
      "epoch": 1.05216,
      "grad_norm": 0.023878842938323867,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 4728
    },
    {
      "epoch": 1.0522133333333334,
      "grad_norm": 0.024694920064544688,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4729
    },
    {
      "epoch": 1.0522666666666667,
      "grad_norm": 0.027341694461267867,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 4730
    },
    {
      "epoch": 1.05232,
      "grad_norm": 0.026233160776578213,
      "learning_rate": 0.0001,
      "loss": 0.9976,
      "step": 4731
    },
    {
      "epoch": 1.0523733333333334,
      "grad_norm": 0.024306517931620135,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 4732
    },
    {
      "epoch": 1.0524266666666666,
      "grad_norm": 0.02577972786351958,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 4733
    },
    {
      "epoch": 1.05248,
      "grad_norm": 0.023762408670285427,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 4734
    },
    {
      "epoch": 1.0525333333333333,
      "grad_norm": 0.02529103549462369,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 4735
    },
    {
      "epoch": 1.0525866666666666,
      "grad_norm": 0.02725387408063873,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 4736
    },
    {
      "epoch": 1.05264,
      "grad_norm": 0.02340262286115906,
      "learning_rate": 0.0001,
      "loss": 0.8964,
      "step": 4737
    },
    {
      "epoch": 1.0526933333333333,
      "grad_norm": 0.022991707239486365,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4738
    },
    {
      "epoch": 1.0527466666666667,
      "grad_norm": 0.024666889670957107,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4739
    },
    {
      "epoch": 1.0528,
      "grad_norm": 0.023947209915774117,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4740
    },
    {
      "epoch": 1.0528533333333334,
      "grad_norm": 0.024420193387915047,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 4741
    },
    {
      "epoch": 1.0529066666666667,
      "grad_norm": 0.023158872023968578,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 4742
    },
    {
      "epoch": 1.05296,
      "grad_norm": 0.024223283784292046,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 4743
    },
    {
      "epoch": 1.0530133333333334,
      "grad_norm": 0.02519617759953437,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 4744
    },
    {
      "epoch": 1.0530666666666666,
      "grad_norm": 0.025201065908705,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 4745
    },
    {
      "epoch": 1.05312,
      "grad_norm": 0.02471435981365926,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 4746
    },
    {
      "epoch": 1.0531733333333333,
      "grad_norm": 0.027279709989275435,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 4747
    },
    {
      "epoch": 1.0532266666666668,
      "grad_norm": 0.024108083349785654,
      "learning_rate": 0.0001,
      "loss": 0.9004,
      "step": 4748
    },
    {
      "epoch": 1.05328,
      "grad_norm": 0.02436856759997679,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4749
    },
    {
      "epoch": 1.0533333333333332,
      "grad_norm": 0.02490613891748446,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 4750
    },
    {
      "epoch": 1.0533866666666667,
      "grad_norm": 0.024140907362805872,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4751
    },
    {
      "epoch": 1.05344,
      "grad_norm": 0.02434468935990051,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 4752
    },
    {
      "epoch": 1.0534933333333334,
      "grad_norm": 0.026002337935707626,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4753
    },
    {
      "epoch": 1.0535466666666666,
      "grad_norm": 0.025156107415004507,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 4754
    },
    {
      "epoch": 1.0536,
      "grad_norm": 0.02179585925481409,
      "learning_rate": 0.0001,
      "loss": 0.9269,
      "step": 4755
    },
    {
      "epoch": 1.0536533333333333,
      "grad_norm": 0.024771262690299414,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4756
    },
    {
      "epoch": 1.0537066666666666,
      "grad_norm": 0.024628116186455766,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 4757
    },
    {
      "epoch": 1.05376,
      "grad_norm": 0.02560727135015384,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 4758
    },
    {
      "epoch": 1.0538133333333333,
      "grad_norm": 0.024911337559386595,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 4759
    },
    {
      "epoch": 1.0538666666666667,
      "grad_norm": 0.028094881156318665,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 4760
    },
    {
      "epoch": 1.05392,
      "grad_norm": 0.024795785855194263,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4761
    },
    {
      "epoch": 1.0539733333333334,
      "grad_norm": 0.02320074939936041,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 4762
    },
    {
      "epoch": 1.0540266666666667,
      "grad_norm": 0.02352894049758101,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 4763
    },
    {
      "epoch": 1.05408,
      "grad_norm": 0.025881731847319487,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4764
    },
    {
      "epoch": 1.0541333333333334,
      "grad_norm": 0.022759440813622824,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 4765
    },
    {
      "epoch": 1.0541866666666666,
      "grad_norm": 0.023432384079890903,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 4766
    },
    {
      "epoch": 1.05424,
      "grad_norm": 0.02313689827042643,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 4767
    },
    {
      "epoch": 1.0542933333333333,
      "grad_norm": 0.022446592373461888,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 4768
    },
    {
      "epoch": 1.0543466666666668,
      "grad_norm": 0.023104755797542786,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 4769
    },
    {
      "epoch": 1.0544,
      "grad_norm": 0.02378986844940752,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 4770
    },
    {
      "epoch": 1.0544533333333332,
      "grad_norm": 0.024222456943824765,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 4771
    },
    {
      "epoch": 1.0545066666666667,
      "grad_norm": 0.025904977880058407,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4772
    },
    {
      "epoch": 1.05456,
      "grad_norm": 0.02408214300909404,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4773
    },
    {
      "epoch": 1.0546133333333334,
      "grad_norm": 0.02480187495828394,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 4774
    },
    {
      "epoch": 1.0546666666666666,
      "grad_norm": 0.024735254003180426,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 4775
    },
    {
      "epoch": 1.05472,
      "grad_norm": 0.02628455547491412,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4776
    },
    {
      "epoch": 1.0547733333333333,
      "grad_norm": 0.023719166100101118,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 4777
    },
    {
      "epoch": 1.0548266666666666,
      "grad_norm": 0.026068347263430817,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4778
    },
    {
      "epoch": 1.05488,
      "grad_norm": 0.02579521644370088,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4779
    },
    {
      "epoch": 1.0549333333333333,
      "grad_norm": 0.025474412382096582,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 4780
    },
    {
      "epoch": 1.0549866666666667,
      "grad_norm": 0.026019660578897943,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 4781
    },
    {
      "epoch": 1.05504,
      "grad_norm": 0.024253078162124058,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4782
    },
    {
      "epoch": 1.0550933333333334,
      "grad_norm": 0.02608414091952744,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 4783
    },
    {
      "epoch": 1.0551466666666667,
      "grad_norm": 0.024128607616445977,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4784
    },
    {
      "epoch": 1.0552,
      "grad_norm": 0.026736727640886315,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 4785
    },
    {
      "epoch": 1.0552533333333334,
      "grad_norm": 0.024704712425574135,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4786
    },
    {
      "epoch": 1.0553066666666666,
      "grad_norm": 0.02316080812099747,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 4787
    },
    {
      "epoch": 1.05536,
      "grad_norm": 0.024115693255545072,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 4788
    },
    {
      "epoch": 1.0554133333333333,
      "grad_norm": 0.024895573885009865,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4789
    },
    {
      "epoch": 1.0554666666666668,
      "grad_norm": 0.024334086925981057,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 4790
    },
    {
      "epoch": 1.05552,
      "grad_norm": 0.024461719647723236,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 4791
    },
    {
      "epoch": 1.0555733333333333,
      "grad_norm": 0.024733055083299288,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 4792
    },
    {
      "epoch": 1.0556266666666667,
      "grad_norm": 0.02371365591847987,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 4793
    },
    {
      "epoch": 1.05568,
      "grad_norm": 0.02599137009003277,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 4794
    },
    {
      "epoch": 1.0557333333333334,
      "grad_norm": 0.02434039128505891,
      "learning_rate": 0.0001,
      "loss": 1.0578,
      "step": 4795
    },
    {
      "epoch": 1.0557866666666667,
      "grad_norm": 0.024058652897110778,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 4796
    },
    {
      "epoch": 1.05584,
      "grad_norm": 0.023740247289025643,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 4797
    },
    {
      "epoch": 1.0558933333333334,
      "grad_norm": 0.023374248607942266,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 4798
    },
    {
      "epoch": 1.0559466666666666,
      "grad_norm": 0.025190827014508234,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 4799
    },
    {
      "epoch": 1.056,
      "grad_norm": 0.023081424480643178,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 4800
    },
    {
      "epoch": 1.056,
      "eval_accuracy": 0.6171024261147099,
      "eval_loss": 1.3713281154632568,
      "eval_runtime": 64.5575,
      "eval_samples_per_second": 15.49,
      "eval_steps_per_second": 0.496,
      "step": 4800
    },
    {
      "epoch": 1.0560533333333333,
      "grad_norm": 0.023322216528064883,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 4801
    },
    {
      "epoch": 1.0561066666666667,
      "grad_norm": 0.023096628807284806,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 4802
    },
    {
      "epoch": 1.05616,
      "grad_norm": 0.024258507624169125,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4803
    },
    {
      "epoch": 1.0562133333333332,
      "grad_norm": 0.028087819007638504,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 4804
    },
    {
      "epoch": 1.0562666666666667,
      "grad_norm": 0.024364292126846918,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 4805
    },
    {
      "epoch": 1.05632,
      "grad_norm": 0.02256315846002461,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 4806
    },
    {
      "epoch": 1.0563733333333334,
      "grad_norm": 0.023708067032248616,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 4807
    },
    {
      "epoch": 1.0564266666666666,
      "grad_norm": 0.02471435505817875,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 4808
    },
    {
      "epoch": 1.05648,
      "grad_norm": 0.02476729977262304,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 4809
    },
    {
      "epoch": 1.0565333333333333,
      "grad_norm": 0.024448242090966372,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 4810
    },
    {
      "epoch": 1.0565866666666666,
      "grad_norm": 0.02449768685429772,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4811
    },
    {
      "epoch": 1.05664,
      "grad_norm": 0.02388847676439954,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 4812
    },
    {
      "epoch": 1.0566933333333333,
      "grad_norm": 0.023559809516769666,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4813
    },
    {
      "epoch": 1.0567466666666667,
      "grad_norm": 0.02637612235999192,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 4814
    },
    {
      "epoch": 1.0568,
      "grad_norm": 0.026604935398791694,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 4815
    },
    {
      "epoch": 1.0568533333333334,
      "grad_norm": 0.02384979265549891,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 4816
    },
    {
      "epoch": 1.0569066666666667,
      "grad_norm": 0.024954184555619614,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 4817
    },
    {
      "epoch": 1.05696,
      "grad_norm": 0.026899817864369895,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 4818
    },
    {
      "epoch": 1.0570133333333334,
      "grad_norm": 0.02387329312162129,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4819
    },
    {
      "epoch": 1.0570666666666666,
      "grad_norm": 0.02549431768714692,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 4820
    },
    {
      "epoch": 1.05712,
      "grad_norm": 0.027426446508603056,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 4821
    },
    {
      "epoch": 1.0571733333333333,
      "grad_norm": 0.025360945825883205,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 4822
    },
    {
      "epoch": 1.0572266666666668,
      "grad_norm": 0.024402105369133176,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 4823
    },
    {
      "epoch": 1.05728,
      "grad_norm": 0.024295101142680266,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 4824
    },
    {
      "epoch": 1.0573333333333332,
      "grad_norm": 0.027475066064221655,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 4825
    },
    {
      "epoch": 1.0573866666666667,
      "grad_norm": 0.024506462904969974,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4826
    },
    {
      "epoch": 1.05744,
      "grad_norm": 0.024944294963161272,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 4827
    },
    {
      "epoch": 1.0574933333333334,
      "grad_norm": 0.025003044416486618,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 4828
    },
    {
      "epoch": 1.0575466666666666,
      "grad_norm": 0.02451964226483687,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4829
    },
    {
      "epoch": 1.0576,
      "grad_norm": 0.022437014707646755,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 4830
    },
    {
      "epoch": 1.0576533333333333,
      "grad_norm": 0.02380045730611252,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 4831
    },
    {
      "epoch": 1.0577066666666666,
      "grad_norm": 0.025075358434762773,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 4832
    },
    {
      "epoch": 1.05776,
      "grad_norm": 0.02408275305104693,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 4833
    },
    {
      "epoch": 1.0578133333333333,
      "grad_norm": 0.026149209632931034,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 4834
    },
    {
      "epoch": 1.0578666666666667,
      "grad_norm": 0.025185366483144223,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4835
    },
    {
      "epoch": 1.05792,
      "grad_norm": 0.026692362419287952,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 4836
    },
    {
      "epoch": 1.0579733333333334,
      "grad_norm": 0.024542426382422988,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 4837
    },
    {
      "epoch": 1.0580266666666667,
      "grad_norm": 0.02297299831351754,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 4838
    },
    {
      "epoch": 1.05808,
      "grad_norm": 0.024590822611738384,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 4839
    },
    {
      "epoch": 1.0581333333333334,
      "grad_norm": 0.02453145346777236,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 4840
    },
    {
      "epoch": 1.0581866666666666,
      "grad_norm": 0.023523175453830564,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 4841
    },
    {
      "epoch": 1.05824,
      "grad_norm": 0.023688288972101512,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 4842
    },
    {
      "epoch": 1.0582933333333333,
      "grad_norm": 0.027060455651438876,
      "learning_rate": 0.0001,
      "loss": 0.9102,
      "step": 4843
    },
    {
      "epoch": 1.0583466666666668,
      "grad_norm": 0.022292629470320804,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 4844
    },
    {
      "epoch": 1.0584,
      "grad_norm": 0.025829694033084903,
      "learning_rate": 0.0001,
      "loss": 1.0635,
      "step": 4845
    },
    {
      "epoch": 1.0584533333333332,
      "grad_norm": 0.023220213440288063,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 4846
    },
    {
      "epoch": 1.0585066666666667,
      "grad_norm": 0.02461362095381411,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 4847
    },
    {
      "epoch": 1.05856,
      "grad_norm": 0.02571957726095546,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 4848
    },
    {
      "epoch": 1.0586133333333334,
      "grad_norm": 0.024856333672900268,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4849
    },
    {
      "epoch": 1.0586666666666666,
      "grad_norm": 0.024641360270983466,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4850
    },
    {
      "epoch": 1.05872,
      "grad_norm": 0.026397352525121848,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4851
    },
    {
      "epoch": 1.0587733333333333,
      "grad_norm": 0.023799455860489052,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4852
    },
    {
      "epoch": 1.0588266666666666,
      "grad_norm": 0.026006505830811207,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 4853
    },
    {
      "epoch": 1.05888,
      "grad_norm": 0.027630058934772897,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4854
    },
    {
      "epoch": 1.0589333333333333,
      "grad_norm": 0.024302949787246682,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4855
    },
    {
      "epoch": 1.0589866666666667,
      "grad_norm": 0.02886113305459238,
      "learning_rate": 0.0001,
      "loss": 1.0538,
      "step": 4856
    },
    {
      "epoch": 1.05904,
      "grad_norm": 0.024739117621421662,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 4857
    },
    {
      "epoch": 1.0590933333333332,
      "grad_norm": 0.024786649331808838,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 4858
    },
    {
      "epoch": 1.0591466666666667,
      "grad_norm": 0.026519273321292103,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4859
    },
    {
      "epoch": 1.0592,
      "grad_norm": 0.02433566314560404,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 4860
    },
    {
      "epoch": 1.0592533333333334,
      "grad_norm": 0.02529225513782885,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 4861
    },
    {
      "epoch": 1.0593066666666666,
      "grad_norm": 0.02456726977357249,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 4862
    },
    {
      "epoch": 1.05936,
      "grad_norm": 0.024221570703024737,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4863
    },
    {
      "epoch": 1.0594133333333333,
      "grad_norm": 0.026287656503495183,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 4864
    },
    {
      "epoch": 1.0594666666666668,
      "grad_norm": 0.025845055938059882,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 4865
    },
    {
      "epoch": 1.05952,
      "grad_norm": 0.025759720436286906,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 4866
    },
    {
      "epoch": 1.0595733333333333,
      "grad_norm": 0.02528548313242583,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 4867
    },
    {
      "epoch": 1.0596266666666667,
      "grad_norm": 0.02361053137140842,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 4868
    },
    {
      "epoch": 1.05968,
      "grad_norm": 0.023609214144915163,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 4869
    },
    {
      "epoch": 1.0597333333333334,
      "grad_norm": 0.025088717056987165,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 4870
    },
    {
      "epoch": 1.0597866666666667,
      "grad_norm": 0.024316097788486354,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 4871
    },
    {
      "epoch": 1.05984,
      "grad_norm": 0.024775844242899723,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 4872
    },
    {
      "epoch": 1.0598933333333334,
      "grad_norm": 0.024866966932400567,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4873
    },
    {
      "epoch": 1.0599466666666666,
      "grad_norm": 0.022340051009721362,
      "learning_rate": 0.0001,
      "loss": 0.9131,
      "step": 4874
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.02431910272050786,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 4875
    },
    {
      "epoch": 1.0600533333333333,
      "grad_norm": 0.024116739686111045,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 4876
    },
    {
      "epoch": 1.0601066666666668,
      "grad_norm": 0.0241387444331789,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 4877
    },
    {
      "epoch": 1.06016,
      "grad_norm": 0.0272632744755394,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 4878
    },
    {
      "epoch": 1.0602133333333332,
      "grad_norm": 0.025285167694382635,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4879
    },
    {
      "epoch": 1.0602666666666667,
      "grad_norm": 0.023172812901668463,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 4880
    },
    {
      "epoch": 1.06032,
      "grad_norm": 0.023441446702821736,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 4881
    },
    {
      "epoch": 1.0603733333333334,
      "grad_norm": 0.02377476060832486,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4882
    },
    {
      "epoch": 1.0604266666666666,
      "grad_norm": 0.02398777650842502,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 4883
    },
    {
      "epoch": 1.06048,
      "grad_norm": 0.02435992436985233,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 4884
    },
    {
      "epoch": 1.0605333333333333,
      "grad_norm": 0.025434486946092863,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 4885
    },
    {
      "epoch": 1.0605866666666666,
      "grad_norm": 0.023524741258548167,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 4886
    },
    {
      "epoch": 1.06064,
      "grad_norm": 0.025629724874482857,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 4887
    },
    {
      "epoch": 1.0606933333333333,
      "grad_norm": 0.026324933275282753,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 4888
    },
    {
      "epoch": 1.0607466666666667,
      "grad_norm": 0.023727669739780903,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 4889
    },
    {
      "epoch": 1.0608,
      "grad_norm": 0.025823668995257346,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 4890
    },
    {
      "epoch": 1.0608533333333334,
      "grad_norm": 0.024315524233024192,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 4891
    },
    {
      "epoch": 1.0609066666666667,
      "grad_norm": 0.023681265915974154,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 4892
    },
    {
      "epoch": 1.06096,
      "grad_norm": 0.02395513523296695,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 4893
    },
    {
      "epoch": 1.0610133333333334,
      "grad_norm": 0.026609505761921576,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 4894
    },
    {
      "epoch": 1.0610666666666666,
      "grad_norm": 0.025593379861156278,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 4895
    },
    {
      "epoch": 1.06112,
      "grad_norm": 0.02293802855032892,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 4896
    },
    {
      "epoch": 1.0611733333333333,
      "grad_norm": 0.026395495192433234,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4897
    },
    {
      "epoch": 1.0612266666666668,
      "grad_norm": 0.024151411141585685,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 4898
    },
    {
      "epoch": 1.06128,
      "grad_norm": 0.023557733809898843,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 4899
    },
    {
      "epoch": 1.0613333333333332,
      "grad_norm": 0.024788424307143345,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 4900
    },
    {
      "epoch": 1.0613866666666667,
      "grad_norm": 0.024912436778859903,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 4901
    },
    {
      "epoch": 1.06144,
      "grad_norm": 0.024301249607613346,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4902
    },
    {
      "epoch": 1.0614933333333334,
      "grad_norm": 0.025093007630074993,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 4903
    },
    {
      "epoch": 1.0615466666666666,
      "grad_norm": 0.025162600978942143,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 4904
    },
    {
      "epoch": 1.0616,
      "grad_norm": 0.023565732755104332,
      "learning_rate": 0.0001,
      "loss": 1.0568,
      "step": 4905
    },
    {
      "epoch": 1.0616533333333333,
      "grad_norm": 0.02629155531056865,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 4906
    },
    {
      "epoch": 1.0617066666666666,
      "grad_norm": 0.026416817578818454,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 4907
    },
    {
      "epoch": 1.06176,
      "grad_norm": 0.02485082500545637,
      "learning_rate": 0.0001,
      "loss": 1.0559,
      "step": 4908
    },
    {
      "epoch": 1.0618133333333333,
      "grad_norm": 0.023385883006909542,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 4909
    },
    {
      "epoch": 1.0618666666666667,
      "grad_norm": 0.028435834802562662,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 4910
    },
    {
      "epoch": 1.06192,
      "grad_norm": 0.027999032214105556,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "step": 4911
    },
    {
      "epoch": 1.0619733333333334,
      "grad_norm": 0.02524357525778297,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 4912
    },
    {
      "epoch": 1.0620266666666667,
      "grad_norm": 0.024253138779957502,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 4913
    },
    {
      "epoch": 1.06208,
      "grad_norm": 0.024203002389454942,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 4914
    },
    {
      "epoch": 1.0621333333333334,
      "grad_norm": 0.02567873860119543,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 4915
    },
    {
      "epoch": 1.0621866666666666,
      "grad_norm": 0.023973602776107668,
      "learning_rate": 0.0001,
      "loss": 0.9137,
      "step": 4916
    },
    {
      "epoch": 1.06224,
      "grad_norm": 0.02258456572646268,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 4917
    },
    {
      "epoch": 1.0622933333333333,
      "grad_norm": 0.025974974416277937,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 4918
    },
    {
      "epoch": 1.0623466666666668,
      "grad_norm": 0.023706106701702746,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 4919
    },
    {
      "epoch": 1.0624,
      "grad_norm": 0.024497551276681347,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 4920
    },
    {
      "epoch": 1.0624533333333332,
      "grad_norm": 0.026565854822965616,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 4921
    },
    {
      "epoch": 1.0625066666666667,
      "grad_norm": 0.027014357062587122,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 4922
    },
    {
      "epoch": 1.06256,
      "grad_norm": 0.025551961549326405,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 4923
    },
    {
      "epoch": 1.0626133333333334,
      "grad_norm": 0.025665624399778597,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 4924
    },
    {
      "epoch": 1.0626666666666666,
      "grad_norm": 0.027554264340031696,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4925
    },
    {
      "epoch": 1.06272,
      "grad_norm": 0.02495800544077591,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 4926
    },
    {
      "epoch": 1.0627733333333333,
      "grad_norm": 0.026612767614388435,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4927
    },
    {
      "epoch": 1.0628266666666666,
      "grad_norm": 0.025406320561819924,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 4928
    },
    {
      "epoch": 1.06288,
      "grad_norm": 0.02490970648623684,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 4929
    },
    {
      "epoch": 1.0629333333333333,
      "grad_norm": 0.02499532410747443,
      "learning_rate": 0.0001,
      "loss": 0.8976,
      "step": 4930
    },
    {
      "epoch": 1.0629866666666667,
      "grad_norm": 0.024169882119613583,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 4931
    },
    {
      "epoch": 1.06304,
      "grad_norm": 0.024317324092847915,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 4932
    },
    {
      "epoch": 1.0630933333333332,
      "grad_norm": 0.026744216584729898,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 4933
    },
    {
      "epoch": 1.0631466666666667,
      "grad_norm": 0.02526976710858577,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 4934
    },
    {
      "epoch": 1.0632,
      "grad_norm": 0.02508923245987011,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 4935
    },
    {
      "epoch": 1.0632533333333334,
      "grad_norm": 0.025891348783683793,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 4936
    },
    {
      "epoch": 1.0633066666666666,
      "grad_norm": 0.024450198843941787,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 4937
    },
    {
      "epoch": 1.06336,
      "grad_norm": 0.025536214191772377,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4938
    },
    {
      "epoch": 1.0634133333333333,
      "grad_norm": 0.02366946640379891,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 4939
    },
    {
      "epoch": 1.0634666666666668,
      "grad_norm": 0.024249650882895435,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 4940
    },
    {
      "epoch": 1.06352,
      "grad_norm": 0.02530423124793702,
      "learning_rate": 0.0001,
      "loss": 0.9196,
      "step": 4941
    },
    {
      "epoch": 1.0635733333333333,
      "grad_norm": 0.023224169647311797,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 4942
    },
    {
      "epoch": 1.0636266666666667,
      "grad_norm": 0.02432764724233768,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4943
    },
    {
      "epoch": 1.06368,
      "grad_norm": 0.02320625956122515,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 4944
    },
    {
      "epoch": 1.0637333333333334,
      "grad_norm": 0.023898405177441347,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 4945
    },
    {
      "epoch": 1.0637866666666667,
      "grad_norm": 0.026174010764214658,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4946
    },
    {
      "epoch": 1.06384,
      "grad_norm": 0.023558789992175467,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4947
    },
    {
      "epoch": 1.0638933333333334,
      "grad_norm": 0.022820890455347267,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 4948
    },
    {
      "epoch": 1.0639466666666666,
      "grad_norm": 0.02459990644653518,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 4949
    },
    {
      "epoch": 1.064,
      "grad_norm": 0.024222548157968257,
      "learning_rate": 0.0001,
      "loss": 0.9078,
      "step": 4950
    },
    {
      "epoch": 1.0640533333333333,
      "grad_norm": 0.02587816695398911,
      "learning_rate": 0.0001,
      "loss": 1.0587,
      "step": 4951
    },
    {
      "epoch": 1.0641066666666668,
      "grad_norm": 0.023801745207696536,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4952
    },
    {
      "epoch": 1.06416,
      "grad_norm": 0.024163685529324238,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 4953
    },
    {
      "epoch": 1.0642133333333332,
      "grad_norm": 0.02627948502507773,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4954
    },
    {
      "epoch": 1.0642666666666667,
      "grad_norm": 0.02341403352604857,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 4955
    },
    {
      "epoch": 1.06432,
      "grad_norm": 0.02498886729203632,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4956
    },
    {
      "epoch": 1.0643733333333334,
      "grad_norm": 0.0229592266709311,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 4957
    },
    {
      "epoch": 1.0644266666666666,
      "grad_norm": 0.025778393848696526,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 4958
    },
    {
      "epoch": 1.06448,
      "grad_norm": 0.025155011833324824,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4959
    },
    {
      "epoch": 1.0645333333333333,
      "grad_norm": 0.023964406183575912,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4960
    },
    {
      "epoch": 1.0645866666666666,
      "grad_norm": 0.023470847196283926,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 4961
    },
    {
      "epoch": 1.06464,
      "grad_norm": 0.025896537387763405,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 4962
    },
    {
      "epoch": 1.0646933333333333,
      "grad_norm": 0.023670942656937585,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 4963
    },
    {
      "epoch": 1.0647466666666667,
      "grad_norm": 0.025915716975172743,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 4964
    },
    {
      "epoch": 1.0648,
      "grad_norm": 0.024479052534995948,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4965
    },
    {
      "epoch": 1.0648533333333334,
      "grad_norm": 0.02426584756995937,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 4966
    },
    {
      "epoch": 1.0649066666666667,
      "grad_norm": 0.024231957336875665,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 4967
    },
    {
      "epoch": 1.06496,
      "grad_norm": 0.023907785051514877,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 4968
    },
    {
      "epoch": 1.0650133333333334,
      "grad_norm": 0.02365605577876775,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 4969
    },
    {
      "epoch": 1.0650666666666666,
      "grad_norm": 0.024422553011828534,
      "learning_rate": 0.0001,
      "loss": 0.9064,
      "step": 4970
    },
    {
      "epoch": 1.06512,
      "grad_norm": 0.022969979024948742,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 4971
    },
    {
      "epoch": 1.0651733333333333,
      "grad_norm": 0.023512021918822353,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4972
    },
    {
      "epoch": 1.0652266666666668,
      "grad_norm": 0.026304975935646707,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 4973
    },
    {
      "epoch": 1.06528,
      "grad_norm": 0.023663391308155212,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 4974
    },
    {
      "epoch": 1.0653333333333332,
      "grad_norm": 0.02383971510124353,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4975
    },
    {
      "epoch": 1.0653866666666667,
      "grad_norm": 0.023754695781516198,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 4976
    },
    {
      "epoch": 1.06544,
      "grad_norm": 0.024333861244464506,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 4977
    },
    {
      "epoch": 1.0654933333333334,
      "grad_norm": 0.022386352901346874,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 4978
    },
    {
      "epoch": 1.0655466666666666,
      "grad_norm": 0.024432841057907096,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 4979
    },
    {
      "epoch": 1.0656,
      "grad_norm": 0.02469519293142336,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 4980
    },
    {
      "epoch": 1.0656533333333333,
      "grad_norm": 0.02472139092637579,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4981
    },
    {
      "epoch": 1.0657066666666666,
      "grad_norm": 0.024388919236091215,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 4982
    },
    {
      "epoch": 1.06576,
      "grad_norm": 0.024230253278977026,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 4983
    },
    {
      "epoch": 1.0658133333333333,
      "grad_norm": 0.024131849353244653,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 4984
    },
    {
      "epoch": 1.0658666666666667,
      "grad_norm": 0.024290936060733348,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4985
    },
    {
      "epoch": 1.06592,
      "grad_norm": 0.024774425400492982,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 4986
    },
    {
      "epoch": 1.0659733333333334,
      "grad_norm": 0.02486397899608597,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 4987
    },
    {
      "epoch": 1.0660266666666667,
      "grad_norm": 0.02453523678536611,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 4988
    },
    {
      "epoch": 1.06608,
      "grad_norm": 0.024684907289975803,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 4989
    },
    {
      "epoch": 1.0661333333333334,
      "grad_norm": 0.02506384457196088,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 4990
    },
    {
      "epoch": 1.0661866666666666,
      "grad_norm": 0.02443688554942519,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 4991
    },
    {
      "epoch": 1.06624,
      "grad_norm": 0.026378441849092583,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 4992
    },
    {
      "epoch": 1.0662933333333333,
      "grad_norm": 0.023824602435596344,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 4993
    },
    {
      "epoch": 1.0663466666666666,
      "grad_norm": 0.025113579038084515,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4994
    },
    {
      "epoch": 1.0664,
      "grad_norm": 0.022069639486699228,
      "learning_rate": 0.0001,
      "loss": 0.916,
      "step": 4995
    },
    {
      "epoch": 1.0664533333333333,
      "grad_norm": 0.022786410481247712,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 4996
    },
    {
      "epoch": 1.0665066666666667,
      "grad_norm": 0.02548335099060747,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 4997
    },
    {
      "epoch": 1.06656,
      "grad_norm": 0.025615618066242782,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4998
    },
    {
      "epoch": 1.0666133333333334,
      "grad_norm": 0.026611441201843694,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 4999
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.02498684751773921,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 5000
    },
    {
      "epoch": 1.0666666666666667,
      "eval_accuracy": 0.6173338874397583,
      "eval_loss": 1.3700244426727295,
      "eval_runtime": 62.9381,
      "eval_samples_per_second": 15.889,
      "eval_steps_per_second": 0.508,
      "step": 5000
    },
    {
      "epoch": 1.0667200000000001,
      "grad_norm": 0.02522098941060652,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 5001
    },
    {
      "epoch": 1.0667733333333334,
      "grad_norm": 0.023911640561917785,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5002
    },
    {
      "epoch": 1.0668266666666666,
      "grad_norm": 0.026182150095438565,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5003
    },
    {
      "epoch": 1.06688,
      "grad_norm": 0.02339705160688133,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 5004
    },
    {
      "epoch": 1.0669333333333333,
      "grad_norm": 0.02382117479926949,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 5005
    },
    {
      "epoch": 1.0669866666666667,
      "grad_norm": 0.023925780584000047,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 5006
    },
    {
      "epoch": 1.06704,
      "grad_norm": 0.025196658169472516,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 5007
    },
    {
      "epoch": 1.0670933333333332,
      "grad_norm": 0.024513625807846776,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 5008
    },
    {
      "epoch": 1.0671466666666667,
      "grad_norm": 0.025392193281285273,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 5009
    },
    {
      "epoch": 1.0672,
      "grad_norm": 0.027119410674597236,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 5010
    },
    {
      "epoch": 1.0672533333333334,
      "grad_norm": 0.022223968456681408,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 5011
    },
    {
      "epoch": 1.0673066666666666,
      "grad_norm": 0.027022613875798466,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 5012
    },
    {
      "epoch": 1.06736,
      "grad_norm": 0.027070180731100842,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5013
    },
    {
      "epoch": 1.0674133333333333,
      "grad_norm": 0.025031381245217373,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 5014
    },
    {
      "epoch": 1.0674666666666666,
      "grad_norm": 0.024121113918589693,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 5015
    },
    {
      "epoch": 1.06752,
      "grad_norm": 0.027520967700755683,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 5016
    },
    {
      "epoch": 1.0675733333333333,
      "grad_norm": 0.024622127515350357,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 5017
    },
    {
      "epoch": 1.0676266666666667,
      "grad_norm": 0.024461492988449452,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 5018
    },
    {
      "epoch": 1.06768,
      "grad_norm": 0.025683648360606524,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5019
    },
    {
      "epoch": 1.0677333333333334,
      "grad_norm": 0.023787977174282153,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 5020
    },
    {
      "epoch": 1.0677866666666667,
      "grad_norm": 0.024857248753226438,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5021
    },
    {
      "epoch": 1.06784,
      "grad_norm": 0.02473328887074261,
      "learning_rate": 0.0001,
      "loss": 0.9079,
      "step": 5022
    },
    {
      "epoch": 1.0678933333333334,
      "grad_norm": 0.02507686693935444,
      "learning_rate": 0.0001,
      "loss": 1.1167,
      "step": 5023
    },
    {
      "epoch": 1.0679466666666666,
      "grad_norm": 0.024270011770639106,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 5024
    },
    {
      "epoch": 1.068,
      "grad_norm": 0.027295024512912696,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 5025
    },
    {
      "epoch": 1.0680533333333333,
      "grad_norm": 0.024312947985201054,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 5026
    },
    {
      "epoch": 1.0681066666666668,
      "grad_norm": 0.024388374567162897,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 5027
    },
    {
      "epoch": 1.06816,
      "grad_norm": 0.024810933209643695,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 5028
    },
    {
      "epoch": 1.0682133333333332,
      "grad_norm": 0.02362153052867476,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 5029
    },
    {
      "epoch": 1.0682666666666667,
      "grad_norm": 0.024782018207566786,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 5030
    },
    {
      "epoch": 1.06832,
      "grad_norm": 0.024124242474666317,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 5031
    },
    {
      "epoch": 1.0683733333333334,
      "grad_norm": 0.025615989440893487,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 5032
    },
    {
      "epoch": 1.0684266666666666,
      "grad_norm": 0.02378776655001037,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5033
    },
    {
      "epoch": 1.06848,
      "grad_norm": 0.023830851476187433,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 5034
    },
    {
      "epoch": 1.0685333333333333,
      "grad_norm": 0.02700506679453292,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 5035
    },
    {
      "epoch": 1.0685866666666666,
      "grad_norm": 0.024532819867517486,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 5036
    },
    {
      "epoch": 1.06864,
      "grad_norm": 0.026309136071026192,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 5037
    },
    {
      "epoch": 1.0686933333333333,
      "grad_norm": 0.02483034874165817,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 5038
    },
    {
      "epoch": 1.0687466666666667,
      "grad_norm": 0.022641409799789524,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 5039
    },
    {
      "epoch": 1.0688,
      "grad_norm": 0.024178456019835846,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5040
    },
    {
      "epoch": 1.0688533333333334,
      "grad_norm": 0.024643329933715714,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 5041
    },
    {
      "epoch": 1.0689066666666667,
      "grad_norm": 0.025821321288097807,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 5042
    },
    {
      "epoch": 1.06896,
      "grad_norm": 0.023341188097224002,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 5043
    },
    {
      "epoch": 1.0690133333333334,
      "grad_norm": 0.025207615885191638,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 5044
    },
    {
      "epoch": 1.0690666666666666,
      "grad_norm": 0.023987046334880944,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5045
    },
    {
      "epoch": 1.06912,
      "grad_norm": 0.023740980577800965,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 5046
    },
    {
      "epoch": 1.0691733333333333,
      "grad_norm": 0.023672782894704227,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 5047
    },
    {
      "epoch": 1.0692266666666668,
      "grad_norm": 0.024870276384940857,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5048
    },
    {
      "epoch": 1.06928,
      "grad_norm": 0.02559806576487511,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 5049
    },
    {
      "epoch": 1.0693333333333332,
      "grad_norm": 0.026663470352609644,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 5050
    },
    {
      "epoch": 1.0693866666666667,
      "grad_norm": 0.024520558375358638,
      "learning_rate": 0.0001,
      "loss": 0.9181,
      "step": 5051
    },
    {
      "epoch": 1.06944,
      "grad_norm": 0.023998652641820963,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5052
    },
    {
      "epoch": 1.0694933333333334,
      "grad_norm": 0.02262838289217389,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 5053
    },
    {
      "epoch": 1.0695466666666666,
      "grad_norm": 0.026216460954535642,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 5054
    },
    {
      "epoch": 1.0695999999999999,
      "grad_norm": 0.026209920411886477,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 5055
    },
    {
      "epoch": 1.0696533333333333,
      "grad_norm": 0.02380475268345057,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5056
    },
    {
      "epoch": 1.0697066666666666,
      "grad_norm": 0.02596554212919293,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 5057
    },
    {
      "epoch": 1.06976,
      "grad_norm": 0.027208999450704516,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5058
    },
    {
      "epoch": 1.0698133333333333,
      "grad_norm": 0.024475344366462225,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 5059
    },
    {
      "epoch": 1.0698666666666667,
      "grad_norm": 0.027146455489839624,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5060
    },
    {
      "epoch": 1.06992,
      "grad_norm": 0.02465660487211689,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5061
    },
    {
      "epoch": 1.0699733333333334,
      "grad_norm": 0.025343174387045624,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5062
    },
    {
      "epoch": 1.0700266666666667,
      "grad_norm": 0.02591007930737827,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5063
    },
    {
      "epoch": 1.07008,
      "grad_norm": 0.02448556197094848,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 5064
    },
    {
      "epoch": 1.0701333333333334,
      "grad_norm": 0.02461658082854389,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5065
    },
    {
      "epoch": 1.0701866666666666,
      "grad_norm": 0.02512707853619943,
      "learning_rate": 0.0001,
      "loss": 1.0588,
      "step": 5066
    },
    {
      "epoch": 1.07024,
      "grad_norm": 0.024247160312259274,
      "learning_rate": 0.0001,
      "loss": 1.0733,
      "step": 5067
    },
    {
      "epoch": 1.0702933333333333,
      "grad_norm": 0.022862935245097752,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 5068
    },
    {
      "epoch": 1.0703466666666666,
      "grad_norm": 0.024991250492990856,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 5069
    },
    {
      "epoch": 1.0704,
      "grad_norm": 0.024652216376001714,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 5070
    },
    {
      "epoch": 1.0704533333333333,
      "grad_norm": 0.025129733652623453,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5071
    },
    {
      "epoch": 1.0705066666666667,
      "grad_norm": 0.024147491247004788,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5072
    },
    {
      "epoch": 1.07056,
      "grad_norm": 0.026131886594879927,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 5073
    },
    {
      "epoch": 1.0706133333333334,
      "grad_norm": 0.025774065418386408,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 5074
    },
    {
      "epoch": 1.0706666666666667,
      "grad_norm": 0.026446377483165577,
      "learning_rate": 0.0001,
      "loss": 0.8929,
      "step": 5075
    },
    {
      "epoch": 1.0707200000000001,
      "grad_norm": 0.025273665659564064,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 5076
    },
    {
      "epoch": 1.0707733333333334,
      "grad_norm": 0.023058436658343565,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 5077
    },
    {
      "epoch": 1.0708266666666666,
      "grad_norm": 0.027222153600119595,
      "learning_rate": 0.0001,
      "loss": 0.9194,
      "step": 5078
    },
    {
      "epoch": 1.07088,
      "grad_norm": 0.025072863444628467,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5079
    },
    {
      "epoch": 1.0709333333333333,
      "grad_norm": 0.024701238985362934,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 5080
    },
    {
      "epoch": 1.0709866666666668,
      "grad_norm": 0.026520150223510567,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 5081
    },
    {
      "epoch": 1.07104,
      "grad_norm": 0.027028179864164625,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 5082
    },
    {
      "epoch": 1.0710933333333332,
      "grad_norm": 0.024391697385383593,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 5083
    },
    {
      "epoch": 1.0711466666666667,
      "grad_norm": 0.024988776913547724,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 5084
    },
    {
      "epoch": 1.0712,
      "grad_norm": 0.023900202037478956,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5085
    },
    {
      "epoch": 1.0712533333333334,
      "grad_norm": 0.02413586847953108,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 5086
    },
    {
      "epoch": 1.0713066666666666,
      "grad_norm": 0.0247081645553724,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 5087
    },
    {
      "epoch": 1.07136,
      "grad_norm": 0.025831156977931598,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 5088
    },
    {
      "epoch": 1.0714133333333333,
      "grad_norm": 0.02455929438322751,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5089
    },
    {
      "epoch": 1.0714666666666666,
      "grad_norm": 0.025290508295600138,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5090
    },
    {
      "epoch": 1.07152,
      "grad_norm": 0.027204809700042465,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 5091
    },
    {
      "epoch": 1.0715733333333333,
      "grad_norm": 0.028687967642137314,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5092
    },
    {
      "epoch": 1.0716266666666667,
      "grad_norm": 0.023934975311652857,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 5093
    },
    {
      "epoch": 1.07168,
      "grad_norm": 0.0263495775585771,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 5094
    },
    {
      "epoch": 1.0717333333333334,
      "grad_norm": 0.02484561283215338,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 5095
    },
    {
      "epoch": 1.0717866666666667,
      "grad_norm": 0.023581573254700162,
      "learning_rate": 0.0001,
      "loss": 1.0573,
      "step": 5096
    },
    {
      "epoch": 1.07184,
      "grad_norm": 0.023809463663989578,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5097
    },
    {
      "epoch": 1.0718933333333334,
      "grad_norm": 0.024412716125761208,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 5098
    },
    {
      "epoch": 1.0719466666666666,
      "grad_norm": 0.025065252404405346,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 5099
    },
    {
      "epoch": 1.072,
      "grad_norm": 0.024963762721986426,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 5100
    },
    {
      "epoch": 1.0720533333333333,
      "grad_norm": 0.024405066072861175,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5101
    },
    {
      "epoch": 1.0721066666666668,
      "grad_norm": 0.023938327026412697,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 5102
    },
    {
      "epoch": 1.07216,
      "grad_norm": 0.023733682877601615,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 5103
    },
    {
      "epoch": 1.0722133333333332,
      "grad_norm": 0.024172219374828417,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5104
    },
    {
      "epoch": 1.0722666666666667,
      "grad_norm": 0.02534945135536056,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5105
    },
    {
      "epoch": 1.07232,
      "grad_norm": 0.023155020401736667,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 5106
    },
    {
      "epoch": 1.0723733333333334,
      "grad_norm": 0.024234946761603416,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 5107
    },
    {
      "epoch": 1.0724266666666666,
      "grad_norm": 0.024379897312532692,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 5108
    },
    {
      "epoch": 1.07248,
      "grad_norm": 0.024514987615944013,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5109
    },
    {
      "epoch": 1.0725333333333333,
      "grad_norm": 0.024107315822166728,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 5110
    },
    {
      "epoch": 1.0725866666666666,
      "grad_norm": 0.02742589818892122,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 5111
    },
    {
      "epoch": 1.07264,
      "grad_norm": 0.024770845856102102,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5112
    },
    {
      "epoch": 1.0726933333333333,
      "grad_norm": 0.025899117403332377,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 5113
    },
    {
      "epoch": 1.0727466666666667,
      "grad_norm": 0.023901147964815028,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 5114
    },
    {
      "epoch": 1.0728,
      "grad_norm": 0.026032502541443923,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 5115
    },
    {
      "epoch": 1.0728533333333334,
      "grad_norm": 0.027145476884540363,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 5116
    },
    {
      "epoch": 1.0729066666666667,
      "grad_norm": 0.0253479529411147,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 5117
    },
    {
      "epoch": 1.07296,
      "grad_norm": 0.025155773421817636,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5118
    },
    {
      "epoch": 1.0730133333333334,
      "grad_norm": 0.0244116379787284,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 5119
    },
    {
      "epoch": 1.0730666666666666,
      "grad_norm": 0.024657811451786693,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 5120
    },
    {
      "epoch": 1.07312,
      "grad_norm": 0.024750867138439533,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 5121
    },
    {
      "epoch": 1.0731733333333333,
      "grad_norm": 0.024420066635536003,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 5122
    },
    {
      "epoch": 1.0732266666666668,
      "grad_norm": 0.02482369078088547,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 5123
    },
    {
      "epoch": 1.07328,
      "grad_norm": 0.024813076094656702,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 5124
    },
    {
      "epoch": 1.0733333333333333,
      "grad_norm": 0.024958045057905144,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 5125
    },
    {
      "epoch": 1.0733866666666667,
      "grad_norm": 0.023749440758355195,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5126
    },
    {
      "epoch": 1.07344,
      "grad_norm": 0.022834704165488294,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 5127
    },
    {
      "epoch": 1.0734933333333334,
      "grad_norm": 0.0252647527662807,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5128
    },
    {
      "epoch": 1.0735466666666666,
      "grad_norm": 0.023488881186087256,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 5129
    },
    {
      "epoch": 1.0735999999999999,
      "grad_norm": 0.023062985461554778,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5130
    },
    {
      "epoch": 1.0736533333333333,
      "grad_norm": 0.023508203237809052,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 5131
    },
    {
      "epoch": 1.0737066666666666,
      "grad_norm": 0.02439547523245326,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 5132
    },
    {
      "epoch": 1.07376,
      "grad_norm": 0.024378471735768046,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5133
    },
    {
      "epoch": 1.0738133333333333,
      "grad_norm": 0.024683313034342003,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 5134
    },
    {
      "epoch": 1.0738666666666667,
      "grad_norm": 0.024076687506367263,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 5135
    },
    {
      "epoch": 1.07392,
      "grad_norm": 0.02431814928583795,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 5136
    },
    {
      "epoch": 1.0739733333333334,
      "grad_norm": 0.025162764874578105,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5137
    },
    {
      "epoch": 1.0740266666666667,
      "grad_norm": 0.026050924273052157,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 5138
    },
    {
      "epoch": 1.07408,
      "grad_norm": 0.03777204363918913,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5139
    },
    {
      "epoch": 1.0741333333333334,
      "grad_norm": 0.026315610435525466,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 5140
    },
    {
      "epoch": 1.0741866666666666,
      "grad_norm": 0.02546953245212923,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 5141
    },
    {
      "epoch": 1.07424,
      "grad_norm": 0.025838672870392935,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 5142
    },
    {
      "epoch": 1.0742933333333333,
      "grad_norm": 0.026438316960272996,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 5143
    },
    {
      "epoch": 1.0743466666666666,
      "grad_norm": 0.023701509034137067,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 5144
    },
    {
      "epoch": 1.0744,
      "grad_norm": 0.026726261043664833,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 5145
    },
    {
      "epoch": 1.0744533333333333,
      "grad_norm": 0.02728244070735087,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 5146
    },
    {
      "epoch": 1.0745066666666667,
      "grad_norm": 0.025575145859586326,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 5147
    },
    {
      "epoch": 1.07456,
      "grad_norm": 0.02386856075708658,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 5148
    },
    {
      "epoch": 1.0746133333333334,
      "grad_norm": 0.02620964091224981,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 5149
    },
    {
      "epoch": 1.0746666666666667,
      "grad_norm": 0.025335467219462848,
      "learning_rate": 0.0001,
      "loss": 0.9116,
      "step": 5150
    },
    {
      "epoch": 1.07472,
      "grad_norm": 0.024631440687074974,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5151
    },
    {
      "epoch": 1.0747733333333334,
      "grad_norm": 0.025206122181680488,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 5152
    },
    {
      "epoch": 1.0748266666666666,
      "grad_norm": 0.024695234520366188,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 5153
    },
    {
      "epoch": 1.07488,
      "grad_norm": 0.023504563611394403,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 5154
    },
    {
      "epoch": 1.0749333333333333,
      "grad_norm": 0.02316704730871102,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 5155
    },
    {
      "epoch": 1.0749866666666668,
      "grad_norm": 0.02754922798151838,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 5156
    },
    {
      "epoch": 1.07504,
      "grad_norm": 0.025734317262376044,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5157
    },
    {
      "epoch": 1.0750933333333332,
      "grad_norm": 0.024462229727704742,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 5158
    },
    {
      "epoch": 1.0751466666666667,
      "grad_norm": 0.02566392922013849,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 5159
    },
    {
      "epoch": 1.0752,
      "grad_norm": 0.02669291952349919,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 5160
    },
    {
      "epoch": 1.0752533333333334,
      "grad_norm": 0.023307579841924223,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 5161
    },
    {
      "epoch": 1.0753066666666666,
      "grad_norm": 0.02435239986313597,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 5162
    },
    {
      "epoch": 1.07536,
      "grad_norm": 0.024893987691562144,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 5163
    },
    {
      "epoch": 1.0754133333333333,
      "grad_norm": 0.022651391039637123,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5164
    },
    {
      "epoch": 1.0754666666666666,
      "grad_norm": 0.02486019220162966,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5165
    },
    {
      "epoch": 1.07552,
      "grad_norm": 0.02393928495845135,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 5166
    },
    {
      "epoch": 1.0755733333333333,
      "grad_norm": 0.02253502734527664,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5167
    },
    {
      "epoch": 1.0756266666666667,
      "grad_norm": 0.02448343521548138,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5168
    },
    {
      "epoch": 1.07568,
      "grad_norm": 0.025681408135921912,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 5169
    },
    {
      "epoch": 1.0757333333333334,
      "grad_norm": 0.023698864233596895,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5170
    },
    {
      "epoch": 1.0757866666666667,
      "grad_norm": 0.023864484697187528,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 5171
    },
    {
      "epoch": 1.07584,
      "grad_norm": 0.027360708076219816,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 5172
    },
    {
      "epoch": 1.0758933333333334,
      "grad_norm": 0.027807827972111523,
      "learning_rate": 0.0001,
      "loss": 0.9102,
      "step": 5173
    },
    {
      "epoch": 1.0759466666666666,
      "grad_norm": 0.023574341048259378,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 5174
    },
    {
      "epoch": 1.076,
      "grad_norm": 0.02503227774462054,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 5175
    },
    {
      "epoch": 1.0760533333333333,
      "grad_norm": 0.024446793150179193,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5176
    },
    {
      "epoch": 1.0761066666666668,
      "grad_norm": 0.02571649662975983,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 5177
    },
    {
      "epoch": 1.07616,
      "grad_norm": 0.022791830110668,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 5178
    },
    {
      "epoch": 1.0762133333333332,
      "grad_norm": 0.024057051757440464,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 5179
    },
    {
      "epoch": 1.0762666666666667,
      "grad_norm": 0.0263584218488111,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 5180
    },
    {
      "epoch": 1.07632,
      "grad_norm": 0.02391252886899509,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 5181
    },
    {
      "epoch": 1.0763733333333334,
      "grad_norm": 0.026037895730473534,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5182
    },
    {
      "epoch": 1.0764266666666666,
      "grad_norm": 0.02607664820928143,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5183
    },
    {
      "epoch": 1.07648,
      "grad_norm": 0.023864912618466193,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 5184
    },
    {
      "epoch": 1.0765333333333333,
      "grad_norm": 0.024922747115531798,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 5185
    },
    {
      "epoch": 1.0765866666666666,
      "grad_norm": 0.023601808290563676,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 5186
    },
    {
      "epoch": 1.07664,
      "grad_norm": 0.024364532692808995,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 5187
    },
    {
      "epoch": 1.0766933333333333,
      "grad_norm": 0.02442730581411873,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5188
    },
    {
      "epoch": 1.0767466666666667,
      "grad_norm": 0.02407465819548894,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5189
    },
    {
      "epoch": 1.0768,
      "grad_norm": 0.025477465293614016,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 5190
    },
    {
      "epoch": 1.0768533333333332,
      "grad_norm": 0.024070178149935756,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5191
    },
    {
      "epoch": 1.0769066666666667,
      "grad_norm": 0.02377238913203875,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 5192
    },
    {
      "epoch": 1.07696,
      "grad_norm": 0.02491129074252031,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 5193
    },
    {
      "epoch": 1.0770133333333334,
      "grad_norm": 0.024535327468025336,
      "learning_rate": 0.0001,
      "loss": 0.8932,
      "step": 5194
    },
    {
      "epoch": 1.0770666666666666,
      "grad_norm": 0.025933890527352236,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 5195
    },
    {
      "epoch": 1.07712,
      "grad_norm": 0.02488885578342406,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5196
    },
    {
      "epoch": 1.0771733333333333,
      "grad_norm": 0.02491496272672252,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 5197
    },
    {
      "epoch": 1.0772266666666668,
      "grad_norm": 0.022739383650085543,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 5198
    },
    {
      "epoch": 1.07728,
      "grad_norm": 0.023827335484317674,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5199
    },
    {
      "epoch": 1.0773333333333333,
      "grad_norm": 0.02480176844422139,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 5200
    },
    {
      "epoch": 1.0773333333333333,
      "eval_accuracy": 0.6175859560285439,
      "eval_loss": 1.3687927722930908,
      "eval_runtime": 62.7595,
      "eval_samples_per_second": 15.934,
      "eval_steps_per_second": 0.51,
      "step": 5200
    },
    {
      "epoch": 1.0773866666666667,
      "grad_norm": 0.024876317380843286,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 5201
    },
    {
      "epoch": 1.07744,
      "grad_norm": 0.024338841425097672,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 5202
    },
    {
      "epoch": 1.0774933333333334,
      "grad_norm": 0.025662488286295897,
      "learning_rate": 0.0001,
      "loss": 1.0368,
      "step": 5203
    },
    {
      "epoch": 1.0775466666666667,
      "grad_norm": 0.026155250826677485,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5204
    },
    {
      "epoch": 1.0776,
      "grad_norm": 0.024612624062661296,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 5205
    },
    {
      "epoch": 1.0776533333333334,
      "grad_norm": 0.027925454057316217,
      "learning_rate": 0.0001,
      "loss": 0.93,
      "step": 5206
    },
    {
      "epoch": 1.0777066666666666,
      "grad_norm": 0.023934159527165474,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5207
    },
    {
      "epoch": 1.07776,
      "grad_norm": 0.02706106112977372,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 5208
    },
    {
      "epoch": 1.0778133333333333,
      "grad_norm": 0.025179220550887962,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 5209
    },
    {
      "epoch": 1.0778666666666668,
      "grad_norm": 0.024950607554765265,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5210
    },
    {
      "epoch": 1.07792,
      "grad_norm": 0.025784250775060084,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 5211
    },
    {
      "epoch": 1.0779733333333334,
      "grad_norm": 0.0236456238962643,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5212
    },
    {
      "epoch": 1.0780266666666667,
      "grad_norm": 0.024584990980544102,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 5213
    },
    {
      "epoch": 1.07808,
      "grad_norm": 0.02529050646679984,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5214
    },
    {
      "epoch": 1.0781333333333334,
      "grad_norm": 0.02363251040700039,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 5215
    },
    {
      "epoch": 1.0781866666666666,
      "grad_norm": 0.02428567789333371,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 5216
    },
    {
      "epoch": 1.07824,
      "grad_norm": 0.024511467782604827,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 5217
    },
    {
      "epoch": 1.0782933333333333,
      "grad_norm": 0.024831662849735276,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5218
    },
    {
      "epoch": 1.0783466666666666,
      "grad_norm": 0.025855555382267654,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5219
    },
    {
      "epoch": 1.0784,
      "grad_norm": 0.025264390244562018,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 5220
    },
    {
      "epoch": 1.0784533333333333,
      "grad_norm": 0.023871935878563465,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 5221
    },
    {
      "epoch": 1.0785066666666667,
      "grad_norm": 0.026483249659725153,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5222
    },
    {
      "epoch": 1.07856,
      "grad_norm": 0.0240112490666037,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5223
    },
    {
      "epoch": 1.0786133333333334,
      "grad_norm": 0.026507753498893716,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 5224
    },
    {
      "epoch": 1.0786666666666667,
      "grad_norm": 0.023537215133218808,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 5225
    },
    {
      "epoch": 1.07872,
      "grad_norm": 0.024864718371935223,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5226
    },
    {
      "epoch": 1.0787733333333334,
      "grad_norm": 0.024681091913744815,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 5227
    },
    {
      "epoch": 1.0788266666666666,
      "grad_norm": 0.0250518950570203,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 5228
    },
    {
      "epoch": 1.07888,
      "grad_norm": 0.02747477705556083,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 5229
    },
    {
      "epoch": 1.0789333333333333,
      "grad_norm": 0.024664303614459957,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 5230
    },
    {
      "epoch": 1.0789866666666668,
      "grad_norm": 0.025562150475701297,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 5231
    },
    {
      "epoch": 1.07904,
      "grad_norm": 0.026523863911728642,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 5232
    },
    {
      "epoch": 1.0790933333333332,
      "grad_norm": 0.023681238835648506,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 5233
    },
    {
      "epoch": 1.0791466666666667,
      "grad_norm": 0.0248659026687544,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5234
    },
    {
      "epoch": 1.0792,
      "grad_norm": 0.024993293672727998,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5235
    },
    {
      "epoch": 1.0792533333333334,
      "grad_norm": 0.024111534580474183,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 5236
    },
    {
      "epoch": 1.0793066666666666,
      "grad_norm": 0.022919767114488506,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 5237
    },
    {
      "epoch": 1.07936,
      "grad_norm": 0.026345372372084036,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "step": 5238
    },
    {
      "epoch": 1.0794133333333333,
      "grad_norm": 0.026079739123239628,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 5239
    },
    {
      "epoch": 1.0794666666666666,
      "grad_norm": 0.023228931165140704,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5240
    },
    {
      "epoch": 1.07952,
      "grad_norm": 0.026384854495492802,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 5241
    },
    {
      "epoch": 1.0795733333333333,
      "grad_norm": 0.026171870824522155,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 5242
    },
    {
      "epoch": 1.0796266666666667,
      "grad_norm": 0.025096135784617002,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 5243
    },
    {
      "epoch": 1.07968,
      "grad_norm": 0.02474846141880474,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 5244
    },
    {
      "epoch": 1.0797333333333334,
      "grad_norm": 0.025352670499425557,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 5245
    },
    {
      "epoch": 1.0797866666666667,
      "grad_norm": 0.0248989504138001,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 5246
    },
    {
      "epoch": 1.07984,
      "grad_norm": 0.024742494392252075,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 5247
    },
    {
      "epoch": 1.0798933333333334,
      "grad_norm": 0.024334365052190592,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 5248
    },
    {
      "epoch": 1.0799466666666666,
      "grad_norm": 0.025373650153087835,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 5249
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.0249894628038705,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 5250
    },
    {
      "epoch": 1.0800533333333333,
      "grad_norm": 0.023012750069240005,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 5251
    },
    {
      "epoch": 1.0801066666666668,
      "grad_norm": 0.02395807501933798,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 5252
    },
    {
      "epoch": 1.08016,
      "grad_norm": 0.024132945055237665,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 5253
    },
    {
      "epoch": 1.0802133333333332,
      "grad_norm": 0.024423196417638255,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 5254
    },
    {
      "epoch": 1.0802666666666667,
      "grad_norm": 0.023676737909240946,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5255
    },
    {
      "epoch": 1.08032,
      "grad_norm": 0.024453039809071007,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 5256
    },
    {
      "epoch": 1.0803733333333334,
      "grad_norm": 0.025644905620883708,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 5257
    },
    {
      "epoch": 1.0804266666666666,
      "grad_norm": 0.025547937008229635,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 5258
    },
    {
      "epoch": 1.08048,
      "grad_norm": 0.026099511241568618,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 5259
    },
    {
      "epoch": 1.0805333333333333,
      "grad_norm": 0.025266224422285048,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 5260
    },
    {
      "epoch": 1.0805866666666666,
      "grad_norm": 0.025786413691965163,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 5261
    },
    {
      "epoch": 1.08064,
      "grad_norm": 0.02752110767709119,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 5262
    },
    {
      "epoch": 1.0806933333333333,
      "grad_norm": 0.025811047727335903,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 5263
    },
    {
      "epoch": 1.0807466666666667,
      "grad_norm": 0.023272461434574235,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "step": 5264
    },
    {
      "epoch": 1.0808,
      "grad_norm": 0.024740781019389934,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5265
    },
    {
      "epoch": 1.0808533333333332,
      "grad_norm": 0.02507252438761017,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 5266
    },
    {
      "epoch": 1.0809066666666667,
      "grad_norm": 0.023389362149824792,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 5267
    },
    {
      "epoch": 1.08096,
      "grad_norm": 0.02646910325773918,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 5268
    },
    {
      "epoch": 1.0810133333333334,
      "grad_norm": 0.02346272743007583,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 5269
    },
    {
      "epoch": 1.0810666666666666,
      "grad_norm": 0.02417442607707923,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 5270
    },
    {
      "epoch": 1.08112,
      "grad_norm": 0.02570454094301308,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5271
    },
    {
      "epoch": 1.0811733333333333,
      "grad_norm": 0.026052069731941813,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 5272
    },
    {
      "epoch": 1.0812266666666668,
      "grad_norm": 0.024585335688651174,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 5273
    },
    {
      "epoch": 1.08128,
      "grad_norm": 0.02429495120438062,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5274
    },
    {
      "epoch": 1.0813333333333333,
      "grad_norm": 0.0261725332651311,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5275
    },
    {
      "epoch": 1.0813866666666667,
      "grad_norm": 0.022658454776153553,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 5276
    },
    {
      "epoch": 1.08144,
      "grad_norm": 0.025146570222616696,
      "learning_rate": 0.0001,
      "loss": 0.9139,
      "step": 5277
    },
    {
      "epoch": 1.0814933333333334,
      "grad_norm": 0.02505510945683532,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 5278
    },
    {
      "epoch": 1.0815466666666667,
      "grad_norm": 0.02479711734155357,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 5279
    },
    {
      "epoch": 1.0816,
      "grad_norm": 0.025803044646182976,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5280
    },
    {
      "epoch": 1.0816533333333334,
      "grad_norm": 0.025052361828081866,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 5281
    },
    {
      "epoch": 1.0817066666666666,
      "grad_norm": 0.025505340403169475,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 5282
    },
    {
      "epoch": 1.08176,
      "grad_norm": 0.0254430762983551,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5283
    },
    {
      "epoch": 1.0818133333333333,
      "grad_norm": 0.024920615255787287,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 5284
    },
    {
      "epoch": 1.0818666666666668,
      "grad_norm": 0.023514703978667482,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5285
    },
    {
      "epoch": 1.08192,
      "grad_norm": 0.025330257280561083,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 5286
    },
    {
      "epoch": 1.0819733333333332,
      "grad_norm": 0.025273723956993916,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5287
    },
    {
      "epoch": 1.0820266666666667,
      "grad_norm": 0.023572788267187218,
      "learning_rate": 0.0001,
      "loss": 0.9241,
      "step": 5288
    },
    {
      "epoch": 1.08208,
      "grad_norm": 0.026362884646064833,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5289
    },
    {
      "epoch": 1.0821333333333334,
      "grad_norm": 0.025931472237143677,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 5290
    },
    {
      "epoch": 1.0821866666666666,
      "grad_norm": 0.025480346966613648,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5291
    },
    {
      "epoch": 1.08224,
      "grad_norm": 0.024389180876339903,
      "learning_rate": 0.0001,
      "loss": 0.9111,
      "step": 5292
    },
    {
      "epoch": 1.0822933333333333,
      "grad_norm": 0.029610338249835572,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 5293
    },
    {
      "epoch": 1.0823466666666666,
      "grad_norm": 0.024695987449946975,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 5294
    },
    {
      "epoch": 1.0824,
      "grad_norm": 0.025187412093682155,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 5295
    },
    {
      "epoch": 1.0824533333333333,
      "grad_norm": 0.024675170162876986,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5296
    },
    {
      "epoch": 1.0825066666666667,
      "grad_norm": 0.025787551728585562,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 5297
    },
    {
      "epoch": 1.08256,
      "grad_norm": 0.024585606529879508,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 5298
    },
    {
      "epoch": 1.0826133333333334,
      "grad_norm": 0.027011424226386284,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5299
    },
    {
      "epoch": 1.0826666666666667,
      "grad_norm": 0.022205496859619422,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 5300
    },
    {
      "epoch": 1.08272,
      "grad_norm": 0.02435777698181023,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 5301
    },
    {
      "epoch": 1.0827733333333334,
      "grad_norm": 0.025738899839381612,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 5302
    },
    {
      "epoch": 1.0828266666666666,
      "grad_norm": 0.023706670984649056,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 5303
    },
    {
      "epoch": 1.08288,
      "grad_norm": 0.024580742850132176,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 5304
    },
    {
      "epoch": 1.0829333333333333,
      "grad_norm": 0.02710944495779612,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 5305
    },
    {
      "epoch": 1.0829866666666668,
      "grad_norm": 0.025013183213840544,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 5306
    },
    {
      "epoch": 1.08304,
      "grad_norm": 0.023814317817514915,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 5307
    },
    {
      "epoch": 1.0830933333333332,
      "grad_norm": 0.02823032507593627,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5308
    },
    {
      "epoch": 1.0831466666666667,
      "grad_norm": 0.025793055304233873,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 5309
    },
    {
      "epoch": 1.0832,
      "grad_norm": 0.022962508164665794,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5310
    },
    {
      "epoch": 1.0832533333333334,
      "grad_norm": 0.02536606718276414,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 5311
    },
    {
      "epoch": 1.0833066666666666,
      "grad_norm": 0.025578732094647498,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 5312
    },
    {
      "epoch": 1.08336,
      "grad_norm": 0.024460940276615318,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 5313
    },
    {
      "epoch": 1.0834133333333333,
      "grad_norm": 0.02541022205614345,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5314
    },
    {
      "epoch": 1.0834666666666666,
      "grad_norm": 0.023950725564234755,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 5315
    },
    {
      "epoch": 1.08352,
      "grad_norm": 0.02333053713527254,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5316
    },
    {
      "epoch": 1.0835733333333333,
      "grad_norm": 0.025322714432788055,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5317
    },
    {
      "epoch": 1.0836266666666667,
      "grad_norm": 0.022581533296769766,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 5318
    },
    {
      "epoch": 1.08368,
      "grad_norm": 0.025236728845420883,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 5319
    },
    {
      "epoch": 1.0837333333333334,
      "grad_norm": 0.02603869110362313,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 5320
    },
    {
      "epoch": 1.0837866666666667,
      "grad_norm": 0.022699330416731403,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 5321
    },
    {
      "epoch": 1.08384,
      "grad_norm": 0.02380321494859823,
      "learning_rate": 0.0001,
      "loss": 1.0421,
      "step": 5322
    },
    {
      "epoch": 1.0838933333333334,
      "grad_norm": 0.025893481862188875,
      "learning_rate": 0.0001,
      "loss": 0.9044,
      "step": 5323
    },
    {
      "epoch": 1.0839466666666666,
      "grad_norm": 0.022757912505740892,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 5324
    },
    {
      "epoch": 1.084,
      "grad_norm": 0.024910103199777503,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 5325
    },
    {
      "epoch": 1.0840533333333333,
      "grad_norm": 0.023646902186626684,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 5326
    },
    {
      "epoch": 1.0841066666666666,
      "grad_norm": 0.025287801396366993,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 5327
    },
    {
      "epoch": 1.08416,
      "grad_norm": 0.02532176516893675,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 5328
    },
    {
      "epoch": 1.0842133333333333,
      "grad_norm": 0.024344126277565426,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 5329
    },
    {
      "epoch": 1.0842666666666667,
      "grad_norm": 0.02302841515658075,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 5330
    },
    {
      "epoch": 1.08432,
      "grad_norm": 0.024091880290035634,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 5331
    },
    {
      "epoch": 1.0843733333333334,
      "grad_norm": 0.02261102631708662,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5332
    },
    {
      "epoch": 1.0844266666666666,
      "grad_norm": 0.026634908092377847,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 5333
    },
    {
      "epoch": 1.08448,
      "grad_norm": 0.023440305241753452,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5334
    },
    {
      "epoch": 1.0845333333333333,
      "grad_norm": 0.023652972990245005,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5335
    },
    {
      "epoch": 1.0845866666666666,
      "grad_norm": 0.02410443823572375,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 5336
    },
    {
      "epoch": 1.08464,
      "grad_norm": 0.022305585214441568,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 5337
    },
    {
      "epoch": 1.0846933333333333,
      "grad_norm": 0.024610330099531445,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5338
    },
    {
      "epoch": 1.0847466666666667,
      "grad_norm": 0.02398003296396921,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 5339
    },
    {
      "epoch": 1.0848,
      "grad_norm": 0.026887015884443047,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 5340
    },
    {
      "epoch": 1.0848533333333332,
      "grad_norm": 0.025004201407156392,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5341
    },
    {
      "epoch": 1.0849066666666667,
      "grad_norm": 0.024849548894843154,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5342
    },
    {
      "epoch": 1.08496,
      "grad_norm": 0.024567490018684985,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5343
    },
    {
      "epoch": 1.0850133333333334,
      "grad_norm": 0.027804194589126436,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5344
    },
    {
      "epoch": 1.0850666666666666,
      "grad_norm": 0.023651049844225842,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 5345
    },
    {
      "epoch": 1.08512,
      "grad_norm": 0.023989121112610545,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 5346
    },
    {
      "epoch": 1.0851733333333333,
      "grad_norm": 0.025907084512737953,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 5347
    },
    {
      "epoch": 1.0852266666666668,
      "grad_norm": 0.025459862371398176,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 5348
    },
    {
      "epoch": 1.08528,
      "grad_norm": 0.023120400860888547,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5349
    },
    {
      "epoch": 1.0853333333333333,
      "grad_norm": 0.025858734340119698,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 5350
    },
    {
      "epoch": 1.0853866666666667,
      "grad_norm": 0.0265105954956132,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 5351
    },
    {
      "epoch": 1.08544,
      "grad_norm": 0.02588158944114845,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 5352
    },
    {
      "epoch": 1.0854933333333334,
      "grad_norm": 0.024023520214110826,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5353
    },
    {
      "epoch": 1.0855466666666667,
      "grad_norm": 0.02506856201793591,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 5354
    },
    {
      "epoch": 1.0856,
      "grad_norm": 0.026096256505061536,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 5355
    },
    {
      "epoch": 1.0856533333333334,
      "grad_norm": 0.025510106321482855,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 5356
    },
    {
      "epoch": 1.0857066666666666,
      "grad_norm": 0.026442092484198303,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 5357
    },
    {
      "epoch": 1.08576,
      "grad_norm": 0.024784076146785492,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5358
    },
    {
      "epoch": 1.0858133333333333,
      "grad_norm": 0.025018399599153723,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5359
    },
    {
      "epoch": 1.0858666666666668,
      "grad_norm": 0.025013926898957543,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 5360
    },
    {
      "epoch": 1.08592,
      "grad_norm": 0.02447246363797203,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 5361
    },
    {
      "epoch": 1.0859733333333332,
      "grad_norm": 0.024433468146005027,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 5362
    },
    {
      "epoch": 1.0860266666666667,
      "grad_norm": 0.02644352761663835,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5363
    },
    {
      "epoch": 1.08608,
      "grad_norm": 0.024352974144211437,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 5364
    },
    {
      "epoch": 1.0861333333333334,
      "grad_norm": 0.024798678635210007,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 5365
    },
    {
      "epoch": 1.0861866666666666,
      "grad_norm": 0.02505191942233212,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 5366
    },
    {
      "epoch": 1.08624,
      "grad_norm": 0.024996038481383355,
      "learning_rate": 0.0001,
      "loss": 0.902,
      "step": 5367
    },
    {
      "epoch": 1.0862933333333333,
      "grad_norm": 0.023053278259743643,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5368
    },
    {
      "epoch": 1.0863466666666666,
      "grad_norm": 0.024972726893054322,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 5369
    },
    {
      "epoch": 1.0864,
      "grad_norm": 0.025693243222708006,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 5370
    },
    {
      "epoch": 1.0864533333333333,
      "grad_norm": 0.02449217519163733,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 5371
    },
    {
      "epoch": 1.0865066666666667,
      "grad_norm": 0.02563057744620433,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 5372
    },
    {
      "epoch": 1.08656,
      "grad_norm": 0.024149620346383266,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 5373
    },
    {
      "epoch": 1.0866133333333334,
      "grad_norm": 0.026533522091168205,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 5374
    },
    {
      "epoch": 1.0866666666666667,
      "grad_norm": 0.02414943391925214,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 5375
    },
    {
      "epoch": 1.08672,
      "grad_norm": 0.025021303212912415,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 5376
    },
    {
      "epoch": 1.0867733333333334,
      "grad_norm": 0.026567666909216713,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 5377
    },
    {
      "epoch": 1.0868266666666666,
      "grad_norm": 0.025236826110992525,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 5378
    },
    {
      "epoch": 1.08688,
      "grad_norm": 0.02618787583234989,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 5379
    },
    {
      "epoch": 1.0869333333333333,
      "grad_norm": 0.025130382335461797,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5380
    },
    {
      "epoch": 1.0869866666666668,
      "grad_norm": 0.026283314548422504,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 5381
    },
    {
      "epoch": 1.08704,
      "grad_norm": 0.025166173561106064,
      "learning_rate": 0.0001,
      "loss": 1.0352,
      "step": 5382
    },
    {
      "epoch": 1.0870933333333332,
      "grad_norm": 0.0254211805339721,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 5383
    },
    {
      "epoch": 1.0871466666666667,
      "grad_norm": 0.024395632773566208,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 5384
    },
    {
      "epoch": 1.0872,
      "grad_norm": 0.026257025937105702,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 5385
    },
    {
      "epoch": 1.0872533333333334,
      "grad_norm": 0.027387356422299225,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 5386
    },
    {
      "epoch": 1.0873066666666666,
      "grad_norm": 0.024420624822488784,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 5387
    },
    {
      "epoch": 1.0873599999999999,
      "grad_norm": 0.02734236772244979,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 5388
    },
    {
      "epoch": 1.0874133333333333,
      "grad_norm": 0.02361446751439596,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 5389
    },
    {
      "epoch": 1.0874666666666666,
      "grad_norm": 0.024927502897051746,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5390
    },
    {
      "epoch": 1.08752,
      "grad_norm": 0.02552577316148973,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5391
    },
    {
      "epoch": 1.0875733333333333,
      "grad_norm": 0.02300394647804756,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5392
    },
    {
      "epoch": 1.0876266666666667,
      "grad_norm": 0.02592992979583403,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 5393
    },
    {
      "epoch": 1.08768,
      "grad_norm": 0.024031486040159238,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 5394
    },
    {
      "epoch": 1.0877333333333334,
      "grad_norm": 0.024070061247227326,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 5395
    },
    {
      "epoch": 1.0877866666666667,
      "grad_norm": 0.022553830932739702,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 5396
    },
    {
      "epoch": 1.08784,
      "grad_norm": 0.02563667349521712,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 5397
    },
    {
      "epoch": 1.0878933333333334,
      "grad_norm": 0.02342864423376892,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 5398
    },
    {
      "epoch": 1.0879466666666666,
      "grad_norm": 0.024095744759494494,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5399
    },
    {
      "epoch": 1.088,
      "grad_norm": 0.02495146061766215,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 5400
    },
    {
      "epoch": 1.088,
      "eval_accuracy": 0.6178257006654867,
      "eval_loss": 1.367598533630371,
      "eval_runtime": 63.3325,
      "eval_samples_per_second": 15.79,
      "eval_steps_per_second": 0.505,
      "step": 5400
    },
    {
      "epoch": 1.0880533333333333,
      "grad_norm": 0.026224537113231177,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 5401
    },
    {
      "epoch": 1.0881066666666666,
      "grad_norm": 0.025601732792011826,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 5402
    },
    {
      "epoch": 1.08816,
      "grad_norm": 0.023201105954557974,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 5403
    },
    {
      "epoch": 1.0882133333333333,
      "grad_norm": 0.024741836494257805,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5404
    },
    {
      "epoch": 1.0882666666666667,
      "grad_norm": 0.025199460644633583,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 5405
    },
    {
      "epoch": 1.08832,
      "grad_norm": 0.02309612830357707,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 5406
    },
    {
      "epoch": 1.0883733333333334,
      "grad_norm": 0.023735102714719396,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 5407
    },
    {
      "epoch": 1.0884266666666667,
      "grad_norm": 0.02482914382608947,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 5408
    },
    {
      "epoch": 1.0884800000000001,
      "grad_norm": 0.025343248333721192,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 5409
    },
    {
      "epoch": 1.0885333333333334,
      "grad_norm": 0.024348281477778188,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 5410
    },
    {
      "epoch": 1.0885866666666666,
      "grad_norm": 0.022926963523185316,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5411
    },
    {
      "epoch": 1.08864,
      "grad_norm": 0.024187696996960606,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 5412
    },
    {
      "epoch": 1.0886933333333333,
      "grad_norm": 0.024792651077237094,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 5413
    },
    {
      "epoch": 1.0887466666666668,
      "grad_norm": 0.02494666170137011,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 5414
    },
    {
      "epoch": 1.0888,
      "grad_norm": 0.02384801198646467,
      "learning_rate": 0.0001,
      "loss": 0.9112,
      "step": 5415
    },
    {
      "epoch": 1.0888533333333332,
      "grad_norm": 0.024319686936650094,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 5416
    },
    {
      "epoch": 1.0889066666666667,
      "grad_norm": 0.025130572400233187,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 5417
    },
    {
      "epoch": 1.08896,
      "grad_norm": 0.023886618955775898,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 5418
    },
    {
      "epoch": 1.0890133333333334,
      "grad_norm": 0.02352342565718151,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5419
    },
    {
      "epoch": 1.0890666666666666,
      "grad_norm": 0.02366827389206715,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 5420
    },
    {
      "epoch": 1.08912,
      "grad_norm": 0.02367958789660692,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 5421
    },
    {
      "epoch": 1.0891733333333333,
      "grad_norm": 0.02461895470602719,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 5422
    },
    {
      "epoch": 1.0892266666666666,
      "grad_norm": 0.023972593012761816,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 5423
    },
    {
      "epoch": 1.08928,
      "grad_norm": 0.02432821547324431,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 5424
    },
    {
      "epoch": 1.0893333333333333,
      "grad_norm": 0.024156709701936115,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5425
    },
    {
      "epoch": 1.0893866666666667,
      "grad_norm": 0.023556472225441473,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 5426
    },
    {
      "epoch": 1.08944,
      "grad_norm": 0.025053548354886553,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 5427
    },
    {
      "epoch": 1.0894933333333334,
      "grad_norm": 0.024466834334306176,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 5428
    },
    {
      "epoch": 1.0895466666666667,
      "grad_norm": 0.024203978424825492,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5429
    },
    {
      "epoch": 1.0896,
      "grad_norm": 0.02614689206315233,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 5430
    },
    {
      "epoch": 1.0896533333333334,
      "grad_norm": 0.024320664826792477,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 5431
    },
    {
      "epoch": 1.0897066666666666,
      "grad_norm": 0.0245692734163972,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5432
    },
    {
      "epoch": 1.08976,
      "grad_norm": 0.024932726612747202,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 5433
    },
    {
      "epoch": 1.0898133333333333,
      "grad_norm": 0.023510111109406026,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 5434
    },
    {
      "epoch": 1.0898666666666668,
      "grad_norm": 0.024115911620074815,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 5435
    },
    {
      "epoch": 1.08992,
      "grad_norm": 0.026153199679287673,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5436
    },
    {
      "epoch": 1.0899733333333332,
      "grad_norm": 0.02539074759597056,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 5437
    },
    {
      "epoch": 1.0900266666666667,
      "grad_norm": 0.022792275167629078,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5438
    },
    {
      "epoch": 1.09008,
      "grad_norm": 0.02328735690049007,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 5439
    },
    {
      "epoch": 1.0901333333333334,
      "grad_norm": 0.025882206337241163,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 5440
    },
    {
      "epoch": 1.0901866666666666,
      "grad_norm": 0.024270793696704224,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 5441
    },
    {
      "epoch": 1.09024,
      "grad_norm": 0.025119120256480477,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5442
    },
    {
      "epoch": 1.0902933333333333,
      "grad_norm": 0.023912624526101187,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 5443
    },
    {
      "epoch": 1.0903466666666666,
      "grad_norm": 0.022620910837785578,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5444
    },
    {
      "epoch": 1.0904,
      "grad_norm": 0.025229680860955193,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5445
    },
    {
      "epoch": 1.0904533333333333,
      "grad_norm": 0.023531799012144906,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 5446
    },
    {
      "epoch": 1.0905066666666667,
      "grad_norm": 0.026610700778689336,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5447
    },
    {
      "epoch": 1.09056,
      "grad_norm": 0.023966339676864,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 5448
    },
    {
      "epoch": 1.0906133333333334,
      "grad_norm": 0.02436687284239219,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 5449
    },
    {
      "epoch": 1.0906666666666667,
      "grad_norm": 0.024478601058868316,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5450
    },
    {
      "epoch": 1.09072,
      "grad_norm": 0.02402488599794999,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 5451
    },
    {
      "epoch": 1.0907733333333334,
      "grad_norm": 0.0269656007515562,
      "learning_rate": 0.0001,
      "loss": 1.0239,
      "step": 5452
    },
    {
      "epoch": 1.0908266666666666,
      "grad_norm": 0.023725201654153885,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5453
    },
    {
      "epoch": 1.09088,
      "grad_norm": 0.02413305870649194,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 5454
    },
    {
      "epoch": 1.0909333333333333,
      "grad_norm": 0.025672618515907207,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 5455
    },
    {
      "epoch": 1.0909866666666668,
      "grad_norm": 0.02527717904014668,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 5456
    },
    {
      "epoch": 1.09104,
      "grad_norm": 0.024848495817988685,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5457
    },
    {
      "epoch": 1.0910933333333332,
      "grad_norm": 0.02358748069487493,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 5458
    },
    {
      "epoch": 1.0911466666666667,
      "grad_norm": 0.02350354511835056,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5459
    },
    {
      "epoch": 1.0912,
      "grad_norm": 0.02462044142797206,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5460
    },
    {
      "epoch": 1.0912533333333334,
      "grad_norm": 0.023736111059015342,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5461
    },
    {
      "epoch": 1.0913066666666666,
      "grad_norm": 0.023956371225173648,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 5462
    },
    {
      "epoch": 1.0913599999999999,
      "grad_norm": 0.025746858164159583,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 5463
    },
    {
      "epoch": 1.0914133333333333,
      "grad_norm": 0.02407267474699161,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 5464
    },
    {
      "epoch": 1.0914666666666666,
      "grad_norm": 0.025078672595403362,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5465
    },
    {
      "epoch": 1.09152,
      "grad_norm": 0.025313457038343607,
      "learning_rate": 0.0001,
      "loss": 1.0528,
      "step": 5466
    },
    {
      "epoch": 1.0915733333333333,
      "grad_norm": 0.026092883415715005,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 5467
    },
    {
      "epoch": 1.0916266666666667,
      "grad_norm": 0.024572573491396448,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 5468
    },
    {
      "epoch": 1.09168,
      "grad_norm": 0.027021746294949116,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 5469
    },
    {
      "epoch": 1.0917333333333334,
      "grad_norm": 0.025657355143453877,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5470
    },
    {
      "epoch": 1.0917866666666667,
      "grad_norm": 0.024589722872828998,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5471
    },
    {
      "epoch": 1.09184,
      "grad_norm": 0.02381835053729346,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 5472
    },
    {
      "epoch": 1.0918933333333334,
      "grad_norm": 0.024518800166704807,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 5473
    },
    {
      "epoch": 1.0919466666666666,
      "grad_norm": 0.024671508611492036,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5474
    },
    {
      "epoch": 1.092,
      "grad_norm": 0.02345440571504801,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5475
    },
    {
      "epoch": 1.0920533333333333,
      "grad_norm": 0.02515687847512022,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 5476
    },
    {
      "epoch": 1.0921066666666666,
      "grad_norm": 0.025980052149216358,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 5477
    },
    {
      "epoch": 1.09216,
      "grad_norm": 0.026338872160574574,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 5478
    },
    {
      "epoch": 1.0922133333333333,
      "grad_norm": 0.026729720347720337,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 5479
    },
    {
      "epoch": 1.0922666666666667,
      "grad_norm": 0.025831101893613106,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 5480
    },
    {
      "epoch": 1.09232,
      "grad_norm": 0.02440835320323529,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 5481
    },
    {
      "epoch": 1.0923733333333334,
      "grad_norm": 0.02495663615448202,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 5482
    },
    {
      "epoch": 1.0924266666666667,
      "grad_norm": 0.024397802027621093,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 5483
    },
    {
      "epoch": 1.0924800000000001,
      "grad_norm": 0.0243684812992055,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 5484
    },
    {
      "epoch": 1.0925333333333334,
      "grad_norm": 0.02556607749782903,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 5485
    },
    {
      "epoch": 1.0925866666666666,
      "grad_norm": 0.025519487922027122,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 5486
    },
    {
      "epoch": 1.09264,
      "grad_norm": 0.025918421020721297,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 5487
    },
    {
      "epoch": 1.0926933333333333,
      "grad_norm": 0.025960295187532657,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 5488
    },
    {
      "epoch": 1.0927466666666668,
      "grad_norm": 0.024648554929595633,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 5489
    },
    {
      "epoch": 1.0928,
      "grad_norm": 0.025293776161721047,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 5490
    },
    {
      "epoch": 1.0928533333333332,
      "grad_norm": 0.028177915555077808,
      "learning_rate": 0.0001,
      "loss": 0.8743,
      "step": 5491
    },
    {
      "epoch": 1.0929066666666667,
      "grad_norm": 0.024112960750611614,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 5492
    },
    {
      "epoch": 1.09296,
      "grad_norm": 0.025509482477980194,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 5493
    },
    {
      "epoch": 1.0930133333333334,
      "grad_norm": 0.028507720205317326,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 5494
    },
    {
      "epoch": 1.0930666666666666,
      "grad_norm": 0.02429294420923327,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 5495
    },
    {
      "epoch": 1.09312,
      "grad_norm": 0.026587288783749274,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 5496
    },
    {
      "epoch": 1.0931733333333333,
      "grad_norm": 0.02561311400589922,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 5497
    },
    {
      "epoch": 1.0932266666666666,
      "grad_norm": 0.02686784394429803,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 5498
    },
    {
      "epoch": 1.09328,
      "grad_norm": 0.025079015337443465,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 5499
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 0.02323718849562416,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5500
    },
    {
      "epoch": 1.0933866666666667,
      "grad_norm": 0.024345687091664295,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5501
    },
    {
      "epoch": 1.09344,
      "grad_norm": 0.024207495952278255,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 5502
    },
    {
      "epoch": 1.0934933333333334,
      "grad_norm": 0.024313769875642047,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 5503
    },
    {
      "epoch": 1.0935466666666667,
      "grad_norm": 0.025327972583034992,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 5504
    },
    {
      "epoch": 1.0936,
      "grad_norm": 0.025052389289688514,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 5505
    },
    {
      "epoch": 1.0936533333333334,
      "grad_norm": 0.02386429648221201,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 5506
    },
    {
      "epoch": 1.0937066666666666,
      "grad_norm": 0.024641059537914876,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 5507
    },
    {
      "epoch": 1.09376,
      "grad_norm": 0.02423047945770857,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5508
    },
    {
      "epoch": 1.0938133333333333,
      "grad_norm": 0.02400645946069786,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5509
    },
    {
      "epoch": 1.0938666666666668,
      "grad_norm": 0.027153199835011965,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 5510
    },
    {
      "epoch": 1.09392,
      "grad_norm": 0.025305947636713472,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5511
    },
    {
      "epoch": 1.0939733333333332,
      "grad_norm": 0.02415912504660784,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 5512
    },
    {
      "epoch": 1.0940266666666667,
      "grad_norm": 0.02281209968910904,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5513
    },
    {
      "epoch": 1.09408,
      "grad_norm": 0.02539451166075499,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5514
    },
    {
      "epoch": 1.0941333333333334,
      "grad_norm": 0.023732536477669264,
      "learning_rate": 0.0001,
      "loss": 0.8877,
      "step": 5515
    },
    {
      "epoch": 1.0941866666666666,
      "grad_norm": 0.025433957947910747,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 5516
    },
    {
      "epoch": 1.09424,
      "grad_norm": 0.024349360944002307,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 5517
    },
    {
      "epoch": 1.0942933333333333,
      "grad_norm": 0.024079554256786904,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 5518
    },
    {
      "epoch": 1.0943466666666666,
      "grad_norm": 0.02540603590913862,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 5519
    },
    {
      "epoch": 1.0944,
      "grad_norm": 0.025205490515330112,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 5520
    },
    {
      "epoch": 1.0944533333333333,
      "grad_norm": 0.025192362313165743,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 5521
    },
    {
      "epoch": 1.0945066666666667,
      "grad_norm": 0.02389534395200932,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5522
    },
    {
      "epoch": 1.09456,
      "grad_norm": 0.026009713596987845,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 5523
    },
    {
      "epoch": 1.0946133333333332,
      "grad_norm": 0.026706366973114945,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 5524
    },
    {
      "epoch": 1.0946666666666667,
      "grad_norm": 0.025290129776536014,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 5525
    },
    {
      "epoch": 1.09472,
      "grad_norm": 0.024157523645464012,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 5526
    },
    {
      "epoch": 1.0947733333333334,
      "grad_norm": 0.0245954610327734,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 5527
    },
    {
      "epoch": 1.0948266666666666,
      "grad_norm": 0.026173827662226718,
      "learning_rate": 0.0001,
      "loss": 1.0709,
      "step": 5528
    },
    {
      "epoch": 1.09488,
      "grad_norm": 0.023698757322461364,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5529
    },
    {
      "epoch": 1.0949333333333333,
      "grad_norm": 0.026627898727698572,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5530
    },
    {
      "epoch": 1.0949866666666668,
      "grad_norm": 0.023516227530357883,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 5531
    },
    {
      "epoch": 1.09504,
      "grad_norm": 0.0258707525867235,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 5532
    },
    {
      "epoch": 1.0950933333333333,
      "grad_norm": 0.02380909662976778,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5533
    },
    {
      "epoch": 1.0951466666666667,
      "grad_norm": 0.02412126227757258,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 5534
    },
    {
      "epoch": 1.0952,
      "grad_norm": 0.023784390006525238,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5535
    },
    {
      "epoch": 1.0952533333333334,
      "grad_norm": 0.023908122287299584,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5536
    },
    {
      "epoch": 1.0953066666666667,
      "grad_norm": 0.02495327254541312,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 5537
    },
    {
      "epoch": 1.09536,
      "grad_norm": 0.022849704639174722,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5538
    },
    {
      "epoch": 1.0954133333333333,
      "grad_norm": 0.022978519698851823,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5539
    },
    {
      "epoch": 1.0954666666666666,
      "grad_norm": 0.025093078661226637,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 5540
    },
    {
      "epoch": 1.09552,
      "grad_norm": 0.02359525107410276,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 5541
    },
    {
      "epoch": 1.0955733333333333,
      "grad_norm": 0.024108005646971176,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 5542
    },
    {
      "epoch": 1.0956266666666667,
      "grad_norm": 0.025537429171524347,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 5543
    },
    {
      "epoch": 1.09568,
      "grad_norm": 0.02386427586929367,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5544
    },
    {
      "epoch": 1.0957333333333334,
      "grad_norm": 0.023058191467297803,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 5545
    },
    {
      "epoch": 1.0957866666666667,
      "grad_norm": 0.024275418636215376,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 5546
    },
    {
      "epoch": 1.09584,
      "grad_norm": 0.024037826177039312,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 5547
    },
    {
      "epoch": 1.0958933333333334,
      "grad_norm": 0.02364432305260219,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 5548
    },
    {
      "epoch": 1.0959466666666666,
      "grad_norm": 0.029566854805905457,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 5549
    },
    {
      "epoch": 1.096,
      "grad_norm": 0.02518245641346586,
      "learning_rate": 0.0001,
      "loss": 1.0744,
      "step": 5550
    },
    {
      "epoch": 1.0960533333333333,
      "grad_norm": 0.026726028700560144,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 5551
    },
    {
      "epoch": 1.0961066666666666,
      "grad_norm": 0.024232968064882086,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5552
    },
    {
      "epoch": 1.09616,
      "grad_norm": 0.024462718793837768,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 5553
    },
    {
      "epoch": 1.0962133333333333,
      "grad_norm": 0.023697338249250473,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5554
    },
    {
      "epoch": 1.0962666666666667,
      "grad_norm": 0.023920908668427162,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 5555
    },
    {
      "epoch": 1.09632,
      "grad_norm": 0.026159281605135594,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 5556
    },
    {
      "epoch": 1.0963733333333334,
      "grad_norm": 0.024465679634085833,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 5557
    },
    {
      "epoch": 1.0964266666666667,
      "grad_norm": 0.024314326937403305,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 5558
    },
    {
      "epoch": 1.09648,
      "grad_norm": 0.027373361697239394,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5559
    },
    {
      "epoch": 1.0965333333333334,
      "grad_norm": 0.0240621327077373,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 5560
    },
    {
      "epoch": 1.0965866666666666,
      "grad_norm": 0.025142646854822637,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5561
    },
    {
      "epoch": 1.09664,
      "grad_norm": 0.023181108916952076,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5562
    },
    {
      "epoch": 1.0966933333333333,
      "grad_norm": 0.024600812003252006,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 5563
    },
    {
      "epoch": 1.0967466666666668,
      "grad_norm": 0.023669023926223963,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "step": 5564
    },
    {
      "epoch": 1.0968,
      "grad_norm": 0.0237209850728578,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 5565
    },
    {
      "epoch": 1.0968533333333332,
      "grad_norm": 0.028992624386155748,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5566
    },
    {
      "epoch": 1.0969066666666667,
      "grad_norm": 0.024463736704119738,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 5567
    },
    {
      "epoch": 1.09696,
      "grad_norm": 0.024305595912931466,
      "learning_rate": 0.0001,
      "loss": 1.0543,
      "step": 5568
    },
    {
      "epoch": 1.0970133333333334,
      "grad_norm": 0.02619147535947587,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 5569
    },
    {
      "epoch": 1.0970666666666666,
      "grad_norm": 0.027049589456740544,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 5570
    },
    {
      "epoch": 1.09712,
      "grad_norm": 0.024151371207620335,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 5571
    },
    {
      "epoch": 1.0971733333333333,
      "grad_norm": 0.02515828925166502,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5572
    },
    {
      "epoch": 1.0972266666666666,
      "grad_norm": 0.025517565646948834,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 5573
    },
    {
      "epoch": 1.09728,
      "grad_norm": 0.024893452909516393,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 5574
    },
    {
      "epoch": 1.0973333333333333,
      "grad_norm": 0.024815765827224622,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 5575
    },
    {
      "epoch": 1.0973866666666667,
      "grad_norm": 0.025383650210339174,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 5576
    },
    {
      "epoch": 1.09744,
      "grad_norm": 0.02413081654084862,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5577
    },
    {
      "epoch": 1.0974933333333334,
      "grad_norm": 0.02846082244314978,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5578
    },
    {
      "epoch": 1.0975466666666667,
      "grad_norm": 0.025297815564696523,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 5579
    },
    {
      "epoch": 1.0976,
      "grad_norm": 0.024212633532749078,
      "learning_rate": 0.0001,
      "loss": 0.9084,
      "step": 5580
    },
    {
      "epoch": 1.0976533333333334,
      "grad_norm": 0.026204464622635305,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 5581
    },
    {
      "epoch": 1.0977066666666666,
      "grad_norm": 0.026529641022938713,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 5582
    },
    {
      "epoch": 1.09776,
      "grad_norm": 0.024222035290744282,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 5583
    },
    {
      "epoch": 1.0978133333333333,
      "grad_norm": 0.02720147677451512,
      "learning_rate": 0.0001,
      "loss": 0.9299,
      "step": 5584
    },
    {
      "epoch": 1.0978666666666668,
      "grad_norm": 0.025859668384330164,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 5585
    },
    {
      "epoch": 1.09792,
      "grad_norm": 0.024759258508085445,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 5586
    },
    {
      "epoch": 1.0979733333333332,
      "grad_norm": 0.026791484921885295,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 5587
    },
    {
      "epoch": 1.0980266666666667,
      "grad_norm": 0.025251806429387024,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 5588
    },
    {
      "epoch": 1.09808,
      "grad_norm": 0.025150275960437767,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 5589
    },
    {
      "epoch": 1.0981333333333334,
      "grad_norm": 0.02716835437695572,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 5590
    },
    {
      "epoch": 1.0981866666666666,
      "grad_norm": 0.04222119425145647,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 5591
    },
    {
      "epoch": 1.09824,
      "grad_norm": 0.02361710058004188,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 5592
    },
    {
      "epoch": 1.0982933333333333,
      "grad_norm": 0.026812891173321248,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 5593
    },
    {
      "epoch": 1.0983466666666666,
      "grad_norm": 0.024357590322644226,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 5594
    },
    {
      "epoch": 1.0984,
      "grad_norm": 0.024015343468942723,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 5595
    },
    {
      "epoch": 1.0984533333333333,
      "grad_norm": 0.02484493646718331,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 5596
    },
    {
      "epoch": 1.0985066666666667,
      "grad_norm": 0.024906538892755983,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 5597
    },
    {
      "epoch": 1.09856,
      "grad_norm": 0.025324817136249195,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 5598
    },
    {
      "epoch": 1.0986133333333332,
      "grad_norm": 0.024933350892388732,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5599
    },
    {
      "epoch": 1.0986666666666667,
      "grad_norm": 0.025556073803813823,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 5600
    },
    {
      "epoch": 1.0986666666666667,
      "eval_accuracy": 0.6178924385686356,
      "eval_loss": 1.3665144443511963,
      "eval_runtime": 62.4704,
      "eval_samples_per_second": 16.008,
      "eval_steps_per_second": 0.512,
      "step": 5600
    },
    {
      "epoch": 1.09872,
      "grad_norm": 0.022965628125048817,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 5601
    },
    {
      "epoch": 1.0987733333333334,
      "grad_norm": 0.026472139108689164,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5602
    },
    {
      "epoch": 1.0988266666666666,
      "grad_norm": 0.023245512185718263,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 5603
    },
    {
      "epoch": 1.09888,
      "grad_norm": 0.0237020922065763,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 5604
    },
    {
      "epoch": 1.0989333333333333,
      "grad_norm": 0.023382850068568852,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 5605
    },
    {
      "epoch": 1.0989866666666668,
      "grad_norm": 0.026205970827593975,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 5606
    },
    {
      "epoch": 1.09904,
      "grad_norm": 0.023289236472093456,
      "learning_rate": 0.0001,
      "loss": 0.8998,
      "step": 5607
    },
    {
      "epoch": 1.0990933333333333,
      "grad_norm": 0.025170868460205054,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 5608
    },
    {
      "epoch": 1.0991466666666667,
      "grad_norm": 0.024952962375621522,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 5609
    },
    {
      "epoch": 1.0992,
      "grad_norm": 0.023920236053097964,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 5610
    },
    {
      "epoch": 1.0992533333333334,
      "grad_norm": 0.024901945574898696,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 5611
    },
    {
      "epoch": 1.0993066666666667,
      "grad_norm": 0.023464531803288644,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 5612
    },
    {
      "epoch": 1.09936,
      "grad_norm": 0.025834052635356076,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 5613
    },
    {
      "epoch": 1.0994133333333334,
      "grad_norm": 0.022562124218375935,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 5614
    },
    {
      "epoch": 1.0994666666666666,
      "grad_norm": 0.023710194314329535,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5615
    },
    {
      "epoch": 1.09952,
      "grad_norm": 0.024191642781317118,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 5616
    },
    {
      "epoch": 1.0995733333333333,
      "grad_norm": 0.023512866656303907,
      "learning_rate": 0.0001,
      "loss": 0.935,
      "step": 5617
    },
    {
      "epoch": 1.0996266666666668,
      "grad_norm": 0.022034183796319117,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 5618
    },
    {
      "epoch": 1.09968,
      "grad_norm": 0.024091065126488304,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 5619
    },
    {
      "epoch": 1.0997333333333332,
      "grad_norm": 0.02631728433793347,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5620
    },
    {
      "epoch": 1.0997866666666667,
      "grad_norm": 0.023056178430352355,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 5621
    },
    {
      "epoch": 1.09984,
      "grad_norm": 0.02316053756039938,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 5622
    },
    {
      "epoch": 1.0998933333333334,
      "grad_norm": 0.024875854208064735,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 5623
    },
    {
      "epoch": 1.0999466666666666,
      "grad_norm": 0.04097373235686131,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 5624
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.024285001828013297,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5625
    },
    {
      "epoch": 1.1000533333333333,
      "grad_norm": 0.024307150573079313,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 5626
    },
    {
      "epoch": 1.1001066666666666,
      "grad_norm": 0.025045693615842104,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5627
    },
    {
      "epoch": 1.10016,
      "grad_norm": 0.02560254143130997,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 5628
    },
    {
      "epoch": 1.1002133333333333,
      "grad_norm": 0.02400245519884449,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 5629
    },
    {
      "epoch": 1.1002666666666667,
      "grad_norm": 0.02669355940761002,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 5630
    },
    {
      "epoch": 1.10032,
      "grad_norm": 0.026752987986533135,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 5631
    },
    {
      "epoch": 1.1003733333333334,
      "grad_norm": 0.02369763495097928,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 5632
    },
    {
      "epoch": 1.1004266666666667,
      "grad_norm": 0.023468803176476934,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 5633
    },
    {
      "epoch": 1.10048,
      "grad_norm": 0.02528860712090332,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 5634
    },
    {
      "epoch": 1.1005333333333334,
      "grad_norm": 0.02440177407730071,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 5635
    },
    {
      "epoch": 1.1005866666666666,
      "grad_norm": 0.025484259026444595,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 5636
    },
    {
      "epoch": 1.10064,
      "grad_norm": 0.02388397905005154,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 5637
    },
    {
      "epoch": 1.1006933333333333,
      "grad_norm": 0.024472034579618985,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 5638
    },
    {
      "epoch": 1.1007466666666668,
      "grad_norm": 0.023661322553545076,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5639
    },
    {
      "epoch": 1.1008,
      "grad_norm": 0.02432118609880922,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 5640
    },
    {
      "epoch": 1.1008533333333332,
      "grad_norm": 0.02266564509495085,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5641
    },
    {
      "epoch": 1.1009066666666667,
      "grad_norm": 0.02285050556508099,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 5642
    },
    {
      "epoch": 1.10096,
      "grad_norm": 0.024718541652846194,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 5643
    },
    {
      "epoch": 1.1010133333333334,
      "grad_norm": 0.024325225605557617,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 5644
    },
    {
      "epoch": 1.1010666666666666,
      "grad_norm": 0.02601902816423476,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 5645
    },
    {
      "epoch": 1.10112,
      "grad_norm": 0.02504433368430826,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 5646
    },
    {
      "epoch": 1.1011733333333333,
      "grad_norm": 0.023961213857143518,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 5647
    },
    {
      "epoch": 1.1012266666666666,
      "grad_norm": 0.024519096485024965,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 5648
    },
    {
      "epoch": 1.10128,
      "grad_norm": 0.02386774963871836,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 5649
    },
    {
      "epoch": 1.1013333333333333,
      "grad_norm": 0.02486710715458161,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 5650
    },
    {
      "epoch": 1.1013866666666667,
      "grad_norm": 0.025655902439552087,
      "learning_rate": 0.0001,
      "loss": 0.9104,
      "step": 5651
    },
    {
      "epoch": 1.10144,
      "grad_norm": 0.024209910444680963,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 5652
    },
    {
      "epoch": 1.1014933333333334,
      "grad_norm": 0.02365821642766958,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 5653
    },
    {
      "epoch": 1.1015466666666667,
      "grad_norm": 0.023137532311931094,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5654
    },
    {
      "epoch": 1.1016,
      "grad_norm": 0.023284460889304213,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 5655
    },
    {
      "epoch": 1.1016533333333334,
      "grad_norm": 0.024209516433346834,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 5656
    },
    {
      "epoch": 1.1017066666666666,
      "grad_norm": 0.023466482888525757,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 5657
    },
    {
      "epoch": 1.10176,
      "grad_norm": 0.024217456320927942,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 5658
    },
    {
      "epoch": 1.1018133333333333,
      "grad_norm": 0.024565920121169336,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 5659
    },
    {
      "epoch": 1.1018666666666665,
      "grad_norm": 0.02342100197632389,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5660
    },
    {
      "epoch": 1.10192,
      "grad_norm": 0.024330382686747854,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 5661
    },
    {
      "epoch": 1.1019733333333332,
      "grad_norm": 0.024062921277976528,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 5662
    },
    {
      "epoch": 1.1020266666666667,
      "grad_norm": 0.02495393327272086,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 5663
    },
    {
      "epoch": 1.10208,
      "grad_norm": 0.02478337815861847,
      "learning_rate": 0.0001,
      "loss": 1.045,
      "step": 5664
    },
    {
      "epoch": 1.1021333333333334,
      "grad_norm": 0.025423483293232903,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 5665
    },
    {
      "epoch": 1.1021866666666666,
      "grad_norm": 0.023271677431051886,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5666
    },
    {
      "epoch": 1.10224,
      "grad_norm": 0.024798632182202966,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 5667
    },
    {
      "epoch": 1.1022933333333333,
      "grad_norm": 0.02440337625812419,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 5668
    },
    {
      "epoch": 1.1023466666666666,
      "grad_norm": 0.024411119992089392,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 5669
    },
    {
      "epoch": 1.1024,
      "grad_norm": 0.02415166554067924,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 5670
    },
    {
      "epoch": 1.1024533333333333,
      "grad_norm": 0.024125936384685468,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 5671
    },
    {
      "epoch": 1.1025066666666667,
      "grad_norm": 0.02412293592332795,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 5672
    },
    {
      "epoch": 1.10256,
      "grad_norm": 0.02521246944064526,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 5673
    },
    {
      "epoch": 1.1026133333333332,
      "grad_norm": 0.025340221371096136,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 5674
    },
    {
      "epoch": 1.1026666666666667,
      "grad_norm": 0.024926994059381827,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5675
    },
    {
      "epoch": 1.10272,
      "grad_norm": 0.024411539313029085,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 5676
    },
    {
      "epoch": 1.1027733333333334,
      "grad_norm": 0.023450991124520666,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5677
    },
    {
      "epoch": 1.1028266666666666,
      "grad_norm": 0.025732116443767352,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 5678
    },
    {
      "epoch": 1.10288,
      "grad_norm": 0.026494104272060292,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 5679
    },
    {
      "epoch": 1.1029333333333333,
      "grad_norm": 0.024531821937277997,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 5680
    },
    {
      "epoch": 1.1029866666666668,
      "grad_norm": 0.025096947491077777,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 5681
    },
    {
      "epoch": 1.10304,
      "grad_norm": 0.02592827766559877,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 5682
    },
    {
      "epoch": 1.1030933333333333,
      "grad_norm": 0.02760385133485528,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 5683
    },
    {
      "epoch": 1.1031466666666667,
      "grad_norm": 0.024224126691885783,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5684
    },
    {
      "epoch": 1.1032,
      "grad_norm": 0.023621459147206814,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 5685
    },
    {
      "epoch": 1.1032533333333334,
      "grad_norm": 0.02440945028811691,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5686
    },
    {
      "epoch": 1.1033066666666667,
      "grad_norm": 0.024181156285096,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 5687
    },
    {
      "epoch": 1.10336,
      "grad_norm": 0.02330791507532711,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 5688
    },
    {
      "epoch": 1.1034133333333334,
      "grad_norm": 0.02388764210599723,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 5689
    },
    {
      "epoch": 1.1034666666666666,
      "grad_norm": 0.02364940422439363,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 5690
    },
    {
      "epoch": 1.10352,
      "grad_norm": 0.023183852214704235,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 5691
    },
    {
      "epoch": 1.1035733333333333,
      "grad_norm": 0.024570049444391576,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "step": 5692
    },
    {
      "epoch": 1.1036266666666668,
      "grad_norm": 0.02341787883441545,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 5693
    },
    {
      "epoch": 1.10368,
      "grad_norm": 0.024902572765729655,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 5694
    },
    {
      "epoch": 1.1037333333333332,
      "grad_norm": 0.02435602600140661,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 5695
    },
    {
      "epoch": 1.1037866666666667,
      "grad_norm": 0.026308071697665955,
      "learning_rate": 0.0001,
      "loss": 0.8999,
      "step": 5696
    },
    {
      "epoch": 1.10384,
      "grad_norm": 0.02494326436076829,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 5697
    },
    {
      "epoch": 1.1038933333333334,
      "grad_norm": 0.025157043855064638,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5698
    },
    {
      "epoch": 1.1039466666666666,
      "grad_norm": 0.026308059333180884,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 5699
    },
    {
      "epoch": 1.104,
      "grad_norm": 0.02521876485267348,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5700
    },
    {
      "epoch": 1.1040533333333333,
      "grad_norm": 0.023480319742917578,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 5701
    },
    {
      "epoch": 1.1041066666666666,
      "grad_norm": 0.024290664139781582,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 5702
    },
    {
      "epoch": 1.10416,
      "grad_norm": 0.02467000089878983,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 5703
    },
    {
      "epoch": 1.1042133333333333,
      "grad_norm": 0.023176188003987897,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 5704
    },
    {
      "epoch": 1.1042666666666667,
      "grad_norm": 0.026799275692690475,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 5705
    },
    {
      "epoch": 1.10432,
      "grad_norm": 0.024609554791232047,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5706
    },
    {
      "epoch": 1.1043733333333334,
      "grad_norm": 0.0270970104228632,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 5707
    },
    {
      "epoch": 1.1044266666666667,
      "grad_norm": 0.024757157405666322,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 5708
    },
    {
      "epoch": 1.10448,
      "grad_norm": 0.024550443549874065,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 5709
    },
    {
      "epoch": 1.1045333333333334,
      "grad_norm": 0.025009958707557404,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 5710
    },
    {
      "epoch": 1.1045866666666666,
      "grad_norm": 0.024215540445977367,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5711
    },
    {
      "epoch": 1.10464,
      "grad_norm": 0.025262996005739682,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5712
    },
    {
      "epoch": 1.1046933333333333,
      "grad_norm": 0.024629455849490573,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 5713
    },
    {
      "epoch": 1.1047466666666668,
      "grad_norm": 0.02363729729718454,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 5714
    },
    {
      "epoch": 1.1048,
      "grad_norm": 0.023686001949631455,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 5715
    },
    {
      "epoch": 1.1048533333333332,
      "grad_norm": 0.02399599595005158,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 5716
    },
    {
      "epoch": 1.1049066666666667,
      "grad_norm": 0.02441392151610895,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5717
    },
    {
      "epoch": 1.10496,
      "grad_norm": 0.023255291406890977,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 5718
    },
    {
      "epoch": 1.1050133333333334,
      "grad_norm": 0.024156879083448966,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5719
    },
    {
      "epoch": 1.1050666666666666,
      "grad_norm": 0.023454716855884704,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 5720
    },
    {
      "epoch": 1.10512,
      "grad_norm": 0.02295148676410401,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 5721
    },
    {
      "epoch": 1.1051733333333333,
      "grad_norm": 0.023640334549520192,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 5722
    },
    {
      "epoch": 1.1052266666666666,
      "grad_norm": 0.025809829482070768,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 5723
    },
    {
      "epoch": 1.10528,
      "grad_norm": 0.02384290534851165,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5724
    },
    {
      "epoch": 1.1053333333333333,
      "grad_norm": 0.025198487285094294,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 5725
    },
    {
      "epoch": 1.1053866666666667,
      "grad_norm": 0.02521676293857615,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5726
    },
    {
      "epoch": 1.10544,
      "grad_norm": 0.024699814150043714,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 5727
    },
    {
      "epoch": 1.1054933333333334,
      "grad_norm": 0.024203783839079798,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 5728
    },
    {
      "epoch": 1.1055466666666667,
      "grad_norm": 0.023063648560891728,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 5729
    },
    {
      "epoch": 1.1056,
      "grad_norm": 0.024310417474311712,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 5730
    },
    {
      "epoch": 1.1056533333333334,
      "grad_norm": 0.026882691935326122,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 5731
    },
    {
      "epoch": 1.1057066666666666,
      "grad_norm": 0.02474679183841228,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 5732
    },
    {
      "epoch": 1.10576,
      "grad_norm": 0.02533442431845857,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 5733
    },
    {
      "epoch": 1.1058133333333333,
      "grad_norm": 0.025141255640614313,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 5734
    },
    {
      "epoch": 1.1058666666666666,
      "grad_norm": 0.025032733430675448,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 5735
    },
    {
      "epoch": 1.10592,
      "grad_norm": 0.02494299971457134,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 5736
    },
    {
      "epoch": 1.1059733333333333,
      "grad_norm": 0.027296097026488317,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 5737
    },
    {
      "epoch": 1.1060266666666667,
      "grad_norm": 0.027370291153779466,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 5738
    },
    {
      "epoch": 1.10608,
      "grad_norm": 0.027522947862159662,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 5739
    },
    {
      "epoch": 1.1061333333333334,
      "grad_norm": 0.027793441518620142,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5740
    },
    {
      "epoch": 1.1061866666666667,
      "grad_norm": 0.025424229440947455,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5741
    },
    {
      "epoch": 1.1062400000000001,
      "grad_norm": 0.025261919863052065,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5742
    },
    {
      "epoch": 1.1062933333333334,
      "grad_norm": 0.023263013108909228,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 5743
    },
    {
      "epoch": 1.1063466666666666,
      "grad_norm": 0.02291017317651826,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 5744
    },
    {
      "epoch": 1.1064,
      "grad_norm": 0.026768706182061522,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5745
    },
    {
      "epoch": 1.1064533333333333,
      "grad_norm": 0.022878302733354585,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 5746
    },
    {
      "epoch": 1.1065066666666667,
      "grad_norm": 0.024253017641403165,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 5747
    },
    {
      "epoch": 1.10656,
      "grad_norm": 0.023432666038394688,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 5748
    },
    {
      "epoch": 1.1066133333333332,
      "grad_norm": 0.024411630832018152,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5749
    },
    {
      "epoch": 1.1066666666666667,
      "grad_norm": 0.0267523866630653,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 5750
    },
    {
      "epoch": 1.10672,
      "grad_norm": 0.026075852380729795,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5751
    },
    {
      "epoch": 1.1067733333333334,
      "grad_norm": 0.025479383134180262,
      "learning_rate": 0.0001,
      "loss": 0.8971,
      "step": 5752
    },
    {
      "epoch": 1.1068266666666666,
      "grad_norm": 0.024962912718087933,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 5753
    },
    {
      "epoch": 1.10688,
      "grad_norm": 0.025486901538910527,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 5754
    },
    {
      "epoch": 1.1069333333333333,
      "grad_norm": 0.024552911565163843,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 5755
    },
    {
      "epoch": 1.1069866666666666,
      "grad_norm": 0.025762341215076888,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 5756
    },
    {
      "epoch": 1.10704,
      "grad_norm": 0.023682444809990297,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5757
    },
    {
      "epoch": 1.1070933333333333,
      "grad_norm": 0.02558908717459632,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 5758
    },
    {
      "epoch": 1.1071466666666667,
      "grad_norm": 0.023970197063280074,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 5759
    },
    {
      "epoch": 1.1072,
      "grad_norm": 0.023722267576210623,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 5760
    },
    {
      "epoch": 1.1072533333333334,
      "grad_norm": 0.02454350012026122,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 5761
    },
    {
      "epoch": 1.1073066666666667,
      "grad_norm": 0.023393909846020213,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5762
    },
    {
      "epoch": 1.10736,
      "grad_norm": 0.024021926876560056,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 5763
    },
    {
      "epoch": 1.1074133333333334,
      "grad_norm": 0.026831401906895803,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 5764
    },
    {
      "epoch": 1.1074666666666666,
      "grad_norm": 0.023289107944469943,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5765
    },
    {
      "epoch": 1.10752,
      "grad_norm": 0.025347058977415456,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 5766
    },
    {
      "epoch": 1.1075733333333333,
      "grad_norm": 0.02284190400671026,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 5767
    },
    {
      "epoch": 1.1076266666666668,
      "grad_norm": 0.026208403866262324,
      "learning_rate": 0.0001,
      "loss": 0.9137,
      "step": 5768
    },
    {
      "epoch": 1.10768,
      "grad_norm": 0.027119032919969983,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 5769
    },
    {
      "epoch": 1.1077333333333332,
      "grad_norm": 0.02399165137558722,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 5770
    },
    {
      "epoch": 1.1077866666666667,
      "grad_norm": 0.02731784115013912,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5771
    },
    {
      "epoch": 1.10784,
      "grad_norm": 0.02466814938655514,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 5772
    },
    {
      "epoch": 1.1078933333333334,
      "grad_norm": 0.026002274840438284,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 5773
    },
    {
      "epoch": 1.1079466666666666,
      "grad_norm": 0.023997827257462797,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5774
    },
    {
      "epoch": 1.108,
      "grad_norm": 0.024227286368251052,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5775
    },
    {
      "epoch": 1.1080533333333333,
      "grad_norm": 0.02601279025997172,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 5776
    },
    {
      "epoch": 1.1081066666666666,
      "grad_norm": 0.027863787243752717,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 5777
    },
    {
      "epoch": 1.10816,
      "grad_norm": 0.025476364650418328,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 5778
    },
    {
      "epoch": 1.1082133333333333,
      "grad_norm": 0.028007182867645856,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 5779
    },
    {
      "epoch": 1.1082666666666667,
      "grad_norm": 0.025110989738485186,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 5780
    },
    {
      "epoch": 1.10832,
      "grad_norm": 0.024014903962715207,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 5781
    },
    {
      "epoch": 1.1083733333333334,
      "grad_norm": 0.024711652409810714,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 5782
    },
    {
      "epoch": 1.1084266666666667,
      "grad_norm": 0.024631043875630063,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 5783
    },
    {
      "epoch": 1.10848,
      "grad_norm": 0.023958515321982156,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 5784
    },
    {
      "epoch": 1.1085333333333334,
      "grad_norm": 0.02433904360206574,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5785
    },
    {
      "epoch": 1.1085866666666666,
      "grad_norm": 0.02495867564205744,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 5786
    },
    {
      "epoch": 1.10864,
      "grad_norm": 0.023487135769021214,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 5787
    },
    {
      "epoch": 1.1086933333333333,
      "grad_norm": 0.026710257972031446,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 5788
    },
    {
      "epoch": 1.1087466666666668,
      "grad_norm": 0.024795015446326937,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 5789
    },
    {
      "epoch": 1.1088,
      "grad_norm": 0.024480103651101124,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5790
    },
    {
      "epoch": 1.1088533333333332,
      "grad_norm": 0.02484325153264851,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 5791
    },
    {
      "epoch": 1.1089066666666667,
      "grad_norm": 0.02408094449064151,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5792
    },
    {
      "epoch": 1.10896,
      "grad_norm": 0.02664191662956247,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5793
    },
    {
      "epoch": 1.1090133333333334,
      "grad_norm": 0.025859763644660982,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 5794
    },
    {
      "epoch": 1.1090666666666666,
      "grad_norm": 0.024489254810948803,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 5795
    },
    {
      "epoch": 1.1091199999999999,
      "grad_norm": 0.025744030634845164,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5796
    },
    {
      "epoch": 1.1091733333333333,
      "grad_norm": 0.02516039952234454,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 5797
    },
    {
      "epoch": 1.1092266666666666,
      "grad_norm": 0.024992922016709777,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 5798
    },
    {
      "epoch": 1.10928,
      "grad_norm": 0.023849702203761706,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5799
    },
    {
      "epoch": 1.1093333333333333,
      "grad_norm": 0.025170668375922873,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 5800
    },
    {
      "epoch": 1.1093333333333333,
      "eval_accuracy": 0.6182009414287016,
      "eval_loss": 1.3655881881713867,
      "eval_runtime": 63.2872,
      "eval_samples_per_second": 15.801,
      "eval_steps_per_second": 0.506,
      "step": 5800
    },
    {
      "epoch": 1.1093866666666667,
      "grad_norm": 0.025054542051416107,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 5801
    },
    {
      "epoch": 1.10944,
      "grad_norm": 0.024317428278769093,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 5802
    },
    {
      "epoch": 1.1094933333333334,
      "grad_norm": 0.025504314728592936,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 5803
    },
    {
      "epoch": 1.1095466666666667,
      "grad_norm": 0.025092001522056002,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5804
    },
    {
      "epoch": 1.1096,
      "grad_norm": 0.024324796537428837,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 5805
    },
    {
      "epoch": 1.1096533333333334,
      "grad_norm": 0.025284019604956756,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5806
    },
    {
      "epoch": 1.1097066666666666,
      "grad_norm": 0.02574916691093276,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 5807
    },
    {
      "epoch": 1.10976,
      "grad_norm": 0.02463419970501748,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5808
    },
    {
      "epoch": 1.1098133333333333,
      "grad_norm": 0.02468322217649787,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 5809
    },
    {
      "epoch": 1.1098666666666666,
      "grad_norm": 0.024669281612101326,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5810
    },
    {
      "epoch": 1.10992,
      "grad_norm": 0.024767611395539506,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5811
    },
    {
      "epoch": 1.1099733333333333,
      "grad_norm": 0.023285716624338225,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5812
    },
    {
      "epoch": 1.1100266666666667,
      "grad_norm": 0.02756785611804421,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5813
    },
    {
      "epoch": 1.11008,
      "grad_norm": 0.0258655839152441,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5814
    },
    {
      "epoch": 1.1101333333333334,
      "grad_norm": 0.02483086174542267,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5815
    },
    {
      "epoch": 1.1101866666666667,
      "grad_norm": 0.022416342381026827,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 5816
    },
    {
      "epoch": 1.1102400000000001,
      "grad_norm": 0.02371497575266575,
      "learning_rate": 0.0001,
      "loss": 0.9253,
      "step": 5817
    },
    {
      "epoch": 1.1102933333333334,
      "grad_norm": 0.02509851553564867,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 5818
    },
    {
      "epoch": 1.1103466666666666,
      "grad_norm": 0.023170080798750502,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5819
    },
    {
      "epoch": 1.1104,
      "grad_norm": 0.02489162874876585,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 5820
    },
    {
      "epoch": 1.1104533333333333,
      "grad_norm": 0.02698251126135709,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 5821
    },
    {
      "epoch": 1.1105066666666668,
      "grad_norm": 0.02395938112898078,
      "learning_rate": 0.0001,
      "loss": 1.0352,
      "step": 5822
    },
    {
      "epoch": 1.11056,
      "grad_norm": 0.023449258715526673,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 5823
    },
    {
      "epoch": 1.1106133333333332,
      "grad_norm": 0.02347615878438622,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 5824
    },
    {
      "epoch": 1.1106666666666667,
      "grad_norm": 0.025746419398084537,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 5825
    },
    {
      "epoch": 1.11072,
      "grad_norm": 0.023732712537787495,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 5826
    },
    {
      "epoch": 1.1107733333333334,
      "grad_norm": 0.02567430580039889,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 5827
    },
    {
      "epoch": 1.1108266666666666,
      "grad_norm": 0.02632791948539354,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5828
    },
    {
      "epoch": 1.11088,
      "grad_norm": 0.02379585561231056,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5829
    },
    {
      "epoch": 1.1109333333333333,
      "grad_norm": 0.02491626948998343,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 5830
    },
    {
      "epoch": 1.1109866666666666,
      "grad_norm": 0.024919259025828953,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5831
    },
    {
      "epoch": 1.11104,
      "grad_norm": 0.024452444977629065,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5832
    },
    {
      "epoch": 1.1110933333333333,
      "grad_norm": 0.022512301695117823,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 5833
    },
    {
      "epoch": 1.1111466666666667,
      "grad_norm": 0.028277124938258895,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5834
    },
    {
      "epoch": 1.1112,
      "grad_norm": 0.026755158338158943,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 5835
    },
    {
      "epoch": 1.1112533333333334,
      "grad_norm": 0.02412643607301642,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 5836
    },
    {
      "epoch": 1.1113066666666667,
      "grad_norm": 0.0259115557313889,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 5837
    },
    {
      "epoch": 1.11136,
      "grad_norm": 0.02329279831865745,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 5838
    },
    {
      "epoch": 1.1114133333333334,
      "grad_norm": 0.027519338167603744,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 5839
    },
    {
      "epoch": 1.1114666666666666,
      "grad_norm": 0.02451102513474203,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 5840
    },
    {
      "epoch": 1.11152,
      "grad_norm": 0.023713899430765066,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 5841
    },
    {
      "epoch": 1.1115733333333333,
      "grad_norm": 0.02402120017223577,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 5842
    },
    {
      "epoch": 1.1116266666666668,
      "grad_norm": 0.02420327661217613,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5843
    },
    {
      "epoch": 1.11168,
      "grad_norm": 0.023272891946369615,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5844
    },
    {
      "epoch": 1.1117333333333332,
      "grad_norm": 0.02438404050455527,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 5845
    },
    {
      "epoch": 1.1117866666666667,
      "grad_norm": 0.024778589230012114,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 5846
    },
    {
      "epoch": 1.11184,
      "grad_norm": 0.025074667843837335,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 5847
    },
    {
      "epoch": 1.1118933333333334,
      "grad_norm": 0.02335524378200087,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 5848
    },
    {
      "epoch": 1.1119466666666666,
      "grad_norm": 0.026065333727846578,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 5849
    },
    {
      "epoch": 1.112,
      "grad_norm": 0.02694971212130911,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 5850
    },
    {
      "epoch": 1.1120533333333333,
      "grad_norm": 0.02283920621886357,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5851
    },
    {
      "epoch": 1.1121066666666666,
      "grad_norm": 0.025176800274640306,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 5852
    },
    {
      "epoch": 1.11216,
      "grad_norm": 0.024182989385497164,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5853
    },
    {
      "epoch": 1.1122133333333333,
      "grad_norm": 0.023041946305553583,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "step": 5854
    },
    {
      "epoch": 1.1122666666666667,
      "grad_norm": 0.02504923130281724,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5855
    },
    {
      "epoch": 1.11232,
      "grad_norm": 0.025329840477050548,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5856
    },
    {
      "epoch": 1.1123733333333334,
      "grad_norm": 0.0262925142162347,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 5857
    },
    {
      "epoch": 1.1124266666666667,
      "grad_norm": 0.024823281198054072,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5858
    },
    {
      "epoch": 1.11248,
      "grad_norm": 0.024566249075222934,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 5859
    },
    {
      "epoch": 1.1125333333333334,
      "grad_norm": 0.02367537248310708,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 5860
    },
    {
      "epoch": 1.1125866666666666,
      "grad_norm": 0.02501633535570611,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 5861
    },
    {
      "epoch": 1.11264,
      "grad_norm": 0.028011619853165345,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 5862
    },
    {
      "epoch": 1.1126933333333333,
      "grad_norm": 0.024483496468406266,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 5863
    },
    {
      "epoch": 1.1127466666666668,
      "grad_norm": 0.023518805880280647,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5864
    },
    {
      "epoch": 1.1128,
      "grad_norm": 0.023994863333668865,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5865
    },
    {
      "epoch": 1.1128533333333333,
      "grad_norm": 0.025932479653673905,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 5866
    },
    {
      "epoch": 1.1129066666666667,
      "grad_norm": 0.0238900959599984,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 5867
    },
    {
      "epoch": 1.11296,
      "grad_norm": 0.02335003158998613,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 5868
    },
    {
      "epoch": 1.1130133333333334,
      "grad_norm": 0.024968321895009252,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 5869
    },
    {
      "epoch": 1.1130666666666666,
      "grad_norm": 0.029764555370831215,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 5870
    },
    {
      "epoch": 1.1131199999999999,
      "grad_norm": 0.023375916794441984,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 5871
    },
    {
      "epoch": 1.1131733333333333,
      "grad_norm": 0.023342652294472445,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 5872
    },
    {
      "epoch": 1.1132266666666666,
      "grad_norm": 0.024215939320929244,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 5873
    },
    {
      "epoch": 1.11328,
      "grad_norm": 0.02546597475197924,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 5874
    },
    {
      "epoch": 1.1133333333333333,
      "grad_norm": 0.024720779102156643,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 5875
    },
    {
      "epoch": 1.1133866666666667,
      "grad_norm": 0.025270077244811024,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 5876
    },
    {
      "epoch": 1.11344,
      "grad_norm": 0.025514182921980634,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 5877
    },
    {
      "epoch": 1.1134933333333334,
      "grad_norm": 0.022735055631217513,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5878
    },
    {
      "epoch": 1.1135466666666667,
      "grad_norm": 0.024372719397667723,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5879
    },
    {
      "epoch": 1.1136,
      "grad_norm": 0.024139064418314433,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 5880
    },
    {
      "epoch": 1.1136533333333334,
      "grad_norm": 0.026046917376671173,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 5881
    },
    {
      "epoch": 1.1137066666666666,
      "grad_norm": 0.024666091145529402,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 5882
    },
    {
      "epoch": 1.11376,
      "grad_norm": 0.02405312826561245,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 5883
    },
    {
      "epoch": 1.1138133333333333,
      "grad_norm": 0.025849970860015715,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5884
    },
    {
      "epoch": 1.1138666666666666,
      "grad_norm": 0.025194055062102157,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 5885
    },
    {
      "epoch": 1.11392,
      "grad_norm": 0.02549671005670012,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 5886
    },
    {
      "epoch": 1.1139733333333333,
      "grad_norm": 0.023596048023300596,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5887
    },
    {
      "epoch": 1.1140266666666667,
      "grad_norm": 0.023072112951730884,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 5888
    },
    {
      "epoch": 1.11408,
      "grad_norm": 0.023469086430195678,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 5889
    },
    {
      "epoch": 1.1141333333333334,
      "grad_norm": 0.02438587066103468,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 5890
    },
    {
      "epoch": 1.1141866666666667,
      "grad_norm": 0.024930195486209932,
      "learning_rate": 0.0001,
      "loss": 0.9194,
      "step": 5891
    },
    {
      "epoch": 1.11424,
      "grad_norm": 0.02438642673165763,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5892
    },
    {
      "epoch": 1.1142933333333334,
      "grad_norm": 0.026166458450300925,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5893
    },
    {
      "epoch": 1.1143466666666666,
      "grad_norm": 0.024105710816736382,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 5894
    },
    {
      "epoch": 1.1144,
      "grad_norm": 0.02469416453501075,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 5895
    },
    {
      "epoch": 1.1144533333333333,
      "grad_norm": 0.023342164354857982,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 5896
    },
    {
      "epoch": 1.1145066666666668,
      "grad_norm": 0.02440905340918853,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 5897
    },
    {
      "epoch": 1.11456,
      "grad_norm": 0.02848188474118291,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5898
    },
    {
      "epoch": 1.1146133333333332,
      "grad_norm": 0.023255988257227248,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 5899
    },
    {
      "epoch": 1.1146666666666667,
      "grad_norm": 0.023939783647570653,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 5900
    },
    {
      "epoch": 1.11472,
      "grad_norm": 0.024062481061688998,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 5901
    },
    {
      "epoch": 1.1147733333333334,
      "grad_norm": 0.024188476743634432,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5902
    },
    {
      "epoch": 1.1148266666666666,
      "grad_norm": 0.024785775415722952,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 5903
    },
    {
      "epoch": 1.11488,
      "grad_norm": 0.02380051259747505,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 5904
    },
    {
      "epoch": 1.1149333333333333,
      "grad_norm": 0.021811826669405784,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 5905
    },
    {
      "epoch": 1.1149866666666666,
      "grad_norm": 0.02502050514455395,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5906
    },
    {
      "epoch": 1.11504,
      "grad_norm": 0.02470039293691687,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 5907
    },
    {
      "epoch": 1.1150933333333333,
      "grad_norm": 0.026511488099232802,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 5908
    },
    {
      "epoch": 1.1151466666666667,
      "grad_norm": 0.03282893120921153,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 5909
    },
    {
      "epoch": 1.1152,
      "grad_norm": 0.025315671725951533,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 5910
    },
    {
      "epoch": 1.1152533333333334,
      "grad_norm": 0.02387315802777819,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5911
    },
    {
      "epoch": 1.1153066666666667,
      "grad_norm": 0.025923789576962238,
      "learning_rate": 0.0001,
      "loss": 1.034,
      "step": 5912
    },
    {
      "epoch": 1.11536,
      "grad_norm": 0.023736441202909405,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 5913
    },
    {
      "epoch": 1.1154133333333334,
      "grad_norm": 0.023522364785144058,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 5914
    },
    {
      "epoch": 1.1154666666666666,
      "grad_norm": 0.025781041645689676,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 5915
    },
    {
      "epoch": 1.11552,
      "grad_norm": 0.023489291715648147,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5916
    },
    {
      "epoch": 1.1155733333333333,
      "grad_norm": 0.023178649466714274,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 5917
    },
    {
      "epoch": 1.1156266666666668,
      "grad_norm": 0.024967421233590855,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 5918
    },
    {
      "epoch": 1.11568,
      "grad_norm": 0.024452916801779273,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 5919
    },
    {
      "epoch": 1.1157333333333332,
      "grad_norm": 0.02470185095910496,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 5920
    },
    {
      "epoch": 1.1157866666666667,
      "grad_norm": 0.02612494689979026,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 5921
    },
    {
      "epoch": 1.11584,
      "grad_norm": 0.025166030896812516,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5922
    },
    {
      "epoch": 1.1158933333333334,
      "grad_norm": 0.02373893286070655,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 5923
    },
    {
      "epoch": 1.1159466666666666,
      "grad_norm": 0.023526329275517028,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5924
    },
    {
      "epoch": 1.116,
      "grad_norm": 0.02551595660749056,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 5925
    },
    {
      "epoch": 1.1160533333333333,
      "grad_norm": 0.02529241440443662,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 5926
    },
    {
      "epoch": 1.1161066666666666,
      "grad_norm": 0.02510435299372389,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 5927
    },
    {
      "epoch": 1.11616,
      "grad_norm": 0.02573894982504277,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 5928
    },
    {
      "epoch": 1.1162133333333333,
      "grad_norm": 0.02356310133640346,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 5929
    },
    {
      "epoch": 1.1162666666666667,
      "grad_norm": 0.024322592758736855,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5930
    },
    {
      "epoch": 1.11632,
      "grad_norm": 0.02549094495128183,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 5931
    },
    {
      "epoch": 1.1163733333333332,
      "grad_norm": 0.024997540818977527,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 5932
    },
    {
      "epoch": 1.1164266666666667,
      "grad_norm": 0.023645588342810563,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 5933
    },
    {
      "epoch": 1.11648,
      "grad_norm": 0.024586696323281015,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 5934
    },
    {
      "epoch": 1.1165333333333334,
      "grad_norm": 0.02334460096049282,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 5935
    },
    {
      "epoch": 1.1165866666666666,
      "grad_norm": 0.025186694844563765,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 5936
    },
    {
      "epoch": 1.11664,
      "grad_norm": 0.025471599130743674,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 5937
    },
    {
      "epoch": 1.1166933333333333,
      "grad_norm": 0.025923039344713423,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 5938
    },
    {
      "epoch": 1.1167466666666668,
      "grad_norm": 0.02705317224208427,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 5939
    },
    {
      "epoch": 1.1168,
      "grad_norm": 0.024810778333431503,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 5940
    },
    {
      "epoch": 1.1168533333333333,
      "grad_norm": 0.023636843666888084,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5941
    },
    {
      "epoch": 1.1169066666666667,
      "grad_norm": 0.023680301873923778,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 5942
    },
    {
      "epoch": 1.11696,
      "grad_norm": 0.025164740004557495,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 5943
    },
    {
      "epoch": 1.1170133333333334,
      "grad_norm": 0.021832322874211593,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5944
    },
    {
      "epoch": 1.1170666666666667,
      "grad_norm": 0.028343472549836057,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 5945
    },
    {
      "epoch": 1.11712,
      "grad_norm": 0.02455532027838161,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 5946
    },
    {
      "epoch": 1.1171733333333334,
      "grad_norm": 0.023688384443245693,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 5947
    },
    {
      "epoch": 1.1172266666666666,
      "grad_norm": 0.025442165756779378,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 5948
    },
    {
      "epoch": 1.11728,
      "grad_norm": 0.024057783358238518,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 5949
    },
    {
      "epoch": 1.1173333333333333,
      "grad_norm": 0.023559160986768704,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 5950
    },
    {
      "epoch": 1.1173866666666668,
      "grad_norm": 0.026069430500744294,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 5951
    },
    {
      "epoch": 1.11744,
      "grad_norm": 0.02528933554315585,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5952
    },
    {
      "epoch": 1.1174933333333334,
      "grad_norm": 0.024591998646919917,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 5953
    },
    {
      "epoch": 1.1175466666666667,
      "grad_norm": 0.023803522728687847,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 5954
    },
    {
      "epoch": 1.1176,
      "grad_norm": 0.023437289425729965,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 5955
    },
    {
      "epoch": 1.1176533333333334,
      "grad_norm": 0.02512819581475808,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5956
    },
    {
      "epoch": 1.1177066666666666,
      "grad_norm": 0.023553930759519608,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 5957
    },
    {
      "epoch": 1.11776,
      "grad_norm": 0.02471010083976714,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5958
    },
    {
      "epoch": 1.1178133333333333,
      "grad_norm": 0.023890978945947577,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 5959
    },
    {
      "epoch": 1.1178666666666666,
      "grad_norm": 0.022719686722798883,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 5960
    },
    {
      "epoch": 1.11792,
      "grad_norm": 0.024928643875970578,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 5961
    },
    {
      "epoch": 1.1179733333333333,
      "grad_norm": 0.024187524320133626,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 5962
    },
    {
      "epoch": 1.1180266666666667,
      "grad_norm": 0.023010009597304096,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 5963
    },
    {
      "epoch": 1.11808,
      "grad_norm": 0.025770329808923405,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 5964
    },
    {
      "epoch": 1.1181333333333334,
      "grad_norm": 0.02326110103783602,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 5965
    },
    {
      "epoch": 1.1181866666666667,
      "grad_norm": 0.0242362814737316,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 5966
    },
    {
      "epoch": 1.11824,
      "grad_norm": 0.023763691900696368,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 5967
    },
    {
      "epoch": 1.1182933333333334,
      "grad_norm": 0.022214671565407237,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5968
    },
    {
      "epoch": 1.1183466666666666,
      "grad_norm": 0.023997406499741927,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 5969
    },
    {
      "epoch": 1.1184,
      "grad_norm": 0.026364675221371054,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 5970
    },
    {
      "epoch": 1.1184533333333333,
      "grad_norm": 0.02497346291964689,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 5971
    },
    {
      "epoch": 1.1185066666666668,
      "grad_norm": 0.023994914662545077,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5972
    },
    {
      "epoch": 1.11856,
      "grad_norm": 0.025946145637369633,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5973
    },
    {
      "epoch": 1.1186133333333332,
      "grad_norm": 0.025087637207131624,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5974
    },
    {
      "epoch": 1.1186666666666667,
      "grad_norm": 0.028135445898069326,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 5975
    },
    {
      "epoch": 1.11872,
      "grad_norm": 0.02519388652607875,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 5976
    },
    {
      "epoch": 1.1187733333333334,
      "grad_norm": 0.026487001176472888,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5977
    },
    {
      "epoch": 1.1188266666666666,
      "grad_norm": 0.024526707499611125,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 5978
    },
    {
      "epoch": 1.11888,
      "grad_norm": 0.02449228509213342,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 5979
    },
    {
      "epoch": 1.1189333333333333,
      "grad_norm": 0.025577130289059655,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 5980
    },
    {
      "epoch": 1.1189866666666666,
      "grad_norm": 0.02395477208459,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 5981
    },
    {
      "epoch": 1.11904,
      "grad_norm": 0.023696082038063726,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 5982
    },
    {
      "epoch": 1.1190933333333333,
      "grad_norm": 0.024496516043729787,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 5983
    },
    {
      "epoch": 1.1191466666666667,
      "grad_norm": 0.026819693563996116,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 5984
    },
    {
      "epoch": 1.1192,
      "grad_norm": 0.024315839527815363,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 5985
    },
    {
      "epoch": 1.1192533333333334,
      "grad_norm": 0.02435610986004348,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 5986
    },
    {
      "epoch": 1.1193066666666667,
      "grad_norm": 0.025941478291374574,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 5987
    },
    {
      "epoch": 1.11936,
      "grad_norm": 0.025423181050290834,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 5988
    },
    {
      "epoch": 1.1194133333333334,
      "grad_norm": 0.023841892910702496,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 5989
    },
    {
      "epoch": 1.1194666666666666,
      "grad_norm": 0.024220934486526836,
      "learning_rate": 0.0001,
      "loss": 0.8823,
      "step": 5990
    },
    {
      "epoch": 1.11952,
      "grad_norm": 0.023916493470116623,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 5991
    },
    {
      "epoch": 1.1195733333333333,
      "grad_norm": 0.024003638362095847,
      "learning_rate": 0.0001,
      "loss": 0.8975,
      "step": 5992
    },
    {
      "epoch": 1.1196266666666668,
      "grad_norm": 0.025257647657716282,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 5993
    },
    {
      "epoch": 1.11968,
      "grad_norm": 0.023817106705764264,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 5994
    },
    {
      "epoch": 1.1197333333333332,
      "grad_norm": 0.024183624494873702,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 5995
    },
    {
      "epoch": 1.1197866666666667,
      "grad_norm": 0.02465108177104548,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 5996
    },
    {
      "epoch": 1.11984,
      "grad_norm": 0.024753519553122032,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5997
    },
    {
      "epoch": 1.1198933333333334,
      "grad_norm": 0.024227045145595625,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 5998
    },
    {
      "epoch": 1.1199466666666666,
      "grad_norm": 0.023363983402364598,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5999
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.023009824213017976,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6000
    },
    {
      "epoch": 1.12,
      "eval_accuracy": 0.6183114529312923,
      "eval_loss": 1.3644635677337646,
      "eval_runtime": 62.3296,
      "eval_samples_per_second": 16.044,
      "eval_steps_per_second": 0.513,
      "step": 6000
    },
    {
      "epoch": 1.1200533333333333,
      "grad_norm": 0.026111068847343433,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6001
    },
    {
      "epoch": 1.1201066666666666,
      "grad_norm": 0.02517448246061294,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 6002
    },
    {
      "epoch": 1.12016,
      "grad_norm": 0.023470320923546496,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 6003
    },
    {
      "epoch": 1.1202133333333333,
      "grad_norm": 0.024581931633538168,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 6004
    },
    {
      "epoch": 1.1202666666666667,
      "grad_norm": 0.02542269847506126,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 6005
    },
    {
      "epoch": 1.12032,
      "grad_norm": 0.02461495181342963,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 6006
    },
    {
      "epoch": 1.1203733333333332,
      "grad_norm": 0.024936951525056445,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 6007
    },
    {
      "epoch": 1.1204266666666667,
      "grad_norm": 0.023580510191206088,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 6008
    },
    {
      "epoch": 1.12048,
      "grad_norm": 0.022823630251138885,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 6009
    },
    {
      "epoch": 1.1205333333333334,
      "grad_norm": 0.02472076483055284,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 6010
    },
    {
      "epoch": 1.1205866666666666,
      "grad_norm": 0.022979227294491922,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 6011
    },
    {
      "epoch": 1.12064,
      "grad_norm": 0.022164063989539535,
      "learning_rate": 0.0001,
      "loss": 0.8615,
      "step": 6012
    },
    {
      "epoch": 1.1206933333333333,
      "grad_norm": 0.02450836953485121,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 6013
    },
    {
      "epoch": 1.1207466666666668,
      "grad_norm": 0.024371346851702884,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 6014
    },
    {
      "epoch": 1.1208,
      "grad_norm": 0.024205255573361954,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6015
    },
    {
      "epoch": 1.1208533333333333,
      "grad_norm": 0.02307162842576779,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 6016
    },
    {
      "epoch": 1.1209066666666667,
      "grad_norm": 0.024311077607782193,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6017
    },
    {
      "epoch": 1.12096,
      "grad_norm": 0.024355621290816816,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 6018
    },
    {
      "epoch": 1.1210133333333334,
      "grad_norm": 0.02495479196164724,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 6019
    },
    {
      "epoch": 1.1210666666666667,
      "grad_norm": 0.023140081012443074,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 6020
    },
    {
      "epoch": 1.12112,
      "grad_norm": 0.022668277615880573,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6021
    },
    {
      "epoch": 1.1211733333333334,
      "grad_norm": 0.024912704633046772,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 6022
    },
    {
      "epoch": 1.1212266666666666,
      "grad_norm": 0.023977191294880316,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 6023
    },
    {
      "epoch": 1.12128,
      "grad_norm": 0.027283254420610237,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 6024
    },
    {
      "epoch": 1.1213333333333333,
      "grad_norm": 0.023760982389956924,
      "learning_rate": 0.0001,
      "loss": 1.0564,
      "step": 6025
    },
    {
      "epoch": 1.1213866666666668,
      "grad_norm": 0.025792416960791636,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 6026
    },
    {
      "epoch": 1.12144,
      "grad_norm": 0.024871047667753773,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 6027
    },
    {
      "epoch": 1.1214933333333332,
      "grad_norm": 0.024285787341284684,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6028
    },
    {
      "epoch": 1.1215466666666667,
      "grad_norm": 0.02495529407029699,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 6029
    },
    {
      "epoch": 1.1216,
      "grad_norm": 0.02437606357048867,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 6030
    },
    {
      "epoch": 1.1216533333333334,
      "grad_norm": 0.024084019071030274,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 6031
    },
    {
      "epoch": 1.1217066666666666,
      "grad_norm": 0.024219278610886383,
      "learning_rate": 0.0001,
      "loss": 0.896,
      "step": 6032
    },
    {
      "epoch": 1.12176,
      "grad_norm": 0.023864409033548528,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 6033
    },
    {
      "epoch": 1.1218133333333333,
      "grad_norm": 0.025003297524975803,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 6034
    },
    {
      "epoch": 1.1218666666666666,
      "grad_norm": 0.023938998509968383,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 6035
    },
    {
      "epoch": 1.12192,
      "grad_norm": 0.02446376424360774,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 6036
    },
    {
      "epoch": 1.1219733333333333,
      "grad_norm": 0.025277468112871144,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 6037
    },
    {
      "epoch": 1.1220266666666667,
      "grad_norm": 0.02475370929813907,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 6038
    },
    {
      "epoch": 1.12208,
      "grad_norm": 0.024925789113269287,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 6039
    },
    {
      "epoch": 1.1221333333333334,
      "grad_norm": 0.0270460472303692,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 6040
    },
    {
      "epoch": 1.1221866666666667,
      "grad_norm": 0.024585384711934822,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6041
    },
    {
      "epoch": 1.12224,
      "grad_norm": 0.025038682339951997,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 6042
    },
    {
      "epoch": 1.1222933333333334,
      "grad_norm": 0.024926258415304412,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 6043
    },
    {
      "epoch": 1.1223466666666666,
      "grad_norm": 0.023981757306526713,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 6044
    },
    {
      "epoch": 1.1224,
      "grad_norm": 0.02320983230804631,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 6045
    },
    {
      "epoch": 1.1224533333333333,
      "grad_norm": 0.025164343176467548,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 6046
    },
    {
      "epoch": 1.1225066666666668,
      "grad_norm": 0.025433111491025572,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 6047
    },
    {
      "epoch": 1.12256,
      "grad_norm": 0.0223265644176758,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 6048
    },
    {
      "epoch": 1.1226133333333332,
      "grad_norm": 0.023186571991223485,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6049
    },
    {
      "epoch": 1.1226666666666667,
      "grad_norm": 0.02623039342849378,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 6050
    },
    {
      "epoch": 1.12272,
      "grad_norm": 0.023117770322666178,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 6051
    },
    {
      "epoch": 1.1227733333333334,
      "grad_norm": 0.023145080210056453,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 6052
    },
    {
      "epoch": 1.1228266666666666,
      "grad_norm": 0.02325204173811156,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 6053
    },
    {
      "epoch": 1.12288,
      "grad_norm": 0.02311550861223969,
      "learning_rate": 0.0001,
      "loss": 0.9097,
      "step": 6054
    },
    {
      "epoch": 1.1229333333333333,
      "grad_norm": 0.025021780513159418,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 6055
    },
    {
      "epoch": 1.1229866666666666,
      "grad_norm": 0.02281200586742871,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 6056
    },
    {
      "epoch": 1.12304,
      "grad_norm": 0.023590917739044866,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 6057
    },
    {
      "epoch": 1.1230933333333333,
      "grad_norm": 0.02583454650406388,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 6058
    },
    {
      "epoch": 1.1231466666666667,
      "grad_norm": 0.02423128074029217,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 6059
    },
    {
      "epoch": 1.1232,
      "grad_norm": 0.024363236004598887,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 6060
    },
    {
      "epoch": 1.1232533333333334,
      "grad_norm": 0.02548819200245024,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 6061
    },
    {
      "epoch": 1.1233066666666667,
      "grad_norm": 0.02393100922192328,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 6062
    },
    {
      "epoch": 1.12336,
      "grad_norm": 0.024216208035003916,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6063
    },
    {
      "epoch": 1.1234133333333334,
      "grad_norm": 0.024528310397937587,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6064
    },
    {
      "epoch": 1.1234666666666666,
      "grad_norm": 0.02349848673022574,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 6065
    },
    {
      "epoch": 1.12352,
      "grad_norm": 0.02361441541077125,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 6066
    },
    {
      "epoch": 1.1235733333333333,
      "grad_norm": 0.023063036694412203,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 6067
    },
    {
      "epoch": 1.1236266666666666,
      "grad_norm": 0.024923984022584524,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 6068
    },
    {
      "epoch": 1.12368,
      "grad_norm": 0.02443193174671285,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 6069
    },
    {
      "epoch": 1.1237333333333333,
      "grad_norm": 0.023668298431952457,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 6070
    },
    {
      "epoch": 1.1237866666666667,
      "grad_norm": 0.02488470210925742,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 6071
    },
    {
      "epoch": 1.12384,
      "grad_norm": 0.025805907715965328,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6072
    },
    {
      "epoch": 1.1238933333333334,
      "grad_norm": 0.025477100545841617,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 6073
    },
    {
      "epoch": 1.1239466666666666,
      "grad_norm": 0.022758288674456333,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 6074
    },
    {
      "epoch": 1.124,
      "grad_norm": 0.024151864042117298,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6075
    },
    {
      "epoch": 1.1240533333333333,
      "grad_norm": 0.025176434871005935,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 6076
    },
    {
      "epoch": 1.1241066666666666,
      "grad_norm": 0.023365188082869495,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6077
    },
    {
      "epoch": 1.12416,
      "grad_norm": 0.026567659140990508,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 6078
    },
    {
      "epoch": 1.1242133333333333,
      "grad_norm": 0.023966067201656213,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6079
    },
    {
      "epoch": 1.1242666666666667,
      "grad_norm": 0.021682254431922232,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6080
    },
    {
      "epoch": 1.12432,
      "grad_norm": 0.024738410270778208,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 6081
    },
    {
      "epoch": 1.1243733333333332,
      "grad_norm": 0.030232619647930673,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 6082
    },
    {
      "epoch": 1.1244266666666667,
      "grad_norm": 0.02734749327859642,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6083
    },
    {
      "epoch": 1.12448,
      "grad_norm": 0.02535893332748055,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6084
    },
    {
      "epoch": 1.1245333333333334,
      "grad_norm": 0.024013698409011897,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 6085
    },
    {
      "epoch": 1.1245866666666666,
      "grad_norm": 0.0257133005195854,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6086
    },
    {
      "epoch": 1.12464,
      "grad_norm": 0.026785549897715748,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 6087
    },
    {
      "epoch": 1.1246933333333333,
      "grad_norm": 0.023242032914863008,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 6088
    },
    {
      "epoch": 1.1247466666666668,
      "grad_norm": 0.025721373248724522,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 6089
    },
    {
      "epoch": 1.1248,
      "grad_norm": 0.023357480424529856,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 6090
    },
    {
      "epoch": 1.1248533333333333,
      "grad_norm": 0.024412467269085192,
      "learning_rate": 0.0001,
      "loss": 0.9038,
      "step": 6091
    },
    {
      "epoch": 1.1249066666666667,
      "grad_norm": 0.026155456730368867,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 6092
    },
    {
      "epoch": 1.12496,
      "grad_norm": 0.025461036010799073,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 6093
    },
    {
      "epoch": 1.1250133333333334,
      "grad_norm": 0.02433667320993162,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 6094
    },
    {
      "epoch": 1.1250666666666667,
      "grad_norm": 0.02522884207010873,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 6095
    },
    {
      "epoch": 1.12512,
      "grad_norm": 0.02488105842528394,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 6096
    },
    {
      "epoch": 1.1251733333333334,
      "grad_norm": 0.02644441159545943,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 6097
    },
    {
      "epoch": 1.1252266666666666,
      "grad_norm": 0.024119250928534435,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 6098
    },
    {
      "epoch": 1.12528,
      "grad_norm": 0.022850039345002696,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6099
    },
    {
      "epoch": 1.1253333333333333,
      "grad_norm": 0.026131544872740244,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6100
    },
    {
      "epoch": 1.1253866666666668,
      "grad_norm": 0.025100785661605597,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 6101
    },
    {
      "epoch": 1.12544,
      "grad_norm": 0.023191751949923522,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 6102
    },
    {
      "epoch": 1.1254933333333335,
      "grad_norm": 0.02291901236123668,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6103
    },
    {
      "epoch": 1.1255466666666667,
      "grad_norm": 0.024224498057176424,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 6104
    },
    {
      "epoch": 1.1256,
      "grad_norm": 0.022659981162381757,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 6105
    },
    {
      "epoch": 1.1256533333333334,
      "grad_norm": 0.024905839223880535,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 6106
    },
    {
      "epoch": 1.1257066666666666,
      "grad_norm": 0.024248503982309134,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 6107
    },
    {
      "epoch": 1.12576,
      "grad_norm": 0.02256962982459394,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6108
    },
    {
      "epoch": 1.1258133333333333,
      "grad_norm": 0.025145871260896346,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 6109
    },
    {
      "epoch": 1.1258666666666666,
      "grad_norm": 0.025487308597288184,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6110
    },
    {
      "epoch": 1.12592,
      "grad_norm": 0.023688098743784258,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 6111
    },
    {
      "epoch": 1.1259733333333333,
      "grad_norm": 0.02720305142404734,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 6112
    },
    {
      "epoch": 1.1260266666666667,
      "grad_norm": 0.02420060419211194,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 6113
    },
    {
      "epoch": 1.12608,
      "grad_norm": 0.024040665120437166,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 6114
    },
    {
      "epoch": 1.1261333333333332,
      "grad_norm": 0.022552286008086345,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 6115
    },
    {
      "epoch": 1.1261866666666667,
      "grad_norm": 0.026065602388786538,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 6116
    },
    {
      "epoch": 1.12624,
      "grad_norm": 0.02471755097170445,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 6117
    },
    {
      "epoch": 1.1262933333333334,
      "grad_norm": 0.022442759208468235,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 6118
    },
    {
      "epoch": 1.1263466666666666,
      "grad_norm": 0.024650044882784928,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 6119
    },
    {
      "epoch": 1.1264,
      "grad_norm": 0.022850336723151825,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 6120
    },
    {
      "epoch": 1.1264533333333333,
      "grad_norm": 0.023495321867095898,
      "learning_rate": 0.0001,
      "loss": 0.8973,
      "step": 6121
    },
    {
      "epoch": 1.1265066666666668,
      "grad_norm": 0.026489702841565543,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 6122
    },
    {
      "epoch": 1.12656,
      "grad_norm": 0.02592051906073953,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6123
    },
    {
      "epoch": 1.1266133333333332,
      "grad_norm": 0.024218815716228675,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 6124
    },
    {
      "epoch": 1.1266666666666667,
      "grad_norm": 0.02395802865784599,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 6125
    },
    {
      "epoch": 1.12672,
      "grad_norm": 0.023783164391936683,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6126
    },
    {
      "epoch": 1.1267733333333334,
      "grad_norm": 0.023718381523590227,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 6127
    },
    {
      "epoch": 1.1268266666666666,
      "grad_norm": 0.023638032357006674,
      "learning_rate": 0.0001,
      "loss": 0.9277,
      "step": 6128
    },
    {
      "epoch": 1.1268799999999999,
      "grad_norm": 0.02503764812833439,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 6129
    },
    {
      "epoch": 1.1269333333333333,
      "grad_norm": 0.022926698025235427,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 6130
    },
    {
      "epoch": 1.1269866666666666,
      "grad_norm": 0.02260598122252205,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 6131
    },
    {
      "epoch": 1.12704,
      "grad_norm": 0.024037076659709732,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 6132
    },
    {
      "epoch": 1.1270933333333333,
      "grad_norm": 0.023784090523349646,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 6133
    },
    {
      "epoch": 1.1271466666666667,
      "grad_norm": 0.025269687379305752,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 6134
    },
    {
      "epoch": 1.1272,
      "grad_norm": 0.02503274856190863,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 6135
    },
    {
      "epoch": 1.1272533333333334,
      "grad_norm": 0.023037683084154305,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6136
    },
    {
      "epoch": 1.1273066666666667,
      "grad_norm": 0.02626065038757913,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 6137
    },
    {
      "epoch": 1.12736,
      "grad_norm": 0.02540429770808406,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 6138
    },
    {
      "epoch": 1.1274133333333334,
      "grad_norm": 0.024089892844791624,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 6139
    },
    {
      "epoch": 1.1274666666666666,
      "grad_norm": 0.025525417951854958,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 6140
    },
    {
      "epoch": 1.12752,
      "grad_norm": 0.024979096260586937,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 6141
    },
    {
      "epoch": 1.1275733333333333,
      "grad_norm": 0.025244529004704287,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6142
    },
    {
      "epoch": 1.1276266666666666,
      "grad_norm": 0.024509688119205956,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 6143
    },
    {
      "epoch": 1.12768,
      "grad_norm": 0.025028287120394472,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 6144
    },
    {
      "epoch": 1.1277333333333333,
      "grad_norm": 0.0264418534708115,
      "learning_rate": 0.0001,
      "loss": 0.9192,
      "step": 6145
    },
    {
      "epoch": 1.1277866666666667,
      "grad_norm": 0.024920841984167386,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 6146
    },
    {
      "epoch": 1.12784,
      "grad_norm": 0.024811896460693792,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6147
    },
    {
      "epoch": 1.1278933333333334,
      "grad_norm": 0.023771161696275637,
      "learning_rate": 0.0001,
      "loss": 0.9159,
      "step": 6148
    },
    {
      "epoch": 1.1279466666666667,
      "grad_norm": 0.024243997816041873,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 6149
    },
    {
      "epoch": 1.1280000000000001,
      "grad_norm": 0.025412880561679257,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 6150
    },
    {
      "epoch": 1.1280533333333334,
      "grad_norm": 0.027928726497623783,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 6151
    },
    {
      "epoch": 1.1281066666666666,
      "grad_norm": 0.022233090055961573,
      "learning_rate": 0.0001,
      "loss": 0.936,
      "step": 6152
    },
    {
      "epoch": 1.12816,
      "grad_norm": 0.026755599038276158,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 6153
    },
    {
      "epoch": 1.1282133333333333,
      "grad_norm": 0.023081559877491737,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 6154
    },
    {
      "epoch": 1.1282666666666668,
      "grad_norm": 0.023814950844741833,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 6155
    },
    {
      "epoch": 1.12832,
      "grad_norm": 0.023605180229906028,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 6156
    },
    {
      "epoch": 1.1283733333333332,
      "grad_norm": 0.025111224493499885,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 6157
    },
    {
      "epoch": 1.1284266666666667,
      "grad_norm": 0.02425242370254257,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 6158
    },
    {
      "epoch": 1.12848,
      "grad_norm": 0.02601308310997367,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 6159
    },
    {
      "epoch": 1.1285333333333334,
      "grad_norm": 0.02415136379981654,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 6160
    },
    {
      "epoch": 1.1285866666666666,
      "grad_norm": 0.024838454495899505,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6161
    },
    {
      "epoch": 1.12864,
      "grad_norm": 0.024158128680993433,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 6162
    },
    {
      "epoch": 1.1286933333333333,
      "grad_norm": 0.024699254355516526,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 6163
    },
    {
      "epoch": 1.1287466666666668,
      "grad_norm": 0.02554673124672243,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 6164
    },
    {
      "epoch": 1.1288,
      "grad_norm": 0.024426187632880427,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 6165
    },
    {
      "epoch": 1.1288533333333333,
      "grad_norm": 0.026321459829796064,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 6166
    },
    {
      "epoch": 1.1289066666666667,
      "grad_norm": 0.023840216092616485,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 6167
    },
    {
      "epoch": 1.12896,
      "grad_norm": 0.02551228337121447,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 6168
    },
    {
      "epoch": 1.1290133333333334,
      "grad_norm": 0.022461522049469163,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 6169
    },
    {
      "epoch": 1.1290666666666667,
      "grad_norm": 0.02692177760310647,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6170
    },
    {
      "epoch": 1.12912,
      "grad_norm": 0.023942360882934305,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 6171
    },
    {
      "epoch": 1.1291733333333334,
      "grad_norm": 0.02503899256004894,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 6172
    },
    {
      "epoch": 1.1292266666666666,
      "grad_norm": 0.023654882548216554,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 6173
    },
    {
      "epoch": 1.12928,
      "grad_norm": 0.02553762042443435,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 6174
    },
    {
      "epoch": 1.1293333333333333,
      "grad_norm": 0.02385422998797272,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6175
    },
    {
      "epoch": 1.1293866666666668,
      "grad_norm": 0.025334634425684996,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 6176
    },
    {
      "epoch": 1.12944,
      "grad_norm": 0.028155287725483813,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 6177
    },
    {
      "epoch": 1.1294933333333332,
      "grad_norm": 0.024488475336720217,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6178
    },
    {
      "epoch": 1.1295466666666667,
      "grad_norm": 0.02641291845625174,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6179
    },
    {
      "epoch": 1.1296,
      "grad_norm": 0.027398434497250664,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 6180
    },
    {
      "epoch": 1.1296533333333334,
      "grad_norm": 0.023067012676708545,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 6181
    },
    {
      "epoch": 1.1297066666666666,
      "grad_norm": 0.024563008576837922,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 6182
    },
    {
      "epoch": 1.12976,
      "grad_norm": 0.02437301095109284,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 6183
    },
    {
      "epoch": 1.1298133333333333,
      "grad_norm": 0.030982068318175224,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 6184
    },
    {
      "epoch": 1.1298666666666666,
      "grad_norm": 0.02437734939862814,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 6185
    },
    {
      "epoch": 1.12992,
      "grad_norm": 0.02358691967933695,
      "learning_rate": 0.0001,
      "loss": 0.9331,
      "step": 6186
    },
    {
      "epoch": 1.1299733333333333,
      "grad_norm": 0.027353145036304614,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6187
    },
    {
      "epoch": 1.1300266666666667,
      "grad_norm": 0.023817086485990204,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 6188
    },
    {
      "epoch": 1.13008,
      "grad_norm": 0.02369949507919073,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 6189
    },
    {
      "epoch": 1.1301333333333332,
      "grad_norm": 0.024275952619615303,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6190
    },
    {
      "epoch": 1.1301866666666667,
      "grad_norm": 0.023039032526374438,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6191
    },
    {
      "epoch": 1.13024,
      "grad_norm": 0.02500086659048086,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 6192
    },
    {
      "epoch": 1.1302933333333334,
      "grad_norm": 0.02301590864901697,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 6193
    },
    {
      "epoch": 1.1303466666666666,
      "grad_norm": 0.02567149615224196,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 6194
    },
    {
      "epoch": 1.1304,
      "grad_norm": 0.025283142351649912,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6195
    },
    {
      "epoch": 1.1304533333333333,
      "grad_norm": 0.024873782018034293,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6196
    },
    {
      "epoch": 1.1305066666666668,
      "grad_norm": 0.025395101405061054,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 6197
    },
    {
      "epoch": 1.13056,
      "grad_norm": 0.024029624849588975,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 6198
    },
    {
      "epoch": 1.1306133333333332,
      "grad_norm": 0.02431843064479585,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 6199
    },
    {
      "epoch": 1.1306666666666667,
      "grad_norm": 0.0227029774440774,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 6200
    },
    {
      "epoch": 1.1306666666666667,
      "eval_accuracy": 0.6184966489289307,
      "eval_loss": 1.3635296821594238,
      "eval_runtime": 63.3817,
      "eval_samples_per_second": 15.777,
      "eval_steps_per_second": 0.505,
      "step": 6200
    },
    {
      "epoch": 1.13072,
      "grad_norm": 0.023810241535526994,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6201
    },
    {
      "epoch": 1.1307733333333334,
      "grad_norm": 0.02381625555295138,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6202
    },
    {
      "epoch": 1.1308266666666666,
      "grad_norm": 0.024893055141667484,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 6203
    },
    {
      "epoch": 1.1308799999999999,
      "grad_norm": 0.02380990459412209,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 6204
    },
    {
      "epoch": 1.1309333333333333,
      "grad_norm": 0.023741686907397395,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 6205
    },
    {
      "epoch": 1.1309866666666666,
      "grad_norm": 0.024816415182014447,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 6206
    },
    {
      "epoch": 1.13104,
      "grad_norm": 0.023456065702652715,
      "learning_rate": 0.0001,
      "loss": 0.8911,
      "step": 6207
    },
    {
      "epoch": 1.1310933333333333,
      "grad_norm": 0.02314931131221301,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 6208
    },
    {
      "epoch": 1.1311466666666667,
      "grad_norm": 0.026720757318299693,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 6209
    },
    {
      "epoch": 1.1312,
      "grad_norm": 0.024739752724987008,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 6210
    },
    {
      "epoch": 1.1312533333333334,
      "grad_norm": 0.024274034764124656,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6211
    },
    {
      "epoch": 1.1313066666666667,
      "grad_norm": 0.023097522245960744,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 6212
    },
    {
      "epoch": 1.13136,
      "grad_norm": 0.025720197284344364,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 6213
    },
    {
      "epoch": 1.1314133333333334,
      "grad_norm": 0.022501823846149457,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6214
    },
    {
      "epoch": 1.1314666666666666,
      "grad_norm": 0.02536686596682958,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 6215
    },
    {
      "epoch": 1.13152,
      "grad_norm": 0.02551174468030929,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 6216
    },
    {
      "epoch": 1.1315733333333333,
      "grad_norm": 0.023212498369046233,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 6217
    },
    {
      "epoch": 1.1316266666666666,
      "grad_norm": 0.026447963661568916,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 6218
    },
    {
      "epoch": 1.13168,
      "grad_norm": 0.025262156202335368,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 6219
    },
    {
      "epoch": 1.1317333333333333,
      "grad_norm": 0.023319604876406618,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 6220
    },
    {
      "epoch": 1.1317866666666667,
      "grad_norm": 0.024574509305105855,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 6221
    },
    {
      "epoch": 1.13184,
      "grad_norm": 0.023904010349038902,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 6222
    },
    {
      "epoch": 1.1318933333333334,
      "grad_norm": 0.027067100055024728,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 6223
    },
    {
      "epoch": 1.1319466666666667,
      "grad_norm": 0.023770460079688527,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 6224
    },
    {
      "epoch": 1.1320000000000001,
      "grad_norm": 0.023705172816230368,
      "learning_rate": 0.0001,
      "loss": 0.918,
      "step": 6225
    },
    {
      "epoch": 1.1320533333333334,
      "grad_norm": 0.02613152282660081,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 6226
    },
    {
      "epoch": 1.1321066666666666,
      "grad_norm": 0.025788615092379327,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 6227
    },
    {
      "epoch": 1.13216,
      "grad_norm": 0.02334815934504521,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 6228
    },
    {
      "epoch": 1.1322133333333333,
      "grad_norm": 0.023566546498926387,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6229
    },
    {
      "epoch": 1.1322666666666668,
      "grad_norm": 0.027101348354894497,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6230
    },
    {
      "epoch": 1.13232,
      "grad_norm": 0.023721203902675302,
      "learning_rate": 0.0001,
      "loss": 0.8889,
      "step": 6231
    },
    {
      "epoch": 1.1323733333333332,
      "grad_norm": 0.023726450509201025,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 6232
    },
    {
      "epoch": 1.1324266666666667,
      "grad_norm": 0.024917492630879095,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 6233
    },
    {
      "epoch": 1.13248,
      "grad_norm": 0.023610686883277703,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6234
    },
    {
      "epoch": 1.1325333333333334,
      "grad_norm": 0.023200103092173067,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6235
    },
    {
      "epoch": 1.1325866666666666,
      "grad_norm": 0.028454044777031836,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 6236
    },
    {
      "epoch": 1.13264,
      "grad_norm": 0.027446062884232937,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6237
    },
    {
      "epoch": 1.1326933333333333,
      "grad_norm": 0.025359955009642828,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 6238
    },
    {
      "epoch": 1.1327466666666668,
      "grad_norm": 0.026416662128823393,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6239
    },
    {
      "epoch": 1.1328,
      "grad_norm": 0.024024258075885964,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 6240
    },
    {
      "epoch": 1.1328533333333333,
      "grad_norm": 0.02455338558794006,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 6241
    },
    {
      "epoch": 1.1329066666666667,
      "grad_norm": 0.025239839718249918,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 6242
    },
    {
      "epoch": 1.13296,
      "grad_norm": 0.02248351355849562,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 6243
    },
    {
      "epoch": 1.1330133333333334,
      "grad_norm": 0.025514866032073126,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 6244
    },
    {
      "epoch": 1.1330666666666667,
      "grad_norm": 0.024949946459870583,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6245
    },
    {
      "epoch": 1.13312,
      "grad_norm": 0.022972560531962,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 6246
    },
    {
      "epoch": 1.1331733333333334,
      "grad_norm": 0.02474476971494049,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6247
    },
    {
      "epoch": 1.1332266666666666,
      "grad_norm": 0.026383987751659916,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6248
    },
    {
      "epoch": 1.13328,
      "grad_norm": 0.02496342811955565,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6249
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.023566542501435896,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 6250
    },
    {
      "epoch": 1.1333866666666665,
      "grad_norm": 0.02563228866347953,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6251
    },
    {
      "epoch": 1.13344,
      "grad_norm": 0.0232566425048362,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 6252
    },
    {
      "epoch": 1.1334933333333332,
      "grad_norm": 0.02602743465646449,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 6253
    },
    {
      "epoch": 1.1335466666666667,
      "grad_norm": 0.023474880851999766,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 6254
    },
    {
      "epoch": 1.1336,
      "grad_norm": 0.02467508931738061,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 6255
    },
    {
      "epoch": 1.1336533333333334,
      "grad_norm": 0.024554180095735564,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 6256
    },
    {
      "epoch": 1.1337066666666666,
      "grad_norm": 0.025028045286178226,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 6257
    },
    {
      "epoch": 1.13376,
      "grad_norm": 0.02435033852630937,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6258
    },
    {
      "epoch": 1.1338133333333333,
      "grad_norm": 0.02823130710231987,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 6259
    },
    {
      "epoch": 1.1338666666666666,
      "grad_norm": 0.025246701048993753,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 6260
    },
    {
      "epoch": 1.13392,
      "grad_norm": 0.02608428515814389,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 6261
    },
    {
      "epoch": 1.1339733333333333,
      "grad_norm": 0.024173936024423363,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6262
    },
    {
      "epoch": 1.1340266666666667,
      "grad_norm": 0.024870123371411326,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 6263
    },
    {
      "epoch": 1.13408,
      "grad_norm": 0.024336711709777952,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6264
    },
    {
      "epoch": 1.1341333333333332,
      "grad_norm": 0.024114020861607226,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 6265
    },
    {
      "epoch": 1.1341866666666667,
      "grad_norm": 0.02494917739101946,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 6266
    },
    {
      "epoch": 1.13424,
      "grad_norm": 0.02653453805781737,
      "learning_rate": 0.0001,
      "loss": 0.9493,
      "step": 6267
    },
    {
      "epoch": 1.1342933333333334,
      "grad_norm": 0.024309014515579392,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6268
    },
    {
      "epoch": 1.1343466666666666,
      "grad_norm": 0.024745950074251885,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 6269
    },
    {
      "epoch": 1.1344,
      "grad_norm": 0.026624318477129524,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 6270
    },
    {
      "epoch": 1.1344533333333333,
      "grad_norm": 0.028018918100180694,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "step": 6271
    },
    {
      "epoch": 1.1345066666666668,
      "grad_norm": 0.02424306459936888,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 6272
    },
    {
      "epoch": 1.13456,
      "grad_norm": 0.02786765784891461,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 6273
    },
    {
      "epoch": 1.1346133333333333,
      "grad_norm": 0.024557459398895913,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6274
    },
    {
      "epoch": 1.1346666666666667,
      "grad_norm": 0.026229883230482132,
      "learning_rate": 0.0001,
      "loss": 0.9177,
      "step": 6275
    },
    {
      "epoch": 1.13472,
      "grad_norm": 0.027690034203638483,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6276
    },
    {
      "epoch": 1.1347733333333334,
      "grad_norm": 0.025068438814169723,
      "learning_rate": 0.0001,
      "loss": 0.9087,
      "step": 6277
    },
    {
      "epoch": 1.1348266666666667,
      "grad_norm": 0.02745221416528204,
      "learning_rate": 0.0001,
      "loss": 0.8997,
      "step": 6278
    },
    {
      "epoch": 1.1348799999999999,
      "grad_norm": 0.02590812577855964,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 6279
    },
    {
      "epoch": 1.1349333333333333,
      "grad_norm": 0.027912998856617084,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 6280
    },
    {
      "epoch": 1.1349866666666666,
      "grad_norm": 0.024154070761963416,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 6281
    },
    {
      "epoch": 1.13504,
      "grad_norm": 0.02511778483090487,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 6282
    },
    {
      "epoch": 1.1350933333333333,
      "grad_norm": 0.025119192115491278,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6283
    },
    {
      "epoch": 1.1351466666666667,
      "grad_norm": 0.026775306196735568,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 6284
    },
    {
      "epoch": 1.1352,
      "grad_norm": 0.024915579578611048,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 6285
    },
    {
      "epoch": 1.1352533333333334,
      "grad_norm": 0.023032899350952634,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 6286
    },
    {
      "epoch": 1.1353066666666667,
      "grad_norm": 0.02394654252202087,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 6287
    },
    {
      "epoch": 1.13536,
      "grad_norm": 0.02418217759788644,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 6288
    },
    {
      "epoch": 1.1354133333333334,
      "grad_norm": 0.025836032682371023,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6289
    },
    {
      "epoch": 1.1354666666666666,
      "grad_norm": 0.022899282435598346,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 6290
    },
    {
      "epoch": 1.13552,
      "grad_norm": 0.022678063920103787,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 6291
    },
    {
      "epoch": 1.1355733333333333,
      "grad_norm": 0.024033479384927853,
      "learning_rate": 0.0001,
      "loss": 0.9099,
      "step": 6292
    },
    {
      "epoch": 1.1356266666666666,
      "grad_norm": 0.02502333895408304,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 6293
    },
    {
      "epoch": 1.13568,
      "grad_norm": 0.024286514932002904,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 6294
    },
    {
      "epoch": 1.1357333333333333,
      "grad_norm": 0.022581725345157316,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 6295
    },
    {
      "epoch": 1.1357866666666667,
      "grad_norm": 0.023804943302821215,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 6296
    },
    {
      "epoch": 1.13584,
      "grad_norm": 0.02288801716325332,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6297
    },
    {
      "epoch": 1.1358933333333334,
      "grad_norm": 0.024173125880748013,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 6298
    },
    {
      "epoch": 1.1359466666666667,
      "grad_norm": 0.024260484777648965,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 6299
    },
    {
      "epoch": 1.1360000000000001,
      "grad_norm": 0.022313465080804736,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 6300
    },
    {
      "epoch": 1.1360533333333334,
      "grad_norm": 0.024354417247663268,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 6301
    },
    {
      "epoch": 1.1361066666666666,
      "grad_norm": 0.02433730231965083,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 6302
    },
    {
      "epoch": 1.13616,
      "grad_norm": 0.02230347347243854,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6303
    },
    {
      "epoch": 1.1362133333333333,
      "grad_norm": 0.02155087598813873,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 6304
    },
    {
      "epoch": 1.1362666666666668,
      "grad_norm": 0.023086190966207534,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 6305
    },
    {
      "epoch": 1.13632,
      "grad_norm": 0.023940433596383738,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 6306
    },
    {
      "epoch": 1.1363733333333332,
      "grad_norm": 0.02440739090779018,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 6307
    },
    {
      "epoch": 1.1364266666666667,
      "grad_norm": 0.024245239259599642,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6308
    },
    {
      "epoch": 1.13648,
      "grad_norm": 0.02373605356488629,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6309
    },
    {
      "epoch": 1.1365333333333334,
      "grad_norm": 0.023514256369988766,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 6310
    },
    {
      "epoch": 1.1365866666666666,
      "grad_norm": 0.024093931373637967,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6311
    },
    {
      "epoch": 1.13664,
      "grad_norm": 0.023716466128258062,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 6312
    },
    {
      "epoch": 1.1366933333333333,
      "grad_norm": 0.02442705919304108,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 6313
    },
    {
      "epoch": 1.1367466666666666,
      "grad_norm": 0.024614998443177202,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6314
    },
    {
      "epoch": 1.1368,
      "grad_norm": 0.02270315974378459,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 6315
    },
    {
      "epoch": 1.1368533333333333,
      "grad_norm": 0.024853013504019864,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 6316
    },
    {
      "epoch": 1.1369066666666667,
      "grad_norm": 0.023717825219213225,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 6317
    },
    {
      "epoch": 1.13696,
      "grad_norm": 0.0262595493676375,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6318
    },
    {
      "epoch": 1.1370133333333334,
      "grad_norm": 0.024847488297286585,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 6319
    },
    {
      "epoch": 1.1370666666666667,
      "grad_norm": 0.023852706617085325,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 6320
    },
    {
      "epoch": 1.13712,
      "grad_norm": 0.024430395656273304,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 6321
    },
    {
      "epoch": 1.1371733333333334,
      "grad_norm": 0.02296572827861205,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 6322
    },
    {
      "epoch": 1.1372266666666666,
      "grad_norm": 0.023208215186654734,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 6323
    },
    {
      "epoch": 1.13728,
      "grad_norm": 0.02309556606839938,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6324
    },
    {
      "epoch": 1.1373333333333333,
      "grad_norm": 0.023822114255089198,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 6325
    },
    {
      "epoch": 1.1373866666666665,
      "grad_norm": 0.023143037529911977,
      "learning_rate": 0.0001,
      "loss": 1.0431,
      "step": 6326
    },
    {
      "epoch": 1.13744,
      "grad_norm": 0.026511524979378764,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 6327
    },
    {
      "epoch": 1.1374933333333332,
      "grad_norm": 0.02391648836119645,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 6328
    },
    {
      "epoch": 1.1375466666666667,
      "grad_norm": 0.02292448068392983,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 6329
    },
    {
      "epoch": 1.1376,
      "grad_norm": 0.024627183630149242,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 6330
    },
    {
      "epoch": 1.1376533333333334,
      "grad_norm": 0.023476917298193328,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6331
    },
    {
      "epoch": 1.1377066666666666,
      "grad_norm": 0.022731974827275073,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 6332
    },
    {
      "epoch": 1.13776,
      "grad_norm": 0.025724531524506673,
      "learning_rate": 0.0001,
      "loss": 1.0315,
      "step": 6333
    },
    {
      "epoch": 1.1378133333333333,
      "grad_norm": 0.024448526062343275,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 6334
    },
    {
      "epoch": 1.1378666666666666,
      "grad_norm": 0.0233477678805777,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 6335
    },
    {
      "epoch": 1.13792,
      "grad_norm": 0.025874323867214544,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6336
    },
    {
      "epoch": 1.1379733333333333,
      "grad_norm": 0.023700988566114984,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 6337
    },
    {
      "epoch": 1.1380266666666667,
      "grad_norm": 0.024226089840556308,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6338
    },
    {
      "epoch": 1.13808,
      "grad_norm": 0.023604265098804214,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 6339
    },
    {
      "epoch": 1.1381333333333332,
      "grad_norm": 0.024705527585522673,
      "learning_rate": 0.0001,
      "loss": 0.9042,
      "step": 6340
    },
    {
      "epoch": 1.1381866666666667,
      "grad_norm": 0.024405342514253015,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "step": 6341
    },
    {
      "epoch": 1.13824,
      "grad_norm": 0.026655892109698365,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 6342
    },
    {
      "epoch": 1.1382933333333334,
      "grad_norm": 0.024694596146734856,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 6343
    },
    {
      "epoch": 1.1383466666666666,
      "grad_norm": 0.02547858603839723,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 6344
    },
    {
      "epoch": 1.1384,
      "grad_norm": 0.02614606970619272,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 6345
    },
    {
      "epoch": 1.1384533333333333,
      "grad_norm": 0.025607997800384676,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 6346
    },
    {
      "epoch": 1.1385066666666668,
      "grad_norm": 0.026090350234659953,
      "learning_rate": 0.0001,
      "loss": 1.0326,
      "step": 6347
    },
    {
      "epoch": 1.13856,
      "grad_norm": 0.0248663711631664,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 6348
    },
    {
      "epoch": 1.1386133333333333,
      "grad_norm": 0.02580076622949218,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 6349
    },
    {
      "epoch": 1.1386666666666667,
      "grad_norm": 0.024489516154717318,
      "learning_rate": 0.0001,
      "loss": 0.8883,
      "step": 6350
    },
    {
      "epoch": 1.13872,
      "grad_norm": 0.023984384835825642,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 6351
    },
    {
      "epoch": 1.1387733333333334,
      "grad_norm": 0.025292642583557522,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 6352
    },
    {
      "epoch": 1.1388266666666667,
      "grad_norm": 0.026052918636883506,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 6353
    },
    {
      "epoch": 1.13888,
      "grad_norm": 0.02846263906180166,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 6354
    },
    {
      "epoch": 1.1389333333333334,
      "grad_norm": 0.02580918168918304,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 6355
    },
    {
      "epoch": 1.1389866666666666,
      "grad_norm": 0.025901967246875476,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 6356
    },
    {
      "epoch": 1.13904,
      "grad_norm": 0.026689874802297783,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 6357
    },
    {
      "epoch": 1.1390933333333333,
      "grad_norm": 0.02793515074538281,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 6358
    },
    {
      "epoch": 1.1391466666666668,
      "grad_norm": 0.02632963463789118,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6359
    },
    {
      "epoch": 1.1392,
      "grad_norm": 0.02417241403681167,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 6360
    },
    {
      "epoch": 1.1392533333333335,
      "grad_norm": 0.02688378278427708,
      "learning_rate": 0.0001,
      "loss": 0.8994,
      "step": 6361
    },
    {
      "epoch": 1.1393066666666667,
      "grad_norm": 0.02437384942918246,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 6362
    },
    {
      "epoch": 1.13936,
      "grad_norm": 0.02487071772147045,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 6363
    },
    {
      "epoch": 1.1394133333333334,
      "grad_norm": 0.024600973047999644,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 6364
    },
    {
      "epoch": 1.1394666666666666,
      "grad_norm": 0.02540785519746137,
      "learning_rate": 0.0001,
      "loss": 0.9129,
      "step": 6365
    },
    {
      "epoch": 1.13952,
      "grad_norm": 0.024160967745178168,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 6366
    },
    {
      "epoch": 1.1395733333333333,
      "grad_norm": 0.024532691267725774,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 6367
    },
    {
      "epoch": 1.1396266666666666,
      "grad_norm": 0.024761506652442963,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 6368
    },
    {
      "epoch": 1.13968,
      "grad_norm": 0.024652705826265966,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 6369
    },
    {
      "epoch": 1.1397333333333333,
      "grad_norm": 0.02545978098779614,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6370
    },
    {
      "epoch": 1.1397866666666667,
      "grad_norm": 0.02295422423669946,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 6371
    },
    {
      "epoch": 1.13984,
      "grad_norm": 0.025564167893754087,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 6372
    },
    {
      "epoch": 1.1398933333333334,
      "grad_norm": 0.022540697234308293,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 6373
    },
    {
      "epoch": 1.1399466666666667,
      "grad_norm": 0.025386995073081075,
      "learning_rate": 0.0001,
      "loss": 0.911,
      "step": 6374
    },
    {
      "epoch": 1.1400000000000001,
      "grad_norm": 0.023320870140435265,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 6375
    },
    {
      "epoch": 1.1400533333333334,
      "grad_norm": 0.02690990287075511,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 6376
    },
    {
      "epoch": 1.1401066666666666,
      "grad_norm": 0.022438099335574866,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 6377
    },
    {
      "epoch": 1.14016,
      "grad_norm": 0.024572559078319584,
      "learning_rate": 0.0001,
      "loss": 0.9031,
      "step": 6378
    },
    {
      "epoch": 1.1402133333333333,
      "grad_norm": 0.02488433997001856,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6379
    },
    {
      "epoch": 1.1402666666666668,
      "grad_norm": 0.02402286828241841,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 6380
    },
    {
      "epoch": 1.14032,
      "grad_norm": 0.025036529699760286,
      "learning_rate": 0.0001,
      "loss": 0.9058,
      "step": 6381
    },
    {
      "epoch": 1.1403733333333332,
      "grad_norm": 0.025880062427014978,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 6382
    },
    {
      "epoch": 1.1404266666666667,
      "grad_norm": 0.025739387493262187,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6383
    },
    {
      "epoch": 1.14048,
      "grad_norm": 0.025746335267111956,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 6384
    },
    {
      "epoch": 1.1405333333333334,
      "grad_norm": 0.024421113826270487,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6385
    },
    {
      "epoch": 1.1405866666666666,
      "grad_norm": 0.024647791301940798,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6386
    },
    {
      "epoch": 1.1406399999999999,
      "grad_norm": 0.022101797752025264,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6387
    },
    {
      "epoch": 1.1406933333333333,
      "grad_norm": 0.025813447216464048,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 6388
    },
    {
      "epoch": 1.1407466666666666,
      "grad_norm": 0.025671302801500477,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 6389
    },
    {
      "epoch": 1.1408,
      "grad_norm": 0.024746648559867,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 6390
    },
    {
      "epoch": 1.1408533333333333,
      "grad_norm": 0.024273517074715614,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6391
    },
    {
      "epoch": 1.1409066666666667,
      "grad_norm": 0.024190977757733528,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 6392
    },
    {
      "epoch": 1.14096,
      "grad_norm": 0.023869766035121063,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 6393
    },
    {
      "epoch": 1.1410133333333334,
      "grad_norm": 0.025244302265803025,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 6394
    },
    {
      "epoch": 1.1410666666666667,
      "grad_norm": 0.025175132795299503,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6395
    },
    {
      "epoch": 1.14112,
      "grad_norm": 0.02487249438718337,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 6396
    },
    {
      "epoch": 1.1411733333333334,
      "grad_norm": 0.023171446752744424,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 6397
    },
    {
      "epoch": 1.1412266666666666,
      "grad_norm": 0.024840245645674833,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6398
    },
    {
      "epoch": 1.14128,
      "grad_norm": 0.024777010186551783,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 6399
    },
    {
      "epoch": 1.1413333333333333,
      "grad_norm": 0.025090654374568915,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6400
    },
    {
      "epoch": 1.1413333333333333,
      "eval_accuracy": 0.6186734942706756,
      "eval_loss": 1.3626307249069214,
      "eval_runtime": 63.9635,
      "eval_samples_per_second": 15.634,
      "eval_steps_per_second": 0.5,
      "step": 6400
    },
    {
      "epoch": 1.1413866666666665,
      "grad_norm": 0.024818713669395216,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 6401
    },
    {
      "epoch": 1.14144,
      "grad_norm": 0.0234534580988266,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6402
    },
    {
      "epoch": 1.1414933333333332,
      "grad_norm": 0.025010178583587363,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 6403
    },
    {
      "epoch": 1.1415466666666667,
      "grad_norm": 0.0238655505198689,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 6404
    },
    {
      "epoch": 1.1416,
      "grad_norm": 0.023977841924485543,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 6405
    },
    {
      "epoch": 1.1416533333333334,
      "grad_norm": 0.023504881317361743,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 6406
    },
    {
      "epoch": 1.1417066666666666,
      "grad_norm": 0.022904200601188196,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 6407
    },
    {
      "epoch": 1.14176,
      "grad_norm": 0.02470595106112979,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 6408
    },
    {
      "epoch": 1.1418133333333333,
      "grad_norm": 0.024095608670189655,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 6409
    },
    {
      "epoch": 1.1418666666666666,
      "grad_norm": 0.023461273988548505,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6410
    },
    {
      "epoch": 1.14192,
      "grad_norm": 0.02423907826447616,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6411
    },
    {
      "epoch": 1.1419733333333333,
      "grad_norm": 0.02198566462105393,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 6412
    },
    {
      "epoch": 1.1420266666666667,
      "grad_norm": 0.024883659560744984,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 6413
    },
    {
      "epoch": 1.14208,
      "grad_norm": 0.025335132768636838,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 6414
    },
    {
      "epoch": 1.1421333333333332,
      "grad_norm": 0.023621275402453477,
      "learning_rate": 0.0001,
      "loss": 1.05,
      "step": 6415
    },
    {
      "epoch": 1.1421866666666667,
      "grad_norm": 0.02367690106392082,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 6416
    },
    {
      "epoch": 1.14224,
      "grad_norm": 0.02507920267655227,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6417
    },
    {
      "epoch": 1.1422933333333334,
      "grad_norm": 0.025400689300331725,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 6418
    },
    {
      "epoch": 1.1423466666666666,
      "grad_norm": 0.02416456525007284,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 6419
    },
    {
      "epoch": 1.1424,
      "grad_norm": 0.02806600143803757,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 6420
    },
    {
      "epoch": 1.1424533333333333,
      "grad_norm": 0.02412716127454667,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 6421
    },
    {
      "epoch": 1.1425066666666668,
      "grad_norm": 0.02387214231713992,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 6422
    },
    {
      "epoch": 1.14256,
      "grad_norm": 0.02491880676648782,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 6423
    },
    {
      "epoch": 1.1426133333333333,
      "grad_norm": 0.024147535404968015,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 6424
    },
    {
      "epoch": 1.1426666666666667,
      "grad_norm": 0.02534938293533649,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 6425
    },
    {
      "epoch": 1.14272,
      "grad_norm": 0.024028147056052468,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 6426
    },
    {
      "epoch": 1.1427733333333334,
      "grad_norm": 0.02800835343618442,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 6427
    },
    {
      "epoch": 1.1428266666666667,
      "grad_norm": 0.024478466695519233,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 6428
    },
    {
      "epoch": 1.14288,
      "grad_norm": 0.022683992253479023,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 6429
    },
    {
      "epoch": 1.1429333333333334,
      "grad_norm": 0.02372234361688697,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 6430
    },
    {
      "epoch": 1.1429866666666666,
      "grad_norm": 0.023380216394320284,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 6431
    },
    {
      "epoch": 1.14304,
      "grad_norm": 0.024199869321845275,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 6432
    },
    {
      "epoch": 1.1430933333333333,
      "grad_norm": 0.0246825043519838,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 6433
    },
    {
      "epoch": 1.1431466666666668,
      "grad_norm": 0.02387653488643862,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 6434
    },
    {
      "epoch": 1.1432,
      "grad_norm": 0.023963974288889484,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 6435
    },
    {
      "epoch": 1.1432533333333335,
      "grad_norm": 0.023301720122636732,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 6436
    },
    {
      "epoch": 1.1433066666666667,
      "grad_norm": 0.0261301732931032,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 6437
    },
    {
      "epoch": 1.14336,
      "grad_norm": 0.022711358965545166,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 6438
    },
    {
      "epoch": 1.1434133333333334,
      "grad_norm": 0.025277523412585295,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 6439
    },
    {
      "epoch": 1.1434666666666666,
      "grad_norm": 0.025493578540902312,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 6440
    },
    {
      "epoch": 1.14352,
      "grad_norm": 0.02440457394920936,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "step": 6441
    },
    {
      "epoch": 1.1435733333333333,
      "grad_norm": 0.025236699002938803,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6442
    },
    {
      "epoch": 1.1436266666666666,
      "grad_norm": 0.023125419888296694,
      "learning_rate": 0.0001,
      "loss": 0.9238,
      "step": 6443
    },
    {
      "epoch": 1.14368,
      "grad_norm": 0.024372963150758313,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6444
    },
    {
      "epoch": 1.1437333333333333,
      "grad_norm": 0.02330596704260975,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 6445
    },
    {
      "epoch": 1.1437866666666667,
      "grad_norm": 0.02411118917448528,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6446
    },
    {
      "epoch": 1.14384,
      "grad_norm": 0.02355055157930137,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 6447
    },
    {
      "epoch": 1.1438933333333334,
      "grad_norm": 0.025948300503684567,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 6448
    },
    {
      "epoch": 1.1439466666666667,
      "grad_norm": 0.023467264413868136,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6449
    },
    {
      "epoch": 1.144,
      "grad_norm": 0.0233684580097858,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 6450
    },
    {
      "epoch": 1.1440533333333334,
      "grad_norm": 0.02357950014295757,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 6451
    },
    {
      "epoch": 1.1441066666666666,
      "grad_norm": 0.02450858733218133,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6452
    },
    {
      "epoch": 1.14416,
      "grad_norm": 0.02250780746464672,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 6453
    },
    {
      "epoch": 1.1442133333333333,
      "grad_norm": 0.023688714372722946,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 6454
    },
    {
      "epoch": 1.1442666666666668,
      "grad_norm": 0.02385060805375982,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 6455
    },
    {
      "epoch": 1.14432,
      "grad_norm": 0.024508671723858802,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 6456
    },
    {
      "epoch": 1.1443733333333332,
      "grad_norm": 0.026553438015414703,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6457
    },
    {
      "epoch": 1.1444266666666667,
      "grad_norm": 0.02330767668186131,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 6458
    },
    {
      "epoch": 1.14448,
      "grad_norm": 0.023778345519342877,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 6459
    },
    {
      "epoch": 1.1445333333333334,
      "grad_norm": 0.022864320012817945,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 6460
    },
    {
      "epoch": 1.1445866666666666,
      "grad_norm": 0.02298729684665054,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 6461
    },
    {
      "epoch": 1.1446399999999999,
      "grad_norm": 0.023804306063323375,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 6462
    },
    {
      "epoch": 1.1446933333333333,
      "grad_norm": 0.022954912026556886,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6463
    },
    {
      "epoch": 1.1447466666666666,
      "grad_norm": 0.024284744533694582,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 6464
    },
    {
      "epoch": 1.1448,
      "grad_norm": 0.024806387379134244,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 6465
    },
    {
      "epoch": 1.1448533333333333,
      "grad_norm": 0.023523364657512355,
      "learning_rate": 0.0001,
      "loss": 1.0456,
      "step": 6466
    },
    {
      "epoch": 1.1449066666666667,
      "grad_norm": 0.022676090375195256,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 6467
    },
    {
      "epoch": 1.14496,
      "grad_norm": 0.023638678361237852,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 6468
    },
    {
      "epoch": 1.1450133333333334,
      "grad_norm": 0.024693479964480507,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 6469
    },
    {
      "epoch": 1.1450666666666667,
      "grad_norm": 0.022480993744444774,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 6470
    },
    {
      "epoch": 1.14512,
      "grad_norm": 0.024722106684933038,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 6471
    },
    {
      "epoch": 1.1451733333333334,
      "grad_norm": 0.024259128511809464,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 6472
    },
    {
      "epoch": 1.1452266666666666,
      "grad_norm": 0.02596744687643352,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6473
    },
    {
      "epoch": 1.14528,
      "grad_norm": 0.02474329221784223,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6474
    },
    {
      "epoch": 1.1453333333333333,
      "grad_norm": 0.024862234644773513,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 6475
    },
    {
      "epoch": 1.1453866666666666,
      "grad_norm": 0.023520912930095676,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 6476
    },
    {
      "epoch": 1.14544,
      "grad_norm": 0.025325311521632705,
      "learning_rate": 0.0001,
      "loss": 1.0605,
      "step": 6477
    },
    {
      "epoch": 1.1454933333333333,
      "grad_norm": 0.024447067223005953,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 6478
    },
    {
      "epoch": 1.1455466666666667,
      "grad_norm": 0.024173224476072435,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6479
    },
    {
      "epoch": 1.1456,
      "grad_norm": 0.025119698323436437,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 6480
    },
    {
      "epoch": 1.1456533333333334,
      "grad_norm": 0.023325698159894832,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6481
    },
    {
      "epoch": 1.1457066666666667,
      "grad_norm": 0.024773929667488658,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 6482
    },
    {
      "epoch": 1.1457600000000001,
      "grad_norm": 0.025290947050124312,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 6483
    },
    {
      "epoch": 1.1458133333333334,
      "grad_norm": 0.0233744089228315,
      "learning_rate": 0.0001,
      "loss": 0.9013,
      "step": 6484
    },
    {
      "epoch": 1.1458666666666666,
      "grad_norm": 0.026197840635050925,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 6485
    },
    {
      "epoch": 1.14592,
      "grad_norm": 0.026405327382454564,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6486
    },
    {
      "epoch": 1.1459733333333333,
      "grad_norm": 0.024867837212642876,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6487
    },
    {
      "epoch": 1.1460266666666667,
      "grad_norm": 0.025196586870557133,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 6488
    },
    {
      "epoch": 1.14608,
      "grad_norm": 0.023916046433919706,
      "learning_rate": 0.0001,
      "loss": 0.9092,
      "step": 6489
    },
    {
      "epoch": 1.1461333333333332,
      "grad_norm": 0.023531485391825473,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 6490
    },
    {
      "epoch": 1.1461866666666667,
      "grad_norm": 0.02462174841770514,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 6491
    },
    {
      "epoch": 1.14624,
      "grad_norm": 0.023193527376160643,
      "learning_rate": 0.0001,
      "loss": 0.9181,
      "step": 6492
    },
    {
      "epoch": 1.1462933333333334,
      "grad_norm": 0.02321943199383894,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 6493
    },
    {
      "epoch": 1.1463466666666666,
      "grad_norm": 0.023715694988968177,
      "learning_rate": 0.0001,
      "loss": 0.893,
      "step": 6494
    },
    {
      "epoch": 1.1464,
      "grad_norm": 0.024874294021249015,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6495
    },
    {
      "epoch": 1.1464533333333333,
      "grad_norm": 0.025047125827971174,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 6496
    },
    {
      "epoch": 1.1465066666666668,
      "grad_norm": 0.024069710496265568,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6497
    },
    {
      "epoch": 1.14656,
      "grad_norm": 0.023633505766138995,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6498
    },
    {
      "epoch": 1.1466133333333333,
      "grad_norm": 0.02565263869015109,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 6499
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 0.025800020834001337,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 6500
    },
    {
      "epoch": 1.14672,
      "grad_norm": 0.02207656729293947,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 6501
    },
    {
      "epoch": 1.1467733333333334,
      "grad_norm": 0.024995683104104074,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 6502
    },
    {
      "epoch": 1.1468266666666667,
      "grad_norm": 0.023696419923178395,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 6503
    },
    {
      "epoch": 1.14688,
      "grad_norm": 0.023806530950243994,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 6504
    },
    {
      "epoch": 1.1469333333333334,
      "grad_norm": 0.02545448128363791,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 6505
    },
    {
      "epoch": 1.1469866666666666,
      "grad_norm": 0.024666916274401512,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6506
    },
    {
      "epoch": 1.14704,
      "grad_norm": 0.022912065091635514,
      "learning_rate": 0.0001,
      "loss": 0.8944,
      "step": 6507
    },
    {
      "epoch": 1.1470933333333333,
      "grad_norm": 0.023550044758622185,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6508
    },
    {
      "epoch": 1.1471466666666668,
      "grad_norm": 0.02437685621960573,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 6509
    },
    {
      "epoch": 1.1472,
      "grad_norm": 0.023020106408630357,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 6510
    },
    {
      "epoch": 1.1472533333333335,
      "grad_norm": 0.023499942005013333,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 6511
    },
    {
      "epoch": 1.1473066666666667,
      "grad_norm": 0.02433521907324269,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6512
    },
    {
      "epoch": 1.14736,
      "grad_norm": 0.023361039305131306,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 6513
    },
    {
      "epoch": 1.1474133333333334,
      "grad_norm": 0.02349550391626517,
      "learning_rate": 0.0001,
      "loss": 1.0361,
      "step": 6514
    },
    {
      "epoch": 1.1474666666666666,
      "grad_norm": 0.023188368545517035,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 6515
    },
    {
      "epoch": 1.14752,
      "grad_norm": 0.023925489251371505,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 6516
    },
    {
      "epoch": 1.1475733333333333,
      "grad_norm": 0.023530586042873496,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6517
    },
    {
      "epoch": 1.1476266666666666,
      "grad_norm": 0.025680789849237613,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 6518
    },
    {
      "epoch": 1.14768,
      "grad_norm": 0.02206243035409006,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 6519
    },
    {
      "epoch": 1.1477333333333333,
      "grad_norm": 0.024085432440633728,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6520
    },
    {
      "epoch": 1.1477866666666667,
      "grad_norm": 0.02601724951316796,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6521
    },
    {
      "epoch": 1.14784,
      "grad_norm": 0.023835719266824797,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6522
    },
    {
      "epoch": 1.1478933333333332,
      "grad_norm": 0.024466475909952202,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 6523
    },
    {
      "epoch": 1.1479466666666667,
      "grad_norm": 0.02346614193503451,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6524
    },
    {
      "epoch": 1.148,
      "grad_norm": 0.0246519352945607,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 6525
    },
    {
      "epoch": 1.1480533333333334,
      "grad_norm": 0.023957835448706596,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6526
    },
    {
      "epoch": 1.1481066666666666,
      "grad_norm": 0.025356871198898238,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 6527
    },
    {
      "epoch": 1.14816,
      "grad_norm": 0.025196456303498573,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 6528
    },
    {
      "epoch": 1.1482133333333333,
      "grad_norm": 0.022577758967935672,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6529
    },
    {
      "epoch": 1.1482666666666668,
      "grad_norm": 0.025320586773826537,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6530
    },
    {
      "epoch": 1.14832,
      "grad_norm": 0.025790845070898384,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6531
    },
    {
      "epoch": 1.1483733333333332,
      "grad_norm": 0.026214572636302565,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6532
    },
    {
      "epoch": 1.1484266666666667,
      "grad_norm": 0.02778101246498952,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 6533
    },
    {
      "epoch": 1.14848,
      "grad_norm": 0.029227215777425954,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 6534
    },
    {
      "epoch": 1.1485333333333334,
      "grad_norm": 0.026143989103516205,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 6535
    },
    {
      "epoch": 1.1485866666666666,
      "grad_norm": 0.026800934632167667,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 6536
    },
    {
      "epoch": 1.1486399999999999,
      "grad_norm": 0.02570530826545334,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 6537
    },
    {
      "epoch": 1.1486933333333333,
      "grad_norm": 0.02607260547962967,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6538
    },
    {
      "epoch": 1.1487466666666666,
      "grad_norm": 0.02527239194893959,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 6539
    },
    {
      "epoch": 1.1488,
      "grad_norm": 0.024622948896999185,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "step": 6540
    },
    {
      "epoch": 1.1488533333333333,
      "grad_norm": 0.024031334157241475,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 6541
    },
    {
      "epoch": 1.1489066666666667,
      "grad_norm": 0.025183808606017023,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6542
    },
    {
      "epoch": 1.14896,
      "grad_norm": 0.022826426632463336,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 6543
    },
    {
      "epoch": 1.1490133333333334,
      "grad_norm": 0.02601362134779363,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 6544
    },
    {
      "epoch": 1.1490666666666667,
      "grad_norm": 0.022914594037116848,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 6545
    },
    {
      "epoch": 1.14912,
      "grad_norm": 0.026569463866633426,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 6546
    },
    {
      "epoch": 1.1491733333333334,
      "grad_norm": 0.024708495921582897,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 6547
    },
    {
      "epoch": 1.1492266666666666,
      "grad_norm": 0.02289010096352404,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6548
    },
    {
      "epoch": 1.14928,
      "grad_norm": 0.02412196770094686,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 6549
    },
    {
      "epoch": 1.1493333333333333,
      "grad_norm": 0.026461401742204092,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6550
    },
    {
      "epoch": 1.1493866666666666,
      "grad_norm": 0.024682570180443824,
      "learning_rate": 0.0001,
      "loss": 0.9235,
      "step": 6551
    },
    {
      "epoch": 1.14944,
      "grad_norm": 0.025761971834890728,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6552
    },
    {
      "epoch": 1.1494933333333333,
      "grad_norm": 0.02491818537545462,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 6553
    },
    {
      "epoch": 1.1495466666666667,
      "grad_norm": 0.022474684921744138,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6554
    },
    {
      "epoch": 1.1496,
      "grad_norm": 0.025510344137265384,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 6555
    },
    {
      "epoch": 1.1496533333333334,
      "grad_norm": 0.024089799558805965,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 6556
    },
    {
      "epoch": 1.1497066666666667,
      "grad_norm": 0.023429502003994126,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 6557
    },
    {
      "epoch": 1.1497600000000001,
      "grad_norm": 0.02605308549672868,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 6558
    },
    {
      "epoch": 1.1498133333333334,
      "grad_norm": 0.02493382504306148,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6559
    },
    {
      "epoch": 1.1498666666666666,
      "grad_norm": 0.02494106633479154,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6560
    },
    {
      "epoch": 1.14992,
      "grad_norm": 0.0237230030892974,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 6561
    },
    {
      "epoch": 1.1499733333333333,
      "grad_norm": 0.027551523394725864,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 6562
    },
    {
      "epoch": 1.1500266666666668,
      "grad_norm": 0.026287569951938292,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6563
    },
    {
      "epoch": 1.15008,
      "grad_norm": 0.02466922380435168,
      "learning_rate": 0.0001,
      "loss": 0.9065,
      "step": 6564
    },
    {
      "epoch": 1.1501333333333332,
      "grad_norm": 0.024792417928977024,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 6565
    },
    {
      "epoch": 1.1501866666666667,
      "grad_norm": 0.023146882199210732,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 6566
    },
    {
      "epoch": 1.15024,
      "grad_norm": 0.02391134126206135,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 6567
    },
    {
      "epoch": 1.1502933333333334,
      "grad_norm": 0.02419470292797179,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6568
    },
    {
      "epoch": 1.1503466666666666,
      "grad_norm": 0.0259392224639489,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 6569
    },
    {
      "epoch": 1.1504,
      "grad_norm": 0.02457985099412832,
      "learning_rate": 0.0001,
      "loss": 0.912,
      "step": 6570
    },
    {
      "epoch": 1.1504533333333333,
      "grad_norm": 0.024789087271685287,
      "learning_rate": 0.0001,
      "loss": 1.0519,
      "step": 6571
    },
    {
      "epoch": 1.1505066666666668,
      "grad_norm": 0.022801421251511522,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 6572
    },
    {
      "epoch": 1.15056,
      "grad_norm": 0.027157772337033287,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 6573
    },
    {
      "epoch": 1.1506133333333333,
      "grad_norm": 0.02578697495754335,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 6574
    },
    {
      "epoch": 1.1506666666666667,
      "grad_norm": 0.026058724488998573,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 6575
    },
    {
      "epoch": 1.15072,
      "grad_norm": 0.02448413207365997,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6576
    },
    {
      "epoch": 1.1507733333333334,
      "grad_norm": 0.02531909791909078,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6577
    },
    {
      "epoch": 1.1508266666666667,
      "grad_norm": 0.025250348525291927,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 6578
    },
    {
      "epoch": 1.15088,
      "grad_norm": 0.024367898817617775,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 6579
    },
    {
      "epoch": 1.1509333333333334,
      "grad_norm": 0.022941274013515697,
      "learning_rate": 0.0001,
      "loss": 0.9067,
      "step": 6580
    },
    {
      "epoch": 1.1509866666666666,
      "grad_norm": 0.025401242515354912,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 6581
    },
    {
      "epoch": 1.15104,
      "grad_norm": 0.025252217500779817,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 6582
    },
    {
      "epoch": 1.1510933333333333,
      "grad_norm": 0.026100053640574113,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 6583
    },
    {
      "epoch": 1.1511466666666668,
      "grad_norm": 0.023477332458554143,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6584
    },
    {
      "epoch": 1.1512,
      "grad_norm": 0.025207468179386665,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 6585
    },
    {
      "epoch": 1.1512533333333332,
      "grad_norm": 0.023516184052322243,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6586
    },
    {
      "epoch": 1.1513066666666667,
      "grad_norm": 0.023397108691315196,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 6587
    },
    {
      "epoch": 1.15136,
      "grad_norm": 0.022965549978050906,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6588
    },
    {
      "epoch": 1.1514133333333334,
      "grad_norm": 0.02455438351433295,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 6589
    },
    {
      "epoch": 1.1514666666666666,
      "grad_norm": 0.023901640922966563,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 6590
    },
    {
      "epoch": 1.15152,
      "grad_norm": 0.0238877577869763,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 6591
    },
    {
      "epoch": 1.1515733333333333,
      "grad_norm": 0.024498444089627806,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 6592
    },
    {
      "epoch": 1.1516266666666666,
      "grad_norm": 0.023221026861027817,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 6593
    },
    {
      "epoch": 1.15168,
      "grad_norm": 0.02545193559111799,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 6594
    },
    {
      "epoch": 1.1517333333333333,
      "grad_norm": 0.023714847895212304,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 6595
    },
    {
      "epoch": 1.1517866666666667,
      "grad_norm": 0.023824854502992807,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 6596
    },
    {
      "epoch": 1.15184,
      "grad_norm": 0.024011579161169,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 6597
    },
    {
      "epoch": 1.1518933333333332,
      "grad_norm": 0.026070580171742717,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 6598
    },
    {
      "epoch": 1.1519466666666667,
      "grad_norm": 0.024221968036371968,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 6599
    },
    {
      "epoch": 1.152,
      "grad_norm": 0.02490220472698781,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 6600
    },
    {
      "epoch": 1.152,
      "eval_accuracy": 0.6187920197091642,
      "eval_loss": 1.3618242740631104,
      "eval_runtime": 63.0885,
      "eval_samples_per_second": 15.851,
      "eval_steps_per_second": 0.507,
      "step": 6600
    },
    {
      "epoch": 1.1520533333333334,
      "grad_norm": 0.02681574735612942,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 6601
    },
    {
      "epoch": 1.1521066666666666,
      "grad_norm": 0.02316386123720833,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 6602
    },
    {
      "epoch": 1.15216,
      "grad_norm": 0.022079226409837536,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 6603
    },
    {
      "epoch": 1.1522133333333333,
      "grad_norm": 0.024474126703930225,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 6604
    },
    {
      "epoch": 1.1522666666666668,
      "grad_norm": 0.023059630237737966,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 6605
    },
    {
      "epoch": 1.15232,
      "grad_norm": 0.022753099800981533,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 6606
    },
    {
      "epoch": 1.1523733333333332,
      "grad_norm": 0.023306622965100554,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6607
    },
    {
      "epoch": 1.1524266666666667,
      "grad_norm": 0.024389405841714465,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6608
    },
    {
      "epoch": 1.15248,
      "grad_norm": 0.022542361602212704,
      "learning_rate": 0.0001,
      "loss": 0.8738,
      "step": 6609
    },
    {
      "epoch": 1.1525333333333334,
      "grad_norm": 0.02523455688753056,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 6610
    },
    {
      "epoch": 1.1525866666666666,
      "grad_norm": 0.023527734075283344,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 6611
    },
    {
      "epoch": 1.1526399999999999,
      "grad_norm": 0.026293045044547953,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 6612
    },
    {
      "epoch": 1.1526933333333333,
      "grad_norm": 0.023450274173306924,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6613
    },
    {
      "epoch": 1.1527466666666666,
      "grad_norm": 0.025296651318137423,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6614
    },
    {
      "epoch": 1.1528,
      "grad_norm": 0.024570294752925253,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 6615
    },
    {
      "epoch": 1.1528533333333333,
      "grad_norm": 0.026160515623017612,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 6616
    },
    {
      "epoch": 1.1529066666666667,
      "grad_norm": 0.026959672772016864,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 6617
    },
    {
      "epoch": 1.15296,
      "grad_norm": 0.024764385568375496,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 6618
    },
    {
      "epoch": 1.1530133333333334,
      "grad_norm": 0.025177220508616985,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 6619
    },
    {
      "epoch": 1.1530666666666667,
      "grad_norm": 0.024626062041971035,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6620
    },
    {
      "epoch": 1.15312,
      "grad_norm": 0.02321121091019076,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 6621
    },
    {
      "epoch": 1.1531733333333334,
      "grad_norm": 0.025418163371526904,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 6622
    },
    {
      "epoch": 1.1532266666666666,
      "grad_norm": 0.02483514504858228,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 6623
    },
    {
      "epoch": 1.15328,
      "grad_norm": 0.02533069025999774,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 6624
    },
    {
      "epoch": 1.1533333333333333,
      "grad_norm": 0.025779558051919935,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 6625
    },
    {
      "epoch": 1.1533866666666666,
      "grad_norm": 0.02478076883524867,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 6626
    },
    {
      "epoch": 1.15344,
      "grad_norm": 0.02458587851409054,
      "learning_rate": 0.0001,
      "loss": 1.0882,
      "step": 6627
    },
    {
      "epoch": 1.1534933333333333,
      "grad_norm": 0.02552687062401559,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6628
    },
    {
      "epoch": 1.1535466666666667,
      "grad_norm": 0.025226401238378972,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6629
    },
    {
      "epoch": 1.1536,
      "grad_norm": 0.026583227932106088,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 6630
    },
    {
      "epoch": 1.1536533333333334,
      "grad_norm": 0.025985941038839444,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6631
    },
    {
      "epoch": 1.1537066666666667,
      "grad_norm": 0.02576833780213717,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 6632
    },
    {
      "epoch": 1.1537600000000001,
      "grad_norm": 0.02326610259177104,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 6633
    },
    {
      "epoch": 1.1538133333333334,
      "grad_norm": 0.024512508513019143,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 6634
    },
    {
      "epoch": 1.1538666666666666,
      "grad_norm": 0.024556098288469653,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 6635
    },
    {
      "epoch": 1.15392,
      "grad_norm": 0.024907860117939294,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 6636
    },
    {
      "epoch": 1.1539733333333333,
      "grad_norm": 0.023010305013432944,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 6637
    },
    {
      "epoch": 1.1540266666666668,
      "grad_norm": 0.02529927266900219,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 6638
    },
    {
      "epoch": 1.15408,
      "grad_norm": 0.025167824376891627,
      "learning_rate": 0.0001,
      "loss": 0.9023,
      "step": 6639
    },
    {
      "epoch": 1.1541333333333332,
      "grad_norm": 0.02498633707045491,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 6640
    },
    {
      "epoch": 1.1541866666666667,
      "grad_norm": 0.02469310317487284,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 6641
    },
    {
      "epoch": 1.15424,
      "grad_norm": 0.02405218733694939,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 6642
    },
    {
      "epoch": 1.1542933333333334,
      "grad_norm": 0.024416761138041046,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 6643
    },
    {
      "epoch": 1.1543466666666666,
      "grad_norm": 0.026183111837989388,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 6644
    },
    {
      "epoch": 1.1544,
      "grad_norm": 0.025734452222214824,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 6645
    },
    {
      "epoch": 1.1544533333333333,
      "grad_norm": 0.023964814495660826,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 6646
    },
    {
      "epoch": 1.1545066666666666,
      "grad_norm": 0.025161657107320788,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 6647
    },
    {
      "epoch": 1.15456,
      "grad_norm": 0.025325893747624898,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6648
    },
    {
      "epoch": 1.1546133333333333,
      "grad_norm": 0.023037455932354095,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 6649
    },
    {
      "epoch": 1.1546666666666667,
      "grad_norm": 0.022934014635574533,
      "learning_rate": 0.0001,
      "loss": 0.8957,
      "step": 6650
    },
    {
      "epoch": 1.15472,
      "grad_norm": 0.022841082480548055,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 6651
    },
    {
      "epoch": 1.1547733333333334,
      "grad_norm": 0.025401130161224465,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6652
    },
    {
      "epoch": 1.1548266666666667,
      "grad_norm": 0.025910368205511593,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 6653
    },
    {
      "epoch": 1.15488,
      "grad_norm": 0.022927783161798783,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 6654
    },
    {
      "epoch": 1.1549333333333334,
      "grad_norm": 0.02421604138452636,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 6655
    },
    {
      "epoch": 1.1549866666666666,
      "grad_norm": 0.02491107978717869,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 6656
    },
    {
      "epoch": 1.15504,
      "grad_norm": 0.02381233490051453,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 6657
    },
    {
      "epoch": 1.1550933333333333,
      "grad_norm": 0.02566985688871368,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 6658
    },
    {
      "epoch": 1.1551466666666665,
      "grad_norm": 0.02453976627830089,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 6659
    },
    {
      "epoch": 1.1552,
      "grad_norm": 0.023130529525161335,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6660
    },
    {
      "epoch": 1.1552533333333332,
      "grad_norm": 0.02438143602417584,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 6661
    },
    {
      "epoch": 1.1553066666666667,
      "grad_norm": 0.023840711122616806,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 6662
    },
    {
      "epoch": 1.15536,
      "grad_norm": 0.02426873837192867,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 6663
    },
    {
      "epoch": 1.1554133333333334,
      "grad_norm": 0.023640207409555032,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 6664
    },
    {
      "epoch": 1.1554666666666666,
      "grad_norm": 0.025151657205243483,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 6665
    },
    {
      "epoch": 1.15552,
      "grad_norm": 0.0246709798450016,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 6666
    },
    {
      "epoch": 1.1555733333333333,
      "grad_norm": 0.024386267801024486,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 6667
    },
    {
      "epoch": 1.1556266666666666,
      "grad_norm": 0.028029161139705657,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 6668
    },
    {
      "epoch": 1.15568,
      "grad_norm": 0.0251600175871147,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 6669
    },
    {
      "epoch": 1.1557333333333333,
      "grad_norm": 0.025063810452516853,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 6670
    },
    {
      "epoch": 1.1557866666666667,
      "grad_norm": 0.024347109069295315,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 6671
    },
    {
      "epoch": 1.15584,
      "grad_norm": 0.023477718494469956,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 6672
    },
    {
      "epoch": 1.1558933333333332,
      "grad_norm": 0.023613233829705572,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 6673
    },
    {
      "epoch": 1.1559466666666667,
      "grad_norm": 0.026643071339694187,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 6674
    },
    {
      "epoch": 1.156,
      "grad_norm": 0.023715502301693225,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 6675
    },
    {
      "epoch": 1.1560533333333334,
      "grad_norm": 0.02579218870250928,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6676
    },
    {
      "epoch": 1.1561066666666666,
      "grad_norm": 0.02409052319374008,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 6677
    },
    {
      "epoch": 1.15616,
      "grad_norm": 0.025348229735358763,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6678
    },
    {
      "epoch": 1.1562133333333333,
      "grad_norm": 0.022797765031446923,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6679
    },
    {
      "epoch": 1.1562666666666668,
      "grad_norm": 0.024560274801067615,
      "learning_rate": 0.0001,
      "loss": 0.925,
      "step": 6680
    },
    {
      "epoch": 1.15632,
      "grad_norm": 0.026740742300532045,
      "learning_rate": 0.0001,
      "loss": 0.9262,
      "step": 6681
    },
    {
      "epoch": 1.1563733333333333,
      "grad_norm": 0.02367491683210547,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 6682
    },
    {
      "epoch": 1.1564266666666667,
      "grad_norm": 0.025256979261666264,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 6683
    },
    {
      "epoch": 1.15648,
      "grad_norm": 0.026238227631546856,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 6684
    },
    {
      "epoch": 1.1565333333333334,
      "grad_norm": 0.023679122923234975,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 6685
    },
    {
      "epoch": 1.1565866666666667,
      "grad_norm": 0.024783535989638884,
      "learning_rate": 0.0001,
      "loss": 1.0574,
      "step": 6686
    },
    {
      "epoch": 1.15664,
      "grad_norm": 0.023462152972487424,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 6687
    },
    {
      "epoch": 1.1566933333333334,
      "grad_norm": 0.02317828703131758,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6688
    },
    {
      "epoch": 1.1567466666666666,
      "grad_norm": 0.02384659077239771,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 6689
    },
    {
      "epoch": 1.1568,
      "grad_norm": 0.024586162071671518,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6690
    },
    {
      "epoch": 1.1568533333333333,
      "grad_norm": 0.02325862326335573,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "step": 6691
    },
    {
      "epoch": 1.1569066666666667,
      "grad_norm": 0.022816935764298003,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 6692
    },
    {
      "epoch": 1.15696,
      "grad_norm": 0.02509453372144507,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 6693
    },
    {
      "epoch": 1.1570133333333334,
      "grad_norm": 0.024894364388052276,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6694
    },
    {
      "epoch": 1.1570666666666667,
      "grad_norm": 0.02346428810787568,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 6695
    },
    {
      "epoch": 1.15712,
      "grad_norm": 0.025702337788562842,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 6696
    },
    {
      "epoch": 1.1571733333333334,
      "grad_norm": 0.02280313859506297,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 6697
    },
    {
      "epoch": 1.1572266666666666,
      "grad_norm": 0.023950956036274132,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 6698
    },
    {
      "epoch": 1.15728,
      "grad_norm": 0.022286680455545906,
      "learning_rate": 0.0001,
      "loss": 0.918,
      "step": 6699
    },
    {
      "epoch": 1.1573333333333333,
      "grad_norm": 0.024543632291675138,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 6700
    },
    {
      "epoch": 1.1573866666666666,
      "grad_norm": 0.02284178046748654,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6701
    },
    {
      "epoch": 1.15744,
      "grad_norm": 0.02371067787630345,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 6702
    },
    {
      "epoch": 1.1574933333333333,
      "grad_norm": 0.02238934045449395,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 6703
    },
    {
      "epoch": 1.1575466666666667,
      "grad_norm": 0.023930879059137874,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 6704
    },
    {
      "epoch": 1.1576,
      "grad_norm": 0.02368050825613908,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6705
    },
    {
      "epoch": 1.1576533333333334,
      "grad_norm": 0.02598800634448165,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 6706
    },
    {
      "epoch": 1.1577066666666667,
      "grad_norm": 0.022896145288164537,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 6707
    },
    {
      "epoch": 1.1577600000000001,
      "grad_norm": 0.02217140530004076,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 6708
    },
    {
      "epoch": 1.1578133333333334,
      "grad_norm": 0.02324111028355882,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 6709
    },
    {
      "epoch": 1.1578666666666666,
      "grad_norm": 0.023470606659583337,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6710
    },
    {
      "epoch": 1.15792,
      "grad_norm": 0.02354685528105356,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 6711
    },
    {
      "epoch": 1.1579733333333333,
      "grad_norm": 0.023038108734933775,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 6712
    },
    {
      "epoch": 1.1580266666666668,
      "grad_norm": 0.022799613526409853,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 6713
    },
    {
      "epoch": 1.15808,
      "grad_norm": 0.02483319800406582,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 6714
    },
    {
      "epoch": 1.1581333333333332,
      "grad_norm": 0.02458537984034475,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 6715
    },
    {
      "epoch": 1.1581866666666667,
      "grad_norm": 0.0255967675340945,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 6716
    },
    {
      "epoch": 1.15824,
      "grad_norm": 0.02513012135986171,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 6717
    },
    {
      "epoch": 1.1582933333333334,
      "grad_norm": 0.025185520533658915,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 6718
    },
    {
      "epoch": 1.1583466666666666,
      "grad_norm": 0.024308462649660186,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6719
    },
    {
      "epoch": 1.1584,
      "grad_norm": 0.024099717681172052,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6720
    },
    {
      "epoch": 1.1584533333333333,
      "grad_norm": 0.024717733857271197,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6721
    },
    {
      "epoch": 1.1585066666666666,
      "grad_norm": 0.025837577766540904,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6722
    },
    {
      "epoch": 1.15856,
      "grad_norm": 0.02469704904498805,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6723
    },
    {
      "epoch": 1.1586133333333333,
      "grad_norm": 0.024979379101575754,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 6724
    },
    {
      "epoch": 1.1586666666666667,
      "grad_norm": 0.02330719038819885,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 6725
    },
    {
      "epoch": 1.15872,
      "grad_norm": 0.025963067809105865,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 6726
    },
    {
      "epoch": 1.1587733333333334,
      "grad_norm": 0.024713506493982688,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 6727
    },
    {
      "epoch": 1.1588266666666667,
      "grad_norm": 0.02557505412951673,
      "learning_rate": 0.0001,
      "loss": 0.923,
      "step": 6728
    },
    {
      "epoch": 1.15888,
      "grad_norm": 0.02554060899926736,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6729
    },
    {
      "epoch": 1.1589333333333334,
      "grad_norm": 0.024382217276963672,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6730
    },
    {
      "epoch": 1.1589866666666666,
      "grad_norm": 0.023434418912832444,
      "learning_rate": 0.0001,
      "loss": 0.9235,
      "step": 6731
    },
    {
      "epoch": 1.15904,
      "grad_norm": 0.023055971004936542,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6732
    },
    {
      "epoch": 1.1590933333333333,
      "grad_norm": 0.02444022689190192,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 6733
    },
    {
      "epoch": 1.1591466666666665,
      "grad_norm": 0.024756066803880004,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 6734
    },
    {
      "epoch": 1.1592,
      "grad_norm": 0.025505810218924313,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 6735
    },
    {
      "epoch": 1.1592533333333332,
      "grad_norm": 0.0250278749121504,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 6736
    },
    {
      "epoch": 1.1593066666666667,
      "grad_norm": 0.02369400943638701,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 6737
    },
    {
      "epoch": 1.15936,
      "grad_norm": 0.027264245298889975,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6738
    },
    {
      "epoch": 1.1594133333333334,
      "grad_norm": 0.025862020906406925,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6739
    },
    {
      "epoch": 1.1594666666666666,
      "grad_norm": 0.025779465618282524,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6740
    },
    {
      "epoch": 1.15952,
      "grad_norm": 0.025760717974103148,
      "learning_rate": 0.0001,
      "loss": 0.904,
      "step": 6741
    },
    {
      "epoch": 1.1595733333333333,
      "grad_norm": 0.02671087012365056,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6742
    },
    {
      "epoch": 1.1596266666666666,
      "grad_norm": 0.02411154620435899,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 6743
    },
    {
      "epoch": 1.15968,
      "grad_norm": 0.024832852138751676,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 6744
    },
    {
      "epoch": 1.1597333333333333,
      "grad_norm": 0.02524391150546621,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6745
    },
    {
      "epoch": 1.1597866666666667,
      "grad_norm": 0.023225903559293277,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6746
    },
    {
      "epoch": 1.15984,
      "grad_norm": 0.023363006481142375,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 6747
    },
    {
      "epoch": 1.1598933333333332,
      "grad_norm": 0.026630361083169966,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 6748
    },
    {
      "epoch": 1.1599466666666667,
      "grad_norm": 0.02588514356341218,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 6749
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.023510948315141448,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 6750
    },
    {
      "epoch": 1.1600533333333334,
      "grad_norm": 0.023119031177599086,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6751
    },
    {
      "epoch": 1.1601066666666666,
      "grad_norm": 0.02416566706020812,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 6752
    },
    {
      "epoch": 1.16016,
      "grad_norm": 0.024064125796787347,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 6753
    },
    {
      "epoch": 1.1602133333333333,
      "grad_norm": 0.02316044555872088,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6754
    },
    {
      "epoch": 1.1602666666666668,
      "grad_norm": 0.023307302438562737,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 6755
    },
    {
      "epoch": 1.16032,
      "grad_norm": 0.02412843703014275,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 6756
    },
    {
      "epoch": 1.1603733333333333,
      "grad_norm": 0.02465822783408485,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 6757
    },
    {
      "epoch": 1.1604266666666667,
      "grad_norm": 0.02426126103034757,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 6758
    },
    {
      "epoch": 1.16048,
      "grad_norm": 0.02268615015155995,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 6759
    },
    {
      "epoch": 1.1605333333333334,
      "grad_norm": 0.023806534321443154,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 6760
    },
    {
      "epoch": 1.1605866666666667,
      "grad_norm": 0.02464580733945791,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 6761
    },
    {
      "epoch": 1.16064,
      "grad_norm": 0.023134852126629916,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 6762
    },
    {
      "epoch": 1.1606933333333334,
      "grad_norm": 0.025087351674112385,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 6763
    },
    {
      "epoch": 1.1607466666666666,
      "grad_norm": 0.024185000293092073,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 6764
    },
    {
      "epoch": 1.1608,
      "grad_norm": 0.027215027909494354,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 6765
    },
    {
      "epoch": 1.1608533333333333,
      "grad_norm": 0.024311064497770044,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6766
    },
    {
      "epoch": 1.1609066666666668,
      "grad_norm": 0.024370406373202206,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 6767
    },
    {
      "epoch": 1.16096,
      "grad_norm": 0.024560597815670004,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 6768
    },
    {
      "epoch": 1.1610133333333335,
      "grad_norm": 0.022564323148253275,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 6769
    },
    {
      "epoch": 1.1610666666666667,
      "grad_norm": 0.02383699357386726,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 6770
    },
    {
      "epoch": 1.16112,
      "grad_norm": 0.022733237424625675,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 6771
    },
    {
      "epoch": 1.1611733333333334,
      "grad_norm": 0.023993333043207107,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 6772
    },
    {
      "epoch": 1.1612266666666666,
      "grad_norm": 0.0249792914778152,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 6773
    },
    {
      "epoch": 1.16128,
      "grad_norm": 0.023512380596656515,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 6774
    },
    {
      "epoch": 1.1613333333333333,
      "grad_norm": 0.023886438887930753,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 6775
    },
    {
      "epoch": 1.1613866666666666,
      "grad_norm": 0.023332776464137086,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6776
    },
    {
      "epoch": 1.16144,
      "grad_norm": 0.027051239093929924,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 6777
    },
    {
      "epoch": 1.1614933333333333,
      "grad_norm": 0.02510530058436534,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 6778
    },
    {
      "epoch": 1.1615466666666667,
      "grad_norm": 0.024795774949340644,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 6779
    },
    {
      "epoch": 1.1616,
      "grad_norm": 0.025327692507891842,
      "learning_rate": 0.0001,
      "loss": 1.0499,
      "step": 6780
    },
    {
      "epoch": 1.1616533333333334,
      "grad_norm": 0.02333609234988742,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 6781
    },
    {
      "epoch": 1.1617066666666667,
      "grad_norm": 0.025248014964175235,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 6782
    },
    {
      "epoch": 1.16176,
      "grad_norm": 0.022971478698517053,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 6783
    },
    {
      "epoch": 1.1618133333333334,
      "grad_norm": 0.025394638363275688,
      "learning_rate": 0.0001,
      "loss": 1.0367,
      "step": 6784
    },
    {
      "epoch": 1.1618666666666666,
      "grad_norm": 0.023907325657261252,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 6785
    },
    {
      "epoch": 1.16192,
      "grad_norm": 0.02310338173572221,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6786
    },
    {
      "epoch": 1.1619733333333333,
      "grad_norm": 0.022854128729296475,
      "learning_rate": 0.0001,
      "loss": 0.9358,
      "step": 6787
    },
    {
      "epoch": 1.1620266666666668,
      "grad_norm": 0.025124368509005925,
      "learning_rate": 0.0001,
      "loss": 0.9157,
      "step": 6788
    },
    {
      "epoch": 1.16208,
      "grad_norm": 0.023521588399528788,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 6789
    },
    {
      "epoch": 1.1621333333333332,
      "grad_norm": 0.023956631005886662,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 6790
    },
    {
      "epoch": 1.1621866666666667,
      "grad_norm": 0.02430665131364572,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6791
    },
    {
      "epoch": 1.16224,
      "grad_norm": 0.023441320906224705,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 6792
    },
    {
      "epoch": 1.1622933333333334,
      "grad_norm": 0.025384153358528342,
      "learning_rate": 0.0001,
      "loss": 1.0574,
      "step": 6793
    },
    {
      "epoch": 1.1623466666666666,
      "grad_norm": 0.023361502498296643,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6794
    },
    {
      "epoch": 1.1623999999999999,
      "grad_norm": 0.02334050237055876,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 6795
    },
    {
      "epoch": 1.1624533333333333,
      "grad_norm": 0.024414647872995573,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6796
    },
    {
      "epoch": 1.1625066666666666,
      "grad_norm": 0.025803137214703908,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 6797
    },
    {
      "epoch": 1.16256,
      "grad_norm": 0.02429271628218668,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6798
    },
    {
      "epoch": 1.1626133333333333,
      "grad_norm": 0.024798230675014306,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 6799
    },
    {
      "epoch": 1.1626666666666667,
      "grad_norm": 0.02535884039837735,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 6800
    },
    {
      "epoch": 1.1626666666666667,
      "eval_accuracy": 0.6190252319781903,
      "eval_loss": 1.360657811164856,
      "eval_runtime": 62.6493,
      "eval_samples_per_second": 15.962,
      "eval_steps_per_second": 0.511,
      "step": 6800
    },
    {
      "epoch": 1.16272,
      "grad_norm": 0.025767012831928508,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 6801
    },
    {
      "epoch": 1.1627733333333334,
      "grad_norm": 0.024786011083867892,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 6802
    },
    {
      "epoch": 1.1628266666666667,
      "grad_norm": 0.026476127410031775,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 6803
    },
    {
      "epoch": 1.16288,
      "grad_norm": 0.026785218272879725,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 6804
    },
    {
      "epoch": 1.1629333333333334,
      "grad_norm": 0.0281722573010948,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 6805
    },
    {
      "epoch": 1.1629866666666666,
      "grad_norm": 0.024402256961101706,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 6806
    },
    {
      "epoch": 1.16304,
      "grad_norm": 0.024653656532676822,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6807
    },
    {
      "epoch": 1.1630933333333333,
      "grad_norm": 0.026506022531168457,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 6808
    },
    {
      "epoch": 1.1631466666666666,
      "grad_norm": 0.025939581835983955,
      "learning_rate": 0.0001,
      "loss": 0.9138,
      "step": 6809
    },
    {
      "epoch": 1.1632,
      "grad_norm": 0.024270165928994118,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 6810
    },
    {
      "epoch": 1.1632533333333333,
      "grad_norm": 0.023018818877469066,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 6811
    },
    {
      "epoch": 1.1633066666666667,
      "grad_norm": 0.026099398230884356,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6812
    },
    {
      "epoch": 1.16336,
      "grad_norm": 0.024318255938620432,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6813
    },
    {
      "epoch": 1.1634133333333334,
      "grad_norm": 0.024986989135682626,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 6814
    },
    {
      "epoch": 1.1634666666666666,
      "grad_norm": 0.023953957468716244,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6815
    },
    {
      "epoch": 1.16352,
      "grad_norm": 0.022879990516929877,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 6816
    },
    {
      "epoch": 1.1635733333333333,
      "grad_norm": 0.023444391230691156,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 6817
    },
    {
      "epoch": 1.1636266666666666,
      "grad_norm": 0.024278689926189662,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6818
    },
    {
      "epoch": 1.16368,
      "grad_norm": 0.023543642052739126,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 6819
    },
    {
      "epoch": 1.1637333333333333,
      "grad_norm": 0.0232226919284889,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 6820
    },
    {
      "epoch": 1.1637866666666667,
      "grad_norm": 0.022886077787845585,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 6821
    },
    {
      "epoch": 1.16384,
      "grad_norm": 0.02386460361392815,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6822
    },
    {
      "epoch": 1.1638933333333332,
      "grad_norm": 0.023239669663333455,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6823
    },
    {
      "epoch": 1.1639466666666667,
      "grad_norm": 0.022462655648670973,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 6824
    },
    {
      "epoch": 1.164,
      "grad_norm": 0.026366758252185294,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 6825
    },
    {
      "epoch": 1.1640533333333334,
      "grad_norm": 0.02521332615050943,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 6826
    },
    {
      "epoch": 1.1641066666666666,
      "grad_norm": 0.025312395352453665,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 6827
    },
    {
      "epoch": 1.16416,
      "grad_norm": 0.023851067166556692,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 6828
    },
    {
      "epoch": 1.1642133333333333,
      "grad_norm": 0.024193259312865326,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 6829
    },
    {
      "epoch": 1.1642666666666668,
      "grad_norm": 0.024658956715891266,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 6830
    },
    {
      "epoch": 1.16432,
      "grad_norm": 0.0264371097239152,
      "learning_rate": 0.0001,
      "loss": 1.0491,
      "step": 6831
    },
    {
      "epoch": 1.1643733333333333,
      "grad_norm": 0.024000655188537962,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 6832
    },
    {
      "epoch": 1.1644266666666667,
      "grad_norm": 0.02307534259617658,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6833
    },
    {
      "epoch": 1.16448,
      "grad_norm": 0.023962059098157303,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 6834
    },
    {
      "epoch": 1.1645333333333334,
      "grad_norm": 0.023376229231281468,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 6835
    },
    {
      "epoch": 1.1645866666666667,
      "grad_norm": 0.024672701884721603,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 6836
    },
    {
      "epoch": 1.16464,
      "grad_norm": 0.0293165369432914,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 6837
    },
    {
      "epoch": 1.1646933333333334,
      "grad_norm": 0.023692007911661005,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6838
    },
    {
      "epoch": 1.1647466666666666,
      "grad_norm": 0.02735951307340649,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6839
    },
    {
      "epoch": 1.1648,
      "grad_norm": 0.025573216318602,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6840
    },
    {
      "epoch": 1.1648533333333333,
      "grad_norm": 0.027099584383656457,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6841
    },
    {
      "epoch": 1.1649066666666668,
      "grad_norm": 0.024264853153447796,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 6842
    },
    {
      "epoch": 1.16496,
      "grad_norm": 0.023767024579545704,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 6843
    },
    {
      "epoch": 1.1650133333333335,
      "grad_norm": 0.025746031962355344,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6844
    },
    {
      "epoch": 1.1650666666666667,
      "grad_norm": 0.022993166096174862,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 6845
    },
    {
      "epoch": 1.16512,
      "grad_norm": 0.023612992120162074,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 6846
    },
    {
      "epoch": 1.1651733333333334,
      "grad_norm": 0.023403019348433248,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 6847
    },
    {
      "epoch": 1.1652266666666666,
      "grad_norm": 0.02402149603016801,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6848
    },
    {
      "epoch": 1.16528,
      "grad_norm": 0.022388273494573892,
      "learning_rate": 0.0001,
      "loss": 1.0426,
      "step": 6849
    },
    {
      "epoch": 1.1653333333333333,
      "grad_norm": 0.02373755529998794,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 6850
    },
    {
      "epoch": 1.1653866666666666,
      "grad_norm": 0.024511477763865742,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6851
    },
    {
      "epoch": 1.16544,
      "grad_norm": 0.023860765578444975,
      "learning_rate": 0.0001,
      "loss": 0.9169,
      "step": 6852
    },
    {
      "epoch": 1.1654933333333333,
      "grad_norm": 0.026823213971789075,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 6853
    },
    {
      "epoch": 1.1655466666666667,
      "grad_norm": 0.023712216506731932,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6854
    },
    {
      "epoch": 1.1656,
      "grad_norm": 0.02349925342148422,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 6855
    },
    {
      "epoch": 1.1656533333333334,
      "grad_norm": 0.02303234079602407,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 6856
    },
    {
      "epoch": 1.1657066666666667,
      "grad_norm": 0.024523303832194338,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 6857
    },
    {
      "epoch": 1.16576,
      "grad_norm": 0.023739778523392947,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 6858
    },
    {
      "epoch": 1.1658133333333334,
      "grad_norm": 0.02358205922093757,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 6859
    },
    {
      "epoch": 1.1658666666666666,
      "grad_norm": 0.02531806841258065,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 6860
    },
    {
      "epoch": 1.16592,
      "grad_norm": 0.02488032250068803,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6861
    },
    {
      "epoch": 1.1659733333333333,
      "grad_norm": 0.023765009949508618,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 6862
    },
    {
      "epoch": 1.1660266666666668,
      "grad_norm": 0.025353478902466184,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 6863
    },
    {
      "epoch": 1.16608,
      "grad_norm": 0.025440184082523822,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6864
    },
    {
      "epoch": 1.1661333333333332,
      "grad_norm": 0.022155695114398806,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 6865
    },
    {
      "epoch": 1.1661866666666667,
      "grad_norm": 0.02569682743127436,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 6866
    },
    {
      "epoch": 1.16624,
      "grad_norm": 0.0249169963327629,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 6867
    },
    {
      "epoch": 1.1662933333333334,
      "grad_norm": 0.025620050650038063,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 6868
    },
    {
      "epoch": 1.1663466666666666,
      "grad_norm": 0.021753543919706297,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 6869
    },
    {
      "epoch": 1.1663999999999999,
      "grad_norm": 0.023849264811330307,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 6870
    },
    {
      "epoch": 1.1664533333333333,
      "grad_norm": 0.02513323909922531,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 6871
    },
    {
      "epoch": 1.1665066666666666,
      "grad_norm": 0.025228518653022954,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6872
    },
    {
      "epoch": 1.16656,
      "grad_norm": 0.022852846626365168,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 6873
    },
    {
      "epoch": 1.1666133333333333,
      "grad_norm": 0.02764144751306388,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 6874
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.025944589791632788,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6875
    },
    {
      "epoch": 1.16672,
      "grad_norm": 0.02243639122818393,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6876
    },
    {
      "epoch": 1.1667733333333334,
      "grad_norm": 0.02472594667737776,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 6877
    },
    {
      "epoch": 1.1668266666666667,
      "grad_norm": 0.02351577925787239,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6878
    },
    {
      "epoch": 1.16688,
      "grad_norm": 0.023203252822140617,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 6879
    },
    {
      "epoch": 1.1669333333333334,
      "grad_norm": 0.025569007552464804,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 6880
    },
    {
      "epoch": 1.1669866666666666,
      "grad_norm": 0.025482773763975106,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6881
    },
    {
      "epoch": 1.16704,
      "grad_norm": 0.0253364099844221,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 6882
    },
    {
      "epoch": 1.1670933333333333,
      "grad_norm": 0.025394455009063018,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 6883
    },
    {
      "epoch": 1.1671466666666666,
      "grad_norm": 0.025587296158033842,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6884
    },
    {
      "epoch": 1.1672,
      "grad_norm": 0.023188288433800282,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 6885
    },
    {
      "epoch": 1.1672533333333333,
      "grad_norm": 0.023886749466556355,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6886
    },
    {
      "epoch": 1.1673066666666667,
      "grad_norm": 0.02480113601915838,
      "learning_rate": 0.0001,
      "loss": 0.9098,
      "step": 6887
    },
    {
      "epoch": 1.16736,
      "grad_norm": 0.024299195090000968,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 6888
    },
    {
      "epoch": 1.1674133333333334,
      "grad_norm": 0.023721576389822703,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6889
    },
    {
      "epoch": 1.1674666666666667,
      "grad_norm": 0.024221525995264708,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 6890
    },
    {
      "epoch": 1.1675200000000001,
      "grad_norm": 0.023374795381699974,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6891
    },
    {
      "epoch": 1.1675733333333334,
      "grad_norm": 0.02666830119615866,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 6892
    },
    {
      "epoch": 1.1676266666666666,
      "grad_norm": 0.022344714666868215,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 6893
    },
    {
      "epoch": 1.16768,
      "grad_norm": 0.024641696024362086,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 6894
    },
    {
      "epoch": 1.1677333333333333,
      "grad_norm": 0.024642054270132326,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 6895
    },
    {
      "epoch": 1.1677866666666668,
      "grad_norm": 0.02482884165944881,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 6896
    },
    {
      "epoch": 1.16784,
      "grad_norm": 0.026595058921092613,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 6897
    },
    {
      "epoch": 1.1678933333333332,
      "grad_norm": 0.02383707661997,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 6898
    },
    {
      "epoch": 1.1679466666666667,
      "grad_norm": 0.022814980422183606,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 6899
    },
    {
      "epoch": 1.168,
      "grad_norm": 0.02713464971935948,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 6900
    },
    {
      "epoch": 1.1680533333333334,
      "grad_norm": 0.02340131799529868,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 6901
    },
    {
      "epoch": 1.1681066666666666,
      "grad_norm": 0.023833999374026988,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6902
    },
    {
      "epoch": 1.16816,
      "grad_norm": 0.024716291343854925,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 6903
    },
    {
      "epoch": 1.1682133333333333,
      "grad_norm": 0.023650708207617558,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 6904
    },
    {
      "epoch": 1.1682666666666668,
      "grad_norm": 0.025623724754061064,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 6905
    },
    {
      "epoch": 1.16832,
      "grad_norm": 0.02435984682274022,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 6906
    },
    {
      "epoch": 1.1683733333333333,
      "grad_norm": 0.02359268182360222,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 6907
    },
    {
      "epoch": 1.1684266666666667,
      "grad_norm": 0.025067136672875683,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 6908
    },
    {
      "epoch": 1.16848,
      "grad_norm": 0.022856027030426267,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 6909
    },
    {
      "epoch": 1.1685333333333334,
      "grad_norm": 0.0254821409498281,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 6910
    },
    {
      "epoch": 1.1685866666666667,
      "grad_norm": 0.025326008952492707,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6911
    },
    {
      "epoch": 1.16864,
      "grad_norm": 0.02283766883582871,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 6912
    },
    {
      "epoch": 1.1686933333333334,
      "grad_norm": 0.024645990757785827,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 6913
    },
    {
      "epoch": 1.1687466666666666,
      "grad_norm": 0.025121553012212645,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 6914
    },
    {
      "epoch": 1.1688,
      "grad_norm": 0.024088331371734866,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 6915
    },
    {
      "epoch": 1.1688533333333333,
      "grad_norm": 0.024917784358379786,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 6916
    },
    {
      "epoch": 1.1689066666666668,
      "grad_norm": 0.0243687198020497,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 6917
    },
    {
      "epoch": 1.16896,
      "grad_norm": 0.022541976344911566,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 6918
    },
    {
      "epoch": 1.1690133333333332,
      "grad_norm": 0.024207851115426116,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 6919
    },
    {
      "epoch": 1.1690666666666667,
      "grad_norm": 0.023090589416632744,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 6920
    },
    {
      "epoch": 1.16912,
      "grad_norm": 0.0229721176709582,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 6921
    },
    {
      "epoch": 1.1691733333333334,
      "grad_norm": 0.02573731056045605,
      "learning_rate": 0.0001,
      "loss": 0.9666,
      "step": 6922
    },
    {
      "epoch": 1.1692266666666666,
      "grad_norm": 0.02417773391808054,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 6923
    },
    {
      "epoch": 1.16928,
      "grad_norm": 0.025973942481454654,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 6924
    },
    {
      "epoch": 1.1693333333333333,
      "grad_norm": 0.0277372495396433,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 6925
    },
    {
      "epoch": 1.1693866666666666,
      "grad_norm": 0.02479798287015874,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 6926
    },
    {
      "epoch": 1.16944,
      "grad_norm": 0.023272842784758035,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6927
    },
    {
      "epoch": 1.1694933333333333,
      "grad_norm": 0.02505579019339498,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 6928
    },
    {
      "epoch": 1.1695466666666667,
      "grad_norm": 0.025692110768697856,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 6929
    },
    {
      "epoch": 1.1696,
      "grad_norm": 0.023730424873614406,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 6930
    },
    {
      "epoch": 1.1696533333333332,
      "grad_norm": 0.02584344380202352,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 6931
    },
    {
      "epoch": 1.1697066666666667,
      "grad_norm": 0.024088866894179967,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 6932
    },
    {
      "epoch": 1.16976,
      "grad_norm": 0.024417460598519722,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6933
    },
    {
      "epoch": 1.1698133333333334,
      "grad_norm": 0.025563772140873797,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6934
    },
    {
      "epoch": 1.1698666666666666,
      "grad_norm": 0.023810609036160543,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 6935
    },
    {
      "epoch": 1.16992,
      "grad_norm": 0.02396748459555155,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 6936
    },
    {
      "epoch": 1.1699733333333333,
      "grad_norm": 0.02295706209471395,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 6937
    },
    {
      "epoch": 1.1700266666666668,
      "grad_norm": 0.025582791414694148,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 6938
    },
    {
      "epoch": 1.17008,
      "grad_norm": 0.02385783117389385,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 6939
    },
    {
      "epoch": 1.1701333333333332,
      "grad_norm": 0.02355358485610262,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 6940
    },
    {
      "epoch": 1.1701866666666667,
      "grad_norm": 0.02587938899772382,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6941
    },
    {
      "epoch": 1.17024,
      "grad_norm": 0.025370088197923895,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6942
    },
    {
      "epoch": 1.1702933333333334,
      "grad_norm": 0.0254445387547434,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 6943
    },
    {
      "epoch": 1.1703466666666666,
      "grad_norm": 0.02356748430450548,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6944
    },
    {
      "epoch": 1.1703999999999999,
      "grad_norm": 0.023941273393878516,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6945
    },
    {
      "epoch": 1.1704533333333333,
      "grad_norm": 0.0236174013575141,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 6946
    },
    {
      "epoch": 1.1705066666666666,
      "grad_norm": 0.024369899215844662,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 6947
    },
    {
      "epoch": 1.17056,
      "grad_norm": 0.024264794568095827,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6948
    },
    {
      "epoch": 1.1706133333333333,
      "grad_norm": 0.02315334797489342,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6949
    },
    {
      "epoch": 1.1706666666666667,
      "grad_norm": 0.02360073081579082,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 6950
    },
    {
      "epoch": 1.17072,
      "grad_norm": 0.024392234530456653,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 6951
    },
    {
      "epoch": 1.1707733333333334,
      "grad_norm": 0.023306708324441643,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 6952
    },
    {
      "epoch": 1.1708266666666667,
      "grad_norm": 0.02435775204577092,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6953
    },
    {
      "epoch": 1.17088,
      "grad_norm": 0.022263348362326574,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6954
    },
    {
      "epoch": 1.1709333333333334,
      "grad_norm": 0.024884897417990322,
      "learning_rate": 0.0001,
      "loss": 1.1169,
      "step": 6955
    },
    {
      "epoch": 1.1709866666666666,
      "grad_norm": 0.02367814467631621,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 6956
    },
    {
      "epoch": 1.17104,
      "grad_norm": 0.024955545331722024,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6957
    },
    {
      "epoch": 1.1710933333333333,
      "grad_norm": 0.026413734507959113,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 6958
    },
    {
      "epoch": 1.1711466666666666,
      "grad_norm": 0.026122007306020233,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6959
    },
    {
      "epoch": 1.1712,
      "grad_norm": 0.025614446674793147,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 6960
    },
    {
      "epoch": 1.1712533333333333,
      "grad_norm": 0.02506133104795325,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 6961
    },
    {
      "epoch": 1.1713066666666667,
      "grad_norm": 0.024762384171575426,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 6962
    },
    {
      "epoch": 1.17136,
      "grad_norm": 0.024451171016053572,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 6963
    },
    {
      "epoch": 1.1714133333333334,
      "grad_norm": 0.02350992511506928,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 6964
    },
    {
      "epoch": 1.1714666666666667,
      "grad_norm": 0.025039091337781146,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 6965
    },
    {
      "epoch": 1.1715200000000001,
      "grad_norm": 0.02333255919147213,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6966
    },
    {
      "epoch": 1.1715733333333334,
      "grad_norm": 0.024161030222332392,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 6967
    },
    {
      "epoch": 1.1716266666666666,
      "grad_norm": 0.02523105485995585,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 6968
    },
    {
      "epoch": 1.17168,
      "grad_norm": 0.023930307105385712,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 6969
    },
    {
      "epoch": 1.1717333333333333,
      "grad_norm": 0.024288548384147592,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 6970
    },
    {
      "epoch": 1.1717866666666668,
      "grad_norm": 0.02538583299123739,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 6971
    },
    {
      "epoch": 1.17184,
      "grad_norm": 0.024730353603862328,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 6972
    },
    {
      "epoch": 1.1718933333333332,
      "grad_norm": 0.02652453493797288,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 6973
    },
    {
      "epoch": 1.1719466666666667,
      "grad_norm": 0.026706289322040517,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6974
    },
    {
      "epoch": 1.172,
      "grad_norm": 0.024870089465150364,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 6975
    },
    {
      "epoch": 1.1720533333333334,
      "grad_norm": 0.0235378277320955,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 6976
    },
    {
      "epoch": 1.1721066666666666,
      "grad_norm": 0.024987070707046907,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 6977
    },
    {
      "epoch": 1.17216,
      "grad_norm": 0.024049211517626956,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 6978
    },
    {
      "epoch": 1.1722133333333333,
      "grad_norm": 0.024182675617960617,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 6979
    },
    {
      "epoch": 1.1722666666666668,
      "grad_norm": 0.025761365941700205,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 6980
    },
    {
      "epoch": 1.17232,
      "grad_norm": 0.022905623612322262,
      "learning_rate": 0.0001,
      "loss": 0.8928,
      "step": 6981
    },
    {
      "epoch": 1.1723733333333333,
      "grad_norm": 0.023216065179511452,
      "learning_rate": 0.0001,
      "loss": 0.9187,
      "step": 6982
    },
    {
      "epoch": 1.1724266666666667,
      "grad_norm": 0.024530209714282193,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 6983
    },
    {
      "epoch": 1.17248,
      "grad_norm": 0.026156553312374146,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 6984
    },
    {
      "epoch": 1.1725333333333334,
      "grad_norm": 0.024843308833507695,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 6985
    },
    {
      "epoch": 1.1725866666666667,
      "grad_norm": 0.023989442552823592,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 6986
    },
    {
      "epoch": 1.17264,
      "grad_norm": 0.025059561667842258,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 6987
    },
    {
      "epoch": 1.1726933333333334,
      "grad_norm": 0.025810191638630166,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 6988
    },
    {
      "epoch": 1.1727466666666666,
      "grad_norm": 0.024121175548255304,
      "learning_rate": 0.0001,
      "loss": 0.8872,
      "step": 6989
    },
    {
      "epoch": 1.1728,
      "grad_norm": 0.025711370194559817,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 6990
    },
    {
      "epoch": 1.1728533333333333,
      "grad_norm": 0.025422542773447836,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 6991
    },
    {
      "epoch": 1.1729066666666665,
      "grad_norm": 0.025492050222549995,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 6992
    },
    {
      "epoch": 1.17296,
      "grad_norm": 0.023515717169399247,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 6993
    },
    {
      "epoch": 1.1730133333333332,
      "grad_norm": 0.02497357582126835,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 6994
    },
    {
      "epoch": 1.1730666666666667,
      "grad_norm": 0.025338519520666746,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 6995
    },
    {
      "epoch": 1.17312,
      "grad_norm": 0.02569439225513597,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6996
    },
    {
      "epoch": 1.1731733333333334,
      "grad_norm": 0.02297163626959044,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 6997
    },
    {
      "epoch": 1.1732266666666666,
      "grad_norm": 0.023097914427197715,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 6998
    },
    {
      "epoch": 1.17328,
      "grad_norm": 0.02363924479094071,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 6999
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 0.02298821819737453,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 7000
    },
    {
      "epoch": 1.1733333333333333,
      "eval_accuracy": 0.6191704929843379,
      "eval_loss": 1.3596595525741577,
      "eval_runtime": 63.6252,
      "eval_samples_per_second": 15.717,
      "eval_steps_per_second": 0.503,
      "step": 7000
    },
    {
      "epoch": 1.1733866666666666,
      "grad_norm": 0.02667502440624875,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 7001
    },
    {
      "epoch": 1.17344,
      "grad_norm": 0.024418164012195695,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 7002
    },
    {
      "epoch": 1.1734933333333333,
      "grad_norm": 0.023625736382502004,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 7003
    },
    {
      "epoch": 1.1735466666666667,
      "grad_norm": 0.02429074094690126,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 7004
    },
    {
      "epoch": 1.1736,
      "grad_norm": 0.025065734735981372,
      "learning_rate": 0.0001,
      "loss": 0.8994,
      "step": 7005
    },
    {
      "epoch": 1.1736533333333332,
      "grad_norm": 0.02365005502432619,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 7006
    },
    {
      "epoch": 1.1737066666666667,
      "grad_norm": 0.025753522162193922,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 7007
    },
    {
      "epoch": 1.17376,
      "grad_norm": 0.023503285946185944,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 7008
    },
    {
      "epoch": 1.1738133333333334,
      "grad_norm": 0.025038874685428567,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 7009
    },
    {
      "epoch": 1.1738666666666666,
      "grad_norm": 0.022983995335784962,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 7010
    },
    {
      "epoch": 1.17392,
      "grad_norm": 0.022950361202798458,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 7011
    },
    {
      "epoch": 1.1739733333333333,
      "grad_norm": 0.024514134640961114,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 7012
    },
    {
      "epoch": 1.1740266666666668,
      "grad_norm": 0.022622454317474578,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 7013
    },
    {
      "epoch": 1.17408,
      "grad_norm": 0.023307011633868207,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 7014
    },
    {
      "epoch": 1.1741333333333333,
      "grad_norm": 0.023163832628241208,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 7015
    },
    {
      "epoch": 1.1741866666666667,
      "grad_norm": 0.025126484267711573,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 7016
    },
    {
      "epoch": 1.17424,
      "grad_norm": 0.024230724446285632,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 7017
    },
    {
      "epoch": 1.1742933333333334,
      "grad_norm": 0.023287546673252744,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 7018
    },
    {
      "epoch": 1.1743466666666666,
      "grad_norm": 0.025241235371018876,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 7019
    },
    {
      "epoch": 1.1743999999999999,
      "grad_norm": 0.026014971518258108,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 7020
    },
    {
      "epoch": 1.1744533333333333,
      "grad_norm": 0.023417539232913308,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 7021
    },
    {
      "epoch": 1.1745066666666666,
      "grad_norm": 0.025445005779137688,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 7022
    },
    {
      "epoch": 1.17456,
      "grad_norm": 0.02351995989663083,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 7023
    },
    {
      "epoch": 1.1746133333333333,
      "grad_norm": 0.023543330108385784,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 7024
    },
    {
      "epoch": 1.1746666666666667,
      "grad_norm": 0.023771694626863245,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 7025
    },
    {
      "epoch": 1.17472,
      "grad_norm": 0.02551981461676124,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 7026
    },
    {
      "epoch": 1.1747733333333334,
      "grad_norm": 0.02336971266607128,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 7027
    },
    {
      "epoch": 1.1748266666666667,
      "grad_norm": 0.023946469862739003,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 7028
    },
    {
      "epoch": 1.17488,
      "grad_norm": 0.024101607353182265,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 7029
    },
    {
      "epoch": 1.1749333333333334,
      "grad_norm": 0.022652146440137157,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 7030
    },
    {
      "epoch": 1.1749866666666666,
      "grad_norm": 0.024290023893507283,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 7031
    },
    {
      "epoch": 1.17504,
      "grad_norm": 0.024218984962262883,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 7032
    },
    {
      "epoch": 1.1750933333333333,
      "grad_norm": 0.023520081879556284,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 7033
    },
    {
      "epoch": 1.1751466666666666,
      "grad_norm": 0.022888075690015983,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 7034
    },
    {
      "epoch": 1.1752,
      "grad_norm": 0.025818591204743883,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 7035
    },
    {
      "epoch": 1.1752533333333333,
      "grad_norm": 0.023995650349216774,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 7036
    },
    {
      "epoch": 1.1753066666666667,
      "grad_norm": 0.024050776290608585,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 7037
    },
    {
      "epoch": 1.17536,
      "grad_norm": 0.025089706146696384,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 7038
    },
    {
      "epoch": 1.1754133333333334,
      "grad_norm": 0.02491243018034038,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 7039
    },
    {
      "epoch": 1.1754666666666667,
      "grad_norm": 0.031248511919378077,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 7040
    },
    {
      "epoch": 1.1755200000000001,
      "grad_norm": 0.023759556748708804,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 7041
    },
    {
      "epoch": 1.1755733333333334,
      "grad_norm": 0.02533332722720153,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 7042
    },
    {
      "epoch": 1.1756266666666666,
      "grad_norm": 0.025543998908305898,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 7043
    },
    {
      "epoch": 1.17568,
      "grad_norm": 0.027199031154858715,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 7044
    },
    {
      "epoch": 1.1757333333333333,
      "grad_norm": 0.023662855413393618,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 7045
    },
    {
      "epoch": 1.1757866666666668,
      "grad_norm": 0.025471629993117327,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 7046
    },
    {
      "epoch": 1.17584,
      "grad_norm": 0.024160316547820096,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 7047
    },
    {
      "epoch": 1.1758933333333332,
      "grad_norm": 0.02355660260906995,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7048
    },
    {
      "epoch": 1.1759466666666667,
      "grad_norm": 0.02444471080976791,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 7049
    },
    {
      "epoch": 1.176,
      "grad_norm": 0.024487065948363685,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 7050
    },
    {
      "epoch": 1.1760533333333334,
      "grad_norm": 0.02131299612838919,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 7051
    },
    {
      "epoch": 1.1761066666666666,
      "grad_norm": 0.02471116972897347,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 7052
    },
    {
      "epoch": 1.17616,
      "grad_norm": 0.02475530305942166,
      "learning_rate": 0.0001,
      "loss": 0.9147,
      "step": 7053
    },
    {
      "epoch": 1.1762133333333333,
      "grad_norm": 0.02474976481498379,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 7054
    },
    {
      "epoch": 1.1762666666666666,
      "grad_norm": 0.02516139608752597,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 7055
    },
    {
      "epoch": 1.17632,
      "grad_norm": 0.025195399665170922,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 7056
    },
    {
      "epoch": 1.1763733333333333,
      "grad_norm": 0.027650953530258794,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 7057
    },
    {
      "epoch": 1.1764266666666667,
      "grad_norm": 0.022951753981031938,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 7058
    },
    {
      "epoch": 1.17648,
      "grad_norm": 0.022554928933921678,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 7059
    },
    {
      "epoch": 1.1765333333333334,
      "grad_norm": 0.02418030666353971,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 7060
    },
    {
      "epoch": 1.1765866666666667,
      "grad_norm": 0.022107478129663127,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 7061
    },
    {
      "epoch": 1.17664,
      "grad_norm": 0.022858225190389516,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 7062
    },
    {
      "epoch": 1.1766933333333334,
      "grad_norm": 0.022800395873512215,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 7063
    },
    {
      "epoch": 1.1767466666666666,
      "grad_norm": 0.02469216409708643,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 7064
    },
    {
      "epoch": 1.1768,
      "grad_norm": 0.023932585311814632,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 7065
    },
    {
      "epoch": 1.1768533333333333,
      "grad_norm": 0.024113585490265054,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 7066
    },
    {
      "epoch": 1.1769066666666665,
      "grad_norm": 0.024336355395716804,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 7067
    },
    {
      "epoch": 1.17696,
      "grad_norm": 0.024242534903949307,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 7068
    },
    {
      "epoch": 1.1770133333333332,
      "grad_norm": 0.025121429449966988,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 7069
    },
    {
      "epoch": 1.1770666666666667,
      "grad_norm": 0.02509633027312255,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 7070
    },
    {
      "epoch": 1.17712,
      "grad_norm": 0.029457371428656648,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7071
    },
    {
      "epoch": 1.1771733333333334,
      "grad_norm": 0.02480911683329764,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 7072
    },
    {
      "epoch": 1.1772266666666666,
      "grad_norm": 0.025255828260090516,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7073
    },
    {
      "epoch": 1.17728,
      "grad_norm": 0.023873606801247203,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 7074
    },
    {
      "epoch": 1.1773333333333333,
      "grad_norm": 0.026383015616662748,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 7075
    },
    {
      "epoch": 1.1773866666666666,
      "grad_norm": 0.027267340740913908,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 7076
    },
    {
      "epoch": 1.17744,
      "grad_norm": 0.025381599941619013,
      "learning_rate": 0.0001,
      "loss": 0.9219,
      "step": 7077
    },
    {
      "epoch": 1.1774933333333333,
      "grad_norm": 0.0237847451258361,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 7078
    },
    {
      "epoch": 1.1775466666666667,
      "grad_norm": 0.02480677156609177,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 7079
    },
    {
      "epoch": 1.1776,
      "grad_norm": 0.024973570287600208,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 7080
    },
    {
      "epoch": 1.1776533333333332,
      "grad_norm": 0.025364952485788666,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 7081
    },
    {
      "epoch": 1.1777066666666667,
      "grad_norm": 0.025745289652924785,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 7082
    },
    {
      "epoch": 1.17776,
      "grad_norm": 0.023603711306276788,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7083
    },
    {
      "epoch": 1.1778133333333334,
      "grad_norm": 0.0271230754140236,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 7084
    },
    {
      "epoch": 1.1778666666666666,
      "grad_norm": 0.02346104727763027,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 7085
    },
    {
      "epoch": 1.17792,
      "grad_norm": 0.023847674074655777,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 7086
    },
    {
      "epoch": 1.1779733333333333,
      "grad_norm": 0.025183848293668272,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 7087
    },
    {
      "epoch": 1.1780266666666668,
      "grad_norm": 0.024792041639925863,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 7088
    },
    {
      "epoch": 1.17808,
      "grad_norm": 0.026916552961202152,
      "learning_rate": 0.0001,
      "loss": 0.9342,
      "step": 7089
    },
    {
      "epoch": 1.1781333333333333,
      "grad_norm": 0.025462541304654612,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 7090
    },
    {
      "epoch": 1.1781866666666667,
      "grad_norm": 0.024589468766284872,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 7091
    },
    {
      "epoch": 1.17824,
      "grad_norm": 0.02548489324680942,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 7092
    },
    {
      "epoch": 1.1782933333333334,
      "grad_norm": 0.025868970639121334,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 7093
    },
    {
      "epoch": 1.1783466666666667,
      "grad_norm": 0.025776245392355596,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7094
    },
    {
      "epoch": 1.1784,
      "grad_norm": 0.023103584507833803,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 7095
    },
    {
      "epoch": 1.1784533333333334,
      "grad_norm": 0.023955616972966838,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 7096
    },
    {
      "epoch": 1.1785066666666666,
      "grad_norm": 0.02472422030536202,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 7097
    },
    {
      "epoch": 1.17856,
      "grad_norm": 0.025048452824795175,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 7098
    },
    {
      "epoch": 1.1786133333333333,
      "grad_norm": 0.02443122581651039,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7099
    },
    {
      "epoch": 1.1786666666666668,
      "grad_norm": 0.024912536861265308,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 7100
    },
    {
      "epoch": 1.17872,
      "grad_norm": 0.026364933300361854,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 7101
    },
    {
      "epoch": 1.1787733333333335,
      "grad_norm": 0.026752467754642906,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 7102
    },
    {
      "epoch": 1.1788266666666667,
      "grad_norm": 0.02364739615160194,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 7103
    },
    {
      "epoch": 1.17888,
      "grad_norm": 0.023521955050454776,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 7104
    },
    {
      "epoch": 1.1789333333333334,
      "grad_norm": 0.023786048014684008,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 7105
    },
    {
      "epoch": 1.1789866666666666,
      "grad_norm": 0.023922610192238052,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 7106
    },
    {
      "epoch": 1.17904,
      "grad_norm": 0.02433493418607752,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 7107
    },
    {
      "epoch": 1.1790933333333333,
      "grad_norm": 0.023814416542593118,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 7108
    },
    {
      "epoch": 1.1791466666666666,
      "grad_norm": 0.02308312647819943,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 7109
    },
    {
      "epoch": 1.1792,
      "grad_norm": 0.024929679413760283,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 7110
    },
    {
      "epoch": 1.1792533333333333,
      "grad_norm": 0.02429827154728894,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 7111
    },
    {
      "epoch": 1.1793066666666667,
      "grad_norm": 0.024734115513789186,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 7112
    },
    {
      "epoch": 1.17936,
      "grad_norm": 0.024277375248288095,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 7113
    },
    {
      "epoch": 1.1794133333333334,
      "grad_norm": 0.023793283975614078,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7114
    },
    {
      "epoch": 1.1794666666666667,
      "grad_norm": 0.023754388994049594,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 7115
    },
    {
      "epoch": 1.1795200000000001,
      "grad_norm": 0.024989474711045456,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 7116
    },
    {
      "epoch": 1.1795733333333334,
      "grad_norm": 0.024131252297813273,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 7117
    },
    {
      "epoch": 1.1796266666666666,
      "grad_norm": 0.026265013319867154,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 7118
    },
    {
      "epoch": 1.17968,
      "grad_norm": 0.024680324878551433,
      "learning_rate": 0.0001,
      "loss": 0.9119,
      "step": 7119
    },
    {
      "epoch": 1.1797333333333333,
      "grad_norm": 0.023539857265058774,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7120
    },
    {
      "epoch": 1.1797866666666668,
      "grad_norm": 0.024841862054223254,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 7121
    },
    {
      "epoch": 1.17984,
      "grad_norm": 0.024497427111670106,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 7122
    },
    {
      "epoch": 1.1798933333333332,
      "grad_norm": 0.02267933317222244,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 7123
    },
    {
      "epoch": 1.1799466666666667,
      "grad_norm": 0.023448210891188346,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 7124
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.025523848846134664,
      "learning_rate": 0.0001,
      "loss": 1.0265,
      "step": 7125
    },
    {
      "epoch": 1.1800533333333334,
      "grad_norm": 0.02257814913109568,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 7126
    },
    {
      "epoch": 1.1801066666666666,
      "grad_norm": 0.024374476857989522,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 7127
    },
    {
      "epoch": 1.1801599999999999,
      "grad_norm": 0.024269729193991233,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 7128
    },
    {
      "epoch": 1.1802133333333333,
      "grad_norm": 0.02235426548560408,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 7129
    },
    {
      "epoch": 1.1802666666666666,
      "grad_norm": 0.023223789583720376,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 7130
    },
    {
      "epoch": 1.18032,
      "grad_norm": 0.025443823403578,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 7131
    },
    {
      "epoch": 1.1803733333333333,
      "grad_norm": 0.025045093235108278,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 7132
    },
    {
      "epoch": 1.1804266666666667,
      "grad_norm": 0.023562556941936114,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 7133
    },
    {
      "epoch": 1.18048,
      "grad_norm": 0.0235384675374789,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7134
    },
    {
      "epoch": 1.1805333333333334,
      "grad_norm": 0.025494153671183347,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 7135
    },
    {
      "epoch": 1.1805866666666667,
      "grad_norm": 0.024189269245011216,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 7136
    },
    {
      "epoch": 1.18064,
      "grad_norm": 0.02232239857894109,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 7137
    },
    {
      "epoch": 1.1806933333333334,
      "grad_norm": 0.02548961372562877,
      "learning_rate": 0.0001,
      "loss": 0.8809,
      "step": 7138
    },
    {
      "epoch": 1.1807466666666666,
      "grad_norm": 0.02315384088050249,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 7139
    },
    {
      "epoch": 1.1808,
      "grad_norm": 0.024056976154347744,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 7140
    },
    {
      "epoch": 1.1808533333333333,
      "grad_norm": 0.02264280967299478,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 7141
    },
    {
      "epoch": 1.1809066666666665,
      "grad_norm": 0.02463976586916632,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 7142
    },
    {
      "epoch": 1.18096,
      "grad_norm": 0.02182445858742789,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 7143
    },
    {
      "epoch": 1.1810133333333332,
      "grad_norm": 0.024352927255960045,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 7144
    },
    {
      "epoch": 1.1810666666666667,
      "grad_norm": 0.025228808267001076,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 7145
    },
    {
      "epoch": 1.18112,
      "grad_norm": 0.023125582339206266,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 7146
    },
    {
      "epoch": 1.1811733333333334,
      "grad_norm": 0.023385489274879302,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 7147
    },
    {
      "epoch": 1.1812266666666666,
      "grad_norm": 0.02497139634601958,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 7148
    },
    {
      "epoch": 1.18128,
      "grad_norm": 0.024146412510879154,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 7149
    },
    {
      "epoch": 1.1813333333333333,
      "grad_norm": 0.025438796559784347,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 7150
    },
    {
      "epoch": 1.1813866666666666,
      "grad_norm": 0.022703589983844467,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 7151
    },
    {
      "epoch": 1.18144,
      "grad_norm": 0.023784404367671905,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 7152
    },
    {
      "epoch": 1.1814933333333333,
      "grad_norm": 0.02552037520064926,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 7153
    },
    {
      "epoch": 1.1815466666666667,
      "grad_norm": 0.023882394832724686,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 7154
    },
    {
      "epoch": 1.1816,
      "grad_norm": 0.02436597341212055,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 7155
    },
    {
      "epoch": 1.1816533333333332,
      "grad_norm": 0.023779024358138192,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 7156
    },
    {
      "epoch": 1.1817066666666667,
      "grad_norm": 0.023973163474463356,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 7157
    },
    {
      "epoch": 1.18176,
      "grad_norm": 0.025121431599586113,
      "learning_rate": 0.0001,
      "loss": 0.9047,
      "step": 7158
    },
    {
      "epoch": 1.1818133333333334,
      "grad_norm": 0.024158372389672455,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 7159
    },
    {
      "epoch": 1.1818666666666666,
      "grad_norm": 0.023932361606617644,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 7160
    },
    {
      "epoch": 1.18192,
      "grad_norm": 0.023845386657451284,
      "learning_rate": 0.0001,
      "loss": 0.9046,
      "step": 7161
    },
    {
      "epoch": 1.1819733333333333,
      "grad_norm": 0.023153839626069185,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 7162
    },
    {
      "epoch": 1.1820266666666668,
      "grad_norm": 0.02417154716062577,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 7163
    },
    {
      "epoch": 1.18208,
      "grad_norm": 0.024628453068397494,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 7164
    },
    {
      "epoch": 1.1821333333333333,
      "grad_norm": 0.0246900066288912,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 7165
    },
    {
      "epoch": 1.1821866666666667,
      "grad_norm": 0.025998829695068087,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 7166
    },
    {
      "epoch": 1.18224,
      "grad_norm": 0.026313139106830325,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 7167
    },
    {
      "epoch": 1.1822933333333334,
      "grad_norm": 0.02509915482734428,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7168
    },
    {
      "epoch": 1.1823466666666667,
      "grad_norm": 0.025267311863319708,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 7169
    },
    {
      "epoch": 1.1824,
      "grad_norm": 0.024267569129890372,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 7170
    },
    {
      "epoch": 1.1824533333333334,
      "grad_norm": 0.024896342571798326,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 7171
    },
    {
      "epoch": 1.1825066666666666,
      "grad_norm": 0.027135605296081156,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 7172
    },
    {
      "epoch": 1.18256,
      "grad_norm": 0.02306156421541893,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 7173
    },
    {
      "epoch": 1.1826133333333333,
      "grad_norm": 0.027464219429051098,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 7174
    },
    {
      "epoch": 1.1826666666666668,
      "grad_norm": 0.02372664106663394,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 7175
    },
    {
      "epoch": 1.18272,
      "grad_norm": 0.024673695617365682,
      "learning_rate": 0.0001,
      "loss": 0.8774,
      "step": 7176
    },
    {
      "epoch": 1.1827733333333335,
      "grad_norm": 0.023496721154339262,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 7177
    },
    {
      "epoch": 1.1828266666666667,
      "grad_norm": 0.024187180291448507,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 7178
    },
    {
      "epoch": 1.18288,
      "grad_norm": 0.02451912780717266,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 7179
    },
    {
      "epoch": 1.1829333333333334,
      "grad_norm": 0.025438108870257548,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 7180
    },
    {
      "epoch": 1.1829866666666666,
      "grad_norm": 0.023130904469363216,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 7181
    },
    {
      "epoch": 1.18304,
      "grad_norm": 0.022538599934898516,
      "learning_rate": 0.0001,
      "loss": 0.9154,
      "step": 7182
    },
    {
      "epoch": 1.1830933333333333,
      "grad_norm": 0.024237269983873426,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 7183
    },
    {
      "epoch": 1.1831466666666666,
      "grad_norm": 0.023147004455048126,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 7184
    },
    {
      "epoch": 1.1832,
      "grad_norm": 0.021997541991087385,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 7185
    },
    {
      "epoch": 1.1832533333333333,
      "grad_norm": 0.024547165177057285,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 7186
    },
    {
      "epoch": 1.1833066666666667,
      "grad_norm": 0.02646023612022894,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 7187
    },
    {
      "epoch": 1.18336,
      "grad_norm": 0.02451622875360858,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 7188
    },
    {
      "epoch": 1.1834133333333334,
      "grad_norm": 0.024741032673860523,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 7189
    },
    {
      "epoch": 1.1834666666666667,
      "grad_norm": 0.021821057634512305,
      "learning_rate": 0.0001,
      "loss": 0.9003,
      "step": 7190
    },
    {
      "epoch": 1.18352,
      "grad_norm": 0.023589788976381025,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 7191
    },
    {
      "epoch": 1.1835733333333334,
      "grad_norm": 0.024767372149936174,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 7192
    },
    {
      "epoch": 1.1836266666666666,
      "grad_norm": 0.023481291874176222,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 7193
    },
    {
      "epoch": 1.18368,
      "grad_norm": 0.022532654975791943,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 7194
    },
    {
      "epoch": 1.1837333333333333,
      "grad_norm": 0.025316049027721953,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 7195
    },
    {
      "epoch": 1.1837866666666668,
      "grad_norm": 0.0241564343789041,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 7196
    },
    {
      "epoch": 1.18384,
      "grad_norm": 0.023526208170583863,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 7197
    },
    {
      "epoch": 1.1838933333333332,
      "grad_norm": 0.026734495524658175,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7198
    },
    {
      "epoch": 1.1839466666666667,
      "grad_norm": 0.022016571864867565,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 7199
    },
    {
      "epoch": 1.184,
      "grad_norm": 0.025431467434965604,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 7200
    },
    {
      "epoch": 1.184,
      "eval_accuracy": 0.6193622886938921,
      "eval_loss": 1.3588013648986816,
      "eval_runtime": 62.4198,
      "eval_samples_per_second": 16.021,
      "eval_steps_per_second": 0.513,
      "step": 7200
    },
    {
      "epoch": 1.1840533333333334,
      "grad_norm": 0.022779441816370517,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 7201
    },
    {
      "epoch": 1.1841066666666666,
      "grad_norm": 0.02286634694342676,
      "learning_rate": 0.0001,
      "loss": 0.9219,
      "step": 7202
    },
    {
      "epoch": 1.1841599999999999,
      "grad_norm": 0.023171542544397895,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 7203
    },
    {
      "epoch": 1.1842133333333333,
      "grad_norm": 0.022953654219945493,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 7204
    },
    {
      "epoch": 1.1842666666666666,
      "grad_norm": 0.02319044409652968,
      "learning_rate": 0.0001,
      "loss": 0.8867,
      "step": 7205
    },
    {
      "epoch": 1.18432,
      "grad_norm": 0.02285415273915913,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 7206
    },
    {
      "epoch": 1.1843733333333333,
      "grad_norm": 0.022998966704796626,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 7207
    },
    {
      "epoch": 1.1844266666666667,
      "grad_norm": 0.02431204168543591,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 7208
    },
    {
      "epoch": 1.18448,
      "grad_norm": 0.023924885588803995,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 7209
    },
    {
      "epoch": 1.1845333333333334,
      "grad_norm": 0.02413748839759489,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7210
    },
    {
      "epoch": 1.1845866666666667,
      "grad_norm": 0.024076611436306277,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 7211
    },
    {
      "epoch": 1.18464,
      "grad_norm": 0.023060440111263524,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 7212
    },
    {
      "epoch": 1.1846933333333334,
      "grad_norm": 0.024696545323385857,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 7213
    },
    {
      "epoch": 1.1847466666666666,
      "grad_norm": 0.024707540141603482,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 7214
    },
    {
      "epoch": 1.1848,
      "grad_norm": 0.02524721596807039,
      "learning_rate": 0.0001,
      "loss": 0.929,
      "step": 7215
    },
    {
      "epoch": 1.1848533333333333,
      "grad_norm": 0.02482819180508248,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 7216
    },
    {
      "epoch": 1.1849066666666666,
      "grad_norm": 0.023986840990697384,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 7217
    },
    {
      "epoch": 1.18496,
      "grad_norm": 0.023653225501206528,
      "learning_rate": 0.0001,
      "loss": 0.9188,
      "step": 7218
    },
    {
      "epoch": 1.1850133333333333,
      "grad_norm": 0.02361485868346284,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 7219
    },
    {
      "epoch": 1.1850666666666667,
      "grad_norm": 0.02405972772167845,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 7220
    },
    {
      "epoch": 1.18512,
      "grad_norm": 0.025237533505105676,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 7221
    },
    {
      "epoch": 1.1851733333333334,
      "grad_norm": 0.02331656396334161,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 7222
    },
    {
      "epoch": 1.1852266666666667,
      "grad_norm": 0.02463496050524071,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 7223
    },
    {
      "epoch": 1.1852800000000001,
      "grad_norm": 0.02346391816164802,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 7224
    },
    {
      "epoch": 1.1853333333333333,
      "grad_norm": 0.024845987294712324,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 7225
    },
    {
      "epoch": 1.1853866666666666,
      "grad_norm": 0.024368983417403393,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 7226
    },
    {
      "epoch": 1.18544,
      "grad_norm": 0.023468143813645325,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 7227
    },
    {
      "epoch": 1.1854933333333333,
      "grad_norm": 0.023996599103790508,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 7228
    },
    {
      "epoch": 1.1855466666666667,
      "grad_norm": 0.024518401313255948,
      "learning_rate": 0.0001,
      "loss": 1.0363,
      "step": 7229
    },
    {
      "epoch": 1.1856,
      "grad_norm": 0.025316807251904827,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 7230
    },
    {
      "epoch": 1.1856533333333332,
      "grad_norm": 0.02527550400652234,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 7231
    },
    {
      "epoch": 1.1857066666666667,
      "grad_norm": 0.023490707906456916,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 7232
    },
    {
      "epoch": 1.18576,
      "grad_norm": 0.022828287697539994,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 7233
    },
    {
      "epoch": 1.1858133333333334,
      "grad_norm": 0.02500555239420487,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 7234
    },
    {
      "epoch": 1.1858666666666666,
      "grad_norm": 0.025038487844966872,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 7235
    },
    {
      "epoch": 1.18592,
      "grad_norm": 0.024395239070496073,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 7236
    },
    {
      "epoch": 1.1859733333333333,
      "grad_norm": 0.023228323797986793,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 7237
    },
    {
      "epoch": 1.1860266666666668,
      "grad_norm": 0.025708563128523165,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 7238
    },
    {
      "epoch": 1.18608,
      "grad_norm": 0.02384466537103548,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 7239
    },
    {
      "epoch": 1.1861333333333333,
      "grad_norm": 0.02561311304041513,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 7240
    },
    {
      "epoch": 1.1861866666666667,
      "grad_norm": 0.02540091639856959,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 7241
    },
    {
      "epoch": 1.18624,
      "grad_norm": 0.02520104792816321,
      "learning_rate": 0.0001,
      "loss": 0.9106,
      "step": 7242
    },
    {
      "epoch": 1.1862933333333334,
      "grad_norm": 0.024427794478092985,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 7243
    },
    {
      "epoch": 1.1863466666666667,
      "grad_norm": 0.025256035077992973,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 7244
    },
    {
      "epoch": 1.1864,
      "grad_norm": 0.0255586352819274,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 7245
    },
    {
      "epoch": 1.1864533333333334,
      "grad_norm": 0.02402851730230955,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 7246
    },
    {
      "epoch": 1.1865066666666666,
      "grad_norm": 0.023265249288521223,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 7247
    },
    {
      "epoch": 1.18656,
      "grad_norm": 0.023358282066726688,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 7248
    },
    {
      "epoch": 1.1866133333333333,
      "grad_norm": 0.02347538440897358,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 7249
    },
    {
      "epoch": 1.1866666666666668,
      "grad_norm": 0.022890926176042613,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 7250
    },
    {
      "epoch": 1.18672,
      "grad_norm": 0.023676769486721295,
      "learning_rate": 0.0001,
      "loss": 0.9173,
      "step": 7251
    },
    {
      "epoch": 1.1867733333333335,
      "grad_norm": 0.023764481047069838,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 7252
    },
    {
      "epoch": 1.1868266666666667,
      "grad_norm": 0.023776013097480037,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 7253
    },
    {
      "epoch": 1.18688,
      "grad_norm": 0.024953533909598462,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 7254
    },
    {
      "epoch": 1.1869333333333334,
      "grad_norm": 0.022966099733034307,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 7255
    },
    {
      "epoch": 1.1869866666666666,
      "grad_norm": 0.027917217566379212,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 7256
    },
    {
      "epoch": 1.18704,
      "grad_norm": 0.023734157656395062,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 7257
    },
    {
      "epoch": 1.1870933333333333,
      "grad_norm": 0.022911756483660242,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 7258
    },
    {
      "epoch": 1.1871466666666666,
      "grad_norm": 0.024241788504860962,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7259
    },
    {
      "epoch": 1.1872,
      "grad_norm": 0.024889732044349643,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 7260
    },
    {
      "epoch": 1.1872533333333333,
      "grad_norm": 0.025451268772212567,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 7261
    },
    {
      "epoch": 1.1873066666666667,
      "grad_norm": 0.025543984647431243,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 7262
    },
    {
      "epoch": 1.18736,
      "grad_norm": 0.0263804563523575,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 7263
    },
    {
      "epoch": 1.1874133333333332,
      "grad_norm": 0.027621087085162286,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 7264
    },
    {
      "epoch": 1.1874666666666667,
      "grad_norm": 0.0250611418413037,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 7265
    },
    {
      "epoch": 1.18752,
      "grad_norm": 0.023626136273874703,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 7266
    },
    {
      "epoch": 1.1875733333333334,
      "grad_norm": 0.024869804952768464,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 7267
    },
    {
      "epoch": 1.1876266666666666,
      "grad_norm": 0.023846868221968204,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 7268
    },
    {
      "epoch": 1.18768,
      "grad_norm": 0.023954781706274977,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 7269
    },
    {
      "epoch": 1.1877333333333333,
      "grad_norm": 0.024468458679635676,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 7270
    },
    {
      "epoch": 1.1877866666666668,
      "grad_norm": 0.025027214649599575,
      "learning_rate": 0.0001,
      "loss": 1.0702,
      "step": 7271
    },
    {
      "epoch": 1.18784,
      "grad_norm": 0.024555256088353593,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7272
    },
    {
      "epoch": 1.1878933333333332,
      "grad_norm": 0.02337712007015724,
      "learning_rate": 0.0001,
      "loss": 0.9116,
      "step": 7273
    },
    {
      "epoch": 1.1879466666666667,
      "grad_norm": 0.024301293108066977,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7274
    },
    {
      "epoch": 1.188,
      "grad_norm": 0.02435944152251911,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 7275
    },
    {
      "epoch": 1.1880533333333334,
      "grad_norm": 0.02556670314046084,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 7276
    },
    {
      "epoch": 1.1881066666666666,
      "grad_norm": 0.02443190689432934,
      "learning_rate": 0.0001,
      "loss": 1.0474,
      "step": 7277
    },
    {
      "epoch": 1.1881599999999999,
      "grad_norm": 0.024176949607638457,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 7278
    },
    {
      "epoch": 1.1882133333333333,
      "grad_norm": 0.024814424083827405,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 7279
    },
    {
      "epoch": 1.1882666666666666,
      "grad_norm": 0.025660618202968586,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 7280
    },
    {
      "epoch": 1.18832,
      "grad_norm": 0.023485954172040448,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 7281
    },
    {
      "epoch": 1.1883733333333333,
      "grad_norm": 0.0235498734865542,
      "learning_rate": 0.0001,
      "loss": 1.0302,
      "step": 7282
    },
    {
      "epoch": 1.1884266666666667,
      "grad_norm": 0.02417684878125587,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 7283
    },
    {
      "epoch": 1.18848,
      "grad_norm": 0.023712823558763887,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 7284
    },
    {
      "epoch": 1.1885333333333334,
      "grad_norm": 0.026568959070020663,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 7285
    },
    {
      "epoch": 1.1885866666666667,
      "grad_norm": 0.026136954189813533,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 7286
    },
    {
      "epoch": 1.18864,
      "grad_norm": 0.02325104839331239,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 7287
    },
    {
      "epoch": 1.1886933333333334,
      "grad_norm": 0.025773118064639215,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 7288
    },
    {
      "epoch": 1.1887466666666666,
      "grad_norm": 0.02477854855594075,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 7289
    },
    {
      "epoch": 1.1888,
      "grad_norm": 0.023307576739534343,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 7290
    },
    {
      "epoch": 1.1888533333333333,
      "grad_norm": 0.023809970064805747,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 7291
    },
    {
      "epoch": 1.1889066666666666,
      "grad_norm": 0.024171925461060614,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 7292
    },
    {
      "epoch": 1.18896,
      "grad_norm": 0.023300364304008715,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 7293
    },
    {
      "epoch": 1.1890133333333333,
      "grad_norm": 0.026998156657543296,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 7294
    },
    {
      "epoch": 1.1890666666666667,
      "grad_norm": 0.023797512720073844,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 7295
    },
    {
      "epoch": 1.18912,
      "grad_norm": 0.024780136814303848,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 7296
    },
    {
      "epoch": 1.1891733333333334,
      "grad_norm": 0.023243140647513604,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 7297
    },
    {
      "epoch": 1.1892266666666667,
      "grad_norm": 0.02379946640188472,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 7298
    },
    {
      "epoch": 1.1892800000000001,
      "grad_norm": 0.024613332345151704,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 7299
    },
    {
      "epoch": 1.1893333333333334,
      "grad_norm": 0.02528042042201784,
      "learning_rate": 0.0001,
      "loss": 0.9167,
      "step": 7300
    },
    {
      "epoch": 1.1893866666666666,
      "grad_norm": 0.022519619927803543,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 7301
    },
    {
      "epoch": 1.18944,
      "grad_norm": 0.023034132064479948,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 7302
    },
    {
      "epoch": 1.1894933333333333,
      "grad_norm": 0.025020411583797978,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7303
    },
    {
      "epoch": 1.1895466666666668,
      "grad_norm": 0.023129329706279553,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 7304
    },
    {
      "epoch": 1.1896,
      "grad_norm": 0.024191099596572944,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 7305
    },
    {
      "epoch": 1.1896533333333332,
      "grad_norm": 0.02387902608830227,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 7306
    },
    {
      "epoch": 1.1897066666666667,
      "grad_norm": 0.022987464858405846,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 7307
    },
    {
      "epoch": 1.18976,
      "grad_norm": 0.022754983675899877,
      "learning_rate": 0.0001,
      "loss": 0.8587,
      "step": 7308
    },
    {
      "epoch": 1.1898133333333334,
      "grad_norm": 0.02357706190700962,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 7309
    },
    {
      "epoch": 1.1898666666666666,
      "grad_norm": 0.02438008959075366,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 7310
    },
    {
      "epoch": 1.18992,
      "grad_norm": 0.025071235049286968,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 7311
    },
    {
      "epoch": 1.1899733333333333,
      "grad_norm": 0.024423178236285956,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 7312
    },
    {
      "epoch": 1.1900266666666668,
      "grad_norm": 0.025981373476802367,
      "learning_rate": 0.0001,
      "loss": 0.8907,
      "step": 7313
    },
    {
      "epoch": 1.19008,
      "grad_norm": 0.024232790010131743,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 7314
    },
    {
      "epoch": 1.1901333333333333,
      "grad_norm": 0.025609270684906097,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 7315
    },
    {
      "epoch": 1.1901866666666667,
      "grad_norm": 0.02623530578219802,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 7316
    },
    {
      "epoch": 1.19024,
      "grad_norm": 0.025801460531626113,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7317
    },
    {
      "epoch": 1.1902933333333334,
      "grad_norm": 0.022939578479734882,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 7318
    },
    {
      "epoch": 1.1903466666666667,
      "grad_norm": 0.02545522570594253,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 7319
    },
    {
      "epoch": 1.1904,
      "grad_norm": 0.026456374293731176,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 7320
    },
    {
      "epoch": 1.1904533333333334,
      "grad_norm": 0.02765005641960458,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 7321
    },
    {
      "epoch": 1.1905066666666666,
      "grad_norm": 0.023307099803310884,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 7322
    },
    {
      "epoch": 1.19056,
      "grad_norm": 0.024172623739187927,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 7323
    },
    {
      "epoch": 1.1906133333333333,
      "grad_norm": 0.023393981275318613,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 7324
    },
    {
      "epoch": 1.1906666666666668,
      "grad_norm": 0.026128979376777273,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 7325
    },
    {
      "epoch": 1.19072,
      "grad_norm": 0.025279072854275872,
      "learning_rate": 0.0001,
      "loss": 1.0719,
      "step": 7326
    },
    {
      "epoch": 1.1907733333333332,
      "grad_norm": 0.02487325746004121,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 7327
    },
    {
      "epoch": 1.1908266666666667,
      "grad_norm": 0.023326716658095926,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 7328
    },
    {
      "epoch": 1.19088,
      "grad_norm": 0.02483885132731976,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 7329
    },
    {
      "epoch": 1.1909333333333334,
      "grad_norm": 0.023965568336806183,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 7330
    },
    {
      "epoch": 1.1909866666666666,
      "grad_norm": 0.02295365702978976,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 7331
    },
    {
      "epoch": 1.19104,
      "grad_norm": 0.02440923273321154,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 7332
    },
    {
      "epoch": 1.1910933333333333,
      "grad_norm": 0.023606189701284003,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7333
    },
    {
      "epoch": 1.1911466666666666,
      "grad_norm": 0.02532364593171206,
      "learning_rate": 0.0001,
      "loss": 0.9048,
      "step": 7334
    },
    {
      "epoch": 1.1912,
      "grad_norm": 0.024829928621763264,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 7335
    },
    {
      "epoch": 1.1912533333333333,
      "grad_norm": 0.023206890475607873,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 7336
    },
    {
      "epoch": 1.1913066666666667,
      "grad_norm": 0.024364551956681312,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 7337
    },
    {
      "epoch": 1.19136,
      "grad_norm": 0.023931846435625195,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 7338
    },
    {
      "epoch": 1.1914133333333332,
      "grad_norm": 0.026460347165863023,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 7339
    },
    {
      "epoch": 1.1914666666666667,
      "grad_norm": 0.023174057601070986,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 7340
    },
    {
      "epoch": 1.19152,
      "grad_norm": 0.024472848338617507,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 7341
    },
    {
      "epoch": 1.1915733333333334,
      "grad_norm": 0.02411531467343324,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 7342
    },
    {
      "epoch": 1.1916266666666666,
      "grad_norm": 0.022465804941203704,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 7343
    },
    {
      "epoch": 1.19168,
      "grad_norm": 0.023707874120103938,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 7344
    },
    {
      "epoch": 1.1917333333333333,
      "grad_norm": 0.02310725475307972,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 7345
    },
    {
      "epoch": 1.1917866666666668,
      "grad_norm": 0.024386887514083175,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 7346
    },
    {
      "epoch": 1.19184,
      "grad_norm": 0.022193427358321815,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 7347
    },
    {
      "epoch": 1.1918933333333332,
      "grad_norm": 0.02292456566002935,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 7348
    },
    {
      "epoch": 1.1919466666666667,
      "grad_norm": 0.024284459032174154,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 7349
    },
    {
      "epoch": 1.192,
      "grad_norm": 0.023345296337456974,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 7350
    },
    {
      "epoch": 1.1920533333333334,
      "grad_norm": 0.023463576530002632,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 7351
    },
    {
      "epoch": 1.1921066666666666,
      "grad_norm": 0.024983702473934728,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 7352
    },
    {
      "epoch": 1.1921599999999999,
      "grad_norm": 0.024021554170503688,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 7353
    },
    {
      "epoch": 1.1922133333333333,
      "grad_norm": 0.023721624757563686,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 7354
    },
    {
      "epoch": 1.1922666666666666,
      "grad_norm": 0.02259658250586971,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 7355
    },
    {
      "epoch": 1.19232,
      "grad_norm": 0.02394703985615632,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 7356
    },
    {
      "epoch": 1.1923733333333333,
      "grad_norm": 0.025198530650331778,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 7357
    },
    {
      "epoch": 1.1924266666666667,
      "grad_norm": 0.02304924223789944,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 7358
    },
    {
      "epoch": 1.19248,
      "grad_norm": 0.023766306636896876,
      "learning_rate": 0.0001,
      "loss": 0.9228,
      "step": 7359
    },
    {
      "epoch": 1.1925333333333334,
      "grad_norm": 0.024922361453554,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 7360
    },
    {
      "epoch": 1.1925866666666667,
      "grad_norm": 0.023130411151795843,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 7361
    },
    {
      "epoch": 1.19264,
      "grad_norm": 0.02324704036423622,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 7362
    },
    {
      "epoch": 1.1926933333333334,
      "grad_norm": 0.023141999858707383,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 7363
    },
    {
      "epoch": 1.1927466666666666,
      "grad_norm": 0.022549064511613474,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 7364
    },
    {
      "epoch": 1.1928,
      "grad_norm": 0.023068696445146922,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 7365
    },
    {
      "epoch": 1.1928533333333333,
      "grad_norm": 0.023230322419577093,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 7366
    },
    {
      "epoch": 1.1929066666666666,
      "grad_norm": 0.023955375652586885,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 7367
    },
    {
      "epoch": 1.19296,
      "grad_norm": 0.022687509150943048,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 7368
    },
    {
      "epoch": 1.1930133333333333,
      "grad_norm": 0.023144071417011313,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 7369
    },
    {
      "epoch": 1.1930666666666667,
      "grad_norm": 0.023447335174748788,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 7370
    },
    {
      "epoch": 1.19312,
      "grad_norm": 0.02262756496524868,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 7371
    },
    {
      "epoch": 1.1931733333333334,
      "grad_norm": 0.024516931750017117,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 7372
    },
    {
      "epoch": 1.1932266666666667,
      "grad_norm": 0.02400520075804333,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 7373
    },
    {
      "epoch": 1.1932800000000001,
      "grad_norm": 0.025746881230434976,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 7374
    },
    {
      "epoch": 1.1933333333333334,
      "grad_norm": 0.02450941935429656,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 7375
    },
    {
      "epoch": 1.1933866666666666,
      "grad_norm": 0.02213884385958393,
      "learning_rate": 0.0001,
      "loss": 0.9123,
      "step": 7376
    },
    {
      "epoch": 1.19344,
      "grad_norm": 0.023065572756390634,
      "learning_rate": 0.0001,
      "loss": 0.9297,
      "step": 7377
    },
    {
      "epoch": 1.1934933333333333,
      "grad_norm": 0.026408915930016114,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 7378
    },
    {
      "epoch": 1.1935466666666668,
      "grad_norm": 0.025998941425251356,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 7379
    },
    {
      "epoch": 1.1936,
      "grad_norm": 0.024154567642150696,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 7380
    },
    {
      "epoch": 1.1936533333333332,
      "grad_norm": 0.024992682344015076,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 7381
    },
    {
      "epoch": 1.1937066666666667,
      "grad_norm": 0.026059407610579368,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 7382
    },
    {
      "epoch": 1.19376,
      "grad_norm": 0.02557795321788315,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 7383
    },
    {
      "epoch": 1.1938133333333334,
      "grad_norm": 0.023656603815181563,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 7384
    },
    {
      "epoch": 1.1938666666666666,
      "grad_norm": 0.02289724713067941,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 7385
    },
    {
      "epoch": 1.19392,
      "grad_norm": 0.024935132274748008,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 7386
    },
    {
      "epoch": 1.1939733333333333,
      "grad_norm": 0.023073016187004657,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 7387
    },
    {
      "epoch": 1.1940266666666666,
      "grad_norm": 0.024891392487800864,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 7388
    },
    {
      "epoch": 1.19408,
      "grad_norm": 0.0229337197026798,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 7389
    },
    {
      "epoch": 1.1941333333333333,
      "grad_norm": 0.02492513112798984,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 7390
    },
    {
      "epoch": 1.1941866666666667,
      "grad_norm": 0.023463647706361793,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 7391
    },
    {
      "epoch": 1.19424,
      "grad_norm": 0.023155950822287795,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 7392
    },
    {
      "epoch": 1.1942933333333334,
      "grad_norm": 0.024088051354453643,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 7393
    },
    {
      "epoch": 1.1943466666666667,
      "grad_norm": 0.03395375894014035,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 7394
    },
    {
      "epoch": 1.1944,
      "grad_norm": 0.023091814175704155,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 7395
    },
    {
      "epoch": 1.1944533333333334,
      "grad_norm": 0.025614154051242562,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 7396
    },
    {
      "epoch": 1.1945066666666666,
      "grad_norm": 0.02315968517241408,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 7397
    },
    {
      "epoch": 1.19456,
      "grad_norm": 0.024065336298590048,
      "learning_rate": 0.0001,
      "loss": 0.8847,
      "step": 7398
    },
    {
      "epoch": 1.1946133333333333,
      "grad_norm": 0.022915831062199285,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 7399
    },
    {
      "epoch": 1.1946666666666665,
      "grad_norm": 0.022730668606442666,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 7400
    },
    {
      "epoch": 1.1946666666666665,
      "eval_accuracy": 0.6194253226770883,
      "eval_loss": 1.358161449432373,
      "eval_runtime": 62.7961,
      "eval_samples_per_second": 15.925,
      "eval_steps_per_second": 0.51,
      "step": 7400
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 18750,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 200,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7184365470285824.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}