{
  "best_metric": 1.3440815210342407,
  "best_model_checkpoint": "/leonardo_work/AIFAC_5C0_174/ahochleh/lora-transferability/output/models/Qwen2.5-7B_openthoughts_lrc/checkpoint-11800",
  "epoch": 3.029333333333333,
  "eval_steps": 200,
  "global_step": 11800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.333333333333333e-05,
      "grad_norm": 0.017663535983957833,
      "learning_rate": 0.0001,
      "loss": 1.2851,
      "step": 1
    },
    {
      "epoch": 0.00010666666666666667,
      "grad_norm": 0.019045901437460214,
      "learning_rate": 0.0001,
      "loss": 1.3386,
      "step": 2
    },
    {
      "epoch": 0.00016,
      "grad_norm": 0.040626311097590344,
      "learning_rate": 0.0001,
      "loss": 1.3481,
      "step": 3
    },
    {
      "epoch": 0.00021333333333333333,
      "grad_norm": 0.02036167462487858,
      "learning_rate": 0.0001,
      "loss": 1.3394,
      "step": 4
    },
    {
      "epoch": 0.0002666666666666667,
      "grad_norm": 0.021079644337874338,
      "learning_rate": 0.0001,
      "loss": 1.2781,
      "step": 5
    },
    {
      "epoch": 0.00032,
      "grad_norm": 0.02456331072308504,
      "learning_rate": 0.0001,
      "loss": 1.2759,
      "step": 6
    },
    {
      "epoch": 0.0003733333333333333,
      "grad_norm": 0.02574756282403388,
      "learning_rate": 0.0001,
      "loss": 1.2822,
      "step": 7
    },
    {
      "epoch": 0.00042666666666666667,
      "grad_norm": 0.020452790742183886,
      "learning_rate": 0.0001,
      "loss": 1.2741,
      "step": 8
    },
    {
      "epoch": 0.00048,
      "grad_norm": 0.022974487064571184,
      "learning_rate": 0.0001,
      "loss": 1.2232,
      "step": 9
    },
    {
      "epoch": 0.0005333333333333334,
      "grad_norm": 0.03322565045040931,
      "learning_rate": 0.0001,
      "loss": 1.2736,
      "step": 10
    },
    {
      "epoch": 0.0005866666666666667,
      "grad_norm": 0.02956456488679643,
      "learning_rate": 0.0001,
      "loss": 1.247,
      "step": 11
    },
    {
      "epoch": 0.00064,
      "grad_norm": 0.02168306912081603,
      "learning_rate": 0.0001,
      "loss": 1.2169,
      "step": 12
    },
    {
      "epoch": 0.0006933333333333333,
      "grad_norm": 0.022361870048187463,
      "learning_rate": 0.0001,
      "loss": 1.2363,
      "step": 13
    },
    {
      "epoch": 0.0007466666666666666,
      "grad_norm": 0.02376362612896722,
      "learning_rate": 0.0001,
      "loss": 1.2536,
      "step": 14
    },
    {
      "epoch": 0.0008,
      "grad_norm": 0.029034593258185748,
      "learning_rate": 0.0001,
      "loss": 1.2462,
      "step": 15
    },
    {
      "epoch": 0.0008533333333333333,
      "grad_norm": 0.023657592719445227,
      "learning_rate": 0.0001,
      "loss": 1.2161,
      "step": 16
    },
    {
      "epoch": 0.0009066666666666666,
      "grad_norm": 0.022641704453159297,
      "learning_rate": 0.0001,
      "loss": 1.2128,
      "step": 17
    },
    {
      "epoch": 0.00096,
      "grad_norm": 0.020311526742182503,
      "learning_rate": 0.0001,
      "loss": 1.1668,
      "step": 18
    },
    {
      "epoch": 0.0010133333333333333,
      "grad_norm": 0.023774882884098115,
      "learning_rate": 0.0001,
      "loss": 1.1876,
      "step": 19
    },
    {
      "epoch": 0.0010666666666666667,
      "grad_norm": 0.023435346843676392,
      "learning_rate": 0.0001,
      "loss": 1.196,
      "step": 20
    },
    {
      "epoch": 0.00112,
      "grad_norm": 0.0202262806047923,
      "learning_rate": 0.0001,
      "loss": 1.1923,
      "step": 21
    },
    {
      "epoch": 0.0011733333333333333,
      "grad_norm": 0.02144623757822789,
      "learning_rate": 0.0001,
      "loss": 1.2012,
      "step": 22
    },
    {
      "epoch": 0.0012266666666666667,
      "grad_norm": 0.0201617567358022,
      "learning_rate": 0.0001,
      "loss": 1.19,
      "step": 23
    },
    {
      "epoch": 0.00128,
      "grad_norm": 0.018419463152263324,
      "learning_rate": 0.0001,
      "loss": 1.1822,
      "step": 24
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 0.01846724961733521,
      "learning_rate": 0.0001,
      "loss": 1.1678,
      "step": 25
    },
    {
      "epoch": 0.0013866666666666667,
      "grad_norm": 0.019184613840958157,
      "learning_rate": 0.0001,
      "loss": 1.2129,
      "step": 26
    },
    {
      "epoch": 0.00144,
      "grad_norm": 0.018819324313548307,
      "learning_rate": 0.0001,
      "loss": 1.1961,
      "step": 27
    },
    {
      "epoch": 0.0014933333333333333,
      "grad_norm": 0.01832186624369802,
      "learning_rate": 0.0001,
      "loss": 1.1963,
      "step": 28
    },
    {
      "epoch": 0.0015466666666666667,
      "grad_norm": 0.01651266186352045,
      "learning_rate": 0.0001,
      "loss": 1.1771,
      "step": 29
    },
    {
      "epoch": 0.0016,
      "grad_norm": 0.01592594563048431,
      "learning_rate": 0.0001,
      "loss": 1.1797,
      "step": 30
    },
    {
      "epoch": 0.0016533333333333333,
      "grad_norm": 0.019461088377968366,
      "learning_rate": 0.0001,
      "loss": 1.1208,
      "step": 31
    },
    {
      "epoch": 0.0017066666666666667,
      "grad_norm": 0.0168301023097901,
      "learning_rate": 0.0001,
      "loss": 1.1587,
      "step": 32
    },
    {
      "epoch": 0.00176,
      "grad_norm": 0.01747679214570985,
      "learning_rate": 0.0001,
      "loss": 1.1658,
      "step": 33
    },
    {
      "epoch": 0.0018133333333333332,
      "grad_norm": 0.0185202216354917,
      "learning_rate": 0.0001,
      "loss": 1.1433,
      "step": 34
    },
    {
      "epoch": 0.0018666666666666666,
      "grad_norm": 0.017636562910814738,
      "learning_rate": 0.0001,
      "loss": 1.1773,
      "step": 35
    },
    {
      "epoch": 0.00192,
      "grad_norm": 0.01898649683732413,
      "learning_rate": 0.0001,
      "loss": 1.1744,
      "step": 36
    },
    {
      "epoch": 0.0019733333333333334,
      "grad_norm": 0.0168480946606765,
      "learning_rate": 0.0001,
      "loss": 1.1458,
      "step": 37
    },
    {
      "epoch": 0.0020266666666666666,
      "grad_norm": 0.019529780302859606,
      "learning_rate": 0.0001,
      "loss": 1.1769,
      "step": 38
    },
    {
      "epoch": 0.00208,
      "grad_norm": 0.018378736692672405,
      "learning_rate": 0.0001,
      "loss": 1.1145,
      "step": 39
    },
    {
      "epoch": 0.0021333333333333334,
      "grad_norm": 0.018561990641567855,
      "learning_rate": 0.0001,
      "loss": 1.1505,
      "step": 40
    },
    {
      "epoch": 0.0021866666666666666,
      "grad_norm": 0.019595710048582,
      "learning_rate": 0.0001,
      "loss": 1.1706,
      "step": 41
    },
    {
      "epoch": 0.00224,
      "grad_norm": 0.01723885512620191,
      "learning_rate": 0.0001,
      "loss": 1.0743,
      "step": 42
    },
    {
      "epoch": 0.0022933333333333334,
      "grad_norm": 0.020970230781914477,
      "learning_rate": 0.0001,
      "loss": 1.1477,
      "step": 43
    },
    {
      "epoch": 0.0023466666666666666,
      "grad_norm": 0.01747766223448201,
      "learning_rate": 0.0001,
      "loss": 1.1369,
      "step": 44
    },
    {
      "epoch": 0.0024,
      "grad_norm": 0.022322939149236103,
      "learning_rate": 0.0001,
      "loss": 1.1643,
      "step": 45
    },
    {
      "epoch": 0.0024533333333333334,
      "grad_norm": 0.01933666405055695,
      "learning_rate": 0.0001,
      "loss": 1.132,
      "step": 46
    },
    {
      "epoch": 0.0025066666666666666,
      "grad_norm": 0.01820440810809091,
      "learning_rate": 0.0001,
      "loss": 1.1702,
      "step": 47
    },
    {
      "epoch": 0.00256,
      "grad_norm": 0.020901926256680293,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 48
    },
    {
      "epoch": 0.0026133333333333334,
      "grad_norm": 0.02266426968178372,
      "learning_rate": 0.0001,
      "loss": 1.1868,
      "step": 49
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.02045471979926694,
      "learning_rate": 0.0001,
      "loss": 1.124,
      "step": 50
    },
    {
      "epoch": 0.00272,
      "grad_norm": 0.020428646490662984,
      "learning_rate": 0.0001,
      "loss": 1.1586,
      "step": 51
    },
    {
      "epoch": 0.0027733333333333334,
      "grad_norm": 0.02283069620954967,
      "learning_rate": 0.0001,
      "loss": 1.1124,
      "step": 52
    },
    {
      "epoch": 0.0028266666666666666,
      "grad_norm": 0.020431781519662916,
      "learning_rate": 0.0001,
      "loss": 1.1339,
      "step": 53
    },
    {
      "epoch": 0.00288,
      "grad_norm": 0.018296043477837764,
      "learning_rate": 0.0001,
      "loss": 1.08,
      "step": 54
    },
    {
      "epoch": 0.0029333333333333334,
      "grad_norm": 0.019769980849317578,
      "learning_rate": 0.0001,
      "loss": 1.2115,
      "step": 55
    },
    {
      "epoch": 0.0029866666666666665,
      "grad_norm": 0.018349336281229915,
      "learning_rate": 0.0001,
      "loss": 1.0953,
      "step": 56
    },
    {
      "epoch": 0.00304,
      "grad_norm": 0.021340822597750022,
      "learning_rate": 0.0001,
      "loss": 1.112,
      "step": 57
    },
    {
      "epoch": 0.0030933333333333334,
      "grad_norm": 0.021205791237932158,
      "learning_rate": 0.0001,
      "loss": 1.1319,
      "step": 58
    },
    {
      "epoch": 0.0031466666666666665,
      "grad_norm": 0.018840643855392632,
      "learning_rate": 0.0001,
      "loss": 1.1057,
      "step": 59
    },
    {
      "epoch": 0.0032,
      "grad_norm": 0.01996167612298934,
      "learning_rate": 0.0001,
      "loss": 1.1454,
      "step": 60
    },
    {
      "epoch": 0.0032533333333333333,
      "grad_norm": 0.0206921266276397,
      "learning_rate": 0.0001,
      "loss": 1.0957,
      "step": 61
    },
    {
      "epoch": 0.0033066666666666665,
      "grad_norm": 0.022366877812907533,
      "learning_rate": 0.0001,
      "loss": 1.1182,
      "step": 62
    },
    {
      "epoch": 0.00336,
      "grad_norm": 0.019894907897840822,
      "learning_rate": 0.0001,
      "loss": 1.142,
      "step": 63
    },
    {
      "epoch": 0.0034133333333333333,
      "grad_norm": 0.02230021168006463,
      "learning_rate": 0.0001,
      "loss": 1.0673,
      "step": 64
    },
    {
      "epoch": 0.0034666666666666665,
      "grad_norm": 0.02274359400474783,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 65
    },
    {
      "epoch": 0.00352,
      "grad_norm": 0.01911665109076629,
      "learning_rate": 0.0001,
      "loss": 1.0955,
      "step": 66
    },
    {
      "epoch": 0.0035733333333333333,
      "grad_norm": 0.021169614524847495,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 67
    },
    {
      "epoch": 0.0036266666666666665,
      "grad_norm": 0.022306947829863855,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 68
    },
    {
      "epoch": 0.00368,
      "grad_norm": 0.02399697508573963,
      "learning_rate": 0.0001,
      "loss": 1.1329,
      "step": 69
    },
    {
      "epoch": 0.0037333333333333333,
      "grad_norm": 0.022557666480114306,
      "learning_rate": 0.0001,
      "loss": 1.1235,
      "step": 70
    },
    {
      "epoch": 0.0037866666666666665,
      "grad_norm": 0.024881109806363145,
      "learning_rate": 0.0001,
      "loss": 1.1017,
      "step": 71
    },
    {
      "epoch": 0.00384,
      "grad_norm": 0.0213415342371312,
      "learning_rate": 0.0001,
      "loss": 1.1515,
      "step": 72
    },
    {
      "epoch": 0.0038933333333333333,
      "grad_norm": 0.026076390092072337,
      "learning_rate": 0.0001,
      "loss": 1.1292,
      "step": 73
    },
    {
      "epoch": 0.003946666666666667,
      "grad_norm": 0.02291805139654699,
      "learning_rate": 0.0001,
      "loss": 1.1258,
      "step": 74
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.022509948988868995,
      "learning_rate": 0.0001,
      "loss": 1.1106,
      "step": 75
    },
    {
      "epoch": 0.004053333333333333,
      "grad_norm": 0.026440628872700073,
      "learning_rate": 0.0001,
      "loss": 1.0949,
      "step": 76
    },
    {
      "epoch": 0.0041066666666666665,
      "grad_norm": 0.0230542777991158,
      "learning_rate": 0.0001,
      "loss": 1.0854,
      "step": 77
    },
    {
      "epoch": 0.00416,
      "grad_norm": 0.02528260148409545,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 78
    },
    {
      "epoch": 0.004213333333333334,
      "grad_norm": 0.02159758025703304,
      "learning_rate": 0.0001,
      "loss": 1.1371,
      "step": 79
    },
    {
      "epoch": 0.004266666666666667,
      "grad_norm": 0.024619883227926107,
      "learning_rate": 0.0001,
      "loss": 1.1259,
      "step": 80
    },
    {
      "epoch": 0.00432,
      "grad_norm": 0.028027358033021,
      "learning_rate": 0.0001,
      "loss": 1.1394,
      "step": 81
    },
    {
      "epoch": 0.004373333333333333,
      "grad_norm": 0.0240314163084437,
      "learning_rate": 0.0001,
      "loss": 1.0882,
      "step": 82
    },
    {
      "epoch": 0.004426666666666666,
      "grad_norm": 0.02760626929155725,
      "learning_rate": 0.0001,
      "loss": 1.0783,
      "step": 83
    },
    {
      "epoch": 0.00448,
      "grad_norm": 0.02612768589454587,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 84
    },
    {
      "epoch": 0.004533333333333334,
      "grad_norm": 0.02344713260341745,
      "learning_rate": 0.0001,
      "loss": 1.1095,
      "step": 85
    },
    {
      "epoch": 0.004586666666666667,
      "grad_norm": 0.024144060481023133,
      "learning_rate": 0.0001,
      "loss": 1.1412,
      "step": 86
    },
    {
      "epoch": 0.00464,
      "grad_norm": 0.02621237204120152,
      "learning_rate": 0.0001,
      "loss": 1.1281,
      "step": 87
    },
    {
      "epoch": 0.004693333333333333,
      "grad_norm": 0.026984655607370928,
      "learning_rate": 0.0001,
      "loss": 1.118,
      "step": 88
    },
    {
      "epoch": 0.004746666666666666,
      "grad_norm": 0.02394842786614117,
      "learning_rate": 0.0001,
      "loss": 1.1157,
      "step": 89
    },
    {
      "epoch": 0.0048,
      "grad_norm": 0.02308805596503825,
      "learning_rate": 0.0001,
      "loss": 1.0954,
      "step": 90
    },
    {
      "epoch": 0.004853333333333334,
      "grad_norm": 0.02641446783650999,
      "learning_rate": 0.0001,
      "loss": 1.1977,
      "step": 91
    },
    {
      "epoch": 0.004906666666666667,
      "grad_norm": 0.02628224000749557,
      "learning_rate": 0.0001,
      "loss": 1.0381,
      "step": 92
    },
    {
      "epoch": 0.00496,
      "grad_norm": 0.0262711888727942,
      "learning_rate": 0.0001,
      "loss": 1.0804,
      "step": 93
    },
    {
      "epoch": 0.005013333333333333,
      "grad_norm": 0.028852404195580973,
      "learning_rate": 0.0001,
      "loss": 1.0847,
      "step": 94
    },
    {
      "epoch": 0.005066666666666666,
      "grad_norm": 0.022820012487008153,
      "learning_rate": 0.0001,
      "loss": 1.0983,
      "step": 95
    },
    {
      "epoch": 0.00512,
      "grad_norm": 0.027684130043247292,
      "learning_rate": 0.0001,
      "loss": 1.1937,
      "step": 96
    },
    {
      "epoch": 0.005173333333333334,
      "grad_norm": 0.024770212365944143,
      "learning_rate": 0.0001,
      "loss": 1.1115,
      "step": 97
    },
    {
      "epoch": 0.005226666666666667,
      "grad_norm": 0.027494101888264684,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 98
    },
    {
      "epoch": 0.00528,
      "grad_norm": 0.028068591916916897,
      "learning_rate": 0.0001,
      "loss": 1.1198,
      "step": 99
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 0.025215653660767015,
      "learning_rate": 0.0001,
      "loss": 1.0789,
      "step": 100
    },
    {
      "epoch": 0.005386666666666666,
      "grad_norm": 0.02617302078474964,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 101
    },
    {
      "epoch": 0.00544,
      "grad_norm": 0.023807385684215778,
      "learning_rate": 0.0001,
      "loss": 1.1229,
      "step": 102
    },
    {
      "epoch": 0.005493333333333334,
      "grad_norm": 0.029317144217495813,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 103
    },
    {
      "epoch": 0.005546666666666667,
      "grad_norm": 0.02774344185697802,
      "learning_rate": 0.0001,
      "loss": 1.1502,
      "step": 104
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.03121423939416175,
      "learning_rate": 0.0001,
      "loss": 1.1989,
      "step": 105
    },
    {
      "epoch": 0.005653333333333333,
      "grad_norm": 0.028168171591932172,
      "learning_rate": 0.0001,
      "loss": 1.0944,
      "step": 106
    },
    {
      "epoch": 0.005706666666666666,
      "grad_norm": 0.02433804240030303,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 107
    },
    {
      "epoch": 0.00576,
      "grad_norm": 0.027260996841302933,
      "learning_rate": 0.0001,
      "loss": 1.0762,
      "step": 108
    },
    {
      "epoch": 0.0058133333333333335,
      "grad_norm": 0.025572432554085187,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 109
    },
    {
      "epoch": 0.005866666666666667,
      "grad_norm": 0.030597638921935663,
      "learning_rate": 0.0001,
      "loss": 1.1201,
      "step": 110
    },
    {
      "epoch": 0.00592,
      "grad_norm": 0.025224536725061118,
      "learning_rate": 0.0001,
      "loss": 1.0667,
      "step": 111
    },
    {
      "epoch": 0.005973333333333333,
      "grad_norm": 0.0321935508085268,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 112
    },
    {
      "epoch": 0.006026666666666666,
      "grad_norm": 0.027980799700585705,
      "learning_rate": 0.0001,
      "loss": 1.1006,
      "step": 113
    },
    {
      "epoch": 0.00608,
      "grad_norm": 0.03037305660606416,
      "learning_rate": 0.0001,
      "loss": 1.091,
      "step": 114
    },
    {
      "epoch": 0.0061333333333333335,
      "grad_norm": 0.023866879394773586,
      "learning_rate": 0.0001,
      "loss": 1.105,
      "step": 115
    },
    {
      "epoch": 0.006186666666666667,
      "grad_norm": 0.03248916000693501,
      "learning_rate": 0.0001,
      "loss": 1.0927,
      "step": 116
    },
    {
      "epoch": 0.00624,
      "grad_norm": 0.030583352782920434,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 117
    },
    {
      "epoch": 0.006293333333333333,
      "grad_norm": 0.02600505865067891,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 118
    },
    {
      "epoch": 0.006346666666666666,
      "grad_norm": 0.03210617414476007,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 119
    },
    {
      "epoch": 0.0064,
      "grad_norm": 0.026414605867270017,
      "learning_rate": 0.0001,
      "loss": 1.1234,
      "step": 120
    },
    {
      "epoch": 0.0064533333333333335,
      "grad_norm": 0.029831579361245805,
      "learning_rate": 0.0001,
      "loss": 1.1231,
      "step": 121
    },
    {
      "epoch": 0.006506666666666667,
      "grad_norm": 0.03903353067292734,
      "learning_rate": 0.0001,
      "loss": 1.1309,
      "step": 122
    },
    {
      "epoch": 0.00656,
      "grad_norm": 0.025073552110052105,
      "learning_rate": 0.0001,
      "loss": 1.1192,
      "step": 123
    },
    {
      "epoch": 0.006613333333333333,
      "grad_norm": 0.03884135633408205,
      "learning_rate": 0.0001,
      "loss": 1.1032,
      "step": 124
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.025911124270801084,
      "learning_rate": 0.0001,
      "loss": 1.1439,
      "step": 125
    },
    {
      "epoch": 0.00672,
      "grad_norm": 0.0411337863161015,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 126
    },
    {
      "epoch": 0.0067733333333333335,
      "grad_norm": 0.028822101803103718,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 127
    },
    {
      "epoch": 0.006826666666666667,
      "grad_norm": 0.030315384805135674,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 128
    },
    {
      "epoch": 0.00688,
      "grad_norm": 0.02898101474669884,
      "learning_rate": 0.0001,
      "loss": 1.0669,
      "step": 129
    },
    {
      "epoch": 0.006933333333333333,
      "grad_norm": 0.030957894227308772,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 130
    },
    {
      "epoch": 0.006986666666666667,
      "grad_norm": 0.028211613583629815,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 131
    },
    {
      "epoch": 0.00704,
      "grad_norm": 0.03119816452688914,
      "learning_rate": 0.0001,
      "loss": 1.0768,
      "step": 132
    },
    {
      "epoch": 0.0070933333333333334,
      "grad_norm": 0.027015001492647513,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 133
    },
    {
      "epoch": 0.007146666666666667,
      "grad_norm": 0.027416668668713742,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 134
    },
    {
      "epoch": 0.0072,
      "grad_norm": 0.033612080287052704,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 135
    },
    {
      "epoch": 0.007253333333333333,
      "grad_norm": 0.02847556645412267,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 136
    },
    {
      "epoch": 0.007306666666666667,
      "grad_norm": 0.030942116760774373,
      "learning_rate": 0.0001,
      "loss": 1.1008,
      "step": 137
    },
    {
      "epoch": 0.00736,
      "grad_norm": 0.03937632453183713,
      "learning_rate": 0.0001,
      "loss": 1.0481,
      "step": 138
    },
    {
      "epoch": 0.007413333333333333,
      "grad_norm": 0.034978623142463375,
      "learning_rate": 0.0001,
      "loss": 1.1072,
      "step": 139
    },
    {
      "epoch": 0.007466666666666667,
      "grad_norm": 0.03295011953113239,
      "learning_rate": 0.0001,
      "loss": 1.1178,
      "step": 140
    },
    {
      "epoch": 0.00752,
      "grad_norm": 0.036305639130275257,
      "learning_rate": 0.0001,
      "loss": 1.0754,
      "step": 141
    },
    {
      "epoch": 0.007573333333333333,
      "grad_norm": 0.029533299062835094,
      "learning_rate": 0.0001,
      "loss": 1.1093,
      "step": 142
    },
    {
      "epoch": 0.007626666666666667,
      "grad_norm": 0.028700473652073708,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 143
    },
    {
      "epoch": 0.00768,
      "grad_norm": 0.03449586335694953,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 144
    },
    {
      "epoch": 0.007733333333333333,
      "grad_norm": 0.030621392049860134,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 145
    },
    {
      "epoch": 0.0077866666666666666,
      "grad_norm": 0.030669253137562656,
      "learning_rate": 0.0001,
      "loss": 1.138,
      "step": 146
    },
    {
      "epoch": 0.00784,
      "grad_norm": 0.0326978961412198,
      "learning_rate": 0.0001,
      "loss": 1.0628,
      "step": 147
    },
    {
      "epoch": 0.007893333333333334,
      "grad_norm": 0.02595212462751761,
      "learning_rate": 0.0001,
      "loss": 1.0908,
      "step": 148
    },
    {
      "epoch": 0.007946666666666666,
      "grad_norm": 0.03054212089490085,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 149
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.02989665153550542,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 150
    },
    {
      "epoch": 0.008053333333333332,
      "grad_norm": 0.03284186158764758,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 151
    },
    {
      "epoch": 0.008106666666666667,
      "grad_norm": 0.026431410101557674,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 152
    },
    {
      "epoch": 0.00816,
      "grad_norm": 0.03556175947247141,
      "learning_rate": 0.0001,
      "loss": 1.0672,
      "step": 153
    },
    {
      "epoch": 0.008213333333333333,
      "grad_norm": 0.03312777514368852,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 154
    },
    {
      "epoch": 0.008266666666666667,
      "grad_norm": 0.034095158189905925,
      "learning_rate": 0.0001,
      "loss": 1.0788,
      "step": 155
    },
    {
      "epoch": 0.00832,
      "grad_norm": 0.029675226922119612,
      "learning_rate": 0.0001,
      "loss": 1.0646,
      "step": 156
    },
    {
      "epoch": 0.008373333333333333,
      "grad_norm": 0.029642245637533884,
      "learning_rate": 0.0001,
      "loss": 1.1023,
      "step": 157
    },
    {
      "epoch": 0.008426666666666667,
      "grad_norm": 0.0316882903580528,
      "learning_rate": 0.0001,
      "loss": 1.1032,
      "step": 158
    },
    {
      "epoch": 0.00848,
      "grad_norm": 0.030398811807450663,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 159
    },
    {
      "epoch": 0.008533333333333334,
      "grad_norm": 0.028622241938623755,
      "learning_rate": 0.0001,
      "loss": 1.1911,
      "step": 160
    },
    {
      "epoch": 0.008586666666666666,
      "grad_norm": 0.030878425197920233,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 161
    },
    {
      "epoch": 0.00864,
      "grad_norm": 0.030551687902506713,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 162
    },
    {
      "epoch": 0.008693333333333334,
      "grad_norm": 0.02616507706190728,
      "learning_rate": 0.0001,
      "loss": 1.0764,
      "step": 163
    },
    {
      "epoch": 0.008746666666666666,
      "grad_norm": 0.03306618170823384,
      "learning_rate": 0.0001,
      "loss": 1.0315,
      "step": 164
    },
    {
      "epoch": 0.0088,
      "grad_norm": 0.030468090986927567,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 165
    },
    {
      "epoch": 0.008853333333333333,
      "grad_norm": 0.030484937784253374,
      "learning_rate": 0.0001,
      "loss": 1.0994,
      "step": 166
    },
    {
      "epoch": 0.008906666666666667,
      "grad_norm": 0.02436297674078621,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 167
    },
    {
      "epoch": 0.00896,
      "grad_norm": 0.029546291148058058,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "step": 168
    },
    {
      "epoch": 0.009013333333333333,
      "grad_norm": 0.027771428992338913,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 169
    },
    {
      "epoch": 0.009066666666666667,
      "grad_norm": 0.02446932578340339,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 170
    },
    {
      "epoch": 0.00912,
      "grad_norm": 0.025946328395637305,
      "learning_rate": 0.0001,
      "loss": 1.0664,
      "step": 171
    },
    {
      "epoch": 0.009173333333333334,
      "grad_norm": 0.025711044698923182,
      "learning_rate": 0.0001,
      "loss": 1.1023,
      "step": 172
    },
    {
      "epoch": 0.009226666666666666,
      "grad_norm": 0.02843683469636292,
      "learning_rate": 0.0001,
      "loss": 1.0664,
      "step": 173
    },
    {
      "epoch": 0.00928,
      "grad_norm": 0.028625066904893793,
      "learning_rate": 0.0001,
      "loss": 1.1065,
      "step": 174
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.026222597089346756,
      "learning_rate": 0.0001,
      "loss": 1.0928,
      "step": 175
    },
    {
      "epoch": 0.009386666666666666,
      "grad_norm": 0.030016093375412906,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 176
    },
    {
      "epoch": 0.00944,
      "grad_norm": 0.026762861619253595,
      "learning_rate": 0.0001,
      "loss": 1.0982,
      "step": 177
    },
    {
      "epoch": 0.009493333333333333,
      "grad_norm": 0.02924314921734599,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 178
    },
    {
      "epoch": 0.009546666666666667,
      "grad_norm": 0.03190498414770447,
      "learning_rate": 0.0001,
      "loss": 1.076,
      "step": 179
    },
    {
      "epoch": 0.0096,
      "grad_norm": 0.026313375645259457,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 180
    },
    {
      "epoch": 0.009653333333333333,
      "grad_norm": 0.028387707678660303,
      "learning_rate": 0.0001,
      "loss": 1.1284,
      "step": 181
    },
    {
      "epoch": 0.009706666666666667,
      "grad_norm": 0.023473497175759403,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 182
    },
    {
      "epoch": 0.00976,
      "grad_norm": 0.03027101342433051,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 183
    },
    {
      "epoch": 0.009813333333333334,
      "grad_norm": 0.024727172011912026,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 184
    },
    {
      "epoch": 0.009866666666666666,
      "grad_norm": 0.029937693082934983,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 185
    },
    {
      "epoch": 0.00992,
      "grad_norm": 0.023075693331877877,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 186
    },
    {
      "epoch": 0.009973333333333334,
      "grad_norm": 0.030530753457832613,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 187
    },
    {
      "epoch": 0.010026666666666666,
      "grad_norm": 0.023823152503381035,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 188
    },
    {
      "epoch": 0.01008,
      "grad_norm": 0.02865813717051232,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 189
    },
    {
      "epoch": 0.010133333333333333,
      "grad_norm": 0.02409752713778315,
      "learning_rate": 0.0001,
      "loss": 1.1176,
      "step": 190
    },
    {
      "epoch": 0.010186666666666667,
      "grad_norm": 0.03136103252142913,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 191
    },
    {
      "epoch": 0.01024,
      "grad_norm": 0.024976015498924982,
      "learning_rate": 0.0001,
      "loss": 1.0986,
      "step": 192
    },
    {
      "epoch": 0.010293333333333333,
      "grad_norm": 0.030268189210588402,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 193
    },
    {
      "epoch": 0.010346666666666667,
      "grad_norm": 0.026081446558559367,
      "learning_rate": 0.0001,
      "loss": 1.0987,
      "step": 194
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.029272574892080832,
      "learning_rate": 0.0001,
      "loss": 1.1228,
      "step": 195
    },
    {
      "epoch": 0.010453333333333334,
      "grad_norm": 0.028444370366998047,
      "learning_rate": 0.0001,
      "loss": 1.0627,
      "step": 196
    },
    {
      "epoch": 0.010506666666666666,
      "grad_norm": 0.02871989966492329,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 197
    },
    {
      "epoch": 0.01056,
      "grad_norm": 0.026683222419199053,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 198
    },
    {
      "epoch": 0.010613333333333334,
      "grad_norm": 0.03102078373330611,
      "learning_rate": 0.0001,
      "loss": 1.0982,
      "step": 199
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 0.024925348589159332,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 200
    },
    {
      "epoch": 0.010666666666666666,
      "eval_accuracy": 0.5994892765793127,
      "eval_loss": 1.4720326662063599,
      "eval_runtime": 64.0332,
      "eval_samples_per_second": 15.617,
      "eval_steps_per_second": 0.5,
      "step": 200
    },
    {
      "epoch": 0.01072,
      "grad_norm": 0.0316568442785842,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 201
    },
    {
      "epoch": 0.010773333333333333,
      "grad_norm": 0.029488540862034826,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 202
    },
    {
      "epoch": 0.010826666666666667,
      "grad_norm": 0.03270372948892288,
      "learning_rate": 0.0001,
      "loss": 1.1027,
      "step": 203
    },
    {
      "epoch": 0.01088,
      "grad_norm": 0.026249914459016466,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 204
    },
    {
      "epoch": 0.010933333333333333,
      "grad_norm": 0.036076515998888274,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 205
    },
    {
      "epoch": 0.010986666666666667,
      "grad_norm": 0.028660418517231483,
      "learning_rate": 0.0001,
      "loss": 1.0922,
      "step": 206
    },
    {
      "epoch": 0.01104,
      "grad_norm": 0.03464428925277351,
      "learning_rate": 0.0001,
      "loss": 1.0825,
      "step": 207
    },
    {
      "epoch": 0.011093333333333334,
      "grad_norm": 0.03499278386784176,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 208
    },
    {
      "epoch": 0.011146666666666666,
      "grad_norm": 0.03455491380319108,
      "learning_rate": 0.0001,
      "loss": 1.1851,
      "step": 209
    },
    {
      "epoch": 0.0112,
      "grad_norm": 0.03556355607620968,
      "learning_rate": 0.0001,
      "loss": 1.1095,
      "step": 210
    },
    {
      "epoch": 0.011253333333333334,
      "grad_norm": 0.027996921018236753,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 211
    },
    {
      "epoch": 0.011306666666666666,
      "grad_norm": 0.033919884475156446,
      "learning_rate": 0.0001,
      "loss": 1.151,
      "step": 212
    },
    {
      "epoch": 0.01136,
      "grad_norm": 0.03179790669262934,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 213
    },
    {
      "epoch": 0.011413333333333333,
      "grad_norm": 0.034354530415734434,
      "learning_rate": 0.0001,
      "loss": 1.1146,
      "step": 214
    },
    {
      "epoch": 0.011466666666666667,
      "grad_norm": 0.03363381354597863,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 215
    },
    {
      "epoch": 0.01152,
      "grad_norm": 0.027585856330821976,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 216
    },
    {
      "epoch": 0.011573333333333333,
      "grad_norm": 0.03687603187735977,
      "learning_rate": 0.0001,
      "loss": 1.1113,
      "step": 217
    },
    {
      "epoch": 0.011626666666666667,
      "grad_norm": 0.031044148398233003,
      "learning_rate": 0.0001,
      "loss": 1.0642,
      "step": 218
    },
    {
      "epoch": 0.01168,
      "grad_norm": 0.03764672380440334,
      "learning_rate": 0.0001,
      "loss": 1.0963,
      "step": 219
    },
    {
      "epoch": 0.011733333333333333,
      "grad_norm": 0.027914178328522027,
      "learning_rate": 0.0001,
      "loss": 1.0609,
      "step": 220
    },
    {
      "epoch": 0.011786666666666668,
      "grad_norm": 0.03951760149032919,
      "learning_rate": 0.0001,
      "loss": 1.1319,
      "step": 221
    },
    {
      "epoch": 0.01184,
      "grad_norm": 0.034632178742719816,
      "learning_rate": 0.0001,
      "loss": 1.0665,
      "step": 222
    },
    {
      "epoch": 0.011893333333333334,
      "grad_norm": 0.03145482034798728,
      "learning_rate": 0.0001,
      "loss": 1.1083,
      "step": 223
    },
    {
      "epoch": 0.011946666666666666,
      "grad_norm": 0.028622820086677346,
      "learning_rate": 0.0001,
      "loss": 1.106,
      "step": 224
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.03713441908996785,
      "learning_rate": 0.0001,
      "loss": 1.1149,
      "step": 225
    },
    {
      "epoch": 0.012053333333333333,
      "grad_norm": 0.029442226710517116,
      "learning_rate": 0.0001,
      "loss": 1.1165,
      "step": 226
    },
    {
      "epoch": 0.012106666666666667,
      "grad_norm": 0.03983023301502642,
      "learning_rate": 0.0001,
      "loss": 1.0819,
      "step": 227
    },
    {
      "epoch": 0.01216,
      "grad_norm": 0.02871890963411655,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 228
    },
    {
      "epoch": 0.012213333333333333,
      "grad_norm": 0.0339422135806941,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 229
    },
    {
      "epoch": 0.012266666666666667,
      "grad_norm": 0.029295544671822406,
      "learning_rate": 0.0001,
      "loss": 1.1026,
      "step": 230
    },
    {
      "epoch": 0.01232,
      "grad_norm": 0.03117100028630677,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 231
    },
    {
      "epoch": 0.012373333333333333,
      "grad_norm": 0.03272720116909769,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 232
    },
    {
      "epoch": 0.012426666666666667,
      "grad_norm": 0.032903369710183934,
      "learning_rate": 0.0001,
      "loss": 1.0711,
      "step": 233
    },
    {
      "epoch": 0.01248,
      "grad_norm": 0.026522446346979263,
      "learning_rate": 0.0001,
      "loss": 1.0556,
      "step": 234
    },
    {
      "epoch": 0.012533333333333334,
      "grad_norm": 0.0313667578669662,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 235
    },
    {
      "epoch": 0.012586666666666666,
      "grad_norm": 0.024441583614101686,
      "learning_rate": 0.0001,
      "loss": 1.0817,
      "step": 236
    },
    {
      "epoch": 0.01264,
      "grad_norm": 0.030687588030212466,
      "learning_rate": 0.0001,
      "loss": 1.0936,
      "step": 237
    },
    {
      "epoch": 0.012693333333333333,
      "grad_norm": 0.026725161148006413,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 238
    },
    {
      "epoch": 0.012746666666666667,
      "grad_norm": 0.0341335664388797,
      "learning_rate": 0.0001,
      "loss": 1.0895,
      "step": 239
    },
    {
      "epoch": 0.0128,
      "grad_norm": 0.02556524501453891,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 240
    },
    {
      "epoch": 0.012853333333333333,
      "grad_norm": 0.03266580181401952,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 241
    },
    {
      "epoch": 0.012906666666666667,
      "grad_norm": 0.02420254561644533,
      "learning_rate": 0.0001,
      "loss": 1.0974,
      "step": 242
    },
    {
      "epoch": 0.01296,
      "grad_norm": 0.032663609242733156,
      "learning_rate": 0.0001,
      "loss": 1.1148,
      "step": 243
    },
    {
      "epoch": 0.013013333333333333,
      "grad_norm": 0.029372208748646,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 244
    },
    {
      "epoch": 0.013066666666666667,
      "grad_norm": 0.032611033861686727,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 245
    },
    {
      "epoch": 0.01312,
      "grad_norm": 0.028764390691977424,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 246
    },
    {
      "epoch": 0.013173333333333334,
      "grad_norm": 0.02853643403071029,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 247
    },
    {
      "epoch": 0.013226666666666666,
      "grad_norm": 0.026393256047266497,
      "learning_rate": 0.0001,
      "loss": 1.0928,
      "step": 248
    },
    {
      "epoch": 0.01328,
      "grad_norm": 0.030058717821202726,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 249
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.025503126626144908,
      "learning_rate": 0.0001,
      "loss": 1.1051,
      "step": 250
    },
    {
      "epoch": 0.013386666666666667,
      "grad_norm": 0.03192773525242038,
      "learning_rate": 0.0001,
      "loss": 1.0981,
      "step": 251
    },
    {
      "epoch": 0.01344,
      "grad_norm": 0.03087365928002955,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 252
    },
    {
      "epoch": 0.013493333333333333,
      "grad_norm": 0.027264835049182718,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 253
    },
    {
      "epoch": 0.013546666666666667,
      "grad_norm": 0.03203806040322685,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 254
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.028435121546608523,
      "learning_rate": 0.0001,
      "loss": 1.0842,
      "step": 255
    },
    {
      "epoch": 0.013653333333333333,
      "grad_norm": 0.02789540168079048,
      "learning_rate": 0.0001,
      "loss": 1.1021,
      "step": 256
    },
    {
      "epoch": 0.013706666666666667,
      "grad_norm": 0.03230653992990404,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 257
    },
    {
      "epoch": 0.01376,
      "grad_norm": 0.02842524369187931,
      "learning_rate": 0.0001,
      "loss": 1.1362,
      "step": 258
    },
    {
      "epoch": 0.013813333333333334,
      "grad_norm": 0.03192343054835773,
      "learning_rate": 0.0001,
      "loss": 1.0945,
      "step": 259
    },
    {
      "epoch": 0.013866666666666666,
      "grad_norm": 0.028430943047898668,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 260
    },
    {
      "epoch": 0.01392,
      "grad_norm": 0.027727809893507527,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 261
    },
    {
      "epoch": 0.013973333333333334,
      "grad_norm": 0.028186279813022404,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 262
    },
    {
      "epoch": 0.014026666666666666,
      "grad_norm": 0.03124689523487801,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 263
    },
    {
      "epoch": 0.01408,
      "grad_norm": 0.027622431240190815,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 264
    },
    {
      "epoch": 0.014133333333333333,
      "grad_norm": 0.02709341351532001,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 265
    },
    {
      "epoch": 0.014186666666666667,
      "grad_norm": 0.027655100539760544,
      "learning_rate": 0.0001,
      "loss": 1.0873,
      "step": 266
    },
    {
      "epoch": 0.01424,
      "grad_norm": 0.026073125536718738,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 267
    },
    {
      "epoch": 0.014293333333333333,
      "grad_norm": 0.02758550868453682,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 268
    },
    {
      "epoch": 0.014346666666666667,
      "grad_norm": 0.028454174421323895,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 269
    },
    {
      "epoch": 0.0144,
      "grad_norm": 0.029867413981346007,
      "learning_rate": 0.0001,
      "loss": 1.1298,
      "step": 270
    },
    {
      "epoch": 0.014453333333333334,
      "grad_norm": 0.029986167180212155,
      "learning_rate": 0.0001,
      "loss": 1.1042,
      "step": 271
    },
    {
      "epoch": 0.014506666666666666,
      "grad_norm": 0.029757465367408323,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 272
    },
    {
      "epoch": 0.01456,
      "grad_norm": 0.031816140547927925,
      "learning_rate": 0.0001,
      "loss": 1.1605,
      "step": 273
    },
    {
      "epoch": 0.014613333333333334,
      "grad_norm": 0.028829857830680077,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 274
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.032753645427159854,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 275
    },
    {
      "epoch": 0.01472,
      "grad_norm": 0.026395045026196336,
      "learning_rate": 0.0001,
      "loss": 1.1568,
      "step": 276
    },
    {
      "epoch": 0.014773333333333333,
      "grad_norm": 0.032515847673883186,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 277
    },
    {
      "epoch": 0.014826666666666667,
      "grad_norm": 0.031092394270422992,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 278
    },
    {
      "epoch": 0.01488,
      "grad_norm": 0.03200153316376056,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 279
    },
    {
      "epoch": 0.014933333333333333,
      "grad_norm": 0.03156614483660119,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 280
    },
    {
      "epoch": 0.014986666666666667,
      "grad_norm": 0.03422292317044305,
      "learning_rate": 0.0001,
      "loss": 1.1088,
      "step": 281
    },
    {
      "epoch": 0.01504,
      "grad_norm": 0.030615084871283046,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 282
    },
    {
      "epoch": 0.015093333333333334,
      "grad_norm": 0.041856508510729126,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 283
    },
    {
      "epoch": 0.015146666666666666,
      "grad_norm": 0.030255434345494908,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 284
    },
    {
      "epoch": 0.0152,
      "grad_norm": 0.047847076194265425,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 285
    },
    {
      "epoch": 0.015253333333333334,
      "grad_norm": 0.029642002087216762,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 286
    },
    {
      "epoch": 0.015306666666666666,
      "grad_norm": 0.03884378012758909,
      "learning_rate": 0.0001,
      "loss": 1.068,
      "step": 287
    },
    {
      "epoch": 0.01536,
      "grad_norm": 0.035224974127389654,
      "learning_rate": 0.0001,
      "loss": 1.118,
      "step": 288
    },
    {
      "epoch": 0.015413333333333333,
      "grad_norm": 0.026067067449157006,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 289
    },
    {
      "epoch": 0.015466666666666667,
      "grad_norm": 0.04154574080729332,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 290
    },
    {
      "epoch": 0.01552,
      "grad_norm": 0.02922863155265625,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 291
    },
    {
      "epoch": 0.015573333333333333,
      "grad_norm": 0.03759135682927236,
      "learning_rate": 0.0001,
      "loss": 1.1074,
      "step": 292
    },
    {
      "epoch": 0.015626666666666667,
      "grad_norm": 0.02768527333698743,
      "learning_rate": 0.0001,
      "loss": 1.0832,
      "step": 293
    },
    {
      "epoch": 0.01568,
      "grad_norm": 0.028540400069516168,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 294
    },
    {
      "epoch": 0.015733333333333332,
      "grad_norm": 0.03785712025203911,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 295
    },
    {
      "epoch": 0.015786666666666668,
      "grad_norm": 0.03056094132989058,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 296
    },
    {
      "epoch": 0.01584,
      "grad_norm": 0.03159285738338081,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 297
    },
    {
      "epoch": 0.015893333333333332,
      "grad_norm": 0.035974216268575804,
      "learning_rate": 0.0001,
      "loss": 1.0613,
      "step": 298
    },
    {
      "epoch": 0.015946666666666668,
      "grad_norm": 0.030947377010682443,
      "learning_rate": 0.0001,
      "loss": 1.1092,
      "step": 299
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.033898563438806525,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 300
    },
    {
      "epoch": 0.016053333333333333,
      "grad_norm": 0.03292576051008011,
      "learning_rate": 0.0001,
      "loss": 1.0887,
      "step": 301
    },
    {
      "epoch": 0.016106666666666665,
      "grad_norm": 0.031749365812221826,
      "learning_rate": 0.0001,
      "loss": 1.0969,
      "step": 302
    },
    {
      "epoch": 0.01616,
      "grad_norm": 0.029785513340430385,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 303
    },
    {
      "epoch": 0.016213333333333333,
      "grad_norm": 0.031742247722212874,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 304
    },
    {
      "epoch": 0.016266666666666665,
      "grad_norm": 0.03134762620808533,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 305
    },
    {
      "epoch": 0.01632,
      "grad_norm": 0.035003819557545446,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 306
    },
    {
      "epoch": 0.016373333333333333,
      "grad_norm": 0.03296922340582736,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 307
    },
    {
      "epoch": 0.016426666666666666,
      "grad_norm": 0.03117154954741794,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 308
    },
    {
      "epoch": 0.01648,
      "grad_norm": 0.029912372061067876,
      "learning_rate": 0.0001,
      "loss": 1.0732,
      "step": 309
    },
    {
      "epoch": 0.016533333333333334,
      "grad_norm": 0.04487232292890057,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 310
    },
    {
      "epoch": 0.016586666666666666,
      "grad_norm": 0.03081273512723902,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 311
    },
    {
      "epoch": 0.01664,
      "grad_norm": 0.03281915569187027,
      "learning_rate": 0.0001,
      "loss": 1.0563,
      "step": 312
    },
    {
      "epoch": 0.016693333333333334,
      "grad_norm": 0.029292829792812388,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 313
    },
    {
      "epoch": 0.016746666666666667,
      "grad_norm": 0.02977200434254926,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 314
    },
    {
      "epoch": 0.0168,
      "grad_norm": 0.027179631564878907,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 315
    },
    {
      "epoch": 0.016853333333333335,
      "grad_norm": 0.02707133743343452,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 316
    },
    {
      "epoch": 0.016906666666666667,
      "grad_norm": 0.027862420414370256,
      "learning_rate": 0.0001,
      "loss": 1.0784,
      "step": 317
    },
    {
      "epoch": 0.01696,
      "grad_norm": 0.024751619732911904,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 318
    },
    {
      "epoch": 0.01701333333333333,
      "grad_norm": 0.031493765173030604,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 319
    },
    {
      "epoch": 0.017066666666666667,
      "grad_norm": 0.028696386778704255,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 320
    },
    {
      "epoch": 0.01712,
      "grad_norm": 0.03415118878092258,
      "learning_rate": 0.0001,
      "loss": 1.0772,
      "step": 321
    },
    {
      "epoch": 0.017173333333333332,
      "grad_norm": 0.02995010953902378,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 322
    },
    {
      "epoch": 0.017226666666666668,
      "grad_norm": 0.03580808487326185,
      "learning_rate": 0.0001,
      "loss": 1.0612,
      "step": 323
    },
    {
      "epoch": 0.01728,
      "grad_norm": 0.03506423701369882,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 324
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.03466479476243407,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 325
    },
    {
      "epoch": 0.01738666666666667,
      "grad_norm": 0.03214391804179624,
      "learning_rate": 0.0001,
      "loss": 1.0812,
      "step": 326
    },
    {
      "epoch": 0.01744,
      "grad_norm": 0.028072159375967753,
      "learning_rate": 0.0001,
      "loss": 1.0963,
      "step": 327
    },
    {
      "epoch": 0.017493333333333333,
      "grad_norm": 0.031494434621519414,
      "learning_rate": 0.0001,
      "loss": 1.1078,
      "step": 328
    },
    {
      "epoch": 0.017546666666666665,
      "grad_norm": 0.031617913967152994,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 329
    },
    {
      "epoch": 0.0176,
      "grad_norm": 0.0329875799682057,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 330
    },
    {
      "epoch": 0.017653333333333333,
      "grad_norm": 0.029467640878076403,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 331
    },
    {
      "epoch": 0.017706666666666666,
      "grad_norm": 0.03052182121481663,
      "learning_rate": 0.0001,
      "loss": 1.0755,
      "step": 332
    },
    {
      "epoch": 0.01776,
      "grad_norm": 0.02559458807134852,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 333
    },
    {
      "epoch": 0.017813333333333334,
      "grad_norm": 0.02703684933326687,
      "learning_rate": 0.0001,
      "loss": 1.0864,
      "step": 334
    },
    {
      "epoch": 0.017866666666666666,
      "grad_norm": 0.026753531972531313,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 335
    },
    {
      "epoch": 0.01792,
      "grad_norm": 0.026916556699741197,
      "learning_rate": 0.0001,
      "loss": 1.075,
      "step": 336
    },
    {
      "epoch": 0.017973333333333334,
      "grad_norm": 0.025738137328926707,
      "learning_rate": 0.0001,
      "loss": 1.1118,
      "step": 337
    },
    {
      "epoch": 0.018026666666666667,
      "grad_norm": 0.02567237774910536,
      "learning_rate": 0.0001,
      "loss": 1.1171,
      "step": 338
    },
    {
      "epoch": 0.01808,
      "grad_norm": 0.026013833568443275,
      "learning_rate": 0.0001,
      "loss": 1.0911,
      "step": 339
    },
    {
      "epoch": 0.018133333333333335,
      "grad_norm": 0.027028788146671114,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 340
    },
    {
      "epoch": 0.018186666666666667,
      "grad_norm": 0.023988082488905483,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 341
    },
    {
      "epoch": 0.01824,
      "grad_norm": 0.026303446832233002,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 342
    },
    {
      "epoch": 0.018293333333333335,
      "grad_norm": 0.02427904886173714,
      "learning_rate": 0.0001,
      "loss": 1.0531,
      "step": 343
    },
    {
      "epoch": 0.018346666666666667,
      "grad_norm": 0.023390434640162036,
      "learning_rate": 0.0001,
      "loss": 1.0632,
      "step": 344
    },
    {
      "epoch": 0.0184,
      "grad_norm": 0.028486247841189936,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 345
    },
    {
      "epoch": 0.018453333333333332,
      "grad_norm": 0.024377650723664605,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 346
    },
    {
      "epoch": 0.018506666666666668,
      "grad_norm": 0.030887395887601296,
      "learning_rate": 0.0001,
      "loss": 1.0857,
      "step": 347
    },
    {
      "epoch": 0.01856,
      "grad_norm": 0.02674271547203887,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 348
    },
    {
      "epoch": 0.018613333333333332,
      "grad_norm": 0.029958343257763205,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 349
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 0.02721468036424237,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 350
    },
    {
      "epoch": 0.01872,
      "grad_norm": 0.03041357064666306,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 351
    },
    {
      "epoch": 0.018773333333333333,
      "grad_norm": 0.025530909097418928,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 352
    },
    {
      "epoch": 0.018826666666666665,
      "grad_norm": 0.029046980447655,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 353
    },
    {
      "epoch": 0.01888,
      "grad_norm": 0.02742225734624913,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 354
    },
    {
      "epoch": 0.018933333333333333,
      "grad_norm": 0.02817214536206837,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 355
    },
    {
      "epoch": 0.018986666666666666,
      "grad_norm": 0.028177786714841432,
      "learning_rate": 0.0001,
      "loss": 1.1266,
      "step": 356
    },
    {
      "epoch": 0.01904,
      "grad_norm": 0.036940352302188284,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 357
    },
    {
      "epoch": 0.019093333333333334,
      "grad_norm": 0.02891213109646514,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 358
    },
    {
      "epoch": 0.019146666666666666,
      "grad_norm": 0.035077638590988815,
      "learning_rate": 0.0001,
      "loss": 1.1065,
      "step": 359
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.027029906296890737,
      "learning_rate": 0.0001,
      "loss": 1.0932,
      "step": 360
    },
    {
      "epoch": 0.019253333333333334,
      "grad_norm": 0.028542269376271526,
      "learning_rate": 0.0001,
      "loss": 1.0999,
      "step": 361
    },
    {
      "epoch": 0.019306666666666666,
      "grad_norm": 0.03555033316971397,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 362
    },
    {
      "epoch": 0.01936,
      "grad_norm": 0.02804863106584758,
      "learning_rate": 0.0001,
      "loss": 1.0604,
      "step": 363
    },
    {
      "epoch": 0.019413333333333335,
      "grad_norm": 0.03343706544181945,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 364
    },
    {
      "epoch": 0.019466666666666667,
      "grad_norm": 0.03368558088032251,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 365
    },
    {
      "epoch": 0.01952,
      "grad_norm": 0.030220655249612118,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 366
    },
    {
      "epoch": 0.019573333333333335,
      "grad_norm": 0.029117713883176303,
      "learning_rate": 0.0001,
      "loss": 1.1224,
      "step": 367
    },
    {
      "epoch": 0.019626666666666667,
      "grad_norm": 0.031636676066211435,
      "learning_rate": 0.0001,
      "loss": 1.0971,
      "step": 368
    },
    {
      "epoch": 0.01968,
      "grad_norm": 0.025851792712128695,
      "learning_rate": 0.0001,
      "loss": 1.0808,
      "step": 369
    },
    {
      "epoch": 0.019733333333333332,
      "grad_norm": 0.027299446409118307,
      "learning_rate": 0.0001,
      "loss": 1.0784,
      "step": 370
    },
    {
      "epoch": 0.019786666666666668,
      "grad_norm": 0.028099557032940214,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 371
    },
    {
      "epoch": 0.01984,
      "grad_norm": 0.026366419496810567,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 372
    },
    {
      "epoch": 0.019893333333333332,
      "grad_norm": 0.025729039831486382,
      "learning_rate": 0.0001,
      "loss": 1.0516,
      "step": 373
    },
    {
      "epoch": 0.019946666666666668,
      "grad_norm": 0.02890713408278688,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 374
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.027887343477902646,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 375
    },
    {
      "epoch": 0.020053333333333333,
      "grad_norm": 0.025907081160040965,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 376
    },
    {
      "epoch": 0.020106666666666665,
      "grad_norm": 0.026435137519446417,
      "learning_rate": 0.0001,
      "loss": 1.0937,
      "step": 377
    },
    {
      "epoch": 0.02016,
      "grad_norm": 0.0253290870695598,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 378
    },
    {
      "epoch": 0.020213333333333333,
      "grad_norm": 0.026734068911816202,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 379
    },
    {
      "epoch": 0.020266666666666665,
      "grad_norm": 0.03393577567452843,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 380
    },
    {
      "epoch": 0.02032,
      "grad_norm": 0.02828326274802342,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 381
    },
    {
      "epoch": 0.020373333333333334,
      "grad_norm": 0.02860485461026611,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 382
    },
    {
      "epoch": 0.020426666666666666,
      "grad_norm": 0.026478529379975944,
      "learning_rate": 0.0001,
      "loss": 1.0941,
      "step": 383
    },
    {
      "epoch": 0.02048,
      "grad_norm": 0.027481746097079915,
      "learning_rate": 0.0001,
      "loss": 1.1043,
      "step": 384
    },
    {
      "epoch": 0.020533333333333334,
      "grad_norm": 0.027006969234312356,
      "learning_rate": 0.0001,
      "loss": 1.1279,
      "step": 385
    },
    {
      "epoch": 0.020586666666666666,
      "grad_norm": 0.028720064065126408,
      "learning_rate": 0.0001,
      "loss": 1.0274,
      "step": 386
    },
    {
      "epoch": 0.02064,
      "grad_norm": 0.027529008097351197,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 387
    },
    {
      "epoch": 0.020693333333333334,
      "grad_norm": 0.03158791587970711,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 388
    },
    {
      "epoch": 0.020746666666666667,
      "grad_norm": 0.0291389379537766,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 389
    },
    {
      "epoch": 0.0208,
      "grad_norm": 0.026310647414075156,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 390
    },
    {
      "epoch": 0.020853333333333335,
      "grad_norm": 0.029681993096700644,
      "learning_rate": 0.0001,
      "loss": 1.1108,
      "step": 391
    },
    {
      "epoch": 0.020906666666666667,
      "grad_norm": 0.026459941461558376,
      "learning_rate": 0.0001,
      "loss": 1.0914,
      "step": 392
    },
    {
      "epoch": 0.02096,
      "grad_norm": 0.026362412568191183,
      "learning_rate": 0.0001,
      "loss": 1.056,
      "step": 393
    },
    {
      "epoch": 0.021013333333333332,
      "grad_norm": 0.026093317445612677,
      "learning_rate": 0.0001,
      "loss": 1.0737,
      "step": 394
    },
    {
      "epoch": 0.021066666666666668,
      "grad_norm": 0.025638727214101386,
      "learning_rate": 0.0001,
      "loss": 1.0656,
      "step": 395
    },
    {
      "epoch": 0.02112,
      "grad_norm": 0.028232502494594188,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 396
    },
    {
      "epoch": 0.021173333333333332,
      "grad_norm": 0.02906780589841371,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 397
    },
    {
      "epoch": 0.021226666666666668,
      "grad_norm": 0.025717361098639903,
      "learning_rate": 0.0001,
      "loss": 1.058,
      "step": 398
    },
    {
      "epoch": 0.02128,
      "grad_norm": 0.02652830785176825,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 399
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 0.025167052204156423,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 400
    },
    {
      "epoch": 0.021333333333333333,
      "eval_accuracy": 0.6031766972522907,
      "eval_loss": 1.4504541158676147,
      "eval_runtime": 62.3335,
      "eval_samples_per_second": 16.043,
      "eval_steps_per_second": 0.513,
      "step": 400
    },
    {
      "epoch": 0.021386666666666665,
      "grad_norm": 0.029053357525178344,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 401
    },
    {
      "epoch": 0.02144,
      "grad_norm": 0.029474045819068078,
      "learning_rate": 0.0001,
      "loss": 1.0607,
      "step": 402
    },
    {
      "epoch": 0.021493333333333333,
      "grad_norm": 0.025678794455837924,
      "learning_rate": 0.0001,
      "loss": 1.0363,
      "step": 403
    },
    {
      "epoch": 0.021546666666666665,
      "grad_norm": 0.03227659639217607,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 404
    },
    {
      "epoch": 0.0216,
      "grad_norm": 0.02884093933159816,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 405
    },
    {
      "epoch": 0.021653333333333333,
      "grad_norm": 0.026513728040301318,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 406
    },
    {
      "epoch": 0.021706666666666666,
      "grad_norm": 0.030849289634637234,
      "learning_rate": 0.0001,
      "loss": 1.0563,
      "step": 407
    },
    {
      "epoch": 0.02176,
      "grad_norm": 0.03153134056187864,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 408
    },
    {
      "epoch": 0.021813333333333334,
      "grad_norm": 0.030167919251293484,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 409
    },
    {
      "epoch": 0.021866666666666666,
      "grad_norm": 0.03779516349808776,
      "learning_rate": 0.0001,
      "loss": 1.0775,
      "step": 410
    },
    {
      "epoch": 0.02192,
      "grad_norm": 0.03487583611834528,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 411
    },
    {
      "epoch": 0.021973333333333334,
      "grad_norm": 0.03340258412178405,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 412
    },
    {
      "epoch": 0.022026666666666667,
      "grad_norm": 0.02992368088330469,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 413
    },
    {
      "epoch": 0.02208,
      "grad_norm": 0.028447780043733484,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 414
    },
    {
      "epoch": 0.022133333333333335,
      "grad_norm": 0.03082770040515954,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 415
    },
    {
      "epoch": 0.022186666666666667,
      "grad_norm": 0.03142775534057516,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 416
    },
    {
      "epoch": 0.02224,
      "grad_norm": 0.03039707881525997,
      "learning_rate": 0.0001,
      "loss": 1.1004,
      "step": 417
    },
    {
      "epoch": 0.02229333333333333,
      "grad_norm": 0.035482902760430986,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 418
    },
    {
      "epoch": 0.022346666666666667,
      "grad_norm": 0.0311600162316943,
      "learning_rate": 0.0001,
      "loss": 1.083,
      "step": 419
    },
    {
      "epoch": 0.0224,
      "grad_norm": 0.02598116713955271,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 420
    },
    {
      "epoch": 0.022453333333333332,
      "grad_norm": 0.028539749918331213,
      "learning_rate": 0.0001,
      "loss": 1.1239,
      "step": 421
    },
    {
      "epoch": 0.022506666666666668,
      "grad_norm": 0.02794856360914057,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 422
    },
    {
      "epoch": 0.02256,
      "grad_norm": 0.026963534370146734,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 423
    },
    {
      "epoch": 0.022613333333333333,
      "grad_norm": 0.029060493516265676,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 424
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.026189659354252996,
      "learning_rate": 0.0001,
      "loss": 1.0796,
      "step": 425
    },
    {
      "epoch": 0.02272,
      "grad_norm": 0.028693064238298812,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 426
    },
    {
      "epoch": 0.022773333333333333,
      "grad_norm": 0.025348928366226316,
      "learning_rate": 0.0001,
      "loss": 1.0848,
      "step": 427
    },
    {
      "epoch": 0.022826666666666665,
      "grad_norm": 0.02885848930611813,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 428
    },
    {
      "epoch": 0.02288,
      "grad_norm": 0.02629223229615296,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 429
    },
    {
      "epoch": 0.022933333333333333,
      "grad_norm": 0.027409049751057055,
      "learning_rate": 0.0001,
      "loss": 1.061,
      "step": 430
    },
    {
      "epoch": 0.022986666666666666,
      "grad_norm": 0.02780451142825781,
      "learning_rate": 0.0001,
      "loss": 1.0552,
      "step": 431
    },
    {
      "epoch": 0.02304,
      "grad_norm": 0.029522800413640884,
      "learning_rate": 0.0001,
      "loss": 1.0533,
      "step": 432
    },
    {
      "epoch": 0.023093333333333334,
      "grad_norm": 0.030455229875625784,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 433
    },
    {
      "epoch": 0.023146666666666666,
      "grad_norm": 0.03173636241329264,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 434
    },
    {
      "epoch": 0.0232,
      "grad_norm": 0.03168326600402686,
      "learning_rate": 0.0001,
      "loss": 1.0628,
      "step": 435
    },
    {
      "epoch": 0.023253333333333334,
      "grad_norm": 0.026215702129123965,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 436
    },
    {
      "epoch": 0.023306666666666667,
      "grad_norm": 0.035464794520461466,
      "learning_rate": 0.0001,
      "loss": 1.0772,
      "step": 437
    },
    {
      "epoch": 0.02336,
      "grad_norm": 0.02855595177866171,
      "learning_rate": 0.0001,
      "loss": 1.098,
      "step": 438
    },
    {
      "epoch": 0.023413333333333335,
      "grad_norm": 0.04002437828765943,
      "learning_rate": 0.0001,
      "loss": 1.089,
      "step": 439
    },
    {
      "epoch": 0.023466666666666667,
      "grad_norm": 0.03585573294824762,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 440
    },
    {
      "epoch": 0.02352,
      "grad_norm": 0.043418690636598985,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 441
    },
    {
      "epoch": 0.023573333333333335,
      "grad_norm": 0.0290614894491396,
      "learning_rate": 0.0001,
      "loss": 1.0859,
      "step": 442
    },
    {
      "epoch": 0.023626666666666667,
      "grad_norm": 0.0290944822288765,
      "learning_rate": 0.0001,
      "loss": 1.126,
      "step": 443
    },
    {
      "epoch": 0.02368,
      "grad_norm": 0.030186607335437106,
      "learning_rate": 0.0001,
      "loss": 1.087,
      "step": 444
    },
    {
      "epoch": 0.023733333333333332,
      "grad_norm": 0.02814069752913434,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 445
    },
    {
      "epoch": 0.023786666666666668,
      "grad_norm": 0.03233398519193545,
      "learning_rate": 0.0001,
      "loss": 1.0532,
      "step": 446
    },
    {
      "epoch": 0.02384,
      "grad_norm": 0.03063285078969354,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 447
    },
    {
      "epoch": 0.023893333333333332,
      "grad_norm": 0.033114650713262056,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 448
    },
    {
      "epoch": 0.023946666666666668,
      "grad_norm": 0.03491959026821597,
      "learning_rate": 0.0001,
      "loss": 1.0721,
      "step": 449
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.026318486959858924,
      "learning_rate": 0.0001,
      "loss": 1.0659,
      "step": 450
    },
    {
      "epoch": 0.024053333333333333,
      "grad_norm": 0.04080394535435901,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 451
    },
    {
      "epoch": 0.024106666666666665,
      "grad_norm": 0.03246981772136912,
      "learning_rate": 0.0001,
      "loss": 1.0795,
      "step": 452
    },
    {
      "epoch": 0.02416,
      "grad_norm": 0.03711499410275952,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 453
    },
    {
      "epoch": 0.024213333333333333,
      "grad_norm": 0.03389334869976908,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 454
    },
    {
      "epoch": 0.024266666666666666,
      "grad_norm": 0.03060692008215914,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 455
    },
    {
      "epoch": 0.02432,
      "grad_norm": 0.03240637929991925,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 456
    },
    {
      "epoch": 0.024373333333333334,
      "grad_norm": 0.03309869330586512,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 457
    },
    {
      "epoch": 0.024426666666666666,
      "grad_norm": 0.029231242062182545,
      "learning_rate": 0.0001,
      "loss": 1.0936,
      "step": 458
    },
    {
      "epoch": 0.02448,
      "grad_norm": 0.035605870022303046,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 459
    },
    {
      "epoch": 0.024533333333333334,
      "grad_norm": 0.032122017264580076,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 460
    },
    {
      "epoch": 0.024586666666666666,
      "grad_norm": 0.03627076642877057,
      "learning_rate": 0.0001,
      "loss": 1.0836,
      "step": 461
    },
    {
      "epoch": 0.02464,
      "grad_norm": 0.02736588232960089,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 462
    },
    {
      "epoch": 0.024693333333333334,
      "grad_norm": 0.032870392142688235,
      "learning_rate": 0.0001,
      "loss": 1.0666,
      "step": 463
    },
    {
      "epoch": 0.024746666666666667,
      "grad_norm": 0.02580065579028054,
      "learning_rate": 0.0001,
      "loss": 1.0515,
      "step": 464
    },
    {
      "epoch": 0.0248,
      "grad_norm": 0.030460139904030313,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 465
    },
    {
      "epoch": 0.024853333333333335,
      "grad_norm": 0.02737468320120218,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 466
    },
    {
      "epoch": 0.024906666666666667,
      "grad_norm": 0.03475517154737565,
      "learning_rate": 0.0001,
      "loss": 1.0589,
      "step": 467
    },
    {
      "epoch": 0.02496,
      "grad_norm": 0.028928836775852042,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 468
    },
    {
      "epoch": 0.025013333333333332,
      "grad_norm": 0.035307137381791795,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 469
    },
    {
      "epoch": 0.025066666666666668,
      "grad_norm": 0.026823401948891615,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 470
    },
    {
      "epoch": 0.02512,
      "grad_norm": 0.0357739238856504,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 471
    },
    {
      "epoch": 0.025173333333333332,
      "grad_norm": 0.02708876927708111,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 472
    },
    {
      "epoch": 0.025226666666666668,
      "grad_norm": 0.033064805821763264,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 473
    },
    {
      "epoch": 0.02528,
      "grad_norm": 0.027573131632937994,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 474
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.03168991555601376,
      "learning_rate": 0.0001,
      "loss": 1.0835,
      "step": 475
    },
    {
      "epoch": 0.025386666666666665,
      "grad_norm": 0.026789578605463115,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 476
    },
    {
      "epoch": 0.02544,
      "grad_norm": 0.029621588067924365,
      "learning_rate": 0.0001,
      "loss": 1.0663,
      "step": 477
    },
    {
      "epoch": 0.025493333333333333,
      "grad_norm": 0.0256933807176801,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 478
    },
    {
      "epoch": 0.025546666666666665,
      "grad_norm": 0.031583332157905514,
      "learning_rate": 0.0001,
      "loss": 1.0984,
      "step": 479
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.028610464318737584,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 480
    },
    {
      "epoch": 0.025653333333333334,
      "grad_norm": 0.03182093744252328,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 481
    },
    {
      "epoch": 0.025706666666666666,
      "grad_norm": 0.027101991844817215,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 482
    },
    {
      "epoch": 0.02576,
      "grad_norm": 0.03559697773609355,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 483
    },
    {
      "epoch": 0.025813333333333334,
      "grad_norm": 0.029373287519758855,
      "learning_rate": 0.0001,
      "loss": 1.0795,
      "step": 484
    },
    {
      "epoch": 0.025866666666666666,
      "grad_norm": 0.030874499025079473,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 485
    },
    {
      "epoch": 0.02592,
      "grad_norm": 0.03160479471651721,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 486
    },
    {
      "epoch": 0.025973333333333334,
      "grad_norm": 0.03447887590022929,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 487
    },
    {
      "epoch": 0.026026666666666667,
      "grad_norm": 0.030774359975939802,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 488
    },
    {
      "epoch": 0.02608,
      "grad_norm": 0.028798000478720626,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 489
    },
    {
      "epoch": 0.026133333333333335,
      "grad_norm": 0.03390295207044085,
      "learning_rate": 0.0001,
      "loss": 1.0608,
      "step": 490
    },
    {
      "epoch": 0.026186666666666667,
      "grad_norm": 0.026205318620701235,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 491
    },
    {
      "epoch": 0.02624,
      "grad_norm": 0.030382545007108054,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 492
    },
    {
      "epoch": 0.026293333333333332,
      "grad_norm": 0.02632373090852729,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 493
    },
    {
      "epoch": 0.026346666666666668,
      "grad_norm": 0.034629311803308915,
      "learning_rate": 0.0001,
      "loss": 1.0849,
      "step": 494
    },
    {
      "epoch": 0.0264,
      "grad_norm": 0.02794974055789051,
      "learning_rate": 0.0001,
      "loss": 1.0658,
      "step": 495
    },
    {
      "epoch": 0.026453333333333332,
      "grad_norm": 0.034484018595900924,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 496
    },
    {
      "epoch": 0.026506666666666668,
      "grad_norm": 0.027226653491494283,
      "learning_rate": 0.0001,
      "loss": 1.0898,
      "step": 497
    },
    {
      "epoch": 0.02656,
      "grad_norm": 0.0366132176620981,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 498
    },
    {
      "epoch": 0.026613333333333333,
      "grad_norm": 0.029198913488547064,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 499
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.03677223145835217,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "step": 500
    },
    {
      "epoch": 0.02672,
      "grad_norm": 0.02651990731901792,
      "learning_rate": 0.0001,
      "loss": 1.0962,
      "step": 501
    },
    {
      "epoch": 0.026773333333333333,
      "grad_norm": 0.03355077719282936,
      "learning_rate": 0.0001,
      "loss": 1.0907,
      "step": 502
    },
    {
      "epoch": 0.026826666666666665,
      "grad_norm": 0.02915868522934527,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 503
    },
    {
      "epoch": 0.02688,
      "grad_norm": 0.030235182446328727,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 504
    },
    {
      "epoch": 0.026933333333333333,
      "grad_norm": 0.032098510499524925,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 505
    },
    {
      "epoch": 0.026986666666666666,
      "grad_norm": 0.029866292922145002,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 506
    },
    {
      "epoch": 0.02704,
      "grad_norm": 0.03344940987833942,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 507
    },
    {
      "epoch": 0.027093333333333334,
      "grad_norm": 0.032703648734689325,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 508
    },
    {
      "epoch": 0.027146666666666666,
      "grad_norm": 0.030647095309253046,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 509
    },
    {
      "epoch": 0.0272,
      "grad_norm": 0.03225772763011113,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 510
    },
    {
      "epoch": 0.027253333333333334,
      "grad_norm": 0.026884104279355815,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 511
    },
    {
      "epoch": 0.027306666666666667,
      "grad_norm": 0.03559905848690804,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 512
    },
    {
      "epoch": 0.02736,
      "grad_norm": 0.025339288225932833,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 513
    },
    {
      "epoch": 0.027413333333333335,
      "grad_norm": 0.02825279695243195,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 514
    },
    {
      "epoch": 0.027466666666666667,
      "grad_norm": 0.027726730912414992,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 515
    },
    {
      "epoch": 0.02752,
      "grad_norm": 0.027358196476371093,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 516
    },
    {
      "epoch": 0.02757333333333333,
      "grad_norm": 0.025184591999536324,
      "learning_rate": 0.0001,
      "loss": 1.0667,
      "step": 517
    },
    {
      "epoch": 0.027626666666666667,
      "grad_norm": 0.028091983114919894,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 518
    },
    {
      "epoch": 0.02768,
      "grad_norm": 0.025422931865888544,
      "learning_rate": 0.0001,
      "loss": 1.0582,
      "step": 519
    },
    {
      "epoch": 0.027733333333333332,
      "grad_norm": 0.027449346212440853,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 520
    },
    {
      "epoch": 0.027786666666666668,
      "grad_norm": 0.0226677266044884,
      "learning_rate": 0.0001,
      "loss": 1.0547,
      "step": 521
    },
    {
      "epoch": 0.02784,
      "grad_norm": 0.029673940261652584,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 522
    },
    {
      "epoch": 0.027893333333333332,
      "grad_norm": 0.026922235760732487,
      "learning_rate": 0.0001,
      "loss": 1.0505,
      "step": 523
    },
    {
      "epoch": 0.02794666666666667,
      "grad_norm": 0.025413857251451656,
      "learning_rate": 0.0001,
      "loss": 1.0449,
      "step": 524
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.026132355495133704,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 525
    },
    {
      "epoch": 0.028053333333333333,
      "grad_norm": 0.029086541686811053,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 526
    },
    {
      "epoch": 0.028106666666666665,
      "grad_norm": 0.028055930897560945,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 527
    },
    {
      "epoch": 0.02816,
      "grad_norm": 0.029840799240583228,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 528
    },
    {
      "epoch": 0.028213333333333333,
      "grad_norm": 0.026251648807173542,
      "learning_rate": 0.0001,
      "loss": 1.0811,
      "step": 529
    },
    {
      "epoch": 0.028266666666666666,
      "grad_norm": 0.029243541996501757,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 530
    },
    {
      "epoch": 0.02832,
      "grad_norm": 0.025780477919854453,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 531
    },
    {
      "epoch": 0.028373333333333334,
      "grad_norm": 0.031714624601496204,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 532
    },
    {
      "epoch": 0.028426666666666666,
      "grad_norm": 0.026892706111064008,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 533
    },
    {
      "epoch": 0.02848,
      "grad_norm": 0.0335277111953333,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 534
    },
    {
      "epoch": 0.028533333333333334,
      "grad_norm": 0.024376756145341696,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 535
    },
    {
      "epoch": 0.028586666666666666,
      "grad_norm": 0.026528967455148288,
      "learning_rate": 0.0001,
      "loss": 1.0607,
      "step": 536
    },
    {
      "epoch": 0.02864,
      "grad_norm": 0.03104583148634439,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 537
    },
    {
      "epoch": 0.028693333333333335,
      "grad_norm": 0.02563386891700496,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 538
    },
    {
      "epoch": 0.028746666666666667,
      "grad_norm": 0.030424101368903257,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 539
    },
    {
      "epoch": 0.0288,
      "grad_norm": 0.025122909052099962,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 540
    },
    {
      "epoch": 0.028853333333333335,
      "grad_norm": 0.027986777277271207,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 541
    },
    {
      "epoch": 0.028906666666666667,
      "grad_norm": 0.028366504481278976,
      "learning_rate": 0.0001,
      "loss": 1.08,
      "step": 542
    },
    {
      "epoch": 0.02896,
      "grad_norm": 0.02488252560475833,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 543
    },
    {
      "epoch": 0.029013333333333332,
      "grad_norm": 0.02771674283303712,
      "learning_rate": 0.0001,
      "loss": 1.0876,
      "step": 544
    },
    {
      "epoch": 0.029066666666666668,
      "grad_norm": 0.023043430088074683,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 545
    },
    {
      "epoch": 0.02912,
      "grad_norm": 0.026836814258446483,
      "learning_rate": 0.0001,
      "loss": 1.0553,
      "step": 546
    },
    {
      "epoch": 0.029173333333333332,
      "grad_norm": 0.02572272778382521,
      "learning_rate": 0.0001,
      "loss": 1.0499,
      "step": 547
    },
    {
      "epoch": 0.029226666666666668,
      "grad_norm": 0.024144153975780923,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 548
    },
    {
      "epoch": 0.02928,
      "grad_norm": 0.024425685767587794,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 549
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.024001550929373328,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 550
    },
    {
      "epoch": 0.029386666666666665,
      "grad_norm": 0.02666933853610983,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 551
    },
    {
      "epoch": 0.02944,
      "grad_norm": 0.02573731726673591,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 552
    },
    {
      "epoch": 0.029493333333333333,
      "grad_norm": 0.02623993818553527,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 553
    },
    {
      "epoch": 0.029546666666666666,
      "grad_norm": 0.02764017128615615,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 554
    },
    {
      "epoch": 0.0296,
      "grad_norm": 0.02517507624746559,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 555
    },
    {
      "epoch": 0.029653333333333334,
      "grad_norm": 0.028589097697550005,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 556
    },
    {
      "epoch": 0.029706666666666666,
      "grad_norm": 0.030190744770913033,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 557
    },
    {
      "epoch": 0.02976,
      "grad_norm": 0.027635184601247646,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 558
    },
    {
      "epoch": 0.029813333333333334,
      "grad_norm": 0.030248276071141625,
      "learning_rate": 0.0001,
      "loss": 1.0615,
      "step": 559
    },
    {
      "epoch": 0.029866666666666666,
      "grad_norm": 0.03149026965789896,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 560
    },
    {
      "epoch": 0.02992,
      "grad_norm": 0.026488963368527855,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 561
    },
    {
      "epoch": 0.029973333333333334,
      "grad_norm": 0.03156056628715051,
      "learning_rate": 0.0001,
      "loss": 1.1064,
      "step": 562
    },
    {
      "epoch": 0.030026666666666667,
      "grad_norm": 0.026772923721642618,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 563
    },
    {
      "epoch": 0.03008,
      "grad_norm": 0.038827517285053986,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 564
    },
    {
      "epoch": 0.030133333333333335,
      "grad_norm": 0.028417039583703018,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 565
    },
    {
      "epoch": 0.030186666666666667,
      "grad_norm": 0.029024640825169812,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 566
    },
    {
      "epoch": 0.03024,
      "grad_norm": 0.030815764401784105,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 567
    },
    {
      "epoch": 0.030293333333333332,
      "grad_norm": 0.032176126369767806,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 568
    },
    {
      "epoch": 0.030346666666666668,
      "grad_norm": 0.03548818342529221,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 569
    },
    {
      "epoch": 0.0304,
      "grad_norm": 0.03152919410060147,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 570
    },
    {
      "epoch": 0.030453333333333332,
      "grad_norm": 0.029509791077301034,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 571
    },
    {
      "epoch": 0.030506666666666668,
      "grad_norm": 0.03177426421126197,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 572
    },
    {
      "epoch": 0.03056,
      "grad_norm": 0.03140684345863599,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 573
    },
    {
      "epoch": 0.030613333333333333,
      "grad_norm": 0.028387595365111578,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 574
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.03550348870504331,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 575
    },
    {
      "epoch": 0.03072,
      "grad_norm": 0.02860428962580057,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 576
    },
    {
      "epoch": 0.030773333333333333,
      "grad_norm": 0.032033012137331396,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 577
    },
    {
      "epoch": 0.030826666666666665,
      "grad_norm": 0.028652449871259623,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 578
    },
    {
      "epoch": 0.03088,
      "grad_norm": 0.036854493411152246,
      "learning_rate": 0.0001,
      "loss": 1.0941,
      "step": 579
    },
    {
      "epoch": 0.030933333333333334,
      "grad_norm": 0.03144872596853934,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 580
    },
    {
      "epoch": 0.030986666666666666,
      "grad_norm": 0.032146801934203724,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 581
    },
    {
      "epoch": 0.03104,
      "grad_norm": 0.02872348390190022,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 582
    },
    {
      "epoch": 0.031093333333333334,
      "grad_norm": 0.036941293121842654,
      "learning_rate": 0.0001,
      "loss": 1.06,
      "step": 583
    },
    {
      "epoch": 0.031146666666666666,
      "grad_norm": 0.028896635015294977,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 584
    },
    {
      "epoch": 0.0312,
      "grad_norm": 0.032509037386965825,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 585
    },
    {
      "epoch": 0.031253333333333334,
      "grad_norm": 0.026783272691399063,
      "learning_rate": 0.0001,
      "loss": 1.073,
      "step": 586
    },
    {
      "epoch": 0.03130666666666666,
      "grad_norm": 0.028201980116136813,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 587
    },
    {
      "epoch": 0.03136,
      "grad_norm": 0.031472833110860174,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 588
    },
    {
      "epoch": 0.031413333333333335,
      "grad_norm": 0.02561743775327991,
      "learning_rate": 0.0001,
      "loss": 1.1446,
      "step": 589
    },
    {
      "epoch": 0.031466666666666664,
      "grad_norm": 0.02857336989244412,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 590
    },
    {
      "epoch": 0.03152,
      "grad_norm": 0.033339459213100914,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 591
    },
    {
      "epoch": 0.031573333333333335,
      "grad_norm": 0.02520360108681762,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 592
    },
    {
      "epoch": 0.031626666666666664,
      "grad_norm": 0.02966068583757507,
      "learning_rate": 0.0001,
      "loss": 1.0643,
      "step": 593
    },
    {
      "epoch": 0.03168,
      "grad_norm": 0.03104121529036495,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 594
    },
    {
      "epoch": 0.031733333333333336,
      "grad_norm": 0.027301957706175103,
      "learning_rate": 0.0001,
      "loss": 1.0745,
      "step": 595
    },
    {
      "epoch": 0.031786666666666664,
      "grad_norm": 0.03488774725506519,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 596
    },
    {
      "epoch": 0.03184,
      "grad_norm": 0.02707810299028643,
      "learning_rate": 0.0001,
      "loss": 1.0507,
      "step": 597
    },
    {
      "epoch": 0.031893333333333336,
      "grad_norm": 0.0322932263549692,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 598
    },
    {
      "epoch": 0.031946666666666665,
      "grad_norm": 0.02787814023638413,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 599
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.029467224734742736,
      "learning_rate": 0.0001,
      "loss": 1.05,
      "step": 600
    },
    {
      "epoch": 0.032,
      "eval_accuracy": 0.6054293540235649,
      "eval_loss": 1.4374525547027588,
      "eval_runtime": 62.0912,
      "eval_samples_per_second": 16.105,
      "eval_steps_per_second": 0.515,
      "step": 600
    },
    {
      "epoch": 0.032053333333333336,
      "grad_norm": 0.029442314704859494,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 601
    },
    {
      "epoch": 0.032106666666666665,
      "grad_norm": 0.0315822861964183,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 602
    },
    {
      "epoch": 0.03216,
      "grad_norm": 0.031044050460379495,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 603
    },
    {
      "epoch": 0.03221333333333333,
      "grad_norm": 0.0320737073739536,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 604
    },
    {
      "epoch": 0.032266666666666666,
      "grad_norm": 0.03116399409367164,
      "learning_rate": 0.0001,
      "loss": 1.0641,
      "step": 605
    },
    {
      "epoch": 0.03232,
      "grad_norm": 0.02902664089507814,
      "learning_rate": 0.0001,
      "loss": 1.0822,
      "step": 606
    },
    {
      "epoch": 0.03237333333333333,
      "grad_norm": 0.02743228317735314,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 607
    },
    {
      "epoch": 0.032426666666666666,
      "grad_norm": 0.03049060377227915,
      "learning_rate": 0.0001,
      "loss": 1.0886,
      "step": 608
    },
    {
      "epoch": 0.03248,
      "grad_norm": 0.030620285970369036,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 609
    },
    {
      "epoch": 0.03253333333333333,
      "grad_norm": 0.027453568346793748,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 610
    },
    {
      "epoch": 0.03258666666666667,
      "grad_norm": 0.028622317641376696,
      "learning_rate": 0.0001,
      "loss": 1.0837,
      "step": 611
    },
    {
      "epoch": 0.03264,
      "grad_norm": 0.029710954031531907,
      "learning_rate": 0.0001,
      "loss": 1.0775,
      "step": 612
    },
    {
      "epoch": 0.03269333333333333,
      "grad_norm": 0.026041232029131906,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 613
    },
    {
      "epoch": 0.03274666666666667,
      "grad_norm": 0.03082650346920606,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 614
    },
    {
      "epoch": 0.0328,
      "grad_norm": 0.025642962998964396,
      "learning_rate": 0.0001,
      "loss": 1.0948,
      "step": 615
    },
    {
      "epoch": 0.03285333333333333,
      "grad_norm": 0.026592884166059358,
      "learning_rate": 0.0001,
      "loss": 1.111,
      "step": 616
    },
    {
      "epoch": 0.03290666666666667,
      "grad_norm": 0.026511958477497,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 617
    },
    {
      "epoch": 0.03296,
      "grad_norm": 0.02994628486890638,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 618
    },
    {
      "epoch": 0.03301333333333333,
      "grad_norm": 0.028691406228624348,
      "learning_rate": 0.0001,
      "loss": 1.0785,
      "step": 619
    },
    {
      "epoch": 0.03306666666666667,
      "grad_norm": 0.025828833086042266,
      "learning_rate": 0.0001,
      "loss": 1.0481,
      "step": 620
    },
    {
      "epoch": 0.03312,
      "grad_norm": 0.026737514314920413,
      "learning_rate": 0.0001,
      "loss": 1.1035,
      "step": 621
    },
    {
      "epoch": 0.03317333333333333,
      "grad_norm": 0.029197476259429336,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 622
    },
    {
      "epoch": 0.03322666666666667,
      "grad_norm": 0.024648165353941858,
      "learning_rate": 0.0001,
      "loss": 1.1104,
      "step": 623
    },
    {
      "epoch": 0.03328,
      "grad_norm": 0.030263619862331045,
      "learning_rate": 0.0001,
      "loss": 1.1207,
      "step": 624
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.029513683866545768,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 625
    },
    {
      "epoch": 0.03338666666666667,
      "grad_norm": 0.027830298720054186,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 626
    },
    {
      "epoch": 0.03344,
      "grad_norm": 0.029741220158497214,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 627
    },
    {
      "epoch": 0.03349333333333333,
      "grad_norm": 0.029649247016086167,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 628
    },
    {
      "epoch": 0.03354666666666667,
      "grad_norm": 0.029771957066470067,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 629
    },
    {
      "epoch": 0.0336,
      "grad_norm": 0.02524012296167611,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 630
    },
    {
      "epoch": 0.033653333333333334,
      "grad_norm": 0.0253636486784129,
      "learning_rate": 0.0001,
      "loss": 1.0719,
      "step": 631
    },
    {
      "epoch": 0.03370666666666667,
      "grad_norm": 0.0301207519450283,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 632
    },
    {
      "epoch": 0.03376,
      "grad_norm": 0.025200984519095006,
      "learning_rate": 0.0001,
      "loss": 1.0939,
      "step": 633
    },
    {
      "epoch": 0.033813333333333334,
      "grad_norm": 0.026202270849513667,
      "learning_rate": 0.0001,
      "loss": 1.0581,
      "step": 634
    },
    {
      "epoch": 0.03386666666666667,
      "grad_norm": 0.02718622752986432,
      "learning_rate": 0.0001,
      "loss": 1.0553,
      "step": 635
    },
    {
      "epoch": 0.03392,
      "grad_norm": 0.02847223530413084,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 636
    },
    {
      "epoch": 0.033973333333333335,
      "grad_norm": 0.028141133249394403,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 637
    },
    {
      "epoch": 0.03402666666666666,
      "grad_norm": 0.027803697109497857,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 638
    },
    {
      "epoch": 0.03408,
      "grad_norm": 0.025860133228893974,
      "learning_rate": 0.0001,
      "loss": 1.0478,
      "step": 639
    },
    {
      "epoch": 0.034133333333333335,
      "grad_norm": 0.02624092268602613,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 640
    },
    {
      "epoch": 0.034186666666666664,
      "grad_norm": 0.02830680761297857,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 641
    },
    {
      "epoch": 0.03424,
      "grad_norm": 0.027440795752189422,
      "learning_rate": 0.0001,
      "loss": 1.0709,
      "step": 642
    },
    {
      "epoch": 0.034293333333333335,
      "grad_norm": 0.02842495697281179,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 643
    },
    {
      "epoch": 0.034346666666666664,
      "grad_norm": 0.026877087653101168,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 644
    },
    {
      "epoch": 0.0344,
      "grad_norm": 0.031291205618477376,
      "learning_rate": 0.0001,
      "loss": 1.0514,
      "step": 645
    },
    {
      "epoch": 0.034453333333333336,
      "grad_norm": 0.027220769170152172,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 646
    },
    {
      "epoch": 0.034506666666666665,
      "grad_norm": 0.034450347058666515,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 647
    },
    {
      "epoch": 0.03456,
      "grad_norm": 0.02474358421090832,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 648
    },
    {
      "epoch": 0.034613333333333336,
      "grad_norm": 0.02852515746927132,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 649
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.02806506063075934,
      "learning_rate": 0.0001,
      "loss": 1.0501,
      "step": 650
    },
    {
      "epoch": 0.03472,
      "grad_norm": 0.030041188129474285,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 651
    },
    {
      "epoch": 0.03477333333333334,
      "grad_norm": 0.027421503437624027,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 652
    },
    {
      "epoch": 0.034826666666666665,
      "grad_norm": 0.03307946742691569,
      "learning_rate": 0.0001,
      "loss": 1.0523,
      "step": 653
    },
    {
      "epoch": 0.03488,
      "grad_norm": 0.024415846045076517,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 654
    },
    {
      "epoch": 0.03493333333333333,
      "grad_norm": 0.03138882184583716,
      "learning_rate": 0.0001,
      "loss": 1.0631,
      "step": 655
    },
    {
      "epoch": 0.034986666666666666,
      "grad_norm": 0.026448367364929868,
      "learning_rate": 0.0001,
      "loss": 1.0205,
      "step": 656
    },
    {
      "epoch": 0.03504,
      "grad_norm": 0.029342221583600215,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 657
    },
    {
      "epoch": 0.03509333333333333,
      "grad_norm": 0.03038647314125687,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 658
    },
    {
      "epoch": 0.035146666666666666,
      "grad_norm": 0.02775980593405033,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 659
    },
    {
      "epoch": 0.0352,
      "grad_norm": 0.026088659147883955,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 660
    },
    {
      "epoch": 0.03525333333333333,
      "grad_norm": 0.029625559678343332,
      "learning_rate": 0.0001,
      "loss": 1.0629,
      "step": 661
    },
    {
      "epoch": 0.03530666666666667,
      "grad_norm": 0.027313788130980413,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 662
    },
    {
      "epoch": 0.03536,
      "grad_norm": 0.03331499740465693,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 663
    },
    {
      "epoch": 0.03541333333333333,
      "grad_norm": 0.030514783497164282,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 664
    },
    {
      "epoch": 0.03546666666666667,
      "grad_norm": 0.02713831987788137,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 665
    },
    {
      "epoch": 0.03552,
      "grad_norm": 0.029875217710297927,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 666
    },
    {
      "epoch": 0.03557333333333333,
      "grad_norm": 0.026468342889627728,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 667
    },
    {
      "epoch": 0.03562666666666667,
      "grad_norm": 0.02919312996312141,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 668
    },
    {
      "epoch": 0.03568,
      "grad_norm": 0.030901880152681808,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 669
    },
    {
      "epoch": 0.03573333333333333,
      "grad_norm": 0.027031590786473124,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 670
    },
    {
      "epoch": 0.03578666666666667,
      "grad_norm": 0.029739424686526857,
      "learning_rate": 0.0001,
      "loss": 1.0814,
      "step": 671
    },
    {
      "epoch": 0.03584,
      "grad_norm": 0.03133699636596671,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 672
    },
    {
      "epoch": 0.03589333333333333,
      "grad_norm": 0.025661635645964066,
      "learning_rate": 0.0001,
      "loss": 1.1161,
      "step": 673
    },
    {
      "epoch": 0.03594666666666667,
      "grad_norm": 0.033243356210014646,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 674
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.02651931561965799,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 675
    },
    {
      "epoch": 0.03605333333333333,
      "grad_norm": 0.030756323518494756,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 676
    },
    {
      "epoch": 0.03610666666666667,
      "grad_norm": 0.029870545925031324,
      "learning_rate": 0.0001,
      "loss": 1.1165,
      "step": 677
    },
    {
      "epoch": 0.03616,
      "grad_norm": 0.0265488035721901,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 678
    },
    {
      "epoch": 0.036213333333333333,
      "grad_norm": 0.03185938576378988,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 679
    },
    {
      "epoch": 0.03626666666666667,
      "grad_norm": 0.02917796576032436,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 680
    },
    {
      "epoch": 0.03632,
      "grad_norm": 0.02810637908954052,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 681
    },
    {
      "epoch": 0.036373333333333334,
      "grad_norm": 0.03404403242385817,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 682
    },
    {
      "epoch": 0.03642666666666667,
      "grad_norm": 0.02651473722355262,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 683
    },
    {
      "epoch": 0.03648,
      "grad_norm": 0.03317655777753852,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 684
    },
    {
      "epoch": 0.036533333333333334,
      "grad_norm": 0.026765529601745244,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 685
    },
    {
      "epoch": 0.03658666666666667,
      "grad_norm": 0.03337148184797978,
      "learning_rate": 0.0001,
      "loss": 1.1005,
      "step": 686
    },
    {
      "epoch": 0.03664,
      "grad_norm": 0.02819962056557692,
      "learning_rate": 0.0001,
      "loss": 1.0758,
      "step": 687
    },
    {
      "epoch": 0.036693333333333335,
      "grad_norm": 0.03210247987681375,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 688
    },
    {
      "epoch": 0.036746666666666664,
      "grad_norm": 0.03232827308693877,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 689
    },
    {
      "epoch": 0.0368,
      "grad_norm": 0.03446768596225845,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 690
    },
    {
      "epoch": 0.036853333333333335,
      "grad_norm": 0.026897559503242113,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 691
    },
    {
      "epoch": 0.036906666666666664,
      "grad_norm": 0.029446631318678595,
      "learning_rate": 0.0001,
      "loss": 1.0477,
      "step": 692
    },
    {
      "epoch": 0.03696,
      "grad_norm": 0.032762331751153534,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 693
    },
    {
      "epoch": 0.037013333333333336,
      "grad_norm": 0.0281957658742352,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 694
    },
    {
      "epoch": 0.037066666666666664,
      "grad_norm": 0.02724850861016724,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 695
    },
    {
      "epoch": 0.03712,
      "grad_norm": 0.023148234203756595,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 696
    },
    {
      "epoch": 0.037173333333333336,
      "grad_norm": 0.02438329862235821,
      "learning_rate": 0.0001,
      "loss": 1.0901,
      "step": 697
    },
    {
      "epoch": 0.037226666666666665,
      "grad_norm": 0.029746514340246336,
      "learning_rate": 0.0001,
      "loss": 1.1037,
      "step": 698
    },
    {
      "epoch": 0.03728,
      "grad_norm": 0.02460138737361887,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 699
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.028136426250659978,
      "learning_rate": 0.0001,
      "loss": 1.0767,
      "step": 700
    },
    {
      "epoch": 0.037386666666666665,
      "grad_norm": 0.02593148419061818,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 701
    },
    {
      "epoch": 0.03744,
      "grad_norm": 0.03229869015677275,
      "learning_rate": 0.0001,
      "loss": 1.1232,
      "step": 702
    },
    {
      "epoch": 0.03749333333333333,
      "grad_norm": 0.0272899279506961,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 703
    },
    {
      "epoch": 0.037546666666666666,
      "grad_norm": 0.031003158476783026,
      "learning_rate": 0.0001,
      "loss": 1.0549,
      "step": 704
    },
    {
      "epoch": 0.0376,
      "grad_norm": 0.029569893252869125,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 705
    },
    {
      "epoch": 0.03765333333333333,
      "grad_norm": 0.029938159923103624,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 706
    },
    {
      "epoch": 0.037706666666666666,
      "grad_norm": 0.02600762378192995,
      "learning_rate": 0.0001,
      "loss": 1.0764,
      "step": 707
    },
    {
      "epoch": 0.03776,
      "grad_norm": 0.028209872030893854,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 708
    },
    {
      "epoch": 0.03781333333333333,
      "grad_norm": 0.024802092602009492,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 709
    },
    {
      "epoch": 0.037866666666666667,
      "grad_norm": 0.025137906895737205,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 710
    },
    {
      "epoch": 0.03792,
      "grad_norm": 0.030244055295908946,
      "learning_rate": 0.0001,
      "loss": 1.1005,
      "step": 711
    },
    {
      "epoch": 0.03797333333333333,
      "grad_norm": 0.023607379391306738,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 712
    },
    {
      "epoch": 0.03802666666666667,
      "grad_norm": 0.026010705861925113,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 713
    },
    {
      "epoch": 0.03808,
      "grad_norm": 0.026746865614794394,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 714
    },
    {
      "epoch": 0.03813333333333333,
      "grad_norm": 0.029268328376316065,
      "learning_rate": 0.0001,
      "loss": 1.1037,
      "step": 715
    },
    {
      "epoch": 0.03818666666666667,
      "grad_norm": 0.028164921527962718,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 716
    },
    {
      "epoch": 0.03824,
      "grad_norm": 0.026653349268801866,
      "learning_rate": 0.0001,
      "loss": 1.0644,
      "step": 717
    },
    {
      "epoch": 0.03829333333333333,
      "grad_norm": 0.027779322896187765,
      "learning_rate": 0.0001,
      "loss": 1.0778,
      "step": 718
    },
    {
      "epoch": 0.03834666666666667,
      "grad_norm": 0.02716044130446403,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 719
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.028955600466157444,
      "learning_rate": 0.0001,
      "loss": 1.0858,
      "step": 720
    },
    {
      "epoch": 0.03845333333333333,
      "grad_norm": 0.02692199040163914,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 721
    },
    {
      "epoch": 0.03850666666666667,
      "grad_norm": 0.027917011781956817,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 722
    },
    {
      "epoch": 0.03856,
      "grad_norm": 0.027219037133144053,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 723
    },
    {
      "epoch": 0.03861333333333333,
      "grad_norm": 0.0299733011308284,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 724
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.02740215314308012,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 725
    },
    {
      "epoch": 0.03872,
      "grad_norm": 0.028295373095918817,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 726
    },
    {
      "epoch": 0.03877333333333333,
      "grad_norm": 0.028247695599226994,
      "learning_rate": 0.0001,
      "loss": 1.0702,
      "step": 727
    },
    {
      "epoch": 0.03882666666666667,
      "grad_norm": 0.025961451300866772,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 728
    },
    {
      "epoch": 0.03888,
      "grad_norm": 0.031133313696705606,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 729
    },
    {
      "epoch": 0.038933333333333334,
      "grad_norm": 0.02773277118047147,
      "learning_rate": 0.0001,
      "loss": 1.0604,
      "step": 730
    },
    {
      "epoch": 0.03898666666666667,
      "grad_norm": 0.03001493305971132,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 731
    },
    {
      "epoch": 0.03904,
      "grad_norm": 0.026973731063982445,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 732
    },
    {
      "epoch": 0.039093333333333334,
      "grad_norm": 0.030376146440363846,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 733
    },
    {
      "epoch": 0.03914666666666667,
      "grad_norm": 0.027357657227751988,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 734
    },
    {
      "epoch": 0.0392,
      "grad_norm": 0.02750576574072316,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 735
    },
    {
      "epoch": 0.039253333333333335,
      "grad_norm": 0.03265162169157673,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 736
    },
    {
      "epoch": 0.03930666666666666,
      "grad_norm": 0.025014085583874034,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 737
    },
    {
      "epoch": 0.03936,
      "grad_norm": 0.03237202030888492,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 738
    },
    {
      "epoch": 0.039413333333333335,
      "grad_norm": 0.027461699076853703,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 739
    },
    {
      "epoch": 0.039466666666666664,
      "grad_norm": 0.031325031567587286,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 740
    },
    {
      "epoch": 0.03952,
      "grad_norm": 0.030453728770916868,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 741
    },
    {
      "epoch": 0.039573333333333335,
      "grad_norm": 0.02943091094307162,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 742
    },
    {
      "epoch": 0.039626666666666664,
      "grad_norm": 0.030391933689108846,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 743
    },
    {
      "epoch": 0.03968,
      "grad_norm": 0.03448463373425907,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 744
    },
    {
      "epoch": 0.039733333333333336,
      "grad_norm": 0.026142254203839345,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 745
    },
    {
      "epoch": 0.039786666666666665,
      "grad_norm": 0.03202916519352381,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 746
    },
    {
      "epoch": 0.03984,
      "grad_norm": 0.023781815104029977,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 747
    },
    {
      "epoch": 0.039893333333333336,
      "grad_norm": 0.029031046885221467,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 748
    },
    {
      "epoch": 0.039946666666666665,
      "grad_norm": 0.026079542357992126,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 749
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.026882403635630703,
      "learning_rate": 0.0001,
      "loss": 1.0793,
      "step": 750
    },
    {
      "epoch": 0.04005333333333334,
      "grad_norm": 0.026003312619162028,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 751
    },
    {
      "epoch": 0.040106666666666665,
      "grad_norm": 0.028952496808054392,
      "learning_rate": 0.0001,
      "loss": 1.0731,
      "step": 752
    },
    {
      "epoch": 0.04016,
      "grad_norm": 0.027781130938632756,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 753
    },
    {
      "epoch": 0.04021333333333333,
      "grad_norm": 0.026733557978303214,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 754
    },
    {
      "epoch": 0.040266666666666666,
      "grad_norm": 0.029619895774231214,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 755
    },
    {
      "epoch": 0.04032,
      "grad_norm": 0.025986463353329322,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 756
    },
    {
      "epoch": 0.04037333333333333,
      "grad_norm": 0.025729881302954404,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 757
    },
    {
      "epoch": 0.040426666666666666,
      "grad_norm": 0.025973762228878147,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 758
    },
    {
      "epoch": 0.04048,
      "grad_norm": 0.027831946321555466,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 759
    },
    {
      "epoch": 0.04053333333333333,
      "grad_norm": 0.023723124249157426,
      "learning_rate": 0.0001,
      "loss": 1.0805,
      "step": 760
    },
    {
      "epoch": 0.04058666666666667,
      "grad_norm": 0.024409018879416225,
      "learning_rate": 0.0001,
      "loss": 1.1149,
      "step": 761
    },
    {
      "epoch": 0.04064,
      "grad_norm": 0.02599894182832873,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 762
    },
    {
      "epoch": 0.04069333333333333,
      "grad_norm": 0.026537162424658794,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 763
    },
    {
      "epoch": 0.04074666666666667,
      "grad_norm": 0.025880993280216896,
      "learning_rate": 0.0001,
      "loss": 1.0757,
      "step": 764
    },
    {
      "epoch": 0.0408,
      "grad_norm": 0.02506965819873307,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 765
    },
    {
      "epoch": 0.04085333333333333,
      "grad_norm": 0.02536139529720351,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 766
    },
    {
      "epoch": 0.04090666666666667,
      "grad_norm": 0.02970527215447741,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 767
    },
    {
      "epoch": 0.04096,
      "grad_norm": 0.025118771183072812,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 768
    },
    {
      "epoch": 0.04101333333333333,
      "grad_norm": 0.026288985573433867,
      "learning_rate": 0.0001,
      "loss": 1.0471,
      "step": 769
    },
    {
      "epoch": 0.04106666666666667,
      "grad_norm": 0.027271600816907965,
      "learning_rate": 0.0001,
      "loss": 1.0562,
      "step": 770
    },
    {
      "epoch": 0.04112,
      "grad_norm": 0.030354044923674085,
      "learning_rate": 0.0001,
      "loss": 1.0741,
      "step": 771
    },
    {
      "epoch": 0.04117333333333333,
      "grad_norm": 0.02622513945137329,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 772
    },
    {
      "epoch": 0.04122666666666667,
      "grad_norm": 0.028177909995223804,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 773
    },
    {
      "epoch": 0.04128,
      "grad_norm": 0.02833113727351829,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 774
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.025911071618273676,
      "learning_rate": 0.0001,
      "loss": 1.0767,
      "step": 775
    },
    {
      "epoch": 0.04138666666666667,
      "grad_norm": 0.027931049233247074,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 776
    },
    {
      "epoch": 0.04144,
      "grad_norm": 0.03386380872322391,
      "learning_rate": 0.0001,
      "loss": 1.0856,
      "step": 777
    },
    {
      "epoch": 0.04149333333333333,
      "grad_norm": 0.03215934079112651,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 778
    },
    {
      "epoch": 0.04154666666666667,
      "grad_norm": 0.031808495402366015,
      "learning_rate": 0.0001,
      "loss": 1.0377,
      "step": 779
    },
    {
      "epoch": 0.0416,
      "grad_norm": 0.025840807078132324,
      "learning_rate": 0.0001,
      "loss": 1.101,
      "step": 780
    },
    {
      "epoch": 0.041653333333333334,
      "grad_norm": 0.030238852197037553,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 781
    },
    {
      "epoch": 0.04170666666666667,
      "grad_norm": 0.027447774180194593,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 782
    },
    {
      "epoch": 0.04176,
      "grad_norm": 0.028798570223231384,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 783
    },
    {
      "epoch": 0.041813333333333334,
      "grad_norm": 0.0256322210687924,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 784
    },
    {
      "epoch": 0.04186666666666667,
      "grad_norm": 0.02806223828827209,
      "learning_rate": 0.0001,
      "loss": 1.0785,
      "step": 785
    },
    {
      "epoch": 0.04192,
      "grad_norm": 0.026213708664652294,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 786
    },
    {
      "epoch": 0.041973333333333335,
      "grad_norm": 0.02720503458938639,
      "learning_rate": 0.0001,
      "loss": 1.0455,
      "step": 787
    },
    {
      "epoch": 0.042026666666666664,
      "grad_norm": 0.025686311433147313,
      "learning_rate": 0.0001,
      "loss": 1.0378,
      "step": 788
    },
    {
      "epoch": 0.04208,
      "grad_norm": 0.02513551846750815,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 789
    },
    {
      "epoch": 0.042133333333333335,
      "grad_norm": 0.025322570579306657,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 790
    },
    {
      "epoch": 0.042186666666666664,
      "grad_norm": 0.023569924939221342,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 791
    },
    {
      "epoch": 0.04224,
      "grad_norm": 0.025538850759327804,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 792
    },
    {
      "epoch": 0.042293333333333336,
      "grad_norm": 0.02602153335702122,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 793
    },
    {
      "epoch": 0.042346666666666664,
      "grad_norm": 0.027366433563260364,
      "learning_rate": 0.0001,
      "loss": 1.0373,
      "step": 794
    },
    {
      "epoch": 0.0424,
      "grad_norm": 0.026325880860775832,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 795
    },
    {
      "epoch": 0.042453333333333336,
      "grad_norm": 0.025630381306590642,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 796
    },
    {
      "epoch": 0.042506666666666665,
      "grad_norm": 0.02845945089868684,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 797
    },
    {
      "epoch": 0.04256,
      "grad_norm": 0.02884539665460236,
      "learning_rate": 0.0001,
      "loss": 1.0841,
      "step": 798
    },
    {
      "epoch": 0.042613333333333336,
      "grad_norm": 0.029387731430493474,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 799
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.025881026316409355,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 800
    },
    {
      "epoch": 0.042666666666666665,
      "eval_accuracy": 0.6070635908507251,
      "eval_loss": 1.4281765222549438,
      "eval_runtime": 63.3183,
      "eval_samples_per_second": 15.793,
      "eval_steps_per_second": 0.505,
      "step": 800
    },
    {
      "epoch": 0.04272,
      "grad_norm": 0.029166882820575512,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 801
    },
    {
      "epoch": 0.04277333333333333,
      "grad_norm": 0.0250304770118888,
      "learning_rate": 0.0001,
      "loss": 1.0426,
      "step": 802
    },
    {
      "epoch": 0.042826666666666666,
      "grad_norm": 0.030677898791501974,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 803
    },
    {
      "epoch": 0.04288,
      "grad_norm": 0.027003872301718947,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 804
    },
    {
      "epoch": 0.04293333333333333,
      "grad_norm": 0.029722623664073657,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 805
    },
    {
      "epoch": 0.042986666666666666,
      "grad_norm": 0.025830480105869136,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 806
    },
    {
      "epoch": 0.04304,
      "grad_norm": 0.025094127707010614,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 807
    },
    {
      "epoch": 0.04309333333333333,
      "grad_norm": 0.03399191864821582,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 808
    },
    {
      "epoch": 0.043146666666666667,
      "grad_norm": 0.02663254034691933,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 809
    },
    {
      "epoch": 0.0432,
      "grad_norm": 0.03316585433082221,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 810
    },
    {
      "epoch": 0.04325333333333333,
      "grad_norm": 0.02666646257083002,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 811
    },
    {
      "epoch": 0.04330666666666667,
      "grad_norm": 0.028243938168319598,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 812
    },
    {
      "epoch": 0.04336,
      "grad_norm": 0.029180611506753707,
      "learning_rate": 0.0001,
      "loss": 1.1224,
      "step": 813
    },
    {
      "epoch": 0.04341333333333333,
      "grad_norm": 0.03015300324313961,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 814
    },
    {
      "epoch": 0.04346666666666667,
      "grad_norm": 0.030535963377852464,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 815
    },
    {
      "epoch": 0.04352,
      "grad_norm": 0.026258368369023597,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 816
    },
    {
      "epoch": 0.04357333333333333,
      "grad_norm": 0.03148727800128241,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 817
    },
    {
      "epoch": 0.04362666666666667,
      "grad_norm": 0.026962935127549294,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 818
    },
    {
      "epoch": 0.04368,
      "grad_norm": 0.03099516799542764,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 819
    },
    {
      "epoch": 0.04373333333333333,
      "grad_norm": 0.027660875209212087,
      "learning_rate": 0.0001,
      "loss": 1.0678,
      "step": 820
    },
    {
      "epoch": 0.04378666666666667,
      "grad_norm": 0.026764545220323805,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 821
    },
    {
      "epoch": 0.04384,
      "grad_norm": 0.03219562491030368,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 822
    },
    {
      "epoch": 0.04389333333333333,
      "grad_norm": 0.029178001850638235,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 823
    },
    {
      "epoch": 0.04394666666666667,
      "grad_norm": 0.028677693722987795,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 824
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.031671662566301724,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 825
    },
    {
      "epoch": 0.04405333333333333,
      "grad_norm": 0.02364173144547327,
      "learning_rate": 0.0001,
      "loss": 1.0613,
      "step": 826
    },
    {
      "epoch": 0.04410666666666667,
      "grad_norm": 0.030558845012044714,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 827
    },
    {
      "epoch": 0.04416,
      "grad_norm": 0.029615828974508915,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 828
    },
    {
      "epoch": 0.044213333333333334,
      "grad_norm": 0.027560347249488065,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 829
    },
    {
      "epoch": 0.04426666666666667,
      "grad_norm": 0.02651364890773219,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 830
    },
    {
      "epoch": 0.04432,
      "grad_norm": 0.030157698260727527,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 831
    },
    {
      "epoch": 0.044373333333333334,
      "grad_norm": 0.02853813958840772,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 832
    },
    {
      "epoch": 0.04442666666666667,
      "grad_norm": 0.027255234754136964,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 833
    },
    {
      "epoch": 0.04448,
      "grad_norm": 0.030997396681927917,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 834
    },
    {
      "epoch": 0.044533333333333334,
      "grad_norm": 0.026006883921332068,
      "learning_rate": 0.0001,
      "loss": 1.0361,
      "step": 835
    },
    {
      "epoch": 0.04458666666666666,
      "grad_norm": 0.02723376576368481,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 836
    },
    {
      "epoch": 0.04464,
      "grad_norm": 0.02907354280903025,
      "learning_rate": 0.0001,
      "loss": 1.0768,
      "step": 837
    },
    {
      "epoch": 0.044693333333333335,
      "grad_norm": 0.02454786990368478,
      "learning_rate": 0.0001,
      "loss": 1.0851,
      "step": 838
    },
    {
      "epoch": 0.044746666666666664,
      "grad_norm": 0.029245046413531754,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 839
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.023636608506140265,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 840
    },
    {
      "epoch": 0.044853333333333335,
      "grad_norm": 0.026821550293091273,
      "learning_rate": 0.0001,
      "loss": 1.0751,
      "step": 841
    },
    {
      "epoch": 0.044906666666666664,
      "grad_norm": 0.023579630491512706,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 842
    },
    {
      "epoch": 0.04496,
      "grad_norm": 0.024849862421515965,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 843
    },
    {
      "epoch": 0.045013333333333336,
      "grad_norm": 0.025584371274505965,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 844
    },
    {
      "epoch": 0.045066666666666665,
      "grad_norm": 0.026239644874107387,
      "learning_rate": 0.0001,
      "loss": 1.0688,
      "step": 845
    },
    {
      "epoch": 0.04512,
      "grad_norm": 0.025550271758790568,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 846
    },
    {
      "epoch": 0.045173333333333336,
      "grad_norm": 0.02625977319875168,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 847
    },
    {
      "epoch": 0.045226666666666665,
      "grad_norm": 0.026635003193319306,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 848
    },
    {
      "epoch": 0.04528,
      "grad_norm": 0.024061494469878514,
      "learning_rate": 0.0001,
      "loss": 1.0657,
      "step": 849
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.026714488730389906,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 850
    },
    {
      "epoch": 0.045386666666666665,
      "grad_norm": 0.024730658039716958,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 851
    },
    {
      "epoch": 0.04544,
      "grad_norm": 0.02718835792563627,
      "learning_rate": 0.0001,
      "loss": 1.0673,
      "step": 852
    },
    {
      "epoch": 0.04549333333333333,
      "grad_norm": 0.02441681391807533,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 853
    },
    {
      "epoch": 0.045546666666666666,
      "grad_norm": 0.026865227160608504,
      "learning_rate": 0.0001,
      "loss": 1.0919,
      "step": 854
    },
    {
      "epoch": 0.0456,
      "grad_norm": 0.025148982499951615,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 855
    },
    {
      "epoch": 0.04565333333333333,
      "grad_norm": 0.02594747063669678,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 856
    },
    {
      "epoch": 0.045706666666666666,
      "grad_norm": 0.02428189394776864,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 857
    },
    {
      "epoch": 0.04576,
      "grad_norm": 0.024536461948441435,
      "learning_rate": 0.0001,
      "loss": 1.0509,
      "step": 858
    },
    {
      "epoch": 0.04581333333333333,
      "grad_norm": 0.02439492161711063,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 859
    },
    {
      "epoch": 0.04586666666666667,
      "grad_norm": 0.025643491596401575,
      "learning_rate": 0.0001,
      "loss": 1.1235,
      "step": 860
    },
    {
      "epoch": 0.04592,
      "grad_norm": 0.027406018505493065,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 861
    },
    {
      "epoch": 0.04597333333333333,
      "grad_norm": 0.026358568639206152,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 862
    },
    {
      "epoch": 0.04602666666666667,
      "grad_norm": 0.034589733239701694,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 863
    },
    {
      "epoch": 0.04608,
      "grad_norm": 0.026697480867421183,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 864
    },
    {
      "epoch": 0.04613333333333333,
      "grad_norm": 0.026118070373238444,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 865
    },
    {
      "epoch": 0.04618666666666667,
      "grad_norm": 0.03311993920300801,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 866
    },
    {
      "epoch": 0.04624,
      "grad_norm": 0.02541670861160208,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 867
    },
    {
      "epoch": 0.04629333333333333,
      "grad_norm": 0.03192569631342193,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 868
    },
    {
      "epoch": 0.04634666666666667,
      "grad_norm": 0.028360484249675532,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 869
    },
    {
      "epoch": 0.0464,
      "grad_norm": 0.028765376975513374,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 870
    },
    {
      "epoch": 0.04645333333333333,
      "grad_norm": 0.03106507609430417,
      "learning_rate": 0.0001,
      "loss": 1.0652,
      "step": 871
    },
    {
      "epoch": 0.04650666666666667,
      "grad_norm": 0.02788284325442229,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 872
    },
    {
      "epoch": 0.04656,
      "grad_norm": 0.032772881749993786,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 873
    },
    {
      "epoch": 0.04661333333333333,
      "grad_norm": 0.027748818317682947,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 874
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.030669521043367454,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 875
    },
    {
      "epoch": 0.04672,
      "grad_norm": 0.027938866780504692,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 876
    },
    {
      "epoch": 0.04677333333333333,
      "grad_norm": 0.028897145772550443,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 877
    },
    {
      "epoch": 0.04682666666666667,
      "grad_norm": 0.027563295125290033,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 878
    },
    {
      "epoch": 0.04688,
      "grad_norm": 0.03053359180292864,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 879
    },
    {
      "epoch": 0.046933333333333334,
      "grad_norm": 0.030128218536925155,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 880
    },
    {
      "epoch": 0.04698666666666667,
      "grad_norm": 0.028544472551416372,
      "learning_rate": 0.0001,
      "loss": 1.0911,
      "step": 881
    },
    {
      "epoch": 0.04704,
      "grad_norm": 0.030167810066356493,
      "learning_rate": 0.0001,
      "loss": 1.0452,
      "step": 882
    },
    {
      "epoch": 0.047093333333333334,
      "grad_norm": 0.02408297505641106,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 883
    },
    {
      "epoch": 0.04714666666666667,
      "grad_norm": 0.027774780971964057,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 884
    },
    {
      "epoch": 0.0472,
      "grad_norm": 0.025400460687023188,
      "learning_rate": 0.0001,
      "loss": 1.0593,
      "step": 885
    },
    {
      "epoch": 0.047253333333333335,
      "grad_norm": 0.02709911794207296,
      "learning_rate": 0.0001,
      "loss": 1.0308,
      "step": 886
    },
    {
      "epoch": 0.047306666666666664,
      "grad_norm": 0.025319198473964438,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 887
    },
    {
      "epoch": 0.04736,
      "grad_norm": 0.026180757328368835,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 888
    },
    {
      "epoch": 0.047413333333333335,
      "grad_norm": 0.025285573551095335,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 889
    },
    {
      "epoch": 0.047466666666666664,
      "grad_norm": 0.02843670045959905,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 890
    },
    {
      "epoch": 0.04752,
      "grad_norm": 0.025997312301233654,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 891
    },
    {
      "epoch": 0.047573333333333336,
      "grad_norm": 0.024073069076504146,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 892
    },
    {
      "epoch": 0.047626666666666664,
      "grad_norm": 0.023853858637453446,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 893
    },
    {
      "epoch": 0.04768,
      "grad_norm": 0.025311517497015795,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 894
    },
    {
      "epoch": 0.047733333333333336,
      "grad_norm": 0.026987392764467363,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 895
    },
    {
      "epoch": 0.047786666666666665,
      "grad_norm": 0.022174378532711547,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 896
    },
    {
      "epoch": 0.04784,
      "grad_norm": 0.026317338230162874,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 897
    },
    {
      "epoch": 0.047893333333333336,
      "grad_norm": 0.026420583777472976,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 898
    },
    {
      "epoch": 0.047946666666666665,
      "grad_norm": 0.026985587613239652,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 899
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.025839416552008523,
      "learning_rate": 0.0001,
      "loss": 1.0796,
      "step": 900
    },
    {
      "epoch": 0.04805333333333334,
      "grad_norm": 0.02672940975746081,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 901
    },
    {
      "epoch": 0.048106666666666666,
      "grad_norm": 0.02684830673190323,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 902
    },
    {
      "epoch": 0.04816,
      "grad_norm": 0.028077869874641965,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 903
    },
    {
      "epoch": 0.04821333333333333,
      "grad_norm": 0.025370399817479655,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 904
    },
    {
      "epoch": 0.048266666666666666,
      "grad_norm": 0.02859832025368656,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 905
    },
    {
      "epoch": 0.04832,
      "grad_norm": 0.02320408974355129,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 906
    },
    {
      "epoch": 0.04837333333333333,
      "grad_norm": 0.02743463118936736,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 907
    },
    {
      "epoch": 0.048426666666666666,
      "grad_norm": 0.026355248799057453,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 908
    },
    {
      "epoch": 0.04848,
      "grad_norm": 0.026926398814250813,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 909
    },
    {
      "epoch": 0.04853333333333333,
      "grad_norm": 0.027068166487552038,
      "learning_rate": 0.0001,
      "loss": 1.0681,
      "step": 910
    },
    {
      "epoch": 0.04858666666666667,
      "grad_norm": 0.028936813190210933,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 911
    },
    {
      "epoch": 0.04864,
      "grad_norm": 0.026876465152889058,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 912
    },
    {
      "epoch": 0.04869333333333333,
      "grad_norm": 0.025860693424968707,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 913
    },
    {
      "epoch": 0.04874666666666667,
      "grad_norm": 0.027172969127865813,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 914
    },
    {
      "epoch": 0.0488,
      "grad_norm": 0.0304406822720065,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 915
    },
    {
      "epoch": 0.04885333333333333,
      "grad_norm": 0.024412252530495844,
      "learning_rate": 0.0001,
      "loss": 1.0669,
      "step": 916
    },
    {
      "epoch": 0.04890666666666667,
      "grad_norm": 0.027523271470342073,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 917
    },
    {
      "epoch": 0.04896,
      "grad_norm": 0.027066314860441,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 918
    },
    {
      "epoch": 0.04901333333333333,
      "grad_norm": 0.027317828995139397,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 919
    },
    {
      "epoch": 0.04906666666666667,
      "grad_norm": 0.025990364604618222,
      "learning_rate": 0.0001,
      "loss": 1.066,
      "step": 920
    },
    {
      "epoch": 0.04912,
      "grad_norm": 0.027079533660723725,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 921
    },
    {
      "epoch": 0.04917333333333333,
      "grad_norm": 0.024080255184311845,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 922
    },
    {
      "epoch": 0.04922666666666667,
      "grad_norm": 0.02593109200355588,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 923
    },
    {
      "epoch": 0.04928,
      "grad_norm": 0.02645199023580068,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 924
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 0.025368483903947164,
      "learning_rate": 0.0001,
      "loss": 1.097,
      "step": 925
    },
    {
      "epoch": 0.04938666666666667,
      "grad_norm": 0.02478047998121872,
      "learning_rate": 0.0001,
      "loss": 1.0649,
      "step": 926
    },
    {
      "epoch": 0.04944,
      "grad_norm": 0.02591348378320989,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 927
    },
    {
      "epoch": 0.049493333333333334,
      "grad_norm": 0.02569723491190671,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 928
    },
    {
      "epoch": 0.04954666666666667,
      "grad_norm": 0.024865093791188467,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 929
    },
    {
      "epoch": 0.0496,
      "grad_norm": 0.030038278118051875,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 930
    },
    {
      "epoch": 0.049653333333333334,
      "grad_norm": 0.026371312851266843,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 931
    },
    {
      "epoch": 0.04970666666666667,
      "grad_norm": 0.03144426885514294,
      "learning_rate": 0.0001,
      "loss": 1.0813,
      "step": 932
    },
    {
      "epoch": 0.04976,
      "grad_norm": 0.0265786517902255,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 933
    },
    {
      "epoch": 0.049813333333333334,
      "grad_norm": 0.024413710676982007,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 934
    },
    {
      "epoch": 0.04986666666666666,
      "grad_norm": 0.02904755195288663,
      "learning_rate": 0.0001,
      "loss": 1.0788,
      "step": 935
    },
    {
      "epoch": 0.04992,
      "grad_norm": 0.02734009419719898,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 936
    },
    {
      "epoch": 0.049973333333333335,
      "grad_norm": 0.02646274786062384,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 937
    },
    {
      "epoch": 0.050026666666666664,
      "grad_norm": 0.026412713213344766,
      "learning_rate": 0.0001,
      "loss": 1.0732,
      "step": 938
    },
    {
      "epoch": 0.05008,
      "grad_norm": 0.027264523122307607,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 939
    },
    {
      "epoch": 0.050133333333333335,
      "grad_norm": 0.025345845129705905,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 940
    },
    {
      "epoch": 0.050186666666666664,
      "grad_norm": 0.027965398766579438,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 941
    },
    {
      "epoch": 0.05024,
      "grad_norm": 0.027435233247793758,
      "learning_rate": 0.0001,
      "loss": 1.0559,
      "step": 942
    },
    {
      "epoch": 0.050293333333333336,
      "grad_norm": 0.02582942963464495,
      "learning_rate": 0.0001,
      "loss": 1.0598,
      "step": 943
    },
    {
      "epoch": 0.050346666666666665,
      "grad_norm": 0.025823728286010116,
      "learning_rate": 0.0001,
      "loss": 1.0678,
      "step": 944
    },
    {
      "epoch": 0.0504,
      "grad_norm": 0.025016110287567075,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "step": 945
    },
    {
      "epoch": 0.050453333333333336,
      "grad_norm": 0.027570944011150574,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 946
    },
    {
      "epoch": 0.050506666666666665,
      "grad_norm": 0.024839988020182096,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 947
    },
    {
      "epoch": 0.05056,
      "grad_norm": 0.027533709631797812,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 948
    },
    {
      "epoch": 0.05061333333333334,
      "grad_norm": 0.02899469275876491,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 949
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.02896434589284753,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 950
    },
    {
      "epoch": 0.05072,
      "grad_norm": 0.028188084863381774,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 951
    },
    {
      "epoch": 0.05077333333333333,
      "grad_norm": 0.028748892035582663,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 952
    },
    {
      "epoch": 0.050826666666666666,
      "grad_norm": 0.025433672299958885,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 953
    },
    {
      "epoch": 0.05088,
      "grad_norm": 0.029959377039149325,
      "learning_rate": 0.0001,
      "loss": 1.101,
      "step": 954
    },
    {
      "epoch": 0.05093333333333333,
      "grad_norm": 0.02682554949601614,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 955
    },
    {
      "epoch": 0.050986666666666666,
      "grad_norm": 0.027120290332370355,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 956
    },
    {
      "epoch": 0.05104,
      "grad_norm": 0.02690236478496663,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 957
    },
    {
      "epoch": 0.05109333333333333,
      "grad_norm": 0.026675812874743455,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 958
    },
    {
      "epoch": 0.05114666666666667,
      "grad_norm": 0.026364405774591797,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 959
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.027814352258148815,
      "learning_rate": 0.0001,
      "loss": 1.0844,
      "step": 960
    },
    {
      "epoch": 0.05125333333333333,
      "grad_norm": 0.027738221405318647,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 961
    },
    {
      "epoch": 0.05130666666666667,
      "grad_norm": 0.027369845499384125,
      "learning_rate": 0.0001,
      "loss": 1.0471,
      "step": 962
    },
    {
      "epoch": 0.05136,
      "grad_norm": 0.025132221193387694,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 963
    },
    {
      "epoch": 0.05141333333333333,
      "grad_norm": 0.030297032526235963,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 964
    },
    {
      "epoch": 0.05146666666666667,
      "grad_norm": 0.02644867889376138,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 965
    },
    {
      "epoch": 0.05152,
      "grad_norm": 0.03049722617314322,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 966
    },
    {
      "epoch": 0.05157333333333333,
      "grad_norm": 0.028141916645024353,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 967
    },
    {
      "epoch": 0.05162666666666667,
      "grad_norm": 0.030003585043015302,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 968
    },
    {
      "epoch": 0.05168,
      "grad_norm": 0.02500327513306962,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 969
    },
    {
      "epoch": 0.05173333333333333,
      "grad_norm": 0.02990281455380819,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 970
    },
    {
      "epoch": 0.05178666666666667,
      "grad_norm": 0.026333817100010478,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 971
    },
    {
      "epoch": 0.05184,
      "grad_norm": 0.028524374297923222,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 972
    },
    {
      "epoch": 0.05189333333333333,
      "grad_norm": 0.027317215329043767,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 973
    },
    {
      "epoch": 0.05194666666666667,
      "grad_norm": 0.030435227042540237,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 974
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.025082776008801544,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 975
    },
    {
      "epoch": 0.05205333333333333,
      "grad_norm": 0.02893818436583638,
      "learning_rate": 0.0001,
      "loss": 1.0711,
      "step": 976
    },
    {
      "epoch": 0.05210666666666667,
      "grad_norm": 0.02612253334341159,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 977
    },
    {
      "epoch": 0.05216,
      "grad_norm": 0.026092979692290217,
      "learning_rate": 0.0001,
      "loss": 1.0829,
      "step": 978
    },
    {
      "epoch": 0.052213333333333334,
      "grad_norm": 0.025524365116835358,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 979
    },
    {
      "epoch": 0.05226666666666667,
      "grad_norm": 0.027720041655663448,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 980
    },
    {
      "epoch": 0.05232,
      "grad_norm": 0.024973777971759016,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 981
    },
    {
      "epoch": 0.052373333333333334,
      "grad_norm": 0.029835791611434046,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 982
    },
    {
      "epoch": 0.05242666666666667,
      "grad_norm": 0.028518983156906114,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 983
    },
    {
      "epoch": 0.05248,
      "grad_norm": 0.039967544616223406,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 984
    },
    {
      "epoch": 0.052533333333333335,
      "grad_norm": 0.024999511244421534,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 985
    },
    {
      "epoch": 0.052586666666666664,
      "grad_norm": 0.028192180814693775,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 986
    },
    {
      "epoch": 0.05264,
      "grad_norm": 0.02968235006879617,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 987
    },
    {
      "epoch": 0.052693333333333335,
      "grad_norm": 0.026646665214108932,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 988
    },
    {
      "epoch": 0.052746666666666664,
      "grad_norm": 0.026930742779090234,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 989
    },
    {
      "epoch": 0.0528,
      "grad_norm": 0.028004656983621683,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 990
    },
    {
      "epoch": 0.052853333333333335,
      "grad_norm": 0.028004316974029577,
      "learning_rate": 0.0001,
      "loss": 1.0885,
      "step": 991
    },
    {
      "epoch": 0.052906666666666664,
      "grad_norm": 0.030172617982809555,
      "learning_rate": 0.0001,
      "loss": 1.089,
      "step": 992
    },
    {
      "epoch": 0.05296,
      "grad_norm": 0.026748883940639064,
      "learning_rate": 0.0001,
      "loss": 1.1072,
      "step": 993
    },
    {
      "epoch": 0.053013333333333336,
      "grad_norm": 0.02642645750061407,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 994
    },
    {
      "epoch": 0.053066666666666665,
      "grad_norm": 0.026932331471971573,
      "learning_rate": 0.0001,
      "loss": 1.0759,
      "step": 995
    },
    {
      "epoch": 0.05312,
      "grad_norm": 0.029597573500736288,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 996
    },
    {
      "epoch": 0.053173333333333336,
      "grad_norm": 0.028665005103213174,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 997
    },
    {
      "epoch": 0.053226666666666665,
      "grad_norm": 0.02879866280813181,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 998
    },
    {
      "epoch": 0.05328,
      "grad_norm": 0.028666575589889665,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "step": 999
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.025823360118417495,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 1000
    },
    {
      "epoch": 0.05333333333333334,
      "eval_accuracy": 0.608425892609353,
      "eval_loss": 1.42054283618927,
      "eval_runtime": 63.1939,
      "eval_samples_per_second": 15.824,
      "eval_steps_per_second": 0.506,
      "step": 1000
    },
    {
      "epoch": 0.053386666666666666,
      "grad_norm": 0.0265499324664092,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 1001
    },
    {
      "epoch": 0.05344,
      "grad_norm": 0.02669196878349345,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1002
    },
    {
      "epoch": 0.05349333333333333,
      "grad_norm": 0.02633389128540039,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 1003
    },
    {
      "epoch": 0.053546666666666666,
      "grad_norm": 0.025691553483379422,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 1004
    },
    {
      "epoch": 0.0536,
      "grad_norm": 0.030641399926046524,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 1005
    },
    {
      "epoch": 0.05365333333333333,
      "grad_norm": 0.02874273411762921,
      "learning_rate": 0.0001,
      "loss": 1.0677,
      "step": 1006
    },
    {
      "epoch": 0.053706666666666666,
      "grad_norm": 0.026649641596944832,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 1007
    },
    {
      "epoch": 0.05376,
      "grad_norm": 0.029790176804929958,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 1008
    },
    {
      "epoch": 0.05381333333333333,
      "grad_norm": 0.02987051523481069,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 1009
    },
    {
      "epoch": 0.05386666666666667,
      "grad_norm": 0.02586195979942284,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 1010
    },
    {
      "epoch": 0.05392,
      "grad_norm": 0.030974482984548607,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 1011
    },
    {
      "epoch": 0.05397333333333333,
      "grad_norm": 0.025383014598281916,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 1012
    },
    {
      "epoch": 0.05402666666666667,
      "grad_norm": 0.028852803538615905,
      "learning_rate": 0.0001,
      "loss": 1.0666,
      "step": 1013
    },
    {
      "epoch": 0.05408,
      "grad_norm": 0.025985020574556903,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 1014
    },
    {
      "epoch": 0.05413333333333333,
      "grad_norm": 0.026622781078273695,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 1015
    },
    {
      "epoch": 0.05418666666666667,
      "grad_norm": 0.024312560144085713,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1016
    },
    {
      "epoch": 0.05424,
      "grad_norm": 0.024780255838161975,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 1017
    },
    {
      "epoch": 0.05429333333333333,
      "grad_norm": 0.024313611120055204,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1018
    },
    {
      "epoch": 0.05434666666666667,
      "grad_norm": 0.02503470083032177,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 1019
    },
    {
      "epoch": 0.0544,
      "grad_norm": 0.026291185891508057,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1020
    },
    {
      "epoch": 0.05445333333333333,
      "grad_norm": 0.024841459527093816,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 1021
    },
    {
      "epoch": 0.05450666666666667,
      "grad_norm": 0.0273833451042017,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 1022
    },
    {
      "epoch": 0.05456,
      "grad_norm": 0.027282764025504495,
      "learning_rate": 0.0001,
      "loss": 1.0904,
      "step": 1023
    },
    {
      "epoch": 0.05461333333333333,
      "grad_norm": 0.027433998803467727,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 1024
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.02502238653544039,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 1025
    },
    {
      "epoch": 0.05472,
      "grad_norm": 0.0324382307143064,
      "learning_rate": 0.0001,
      "loss": 1.0814,
      "step": 1026
    },
    {
      "epoch": 0.054773333333333334,
      "grad_norm": 0.027098034815702776,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 1027
    },
    {
      "epoch": 0.05482666666666667,
      "grad_norm": 0.03012494377718488,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 1028
    },
    {
      "epoch": 0.05488,
      "grad_norm": 0.027790913024391458,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 1029
    },
    {
      "epoch": 0.054933333333333334,
      "grad_norm": 0.026201153847054896,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 1030
    },
    {
      "epoch": 0.05498666666666667,
      "grad_norm": 0.0311184229227619,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 1031
    },
    {
      "epoch": 0.05504,
      "grad_norm": 0.025576190666408274,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 1032
    },
    {
      "epoch": 0.055093333333333334,
      "grad_norm": 0.02802484699145669,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 1033
    },
    {
      "epoch": 0.05514666666666666,
      "grad_norm": 0.025620756089379464,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 1034
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.025800276805562898,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 1035
    },
    {
      "epoch": 0.055253333333333335,
      "grad_norm": 0.0286019510853285,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 1036
    },
    {
      "epoch": 0.055306666666666664,
      "grad_norm": 0.02481896753390645,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 1037
    },
    {
      "epoch": 0.05536,
      "grad_norm": 0.028088407209215516,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 1038
    },
    {
      "epoch": 0.055413333333333335,
      "grad_norm": 0.026390332649408484,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 1039
    },
    {
      "epoch": 0.055466666666666664,
      "grad_norm": 0.02953481986232811,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 1040
    },
    {
      "epoch": 0.05552,
      "grad_norm": 0.025380485281236136,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 1041
    },
    {
      "epoch": 0.055573333333333336,
      "grad_norm": 0.027863228723082493,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 1042
    },
    {
      "epoch": 0.055626666666666665,
      "grad_norm": 0.02912162318309667,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 1043
    },
    {
      "epoch": 0.05568,
      "grad_norm": 0.025534780035975754,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1044
    },
    {
      "epoch": 0.055733333333333336,
      "grad_norm": 0.029677697705012992,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 1045
    },
    {
      "epoch": 0.055786666666666665,
      "grad_norm": 0.028630547969815873,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "step": 1046
    },
    {
      "epoch": 0.05584,
      "grad_norm": 0.027775349510290512,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 1047
    },
    {
      "epoch": 0.05589333333333334,
      "grad_norm": 0.026579624209351282,
      "learning_rate": 0.0001,
      "loss": 1.0486,
      "step": 1048
    },
    {
      "epoch": 0.055946666666666665,
      "grad_norm": 0.027111562344977972,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 1049
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.026788967583012777,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 1050
    },
    {
      "epoch": 0.05605333333333333,
      "grad_norm": 0.026400936585694892,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 1051
    },
    {
      "epoch": 0.056106666666666666,
      "grad_norm": 0.024894716279123798,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 1052
    },
    {
      "epoch": 0.05616,
      "grad_norm": 0.02769241643827714,
      "learning_rate": 0.0001,
      "loss": 1.0869,
      "step": 1053
    },
    {
      "epoch": 0.05621333333333333,
      "grad_norm": 0.026192410976461095,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 1054
    },
    {
      "epoch": 0.056266666666666666,
      "grad_norm": 0.027738684442750707,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 1055
    },
    {
      "epoch": 0.05632,
      "grad_norm": 0.025270659526073384,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 1056
    },
    {
      "epoch": 0.05637333333333333,
      "grad_norm": 0.029409145090161994,
      "learning_rate": 0.0001,
      "loss": 1.0858,
      "step": 1057
    },
    {
      "epoch": 0.05642666666666667,
      "grad_norm": 0.028362951697167245,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 1058
    },
    {
      "epoch": 0.05648,
      "grad_norm": 0.0356889094796731,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 1059
    },
    {
      "epoch": 0.05653333333333333,
      "grad_norm": 0.029232598984724342,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 1060
    },
    {
      "epoch": 0.05658666666666667,
      "grad_norm": 0.03031924641523104,
      "learning_rate": 0.0001,
      "loss": 1.0922,
      "step": 1061
    },
    {
      "epoch": 0.05664,
      "grad_norm": 0.031272174301218744,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "step": 1062
    },
    {
      "epoch": 0.05669333333333333,
      "grad_norm": 0.030804814803784927,
      "learning_rate": 0.0001,
      "loss": 1.0453,
      "step": 1063
    },
    {
      "epoch": 0.05674666666666667,
      "grad_norm": 0.03017300637579168,
      "learning_rate": 0.0001,
      "loss": 1.0782,
      "step": 1064
    },
    {
      "epoch": 0.0568,
      "grad_norm": 0.031175082600882413,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 1065
    },
    {
      "epoch": 0.05685333333333333,
      "grad_norm": 0.029838643738389715,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 1066
    },
    {
      "epoch": 0.05690666666666667,
      "grad_norm": 0.0269718053542977,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 1067
    },
    {
      "epoch": 0.05696,
      "grad_norm": 0.028444237460184898,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 1068
    },
    {
      "epoch": 0.05701333333333333,
      "grad_norm": 0.026897019330090706,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 1069
    },
    {
      "epoch": 0.05706666666666667,
      "grad_norm": 0.02556935096272631,
      "learning_rate": 0.0001,
      "loss": 1.056,
      "step": 1070
    },
    {
      "epoch": 0.05712,
      "grad_norm": 0.025627567252700868,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 1071
    },
    {
      "epoch": 0.05717333333333333,
      "grad_norm": 0.02478527813045131,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 1072
    },
    {
      "epoch": 0.05722666666666667,
      "grad_norm": 0.0270730864924882,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1073
    },
    {
      "epoch": 0.05728,
      "grad_norm": 0.0229439485973904,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1074
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 0.031395004834123136,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "step": 1075
    },
    {
      "epoch": 0.05738666666666667,
      "grad_norm": 0.024281516341736056,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 1076
    },
    {
      "epoch": 0.05744,
      "grad_norm": 0.025026572582949002,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 1077
    },
    {
      "epoch": 0.057493333333333334,
      "grad_norm": 0.0248173535341957,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 1078
    },
    {
      "epoch": 0.05754666666666667,
      "grad_norm": 0.02451710653263882,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1079
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.027150106416602225,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1080
    },
    {
      "epoch": 0.057653333333333334,
      "grad_norm": 0.02785309655471986,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1081
    },
    {
      "epoch": 0.05770666666666667,
      "grad_norm": 0.029147381719421342,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 1082
    },
    {
      "epoch": 0.05776,
      "grad_norm": 0.027222301983349947,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 1083
    },
    {
      "epoch": 0.057813333333333335,
      "grad_norm": 0.027304377366049768,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 1084
    },
    {
      "epoch": 0.057866666666666663,
      "grad_norm": 0.030649248280361373,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 1085
    },
    {
      "epoch": 0.05792,
      "grad_norm": 0.02616413118101414,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 1086
    },
    {
      "epoch": 0.057973333333333335,
      "grad_norm": 0.03240203697268141,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 1087
    },
    {
      "epoch": 0.058026666666666664,
      "grad_norm": 0.02656319140839796,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 1088
    },
    {
      "epoch": 0.05808,
      "grad_norm": 0.029804261858774217,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1089
    },
    {
      "epoch": 0.058133333333333335,
      "grad_norm": 0.024507745405010783,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 1090
    },
    {
      "epoch": 0.058186666666666664,
      "grad_norm": 0.028614677645995804,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 1091
    },
    {
      "epoch": 0.05824,
      "grad_norm": 0.02730141133831606,
      "learning_rate": 0.0001,
      "loss": 1.0816,
      "step": 1092
    },
    {
      "epoch": 0.058293333333333336,
      "grad_norm": 0.026856559929422676,
      "learning_rate": 0.0001,
      "loss": 1.0596,
      "step": 1093
    },
    {
      "epoch": 0.058346666666666665,
      "grad_norm": 0.030125000009188028,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 1094
    },
    {
      "epoch": 0.0584,
      "grad_norm": 0.02822822681316328,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1095
    },
    {
      "epoch": 0.058453333333333336,
      "grad_norm": 0.028726550084903695,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 1096
    },
    {
      "epoch": 0.058506666666666665,
      "grad_norm": 0.03311596232827745,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1097
    },
    {
      "epoch": 0.05856,
      "grad_norm": 0.02558660030061805,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 1098
    },
    {
      "epoch": 0.05861333333333334,
      "grad_norm": 0.029214945157847817,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 1099
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 0.034859276356250565,
      "learning_rate": 0.0001,
      "loss": 1.0408,
      "step": 1100
    },
    {
      "epoch": 0.05872,
      "grad_norm": 0.024499089519218722,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 1101
    },
    {
      "epoch": 0.05877333333333333,
      "grad_norm": 0.03917125008043877,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 1102
    },
    {
      "epoch": 0.058826666666666666,
      "grad_norm": 0.030070951639903278,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1103
    },
    {
      "epoch": 0.05888,
      "grad_norm": 0.02841266292481491,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 1104
    },
    {
      "epoch": 0.05893333333333333,
      "grad_norm": 0.035030533751566964,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 1105
    },
    {
      "epoch": 0.058986666666666666,
      "grad_norm": 0.03161746500403546,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 1106
    },
    {
      "epoch": 0.05904,
      "grad_norm": 0.026892338958252895,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 1107
    },
    {
      "epoch": 0.05909333333333333,
      "grad_norm": 0.027618371847000913,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1108
    },
    {
      "epoch": 0.05914666666666667,
      "grad_norm": 0.03038083148378131,
      "learning_rate": 0.0001,
      "loss": 1.1225,
      "step": 1109
    },
    {
      "epoch": 0.0592,
      "grad_norm": 0.02678803561226073,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 1110
    },
    {
      "epoch": 0.05925333333333333,
      "grad_norm": 0.02941165053959532,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 1111
    },
    {
      "epoch": 0.05930666666666667,
      "grad_norm": 0.026039696968818218,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 1112
    },
    {
      "epoch": 0.05936,
      "grad_norm": 0.024966229115687452,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1113
    },
    {
      "epoch": 0.05941333333333333,
      "grad_norm": 0.025852763802697066,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 1114
    },
    {
      "epoch": 0.05946666666666667,
      "grad_norm": 0.026193296828074208,
      "learning_rate": 0.0001,
      "loss": 1.0615,
      "step": 1115
    },
    {
      "epoch": 0.05952,
      "grad_norm": 0.028442111438614758,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1116
    },
    {
      "epoch": 0.05957333333333333,
      "grad_norm": 0.024106801229830086,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 1117
    },
    {
      "epoch": 0.05962666666666667,
      "grad_norm": 0.02667480954901167,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 1118
    },
    {
      "epoch": 0.05968,
      "grad_norm": 0.026080305550090874,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 1119
    },
    {
      "epoch": 0.05973333333333333,
      "grad_norm": 0.026856299161321578,
      "learning_rate": 0.0001,
      "loss": 1.0515,
      "step": 1120
    },
    {
      "epoch": 0.05978666666666667,
      "grad_norm": 0.023798886367481526,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 1121
    },
    {
      "epoch": 0.05984,
      "grad_norm": 0.026579711979091748,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 1122
    },
    {
      "epoch": 0.05989333333333333,
      "grad_norm": 0.027325433016494333,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1123
    },
    {
      "epoch": 0.05994666666666667,
      "grad_norm": 0.027229007789417052,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1124
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.02452497501818222,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 1125
    },
    {
      "epoch": 0.060053333333333334,
      "grad_norm": 0.027053944168461047,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 1126
    },
    {
      "epoch": 0.06010666666666667,
      "grad_norm": 0.02395684098263132,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1127
    },
    {
      "epoch": 0.06016,
      "grad_norm": 0.025402690119086888,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 1128
    },
    {
      "epoch": 0.060213333333333334,
      "grad_norm": 0.028298265596709754,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 1129
    },
    {
      "epoch": 0.06026666666666667,
      "grad_norm": 0.02550116730976038,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1130
    },
    {
      "epoch": 0.06032,
      "grad_norm": 0.02957446803272572,
      "learning_rate": 0.0001,
      "loss": 1.095,
      "step": 1131
    },
    {
      "epoch": 0.060373333333333334,
      "grad_norm": 0.028210377376644825,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 1132
    },
    {
      "epoch": 0.06042666666666666,
      "grad_norm": 0.029877364005796735,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1133
    },
    {
      "epoch": 0.06048,
      "grad_norm": 0.026917806460731122,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 1134
    },
    {
      "epoch": 0.060533333333333335,
      "grad_norm": 0.028789528574731486,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1135
    },
    {
      "epoch": 0.060586666666666664,
      "grad_norm": 0.02563949503825346,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 1136
    },
    {
      "epoch": 0.06064,
      "grad_norm": 0.026870868341438408,
      "learning_rate": 0.0001,
      "loss": 1.0992,
      "step": 1137
    },
    {
      "epoch": 0.060693333333333335,
      "grad_norm": 0.0286721545731373,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1138
    },
    {
      "epoch": 0.060746666666666664,
      "grad_norm": 0.025824123895936503,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 1139
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.026495456712234123,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 1140
    },
    {
      "epoch": 0.060853333333333336,
      "grad_norm": 0.027742756716972624,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 1141
    },
    {
      "epoch": 0.060906666666666665,
      "grad_norm": 0.026476499149065198,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 1142
    },
    {
      "epoch": 0.06096,
      "grad_norm": 0.029998708291151383,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 1143
    },
    {
      "epoch": 0.061013333333333336,
      "grad_norm": 0.033285392215665434,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 1144
    },
    {
      "epoch": 0.061066666666666665,
      "grad_norm": 0.027757102614244113,
      "learning_rate": 0.0001,
      "loss": 1.0469,
      "step": 1145
    },
    {
      "epoch": 0.06112,
      "grad_norm": 0.030629655629175002,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 1146
    },
    {
      "epoch": 0.061173333333333337,
      "grad_norm": 0.02824585376490924,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 1147
    },
    {
      "epoch": 0.061226666666666665,
      "grad_norm": 0.027738822094293097,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 1148
    },
    {
      "epoch": 0.06128,
      "grad_norm": 0.03007159983648022,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 1149
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.02633425287765423,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1150
    },
    {
      "epoch": 0.061386666666666666,
      "grad_norm": 0.02631452059151884,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1151
    },
    {
      "epoch": 0.06144,
      "grad_norm": 0.03182396939436865,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 1152
    },
    {
      "epoch": 0.06149333333333333,
      "grad_norm": 0.025714005127244432,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 1153
    },
    {
      "epoch": 0.061546666666666666,
      "grad_norm": 0.0271639086332221,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1154
    },
    {
      "epoch": 0.0616,
      "grad_norm": 0.028352709585798243,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 1155
    },
    {
      "epoch": 0.06165333333333333,
      "grad_norm": 0.024135919470443454,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1156
    },
    {
      "epoch": 0.06170666666666667,
      "grad_norm": 0.02417877110993241,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 1157
    },
    {
      "epoch": 0.06176,
      "grad_norm": 0.02912100814541876,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1158
    },
    {
      "epoch": 0.06181333333333333,
      "grad_norm": 0.02465972183830763,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 1159
    },
    {
      "epoch": 0.06186666666666667,
      "grad_norm": 0.029824622774776315,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 1160
    },
    {
      "epoch": 0.06192,
      "grad_norm": 0.02783668221315413,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 1161
    },
    {
      "epoch": 0.06197333333333333,
      "grad_norm": 0.02426248245170162,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1162
    },
    {
      "epoch": 0.06202666666666667,
      "grad_norm": 0.027765981870981938,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 1163
    },
    {
      "epoch": 0.06208,
      "grad_norm": 0.02904792175175561,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1164
    },
    {
      "epoch": 0.06213333333333333,
      "grad_norm": 0.0256322440775795,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 1165
    },
    {
      "epoch": 0.06218666666666667,
      "grad_norm": 0.026933365681143143,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 1166
    },
    {
      "epoch": 0.06224,
      "grad_norm": 0.025639519959545408,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1167
    },
    {
      "epoch": 0.06229333333333333,
      "grad_norm": 0.02512172278499975,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 1168
    },
    {
      "epoch": 0.06234666666666667,
      "grad_norm": 0.03087493026653598,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1169
    },
    {
      "epoch": 0.0624,
      "grad_norm": 0.024808629333722874,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1170
    },
    {
      "epoch": 0.06245333333333333,
      "grad_norm": 0.02587395315160505,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1171
    },
    {
      "epoch": 0.06250666666666667,
      "grad_norm": 0.025298769274184393,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 1172
    },
    {
      "epoch": 0.06256,
      "grad_norm": 0.02882868832032538,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 1173
    },
    {
      "epoch": 0.06261333333333333,
      "grad_norm": 0.027071893651391597,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 1174
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.024495988188868296,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 1175
    },
    {
      "epoch": 0.06272,
      "grad_norm": 0.02694021361055139,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "step": 1176
    },
    {
      "epoch": 0.06277333333333333,
      "grad_norm": 0.029333687784020807,
      "learning_rate": 0.0001,
      "loss": 1.0712,
      "step": 1177
    },
    {
      "epoch": 0.06282666666666667,
      "grad_norm": 0.02740913163321832,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1178
    },
    {
      "epoch": 0.06288,
      "grad_norm": 0.025442113783102384,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 1179
    },
    {
      "epoch": 0.06293333333333333,
      "grad_norm": 0.02929807524297121,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 1180
    },
    {
      "epoch": 0.06298666666666666,
      "grad_norm": 0.026332639082518032,
      "learning_rate": 0.0001,
      "loss": 1.0637,
      "step": 1181
    },
    {
      "epoch": 0.06304,
      "grad_norm": 0.027297019514507175,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 1182
    },
    {
      "epoch": 0.06309333333333333,
      "grad_norm": 0.02864463911416425,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 1183
    },
    {
      "epoch": 0.06314666666666667,
      "grad_norm": 0.025312377764215712,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 1184
    },
    {
      "epoch": 0.0632,
      "grad_norm": 0.026637189946072205,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1185
    },
    {
      "epoch": 0.06325333333333333,
      "grad_norm": 0.027417509468840896,
      "learning_rate": 0.0001,
      "loss": 1.0274,
      "step": 1186
    },
    {
      "epoch": 0.06330666666666666,
      "grad_norm": 0.026560854514583662,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1187
    },
    {
      "epoch": 0.06336,
      "grad_norm": 0.0258769665229114,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 1188
    },
    {
      "epoch": 0.06341333333333334,
      "grad_norm": 0.025811046353212606,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 1189
    },
    {
      "epoch": 0.06346666666666667,
      "grad_norm": 0.02738878545484558,
      "learning_rate": 0.0001,
      "loss": 1.0741,
      "step": 1190
    },
    {
      "epoch": 0.06352,
      "grad_norm": 0.029174192579285132,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 1191
    },
    {
      "epoch": 0.06357333333333333,
      "grad_norm": 0.02854182097090182,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 1192
    },
    {
      "epoch": 0.06362666666666666,
      "grad_norm": 0.027424624452766267,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 1193
    },
    {
      "epoch": 0.06368,
      "grad_norm": 0.026235611455217522,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1194
    },
    {
      "epoch": 0.06373333333333334,
      "grad_norm": 0.028870647569580306,
      "learning_rate": 0.0001,
      "loss": 1.0555,
      "step": 1195
    },
    {
      "epoch": 0.06378666666666667,
      "grad_norm": 0.02528805845584082,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 1196
    },
    {
      "epoch": 0.06384,
      "grad_norm": 0.025494601187859355,
      "learning_rate": 0.0001,
      "loss": 1.1178,
      "step": 1197
    },
    {
      "epoch": 0.06389333333333333,
      "grad_norm": 0.0286342065350762,
      "learning_rate": 0.0001,
      "loss": 1.0349,
      "step": 1198
    },
    {
      "epoch": 0.06394666666666667,
      "grad_norm": 0.024922047986647326,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 1199
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.02595703889463048,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 1200
    },
    {
      "epoch": 0.064,
      "eval_accuracy": 0.6094079701488295,
      "eval_loss": 1.4146265983581543,
      "eval_runtime": 62.6049,
      "eval_samples_per_second": 15.973,
      "eval_steps_per_second": 0.511,
      "step": 1200
    },
    {
      "epoch": 0.06405333333333334,
      "grad_norm": 0.025006146105032,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1201
    },
    {
      "epoch": 0.06410666666666667,
      "grad_norm": 0.023302451693381493,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 1202
    },
    {
      "epoch": 0.06416,
      "grad_norm": 0.02756625751186389,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 1203
    },
    {
      "epoch": 0.06421333333333333,
      "grad_norm": 0.028889553311601937,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 1204
    },
    {
      "epoch": 0.06426666666666667,
      "grad_norm": 0.0258553390249828,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 1205
    },
    {
      "epoch": 0.06432,
      "grad_norm": 0.027885402443482556,
      "learning_rate": 0.0001,
      "loss": 1.0591,
      "step": 1206
    },
    {
      "epoch": 0.06437333333333334,
      "grad_norm": 0.02864132619478893,
      "learning_rate": 0.0001,
      "loss": 1.0782,
      "step": 1207
    },
    {
      "epoch": 0.06442666666666666,
      "grad_norm": 0.027856345190251184,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 1208
    },
    {
      "epoch": 0.06448,
      "grad_norm": 0.028927463928279672,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 1209
    },
    {
      "epoch": 0.06453333333333333,
      "grad_norm": 0.02619708377546426,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 1210
    },
    {
      "epoch": 0.06458666666666667,
      "grad_norm": 0.02609704904526853,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 1211
    },
    {
      "epoch": 0.06464,
      "grad_norm": 0.02508451037364046,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1212
    },
    {
      "epoch": 0.06469333333333334,
      "grad_norm": 0.029978631434535077,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 1213
    },
    {
      "epoch": 0.06474666666666666,
      "grad_norm": 0.025455921952942592,
      "learning_rate": 0.0001,
      "loss": 1.0961,
      "step": 1214
    },
    {
      "epoch": 0.0648,
      "grad_norm": 0.025925635048354635,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1215
    },
    {
      "epoch": 0.06485333333333333,
      "grad_norm": 0.027555575223156097,
      "learning_rate": 0.0001,
      "loss": 1.0531,
      "step": 1216
    },
    {
      "epoch": 0.06490666666666667,
      "grad_norm": 0.02563121538808906,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 1217
    },
    {
      "epoch": 0.06496,
      "grad_norm": 0.026839783159929968,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1218
    },
    {
      "epoch": 0.06501333333333334,
      "grad_norm": 0.027408562317606494,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 1219
    },
    {
      "epoch": 0.06506666666666666,
      "grad_norm": 0.026846467879478128,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1220
    },
    {
      "epoch": 0.06512,
      "grad_norm": 0.026434673262489827,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1221
    },
    {
      "epoch": 0.06517333333333333,
      "grad_norm": 0.03046924188185476,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 1222
    },
    {
      "epoch": 0.06522666666666667,
      "grad_norm": 0.02878832248631362,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 1223
    },
    {
      "epoch": 0.06528,
      "grad_norm": 0.02915463656577247,
      "learning_rate": 0.0001,
      "loss": 1.0508,
      "step": 1224
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.026974753797952805,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 1225
    },
    {
      "epoch": 0.06538666666666666,
      "grad_norm": 0.031014277128188127,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 1226
    },
    {
      "epoch": 0.06544,
      "grad_norm": 0.026926747968858744,
      "learning_rate": 0.0001,
      "loss": 1.0665,
      "step": 1227
    },
    {
      "epoch": 0.06549333333333333,
      "grad_norm": 0.030408435853748632,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 1228
    },
    {
      "epoch": 0.06554666666666667,
      "grad_norm": 0.02766460018758552,
      "learning_rate": 0.0001,
      "loss": 1.1043,
      "step": 1229
    },
    {
      "epoch": 0.0656,
      "grad_norm": 0.0317122605999316,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 1230
    },
    {
      "epoch": 0.06565333333333333,
      "grad_norm": 0.02681023907289104,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 1231
    },
    {
      "epoch": 0.06570666666666666,
      "grad_norm": 0.0256881770124526,
      "learning_rate": 0.0001,
      "loss": 1.0828,
      "step": 1232
    },
    {
      "epoch": 0.06576,
      "grad_norm": 0.026920603142038133,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 1233
    },
    {
      "epoch": 0.06581333333333333,
      "grad_norm": 0.02596776927624475,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1234
    },
    {
      "epoch": 0.06586666666666667,
      "grad_norm": 0.024292401571502437,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1235
    },
    {
      "epoch": 0.06592,
      "grad_norm": 0.02635273388302963,
      "learning_rate": 0.0001,
      "loss": 1.1033,
      "step": 1236
    },
    {
      "epoch": 0.06597333333333333,
      "grad_norm": 0.02462399459492257,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 1237
    },
    {
      "epoch": 0.06602666666666666,
      "grad_norm": 0.03161845079093626,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1238
    },
    {
      "epoch": 0.06608,
      "grad_norm": 0.025139767398414566,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 1239
    },
    {
      "epoch": 0.06613333333333334,
      "grad_norm": 0.025024285423379537,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 1240
    },
    {
      "epoch": 0.06618666666666667,
      "grad_norm": 0.028347531338522487,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 1241
    },
    {
      "epoch": 0.06624,
      "grad_norm": 0.025977373158516563,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 1242
    },
    {
      "epoch": 0.06629333333333333,
      "grad_norm": 0.026784423462018946,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 1243
    },
    {
      "epoch": 0.06634666666666666,
      "grad_norm": 0.02568457117414041,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1244
    },
    {
      "epoch": 0.0664,
      "grad_norm": 0.02616800466335011,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 1245
    },
    {
      "epoch": 0.06645333333333334,
      "grad_norm": 0.025462786683873754,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 1246
    },
    {
      "epoch": 0.06650666666666667,
      "grad_norm": 0.025872375314676004,
      "learning_rate": 0.0001,
      "loss": 1.0543,
      "step": 1247
    },
    {
      "epoch": 0.06656,
      "grad_norm": 0.02506994383474883,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 1248
    },
    {
      "epoch": 0.06661333333333333,
      "grad_norm": 0.025847320638486885,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 1249
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.026745081752356473,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 1250
    },
    {
      "epoch": 0.06672,
      "grad_norm": 0.027741835071670197,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 1251
    },
    {
      "epoch": 0.06677333333333334,
      "grad_norm": 0.027644034574452348,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 1252
    },
    {
      "epoch": 0.06682666666666667,
      "grad_norm": 0.02544188879538882,
      "learning_rate": 0.0001,
      "loss": 1.0465,
      "step": 1253
    },
    {
      "epoch": 0.06688,
      "grad_norm": 0.027975085767387976,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "step": 1254
    },
    {
      "epoch": 0.06693333333333333,
      "grad_norm": 0.027255598042277746,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 1255
    },
    {
      "epoch": 0.06698666666666667,
      "grad_norm": 0.02842361237600284,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 1256
    },
    {
      "epoch": 0.06704,
      "grad_norm": 0.028814577585038303,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 1257
    },
    {
      "epoch": 0.06709333333333334,
      "grad_norm": 0.02814786406105282,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 1258
    },
    {
      "epoch": 0.06714666666666666,
      "grad_norm": 0.02891141639711133,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 1259
    },
    {
      "epoch": 0.0672,
      "grad_norm": 0.026794144506704035,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 1260
    },
    {
      "epoch": 0.06725333333333333,
      "grad_norm": 0.02823908905551989,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1261
    },
    {
      "epoch": 0.06730666666666667,
      "grad_norm": 0.029270264026953416,
      "learning_rate": 0.0001,
      "loss": 1.0594,
      "step": 1262
    },
    {
      "epoch": 0.06736,
      "grad_norm": 0.02652632414381041,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1263
    },
    {
      "epoch": 0.06741333333333334,
      "grad_norm": 0.02430010332162236,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1264
    },
    {
      "epoch": 0.06746666666666666,
      "grad_norm": 0.02659779485584086,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1265
    },
    {
      "epoch": 0.06752,
      "grad_norm": 0.02531247834702308,
      "learning_rate": 0.0001,
      "loss": 1.0783,
      "step": 1266
    },
    {
      "epoch": 0.06757333333333333,
      "grad_norm": 0.02883933025521461,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 1267
    },
    {
      "epoch": 0.06762666666666667,
      "grad_norm": 0.0274786243655685,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1268
    },
    {
      "epoch": 0.06768,
      "grad_norm": 0.02769640097334381,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1269
    },
    {
      "epoch": 0.06773333333333334,
      "grad_norm": 0.028649126031639265,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 1270
    },
    {
      "epoch": 0.06778666666666666,
      "grad_norm": 0.027017088430006962,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1271
    },
    {
      "epoch": 0.06784,
      "grad_norm": 0.033991790414947425,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 1272
    },
    {
      "epoch": 0.06789333333333333,
      "grad_norm": 0.024885722258324486,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 1273
    },
    {
      "epoch": 0.06794666666666667,
      "grad_norm": 0.031204081484248865,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 1274
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.0280430843495176,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 1275
    },
    {
      "epoch": 0.06805333333333333,
      "grad_norm": 0.029155153995824506,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 1276
    },
    {
      "epoch": 0.06810666666666666,
      "grad_norm": 0.026424848643547362,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 1277
    },
    {
      "epoch": 0.06816,
      "grad_norm": 0.02736100516122246,
      "learning_rate": 0.0001,
      "loss": 1.0583,
      "step": 1278
    },
    {
      "epoch": 0.06821333333333333,
      "grad_norm": 0.027128600656127707,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 1279
    },
    {
      "epoch": 0.06826666666666667,
      "grad_norm": 0.02901267133914117,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 1280
    },
    {
      "epoch": 0.06832,
      "grad_norm": 0.02662489798980497,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1281
    },
    {
      "epoch": 0.06837333333333333,
      "grad_norm": 0.028953221794727455,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 1282
    },
    {
      "epoch": 0.06842666666666666,
      "grad_norm": 0.028360559984817325,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 1283
    },
    {
      "epoch": 0.06848,
      "grad_norm": 0.024057346442448117,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1284
    },
    {
      "epoch": 0.06853333333333333,
      "grad_norm": 0.03060536481022083,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 1285
    },
    {
      "epoch": 0.06858666666666667,
      "grad_norm": 0.027019990077935964,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 1286
    },
    {
      "epoch": 0.06864,
      "grad_norm": 0.02749414070196188,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 1287
    },
    {
      "epoch": 0.06869333333333333,
      "grad_norm": 0.026981357440273187,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 1288
    },
    {
      "epoch": 0.06874666666666666,
      "grad_norm": 0.027362719811891416,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 1289
    },
    {
      "epoch": 0.0688,
      "grad_norm": 0.029889227051165968,
      "learning_rate": 0.0001,
      "loss": 1.0416,
      "step": 1290
    },
    {
      "epoch": 0.06885333333333334,
      "grad_norm": 0.026597553155036407,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 1291
    },
    {
      "epoch": 0.06890666666666667,
      "grad_norm": 0.02972841625397455,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 1292
    },
    {
      "epoch": 0.06896,
      "grad_norm": 0.025891266695906297,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1293
    },
    {
      "epoch": 0.06901333333333333,
      "grad_norm": 0.027378921112252794,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1294
    },
    {
      "epoch": 0.06906666666666667,
      "grad_norm": 0.028541802212397292,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 1295
    },
    {
      "epoch": 0.06912,
      "grad_norm": 0.031651053512126326,
      "learning_rate": 0.0001,
      "loss": 1.0346,
      "step": 1296
    },
    {
      "epoch": 0.06917333333333334,
      "grad_norm": 0.030042875547908236,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 1297
    },
    {
      "epoch": 0.06922666666666667,
      "grad_norm": 0.028816004913370854,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 1298
    },
    {
      "epoch": 0.06928,
      "grad_norm": 0.03260465168484061,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1299
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.027843094738074038,
      "learning_rate": 0.0001,
      "loss": 1.0489,
      "step": 1300
    },
    {
      "epoch": 0.06938666666666667,
      "grad_norm": 0.032538847285893055,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 1301
    },
    {
      "epoch": 0.06944,
      "grad_norm": 0.032759680324852804,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1302
    },
    {
      "epoch": 0.06949333333333334,
      "grad_norm": 0.026635415468196897,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 1303
    },
    {
      "epoch": 0.06954666666666667,
      "grad_norm": 0.03187223320205728,
      "learning_rate": 0.0001,
      "loss": 1.0827,
      "step": 1304
    },
    {
      "epoch": 0.0696,
      "grad_norm": 0.030787004412473878,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 1305
    },
    {
      "epoch": 0.06965333333333333,
      "grad_norm": 0.026974504209705395,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 1306
    },
    {
      "epoch": 0.06970666666666667,
      "grad_norm": 0.02906029502264328,
      "learning_rate": 0.0001,
      "loss": 1.0742,
      "step": 1307
    },
    {
      "epoch": 0.06976,
      "grad_norm": 0.029194325776091583,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "step": 1308
    },
    {
      "epoch": 0.06981333333333334,
      "grad_norm": 0.02820215517342032,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 1309
    },
    {
      "epoch": 0.06986666666666666,
      "grad_norm": 0.027319034659265395,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 1310
    },
    {
      "epoch": 0.06992,
      "grad_norm": 0.028077075870165284,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1311
    },
    {
      "epoch": 0.06997333333333333,
      "grad_norm": 0.029509625027748284,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 1312
    },
    {
      "epoch": 0.07002666666666667,
      "grad_norm": 0.030147768232247227,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 1313
    },
    {
      "epoch": 0.07008,
      "grad_norm": 0.027285186534265114,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 1314
    },
    {
      "epoch": 0.07013333333333334,
      "grad_norm": 0.025321646951779218,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 1315
    },
    {
      "epoch": 0.07018666666666666,
      "grad_norm": 0.02691693402784399,
      "learning_rate": 0.0001,
      "loss": 1.1293,
      "step": 1316
    },
    {
      "epoch": 0.07024,
      "grad_norm": 0.025534594950626825,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 1317
    },
    {
      "epoch": 0.07029333333333333,
      "grad_norm": 0.02649083149261357,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 1318
    },
    {
      "epoch": 0.07034666666666667,
      "grad_norm": 0.026277226768910755,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 1319
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.027398607788365104,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 1320
    },
    {
      "epoch": 0.07045333333333334,
      "grad_norm": 0.026428122377360943,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1321
    },
    {
      "epoch": 0.07050666666666666,
      "grad_norm": 0.02541721756398702,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 1322
    },
    {
      "epoch": 0.07056,
      "grad_norm": 0.02689101051312156,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 1323
    },
    {
      "epoch": 0.07061333333333333,
      "grad_norm": 0.025945837105768497,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 1324
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.026099896594061988,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 1325
    },
    {
      "epoch": 0.07072,
      "grad_norm": 0.024062990827848723,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 1326
    },
    {
      "epoch": 0.07077333333333333,
      "grad_norm": 0.026879534250893376,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 1327
    },
    {
      "epoch": 0.07082666666666666,
      "grad_norm": 0.028099462759973038,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1328
    },
    {
      "epoch": 0.07088,
      "grad_norm": 0.026544649630919546,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 1329
    },
    {
      "epoch": 0.07093333333333333,
      "grad_norm": 0.02897181914255022,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 1330
    },
    {
      "epoch": 0.07098666666666667,
      "grad_norm": 0.023933883331079223,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 1331
    },
    {
      "epoch": 0.07104,
      "grad_norm": 0.02538986160516313,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 1332
    },
    {
      "epoch": 0.07109333333333333,
      "grad_norm": 0.0265663156710299,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 1333
    },
    {
      "epoch": 0.07114666666666666,
      "grad_norm": 0.0239861447205062,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1334
    },
    {
      "epoch": 0.0712,
      "grad_norm": 0.02379961060855267,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1335
    },
    {
      "epoch": 0.07125333333333334,
      "grad_norm": 0.024009322968357425,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 1336
    },
    {
      "epoch": 0.07130666666666667,
      "grad_norm": 0.02509195275163291,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 1337
    },
    {
      "epoch": 0.07136,
      "grad_norm": 0.025893697700334097,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 1338
    },
    {
      "epoch": 0.07141333333333333,
      "grad_norm": 0.02654644434040771,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1339
    },
    {
      "epoch": 0.07146666666666666,
      "grad_norm": 0.02809402951932729,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 1340
    },
    {
      "epoch": 0.07152,
      "grad_norm": 0.02339045672910295,
      "learning_rate": 0.0001,
      "loss": 1.0758,
      "step": 1341
    },
    {
      "epoch": 0.07157333333333334,
      "grad_norm": 0.027063600676679136,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 1342
    },
    {
      "epoch": 0.07162666666666667,
      "grad_norm": 0.025168153082569093,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1343
    },
    {
      "epoch": 0.07168,
      "grad_norm": 0.026026402405670057,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 1344
    },
    {
      "epoch": 0.07173333333333333,
      "grad_norm": 0.025892084728334548,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 1345
    },
    {
      "epoch": 0.07178666666666667,
      "grad_norm": 0.025489183773404266,
      "learning_rate": 0.0001,
      "loss": 1.0572,
      "step": 1346
    },
    {
      "epoch": 0.07184,
      "grad_norm": 0.024387102589902687,
      "learning_rate": 0.0001,
      "loss": 1.0484,
      "step": 1347
    },
    {
      "epoch": 0.07189333333333334,
      "grad_norm": 0.025667957552132463,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 1348
    },
    {
      "epoch": 0.07194666666666667,
      "grad_norm": 0.02528838374054606,
      "learning_rate": 0.0001,
      "loss": 1.0485,
      "step": 1349
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.024477210580103426,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 1350
    },
    {
      "epoch": 0.07205333333333333,
      "grad_norm": 0.02454427566427297,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 1351
    },
    {
      "epoch": 0.07210666666666667,
      "grad_norm": 0.02493510621312888,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 1352
    },
    {
      "epoch": 0.07216,
      "grad_norm": 0.025563205302989986,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 1353
    },
    {
      "epoch": 0.07221333333333334,
      "grad_norm": 0.026555736001282422,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 1354
    },
    {
      "epoch": 0.07226666666666667,
      "grad_norm": 0.027886715980864066,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 1355
    },
    {
      "epoch": 0.07232,
      "grad_norm": 0.026862591958340374,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 1356
    },
    {
      "epoch": 0.07237333333333333,
      "grad_norm": 0.02450102229785219,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1357
    },
    {
      "epoch": 0.07242666666666667,
      "grad_norm": 0.03017835114182462,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 1358
    },
    {
      "epoch": 0.07248,
      "grad_norm": 0.024396781209132395,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 1359
    },
    {
      "epoch": 0.07253333333333334,
      "grad_norm": 0.03096770865771595,
      "learning_rate": 0.0001,
      "loss": 1.048,
      "step": 1360
    },
    {
      "epoch": 0.07258666666666666,
      "grad_norm": 0.025131864256425367,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 1361
    },
    {
      "epoch": 0.07264,
      "grad_norm": 0.029576091811344383,
      "learning_rate": 0.0001,
      "loss": 1.0913,
      "step": 1362
    },
    {
      "epoch": 0.07269333333333333,
      "grad_norm": 0.02680199230351138,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1363
    },
    {
      "epoch": 0.07274666666666667,
      "grad_norm": 0.03076291724760087,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 1364
    },
    {
      "epoch": 0.0728,
      "grad_norm": 0.027447185061334273,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 1365
    },
    {
      "epoch": 0.07285333333333334,
      "grad_norm": 0.025651937082384075,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 1366
    },
    {
      "epoch": 0.07290666666666666,
      "grad_norm": 0.028266820143522123,
      "learning_rate": 0.0001,
      "loss": 1.0693,
      "step": 1367
    },
    {
      "epoch": 0.07296,
      "grad_norm": 0.029851111110083737,
      "learning_rate": 0.0001,
      "loss": 1.0445,
      "step": 1368
    },
    {
      "epoch": 0.07301333333333333,
      "grad_norm": 0.027108955431101544,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 1369
    },
    {
      "epoch": 0.07306666666666667,
      "grad_norm": 0.024594783784580555,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 1370
    },
    {
      "epoch": 0.07312,
      "grad_norm": 0.03135498974097117,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 1371
    },
    {
      "epoch": 0.07317333333333334,
      "grad_norm": 0.024414977381463615,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 1372
    },
    {
      "epoch": 0.07322666666666666,
      "grad_norm": 0.026957727828609862,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 1373
    },
    {
      "epoch": 0.07328,
      "grad_norm": 0.027665378230717186,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 1374
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.0246563662375451,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1375
    },
    {
      "epoch": 0.07338666666666667,
      "grad_norm": 0.025401436666538456,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1376
    },
    {
      "epoch": 0.07344,
      "grad_norm": 0.027730107961576014,
      "learning_rate": 0.0001,
      "loss": 1.032,
      "step": 1377
    },
    {
      "epoch": 0.07349333333333333,
      "grad_norm": 0.026594856690591563,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 1378
    },
    {
      "epoch": 0.07354666666666666,
      "grad_norm": 0.029101882243459404,
      "learning_rate": 0.0001,
      "loss": 1.0838,
      "step": 1379
    },
    {
      "epoch": 0.0736,
      "grad_norm": 0.02706048643050515,
      "learning_rate": 0.0001,
      "loss": 1.0021,
      "step": 1380
    },
    {
      "epoch": 0.07365333333333333,
      "grad_norm": 0.03435964672147377,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 1381
    },
    {
      "epoch": 0.07370666666666667,
      "grad_norm": 0.02714609464766141,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1382
    },
    {
      "epoch": 0.07376,
      "grad_norm": 0.029611157348967725,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1383
    },
    {
      "epoch": 0.07381333333333333,
      "grad_norm": 0.032337982504664575,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1384
    },
    {
      "epoch": 0.07386666666666666,
      "grad_norm": 0.028218474796060152,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 1385
    },
    {
      "epoch": 0.07392,
      "grad_norm": 0.032564381119096444,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 1386
    },
    {
      "epoch": 0.07397333333333334,
      "grad_norm": 0.029059849146736663,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 1387
    },
    {
      "epoch": 0.07402666666666667,
      "grad_norm": 0.02351801503151605,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 1388
    },
    {
      "epoch": 0.07408,
      "grad_norm": 0.02846830098577435,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 1389
    },
    {
      "epoch": 0.07413333333333333,
      "grad_norm": 0.02580114042583524,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 1390
    },
    {
      "epoch": 0.07418666666666666,
      "grad_norm": 0.02445854163584432,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 1391
    },
    {
      "epoch": 0.07424,
      "grad_norm": 0.030414908626434572,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 1392
    },
    {
      "epoch": 0.07429333333333334,
      "grad_norm": 0.025382475624449848,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 1393
    },
    {
      "epoch": 0.07434666666666667,
      "grad_norm": 0.026000771015036336,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 1394
    },
    {
      "epoch": 0.0744,
      "grad_norm": 0.02513105909117264,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 1395
    },
    {
      "epoch": 0.07445333333333333,
      "grad_norm": 0.02475762404862143,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 1396
    },
    {
      "epoch": 0.07450666666666667,
      "grad_norm": 0.023635728950784002,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 1397
    },
    {
      "epoch": 0.07456,
      "grad_norm": 0.025219994648708905,
      "learning_rate": 0.0001,
      "loss": 1.1169,
      "step": 1398
    },
    {
      "epoch": 0.07461333333333334,
      "grad_norm": 0.02491988761612225,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 1399
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.02535005376728199,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 1400
    },
    {
      "epoch": 0.07466666666666667,
      "eval_accuracy": 0.6103045881533959,
      "eval_loss": 1.4095321893692017,
      "eval_runtime": 62.6217,
      "eval_samples_per_second": 15.969,
      "eval_steps_per_second": 0.511,
      "step": 1400
    },
    {
      "epoch": 0.07472,
      "grad_norm": 0.026012314129310727,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 1401
    },
    {
      "epoch": 0.07477333333333333,
      "grad_norm": 0.025893976851029836,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 1402
    },
    {
      "epoch": 0.07482666666666667,
      "grad_norm": 0.0240110593160091,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 1403
    },
    {
      "epoch": 0.07488,
      "grad_norm": 0.02635510786734542,
      "learning_rate": 0.0001,
      "loss": 1.0408,
      "step": 1404
    },
    {
      "epoch": 0.07493333333333334,
      "grad_norm": 0.02570373517723136,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 1405
    },
    {
      "epoch": 0.07498666666666666,
      "grad_norm": 0.02807055488409623,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 1406
    },
    {
      "epoch": 0.07504,
      "grad_norm": 0.027513771531304517,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 1407
    },
    {
      "epoch": 0.07509333333333333,
      "grad_norm": 0.023814227361889467,
      "learning_rate": 0.0001,
      "loss": 1.0371,
      "step": 1408
    },
    {
      "epoch": 0.07514666666666667,
      "grad_norm": 0.02606023315631416,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 1409
    },
    {
      "epoch": 0.0752,
      "grad_norm": 0.027546984043710514,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1410
    },
    {
      "epoch": 0.07525333333333334,
      "grad_norm": 0.024336004197795247,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 1411
    },
    {
      "epoch": 0.07530666666666666,
      "grad_norm": 0.02732908658398586,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 1412
    },
    {
      "epoch": 0.07536,
      "grad_norm": 0.029369861039019982,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 1413
    },
    {
      "epoch": 0.07541333333333333,
      "grad_norm": 0.023923676279976172,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1414
    },
    {
      "epoch": 0.07546666666666667,
      "grad_norm": 0.025057306517821884,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 1415
    },
    {
      "epoch": 0.07552,
      "grad_norm": 0.02505682546189634,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1416
    },
    {
      "epoch": 0.07557333333333334,
      "grad_norm": 0.028840599211460146,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 1417
    },
    {
      "epoch": 0.07562666666666666,
      "grad_norm": 0.027448751401812473,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 1418
    },
    {
      "epoch": 0.07568,
      "grad_norm": 0.02966017862930943,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1419
    },
    {
      "epoch": 0.07573333333333333,
      "grad_norm": 0.02492399847816971,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1420
    },
    {
      "epoch": 0.07578666666666667,
      "grad_norm": 0.03006725059252591,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 1421
    },
    {
      "epoch": 0.07584,
      "grad_norm": 0.029537479497250448,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 1422
    },
    {
      "epoch": 0.07589333333333333,
      "grad_norm": 0.02901613302495655,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 1423
    },
    {
      "epoch": 0.07594666666666666,
      "grad_norm": 0.027508144351500705,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 1424
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.029702143386262387,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 1425
    },
    {
      "epoch": 0.07605333333333333,
      "grad_norm": 0.024736993225071932,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 1426
    },
    {
      "epoch": 0.07610666666666667,
      "grad_norm": 0.028122174663138173,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 1427
    },
    {
      "epoch": 0.07616,
      "grad_norm": 0.02450585206675225,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1428
    },
    {
      "epoch": 0.07621333333333333,
      "grad_norm": 0.028577388551303356,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 1429
    },
    {
      "epoch": 0.07626666666666666,
      "grad_norm": 0.02768082714758481,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1430
    },
    {
      "epoch": 0.07632,
      "grad_norm": 0.02655409131128702,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 1431
    },
    {
      "epoch": 0.07637333333333333,
      "grad_norm": 0.024870560940262604,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1432
    },
    {
      "epoch": 0.07642666666666667,
      "grad_norm": 0.0260458776490873,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 1433
    },
    {
      "epoch": 0.07648,
      "grad_norm": 0.02727453220768935,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 1434
    },
    {
      "epoch": 0.07653333333333333,
      "grad_norm": 0.026650986431354766,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 1435
    },
    {
      "epoch": 0.07658666666666666,
      "grad_norm": 0.024925818619230045,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 1436
    },
    {
      "epoch": 0.07664,
      "grad_norm": 0.025676772012487956,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 1437
    },
    {
      "epoch": 0.07669333333333334,
      "grad_norm": 0.0287086981294998,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1438
    },
    {
      "epoch": 0.07674666666666667,
      "grad_norm": 0.027871399354941827,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1439
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.027132265004396344,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 1440
    },
    {
      "epoch": 0.07685333333333333,
      "grad_norm": 0.02605179277427003,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 1441
    },
    {
      "epoch": 0.07690666666666666,
      "grad_norm": 0.025758097401796392,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 1442
    },
    {
      "epoch": 0.07696,
      "grad_norm": 0.024996659133176984,
      "learning_rate": 0.0001,
      "loss": 1.0656,
      "step": 1443
    },
    {
      "epoch": 0.07701333333333334,
      "grad_norm": 0.02442899087787655,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 1444
    },
    {
      "epoch": 0.07706666666666667,
      "grad_norm": 0.02443430176445531,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 1445
    },
    {
      "epoch": 0.07712,
      "grad_norm": 0.025650934020766233,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1446
    },
    {
      "epoch": 0.07717333333333333,
      "grad_norm": 0.025306222577944112,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1447
    },
    {
      "epoch": 0.07722666666666667,
      "grad_norm": 0.0262292774417146,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1448
    },
    {
      "epoch": 0.07728,
      "grad_norm": 0.02423715147115418,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1449
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.0269984285530036,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 1450
    },
    {
      "epoch": 0.07738666666666667,
      "grad_norm": 0.027126665281884288,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 1451
    },
    {
      "epoch": 0.07744,
      "grad_norm": 0.03138624637334413,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 1452
    },
    {
      "epoch": 0.07749333333333333,
      "grad_norm": 0.025883858553079165,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 1453
    },
    {
      "epoch": 0.07754666666666667,
      "grad_norm": 0.026621442764872598,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 1454
    },
    {
      "epoch": 0.0776,
      "grad_norm": 0.026600035609405836,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 1455
    },
    {
      "epoch": 0.07765333333333334,
      "grad_norm": 0.026979302471470228,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 1456
    },
    {
      "epoch": 0.07770666666666666,
      "grad_norm": 0.02832302052740779,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 1457
    },
    {
      "epoch": 0.07776,
      "grad_norm": 0.025659184067769677,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 1458
    },
    {
      "epoch": 0.07781333333333333,
      "grad_norm": 0.026696425896964915,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 1459
    },
    {
      "epoch": 0.07786666666666667,
      "grad_norm": 0.033841330665127324,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 1460
    },
    {
      "epoch": 0.07792,
      "grad_norm": 0.024588383268653955,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 1461
    },
    {
      "epoch": 0.07797333333333334,
      "grad_norm": 0.026325632962495075,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 1462
    },
    {
      "epoch": 0.07802666666666666,
      "grad_norm": 0.028131952107641987,
      "learning_rate": 0.0001,
      "loss": 0.8988,
      "step": 1463
    },
    {
      "epoch": 0.07808,
      "grad_norm": 0.026376107430261902,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 1464
    },
    {
      "epoch": 0.07813333333333333,
      "grad_norm": 0.027021427412766336,
      "learning_rate": 0.0001,
      "loss": 1.0823,
      "step": 1465
    },
    {
      "epoch": 0.07818666666666667,
      "grad_norm": 0.027418039478907977,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 1466
    },
    {
      "epoch": 0.07824,
      "grad_norm": 0.027859472592700236,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 1467
    },
    {
      "epoch": 0.07829333333333334,
      "grad_norm": 0.03220011750691752,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 1468
    },
    {
      "epoch": 0.07834666666666666,
      "grad_norm": 0.024319311801535546,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 1469
    },
    {
      "epoch": 0.0784,
      "grad_norm": 0.030228615758626582,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 1470
    },
    {
      "epoch": 0.07845333333333333,
      "grad_norm": 0.027359424539138564,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 1471
    },
    {
      "epoch": 0.07850666666666667,
      "grad_norm": 0.024168730979594863,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 1472
    },
    {
      "epoch": 0.07856,
      "grad_norm": 0.031135867672891226,
      "learning_rate": 0.0001,
      "loss": 1.0535,
      "step": 1473
    },
    {
      "epoch": 0.07861333333333333,
      "grad_norm": 0.026926637428491038,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 1474
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.028662341515440545,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 1475
    },
    {
      "epoch": 0.07872,
      "grad_norm": 0.02555852851103561,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 1476
    },
    {
      "epoch": 0.07877333333333333,
      "grad_norm": 0.02769242082125727,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 1477
    },
    {
      "epoch": 0.07882666666666667,
      "grad_norm": 0.02592877474854719,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1478
    },
    {
      "epoch": 0.07888,
      "grad_norm": 0.028511490914730733,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1479
    },
    {
      "epoch": 0.07893333333333333,
      "grad_norm": 0.026296129709602985,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 1480
    },
    {
      "epoch": 0.07898666666666666,
      "grad_norm": 0.027506558456873793,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 1481
    },
    {
      "epoch": 0.07904,
      "grad_norm": 0.026816889738867387,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1482
    },
    {
      "epoch": 0.07909333333333333,
      "grad_norm": 0.027649549516000096,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 1483
    },
    {
      "epoch": 0.07914666666666667,
      "grad_norm": 0.024826594992913453,
      "learning_rate": 0.0001,
      "loss": 1.0643,
      "step": 1484
    },
    {
      "epoch": 0.0792,
      "grad_norm": 0.025550258031028415,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 1485
    },
    {
      "epoch": 0.07925333333333333,
      "grad_norm": 0.026068139579292438,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 1486
    },
    {
      "epoch": 0.07930666666666666,
      "grad_norm": 0.027987411085139444,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 1487
    },
    {
      "epoch": 0.07936,
      "grad_norm": 0.025995164818431924,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 1488
    },
    {
      "epoch": 0.07941333333333334,
      "grad_norm": 0.02833540118368808,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 1489
    },
    {
      "epoch": 0.07946666666666667,
      "grad_norm": 0.024665815224698122,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 1490
    },
    {
      "epoch": 0.07952,
      "grad_norm": 0.02639763830876645,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 1491
    },
    {
      "epoch": 0.07957333333333333,
      "grad_norm": 0.027083752830472714,
      "learning_rate": 0.0001,
      "loss": 1.0421,
      "step": 1492
    },
    {
      "epoch": 0.07962666666666667,
      "grad_norm": 0.02655411754022525,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 1493
    },
    {
      "epoch": 0.07968,
      "grad_norm": 0.02745146655196488,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 1494
    },
    {
      "epoch": 0.07973333333333334,
      "grad_norm": 0.02445296371406402,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1495
    },
    {
      "epoch": 0.07978666666666667,
      "grad_norm": 0.028516743813376516,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 1496
    },
    {
      "epoch": 0.07984,
      "grad_norm": 0.026085156464398792,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 1497
    },
    {
      "epoch": 0.07989333333333333,
      "grad_norm": 0.025448896990108355,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1498
    },
    {
      "epoch": 0.07994666666666667,
      "grad_norm": 0.02560201252372325,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 1499
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.024802506952111763,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 1500
    },
    {
      "epoch": 0.08005333333333334,
      "grad_norm": 0.025672595426071608,
      "learning_rate": 0.0001,
      "loss": 1.077,
      "step": 1501
    },
    {
      "epoch": 0.08010666666666667,
      "grad_norm": 0.028329502075389344,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1502
    },
    {
      "epoch": 0.08016,
      "grad_norm": 0.023923861830010384,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 1503
    },
    {
      "epoch": 0.08021333333333333,
      "grad_norm": 0.024630270212932286,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 1504
    },
    {
      "epoch": 0.08026666666666667,
      "grad_norm": 0.02704844848805633,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 1505
    },
    {
      "epoch": 0.08032,
      "grad_norm": 0.02428959008146988,
      "learning_rate": 0.0001,
      "loss": 1.0621,
      "step": 1506
    },
    {
      "epoch": 0.08037333333333334,
      "grad_norm": 0.025446428535003868,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 1507
    },
    {
      "epoch": 0.08042666666666666,
      "grad_norm": 0.02839200885346731,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 1508
    },
    {
      "epoch": 0.08048,
      "grad_norm": 0.028788849504164264,
      "learning_rate": 0.0001,
      "loss": 1.0599,
      "step": 1509
    },
    {
      "epoch": 0.08053333333333333,
      "grad_norm": 0.025207757095997815,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 1510
    },
    {
      "epoch": 0.08058666666666667,
      "grad_norm": 0.02677842090881838,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 1511
    },
    {
      "epoch": 0.08064,
      "grad_norm": 0.02565301183102452,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 1512
    },
    {
      "epoch": 0.08069333333333334,
      "grad_norm": 0.026226111553809998,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 1513
    },
    {
      "epoch": 0.08074666666666666,
      "grad_norm": 0.024709652161331516,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 1514
    },
    {
      "epoch": 0.0808,
      "grad_norm": 0.025894945681426577,
      "learning_rate": 0.0001,
      "loss": 1.1411,
      "step": 1515
    },
    {
      "epoch": 0.08085333333333333,
      "grad_norm": 0.024529750482093982,
      "learning_rate": 0.0001,
      "loss": 1.0636,
      "step": 1516
    },
    {
      "epoch": 0.08090666666666667,
      "grad_norm": 0.02589059582040195,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1517
    },
    {
      "epoch": 0.08096,
      "grad_norm": 0.02702135080489518,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 1518
    },
    {
      "epoch": 0.08101333333333334,
      "grad_norm": 0.026967181331547917,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1519
    },
    {
      "epoch": 0.08106666666666666,
      "grad_norm": 0.025877032261151345,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 1520
    },
    {
      "epoch": 0.08112,
      "grad_norm": 0.027165801429333742,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 1521
    },
    {
      "epoch": 0.08117333333333333,
      "grad_norm": 0.027568306939459185,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 1522
    },
    {
      "epoch": 0.08122666666666667,
      "grad_norm": 0.025450710661348158,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 1523
    },
    {
      "epoch": 0.08128,
      "grad_norm": 0.02512198460412537,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 1524
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 0.028772551346375894,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1525
    },
    {
      "epoch": 0.08138666666666666,
      "grad_norm": 0.026460648715757405,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1526
    },
    {
      "epoch": 0.08144,
      "grad_norm": 0.031349379049980426,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 1527
    },
    {
      "epoch": 0.08149333333333333,
      "grad_norm": 0.02852689662496742,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1528
    },
    {
      "epoch": 0.08154666666666667,
      "grad_norm": 0.03016885115287303,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 1529
    },
    {
      "epoch": 0.0816,
      "grad_norm": 0.02881736964158352,
      "learning_rate": 0.0001,
      "loss": 1.0535,
      "step": 1530
    },
    {
      "epoch": 0.08165333333333333,
      "grad_norm": 0.03129168134587699,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 1531
    },
    {
      "epoch": 0.08170666666666666,
      "grad_norm": 0.03395029571148873,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 1532
    },
    {
      "epoch": 0.08176,
      "grad_norm": 0.0284696254799978,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 1533
    },
    {
      "epoch": 0.08181333333333334,
      "grad_norm": 0.031141181179036713,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 1534
    },
    {
      "epoch": 0.08186666666666667,
      "grad_norm": 0.028889959278568304,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 1535
    },
    {
      "epoch": 0.08192,
      "grad_norm": 0.02923687668874673,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 1536
    },
    {
      "epoch": 0.08197333333333333,
      "grad_norm": 0.03243264624480576,
      "learning_rate": 0.0001,
      "loss": 1.0265,
      "step": 1537
    },
    {
      "epoch": 0.08202666666666666,
      "grad_norm": 0.031751486896107274,
      "learning_rate": 0.0001,
      "loss": 1.0302,
      "step": 1538
    },
    {
      "epoch": 0.08208,
      "grad_norm": 0.026908536628659552,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1539
    },
    {
      "epoch": 0.08213333333333334,
      "grad_norm": 0.026452865475235277,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 1540
    },
    {
      "epoch": 0.08218666666666667,
      "grad_norm": 0.02634122758876933,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 1541
    },
    {
      "epoch": 0.08224,
      "grad_norm": 0.024462032214949813,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 1542
    },
    {
      "epoch": 0.08229333333333333,
      "grad_norm": 0.02886855025762443,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 1543
    },
    {
      "epoch": 0.08234666666666667,
      "grad_norm": 0.024844432162052593,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 1544
    },
    {
      "epoch": 0.0824,
      "grad_norm": 0.02667694241083205,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 1545
    },
    {
      "epoch": 0.08245333333333334,
      "grad_norm": 0.027217021282552198,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 1546
    },
    {
      "epoch": 0.08250666666666667,
      "grad_norm": 0.027402348497841726,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 1547
    },
    {
      "epoch": 0.08256,
      "grad_norm": 0.025271742904781912,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 1548
    },
    {
      "epoch": 0.08261333333333333,
      "grad_norm": 0.028853498860755052,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 1549
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.02637818554629524,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 1550
    },
    {
      "epoch": 0.08272,
      "grad_norm": 0.027152391497240597,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1551
    },
    {
      "epoch": 0.08277333333333334,
      "grad_norm": 0.030990156635862773,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 1552
    },
    {
      "epoch": 0.08282666666666667,
      "grad_norm": 0.027535614654092034,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 1553
    },
    {
      "epoch": 0.08288,
      "grad_norm": 0.02923735550935302,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 1554
    },
    {
      "epoch": 0.08293333333333333,
      "grad_norm": 0.02625690829483926,
      "learning_rate": 0.0001,
      "loss": 1.0894,
      "step": 1555
    },
    {
      "epoch": 0.08298666666666667,
      "grad_norm": 0.025239970946088996,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 1556
    },
    {
      "epoch": 0.08304,
      "grad_norm": 0.02633667201976562,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 1557
    },
    {
      "epoch": 0.08309333333333334,
      "grad_norm": 0.02729809787232353,
      "learning_rate": 0.0001,
      "loss": 1.0513,
      "step": 1558
    },
    {
      "epoch": 0.08314666666666666,
      "grad_norm": 0.029699752635502195,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 1559
    },
    {
      "epoch": 0.0832,
      "grad_norm": 0.02481791339729372,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 1560
    },
    {
      "epoch": 0.08325333333333333,
      "grad_norm": 0.027365490445984048,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 1561
    },
    {
      "epoch": 0.08330666666666667,
      "grad_norm": 0.02472597973698374,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 1562
    },
    {
      "epoch": 0.08336,
      "grad_norm": 0.027768346048782602,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 1563
    },
    {
      "epoch": 0.08341333333333334,
      "grad_norm": 0.025728658318964568,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 1564
    },
    {
      "epoch": 0.08346666666666666,
      "grad_norm": 0.02586553781614546,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 1565
    },
    {
      "epoch": 0.08352,
      "grad_norm": 0.02553693242261939,
      "learning_rate": 0.0001,
      "loss": 1.0683,
      "step": 1566
    },
    {
      "epoch": 0.08357333333333333,
      "grad_norm": 0.026735360596725873,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 1567
    },
    {
      "epoch": 0.08362666666666667,
      "grad_norm": 0.026995346702144832,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 1568
    },
    {
      "epoch": 0.08368,
      "grad_norm": 0.02578036468245732,
      "learning_rate": 0.0001,
      "loss": 1.1003,
      "step": 1569
    },
    {
      "epoch": 0.08373333333333334,
      "grad_norm": 0.02664008019348427,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1570
    },
    {
      "epoch": 0.08378666666666666,
      "grad_norm": 0.029823983044379082,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 1571
    },
    {
      "epoch": 0.08384,
      "grad_norm": 0.023818900662485383,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 1572
    },
    {
      "epoch": 0.08389333333333333,
      "grad_norm": 0.02435022822384678,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 1573
    },
    {
      "epoch": 0.08394666666666667,
      "grad_norm": 0.02507708371610949,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1574
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.023913553638367026,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 1575
    },
    {
      "epoch": 0.08405333333333333,
      "grad_norm": 0.02568587703158502,
      "learning_rate": 0.0001,
      "loss": 1.0717,
      "step": 1576
    },
    {
      "epoch": 0.08410666666666666,
      "grad_norm": 0.025944895421864032,
      "learning_rate": 0.0001,
      "loss": 1.0526,
      "step": 1577
    },
    {
      "epoch": 0.08416,
      "grad_norm": 0.02646828619855901,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 1578
    },
    {
      "epoch": 0.08421333333333333,
      "grad_norm": 0.025017327459500173,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 1579
    },
    {
      "epoch": 0.08426666666666667,
      "grad_norm": 0.025283419385447873,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1580
    },
    {
      "epoch": 0.08432,
      "grad_norm": 0.027223075998950373,
      "learning_rate": 0.0001,
      "loss": 1.0855,
      "step": 1581
    },
    {
      "epoch": 0.08437333333333333,
      "grad_norm": 0.023793914633807686,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1582
    },
    {
      "epoch": 0.08442666666666666,
      "grad_norm": 0.02710413380255237,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 1583
    },
    {
      "epoch": 0.08448,
      "grad_norm": 0.025049181167726087,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 1584
    },
    {
      "epoch": 0.08453333333333334,
      "grad_norm": 0.02629292705725318,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 1585
    },
    {
      "epoch": 0.08458666666666667,
      "grad_norm": 0.02520748871995693,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 1586
    },
    {
      "epoch": 0.08464,
      "grad_norm": 0.02843349929480919,
      "learning_rate": 0.0001,
      "loss": 1.0619,
      "step": 1587
    },
    {
      "epoch": 0.08469333333333333,
      "grad_norm": 0.026836174255504115,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 1588
    },
    {
      "epoch": 0.08474666666666666,
      "grad_norm": 0.024843639483892115,
      "learning_rate": 0.0001,
      "loss": 1.0837,
      "step": 1589
    },
    {
      "epoch": 0.0848,
      "grad_norm": 0.030244325504555757,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 1590
    },
    {
      "epoch": 0.08485333333333334,
      "grad_norm": 0.02657709651189101,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 1591
    },
    {
      "epoch": 0.08490666666666667,
      "grad_norm": 0.02763528265193033,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 1592
    },
    {
      "epoch": 0.08496,
      "grad_norm": 0.02706134080795604,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 1593
    },
    {
      "epoch": 0.08501333333333333,
      "grad_norm": 0.026873050487400754,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 1594
    },
    {
      "epoch": 0.08506666666666667,
      "grad_norm": 0.02625830900610149,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 1595
    },
    {
      "epoch": 0.08512,
      "grad_norm": 0.025403924046330264,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 1596
    },
    {
      "epoch": 0.08517333333333334,
      "grad_norm": 0.027074432906036717,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 1597
    },
    {
      "epoch": 0.08522666666666667,
      "grad_norm": 0.02364806341704116,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1598
    },
    {
      "epoch": 0.08528,
      "grad_norm": 0.02643864527379029,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1599
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.027524541238944548,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 1600
    },
    {
      "epoch": 0.08533333333333333,
      "eval_accuracy": 0.6111164200630435,
      "eval_loss": 1.4051686525344849,
      "eval_runtime": 62.3124,
      "eval_samples_per_second": 16.048,
      "eval_steps_per_second": 0.514,
      "step": 1600
    },
    {
      "epoch": 0.08538666666666667,
      "grad_norm": 0.024333860457797122,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1601
    },
    {
      "epoch": 0.08544,
      "grad_norm": 0.028871405646871996,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 1602
    },
    {
      "epoch": 0.08549333333333334,
      "grad_norm": 0.025524074282346144,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 1603
    },
    {
      "epoch": 0.08554666666666666,
      "grad_norm": 0.027338458430915938,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 1604
    },
    {
      "epoch": 0.0856,
      "grad_norm": 0.02718197945014735,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 1605
    },
    {
      "epoch": 0.08565333333333333,
      "grad_norm": 0.027048704369950827,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 1606
    },
    {
      "epoch": 0.08570666666666667,
      "grad_norm": 0.02761106787873851,
      "learning_rate": 0.0001,
      "loss": 1.0458,
      "step": 1607
    },
    {
      "epoch": 0.08576,
      "grad_norm": 0.02878431664877957,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 1608
    },
    {
      "epoch": 0.08581333333333334,
      "grad_norm": 0.026939563731929548,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 1609
    },
    {
      "epoch": 0.08586666666666666,
      "grad_norm": 0.025351258581296547,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 1610
    },
    {
      "epoch": 0.08592,
      "grad_norm": 0.025921022097349863,
      "learning_rate": 0.0001,
      "loss": 1.074,
      "step": 1611
    },
    {
      "epoch": 0.08597333333333333,
      "grad_norm": 0.026906411444533228,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 1612
    },
    {
      "epoch": 0.08602666666666667,
      "grad_norm": 0.027938239313429567,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 1613
    },
    {
      "epoch": 0.08608,
      "grad_norm": 0.03104342664970851,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 1614
    },
    {
      "epoch": 0.08613333333333334,
      "grad_norm": 0.023911488479491448,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1615
    },
    {
      "epoch": 0.08618666666666666,
      "grad_norm": 0.02748881469877469,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 1616
    },
    {
      "epoch": 0.08624,
      "grad_norm": 0.027981382134354804,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 1617
    },
    {
      "epoch": 0.08629333333333333,
      "grad_norm": 0.02384819178907592,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 1618
    },
    {
      "epoch": 0.08634666666666667,
      "grad_norm": 0.02682580440277934,
      "learning_rate": 0.0001,
      "loss": 1.058,
      "step": 1619
    },
    {
      "epoch": 0.0864,
      "grad_norm": 0.027393850021443702,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 1620
    },
    {
      "epoch": 0.08645333333333333,
      "grad_norm": 0.025514055877307703,
      "learning_rate": 0.0001,
      "loss": 1.0987,
      "step": 1621
    },
    {
      "epoch": 0.08650666666666666,
      "grad_norm": 0.03246291050599303,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 1622
    },
    {
      "epoch": 0.08656,
      "grad_norm": 0.03116930717625424,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 1623
    },
    {
      "epoch": 0.08661333333333333,
      "grad_norm": 0.027942244165248268,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 1624
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.029544866859618355,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1625
    },
    {
      "epoch": 0.08672,
      "grad_norm": 0.027719445613050512,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 1626
    },
    {
      "epoch": 0.08677333333333333,
      "grad_norm": 0.029063922189782414,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 1627
    },
    {
      "epoch": 0.08682666666666666,
      "grad_norm": 0.026125284237836527,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 1628
    },
    {
      "epoch": 0.08688,
      "grad_norm": 0.028649155519534477,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 1629
    },
    {
      "epoch": 0.08693333333333333,
      "grad_norm": 0.02514183244715916,
      "learning_rate": 0.0001,
      "loss": 1.0246,
      "step": 1630
    },
    {
      "epoch": 0.08698666666666667,
      "grad_norm": 0.026914914148138295,
      "learning_rate": 0.0001,
      "loss": 1.0659,
      "step": 1631
    },
    {
      "epoch": 0.08704,
      "grad_norm": 0.026892289746215037,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 1632
    },
    {
      "epoch": 0.08709333333333333,
      "grad_norm": 0.02780507037563323,
      "learning_rate": 0.0001,
      "loss": 1.0442,
      "step": 1633
    },
    {
      "epoch": 0.08714666666666666,
      "grad_norm": 0.02725497993423547,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1634
    },
    {
      "epoch": 0.0872,
      "grad_norm": 0.02454640770351659,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 1635
    },
    {
      "epoch": 0.08725333333333334,
      "grad_norm": 0.02873437278170768,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 1636
    },
    {
      "epoch": 0.08730666666666667,
      "grad_norm": 0.02428603185801352,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 1637
    },
    {
      "epoch": 0.08736,
      "grad_norm": 0.02395485818679434,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 1638
    },
    {
      "epoch": 0.08741333333333333,
      "grad_norm": 0.025068727051273523,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 1639
    },
    {
      "epoch": 0.08746666666666666,
      "grad_norm": 0.02764220420059766,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 1640
    },
    {
      "epoch": 0.08752,
      "grad_norm": 0.027516404586483915,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1641
    },
    {
      "epoch": 0.08757333333333334,
      "grad_norm": 0.027620191736511365,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 1642
    },
    {
      "epoch": 0.08762666666666667,
      "grad_norm": 0.024105948224103578,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 1643
    },
    {
      "epoch": 0.08768,
      "grad_norm": 0.024704928453450233,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 1644
    },
    {
      "epoch": 0.08773333333333333,
      "grad_norm": 0.02587444906541705,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 1645
    },
    {
      "epoch": 0.08778666666666667,
      "grad_norm": 0.029882130682068617,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 1646
    },
    {
      "epoch": 0.08784,
      "grad_norm": 0.023523680702732513,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1647
    },
    {
      "epoch": 0.08789333333333334,
      "grad_norm": 0.03161279412790102,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 1648
    },
    {
      "epoch": 0.08794666666666667,
      "grad_norm": 0.026111464804400124,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 1649
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.02369524085610575,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1650
    },
    {
      "epoch": 0.08805333333333333,
      "grad_norm": 0.026724448795401586,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1651
    },
    {
      "epoch": 0.08810666666666667,
      "grad_norm": 0.02434652811431213,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 1652
    },
    {
      "epoch": 0.08816,
      "grad_norm": 0.02641802642256993,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 1653
    },
    {
      "epoch": 0.08821333333333334,
      "grad_norm": 0.02704088025815972,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "step": 1654
    },
    {
      "epoch": 0.08826666666666666,
      "grad_norm": 0.026580655933756088,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1655
    },
    {
      "epoch": 0.08832,
      "grad_norm": 0.025541002932235494,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 1656
    },
    {
      "epoch": 0.08837333333333333,
      "grad_norm": 0.02425335744978024,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 1657
    },
    {
      "epoch": 0.08842666666666667,
      "grad_norm": 0.025029864562193624,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 1658
    },
    {
      "epoch": 0.08848,
      "grad_norm": 0.0258564929170752,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 1659
    },
    {
      "epoch": 0.08853333333333334,
      "grad_norm": 0.02532436277157024,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 1660
    },
    {
      "epoch": 0.08858666666666666,
      "grad_norm": 0.02331636109425414,
      "learning_rate": 0.0001,
      "loss": 1.0454,
      "step": 1661
    },
    {
      "epoch": 0.08864,
      "grad_norm": 0.026312235223190022,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 1662
    },
    {
      "epoch": 0.08869333333333333,
      "grad_norm": 0.02491033015725192,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 1663
    },
    {
      "epoch": 0.08874666666666667,
      "grad_norm": 0.02454194957278418,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 1664
    },
    {
      "epoch": 0.0888,
      "grad_norm": 0.02576786164535435,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1665
    },
    {
      "epoch": 0.08885333333333334,
      "grad_norm": 0.024897808986337595,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 1666
    },
    {
      "epoch": 0.08890666666666666,
      "grad_norm": 0.027395751137081897,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1667
    },
    {
      "epoch": 0.08896,
      "grad_norm": 0.023969278879351286,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1668
    },
    {
      "epoch": 0.08901333333333333,
      "grad_norm": 0.028213584504482914,
      "learning_rate": 0.0001,
      "loss": 1.0293,
      "step": 1669
    },
    {
      "epoch": 0.08906666666666667,
      "grad_norm": 0.0262724947876903,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 1670
    },
    {
      "epoch": 0.08912,
      "grad_norm": 0.02819361528058505,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 1671
    },
    {
      "epoch": 0.08917333333333333,
      "grad_norm": 0.026433207744932123,
      "learning_rate": 0.0001,
      "loss": 1.0716,
      "step": 1672
    },
    {
      "epoch": 0.08922666666666666,
      "grad_norm": 0.027583189213461916,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 1673
    },
    {
      "epoch": 0.08928,
      "grad_norm": 0.03334037978148873,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 1674
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.025799672207011414,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1675
    },
    {
      "epoch": 0.08938666666666667,
      "grad_norm": 0.030178915478207755,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 1676
    },
    {
      "epoch": 0.08944,
      "grad_norm": 0.031286293077241574,
      "learning_rate": 0.0001,
      "loss": 1.0411,
      "step": 1677
    },
    {
      "epoch": 0.08949333333333333,
      "grad_norm": 0.026584444541368858,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 1678
    },
    {
      "epoch": 0.08954666666666666,
      "grad_norm": 0.026960636323574913,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 1679
    },
    {
      "epoch": 0.0896,
      "grad_norm": 0.027705183975991404,
      "learning_rate": 0.0001,
      "loss": 1.0469,
      "step": 1680
    },
    {
      "epoch": 0.08965333333333333,
      "grad_norm": 0.025136739959075987,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 1681
    },
    {
      "epoch": 0.08970666666666667,
      "grad_norm": 0.026736461705802014,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 1682
    },
    {
      "epoch": 0.08976,
      "grad_norm": 0.028525250848681818,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 1683
    },
    {
      "epoch": 0.08981333333333333,
      "grad_norm": 0.02676341902486581,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 1684
    },
    {
      "epoch": 0.08986666666666666,
      "grad_norm": 0.024986884908375157,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 1685
    },
    {
      "epoch": 0.08992,
      "grad_norm": 0.0271127230468846,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 1686
    },
    {
      "epoch": 0.08997333333333334,
      "grad_norm": 0.02432142211509463,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1687
    },
    {
      "epoch": 0.09002666666666667,
      "grad_norm": 0.023718455176784132,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 1688
    },
    {
      "epoch": 0.09008,
      "grad_norm": 0.025190807199383432,
      "learning_rate": 0.0001,
      "loss": 1.0467,
      "step": 1689
    },
    {
      "epoch": 0.09013333333333333,
      "grad_norm": 0.02679934260588532,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 1690
    },
    {
      "epoch": 0.09018666666666666,
      "grad_norm": 0.02499328437889648,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 1691
    },
    {
      "epoch": 0.09024,
      "grad_norm": 0.026114553358626526,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1692
    },
    {
      "epoch": 0.09029333333333334,
      "grad_norm": 0.02759223264635291,
      "learning_rate": 0.0001,
      "loss": 1.0597,
      "step": 1693
    },
    {
      "epoch": 0.09034666666666667,
      "grad_norm": 0.02477337762464771,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 1694
    },
    {
      "epoch": 0.0904,
      "grad_norm": 0.030597370145696044,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 1695
    },
    {
      "epoch": 0.09045333333333333,
      "grad_norm": 0.0269802342504588,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 1696
    },
    {
      "epoch": 0.09050666666666667,
      "grad_norm": 0.028398027754227593,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 1697
    },
    {
      "epoch": 0.09056,
      "grad_norm": 0.02632898383592627,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 1698
    },
    {
      "epoch": 0.09061333333333334,
      "grad_norm": 0.026515849132896733,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 1699
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.025155368958244148,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 1700
    },
    {
      "epoch": 0.09072,
      "grad_norm": 0.027698319155554787,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 1701
    },
    {
      "epoch": 0.09077333333333333,
      "grad_norm": 0.02797775958278094,
      "learning_rate": 0.0001,
      "loss": 1.0786,
      "step": 1702
    },
    {
      "epoch": 0.09082666666666667,
      "grad_norm": 0.024382992456232475,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 1703
    },
    {
      "epoch": 0.09088,
      "grad_norm": 0.02952066494495971,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 1704
    },
    {
      "epoch": 0.09093333333333334,
      "grad_norm": 0.02899875864966753,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 1705
    },
    {
      "epoch": 0.09098666666666666,
      "grad_norm": 0.026592968723358867,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 1706
    },
    {
      "epoch": 0.09104,
      "grad_norm": 0.030095527237822748,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 1707
    },
    {
      "epoch": 0.09109333333333333,
      "grad_norm": 0.02715821974390595,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 1708
    },
    {
      "epoch": 0.09114666666666667,
      "grad_norm": 0.027274376064868367,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 1709
    },
    {
      "epoch": 0.0912,
      "grad_norm": 0.030510571714560775,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1710
    },
    {
      "epoch": 0.09125333333333334,
      "grad_norm": 0.026075248117775816,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 1711
    },
    {
      "epoch": 0.09130666666666666,
      "grad_norm": 0.02689173076707366,
      "learning_rate": 0.0001,
      "loss": 1.0624,
      "step": 1712
    },
    {
      "epoch": 0.09136,
      "grad_norm": 0.024428361835030922,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 1713
    },
    {
      "epoch": 0.09141333333333333,
      "grad_norm": 0.02846834767866163,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 1714
    },
    {
      "epoch": 0.09146666666666667,
      "grad_norm": 0.027712228909874643,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 1715
    },
    {
      "epoch": 0.09152,
      "grad_norm": 0.029249827378259485,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 1716
    },
    {
      "epoch": 0.09157333333333334,
      "grad_norm": 0.02676265195772794,
      "learning_rate": 0.0001,
      "loss": 1.0787,
      "step": 1717
    },
    {
      "epoch": 0.09162666666666666,
      "grad_norm": 0.026417364972317784,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 1718
    },
    {
      "epoch": 0.09168,
      "grad_norm": 0.02616057926094756,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 1719
    },
    {
      "epoch": 0.09173333333333333,
      "grad_norm": 0.026234734860853134,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 1720
    },
    {
      "epoch": 0.09178666666666667,
      "grad_norm": 0.02740101369343298,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 1721
    },
    {
      "epoch": 0.09184,
      "grad_norm": 0.024539701504416735,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 1722
    },
    {
      "epoch": 0.09189333333333333,
      "grad_norm": 0.026474563542769735,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 1723
    },
    {
      "epoch": 0.09194666666666666,
      "grad_norm": 0.024552329386387097,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 1724
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.023491981119751097,
      "learning_rate": 0.0001,
      "loss": 1.0291,
      "step": 1725
    },
    {
      "epoch": 0.09205333333333333,
      "grad_norm": 0.025442738392128725,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "step": 1726
    },
    {
      "epoch": 0.09210666666666667,
      "grad_norm": 0.02894522853190607,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 1727
    },
    {
      "epoch": 0.09216,
      "grad_norm": 0.02563683882378615,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 1728
    },
    {
      "epoch": 0.09221333333333333,
      "grad_norm": 0.025999817213072776,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 1729
    },
    {
      "epoch": 0.09226666666666666,
      "grad_norm": 0.028409682757899516,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 1730
    },
    {
      "epoch": 0.09232,
      "grad_norm": 0.025394641858095045,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 1731
    },
    {
      "epoch": 0.09237333333333334,
      "grad_norm": 0.02526101493891038,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 1732
    },
    {
      "epoch": 0.09242666666666667,
      "grad_norm": 0.028404987165490607,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 1733
    },
    {
      "epoch": 0.09248,
      "grad_norm": 0.025651584142426888,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 1734
    },
    {
      "epoch": 0.09253333333333333,
      "grad_norm": 0.02437145064307925,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 1735
    },
    {
      "epoch": 0.09258666666666666,
      "grad_norm": 0.026212105608985792,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 1736
    },
    {
      "epoch": 0.09264,
      "grad_norm": 0.027990822097352142,
      "learning_rate": 0.0001,
      "loss": 1.0271,
      "step": 1737
    },
    {
      "epoch": 0.09269333333333334,
      "grad_norm": 0.024368786657260787,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 1738
    },
    {
      "epoch": 0.09274666666666667,
      "grad_norm": 0.026037695697492907,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 1739
    },
    {
      "epoch": 0.0928,
      "grad_norm": 0.027122951737729564,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 1740
    },
    {
      "epoch": 0.09285333333333333,
      "grad_norm": 0.023528733016336824,
      "learning_rate": 0.0001,
      "loss": 1.0546,
      "step": 1741
    },
    {
      "epoch": 0.09290666666666667,
      "grad_norm": 0.02716075871002687,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 1742
    },
    {
      "epoch": 0.09296,
      "grad_norm": 0.026061910702890774,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 1743
    },
    {
      "epoch": 0.09301333333333334,
      "grad_norm": 0.025498591143851043,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 1744
    },
    {
      "epoch": 0.09306666666666667,
      "grad_norm": 0.02753189620518896,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 1745
    },
    {
      "epoch": 0.09312,
      "grad_norm": 0.026410139711493787,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 1746
    },
    {
      "epoch": 0.09317333333333333,
      "grad_norm": 0.02352162010348392,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 1747
    },
    {
      "epoch": 0.09322666666666667,
      "grad_norm": 0.025293605198432895,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 1748
    },
    {
      "epoch": 0.09328,
      "grad_norm": 0.026499699243056417,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 1749
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.024018577571171568,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1750
    },
    {
      "epoch": 0.09338666666666667,
      "grad_norm": 0.0258354690331234,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 1751
    },
    {
      "epoch": 0.09344,
      "grad_norm": 0.027881464814561805,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 1752
    },
    {
      "epoch": 0.09349333333333333,
      "grad_norm": 0.02734276690280944,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1753
    },
    {
      "epoch": 0.09354666666666667,
      "grad_norm": 0.023597517684438688,
      "learning_rate": 0.0001,
      "loss": 1.0529,
      "step": 1754
    },
    {
      "epoch": 0.0936,
      "grad_norm": 0.02523499115527569,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 1755
    },
    {
      "epoch": 0.09365333333333334,
      "grad_norm": 0.026698421265167332,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 1756
    },
    {
      "epoch": 0.09370666666666666,
      "grad_norm": 0.02572376629924787,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1757
    },
    {
      "epoch": 0.09376,
      "grad_norm": 0.026939146007016586,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 1758
    },
    {
      "epoch": 0.09381333333333333,
      "grad_norm": 0.02469809148471521,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 1759
    },
    {
      "epoch": 0.09386666666666667,
      "grad_norm": 0.024083144609128162,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 1760
    },
    {
      "epoch": 0.09392,
      "grad_norm": 0.03286444010305604,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 1761
    },
    {
      "epoch": 0.09397333333333334,
      "grad_norm": 0.02535318325816316,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 1762
    },
    {
      "epoch": 0.09402666666666666,
      "grad_norm": 0.02609278320812464,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 1763
    },
    {
      "epoch": 0.09408,
      "grad_norm": 0.0301802693528634,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 1764
    },
    {
      "epoch": 0.09413333333333333,
      "grad_norm": 0.02674836627990494,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 1765
    },
    {
      "epoch": 0.09418666666666667,
      "grad_norm": 0.02862390419340115,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 1766
    },
    {
      "epoch": 0.09424,
      "grad_norm": 0.032028635798749795,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 1767
    },
    {
      "epoch": 0.09429333333333334,
      "grad_norm": 0.02919962683289195,
      "learning_rate": 0.0001,
      "loss": 1.0422,
      "step": 1768
    },
    {
      "epoch": 0.09434666666666666,
      "grad_norm": 0.029720593006157026,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 1769
    },
    {
      "epoch": 0.0944,
      "grad_norm": 0.028929824526491132,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1770
    },
    {
      "epoch": 0.09445333333333333,
      "grad_norm": 0.02551252284860104,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 1771
    },
    {
      "epoch": 0.09450666666666667,
      "grad_norm": 0.02791962427811782,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 1772
    },
    {
      "epoch": 0.09456,
      "grad_norm": 0.026555815047303703,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 1773
    },
    {
      "epoch": 0.09461333333333333,
      "grad_norm": 0.029418712513713204,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 1774
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.03439212182632328,
      "learning_rate": 0.0001,
      "loss": 1.0457,
      "step": 1775
    },
    {
      "epoch": 0.09472,
      "grad_norm": 0.027321044234176778,
      "learning_rate": 0.0001,
      "loss": 1.078,
      "step": 1776
    },
    {
      "epoch": 0.09477333333333333,
      "grad_norm": 0.030670738780217758,
      "learning_rate": 0.0001,
      "loss": 1.1129,
      "step": 1777
    },
    {
      "epoch": 0.09482666666666667,
      "grad_norm": 0.029383832265691454,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 1778
    },
    {
      "epoch": 0.09488,
      "grad_norm": 0.02720325300478246,
      "learning_rate": 0.0001,
      "loss": 1.0402,
      "step": 1779
    },
    {
      "epoch": 0.09493333333333333,
      "grad_norm": 0.028869254098936505,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 1780
    },
    {
      "epoch": 0.09498666666666666,
      "grad_norm": 0.031482732271876396,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 1781
    },
    {
      "epoch": 0.09504,
      "grad_norm": 0.027812352464561867,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 1782
    },
    {
      "epoch": 0.09509333333333334,
      "grad_norm": 0.02795522155764562,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 1783
    },
    {
      "epoch": 0.09514666666666667,
      "grad_norm": 0.027468503020127197,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 1784
    },
    {
      "epoch": 0.0952,
      "grad_norm": 0.024921094476944523,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 1785
    },
    {
      "epoch": 0.09525333333333333,
      "grad_norm": 0.027751712130999067,
      "learning_rate": 0.0001,
      "loss": 1.0585,
      "step": 1786
    },
    {
      "epoch": 0.09530666666666666,
      "grad_norm": 0.02837704226553712,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 1787
    },
    {
      "epoch": 0.09536,
      "grad_norm": 0.02693760585726541,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 1788
    },
    {
      "epoch": 0.09541333333333334,
      "grad_norm": 0.024990361247057558,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 1789
    },
    {
      "epoch": 0.09546666666666667,
      "grad_norm": 0.028547143362786735,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 1790
    },
    {
      "epoch": 0.09552,
      "grad_norm": 0.025239653871196078,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 1791
    },
    {
      "epoch": 0.09557333333333333,
      "grad_norm": 0.03229651057235325,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 1792
    },
    {
      "epoch": 0.09562666666666667,
      "grad_norm": 0.02750077221088778,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1793
    },
    {
      "epoch": 0.09568,
      "grad_norm": 0.02558573558556958,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1794
    },
    {
      "epoch": 0.09573333333333334,
      "grad_norm": 0.028222107457715147,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 1795
    },
    {
      "epoch": 0.09578666666666667,
      "grad_norm": 0.027468523254279027,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 1796
    },
    {
      "epoch": 0.09584,
      "grad_norm": 0.025223288196050308,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 1797
    },
    {
      "epoch": 0.09589333333333333,
      "grad_norm": 0.026517673595087225,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 1798
    },
    {
      "epoch": 0.09594666666666667,
      "grad_norm": 0.02647175800062843,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 1799
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.02717602330948198,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 1800
    },
    {
      "epoch": 0.096,
      "eval_accuracy": 0.6117149061834115,
      "eval_loss": 1.4017579555511475,
      "eval_runtime": 63.9275,
      "eval_samples_per_second": 15.643,
      "eval_steps_per_second": 0.501,
      "step": 1800
    },
    {
      "epoch": 0.09605333333333334,
      "grad_norm": 0.026474170603097015,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1801
    },
    {
      "epoch": 0.09610666666666667,
      "grad_norm": 0.024332581358247896,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 1802
    },
    {
      "epoch": 0.09616,
      "grad_norm": 0.027823690981710756,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 1803
    },
    {
      "epoch": 0.09621333333333333,
      "grad_norm": 0.025689156649572973,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 1804
    },
    {
      "epoch": 0.09626666666666667,
      "grad_norm": 0.028318192894736794,
      "learning_rate": 0.0001,
      "loss": 1.0668,
      "step": 1805
    },
    {
      "epoch": 0.09632,
      "grad_norm": 0.024948618317884128,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1806
    },
    {
      "epoch": 0.09637333333333334,
      "grad_norm": 0.025092836099335887,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 1807
    },
    {
      "epoch": 0.09642666666666666,
      "grad_norm": 0.02868225498337703,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 1808
    },
    {
      "epoch": 0.09648,
      "grad_norm": 0.027579504013672918,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 1809
    },
    {
      "epoch": 0.09653333333333333,
      "grad_norm": 0.023955397764145323,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 1810
    },
    {
      "epoch": 0.09658666666666667,
      "grad_norm": 0.027131767205174347,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 1811
    },
    {
      "epoch": 0.09664,
      "grad_norm": 0.02637946898112252,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 1812
    },
    {
      "epoch": 0.09669333333333334,
      "grad_norm": 0.0249877761111989,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 1813
    },
    {
      "epoch": 0.09674666666666666,
      "grad_norm": 0.02435569218021375,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 1814
    },
    {
      "epoch": 0.0968,
      "grad_norm": 0.026471375545286908,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 1815
    },
    {
      "epoch": 0.09685333333333333,
      "grad_norm": 0.02705057781996632,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 1816
    },
    {
      "epoch": 0.09690666666666667,
      "grad_norm": 0.024508447914617214,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 1817
    },
    {
      "epoch": 0.09696,
      "grad_norm": 0.02471515119382699,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 1818
    },
    {
      "epoch": 0.09701333333333333,
      "grad_norm": 0.02519809349355615,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 1819
    },
    {
      "epoch": 0.09706666666666666,
      "grad_norm": 0.027894246158050605,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 1820
    },
    {
      "epoch": 0.09712,
      "grad_norm": 0.02650671061756029,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 1821
    },
    {
      "epoch": 0.09717333333333333,
      "grad_norm": 0.026982299988329017,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 1822
    },
    {
      "epoch": 0.09722666666666667,
      "grad_norm": 0.027720655944704537,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 1823
    },
    {
      "epoch": 0.09728,
      "grad_norm": 0.028951348718284337,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 1824
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.026756757646060433,
      "learning_rate": 0.0001,
      "loss": 1.0684,
      "step": 1825
    },
    {
      "epoch": 0.09738666666666666,
      "grad_norm": 0.028343509352317667,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 1826
    },
    {
      "epoch": 0.09744,
      "grad_norm": 0.028011296921425913,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 1827
    },
    {
      "epoch": 0.09749333333333333,
      "grad_norm": 0.02820925690620987,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 1828
    },
    {
      "epoch": 0.09754666666666667,
      "grad_norm": 0.029122488372928138,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 1829
    },
    {
      "epoch": 0.0976,
      "grad_norm": 0.029938284161811022,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 1830
    },
    {
      "epoch": 0.09765333333333333,
      "grad_norm": 0.026110081154672758,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 1831
    },
    {
      "epoch": 0.09770666666666666,
      "grad_norm": 0.03180641510840036,
      "learning_rate": 0.0001,
      "loss": 1.0626,
      "step": 1832
    },
    {
      "epoch": 0.09776,
      "grad_norm": 0.031391791359206146,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 1833
    },
    {
      "epoch": 0.09781333333333334,
      "grad_norm": 0.03036022022416799,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 1834
    },
    {
      "epoch": 0.09786666666666667,
      "grad_norm": 0.030569257426462083,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 1835
    },
    {
      "epoch": 0.09792,
      "grad_norm": 0.029279558116151655,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 1836
    },
    {
      "epoch": 0.09797333333333333,
      "grad_norm": 0.025776614016403392,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 1837
    },
    {
      "epoch": 0.09802666666666666,
      "grad_norm": 0.027116568659026848,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 1838
    },
    {
      "epoch": 0.09808,
      "grad_norm": 0.02862946957222765,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 1839
    },
    {
      "epoch": 0.09813333333333334,
      "grad_norm": 0.026582030847286064,
      "learning_rate": 0.0001,
      "loss": 1.0898,
      "step": 1840
    },
    {
      "epoch": 0.09818666666666667,
      "grad_norm": 0.027558736708423723,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 1841
    },
    {
      "epoch": 0.09824,
      "grad_norm": 0.026918146332382112,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1842
    },
    {
      "epoch": 0.09829333333333333,
      "grad_norm": 0.026220423836761764,
      "learning_rate": 0.0001,
      "loss": 1.0427,
      "step": 1843
    },
    {
      "epoch": 0.09834666666666667,
      "grad_norm": 0.027341757737839867,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 1844
    },
    {
      "epoch": 0.0984,
      "grad_norm": 0.03077203941912083,
      "learning_rate": 0.0001,
      "loss": 1.0647,
      "step": 1845
    },
    {
      "epoch": 0.09845333333333334,
      "grad_norm": 0.024721607580795137,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 1846
    },
    {
      "epoch": 0.09850666666666667,
      "grad_norm": 0.026722780123306807,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 1847
    },
    {
      "epoch": 0.09856,
      "grad_norm": 0.02822684111347732,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 1848
    },
    {
      "epoch": 0.09861333333333333,
      "grad_norm": 0.02546732186006609,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 1849
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.02769913557590931,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 1850
    },
    {
      "epoch": 0.09872,
      "grad_norm": 0.025367627036535854,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 1851
    },
    {
      "epoch": 0.09877333333333334,
      "grad_norm": 0.025516870154589193,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1852
    },
    {
      "epoch": 0.09882666666666666,
      "grad_norm": 0.02850170173129112,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 1853
    },
    {
      "epoch": 0.09888,
      "grad_norm": 0.024316710862384343,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 1854
    },
    {
      "epoch": 0.09893333333333333,
      "grad_norm": 0.027704142445614345,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 1855
    },
    {
      "epoch": 0.09898666666666667,
      "grad_norm": 0.026212797075420326,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 1856
    },
    {
      "epoch": 0.09904,
      "grad_norm": 0.02655944895114864,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 1857
    },
    {
      "epoch": 0.09909333333333334,
      "grad_norm": 0.024671669543793826,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 1858
    },
    {
      "epoch": 0.09914666666666666,
      "grad_norm": 0.024421498576460532,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 1859
    },
    {
      "epoch": 0.0992,
      "grad_norm": 0.023854420082805937,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 1860
    },
    {
      "epoch": 0.09925333333333333,
      "grad_norm": 0.02428955736881184,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 1861
    },
    {
      "epoch": 0.09930666666666667,
      "grad_norm": 0.026649005740785735,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 1862
    },
    {
      "epoch": 0.09936,
      "grad_norm": 0.027735739310567723,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 1863
    },
    {
      "epoch": 0.09941333333333334,
      "grad_norm": 0.024455062062683542,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 1864
    },
    {
      "epoch": 0.09946666666666666,
      "grad_norm": 0.024040579326079864,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "step": 1865
    },
    {
      "epoch": 0.09952,
      "grad_norm": 0.026970134807268998,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 1866
    },
    {
      "epoch": 0.09957333333333333,
      "grad_norm": 0.025892452018809558,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 1867
    },
    {
      "epoch": 0.09962666666666667,
      "grad_norm": 0.027867194156961827,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 1868
    },
    {
      "epoch": 0.09968,
      "grad_norm": 0.0243704870711029,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 1869
    },
    {
      "epoch": 0.09973333333333333,
      "grad_norm": 0.028308412592797896,
      "learning_rate": 0.0001,
      "loss": 1.0777,
      "step": 1870
    },
    {
      "epoch": 0.09978666666666666,
      "grad_norm": 0.027009309904881117,
      "learning_rate": 0.0001,
      "loss": 1.0945,
      "step": 1871
    },
    {
      "epoch": 0.09984,
      "grad_norm": 0.02863369094801097,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1872
    },
    {
      "epoch": 0.09989333333333333,
      "grad_norm": 0.025717993922258098,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "step": 1873
    },
    {
      "epoch": 0.09994666666666667,
      "grad_norm": 0.026863420998601537,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 1874
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.02583073216285001,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 1875
    },
    {
      "epoch": 0.10005333333333333,
      "grad_norm": 0.0276424618591933,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 1876
    },
    {
      "epoch": 0.10010666666666666,
      "grad_norm": 0.024954585680697965,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 1877
    },
    {
      "epoch": 0.10016,
      "grad_norm": 0.025946171754408123,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 1878
    },
    {
      "epoch": 0.10021333333333333,
      "grad_norm": 0.02709503114111363,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1879
    },
    {
      "epoch": 0.10026666666666667,
      "grad_norm": 0.02563694793596819,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 1880
    },
    {
      "epoch": 0.10032,
      "grad_norm": 0.02477156782106925,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 1881
    },
    {
      "epoch": 0.10037333333333333,
      "grad_norm": 0.02551557701433031,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 1882
    },
    {
      "epoch": 0.10042666666666666,
      "grad_norm": 0.02570531366445619,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 1883
    },
    {
      "epoch": 0.10048,
      "grad_norm": 0.02399273575370972,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 1884
    },
    {
      "epoch": 0.10053333333333334,
      "grad_norm": 0.024072758475031313,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 1885
    },
    {
      "epoch": 0.10058666666666667,
      "grad_norm": 0.02433747128627947,
      "learning_rate": 0.0001,
      "loss": 1.1223,
      "step": 1886
    },
    {
      "epoch": 0.10064,
      "grad_norm": 0.03303525614659945,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 1887
    },
    {
      "epoch": 0.10069333333333333,
      "grad_norm": 0.02332029137483146,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 1888
    },
    {
      "epoch": 0.10074666666666666,
      "grad_norm": 0.02777416592039625,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 1889
    },
    {
      "epoch": 0.1008,
      "grad_norm": 0.025270277818516276,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 1890
    },
    {
      "epoch": 0.10085333333333334,
      "grad_norm": 0.025404611992190868,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 1891
    },
    {
      "epoch": 0.10090666666666667,
      "grad_norm": 0.026128368207249158,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 1892
    },
    {
      "epoch": 0.10096,
      "grad_norm": 0.02442779372121171,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 1893
    },
    {
      "epoch": 0.10101333333333333,
      "grad_norm": 0.02487319894098852,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 1894
    },
    {
      "epoch": 0.10106666666666667,
      "grad_norm": 0.023395152764658922,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 1895
    },
    {
      "epoch": 0.10112,
      "grad_norm": 0.02510831742104269,
      "learning_rate": 0.0001,
      "loss": 1.0951,
      "step": 1896
    },
    {
      "epoch": 0.10117333333333334,
      "grad_norm": 0.024851943473627423,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 1897
    },
    {
      "epoch": 0.10122666666666667,
      "grad_norm": 0.024322109316710198,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 1898
    },
    {
      "epoch": 0.10128,
      "grad_norm": 0.02333669161288907,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 1899
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.024147932672948177,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 1900
    },
    {
      "epoch": 0.10138666666666667,
      "grad_norm": 0.024903475437280883,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 1901
    },
    {
      "epoch": 0.10144,
      "grad_norm": 0.026711218139195605,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 1902
    },
    {
      "epoch": 0.10149333333333334,
      "grad_norm": 0.02484719580986286,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 1903
    },
    {
      "epoch": 0.10154666666666666,
      "grad_norm": 0.02906016147654106,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 1904
    },
    {
      "epoch": 0.1016,
      "grad_norm": 0.02614413787796812,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 1905
    },
    {
      "epoch": 0.10165333333333333,
      "grad_norm": 0.027502067753524612,
      "learning_rate": 0.0001,
      "loss": 1.0825,
      "step": 1906
    },
    {
      "epoch": 0.10170666666666667,
      "grad_norm": 0.025413807720129338,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 1907
    },
    {
      "epoch": 0.10176,
      "grad_norm": 0.026141474564551452,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 1908
    },
    {
      "epoch": 0.10181333333333334,
      "grad_norm": 0.024715573803985463,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 1909
    },
    {
      "epoch": 0.10186666666666666,
      "grad_norm": 0.029804406447989595,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 1910
    },
    {
      "epoch": 0.10192,
      "grad_norm": 0.027504463726386142,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 1911
    },
    {
      "epoch": 0.10197333333333333,
      "grad_norm": 0.025145610773627345,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 1912
    },
    {
      "epoch": 0.10202666666666667,
      "grad_norm": 0.03093082703882014,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 1913
    },
    {
      "epoch": 0.10208,
      "grad_norm": 0.02851026308543958,
      "learning_rate": 0.0001,
      "loss": 1.053,
      "step": 1914
    },
    {
      "epoch": 0.10213333333333334,
      "grad_norm": 0.027187190166202586,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 1915
    },
    {
      "epoch": 0.10218666666666666,
      "grad_norm": 0.02791952218613602,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 1916
    },
    {
      "epoch": 0.10224,
      "grad_norm": 0.031260068552164115,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 1917
    },
    {
      "epoch": 0.10229333333333333,
      "grad_norm": 0.024601403397165423,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 1918
    },
    {
      "epoch": 0.10234666666666667,
      "grad_norm": 0.029228849255080486,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 1919
    },
    {
      "epoch": 0.1024,
      "grad_norm": 0.029265121470891196,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 1920
    },
    {
      "epoch": 0.10245333333333333,
      "grad_norm": 0.026853127011340867,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 1921
    },
    {
      "epoch": 0.10250666666666666,
      "grad_norm": 0.029246142836743927,
      "learning_rate": 0.0001,
      "loss": 1.0383,
      "step": 1922
    },
    {
      "epoch": 0.10256,
      "grad_norm": 0.025856190939471526,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 1923
    },
    {
      "epoch": 0.10261333333333333,
      "grad_norm": 0.0267755548079927,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 1924
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 0.026690684977771387,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 1925
    },
    {
      "epoch": 0.10272,
      "grad_norm": 0.026618639866638587,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 1926
    },
    {
      "epoch": 0.10277333333333333,
      "grad_norm": 0.02596768822875572,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 1927
    },
    {
      "epoch": 0.10282666666666666,
      "grad_norm": 0.028649441489260408,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 1928
    },
    {
      "epoch": 0.10288,
      "grad_norm": 0.026475914507270742,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 1929
    },
    {
      "epoch": 0.10293333333333334,
      "grad_norm": 0.027746107603944192,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 1930
    },
    {
      "epoch": 0.10298666666666667,
      "grad_norm": 0.02657877018326379,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 1931
    },
    {
      "epoch": 0.10304,
      "grad_norm": 0.02999225571761472,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 1932
    },
    {
      "epoch": 0.10309333333333333,
      "grad_norm": 0.02461548146482592,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 1933
    },
    {
      "epoch": 0.10314666666666666,
      "grad_norm": 0.025478776721493405,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 1934
    },
    {
      "epoch": 0.1032,
      "grad_norm": 0.027208605498652963,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1935
    },
    {
      "epoch": 0.10325333333333334,
      "grad_norm": 0.02392304188911514,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 1936
    },
    {
      "epoch": 0.10330666666666667,
      "grad_norm": 0.026268404338796923,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 1937
    },
    {
      "epoch": 0.10336,
      "grad_norm": 0.026412222358779425,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 1938
    },
    {
      "epoch": 0.10341333333333333,
      "grad_norm": 0.025308864875314037,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 1939
    },
    {
      "epoch": 0.10346666666666667,
      "grad_norm": 0.02683519855809526,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 1940
    },
    {
      "epoch": 0.10352,
      "grad_norm": 0.02487007182962759,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 1941
    },
    {
      "epoch": 0.10357333333333334,
      "grad_norm": 0.02548284013803566,
      "learning_rate": 0.0001,
      "loss": 1.0293,
      "step": 1942
    },
    {
      "epoch": 0.10362666666666667,
      "grad_norm": 0.027483480805573564,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 1943
    },
    {
      "epoch": 0.10368,
      "grad_norm": 0.025357852215251633,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 1944
    },
    {
      "epoch": 0.10373333333333333,
      "grad_norm": 0.024417443712794525,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 1945
    },
    {
      "epoch": 0.10378666666666667,
      "grad_norm": 0.025212515050863245,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 1946
    },
    {
      "epoch": 0.10384,
      "grad_norm": 0.02715287927450849,
      "learning_rate": 0.0001,
      "loss": 1.0888,
      "step": 1947
    },
    {
      "epoch": 0.10389333333333334,
      "grad_norm": 0.02464481080682214,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 1948
    },
    {
      "epoch": 0.10394666666666667,
      "grad_norm": 0.025267557867188442,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 1949
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.026403671552678303,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 1950
    },
    {
      "epoch": 0.10405333333333333,
      "grad_norm": 0.02660930428931585,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 1951
    },
    {
      "epoch": 0.10410666666666667,
      "grad_norm": 0.02559204134810665,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 1952
    },
    {
      "epoch": 0.10416,
      "grad_norm": 0.02833656163479924,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 1953
    },
    {
      "epoch": 0.10421333333333334,
      "grad_norm": 0.025026132686761626,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 1954
    },
    {
      "epoch": 0.10426666666666666,
      "grad_norm": 0.027099366214257754,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 1955
    },
    {
      "epoch": 0.10432,
      "grad_norm": 0.026555571292262853,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 1956
    },
    {
      "epoch": 0.10437333333333333,
      "grad_norm": 0.02766922898797857,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 1957
    },
    {
      "epoch": 0.10442666666666667,
      "grad_norm": 0.027884693599386702,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 1958
    },
    {
      "epoch": 0.10448,
      "grad_norm": 0.02750964309412206,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 1959
    },
    {
      "epoch": 0.10453333333333334,
      "grad_norm": 0.027391580582628857,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 1960
    },
    {
      "epoch": 0.10458666666666666,
      "grad_norm": 0.028291123470079015,
      "learning_rate": 0.0001,
      "loss": 1.0661,
      "step": 1961
    },
    {
      "epoch": 0.10464,
      "grad_norm": 0.024367357579490802,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 1962
    },
    {
      "epoch": 0.10469333333333333,
      "grad_norm": 0.026896705245996903,
      "learning_rate": 0.0001,
      "loss": 1.048,
      "step": 1963
    },
    {
      "epoch": 0.10474666666666667,
      "grad_norm": 0.024014784925605673,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 1964
    },
    {
      "epoch": 0.1048,
      "grad_norm": 0.02624009237364406,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 1965
    },
    {
      "epoch": 0.10485333333333334,
      "grad_norm": 0.026485778716663005,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 1966
    },
    {
      "epoch": 0.10490666666666666,
      "grad_norm": 0.02696097436545561,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 1967
    },
    {
      "epoch": 0.10496,
      "grad_norm": 0.025456156688193687,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 1968
    },
    {
      "epoch": 0.10501333333333333,
      "grad_norm": 0.025841252224660004,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 1969
    },
    {
      "epoch": 0.10506666666666667,
      "grad_norm": 0.026600776297318815,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 1970
    },
    {
      "epoch": 0.10512,
      "grad_norm": 0.024445464919730178,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 1971
    },
    {
      "epoch": 0.10517333333333333,
      "grad_norm": 0.027320711199589585,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 1972
    },
    {
      "epoch": 0.10522666666666666,
      "grad_norm": 0.0271909061216866,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 1973
    },
    {
      "epoch": 0.10528,
      "grad_norm": 0.02668642502060246,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1974
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.02692076832247553,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 1975
    },
    {
      "epoch": 0.10538666666666667,
      "grad_norm": 0.02911911198221922,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 1976
    },
    {
      "epoch": 0.10544,
      "grad_norm": 0.026305641868667337,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 1977
    },
    {
      "epoch": 0.10549333333333333,
      "grad_norm": 0.027819519887910694,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 1978
    },
    {
      "epoch": 0.10554666666666666,
      "grad_norm": 0.028878339990009338,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 1979
    },
    {
      "epoch": 0.1056,
      "grad_norm": 0.024715884763626402,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 1980
    },
    {
      "epoch": 0.10565333333333334,
      "grad_norm": 0.026698224581276256,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 1981
    },
    {
      "epoch": 0.10570666666666667,
      "grad_norm": 0.026797746759935723,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 1982
    },
    {
      "epoch": 0.10576,
      "grad_norm": 0.02637697289529258,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 1983
    },
    {
      "epoch": 0.10581333333333333,
      "grad_norm": 0.027490889894038525,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 1984
    },
    {
      "epoch": 0.10586666666666666,
      "grad_norm": 0.028784755916305305,
      "learning_rate": 0.0001,
      "loss": 1.0738,
      "step": 1985
    },
    {
      "epoch": 0.10592,
      "grad_norm": 0.026430533461847344,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 1986
    },
    {
      "epoch": 0.10597333333333334,
      "grad_norm": 0.02771385361866348,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 1987
    },
    {
      "epoch": 0.10602666666666667,
      "grad_norm": 0.025820626387133817,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 1988
    },
    {
      "epoch": 0.10608,
      "grad_norm": 0.02501093499965385,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 1989
    },
    {
      "epoch": 0.10613333333333333,
      "grad_norm": 0.025393065878287234,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 1990
    },
    {
      "epoch": 0.10618666666666667,
      "grad_norm": 0.02433525861005163,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 1991
    },
    {
      "epoch": 0.10624,
      "grad_norm": 0.025743988477036673,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 1992
    },
    {
      "epoch": 0.10629333333333334,
      "grad_norm": 0.024186730462006176,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 1993
    },
    {
      "epoch": 0.10634666666666667,
      "grad_norm": 0.024408849496376284,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 1994
    },
    {
      "epoch": 0.1064,
      "grad_norm": 0.02531392651852765,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 1995
    },
    {
      "epoch": 0.10645333333333333,
      "grad_norm": 0.02397712578046048,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 1996
    },
    {
      "epoch": 0.10650666666666667,
      "grad_norm": 0.0249083873345864,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 1997
    },
    {
      "epoch": 0.10656,
      "grad_norm": 0.02596409446287122,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 1998
    },
    {
      "epoch": 0.10661333333333334,
      "grad_norm": 0.02387360256428351,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 1999
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.027009784346743636,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 2000
    },
    {
      "epoch": 0.10666666666666667,
      "eval_accuracy": 0.6123432930393983,
      "eval_loss": 1.3981534242630005,
      "eval_runtime": 63.8076,
      "eval_samples_per_second": 15.672,
      "eval_steps_per_second": 0.502,
      "step": 2000
    },
    {
      "epoch": 0.10672,
      "grad_norm": 0.027742784353426045,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 2001
    },
    {
      "epoch": 0.10677333333333333,
      "grad_norm": 0.027769249333219316,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2002
    },
    {
      "epoch": 0.10682666666666667,
      "grad_norm": 0.026781943052861093,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 2003
    },
    {
      "epoch": 0.10688,
      "grad_norm": 0.02779960157225846,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 2004
    },
    {
      "epoch": 0.10693333333333334,
      "grad_norm": 0.025469473704442438,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 2005
    },
    {
      "epoch": 0.10698666666666666,
      "grad_norm": 0.023461746510397025,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 2006
    },
    {
      "epoch": 0.10704,
      "grad_norm": 0.02535358148092865,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 2007
    },
    {
      "epoch": 0.10709333333333333,
      "grad_norm": 0.024463807766439652,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 2008
    },
    {
      "epoch": 0.10714666666666667,
      "grad_norm": 0.025121991933841827,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2009
    },
    {
      "epoch": 0.1072,
      "grad_norm": 0.025142435222194854,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 2010
    },
    {
      "epoch": 0.10725333333333334,
      "grad_norm": 0.026532337434997024,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 2011
    },
    {
      "epoch": 0.10730666666666666,
      "grad_norm": 0.025678967032873416,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 2012
    },
    {
      "epoch": 0.10736,
      "grad_norm": 0.02638969883814826,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2013
    },
    {
      "epoch": 0.10741333333333333,
      "grad_norm": 0.027287102957817756,
      "learning_rate": 0.0001,
      "loss": 1.0369,
      "step": 2014
    },
    {
      "epoch": 0.10746666666666667,
      "grad_norm": 0.02433789329818884,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 2015
    },
    {
      "epoch": 0.10752,
      "grad_norm": 0.026432855369620846,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2016
    },
    {
      "epoch": 0.10757333333333334,
      "grad_norm": 0.0250285047702418,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2017
    },
    {
      "epoch": 0.10762666666666666,
      "grad_norm": 0.025969295652722393,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2018
    },
    {
      "epoch": 0.10768,
      "grad_norm": 0.026765351775885002,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 2019
    },
    {
      "epoch": 0.10773333333333333,
      "grad_norm": 0.028706935050714335,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 2020
    },
    {
      "epoch": 0.10778666666666667,
      "grad_norm": 0.02514746546500298,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 2021
    },
    {
      "epoch": 0.10784,
      "grad_norm": 0.0276558051163848,
      "learning_rate": 0.0001,
      "loss": 1.0834,
      "step": 2022
    },
    {
      "epoch": 0.10789333333333333,
      "grad_norm": 0.029356735832268208,
      "learning_rate": 0.0001,
      "loss": 1.0651,
      "step": 2023
    },
    {
      "epoch": 0.10794666666666666,
      "grad_norm": 0.02426845761695361,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 2024
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.025014991705868496,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 2025
    },
    {
      "epoch": 0.10805333333333333,
      "grad_norm": 0.024023155685142905,
      "learning_rate": 0.0001,
      "loss": 1.0757,
      "step": 2026
    },
    {
      "epoch": 0.10810666666666667,
      "grad_norm": 0.023053028889462587,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 2027
    },
    {
      "epoch": 0.10816,
      "grad_norm": 0.025082387792870926,
      "learning_rate": 0.0001,
      "loss": 1.0642,
      "step": 2028
    },
    {
      "epoch": 0.10821333333333333,
      "grad_norm": 0.024912207721723933,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 2029
    },
    {
      "epoch": 0.10826666666666666,
      "grad_norm": 0.027902969002500187,
      "learning_rate": 0.0001,
      "loss": 1.0534,
      "step": 2030
    },
    {
      "epoch": 0.10832,
      "grad_norm": 0.025225899202238954,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2031
    },
    {
      "epoch": 0.10837333333333334,
      "grad_norm": 0.028384338649014844,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 2032
    },
    {
      "epoch": 0.10842666666666667,
      "grad_norm": 0.02722072073030891,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2033
    },
    {
      "epoch": 0.10848,
      "grad_norm": 0.02491788083447504,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 2034
    },
    {
      "epoch": 0.10853333333333333,
      "grad_norm": 0.027438717639746334,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2035
    },
    {
      "epoch": 0.10858666666666666,
      "grad_norm": 0.027217281258194913,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 2036
    },
    {
      "epoch": 0.10864,
      "grad_norm": 0.02860720024638957,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 2037
    },
    {
      "epoch": 0.10869333333333334,
      "grad_norm": 0.028686436736618588,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 2038
    },
    {
      "epoch": 0.10874666666666667,
      "grad_norm": 0.027651875297500104,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 2039
    },
    {
      "epoch": 0.1088,
      "grad_norm": 0.029419184242827155,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 2040
    },
    {
      "epoch": 0.10885333333333333,
      "grad_norm": 0.028633842914572116,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 2041
    },
    {
      "epoch": 0.10890666666666667,
      "grad_norm": 0.02608425873008601,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 2042
    },
    {
      "epoch": 0.10896,
      "grad_norm": 0.02848020612327443,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 2043
    },
    {
      "epoch": 0.10901333333333334,
      "grad_norm": 0.025439913900451142,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 2044
    },
    {
      "epoch": 0.10906666666666667,
      "grad_norm": 0.027209960957807634,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 2045
    },
    {
      "epoch": 0.10912,
      "grad_norm": 0.02957948621369767,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2046
    },
    {
      "epoch": 0.10917333333333333,
      "grad_norm": 0.02719346865932927,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 2047
    },
    {
      "epoch": 0.10922666666666667,
      "grad_norm": 0.026246616476969225,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 2048
    },
    {
      "epoch": 0.10928,
      "grad_norm": 0.030369343364549398,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 2049
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 0.027175235093055555,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 2050
    },
    {
      "epoch": 0.10938666666666666,
      "grad_norm": 0.026846670429355204,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 2051
    },
    {
      "epoch": 0.10944,
      "grad_norm": 0.026511130866680003,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 2052
    },
    {
      "epoch": 0.10949333333333333,
      "grad_norm": 0.031949039533228495,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 2053
    },
    {
      "epoch": 0.10954666666666667,
      "grad_norm": 0.02557427169446271,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 2054
    },
    {
      "epoch": 0.1096,
      "grad_norm": 0.02604242031391767,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 2055
    },
    {
      "epoch": 0.10965333333333334,
      "grad_norm": 0.028615658723816117,
      "learning_rate": 0.0001,
      "loss": 1.0614,
      "step": 2056
    },
    {
      "epoch": 0.10970666666666666,
      "grad_norm": 0.024816087769466352,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 2057
    },
    {
      "epoch": 0.10976,
      "grad_norm": 0.026815582701237864,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 2058
    },
    {
      "epoch": 0.10981333333333333,
      "grad_norm": 0.0262103891548872,
      "learning_rate": 0.0001,
      "loss": 1.064,
      "step": 2059
    },
    {
      "epoch": 0.10986666666666667,
      "grad_norm": 0.025708121771794955,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 2060
    },
    {
      "epoch": 0.10992,
      "grad_norm": 0.027747267004105354,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 2061
    },
    {
      "epoch": 0.10997333333333334,
      "grad_norm": 0.02484047787658274,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 2062
    },
    {
      "epoch": 0.11002666666666666,
      "grad_norm": 0.027922309626286668,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 2063
    },
    {
      "epoch": 0.11008,
      "grad_norm": 0.025017010434681238,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 2064
    },
    {
      "epoch": 0.11013333333333333,
      "grad_norm": 0.0248505692191287,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2065
    },
    {
      "epoch": 0.11018666666666667,
      "grad_norm": 0.029069271241668932,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 2066
    },
    {
      "epoch": 0.11024,
      "grad_norm": 0.02548443556454319,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 2067
    },
    {
      "epoch": 0.11029333333333333,
      "grad_norm": 0.028869277951330336,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 2068
    },
    {
      "epoch": 0.11034666666666666,
      "grad_norm": 0.02637719041733675,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2069
    },
    {
      "epoch": 0.1104,
      "grad_norm": 0.025214657186896777,
      "learning_rate": 0.0001,
      "loss": 1.0306,
      "step": 2070
    },
    {
      "epoch": 0.11045333333333333,
      "grad_norm": 0.0275084818588604,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 2071
    },
    {
      "epoch": 0.11050666666666667,
      "grad_norm": 0.025966631301063817,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2072
    },
    {
      "epoch": 0.11056,
      "grad_norm": 0.024043813656554454,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 2073
    },
    {
      "epoch": 0.11061333333333333,
      "grad_norm": 0.026358396195291314,
      "learning_rate": 0.0001,
      "loss": 1.0868,
      "step": 2074
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.02733722459492818,
      "learning_rate": 0.0001,
      "loss": 1.0452,
      "step": 2075
    },
    {
      "epoch": 0.11072,
      "grad_norm": 0.026535197720730642,
      "learning_rate": 0.0001,
      "loss": 1.0739,
      "step": 2076
    },
    {
      "epoch": 0.11077333333333333,
      "grad_norm": 0.02685990440864437,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 2077
    },
    {
      "epoch": 0.11082666666666667,
      "grad_norm": 0.026634582996653902,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 2078
    },
    {
      "epoch": 0.11088,
      "grad_norm": 0.027176844352423287,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 2079
    },
    {
      "epoch": 0.11093333333333333,
      "grad_norm": 0.02575597278270332,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 2080
    },
    {
      "epoch": 0.11098666666666666,
      "grad_norm": 0.024559954273952165,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 2081
    },
    {
      "epoch": 0.11104,
      "grad_norm": 0.024950386761133706,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 2082
    },
    {
      "epoch": 0.11109333333333334,
      "grad_norm": 0.023868522128561987,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2083
    },
    {
      "epoch": 0.11114666666666667,
      "grad_norm": 0.026421875590016245,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 2084
    },
    {
      "epoch": 0.1112,
      "grad_norm": 0.023669395488374222,
      "learning_rate": 0.0001,
      "loss": 1.0959,
      "step": 2085
    },
    {
      "epoch": 0.11125333333333333,
      "grad_norm": 0.024661938863483116,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 2086
    },
    {
      "epoch": 0.11130666666666666,
      "grad_norm": 0.023881553735706013,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2087
    },
    {
      "epoch": 0.11136,
      "grad_norm": 0.02488575308248183,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2088
    },
    {
      "epoch": 0.11141333333333334,
      "grad_norm": 0.02443067274307477,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 2089
    },
    {
      "epoch": 0.11146666666666667,
      "grad_norm": 0.02393087303245719,
      "learning_rate": 0.0001,
      "loss": 1.071,
      "step": 2090
    },
    {
      "epoch": 0.11152,
      "grad_norm": 0.02510129848522317,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 2091
    },
    {
      "epoch": 0.11157333333333333,
      "grad_norm": 0.024360672155185965,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 2092
    },
    {
      "epoch": 0.11162666666666667,
      "grad_norm": 0.027495095082865333,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 2093
    },
    {
      "epoch": 0.11168,
      "grad_norm": 0.024597163069599224,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 2094
    },
    {
      "epoch": 0.11173333333333334,
      "grad_norm": 0.02548759606357906,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 2095
    },
    {
      "epoch": 0.11178666666666667,
      "grad_norm": 0.02388532768351436,
      "learning_rate": 0.0001,
      "loss": 1.0662,
      "step": 2096
    },
    {
      "epoch": 0.11184,
      "grad_norm": 0.025241366364395747,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 2097
    },
    {
      "epoch": 0.11189333333333333,
      "grad_norm": 0.024283780621253408,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2098
    },
    {
      "epoch": 0.11194666666666667,
      "grad_norm": 0.02397924849142294,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 2099
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.02394590902714468,
      "learning_rate": 0.0001,
      "loss": 1.0271,
      "step": 2100
    },
    {
      "epoch": 0.11205333333333334,
      "grad_norm": 0.026508119620060958,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 2101
    },
    {
      "epoch": 0.11210666666666666,
      "grad_norm": 0.023689860835280314,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 2102
    },
    {
      "epoch": 0.11216,
      "grad_norm": 0.024299791428500254,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 2103
    },
    {
      "epoch": 0.11221333333333333,
      "grad_norm": 0.024697222950058634,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 2104
    },
    {
      "epoch": 0.11226666666666667,
      "grad_norm": 0.025070019023772858,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2105
    },
    {
      "epoch": 0.11232,
      "grad_norm": 0.024426040661199272,
      "learning_rate": 0.0001,
      "loss": 0.9113,
      "step": 2106
    },
    {
      "epoch": 0.11237333333333334,
      "grad_norm": 0.025437384340030518,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2107
    },
    {
      "epoch": 0.11242666666666666,
      "grad_norm": 0.024405281651730414,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 2108
    },
    {
      "epoch": 0.11248,
      "grad_norm": 0.026111820242574746,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 2109
    },
    {
      "epoch": 0.11253333333333333,
      "grad_norm": 0.025403810037248894,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 2110
    },
    {
      "epoch": 0.11258666666666667,
      "grad_norm": 0.02344339304681239,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 2111
    },
    {
      "epoch": 0.11264,
      "grad_norm": 0.02547941289802202,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2112
    },
    {
      "epoch": 0.11269333333333334,
      "grad_norm": 0.02653567149376508,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 2113
    },
    {
      "epoch": 0.11274666666666666,
      "grad_norm": 0.025806705609436546,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 2114
    },
    {
      "epoch": 0.1128,
      "grad_norm": 0.02632978171864206,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2115
    },
    {
      "epoch": 0.11285333333333333,
      "grad_norm": 0.028726545421277293,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2116
    },
    {
      "epoch": 0.11290666666666667,
      "grad_norm": 0.029537317447038802,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 2117
    },
    {
      "epoch": 0.11296,
      "grad_norm": 0.025566935821927088,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 2118
    },
    {
      "epoch": 0.11301333333333333,
      "grad_norm": 0.026348353325164157,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 2119
    },
    {
      "epoch": 0.11306666666666666,
      "grad_norm": 0.028456596938348695,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2120
    },
    {
      "epoch": 0.11312,
      "grad_norm": 0.025711155782399922,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2121
    },
    {
      "epoch": 0.11317333333333333,
      "grad_norm": 0.026831048992979282,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 2122
    },
    {
      "epoch": 0.11322666666666667,
      "grad_norm": 0.026519774545114165,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 2123
    },
    {
      "epoch": 0.11328,
      "grad_norm": 0.02561187419602871,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 2124
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.02499713023744051,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 2125
    },
    {
      "epoch": 0.11338666666666666,
      "grad_norm": 0.027188142557324994,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2126
    },
    {
      "epoch": 0.11344,
      "grad_norm": 0.025829479945882833,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 2127
    },
    {
      "epoch": 0.11349333333333333,
      "grad_norm": 0.025590529280256548,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2128
    },
    {
      "epoch": 0.11354666666666667,
      "grad_norm": 0.025105861896526208,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 2129
    },
    {
      "epoch": 0.1136,
      "grad_norm": 0.02478240323442967,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 2130
    },
    {
      "epoch": 0.11365333333333333,
      "grad_norm": 0.026729487245765175,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 2131
    },
    {
      "epoch": 0.11370666666666666,
      "grad_norm": 0.024163514705901116,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 2132
    },
    {
      "epoch": 0.11376,
      "grad_norm": 0.0251970161349959,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 2133
    },
    {
      "epoch": 0.11381333333333334,
      "grad_norm": 0.025548084977616705,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2134
    },
    {
      "epoch": 0.11386666666666667,
      "grad_norm": 0.02558494837667576,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 2135
    },
    {
      "epoch": 0.11392,
      "grad_norm": 0.026479998889485264,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 2136
    },
    {
      "epoch": 0.11397333333333333,
      "grad_norm": 0.02669569326000752,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2137
    },
    {
      "epoch": 0.11402666666666667,
      "grad_norm": 0.028505811579913533,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 2138
    },
    {
      "epoch": 0.11408,
      "grad_norm": 0.025834098851613738,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 2139
    },
    {
      "epoch": 0.11413333333333334,
      "grad_norm": 0.028263465436620748,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 2140
    },
    {
      "epoch": 0.11418666666666667,
      "grad_norm": 0.025028575761081327,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 2141
    },
    {
      "epoch": 0.11424,
      "grad_norm": 0.02491420736179301,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 2142
    },
    {
      "epoch": 0.11429333333333333,
      "grad_norm": 0.025524255050032047,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 2143
    },
    {
      "epoch": 0.11434666666666667,
      "grad_norm": 0.023813079788056524,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2144
    },
    {
      "epoch": 0.1144,
      "grad_norm": 0.02582461420766471,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 2145
    },
    {
      "epoch": 0.11445333333333334,
      "grad_norm": 0.025470043529205722,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 2146
    },
    {
      "epoch": 0.11450666666666667,
      "grad_norm": 0.024923656566735803,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 2147
    },
    {
      "epoch": 0.11456,
      "grad_norm": 0.025511512300976848,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2148
    },
    {
      "epoch": 0.11461333333333333,
      "grad_norm": 0.02640557009199673,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 2149
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.02408924397605639,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 2150
    },
    {
      "epoch": 0.11472,
      "grad_norm": 0.02631311666127592,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2151
    },
    {
      "epoch": 0.11477333333333334,
      "grad_norm": 0.024600700473147004,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 2152
    },
    {
      "epoch": 0.11482666666666666,
      "grad_norm": 0.02501648714994939,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 2153
    },
    {
      "epoch": 0.11488,
      "grad_norm": 0.02395526142938342,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 2154
    },
    {
      "epoch": 0.11493333333333333,
      "grad_norm": 0.024870331139526258,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2155
    },
    {
      "epoch": 0.11498666666666667,
      "grad_norm": 0.023881387043714664,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2156
    },
    {
      "epoch": 0.11504,
      "grad_norm": 0.027182444619142862,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 2157
    },
    {
      "epoch": 0.11509333333333334,
      "grad_norm": 0.026538848672725667,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 2158
    },
    {
      "epoch": 0.11514666666666666,
      "grad_norm": 0.029701252435740746,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 2159
    },
    {
      "epoch": 0.1152,
      "grad_norm": 0.025367714095643784,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 2160
    },
    {
      "epoch": 0.11525333333333333,
      "grad_norm": 0.025827633540537614,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 2161
    },
    {
      "epoch": 0.11530666666666667,
      "grad_norm": 0.026948062670853628,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 2162
    },
    {
      "epoch": 0.11536,
      "grad_norm": 0.02699895684854266,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2163
    },
    {
      "epoch": 0.11541333333333334,
      "grad_norm": 0.028115170220504845,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 2164
    },
    {
      "epoch": 0.11546666666666666,
      "grad_norm": 0.02346122533434368,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 2165
    },
    {
      "epoch": 0.11552,
      "grad_norm": 0.024809099692921464,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2166
    },
    {
      "epoch": 0.11557333333333333,
      "grad_norm": 0.025255762490050567,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 2167
    },
    {
      "epoch": 0.11562666666666667,
      "grad_norm": 0.025471629978375272,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 2168
    },
    {
      "epoch": 0.11568,
      "grad_norm": 0.026934947170753842,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 2169
    },
    {
      "epoch": 0.11573333333333333,
      "grad_norm": 0.025141800537033892,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 2170
    },
    {
      "epoch": 0.11578666666666666,
      "grad_norm": 0.02587008193707526,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2171
    },
    {
      "epoch": 0.11584,
      "grad_norm": 0.023292921017200426,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 2172
    },
    {
      "epoch": 0.11589333333333333,
      "grad_norm": 0.025524203599054412,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 2173
    },
    {
      "epoch": 0.11594666666666667,
      "grad_norm": 0.028251193599291128,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 2174
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.027883744965098843,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 2175
    },
    {
      "epoch": 0.11605333333333333,
      "grad_norm": 0.025414836198772932,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 2176
    },
    {
      "epoch": 0.11610666666666666,
      "grad_norm": 0.02749178847621007,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2177
    },
    {
      "epoch": 0.11616,
      "grad_norm": 0.02900638392204523,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 2178
    },
    {
      "epoch": 0.11621333333333334,
      "grad_norm": 0.026942494721799375,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 2179
    },
    {
      "epoch": 0.11626666666666667,
      "grad_norm": 0.03020466338435861,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 2180
    },
    {
      "epoch": 0.11632,
      "grad_norm": 0.026672907941511715,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 2181
    },
    {
      "epoch": 0.11637333333333333,
      "grad_norm": 0.02585952896216991,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "step": 2182
    },
    {
      "epoch": 0.11642666666666666,
      "grad_norm": 0.031111452523205397,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 2183
    },
    {
      "epoch": 0.11648,
      "grad_norm": 0.027303613813678938,
      "learning_rate": 0.0001,
      "loss": 1.035,
      "step": 2184
    },
    {
      "epoch": 0.11653333333333334,
      "grad_norm": 0.02607216215240182,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 2185
    },
    {
      "epoch": 0.11658666666666667,
      "grad_norm": 0.0252004913760288,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 2186
    },
    {
      "epoch": 0.11664,
      "grad_norm": 0.025978245350445496,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 2187
    },
    {
      "epoch": 0.11669333333333333,
      "grad_norm": 0.0249562201003815,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2188
    },
    {
      "epoch": 0.11674666666666667,
      "grad_norm": 0.02659815952995092,
      "learning_rate": 0.0001,
      "loss": 1.0304,
      "step": 2189
    },
    {
      "epoch": 0.1168,
      "grad_norm": 0.023313342383045953,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 2190
    },
    {
      "epoch": 0.11685333333333334,
      "grad_norm": 0.024586920277902588,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 2191
    },
    {
      "epoch": 0.11690666666666667,
      "grad_norm": 0.02635315315740599,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2192
    },
    {
      "epoch": 0.11696,
      "grad_norm": 0.026663139144916567,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 2193
    },
    {
      "epoch": 0.11701333333333333,
      "grad_norm": 0.029163529836532632,
      "learning_rate": 0.0001,
      "loss": 1.0636,
      "step": 2194
    },
    {
      "epoch": 0.11706666666666667,
      "grad_norm": 0.02375087992844998,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2195
    },
    {
      "epoch": 0.11712,
      "grad_norm": 0.02704762426529672,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2196
    },
    {
      "epoch": 0.11717333333333334,
      "grad_norm": 0.025275270574401557,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2197
    },
    {
      "epoch": 0.11722666666666667,
      "grad_norm": 0.025901552150734145,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 2198
    },
    {
      "epoch": 0.11728,
      "grad_norm": 0.024033233245106006,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 2199
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.027105058366041383,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 2200
    },
    {
      "epoch": 0.11733333333333333,
      "eval_accuracy": 0.6128739637526313,
      "eval_loss": 1.395006537437439,
      "eval_runtime": 63.1586,
      "eval_samples_per_second": 15.833,
      "eval_steps_per_second": 0.507,
      "step": 2200
    },
    {
      "epoch": 0.11738666666666667,
      "grad_norm": 0.02478482517119919,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 2201
    },
    {
      "epoch": 0.11744,
      "grad_norm": 0.027570169184380912,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2202
    },
    {
      "epoch": 0.11749333333333334,
      "grad_norm": 0.02711610687161766,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 2203
    },
    {
      "epoch": 0.11754666666666666,
      "grad_norm": 0.024089632198276825,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 2204
    },
    {
      "epoch": 0.1176,
      "grad_norm": 0.029024347408009934,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 2205
    },
    {
      "epoch": 0.11765333333333333,
      "grad_norm": 0.023486078775297677,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 2206
    },
    {
      "epoch": 0.11770666666666667,
      "grad_norm": 0.02488725243225441,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 2207
    },
    {
      "epoch": 0.11776,
      "grad_norm": 0.028135197386752013,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2208
    },
    {
      "epoch": 0.11781333333333334,
      "grad_norm": 0.02409954318468765,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2209
    },
    {
      "epoch": 0.11786666666666666,
      "grad_norm": 0.028528765087592327,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2210
    },
    {
      "epoch": 0.11792,
      "grad_norm": 0.02638979909472164,
      "learning_rate": 0.0001,
      "loss": 1.0691,
      "step": 2211
    },
    {
      "epoch": 0.11797333333333333,
      "grad_norm": 0.026060209929790926,
      "learning_rate": 0.0001,
      "loss": 1.0652,
      "step": 2212
    },
    {
      "epoch": 0.11802666666666667,
      "grad_norm": 0.025195091875581544,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 2213
    },
    {
      "epoch": 0.11808,
      "grad_norm": 0.024691992479500754,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 2214
    },
    {
      "epoch": 0.11813333333333334,
      "grad_norm": 0.025585358124083066,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 2215
    },
    {
      "epoch": 0.11818666666666666,
      "grad_norm": 0.02671291736365302,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 2216
    },
    {
      "epoch": 0.11824,
      "grad_norm": 0.02659700390525089,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 2217
    },
    {
      "epoch": 0.11829333333333333,
      "grad_norm": 0.027240987325132637,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2218
    },
    {
      "epoch": 0.11834666666666667,
      "grad_norm": 0.027643460931971717,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 2219
    },
    {
      "epoch": 0.1184,
      "grad_norm": 0.027329912138762465,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 2220
    },
    {
      "epoch": 0.11845333333333333,
      "grad_norm": 0.024115136954137383,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 2221
    },
    {
      "epoch": 0.11850666666666666,
      "grad_norm": 0.026424180147690456,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2222
    },
    {
      "epoch": 0.11856,
      "grad_norm": 0.025253483946143088,
      "learning_rate": 0.0001,
      "loss": 1.0554,
      "step": 2223
    },
    {
      "epoch": 0.11861333333333333,
      "grad_norm": 0.024878362585387635,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 2224
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.024217331106613057,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 2225
    },
    {
      "epoch": 0.11872,
      "grad_norm": 0.026135317848791136,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2226
    },
    {
      "epoch": 0.11877333333333333,
      "grad_norm": 0.022600537355349896,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 2227
    },
    {
      "epoch": 0.11882666666666666,
      "grad_norm": 0.024101452305747527,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 2228
    },
    {
      "epoch": 0.11888,
      "grad_norm": 0.02909712696665901,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 2229
    },
    {
      "epoch": 0.11893333333333334,
      "grad_norm": 0.024348529252693325,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 2230
    },
    {
      "epoch": 0.11898666666666667,
      "grad_norm": 0.023139462152396536,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2231
    },
    {
      "epoch": 0.11904,
      "grad_norm": 0.025573246889224053,
      "learning_rate": 0.0001,
      "loss": 1.0592,
      "step": 2232
    },
    {
      "epoch": 0.11909333333333333,
      "grad_norm": 0.0265533180260822,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 2233
    },
    {
      "epoch": 0.11914666666666666,
      "grad_norm": 0.024775480491924913,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 2234
    },
    {
      "epoch": 0.1192,
      "grad_norm": 0.02791296818461633,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 2235
    },
    {
      "epoch": 0.11925333333333334,
      "grad_norm": 0.02493075563355415,
      "learning_rate": 0.0001,
      "loss": 0.9142,
      "step": 2236
    },
    {
      "epoch": 0.11930666666666667,
      "grad_norm": 0.025385716218320677,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 2237
    },
    {
      "epoch": 0.11936,
      "grad_norm": 0.025235061425476768,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2238
    },
    {
      "epoch": 0.11941333333333333,
      "grad_norm": 0.02716148586099377,
      "learning_rate": 0.0001,
      "loss": 1.0275,
      "step": 2239
    },
    {
      "epoch": 0.11946666666666667,
      "grad_norm": 0.023903046714259843,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 2240
    },
    {
      "epoch": 0.11952,
      "grad_norm": 0.028375828560216327,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 2241
    },
    {
      "epoch": 0.11957333333333334,
      "grad_norm": 0.02474316461667185,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 2242
    },
    {
      "epoch": 0.11962666666666667,
      "grad_norm": 0.024792544225092108,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2243
    },
    {
      "epoch": 0.11968,
      "grad_norm": 0.0266972827166745,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 2244
    },
    {
      "epoch": 0.11973333333333333,
      "grad_norm": 0.02460394153459942,
      "learning_rate": 0.0001,
      "loss": 1.0418,
      "step": 2245
    },
    {
      "epoch": 0.11978666666666667,
      "grad_norm": 0.025426073009645486,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 2246
    },
    {
      "epoch": 0.11984,
      "grad_norm": 0.024972036172600902,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 2247
    },
    {
      "epoch": 0.11989333333333334,
      "grad_norm": 0.026952260205288056,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 2248
    },
    {
      "epoch": 0.11994666666666666,
      "grad_norm": 0.024526908562663072,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2249
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.024264137688234287,
      "learning_rate": 0.0001,
      "loss": 1.0641,
      "step": 2250
    },
    {
      "epoch": 0.12005333333333333,
      "grad_norm": 0.02683594638712846,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 2251
    },
    {
      "epoch": 0.12010666666666667,
      "grad_norm": 0.02575785909783277,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 2252
    },
    {
      "epoch": 0.12016,
      "grad_norm": 0.02507322268481655,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 2253
    },
    {
      "epoch": 0.12021333333333334,
      "grad_norm": 0.025405427393187928,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 2254
    },
    {
      "epoch": 0.12026666666666666,
      "grad_norm": 0.026983804964890206,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 2255
    },
    {
      "epoch": 0.12032,
      "grad_norm": 0.02654267161033317,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2256
    },
    {
      "epoch": 0.12037333333333333,
      "grad_norm": 0.025841584251070332,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 2257
    },
    {
      "epoch": 0.12042666666666667,
      "grad_norm": 0.024024897657589778,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 2258
    },
    {
      "epoch": 0.12048,
      "grad_norm": 0.024679692467250734,
      "learning_rate": 0.0001,
      "loss": 1.0112,
      "step": 2259
    },
    {
      "epoch": 0.12053333333333334,
      "grad_norm": 0.023716317010130623,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 2260
    },
    {
      "epoch": 0.12058666666666666,
      "grad_norm": 0.02545887553813254,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 2261
    },
    {
      "epoch": 0.12064,
      "grad_norm": 0.02561845887876053,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 2262
    },
    {
      "epoch": 0.12069333333333333,
      "grad_norm": 0.024059550123871877,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 2263
    },
    {
      "epoch": 0.12074666666666667,
      "grad_norm": 0.025250166181388367,
      "learning_rate": 0.0001,
      "loss": 1.0552,
      "step": 2264
    },
    {
      "epoch": 0.1208,
      "grad_norm": 0.023607059496769445,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 2265
    },
    {
      "epoch": 0.12085333333333333,
      "grad_norm": 0.02298476421905342,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 2266
    },
    {
      "epoch": 0.12090666666666666,
      "grad_norm": 0.026655938457062683,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2267
    },
    {
      "epoch": 0.12096,
      "grad_norm": 0.024828170889288393,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 2268
    },
    {
      "epoch": 0.12101333333333333,
      "grad_norm": 0.027899760042119085,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2269
    },
    {
      "epoch": 0.12106666666666667,
      "grad_norm": 0.025095891605177858,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 2270
    },
    {
      "epoch": 0.12112,
      "grad_norm": 0.025537045908159202,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 2271
    },
    {
      "epoch": 0.12117333333333333,
      "grad_norm": 0.03003173688453457,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 2272
    },
    {
      "epoch": 0.12122666666666666,
      "grad_norm": 0.024338157207714227,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 2273
    },
    {
      "epoch": 0.12128,
      "grad_norm": 0.026393140026234618,
      "learning_rate": 0.0001,
      "loss": 1.0409,
      "step": 2274
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.025956432948580476,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 2275
    },
    {
      "epoch": 0.12138666666666667,
      "grad_norm": 0.023792936063251446,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2276
    },
    {
      "epoch": 0.12144,
      "grad_norm": 0.02468068989357024,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 2277
    },
    {
      "epoch": 0.12149333333333333,
      "grad_norm": 0.02673159107880864,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2278
    },
    {
      "epoch": 0.12154666666666666,
      "grad_norm": 0.02504438775151449,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 2279
    },
    {
      "epoch": 0.1216,
      "grad_norm": 0.027277504793960152,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2280
    },
    {
      "epoch": 0.12165333333333334,
      "grad_norm": 0.026755016764954603,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 2281
    },
    {
      "epoch": 0.12170666666666667,
      "grad_norm": 0.025003836238070818,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 2282
    },
    {
      "epoch": 0.12176,
      "grad_norm": 0.02593767349932197,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2283
    },
    {
      "epoch": 0.12181333333333333,
      "grad_norm": 0.028582759107997076,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 2284
    },
    {
      "epoch": 0.12186666666666666,
      "grad_norm": 0.025686488189980528,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 2285
    },
    {
      "epoch": 0.12192,
      "grad_norm": 0.031207993823977556,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2286
    },
    {
      "epoch": 0.12197333333333334,
      "grad_norm": 0.025392439244568903,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 2287
    },
    {
      "epoch": 0.12202666666666667,
      "grad_norm": 0.025445577594875923,
      "learning_rate": 0.0001,
      "loss": 1.0539,
      "step": 2288
    },
    {
      "epoch": 0.12208,
      "grad_norm": 0.026741925094306965,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 2289
    },
    {
      "epoch": 0.12213333333333333,
      "grad_norm": 0.02667242735905432,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 2290
    },
    {
      "epoch": 0.12218666666666667,
      "grad_norm": 0.0237866162073877,
      "learning_rate": 0.0001,
      "loss": 1.0508,
      "step": 2291
    },
    {
      "epoch": 0.12224,
      "grad_norm": 0.027056687542109464,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2292
    },
    {
      "epoch": 0.12229333333333334,
      "grad_norm": 0.02329431378207358,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2293
    },
    {
      "epoch": 0.12234666666666667,
      "grad_norm": 0.026644150280245225,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2294
    },
    {
      "epoch": 0.1224,
      "grad_norm": 0.02417354345914636,
      "learning_rate": 0.0001,
      "loss": 0.9799,
      "step": 2295
    },
    {
      "epoch": 0.12245333333333333,
      "grad_norm": 0.02706610783330873,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2296
    },
    {
      "epoch": 0.12250666666666667,
      "grad_norm": 0.026589492127304427,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 2297
    },
    {
      "epoch": 0.12256,
      "grad_norm": 0.023102243852307632,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 2298
    },
    {
      "epoch": 0.12261333333333334,
      "grad_norm": 0.025783684292017224,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 2299
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.024287853394697745,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 2300
    },
    {
      "epoch": 0.12272,
      "grad_norm": 0.02373041746419001,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 2301
    },
    {
      "epoch": 0.12277333333333333,
      "grad_norm": 0.02412243536749563,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 2302
    },
    {
      "epoch": 0.12282666666666667,
      "grad_norm": 0.02486951768026473,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 2303
    },
    {
      "epoch": 0.12288,
      "grad_norm": 0.02603473484554617,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 2304
    },
    {
      "epoch": 0.12293333333333334,
      "grad_norm": 0.023719358418685714,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 2305
    },
    {
      "epoch": 0.12298666666666666,
      "grad_norm": 0.026025718985220988,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 2306
    },
    {
      "epoch": 0.12304,
      "grad_norm": 0.024908400459131515,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 2307
    },
    {
      "epoch": 0.12309333333333333,
      "grad_norm": 0.025320953616971488,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 2308
    },
    {
      "epoch": 0.12314666666666667,
      "grad_norm": 0.02733710781460175,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 2309
    },
    {
      "epoch": 0.1232,
      "grad_norm": 0.02622614362205955,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 2310
    },
    {
      "epoch": 0.12325333333333334,
      "grad_norm": 0.026346971821382466,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 2311
    },
    {
      "epoch": 0.12330666666666666,
      "grad_norm": 0.025951277406270068,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 2312
    },
    {
      "epoch": 0.12336,
      "grad_norm": 0.025561704135771596,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 2313
    },
    {
      "epoch": 0.12341333333333333,
      "grad_norm": 0.025299638498359915,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 2314
    },
    {
      "epoch": 0.12346666666666667,
      "grad_norm": 0.02739093425398755,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 2315
    },
    {
      "epoch": 0.12352,
      "grad_norm": 0.02521513628295191,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 2316
    },
    {
      "epoch": 0.12357333333333333,
      "grad_norm": 0.026189532820918963,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 2317
    },
    {
      "epoch": 0.12362666666666666,
      "grad_norm": 0.023910240059815624,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 2318
    },
    {
      "epoch": 0.12368,
      "grad_norm": 0.02497478094878405,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 2319
    },
    {
      "epoch": 0.12373333333333333,
      "grad_norm": 0.02656036491144507,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2320
    },
    {
      "epoch": 0.12378666666666667,
      "grad_norm": 0.02779863671775531,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2321
    },
    {
      "epoch": 0.12384,
      "grad_norm": 0.026700532236986645,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2322
    },
    {
      "epoch": 0.12389333333333333,
      "grad_norm": 0.0296532015130582,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 2323
    },
    {
      "epoch": 0.12394666666666666,
      "grad_norm": 0.02685835241122253,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 2324
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.02510581740354633,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2325
    },
    {
      "epoch": 0.12405333333333333,
      "grad_norm": 0.028857047104012896,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 2326
    },
    {
      "epoch": 0.12410666666666667,
      "grad_norm": 0.028185509569834233,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2327
    },
    {
      "epoch": 0.12416,
      "grad_norm": 0.02539353861850295,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2328
    },
    {
      "epoch": 0.12421333333333333,
      "grad_norm": 0.03108222333558156,
      "learning_rate": 0.0001,
      "loss": 1.0779,
      "step": 2329
    },
    {
      "epoch": 0.12426666666666666,
      "grad_norm": 0.027972158118336737,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 2330
    },
    {
      "epoch": 0.12432,
      "grad_norm": 0.029512758317712467,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 2331
    },
    {
      "epoch": 0.12437333333333334,
      "grad_norm": 0.0297690540641671,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 2332
    },
    {
      "epoch": 0.12442666666666667,
      "grad_norm": 0.02762344083258665,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 2333
    },
    {
      "epoch": 0.12448,
      "grad_norm": 0.023923237192540314,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 2334
    },
    {
      "epoch": 0.12453333333333333,
      "grad_norm": 0.03038605050438039,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 2335
    },
    {
      "epoch": 0.12458666666666667,
      "grad_norm": 0.026178815528928676,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 2336
    },
    {
      "epoch": 0.12464,
      "grad_norm": 0.024144204676639577,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "step": 2337
    },
    {
      "epoch": 0.12469333333333334,
      "grad_norm": 0.026133992423928703,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 2338
    },
    {
      "epoch": 0.12474666666666667,
      "grad_norm": 0.024459517998669,
      "learning_rate": 0.0001,
      "loss": 1.0506,
      "step": 2339
    },
    {
      "epoch": 0.1248,
      "grad_norm": 0.027166214043406883,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 2340
    },
    {
      "epoch": 0.12485333333333333,
      "grad_norm": 0.024912182419569287,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 2341
    },
    {
      "epoch": 0.12490666666666667,
      "grad_norm": 0.025082113393327596,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 2342
    },
    {
      "epoch": 0.12496,
      "grad_norm": 0.025263949997530878,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 2343
    },
    {
      "epoch": 0.12501333333333334,
      "grad_norm": 0.027570713139985187,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 2344
    },
    {
      "epoch": 0.12506666666666666,
      "grad_norm": 0.026262066231156855,
      "learning_rate": 0.0001,
      "loss": 1.0461,
      "step": 2345
    },
    {
      "epoch": 0.12512,
      "grad_norm": 0.024540365054332654,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2346
    },
    {
      "epoch": 0.12517333333333333,
      "grad_norm": 0.026731365645079493,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 2347
    },
    {
      "epoch": 0.12522666666666665,
      "grad_norm": 0.023640325089695546,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2348
    },
    {
      "epoch": 0.12528,
      "grad_norm": 0.02703555614219968,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 2349
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.029079870961655145,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 2350
    },
    {
      "epoch": 0.12538666666666667,
      "grad_norm": 0.02597254551271711,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 2351
    },
    {
      "epoch": 0.12544,
      "grad_norm": 0.024751314155041865,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 2352
    },
    {
      "epoch": 0.12549333333333335,
      "grad_norm": 0.02448393101161119,
      "learning_rate": 0.0001,
      "loss": 1.0672,
      "step": 2353
    },
    {
      "epoch": 0.12554666666666667,
      "grad_norm": 0.026098804491193214,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2354
    },
    {
      "epoch": 0.1256,
      "grad_norm": 0.02620008497566,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2355
    },
    {
      "epoch": 0.12565333333333334,
      "grad_norm": 0.02450381694613561,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 2356
    },
    {
      "epoch": 0.12570666666666666,
      "grad_norm": 0.025142600053837505,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2357
    },
    {
      "epoch": 0.12576,
      "grad_norm": 0.0251836775377677,
      "learning_rate": 0.0001,
      "loss": 1.0449,
      "step": 2358
    },
    {
      "epoch": 0.12581333333333333,
      "grad_norm": 0.025141950917241092,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2359
    },
    {
      "epoch": 0.12586666666666665,
      "grad_norm": 0.02767041615324229,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2360
    },
    {
      "epoch": 0.12592,
      "grad_norm": 0.02583453418140071,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 2361
    },
    {
      "epoch": 0.12597333333333333,
      "grad_norm": 0.02474236197058599,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 2362
    },
    {
      "epoch": 0.12602666666666668,
      "grad_norm": 0.02604301268899962,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 2363
    },
    {
      "epoch": 0.12608,
      "grad_norm": 0.026472180865333858,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2364
    },
    {
      "epoch": 0.12613333333333332,
      "grad_norm": 0.023995616953468194,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 2365
    },
    {
      "epoch": 0.12618666666666667,
      "grad_norm": 0.027306594724428146,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 2366
    },
    {
      "epoch": 0.12624,
      "grad_norm": 0.02485576147395608,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 2367
    },
    {
      "epoch": 0.12629333333333334,
      "grad_norm": 0.02669452136723653,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 2368
    },
    {
      "epoch": 0.12634666666666666,
      "grad_norm": 0.030182812358767585,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 2369
    },
    {
      "epoch": 0.1264,
      "grad_norm": 0.027020314733657312,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2370
    },
    {
      "epoch": 0.12645333333333333,
      "grad_norm": 0.02728580794401608,
      "learning_rate": 0.0001,
      "loss": 1.0212,
      "step": 2371
    },
    {
      "epoch": 0.12650666666666666,
      "grad_norm": 0.02690873082005825,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 2372
    },
    {
      "epoch": 0.12656,
      "grad_norm": 0.025090378054911683,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 2373
    },
    {
      "epoch": 0.12661333333333333,
      "grad_norm": 0.025345502004403896,
      "learning_rate": 0.0001,
      "loss": 0.9142,
      "step": 2374
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.026061706156184413,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 2375
    },
    {
      "epoch": 0.12672,
      "grad_norm": 0.02486405372653554,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 2376
    },
    {
      "epoch": 0.12677333333333332,
      "grad_norm": 0.02568641379744047,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2377
    },
    {
      "epoch": 0.12682666666666667,
      "grad_norm": 0.025105387676051152,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 2378
    },
    {
      "epoch": 0.12688,
      "grad_norm": 0.026173299716930904,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 2379
    },
    {
      "epoch": 0.12693333333333334,
      "grad_norm": 0.02879403116005916,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 2380
    },
    {
      "epoch": 0.12698666666666666,
      "grad_norm": 0.02704904926732383,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 2381
    },
    {
      "epoch": 0.12704,
      "grad_norm": 0.025840035082245298,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2382
    },
    {
      "epoch": 0.12709333333333334,
      "grad_norm": 0.025967705431076987,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 2383
    },
    {
      "epoch": 0.12714666666666666,
      "grad_norm": 0.025253734628724867,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 2384
    },
    {
      "epoch": 0.1272,
      "grad_norm": 0.024618778932433166,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 2385
    },
    {
      "epoch": 0.12725333333333333,
      "grad_norm": 0.02653231012833248,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2386
    },
    {
      "epoch": 0.12730666666666668,
      "grad_norm": 0.026717012718468894,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 2387
    },
    {
      "epoch": 0.12736,
      "grad_norm": 0.025581640783423315,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 2388
    },
    {
      "epoch": 0.12741333333333332,
      "grad_norm": 0.02548903571596071,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2389
    },
    {
      "epoch": 0.12746666666666667,
      "grad_norm": 0.02767852990118225,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 2390
    },
    {
      "epoch": 0.12752,
      "grad_norm": 0.026052203453361452,
      "learning_rate": 0.0001,
      "loss": 1.0655,
      "step": 2391
    },
    {
      "epoch": 0.12757333333333334,
      "grad_norm": 0.02534168219379452,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 2392
    },
    {
      "epoch": 0.12762666666666667,
      "grad_norm": 0.026221011247794405,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 2393
    },
    {
      "epoch": 0.12768,
      "grad_norm": 0.02509062530441474,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 2394
    },
    {
      "epoch": 0.12773333333333334,
      "grad_norm": 0.026097979084296764,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 2395
    },
    {
      "epoch": 0.12778666666666666,
      "grad_norm": 0.02510367887266051,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 2396
    },
    {
      "epoch": 0.12784,
      "grad_norm": 0.026264658669516074,
      "learning_rate": 0.0001,
      "loss": 1.0723,
      "step": 2397
    },
    {
      "epoch": 0.12789333333333333,
      "grad_norm": 0.025529962480647414,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2398
    },
    {
      "epoch": 0.12794666666666665,
      "grad_norm": 0.025080028405239697,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 2399
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.025360113678051986,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2400
    },
    {
      "epoch": 0.128,
      "eval_accuracy": 0.6133737235702583,
      "eval_loss": 1.3925503492355347,
      "eval_runtime": 63.0259,
      "eval_samples_per_second": 15.866,
      "eval_steps_per_second": 0.508,
      "step": 2400
    },
    {
      "epoch": 0.12805333333333332,
      "grad_norm": 0.027075521786471598,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2401
    },
    {
      "epoch": 0.12810666666666667,
      "grad_norm": 0.02880467614813902,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 2402
    },
    {
      "epoch": 0.12816,
      "grad_norm": 0.026650682993478503,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 2403
    },
    {
      "epoch": 0.12821333333333335,
      "grad_norm": 0.02836891149328657,
      "learning_rate": 0.0001,
      "loss": 1.0255,
      "step": 2404
    },
    {
      "epoch": 0.12826666666666667,
      "grad_norm": 0.025603379514517327,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2405
    },
    {
      "epoch": 0.12832,
      "grad_norm": 0.02676535820608139,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "step": 2406
    },
    {
      "epoch": 0.12837333333333334,
      "grad_norm": 0.02599093536549144,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2407
    },
    {
      "epoch": 0.12842666666666666,
      "grad_norm": 0.0271121202558267,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2408
    },
    {
      "epoch": 0.12848,
      "grad_norm": 0.025994231231715684,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2409
    },
    {
      "epoch": 0.12853333333333333,
      "grad_norm": 0.025929592310601626,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 2410
    },
    {
      "epoch": 0.12858666666666665,
      "grad_norm": 0.02707486312618192,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 2411
    },
    {
      "epoch": 0.12864,
      "grad_norm": 0.026292993034618604,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 2412
    },
    {
      "epoch": 0.12869333333333333,
      "grad_norm": 0.02755841232990589,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 2413
    },
    {
      "epoch": 0.12874666666666668,
      "grad_norm": 0.02746351608929294,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2414
    },
    {
      "epoch": 0.1288,
      "grad_norm": 0.02498874824628734,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2415
    },
    {
      "epoch": 0.12885333333333332,
      "grad_norm": 0.025633893473424686,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 2416
    },
    {
      "epoch": 0.12890666666666667,
      "grad_norm": 0.028261768738729338,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2417
    },
    {
      "epoch": 0.12896,
      "grad_norm": 0.024845765337774786,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 2418
    },
    {
      "epoch": 0.12901333333333334,
      "grad_norm": 0.0224777196916003,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 2419
    },
    {
      "epoch": 0.12906666666666666,
      "grad_norm": 0.026297030714830142,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 2420
    },
    {
      "epoch": 0.12912,
      "grad_norm": 0.02724522980083961,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 2421
    },
    {
      "epoch": 0.12917333333333333,
      "grad_norm": 0.024700423410813105,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 2422
    },
    {
      "epoch": 0.12922666666666666,
      "grad_norm": 0.024804525836374856,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 2423
    },
    {
      "epoch": 0.12928,
      "grad_norm": 0.026964047831832507,
      "learning_rate": 0.0001,
      "loss": 1.0614,
      "step": 2424
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.026118136786538113,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 2425
    },
    {
      "epoch": 0.12938666666666668,
      "grad_norm": 0.024866215486403047,
      "learning_rate": 0.0001,
      "loss": 1.0427,
      "step": 2426
    },
    {
      "epoch": 0.12944,
      "grad_norm": 0.02643360598580856,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 2427
    },
    {
      "epoch": 0.12949333333333332,
      "grad_norm": 0.02572323700260064,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 2428
    },
    {
      "epoch": 0.12954666666666667,
      "grad_norm": 0.02583573440614129,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 2429
    },
    {
      "epoch": 0.1296,
      "grad_norm": 0.02578171477727797,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 2430
    },
    {
      "epoch": 0.12965333333333334,
      "grad_norm": 0.02651372954792764,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 2431
    },
    {
      "epoch": 0.12970666666666666,
      "grad_norm": 0.026432713056399652,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 2432
    },
    {
      "epoch": 0.12976,
      "grad_norm": 0.027388267153690485,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 2433
    },
    {
      "epoch": 0.12981333333333334,
      "grad_norm": 0.026174403976917855,
      "learning_rate": 0.0001,
      "loss": 0.8993,
      "step": 2434
    },
    {
      "epoch": 0.12986666666666666,
      "grad_norm": 0.024122930540919768,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2435
    },
    {
      "epoch": 0.12992,
      "grad_norm": 0.025666486335540067,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 2436
    },
    {
      "epoch": 0.12997333333333333,
      "grad_norm": 0.026066719904246246,
      "learning_rate": 0.0001,
      "loss": 1.0544,
      "step": 2437
    },
    {
      "epoch": 0.13002666666666668,
      "grad_norm": 0.025182112697953205,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 2438
    },
    {
      "epoch": 0.13008,
      "grad_norm": 0.024535260762843913,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 2439
    },
    {
      "epoch": 0.13013333333333332,
      "grad_norm": 0.024416571145252548,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2440
    },
    {
      "epoch": 0.13018666666666667,
      "grad_norm": 0.02391126898492755,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 2441
    },
    {
      "epoch": 0.13024,
      "grad_norm": 0.024560959142077995,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 2442
    },
    {
      "epoch": 0.13029333333333334,
      "grad_norm": 0.025998225500617603,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2443
    },
    {
      "epoch": 0.13034666666666667,
      "grad_norm": 0.024911989440932737,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 2444
    },
    {
      "epoch": 0.1304,
      "grad_norm": 0.028004916357241998,
      "learning_rate": 0.0001,
      "loss": 1.0212,
      "step": 2445
    },
    {
      "epoch": 0.13045333333333334,
      "grad_norm": 0.024435807169905642,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2446
    },
    {
      "epoch": 0.13050666666666666,
      "grad_norm": 0.02801550106551659,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 2447
    },
    {
      "epoch": 0.13056,
      "grad_norm": 0.025119826258274178,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 2448
    },
    {
      "epoch": 0.13061333333333333,
      "grad_norm": 0.02659907987405048,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 2449
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.025863118885475038,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 2450
    },
    {
      "epoch": 0.13072,
      "grad_norm": 0.02472980560800673,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 2451
    },
    {
      "epoch": 0.13077333333333332,
      "grad_norm": 0.02702333219902197,
      "learning_rate": 0.0001,
      "loss": 1.0346,
      "step": 2452
    },
    {
      "epoch": 0.13082666666666667,
      "grad_norm": 0.024930989847762798,
      "learning_rate": 0.0001,
      "loss": 1.0696,
      "step": 2453
    },
    {
      "epoch": 0.13088,
      "grad_norm": 0.024150482060243804,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 2454
    },
    {
      "epoch": 0.13093333333333335,
      "grad_norm": 0.02364410166627155,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 2455
    },
    {
      "epoch": 0.13098666666666667,
      "grad_norm": 0.023821035101190026,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 2456
    },
    {
      "epoch": 0.13104,
      "grad_norm": 0.023923516597349252,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 2457
    },
    {
      "epoch": 0.13109333333333334,
      "grad_norm": 0.02551790445893866,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 2458
    },
    {
      "epoch": 0.13114666666666666,
      "grad_norm": 0.02483273971393887,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 2459
    },
    {
      "epoch": 0.1312,
      "grad_norm": 0.02461865339019222,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 2460
    },
    {
      "epoch": 0.13125333333333333,
      "grad_norm": 0.02455703558888106,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2461
    },
    {
      "epoch": 0.13130666666666665,
      "grad_norm": 0.02524383031581255,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 2462
    },
    {
      "epoch": 0.13136,
      "grad_norm": 0.02522301412102058,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 2463
    },
    {
      "epoch": 0.13141333333333333,
      "grad_norm": 0.0268511384475676,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 2464
    },
    {
      "epoch": 0.13146666666666668,
      "grad_norm": 0.029099604870096257,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 2465
    },
    {
      "epoch": 0.13152,
      "grad_norm": 0.02741869701032861,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 2466
    },
    {
      "epoch": 0.13157333333333332,
      "grad_norm": 0.029369066447517474,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 2467
    },
    {
      "epoch": 0.13162666666666667,
      "grad_norm": 0.02613223249688684,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 2468
    },
    {
      "epoch": 0.13168,
      "grad_norm": 0.02536596122007687,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 2469
    },
    {
      "epoch": 0.13173333333333334,
      "grad_norm": 0.02719621566525172,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 2470
    },
    {
      "epoch": 0.13178666666666666,
      "grad_norm": 0.028786361560080596,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 2471
    },
    {
      "epoch": 0.13184,
      "grad_norm": 0.025602704222974653,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 2472
    },
    {
      "epoch": 0.13189333333333333,
      "grad_norm": 0.02657073908728971,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 2473
    },
    {
      "epoch": 0.13194666666666666,
      "grad_norm": 0.027510085222281606,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2474
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.025618112335544518,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2475
    },
    {
      "epoch": 0.13205333333333333,
      "grad_norm": 0.02570976419270122,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2476
    },
    {
      "epoch": 0.13210666666666668,
      "grad_norm": 0.0246319574090792,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 2477
    },
    {
      "epoch": 0.13216,
      "grad_norm": 0.02920879760455919,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 2478
    },
    {
      "epoch": 0.13221333333333332,
      "grad_norm": 0.024994654669793785,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 2479
    },
    {
      "epoch": 0.13226666666666667,
      "grad_norm": 0.026068430444058675,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 2480
    },
    {
      "epoch": 0.13232,
      "grad_norm": 0.026241739557376725,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 2481
    },
    {
      "epoch": 0.13237333333333334,
      "grad_norm": 0.025162046115399465,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 2482
    },
    {
      "epoch": 0.13242666666666666,
      "grad_norm": 0.024684821347290064,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2483
    },
    {
      "epoch": 0.13248,
      "grad_norm": 0.024299043851432795,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2484
    },
    {
      "epoch": 0.13253333333333334,
      "grad_norm": 0.024998497651999123,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2485
    },
    {
      "epoch": 0.13258666666666666,
      "grad_norm": 0.025150903811544202,
      "learning_rate": 0.0001,
      "loss": 1.046,
      "step": 2486
    },
    {
      "epoch": 0.13264,
      "grad_norm": 0.02344402529837302,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2487
    },
    {
      "epoch": 0.13269333333333333,
      "grad_norm": 0.02633707780924448,
      "learning_rate": 0.0001,
      "loss": 1.0824,
      "step": 2488
    },
    {
      "epoch": 0.13274666666666668,
      "grad_norm": 0.025922990723189404,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 2489
    },
    {
      "epoch": 0.1328,
      "grad_norm": 0.02446600879368933,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2490
    },
    {
      "epoch": 0.13285333333333332,
      "grad_norm": 0.02783556649677125,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2491
    },
    {
      "epoch": 0.13290666666666667,
      "grad_norm": 0.02550965999156629,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 2492
    },
    {
      "epoch": 0.13296,
      "grad_norm": 0.023626581358753104,
      "learning_rate": 0.0001,
      "loss": 0.8944,
      "step": 2493
    },
    {
      "epoch": 0.13301333333333334,
      "grad_norm": 0.0272380801041015,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 2494
    },
    {
      "epoch": 0.13306666666666667,
      "grad_norm": 0.024161819465906096,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2495
    },
    {
      "epoch": 0.13312,
      "grad_norm": 0.024038644659621713,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2496
    },
    {
      "epoch": 0.13317333333333334,
      "grad_norm": 0.025690120704842334,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 2497
    },
    {
      "epoch": 0.13322666666666666,
      "grad_norm": 0.025481203037644857,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 2498
    },
    {
      "epoch": 0.13328,
      "grad_norm": 0.025247965401708664,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 2499
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.02604799015353619,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2500
    },
    {
      "epoch": 0.13338666666666665,
      "grad_norm": 0.024398811532141393,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 2501
    },
    {
      "epoch": 0.13344,
      "grad_norm": 0.025160226790277466,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 2502
    },
    {
      "epoch": 0.13349333333333332,
      "grad_norm": 0.024851872008412525,
      "learning_rate": 0.0001,
      "loss": 1.0602,
      "step": 2503
    },
    {
      "epoch": 0.13354666666666667,
      "grad_norm": 0.024544597948660426,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 2504
    },
    {
      "epoch": 0.1336,
      "grad_norm": 0.025356448408922747,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 2505
    },
    {
      "epoch": 0.13365333333333335,
      "grad_norm": 0.023029183931546397,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2506
    },
    {
      "epoch": 0.13370666666666667,
      "grad_norm": 0.0255310565561867,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 2507
    },
    {
      "epoch": 0.13376,
      "grad_norm": 0.02506433148271178,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 2508
    },
    {
      "epoch": 0.13381333333333334,
      "grad_norm": 0.024761488373354325,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 2509
    },
    {
      "epoch": 0.13386666666666666,
      "grad_norm": 0.024240754115842023,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 2510
    },
    {
      "epoch": 0.13392,
      "grad_norm": 0.026926926035797476,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 2511
    },
    {
      "epoch": 0.13397333333333333,
      "grad_norm": 0.024576993638280722,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 2512
    },
    {
      "epoch": 0.13402666666666666,
      "grad_norm": 0.025223425176094126,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 2513
    },
    {
      "epoch": 0.13408,
      "grad_norm": 0.02520736421510069,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 2514
    },
    {
      "epoch": 0.13413333333333333,
      "grad_norm": 0.027406228809847298,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 2515
    },
    {
      "epoch": 0.13418666666666668,
      "grad_norm": 0.02670488124021878,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2516
    },
    {
      "epoch": 0.13424,
      "grad_norm": 0.025391527655479276,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2517
    },
    {
      "epoch": 0.13429333333333332,
      "grad_norm": 0.027439148170195233,
      "learning_rate": 0.0001,
      "loss": 1.0762,
      "step": 2518
    },
    {
      "epoch": 0.13434666666666667,
      "grad_norm": 0.024122146037374212,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2519
    },
    {
      "epoch": 0.1344,
      "grad_norm": 0.024898554608580033,
      "learning_rate": 0.0001,
      "loss": 1.0671,
      "step": 2520
    },
    {
      "epoch": 0.13445333333333334,
      "grad_norm": 0.024973639289104937,
      "learning_rate": 0.0001,
      "loss": 1.0387,
      "step": 2521
    },
    {
      "epoch": 0.13450666666666666,
      "grad_norm": 0.02670475542851642,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 2522
    },
    {
      "epoch": 0.13456,
      "grad_norm": 0.025078268785836716,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2523
    },
    {
      "epoch": 0.13461333333333333,
      "grad_norm": 0.024404365236869594,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 2524
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.027738032727339195,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 2525
    },
    {
      "epoch": 0.13472,
      "grad_norm": 0.027028164811448454,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 2526
    },
    {
      "epoch": 0.13477333333333333,
      "grad_norm": 0.02546854523960517,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 2527
    },
    {
      "epoch": 0.13482666666666668,
      "grad_norm": 0.026124650828617483,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 2528
    },
    {
      "epoch": 0.13488,
      "grad_norm": 0.025627013974166914,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 2529
    },
    {
      "epoch": 0.13493333333333332,
      "grad_norm": 0.02687073605553383,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2530
    },
    {
      "epoch": 0.13498666666666667,
      "grad_norm": 0.024829464592065177,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 2531
    },
    {
      "epoch": 0.13504,
      "grad_norm": 0.026850340576137458,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 2532
    },
    {
      "epoch": 0.13509333333333334,
      "grad_norm": 0.026390952638277638,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 2533
    },
    {
      "epoch": 0.13514666666666666,
      "grad_norm": 0.02844218782775634,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 2534
    },
    {
      "epoch": 0.1352,
      "grad_norm": 0.02476326903400325,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 2535
    },
    {
      "epoch": 0.13525333333333334,
      "grad_norm": 0.03186783148762189,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 2536
    },
    {
      "epoch": 0.13530666666666666,
      "grad_norm": 0.02464017061223821,
      "learning_rate": 0.0001,
      "loss": 1.0638,
      "step": 2537
    },
    {
      "epoch": 0.13536,
      "grad_norm": 0.027282031428026442,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 2538
    },
    {
      "epoch": 0.13541333333333333,
      "grad_norm": 0.02735323479130206,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 2539
    },
    {
      "epoch": 0.13546666666666668,
      "grad_norm": 0.025104209436796966,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 2540
    },
    {
      "epoch": 0.13552,
      "grad_norm": 0.025756674832892713,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2541
    },
    {
      "epoch": 0.13557333333333332,
      "grad_norm": 0.02657393036747659,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 2542
    },
    {
      "epoch": 0.13562666666666667,
      "grad_norm": 0.024482143629784948,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 2543
    },
    {
      "epoch": 0.13568,
      "grad_norm": 0.02838431289836272,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 2544
    },
    {
      "epoch": 0.13573333333333334,
      "grad_norm": 0.02432841321590284,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 2545
    },
    {
      "epoch": 0.13578666666666667,
      "grad_norm": 0.025037331336264592,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 2546
    },
    {
      "epoch": 0.13584,
      "grad_norm": 0.028215491948489536,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 2547
    },
    {
      "epoch": 0.13589333333333334,
      "grad_norm": 0.025759057998646064,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 2548
    },
    {
      "epoch": 0.13594666666666666,
      "grad_norm": 0.024869386461811145,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 2549
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.026275333401595782,
      "learning_rate": 0.0001,
      "loss": 0.9317,
      "step": 2550
    },
    {
      "epoch": 0.13605333333333333,
      "grad_norm": 0.025140021533499927,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 2551
    },
    {
      "epoch": 0.13610666666666665,
      "grad_norm": 0.024816949849497998,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 2552
    },
    {
      "epoch": 0.13616,
      "grad_norm": 0.024732592806981795,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 2553
    },
    {
      "epoch": 0.13621333333333333,
      "grad_norm": 0.027276506592735904,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 2554
    },
    {
      "epoch": 0.13626666666666667,
      "grad_norm": 0.026085535992041175,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 2555
    },
    {
      "epoch": 0.13632,
      "grad_norm": 0.0248413515083484,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 2556
    },
    {
      "epoch": 0.13637333333333335,
      "grad_norm": 0.027673867925348625,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 2557
    },
    {
      "epoch": 0.13642666666666667,
      "grad_norm": 0.02695344144965508,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 2558
    },
    {
      "epoch": 0.13648,
      "grad_norm": 0.027903411915496376,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 2559
    },
    {
      "epoch": 0.13653333333333334,
      "grad_norm": 0.02546242200937013,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2560
    },
    {
      "epoch": 0.13658666666666666,
      "grad_norm": 0.026228288998459647,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 2561
    },
    {
      "epoch": 0.13664,
      "grad_norm": 0.025721312026925434,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 2562
    },
    {
      "epoch": 0.13669333333333333,
      "grad_norm": 0.026183412423374595,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 2563
    },
    {
      "epoch": 0.13674666666666666,
      "grad_norm": 0.02585875399781246,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 2564
    },
    {
      "epoch": 0.1368,
      "grad_norm": 0.02501941730778989,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2565
    },
    {
      "epoch": 0.13685333333333333,
      "grad_norm": 0.026684856971090756,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 2566
    },
    {
      "epoch": 0.13690666666666668,
      "grad_norm": 0.024946264000052745,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 2567
    },
    {
      "epoch": 0.13696,
      "grad_norm": 0.025612862109991526,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 2568
    },
    {
      "epoch": 0.13701333333333332,
      "grad_norm": 0.026334521302552028,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 2569
    },
    {
      "epoch": 0.13706666666666667,
      "grad_norm": 0.023763591171388126,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 2570
    },
    {
      "epoch": 0.13712,
      "grad_norm": 0.029498249723808906,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 2571
    },
    {
      "epoch": 0.13717333333333334,
      "grad_norm": 0.024593921883491014,
      "learning_rate": 0.0001,
      "loss": 1.0476,
      "step": 2572
    },
    {
      "epoch": 0.13722666666666666,
      "grad_norm": 0.024077919992433743,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 2573
    },
    {
      "epoch": 0.13728,
      "grad_norm": 0.02607019916301255,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 2574
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.023720366288824055,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 2575
    },
    {
      "epoch": 0.13738666666666666,
      "grad_norm": 0.025292896484229256,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 2576
    },
    {
      "epoch": 0.13744,
      "grad_norm": 0.025071731661950106,
      "learning_rate": 0.0001,
      "loss": 1.0438,
      "step": 2577
    },
    {
      "epoch": 0.13749333333333333,
      "grad_norm": 0.023552720616178493,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 2578
    },
    {
      "epoch": 0.13754666666666668,
      "grad_norm": 0.024087673908280118,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 2579
    },
    {
      "epoch": 0.1376,
      "grad_norm": 0.025345917840909317,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 2580
    },
    {
      "epoch": 0.13765333333333332,
      "grad_norm": 0.026321341078370742,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 2581
    },
    {
      "epoch": 0.13770666666666667,
      "grad_norm": 0.02841851854318182,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 2582
    },
    {
      "epoch": 0.13776,
      "grad_norm": 0.026095912629496915,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 2583
    },
    {
      "epoch": 0.13781333333333334,
      "grad_norm": 0.026026993599244354,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 2584
    },
    {
      "epoch": 0.13786666666666667,
      "grad_norm": 0.02444476046365975,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 2585
    },
    {
      "epoch": 0.13792,
      "grad_norm": 0.026195904902520106,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 2586
    },
    {
      "epoch": 0.13797333333333334,
      "grad_norm": 0.024042333761926247,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 2587
    },
    {
      "epoch": 0.13802666666666666,
      "grad_norm": 0.027787867805233454,
      "learning_rate": 0.0001,
      "loss": 1.0616,
      "step": 2588
    },
    {
      "epoch": 0.13808,
      "grad_norm": 0.023178406567787208,
      "learning_rate": 0.0001,
      "loss": 1.0544,
      "step": 2589
    },
    {
      "epoch": 0.13813333333333333,
      "grad_norm": 0.024588025202470137,
      "learning_rate": 0.0001,
      "loss": 1.0501,
      "step": 2590
    },
    {
      "epoch": 0.13818666666666668,
      "grad_norm": 0.02853139722965526,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 2591
    },
    {
      "epoch": 0.13824,
      "grad_norm": 0.02575936731255047,
      "learning_rate": 0.0001,
      "loss": 1.0557,
      "step": 2592
    },
    {
      "epoch": 0.13829333333333332,
      "grad_norm": 0.025254462076794826,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 2593
    },
    {
      "epoch": 0.13834666666666667,
      "grad_norm": 0.025730025679997937,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 2594
    },
    {
      "epoch": 0.1384,
      "grad_norm": 0.027112233256905482,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 2595
    },
    {
      "epoch": 0.13845333333333334,
      "grad_norm": 0.025551615892635632,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 2596
    },
    {
      "epoch": 0.13850666666666667,
      "grad_norm": 0.025260338718270173,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2597
    },
    {
      "epoch": 0.13856,
      "grad_norm": 0.02890897324716828,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 2598
    },
    {
      "epoch": 0.13861333333333334,
      "grad_norm": 0.02391456311206752,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 2599
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.028134965192061767,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "step": 2600
    },
    {
      "epoch": 0.13866666666666666,
      "eval_accuracy": 0.6137333405256724,
      "eval_loss": 1.3900363445281982,
      "eval_runtime": 63.0234,
      "eval_samples_per_second": 15.867,
      "eval_steps_per_second": 0.508,
      "step": 2600
    },
    {
      "epoch": 0.13872,
      "grad_norm": 0.024862943747980766,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 2601
    },
    {
      "epoch": 0.13877333333333333,
      "grad_norm": 0.025525051220570173,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 2602
    },
    {
      "epoch": 0.13882666666666665,
      "grad_norm": 0.027003436235548423,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 2603
    },
    {
      "epoch": 0.13888,
      "grad_norm": 0.023663377952534207,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 2604
    },
    {
      "epoch": 0.13893333333333333,
      "grad_norm": 0.024631317510611567,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 2605
    },
    {
      "epoch": 0.13898666666666668,
      "grad_norm": 0.02485033763178534,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 2606
    },
    {
      "epoch": 0.13904,
      "grad_norm": 0.025780986143720305,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2607
    },
    {
      "epoch": 0.13909333333333335,
      "grad_norm": 0.025408207878083056,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 2608
    },
    {
      "epoch": 0.13914666666666667,
      "grad_norm": 0.02450030345203153,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2609
    },
    {
      "epoch": 0.1392,
      "grad_norm": 0.02595900558949242,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 2610
    },
    {
      "epoch": 0.13925333333333334,
      "grad_norm": 0.024393722625318085,
      "learning_rate": 0.0001,
      "loss": 1.0733,
      "step": 2611
    },
    {
      "epoch": 0.13930666666666666,
      "grad_norm": 0.029334215775210715,
      "learning_rate": 0.0001,
      "loss": 0.9207,
      "step": 2612
    },
    {
      "epoch": 0.13936,
      "grad_norm": 0.026502231075397086,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 2613
    },
    {
      "epoch": 0.13941333333333333,
      "grad_norm": 0.026007597025093608,
      "learning_rate": 0.0001,
      "loss": 1.0371,
      "step": 2614
    },
    {
      "epoch": 0.13946666666666666,
      "grad_norm": 0.02594532716270889,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 2615
    },
    {
      "epoch": 0.13952,
      "grad_norm": 0.02514381398934066,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "step": 2616
    },
    {
      "epoch": 0.13957333333333333,
      "grad_norm": 0.027272351724306147,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 2617
    },
    {
      "epoch": 0.13962666666666668,
      "grad_norm": 0.025583557086364003,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 2618
    },
    {
      "epoch": 0.13968,
      "grad_norm": 0.028493818318657715,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 2619
    },
    {
      "epoch": 0.13973333333333332,
      "grad_norm": 0.0287296137797384,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 2620
    },
    {
      "epoch": 0.13978666666666667,
      "grad_norm": 0.02292089251573787,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 2621
    },
    {
      "epoch": 0.13984,
      "grad_norm": 0.028698104981451866,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 2622
    },
    {
      "epoch": 0.13989333333333334,
      "grad_norm": 0.0246713364256968,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2623
    },
    {
      "epoch": 0.13994666666666666,
      "grad_norm": 0.02633970641846593,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 2624
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.02537741989665436,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 2625
    },
    {
      "epoch": 0.14005333333333334,
      "grad_norm": 0.02708875876902672,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 2626
    },
    {
      "epoch": 0.14010666666666666,
      "grad_norm": 0.024308085237655132,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 2627
    },
    {
      "epoch": 0.14016,
      "grad_norm": 0.02596377461267972,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 2628
    },
    {
      "epoch": 0.14021333333333333,
      "grad_norm": 0.025272053211035723,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 2629
    },
    {
      "epoch": 0.14026666666666668,
      "grad_norm": 0.02755252140793635,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 2630
    },
    {
      "epoch": 0.14032,
      "grad_norm": 0.027866052313090812,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2631
    },
    {
      "epoch": 0.14037333333333332,
      "grad_norm": 0.025391482655007992,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 2632
    },
    {
      "epoch": 0.14042666666666667,
      "grad_norm": 0.025498570337314685,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 2633
    },
    {
      "epoch": 0.14048,
      "grad_norm": 0.025341810499454758,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 2634
    },
    {
      "epoch": 0.14053333333333334,
      "grad_norm": 0.025746259971403937,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 2635
    },
    {
      "epoch": 0.14058666666666667,
      "grad_norm": 0.025809588909920685,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 2636
    },
    {
      "epoch": 0.14064,
      "grad_norm": 0.02557680311449539,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 2637
    },
    {
      "epoch": 0.14069333333333334,
      "grad_norm": 0.038947207133825656,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 2638
    },
    {
      "epoch": 0.14074666666666666,
      "grad_norm": 0.025439636224794046,
      "learning_rate": 0.0001,
      "loss": 1.0524,
      "step": 2639
    },
    {
      "epoch": 0.1408,
      "grad_norm": 0.026536376473168616,
      "learning_rate": 0.0001,
      "loss": 1.0907,
      "step": 2640
    },
    {
      "epoch": 0.14085333333333333,
      "grad_norm": 0.025688111298227817,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 2641
    },
    {
      "epoch": 0.14090666666666668,
      "grad_norm": 0.026505147509797034,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 2642
    },
    {
      "epoch": 0.14096,
      "grad_norm": 0.02842259260340287,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 2643
    },
    {
      "epoch": 0.14101333333333332,
      "grad_norm": 0.027257631233449927,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 2644
    },
    {
      "epoch": 0.14106666666666667,
      "grad_norm": 0.025542899428963622,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 2645
    },
    {
      "epoch": 0.14112,
      "grad_norm": 0.026771752704557436,
      "learning_rate": 0.0001,
      "loss": 1.0526,
      "step": 2646
    },
    {
      "epoch": 0.14117333333333335,
      "grad_norm": 0.02455576281192113,
      "learning_rate": 0.0001,
      "loss": 1.0377,
      "step": 2647
    },
    {
      "epoch": 0.14122666666666667,
      "grad_norm": 0.025369563102262013,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 2648
    },
    {
      "epoch": 0.14128,
      "grad_norm": 0.029961673435334738,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 2649
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 0.023264132383748286,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 2650
    },
    {
      "epoch": 0.14138666666666666,
      "grad_norm": 0.027984391888712875,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2651
    },
    {
      "epoch": 0.14144,
      "grad_norm": 0.027018386389746782,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 2652
    },
    {
      "epoch": 0.14149333333333333,
      "grad_norm": 0.028409441680205292,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 2653
    },
    {
      "epoch": 0.14154666666666665,
      "grad_norm": 0.02511401735616857,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 2654
    },
    {
      "epoch": 0.1416,
      "grad_norm": 0.02476112740198162,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 2655
    },
    {
      "epoch": 0.14165333333333333,
      "grad_norm": 0.02893587637632726,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 2656
    },
    {
      "epoch": 0.14170666666666668,
      "grad_norm": 0.023552981067350237,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 2657
    },
    {
      "epoch": 0.14176,
      "grad_norm": 0.02622360133242475,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 2658
    },
    {
      "epoch": 0.14181333333333335,
      "grad_norm": 0.024786651432153004,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2659
    },
    {
      "epoch": 0.14186666666666667,
      "grad_norm": 0.02530066919481406,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 2660
    },
    {
      "epoch": 0.14192,
      "grad_norm": 0.0260942729000623,
      "learning_rate": 0.0001,
      "loss": 1.0685,
      "step": 2661
    },
    {
      "epoch": 0.14197333333333334,
      "grad_norm": 0.0255219969521345,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 2662
    },
    {
      "epoch": 0.14202666666666666,
      "grad_norm": 0.023966830505345954,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 2663
    },
    {
      "epoch": 0.14208,
      "grad_norm": 0.025926387207645195,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2664
    },
    {
      "epoch": 0.14213333333333333,
      "grad_norm": 0.026225994829786724,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 2665
    },
    {
      "epoch": 0.14218666666666666,
      "grad_norm": 0.02696788502115314,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 2666
    },
    {
      "epoch": 0.14224,
      "grad_norm": 0.026776764312423457,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 2667
    },
    {
      "epoch": 0.14229333333333333,
      "grad_norm": 0.025963764538398916,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 2668
    },
    {
      "epoch": 0.14234666666666668,
      "grad_norm": 0.029425250246592972,
      "learning_rate": 0.0001,
      "loss": 0.8891,
      "step": 2669
    },
    {
      "epoch": 0.1424,
      "grad_norm": 0.027846219934749682,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 2670
    },
    {
      "epoch": 0.14245333333333332,
      "grad_norm": 0.02850328939279767,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 2671
    },
    {
      "epoch": 0.14250666666666667,
      "grad_norm": 0.029692858359051826,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 2672
    },
    {
      "epoch": 0.14256,
      "grad_norm": 0.0281631365061367,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2673
    },
    {
      "epoch": 0.14261333333333334,
      "grad_norm": 0.024229058701941624,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2674
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.027874118432111735,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 2675
    },
    {
      "epoch": 0.14272,
      "grad_norm": 0.028495394679346035,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 2676
    },
    {
      "epoch": 0.14277333333333334,
      "grad_norm": 0.02563590256219751,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 2677
    },
    {
      "epoch": 0.14282666666666666,
      "grad_norm": 0.02586419990803338,
      "learning_rate": 0.0001,
      "loss": 1.0555,
      "step": 2678
    },
    {
      "epoch": 0.14288,
      "grad_norm": 0.03013638140770379,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 2679
    },
    {
      "epoch": 0.14293333333333333,
      "grad_norm": 0.024957557098993364,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 2680
    },
    {
      "epoch": 0.14298666666666668,
      "grad_norm": 0.025151006626037097,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 2681
    },
    {
      "epoch": 0.14304,
      "grad_norm": 0.026778775588101635,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 2682
    },
    {
      "epoch": 0.14309333333333332,
      "grad_norm": 0.02484208449566377,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 2683
    },
    {
      "epoch": 0.14314666666666667,
      "grad_norm": 0.026558853204208158,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 2684
    },
    {
      "epoch": 0.1432,
      "grad_norm": 0.02279163461348191,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 2685
    },
    {
      "epoch": 0.14325333333333334,
      "grad_norm": 0.024493234205147568,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 2686
    },
    {
      "epoch": 0.14330666666666667,
      "grad_norm": 0.025118562888041658,
      "learning_rate": 0.0001,
      "loss": 1.0528,
      "step": 2687
    },
    {
      "epoch": 0.14336,
      "grad_norm": 0.02481912398764666,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 2688
    },
    {
      "epoch": 0.14341333333333334,
      "grad_norm": 0.02438143287695143,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2689
    },
    {
      "epoch": 0.14346666666666666,
      "grad_norm": 0.02615728006824538,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 2690
    },
    {
      "epoch": 0.14352,
      "grad_norm": 0.026064675062291466,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 2691
    },
    {
      "epoch": 0.14357333333333333,
      "grad_norm": 0.02444728195182971,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 2692
    },
    {
      "epoch": 0.14362666666666668,
      "grad_norm": 0.025073866154143247,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 2693
    },
    {
      "epoch": 0.14368,
      "grad_norm": 0.025448441414364125,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 2694
    },
    {
      "epoch": 0.14373333333333332,
      "grad_norm": 0.02467075097100307,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 2695
    },
    {
      "epoch": 0.14378666666666667,
      "grad_norm": 0.026280009175482465,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2696
    },
    {
      "epoch": 0.14384,
      "grad_norm": 0.0273784225417393,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 2697
    },
    {
      "epoch": 0.14389333333333335,
      "grad_norm": 0.025019042285155144,
      "learning_rate": 0.0001,
      "loss": 1.062,
      "step": 2698
    },
    {
      "epoch": 0.14394666666666667,
      "grad_norm": 0.024229334900956315,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 2699
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.025810613426563937,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 2700
    },
    {
      "epoch": 0.14405333333333334,
      "grad_norm": 0.023932449443283942,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 2701
    },
    {
      "epoch": 0.14410666666666666,
      "grad_norm": 0.02550725318706644,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 2702
    },
    {
      "epoch": 0.14416,
      "grad_norm": 0.025373906620327267,
      "learning_rate": 0.0001,
      "loss": 0.9336,
      "step": 2703
    },
    {
      "epoch": 0.14421333333333333,
      "grad_norm": 0.026265336433578597,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 2704
    },
    {
      "epoch": 0.14426666666666665,
      "grad_norm": 0.02498384589544867,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2705
    },
    {
      "epoch": 0.14432,
      "grad_norm": 0.0247373958350784,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 2706
    },
    {
      "epoch": 0.14437333333333333,
      "grad_norm": 0.02517943615096499,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 2707
    },
    {
      "epoch": 0.14442666666666668,
      "grad_norm": 0.025531195053796595,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 2708
    },
    {
      "epoch": 0.14448,
      "grad_norm": 0.026069787148781973,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2709
    },
    {
      "epoch": 0.14453333333333335,
      "grad_norm": 0.024690351545501175,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 2710
    },
    {
      "epoch": 0.14458666666666667,
      "grad_norm": 0.02587904706943516,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2711
    },
    {
      "epoch": 0.14464,
      "grad_norm": 0.028272996949695987,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 2712
    },
    {
      "epoch": 0.14469333333333334,
      "grad_norm": 0.025863652917902588,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 2713
    },
    {
      "epoch": 0.14474666666666666,
      "grad_norm": 0.024604782384084395,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2714
    },
    {
      "epoch": 0.1448,
      "grad_norm": 0.02802595113903341,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 2715
    },
    {
      "epoch": 0.14485333333333333,
      "grad_norm": 0.02610098480349537,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 2716
    },
    {
      "epoch": 0.14490666666666666,
      "grad_norm": 0.027245629016469125,
      "learning_rate": 0.0001,
      "loss": 1.0676,
      "step": 2717
    },
    {
      "epoch": 0.14496,
      "grad_norm": 0.026818265854891447,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 2718
    },
    {
      "epoch": 0.14501333333333333,
      "grad_norm": 0.027226937644376992,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 2719
    },
    {
      "epoch": 0.14506666666666668,
      "grad_norm": 0.02625520212515318,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 2720
    },
    {
      "epoch": 0.14512,
      "grad_norm": 0.027772670146473964,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2721
    },
    {
      "epoch": 0.14517333333333332,
      "grad_norm": 0.02408441084347495,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 2722
    },
    {
      "epoch": 0.14522666666666667,
      "grad_norm": 0.026666380285320628,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 2723
    },
    {
      "epoch": 0.14528,
      "grad_norm": 0.02697281582160539,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 2724
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.02689380444065316,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 2725
    },
    {
      "epoch": 0.14538666666666666,
      "grad_norm": 0.02651993280043551,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 2726
    },
    {
      "epoch": 0.14544,
      "grad_norm": 0.02919969371434643,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 2727
    },
    {
      "epoch": 0.14549333333333334,
      "grad_norm": 0.023680235004573745,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 2728
    },
    {
      "epoch": 0.14554666666666666,
      "grad_norm": 0.024530714130020077,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 2729
    },
    {
      "epoch": 0.1456,
      "grad_norm": 0.027970079859773143,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 2730
    },
    {
      "epoch": 0.14565333333333333,
      "grad_norm": 0.024533302154258984,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 2731
    },
    {
      "epoch": 0.14570666666666668,
      "grad_norm": 0.028375678711412108,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2732
    },
    {
      "epoch": 0.14576,
      "grad_norm": 0.026321284073009467,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 2733
    },
    {
      "epoch": 0.14581333333333332,
      "grad_norm": 0.024665802843255237,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 2734
    },
    {
      "epoch": 0.14586666666666667,
      "grad_norm": 0.026652343681344774,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 2735
    },
    {
      "epoch": 0.14592,
      "grad_norm": 0.03758628154063529,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 2736
    },
    {
      "epoch": 0.14597333333333334,
      "grad_norm": 0.025710509044604354,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 2737
    },
    {
      "epoch": 0.14602666666666667,
      "grad_norm": 0.024955987550990162,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 2738
    },
    {
      "epoch": 0.14608,
      "grad_norm": 0.02697638559364808,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2739
    },
    {
      "epoch": 0.14613333333333334,
      "grad_norm": 0.024792137384114506,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 2740
    },
    {
      "epoch": 0.14618666666666666,
      "grad_norm": 0.02489193806116384,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 2741
    },
    {
      "epoch": 0.14624,
      "grad_norm": 0.02447527882413921,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 2742
    },
    {
      "epoch": 0.14629333333333333,
      "grad_norm": 0.026311897810817074,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 2743
    },
    {
      "epoch": 0.14634666666666668,
      "grad_norm": 0.025468308510182294,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 2744
    },
    {
      "epoch": 0.1464,
      "grad_norm": 0.024538090057487538,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 2745
    },
    {
      "epoch": 0.14645333333333332,
      "grad_norm": 0.028289484215942417,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 2746
    },
    {
      "epoch": 0.14650666666666667,
      "grad_norm": 0.024181043604899696,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 2747
    },
    {
      "epoch": 0.14656,
      "grad_norm": 0.026365849626972943,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 2748
    },
    {
      "epoch": 0.14661333333333335,
      "grad_norm": 0.024868929720185437,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 2749
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.025390836999145402,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 2750
    },
    {
      "epoch": 0.14672,
      "grad_norm": 0.02696300339727224,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2751
    },
    {
      "epoch": 0.14677333333333334,
      "grad_norm": 0.027356040955980942,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 2752
    },
    {
      "epoch": 0.14682666666666666,
      "grad_norm": 0.02613914827878609,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 2753
    },
    {
      "epoch": 0.14688,
      "grad_norm": 0.026464411637016346,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 2754
    },
    {
      "epoch": 0.14693333333333333,
      "grad_norm": 0.028048320914655867,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 2755
    },
    {
      "epoch": 0.14698666666666665,
      "grad_norm": 0.024288520501070415,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 2756
    },
    {
      "epoch": 0.14704,
      "grad_norm": 0.025465650267997568,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 2757
    },
    {
      "epoch": 0.14709333333333333,
      "grad_norm": 0.026366848071242625,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 2758
    },
    {
      "epoch": 0.14714666666666668,
      "grad_norm": 0.025568848242606548,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2759
    },
    {
      "epoch": 0.1472,
      "grad_norm": 0.025147463118760444,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 2760
    },
    {
      "epoch": 0.14725333333333335,
      "grad_norm": 0.025305144505655457,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 2761
    },
    {
      "epoch": 0.14730666666666667,
      "grad_norm": 0.028522066482270594,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 2762
    },
    {
      "epoch": 0.14736,
      "grad_norm": 0.025909302017571613,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 2763
    },
    {
      "epoch": 0.14741333333333334,
      "grad_norm": 0.02608745829928049,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 2764
    },
    {
      "epoch": 0.14746666666666666,
      "grad_norm": 0.024293182052040365,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 2765
    },
    {
      "epoch": 0.14752,
      "grad_norm": 0.027601253351873068,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2766
    },
    {
      "epoch": 0.14757333333333333,
      "grad_norm": 0.02678148978714192,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 2767
    },
    {
      "epoch": 0.14762666666666666,
      "grad_norm": 0.025706594111318943,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2768
    },
    {
      "epoch": 0.14768,
      "grad_norm": 0.030563969262975176,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 2769
    },
    {
      "epoch": 0.14773333333333333,
      "grad_norm": 0.026582521359890313,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 2770
    },
    {
      "epoch": 0.14778666666666668,
      "grad_norm": 0.0267643591917065,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2771
    },
    {
      "epoch": 0.14784,
      "grad_norm": 0.02917170873893574,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 2772
    },
    {
      "epoch": 0.14789333333333332,
      "grad_norm": 0.024958019784447626,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 2773
    },
    {
      "epoch": 0.14794666666666667,
      "grad_norm": 0.026637681952243693,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 2774
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.026847482602202263,
      "learning_rate": 0.0001,
      "loss": 1.0509,
      "step": 2775
    },
    {
      "epoch": 0.14805333333333334,
      "grad_norm": 0.025349565617077924,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 2776
    },
    {
      "epoch": 0.14810666666666666,
      "grad_norm": 0.028531804694556708,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 2777
    },
    {
      "epoch": 0.14816,
      "grad_norm": 0.028485615631246103,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 2778
    },
    {
      "epoch": 0.14821333333333334,
      "grad_norm": 0.025051916858277384,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 2779
    },
    {
      "epoch": 0.14826666666666666,
      "grad_norm": 0.026063240393538318,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 2780
    },
    {
      "epoch": 0.14832,
      "grad_norm": 0.026538621968167756,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 2781
    },
    {
      "epoch": 0.14837333333333333,
      "grad_norm": 0.02480622064429203,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 2782
    },
    {
      "epoch": 0.14842666666666668,
      "grad_norm": 0.02495916066621976,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 2783
    },
    {
      "epoch": 0.14848,
      "grad_norm": 0.0257358721476807,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 2784
    },
    {
      "epoch": 0.14853333333333332,
      "grad_norm": 0.02532600034816729,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 2785
    },
    {
      "epoch": 0.14858666666666667,
      "grad_norm": 0.025353435664473446,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 2786
    },
    {
      "epoch": 0.14864,
      "grad_norm": 0.025393443934055487,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 2787
    },
    {
      "epoch": 0.14869333333333334,
      "grad_norm": 0.023056172004120096,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 2788
    },
    {
      "epoch": 0.14874666666666667,
      "grad_norm": 0.027186109769382877,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2789
    },
    {
      "epoch": 0.1488,
      "grad_norm": 0.024644320198268226,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2790
    },
    {
      "epoch": 0.14885333333333334,
      "grad_norm": 0.02507849102034624,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 2791
    },
    {
      "epoch": 0.14890666666666666,
      "grad_norm": 0.026119738538197372,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 2792
    },
    {
      "epoch": 0.14896,
      "grad_norm": 0.024508947204707903,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 2793
    },
    {
      "epoch": 0.14901333333333333,
      "grad_norm": 0.026141021240131606,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 2794
    },
    {
      "epoch": 0.14906666666666665,
      "grad_norm": 0.026229248884924925,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 2795
    },
    {
      "epoch": 0.14912,
      "grad_norm": 0.024916547319886097,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 2796
    },
    {
      "epoch": 0.14917333333333332,
      "grad_norm": 0.02429602905394022,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 2797
    },
    {
      "epoch": 0.14922666666666667,
      "grad_norm": 0.02603921363949961,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 2798
    },
    {
      "epoch": 0.14928,
      "grad_norm": 0.027163011894236103,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 2799
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.026519805970047976,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2800
    },
    {
      "epoch": 0.14933333333333335,
      "eval_accuracy": 0.6142322922153098,
      "eval_loss": 1.3876816034317017,
      "eval_runtime": 62.6961,
      "eval_samples_per_second": 15.95,
      "eval_steps_per_second": 0.51,
      "step": 2800
    },
    {
      "epoch": 0.14938666666666667,
      "grad_norm": 0.025259762171917343,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 2801
    },
    {
      "epoch": 0.14944,
      "grad_norm": 0.02641761425582143,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 2802
    },
    {
      "epoch": 0.14949333333333334,
      "grad_norm": 0.025959940332761625,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 2803
    },
    {
      "epoch": 0.14954666666666666,
      "grad_norm": 0.02653497873745994,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 2804
    },
    {
      "epoch": 0.1496,
      "grad_norm": 0.025771163535298933,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 2805
    },
    {
      "epoch": 0.14965333333333333,
      "grad_norm": 0.025184705755336385,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 2806
    },
    {
      "epoch": 0.14970666666666665,
      "grad_norm": 0.024994797074663438,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 2807
    },
    {
      "epoch": 0.14976,
      "grad_norm": 0.025238282406946252,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 2808
    },
    {
      "epoch": 0.14981333333333333,
      "grad_norm": 0.02811567870839069,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 2809
    },
    {
      "epoch": 0.14986666666666668,
      "grad_norm": 0.023763318270643347,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 2810
    },
    {
      "epoch": 0.14992,
      "grad_norm": 0.0268199205727535,
      "learning_rate": 0.0001,
      "loss": 1.0383,
      "step": 2811
    },
    {
      "epoch": 0.14997333333333332,
      "grad_norm": 0.025932318117399714,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 2812
    },
    {
      "epoch": 0.15002666666666667,
      "grad_norm": 0.024998930469127933,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 2813
    },
    {
      "epoch": 0.15008,
      "grad_norm": 0.02825838714858251,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 2814
    },
    {
      "epoch": 0.15013333333333334,
      "grad_norm": 0.026473397994837323,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 2815
    },
    {
      "epoch": 0.15018666666666666,
      "grad_norm": 0.028552343157916948,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 2816
    },
    {
      "epoch": 0.15024,
      "grad_norm": 0.02748728265055934,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 2817
    },
    {
      "epoch": 0.15029333333333333,
      "grad_norm": 0.024761626464740213,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 2818
    },
    {
      "epoch": 0.15034666666666666,
      "grad_norm": 0.027059420307986616,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 2819
    },
    {
      "epoch": 0.1504,
      "grad_norm": 0.027569625358395425,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 2820
    },
    {
      "epoch": 0.15045333333333333,
      "grad_norm": 0.02712669710043036,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2821
    },
    {
      "epoch": 0.15050666666666668,
      "grad_norm": 0.027695748058775924,
      "learning_rate": 0.0001,
      "loss": 1.0448,
      "step": 2822
    },
    {
      "epoch": 0.15056,
      "grad_norm": 0.026204979771394108,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 2823
    },
    {
      "epoch": 0.15061333333333332,
      "grad_norm": 0.02678504226732912,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2824
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.025557768021001716,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2825
    },
    {
      "epoch": 0.15072,
      "grad_norm": 0.025902075978160098,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 2826
    },
    {
      "epoch": 0.15077333333333334,
      "grad_norm": 0.024570037540073603,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 2827
    },
    {
      "epoch": 0.15082666666666666,
      "grad_norm": 0.024518015835212743,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 2828
    },
    {
      "epoch": 0.15088,
      "grad_norm": 0.028019139677122773,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 2829
    },
    {
      "epoch": 0.15093333333333334,
      "grad_norm": 0.0252106089534479,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 2830
    },
    {
      "epoch": 0.15098666666666666,
      "grad_norm": 0.024870765502341706,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 2831
    },
    {
      "epoch": 0.15104,
      "grad_norm": 0.024142507060385187,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 2832
    },
    {
      "epoch": 0.15109333333333333,
      "grad_norm": 0.02586636862557448,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 2833
    },
    {
      "epoch": 0.15114666666666668,
      "grad_norm": 0.024306646342336154,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 2834
    },
    {
      "epoch": 0.1512,
      "grad_norm": 0.024932177069190074,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 2835
    },
    {
      "epoch": 0.15125333333333332,
      "grad_norm": 0.023981629302701542,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 2836
    },
    {
      "epoch": 0.15130666666666667,
      "grad_norm": 0.025647594265063068,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 2837
    },
    {
      "epoch": 0.15136,
      "grad_norm": 0.025140152853785087,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 2838
    },
    {
      "epoch": 0.15141333333333334,
      "grad_norm": 0.025956743427338537,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 2839
    },
    {
      "epoch": 0.15146666666666667,
      "grad_norm": 0.026324040383475116,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 2840
    },
    {
      "epoch": 0.15152,
      "grad_norm": 0.023347207743926415,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 2841
    },
    {
      "epoch": 0.15157333333333334,
      "grad_norm": 0.024344378511040824,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 2842
    },
    {
      "epoch": 0.15162666666666666,
      "grad_norm": 0.02352253442801217,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 2843
    },
    {
      "epoch": 0.15168,
      "grad_norm": 0.02580567258039093,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2844
    },
    {
      "epoch": 0.15173333333333333,
      "grad_norm": 0.025402294982914013,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 2845
    },
    {
      "epoch": 0.15178666666666665,
      "grad_norm": 0.027109818538447655,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 2846
    },
    {
      "epoch": 0.15184,
      "grad_norm": 0.024091682672027152,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 2847
    },
    {
      "epoch": 0.15189333333333332,
      "grad_norm": 0.027502083945716217,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 2848
    },
    {
      "epoch": 0.15194666666666667,
      "grad_norm": 0.029453276137018872,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 2849
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.025507345571367152,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2850
    },
    {
      "epoch": 0.15205333333333335,
      "grad_norm": 0.02646848161088942,
      "learning_rate": 0.0001,
      "loss": 1.074,
      "step": 2851
    },
    {
      "epoch": 0.15210666666666667,
      "grad_norm": 0.02478216598167861,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 2852
    },
    {
      "epoch": 0.15216,
      "grad_norm": 0.02687524002967929,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 2853
    },
    {
      "epoch": 0.15221333333333334,
      "grad_norm": 0.026157905375242207,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 2854
    },
    {
      "epoch": 0.15226666666666666,
      "grad_norm": 0.02402650131173148,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 2855
    },
    {
      "epoch": 0.15232,
      "grad_norm": 0.02860048297481251,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 2856
    },
    {
      "epoch": 0.15237333333333333,
      "grad_norm": 0.025176096548402842,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 2857
    },
    {
      "epoch": 0.15242666666666665,
      "grad_norm": 0.027467237475186566,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2858
    },
    {
      "epoch": 0.15248,
      "grad_norm": 0.02886570244758702,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2859
    },
    {
      "epoch": 0.15253333333333333,
      "grad_norm": 0.026482200654146887,
      "learning_rate": 0.0001,
      "loss": 1.0594,
      "step": 2860
    },
    {
      "epoch": 0.15258666666666668,
      "grad_norm": 0.029101784518223144,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 2861
    },
    {
      "epoch": 0.15264,
      "grad_norm": 0.028870559197568417,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 2862
    },
    {
      "epoch": 0.15269333333333332,
      "grad_norm": 0.02499655237392917,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 2863
    },
    {
      "epoch": 0.15274666666666667,
      "grad_norm": 0.029124618471810824,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 2864
    },
    {
      "epoch": 0.1528,
      "grad_norm": 0.025623667574923372,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "step": 2865
    },
    {
      "epoch": 0.15285333333333334,
      "grad_norm": 0.0263314742372988,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 2866
    },
    {
      "epoch": 0.15290666666666666,
      "grad_norm": 0.027473923713546018,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 2867
    },
    {
      "epoch": 0.15296,
      "grad_norm": 0.026740285432682614,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 2868
    },
    {
      "epoch": 0.15301333333333333,
      "grad_norm": 0.025642024092611966,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 2869
    },
    {
      "epoch": 0.15306666666666666,
      "grad_norm": 0.027941689072311638,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 2870
    },
    {
      "epoch": 0.15312,
      "grad_norm": 0.026886166818726555,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 2871
    },
    {
      "epoch": 0.15317333333333333,
      "grad_norm": 0.025956399943030242,
      "learning_rate": 0.0001,
      "loss": 1.0651,
      "step": 2872
    },
    {
      "epoch": 0.15322666666666668,
      "grad_norm": 0.02496829391349327,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 2873
    },
    {
      "epoch": 0.15328,
      "grad_norm": 0.028030230193752736,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 2874
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.028107673515865562,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2875
    },
    {
      "epoch": 0.15338666666666667,
      "grad_norm": 0.024488053532057127,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 2876
    },
    {
      "epoch": 0.15344,
      "grad_norm": 0.025534504759887236,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 2877
    },
    {
      "epoch": 0.15349333333333334,
      "grad_norm": 0.026642606418642113,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 2878
    },
    {
      "epoch": 0.15354666666666666,
      "grad_norm": 0.027423167833179288,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 2879
    },
    {
      "epoch": 0.1536,
      "grad_norm": 0.026383439198404395,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 2880
    },
    {
      "epoch": 0.15365333333333334,
      "grad_norm": 0.026240562216157507,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 2881
    },
    {
      "epoch": 0.15370666666666666,
      "grad_norm": 0.02508074013650424,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 2882
    },
    {
      "epoch": 0.15376,
      "grad_norm": 0.02544960920796674,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 2883
    },
    {
      "epoch": 0.15381333333333333,
      "grad_norm": 0.026963058693386374,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 2884
    },
    {
      "epoch": 0.15386666666666668,
      "grad_norm": 0.025783636586228717,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 2885
    },
    {
      "epoch": 0.15392,
      "grad_norm": 0.025582755970970966,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 2886
    },
    {
      "epoch": 0.15397333333333332,
      "grad_norm": 0.0286688248810289,
      "learning_rate": 0.0001,
      "loss": 1.0478,
      "step": 2887
    },
    {
      "epoch": 0.15402666666666667,
      "grad_norm": 0.02768135178020395,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 2888
    },
    {
      "epoch": 0.15408,
      "grad_norm": 0.023794124668508308,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 2889
    },
    {
      "epoch": 0.15413333333333334,
      "grad_norm": 0.02750504335717201,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 2890
    },
    {
      "epoch": 0.15418666666666667,
      "grad_norm": 0.026191349940291677,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 2891
    },
    {
      "epoch": 0.15424,
      "grad_norm": 0.024696918983346878,
      "learning_rate": 0.0001,
      "loss": 1.0605,
      "step": 2892
    },
    {
      "epoch": 0.15429333333333334,
      "grad_norm": 0.026340187703055806,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 2893
    },
    {
      "epoch": 0.15434666666666666,
      "grad_norm": 0.025413172249173617,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 2894
    },
    {
      "epoch": 0.1544,
      "grad_norm": 0.024858848560205586,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 2895
    },
    {
      "epoch": 0.15445333333333333,
      "grad_norm": 0.02696435983458583,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 2896
    },
    {
      "epoch": 0.15450666666666665,
      "grad_norm": 0.026879793794955347,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 2897
    },
    {
      "epoch": 0.15456,
      "grad_norm": 0.02679418918734415,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 2898
    },
    {
      "epoch": 0.15461333333333332,
      "grad_norm": 0.02645374335716224,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 2899
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.02356068026821912,
      "learning_rate": 0.0001,
      "loss": 1.0517,
      "step": 2900
    },
    {
      "epoch": 0.15472,
      "grad_norm": 0.0260781199485307,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 2901
    },
    {
      "epoch": 0.15477333333333335,
      "grad_norm": 0.02635388449414467,
      "learning_rate": 0.0001,
      "loss": 0.9205,
      "step": 2902
    },
    {
      "epoch": 0.15482666666666667,
      "grad_norm": 0.025679073252705163,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 2903
    },
    {
      "epoch": 0.15488,
      "grad_norm": 0.02305148571701831,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 2904
    },
    {
      "epoch": 0.15493333333333334,
      "grad_norm": 0.028531907207965893,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 2905
    },
    {
      "epoch": 0.15498666666666666,
      "grad_norm": 0.02603270385963536,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 2906
    },
    {
      "epoch": 0.15504,
      "grad_norm": 0.023247193298052665,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 2907
    },
    {
      "epoch": 0.15509333333333333,
      "grad_norm": 0.02700138124482521,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 2908
    },
    {
      "epoch": 0.15514666666666665,
      "grad_norm": 0.02565754081814756,
      "learning_rate": 0.0001,
      "loss": 1.0538,
      "step": 2909
    },
    {
      "epoch": 0.1552,
      "grad_norm": 0.024080574046992497,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 2910
    },
    {
      "epoch": 0.15525333333333333,
      "grad_norm": 0.02423325700959463,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 2911
    },
    {
      "epoch": 0.15530666666666668,
      "grad_norm": 0.023228922476173062,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 2912
    },
    {
      "epoch": 0.15536,
      "grad_norm": 0.023807776599991247,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 2913
    },
    {
      "epoch": 0.15541333333333332,
      "grad_norm": 0.024233330943693874,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 2914
    },
    {
      "epoch": 0.15546666666666667,
      "grad_norm": 0.02346841287487636,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 2915
    },
    {
      "epoch": 0.15552,
      "grad_norm": 0.026866844121666046,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 2916
    },
    {
      "epoch": 0.15557333333333334,
      "grad_norm": 0.02482809408694699,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 2917
    },
    {
      "epoch": 0.15562666666666666,
      "grad_norm": 0.022114177095012115,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 2918
    },
    {
      "epoch": 0.15568,
      "grad_norm": 0.023023911995734943,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 2919
    },
    {
      "epoch": 0.15573333333333333,
      "grad_norm": 0.024489129005438818,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 2920
    },
    {
      "epoch": 0.15578666666666666,
      "grad_norm": 0.023643757575632602,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 2921
    },
    {
      "epoch": 0.15584,
      "grad_norm": 0.02493299795366879,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 2922
    },
    {
      "epoch": 0.15589333333333333,
      "grad_norm": 0.022718692512396235,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 2923
    },
    {
      "epoch": 0.15594666666666668,
      "grad_norm": 0.024508605798101907,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 2924
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.0244201032201887,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 2925
    },
    {
      "epoch": 0.15605333333333332,
      "grad_norm": 0.026007032990576797,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 2926
    },
    {
      "epoch": 0.15610666666666667,
      "grad_norm": 0.024988536064674032,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 2927
    },
    {
      "epoch": 0.15616,
      "grad_norm": 0.02308851937062763,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 2928
    },
    {
      "epoch": 0.15621333333333334,
      "grad_norm": 0.027182725501162523,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2929
    },
    {
      "epoch": 0.15626666666666666,
      "grad_norm": 0.026370869461416556,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 2930
    },
    {
      "epoch": 0.15632,
      "grad_norm": 0.025177320752811764,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 2931
    },
    {
      "epoch": 0.15637333333333334,
      "grad_norm": 0.02411229155185329,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 2932
    },
    {
      "epoch": 0.15642666666666666,
      "grad_norm": 0.02464022597099645,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 2933
    },
    {
      "epoch": 0.15648,
      "grad_norm": 0.02440597837068386,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 2934
    },
    {
      "epoch": 0.15653333333333333,
      "grad_norm": 0.025871409485083454,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 2935
    },
    {
      "epoch": 0.15658666666666668,
      "grad_norm": 0.024702302892641383,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 2936
    },
    {
      "epoch": 0.15664,
      "grad_norm": 0.025122662366576818,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 2937
    },
    {
      "epoch": 0.15669333333333332,
      "grad_norm": 0.02575777453791192,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2938
    },
    {
      "epoch": 0.15674666666666667,
      "grad_norm": 0.023798312079073305,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 2939
    },
    {
      "epoch": 0.1568,
      "grad_norm": 0.024918865804232866,
      "learning_rate": 0.0001,
      "loss": 1.0527,
      "step": 2940
    },
    {
      "epoch": 0.15685333333333334,
      "grad_norm": 0.026252243851745308,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 2941
    },
    {
      "epoch": 0.15690666666666667,
      "grad_norm": 0.0256053371918376,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2942
    },
    {
      "epoch": 0.15696,
      "grad_norm": 0.023665931585266187,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 2943
    },
    {
      "epoch": 0.15701333333333334,
      "grad_norm": 0.026506361624277816,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 2944
    },
    {
      "epoch": 0.15706666666666666,
      "grad_norm": 0.024041613649712263,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 2945
    },
    {
      "epoch": 0.15712,
      "grad_norm": 0.025713715531546822,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 2946
    },
    {
      "epoch": 0.15717333333333333,
      "grad_norm": 0.024286959391905776,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 2947
    },
    {
      "epoch": 0.15722666666666665,
      "grad_norm": 0.026061433436757358,
      "learning_rate": 0.0001,
      "loss": 1.01,
      "step": 2948
    },
    {
      "epoch": 0.15728,
      "grad_norm": 0.024450097195880788,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 2949
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.025243804347275675,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 2950
    },
    {
      "epoch": 0.15738666666666667,
      "grad_norm": 0.02734795826591654,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 2951
    },
    {
      "epoch": 0.15744,
      "grad_norm": 0.024878057228376733,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 2952
    },
    {
      "epoch": 0.15749333333333335,
      "grad_norm": 0.026183892789422604,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 2953
    },
    {
      "epoch": 0.15754666666666667,
      "grad_norm": 0.0260967284757879,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 2954
    },
    {
      "epoch": 0.1576,
      "grad_norm": 0.024381564279411762,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 2955
    },
    {
      "epoch": 0.15765333333333334,
      "grad_norm": 0.028348181082798903,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 2956
    },
    {
      "epoch": 0.15770666666666666,
      "grad_norm": 0.026961869611770377,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 2957
    },
    {
      "epoch": 0.15776,
      "grad_norm": 0.027271809641877923,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 2958
    },
    {
      "epoch": 0.15781333333333333,
      "grad_norm": 0.024557782106172862,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 2959
    },
    {
      "epoch": 0.15786666666666666,
      "grad_norm": 0.026130866042834287,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 2960
    },
    {
      "epoch": 0.15792,
      "grad_norm": 0.026444163399854264,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 2961
    },
    {
      "epoch": 0.15797333333333333,
      "grad_norm": 0.02380726771498953,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 2962
    },
    {
      "epoch": 0.15802666666666668,
      "grad_norm": 0.026556544892373038,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 2963
    },
    {
      "epoch": 0.15808,
      "grad_norm": 0.026324616292196377,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 2964
    },
    {
      "epoch": 0.15813333333333332,
      "grad_norm": 0.02627968723708019,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 2965
    },
    {
      "epoch": 0.15818666666666667,
      "grad_norm": 0.0269544049572685,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 2966
    },
    {
      "epoch": 0.15824,
      "grad_norm": 0.02675029404099204,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 2967
    },
    {
      "epoch": 0.15829333333333334,
      "grad_norm": 0.026361807134961245,
      "learning_rate": 0.0001,
      "loss": 1.065,
      "step": 2968
    },
    {
      "epoch": 0.15834666666666666,
      "grad_norm": 0.026857293382601247,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 2969
    },
    {
      "epoch": 0.1584,
      "grad_norm": 0.023634975322612602,
      "learning_rate": 0.0001,
      "loss": 1.0654,
      "step": 2970
    },
    {
      "epoch": 0.15845333333333333,
      "grad_norm": 0.02826128303623428,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 2971
    },
    {
      "epoch": 0.15850666666666666,
      "grad_norm": 0.02498207643729721,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 2972
    },
    {
      "epoch": 0.15856,
      "grad_norm": 0.025039036589847578,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 2973
    },
    {
      "epoch": 0.15861333333333333,
      "grad_norm": 0.02420203338998239,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 2974
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.02520117740654435,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 2975
    },
    {
      "epoch": 0.15872,
      "grad_norm": 0.02463416373436397,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 2976
    },
    {
      "epoch": 0.15877333333333332,
      "grad_norm": 0.024280360649431062,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 2977
    },
    {
      "epoch": 0.15882666666666667,
      "grad_norm": 0.024230936144297655,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2978
    },
    {
      "epoch": 0.15888,
      "grad_norm": 0.024779852112806134,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 2979
    },
    {
      "epoch": 0.15893333333333334,
      "grad_norm": 0.024442020686881717,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 2980
    },
    {
      "epoch": 0.15898666666666667,
      "grad_norm": 0.02363717135431708,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 2981
    },
    {
      "epoch": 0.15904,
      "grad_norm": 0.023738472777105918,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 2982
    },
    {
      "epoch": 0.15909333333333334,
      "grad_norm": 0.024021486943556925,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 2983
    },
    {
      "epoch": 0.15914666666666666,
      "grad_norm": 0.02393024458221936,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 2984
    },
    {
      "epoch": 0.1592,
      "grad_norm": 0.026950702490471348,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2985
    },
    {
      "epoch": 0.15925333333333333,
      "grad_norm": 0.02363930267556382,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 2986
    },
    {
      "epoch": 0.15930666666666668,
      "grad_norm": 0.02550620628082037,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 2987
    },
    {
      "epoch": 0.15936,
      "grad_norm": 0.024415491437071647,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 2988
    },
    {
      "epoch": 0.15941333333333332,
      "grad_norm": 0.023893024159728916,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 2989
    },
    {
      "epoch": 0.15946666666666667,
      "grad_norm": 0.02472691366597289,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 2990
    },
    {
      "epoch": 0.15952,
      "grad_norm": 0.02397109971751671,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 2991
    },
    {
      "epoch": 0.15957333333333334,
      "grad_norm": 0.026859938587138442,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 2992
    },
    {
      "epoch": 0.15962666666666667,
      "grad_norm": 0.0242660769624829,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 2993
    },
    {
      "epoch": 0.15968,
      "grad_norm": 0.0239915366025158,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 2994
    },
    {
      "epoch": 0.15973333333333334,
      "grad_norm": 0.02392535137991501,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 2995
    },
    {
      "epoch": 0.15978666666666666,
      "grad_norm": 0.023373773966374644,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 2996
    },
    {
      "epoch": 0.15984,
      "grad_norm": 0.022954071139498523,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 2997
    },
    {
      "epoch": 0.15989333333333333,
      "grad_norm": 0.024727701893953784,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 2998
    },
    {
      "epoch": 0.15994666666666665,
      "grad_norm": 0.023148217941958742,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 2999
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.024948230330894224,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "step": 3000
    },
    {
      "epoch": 0.16,
      "eval_accuracy": 0.6145619410911062,
      "eval_loss": 1.3855246305465698,
      "eval_runtime": 62.5608,
      "eval_samples_per_second": 15.984,
      "eval_steps_per_second": 0.512,
      "step": 3000
    },
    {
      "epoch": 0.16005333333333333,
      "grad_norm": 0.024297398694448528,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3001
    },
    {
      "epoch": 0.16010666666666667,
      "grad_norm": 0.02354096793624368,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 3002
    },
    {
      "epoch": 0.16016,
      "grad_norm": 0.02490644935891289,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 3003
    },
    {
      "epoch": 0.16021333333333335,
      "grad_norm": 0.02292379009168702,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 3004
    },
    {
      "epoch": 0.16026666666666667,
      "grad_norm": 0.026373001802781598,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 3005
    },
    {
      "epoch": 0.16032,
      "grad_norm": 0.02410989849741998,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 3006
    },
    {
      "epoch": 0.16037333333333334,
      "grad_norm": 0.0224550000519139,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 3007
    },
    {
      "epoch": 0.16042666666666666,
      "grad_norm": 0.028049375572750723,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 3008
    },
    {
      "epoch": 0.16048,
      "grad_norm": 0.024998836275669078,
      "learning_rate": 0.0001,
      "loss": 1.0228,
      "step": 3009
    },
    {
      "epoch": 0.16053333333333333,
      "grad_norm": 0.027438294521016697,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 3010
    },
    {
      "epoch": 0.16058666666666666,
      "grad_norm": 0.03037611546015116,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3011
    },
    {
      "epoch": 0.16064,
      "grad_norm": 0.025647671895109834,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 3012
    },
    {
      "epoch": 0.16069333333333333,
      "grad_norm": 0.02582760973758508,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 3013
    },
    {
      "epoch": 0.16074666666666668,
      "grad_norm": 0.027131278788327724,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 3014
    },
    {
      "epoch": 0.1608,
      "grad_norm": 0.026326258741276407,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 3015
    },
    {
      "epoch": 0.16085333333333332,
      "grad_norm": 0.025658520709495005,
      "learning_rate": 0.0001,
      "loss": 1.0612,
      "step": 3016
    },
    {
      "epoch": 0.16090666666666667,
      "grad_norm": 0.0262832168747172,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 3017
    },
    {
      "epoch": 0.16096,
      "grad_norm": 0.02466851974623505,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 3018
    },
    {
      "epoch": 0.16101333333333334,
      "grad_norm": 0.023529208533452133,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 3019
    },
    {
      "epoch": 0.16106666666666666,
      "grad_norm": 0.025223685413576592,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 3020
    },
    {
      "epoch": 0.16112,
      "grad_norm": 0.0252405375550761,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 3021
    },
    {
      "epoch": 0.16117333333333334,
      "grad_norm": 0.0239408558561943,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 3022
    },
    {
      "epoch": 0.16122666666666666,
      "grad_norm": 0.024274526148322248,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3023
    },
    {
      "epoch": 0.16128,
      "grad_norm": 0.027277085747479397,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 3024
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.026589991405756866,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 3025
    },
    {
      "epoch": 0.16138666666666668,
      "grad_norm": 0.025561322873803177,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3026
    },
    {
      "epoch": 0.16144,
      "grad_norm": 0.02489068110691095,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 3027
    },
    {
      "epoch": 0.16149333333333332,
      "grad_norm": 0.025828247419996633,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 3028
    },
    {
      "epoch": 0.16154666666666667,
      "grad_norm": 0.026736368166451818,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 3029
    },
    {
      "epoch": 0.1616,
      "grad_norm": 0.023946717464056744,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 3030
    },
    {
      "epoch": 0.16165333333333334,
      "grad_norm": 0.028180241598548227,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 3031
    },
    {
      "epoch": 0.16170666666666667,
      "grad_norm": 0.02492086248684902,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 3032
    },
    {
      "epoch": 0.16176,
      "grad_norm": 0.026000795786105434,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 3033
    },
    {
      "epoch": 0.16181333333333334,
      "grad_norm": 0.02556433012116321,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3034
    },
    {
      "epoch": 0.16186666666666666,
      "grad_norm": 0.024524568069721732,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3035
    },
    {
      "epoch": 0.16192,
      "grad_norm": 0.026577513615034912,
      "learning_rate": 0.0001,
      "loss": 1.0456,
      "step": 3036
    },
    {
      "epoch": 0.16197333333333333,
      "grad_norm": 0.024332818594759786,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3037
    },
    {
      "epoch": 0.16202666666666668,
      "grad_norm": 0.02627285748871402,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 3038
    },
    {
      "epoch": 0.16208,
      "grad_norm": 0.026279141831189456,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 3039
    },
    {
      "epoch": 0.16213333333333332,
      "grad_norm": 0.02399849423640993,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 3040
    },
    {
      "epoch": 0.16218666666666667,
      "grad_norm": 0.025497502736511045,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3041
    },
    {
      "epoch": 0.16224,
      "grad_norm": 0.024533501676096,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 3042
    },
    {
      "epoch": 0.16229333333333334,
      "grad_norm": 0.025069233226097526,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 3043
    },
    {
      "epoch": 0.16234666666666667,
      "grad_norm": 0.02754265182539945,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 3044
    },
    {
      "epoch": 0.1624,
      "grad_norm": 0.02445071620088234,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 3045
    },
    {
      "epoch": 0.16245333333333334,
      "grad_norm": 0.027325879723132974,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3046
    },
    {
      "epoch": 0.16250666666666666,
      "grad_norm": 0.025308663459589504,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 3047
    },
    {
      "epoch": 0.16256,
      "grad_norm": 0.023518980066552012,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 3048
    },
    {
      "epoch": 0.16261333333333333,
      "grad_norm": 0.030151119830745504,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 3049
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.024808663306564283,
      "learning_rate": 0.0001,
      "loss": 1.0859,
      "step": 3050
    },
    {
      "epoch": 0.16272,
      "grad_norm": 0.026304930329921445,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 3051
    },
    {
      "epoch": 0.16277333333333333,
      "grad_norm": 0.026178347232392502,
      "learning_rate": 0.0001,
      "loss": 1.014,
      "step": 3052
    },
    {
      "epoch": 0.16282666666666668,
      "grad_norm": 0.026728534904462118,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3053
    },
    {
      "epoch": 0.16288,
      "grad_norm": 0.0261920024023932,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 3054
    },
    {
      "epoch": 0.16293333333333335,
      "grad_norm": 0.026571907043389208,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 3055
    },
    {
      "epoch": 0.16298666666666667,
      "grad_norm": 0.027083921860829665,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 3056
    },
    {
      "epoch": 0.16304,
      "grad_norm": 0.024579076193239062,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 3057
    },
    {
      "epoch": 0.16309333333333334,
      "grad_norm": 0.02650501142943744,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 3058
    },
    {
      "epoch": 0.16314666666666666,
      "grad_norm": 0.026147161632386638,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 3059
    },
    {
      "epoch": 0.1632,
      "grad_norm": 0.02382256311624333,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 3060
    },
    {
      "epoch": 0.16325333333333333,
      "grad_norm": 0.026960634115609044,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 3061
    },
    {
      "epoch": 0.16330666666666666,
      "grad_norm": 0.026716835249932597,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 3062
    },
    {
      "epoch": 0.16336,
      "grad_norm": 0.026568990118151097,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3063
    },
    {
      "epoch": 0.16341333333333333,
      "grad_norm": 0.02357075350547116,
      "learning_rate": 0.0001,
      "loss": 1.0335,
      "step": 3064
    },
    {
      "epoch": 0.16346666666666668,
      "grad_norm": 0.026443648902009842,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 3065
    },
    {
      "epoch": 0.16352,
      "grad_norm": 0.02646612140659116,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 3066
    },
    {
      "epoch": 0.16357333333333332,
      "grad_norm": 0.024134314102768503,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 3067
    },
    {
      "epoch": 0.16362666666666667,
      "grad_norm": 0.02487344551537423,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 3068
    },
    {
      "epoch": 0.16368,
      "grad_norm": 0.028226006510698207,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 3069
    },
    {
      "epoch": 0.16373333333333334,
      "grad_norm": 0.023593569778890034,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 3070
    },
    {
      "epoch": 0.16378666666666666,
      "grad_norm": 0.026470009776063515,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 3071
    },
    {
      "epoch": 0.16384,
      "grad_norm": 0.025123454445675927,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 3072
    },
    {
      "epoch": 0.16389333333333334,
      "grad_norm": 0.02684709004188173,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 3073
    },
    {
      "epoch": 0.16394666666666666,
      "grad_norm": 0.024530046984176573,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 3074
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.027707417248179312,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3075
    },
    {
      "epoch": 0.16405333333333333,
      "grad_norm": 0.024588790514335643,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3076
    },
    {
      "epoch": 0.16410666666666668,
      "grad_norm": 0.025576951143114816,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 3077
    },
    {
      "epoch": 0.16416,
      "grad_norm": 0.02541160634125404,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3078
    },
    {
      "epoch": 0.16421333333333332,
      "grad_norm": 0.024070229236235287,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 3079
    },
    {
      "epoch": 0.16426666666666667,
      "grad_norm": 0.024967784129060547,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 3080
    },
    {
      "epoch": 0.16432,
      "grad_norm": 0.025138814007413624,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 3081
    },
    {
      "epoch": 0.16437333333333334,
      "grad_norm": 0.022867659075528176,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 3082
    },
    {
      "epoch": 0.16442666666666667,
      "grad_norm": 0.024103029285883995,
      "learning_rate": 0.0001,
      "loss": 1.0351,
      "step": 3083
    },
    {
      "epoch": 0.16448,
      "grad_norm": 0.025211983264825114,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3084
    },
    {
      "epoch": 0.16453333333333334,
      "grad_norm": 0.026179153759899848,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 3085
    },
    {
      "epoch": 0.16458666666666666,
      "grad_norm": 0.026084361434783015,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 3086
    },
    {
      "epoch": 0.16464,
      "grad_norm": 0.02717258673818343,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3087
    },
    {
      "epoch": 0.16469333333333333,
      "grad_norm": 0.02187546106831263,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 3088
    },
    {
      "epoch": 0.16474666666666668,
      "grad_norm": 0.025100883947215467,
      "learning_rate": 0.0001,
      "loss": 1.0697,
      "step": 3089
    },
    {
      "epoch": 0.1648,
      "grad_norm": 0.024991853111418542,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3090
    },
    {
      "epoch": 0.16485333333333332,
      "grad_norm": 0.0225194900201007,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 3091
    },
    {
      "epoch": 0.16490666666666667,
      "grad_norm": 0.023857903159306304,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 3092
    },
    {
      "epoch": 0.16496,
      "grad_norm": 0.025173932621857645,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 3093
    },
    {
      "epoch": 0.16501333333333335,
      "grad_norm": 0.023483049894360175,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 3094
    },
    {
      "epoch": 0.16506666666666667,
      "grad_norm": 0.02289583661011337,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 3095
    },
    {
      "epoch": 0.16512,
      "grad_norm": 0.02305217937453157,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 3096
    },
    {
      "epoch": 0.16517333333333334,
      "grad_norm": 0.0244077168393719,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 3097
    },
    {
      "epoch": 0.16522666666666666,
      "grad_norm": 0.024013383137571273,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 3098
    },
    {
      "epoch": 0.16528,
      "grad_norm": 0.024353815261923498,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 3099
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.02387560893725555,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 3100
    },
    {
      "epoch": 0.16538666666666665,
      "grad_norm": 0.023722092544277148,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 3101
    },
    {
      "epoch": 0.16544,
      "grad_norm": 0.02486301252486058,
      "learning_rate": 0.0001,
      "loss": 0.9028,
      "step": 3102
    },
    {
      "epoch": 0.16549333333333333,
      "grad_norm": 0.023437222724659264,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 3103
    },
    {
      "epoch": 0.16554666666666668,
      "grad_norm": 0.026300381645389736,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 3104
    },
    {
      "epoch": 0.1656,
      "grad_norm": 0.025721508547217206,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 3105
    },
    {
      "epoch": 0.16565333333333335,
      "grad_norm": 0.02580341655128775,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3106
    },
    {
      "epoch": 0.16570666666666667,
      "grad_norm": 0.024717062203306467,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3107
    },
    {
      "epoch": 0.16576,
      "grad_norm": 0.027188333990225043,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3108
    },
    {
      "epoch": 0.16581333333333334,
      "grad_norm": 0.023020663315678914,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 3109
    },
    {
      "epoch": 0.16586666666666666,
      "grad_norm": 0.024927681379550436,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 3110
    },
    {
      "epoch": 0.16592,
      "grad_norm": 0.02300807474738058,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 3111
    },
    {
      "epoch": 0.16597333333333333,
      "grad_norm": 0.02527258483893534,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 3112
    },
    {
      "epoch": 0.16602666666666666,
      "grad_norm": 0.023229282310007135,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 3113
    },
    {
      "epoch": 0.16608,
      "grad_norm": 0.024032332620529673,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 3114
    },
    {
      "epoch": 0.16613333333333333,
      "grad_norm": 0.02365747735019262,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 3115
    },
    {
      "epoch": 0.16618666666666668,
      "grad_norm": 0.02556911101012355,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 3116
    },
    {
      "epoch": 0.16624,
      "grad_norm": 0.02401078689070725,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 3117
    },
    {
      "epoch": 0.16629333333333332,
      "grad_norm": 0.02429074860029864,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 3118
    },
    {
      "epoch": 0.16634666666666667,
      "grad_norm": 0.02281245384831461,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3119
    },
    {
      "epoch": 0.1664,
      "grad_norm": 0.02835063674141327,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 3120
    },
    {
      "epoch": 0.16645333333333334,
      "grad_norm": 0.023480373007969367,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 3121
    },
    {
      "epoch": 0.16650666666666666,
      "grad_norm": 0.024248112454402,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 3122
    },
    {
      "epoch": 0.16656,
      "grad_norm": 0.02579459354609858,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 3123
    },
    {
      "epoch": 0.16661333333333334,
      "grad_norm": 0.025261760124564235,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 3124
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.02543498121782552,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3125
    },
    {
      "epoch": 0.16672,
      "grad_norm": 0.026597739513616242,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 3126
    },
    {
      "epoch": 0.16677333333333333,
      "grad_norm": 0.025687889311139918,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 3127
    },
    {
      "epoch": 0.16682666666666668,
      "grad_norm": 0.024851635500503934,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 3128
    },
    {
      "epoch": 0.16688,
      "grad_norm": 0.028111840472852288,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 3129
    },
    {
      "epoch": 0.16693333333333332,
      "grad_norm": 0.026313770985350253,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 3130
    },
    {
      "epoch": 0.16698666666666667,
      "grad_norm": 0.0271653712980646,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 3131
    },
    {
      "epoch": 0.16704,
      "grad_norm": 0.02570071099396188,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 3132
    },
    {
      "epoch": 0.16709333333333334,
      "grad_norm": 0.026840296213947918,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3133
    },
    {
      "epoch": 0.16714666666666667,
      "grad_norm": 0.028089885710986334,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 3134
    },
    {
      "epoch": 0.1672,
      "grad_norm": 0.028599376803054747,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 3135
    },
    {
      "epoch": 0.16725333333333334,
      "grad_norm": 0.02489973169805591,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 3136
    },
    {
      "epoch": 0.16730666666666666,
      "grad_norm": 0.025210532622558443,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3137
    },
    {
      "epoch": 0.16736,
      "grad_norm": 0.02776235111523642,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 3138
    },
    {
      "epoch": 0.16741333333333333,
      "grad_norm": 0.029314540733893828,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 3139
    },
    {
      "epoch": 0.16746666666666668,
      "grad_norm": 0.023814781635805783,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 3140
    },
    {
      "epoch": 0.16752,
      "grad_norm": 0.027673750199779214,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 3141
    },
    {
      "epoch": 0.16757333333333332,
      "grad_norm": 0.026446895425971173,
      "learning_rate": 0.0001,
      "loss": 0.9146,
      "step": 3142
    },
    {
      "epoch": 0.16762666666666667,
      "grad_norm": 0.02297891072497885,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 3143
    },
    {
      "epoch": 0.16768,
      "grad_norm": 0.02879619364818138,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 3144
    },
    {
      "epoch": 0.16773333333333335,
      "grad_norm": 0.027461768963410623,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 3145
    },
    {
      "epoch": 0.16778666666666667,
      "grad_norm": 0.024095347011667025,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3146
    },
    {
      "epoch": 0.16784,
      "grad_norm": 0.02867530925723784,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 3147
    },
    {
      "epoch": 0.16789333333333334,
      "grad_norm": 0.02599638080902355,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3148
    },
    {
      "epoch": 0.16794666666666666,
      "grad_norm": 0.024544708020736657,
      "learning_rate": 0.0001,
      "loss": 1.0848,
      "step": 3149
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.027332653835688732,
      "learning_rate": 0.0001,
      "loss": 1.0445,
      "step": 3150
    },
    {
      "epoch": 0.16805333333333333,
      "grad_norm": 0.025170238104129196,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 3151
    },
    {
      "epoch": 0.16810666666666665,
      "grad_norm": 0.02573356166532215,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3152
    },
    {
      "epoch": 0.16816,
      "grad_norm": 0.024826402111960806,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3153
    },
    {
      "epoch": 0.16821333333333333,
      "grad_norm": 0.026116630903400034,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 3154
    },
    {
      "epoch": 0.16826666666666668,
      "grad_norm": 0.026717699627494894,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 3155
    },
    {
      "epoch": 0.16832,
      "grad_norm": 0.02567605815777642,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 3156
    },
    {
      "epoch": 0.16837333333333335,
      "grad_norm": 0.02581423057659599,
      "learning_rate": 0.0001,
      "loss": 1.0989,
      "step": 3157
    },
    {
      "epoch": 0.16842666666666667,
      "grad_norm": 0.024584267749455692,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 3158
    },
    {
      "epoch": 0.16848,
      "grad_norm": 0.024065228082501795,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 3159
    },
    {
      "epoch": 0.16853333333333334,
      "grad_norm": 0.02421884344099641,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 3160
    },
    {
      "epoch": 0.16858666666666666,
      "grad_norm": 0.0256546196169228,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 3161
    },
    {
      "epoch": 0.16864,
      "grad_norm": 0.023208010609823707,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 3162
    },
    {
      "epoch": 0.16869333333333333,
      "grad_norm": 0.02457271386022546,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 3163
    },
    {
      "epoch": 0.16874666666666666,
      "grad_norm": 0.025515012925885622,
      "learning_rate": 0.0001,
      "loss": 1.0576,
      "step": 3164
    },
    {
      "epoch": 0.1688,
      "grad_norm": 0.024822399393591058,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3165
    },
    {
      "epoch": 0.16885333333333333,
      "grad_norm": 0.02458972030896367,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 3166
    },
    {
      "epoch": 0.16890666666666668,
      "grad_norm": 0.026199447232320608,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3167
    },
    {
      "epoch": 0.16896,
      "grad_norm": 0.02675883761232502,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 3168
    },
    {
      "epoch": 0.16901333333333332,
      "grad_norm": 0.025939088832118016,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 3169
    },
    {
      "epoch": 0.16906666666666667,
      "grad_norm": 0.026368958569529893,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 3170
    },
    {
      "epoch": 0.16912,
      "grad_norm": 0.025107305071063155,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 3171
    },
    {
      "epoch": 0.16917333333333334,
      "grad_norm": 0.026921672819041335,
      "learning_rate": 0.0001,
      "loss": 1.0254,
      "step": 3172
    },
    {
      "epoch": 0.16922666666666666,
      "grad_norm": 0.023754524988048475,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 3173
    },
    {
      "epoch": 0.16928,
      "grad_norm": 0.02686021477712718,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 3174
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.025031581374756112,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 3175
    },
    {
      "epoch": 0.16938666666666666,
      "grad_norm": 0.024881324076897974,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3176
    },
    {
      "epoch": 0.16944,
      "grad_norm": 0.025820365057906015,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 3177
    },
    {
      "epoch": 0.16949333333333333,
      "grad_norm": 0.025137167173628884,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3178
    },
    {
      "epoch": 0.16954666666666668,
      "grad_norm": 0.02496282420793538,
      "learning_rate": 0.0001,
      "loss": 1.0639,
      "step": 3179
    },
    {
      "epoch": 0.1696,
      "grad_norm": 0.026753886007206892,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 3180
    },
    {
      "epoch": 0.16965333333333332,
      "grad_norm": 0.025768187568977002,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 3181
    },
    {
      "epoch": 0.16970666666666667,
      "grad_norm": 0.026004737358098263,
      "learning_rate": 0.0001,
      "loss": 1.0862,
      "step": 3182
    },
    {
      "epoch": 0.16976,
      "grad_norm": 0.02571949370738354,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 3183
    },
    {
      "epoch": 0.16981333333333334,
      "grad_norm": 0.025839358743692798,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3184
    },
    {
      "epoch": 0.16986666666666667,
      "grad_norm": 0.02773116383640443,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 3185
    },
    {
      "epoch": 0.16992,
      "grad_norm": 0.02993519678356065,
      "learning_rate": 0.0001,
      "loss": 0.8967,
      "step": 3186
    },
    {
      "epoch": 0.16997333333333334,
      "grad_norm": 0.02316813463921109,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3187
    },
    {
      "epoch": 0.17002666666666666,
      "grad_norm": 0.025701665510525988,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 3188
    },
    {
      "epoch": 0.17008,
      "grad_norm": 0.02462250943729555,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 3189
    },
    {
      "epoch": 0.17013333333333333,
      "grad_norm": 0.024599668574557726,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 3190
    },
    {
      "epoch": 0.17018666666666668,
      "grad_norm": 0.02344840065227566,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 3191
    },
    {
      "epoch": 0.17024,
      "grad_norm": 0.02379148680864617,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 3192
    },
    {
      "epoch": 0.17029333333333332,
      "grad_norm": 0.026793758542982354,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 3193
    },
    {
      "epoch": 0.17034666666666667,
      "grad_norm": 0.025927946608626525,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 3194
    },
    {
      "epoch": 0.1704,
      "grad_norm": 0.027963789007362315,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 3195
    },
    {
      "epoch": 0.17045333333333335,
      "grad_norm": 0.025086104082581197,
      "learning_rate": 0.0001,
      "loss": 0.8819,
      "step": 3196
    },
    {
      "epoch": 0.17050666666666667,
      "grad_norm": 0.02575706337822479,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 3197
    },
    {
      "epoch": 0.17056,
      "grad_norm": 0.02398344839381579,
      "learning_rate": 0.0001,
      "loss": 1.0722,
      "step": 3198
    },
    {
      "epoch": 0.17061333333333334,
      "grad_norm": 0.02911692100943575,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 3199
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.026549805837459896,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 3200
    },
    {
      "epoch": 0.17066666666666666,
      "eval_accuracy": 0.6148952938868553,
      "eval_loss": 1.3836640119552612,
      "eval_runtime": 62.3514,
      "eval_samples_per_second": 16.038,
      "eval_steps_per_second": 0.513,
      "step": 3200
    },
    {
      "epoch": 0.17072,
      "grad_norm": 0.025180253996484728,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 3201
    },
    {
      "epoch": 0.17077333333333333,
      "grad_norm": 0.02937578117060558,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 3202
    },
    {
      "epoch": 0.17082666666666665,
      "grad_norm": 0.026394351412294816,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 3203
    },
    {
      "epoch": 0.17088,
      "grad_norm": 0.0253902081369493,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 3204
    },
    {
      "epoch": 0.17093333333333333,
      "grad_norm": 0.024961573055152557,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 3205
    },
    {
      "epoch": 0.17098666666666668,
      "grad_norm": 0.02431309271029481,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3206
    },
    {
      "epoch": 0.17104,
      "grad_norm": 0.025267501174650823,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 3207
    },
    {
      "epoch": 0.17109333333333332,
      "grad_norm": 0.023016209361155254,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 3208
    },
    {
      "epoch": 0.17114666666666667,
      "grad_norm": 0.029420455658514238,
      "learning_rate": 0.0001,
      "loss": 1.042,
      "step": 3209
    },
    {
      "epoch": 0.1712,
      "grad_norm": 0.025537264144258005,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 3210
    },
    {
      "epoch": 0.17125333333333334,
      "grad_norm": 0.024652627306706074,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 3211
    },
    {
      "epoch": 0.17130666666666666,
      "grad_norm": 0.023528966491634724,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 3212
    },
    {
      "epoch": 0.17136,
      "grad_norm": 0.023587512290345294,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 3213
    },
    {
      "epoch": 0.17141333333333333,
      "grad_norm": 0.023813890730982397,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 3214
    },
    {
      "epoch": 0.17146666666666666,
      "grad_norm": 0.025231937173622022,
      "learning_rate": 0.0001,
      "loss": 1.0812,
      "step": 3215
    },
    {
      "epoch": 0.17152,
      "grad_norm": 0.024815432590172107,
      "learning_rate": 0.0001,
      "loss": 1.0716,
      "step": 3216
    },
    {
      "epoch": 0.17157333333333333,
      "grad_norm": 0.024772286659863224,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 3217
    },
    {
      "epoch": 0.17162666666666668,
      "grad_norm": 0.025991491627035138,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3218
    },
    {
      "epoch": 0.17168,
      "grad_norm": 0.02570544138876579,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 3219
    },
    {
      "epoch": 0.17173333333333332,
      "grad_norm": 0.02402967462411596,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 3220
    },
    {
      "epoch": 0.17178666666666667,
      "grad_norm": 0.026766748492244485,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 3221
    },
    {
      "epoch": 0.17184,
      "grad_norm": 0.026133135533397796,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 3222
    },
    {
      "epoch": 0.17189333333333334,
      "grad_norm": 0.026094978850537718,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3223
    },
    {
      "epoch": 0.17194666666666666,
      "grad_norm": 0.026553672417286067,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 3224
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.026287396500706578,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 3225
    },
    {
      "epoch": 0.17205333333333334,
      "grad_norm": 0.02549072879334232,
      "learning_rate": 0.0001,
      "loss": 1.0376,
      "step": 3226
    },
    {
      "epoch": 0.17210666666666666,
      "grad_norm": 0.023777766881523877,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 3227
    },
    {
      "epoch": 0.17216,
      "grad_norm": 0.025197569598541653,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 3228
    },
    {
      "epoch": 0.17221333333333333,
      "grad_norm": 0.029203595172221212,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 3229
    },
    {
      "epoch": 0.17226666666666668,
      "grad_norm": 0.02565999840536797,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 3230
    },
    {
      "epoch": 0.17232,
      "grad_norm": 0.024698466210046243,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 3231
    },
    {
      "epoch": 0.17237333333333332,
      "grad_norm": 0.02476613962728062,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 3232
    },
    {
      "epoch": 0.17242666666666667,
      "grad_norm": 0.023000990619386503,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 3233
    },
    {
      "epoch": 0.17248,
      "grad_norm": 0.02481676534774418,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3234
    },
    {
      "epoch": 0.17253333333333334,
      "grad_norm": 0.02316009609097262,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 3235
    },
    {
      "epoch": 0.17258666666666667,
      "grad_norm": 0.02430514384116189,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 3236
    },
    {
      "epoch": 0.17264,
      "grad_norm": 0.02411396056308451,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3237
    },
    {
      "epoch": 0.17269333333333334,
      "grad_norm": 0.024682086048844993,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 3238
    },
    {
      "epoch": 0.17274666666666666,
      "grad_norm": 0.023734650968473422,
      "learning_rate": 0.0001,
      "loss": 1.0491,
      "step": 3239
    },
    {
      "epoch": 0.1728,
      "grad_norm": 0.023112553593343837,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 3240
    },
    {
      "epoch": 0.17285333333333333,
      "grad_norm": 0.023614553545185577,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 3241
    },
    {
      "epoch": 0.17290666666666665,
      "grad_norm": 0.024986510655095964,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 3242
    },
    {
      "epoch": 0.17296,
      "grad_norm": 0.02413172008614967,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3243
    },
    {
      "epoch": 0.17301333333333332,
      "grad_norm": 0.026729789631091707,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3244
    },
    {
      "epoch": 0.17306666666666667,
      "grad_norm": 0.02686316927307677,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 3245
    },
    {
      "epoch": 0.17312,
      "grad_norm": 0.024551927210796513,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 3246
    },
    {
      "epoch": 0.17317333333333335,
      "grad_norm": 0.027864444270083992,
      "learning_rate": 0.0001,
      "loss": 1.0841,
      "step": 3247
    },
    {
      "epoch": 0.17322666666666667,
      "grad_norm": 0.02668807440874764,
      "learning_rate": 0.0001,
      "loss": 0.9074,
      "step": 3248
    },
    {
      "epoch": 0.17328,
      "grad_norm": 0.024124829995790492,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 3249
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.025930345242203254,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 3250
    },
    {
      "epoch": 0.17338666666666666,
      "grad_norm": 0.025480269205712492,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 3251
    },
    {
      "epoch": 0.17344,
      "grad_norm": 0.02498706522597276,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3252
    },
    {
      "epoch": 0.17349333333333333,
      "grad_norm": 0.024167800841631337,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 3253
    },
    {
      "epoch": 0.17354666666666665,
      "grad_norm": 0.024374511754638045,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 3254
    },
    {
      "epoch": 0.1736,
      "grad_norm": 0.025424948649484472,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "step": 3255
    },
    {
      "epoch": 0.17365333333333333,
      "grad_norm": 0.023547229593546146,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3256
    },
    {
      "epoch": 0.17370666666666668,
      "grad_norm": 0.026604589121466498,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3257
    },
    {
      "epoch": 0.17376,
      "grad_norm": 0.025645795272443025,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 3258
    },
    {
      "epoch": 0.17381333333333332,
      "grad_norm": 0.02507952360873121,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 3259
    },
    {
      "epoch": 0.17386666666666667,
      "grad_norm": 0.024342816368392986,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 3260
    },
    {
      "epoch": 0.17392,
      "grad_norm": 0.02807401699005808,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 3261
    },
    {
      "epoch": 0.17397333333333334,
      "grad_norm": 0.023172335836664233,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3262
    },
    {
      "epoch": 0.17402666666666666,
      "grad_norm": 0.024857028009847133,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3263
    },
    {
      "epoch": 0.17408,
      "grad_norm": 0.027643427976389388,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 3264
    },
    {
      "epoch": 0.17413333333333333,
      "grad_norm": 0.02561759939905144,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 3265
    },
    {
      "epoch": 0.17418666666666666,
      "grad_norm": 0.025162804669445236,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 3266
    },
    {
      "epoch": 0.17424,
      "grad_norm": 0.028701710316663947,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 3267
    },
    {
      "epoch": 0.17429333333333333,
      "grad_norm": 0.02733915521536416,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 3268
    },
    {
      "epoch": 0.17434666666666668,
      "grad_norm": 0.029075667107138284,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 3269
    },
    {
      "epoch": 0.1744,
      "grad_norm": 0.02653160084217948,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 3270
    },
    {
      "epoch": 0.17445333333333332,
      "grad_norm": 0.02835227613630983,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 3271
    },
    {
      "epoch": 0.17450666666666667,
      "grad_norm": 0.02419417781202281,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 3272
    },
    {
      "epoch": 0.17456,
      "grad_norm": 0.025234444657224575,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 3273
    },
    {
      "epoch": 0.17461333333333334,
      "grad_norm": 0.02623576327156178,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 3274
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.025078277168629183,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 3275
    },
    {
      "epoch": 0.17472,
      "grad_norm": 0.024871816292535685,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 3276
    },
    {
      "epoch": 0.17477333333333334,
      "grad_norm": 0.025507221010659675,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 3277
    },
    {
      "epoch": 0.17482666666666666,
      "grad_norm": 0.023165644603191374,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3278
    },
    {
      "epoch": 0.17488,
      "grad_norm": 0.024480223694639328,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 3279
    },
    {
      "epoch": 0.17493333333333333,
      "grad_norm": 0.025135070616603895,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 3280
    },
    {
      "epoch": 0.17498666666666668,
      "grad_norm": 0.025202331306909707,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 3281
    },
    {
      "epoch": 0.17504,
      "grad_norm": 0.02772264888081956,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 3282
    },
    {
      "epoch": 0.17509333333333332,
      "grad_norm": 0.026353809767062614,
      "learning_rate": 0.0001,
      "loss": 1.1162,
      "step": 3283
    },
    {
      "epoch": 0.17514666666666667,
      "grad_norm": 0.028267453071198576,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 3284
    },
    {
      "epoch": 0.1752,
      "grad_norm": 0.024530706735911238,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3285
    },
    {
      "epoch": 0.17525333333333334,
      "grad_norm": 0.0259056445759679,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 3286
    },
    {
      "epoch": 0.17530666666666667,
      "grad_norm": 0.025622966521847684,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 3287
    },
    {
      "epoch": 0.17536,
      "grad_norm": 0.024815579974000846,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 3288
    },
    {
      "epoch": 0.17541333333333334,
      "grad_norm": 0.025669547245977614,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 3289
    },
    {
      "epoch": 0.17546666666666666,
      "grad_norm": 0.024513910544881758,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 3290
    },
    {
      "epoch": 0.17552,
      "grad_norm": 0.024852612682380478,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 3291
    },
    {
      "epoch": 0.17557333333333333,
      "grad_norm": 0.02467697048306532,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 3292
    },
    {
      "epoch": 0.17562666666666665,
      "grad_norm": 0.024953749313015756,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 3293
    },
    {
      "epoch": 0.17568,
      "grad_norm": 0.0267438503497353,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 3294
    },
    {
      "epoch": 0.17573333333333332,
      "grad_norm": 0.024629173835076765,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 3295
    },
    {
      "epoch": 0.17578666666666667,
      "grad_norm": 0.026741944569232113,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 3296
    },
    {
      "epoch": 0.17584,
      "grad_norm": 0.02575150917189237,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 3297
    },
    {
      "epoch": 0.17589333333333335,
      "grad_norm": 0.024188102805792856,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 3298
    },
    {
      "epoch": 0.17594666666666667,
      "grad_norm": 0.02460434512223889,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3299
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.02661081455985677,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 3300
    },
    {
      "epoch": 0.17605333333333334,
      "grad_norm": 0.028647450435440546,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 3301
    },
    {
      "epoch": 0.17610666666666666,
      "grad_norm": 0.027339896767391524,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 3302
    },
    {
      "epoch": 0.17616,
      "grad_norm": 0.023483652562482176,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 3303
    },
    {
      "epoch": 0.17621333333333333,
      "grad_norm": 0.026663309664095934,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 3304
    },
    {
      "epoch": 0.17626666666666665,
      "grad_norm": 0.027202116347814748,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3305
    },
    {
      "epoch": 0.17632,
      "grad_norm": 0.02390439583667912,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 3306
    },
    {
      "epoch": 0.17637333333333333,
      "grad_norm": 0.02726673877515778,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 3307
    },
    {
      "epoch": 0.17642666666666668,
      "grad_norm": 0.030836237003722705,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 3308
    },
    {
      "epoch": 0.17648,
      "grad_norm": 0.027554319159455946,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 3309
    },
    {
      "epoch": 0.17653333333333332,
      "grad_norm": 0.02409846627460086,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 3310
    },
    {
      "epoch": 0.17658666666666667,
      "grad_norm": 0.029351347270393006,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 3311
    },
    {
      "epoch": 0.17664,
      "grad_norm": 0.024751479812259714,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 3312
    },
    {
      "epoch": 0.17669333333333334,
      "grad_norm": 0.026252964674900504,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 3313
    },
    {
      "epoch": 0.17674666666666666,
      "grad_norm": 0.02467546788227699,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 3314
    },
    {
      "epoch": 0.1768,
      "grad_norm": 0.028397330824945975,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3315
    },
    {
      "epoch": 0.17685333333333333,
      "grad_norm": 0.024608656361176977,
      "learning_rate": 0.0001,
      "loss": 1.0291,
      "step": 3316
    },
    {
      "epoch": 0.17690666666666666,
      "grad_norm": 0.02586550291288537,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 3317
    },
    {
      "epoch": 0.17696,
      "grad_norm": 0.025777067756935324,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 3318
    },
    {
      "epoch": 0.17701333333333333,
      "grad_norm": 0.023691145871176034,
      "learning_rate": 0.0001,
      "loss": 0.9081,
      "step": 3319
    },
    {
      "epoch": 0.17706666666666668,
      "grad_norm": 0.02439266025195327,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3320
    },
    {
      "epoch": 0.17712,
      "grad_norm": 0.025569110341384576,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 3321
    },
    {
      "epoch": 0.17717333333333332,
      "grad_norm": 0.023220496813552184,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 3322
    },
    {
      "epoch": 0.17722666666666667,
      "grad_norm": 0.026562486666884263,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3323
    },
    {
      "epoch": 0.17728,
      "grad_norm": 0.025668681309924658,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 3324
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.025637225992535827,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 3325
    },
    {
      "epoch": 0.17738666666666666,
      "grad_norm": 0.02672393205563525,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 3326
    },
    {
      "epoch": 0.17744,
      "grad_norm": 0.027030260042634077,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 3327
    },
    {
      "epoch": 0.17749333333333334,
      "grad_norm": 0.026086547322097118,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 3328
    },
    {
      "epoch": 0.17754666666666666,
      "grad_norm": 0.02465233840387541,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 3329
    },
    {
      "epoch": 0.1776,
      "grad_norm": 0.025730868432308474,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3330
    },
    {
      "epoch": 0.17765333333333333,
      "grad_norm": 0.025685968925867577,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 3331
    },
    {
      "epoch": 0.17770666666666668,
      "grad_norm": 0.025893342650091983,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 3332
    },
    {
      "epoch": 0.17776,
      "grad_norm": 0.02784994798971849,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 3333
    },
    {
      "epoch": 0.17781333333333332,
      "grad_norm": 0.024324606839358914,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 3334
    },
    {
      "epoch": 0.17786666666666667,
      "grad_norm": 0.02745575682717646,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 3335
    },
    {
      "epoch": 0.17792,
      "grad_norm": 0.026578476312241268,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 3336
    },
    {
      "epoch": 0.17797333333333334,
      "grad_norm": 0.026738034471297727,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 3337
    },
    {
      "epoch": 0.17802666666666667,
      "grad_norm": 0.02642963077882504,
      "learning_rate": 0.0001,
      "loss": 1.0506,
      "step": 3338
    },
    {
      "epoch": 0.17808,
      "grad_norm": 0.026137199647165824,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 3339
    },
    {
      "epoch": 0.17813333333333334,
      "grad_norm": 0.028944488140847664,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 3340
    },
    {
      "epoch": 0.17818666666666666,
      "grad_norm": 0.025802608387355125,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 3341
    },
    {
      "epoch": 0.17824,
      "grad_norm": 0.024481492653230234,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 3342
    },
    {
      "epoch": 0.17829333333333333,
      "grad_norm": 0.027879991209138016,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 3343
    },
    {
      "epoch": 0.17834666666666665,
      "grad_norm": 0.028173536594283913,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 3344
    },
    {
      "epoch": 0.1784,
      "grad_norm": 0.025966632937853378,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 3345
    },
    {
      "epoch": 0.17845333333333332,
      "grad_norm": 0.02654554243205197,
      "learning_rate": 0.0001,
      "loss": 1.0378,
      "step": 3346
    },
    {
      "epoch": 0.17850666666666667,
      "grad_norm": 0.024949525696071975,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3347
    },
    {
      "epoch": 0.17856,
      "grad_norm": 0.029127633729205772,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3348
    },
    {
      "epoch": 0.17861333333333335,
      "grad_norm": 0.027058521363336526,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 3349
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.025771294287852534,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3350
    },
    {
      "epoch": 0.17872,
      "grad_norm": 0.030058750163883464,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 3351
    },
    {
      "epoch": 0.17877333333333334,
      "grad_norm": 0.023340980478636322,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 3352
    },
    {
      "epoch": 0.17882666666666666,
      "grad_norm": 0.02824652280486865,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 3353
    },
    {
      "epoch": 0.17888,
      "grad_norm": 0.024822069482217986,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 3354
    },
    {
      "epoch": 0.17893333333333333,
      "grad_norm": 0.027340586673662726,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 3355
    },
    {
      "epoch": 0.17898666666666666,
      "grad_norm": 0.025101475684207196,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 3356
    },
    {
      "epoch": 0.17904,
      "grad_norm": 0.02454697458967666,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3357
    },
    {
      "epoch": 0.17909333333333333,
      "grad_norm": 0.02495894069592039,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 3358
    },
    {
      "epoch": 0.17914666666666668,
      "grad_norm": 0.026273941374103577,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 3359
    },
    {
      "epoch": 0.1792,
      "grad_norm": 0.025518725024426377,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 3360
    },
    {
      "epoch": 0.17925333333333332,
      "grad_norm": 0.025701186908437083,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 3361
    },
    {
      "epoch": 0.17930666666666667,
      "grad_norm": 0.024420279120936386,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 3362
    },
    {
      "epoch": 0.17936,
      "grad_norm": 0.025025327561413103,
      "learning_rate": 0.0001,
      "loss": 0.9322,
      "step": 3363
    },
    {
      "epoch": 0.17941333333333334,
      "grad_norm": 0.024841550583651957,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 3364
    },
    {
      "epoch": 0.17946666666666666,
      "grad_norm": 0.025676338869691583,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 3365
    },
    {
      "epoch": 0.17952,
      "grad_norm": 0.026326257810716135,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 3366
    },
    {
      "epoch": 0.17957333333333333,
      "grad_norm": 0.02474256194517646,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3367
    },
    {
      "epoch": 0.17962666666666666,
      "grad_norm": 0.027963947238114444,
      "learning_rate": 0.0001,
      "loss": 0.9474,
      "step": 3368
    },
    {
      "epoch": 0.17968,
      "grad_norm": 0.02493890587771712,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 3369
    },
    {
      "epoch": 0.17973333333333333,
      "grad_norm": 0.026847349493475087,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 3370
    },
    {
      "epoch": 0.17978666666666668,
      "grad_norm": 0.022916206877024937,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 3371
    },
    {
      "epoch": 0.17984,
      "grad_norm": 0.029671281375378052,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 3372
    },
    {
      "epoch": 0.17989333333333332,
      "grad_norm": 0.02422641311479583,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 3373
    },
    {
      "epoch": 0.17994666666666667,
      "grad_norm": 0.026006887185620334,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 3374
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.026493320899817988,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3375
    },
    {
      "epoch": 0.18005333333333334,
      "grad_norm": 0.024660360305645727,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 3376
    },
    {
      "epoch": 0.18010666666666666,
      "grad_norm": 0.023720236686848622,
      "learning_rate": 0.0001,
      "loss": 0.8575,
      "step": 3377
    },
    {
      "epoch": 0.18016,
      "grad_norm": 0.025327407036899247,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 3378
    },
    {
      "epoch": 0.18021333333333334,
      "grad_norm": 0.024494421057157535,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 3379
    },
    {
      "epoch": 0.18026666666666666,
      "grad_norm": 0.025014865978980085,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 3380
    },
    {
      "epoch": 0.18032,
      "grad_norm": 0.02556562189346021,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 3381
    },
    {
      "epoch": 0.18037333333333333,
      "grad_norm": 0.027662016741659932,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 3382
    },
    {
      "epoch": 0.18042666666666668,
      "grad_norm": 0.02610529119376462,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3383
    },
    {
      "epoch": 0.18048,
      "grad_norm": 0.0261524509885641,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 3384
    },
    {
      "epoch": 0.18053333333333332,
      "grad_norm": 0.026636151742726665,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 3385
    },
    {
      "epoch": 0.18058666666666667,
      "grad_norm": 0.028885523092490463,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3386
    },
    {
      "epoch": 0.18064,
      "grad_norm": 0.030280298664756126,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 3387
    },
    {
      "epoch": 0.18069333333333334,
      "grad_norm": 0.024046419548378644,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 3388
    },
    {
      "epoch": 0.18074666666666667,
      "grad_norm": 0.026271644100280774,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3389
    },
    {
      "epoch": 0.1808,
      "grad_norm": 0.025345570104632755,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 3390
    },
    {
      "epoch": 0.18085333333333334,
      "grad_norm": 0.024593655955514694,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 3391
    },
    {
      "epoch": 0.18090666666666666,
      "grad_norm": 0.026836422020053582,
      "learning_rate": 0.0001,
      "loss": 1.0466,
      "step": 3392
    },
    {
      "epoch": 0.18096,
      "grad_norm": 0.02758681178000765,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 3393
    },
    {
      "epoch": 0.18101333333333333,
      "grad_norm": 0.025361288459162922,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 3394
    },
    {
      "epoch": 0.18106666666666665,
      "grad_norm": 0.025714324293475345,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 3395
    },
    {
      "epoch": 0.18112,
      "grad_norm": 0.027658523246141167,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 3396
    },
    {
      "epoch": 0.18117333333333333,
      "grad_norm": 0.025741311848737118,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 3397
    },
    {
      "epoch": 0.18122666666666667,
      "grad_norm": 0.02658568450472719,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3398
    },
    {
      "epoch": 0.18128,
      "grad_norm": 0.02679139169631185,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3399
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.025746278088033318,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 3400
    },
    {
      "epoch": 0.18133333333333335,
      "eval_accuracy": 0.6152154472587726,
      "eval_loss": 1.3818577527999878,
      "eval_runtime": 62.849,
      "eval_samples_per_second": 15.911,
      "eval_steps_per_second": 0.509,
      "step": 3400
    },
    {
      "epoch": 0.18138666666666667,
      "grad_norm": 0.02788404577520953,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 3401
    },
    {
      "epoch": 0.18144,
      "grad_norm": 0.029107590696340915,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 3402
    },
    {
      "epoch": 0.18149333333333334,
      "grad_norm": 0.02463337126691339,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 3403
    },
    {
      "epoch": 0.18154666666666666,
      "grad_norm": 0.026536865830945593,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 3404
    },
    {
      "epoch": 0.1816,
      "grad_norm": 0.026605887534267837,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 3405
    },
    {
      "epoch": 0.18165333333333333,
      "grad_norm": 0.02642094802780444,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 3406
    },
    {
      "epoch": 0.18170666666666666,
      "grad_norm": 0.026914393671230667,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3407
    },
    {
      "epoch": 0.18176,
      "grad_norm": 0.024075004807619045,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 3408
    },
    {
      "epoch": 0.18181333333333333,
      "grad_norm": 0.027571736409787686,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 3409
    },
    {
      "epoch": 0.18186666666666668,
      "grad_norm": 0.029090476812969654,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 3410
    },
    {
      "epoch": 0.18192,
      "grad_norm": 0.02606263242880765,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 3411
    },
    {
      "epoch": 0.18197333333333332,
      "grad_norm": 0.02467601869414292,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 3412
    },
    {
      "epoch": 0.18202666666666667,
      "grad_norm": 0.024705144745746834,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3413
    },
    {
      "epoch": 0.18208,
      "grad_norm": 0.02683304124968671,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 3414
    },
    {
      "epoch": 0.18213333333333334,
      "grad_norm": 0.025897132758175886,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 3415
    },
    {
      "epoch": 0.18218666666666666,
      "grad_norm": 0.02818584018538754,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 3416
    },
    {
      "epoch": 0.18224,
      "grad_norm": 0.027049378353121305,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 3417
    },
    {
      "epoch": 0.18229333333333334,
      "grad_norm": 0.02719652785136033,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 3418
    },
    {
      "epoch": 0.18234666666666666,
      "grad_norm": 0.025956379535244132,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3419
    },
    {
      "epoch": 0.1824,
      "grad_norm": 0.02355652114916388,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 3420
    },
    {
      "epoch": 0.18245333333333333,
      "grad_norm": 0.027175423258480758,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3421
    },
    {
      "epoch": 0.18250666666666668,
      "grad_norm": 0.02479632812414812,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 3422
    },
    {
      "epoch": 0.18256,
      "grad_norm": 0.02434525944908548,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 3423
    },
    {
      "epoch": 0.18261333333333332,
      "grad_norm": 0.024152741586693605,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 3424
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.025923698298901243,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 3425
    },
    {
      "epoch": 0.18272,
      "grad_norm": 0.023881379800550724,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 3426
    },
    {
      "epoch": 0.18277333333333334,
      "grad_norm": 0.025130436970779792,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 3427
    },
    {
      "epoch": 0.18282666666666667,
      "grad_norm": 0.025910273530369423,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 3428
    },
    {
      "epoch": 0.18288,
      "grad_norm": 0.022987892614521107,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3429
    },
    {
      "epoch": 0.18293333333333334,
      "grad_norm": 0.025216789935996364,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 3430
    },
    {
      "epoch": 0.18298666666666666,
      "grad_norm": 0.022414665646417427,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 3431
    },
    {
      "epoch": 0.18304,
      "grad_norm": 0.026144131000426726,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 3432
    },
    {
      "epoch": 0.18309333333333333,
      "grad_norm": 0.026874572064510664,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 3433
    },
    {
      "epoch": 0.18314666666666668,
      "grad_norm": 0.025354152592850787,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 3434
    },
    {
      "epoch": 0.1832,
      "grad_norm": 0.027292528327281337,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 3435
    },
    {
      "epoch": 0.18325333333333332,
      "grad_norm": 0.025792740216296954,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 3436
    },
    {
      "epoch": 0.18330666666666667,
      "grad_norm": 0.028028936273908723,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 3437
    },
    {
      "epoch": 0.18336,
      "grad_norm": 0.026069064151915237,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 3438
    },
    {
      "epoch": 0.18341333333333334,
      "grad_norm": 0.025598157056008826,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 3439
    },
    {
      "epoch": 0.18346666666666667,
      "grad_norm": 0.028918364437689793,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 3440
    },
    {
      "epoch": 0.18352,
      "grad_norm": 0.024758234097893215,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 3441
    },
    {
      "epoch": 0.18357333333333334,
      "grad_norm": 0.02588462313960585,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 3442
    },
    {
      "epoch": 0.18362666666666666,
      "grad_norm": 0.026697745928053067,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 3443
    },
    {
      "epoch": 0.18368,
      "grad_norm": 0.028080256300182117,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 3444
    },
    {
      "epoch": 0.18373333333333333,
      "grad_norm": 0.026136989785748823,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 3445
    },
    {
      "epoch": 0.18378666666666665,
      "grad_norm": 0.02833538675212735,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 3446
    },
    {
      "epoch": 0.18384,
      "grad_norm": 0.02732873250591658,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3447
    },
    {
      "epoch": 0.18389333333333333,
      "grad_norm": 0.02620511472470825,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 3448
    },
    {
      "epoch": 0.18394666666666667,
      "grad_norm": 0.02426819705710967,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3449
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.02791431859195201,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 3450
    },
    {
      "epoch": 0.18405333333333335,
      "grad_norm": 0.02558173110536595,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 3451
    },
    {
      "epoch": 0.18410666666666667,
      "grad_norm": 0.025035677618851535,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 3452
    },
    {
      "epoch": 0.18416,
      "grad_norm": 0.02833836423072665,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3453
    },
    {
      "epoch": 0.18421333333333334,
      "grad_norm": 0.025505732240270182,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 3454
    },
    {
      "epoch": 0.18426666666666666,
      "grad_norm": 0.02672197301873966,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 3455
    },
    {
      "epoch": 0.18432,
      "grad_norm": 0.027576477931748763,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3456
    },
    {
      "epoch": 0.18437333333333333,
      "grad_norm": 0.027159731391570685,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 3457
    },
    {
      "epoch": 0.18442666666666666,
      "grad_norm": 0.026955744534445016,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 3458
    },
    {
      "epoch": 0.18448,
      "grad_norm": 0.027882522231527766,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3459
    },
    {
      "epoch": 0.18453333333333333,
      "grad_norm": 0.025523919294513243,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 3460
    },
    {
      "epoch": 0.18458666666666668,
      "grad_norm": 0.028135753684217932,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 3461
    },
    {
      "epoch": 0.18464,
      "grad_norm": 0.02919719550404935,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3462
    },
    {
      "epoch": 0.18469333333333332,
      "grad_norm": 0.030156908959569777,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 3463
    },
    {
      "epoch": 0.18474666666666667,
      "grad_norm": 0.02483120909762595,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 3464
    },
    {
      "epoch": 0.1848,
      "grad_norm": 0.027484478045092787,
      "learning_rate": 0.0001,
      "loss": 1.067,
      "step": 3465
    },
    {
      "epoch": 0.18485333333333334,
      "grad_norm": 0.028196399404294328,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3466
    },
    {
      "epoch": 0.18490666666666666,
      "grad_norm": 0.028376927999862345,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3467
    },
    {
      "epoch": 0.18496,
      "grad_norm": 0.025303580311752186,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 3468
    },
    {
      "epoch": 0.18501333333333334,
      "grad_norm": 0.02908489426235198,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 3469
    },
    {
      "epoch": 0.18506666666666666,
      "grad_norm": 0.02633498621475778,
      "learning_rate": 0.0001,
      "loss": 1.0765,
      "step": 3470
    },
    {
      "epoch": 0.18512,
      "grad_norm": 0.02541710799380631,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 3471
    },
    {
      "epoch": 0.18517333333333333,
      "grad_norm": 0.025950494509351205,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 3472
    },
    {
      "epoch": 0.18522666666666668,
      "grad_norm": 0.027029085305819704,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 3473
    },
    {
      "epoch": 0.18528,
      "grad_norm": 0.0255995620284965,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 3474
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.026879805814112822,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 3475
    },
    {
      "epoch": 0.18538666666666667,
      "grad_norm": 0.024992550638913955,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3476
    },
    {
      "epoch": 0.18544,
      "grad_norm": 0.02791509696450787,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 3477
    },
    {
      "epoch": 0.18549333333333334,
      "grad_norm": 0.02427486396924571,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3478
    },
    {
      "epoch": 0.18554666666666667,
      "grad_norm": 0.026970205597306663,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 3479
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.025142232348328398,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 3480
    },
    {
      "epoch": 0.18565333333333334,
      "grad_norm": 0.024579284393436162,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3481
    },
    {
      "epoch": 0.18570666666666666,
      "grad_norm": 0.025199643763289835,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 3482
    },
    {
      "epoch": 0.18576,
      "grad_norm": 0.02552305776156749,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 3483
    },
    {
      "epoch": 0.18581333333333333,
      "grad_norm": 0.02590679008891178,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 3484
    },
    {
      "epoch": 0.18586666666666668,
      "grad_norm": 0.02552023726323634,
      "learning_rate": 0.0001,
      "loss": 1.036,
      "step": 3485
    },
    {
      "epoch": 0.18592,
      "grad_norm": 0.02463898813792729,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3486
    },
    {
      "epoch": 0.18597333333333332,
      "grad_norm": 0.026545348869412597,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3487
    },
    {
      "epoch": 0.18602666666666667,
      "grad_norm": 0.024563805691566496,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 3488
    },
    {
      "epoch": 0.18608,
      "grad_norm": 0.026147704213181175,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 3489
    },
    {
      "epoch": 0.18613333333333335,
      "grad_norm": 0.024728224555209392,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3490
    },
    {
      "epoch": 0.18618666666666667,
      "grad_norm": 0.027092326426092835,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 3491
    },
    {
      "epoch": 0.18624,
      "grad_norm": 0.029892874849365095,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 3492
    },
    {
      "epoch": 0.18629333333333334,
      "grad_norm": 0.02538997906325339,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 3493
    },
    {
      "epoch": 0.18634666666666666,
      "grad_norm": 0.023746872719874267,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 3494
    },
    {
      "epoch": 0.1864,
      "grad_norm": 0.025789089572454276,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 3495
    },
    {
      "epoch": 0.18645333333333333,
      "grad_norm": 0.025796761565649168,
      "learning_rate": 0.0001,
      "loss": 1.0463,
      "step": 3496
    },
    {
      "epoch": 0.18650666666666665,
      "grad_norm": 0.02335943707322247,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 3497
    },
    {
      "epoch": 0.18656,
      "grad_norm": 0.02715244718661702,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 3498
    },
    {
      "epoch": 0.18661333333333333,
      "grad_norm": 0.025536798513648803,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 3499
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.026207805977841003,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 3500
    },
    {
      "epoch": 0.18672,
      "grad_norm": 0.024706190809151228,
      "learning_rate": 0.0001,
      "loss": 1.0744,
      "step": 3501
    },
    {
      "epoch": 0.18677333333333335,
      "grad_norm": 0.024120531649981153,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 3502
    },
    {
      "epoch": 0.18682666666666667,
      "grad_norm": 0.02739806030820672,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 3503
    },
    {
      "epoch": 0.18688,
      "grad_norm": 0.02390316820868975,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 3504
    },
    {
      "epoch": 0.18693333333333334,
      "grad_norm": 0.024413636650209524,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3505
    },
    {
      "epoch": 0.18698666666666666,
      "grad_norm": 0.024184848408398116,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3506
    },
    {
      "epoch": 0.18704,
      "grad_norm": 0.027179447094897002,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 3507
    },
    {
      "epoch": 0.18709333333333333,
      "grad_norm": 0.02615699103404311,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 3508
    },
    {
      "epoch": 0.18714666666666666,
      "grad_norm": 0.024523123947458123,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 3509
    },
    {
      "epoch": 0.1872,
      "grad_norm": 0.025248483210581683,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 3510
    },
    {
      "epoch": 0.18725333333333333,
      "grad_norm": 0.025302320572677943,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 3511
    },
    {
      "epoch": 0.18730666666666668,
      "grad_norm": 0.027253578075014512,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 3512
    },
    {
      "epoch": 0.18736,
      "grad_norm": 0.022861325841719914,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 3513
    },
    {
      "epoch": 0.18741333333333332,
      "grad_norm": 0.024893480388474547,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 3514
    },
    {
      "epoch": 0.18746666666666667,
      "grad_norm": 0.02592449821000051,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 3515
    },
    {
      "epoch": 0.18752,
      "grad_norm": 0.023953847962230077,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 3516
    },
    {
      "epoch": 0.18757333333333334,
      "grad_norm": 0.025104227828563,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 3517
    },
    {
      "epoch": 0.18762666666666666,
      "grad_norm": 0.02478229841068402,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 3518
    },
    {
      "epoch": 0.18768,
      "grad_norm": 0.0239915080111181,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3519
    },
    {
      "epoch": 0.18773333333333334,
      "grad_norm": 0.02442893138764159,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 3520
    },
    {
      "epoch": 0.18778666666666666,
      "grad_norm": 0.025652093385124586,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 3521
    },
    {
      "epoch": 0.18784,
      "grad_norm": 0.025371196966063075,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 3522
    },
    {
      "epoch": 0.18789333333333333,
      "grad_norm": 0.0248476163954093,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3523
    },
    {
      "epoch": 0.18794666666666668,
      "grad_norm": 0.0253167020577384,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 3524
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.02775090894238502,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3525
    },
    {
      "epoch": 0.18805333333333332,
      "grad_norm": 0.023501308997575115,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3526
    },
    {
      "epoch": 0.18810666666666667,
      "grad_norm": 0.027311165358979612,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 3527
    },
    {
      "epoch": 0.18816,
      "grad_norm": 0.024838790706314003,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 3528
    },
    {
      "epoch": 0.18821333333333334,
      "grad_norm": 0.025972614879531838,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 3529
    },
    {
      "epoch": 0.18826666666666667,
      "grad_norm": 0.02498794777051121,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 3530
    },
    {
      "epoch": 0.18832,
      "grad_norm": 0.024654044677827162,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 3531
    },
    {
      "epoch": 0.18837333333333334,
      "grad_norm": 0.026046568551439976,
      "learning_rate": 0.0001,
      "loss": 1.047,
      "step": 3532
    },
    {
      "epoch": 0.18842666666666666,
      "grad_norm": 0.026949441411058376,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 3533
    },
    {
      "epoch": 0.18848,
      "grad_norm": 0.02467053612107203,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3534
    },
    {
      "epoch": 0.18853333333333333,
      "grad_norm": 0.025870594614373455,
      "learning_rate": 0.0001,
      "loss": 1.0694,
      "step": 3535
    },
    {
      "epoch": 0.18858666666666668,
      "grad_norm": 0.023237968971323176,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 3536
    },
    {
      "epoch": 0.18864,
      "grad_norm": 0.024620283622012153,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3537
    },
    {
      "epoch": 0.18869333333333332,
      "grad_norm": 0.026938732703581054,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 3538
    },
    {
      "epoch": 0.18874666666666667,
      "grad_norm": 0.02417372607076218,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3539
    },
    {
      "epoch": 0.1888,
      "grad_norm": 0.02448401593182751,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 3540
    },
    {
      "epoch": 0.18885333333333335,
      "grad_norm": 0.025142978607788923,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 3541
    },
    {
      "epoch": 0.18890666666666667,
      "grad_norm": 0.025510598135688407,
      "learning_rate": 0.0001,
      "loss": 1.0436,
      "step": 3542
    },
    {
      "epoch": 0.18896,
      "grad_norm": 0.025848527123143197,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 3543
    },
    {
      "epoch": 0.18901333333333334,
      "grad_norm": 0.02585960910265177,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 3544
    },
    {
      "epoch": 0.18906666666666666,
      "grad_norm": 0.025832039061583597,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 3545
    },
    {
      "epoch": 0.18912,
      "grad_norm": 0.026160370100400645,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 3546
    },
    {
      "epoch": 0.18917333333333333,
      "grad_norm": 0.025483734998501248,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 3547
    },
    {
      "epoch": 0.18922666666666665,
      "grad_norm": 0.025333360545155753,
      "learning_rate": 0.0001,
      "loss": 1.0645,
      "step": 3548
    },
    {
      "epoch": 0.18928,
      "grad_norm": 0.024779958119791726,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 3549
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.026915940332873502,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 3550
    },
    {
      "epoch": 0.18938666666666668,
      "grad_norm": 0.026869694538272173,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 3551
    },
    {
      "epoch": 0.18944,
      "grad_norm": 0.024177499053490363,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 3552
    },
    {
      "epoch": 0.18949333333333335,
      "grad_norm": 0.025049740588224262,
      "learning_rate": 0.0001,
      "loss": 1.0593,
      "step": 3553
    },
    {
      "epoch": 0.18954666666666667,
      "grad_norm": 0.025639618430278018,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 3554
    },
    {
      "epoch": 0.1896,
      "grad_norm": 0.02653293793139913,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 3555
    },
    {
      "epoch": 0.18965333333333334,
      "grad_norm": 0.025676541826989443,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3556
    },
    {
      "epoch": 0.18970666666666666,
      "grad_norm": 0.02516697577008408,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3557
    },
    {
      "epoch": 0.18976,
      "grad_norm": 0.0248231752157476,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3558
    },
    {
      "epoch": 0.18981333333333333,
      "grad_norm": 0.023818203842600437,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 3559
    },
    {
      "epoch": 0.18986666666666666,
      "grad_norm": 0.02528214604773688,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 3560
    },
    {
      "epoch": 0.18992,
      "grad_norm": 0.025212838508673178,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 3561
    },
    {
      "epoch": 0.18997333333333333,
      "grad_norm": 0.02353122736053764,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 3562
    },
    {
      "epoch": 0.19002666666666668,
      "grad_norm": 0.024634261509167442,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 3563
    },
    {
      "epoch": 0.19008,
      "grad_norm": 0.027023723563781556,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3564
    },
    {
      "epoch": 0.19013333333333332,
      "grad_norm": 0.025110148656220743,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 3565
    },
    {
      "epoch": 0.19018666666666667,
      "grad_norm": 0.026954089871143436,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 3566
    },
    {
      "epoch": 0.19024,
      "grad_norm": 0.023971854684056673,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 3567
    },
    {
      "epoch": 0.19029333333333334,
      "grad_norm": 0.026203484451579384,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 3568
    },
    {
      "epoch": 0.19034666666666666,
      "grad_norm": 0.02387057954556583,
      "learning_rate": 0.0001,
      "loss": 0.9035,
      "step": 3569
    },
    {
      "epoch": 0.1904,
      "grad_norm": 0.0236108639796415,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3570
    },
    {
      "epoch": 0.19045333333333334,
      "grad_norm": 0.02706742958840352,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 3571
    },
    {
      "epoch": 0.19050666666666666,
      "grad_norm": 0.024998928957616757,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 3572
    },
    {
      "epoch": 0.19056,
      "grad_norm": 0.02600483332276982,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 3573
    },
    {
      "epoch": 0.19061333333333333,
      "grad_norm": 0.024040156149145123,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 3574
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.02379483291879239,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 3575
    },
    {
      "epoch": 0.19072,
      "grad_norm": 0.022623264853640957,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 3576
    },
    {
      "epoch": 0.19077333333333332,
      "grad_norm": 0.024931770540795744,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "step": 3577
    },
    {
      "epoch": 0.19082666666666667,
      "grad_norm": 0.025337895268664052,
      "learning_rate": 0.0001,
      "loss": 1.0476,
      "step": 3578
    },
    {
      "epoch": 0.19088,
      "grad_norm": 0.02554606043802528,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 3579
    },
    {
      "epoch": 0.19093333333333334,
      "grad_norm": 0.024500993538555747,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 3580
    },
    {
      "epoch": 0.19098666666666667,
      "grad_norm": 0.023051430351425196,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 3581
    },
    {
      "epoch": 0.19104,
      "grad_norm": 0.02525567403677667,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 3582
    },
    {
      "epoch": 0.19109333333333334,
      "grad_norm": 0.023828146982157385,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 3583
    },
    {
      "epoch": 0.19114666666666666,
      "grad_norm": 0.023606249021235145,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 3584
    },
    {
      "epoch": 0.1912,
      "grad_norm": 0.024845600327747987,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 3585
    },
    {
      "epoch": 0.19125333333333333,
      "grad_norm": 0.023738330457918008,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 3586
    },
    {
      "epoch": 0.19130666666666668,
      "grad_norm": 0.025952689408167563,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3587
    },
    {
      "epoch": 0.19136,
      "grad_norm": 0.0279980463767368,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 3588
    },
    {
      "epoch": 0.19141333333333332,
      "grad_norm": 0.02617497340050425,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 3589
    },
    {
      "epoch": 0.19146666666666667,
      "grad_norm": 0.024606101869877564,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 3590
    },
    {
      "epoch": 0.19152,
      "grad_norm": 0.02501007808968401,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 3591
    },
    {
      "epoch": 0.19157333333333335,
      "grad_norm": 0.02316753054899678,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 3592
    },
    {
      "epoch": 0.19162666666666667,
      "grad_norm": 0.025186039134125485,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 3593
    },
    {
      "epoch": 0.19168,
      "grad_norm": 0.024511459809401785,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 3594
    },
    {
      "epoch": 0.19173333333333334,
      "grad_norm": 0.023159418308673418,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 3595
    },
    {
      "epoch": 0.19178666666666666,
      "grad_norm": 0.02617156770229588,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 3596
    },
    {
      "epoch": 0.19184,
      "grad_norm": 0.021813341689924506,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 3597
    },
    {
      "epoch": 0.19189333333333333,
      "grad_norm": 0.03098183094643312,
      "learning_rate": 0.0001,
      "loss": 1.0388,
      "step": 3598
    },
    {
      "epoch": 0.19194666666666665,
      "grad_norm": 0.024539351719329774,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 3599
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.02525617638084879,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 3600
    },
    {
      "epoch": 0.192,
      "eval_accuracy": 0.6154520940717549,
      "eval_loss": 1.3799831867218018,
      "eval_runtime": 62.8814,
      "eval_samples_per_second": 15.903,
      "eval_steps_per_second": 0.509,
      "step": 3600
    },
    {
      "epoch": 0.19205333333333333,
      "grad_norm": 0.024791917491729012,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 3601
    },
    {
      "epoch": 0.19210666666666668,
      "grad_norm": 0.024616725758454947,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 3602
    },
    {
      "epoch": 0.19216,
      "grad_norm": 0.023352453416244427,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "step": 3603
    },
    {
      "epoch": 0.19221333333333335,
      "grad_norm": 0.026110998122366037,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 3604
    },
    {
      "epoch": 0.19226666666666667,
      "grad_norm": 0.022331335353308484,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 3605
    },
    {
      "epoch": 0.19232,
      "grad_norm": 0.02321975066521064,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 3606
    },
    {
      "epoch": 0.19237333333333334,
      "grad_norm": 0.0250055747110722,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 3607
    },
    {
      "epoch": 0.19242666666666666,
      "grad_norm": 0.026504121886228395,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 3608
    },
    {
      "epoch": 0.19248,
      "grad_norm": 0.023741964417325435,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 3609
    },
    {
      "epoch": 0.19253333333333333,
      "grad_norm": 0.025149179704440614,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 3610
    },
    {
      "epoch": 0.19258666666666666,
      "grad_norm": 0.025741423800449435,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 3611
    },
    {
      "epoch": 0.19264,
      "grad_norm": 0.02461265197607647,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 3612
    },
    {
      "epoch": 0.19269333333333333,
      "grad_norm": 0.023928591276251195,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 3613
    },
    {
      "epoch": 0.19274666666666668,
      "grad_norm": 0.023427816997769534,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 3614
    },
    {
      "epoch": 0.1928,
      "grad_norm": 0.02322050453860059,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 3615
    },
    {
      "epoch": 0.19285333333333332,
      "grad_norm": 0.025410467985991607,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 3616
    },
    {
      "epoch": 0.19290666666666667,
      "grad_norm": 0.02400055908851686,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 3617
    },
    {
      "epoch": 0.19296,
      "grad_norm": 0.026357786101753298,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 3618
    },
    {
      "epoch": 0.19301333333333334,
      "grad_norm": 0.024707052966720648,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 3619
    },
    {
      "epoch": 0.19306666666666666,
      "grad_norm": 0.027444457300150136,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 3620
    },
    {
      "epoch": 0.19312,
      "grad_norm": 0.02465745513195673,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 3621
    },
    {
      "epoch": 0.19317333333333334,
      "grad_norm": 0.02512725002128322,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 3622
    },
    {
      "epoch": 0.19322666666666666,
      "grad_norm": 0.026046396924255026,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 3623
    },
    {
      "epoch": 0.19328,
      "grad_norm": 0.024704042673263676,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 3624
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.025933923324255575,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 3625
    },
    {
      "epoch": 0.19338666666666668,
      "grad_norm": 0.02633496854483942,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 3626
    },
    {
      "epoch": 0.19344,
      "grad_norm": 0.02623837393680218,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 3627
    },
    {
      "epoch": 0.19349333333333332,
      "grad_norm": 0.025552706354754484,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 3628
    },
    {
      "epoch": 0.19354666666666667,
      "grad_norm": 0.02749257266191957,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 3629
    },
    {
      "epoch": 0.1936,
      "grad_norm": 0.02851493830300891,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 3630
    },
    {
      "epoch": 0.19365333333333334,
      "grad_norm": 0.025807606515633734,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 3631
    },
    {
      "epoch": 0.19370666666666667,
      "grad_norm": 0.026695313171951167,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3632
    },
    {
      "epoch": 0.19376,
      "grad_norm": 0.026493790099997923,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 3633
    },
    {
      "epoch": 0.19381333333333334,
      "grad_norm": 0.03189821168016517,
      "learning_rate": 0.0001,
      "loss": 1.024,
      "step": 3634
    },
    {
      "epoch": 0.19386666666666666,
      "grad_norm": 0.025573592706431954,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 3635
    },
    {
      "epoch": 0.19392,
      "grad_norm": 0.022925120839929872,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 3636
    },
    {
      "epoch": 0.19397333333333333,
      "grad_norm": 0.023222502013119362,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3637
    },
    {
      "epoch": 0.19402666666666665,
      "grad_norm": 0.02684147684640962,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3638
    },
    {
      "epoch": 0.19408,
      "grad_norm": 0.02415745033735449,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3639
    },
    {
      "epoch": 0.19413333333333332,
      "grad_norm": 0.025262349683537084,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 3640
    },
    {
      "epoch": 0.19418666666666667,
      "grad_norm": 0.026889569671373355,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 3641
    },
    {
      "epoch": 0.19424,
      "grad_norm": 0.027779882552581122,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 3642
    },
    {
      "epoch": 0.19429333333333335,
      "grad_norm": 0.023003390587205057,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 3643
    },
    {
      "epoch": 0.19434666666666667,
      "grad_norm": 0.028404683305478153,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 3644
    },
    {
      "epoch": 0.1944,
      "grad_norm": 0.024757751761847288,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 3645
    },
    {
      "epoch": 0.19445333333333334,
      "grad_norm": 0.02546845802827426,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 3646
    },
    {
      "epoch": 0.19450666666666666,
      "grad_norm": 0.02783766413385135,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 3647
    },
    {
      "epoch": 0.19456,
      "grad_norm": 0.023371912710149458,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 3648
    },
    {
      "epoch": 0.19461333333333333,
      "grad_norm": 0.023907196966929042,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 3649
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.027259425014316017,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 3650
    },
    {
      "epoch": 0.19472,
      "grad_norm": 0.02363261963820187,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 3651
    },
    {
      "epoch": 0.19477333333333333,
      "grad_norm": 0.027307802520385276,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 3652
    },
    {
      "epoch": 0.19482666666666668,
      "grad_norm": 0.02607828960889171,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 3653
    },
    {
      "epoch": 0.19488,
      "grad_norm": 0.024041736312024806,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 3654
    },
    {
      "epoch": 0.19493333333333332,
      "grad_norm": 0.026196735993107626,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 3655
    },
    {
      "epoch": 0.19498666666666667,
      "grad_norm": 0.026472281559358293,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 3656
    },
    {
      "epoch": 0.19504,
      "grad_norm": 0.026918906507798185,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 3657
    },
    {
      "epoch": 0.19509333333333334,
      "grad_norm": 0.02581396300972499,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 3658
    },
    {
      "epoch": 0.19514666666666666,
      "grad_norm": 0.02704061370875191,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 3659
    },
    {
      "epoch": 0.1952,
      "grad_norm": 0.024647511183305895,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 3660
    },
    {
      "epoch": 0.19525333333333333,
      "grad_norm": 0.025903646432295178,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 3661
    },
    {
      "epoch": 0.19530666666666666,
      "grad_norm": 0.02579657133362515,
      "learning_rate": 0.0001,
      "loss": 0.9203,
      "step": 3662
    },
    {
      "epoch": 0.19536,
      "grad_norm": 0.02790382339175459,
      "learning_rate": 0.0001,
      "loss": 1.0306,
      "step": 3663
    },
    {
      "epoch": 0.19541333333333333,
      "grad_norm": 0.025906346817223327,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 3664
    },
    {
      "epoch": 0.19546666666666668,
      "grad_norm": 0.02735645522275257,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 3665
    },
    {
      "epoch": 0.19552,
      "grad_norm": 0.027401876835391838,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3666
    },
    {
      "epoch": 0.19557333333333332,
      "grad_norm": 0.026985162806974883,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 3667
    },
    {
      "epoch": 0.19562666666666667,
      "grad_norm": 0.028031223967979142,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 3668
    },
    {
      "epoch": 0.19568,
      "grad_norm": 0.02574595417487729,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 3669
    },
    {
      "epoch": 0.19573333333333334,
      "grad_norm": 0.026185999030864524,
      "learning_rate": 0.0001,
      "loss": 1.0519,
      "step": 3670
    },
    {
      "epoch": 0.19578666666666666,
      "grad_norm": 0.025721592671271915,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 3671
    },
    {
      "epoch": 0.19584,
      "grad_norm": 0.02625063800281071,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 3672
    },
    {
      "epoch": 0.19589333333333334,
      "grad_norm": 0.02849329487704224,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 3673
    },
    {
      "epoch": 0.19594666666666666,
      "grad_norm": 0.02439895461068646,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 3674
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.024837637626310954,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 3675
    },
    {
      "epoch": 0.19605333333333333,
      "grad_norm": 0.02764462891998952,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 3676
    },
    {
      "epoch": 0.19610666666666668,
      "grad_norm": 0.024420825290900054,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3677
    },
    {
      "epoch": 0.19616,
      "grad_norm": 0.024940603221638782,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 3678
    },
    {
      "epoch": 0.19621333333333332,
      "grad_norm": 0.026638880506615,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 3679
    },
    {
      "epoch": 0.19626666666666667,
      "grad_norm": 0.02447615462285521,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 3680
    },
    {
      "epoch": 0.19632,
      "grad_norm": 0.023346794747188232,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 3681
    },
    {
      "epoch": 0.19637333333333334,
      "grad_norm": 0.0275302696166071,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 3682
    },
    {
      "epoch": 0.19642666666666667,
      "grad_norm": 0.02708553382970011,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 3683
    },
    {
      "epoch": 0.19648,
      "grad_norm": 0.024417432913200587,
      "learning_rate": 0.0001,
      "loss": 1.0802,
      "step": 3684
    },
    {
      "epoch": 0.19653333333333334,
      "grad_norm": 0.027668548703664964,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 3685
    },
    {
      "epoch": 0.19658666666666666,
      "grad_norm": 0.02754645547090657,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 3686
    },
    {
      "epoch": 0.19664,
      "grad_norm": 0.025540740658579746,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 3687
    },
    {
      "epoch": 0.19669333333333333,
      "grad_norm": 0.024242447669713212,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 3688
    },
    {
      "epoch": 0.19674666666666665,
      "grad_norm": 0.026037753717685092,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 3689
    },
    {
      "epoch": 0.1968,
      "grad_norm": 0.02377169212702068,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "step": 3690
    },
    {
      "epoch": 0.19685333333333332,
      "grad_norm": 0.024044858929617323,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 3691
    },
    {
      "epoch": 0.19690666666666667,
      "grad_norm": 0.025499128783070008,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3692
    },
    {
      "epoch": 0.19696,
      "grad_norm": 0.025900685863266635,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3693
    },
    {
      "epoch": 0.19701333333333335,
      "grad_norm": 0.02587906628277292,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 3694
    },
    {
      "epoch": 0.19706666666666667,
      "grad_norm": 0.025280489473282052,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 3695
    },
    {
      "epoch": 0.19712,
      "grad_norm": 0.025186264154007244,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3696
    },
    {
      "epoch": 0.19717333333333334,
      "grad_norm": 0.02247670440571041,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 3697
    },
    {
      "epoch": 0.19722666666666666,
      "grad_norm": 0.022879763987245498,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3698
    },
    {
      "epoch": 0.19728,
      "grad_norm": 0.02749369867061824,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 3699
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.027654290598640604,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3700
    },
    {
      "epoch": 0.19738666666666665,
      "grad_norm": 0.024051078434315323,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 3701
    },
    {
      "epoch": 0.19744,
      "grad_norm": 0.025424997308673276,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3702
    },
    {
      "epoch": 0.19749333333333333,
      "grad_norm": 0.026795722677970438,
      "learning_rate": 0.0001,
      "loss": 0.8685,
      "step": 3703
    },
    {
      "epoch": 0.19754666666666668,
      "grad_norm": 0.02409147229606473,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 3704
    },
    {
      "epoch": 0.1976,
      "grad_norm": 0.03045727363341014,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 3705
    },
    {
      "epoch": 0.19765333333333332,
      "grad_norm": 0.02756989193109836,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 3706
    },
    {
      "epoch": 0.19770666666666667,
      "grad_norm": 0.02415310055539668,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 3707
    },
    {
      "epoch": 0.19776,
      "grad_norm": 0.025336275768586276,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 3708
    },
    {
      "epoch": 0.19781333333333334,
      "grad_norm": 0.02898139651495417,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 3709
    },
    {
      "epoch": 0.19786666666666666,
      "grad_norm": 0.02651434307661715,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 3710
    },
    {
      "epoch": 0.19792,
      "grad_norm": 0.023739460396023107,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 3711
    },
    {
      "epoch": 0.19797333333333333,
      "grad_norm": 0.02512279421082305,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 3712
    },
    {
      "epoch": 0.19802666666666666,
      "grad_norm": 0.02277507376072582,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 3713
    },
    {
      "epoch": 0.19808,
      "grad_norm": 0.024832561109122298,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 3714
    },
    {
      "epoch": 0.19813333333333333,
      "grad_norm": 0.023916545558309885,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 3715
    },
    {
      "epoch": 0.19818666666666668,
      "grad_norm": 0.025080199404929268,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 3716
    },
    {
      "epoch": 0.19824,
      "grad_norm": 0.02408285135466368,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 3717
    },
    {
      "epoch": 0.19829333333333332,
      "grad_norm": 0.025882560285844455,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 3718
    },
    {
      "epoch": 0.19834666666666667,
      "grad_norm": 0.022458135460567685,
      "learning_rate": 0.0001,
      "loss": 0.8725,
      "step": 3719
    },
    {
      "epoch": 0.1984,
      "grad_norm": 0.022909997984635295,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 3720
    },
    {
      "epoch": 0.19845333333333334,
      "grad_norm": 0.023778868057754275,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 3721
    },
    {
      "epoch": 0.19850666666666666,
      "grad_norm": 0.025273450317901954,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 3722
    },
    {
      "epoch": 0.19856,
      "grad_norm": 0.02404703069173558,
      "learning_rate": 0.0001,
      "loss": 1.0482,
      "step": 3723
    },
    {
      "epoch": 0.19861333333333334,
      "grad_norm": 0.023684785435321622,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 3724
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.02779843087905376,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 3725
    },
    {
      "epoch": 0.19872,
      "grad_norm": 0.023229786389898102,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 3726
    },
    {
      "epoch": 0.19877333333333333,
      "grad_norm": 0.024189147230062887,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 3727
    },
    {
      "epoch": 0.19882666666666668,
      "grad_norm": 0.024817448932531853,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 3728
    },
    {
      "epoch": 0.19888,
      "grad_norm": 0.02465571495183219,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 3729
    },
    {
      "epoch": 0.19893333333333332,
      "grad_norm": 0.0237866121208367,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 3730
    },
    {
      "epoch": 0.19898666666666667,
      "grad_norm": 0.024365423201641742,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 3731
    },
    {
      "epoch": 0.19904,
      "grad_norm": 0.025162883880848374,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 3732
    },
    {
      "epoch": 0.19909333333333334,
      "grad_norm": 0.024477981102318438,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 3733
    },
    {
      "epoch": 0.19914666666666667,
      "grad_norm": 0.02377156536687535,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 3734
    },
    {
      "epoch": 0.1992,
      "grad_norm": 0.025617010108787207,
      "learning_rate": 0.0001,
      "loss": 1.0112,
      "step": 3735
    },
    {
      "epoch": 0.19925333333333334,
      "grad_norm": 0.026209587276197734,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 3736
    },
    {
      "epoch": 0.19930666666666666,
      "grad_norm": 0.02235037149951266,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 3737
    },
    {
      "epoch": 0.19936,
      "grad_norm": 0.025714588931102053,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 3738
    },
    {
      "epoch": 0.19941333333333333,
      "grad_norm": 0.026930362372302584,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 3739
    },
    {
      "epoch": 0.19946666666666665,
      "grad_norm": 0.026131806238581166,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 3740
    },
    {
      "epoch": 0.19952,
      "grad_norm": 0.025286782127623694,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 3741
    },
    {
      "epoch": 0.19957333333333332,
      "grad_norm": 0.027316706917672375,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 3742
    },
    {
      "epoch": 0.19962666666666667,
      "grad_norm": 0.026745623654205124,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 3743
    },
    {
      "epoch": 0.19968,
      "grad_norm": 0.026199884405598,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 3744
    },
    {
      "epoch": 0.19973333333333335,
      "grad_norm": 0.025682544820224206,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 3745
    },
    {
      "epoch": 0.19978666666666667,
      "grad_norm": 0.025580766642949296,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3746
    },
    {
      "epoch": 0.19984,
      "grad_norm": 0.0245724762396678,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3747
    },
    {
      "epoch": 0.19989333333333334,
      "grad_norm": 0.026573387539112734,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 3748
    },
    {
      "epoch": 0.19994666666666666,
      "grad_norm": 0.024893891883652996,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 3749
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.023737414788091098,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 3750
    },
    {
      "epoch": 1.0000533333333332,
      "grad_norm": 0.02583156688549282,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 3751
    },
    {
      "epoch": 1.0001066666666667,
      "grad_norm": 0.025767466056066373,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 3752
    },
    {
      "epoch": 1.00016,
      "grad_norm": 0.023190266713711563,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "step": 3753
    },
    {
      "epoch": 1.0002133333333334,
      "grad_norm": 0.024068071963363528,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 3754
    },
    {
      "epoch": 1.0002666666666666,
      "grad_norm": 0.024698629782457838,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 3755
    },
    {
      "epoch": 1.00032,
      "grad_norm": 0.025675555265607906,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 3756
    },
    {
      "epoch": 1.0003733333333333,
      "grad_norm": 0.025284813922952305,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3757
    },
    {
      "epoch": 1.0004266666666666,
      "grad_norm": 0.026656838635101782,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 3758
    },
    {
      "epoch": 1.00048,
      "grad_norm": 0.024492340764220032,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 3759
    },
    {
      "epoch": 1.0005333333333333,
      "grad_norm": 0.02732808376026254,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 3760
    },
    {
      "epoch": 1.0005866666666667,
      "grad_norm": 0.02633970557836499,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3761
    },
    {
      "epoch": 1.00064,
      "grad_norm": 0.024122880625484826,
      "learning_rate": 0.0001,
      "loss": 1.0633,
      "step": 3762
    },
    {
      "epoch": 1.0006933333333334,
      "grad_norm": 0.025902440165373398,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 3763
    },
    {
      "epoch": 1.0007466666666667,
      "grad_norm": 0.024959689762436676,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 3764
    },
    {
      "epoch": 1.0008,
      "grad_norm": 0.023597387979281032,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 3765
    },
    {
      "epoch": 1.0008533333333334,
      "grad_norm": 0.024290691876415485,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 3766
    },
    {
      "epoch": 1.0009066666666666,
      "grad_norm": 0.024424096330799287,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3767
    },
    {
      "epoch": 1.00096,
      "grad_norm": 0.024906420192111048,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3768
    },
    {
      "epoch": 1.0010133333333333,
      "grad_norm": 0.026737977038396483,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 3769
    },
    {
      "epoch": 1.0010666666666668,
      "grad_norm": 0.025471343808850327,
      "learning_rate": 0.0001,
      "loss": 0.9091,
      "step": 3770
    },
    {
      "epoch": 1.00112,
      "grad_norm": 0.02422831139123784,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 3771
    },
    {
      "epoch": 1.0011733333333332,
      "grad_norm": 0.026959526279475662,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 3772
    },
    {
      "epoch": 1.0012266666666667,
      "grad_norm": 0.025588070743008312,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3773
    },
    {
      "epoch": 1.00128,
      "grad_norm": 0.023180874823010574,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 3774
    },
    {
      "epoch": 1.0013333333333334,
      "grad_norm": 0.02532615302502994,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 3775
    },
    {
      "epoch": 1.0013866666666666,
      "grad_norm": 0.024971424816228688,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 3776
    },
    {
      "epoch": 1.00144,
      "grad_norm": 0.025114845658459596,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 3777
    },
    {
      "epoch": 1.0014933333333333,
      "grad_norm": 0.025751500235605494,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 3778
    },
    {
      "epoch": 1.0015466666666666,
      "grad_norm": 0.026734131475627965,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 3779
    },
    {
      "epoch": 1.0016,
      "grad_norm": 0.024870494690413282,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 3780
    },
    {
      "epoch": 1.0016533333333333,
      "grad_norm": 0.024180328853293184,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 3781
    },
    {
      "epoch": 1.0017066666666667,
      "grad_norm": 0.025123868598353753,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 3782
    },
    {
      "epoch": 1.00176,
      "grad_norm": 0.02382614320796107,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 3783
    },
    {
      "epoch": 1.0018133333333332,
      "grad_norm": 0.027970412257055932,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 3784
    },
    {
      "epoch": 1.0018666666666667,
      "grad_norm": 0.024919940175561473,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 3785
    },
    {
      "epoch": 1.00192,
      "grad_norm": 0.025921238321606126,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 3786
    },
    {
      "epoch": 1.0019733333333334,
      "grad_norm": 0.025651710213165885,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 3787
    },
    {
      "epoch": 1.0020266666666666,
      "grad_norm": 0.026151744066692167,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 3788
    },
    {
      "epoch": 1.00208,
      "grad_norm": 0.028067804418459005,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 3789
    },
    {
      "epoch": 1.0021333333333333,
      "grad_norm": 0.02383620860440485,
      "learning_rate": 0.0001,
      "loss": 0.9311,
      "step": 3790
    },
    {
      "epoch": 1.0021866666666666,
      "grad_norm": 0.024445530135626326,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 3791
    },
    {
      "epoch": 1.00224,
      "grad_norm": 0.02787918238493275,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 3792
    },
    {
      "epoch": 1.0022933333333333,
      "grad_norm": 0.025442137057842738,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 3793
    },
    {
      "epoch": 1.0023466666666667,
      "grad_norm": 0.024497796956759726,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 3794
    },
    {
      "epoch": 1.0024,
      "grad_norm": 0.02684164629802733,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3795
    },
    {
      "epoch": 1.0024533333333334,
      "grad_norm": 0.026595629506693776,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 3796
    },
    {
      "epoch": 1.0025066666666667,
      "grad_norm": 0.024263126691609137,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3797
    },
    {
      "epoch": 1.00256,
      "grad_norm": 0.024859150556965786,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 3798
    },
    {
      "epoch": 1.0026133333333334,
      "grad_norm": 0.024944097721154367,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 3799
    },
    {
      "epoch": 1.0026666666666666,
      "grad_norm": 0.024998940149307168,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 3800
    },
    {
      "epoch": 1.0026666666666666,
      "eval_accuracy": 0.6157979728513443,
      "eval_loss": 1.3785719871520996,
      "eval_runtime": 62.3541,
      "eval_samples_per_second": 16.037,
      "eval_steps_per_second": 0.513,
      "step": 3800
    },
    {
      "epoch": 1.00272,
      "grad_norm": 0.02676081968569236,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 3801
    },
    {
      "epoch": 1.0027733333333333,
      "grad_norm": 0.02477033221128215,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 3802
    },
    {
      "epoch": 1.0028266666666668,
      "grad_norm": 0.02541571130122805,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 3803
    },
    {
      "epoch": 1.00288,
      "grad_norm": 0.024541224579099834,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 3804
    },
    {
      "epoch": 1.0029333333333332,
      "grad_norm": 0.025648522846961612,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 3805
    },
    {
      "epoch": 1.0029866666666667,
      "grad_norm": 0.023858318524824867,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 3806
    },
    {
      "epoch": 1.00304,
      "grad_norm": 0.025049654995340273,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 3807
    },
    {
      "epoch": 1.0030933333333334,
      "grad_norm": 0.024949732571705685,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 3808
    },
    {
      "epoch": 1.0031466666666666,
      "grad_norm": 0.02564584060086987,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 3809
    },
    {
      "epoch": 1.0032,
      "grad_norm": 0.026973217919570792,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3810
    },
    {
      "epoch": 1.0032533333333333,
      "grad_norm": 0.027077102384985577,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 3811
    },
    {
      "epoch": 1.0033066666666666,
      "grad_norm": 0.026690750793033714,
      "learning_rate": 0.0001,
      "loss": 0.9072,
      "step": 3812
    },
    {
      "epoch": 1.00336,
      "grad_norm": 0.025856664830476023,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 3813
    },
    {
      "epoch": 1.0034133333333333,
      "grad_norm": 0.028384591640819024,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 3814
    },
    {
      "epoch": 1.0034666666666667,
      "grad_norm": 0.027722817047142564,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 3815
    },
    {
      "epoch": 1.00352,
      "grad_norm": 0.025488262282887,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3816
    },
    {
      "epoch": 1.0035733333333334,
      "grad_norm": 0.030019038306814454,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 3817
    },
    {
      "epoch": 1.0036266666666667,
      "grad_norm": 0.02629645823318278,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 3818
    },
    {
      "epoch": 1.00368,
      "grad_norm": 0.027243965030957763,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 3819
    },
    {
      "epoch": 1.0037333333333334,
      "grad_norm": 0.026195299873453207,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 3820
    },
    {
      "epoch": 1.0037866666666666,
      "grad_norm": 0.026525040834195754,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 3821
    },
    {
      "epoch": 1.00384,
      "grad_norm": 0.027066842011141658,
      "learning_rate": 0.0001,
      "loss": 1.0625,
      "step": 3822
    },
    {
      "epoch": 1.0038933333333333,
      "grad_norm": 0.02690871906514206,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 3823
    },
    {
      "epoch": 1.0039466666666668,
      "grad_norm": 0.028042714402612523,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 3824
    },
    {
      "epoch": 1.004,
      "grad_norm": 0.027483002895225952,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 3825
    },
    {
      "epoch": 1.0040533333333332,
      "grad_norm": 0.02549475557459848,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 3826
    },
    {
      "epoch": 1.0041066666666667,
      "grad_norm": 0.028867818505548464,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 3827
    },
    {
      "epoch": 1.00416,
      "grad_norm": 0.027840721097360882,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 3828
    },
    {
      "epoch": 1.0042133333333334,
      "grad_norm": 0.028739634734158522,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 3829
    },
    {
      "epoch": 1.0042666666666666,
      "grad_norm": 0.029358516605755804,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 3830
    },
    {
      "epoch": 1.00432,
      "grad_norm": 0.024433513954576016,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 3831
    },
    {
      "epoch": 1.0043733333333333,
      "grad_norm": 0.02542992876746367,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 3832
    },
    {
      "epoch": 1.0044266666666666,
      "grad_norm": 0.027128584019290154,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 3833
    },
    {
      "epoch": 1.00448,
      "grad_norm": 0.024676446454077985,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 3834
    },
    {
      "epoch": 1.0045333333333333,
      "grad_norm": 0.028389944773164737,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 3835
    },
    {
      "epoch": 1.0045866666666667,
      "grad_norm": 0.024912339157538776,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 3836
    },
    {
      "epoch": 1.00464,
      "grad_norm": 0.026911879634413164,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 3837
    },
    {
      "epoch": 1.0046933333333334,
      "grad_norm": 0.02433614037110017,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 3838
    },
    {
      "epoch": 1.0047466666666667,
      "grad_norm": 0.02361020269784555,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 3839
    },
    {
      "epoch": 1.0048,
      "grad_norm": 0.02356740682536174,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 3840
    },
    {
      "epoch": 1.0048533333333334,
      "grad_norm": 0.023288668709623876,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 3841
    },
    {
      "epoch": 1.0049066666666666,
      "grad_norm": 0.024066905474937058,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 3842
    },
    {
      "epoch": 1.00496,
      "grad_norm": 0.024166394354955326,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 3843
    },
    {
      "epoch": 1.0050133333333333,
      "grad_norm": 0.026007638091742613,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 3844
    },
    {
      "epoch": 1.0050666666666668,
      "grad_norm": 0.02370967808483521,
      "learning_rate": 0.0001,
      "loss": 1.0394,
      "step": 3845
    },
    {
      "epoch": 1.00512,
      "grad_norm": 0.022946534268108297,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 3846
    },
    {
      "epoch": 1.0051733333333333,
      "grad_norm": 0.024230813296235713,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3847
    },
    {
      "epoch": 1.0052266666666667,
      "grad_norm": 0.02492538319142767,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 3848
    },
    {
      "epoch": 1.00528,
      "grad_norm": 0.024241620251644502,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 3849
    },
    {
      "epoch": 1.0053333333333334,
      "grad_norm": 0.02819803066565441,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "step": 3850
    },
    {
      "epoch": 1.0053866666666667,
      "grad_norm": 0.026367339032643284,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 3851
    },
    {
      "epoch": 1.0054400000000001,
      "grad_norm": 0.026739471013831836,
      "learning_rate": 0.0001,
      "loss": 1.0729,
      "step": 3852
    },
    {
      "epoch": 1.0054933333333334,
      "grad_norm": 0.023863081744223535,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3853
    },
    {
      "epoch": 1.0055466666666666,
      "grad_norm": 0.023948223319405243,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 3854
    },
    {
      "epoch": 1.0056,
      "grad_norm": 0.023754696749724448,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 3855
    },
    {
      "epoch": 1.0056533333333333,
      "grad_norm": 0.024714904031646112,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 3856
    },
    {
      "epoch": 1.0057066666666667,
      "grad_norm": 0.02338660274367247,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 3857
    },
    {
      "epoch": 1.00576,
      "grad_norm": 0.023556395855848792,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 3858
    },
    {
      "epoch": 1.0058133333333332,
      "grad_norm": 0.025186956686858414,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 3859
    },
    {
      "epoch": 1.0058666666666667,
      "grad_norm": 0.024518714045880595,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 3860
    },
    {
      "epoch": 1.00592,
      "grad_norm": 0.02368122266291138,
      "learning_rate": 0.0001,
      "loss": 0.9054,
      "step": 3861
    },
    {
      "epoch": 1.0059733333333334,
      "grad_norm": 0.024944739480370987,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 3862
    },
    {
      "epoch": 1.0060266666666666,
      "grad_norm": 0.023518169222986534,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3863
    },
    {
      "epoch": 1.00608,
      "grad_norm": 0.02517444198431426,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 3864
    },
    {
      "epoch": 1.0061333333333333,
      "grad_norm": 0.025304002093735657,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 3865
    },
    {
      "epoch": 1.0061866666666666,
      "grad_norm": 0.023000230861759997,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 3866
    },
    {
      "epoch": 1.00624,
      "grad_norm": 0.02580258604109287,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 3867
    },
    {
      "epoch": 1.0062933333333333,
      "grad_norm": 0.02870867445488332,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 3868
    },
    {
      "epoch": 1.0063466666666667,
      "grad_norm": 0.02313878180800255,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 3869
    },
    {
      "epoch": 1.0064,
      "grad_norm": 0.02472746442555317,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 3870
    },
    {
      "epoch": 1.0064533333333334,
      "grad_norm": 0.023698142171947,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 3871
    },
    {
      "epoch": 1.0065066666666667,
      "grad_norm": 0.022870216701590215,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 3872
    },
    {
      "epoch": 1.00656,
      "grad_norm": 0.02372377929899294,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3873
    },
    {
      "epoch": 1.0066133333333334,
      "grad_norm": 0.02408693347142562,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 3874
    },
    {
      "epoch": 1.0066666666666666,
      "grad_norm": 0.02352546623984074,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 3875
    },
    {
      "epoch": 1.00672,
      "grad_norm": 0.025157397473635622,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 3876
    },
    {
      "epoch": 1.0067733333333333,
      "grad_norm": 0.02575128063178392,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 3877
    },
    {
      "epoch": 1.0068266666666668,
      "grad_norm": 0.025326275022360796,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 3878
    },
    {
      "epoch": 1.00688,
      "grad_norm": 0.025939841327391758,
      "learning_rate": 0.0001,
      "loss": 1.0596,
      "step": 3879
    },
    {
      "epoch": 1.0069333333333332,
      "grad_norm": 0.02377417489879775,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 3880
    },
    {
      "epoch": 1.0069866666666667,
      "grad_norm": 0.025410850430155393,
      "learning_rate": 0.0001,
      "loss": 1.0393,
      "step": 3881
    },
    {
      "epoch": 1.00704,
      "grad_norm": 0.024475426964721915,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 3882
    },
    {
      "epoch": 1.0070933333333334,
      "grad_norm": 0.024786067375904268,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 3883
    },
    {
      "epoch": 1.0071466666666666,
      "grad_norm": 0.02634910784073417,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 3884
    },
    {
      "epoch": 1.0072,
      "grad_norm": 0.02492780368449725,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 3885
    },
    {
      "epoch": 1.0072533333333333,
      "grad_norm": 0.02513263545153101,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "step": 3886
    },
    {
      "epoch": 1.0073066666666666,
      "grad_norm": 0.02306762440181721,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 3887
    },
    {
      "epoch": 1.00736,
      "grad_norm": 0.03183415485160566,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 3888
    },
    {
      "epoch": 1.0074133333333333,
      "grad_norm": 0.024637118161564903,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 3889
    },
    {
      "epoch": 1.0074666666666667,
      "grad_norm": 0.026275857452338625,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 3890
    },
    {
      "epoch": 1.00752,
      "grad_norm": 0.024990904414050916,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 3891
    },
    {
      "epoch": 1.0075733333333334,
      "grad_norm": 0.025281662100547057,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 3892
    },
    {
      "epoch": 1.0076266666666667,
      "grad_norm": 0.02395083557628087,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 3893
    },
    {
      "epoch": 1.00768,
      "grad_norm": 0.02422446580071551,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 3894
    },
    {
      "epoch": 1.0077333333333334,
      "grad_norm": 0.024066486254591603,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 3895
    },
    {
      "epoch": 1.0077866666666666,
      "grad_norm": 0.024478756761334316,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 3896
    },
    {
      "epoch": 1.00784,
      "grad_norm": 0.02492771068975414,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 3897
    },
    {
      "epoch": 1.0078933333333333,
      "grad_norm": 0.02316381871817615,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 3898
    },
    {
      "epoch": 1.0079466666666668,
      "grad_norm": 0.024045023185481573,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 3899
    },
    {
      "epoch": 1.008,
      "grad_norm": 0.024201023608132647,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 3900
    },
    {
      "epoch": 1.0080533333333332,
      "grad_norm": 0.02519619252479933,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 3901
    },
    {
      "epoch": 1.0081066666666667,
      "grad_norm": 0.024983110720075363,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 3902
    },
    {
      "epoch": 1.00816,
      "grad_norm": 0.025996222696692026,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 3903
    },
    {
      "epoch": 1.0082133333333334,
      "grad_norm": 0.02415428830548552,
      "learning_rate": 0.0001,
      "loss": 0.9319,
      "step": 3904
    },
    {
      "epoch": 1.0082666666666666,
      "grad_norm": 0.025816059098976184,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 3905
    },
    {
      "epoch": 1.00832,
      "grad_norm": 0.02460610825175619,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 3906
    },
    {
      "epoch": 1.0083733333333333,
      "grad_norm": 0.024922569865508743,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 3907
    },
    {
      "epoch": 1.0084266666666666,
      "grad_norm": 0.02385833601886371,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 3908
    },
    {
      "epoch": 1.00848,
      "grad_norm": 0.028487739023755433,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 3909
    },
    {
      "epoch": 1.0085333333333333,
      "grad_norm": 0.024221722699809912,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 3910
    },
    {
      "epoch": 1.0085866666666667,
      "grad_norm": 0.02412116896201808,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 3911
    },
    {
      "epoch": 1.00864,
      "grad_norm": 0.023853438086638173,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 3912
    },
    {
      "epoch": 1.0086933333333334,
      "grad_norm": 0.025379814422142766,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 3913
    },
    {
      "epoch": 1.0087466666666667,
      "grad_norm": 0.02584030350418239,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 3914
    },
    {
      "epoch": 1.0088,
      "grad_norm": 0.02573667152334552,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 3915
    },
    {
      "epoch": 1.0088533333333334,
      "grad_norm": 0.023662823012658922,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 3916
    },
    {
      "epoch": 1.0089066666666666,
      "grad_norm": 0.02310282829034401,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 3917
    },
    {
      "epoch": 1.00896,
      "grad_norm": 0.02397406133501,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 3918
    },
    {
      "epoch": 1.0090133333333333,
      "grad_norm": 0.02685420607446201,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 3919
    },
    {
      "epoch": 1.0090666666666666,
      "grad_norm": 0.02429517539211287,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 3920
    },
    {
      "epoch": 1.00912,
      "grad_norm": 0.02397681407753184,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 3921
    },
    {
      "epoch": 1.0091733333333333,
      "grad_norm": 0.025469894167383652,
      "learning_rate": 0.0001,
      "loss": 1.0403,
      "step": 3922
    },
    {
      "epoch": 1.0092266666666667,
      "grad_norm": 0.024472834585150597,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 3923
    },
    {
      "epoch": 1.00928,
      "grad_norm": 0.025758701520334885,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 3924
    },
    {
      "epoch": 1.0093333333333334,
      "grad_norm": 0.02686868870186343,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 3925
    },
    {
      "epoch": 1.0093866666666667,
      "grad_norm": 0.027070017538439996,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 3926
    },
    {
      "epoch": 1.00944,
      "grad_norm": 0.02627622425993862,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 3927
    },
    {
      "epoch": 1.0094933333333334,
      "grad_norm": 0.026679032660493252,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 3928
    },
    {
      "epoch": 1.0095466666666666,
      "grad_norm": 0.02378349567813148,
      "learning_rate": 0.0001,
      "loss": 1.025,
      "step": 3929
    },
    {
      "epoch": 1.0096,
      "grad_norm": 0.029272395542631825,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 3930
    },
    {
      "epoch": 1.0096533333333333,
      "grad_norm": 0.025007187701308414,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 3931
    },
    {
      "epoch": 1.0097066666666668,
      "grad_norm": 0.02566341332410845,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 3932
    },
    {
      "epoch": 1.00976,
      "grad_norm": 0.02359052261343419,
      "learning_rate": 0.0001,
      "loss": 1.049,
      "step": 3933
    },
    {
      "epoch": 1.0098133333333332,
      "grad_norm": 0.024915786571942964,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 3934
    },
    {
      "epoch": 1.0098666666666667,
      "grad_norm": 0.023903042905324617,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 3935
    },
    {
      "epoch": 1.00992,
      "grad_norm": 0.02532916927496072,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3936
    },
    {
      "epoch": 1.0099733333333334,
      "grad_norm": 0.024214396435361586,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 3937
    },
    {
      "epoch": 1.0100266666666666,
      "grad_norm": 0.02473817481196218,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 3938
    },
    {
      "epoch": 1.01008,
      "grad_norm": 0.027558083922269924,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 3939
    },
    {
      "epoch": 1.0101333333333333,
      "grad_norm": 0.026634231032450318,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 3940
    },
    {
      "epoch": 1.0101866666666666,
      "grad_norm": 0.025605328208565297,
      "learning_rate": 0.0001,
      "loss": 1.0273,
      "step": 3941
    },
    {
      "epoch": 1.01024,
      "grad_norm": 0.024913270335292004,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 3942
    },
    {
      "epoch": 1.0102933333333333,
      "grad_norm": 0.027137800430893772,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 3943
    },
    {
      "epoch": 1.0103466666666667,
      "grad_norm": 0.022508277294662083,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 3944
    },
    {
      "epoch": 1.0104,
      "grad_norm": 0.026156829849488854,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 3945
    },
    {
      "epoch": 1.0104533333333334,
      "grad_norm": 0.024856597141466527,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 3946
    },
    {
      "epoch": 1.0105066666666667,
      "grad_norm": 0.02587737558736356,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 3947
    },
    {
      "epoch": 1.01056,
      "grad_norm": 0.025866966914672312,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 3948
    },
    {
      "epoch": 1.0106133333333334,
      "grad_norm": 0.02578345355089943,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 3949
    },
    {
      "epoch": 1.0106666666666666,
      "grad_norm": 0.024272730842819067,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 3950
    },
    {
      "epoch": 1.01072,
      "grad_norm": 0.02454699127260331,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 3951
    },
    {
      "epoch": 1.0107733333333333,
      "grad_norm": 0.025084289388201862,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 3952
    },
    {
      "epoch": 1.0108266666666668,
      "grad_norm": 0.025110014537504905,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 3953
    },
    {
      "epoch": 1.01088,
      "grad_norm": 0.025461352803916277,
      "learning_rate": 0.0001,
      "loss": 0.8733,
      "step": 3954
    },
    {
      "epoch": 1.0109333333333332,
      "grad_norm": 0.025551794767601287,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 3955
    },
    {
      "epoch": 1.0109866666666667,
      "grad_norm": 0.02453816479545975,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 3956
    },
    {
      "epoch": 1.01104,
      "grad_norm": 0.024866890430422138,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 3957
    },
    {
      "epoch": 1.0110933333333334,
      "grad_norm": 0.024973532375632223,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 3958
    },
    {
      "epoch": 1.0111466666666666,
      "grad_norm": 0.02431623027174192,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 3959
    },
    {
      "epoch": 1.0112,
      "grad_norm": 0.025963366166829958,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 3960
    },
    {
      "epoch": 1.0112533333333333,
      "grad_norm": 0.024512873443969338,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 3961
    },
    {
      "epoch": 1.0113066666666666,
      "grad_norm": 0.024690236963096312,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 3962
    },
    {
      "epoch": 1.01136,
      "grad_norm": 0.026952975233490533,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 3963
    },
    {
      "epoch": 1.0114133333333333,
      "grad_norm": 0.025970917220198307,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 3964
    },
    {
      "epoch": 1.0114666666666667,
      "grad_norm": 0.028044438358287054,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 3965
    },
    {
      "epoch": 1.01152,
      "grad_norm": 0.024586269578215227,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 3966
    },
    {
      "epoch": 1.0115733333333334,
      "grad_norm": 0.024749090695704298,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 3967
    },
    {
      "epoch": 1.0116266666666667,
      "grad_norm": 0.024798089095539357,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 3968
    },
    {
      "epoch": 1.01168,
      "grad_norm": 0.02241221459139068,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 3969
    },
    {
      "epoch": 1.0117333333333334,
      "grad_norm": 0.0254296600033354,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 3970
    },
    {
      "epoch": 1.0117866666666666,
      "grad_norm": 0.0254723803964814,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 3971
    },
    {
      "epoch": 1.01184,
      "grad_norm": 0.025381602148877195,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 3972
    },
    {
      "epoch": 1.0118933333333333,
      "grad_norm": 0.023837126630587492,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 3973
    },
    {
      "epoch": 1.0119466666666668,
      "grad_norm": 0.024620497736742967,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 3974
    },
    {
      "epoch": 1.012,
      "grad_norm": 0.02473227159088827,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 3975
    },
    {
      "epoch": 1.0120533333333332,
      "grad_norm": 0.02517371402328296,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 3976
    },
    {
      "epoch": 1.0121066666666667,
      "grad_norm": 0.02455988206688856,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 3977
    },
    {
      "epoch": 1.01216,
      "grad_norm": 0.02457190786840691,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 3978
    },
    {
      "epoch": 1.0122133333333334,
      "grad_norm": 0.024610392641510402,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 3979
    },
    {
      "epoch": 1.0122666666666666,
      "grad_norm": 0.02498208024904959,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 3980
    },
    {
      "epoch": 1.01232,
      "grad_norm": 0.023628188763282973,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 3981
    },
    {
      "epoch": 1.0123733333333333,
      "grad_norm": 0.027172493495719062,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 3982
    },
    {
      "epoch": 1.0124266666666666,
      "grad_norm": 0.024535346568434632,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 3983
    },
    {
      "epoch": 1.01248,
      "grad_norm": 0.02555108171437443,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 3984
    },
    {
      "epoch": 1.0125333333333333,
      "grad_norm": 0.025212243792050403,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 3985
    },
    {
      "epoch": 1.0125866666666667,
      "grad_norm": 0.02779406650842899,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 3986
    },
    {
      "epoch": 1.01264,
      "grad_norm": 0.025746386753390013,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 3987
    },
    {
      "epoch": 1.0126933333333332,
      "grad_norm": 0.02383907129600073,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 3988
    },
    {
      "epoch": 1.0127466666666667,
      "grad_norm": 0.02493137688748293,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 3989
    },
    {
      "epoch": 1.0128,
      "grad_norm": 0.024319146593413474,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 3990
    },
    {
      "epoch": 1.0128533333333334,
      "grad_norm": 0.02377903980775023,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 3991
    },
    {
      "epoch": 1.0129066666666666,
      "grad_norm": 0.023545792662725357,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 3992
    },
    {
      "epoch": 1.01296,
      "grad_norm": 0.023825684225529657,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 3993
    },
    {
      "epoch": 1.0130133333333333,
      "grad_norm": 0.025730787037393635,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 3994
    },
    {
      "epoch": 1.0130666666666666,
      "grad_norm": 0.022567936666779954,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 3995
    },
    {
      "epoch": 1.01312,
      "grad_norm": 0.024661724532625325,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 3996
    },
    {
      "epoch": 1.0131733333333333,
      "grad_norm": 0.027402951746011203,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 3997
    },
    {
      "epoch": 1.0132266666666667,
      "grad_norm": 0.02300211429546036,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 3998
    },
    {
      "epoch": 1.01328,
      "grad_norm": 0.02459167375639152,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 3999
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 0.025300118203461036,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 4000
    },
    {
      "epoch": 1.0133333333333334,
      "eval_accuracy": 0.6161377233270118,
      "eval_loss": 1.3768357038497925,
      "eval_runtime": 62.9053,
      "eval_samples_per_second": 15.897,
      "eval_steps_per_second": 0.509,
      "step": 4000
    },
    {
      "epoch": 1.0133866666666667,
      "grad_norm": 0.024401736334903317,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4001
    },
    {
      "epoch": 1.01344,
      "grad_norm": 0.023402635337184424,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 4002
    },
    {
      "epoch": 1.0134933333333334,
      "grad_norm": 0.02497774166628667,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 4003
    },
    {
      "epoch": 1.0135466666666666,
      "grad_norm": 0.02419492904661464,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 4004
    },
    {
      "epoch": 1.0136,
      "grad_norm": 0.02299012056879063,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4005
    },
    {
      "epoch": 1.0136533333333333,
      "grad_norm": 0.026349668112276726,
      "learning_rate": 0.0001,
      "loss": 1.0222,
      "step": 4006
    },
    {
      "epoch": 1.0137066666666668,
      "grad_norm": 0.024598253297648823,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 4007
    },
    {
      "epoch": 1.01376,
      "grad_norm": 0.023309102052932056,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 4008
    },
    {
      "epoch": 1.0138133333333332,
      "grad_norm": 0.02424135192534958,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4009
    },
    {
      "epoch": 1.0138666666666667,
      "grad_norm": 0.025371776868437983,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 4010
    },
    {
      "epoch": 1.01392,
      "grad_norm": 0.024813713429698656,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 4011
    },
    {
      "epoch": 1.0139733333333334,
      "grad_norm": 0.025245780676116235,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 4012
    },
    {
      "epoch": 1.0140266666666666,
      "grad_norm": 0.024615087755400396,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4013
    },
    {
      "epoch": 1.01408,
      "grad_norm": 0.026190527911027765,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 4014
    },
    {
      "epoch": 1.0141333333333333,
      "grad_norm": 0.024047436758947036,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4015
    },
    {
      "epoch": 1.0141866666666666,
      "grad_norm": 0.025549809797534087,
      "learning_rate": 0.0001,
      "loss": 0.89,
      "step": 4016
    },
    {
      "epoch": 1.01424,
      "grad_norm": 0.02406558530305454,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4017
    },
    {
      "epoch": 1.0142933333333333,
      "grad_norm": 0.024026534000748667,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 4018
    },
    {
      "epoch": 1.0143466666666667,
      "grad_norm": 0.024051943080777256,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 4019
    },
    {
      "epoch": 1.0144,
      "grad_norm": 0.024397535425769865,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4020
    },
    {
      "epoch": 1.0144533333333334,
      "grad_norm": 0.025146324396967155,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 4021
    },
    {
      "epoch": 1.0145066666666667,
      "grad_norm": 0.02591941322480823,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 4022
    },
    {
      "epoch": 1.01456,
      "grad_norm": 0.024450737815708903,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4023
    },
    {
      "epoch": 1.0146133333333334,
      "grad_norm": 0.024729552651682703,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 4024
    },
    {
      "epoch": 1.0146666666666666,
      "grad_norm": 0.02429522960476348,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 4025
    },
    {
      "epoch": 1.01472,
      "grad_norm": 0.02403209266263719,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4026
    },
    {
      "epoch": 1.0147733333333333,
      "grad_norm": 0.02691841914983897,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 4027
    },
    {
      "epoch": 1.0148266666666668,
      "grad_norm": 0.023168551860072908,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 4028
    },
    {
      "epoch": 1.01488,
      "grad_norm": 0.02401694891768317,
      "learning_rate": 0.0001,
      "loss": 1.0635,
      "step": 4029
    },
    {
      "epoch": 1.0149333333333332,
      "grad_norm": 0.027310443599578148,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4030
    },
    {
      "epoch": 1.0149866666666667,
      "grad_norm": 0.02303301050801776,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 4031
    },
    {
      "epoch": 1.01504,
      "grad_norm": 0.026779989522999547,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 4032
    },
    {
      "epoch": 1.0150933333333334,
      "grad_norm": 0.02504550359186479,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 4033
    },
    {
      "epoch": 1.0151466666666666,
      "grad_norm": 0.023393612089213586,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 4034
    },
    {
      "epoch": 1.0152,
      "grad_norm": 0.024182630595674392,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4035
    },
    {
      "epoch": 1.0152533333333333,
      "grad_norm": 0.024542390551731717,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 4036
    },
    {
      "epoch": 1.0153066666666666,
      "grad_norm": 0.023969144773092012,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 4037
    },
    {
      "epoch": 1.01536,
      "grad_norm": 0.02291007402333025,
      "learning_rate": 0.0001,
      "loss": 0.9198,
      "step": 4038
    },
    {
      "epoch": 1.0154133333333333,
      "grad_norm": 0.025245568094686928,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4039
    },
    {
      "epoch": 1.0154666666666667,
      "grad_norm": 0.024970843564914694,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 4040
    },
    {
      "epoch": 1.01552,
      "grad_norm": 0.023429104818229865,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4041
    },
    {
      "epoch": 1.0155733333333334,
      "grad_norm": 0.02434959741679764,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 4042
    },
    {
      "epoch": 1.0156266666666667,
      "grad_norm": 0.02375572110687424,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4043
    },
    {
      "epoch": 1.01568,
      "grad_norm": 0.026574508512991344,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 4044
    },
    {
      "epoch": 1.0157333333333334,
      "grad_norm": 0.024431818279765077,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 4045
    },
    {
      "epoch": 1.0157866666666666,
      "grad_norm": 0.023777427544750915,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4046
    },
    {
      "epoch": 1.01584,
      "grad_norm": 0.025062910784340715,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 4047
    },
    {
      "epoch": 1.0158933333333333,
      "grad_norm": 0.023794493320734536,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 4048
    },
    {
      "epoch": 1.0159466666666668,
      "grad_norm": 0.024085905171688026,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 4049
    },
    {
      "epoch": 1.016,
      "grad_norm": 0.024223923209526387,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 4050
    },
    {
      "epoch": 1.0160533333333333,
      "grad_norm": 0.025194317917699497,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 4051
    },
    {
      "epoch": 1.0161066666666667,
      "grad_norm": 0.024968025709456148,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 4052
    },
    {
      "epoch": 1.01616,
      "grad_norm": 0.024216756749862272,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 4053
    },
    {
      "epoch": 1.0162133333333334,
      "grad_norm": 0.024117816729277014,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 4054
    },
    {
      "epoch": 1.0162666666666667,
      "grad_norm": 0.025676151494944354,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 4055
    },
    {
      "epoch": 1.01632,
      "grad_norm": 0.024080141217131198,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 4056
    },
    {
      "epoch": 1.0163733333333334,
      "grad_norm": 0.024149229752895424,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 4057
    },
    {
      "epoch": 1.0164266666666666,
      "grad_norm": 0.023416754536336102,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 4058
    },
    {
      "epoch": 1.01648,
      "grad_norm": 0.023816267182400135,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 4059
    },
    {
      "epoch": 1.0165333333333333,
      "grad_norm": 0.025524821110679243,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 4060
    },
    {
      "epoch": 1.0165866666666667,
      "grad_norm": 0.024900996036066107,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 4061
    },
    {
      "epoch": 1.01664,
      "grad_norm": 0.022898840636870473,
      "learning_rate": 0.0001,
      "loss": 0.9297,
      "step": 4062
    },
    {
      "epoch": 1.0166933333333332,
      "grad_norm": 0.02390264006647945,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 4063
    },
    {
      "epoch": 1.0167466666666667,
      "grad_norm": 0.02692670940626363,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 4064
    },
    {
      "epoch": 1.0168,
      "grad_norm": 0.02417870633043578,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 4065
    },
    {
      "epoch": 1.0168533333333334,
      "grad_norm": 0.022452071696152848,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 4066
    },
    {
      "epoch": 1.0169066666666666,
      "grad_norm": 0.027166134747440597,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4067
    },
    {
      "epoch": 1.01696,
      "grad_norm": 0.024389623165115743,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4068
    },
    {
      "epoch": 1.0170133333333333,
      "grad_norm": 0.027244323896705912,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 4069
    },
    {
      "epoch": 1.0170666666666666,
      "grad_norm": 0.024583748425092932,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 4070
    },
    {
      "epoch": 1.01712,
      "grad_norm": 0.027111702844846472,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 4071
    },
    {
      "epoch": 1.0171733333333333,
      "grad_norm": 0.025525220157123316,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 4072
    },
    {
      "epoch": 1.0172266666666667,
      "grad_norm": 0.02443430865262133,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 4073
    },
    {
      "epoch": 1.01728,
      "grad_norm": 0.02589414859861792,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 4074
    },
    {
      "epoch": 1.0173333333333334,
      "grad_norm": 0.027781153821673298,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4075
    },
    {
      "epoch": 1.0173866666666667,
      "grad_norm": 0.024385649993450255,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 4076
    },
    {
      "epoch": 1.01744,
      "grad_norm": 0.025145601432764404,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4077
    },
    {
      "epoch": 1.0174933333333334,
      "grad_norm": 0.023627818063698913,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 4078
    },
    {
      "epoch": 1.0175466666666666,
      "grad_norm": 0.025863232127185786,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 4079
    },
    {
      "epoch": 1.0176,
      "grad_norm": 0.02415786960376307,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 4080
    },
    {
      "epoch": 1.0176533333333333,
      "grad_norm": 0.022401420445532387,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 4081
    },
    {
      "epoch": 1.0177066666666668,
      "grad_norm": 0.023892468048364507,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 4082
    },
    {
      "epoch": 1.01776,
      "grad_norm": 0.024805797385968723,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 4083
    },
    {
      "epoch": 1.0178133333333332,
      "grad_norm": 0.02529069363410495,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4084
    },
    {
      "epoch": 1.0178666666666667,
      "grad_norm": 0.0266347508649238,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 4085
    },
    {
      "epoch": 1.01792,
      "grad_norm": 0.025288145408278596,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 4086
    },
    {
      "epoch": 1.0179733333333334,
      "grad_norm": 0.027402681329733586,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4087
    },
    {
      "epoch": 1.0180266666666666,
      "grad_norm": 0.024045769225857952,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 4088
    },
    {
      "epoch": 1.01808,
      "grad_norm": 0.02728435886219315,
      "learning_rate": 0.0001,
      "loss": 1.0374,
      "step": 4089
    },
    {
      "epoch": 1.0181333333333333,
      "grad_norm": 0.02424342889023854,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 4090
    },
    {
      "epoch": 1.0181866666666666,
      "grad_norm": 0.02425626815271567,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 4091
    },
    {
      "epoch": 1.01824,
      "grad_norm": 0.026728037033616505,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 4092
    },
    {
      "epoch": 1.0182933333333333,
      "grad_norm": 0.02572072699101144,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 4093
    },
    {
      "epoch": 1.0183466666666667,
      "grad_norm": 0.026001246581351466,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4094
    },
    {
      "epoch": 1.0184,
      "grad_norm": 0.02415717685516126,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "step": 4095
    },
    {
      "epoch": 1.0184533333333334,
      "grad_norm": 0.025311895054499572,
      "learning_rate": 0.0001,
      "loss": 1.0487,
      "step": 4096
    },
    {
      "epoch": 1.0185066666666667,
      "grad_norm": 0.028551152825276697,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 4097
    },
    {
      "epoch": 1.01856,
      "grad_norm": 0.023966585706657082,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 4098
    },
    {
      "epoch": 1.0186133333333334,
      "grad_norm": 0.02747707946971332,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 4099
    },
    {
      "epoch": 1.0186666666666666,
      "grad_norm": 0.02666619967922408,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "step": 4100
    },
    {
      "epoch": 1.01872,
      "grad_norm": 0.02493553000123412,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 4101
    },
    {
      "epoch": 1.0187733333333333,
      "grad_norm": 0.025303131629016814,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4102
    },
    {
      "epoch": 1.0188266666666668,
      "grad_norm": 0.02336137932285871,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4103
    },
    {
      "epoch": 1.01888,
      "grad_norm": 0.024758310752105085,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 4104
    },
    {
      "epoch": 1.0189333333333332,
      "grad_norm": 0.023055098682861964,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 4105
    },
    {
      "epoch": 1.0189866666666667,
      "grad_norm": 0.024169489796884106,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4106
    },
    {
      "epoch": 1.01904,
      "grad_norm": 0.023721781034357355,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 4107
    },
    {
      "epoch": 1.0190933333333334,
      "grad_norm": 0.022618999494931243,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 4108
    },
    {
      "epoch": 1.0191466666666666,
      "grad_norm": 0.022910364900022497,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 4109
    },
    {
      "epoch": 1.0192,
      "grad_norm": 0.023620911972919097,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 4110
    },
    {
      "epoch": 1.0192533333333333,
      "grad_norm": 0.024055717715391535,
      "learning_rate": 0.0001,
      "loss": 0.9387,
      "step": 4111
    },
    {
      "epoch": 1.0193066666666666,
      "grad_norm": 0.02370950132239785,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 4112
    },
    {
      "epoch": 1.01936,
      "grad_norm": 0.024351229965112582,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 4113
    },
    {
      "epoch": 1.0194133333333333,
      "grad_norm": 0.02450065003645881,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 4114
    },
    {
      "epoch": 1.0194666666666667,
      "grad_norm": 0.024324340524869238,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 4115
    },
    {
      "epoch": 1.01952,
      "grad_norm": 0.026641537297933622,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 4116
    },
    {
      "epoch": 1.0195733333333334,
      "grad_norm": 0.025506364472169096,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 4117
    },
    {
      "epoch": 1.0196266666666667,
      "grad_norm": 0.024630710957555407,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 4118
    },
    {
      "epoch": 1.01968,
      "grad_norm": 0.025051292008608856,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 4119
    },
    {
      "epoch": 1.0197333333333334,
      "grad_norm": 0.025467829572196843,
      "learning_rate": 0.0001,
      "loss": 0.9074,
      "step": 4120
    },
    {
      "epoch": 1.0197866666666666,
      "grad_norm": 0.02743346218508081,
      "learning_rate": 0.0001,
      "loss": 1.0279,
      "step": 4121
    },
    {
      "epoch": 1.01984,
      "grad_norm": 0.02601745208831305,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 4122
    },
    {
      "epoch": 1.0198933333333333,
      "grad_norm": 0.02903390203321502,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 4123
    },
    {
      "epoch": 1.0199466666666668,
      "grad_norm": 0.025683327480831745,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 4124
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.025153452159095372,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4125
    },
    {
      "epoch": 1.0200533333333333,
      "grad_norm": 0.027200766342311482,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4126
    },
    {
      "epoch": 1.0201066666666667,
      "grad_norm": 0.023780357847930044,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 4127
    },
    {
      "epoch": 1.02016,
      "grad_norm": 0.024822824017287352,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 4128
    },
    {
      "epoch": 1.0202133333333334,
      "grad_norm": 0.024840871724469853,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 4129
    },
    {
      "epoch": 1.0202666666666667,
      "grad_norm": 0.024890630484610606,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 4130
    },
    {
      "epoch": 1.02032,
      "grad_norm": 0.024998941243433395,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 4131
    },
    {
      "epoch": 1.0203733333333334,
      "grad_norm": 0.026874930646019864,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 4132
    },
    {
      "epoch": 1.0204266666666666,
      "grad_norm": 0.02554332070339355,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 4133
    },
    {
      "epoch": 1.02048,
      "grad_norm": 0.025183354741602923,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 4134
    },
    {
      "epoch": 1.0205333333333333,
      "grad_norm": 0.025269493984554588,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 4135
    },
    {
      "epoch": 1.0205866666666668,
      "grad_norm": 0.027601872952328098,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 4136
    },
    {
      "epoch": 1.02064,
      "grad_norm": 0.025037202311629606,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 4137
    },
    {
      "epoch": 1.0206933333333332,
      "grad_norm": 0.025137580913825897,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4138
    },
    {
      "epoch": 1.0207466666666667,
      "grad_norm": 0.02455992193506293,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 4139
    },
    {
      "epoch": 1.0208,
      "grad_norm": 0.02484563850529631,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4140
    },
    {
      "epoch": 1.0208533333333334,
      "grad_norm": 0.024308699085402764,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4141
    },
    {
      "epoch": 1.0209066666666666,
      "grad_norm": 0.02428214467306464,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 4142
    },
    {
      "epoch": 1.02096,
      "grad_norm": 0.025557876713386184,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 4143
    },
    {
      "epoch": 1.0210133333333333,
      "grad_norm": 0.023962139855590255,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 4144
    },
    {
      "epoch": 1.0210666666666666,
      "grad_norm": 0.025337579379357815,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 4145
    },
    {
      "epoch": 1.02112,
      "grad_norm": 0.02640176571145335,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4146
    },
    {
      "epoch": 1.0211733333333333,
      "grad_norm": 0.024657297930128243,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4147
    },
    {
      "epoch": 1.0212266666666667,
      "grad_norm": 0.026551045089252306,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 4148
    },
    {
      "epoch": 1.02128,
      "grad_norm": 0.028461246081560882,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 4149
    },
    {
      "epoch": 1.0213333333333334,
      "grad_norm": 0.02469780131154835,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 4150
    },
    {
      "epoch": 1.0213866666666667,
      "grad_norm": 0.02433568030963084,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 4151
    },
    {
      "epoch": 1.02144,
      "grad_norm": 0.026237101797698188,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 4152
    },
    {
      "epoch": 1.0214933333333334,
      "grad_norm": 0.026802775825936494,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 4153
    },
    {
      "epoch": 1.0215466666666666,
      "grad_norm": 0.028156450452574942,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 4154
    },
    {
      "epoch": 1.0216,
      "grad_norm": 0.023727973803753705,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 4155
    },
    {
      "epoch": 1.0216533333333333,
      "grad_norm": 0.02522283179229633,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 4156
    },
    {
      "epoch": 1.0217066666666668,
      "grad_norm": 0.027478685831952232,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 4157
    },
    {
      "epoch": 1.02176,
      "grad_norm": 0.024920031103950604,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "step": 4158
    },
    {
      "epoch": 1.0218133333333332,
      "grad_norm": 0.024504692151936566,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 4159
    },
    {
      "epoch": 1.0218666666666667,
      "grad_norm": 0.024260429066378746,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 4160
    },
    {
      "epoch": 1.02192,
      "grad_norm": 0.023630107797452223,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 4161
    },
    {
      "epoch": 1.0219733333333334,
      "grad_norm": 0.022815903287836063,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 4162
    },
    {
      "epoch": 1.0220266666666666,
      "grad_norm": 0.025335160376828387,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 4163
    },
    {
      "epoch": 1.02208,
      "grad_norm": 0.023801613003010504,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 4164
    },
    {
      "epoch": 1.0221333333333333,
      "grad_norm": 0.025765969566585438,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 4165
    },
    {
      "epoch": 1.0221866666666666,
      "grad_norm": 0.024706388519419517,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 4166
    },
    {
      "epoch": 1.02224,
      "grad_norm": 0.02401186234107778,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 4167
    },
    {
      "epoch": 1.0222933333333333,
      "grad_norm": 0.023986236191737748,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4168
    },
    {
      "epoch": 1.0223466666666667,
      "grad_norm": 0.026289493691338265,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4169
    },
    {
      "epoch": 1.0224,
      "grad_norm": 0.02580269656502028,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4170
    },
    {
      "epoch": 1.0224533333333334,
      "grad_norm": 0.025636308556642784,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4171
    },
    {
      "epoch": 1.0225066666666667,
      "grad_norm": 0.02499546340605594,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 4172
    },
    {
      "epoch": 1.02256,
      "grad_norm": 0.027178549477794973,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4173
    },
    {
      "epoch": 1.0226133333333334,
      "grad_norm": 0.02583047036758767,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4174
    },
    {
      "epoch": 1.0226666666666666,
      "grad_norm": 0.024759252493346113,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4175
    },
    {
      "epoch": 1.02272,
      "grad_norm": 0.024439241924788545,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 4176
    },
    {
      "epoch": 1.0227733333333333,
      "grad_norm": 0.026144269417161206,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 4177
    },
    {
      "epoch": 1.0228266666666668,
      "grad_norm": 0.023662733735556274,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 4178
    },
    {
      "epoch": 1.02288,
      "grad_norm": 0.024509834819547736,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 4179
    },
    {
      "epoch": 1.0229333333333333,
      "grad_norm": 0.02378596626010149,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 4180
    },
    {
      "epoch": 1.0229866666666667,
      "grad_norm": 0.023872125258735732,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 4181
    },
    {
      "epoch": 1.02304,
      "grad_norm": 0.024248945886809987,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4182
    },
    {
      "epoch": 1.0230933333333334,
      "grad_norm": 0.02638296427452288,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 4183
    },
    {
      "epoch": 1.0231466666666666,
      "grad_norm": 0.023752798479666513,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4184
    },
    {
      "epoch": 1.0232,
      "grad_norm": 0.0244903761632705,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 4185
    },
    {
      "epoch": 1.0232533333333333,
      "grad_norm": 0.02400288051199754,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 4186
    },
    {
      "epoch": 1.0233066666666666,
      "grad_norm": 0.02470766224948326,
      "learning_rate": 0.0001,
      "loss": 1.0381,
      "step": 4187
    },
    {
      "epoch": 1.02336,
      "grad_norm": 0.02355413659345114,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4188
    },
    {
      "epoch": 1.0234133333333333,
      "grad_norm": 0.02388100247943962,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4189
    },
    {
      "epoch": 1.0234666666666667,
      "grad_norm": 0.025357342699613802,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 4190
    },
    {
      "epoch": 1.02352,
      "grad_norm": 0.02575088633592105,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 4191
    },
    {
      "epoch": 1.0235733333333332,
      "grad_norm": 0.029527897800382896,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4192
    },
    {
      "epoch": 1.0236266666666667,
      "grad_norm": 0.025043147558702156,
      "learning_rate": 0.0001,
      "loss": 0.9015,
      "step": 4193
    },
    {
      "epoch": 1.02368,
      "grad_norm": 0.024580433160842255,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 4194
    },
    {
      "epoch": 1.0237333333333334,
      "grad_norm": 0.02340031743784862,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 4195
    },
    {
      "epoch": 1.0237866666666666,
      "grad_norm": 0.02420780125366667,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 4196
    },
    {
      "epoch": 1.02384,
      "grad_norm": 0.026050326311486207,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4197
    },
    {
      "epoch": 1.0238933333333333,
      "grad_norm": 0.025149369827947087,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4198
    },
    {
      "epoch": 1.0239466666666666,
      "grad_norm": 0.023892363656792412,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 4199
    },
    {
      "epoch": 1.024,
      "grad_norm": 0.02566189572365672,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 4200
    },
    {
      "epoch": 1.024,
      "eval_accuracy": 0.6163969977237055,
      "eval_loss": 1.3754934072494507,
      "eval_runtime": 63.0025,
      "eval_samples_per_second": 15.872,
      "eval_steps_per_second": 0.508,
      "step": 4200
    },
    {
      "epoch": 1.0240533333333333,
      "grad_norm": 0.025757819350837697,
      "learning_rate": 0.0001,
      "loss": 1.0339,
      "step": 4201
    },
    {
      "epoch": 1.0241066666666667,
      "grad_norm": 0.02274859172447308,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 4202
    },
    {
      "epoch": 1.02416,
      "grad_norm": 0.023509825243217135,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 4203
    },
    {
      "epoch": 1.0242133333333334,
      "grad_norm": 0.025230977021746055,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 4204
    },
    {
      "epoch": 1.0242666666666667,
      "grad_norm": 0.024245317829138035,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 4205
    },
    {
      "epoch": 1.02432,
      "grad_norm": 0.027243114802443805,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 4206
    },
    {
      "epoch": 1.0243733333333334,
      "grad_norm": 0.02443178643907904,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 4207
    },
    {
      "epoch": 1.0244266666666666,
      "grad_norm": 0.02383922271287295,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 4208
    },
    {
      "epoch": 1.02448,
      "grad_norm": 0.023755291448099566,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 4209
    },
    {
      "epoch": 1.0245333333333333,
      "grad_norm": 0.026294497879866312,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 4210
    },
    {
      "epoch": 1.0245866666666668,
      "grad_norm": 0.02690498125505039,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4211
    },
    {
      "epoch": 1.02464,
      "grad_norm": 0.02477867275406131,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 4212
    },
    {
      "epoch": 1.0246933333333332,
      "grad_norm": 0.024827954229988305,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 4213
    },
    {
      "epoch": 1.0247466666666667,
      "grad_norm": 0.024371325373032684,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 4214
    },
    {
      "epoch": 1.0248,
      "grad_norm": 0.02561491411833602,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 4215
    },
    {
      "epoch": 1.0248533333333334,
      "grad_norm": 0.02796261491312149,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 4216
    },
    {
      "epoch": 1.0249066666666666,
      "grad_norm": 0.026632895693282723,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4217
    },
    {
      "epoch": 1.02496,
      "grad_norm": 0.02589439772571267,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 4218
    },
    {
      "epoch": 1.0250133333333333,
      "grad_norm": 0.02521081036334982,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 4219
    },
    {
      "epoch": 1.0250666666666666,
      "grad_norm": 0.02529107487237992,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 4220
    },
    {
      "epoch": 1.02512,
      "grad_norm": 0.024515291844046043,
      "learning_rate": 0.0001,
      "loss": 1.0483,
      "step": 4221
    },
    {
      "epoch": 1.0251733333333333,
      "grad_norm": 0.024838117340690215,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 4222
    },
    {
      "epoch": 1.0252266666666667,
      "grad_norm": 0.023670168335518684,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4223
    },
    {
      "epoch": 1.02528,
      "grad_norm": 0.02661077691417788,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 4224
    },
    {
      "epoch": 1.0253333333333334,
      "grad_norm": 0.02478137932288543,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 4225
    },
    {
      "epoch": 1.0253866666666667,
      "grad_norm": 0.025248234730067518,
      "learning_rate": 0.0001,
      "loss": 1.0537,
      "step": 4226
    },
    {
      "epoch": 1.02544,
      "grad_norm": 0.027711947373968007,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 4227
    },
    {
      "epoch": 1.0254933333333334,
      "grad_norm": 0.023258435108042007,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4228
    },
    {
      "epoch": 1.0255466666666666,
      "grad_norm": 0.02754599791450017,
      "learning_rate": 0.0001,
      "loss": 0.9063,
      "step": 4229
    },
    {
      "epoch": 1.0256,
      "grad_norm": 0.024617906423117997,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4230
    },
    {
      "epoch": 1.0256533333333333,
      "grad_norm": 0.028169952580668345,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 4231
    },
    {
      "epoch": 1.0257066666666668,
      "grad_norm": 0.025525385289548435,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 4232
    },
    {
      "epoch": 1.02576,
      "grad_norm": 0.022582059247794162,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 4233
    },
    {
      "epoch": 1.0258133333333332,
      "grad_norm": 0.02616881260705403,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 4234
    },
    {
      "epoch": 1.0258666666666667,
      "grad_norm": 0.02423244185384149,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 4235
    },
    {
      "epoch": 1.02592,
      "grad_norm": 0.025208082299036275,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 4236
    },
    {
      "epoch": 1.0259733333333334,
      "grad_norm": 0.02399358357271551,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 4237
    },
    {
      "epoch": 1.0260266666666666,
      "grad_norm": 0.023129095037977093,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 4238
    },
    {
      "epoch": 1.02608,
      "grad_norm": 0.025159819790718747,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 4239
    },
    {
      "epoch": 1.0261333333333333,
      "grad_norm": 0.024229836119730334,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 4240
    },
    {
      "epoch": 1.0261866666666666,
      "grad_norm": 0.023716819218191073,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4241
    },
    {
      "epoch": 1.02624,
      "grad_norm": 0.024265561245790438,
      "learning_rate": 0.0001,
      "loss": 1.0504,
      "step": 4242
    },
    {
      "epoch": 1.0262933333333333,
      "grad_norm": 0.026910018087133,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 4243
    },
    {
      "epoch": 1.0263466666666667,
      "grad_norm": 0.02377315183034239,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 4244
    },
    {
      "epoch": 1.0264,
      "grad_norm": 0.023817492941111462,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 4245
    },
    {
      "epoch": 1.0264533333333334,
      "grad_norm": 0.024700992675754836,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 4246
    },
    {
      "epoch": 1.0265066666666667,
      "grad_norm": 0.02258932091016264,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 4247
    },
    {
      "epoch": 1.02656,
      "grad_norm": 0.023189136344470427,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 4248
    },
    {
      "epoch": 1.0266133333333334,
      "grad_norm": 0.025482108281791246,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 4249
    },
    {
      "epoch": 1.0266666666666666,
      "grad_norm": 0.022444208622756475,
      "learning_rate": 0.0001,
      "loss": 1.0457,
      "step": 4250
    },
    {
      "epoch": 1.02672,
      "grad_norm": 0.02395312958551581,
      "learning_rate": 0.0001,
      "loss": 0.8937,
      "step": 4251
    },
    {
      "epoch": 1.0267733333333333,
      "grad_norm": 0.025047043149197097,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 4252
    },
    {
      "epoch": 1.0268266666666666,
      "grad_norm": 0.024540772470668364,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 4253
    },
    {
      "epoch": 1.02688,
      "grad_norm": 0.024210391743783276,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 4254
    },
    {
      "epoch": 1.0269333333333333,
      "grad_norm": 0.026500925885753687,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4255
    },
    {
      "epoch": 1.0269866666666667,
      "grad_norm": 0.025699284347707484,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 4256
    },
    {
      "epoch": 1.02704,
      "grad_norm": 0.02491254462299456,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 4257
    },
    {
      "epoch": 1.0270933333333334,
      "grad_norm": 0.025494990959672805,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 4258
    },
    {
      "epoch": 1.0271466666666667,
      "grad_norm": 0.02677047645596867,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 4259
    },
    {
      "epoch": 1.0272,
      "grad_norm": 0.0228694195959811,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4260
    },
    {
      "epoch": 1.0272533333333334,
      "grad_norm": 0.02467011446118184,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 4261
    },
    {
      "epoch": 1.0273066666666666,
      "grad_norm": 0.023509740813012624,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 4262
    },
    {
      "epoch": 1.02736,
      "grad_norm": 0.0236942917588092,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 4263
    },
    {
      "epoch": 1.0274133333333333,
      "grad_norm": 0.02643805327802295,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 4264
    },
    {
      "epoch": 1.0274666666666668,
      "grad_norm": 0.026363647734668354,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4265
    },
    {
      "epoch": 1.02752,
      "grad_norm": 0.02458946230102932,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4266
    },
    {
      "epoch": 1.0275733333333332,
      "grad_norm": 0.022917276261132907,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 4267
    },
    {
      "epoch": 1.0276266666666667,
      "grad_norm": 0.022764512109325844,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 4268
    },
    {
      "epoch": 1.02768,
      "grad_norm": 0.0253911903715269,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 4269
    },
    {
      "epoch": 1.0277333333333334,
      "grad_norm": 0.025978849899519714,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 4270
    },
    {
      "epoch": 1.0277866666666666,
      "grad_norm": 0.023669500576070084,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 4271
    },
    {
      "epoch": 1.02784,
      "grad_norm": 0.02536997140677609,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4272
    },
    {
      "epoch": 1.0278933333333333,
      "grad_norm": 0.029368914681030072,
      "learning_rate": 0.0001,
      "loss": 0.9395,
      "step": 4273
    },
    {
      "epoch": 1.0279466666666666,
      "grad_norm": 0.02575754226644346,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 4274
    },
    {
      "epoch": 1.028,
      "grad_norm": 0.02566301120318066,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 4275
    },
    {
      "epoch": 1.0280533333333333,
      "grad_norm": 0.027820438785357296,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 4276
    },
    {
      "epoch": 1.0281066666666667,
      "grad_norm": 0.026220877601838923,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 4277
    },
    {
      "epoch": 1.02816,
      "grad_norm": 0.02617707499339664,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 4278
    },
    {
      "epoch": 1.0282133333333334,
      "grad_norm": 0.02878241245412763,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 4279
    },
    {
      "epoch": 1.0282666666666667,
      "grad_norm": 0.025783527859206606,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 4280
    },
    {
      "epoch": 1.02832,
      "grad_norm": 0.025777751046414533,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 4281
    },
    {
      "epoch": 1.0283733333333334,
      "grad_norm": 0.025639495857233675,
      "learning_rate": 0.0001,
      "loss": 1.0272,
      "step": 4282
    },
    {
      "epoch": 1.0284266666666666,
      "grad_norm": 0.02738738279656186,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 4283
    },
    {
      "epoch": 1.02848,
      "grad_norm": 0.026323120954187942,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 4284
    },
    {
      "epoch": 1.0285333333333333,
      "grad_norm": 0.028426308662848874,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 4285
    },
    {
      "epoch": 1.0285866666666668,
      "grad_norm": 0.026593542417480034,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 4286
    },
    {
      "epoch": 1.02864,
      "grad_norm": 0.02524807215116622,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4287
    },
    {
      "epoch": 1.0286933333333332,
      "grad_norm": 0.028335361699683093,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4288
    },
    {
      "epoch": 1.0287466666666667,
      "grad_norm": 0.027583180918601458,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 4289
    },
    {
      "epoch": 1.0288,
      "grad_norm": 0.026026566587630674,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 4290
    },
    {
      "epoch": 1.0288533333333334,
      "grad_norm": 0.025576501420392746,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 4291
    },
    {
      "epoch": 1.0289066666666666,
      "grad_norm": 0.026925961628276047,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 4292
    },
    {
      "epoch": 1.02896,
      "grad_norm": 0.029254960243026016,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4293
    },
    {
      "epoch": 1.0290133333333333,
      "grad_norm": 0.0268116988921987,
      "learning_rate": 0.0001,
      "loss": 0.9059,
      "step": 4294
    },
    {
      "epoch": 1.0290666666666666,
      "grad_norm": 0.027067795729607037,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 4295
    },
    {
      "epoch": 1.02912,
      "grad_norm": 0.026317178572110196,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4296
    },
    {
      "epoch": 1.0291733333333333,
      "grad_norm": 0.026895896496077362,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 4297
    },
    {
      "epoch": 1.0292266666666667,
      "grad_norm": 0.025020189761913756,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 4298
    },
    {
      "epoch": 1.02928,
      "grad_norm": 0.025448591993093708,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 4299
    },
    {
      "epoch": 1.0293333333333334,
      "grad_norm": 0.02567631742769724,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 4300
    },
    {
      "epoch": 1.0293866666666667,
      "grad_norm": 0.024411978842765438,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 4301
    },
    {
      "epoch": 1.02944,
      "grad_norm": 0.02377654433828922,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 4302
    },
    {
      "epoch": 1.0294933333333334,
      "grad_norm": 0.024108862755279806,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 4303
    },
    {
      "epoch": 1.0295466666666666,
      "grad_norm": 0.025463742668227995,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4304
    },
    {
      "epoch": 1.0296,
      "grad_norm": 0.02321989052038827,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 4305
    },
    {
      "epoch": 1.0296533333333333,
      "grad_norm": 0.023776664862300022,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4306
    },
    {
      "epoch": 1.0297066666666668,
      "grad_norm": 0.02344914079716262,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 4307
    },
    {
      "epoch": 1.02976,
      "grad_norm": 0.025229423651016686,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4308
    },
    {
      "epoch": 1.0298133333333332,
      "grad_norm": 0.025456256348178403,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 4309
    },
    {
      "epoch": 1.0298666666666667,
      "grad_norm": 0.025128603417346716,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 4310
    },
    {
      "epoch": 1.02992,
      "grad_norm": 0.026242289675936965,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 4311
    },
    {
      "epoch": 1.0299733333333334,
      "grad_norm": 0.02399052406729695,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 4312
    },
    {
      "epoch": 1.0300266666666666,
      "grad_norm": 0.025982513311280386,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4313
    },
    {
      "epoch": 1.03008,
      "grad_norm": 0.02411895177416584,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 4314
    },
    {
      "epoch": 1.0301333333333333,
      "grad_norm": 0.024923100606675592,
      "learning_rate": 0.0001,
      "loss": 1.0571,
      "step": 4315
    },
    {
      "epoch": 1.0301866666666666,
      "grad_norm": 0.024973431470361115,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 4316
    },
    {
      "epoch": 1.03024,
      "grad_norm": 0.023395798526695103,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4317
    },
    {
      "epoch": 1.0302933333333333,
      "grad_norm": 0.022264920284184406,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 4318
    },
    {
      "epoch": 1.0303466666666667,
      "grad_norm": 0.025568730874433107,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 4319
    },
    {
      "epoch": 1.0304,
      "grad_norm": 0.024048287978844292,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 4320
    },
    {
      "epoch": 1.0304533333333334,
      "grad_norm": 0.02389408744299466,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4321
    },
    {
      "epoch": 1.0305066666666667,
      "grad_norm": 0.024444186986998705,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 4322
    },
    {
      "epoch": 1.03056,
      "grad_norm": 0.0246123745556494,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 4323
    },
    {
      "epoch": 1.0306133333333334,
      "grad_norm": 0.02567902852490298,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 4324
    },
    {
      "epoch": 1.0306666666666666,
      "grad_norm": 0.022670618974959617,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4325
    },
    {
      "epoch": 1.03072,
      "grad_norm": 0.02720792095462256,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 4326
    },
    {
      "epoch": 1.0307733333333333,
      "grad_norm": 0.026527306967050735,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 4327
    },
    {
      "epoch": 1.0308266666666666,
      "grad_norm": 0.026399010240317766,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 4328
    },
    {
      "epoch": 1.03088,
      "grad_norm": 0.02607285711339187,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 4329
    },
    {
      "epoch": 1.0309333333333333,
      "grad_norm": 0.024319620784189835,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "step": 4330
    },
    {
      "epoch": 1.0309866666666667,
      "grad_norm": 0.03120793890497213,
      "learning_rate": 0.0001,
      "loss": 1.0297,
      "step": 4331
    },
    {
      "epoch": 1.03104,
      "grad_norm": 0.024867933106001095,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 4332
    },
    {
      "epoch": 1.0310933333333334,
      "grad_norm": 0.029699794311045774,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 4333
    },
    {
      "epoch": 1.0311466666666667,
      "grad_norm": 0.024974075195886382,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 4334
    },
    {
      "epoch": 1.0312,
      "grad_norm": 0.025947215881945374,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4335
    },
    {
      "epoch": 1.0312533333333334,
      "grad_norm": 0.024864597663456292,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 4336
    },
    {
      "epoch": 1.0313066666666666,
      "grad_norm": 0.02599251211695308,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 4337
    },
    {
      "epoch": 1.03136,
      "grad_norm": 0.026387564099077946,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4338
    },
    {
      "epoch": 1.0314133333333333,
      "grad_norm": 0.023118325636099984,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 4339
    },
    {
      "epoch": 1.0314666666666668,
      "grad_norm": 0.029289524021950678,
      "learning_rate": 0.0001,
      "loss": 1.0345,
      "step": 4340
    },
    {
      "epoch": 1.03152,
      "grad_norm": 0.024628058818613775,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 4341
    },
    {
      "epoch": 1.0315733333333332,
      "grad_norm": 0.023918913275264474,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4342
    },
    {
      "epoch": 1.0316266666666667,
      "grad_norm": 0.024016165892047164,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 4343
    },
    {
      "epoch": 1.03168,
      "grad_norm": 0.024874708892190175,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 4344
    },
    {
      "epoch": 1.0317333333333334,
      "grad_norm": 0.025756089413754617,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 4345
    },
    {
      "epoch": 1.0317866666666666,
      "grad_norm": 0.02739419143286228,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 4346
    },
    {
      "epoch": 1.03184,
      "grad_norm": 0.02550908599923386,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 4347
    },
    {
      "epoch": 1.0318933333333333,
      "grad_norm": 0.024175868408284566,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 4348
    },
    {
      "epoch": 1.0319466666666666,
      "grad_norm": 0.025480675286379352,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 4349
    },
    {
      "epoch": 1.032,
      "grad_norm": 0.03042768661310683,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 4350
    },
    {
      "epoch": 1.0320533333333333,
      "grad_norm": 0.027414447490000722,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 4351
    },
    {
      "epoch": 1.0321066666666667,
      "grad_norm": 0.02415670855053957,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4352
    },
    {
      "epoch": 1.03216,
      "grad_norm": 0.02394215615722101,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 4353
    },
    {
      "epoch": 1.0322133333333334,
      "grad_norm": 0.024373744392058975,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4354
    },
    {
      "epoch": 1.0322666666666667,
      "grad_norm": 0.023928272493046434,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 4355
    },
    {
      "epoch": 1.03232,
      "grad_norm": 0.02494705803990358,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 4356
    },
    {
      "epoch": 1.0323733333333334,
      "grad_norm": 0.024775685601080556,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 4357
    },
    {
      "epoch": 1.0324266666666666,
      "grad_norm": 0.026350505294905728,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 4358
    },
    {
      "epoch": 1.03248,
      "grad_norm": 0.024342431861324797,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4359
    },
    {
      "epoch": 1.0325333333333333,
      "grad_norm": 0.025861767045243466,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 4360
    },
    {
      "epoch": 1.0325866666666668,
      "grad_norm": 0.02542389993367001,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4361
    },
    {
      "epoch": 1.03264,
      "grad_norm": 0.0254856966498487,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4362
    },
    {
      "epoch": 1.0326933333333332,
      "grad_norm": 0.024961515761701414,
      "learning_rate": 0.0001,
      "loss": 1.0979,
      "step": 4363
    },
    {
      "epoch": 1.0327466666666667,
      "grad_norm": 0.02408427021790226,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 4364
    },
    {
      "epoch": 1.0328,
      "grad_norm": 0.02604187145292836,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4365
    },
    {
      "epoch": 1.0328533333333334,
      "grad_norm": 0.025536238711197246,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 4366
    },
    {
      "epoch": 1.0329066666666666,
      "grad_norm": 0.025052212850444885,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 4367
    },
    {
      "epoch": 1.03296,
      "grad_norm": 0.025049713283329163,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 4368
    },
    {
      "epoch": 1.0330133333333333,
      "grad_norm": 0.025583061501768364,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 4369
    },
    {
      "epoch": 1.0330666666666666,
      "grad_norm": 0.025446083855381187,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 4370
    },
    {
      "epoch": 1.03312,
      "grad_norm": 0.027154509040958185,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 4371
    },
    {
      "epoch": 1.0331733333333333,
      "grad_norm": 0.026169098415782403,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 4372
    },
    {
      "epoch": 1.0332266666666667,
      "grad_norm": 0.02448927409727445,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 4373
    },
    {
      "epoch": 1.03328,
      "grad_norm": 0.024224463171966883,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4374
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.022864155479363917,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 4375
    },
    {
      "epoch": 1.0333866666666667,
      "grad_norm": 0.024570795695502766,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 4376
    },
    {
      "epoch": 1.03344,
      "grad_norm": 0.023470169794178562,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 4377
    },
    {
      "epoch": 1.0334933333333334,
      "grad_norm": 0.02421188030212079,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 4378
    },
    {
      "epoch": 1.0335466666666666,
      "grad_norm": 0.024810686093180826,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 4379
    },
    {
      "epoch": 1.0336,
      "grad_norm": 0.023861613388549138,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 4380
    },
    {
      "epoch": 1.0336533333333333,
      "grad_norm": 0.025491489683430218,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 4381
    },
    {
      "epoch": 1.0337066666666668,
      "grad_norm": 0.025993701394744727,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 4382
    },
    {
      "epoch": 1.03376,
      "grad_norm": 0.028484331654828977,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4383
    },
    {
      "epoch": 1.0338133333333333,
      "grad_norm": 0.02575526118439295,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 4384
    },
    {
      "epoch": 1.0338666666666667,
      "grad_norm": 0.02464909841573038,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 4385
    },
    {
      "epoch": 1.03392,
      "grad_norm": 0.027648024537842472,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4386
    },
    {
      "epoch": 1.0339733333333334,
      "grad_norm": 0.02465296509018974,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 4387
    },
    {
      "epoch": 1.0340266666666666,
      "grad_norm": 0.02327347911343244,
      "learning_rate": 0.0001,
      "loss": 1.0396,
      "step": 4388
    },
    {
      "epoch": 1.0340799999999999,
      "grad_norm": 0.025094085935789507,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 4389
    },
    {
      "epoch": 1.0341333333333333,
      "grad_norm": 0.022611752861814643,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 4390
    },
    {
      "epoch": 1.0341866666666666,
      "grad_norm": 0.024234671436660374,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 4391
    },
    {
      "epoch": 1.03424,
      "grad_norm": 0.026565131905770013,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 4392
    },
    {
      "epoch": 1.0342933333333333,
      "grad_norm": 0.024886736108678517,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 4393
    },
    {
      "epoch": 1.0343466666666667,
      "grad_norm": 0.022436182394740323,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 4394
    },
    {
      "epoch": 1.0344,
      "grad_norm": 0.024456048953384407,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 4395
    },
    {
      "epoch": 1.0344533333333334,
      "grad_norm": 0.025697543185784523,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 4396
    },
    {
      "epoch": 1.0345066666666667,
      "grad_norm": 0.026508310036915467,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4397
    },
    {
      "epoch": 1.03456,
      "grad_norm": 0.023465710991408192,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4398
    },
    {
      "epoch": 1.0346133333333334,
      "grad_norm": 0.025845382036942893,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 4399
    },
    {
      "epoch": 1.0346666666666666,
      "grad_norm": 0.023304480038983468,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 4400
    },
    {
      "epoch": 1.0346666666666666,
      "eval_accuracy": 0.6166564741523967,
      "eval_loss": 1.3741999864578247,
      "eval_runtime": 62.299,
      "eval_samples_per_second": 16.052,
      "eval_steps_per_second": 0.514,
      "step": 4400
    },
    {
      "epoch": 1.03472,
      "grad_norm": 0.027116480772113826,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 4401
    },
    {
      "epoch": 1.0347733333333333,
      "grad_norm": 0.02401692387355954,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 4402
    },
    {
      "epoch": 1.0348266666666666,
      "grad_norm": 0.025800299630515323,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 4403
    },
    {
      "epoch": 1.03488,
      "grad_norm": 0.027287051463186805,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 4404
    },
    {
      "epoch": 1.0349333333333333,
      "grad_norm": 0.023910189765620996,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 4405
    },
    {
      "epoch": 1.0349866666666667,
      "grad_norm": 0.027022402361306323,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 4406
    },
    {
      "epoch": 1.03504,
      "grad_norm": 0.02632668916401222,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 4407
    },
    {
      "epoch": 1.0350933333333334,
      "grad_norm": 0.02276799220710144,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "step": 4408
    },
    {
      "epoch": 1.0351466666666667,
      "grad_norm": 0.025844124098613974,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 4409
    },
    {
      "epoch": 1.0352,
      "grad_norm": 0.02380432568556784,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 4410
    },
    {
      "epoch": 1.0352533333333334,
      "grad_norm": 0.025276555802474995,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4411
    },
    {
      "epoch": 1.0353066666666666,
      "grad_norm": 0.026404769700472577,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 4412
    },
    {
      "epoch": 1.03536,
      "grad_norm": 0.02636272118449618,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 4413
    },
    {
      "epoch": 1.0354133333333333,
      "grad_norm": 0.02544410829690844,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 4414
    },
    {
      "epoch": 1.0354666666666668,
      "grad_norm": 0.0238391877976126,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 4415
    },
    {
      "epoch": 1.03552,
      "grad_norm": 0.027974711173806815,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 4416
    },
    {
      "epoch": 1.0355733333333332,
      "grad_norm": 0.0270989837347207,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 4417
    },
    {
      "epoch": 1.0356266666666667,
      "grad_norm": 0.02555008918054024,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 4418
    },
    {
      "epoch": 1.03568,
      "grad_norm": 0.025744912568249952,
      "learning_rate": 0.0001,
      "loss": 1.0412,
      "step": 4419
    },
    {
      "epoch": 1.0357333333333334,
      "grad_norm": 0.025425896519866095,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 4420
    },
    {
      "epoch": 1.0357866666666666,
      "grad_norm": 0.023162149685641748,
      "learning_rate": 0.0001,
      "loss": 0.9136,
      "step": 4421
    },
    {
      "epoch": 1.03584,
      "grad_norm": 0.026213839644814885,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 4422
    },
    {
      "epoch": 1.0358933333333333,
      "grad_norm": 0.024066356112987648,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 4423
    },
    {
      "epoch": 1.0359466666666666,
      "grad_norm": 0.02347285057489438,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 4424
    },
    {
      "epoch": 1.036,
      "grad_norm": 0.023313961231884485,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4425
    },
    {
      "epoch": 1.0360533333333333,
      "grad_norm": 0.024123586953697915,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4426
    },
    {
      "epoch": 1.0361066666666667,
      "grad_norm": 0.024735930442330613,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 4427
    },
    {
      "epoch": 1.03616,
      "grad_norm": 0.024990214156672012,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 4428
    },
    {
      "epoch": 1.0362133333333334,
      "grad_norm": 0.02577260111469301,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 4429
    },
    {
      "epoch": 1.0362666666666667,
      "grad_norm": 0.02532575443472955,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4430
    },
    {
      "epoch": 1.03632,
      "grad_norm": 0.023122510409245314,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 4431
    },
    {
      "epoch": 1.0363733333333334,
      "grad_norm": 0.024866071017654767,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 4432
    },
    {
      "epoch": 1.0364266666666666,
      "grad_norm": 0.023101538386004993,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 4433
    },
    {
      "epoch": 1.03648,
      "grad_norm": 0.024213214148099422,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 4434
    },
    {
      "epoch": 1.0365333333333333,
      "grad_norm": 0.023955866136895963,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4435
    },
    {
      "epoch": 1.0365866666666668,
      "grad_norm": 0.02691565641191495,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 4436
    },
    {
      "epoch": 1.03664,
      "grad_norm": 0.024125860642450623,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 4437
    },
    {
      "epoch": 1.0366933333333332,
      "grad_norm": 0.025236960092368057,
      "learning_rate": 0.0001,
      "loss": 1.0522,
      "step": 4438
    },
    {
      "epoch": 1.0367466666666667,
      "grad_norm": 0.024072237589028746,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 4439
    },
    {
      "epoch": 1.0368,
      "grad_norm": 0.02408611059289758,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 4440
    },
    {
      "epoch": 1.0368533333333334,
      "grad_norm": 0.024075662883812056,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 4441
    },
    {
      "epoch": 1.0369066666666666,
      "grad_norm": 0.027080702287202923,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 4442
    },
    {
      "epoch": 1.03696,
      "grad_norm": 0.023619155522881435,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 4443
    },
    {
      "epoch": 1.0370133333333333,
      "grad_norm": 0.023587880284994416,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 4444
    },
    {
      "epoch": 1.0370666666666666,
      "grad_norm": 0.025067367082562565,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4445
    },
    {
      "epoch": 1.03712,
      "grad_norm": 0.02817739406678738,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4446
    },
    {
      "epoch": 1.0371733333333333,
      "grad_norm": 0.024489101589444576,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4447
    },
    {
      "epoch": 1.0372266666666667,
      "grad_norm": 0.024294513424600834,
      "learning_rate": 0.0001,
      "loss": 0.91,
      "step": 4448
    },
    {
      "epoch": 1.03728,
      "grad_norm": 0.02478770222471264,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4449
    },
    {
      "epoch": 1.0373333333333334,
      "grad_norm": 0.024451154059373606,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 4450
    },
    {
      "epoch": 1.0373866666666667,
      "grad_norm": 0.02420203351117213,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 4451
    },
    {
      "epoch": 1.03744,
      "grad_norm": 0.025282594045943366,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 4452
    },
    {
      "epoch": 1.0374933333333334,
      "grad_norm": 0.02489921646500652,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 4453
    },
    {
      "epoch": 1.0375466666666666,
      "grad_norm": 0.02480739654250344,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 4454
    },
    {
      "epoch": 1.0376,
      "grad_norm": 0.025569647172893846,
      "learning_rate": 0.0001,
      "loss": 0.9315,
      "step": 4455
    },
    {
      "epoch": 1.0376533333333333,
      "grad_norm": 0.02663170866217121,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 4456
    },
    {
      "epoch": 1.0377066666666668,
      "grad_norm": 0.023481199862477337,
      "learning_rate": 0.0001,
      "loss": 1.0326,
      "step": 4457
    },
    {
      "epoch": 1.03776,
      "grad_norm": 0.025786338837010897,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4458
    },
    {
      "epoch": 1.0378133333333333,
      "grad_norm": 0.025144151538960515,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 4459
    },
    {
      "epoch": 1.0378666666666667,
      "grad_norm": 0.024965583324808104,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 4460
    },
    {
      "epoch": 1.03792,
      "grad_norm": 0.023492374751200515,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 4461
    },
    {
      "epoch": 1.0379733333333334,
      "grad_norm": 0.023979212888402865,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 4462
    },
    {
      "epoch": 1.0380266666666667,
      "grad_norm": 0.026591357140337956,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4463
    },
    {
      "epoch": 1.03808,
      "grad_norm": 0.02607645364605039,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 4464
    },
    {
      "epoch": 1.0381333333333334,
      "grad_norm": 0.02444469568987499,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 4465
    },
    {
      "epoch": 1.0381866666666666,
      "grad_norm": 0.025245895101101236,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 4466
    },
    {
      "epoch": 1.03824,
      "grad_norm": 0.024939180907881185,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4467
    },
    {
      "epoch": 1.0382933333333333,
      "grad_norm": 0.025966268075698757,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 4468
    },
    {
      "epoch": 1.0383466666666668,
      "grad_norm": 0.024337117024424947,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4469
    },
    {
      "epoch": 1.0384,
      "grad_norm": 0.024475508927404112,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 4470
    },
    {
      "epoch": 1.0384533333333332,
      "grad_norm": 0.02614709205103336,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 4471
    },
    {
      "epoch": 1.0385066666666667,
      "grad_norm": 0.02426120113071668,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4472
    },
    {
      "epoch": 1.03856,
      "grad_norm": 0.026300878063701526,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 4473
    },
    {
      "epoch": 1.0386133333333334,
      "grad_norm": 0.025247763767449447,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 4474
    },
    {
      "epoch": 1.0386666666666666,
      "grad_norm": 0.02278396203942889,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 4475
    },
    {
      "epoch": 1.03872,
      "grad_norm": 0.024630879624903696,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 4476
    },
    {
      "epoch": 1.0387733333333333,
      "grad_norm": 0.024963410048783084,
      "learning_rate": 0.0001,
      "loss": 0.9013,
      "step": 4477
    },
    {
      "epoch": 1.0388266666666666,
      "grad_norm": 0.023901081271432742,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 4478
    },
    {
      "epoch": 1.03888,
      "grad_norm": 0.025340266619465476,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 4479
    },
    {
      "epoch": 1.0389333333333333,
      "grad_norm": 0.0245353356806933,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 4480
    },
    {
      "epoch": 1.0389866666666667,
      "grad_norm": 0.03905487242881286,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4481
    },
    {
      "epoch": 1.03904,
      "grad_norm": 0.027193343506409746,
      "learning_rate": 0.0001,
      "loss": 1.0565,
      "step": 4482
    },
    {
      "epoch": 1.0390933333333334,
      "grad_norm": 0.027272960212350327,
      "learning_rate": 0.0001,
      "loss": 0.9064,
      "step": 4483
    },
    {
      "epoch": 1.0391466666666667,
      "grad_norm": 0.0228718200696725,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4484
    },
    {
      "epoch": 1.0392,
      "grad_norm": 0.02683101721383208,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4485
    },
    {
      "epoch": 1.0392533333333334,
      "grad_norm": 0.023974053110856403,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 4486
    },
    {
      "epoch": 1.0393066666666666,
      "grad_norm": 0.02550482353459311,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4487
    },
    {
      "epoch": 1.03936,
      "grad_norm": 0.027987214724039724,
      "learning_rate": 0.0001,
      "loss": 1.0355,
      "step": 4488
    },
    {
      "epoch": 1.0394133333333333,
      "grad_norm": 0.02400081727067451,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 4489
    },
    {
      "epoch": 1.0394666666666668,
      "grad_norm": 0.027156578774371193,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 4490
    },
    {
      "epoch": 1.03952,
      "grad_norm": 0.02437435696510714,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 4491
    },
    {
      "epoch": 1.0395733333333332,
      "grad_norm": 0.024651744631625203,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 4492
    },
    {
      "epoch": 1.0396266666666667,
      "grad_norm": 0.025072490297579606,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 4493
    },
    {
      "epoch": 1.03968,
      "grad_norm": 0.025607110050825013,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 4494
    },
    {
      "epoch": 1.0397333333333334,
      "grad_norm": 0.027109865722087973,
      "learning_rate": 0.0001,
      "loss": 0.933,
      "step": 4495
    },
    {
      "epoch": 1.0397866666666666,
      "grad_norm": 0.02360725268976757,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 4496
    },
    {
      "epoch": 1.03984,
      "grad_norm": 0.02819133325988624,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 4497
    },
    {
      "epoch": 1.0398933333333333,
      "grad_norm": 0.024789812463013927,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 4498
    },
    {
      "epoch": 1.0399466666666666,
      "grad_norm": 0.024464652674272957,
      "learning_rate": 0.0001,
      "loss": 1.0492,
      "step": 4499
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.02596819314543035,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 4500
    },
    {
      "epoch": 1.0400533333333333,
      "grad_norm": 0.024790172482480638,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4501
    },
    {
      "epoch": 1.0401066666666667,
      "grad_norm": 0.026010801235574057,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 4502
    },
    {
      "epoch": 1.04016,
      "grad_norm": 0.02582622327731876,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4503
    },
    {
      "epoch": 1.0402133333333334,
      "grad_norm": 0.026765130068596193,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4504
    },
    {
      "epoch": 1.0402666666666667,
      "grad_norm": 0.025088402752272365,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 4505
    },
    {
      "epoch": 1.04032,
      "grad_norm": 0.027724809343285507,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 4506
    },
    {
      "epoch": 1.0403733333333334,
      "grad_norm": 0.025271051755231574,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 4507
    },
    {
      "epoch": 1.0404266666666666,
      "grad_norm": 0.023736336411044747,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 4508
    },
    {
      "epoch": 1.04048,
      "grad_norm": 0.025632362303793968,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 4509
    },
    {
      "epoch": 1.0405333333333333,
      "grad_norm": 0.028446325731549798,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 4510
    },
    {
      "epoch": 1.0405866666666668,
      "grad_norm": 0.023979329003568743,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 4511
    },
    {
      "epoch": 1.04064,
      "grad_norm": 0.023886036428375744,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 4512
    },
    {
      "epoch": 1.0406933333333332,
      "grad_norm": 0.02451916390541396,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 4513
    },
    {
      "epoch": 1.0407466666666667,
      "grad_norm": 0.025049500326144544,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4514
    },
    {
      "epoch": 1.0408,
      "grad_norm": 0.0235203574431286,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 4515
    },
    {
      "epoch": 1.0408533333333334,
      "grad_norm": 0.023897460277742078,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 4516
    },
    {
      "epoch": 1.0409066666666666,
      "grad_norm": 0.023694076091394733,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 4517
    },
    {
      "epoch": 1.04096,
      "grad_norm": 0.023340033290487863,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 4518
    },
    {
      "epoch": 1.0410133333333333,
      "grad_norm": 0.02534117624844101,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4519
    },
    {
      "epoch": 1.0410666666666666,
      "grad_norm": 0.024055934364912848,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 4520
    },
    {
      "epoch": 1.04112,
      "grad_norm": 0.023858028423329024,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4521
    },
    {
      "epoch": 1.0411733333333333,
      "grad_norm": 0.023704208975235917,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 4522
    },
    {
      "epoch": 1.0412266666666667,
      "grad_norm": 0.023070841363613166,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 4523
    },
    {
      "epoch": 1.04128,
      "grad_norm": 0.02406657765301327,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 4524
    },
    {
      "epoch": 1.0413333333333332,
      "grad_norm": 0.02679264341009875,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 4525
    },
    {
      "epoch": 1.0413866666666667,
      "grad_norm": 0.026888432968897626,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 4526
    },
    {
      "epoch": 1.04144,
      "grad_norm": 0.024123607871148648,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4527
    },
    {
      "epoch": 1.0414933333333334,
      "grad_norm": 0.023566369461423764,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 4528
    },
    {
      "epoch": 1.0415466666666666,
      "grad_norm": 0.0239291037045171,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4529
    },
    {
      "epoch": 1.0416,
      "grad_norm": 0.02657468649716144,
      "learning_rate": 0.0001,
      "loss": 1.0369,
      "step": 4530
    },
    {
      "epoch": 1.0416533333333333,
      "grad_norm": 0.023984798780702365,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 4531
    },
    {
      "epoch": 1.0417066666666668,
      "grad_norm": 0.025571757980399394,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 4532
    },
    {
      "epoch": 1.04176,
      "grad_norm": 0.024319106908739677,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 4533
    },
    {
      "epoch": 1.0418133333333333,
      "grad_norm": 0.025544295945672462,
      "learning_rate": 0.0001,
      "loss": 1.0401,
      "step": 4534
    },
    {
      "epoch": 1.0418666666666667,
      "grad_norm": 0.024764598668316283,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 4535
    },
    {
      "epoch": 1.04192,
      "grad_norm": 0.024949071258798763,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 4536
    },
    {
      "epoch": 1.0419733333333334,
      "grad_norm": 0.025195932687757133,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 4537
    },
    {
      "epoch": 1.0420266666666667,
      "grad_norm": 0.023269465957548578,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 4538
    },
    {
      "epoch": 1.04208,
      "grad_norm": 0.024410308204329212,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 4539
    },
    {
      "epoch": 1.0421333333333334,
      "grad_norm": 0.02486814927121173,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 4540
    },
    {
      "epoch": 1.0421866666666666,
      "grad_norm": 0.023447112431081666,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 4541
    },
    {
      "epoch": 1.04224,
      "grad_norm": 0.024101005980671768,
      "learning_rate": 0.0001,
      "loss": 0.9285,
      "step": 4542
    },
    {
      "epoch": 1.0422933333333333,
      "grad_norm": 0.02531607311717079,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 4543
    },
    {
      "epoch": 1.0423466666666668,
      "grad_norm": 0.023747713270462767,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4544
    },
    {
      "epoch": 1.0424,
      "grad_norm": 0.025165212436178128,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 4545
    },
    {
      "epoch": 1.0424533333333332,
      "grad_norm": 0.02635156888408271,
      "learning_rate": 0.0001,
      "loss": 1.0079,
      "step": 4546
    },
    {
      "epoch": 1.0425066666666667,
      "grad_norm": 0.028349284518643388,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 4547
    },
    {
      "epoch": 1.04256,
      "grad_norm": 0.02270046618575519,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 4548
    },
    {
      "epoch": 1.0426133333333334,
      "grad_norm": 0.028260368627069748,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4549
    },
    {
      "epoch": 1.0426666666666666,
      "grad_norm": 0.024667387831793744,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 4550
    },
    {
      "epoch": 1.04272,
      "grad_norm": 0.02788057728319677,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 4551
    },
    {
      "epoch": 1.0427733333333333,
      "grad_norm": 0.025483996445298418,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 4552
    },
    {
      "epoch": 1.0428266666666666,
      "grad_norm": 0.02475064356816004,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 4553
    },
    {
      "epoch": 1.04288,
      "grad_norm": 0.027401259418959344,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 4554
    },
    {
      "epoch": 1.0429333333333333,
      "grad_norm": 0.026621269842579138,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 4555
    },
    {
      "epoch": 1.0429866666666667,
      "grad_norm": 0.02458399136076081,
      "learning_rate": 0.0001,
      "loss": 0.9976,
      "step": 4556
    },
    {
      "epoch": 1.04304,
      "grad_norm": 0.026338745537164938,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4557
    },
    {
      "epoch": 1.0430933333333334,
      "grad_norm": 0.025430109834033265,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 4558
    },
    {
      "epoch": 1.0431466666666667,
      "grad_norm": 0.025255403879022024,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 4559
    },
    {
      "epoch": 1.0432,
      "grad_norm": 0.025233842263503926,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 4560
    },
    {
      "epoch": 1.0432533333333334,
      "grad_norm": 0.024876465122339098,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 4561
    },
    {
      "epoch": 1.0433066666666666,
      "grad_norm": 0.024806039930383817,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 4562
    },
    {
      "epoch": 1.04336,
      "grad_norm": 0.023970132923629837,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 4563
    },
    {
      "epoch": 1.0434133333333333,
      "grad_norm": 0.024500205477346347,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 4564
    },
    {
      "epoch": 1.0434666666666668,
      "grad_norm": 0.024669780015740963,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 4565
    },
    {
      "epoch": 1.04352,
      "grad_norm": 0.024557306490017708,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 4566
    },
    {
      "epoch": 1.0435733333333332,
      "grad_norm": 0.024950259749004958,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 4567
    },
    {
      "epoch": 1.0436266666666667,
      "grad_norm": 0.025268703090243747,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 4568
    },
    {
      "epoch": 1.04368,
      "grad_norm": 0.0247990589789008,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 4569
    },
    {
      "epoch": 1.0437333333333334,
      "grad_norm": 0.02386040926587902,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 4570
    },
    {
      "epoch": 1.0437866666666666,
      "grad_norm": 0.026379063633156043,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 4571
    },
    {
      "epoch": 1.04384,
      "grad_norm": 0.026545742960822745,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 4572
    },
    {
      "epoch": 1.0438933333333333,
      "grad_norm": 0.026218497734636984,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 4573
    },
    {
      "epoch": 1.0439466666666666,
      "grad_norm": 0.025264386993253708,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 4574
    },
    {
      "epoch": 1.044,
      "grad_norm": 0.023620734562074742,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 4575
    },
    {
      "epoch": 1.0440533333333333,
      "grad_norm": 0.024871791237559334,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 4576
    },
    {
      "epoch": 1.0441066666666667,
      "grad_norm": 0.025300138262202954,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4577
    },
    {
      "epoch": 1.04416,
      "grad_norm": 0.024304350063144003,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 4578
    },
    {
      "epoch": 1.0442133333333334,
      "grad_norm": 0.02620528203138692,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 4579
    },
    {
      "epoch": 1.0442666666666667,
      "grad_norm": 0.025090013818155617,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 4580
    },
    {
      "epoch": 1.04432,
      "grad_norm": 0.022617785374904793,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4581
    },
    {
      "epoch": 1.0443733333333334,
      "grad_norm": 0.024596435654643985,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 4582
    },
    {
      "epoch": 1.0444266666666666,
      "grad_norm": 0.024245083502844034,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 4583
    },
    {
      "epoch": 1.04448,
      "grad_norm": 0.024484664085861235,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 4584
    },
    {
      "epoch": 1.0445333333333333,
      "grad_norm": 0.024633959458881256,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 4585
    },
    {
      "epoch": 1.0445866666666666,
      "grad_norm": 0.024255926370469263,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 4586
    },
    {
      "epoch": 1.04464,
      "grad_norm": 0.023663578414773977,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 4587
    },
    {
      "epoch": 1.0446933333333333,
      "grad_norm": 0.02391667239138612,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 4588
    },
    {
      "epoch": 1.0447466666666667,
      "grad_norm": 0.02553877713252693,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 4589
    },
    {
      "epoch": 1.0448,
      "grad_norm": 0.026338493283970737,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 4590
    },
    {
      "epoch": 1.0448533333333334,
      "grad_norm": 0.02440962132157381,
      "learning_rate": 0.0001,
      "loss": 1.0262,
      "step": 4591
    },
    {
      "epoch": 1.0449066666666667,
      "grad_norm": 0.024677437151617333,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 4592
    },
    {
      "epoch": 1.04496,
      "grad_norm": 0.02347156646884193,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 4593
    },
    {
      "epoch": 1.0450133333333333,
      "grad_norm": 0.025245762371635193,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 4594
    },
    {
      "epoch": 1.0450666666666666,
      "grad_norm": 0.02465998230513875,
      "learning_rate": 0.0001,
      "loss": 1.0205,
      "step": 4595
    },
    {
      "epoch": 1.04512,
      "grad_norm": 0.027332140462820446,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 4596
    },
    {
      "epoch": 1.0451733333333333,
      "grad_norm": 0.024268685581193893,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 4597
    },
    {
      "epoch": 1.0452266666666667,
      "grad_norm": 0.024051700629198394,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 4598
    },
    {
      "epoch": 1.04528,
      "grad_norm": 0.024203817562597943,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 4599
    },
    {
      "epoch": 1.0453333333333332,
      "grad_norm": 0.022789101415309543,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 4600
    },
    {
      "epoch": 1.0453333333333332,
      "eval_accuracy": 0.6168919761173935,
      "eval_loss": 1.3724803924560547,
      "eval_runtime": 62.4718,
      "eval_samples_per_second": 16.007,
      "eval_steps_per_second": 0.512,
      "step": 4600
    },
    {
      "epoch": 1.0453866666666667,
      "grad_norm": 0.025426405280464047,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 4601
    },
    {
      "epoch": 1.04544,
      "grad_norm": 0.023430924704057603,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 4602
    },
    {
      "epoch": 1.0454933333333334,
      "grad_norm": 0.022816565210101863,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4603
    },
    {
      "epoch": 1.0455466666666666,
      "grad_norm": 0.02465880437511415,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 4604
    },
    {
      "epoch": 1.0456,
      "grad_norm": 0.02456890885510141,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4605
    },
    {
      "epoch": 1.0456533333333333,
      "grad_norm": 0.023385175068900907,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 4606
    },
    {
      "epoch": 1.0457066666666666,
      "grad_norm": 0.026229503702818267,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 4607
    },
    {
      "epoch": 1.04576,
      "grad_norm": 0.026767626769473477,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4608
    },
    {
      "epoch": 1.0458133333333333,
      "grad_norm": 0.025512086967688287,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 4609
    },
    {
      "epoch": 1.0458666666666667,
      "grad_norm": 0.026087742054467556,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 4610
    },
    {
      "epoch": 1.04592,
      "grad_norm": 0.022996540436250233,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 4611
    },
    {
      "epoch": 1.0459733333333334,
      "grad_norm": 0.024527010675760127,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4612
    },
    {
      "epoch": 1.0460266666666667,
      "grad_norm": 0.024438653360109676,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 4613
    },
    {
      "epoch": 1.04608,
      "grad_norm": 0.02831404890155385,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4614
    },
    {
      "epoch": 1.0461333333333334,
      "grad_norm": 0.02728298868478119,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 4615
    },
    {
      "epoch": 1.0461866666666666,
      "grad_norm": 0.02387853321245983,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 4616
    },
    {
      "epoch": 1.04624,
      "grad_norm": 0.024428413180684085,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4617
    },
    {
      "epoch": 1.0462933333333333,
      "grad_norm": 0.02474849073011206,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 4618
    },
    {
      "epoch": 1.0463466666666668,
      "grad_norm": 0.02442382011533083,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 4619
    },
    {
      "epoch": 1.0464,
      "grad_norm": 0.024995037357289817,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 4620
    },
    {
      "epoch": 1.0464533333333332,
      "grad_norm": 0.024898148606462254,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 4621
    },
    {
      "epoch": 1.0465066666666667,
      "grad_norm": 0.023587918492046295,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4622
    },
    {
      "epoch": 1.04656,
      "grad_norm": 0.02492636059938225,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 4623
    },
    {
      "epoch": 1.0466133333333334,
      "grad_norm": 0.025238711538063462,
      "learning_rate": 0.0001,
      "loss": 0.929,
      "step": 4624
    },
    {
      "epoch": 1.0466666666666666,
      "grad_norm": 0.023994586375122185,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 4625
    },
    {
      "epoch": 1.04672,
      "grad_norm": 0.025132529345868574,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 4626
    },
    {
      "epoch": 1.0467733333333333,
      "grad_norm": 0.02814688002081715,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 4627
    },
    {
      "epoch": 1.0468266666666666,
      "grad_norm": 0.025783114961229977,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 4628
    },
    {
      "epoch": 1.04688,
      "grad_norm": 0.024277570726444632,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 4629
    },
    {
      "epoch": 1.0469333333333333,
      "grad_norm": 0.025274461360368653,
      "learning_rate": 0.0001,
      "loss": 1.0391,
      "step": 4630
    },
    {
      "epoch": 1.0469866666666667,
      "grad_norm": 0.025831444594482784,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 4631
    },
    {
      "epoch": 1.04704,
      "grad_norm": 0.02296292661328548,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 4632
    },
    {
      "epoch": 1.0470933333333334,
      "grad_norm": 0.025490667533507563,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 4633
    },
    {
      "epoch": 1.0471466666666667,
      "grad_norm": 0.0260676690272804,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 4634
    },
    {
      "epoch": 1.0472,
      "grad_norm": 0.024536959760065764,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 4635
    },
    {
      "epoch": 1.0472533333333334,
      "grad_norm": 0.025145931046813667,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 4636
    },
    {
      "epoch": 1.0473066666666666,
      "grad_norm": 0.023973236751558248,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 4637
    },
    {
      "epoch": 1.04736,
      "grad_norm": 0.024187041045529677,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 4638
    },
    {
      "epoch": 1.0474133333333333,
      "grad_norm": 0.024299650222289183,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 4639
    },
    {
      "epoch": 1.0474666666666668,
      "grad_norm": 0.024286477514761214,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 4640
    },
    {
      "epoch": 1.04752,
      "grad_norm": 0.025598246557793202,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 4641
    },
    {
      "epoch": 1.0475733333333332,
      "grad_norm": 0.023133879623416283,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 4642
    },
    {
      "epoch": 1.0476266666666667,
      "grad_norm": 0.02413981692828351,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4643
    },
    {
      "epoch": 1.04768,
      "grad_norm": 0.02572896873505987,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 4644
    },
    {
      "epoch": 1.0477333333333334,
      "grad_norm": 0.024957456118566177,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 4645
    },
    {
      "epoch": 1.0477866666666666,
      "grad_norm": 0.025207633268940863,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4646
    },
    {
      "epoch": 1.04784,
      "grad_norm": 0.024105884566740066,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 4647
    },
    {
      "epoch": 1.0478933333333333,
      "grad_norm": 0.025381432148465062,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4648
    },
    {
      "epoch": 1.0479466666666666,
      "grad_norm": 0.02397292227056436,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 4649
    },
    {
      "epoch": 1.048,
      "grad_norm": 0.023355107756818844,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 4650
    },
    {
      "epoch": 1.0480533333333333,
      "grad_norm": 0.026222554466286043,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 4651
    },
    {
      "epoch": 1.0481066666666667,
      "grad_norm": 0.0248556311050615,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 4652
    },
    {
      "epoch": 1.04816,
      "grad_norm": 0.023490318614393917,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 4653
    },
    {
      "epoch": 1.0482133333333334,
      "grad_norm": 0.02522146180436512,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 4654
    },
    {
      "epoch": 1.0482666666666667,
      "grad_norm": 0.02433549936339459,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 4655
    },
    {
      "epoch": 1.04832,
      "grad_norm": 0.025871358118956547,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 4656
    },
    {
      "epoch": 1.0483733333333334,
      "grad_norm": 0.02319385270310378,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 4657
    },
    {
      "epoch": 1.0484266666666666,
      "grad_norm": 0.022662541681987895,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 4658
    },
    {
      "epoch": 1.04848,
      "grad_norm": 0.02500208267473639,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 4659
    },
    {
      "epoch": 1.0485333333333333,
      "grad_norm": 0.024200757010987672,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 4660
    },
    {
      "epoch": 1.0485866666666666,
      "grad_norm": 0.024205550928579095,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 4661
    },
    {
      "epoch": 1.04864,
      "grad_norm": 0.02327440739511144,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 4662
    },
    {
      "epoch": 1.0486933333333333,
      "grad_norm": 0.02319673242128205,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 4663
    },
    {
      "epoch": 1.0487466666666667,
      "grad_norm": 0.02373375386211413,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 4664
    },
    {
      "epoch": 1.0488,
      "grad_norm": 0.02678946417643041,
      "learning_rate": 0.0001,
      "loss": 0.8902,
      "step": 4665
    },
    {
      "epoch": 1.0488533333333334,
      "grad_norm": 0.025263962682654947,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 4666
    },
    {
      "epoch": 1.0489066666666667,
      "grad_norm": 0.023532354151708974,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 4667
    },
    {
      "epoch": 1.04896,
      "grad_norm": 0.026543268363293453,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 4668
    },
    {
      "epoch": 1.0490133333333334,
      "grad_norm": 0.02603136074760292,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 4669
    },
    {
      "epoch": 1.0490666666666666,
      "grad_norm": 0.024071611336666136,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 4670
    },
    {
      "epoch": 1.04912,
      "grad_norm": 0.027084858376106438,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 4671
    },
    {
      "epoch": 1.0491733333333333,
      "grad_norm": 0.025885795029240845,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 4672
    },
    {
      "epoch": 1.0492266666666668,
      "grad_norm": 0.024085732544912936,
      "learning_rate": 0.0001,
      "loss": 1.0286,
      "step": 4673
    },
    {
      "epoch": 1.04928,
      "grad_norm": 0.025594899978931697,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 4674
    },
    {
      "epoch": 1.0493333333333332,
      "grad_norm": 0.02408576316934152,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "step": 4675
    },
    {
      "epoch": 1.0493866666666667,
      "grad_norm": 0.02596881503248052,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 4676
    },
    {
      "epoch": 1.04944,
      "grad_norm": 0.025064644553687326,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 4677
    },
    {
      "epoch": 1.0494933333333334,
      "grad_norm": 0.02507645760973957,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 4678
    },
    {
      "epoch": 1.0495466666666666,
      "grad_norm": 0.0254080290813533,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 4679
    },
    {
      "epoch": 1.0496,
      "grad_norm": 0.02277140290581303,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 4680
    },
    {
      "epoch": 1.0496533333333333,
      "grad_norm": 0.024275806955961814,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 4681
    },
    {
      "epoch": 1.0497066666666666,
      "grad_norm": 0.024259506763314707,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 4682
    },
    {
      "epoch": 1.04976,
      "grad_norm": 0.024525033795932776,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4683
    },
    {
      "epoch": 1.0498133333333333,
      "grad_norm": 0.026077750309968745,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 4684
    },
    {
      "epoch": 1.0498666666666667,
      "grad_norm": 0.025398725611135143,
      "learning_rate": 0.0001,
      "loss": 1.0313,
      "step": 4685
    },
    {
      "epoch": 1.04992,
      "grad_norm": 0.025389648060087967,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 4686
    },
    {
      "epoch": 1.0499733333333334,
      "grad_norm": 0.02290345949458434,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 4687
    },
    {
      "epoch": 1.0500266666666667,
      "grad_norm": 0.02369011771074451,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 4688
    },
    {
      "epoch": 1.05008,
      "grad_norm": 0.023638552652013086,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 4689
    },
    {
      "epoch": 1.0501333333333334,
      "grad_norm": 0.023098009057421084,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 4690
    },
    {
      "epoch": 1.0501866666666666,
      "grad_norm": 0.02559601956104272,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 4691
    },
    {
      "epoch": 1.05024,
      "grad_norm": 0.024011492091222237,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4692
    },
    {
      "epoch": 1.0502933333333333,
      "grad_norm": 0.02523173407832122,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4693
    },
    {
      "epoch": 1.0503466666666668,
      "grad_norm": 0.0235163667690614,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 4694
    },
    {
      "epoch": 1.0504,
      "grad_norm": 0.023343424012841816,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 4695
    },
    {
      "epoch": 1.0504533333333332,
      "grad_norm": 0.02426859596955542,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4696
    },
    {
      "epoch": 1.0505066666666667,
      "grad_norm": 0.024317003004787233,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 4697
    },
    {
      "epoch": 1.05056,
      "grad_norm": 0.024680464935016147,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 4698
    },
    {
      "epoch": 1.0506133333333334,
      "grad_norm": 0.026992369703224658,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 4699
    },
    {
      "epoch": 1.0506666666666666,
      "grad_norm": 0.02516290016408624,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 4700
    },
    {
      "epoch": 1.05072,
      "grad_norm": 0.023937696104451178,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 4701
    },
    {
      "epoch": 1.0507733333333333,
      "grad_norm": 0.024982838259031585,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4702
    },
    {
      "epoch": 1.0508266666666666,
      "grad_norm": 0.026087653021307864,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 4703
    },
    {
      "epoch": 1.05088,
      "grad_norm": 0.023228986472867034,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 4704
    },
    {
      "epoch": 1.0509333333333333,
      "grad_norm": 0.023182605671037266,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 4705
    },
    {
      "epoch": 1.0509866666666667,
      "grad_norm": 0.02400882366152043,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 4706
    },
    {
      "epoch": 1.05104,
      "grad_norm": 0.025267314377974845,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 4707
    },
    {
      "epoch": 1.0510933333333334,
      "grad_norm": 0.02529848855131258,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 4708
    },
    {
      "epoch": 1.0511466666666667,
      "grad_norm": 0.024267247425655655,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 4709
    },
    {
      "epoch": 1.0512,
      "grad_norm": 0.023757053037638715,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 4710
    },
    {
      "epoch": 1.0512533333333334,
      "grad_norm": 0.024442467712321312,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 4711
    },
    {
      "epoch": 1.0513066666666666,
      "grad_norm": 0.026054048999075523,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 4712
    },
    {
      "epoch": 1.05136,
      "grad_norm": 0.02508502672005415,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 4713
    },
    {
      "epoch": 1.0514133333333333,
      "grad_norm": 0.025382109307611866,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 4714
    },
    {
      "epoch": 1.0514666666666668,
      "grad_norm": 0.022946217889120168,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 4715
    },
    {
      "epoch": 1.05152,
      "grad_norm": 0.023486731469221176,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 4716
    },
    {
      "epoch": 1.0515733333333332,
      "grad_norm": 0.025396392421213762,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 4717
    },
    {
      "epoch": 1.0516266666666667,
      "grad_norm": 0.024446079832931122,
      "learning_rate": 0.0001,
      "loss": 0.935,
      "step": 4718
    },
    {
      "epoch": 1.05168,
      "grad_norm": 0.02716059707943564,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 4719
    },
    {
      "epoch": 1.0517333333333334,
      "grad_norm": 0.027149818245267753,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 4720
    },
    {
      "epoch": 1.0517866666666666,
      "grad_norm": 0.025413537391659077,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 4721
    },
    {
      "epoch": 1.0518399999999999,
      "grad_norm": 0.027216648163904372,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 4722
    },
    {
      "epoch": 1.0518933333333333,
      "grad_norm": 0.02833249830023696,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 4723
    },
    {
      "epoch": 1.0519466666666666,
      "grad_norm": 0.02389817063370327,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "step": 4724
    },
    {
      "epoch": 1.052,
      "grad_norm": 0.024372944611794622,
      "learning_rate": 0.0001,
      "loss": 1.0353,
      "step": 4725
    },
    {
      "epoch": 1.0520533333333333,
      "grad_norm": 0.0253043480323509,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 4726
    },
    {
      "epoch": 1.0521066666666667,
      "grad_norm": 0.023592638144693534,
      "learning_rate": 0.0001,
      "loss": 1.034,
      "step": 4727
    },
    {
      "epoch": 1.05216,
      "grad_norm": 0.023878842938323867,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 4728
    },
    {
      "epoch": 1.0522133333333334,
      "grad_norm": 0.024694920064544688,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4729
    },
    {
      "epoch": 1.0522666666666667,
      "grad_norm": 0.027341694461267867,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 4730
    },
    {
      "epoch": 1.05232,
      "grad_norm": 0.026233160776578213,
      "learning_rate": 0.0001,
      "loss": 0.9976,
      "step": 4731
    },
    {
      "epoch": 1.0523733333333334,
      "grad_norm": 0.024306517931620135,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 4732
    },
    {
      "epoch": 1.0524266666666666,
      "grad_norm": 0.02577972786351958,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 4733
    },
    {
      "epoch": 1.05248,
      "grad_norm": 0.023762408670285427,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 4734
    },
    {
      "epoch": 1.0525333333333333,
      "grad_norm": 0.02529103549462369,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 4735
    },
    {
      "epoch": 1.0525866666666666,
      "grad_norm": 0.02725387408063873,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 4736
    },
    {
      "epoch": 1.05264,
      "grad_norm": 0.02340262286115906,
      "learning_rate": 0.0001,
      "loss": 0.8964,
      "step": 4737
    },
    {
      "epoch": 1.0526933333333333,
      "grad_norm": 0.022991707239486365,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 4738
    },
    {
      "epoch": 1.0527466666666667,
      "grad_norm": 0.024666889670957107,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4739
    },
    {
      "epoch": 1.0528,
      "grad_norm": 0.023947209915774117,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4740
    },
    {
      "epoch": 1.0528533333333334,
      "grad_norm": 0.024420193387915047,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 4741
    },
    {
      "epoch": 1.0529066666666667,
      "grad_norm": 0.023158872023968578,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 4742
    },
    {
      "epoch": 1.05296,
      "grad_norm": 0.024223283784292046,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 4743
    },
    {
      "epoch": 1.0530133333333334,
      "grad_norm": 0.02519617759953437,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 4744
    },
    {
      "epoch": 1.0530666666666666,
      "grad_norm": 0.025201065908705,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 4745
    },
    {
      "epoch": 1.05312,
      "grad_norm": 0.02471435981365926,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 4746
    },
    {
      "epoch": 1.0531733333333333,
      "grad_norm": 0.027279709989275435,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 4747
    },
    {
      "epoch": 1.0532266666666668,
      "grad_norm": 0.024108083349785654,
      "learning_rate": 0.0001,
      "loss": 0.9004,
      "step": 4748
    },
    {
      "epoch": 1.05328,
      "grad_norm": 0.02436856759997679,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4749
    },
    {
      "epoch": 1.0533333333333332,
      "grad_norm": 0.02490613891748446,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 4750
    },
    {
      "epoch": 1.0533866666666667,
      "grad_norm": 0.024140907362805872,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4751
    },
    {
      "epoch": 1.05344,
      "grad_norm": 0.02434468935990051,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 4752
    },
    {
      "epoch": 1.0534933333333334,
      "grad_norm": 0.026002337935707626,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 4753
    },
    {
      "epoch": 1.0535466666666666,
      "grad_norm": 0.025156107415004507,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 4754
    },
    {
      "epoch": 1.0536,
      "grad_norm": 0.02179585925481409,
      "learning_rate": 0.0001,
      "loss": 0.9269,
      "step": 4755
    },
    {
      "epoch": 1.0536533333333333,
      "grad_norm": 0.024771262690299414,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4756
    },
    {
      "epoch": 1.0537066666666666,
      "grad_norm": 0.024628116186455766,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 4757
    },
    {
      "epoch": 1.05376,
      "grad_norm": 0.02560727135015384,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 4758
    },
    {
      "epoch": 1.0538133333333333,
      "grad_norm": 0.024911337559386595,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 4759
    },
    {
      "epoch": 1.0538666666666667,
      "grad_norm": 0.028094881156318665,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 4760
    },
    {
      "epoch": 1.05392,
      "grad_norm": 0.024795785855194263,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 4761
    },
    {
      "epoch": 1.0539733333333334,
      "grad_norm": 0.02320074939936041,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 4762
    },
    {
      "epoch": 1.0540266666666667,
      "grad_norm": 0.02352894049758101,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 4763
    },
    {
      "epoch": 1.05408,
      "grad_norm": 0.025881731847319487,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4764
    },
    {
      "epoch": 1.0541333333333334,
      "grad_norm": 0.022759440813622824,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 4765
    },
    {
      "epoch": 1.0541866666666666,
      "grad_norm": 0.023432384079890903,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 4766
    },
    {
      "epoch": 1.05424,
      "grad_norm": 0.02313689827042643,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 4767
    },
    {
      "epoch": 1.0542933333333333,
      "grad_norm": 0.022446592373461888,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 4768
    },
    {
      "epoch": 1.0543466666666668,
      "grad_norm": 0.023104755797542786,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 4769
    },
    {
      "epoch": 1.0544,
      "grad_norm": 0.02378986844940752,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 4770
    },
    {
      "epoch": 1.0544533333333332,
      "grad_norm": 0.024222456943824765,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 4771
    },
    {
      "epoch": 1.0545066666666667,
      "grad_norm": 0.025904977880058407,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 4772
    },
    {
      "epoch": 1.05456,
      "grad_norm": 0.02408214300909404,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4773
    },
    {
      "epoch": 1.0546133333333334,
      "grad_norm": 0.02480187495828394,
      "learning_rate": 0.0001,
      "loss": 1.0679,
      "step": 4774
    },
    {
      "epoch": 1.0546666666666666,
      "grad_norm": 0.024735254003180426,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 4775
    },
    {
      "epoch": 1.05472,
      "grad_norm": 0.02628455547491412,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 4776
    },
    {
      "epoch": 1.0547733333333333,
      "grad_norm": 0.023719166100101118,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 4777
    },
    {
      "epoch": 1.0548266666666666,
      "grad_norm": 0.026068347263430817,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4778
    },
    {
      "epoch": 1.05488,
      "grad_norm": 0.02579521644370088,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 4779
    },
    {
      "epoch": 1.0549333333333333,
      "grad_norm": 0.025474412382096582,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 4780
    },
    {
      "epoch": 1.0549866666666667,
      "grad_norm": 0.026019660578897943,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 4781
    },
    {
      "epoch": 1.05504,
      "grad_norm": 0.024253078162124058,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 4782
    },
    {
      "epoch": 1.0550933333333334,
      "grad_norm": 0.02608414091952744,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 4783
    },
    {
      "epoch": 1.0551466666666667,
      "grad_norm": 0.024128607616445977,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 4784
    },
    {
      "epoch": 1.0552,
      "grad_norm": 0.026736727640886315,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 4785
    },
    {
      "epoch": 1.0552533333333334,
      "grad_norm": 0.024704712425574135,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 4786
    },
    {
      "epoch": 1.0553066666666666,
      "grad_norm": 0.02316080812099747,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 4787
    },
    {
      "epoch": 1.05536,
      "grad_norm": 0.024115693255545072,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 4788
    },
    {
      "epoch": 1.0554133333333333,
      "grad_norm": 0.024895573885009865,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 4789
    },
    {
      "epoch": 1.0554666666666668,
      "grad_norm": 0.024334086925981057,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 4790
    },
    {
      "epoch": 1.05552,
      "grad_norm": 0.024461719647723236,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 4791
    },
    {
      "epoch": 1.0555733333333333,
      "grad_norm": 0.024733055083299288,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 4792
    },
    {
      "epoch": 1.0556266666666667,
      "grad_norm": 0.02371365591847987,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 4793
    },
    {
      "epoch": 1.05568,
      "grad_norm": 0.02599137009003277,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 4794
    },
    {
      "epoch": 1.0557333333333334,
      "grad_norm": 0.02434039128505891,
      "learning_rate": 0.0001,
      "loss": 1.0578,
      "step": 4795
    },
    {
      "epoch": 1.0557866666666667,
      "grad_norm": 0.024058652897110778,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 4796
    },
    {
      "epoch": 1.05584,
      "grad_norm": 0.023740247289025643,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 4797
    },
    {
      "epoch": 1.0558933333333334,
      "grad_norm": 0.023374248607942266,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 4798
    },
    {
      "epoch": 1.0559466666666666,
      "grad_norm": 0.025190827014508234,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 4799
    },
    {
      "epoch": 1.056,
      "grad_norm": 0.023081424480643178,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 4800
    },
    {
      "epoch": 1.056,
      "eval_accuracy": 0.6171024261147099,
      "eval_loss": 1.3713281154632568,
      "eval_runtime": 64.5575,
      "eval_samples_per_second": 15.49,
      "eval_steps_per_second": 0.496,
      "step": 4800
    },
    {
      "epoch": 1.0560533333333333,
      "grad_norm": 0.023322216528064883,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 4801
    },
    {
      "epoch": 1.0561066666666667,
      "grad_norm": 0.023096628807284806,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 4802
    },
    {
      "epoch": 1.05616,
      "grad_norm": 0.024258507624169125,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4803
    },
    {
      "epoch": 1.0562133333333332,
      "grad_norm": 0.028087819007638504,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 4804
    },
    {
      "epoch": 1.0562666666666667,
      "grad_norm": 0.024364292126846918,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 4805
    },
    {
      "epoch": 1.05632,
      "grad_norm": 0.02256315846002461,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 4806
    },
    {
      "epoch": 1.0563733333333334,
      "grad_norm": 0.023708067032248616,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 4807
    },
    {
      "epoch": 1.0564266666666666,
      "grad_norm": 0.02471435505817875,
      "learning_rate": 0.0001,
      "loss": 1.037,
      "step": 4808
    },
    {
      "epoch": 1.05648,
      "grad_norm": 0.02476729977262304,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 4809
    },
    {
      "epoch": 1.0565333333333333,
      "grad_norm": 0.024448242090966372,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 4810
    },
    {
      "epoch": 1.0565866666666666,
      "grad_norm": 0.02449768685429772,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 4811
    },
    {
      "epoch": 1.05664,
      "grad_norm": 0.02388847676439954,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 4812
    },
    {
      "epoch": 1.0566933333333333,
      "grad_norm": 0.023559809516769666,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4813
    },
    {
      "epoch": 1.0567466666666667,
      "grad_norm": 0.02637612235999192,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 4814
    },
    {
      "epoch": 1.0568,
      "grad_norm": 0.026604935398791694,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 4815
    },
    {
      "epoch": 1.0568533333333334,
      "grad_norm": 0.02384979265549891,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 4816
    },
    {
      "epoch": 1.0569066666666667,
      "grad_norm": 0.024954184555619614,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 4817
    },
    {
      "epoch": 1.05696,
      "grad_norm": 0.026899817864369895,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 4818
    },
    {
      "epoch": 1.0570133333333334,
      "grad_norm": 0.02387329312162129,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 4819
    },
    {
      "epoch": 1.0570666666666666,
      "grad_norm": 0.02549431768714692,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 4820
    },
    {
      "epoch": 1.05712,
      "grad_norm": 0.027426446508603056,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 4821
    },
    {
      "epoch": 1.0571733333333333,
      "grad_norm": 0.025360945825883205,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 4822
    },
    {
      "epoch": 1.0572266666666668,
      "grad_norm": 0.024402105369133176,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 4823
    },
    {
      "epoch": 1.05728,
      "grad_norm": 0.024295101142680266,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 4824
    },
    {
      "epoch": 1.0573333333333332,
      "grad_norm": 0.027475066064221655,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 4825
    },
    {
      "epoch": 1.0573866666666667,
      "grad_norm": 0.024506462904969974,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 4826
    },
    {
      "epoch": 1.05744,
      "grad_norm": 0.024944294963161272,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 4827
    },
    {
      "epoch": 1.0574933333333334,
      "grad_norm": 0.025003044416486618,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 4828
    },
    {
      "epoch": 1.0575466666666666,
      "grad_norm": 0.02451964226483687,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4829
    },
    {
      "epoch": 1.0576,
      "grad_norm": 0.022437014707646755,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 4830
    },
    {
      "epoch": 1.0576533333333333,
      "grad_norm": 0.02380045730611252,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 4831
    },
    {
      "epoch": 1.0577066666666666,
      "grad_norm": 0.025075358434762773,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 4832
    },
    {
      "epoch": 1.05776,
      "grad_norm": 0.02408275305104693,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 4833
    },
    {
      "epoch": 1.0578133333333333,
      "grad_norm": 0.026149209632931034,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 4834
    },
    {
      "epoch": 1.0578666666666667,
      "grad_norm": 0.025185366483144223,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4835
    },
    {
      "epoch": 1.05792,
      "grad_norm": 0.026692362419287952,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 4836
    },
    {
      "epoch": 1.0579733333333334,
      "grad_norm": 0.024542426382422988,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 4837
    },
    {
      "epoch": 1.0580266666666667,
      "grad_norm": 0.02297299831351754,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 4838
    },
    {
      "epoch": 1.05808,
      "grad_norm": 0.024590822611738384,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 4839
    },
    {
      "epoch": 1.0581333333333334,
      "grad_norm": 0.02453145346777236,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 4840
    },
    {
      "epoch": 1.0581866666666666,
      "grad_norm": 0.023523175453830564,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 4841
    },
    {
      "epoch": 1.05824,
      "grad_norm": 0.023688288972101512,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 4842
    },
    {
      "epoch": 1.0582933333333333,
      "grad_norm": 0.027060455651438876,
      "learning_rate": 0.0001,
      "loss": 0.9102,
      "step": 4843
    },
    {
      "epoch": 1.0583466666666668,
      "grad_norm": 0.022292629470320804,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 4844
    },
    {
      "epoch": 1.0584,
      "grad_norm": 0.025829694033084903,
      "learning_rate": 0.0001,
      "loss": 1.0635,
      "step": 4845
    },
    {
      "epoch": 1.0584533333333332,
      "grad_norm": 0.023220213440288063,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 4846
    },
    {
      "epoch": 1.0585066666666667,
      "grad_norm": 0.02461362095381411,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 4847
    },
    {
      "epoch": 1.05856,
      "grad_norm": 0.02571957726095546,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 4848
    },
    {
      "epoch": 1.0586133333333334,
      "grad_norm": 0.024856333672900268,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 4849
    },
    {
      "epoch": 1.0586666666666666,
      "grad_norm": 0.024641360270983466,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 4850
    },
    {
      "epoch": 1.05872,
      "grad_norm": 0.026397352525121848,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 4851
    },
    {
      "epoch": 1.0587733333333333,
      "grad_norm": 0.023799455860489052,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 4852
    },
    {
      "epoch": 1.0588266666666666,
      "grad_norm": 0.026006505830811207,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 4853
    },
    {
      "epoch": 1.05888,
      "grad_norm": 0.027630058934772897,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4854
    },
    {
      "epoch": 1.0589333333333333,
      "grad_norm": 0.024302949787246682,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4855
    },
    {
      "epoch": 1.0589866666666667,
      "grad_norm": 0.02886113305459238,
      "learning_rate": 0.0001,
      "loss": 1.0538,
      "step": 4856
    },
    {
      "epoch": 1.05904,
      "grad_norm": 0.024739117621421662,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 4857
    },
    {
      "epoch": 1.0590933333333332,
      "grad_norm": 0.024786649331808838,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 4858
    },
    {
      "epoch": 1.0591466666666667,
      "grad_norm": 0.026519273321292103,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 4859
    },
    {
      "epoch": 1.0592,
      "grad_norm": 0.02433566314560404,
      "learning_rate": 0.0001,
      "loss": 1.0088,
      "step": 4860
    },
    {
      "epoch": 1.0592533333333334,
      "grad_norm": 0.02529225513782885,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 4861
    },
    {
      "epoch": 1.0593066666666666,
      "grad_norm": 0.02456726977357249,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 4862
    },
    {
      "epoch": 1.05936,
      "grad_norm": 0.024221570703024737,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 4863
    },
    {
      "epoch": 1.0594133333333333,
      "grad_norm": 0.026287656503495183,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 4864
    },
    {
      "epoch": 1.0594666666666668,
      "grad_norm": 0.025845055938059882,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 4865
    },
    {
      "epoch": 1.05952,
      "grad_norm": 0.025759720436286906,
      "learning_rate": 0.0001,
      "loss": 1.0518,
      "step": 4866
    },
    {
      "epoch": 1.0595733333333333,
      "grad_norm": 0.02528548313242583,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 4867
    },
    {
      "epoch": 1.0596266666666667,
      "grad_norm": 0.02361053137140842,
      "learning_rate": 0.0001,
      "loss": 1.0051,
      "step": 4868
    },
    {
      "epoch": 1.05968,
      "grad_norm": 0.023609214144915163,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 4869
    },
    {
      "epoch": 1.0597333333333334,
      "grad_norm": 0.025088717056987165,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 4870
    },
    {
      "epoch": 1.0597866666666667,
      "grad_norm": 0.024316097788486354,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 4871
    },
    {
      "epoch": 1.05984,
      "grad_norm": 0.024775844242899723,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 4872
    },
    {
      "epoch": 1.0598933333333334,
      "grad_norm": 0.024866966932400567,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 4873
    },
    {
      "epoch": 1.0599466666666666,
      "grad_norm": 0.022340051009721362,
      "learning_rate": 0.0001,
      "loss": 0.9131,
      "step": 4874
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.02431910272050786,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 4875
    },
    {
      "epoch": 1.0600533333333333,
      "grad_norm": 0.024116739686111045,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 4876
    },
    {
      "epoch": 1.0601066666666668,
      "grad_norm": 0.0241387444331789,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 4877
    },
    {
      "epoch": 1.06016,
      "grad_norm": 0.0272632744755394,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 4878
    },
    {
      "epoch": 1.0602133333333332,
      "grad_norm": 0.025285167694382635,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 4879
    },
    {
      "epoch": 1.0602666666666667,
      "grad_norm": 0.023172812901668463,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 4880
    },
    {
      "epoch": 1.06032,
      "grad_norm": 0.023441446702821736,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 4881
    },
    {
      "epoch": 1.0603733333333334,
      "grad_norm": 0.02377476060832486,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 4882
    },
    {
      "epoch": 1.0604266666666666,
      "grad_norm": 0.02398777650842502,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 4883
    },
    {
      "epoch": 1.06048,
      "grad_norm": 0.02435992436985233,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 4884
    },
    {
      "epoch": 1.0605333333333333,
      "grad_norm": 0.025434486946092863,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 4885
    },
    {
      "epoch": 1.0605866666666666,
      "grad_norm": 0.023524741258548167,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 4886
    },
    {
      "epoch": 1.06064,
      "grad_norm": 0.025629724874482857,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 4887
    },
    {
      "epoch": 1.0606933333333333,
      "grad_norm": 0.026324933275282753,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 4888
    },
    {
      "epoch": 1.0607466666666667,
      "grad_norm": 0.023727669739780903,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 4889
    },
    {
      "epoch": 1.0608,
      "grad_norm": 0.025823668995257346,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 4890
    },
    {
      "epoch": 1.0608533333333334,
      "grad_norm": 0.024315524233024192,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 4891
    },
    {
      "epoch": 1.0609066666666667,
      "grad_norm": 0.023681265915974154,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 4892
    },
    {
      "epoch": 1.06096,
      "grad_norm": 0.02395513523296695,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 4893
    },
    {
      "epoch": 1.0610133333333334,
      "grad_norm": 0.026609505761921576,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 4894
    },
    {
      "epoch": 1.0610666666666666,
      "grad_norm": 0.025593379861156278,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 4895
    },
    {
      "epoch": 1.06112,
      "grad_norm": 0.02293802855032892,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 4896
    },
    {
      "epoch": 1.0611733333333333,
      "grad_norm": 0.026395495192433234,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 4897
    },
    {
      "epoch": 1.0612266666666668,
      "grad_norm": 0.024151411141585685,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 4898
    },
    {
      "epoch": 1.06128,
      "grad_norm": 0.023557733809898843,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 4899
    },
    {
      "epoch": 1.0613333333333332,
      "grad_norm": 0.024788424307143345,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "step": 4900
    },
    {
      "epoch": 1.0613866666666667,
      "grad_norm": 0.024912436778859903,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 4901
    },
    {
      "epoch": 1.06144,
      "grad_norm": 0.024301249607613346,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 4902
    },
    {
      "epoch": 1.0614933333333334,
      "grad_norm": 0.025093007630074993,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 4903
    },
    {
      "epoch": 1.0615466666666666,
      "grad_norm": 0.025162600978942143,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 4904
    },
    {
      "epoch": 1.0616,
      "grad_norm": 0.023565732755104332,
      "learning_rate": 0.0001,
      "loss": 1.0568,
      "step": 4905
    },
    {
      "epoch": 1.0616533333333333,
      "grad_norm": 0.02629155531056865,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 4906
    },
    {
      "epoch": 1.0617066666666666,
      "grad_norm": 0.026416817578818454,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 4907
    },
    {
      "epoch": 1.06176,
      "grad_norm": 0.02485082500545637,
      "learning_rate": 0.0001,
      "loss": 1.0559,
      "step": 4908
    },
    {
      "epoch": 1.0618133333333333,
      "grad_norm": 0.023385883006909542,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 4909
    },
    {
      "epoch": 1.0618666666666667,
      "grad_norm": 0.028435834802562662,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 4910
    },
    {
      "epoch": 1.06192,
      "grad_norm": 0.027999032214105556,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "step": 4911
    },
    {
      "epoch": 1.0619733333333334,
      "grad_norm": 0.02524357525778297,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 4912
    },
    {
      "epoch": 1.0620266666666667,
      "grad_norm": 0.024253138779957502,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 4913
    },
    {
      "epoch": 1.06208,
      "grad_norm": 0.024203002389454942,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 4914
    },
    {
      "epoch": 1.0621333333333334,
      "grad_norm": 0.02567873860119543,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 4915
    },
    {
      "epoch": 1.0621866666666666,
      "grad_norm": 0.023973602776107668,
      "learning_rate": 0.0001,
      "loss": 0.9137,
      "step": 4916
    },
    {
      "epoch": 1.06224,
      "grad_norm": 0.02258456572646268,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 4917
    },
    {
      "epoch": 1.0622933333333333,
      "grad_norm": 0.025974974416277937,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 4918
    },
    {
      "epoch": 1.0623466666666668,
      "grad_norm": 0.023706106701702746,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 4919
    },
    {
      "epoch": 1.0624,
      "grad_norm": 0.024497551276681347,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 4920
    },
    {
      "epoch": 1.0624533333333332,
      "grad_norm": 0.026565854822965616,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 4921
    },
    {
      "epoch": 1.0625066666666667,
      "grad_norm": 0.027014357062587122,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 4922
    },
    {
      "epoch": 1.06256,
      "grad_norm": 0.025551961549326405,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 4923
    },
    {
      "epoch": 1.0626133333333334,
      "grad_norm": 0.025665624399778597,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 4924
    },
    {
      "epoch": 1.0626666666666666,
      "grad_norm": 0.027554264340031696,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 4925
    },
    {
      "epoch": 1.06272,
      "grad_norm": 0.02495800544077591,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 4926
    },
    {
      "epoch": 1.0627733333333333,
      "grad_norm": 0.026612767614388435,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4927
    },
    {
      "epoch": 1.0628266666666666,
      "grad_norm": 0.025406320561819924,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 4928
    },
    {
      "epoch": 1.06288,
      "grad_norm": 0.02490970648623684,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 4929
    },
    {
      "epoch": 1.0629333333333333,
      "grad_norm": 0.02499532410747443,
      "learning_rate": 0.0001,
      "loss": 0.8976,
      "step": 4930
    },
    {
      "epoch": 1.0629866666666667,
      "grad_norm": 0.024169882119613583,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 4931
    },
    {
      "epoch": 1.06304,
      "grad_norm": 0.024317324092847915,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 4932
    },
    {
      "epoch": 1.0630933333333332,
      "grad_norm": 0.026744216584729898,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 4933
    },
    {
      "epoch": 1.0631466666666667,
      "grad_norm": 0.02526976710858577,
      "learning_rate": 0.0001,
      "loss": 1.0209,
      "step": 4934
    },
    {
      "epoch": 1.0632,
      "grad_norm": 0.02508923245987011,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 4935
    },
    {
      "epoch": 1.0632533333333334,
      "grad_norm": 0.025891348783683793,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 4936
    },
    {
      "epoch": 1.0633066666666666,
      "grad_norm": 0.024450198843941787,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 4937
    },
    {
      "epoch": 1.06336,
      "grad_norm": 0.025536214191772377,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 4938
    },
    {
      "epoch": 1.0634133333333333,
      "grad_norm": 0.02366946640379891,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 4939
    },
    {
      "epoch": 1.0634666666666668,
      "grad_norm": 0.024249650882895435,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 4940
    },
    {
      "epoch": 1.06352,
      "grad_norm": 0.02530423124793702,
      "learning_rate": 0.0001,
      "loss": 0.9196,
      "step": 4941
    },
    {
      "epoch": 1.0635733333333333,
      "grad_norm": 0.023224169647311797,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 4942
    },
    {
      "epoch": 1.0636266666666667,
      "grad_norm": 0.02432764724233768,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 4943
    },
    {
      "epoch": 1.06368,
      "grad_norm": 0.02320625956122515,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 4944
    },
    {
      "epoch": 1.0637333333333334,
      "grad_norm": 0.023898405177441347,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 4945
    },
    {
      "epoch": 1.0637866666666667,
      "grad_norm": 0.026174010764214658,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 4946
    },
    {
      "epoch": 1.06384,
      "grad_norm": 0.023558789992175467,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 4947
    },
    {
      "epoch": 1.0638933333333334,
      "grad_norm": 0.022820890455347267,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 4948
    },
    {
      "epoch": 1.0639466666666666,
      "grad_norm": 0.02459990644653518,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 4949
    },
    {
      "epoch": 1.064,
      "grad_norm": 0.024222548157968257,
      "learning_rate": 0.0001,
      "loss": 0.9078,
      "step": 4950
    },
    {
      "epoch": 1.0640533333333333,
      "grad_norm": 0.02587816695398911,
      "learning_rate": 0.0001,
      "loss": 1.0587,
      "step": 4951
    },
    {
      "epoch": 1.0641066666666668,
      "grad_norm": 0.023801745207696536,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 4952
    },
    {
      "epoch": 1.06416,
      "grad_norm": 0.024163685529324238,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 4953
    },
    {
      "epoch": 1.0642133333333332,
      "grad_norm": 0.02627948502507773,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 4954
    },
    {
      "epoch": 1.0642666666666667,
      "grad_norm": 0.02341403352604857,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 4955
    },
    {
      "epoch": 1.06432,
      "grad_norm": 0.02498886729203632,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 4956
    },
    {
      "epoch": 1.0643733333333334,
      "grad_norm": 0.0229592266709311,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 4957
    },
    {
      "epoch": 1.0644266666666666,
      "grad_norm": 0.025778393848696526,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 4958
    },
    {
      "epoch": 1.06448,
      "grad_norm": 0.025155011833324824,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 4959
    },
    {
      "epoch": 1.0645333333333333,
      "grad_norm": 0.023964406183575912,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 4960
    },
    {
      "epoch": 1.0645866666666666,
      "grad_norm": 0.023470847196283926,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 4961
    },
    {
      "epoch": 1.06464,
      "grad_norm": 0.025896537387763405,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 4962
    },
    {
      "epoch": 1.0646933333333333,
      "grad_norm": 0.023670942656937585,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 4963
    },
    {
      "epoch": 1.0647466666666667,
      "grad_norm": 0.025915716975172743,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 4964
    },
    {
      "epoch": 1.0648,
      "grad_norm": 0.024479052534995948,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4965
    },
    {
      "epoch": 1.0648533333333334,
      "grad_norm": 0.02426584756995937,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 4966
    },
    {
      "epoch": 1.0649066666666667,
      "grad_norm": 0.024231957336875665,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 4967
    },
    {
      "epoch": 1.06496,
      "grad_norm": 0.023907785051514877,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 4968
    },
    {
      "epoch": 1.0650133333333334,
      "grad_norm": 0.02365605577876775,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 4969
    },
    {
      "epoch": 1.0650666666666666,
      "grad_norm": 0.024422553011828534,
      "learning_rate": 0.0001,
      "loss": 0.9064,
      "step": 4970
    },
    {
      "epoch": 1.06512,
      "grad_norm": 0.022969979024948742,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 4971
    },
    {
      "epoch": 1.0651733333333333,
      "grad_norm": 0.023512021918822353,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 4972
    },
    {
      "epoch": 1.0652266666666668,
      "grad_norm": 0.026304975935646707,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 4973
    },
    {
      "epoch": 1.06528,
      "grad_norm": 0.023663391308155212,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 4974
    },
    {
      "epoch": 1.0653333333333332,
      "grad_norm": 0.02383971510124353,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 4975
    },
    {
      "epoch": 1.0653866666666667,
      "grad_norm": 0.023754695781516198,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 4976
    },
    {
      "epoch": 1.06544,
      "grad_norm": 0.024333861244464506,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 4977
    },
    {
      "epoch": 1.0654933333333334,
      "grad_norm": 0.022386352901346874,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 4978
    },
    {
      "epoch": 1.0655466666666666,
      "grad_norm": 0.024432841057907096,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 4979
    },
    {
      "epoch": 1.0656,
      "grad_norm": 0.02469519293142336,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 4980
    },
    {
      "epoch": 1.0656533333333333,
      "grad_norm": 0.02472139092637579,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 4981
    },
    {
      "epoch": 1.0657066666666666,
      "grad_norm": 0.024388919236091215,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 4982
    },
    {
      "epoch": 1.06576,
      "grad_norm": 0.024230253278977026,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 4983
    },
    {
      "epoch": 1.0658133333333333,
      "grad_norm": 0.024131849353244653,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 4984
    },
    {
      "epoch": 1.0658666666666667,
      "grad_norm": 0.024290936060733348,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 4985
    },
    {
      "epoch": 1.06592,
      "grad_norm": 0.024774425400492982,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 4986
    },
    {
      "epoch": 1.0659733333333334,
      "grad_norm": 0.02486397899608597,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 4987
    },
    {
      "epoch": 1.0660266666666667,
      "grad_norm": 0.02453523678536611,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 4988
    },
    {
      "epoch": 1.06608,
      "grad_norm": 0.024684907289975803,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 4989
    },
    {
      "epoch": 1.0661333333333334,
      "grad_norm": 0.02506384457196088,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 4990
    },
    {
      "epoch": 1.0661866666666666,
      "grad_norm": 0.02443688554942519,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 4991
    },
    {
      "epoch": 1.06624,
      "grad_norm": 0.026378441849092583,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 4992
    },
    {
      "epoch": 1.0662933333333333,
      "grad_norm": 0.023824602435596344,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 4993
    },
    {
      "epoch": 1.0663466666666666,
      "grad_norm": 0.025113579038084515,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 4994
    },
    {
      "epoch": 1.0664,
      "grad_norm": 0.022069639486699228,
      "learning_rate": 0.0001,
      "loss": 0.916,
      "step": 4995
    },
    {
      "epoch": 1.0664533333333333,
      "grad_norm": 0.022786410481247712,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 4996
    },
    {
      "epoch": 1.0665066666666667,
      "grad_norm": 0.02548335099060747,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 4997
    },
    {
      "epoch": 1.06656,
      "grad_norm": 0.025615618066242782,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 4998
    },
    {
      "epoch": 1.0666133333333334,
      "grad_norm": 0.026611441201843694,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 4999
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.02498684751773921,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 5000
    },
    {
      "epoch": 1.0666666666666667,
      "eval_accuracy": 0.6173338874397583,
      "eval_loss": 1.3700244426727295,
      "eval_runtime": 62.9381,
      "eval_samples_per_second": 15.889,
      "eval_steps_per_second": 0.508,
      "step": 5000
    },
    {
      "epoch": 1.0667200000000001,
      "grad_norm": 0.02522098941060652,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 5001
    },
    {
      "epoch": 1.0667733333333334,
      "grad_norm": 0.023911640561917785,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5002
    },
    {
      "epoch": 1.0668266666666666,
      "grad_norm": 0.026182150095438565,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5003
    },
    {
      "epoch": 1.06688,
      "grad_norm": 0.02339705160688133,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 5004
    },
    {
      "epoch": 1.0669333333333333,
      "grad_norm": 0.02382117479926949,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 5005
    },
    {
      "epoch": 1.0669866666666667,
      "grad_norm": 0.023925780584000047,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 5006
    },
    {
      "epoch": 1.06704,
      "grad_norm": 0.025196658169472516,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "step": 5007
    },
    {
      "epoch": 1.0670933333333332,
      "grad_norm": 0.024513625807846776,
      "learning_rate": 0.0001,
      "loss": 1.041,
      "step": 5008
    },
    {
      "epoch": 1.0671466666666667,
      "grad_norm": 0.025392193281285273,
      "learning_rate": 0.0001,
      "loss": 1.07,
      "step": 5009
    },
    {
      "epoch": 1.0672,
      "grad_norm": 0.027119410674597236,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 5010
    },
    {
      "epoch": 1.0672533333333334,
      "grad_norm": 0.022223968456681408,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 5011
    },
    {
      "epoch": 1.0673066666666666,
      "grad_norm": 0.027022613875798466,
      "learning_rate": 0.0001,
      "loss": 1.0241,
      "step": 5012
    },
    {
      "epoch": 1.06736,
      "grad_norm": 0.027070180731100842,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5013
    },
    {
      "epoch": 1.0674133333333333,
      "grad_norm": 0.025031381245217373,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 5014
    },
    {
      "epoch": 1.0674666666666666,
      "grad_norm": 0.024121113918589693,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 5015
    },
    {
      "epoch": 1.06752,
      "grad_norm": 0.027520967700755683,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 5016
    },
    {
      "epoch": 1.0675733333333333,
      "grad_norm": 0.024622127515350357,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 5017
    },
    {
      "epoch": 1.0676266666666667,
      "grad_norm": 0.024461492988449452,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 5018
    },
    {
      "epoch": 1.06768,
      "grad_norm": 0.025683648360606524,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5019
    },
    {
      "epoch": 1.0677333333333334,
      "grad_norm": 0.023787977174282153,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 5020
    },
    {
      "epoch": 1.0677866666666667,
      "grad_norm": 0.024857248753226438,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5021
    },
    {
      "epoch": 1.06784,
      "grad_norm": 0.02473328887074261,
      "learning_rate": 0.0001,
      "loss": 0.9079,
      "step": 5022
    },
    {
      "epoch": 1.0678933333333334,
      "grad_norm": 0.02507686693935444,
      "learning_rate": 0.0001,
      "loss": 1.1167,
      "step": 5023
    },
    {
      "epoch": 1.0679466666666666,
      "grad_norm": 0.024270011770639106,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 5024
    },
    {
      "epoch": 1.068,
      "grad_norm": 0.027295024512912696,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 5025
    },
    {
      "epoch": 1.0680533333333333,
      "grad_norm": 0.024312947985201054,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 5026
    },
    {
      "epoch": 1.0681066666666668,
      "grad_norm": 0.024388374567162897,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 5027
    },
    {
      "epoch": 1.06816,
      "grad_norm": 0.024810933209643695,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 5028
    },
    {
      "epoch": 1.0682133333333332,
      "grad_norm": 0.02362153052867476,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 5029
    },
    {
      "epoch": 1.0682666666666667,
      "grad_norm": 0.024782018207566786,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 5030
    },
    {
      "epoch": 1.06832,
      "grad_norm": 0.024124242474666317,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 5031
    },
    {
      "epoch": 1.0683733333333334,
      "grad_norm": 0.025615989440893487,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 5032
    },
    {
      "epoch": 1.0684266666666666,
      "grad_norm": 0.02378776655001037,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5033
    },
    {
      "epoch": 1.06848,
      "grad_norm": 0.023830851476187433,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 5034
    },
    {
      "epoch": 1.0685333333333333,
      "grad_norm": 0.02700506679453292,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 5035
    },
    {
      "epoch": 1.0685866666666666,
      "grad_norm": 0.024532819867517486,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 5036
    },
    {
      "epoch": 1.06864,
      "grad_norm": 0.026309136071026192,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 5037
    },
    {
      "epoch": 1.0686933333333333,
      "grad_norm": 0.02483034874165817,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 5038
    },
    {
      "epoch": 1.0687466666666667,
      "grad_norm": 0.022641409799789524,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 5039
    },
    {
      "epoch": 1.0688,
      "grad_norm": 0.024178456019835846,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5040
    },
    {
      "epoch": 1.0688533333333334,
      "grad_norm": 0.024643329933715714,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 5041
    },
    {
      "epoch": 1.0689066666666667,
      "grad_norm": 0.025821321288097807,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 5042
    },
    {
      "epoch": 1.06896,
      "grad_norm": 0.023341188097224002,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 5043
    },
    {
      "epoch": 1.0690133333333334,
      "grad_norm": 0.025207615885191638,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 5044
    },
    {
      "epoch": 1.0690666666666666,
      "grad_norm": 0.023987046334880944,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5045
    },
    {
      "epoch": 1.06912,
      "grad_norm": 0.023740980577800965,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 5046
    },
    {
      "epoch": 1.0691733333333333,
      "grad_norm": 0.023672782894704227,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 5047
    },
    {
      "epoch": 1.0692266666666668,
      "grad_norm": 0.024870276384940857,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5048
    },
    {
      "epoch": 1.06928,
      "grad_norm": 0.02559806576487511,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 5049
    },
    {
      "epoch": 1.0693333333333332,
      "grad_norm": 0.026663470352609644,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 5050
    },
    {
      "epoch": 1.0693866666666667,
      "grad_norm": 0.024520558375358638,
      "learning_rate": 0.0001,
      "loss": 0.9181,
      "step": 5051
    },
    {
      "epoch": 1.06944,
      "grad_norm": 0.023998652641820963,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5052
    },
    {
      "epoch": 1.0694933333333334,
      "grad_norm": 0.02262838289217389,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 5053
    },
    {
      "epoch": 1.0695466666666666,
      "grad_norm": 0.026216460954535642,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 5054
    },
    {
      "epoch": 1.0695999999999999,
      "grad_norm": 0.026209920411886477,
      "learning_rate": 0.0001,
      "loss": 1.0157,
      "step": 5055
    },
    {
      "epoch": 1.0696533333333333,
      "grad_norm": 0.02380475268345057,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5056
    },
    {
      "epoch": 1.0697066666666666,
      "grad_norm": 0.02596554212919293,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 5057
    },
    {
      "epoch": 1.06976,
      "grad_norm": 0.027208999450704516,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5058
    },
    {
      "epoch": 1.0698133333333333,
      "grad_norm": 0.024475344366462225,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 5059
    },
    {
      "epoch": 1.0698666666666667,
      "grad_norm": 0.027146455489839624,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5060
    },
    {
      "epoch": 1.06992,
      "grad_norm": 0.02465660487211689,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5061
    },
    {
      "epoch": 1.0699733333333334,
      "grad_norm": 0.025343174387045624,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5062
    },
    {
      "epoch": 1.0700266666666667,
      "grad_norm": 0.02591007930737827,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5063
    },
    {
      "epoch": 1.07008,
      "grad_norm": 0.02448556197094848,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 5064
    },
    {
      "epoch": 1.0701333333333334,
      "grad_norm": 0.02461658082854389,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5065
    },
    {
      "epoch": 1.0701866666666666,
      "grad_norm": 0.02512707853619943,
      "learning_rate": 0.0001,
      "loss": 1.0588,
      "step": 5066
    },
    {
      "epoch": 1.07024,
      "grad_norm": 0.024247160312259274,
      "learning_rate": 0.0001,
      "loss": 1.0733,
      "step": 5067
    },
    {
      "epoch": 1.0702933333333333,
      "grad_norm": 0.022862935245097752,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 5068
    },
    {
      "epoch": 1.0703466666666666,
      "grad_norm": 0.024991250492990856,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 5069
    },
    {
      "epoch": 1.0704,
      "grad_norm": 0.024652216376001714,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 5070
    },
    {
      "epoch": 1.0704533333333333,
      "grad_norm": 0.025129733652623453,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5071
    },
    {
      "epoch": 1.0705066666666667,
      "grad_norm": 0.024147491247004788,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5072
    },
    {
      "epoch": 1.07056,
      "grad_norm": 0.026131886594879927,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 5073
    },
    {
      "epoch": 1.0706133333333334,
      "grad_norm": 0.025774065418386408,
      "learning_rate": 0.0001,
      "loss": 1.0154,
      "step": 5074
    },
    {
      "epoch": 1.0706666666666667,
      "grad_norm": 0.026446377483165577,
      "learning_rate": 0.0001,
      "loss": 0.8929,
      "step": 5075
    },
    {
      "epoch": 1.0707200000000001,
      "grad_norm": 0.025273665659564064,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 5076
    },
    {
      "epoch": 1.0707733333333334,
      "grad_norm": 0.023058436658343565,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 5077
    },
    {
      "epoch": 1.0708266666666666,
      "grad_norm": 0.027222153600119595,
      "learning_rate": 0.0001,
      "loss": 0.9194,
      "step": 5078
    },
    {
      "epoch": 1.07088,
      "grad_norm": 0.025072863444628467,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5079
    },
    {
      "epoch": 1.0709333333333333,
      "grad_norm": 0.024701238985362934,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 5080
    },
    {
      "epoch": 1.0709866666666668,
      "grad_norm": 0.026520150223510567,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 5081
    },
    {
      "epoch": 1.07104,
      "grad_norm": 0.027028179864164625,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 5082
    },
    {
      "epoch": 1.0710933333333332,
      "grad_norm": 0.024391697385383593,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 5083
    },
    {
      "epoch": 1.0711466666666667,
      "grad_norm": 0.024988776913547724,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 5084
    },
    {
      "epoch": 1.0712,
      "grad_norm": 0.023900202037478956,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5085
    },
    {
      "epoch": 1.0712533333333334,
      "grad_norm": 0.02413586847953108,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 5086
    },
    {
      "epoch": 1.0713066666666666,
      "grad_norm": 0.0247081645553724,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 5087
    },
    {
      "epoch": 1.07136,
      "grad_norm": 0.025831156977931598,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 5088
    },
    {
      "epoch": 1.0714133333333333,
      "grad_norm": 0.02455929438322751,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5089
    },
    {
      "epoch": 1.0714666666666666,
      "grad_norm": 0.025290508295600138,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5090
    },
    {
      "epoch": 1.07152,
      "grad_norm": 0.027204809700042465,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 5091
    },
    {
      "epoch": 1.0715733333333333,
      "grad_norm": 0.028687967642137314,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5092
    },
    {
      "epoch": 1.0716266666666667,
      "grad_norm": 0.023934975311652857,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 5093
    },
    {
      "epoch": 1.07168,
      "grad_norm": 0.0263495775585771,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 5094
    },
    {
      "epoch": 1.0717333333333334,
      "grad_norm": 0.02484561283215338,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 5095
    },
    {
      "epoch": 1.0717866666666667,
      "grad_norm": 0.023581573254700162,
      "learning_rate": 0.0001,
      "loss": 1.0573,
      "step": 5096
    },
    {
      "epoch": 1.07184,
      "grad_norm": 0.023809463663989578,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5097
    },
    {
      "epoch": 1.0718933333333334,
      "grad_norm": 0.024412716125761208,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 5098
    },
    {
      "epoch": 1.0719466666666666,
      "grad_norm": 0.025065252404405346,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 5099
    },
    {
      "epoch": 1.072,
      "grad_norm": 0.024963762721986426,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 5100
    },
    {
      "epoch": 1.0720533333333333,
      "grad_norm": 0.024405066072861175,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5101
    },
    {
      "epoch": 1.0721066666666668,
      "grad_norm": 0.023938327026412697,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 5102
    },
    {
      "epoch": 1.07216,
      "grad_norm": 0.023733682877601615,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 5103
    },
    {
      "epoch": 1.0722133333333332,
      "grad_norm": 0.024172219374828417,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5104
    },
    {
      "epoch": 1.0722666666666667,
      "grad_norm": 0.02534945135536056,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5105
    },
    {
      "epoch": 1.07232,
      "grad_norm": 0.023155020401736667,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 5106
    },
    {
      "epoch": 1.0723733333333334,
      "grad_norm": 0.024234946761603416,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 5107
    },
    {
      "epoch": 1.0724266666666666,
      "grad_norm": 0.024379897312532692,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 5108
    },
    {
      "epoch": 1.07248,
      "grad_norm": 0.024514987615944013,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5109
    },
    {
      "epoch": 1.0725333333333333,
      "grad_norm": 0.024107315822166728,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 5110
    },
    {
      "epoch": 1.0725866666666666,
      "grad_norm": 0.02742589818892122,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 5111
    },
    {
      "epoch": 1.07264,
      "grad_norm": 0.024770845856102102,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5112
    },
    {
      "epoch": 1.0726933333333333,
      "grad_norm": 0.025899117403332377,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 5113
    },
    {
      "epoch": 1.0727466666666667,
      "grad_norm": 0.023901147964815028,
      "learning_rate": 0.0001,
      "loss": 1.0414,
      "step": 5114
    },
    {
      "epoch": 1.0728,
      "grad_norm": 0.026032502541443923,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 5115
    },
    {
      "epoch": 1.0728533333333334,
      "grad_norm": 0.027145476884540363,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 5116
    },
    {
      "epoch": 1.0729066666666667,
      "grad_norm": 0.0253479529411147,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 5117
    },
    {
      "epoch": 1.07296,
      "grad_norm": 0.025155773421817636,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5118
    },
    {
      "epoch": 1.0730133333333334,
      "grad_norm": 0.0244116379787284,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 5119
    },
    {
      "epoch": 1.0730666666666666,
      "grad_norm": 0.024657811451786693,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 5120
    },
    {
      "epoch": 1.07312,
      "grad_norm": 0.024750867138439533,
      "learning_rate": 0.0001,
      "loss": 1.0191,
      "step": 5121
    },
    {
      "epoch": 1.0731733333333333,
      "grad_norm": 0.024420066635536003,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 5122
    },
    {
      "epoch": 1.0732266666666668,
      "grad_norm": 0.02482369078088547,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 5123
    },
    {
      "epoch": 1.07328,
      "grad_norm": 0.024813076094656702,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 5124
    },
    {
      "epoch": 1.0733333333333333,
      "grad_norm": 0.024958045057905144,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 5125
    },
    {
      "epoch": 1.0733866666666667,
      "grad_norm": 0.023749440758355195,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5126
    },
    {
      "epoch": 1.07344,
      "grad_norm": 0.022834704165488294,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 5127
    },
    {
      "epoch": 1.0734933333333334,
      "grad_norm": 0.0252647527662807,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5128
    },
    {
      "epoch": 1.0735466666666666,
      "grad_norm": 0.023488881186087256,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 5129
    },
    {
      "epoch": 1.0735999999999999,
      "grad_norm": 0.023062985461554778,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5130
    },
    {
      "epoch": 1.0736533333333333,
      "grad_norm": 0.023508203237809052,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 5131
    },
    {
      "epoch": 1.0737066666666666,
      "grad_norm": 0.02439547523245326,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 5132
    },
    {
      "epoch": 1.07376,
      "grad_norm": 0.024378471735768046,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5133
    },
    {
      "epoch": 1.0738133333333333,
      "grad_norm": 0.024683313034342003,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 5134
    },
    {
      "epoch": 1.0738666666666667,
      "grad_norm": 0.024076687506367263,
      "learning_rate": 0.0001,
      "loss": 1.0282,
      "step": 5135
    },
    {
      "epoch": 1.07392,
      "grad_norm": 0.02431814928583795,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 5136
    },
    {
      "epoch": 1.0739733333333334,
      "grad_norm": 0.025162764874578105,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5137
    },
    {
      "epoch": 1.0740266666666667,
      "grad_norm": 0.026050924273052157,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 5138
    },
    {
      "epoch": 1.07408,
      "grad_norm": 0.03777204363918913,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5139
    },
    {
      "epoch": 1.0741333333333334,
      "grad_norm": 0.026315610435525466,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 5140
    },
    {
      "epoch": 1.0741866666666666,
      "grad_norm": 0.02546953245212923,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 5141
    },
    {
      "epoch": 1.07424,
      "grad_norm": 0.025838672870392935,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 5142
    },
    {
      "epoch": 1.0742933333333333,
      "grad_norm": 0.026438316960272996,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 5143
    },
    {
      "epoch": 1.0743466666666666,
      "grad_norm": 0.023701509034137067,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 5144
    },
    {
      "epoch": 1.0744,
      "grad_norm": 0.026726261043664833,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 5145
    },
    {
      "epoch": 1.0744533333333333,
      "grad_norm": 0.02728244070735087,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 5146
    },
    {
      "epoch": 1.0745066666666667,
      "grad_norm": 0.025575145859586326,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 5147
    },
    {
      "epoch": 1.07456,
      "grad_norm": 0.02386856075708658,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 5148
    },
    {
      "epoch": 1.0746133333333334,
      "grad_norm": 0.02620964091224981,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 5149
    },
    {
      "epoch": 1.0746666666666667,
      "grad_norm": 0.025335467219462848,
      "learning_rate": 0.0001,
      "loss": 0.9116,
      "step": 5150
    },
    {
      "epoch": 1.07472,
      "grad_norm": 0.024631440687074974,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5151
    },
    {
      "epoch": 1.0747733333333334,
      "grad_norm": 0.025206122181680488,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 5152
    },
    {
      "epoch": 1.0748266666666666,
      "grad_norm": 0.024695234520366188,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 5153
    },
    {
      "epoch": 1.07488,
      "grad_norm": 0.023504563611394403,
      "learning_rate": 0.0001,
      "loss": 0.964,
      "step": 5154
    },
    {
      "epoch": 1.0749333333333333,
      "grad_norm": 0.02316704730871102,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 5155
    },
    {
      "epoch": 1.0749866666666668,
      "grad_norm": 0.02754922798151838,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 5156
    },
    {
      "epoch": 1.07504,
      "grad_norm": 0.025734317262376044,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5157
    },
    {
      "epoch": 1.0750933333333332,
      "grad_norm": 0.024462229727704742,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 5158
    },
    {
      "epoch": 1.0751466666666667,
      "grad_norm": 0.02566392922013849,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 5159
    },
    {
      "epoch": 1.0752,
      "grad_norm": 0.02669291952349919,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 5160
    },
    {
      "epoch": 1.0752533333333334,
      "grad_norm": 0.023307579841924223,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 5161
    },
    {
      "epoch": 1.0753066666666666,
      "grad_norm": 0.02435239986313597,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 5162
    },
    {
      "epoch": 1.07536,
      "grad_norm": 0.024893987691562144,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 5163
    },
    {
      "epoch": 1.0754133333333333,
      "grad_norm": 0.022651391039637123,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5164
    },
    {
      "epoch": 1.0754666666666666,
      "grad_norm": 0.02486019220162966,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5165
    },
    {
      "epoch": 1.07552,
      "grad_norm": 0.02393928495845135,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 5166
    },
    {
      "epoch": 1.0755733333333333,
      "grad_norm": 0.02253502734527664,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5167
    },
    {
      "epoch": 1.0756266666666667,
      "grad_norm": 0.02448343521548138,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5168
    },
    {
      "epoch": 1.07568,
      "grad_norm": 0.025681408135921912,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 5169
    },
    {
      "epoch": 1.0757333333333334,
      "grad_norm": 0.023698864233596895,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5170
    },
    {
      "epoch": 1.0757866666666667,
      "grad_norm": 0.023864484697187528,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 5171
    },
    {
      "epoch": 1.07584,
      "grad_norm": 0.027360708076219816,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 5172
    },
    {
      "epoch": 1.0758933333333334,
      "grad_norm": 0.027807827972111523,
      "learning_rate": 0.0001,
      "loss": 0.9102,
      "step": 5173
    },
    {
      "epoch": 1.0759466666666666,
      "grad_norm": 0.023574341048259378,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 5174
    },
    {
      "epoch": 1.076,
      "grad_norm": 0.02503227774462054,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 5175
    },
    {
      "epoch": 1.0760533333333333,
      "grad_norm": 0.024446793150179193,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5176
    },
    {
      "epoch": 1.0761066666666668,
      "grad_norm": 0.02571649662975983,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 5177
    },
    {
      "epoch": 1.07616,
      "grad_norm": 0.022791830110668,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 5178
    },
    {
      "epoch": 1.0762133333333332,
      "grad_norm": 0.024057051757440464,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 5179
    },
    {
      "epoch": 1.0762666666666667,
      "grad_norm": 0.0263584218488111,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 5180
    },
    {
      "epoch": 1.07632,
      "grad_norm": 0.02391252886899509,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 5181
    },
    {
      "epoch": 1.0763733333333334,
      "grad_norm": 0.026037895730473534,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5182
    },
    {
      "epoch": 1.0764266666666666,
      "grad_norm": 0.02607664820928143,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5183
    },
    {
      "epoch": 1.07648,
      "grad_norm": 0.023864912618466193,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 5184
    },
    {
      "epoch": 1.0765333333333333,
      "grad_norm": 0.024922747115531798,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 5185
    },
    {
      "epoch": 1.0765866666666666,
      "grad_norm": 0.023601808290563676,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 5186
    },
    {
      "epoch": 1.07664,
      "grad_norm": 0.024364532692808995,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 5187
    },
    {
      "epoch": 1.0766933333333333,
      "grad_norm": 0.02442730581411873,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5188
    },
    {
      "epoch": 1.0767466666666667,
      "grad_norm": 0.02407465819548894,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5189
    },
    {
      "epoch": 1.0768,
      "grad_norm": 0.025477465293614016,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 5190
    },
    {
      "epoch": 1.0768533333333332,
      "grad_norm": 0.024070178149935756,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 5191
    },
    {
      "epoch": 1.0769066666666667,
      "grad_norm": 0.02377238913203875,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 5192
    },
    {
      "epoch": 1.07696,
      "grad_norm": 0.02491129074252031,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 5193
    },
    {
      "epoch": 1.0770133333333334,
      "grad_norm": 0.024535327468025336,
      "learning_rate": 0.0001,
      "loss": 0.8932,
      "step": 5194
    },
    {
      "epoch": 1.0770666666666666,
      "grad_norm": 0.025933890527352236,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 5195
    },
    {
      "epoch": 1.07712,
      "grad_norm": 0.02488885578342406,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5196
    },
    {
      "epoch": 1.0771733333333333,
      "grad_norm": 0.02491496272672252,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 5197
    },
    {
      "epoch": 1.0772266666666668,
      "grad_norm": 0.022739383650085543,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 5198
    },
    {
      "epoch": 1.07728,
      "grad_norm": 0.023827335484317674,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5199
    },
    {
      "epoch": 1.0773333333333333,
      "grad_norm": 0.02480176844422139,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 5200
    },
    {
      "epoch": 1.0773333333333333,
      "eval_accuracy": 0.6175859560285439,
      "eval_loss": 1.3687927722930908,
      "eval_runtime": 62.7595,
      "eval_samples_per_second": 15.934,
      "eval_steps_per_second": 0.51,
      "step": 5200
    },
    {
      "epoch": 1.0773866666666667,
      "grad_norm": 0.024876317380843286,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 5201
    },
    {
      "epoch": 1.07744,
      "grad_norm": 0.024338841425097672,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 5202
    },
    {
      "epoch": 1.0774933333333334,
      "grad_norm": 0.025662488286295897,
      "learning_rate": 0.0001,
      "loss": 1.0368,
      "step": 5203
    },
    {
      "epoch": 1.0775466666666667,
      "grad_norm": 0.026155250826677485,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5204
    },
    {
      "epoch": 1.0776,
      "grad_norm": 0.024612624062661296,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 5205
    },
    {
      "epoch": 1.0776533333333334,
      "grad_norm": 0.027925454057316217,
      "learning_rate": 0.0001,
      "loss": 0.93,
      "step": 5206
    },
    {
      "epoch": 1.0777066666666666,
      "grad_norm": 0.023934159527165474,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5207
    },
    {
      "epoch": 1.07776,
      "grad_norm": 0.02706106112977372,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 5208
    },
    {
      "epoch": 1.0778133333333333,
      "grad_norm": 0.025179220550887962,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 5209
    },
    {
      "epoch": 1.0778666666666668,
      "grad_norm": 0.024950607554765265,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5210
    },
    {
      "epoch": 1.07792,
      "grad_norm": 0.025784250775060084,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 5211
    },
    {
      "epoch": 1.0779733333333334,
      "grad_norm": 0.0236456238962643,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5212
    },
    {
      "epoch": 1.0780266666666667,
      "grad_norm": 0.024584990980544102,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 5213
    },
    {
      "epoch": 1.07808,
      "grad_norm": 0.02529050646679984,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5214
    },
    {
      "epoch": 1.0781333333333334,
      "grad_norm": 0.02363251040700039,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 5215
    },
    {
      "epoch": 1.0781866666666666,
      "grad_norm": 0.02428567789333371,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 5216
    },
    {
      "epoch": 1.07824,
      "grad_norm": 0.024511467782604827,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 5217
    },
    {
      "epoch": 1.0782933333333333,
      "grad_norm": 0.024831662849735276,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5218
    },
    {
      "epoch": 1.0783466666666666,
      "grad_norm": 0.025855555382267654,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5219
    },
    {
      "epoch": 1.0784,
      "grad_norm": 0.025264390244562018,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 5220
    },
    {
      "epoch": 1.0784533333333333,
      "grad_norm": 0.023871935878563465,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 5221
    },
    {
      "epoch": 1.0785066666666667,
      "grad_norm": 0.026483249659725153,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5222
    },
    {
      "epoch": 1.07856,
      "grad_norm": 0.0240112490666037,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5223
    },
    {
      "epoch": 1.0786133333333334,
      "grad_norm": 0.026507753498893716,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 5224
    },
    {
      "epoch": 1.0786666666666667,
      "grad_norm": 0.023537215133218808,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 5225
    },
    {
      "epoch": 1.07872,
      "grad_norm": 0.024864718371935223,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5226
    },
    {
      "epoch": 1.0787733333333334,
      "grad_norm": 0.024681091913744815,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 5227
    },
    {
      "epoch": 1.0788266666666666,
      "grad_norm": 0.0250518950570203,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 5228
    },
    {
      "epoch": 1.07888,
      "grad_norm": 0.02747477705556083,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 5229
    },
    {
      "epoch": 1.0789333333333333,
      "grad_norm": 0.024664303614459957,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 5230
    },
    {
      "epoch": 1.0789866666666668,
      "grad_norm": 0.025562150475701297,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 5231
    },
    {
      "epoch": 1.07904,
      "grad_norm": 0.026523863911728642,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 5232
    },
    {
      "epoch": 1.0790933333333332,
      "grad_norm": 0.023681238835648506,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 5233
    },
    {
      "epoch": 1.0791466666666667,
      "grad_norm": 0.0248659026687544,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5234
    },
    {
      "epoch": 1.0792,
      "grad_norm": 0.024993293672727998,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5235
    },
    {
      "epoch": 1.0792533333333334,
      "grad_norm": 0.024111534580474183,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 5236
    },
    {
      "epoch": 1.0793066666666666,
      "grad_norm": 0.022919767114488506,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 5237
    },
    {
      "epoch": 1.07936,
      "grad_norm": 0.026345372372084036,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "step": 5238
    },
    {
      "epoch": 1.0794133333333333,
      "grad_norm": 0.026079739123239628,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 5239
    },
    {
      "epoch": 1.0794666666666666,
      "grad_norm": 0.023228931165140704,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5240
    },
    {
      "epoch": 1.07952,
      "grad_norm": 0.026384854495492802,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 5241
    },
    {
      "epoch": 1.0795733333333333,
      "grad_norm": 0.026171870824522155,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 5242
    },
    {
      "epoch": 1.0796266666666667,
      "grad_norm": 0.025096135784617002,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 5243
    },
    {
      "epoch": 1.07968,
      "grad_norm": 0.02474846141880474,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "step": 5244
    },
    {
      "epoch": 1.0797333333333334,
      "grad_norm": 0.025352670499425557,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 5245
    },
    {
      "epoch": 1.0797866666666667,
      "grad_norm": 0.0248989504138001,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 5246
    },
    {
      "epoch": 1.07984,
      "grad_norm": 0.024742494392252075,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 5247
    },
    {
      "epoch": 1.0798933333333334,
      "grad_norm": 0.024334365052190592,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 5248
    },
    {
      "epoch": 1.0799466666666666,
      "grad_norm": 0.025373650153087835,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 5249
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.0249894628038705,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 5250
    },
    {
      "epoch": 1.0800533333333333,
      "grad_norm": 0.023012750069240005,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 5251
    },
    {
      "epoch": 1.0801066666666668,
      "grad_norm": 0.02395807501933798,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 5252
    },
    {
      "epoch": 1.08016,
      "grad_norm": 0.024132945055237665,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 5253
    },
    {
      "epoch": 1.0802133333333332,
      "grad_norm": 0.024423196417638255,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 5254
    },
    {
      "epoch": 1.0802666666666667,
      "grad_norm": 0.023676737909240946,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5255
    },
    {
      "epoch": 1.08032,
      "grad_norm": 0.024453039809071007,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 5256
    },
    {
      "epoch": 1.0803733333333334,
      "grad_norm": 0.025644905620883708,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 5257
    },
    {
      "epoch": 1.0804266666666666,
      "grad_norm": 0.025547937008229635,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 5258
    },
    {
      "epoch": 1.08048,
      "grad_norm": 0.026099511241568618,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 5259
    },
    {
      "epoch": 1.0805333333333333,
      "grad_norm": 0.025266224422285048,
      "learning_rate": 0.0001,
      "loss": 1.0329,
      "step": 5260
    },
    {
      "epoch": 1.0805866666666666,
      "grad_norm": 0.025786413691965163,
      "learning_rate": 0.0001,
      "loss": 1.0284,
      "step": 5261
    },
    {
      "epoch": 1.08064,
      "grad_norm": 0.02752110767709119,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 5262
    },
    {
      "epoch": 1.0806933333333333,
      "grad_norm": 0.025811047727335903,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 5263
    },
    {
      "epoch": 1.0807466666666667,
      "grad_norm": 0.023272461434574235,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "step": 5264
    },
    {
      "epoch": 1.0808,
      "grad_norm": 0.024740781019389934,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5265
    },
    {
      "epoch": 1.0808533333333332,
      "grad_norm": 0.02507252438761017,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 5266
    },
    {
      "epoch": 1.0809066666666667,
      "grad_norm": 0.023389362149824792,
      "learning_rate": 0.0001,
      "loss": 1.0622,
      "step": 5267
    },
    {
      "epoch": 1.08096,
      "grad_norm": 0.02646910325773918,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 5268
    },
    {
      "epoch": 1.0810133333333334,
      "grad_norm": 0.02346272743007583,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 5269
    },
    {
      "epoch": 1.0810666666666666,
      "grad_norm": 0.02417442607707923,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 5270
    },
    {
      "epoch": 1.08112,
      "grad_norm": 0.02570454094301308,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5271
    },
    {
      "epoch": 1.0811733333333333,
      "grad_norm": 0.026052069731941813,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 5272
    },
    {
      "epoch": 1.0812266666666668,
      "grad_norm": 0.024585335688651174,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 5273
    },
    {
      "epoch": 1.08128,
      "grad_norm": 0.02429495120438062,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5274
    },
    {
      "epoch": 1.0813333333333333,
      "grad_norm": 0.0261725332651311,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 5275
    },
    {
      "epoch": 1.0813866666666667,
      "grad_norm": 0.022658454776153553,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 5276
    },
    {
      "epoch": 1.08144,
      "grad_norm": 0.025146570222616696,
      "learning_rate": 0.0001,
      "loss": 0.9139,
      "step": 5277
    },
    {
      "epoch": 1.0814933333333334,
      "grad_norm": 0.02505510945683532,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 5278
    },
    {
      "epoch": 1.0815466666666667,
      "grad_norm": 0.02479711734155357,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 5279
    },
    {
      "epoch": 1.0816,
      "grad_norm": 0.025803044646182976,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5280
    },
    {
      "epoch": 1.0816533333333334,
      "grad_norm": 0.025052361828081866,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 5281
    },
    {
      "epoch": 1.0817066666666666,
      "grad_norm": 0.025505340403169475,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 5282
    },
    {
      "epoch": 1.08176,
      "grad_norm": 0.0254430762983551,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5283
    },
    {
      "epoch": 1.0818133333333333,
      "grad_norm": 0.024920615255787287,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 5284
    },
    {
      "epoch": 1.0818666666666668,
      "grad_norm": 0.023514703978667482,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5285
    },
    {
      "epoch": 1.08192,
      "grad_norm": 0.025330257280561083,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 5286
    },
    {
      "epoch": 1.0819733333333332,
      "grad_norm": 0.025273723956993916,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5287
    },
    {
      "epoch": 1.0820266666666667,
      "grad_norm": 0.023572788267187218,
      "learning_rate": 0.0001,
      "loss": 0.9241,
      "step": 5288
    },
    {
      "epoch": 1.08208,
      "grad_norm": 0.026362884646064833,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5289
    },
    {
      "epoch": 1.0821333333333334,
      "grad_norm": 0.025931472237143677,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 5290
    },
    {
      "epoch": 1.0821866666666666,
      "grad_norm": 0.025480346966613648,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5291
    },
    {
      "epoch": 1.08224,
      "grad_norm": 0.024389180876339903,
      "learning_rate": 0.0001,
      "loss": 0.9111,
      "step": 5292
    },
    {
      "epoch": 1.0822933333333333,
      "grad_norm": 0.029610338249835572,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 5293
    },
    {
      "epoch": 1.0823466666666666,
      "grad_norm": 0.024695987449946975,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 5294
    },
    {
      "epoch": 1.0824,
      "grad_norm": 0.025187412093682155,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 5295
    },
    {
      "epoch": 1.0824533333333333,
      "grad_norm": 0.024675170162876986,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5296
    },
    {
      "epoch": 1.0825066666666667,
      "grad_norm": 0.025787551728585562,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 5297
    },
    {
      "epoch": 1.08256,
      "grad_norm": 0.024585606529879508,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 5298
    },
    {
      "epoch": 1.0826133333333334,
      "grad_norm": 0.027011424226386284,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5299
    },
    {
      "epoch": 1.0826666666666667,
      "grad_norm": 0.022205496859619422,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 5300
    },
    {
      "epoch": 1.08272,
      "grad_norm": 0.02435777698181023,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 5301
    },
    {
      "epoch": 1.0827733333333334,
      "grad_norm": 0.025738899839381612,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 5302
    },
    {
      "epoch": 1.0828266666666666,
      "grad_norm": 0.023706670984649056,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 5303
    },
    {
      "epoch": 1.08288,
      "grad_norm": 0.024580742850132176,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 5304
    },
    {
      "epoch": 1.0829333333333333,
      "grad_norm": 0.02710944495779612,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 5305
    },
    {
      "epoch": 1.0829866666666668,
      "grad_norm": 0.025013183213840544,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 5306
    },
    {
      "epoch": 1.08304,
      "grad_norm": 0.023814317817514915,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 5307
    },
    {
      "epoch": 1.0830933333333332,
      "grad_norm": 0.02823032507593627,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5308
    },
    {
      "epoch": 1.0831466666666667,
      "grad_norm": 0.025793055304233873,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 5309
    },
    {
      "epoch": 1.0832,
      "grad_norm": 0.022962508164665794,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5310
    },
    {
      "epoch": 1.0832533333333334,
      "grad_norm": 0.02536606718276414,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 5311
    },
    {
      "epoch": 1.0833066666666666,
      "grad_norm": 0.025578732094647498,
      "learning_rate": 0.0001,
      "loss": 1.0405,
      "step": 5312
    },
    {
      "epoch": 1.08336,
      "grad_norm": 0.024460940276615318,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 5313
    },
    {
      "epoch": 1.0834133333333333,
      "grad_norm": 0.02541022205614345,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5314
    },
    {
      "epoch": 1.0834666666666666,
      "grad_norm": 0.023950725564234755,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 5315
    },
    {
      "epoch": 1.08352,
      "grad_norm": 0.02333053713527254,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5316
    },
    {
      "epoch": 1.0835733333333333,
      "grad_norm": 0.025322714432788055,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 5317
    },
    {
      "epoch": 1.0836266666666667,
      "grad_norm": 0.022581533296769766,
      "learning_rate": 0.0001,
      "loss": 1.0024,
      "step": 5318
    },
    {
      "epoch": 1.08368,
      "grad_norm": 0.025236728845420883,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 5319
    },
    {
      "epoch": 1.0837333333333334,
      "grad_norm": 0.02603869110362313,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 5320
    },
    {
      "epoch": 1.0837866666666667,
      "grad_norm": 0.022699330416731403,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 5321
    },
    {
      "epoch": 1.08384,
      "grad_norm": 0.02380321494859823,
      "learning_rate": 0.0001,
      "loss": 1.0421,
      "step": 5322
    },
    {
      "epoch": 1.0838933333333334,
      "grad_norm": 0.025893481862188875,
      "learning_rate": 0.0001,
      "loss": 0.9044,
      "step": 5323
    },
    {
      "epoch": 1.0839466666666666,
      "grad_norm": 0.022757912505740892,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 5324
    },
    {
      "epoch": 1.084,
      "grad_norm": 0.024910103199777503,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 5325
    },
    {
      "epoch": 1.0840533333333333,
      "grad_norm": 0.023646902186626684,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 5326
    },
    {
      "epoch": 1.0841066666666666,
      "grad_norm": 0.025287801396366993,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 5327
    },
    {
      "epoch": 1.08416,
      "grad_norm": 0.02532176516893675,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 5328
    },
    {
      "epoch": 1.0842133333333333,
      "grad_norm": 0.024344126277565426,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 5329
    },
    {
      "epoch": 1.0842666666666667,
      "grad_norm": 0.02302841515658075,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 5330
    },
    {
      "epoch": 1.08432,
      "grad_norm": 0.024091880290035634,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 5331
    },
    {
      "epoch": 1.0843733333333334,
      "grad_norm": 0.02261102631708662,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 5332
    },
    {
      "epoch": 1.0844266666666666,
      "grad_norm": 0.026634908092377847,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 5333
    },
    {
      "epoch": 1.08448,
      "grad_norm": 0.023440305241753452,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5334
    },
    {
      "epoch": 1.0845333333333333,
      "grad_norm": 0.023652972990245005,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5335
    },
    {
      "epoch": 1.0845866666666666,
      "grad_norm": 0.02410443823572375,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 5336
    },
    {
      "epoch": 1.08464,
      "grad_norm": 0.022305585214441568,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 5337
    },
    {
      "epoch": 1.0846933333333333,
      "grad_norm": 0.024610330099531445,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5338
    },
    {
      "epoch": 1.0847466666666667,
      "grad_norm": 0.02398003296396921,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 5339
    },
    {
      "epoch": 1.0848,
      "grad_norm": 0.026887015884443047,
      "learning_rate": 0.0001,
      "loss": 1.0488,
      "step": 5340
    },
    {
      "epoch": 1.0848533333333332,
      "grad_norm": 0.025004201407156392,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5341
    },
    {
      "epoch": 1.0849066666666667,
      "grad_norm": 0.024849548894843154,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 5342
    },
    {
      "epoch": 1.08496,
      "grad_norm": 0.024567490018684985,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5343
    },
    {
      "epoch": 1.0850133333333334,
      "grad_norm": 0.027804194589126436,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5344
    },
    {
      "epoch": 1.0850666666666666,
      "grad_norm": 0.023651049844225842,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 5345
    },
    {
      "epoch": 1.08512,
      "grad_norm": 0.023989121112610545,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 5346
    },
    {
      "epoch": 1.0851733333333333,
      "grad_norm": 0.025907084512737953,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 5347
    },
    {
      "epoch": 1.0852266666666668,
      "grad_norm": 0.025459862371398176,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 5348
    },
    {
      "epoch": 1.08528,
      "grad_norm": 0.023120400860888547,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5349
    },
    {
      "epoch": 1.0853333333333333,
      "grad_norm": 0.025858734340119698,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 5350
    },
    {
      "epoch": 1.0853866666666667,
      "grad_norm": 0.0265105954956132,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 5351
    },
    {
      "epoch": 1.08544,
      "grad_norm": 0.02588158944114845,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 5352
    },
    {
      "epoch": 1.0854933333333334,
      "grad_norm": 0.024023520214110826,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5353
    },
    {
      "epoch": 1.0855466666666667,
      "grad_norm": 0.02506856201793591,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 5354
    },
    {
      "epoch": 1.0856,
      "grad_norm": 0.026096256505061536,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 5355
    },
    {
      "epoch": 1.0856533333333334,
      "grad_norm": 0.025510106321482855,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 5356
    },
    {
      "epoch": 1.0857066666666666,
      "grad_norm": 0.026442092484198303,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 5357
    },
    {
      "epoch": 1.08576,
      "grad_norm": 0.024784076146785492,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5358
    },
    {
      "epoch": 1.0858133333333333,
      "grad_norm": 0.025018399599153723,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5359
    },
    {
      "epoch": 1.0858666666666668,
      "grad_norm": 0.025013926898957543,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 5360
    },
    {
      "epoch": 1.08592,
      "grad_norm": 0.02447246363797203,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 5361
    },
    {
      "epoch": 1.0859733333333332,
      "grad_norm": 0.024433468146005027,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 5362
    },
    {
      "epoch": 1.0860266666666667,
      "grad_norm": 0.02644352761663835,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5363
    },
    {
      "epoch": 1.08608,
      "grad_norm": 0.024352974144211437,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 5364
    },
    {
      "epoch": 1.0861333333333334,
      "grad_norm": 0.024798678635210007,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 5365
    },
    {
      "epoch": 1.0861866666666666,
      "grad_norm": 0.02505191942233212,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 5366
    },
    {
      "epoch": 1.08624,
      "grad_norm": 0.024996038481383355,
      "learning_rate": 0.0001,
      "loss": 0.902,
      "step": 5367
    },
    {
      "epoch": 1.0862933333333333,
      "grad_norm": 0.023053278259743643,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5368
    },
    {
      "epoch": 1.0863466666666666,
      "grad_norm": 0.024972726893054322,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 5369
    },
    {
      "epoch": 1.0864,
      "grad_norm": 0.025693243222708006,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 5370
    },
    {
      "epoch": 1.0864533333333333,
      "grad_norm": 0.02449217519163733,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 5371
    },
    {
      "epoch": 1.0865066666666667,
      "grad_norm": 0.02563057744620433,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 5372
    },
    {
      "epoch": 1.08656,
      "grad_norm": 0.024149620346383266,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 5373
    },
    {
      "epoch": 1.0866133333333334,
      "grad_norm": 0.026533522091168205,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 5374
    },
    {
      "epoch": 1.0866666666666667,
      "grad_norm": 0.02414943391925214,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 5375
    },
    {
      "epoch": 1.08672,
      "grad_norm": 0.025021303212912415,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 5376
    },
    {
      "epoch": 1.0867733333333334,
      "grad_norm": 0.026567666909216713,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 5377
    },
    {
      "epoch": 1.0868266666666666,
      "grad_norm": 0.025236826110992525,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 5378
    },
    {
      "epoch": 1.08688,
      "grad_norm": 0.02618787583234989,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 5379
    },
    {
      "epoch": 1.0869333333333333,
      "grad_norm": 0.025130382335461797,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5380
    },
    {
      "epoch": 1.0869866666666668,
      "grad_norm": 0.026283314548422504,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 5381
    },
    {
      "epoch": 1.08704,
      "grad_norm": 0.025166173561106064,
      "learning_rate": 0.0001,
      "loss": 1.0352,
      "step": 5382
    },
    {
      "epoch": 1.0870933333333332,
      "grad_norm": 0.0254211805339721,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 5383
    },
    {
      "epoch": 1.0871466666666667,
      "grad_norm": 0.024395632773566208,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 5384
    },
    {
      "epoch": 1.0872,
      "grad_norm": 0.026257025937105702,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 5385
    },
    {
      "epoch": 1.0872533333333334,
      "grad_norm": 0.027387356422299225,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 5386
    },
    {
      "epoch": 1.0873066666666666,
      "grad_norm": 0.024420624822488784,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 5387
    },
    {
      "epoch": 1.0873599999999999,
      "grad_norm": 0.02734236772244979,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 5388
    },
    {
      "epoch": 1.0874133333333333,
      "grad_norm": 0.02361446751439596,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 5389
    },
    {
      "epoch": 1.0874666666666666,
      "grad_norm": 0.024927502897051746,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5390
    },
    {
      "epoch": 1.08752,
      "grad_norm": 0.02552577316148973,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5391
    },
    {
      "epoch": 1.0875733333333333,
      "grad_norm": 0.02300394647804756,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5392
    },
    {
      "epoch": 1.0876266666666667,
      "grad_norm": 0.02592992979583403,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 5393
    },
    {
      "epoch": 1.08768,
      "grad_norm": 0.024031486040159238,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 5394
    },
    {
      "epoch": 1.0877333333333334,
      "grad_norm": 0.024070061247227326,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 5395
    },
    {
      "epoch": 1.0877866666666667,
      "grad_norm": 0.022553830932739702,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 5396
    },
    {
      "epoch": 1.08784,
      "grad_norm": 0.02563667349521712,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 5397
    },
    {
      "epoch": 1.0878933333333334,
      "grad_norm": 0.02342864423376892,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 5398
    },
    {
      "epoch": 1.0879466666666666,
      "grad_norm": 0.024095744759494494,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 5399
    },
    {
      "epoch": 1.088,
      "grad_norm": 0.02495146061766215,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 5400
    },
    {
      "epoch": 1.088,
      "eval_accuracy": 0.6178257006654867,
      "eval_loss": 1.367598533630371,
      "eval_runtime": 63.3325,
      "eval_samples_per_second": 15.79,
      "eval_steps_per_second": 0.505,
      "step": 5400
    },
    {
      "epoch": 1.0880533333333333,
      "grad_norm": 0.026224537113231177,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 5401
    },
    {
      "epoch": 1.0881066666666666,
      "grad_norm": 0.025601732792011826,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 5402
    },
    {
      "epoch": 1.08816,
      "grad_norm": 0.023201105954557974,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 5403
    },
    {
      "epoch": 1.0882133333333333,
      "grad_norm": 0.024741836494257805,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5404
    },
    {
      "epoch": 1.0882666666666667,
      "grad_norm": 0.025199460644633583,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 5405
    },
    {
      "epoch": 1.08832,
      "grad_norm": 0.02309612830357707,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 5406
    },
    {
      "epoch": 1.0883733333333334,
      "grad_norm": 0.023735102714719396,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 5407
    },
    {
      "epoch": 1.0884266666666667,
      "grad_norm": 0.02482914382608947,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 5408
    },
    {
      "epoch": 1.0884800000000001,
      "grad_norm": 0.025343248333721192,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 5409
    },
    {
      "epoch": 1.0885333333333334,
      "grad_norm": 0.024348281477778188,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 5410
    },
    {
      "epoch": 1.0885866666666666,
      "grad_norm": 0.022926963523185316,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5411
    },
    {
      "epoch": 1.08864,
      "grad_norm": 0.024187696996960606,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 5412
    },
    {
      "epoch": 1.0886933333333333,
      "grad_norm": 0.024792651077237094,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 5413
    },
    {
      "epoch": 1.0887466666666668,
      "grad_norm": 0.02494666170137011,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 5414
    },
    {
      "epoch": 1.0888,
      "grad_norm": 0.02384801198646467,
      "learning_rate": 0.0001,
      "loss": 0.9112,
      "step": 5415
    },
    {
      "epoch": 1.0888533333333332,
      "grad_norm": 0.024319686936650094,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 5416
    },
    {
      "epoch": 1.0889066666666667,
      "grad_norm": 0.025130572400233187,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 5417
    },
    {
      "epoch": 1.08896,
      "grad_norm": 0.023886618955775898,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 5418
    },
    {
      "epoch": 1.0890133333333334,
      "grad_norm": 0.02352342565718151,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5419
    },
    {
      "epoch": 1.0890666666666666,
      "grad_norm": 0.02366827389206715,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 5420
    },
    {
      "epoch": 1.08912,
      "grad_norm": 0.02367958789660692,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 5421
    },
    {
      "epoch": 1.0891733333333333,
      "grad_norm": 0.02461895470602719,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 5422
    },
    {
      "epoch": 1.0892266666666666,
      "grad_norm": 0.023972593012761816,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 5423
    },
    {
      "epoch": 1.08928,
      "grad_norm": 0.02432821547324431,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 5424
    },
    {
      "epoch": 1.0893333333333333,
      "grad_norm": 0.024156709701936115,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5425
    },
    {
      "epoch": 1.0893866666666667,
      "grad_norm": 0.023556472225441473,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 5426
    },
    {
      "epoch": 1.08944,
      "grad_norm": 0.025053548354886553,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 5427
    },
    {
      "epoch": 1.0894933333333334,
      "grad_norm": 0.024466834334306176,
      "learning_rate": 0.0001,
      "loss": 1.0437,
      "step": 5428
    },
    {
      "epoch": 1.0895466666666667,
      "grad_norm": 0.024203978424825492,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 5429
    },
    {
      "epoch": 1.0896,
      "grad_norm": 0.02614689206315233,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 5430
    },
    {
      "epoch": 1.0896533333333334,
      "grad_norm": 0.024320664826792477,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 5431
    },
    {
      "epoch": 1.0897066666666666,
      "grad_norm": 0.0245692734163972,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5432
    },
    {
      "epoch": 1.08976,
      "grad_norm": 0.024932726612747202,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 5433
    },
    {
      "epoch": 1.0898133333333333,
      "grad_norm": 0.023510111109406026,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 5434
    },
    {
      "epoch": 1.0898666666666668,
      "grad_norm": 0.024115911620074815,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 5435
    },
    {
      "epoch": 1.08992,
      "grad_norm": 0.026153199679287673,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5436
    },
    {
      "epoch": 1.0899733333333332,
      "grad_norm": 0.02539074759597056,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 5437
    },
    {
      "epoch": 1.0900266666666667,
      "grad_norm": 0.022792275167629078,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5438
    },
    {
      "epoch": 1.09008,
      "grad_norm": 0.02328735690049007,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 5439
    },
    {
      "epoch": 1.0901333333333334,
      "grad_norm": 0.025882206337241163,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 5440
    },
    {
      "epoch": 1.0901866666666666,
      "grad_norm": 0.024270793696704224,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 5441
    },
    {
      "epoch": 1.09024,
      "grad_norm": 0.025119120256480477,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5442
    },
    {
      "epoch": 1.0902933333333333,
      "grad_norm": 0.023912624526101187,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 5443
    },
    {
      "epoch": 1.0903466666666666,
      "grad_norm": 0.022620910837785578,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5444
    },
    {
      "epoch": 1.0904,
      "grad_norm": 0.025229680860955193,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5445
    },
    {
      "epoch": 1.0904533333333333,
      "grad_norm": 0.023531799012144906,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 5446
    },
    {
      "epoch": 1.0905066666666667,
      "grad_norm": 0.026610700778689336,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5447
    },
    {
      "epoch": 1.09056,
      "grad_norm": 0.023966339676864,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 5448
    },
    {
      "epoch": 1.0906133333333334,
      "grad_norm": 0.02436687284239219,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 5449
    },
    {
      "epoch": 1.0906666666666667,
      "grad_norm": 0.024478601058868316,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5450
    },
    {
      "epoch": 1.09072,
      "grad_norm": 0.02402488599794999,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 5451
    },
    {
      "epoch": 1.0907733333333334,
      "grad_norm": 0.0269656007515562,
      "learning_rate": 0.0001,
      "loss": 1.0239,
      "step": 5452
    },
    {
      "epoch": 1.0908266666666666,
      "grad_norm": 0.023725201654153885,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5453
    },
    {
      "epoch": 1.09088,
      "grad_norm": 0.02413305870649194,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 5454
    },
    {
      "epoch": 1.0909333333333333,
      "grad_norm": 0.025672618515907207,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 5455
    },
    {
      "epoch": 1.0909866666666668,
      "grad_norm": 0.02527717904014668,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 5456
    },
    {
      "epoch": 1.09104,
      "grad_norm": 0.024848495817988685,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5457
    },
    {
      "epoch": 1.0910933333333332,
      "grad_norm": 0.02358748069487493,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 5458
    },
    {
      "epoch": 1.0911466666666667,
      "grad_norm": 0.02350354511835056,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5459
    },
    {
      "epoch": 1.0912,
      "grad_norm": 0.02462044142797206,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5460
    },
    {
      "epoch": 1.0912533333333334,
      "grad_norm": 0.023736111059015342,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5461
    },
    {
      "epoch": 1.0913066666666666,
      "grad_norm": 0.023956371225173648,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 5462
    },
    {
      "epoch": 1.0913599999999999,
      "grad_norm": 0.025746858164159583,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 5463
    },
    {
      "epoch": 1.0914133333333333,
      "grad_norm": 0.02407267474699161,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 5464
    },
    {
      "epoch": 1.0914666666666666,
      "grad_norm": 0.025078672595403362,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5465
    },
    {
      "epoch": 1.09152,
      "grad_norm": 0.025313457038343607,
      "learning_rate": 0.0001,
      "loss": 1.0528,
      "step": 5466
    },
    {
      "epoch": 1.0915733333333333,
      "grad_norm": 0.026092883415715005,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 5467
    },
    {
      "epoch": 1.0916266666666667,
      "grad_norm": 0.024572573491396448,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 5468
    },
    {
      "epoch": 1.09168,
      "grad_norm": 0.027021746294949116,
      "learning_rate": 0.0001,
      "loss": 1.0039,
      "step": 5469
    },
    {
      "epoch": 1.0917333333333334,
      "grad_norm": 0.025657355143453877,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5470
    },
    {
      "epoch": 1.0917866666666667,
      "grad_norm": 0.024589722872828998,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 5471
    },
    {
      "epoch": 1.09184,
      "grad_norm": 0.02381835053729346,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 5472
    },
    {
      "epoch": 1.0918933333333334,
      "grad_norm": 0.024518800166704807,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 5473
    },
    {
      "epoch": 1.0919466666666666,
      "grad_norm": 0.024671508611492036,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5474
    },
    {
      "epoch": 1.092,
      "grad_norm": 0.02345440571504801,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 5475
    },
    {
      "epoch": 1.0920533333333333,
      "grad_norm": 0.02515687847512022,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 5476
    },
    {
      "epoch": 1.0921066666666666,
      "grad_norm": 0.025980052149216358,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 5477
    },
    {
      "epoch": 1.09216,
      "grad_norm": 0.026338872160574574,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 5478
    },
    {
      "epoch": 1.0922133333333333,
      "grad_norm": 0.026729720347720337,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 5479
    },
    {
      "epoch": 1.0922666666666667,
      "grad_norm": 0.025831101893613106,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 5480
    },
    {
      "epoch": 1.09232,
      "grad_norm": 0.02440835320323529,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 5481
    },
    {
      "epoch": 1.0923733333333334,
      "grad_norm": 0.02495663615448202,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 5482
    },
    {
      "epoch": 1.0924266666666667,
      "grad_norm": 0.024397802027621093,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 5483
    },
    {
      "epoch": 1.0924800000000001,
      "grad_norm": 0.0243684812992055,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 5484
    },
    {
      "epoch": 1.0925333333333334,
      "grad_norm": 0.02556607749782903,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 5485
    },
    {
      "epoch": 1.0925866666666666,
      "grad_norm": 0.025519487922027122,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 5486
    },
    {
      "epoch": 1.09264,
      "grad_norm": 0.025918421020721297,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 5487
    },
    {
      "epoch": 1.0926933333333333,
      "grad_norm": 0.025960295187532657,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 5488
    },
    {
      "epoch": 1.0927466666666668,
      "grad_norm": 0.024648554929595633,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "step": 5489
    },
    {
      "epoch": 1.0928,
      "grad_norm": 0.025293776161721047,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 5490
    },
    {
      "epoch": 1.0928533333333332,
      "grad_norm": 0.028177915555077808,
      "learning_rate": 0.0001,
      "loss": 0.8743,
      "step": 5491
    },
    {
      "epoch": 1.0929066666666667,
      "grad_norm": 0.024112960750611614,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 5492
    },
    {
      "epoch": 1.09296,
      "grad_norm": 0.025509482477980194,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 5493
    },
    {
      "epoch": 1.0930133333333334,
      "grad_norm": 0.028507720205317326,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 5494
    },
    {
      "epoch": 1.0930666666666666,
      "grad_norm": 0.02429294420923327,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 5495
    },
    {
      "epoch": 1.09312,
      "grad_norm": 0.026587288783749274,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 5496
    },
    {
      "epoch": 1.0931733333333333,
      "grad_norm": 0.02561311400589922,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 5497
    },
    {
      "epoch": 1.0932266666666666,
      "grad_norm": 0.02686784394429803,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 5498
    },
    {
      "epoch": 1.09328,
      "grad_norm": 0.025079015337443465,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 5499
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 0.02323718849562416,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5500
    },
    {
      "epoch": 1.0933866666666667,
      "grad_norm": 0.024345687091664295,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5501
    },
    {
      "epoch": 1.09344,
      "grad_norm": 0.024207495952278255,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 5502
    },
    {
      "epoch": 1.0934933333333334,
      "grad_norm": 0.024313769875642047,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 5503
    },
    {
      "epoch": 1.0935466666666667,
      "grad_norm": 0.025327972583034992,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 5504
    },
    {
      "epoch": 1.0936,
      "grad_norm": 0.025052389289688514,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 5505
    },
    {
      "epoch": 1.0936533333333334,
      "grad_norm": 0.02386429648221201,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 5506
    },
    {
      "epoch": 1.0937066666666666,
      "grad_norm": 0.024641059537914876,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "step": 5507
    },
    {
      "epoch": 1.09376,
      "grad_norm": 0.02423047945770857,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5508
    },
    {
      "epoch": 1.0938133333333333,
      "grad_norm": 0.02400645946069786,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 5509
    },
    {
      "epoch": 1.0938666666666668,
      "grad_norm": 0.027153199835011965,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 5510
    },
    {
      "epoch": 1.09392,
      "grad_norm": 0.025305947636713472,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5511
    },
    {
      "epoch": 1.0939733333333332,
      "grad_norm": 0.02415912504660784,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 5512
    },
    {
      "epoch": 1.0940266666666667,
      "grad_norm": 0.02281209968910904,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5513
    },
    {
      "epoch": 1.09408,
      "grad_norm": 0.02539451166075499,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5514
    },
    {
      "epoch": 1.0941333333333334,
      "grad_norm": 0.023732536477669264,
      "learning_rate": 0.0001,
      "loss": 0.8877,
      "step": 5515
    },
    {
      "epoch": 1.0941866666666666,
      "grad_norm": 0.025433957947910747,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 5516
    },
    {
      "epoch": 1.09424,
      "grad_norm": 0.024349360944002307,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 5517
    },
    {
      "epoch": 1.0942933333333333,
      "grad_norm": 0.024079554256786904,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 5518
    },
    {
      "epoch": 1.0943466666666666,
      "grad_norm": 0.02540603590913862,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 5519
    },
    {
      "epoch": 1.0944,
      "grad_norm": 0.025205490515330112,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 5520
    },
    {
      "epoch": 1.0944533333333333,
      "grad_norm": 0.025192362313165743,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 5521
    },
    {
      "epoch": 1.0945066666666667,
      "grad_norm": 0.02389534395200932,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5522
    },
    {
      "epoch": 1.09456,
      "grad_norm": 0.026009713596987845,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 5523
    },
    {
      "epoch": 1.0946133333333332,
      "grad_norm": 0.026706366973114945,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 5524
    },
    {
      "epoch": 1.0946666666666667,
      "grad_norm": 0.025290129776536014,
      "learning_rate": 0.0001,
      "loss": 1.0185,
      "step": 5525
    },
    {
      "epoch": 1.09472,
      "grad_norm": 0.024157523645464012,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 5526
    },
    {
      "epoch": 1.0947733333333334,
      "grad_norm": 0.0245954610327734,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 5527
    },
    {
      "epoch": 1.0948266666666666,
      "grad_norm": 0.026173827662226718,
      "learning_rate": 0.0001,
      "loss": 1.0709,
      "step": 5528
    },
    {
      "epoch": 1.09488,
      "grad_norm": 0.023698757322461364,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5529
    },
    {
      "epoch": 1.0949333333333333,
      "grad_norm": 0.026627898727698572,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5530
    },
    {
      "epoch": 1.0949866666666668,
      "grad_norm": 0.023516227530357883,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 5531
    },
    {
      "epoch": 1.09504,
      "grad_norm": 0.0258707525867235,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 5532
    },
    {
      "epoch": 1.0950933333333333,
      "grad_norm": 0.02380909662976778,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5533
    },
    {
      "epoch": 1.0951466666666667,
      "grad_norm": 0.02412126227757258,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 5534
    },
    {
      "epoch": 1.0952,
      "grad_norm": 0.023784390006525238,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5535
    },
    {
      "epoch": 1.0952533333333334,
      "grad_norm": 0.023908122287299584,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5536
    },
    {
      "epoch": 1.0953066666666667,
      "grad_norm": 0.02495327254541312,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 5537
    },
    {
      "epoch": 1.09536,
      "grad_norm": 0.022849704639174722,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5538
    },
    {
      "epoch": 1.0954133333333333,
      "grad_norm": 0.022978519698851823,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5539
    },
    {
      "epoch": 1.0954666666666666,
      "grad_norm": 0.025093078661226637,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 5540
    },
    {
      "epoch": 1.09552,
      "grad_norm": 0.02359525107410276,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 5541
    },
    {
      "epoch": 1.0955733333333333,
      "grad_norm": 0.024108005646971176,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 5542
    },
    {
      "epoch": 1.0956266666666667,
      "grad_norm": 0.025537429171524347,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 5543
    },
    {
      "epoch": 1.09568,
      "grad_norm": 0.02386427586929367,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5544
    },
    {
      "epoch": 1.0957333333333334,
      "grad_norm": 0.023058191467297803,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 5545
    },
    {
      "epoch": 1.0957866666666667,
      "grad_norm": 0.024275418636215376,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 5546
    },
    {
      "epoch": 1.09584,
      "grad_norm": 0.024037826177039312,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "step": 5547
    },
    {
      "epoch": 1.0958933333333334,
      "grad_norm": 0.02364432305260219,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 5548
    },
    {
      "epoch": 1.0959466666666666,
      "grad_norm": 0.029566854805905457,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 5549
    },
    {
      "epoch": 1.096,
      "grad_norm": 0.02518245641346586,
      "learning_rate": 0.0001,
      "loss": 1.0744,
      "step": 5550
    },
    {
      "epoch": 1.0960533333333333,
      "grad_norm": 0.026726028700560144,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 5551
    },
    {
      "epoch": 1.0961066666666666,
      "grad_norm": 0.024232968064882086,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 5552
    },
    {
      "epoch": 1.09616,
      "grad_norm": 0.024462718793837768,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 5553
    },
    {
      "epoch": 1.0962133333333333,
      "grad_norm": 0.023697338249250473,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 5554
    },
    {
      "epoch": 1.0962666666666667,
      "grad_norm": 0.023920908668427162,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 5555
    },
    {
      "epoch": 1.09632,
      "grad_norm": 0.026159281605135594,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 5556
    },
    {
      "epoch": 1.0963733333333334,
      "grad_norm": 0.024465679634085833,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 5557
    },
    {
      "epoch": 1.0964266666666667,
      "grad_norm": 0.024314326937403305,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 5558
    },
    {
      "epoch": 1.09648,
      "grad_norm": 0.027373361697239394,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5559
    },
    {
      "epoch": 1.0965333333333334,
      "grad_norm": 0.0240621327077373,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 5560
    },
    {
      "epoch": 1.0965866666666666,
      "grad_norm": 0.025142646854822637,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5561
    },
    {
      "epoch": 1.09664,
      "grad_norm": 0.023181108916952076,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5562
    },
    {
      "epoch": 1.0966933333333333,
      "grad_norm": 0.024600812003252006,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 5563
    },
    {
      "epoch": 1.0967466666666668,
      "grad_norm": 0.023669023926223963,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "step": 5564
    },
    {
      "epoch": 1.0968,
      "grad_norm": 0.0237209850728578,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 5565
    },
    {
      "epoch": 1.0968533333333332,
      "grad_norm": 0.028992624386155748,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5566
    },
    {
      "epoch": 1.0969066666666667,
      "grad_norm": 0.024463736704119738,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 5567
    },
    {
      "epoch": 1.09696,
      "grad_norm": 0.024305595912931466,
      "learning_rate": 0.0001,
      "loss": 1.0543,
      "step": 5568
    },
    {
      "epoch": 1.0970133333333334,
      "grad_norm": 0.02619147535947587,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 5569
    },
    {
      "epoch": 1.0970666666666666,
      "grad_norm": 0.027049589456740544,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 5570
    },
    {
      "epoch": 1.09712,
      "grad_norm": 0.024151371207620335,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 5571
    },
    {
      "epoch": 1.0971733333333333,
      "grad_norm": 0.02515828925166502,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5572
    },
    {
      "epoch": 1.0972266666666666,
      "grad_norm": 0.025517565646948834,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 5573
    },
    {
      "epoch": 1.09728,
      "grad_norm": 0.024893452909516393,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 5574
    },
    {
      "epoch": 1.0973333333333333,
      "grad_norm": 0.024815765827224622,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 5575
    },
    {
      "epoch": 1.0973866666666667,
      "grad_norm": 0.025383650210339174,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 5576
    },
    {
      "epoch": 1.09744,
      "grad_norm": 0.02413081654084862,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5577
    },
    {
      "epoch": 1.0974933333333334,
      "grad_norm": 0.02846082244314978,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5578
    },
    {
      "epoch": 1.0975466666666667,
      "grad_norm": 0.025297815564696523,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 5579
    },
    {
      "epoch": 1.0976,
      "grad_norm": 0.024212633532749078,
      "learning_rate": 0.0001,
      "loss": 0.9084,
      "step": 5580
    },
    {
      "epoch": 1.0976533333333334,
      "grad_norm": 0.026204464622635305,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 5581
    },
    {
      "epoch": 1.0977066666666666,
      "grad_norm": 0.026529641022938713,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 5582
    },
    {
      "epoch": 1.09776,
      "grad_norm": 0.024222035290744282,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 5583
    },
    {
      "epoch": 1.0978133333333333,
      "grad_norm": 0.02720147677451512,
      "learning_rate": 0.0001,
      "loss": 0.9299,
      "step": 5584
    },
    {
      "epoch": 1.0978666666666668,
      "grad_norm": 0.025859668384330164,
      "learning_rate": 0.0001,
      "loss": 1.0551,
      "step": 5585
    },
    {
      "epoch": 1.09792,
      "grad_norm": 0.024759258508085445,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 5586
    },
    {
      "epoch": 1.0979733333333332,
      "grad_norm": 0.026791484921885295,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 5587
    },
    {
      "epoch": 1.0980266666666667,
      "grad_norm": 0.025251806429387024,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 5588
    },
    {
      "epoch": 1.09808,
      "grad_norm": 0.025150275960437767,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 5589
    },
    {
      "epoch": 1.0981333333333334,
      "grad_norm": 0.02716835437695572,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 5590
    },
    {
      "epoch": 1.0981866666666666,
      "grad_norm": 0.04222119425145647,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 5591
    },
    {
      "epoch": 1.09824,
      "grad_norm": 0.02361710058004188,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 5592
    },
    {
      "epoch": 1.0982933333333333,
      "grad_norm": 0.026812891173321248,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 5593
    },
    {
      "epoch": 1.0983466666666666,
      "grad_norm": 0.024357590322644226,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 5594
    },
    {
      "epoch": 1.0984,
      "grad_norm": 0.024015343468942723,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 5595
    },
    {
      "epoch": 1.0984533333333333,
      "grad_norm": 0.02484493646718331,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 5596
    },
    {
      "epoch": 1.0985066666666667,
      "grad_norm": 0.024906538892755983,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 5597
    },
    {
      "epoch": 1.09856,
      "grad_norm": 0.025324817136249195,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 5598
    },
    {
      "epoch": 1.0986133333333332,
      "grad_norm": 0.024933350892388732,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 5599
    },
    {
      "epoch": 1.0986666666666667,
      "grad_norm": 0.025556073803813823,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 5600
    },
    {
      "epoch": 1.0986666666666667,
      "eval_accuracy": 0.6178924385686356,
      "eval_loss": 1.3665144443511963,
      "eval_runtime": 62.4704,
      "eval_samples_per_second": 16.008,
      "eval_steps_per_second": 0.512,
      "step": 5600
    },
    {
      "epoch": 1.09872,
      "grad_norm": 0.022965628125048817,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 5601
    },
    {
      "epoch": 1.0987733333333334,
      "grad_norm": 0.026472139108689164,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 5602
    },
    {
      "epoch": 1.0988266666666666,
      "grad_norm": 0.023245512185718263,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 5603
    },
    {
      "epoch": 1.09888,
      "grad_norm": 0.0237020922065763,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 5604
    },
    {
      "epoch": 1.0989333333333333,
      "grad_norm": 0.023382850068568852,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 5605
    },
    {
      "epoch": 1.0989866666666668,
      "grad_norm": 0.026205970827593975,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 5606
    },
    {
      "epoch": 1.09904,
      "grad_norm": 0.023289236472093456,
      "learning_rate": 0.0001,
      "loss": 0.8998,
      "step": 5607
    },
    {
      "epoch": 1.0990933333333333,
      "grad_norm": 0.025170868460205054,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 5608
    },
    {
      "epoch": 1.0991466666666667,
      "grad_norm": 0.024952962375621522,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 5609
    },
    {
      "epoch": 1.0992,
      "grad_norm": 0.023920236053097964,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 5610
    },
    {
      "epoch": 1.0992533333333334,
      "grad_norm": 0.024901945574898696,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 5611
    },
    {
      "epoch": 1.0993066666666667,
      "grad_norm": 0.023464531803288644,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 5612
    },
    {
      "epoch": 1.09936,
      "grad_norm": 0.025834052635356076,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 5613
    },
    {
      "epoch": 1.0994133333333334,
      "grad_norm": 0.022562124218375935,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 5614
    },
    {
      "epoch": 1.0994666666666666,
      "grad_norm": 0.023710194314329535,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 5615
    },
    {
      "epoch": 1.09952,
      "grad_norm": 0.024191642781317118,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 5616
    },
    {
      "epoch": 1.0995733333333333,
      "grad_norm": 0.023512866656303907,
      "learning_rate": 0.0001,
      "loss": 0.935,
      "step": 5617
    },
    {
      "epoch": 1.0996266666666668,
      "grad_norm": 0.022034183796319117,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 5618
    },
    {
      "epoch": 1.09968,
      "grad_norm": 0.024091065126488304,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 5619
    },
    {
      "epoch": 1.0997333333333332,
      "grad_norm": 0.02631728433793347,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5620
    },
    {
      "epoch": 1.0997866666666667,
      "grad_norm": 0.023056178430352355,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 5621
    },
    {
      "epoch": 1.09984,
      "grad_norm": 0.02316053756039938,
      "learning_rate": 0.0001,
      "loss": 1.0196,
      "step": 5622
    },
    {
      "epoch": 1.0998933333333334,
      "grad_norm": 0.024875854208064735,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 5623
    },
    {
      "epoch": 1.0999466666666666,
      "grad_norm": 0.04097373235686131,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 5624
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.024285001828013297,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 5625
    },
    {
      "epoch": 1.1000533333333333,
      "grad_norm": 0.024307150573079313,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 5626
    },
    {
      "epoch": 1.1001066666666666,
      "grad_norm": 0.025045693615842104,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 5627
    },
    {
      "epoch": 1.10016,
      "grad_norm": 0.02560254143130997,
      "learning_rate": 0.0001,
      "loss": 1.0137,
      "step": 5628
    },
    {
      "epoch": 1.1002133333333333,
      "grad_norm": 0.02400245519884449,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 5629
    },
    {
      "epoch": 1.1002666666666667,
      "grad_norm": 0.02669355940761002,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 5630
    },
    {
      "epoch": 1.10032,
      "grad_norm": 0.026752987986533135,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 5631
    },
    {
      "epoch": 1.1003733333333334,
      "grad_norm": 0.02369763495097928,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 5632
    },
    {
      "epoch": 1.1004266666666667,
      "grad_norm": 0.023468803176476934,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 5633
    },
    {
      "epoch": 1.10048,
      "grad_norm": 0.02528860712090332,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 5634
    },
    {
      "epoch": 1.1005333333333334,
      "grad_norm": 0.02440177407730071,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 5635
    },
    {
      "epoch": 1.1005866666666666,
      "grad_norm": 0.025484259026444595,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 5636
    },
    {
      "epoch": 1.10064,
      "grad_norm": 0.02388397905005154,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 5637
    },
    {
      "epoch": 1.1006933333333333,
      "grad_norm": 0.024472034579618985,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 5638
    },
    {
      "epoch": 1.1007466666666668,
      "grad_norm": 0.023661322553545076,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5639
    },
    {
      "epoch": 1.1008,
      "grad_norm": 0.02432118609880922,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 5640
    },
    {
      "epoch": 1.1008533333333332,
      "grad_norm": 0.02266564509495085,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5641
    },
    {
      "epoch": 1.1009066666666667,
      "grad_norm": 0.02285050556508099,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 5642
    },
    {
      "epoch": 1.10096,
      "grad_norm": 0.024718541652846194,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 5643
    },
    {
      "epoch": 1.1010133333333334,
      "grad_norm": 0.024325225605557617,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 5644
    },
    {
      "epoch": 1.1010666666666666,
      "grad_norm": 0.02601902816423476,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 5645
    },
    {
      "epoch": 1.10112,
      "grad_norm": 0.02504433368430826,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 5646
    },
    {
      "epoch": 1.1011733333333333,
      "grad_norm": 0.023961213857143518,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 5647
    },
    {
      "epoch": 1.1012266666666666,
      "grad_norm": 0.024519096485024965,
      "learning_rate": 0.0001,
      "loss": 1.0653,
      "step": 5648
    },
    {
      "epoch": 1.10128,
      "grad_norm": 0.02386774963871836,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 5649
    },
    {
      "epoch": 1.1013333333333333,
      "grad_norm": 0.02486710715458161,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "step": 5650
    },
    {
      "epoch": 1.1013866666666667,
      "grad_norm": 0.025655902439552087,
      "learning_rate": 0.0001,
      "loss": 0.9104,
      "step": 5651
    },
    {
      "epoch": 1.10144,
      "grad_norm": 0.024209910444680963,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 5652
    },
    {
      "epoch": 1.1014933333333334,
      "grad_norm": 0.02365821642766958,
      "learning_rate": 0.0001,
      "loss": 1.0512,
      "step": 5653
    },
    {
      "epoch": 1.1015466666666667,
      "grad_norm": 0.023137532311931094,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 5654
    },
    {
      "epoch": 1.1016,
      "grad_norm": 0.023284460889304213,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 5655
    },
    {
      "epoch": 1.1016533333333334,
      "grad_norm": 0.024209516433346834,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 5656
    },
    {
      "epoch": 1.1017066666666666,
      "grad_norm": 0.023466482888525757,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 5657
    },
    {
      "epoch": 1.10176,
      "grad_norm": 0.024217456320927942,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 5658
    },
    {
      "epoch": 1.1018133333333333,
      "grad_norm": 0.024565920121169336,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 5659
    },
    {
      "epoch": 1.1018666666666665,
      "grad_norm": 0.02342100197632389,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 5660
    },
    {
      "epoch": 1.10192,
      "grad_norm": 0.024330382686747854,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 5661
    },
    {
      "epoch": 1.1019733333333332,
      "grad_norm": 0.024062921277976528,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 5662
    },
    {
      "epoch": 1.1020266666666667,
      "grad_norm": 0.02495393327272086,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 5663
    },
    {
      "epoch": 1.10208,
      "grad_norm": 0.02478337815861847,
      "learning_rate": 0.0001,
      "loss": 1.045,
      "step": 5664
    },
    {
      "epoch": 1.1021333333333334,
      "grad_norm": 0.025423483293232903,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 5665
    },
    {
      "epoch": 1.1021866666666666,
      "grad_norm": 0.023271677431051886,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 5666
    },
    {
      "epoch": 1.10224,
      "grad_norm": 0.024798632182202966,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 5667
    },
    {
      "epoch": 1.1022933333333333,
      "grad_norm": 0.02440337625812419,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 5668
    },
    {
      "epoch": 1.1023466666666666,
      "grad_norm": 0.024411119992089392,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 5669
    },
    {
      "epoch": 1.1024,
      "grad_norm": 0.02415166554067924,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 5670
    },
    {
      "epoch": 1.1024533333333333,
      "grad_norm": 0.024125936384685468,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 5671
    },
    {
      "epoch": 1.1025066666666667,
      "grad_norm": 0.02412293592332795,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 5672
    },
    {
      "epoch": 1.10256,
      "grad_norm": 0.02521246944064526,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 5673
    },
    {
      "epoch": 1.1026133333333332,
      "grad_norm": 0.025340221371096136,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 5674
    },
    {
      "epoch": 1.1026666666666667,
      "grad_norm": 0.024926994059381827,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5675
    },
    {
      "epoch": 1.10272,
      "grad_norm": 0.024411539313029085,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 5676
    },
    {
      "epoch": 1.1027733333333334,
      "grad_norm": 0.023450991124520666,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5677
    },
    {
      "epoch": 1.1028266666666666,
      "grad_norm": 0.025732116443767352,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 5678
    },
    {
      "epoch": 1.10288,
      "grad_norm": 0.026494104272060292,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 5679
    },
    {
      "epoch": 1.1029333333333333,
      "grad_norm": 0.024531821937277997,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 5680
    },
    {
      "epoch": 1.1029866666666668,
      "grad_norm": 0.025096947491077777,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 5681
    },
    {
      "epoch": 1.10304,
      "grad_norm": 0.02592827766559877,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 5682
    },
    {
      "epoch": 1.1030933333333333,
      "grad_norm": 0.02760385133485528,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 5683
    },
    {
      "epoch": 1.1031466666666667,
      "grad_norm": 0.024224126691885783,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 5684
    },
    {
      "epoch": 1.1032,
      "grad_norm": 0.023621459147206814,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 5685
    },
    {
      "epoch": 1.1032533333333334,
      "grad_norm": 0.02440945028811691,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 5686
    },
    {
      "epoch": 1.1033066666666667,
      "grad_norm": 0.024181156285096,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 5687
    },
    {
      "epoch": 1.10336,
      "grad_norm": 0.02330791507532711,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 5688
    },
    {
      "epoch": 1.1034133333333334,
      "grad_norm": 0.02388764210599723,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 5689
    },
    {
      "epoch": 1.1034666666666666,
      "grad_norm": 0.02364940422439363,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 5690
    },
    {
      "epoch": 1.10352,
      "grad_norm": 0.023183852214704235,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 5691
    },
    {
      "epoch": 1.1035733333333333,
      "grad_norm": 0.024570049444391576,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "step": 5692
    },
    {
      "epoch": 1.1036266666666668,
      "grad_norm": 0.02341787883441545,
      "learning_rate": 0.0001,
      "loss": 1.0468,
      "step": 5693
    },
    {
      "epoch": 1.10368,
      "grad_norm": 0.024902572765729655,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 5694
    },
    {
      "epoch": 1.1037333333333332,
      "grad_norm": 0.02435602600140661,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 5695
    },
    {
      "epoch": 1.1037866666666667,
      "grad_norm": 0.026308071697665955,
      "learning_rate": 0.0001,
      "loss": 0.8999,
      "step": 5696
    },
    {
      "epoch": 1.10384,
      "grad_norm": 0.02494326436076829,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 5697
    },
    {
      "epoch": 1.1038933333333334,
      "grad_norm": 0.025157043855064638,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5698
    },
    {
      "epoch": 1.1039466666666666,
      "grad_norm": 0.026308059333180884,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 5699
    },
    {
      "epoch": 1.104,
      "grad_norm": 0.02521876485267348,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5700
    },
    {
      "epoch": 1.1040533333333333,
      "grad_norm": 0.023480319742917578,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 5701
    },
    {
      "epoch": 1.1041066666666666,
      "grad_norm": 0.024290664139781582,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 5702
    },
    {
      "epoch": 1.10416,
      "grad_norm": 0.02467000089878983,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 5703
    },
    {
      "epoch": 1.1042133333333333,
      "grad_norm": 0.023176188003987897,
      "learning_rate": 0.0001,
      "loss": 1.04,
      "step": 5704
    },
    {
      "epoch": 1.1042666666666667,
      "grad_norm": 0.026799275692690475,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 5705
    },
    {
      "epoch": 1.10432,
      "grad_norm": 0.024609554791232047,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 5706
    },
    {
      "epoch": 1.1043733333333334,
      "grad_norm": 0.0270970104228632,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 5707
    },
    {
      "epoch": 1.1044266666666667,
      "grad_norm": 0.024757157405666322,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 5708
    },
    {
      "epoch": 1.10448,
      "grad_norm": 0.024550443549874065,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 5709
    },
    {
      "epoch": 1.1045333333333334,
      "grad_norm": 0.025009958707557404,
      "learning_rate": 0.0001,
      "loss": 1.0317,
      "step": 5710
    },
    {
      "epoch": 1.1045866666666666,
      "grad_norm": 0.024215540445977367,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5711
    },
    {
      "epoch": 1.10464,
      "grad_norm": 0.025262996005739682,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5712
    },
    {
      "epoch": 1.1046933333333333,
      "grad_norm": 0.024629455849490573,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 5713
    },
    {
      "epoch": 1.1047466666666668,
      "grad_norm": 0.02363729729718454,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 5714
    },
    {
      "epoch": 1.1048,
      "grad_norm": 0.023686001949631455,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 5715
    },
    {
      "epoch": 1.1048533333333332,
      "grad_norm": 0.02399599595005158,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 5716
    },
    {
      "epoch": 1.1049066666666667,
      "grad_norm": 0.02441392151610895,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 5717
    },
    {
      "epoch": 1.10496,
      "grad_norm": 0.023255291406890977,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 5718
    },
    {
      "epoch": 1.1050133333333334,
      "grad_norm": 0.024156879083448966,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 5719
    },
    {
      "epoch": 1.1050666666666666,
      "grad_norm": 0.023454716855884704,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 5720
    },
    {
      "epoch": 1.10512,
      "grad_norm": 0.02295148676410401,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 5721
    },
    {
      "epoch": 1.1051733333333333,
      "grad_norm": 0.023640334549520192,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 5722
    },
    {
      "epoch": 1.1052266666666666,
      "grad_norm": 0.025809829482070768,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 5723
    },
    {
      "epoch": 1.10528,
      "grad_norm": 0.02384290534851165,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5724
    },
    {
      "epoch": 1.1053333333333333,
      "grad_norm": 0.025198487285094294,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 5725
    },
    {
      "epoch": 1.1053866666666667,
      "grad_norm": 0.02521676293857615,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5726
    },
    {
      "epoch": 1.10544,
      "grad_norm": 0.024699814150043714,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 5727
    },
    {
      "epoch": 1.1054933333333334,
      "grad_norm": 0.024203783839079798,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 5728
    },
    {
      "epoch": 1.1055466666666667,
      "grad_norm": 0.023063648560891728,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 5729
    },
    {
      "epoch": 1.1056,
      "grad_norm": 0.024310417474311712,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 5730
    },
    {
      "epoch": 1.1056533333333334,
      "grad_norm": 0.026882691935326122,
      "learning_rate": 0.0001,
      "loss": 1.0493,
      "step": 5731
    },
    {
      "epoch": 1.1057066666666666,
      "grad_norm": 0.02474679183841228,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 5732
    },
    {
      "epoch": 1.10576,
      "grad_norm": 0.02533442431845857,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 5733
    },
    {
      "epoch": 1.1058133333333333,
      "grad_norm": 0.025141255640614313,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 5734
    },
    {
      "epoch": 1.1058666666666666,
      "grad_norm": 0.025032733430675448,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 5735
    },
    {
      "epoch": 1.10592,
      "grad_norm": 0.02494299971457134,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 5736
    },
    {
      "epoch": 1.1059733333333333,
      "grad_norm": 0.027296097026488317,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 5737
    },
    {
      "epoch": 1.1060266666666667,
      "grad_norm": 0.027370291153779466,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 5738
    },
    {
      "epoch": 1.10608,
      "grad_norm": 0.027522947862159662,
      "learning_rate": 0.0001,
      "loss": 1.0714,
      "step": 5739
    },
    {
      "epoch": 1.1061333333333334,
      "grad_norm": 0.027793441518620142,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5740
    },
    {
      "epoch": 1.1061866666666667,
      "grad_norm": 0.025424229440947455,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 5741
    },
    {
      "epoch": 1.1062400000000001,
      "grad_norm": 0.025261919863052065,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 5742
    },
    {
      "epoch": 1.1062933333333334,
      "grad_norm": 0.023263013108909228,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 5743
    },
    {
      "epoch": 1.1063466666666666,
      "grad_norm": 0.02291017317651826,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 5744
    },
    {
      "epoch": 1.1064,
      "grad_norm": 0.026768706182061522,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 5745
    },
    {
      "epoch": 1.1064533333333333,
      "grad_norm": 0.022878302733354585,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 5746
    },
    {
      "epoch": 1.1065066666666667,
      "grad_norm": 0.024253017641403165,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 5747
    },
    {
      "epoch": 1.10656,
      "grad_norm": 0.023432666038394688,
      "learning_rate": 0.0001,
      "loss": 1.0797,
      "step": 5748
    },
    {
      "epoch": 1.1066133333333332,
      "grad_norm": 0.024411630832018152,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5749
    },
    {
      "epoch": 1.1066666666666667,
      "grad_norm": 0.0267523866630653,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 5750
    },
    {
      "epoch": 1.10672,
      "grad_norm": 0.026075852380729795,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5751
    },
    {
      "epoch": 1.1067733333333334,
      "grad_norm": 0.025479383134180262,
      "learning_rate": 0.0001,
      "loss": 0.8971,
      "step": 5752
    },
    {
      "epoch": 1.1068266666666666,
      "grad_norm": 0.024962912718087933,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 5753
    },
    {
      "epoch": 1.10688,
      "grad_norm": 0.025486901538910527,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 5754
    },
    {
      "epoch": 1.1069333333333333,
      "grad_norm": 0.024552911565163843,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 5755
    },
    {
      "epoch": 1.1069866666666666,
      "grad_norm": 0.025762341215076888,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 5756
    },
    {
      "epoch": 1.10704,
      "grad_norm": 0.023682444809990297,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 5757
    },
    {
      "epoch": 1.1070933333333333,
      "grad_norm": 0.02558908717459632,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 5758
    },
    {
      "epoch": 1.1071466666666667,
      "grad_norm": 0.023970197063280074,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 5759
    },
    {
      "epoch": 1.1072,
      "grad_norm": 0.023722267576210623,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 5760
    },
    {
      "epoch": 1.1072533333333334,
      "grad_norm": 0.02454350012026122,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 5761
    },
    {
      "epoch": 1.1073066666666667,
      "grad_norm": 0.023393909846020213,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5762
    },
    {
      "epoch": 1.10736,
      "grad_norm": 0.024021926876560056,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 5763
    },
    {
      "epoch": 1.1074133333333334,
      "grad_norm": 0.026831401906895803,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 5764
    },
    {
      "epoch": 1.1074666666666666,
      "grad_norm": 0.023289107944469943,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 5765
    },
    {
      "epoch": 1.10752,
      "grad_norm": 0.025347058977415456,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 5766
    },
    {
      "epoch": 1.1075733333333333,
      "grad_norm": 0.02284190400671026,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 5767
    },
    {
      "epoch": 1.1076266666666668,
      "grad_norm": 0.026208403866262324,
      "learning_rate": 0.0001,
      "loss": 0.9137,
      "step": 5768
    },
    {
      "epoch": 1.10768,
      "grad_norm": 0.027119032919969983,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 5769
    },
    {
      "epoch": 1.1077333333333332,
      "grad_norm": 0.02399165137558722,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 5770
    },
    {
      "epoch": 1.1077866666666667,
      "grad_norm": 0.02731784115013912,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5771
    },
    {
      "epoch": 1.10784,
      "grad_norm": 0.02466814938655514,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 5772
    },
    {
      "epoch": 1.1078933333333334,
      "grad_norm": 0.026002274840438284,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 5773
    },
    {
      "epoch": 1.1079466666666666,
      "grad_norm": 0.023997827257462797,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5774
    },
    {
      "epoch": 1.108,
      "grad_norm": 0.024227286368251052,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5775
    },
    {
      "epoch": 1.1080533333333333,
      "grad_norm": 0.02601279025997172,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 5776
    },
    {
      "epoch": 1.1081066666666666,
      "grad_norm": 0.027863787243752717,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 5777
    },
    {
      "epoch": 1.10816,
      "grad_norm": 0.025476364650418328,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 5778
    },
    {
      "epoch": 1.1082133333333333,
      "grad_norm": 0.028007182867645856,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 5779
    },
    {
      "epoch": 1.1082666666666667,
      "grad_norm": 0.025110989738485186,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 5780
    },
    {
      "epoch": 1.10832,
      "grad_norm": 0.024014903962715207,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 5781
    },
    {
      "epoch": 1.1083733333333334,
      "grad_norm": 0.024711652409810714,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 5782
    },
    {
      "epoch": 1.1084266666666667,
      "grad_norm": 0.024631043875630063,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "step": 5783
    },
    {
      "epoch": 1.10848,
      "grad_norm": 0.023958515321982156,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 5784
    },
    {
      "epoch": 1.1085333333333334,
      "grad_norm": 0.02433904360206574,
      "learning_rate": 0.0001,
      "loss": 1.022,
      "step": 5785
    },
    {
      "epoch": 1.1085866666666666,
      "grad_norm": 0.02495867564205744,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 5786
    },
    {
      "epoch": 1.10864,
      "grad_norm": 0.023487135769021214,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 5787
    },
    {
      "epoch": 1.1086933333333333,
      "grad_norm": 0.026710257972031446,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 5788
    },
    {
      "epoch": 1.1087466666666668,
      "grad_norm": 0.024795015446326937,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 5789
    },
    {
      "epoch": 1.1088,
      "grad_norm": 0.024480103651101124,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5790
    },
    {
      "epoch": 1.1088533333333332,
      "grad_norm": 0.02484325153264851,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 5791
    },
    {
      "epoch": 1.1089066666666667,
      "grad_norm": 0.02408094449064151,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 5792
    },
    {
      "epoch": 1.10896,
      "grad_norm": 0.02664191662956247,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 5793
    },
    {
      "epoch": 1.1090133333333334,
      "grad_norm": 0.025859763644660982,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 5794
    },
    {
      "epoch": 1.1090666666666666,
      "grad_norm": 0.024489254810948803,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 5795
    },
    {
      "epoch": 1.1091199999999999,
      "grad_norm": 0.025744030634845164,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 5796
    },
    {
      "epoch": 1.1091733333333333,
      "grad_norm": 0.02516039952234454,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 5797
    },
    {
      "epoch": 1.1092266666666666,
      "grad_norm": 0.024992922016709777,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 5798
    },
    {
      "epoch": 1.10928,
      "grad_norm": 0.023849702203761706,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 5799
    },
    {
      "epoch": 1.1093333333333333,
      "grad_norm": 0.025170668375922873,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 5800
    },
    {
      "epoch": 1.1093333333333333,
      "eval_accuracy": 0.6182009414287016,
      "eval_loss": 1.3655881881713867,
      "eval_runtime": 63.2872,
      "eval_samples_per_second": 15.801,
      "eval_steps_per_second": 0.506,
      "step": 5800
    },
    {
      "epoch": 1.1093866666666667,
      "grad_norm": 0.025054542051416107,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 5801
    },
    {
      "epoch": 1.10944,
      "grad_norm": 0.024317428278769093,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 5802
    },
    {
      "epoch": 1.1094933333333334,
      "grad_norm": 0.025504314728592936,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 5803
    },
    {
      "epoch": 1.1095466666666667,
      "grad_norm": 0.025092001522056002,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5804
    },
    {
      "epoch": 1.1096,
      "grad_norm": 0.024324796537428837,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 5805
    },
    {
      "epoch": 1.1096533333333334,
      "grad_norm": 0.025284019604956756,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5806
    },
    {
      "epoch": 1.1097066666666666,
      "grad_norm": 0.02574916691093276,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 5807
    },
    {
      "epoch": 1.10976,
      "grad_norm": 0.02463419970501748,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5808
    },
    {
      "epoch": 1.1098133333333333,
      "grad_norm": 0.02468322217649787,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 5809
    },
    {
      "epoch": 1.1098666666666666,
      "grad_norm": 0.024669281612101326,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 5810
    },
    {
      "epoch": 1.10992,
      "grad_norm": 0.024767611395539506,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5811
    },
    {
      "epoch": 1.1099733333333333,
      "grad_norm": 0.023285716624338225,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 5812
    },
    {
      "epoch": 1.1100266666666667,
      "grad_norm": 0.02756785611804421,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5813
    },
    {
      "epoch": 1.11008,
      "grad_norm": 0.0258655839152441,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 5814
    },
    {
      "epoch": 1.1101333333333334,
      "grad_norm": 0.02483086174542267,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 5815
    },
    {
      "epoch": 1.1101866666666667,
      "grad_norm": 0.022416342381026827,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 5816
    },
    {
      "epoch": 1.1102400000000001,
      "grad_norm": 0.02371497575266575,
      "learning_rate": 0.0001,
      "loss": 0.9253,
      "step": 5817
    },
    {
      "epoch": 1.1102933333333334,
      "grad_norm": 0.02509851553564867,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 5818
    },
    {
      "epoch": 1.1103466666666666,
      "grad_norm": 0.023170080798750502,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5819
    },
    {
      "epoch": 1.1104,
      "grad_norm": 0.02489162874876585,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 5820
    },
    {
      "epoch": 1.1104533333333333,
      "grad_norm": 0.02698251126135709,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 5821
    },
    {
      "epoch": 1.1105066666666668,
      "grad_norm": 0.02395938112898078,
      "learning_rate": 0.0001,
      "loss": 1.0352,
      "step": 5822
    },
    {
      "epoch": 1.11056,
      "grad_norm": 0.023449258715526673,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 5823
    },
    {
      "epoch": 1.1106133333333332,
      "grad_norm": 0.02347615878438622,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 5824
    },
    {
      "epoch": 1.1106666666666667,
      "grad_norm": 0.025746419398084537,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 5825
    },
    {
      "epoch": 1.11072,
      "grad_norm": 0.023732712537787495,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 5826
    },
    {
      "epoch": 1.1107733333333334,
      "grad_norm": 0.02567430580039889,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 5827
    },
    {
      "epoch": 1.1108266666666666,
      "grad_norm": 0.02632791948539354,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 5828
    },
    {
      "epoch": 1.11088,
      "grad_norm": 0.02379585561231056,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 5829
    },
    {
      "epoch": 1.1109333333333333,
      "grad_norm": 0.02491626948998343,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 5830
    },
    {
      "epoch": 1.1109866666666666,
      "grad_norm": 0.024919259025828953,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5831
    },
    {
      "epoch": 1.11104,
      "grad_norm": 0.024452444977629065,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 5832
    },
    {
      "epoch": 1.1110933333333333,
      "grad_norm": 0.022512301695117823,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 5833
    },
    {
      "epoch": 1.1111466666666667,
      "grad_norm": 0.028277124938258895,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 5834
    },
    {
      "epoch": 1.1112,
      "grad_norm": 0.026755158338158943,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 5835
    },
    {
      "epoch": 1.1112533333333334,
      "grad_norm": 0.02412643607301642,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 5836
    },
    {
      "epoch": 1.1113066666666667,
      "grad_norm": 0.0259115557313889,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 5837
    },
    {
      "epoch": 1.11136,
      "grad_norm": 0.02329279831865745,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 5838
    },
    {
      "epoch": 1.1114133333333334,
      "grad_norm": 0.027519338167603744,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 5839
    },
    {
      "epoch": 1.1114666666666666,
      "grad_norm": 0.02451102513474203,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 5840
    },
    {
      "epoch": 1.11152,
      "grad_norm": 0.023713899430765066,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 5841
    },
    {
      "epoch": 1.1115733333333333,
      "grad_norm": 0.02402120017223577,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 5842
    },
    {
      "epoch": 1.1116266666666668,
      "grad_norm": 0.02420327661217613,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5843
    },
    {
      "epoch": 1.11168,
      "grad_norm": 0.023272891946369615,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 5844
    },
    {
      "epoch": 1.1117333333333332,
      "grad_norm": 0.02438404050455527,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 5845
    },
    {
      "epoch": 1.1117866666666667,
      "grad_norm": 0.024778589230012114,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 5846
    },
    {
      "epoch": 1.11184,
      "grad_norm": 0.025074667843837335,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 5847
    },
    {
      "epoch": 1.1118933333333334,
      "grad_norm": 0.02335524378200087,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 5848
    },
    {
      "epoch": 1.1119466666666666,
      "grad_norm": 0.026065333727846578,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 5849
    },
    {
      "epoch": 1.112,
      "grad_norm": 0.02694971212130911,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 5850
    },
    {
      "epoch": 1.1120533333333333,
      "grad_norm": 0.02283920621886357,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 5851
    },
    {
      "epoch": 1.1121066666666666,
      "grad_norm": 0.025176800274640306,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 5852
    },
    {
      "epoch": 1.11216,
      "grad_norm": 0.024182989385497164,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5853
    },
    {
      "epoch": 1.1122133333333333,
      "grad_norm": 0.023041946305553583,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "step": 5854
    },
    {
      "epoch": 1.1122666666666667,
      "grad_norm": 0.02504923130281724,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 5855
    },
    {
      "epoch": 1.11232,
      "grad_norm": 0.025329840477050548,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5856
    },
    {
      "epoch": 1.1123733333333334,
      "grad_norm": 0.0262925142162347,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 5857
    },
    {
      "epoch": 1.1124266666666667,
      "grad_norm": 0.024823281198054072,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 5858
    },
    {
      "epoch": 1.11248,
      "grad_norm": 0.024566249075222934,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 5859
    },
    {
      "epoch": 1.1125333333333334,
      "grad_norm": 0.02367537248310708,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 5860
    },
    {
      "epoch": 1.1125866666666666,
      "grad_norm": 0.02501633535570611,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 5861
    },
    {
      "epoch": 1.11264,
      "grad_norm": 0.028011619853165345,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 5862
    },
    {
      "epoch": 1.1126933333333333,
      "grad_norm": 0.024483496468406266,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 5863
    },
    {
      "epoch": 1.1127466666666668,
      "grad_norm": 0.023518805880280647,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5864
    },
    {
      "epoch": 1.1128,
      "grad_norm": 0.023994863333668865,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 5865
    },
    {
      "epoch": 1.1128533333333333,
      "grad_norm": 0.025932479653673905,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 5866
    },
    {
      "epoch": 1.1129066666666667,
      "grad_norm": 0.0238900959599984,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 5867
    },
    {
      "epoch": 1.11296,
      "grad_norm": 0.02335003158998613,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 5868
    },
    {
      "epoch": 1.1130133333333334,
      "grad_norm": 0.024968321895009252,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 5869
    },
    {
      "epoch": 1.1130666666666666,
      "grad_norm": 0.029764555370831215,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 5870
    },
    {
      "epoch": 1.1131199999999999,
      "grad_norm": 0.023375916794441984,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 5871
    },
    {
      "epoch": 1.1131733333333333,
      "grad_norm": 0.023342652294472445,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 5872
    },
    {
      "epoch": 1.1132266666666666,
      "grad_norm": 0.024215939320929244,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 5873
    },
    {
      "epoch": 1.11328,
      "grad_norm": 0.02546597475197924,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 5874
    },
    {
      "epoch": 1.1133333333333333,
      "grad_norm": 0.024720779102156643,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 5875
    },
    {
      "epoch": 1.1133866666666667,
      "grad_norm": 0.025270077244811024,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 5876
    },
    {
      "epoch": 1.11344,
      "grad_norm": 0.025514182921980634,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 5877
    },
    {
      "epoch": 1.1134933333333334,
      "grad_norm": 0.022735055631217513,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 5878
    },
    {
      "epoch": 1.1135466666666667,
      "grad_norm": 0.024372719397667723,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 5879
    },
    {
      "epoch": 1.1136,
      "grad_norm": 0.024139064418314433,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 5880
    },
    {
      "epoch": 1.1136533333333334,
      "grad_norm": 0.026046917376671173,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 5881
    },
    {
      "epoch": 1.1137066666666666,
      "grad_norm": 0.024666091145529402,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 5882
    },
    {
      "epoch": 1.11376,
      "grad_norm": 0.02405312826561245,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 5883
    },
    {
      "epoch": 1.1138133333333333,
      "grad_norm": 0.025849970860015715,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 5884
    },
    {
      "epoch": 1.1138666666666666,
      "grad_norm": 0.025194055062102157,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 5885
    },
    {
      "epoch": 1.11392,
      "grad_norm": 0.02549671005670012,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 5886
    },
    {
      "epoch": 1.1139733333333333,
      "grad_norm": 0.023596048023300596,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 5887
    },
    {
      "epoch": 1.1140266666666667,
      "grad_norm": 0.023072112951730884,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 5888
    },
    {
      "epoch": 1.11408,
      "grad_norm": 0.023469086430195678,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 5889
    },
    {
      "epoch": 1.1141333333333334,
      "grad_norm": 0.02438587066103468,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 5890
    },
    {
      "epoch": 1.1141866666666667,
      "grad_norm": 0.024930195486209932,
      "learning_rate": 0.0001,
      "loss": 0.9194,
      "step": 5891
    },
    {
      "epoch": 1.11424,
      "grad_norm": 0.02438642673165763,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 5892
    },
    {
      "epoch": 1.1142933333333334,
      "grad_norm": 0.026166458450300925,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 5893
    },
    {
      "epoch": 1.1143466666666666,
      "grad_norm": 0.024105710816736382,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 5894
    },
    {
      "epoch": 1.1144,
      "grad_norm": 0.02469416453501075,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 5895
    },
    {
      "epoch": 1.1144533333333333,
      "grad_norm": 0.023342164354857982,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 5896
    },
    {
      "epoch": 1.1145066666666668,
      "grad_norm": 0.02440905340918853,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 5897
    },
    {
      "epoch": 1.11456,
      "grad_norm": 0.02848188474118291,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 5898
    },
    {
      "epoch": 1.1146133333333332,
      "grad_norm": 0.023255988257227248,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 5899
    },
    {
      "epoch": 1.1146666666666667,
      "grad_norm": 0.023939783647570653,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 5900
    },
    {
      "epoch": 1.11472,
      "grad_norm": 0.024062481061688998,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 5901
    },
    {
      "epoch": 1.1147733333333334,
      "grad_norm": 0.024188476743634432,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 5902
    },
    {
      "epoch": 1.1148266666666666,
      "grad_norm": 0.024785775415722952,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 5903
    },
    {
      "epoch": 1.11488,
      "grad_norm": 0.02380051259747505,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 5904
    },
    {
      "epoch": 1.1149333333333333,
      "grad_norm": 0.021811826669405784,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 5905
    },
    {
      "epoch": 1.1149866666666666,
      "grad_norm": 0.02502050514455395,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 5906
    },
    {
      "epoch": 1.11504,
      "grad_norm": 0.02470039293691687,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 5907
    },
    {
      "epoch": 1.1150933333333333,
      "grad_norm": 0.026511488099232802,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 5908
    },
    {
      "epoch": 1.1151466666666667,
      "grad_norm": 0.03282893120921153,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 5909
    },
    {
      "epoch": 1.1152,
      "grad_norm": 0.025315671725951533,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "step": 5910
    },
    {
      "epoch": 1.1152533333333334,
      "grad_norm": 0.02387315802777819,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 5911
    },
    {
      "epoch": 1.1153066666666667,
      "grad_norm": 0.025923789576962238,
      "learning_rate": 0.0001,
      "loss": 1.034,
      "step": 5912
    },
    {
      "epoch": 1.11536,
      "grad_norm": 0.023736441202909405,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 5913
    },
    {
      "epoch": 1.1154133333333334,
      "grad_norm": 0.023522364785144058,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 5914
    },
    {
      "epoch": 1.1154666666666666,
      "grad_norm": 0.025781041645689676,
      "learning_rate": 0.0001,
      "loss": 1.0055,
      "step": 5915
    },
    {
      "epoch": 1.11552,
      "grad_norm": 0.023489291715648147,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 5916
    },
    {
      "epoch": 1.1155733333333333,
      "grad_norm": 0.023178649466714274,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 5917
    },
    {
      "epoch": 1.1156266666666668,
      "grad_norm": 0.024967421233590855,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 5918
    },
    {
      "epoch": 1.11568,
      "grad_norm": 0.024452916801779273,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 5919
    },
    {
      "epoch": 1.1157333333333332,
      "grad_norm": 0.02470185095910496,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 5920
    },
    {
      "epoch": 1.1157866666666667,
      "grad_norm": 0.02612494689979026,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 5921
    },
    {
      "epoch": 1.11584,
      "grad_norm": 0.025166030896812516,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 5922
    },
    {
      "epoch": 1.1158933333333334,
      "grad_norm": 0.02373893286070655,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 5923
    },
    {
      "epoch": 1.1159466666666666,
      "grad_norm": 0.023526329275517028,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 5924
    },
    {
      "epoch": 1.116,
      "grad_norm": 0.02551595660749056,
      "learning_rate": 0.0001,
      "loss": 1.0133,
      "step": 5925
    },
    {
      "epoch": 1.1160533333333333,
      "grad_norm": 0.02529241440443662,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 5926
    },
    {
      "epoch": 1.1161066666666666,
      "grad_norm": 0.02510435299372389,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 5927
    },
    {
      "epoch": 1.11616,
      "grad_norm": 0.02573894982504277,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 5928
    },
    {
      "epoch": 1.1162133333333333,
      "grad_norm": 0.02356310133640346,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 5929
    },
    {
      "epoch": 1.1162666666666667,
      "grad_norm": 0.024322592758736855,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 5930
    },
    {
      "epoch": 1.11632,
      "grad_norm": 0.02549094495128183,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 5931
    },
    {
      "epoch": 1.1163733333333332,
      "grad_norm": 0.024997540818977527,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 5932
    },
    {
      "epoch": 1.1164266666666667,
      "grad_norm": 0.023645588342810563,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 5933
    },
    {
      "epoch": 1.11648,
      "grad_norm": 0.024586696323281015,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 5934
    },
    {
      "epoch": 1.1165333333333334,
      "grad_norm": 0.02334460096049282,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 5935
    },
    {
      "epoch": 1.1165866666666666,
      "grad_norm": 0.025186694844563765,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 5936
    },
    {
      "epoch": 1.11664,
      "grad_norm": 0.025471599130743674,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 5937
    },
    {
      "epoch": 1.1166933333333333,
      "grad_norm": 0.025923039344713423,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 5938
    },
    {
      "epoch": 1.1167466666666668,
      "grad_norm": 0.02705317224208427,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 5939
    },
    {
      "epoch": 1.1168,
      "grad_norm": 0.024810778333431503,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 5940
    },
    {
      "epoch": 1.1168533333333333,
      "grad_norm": 0.023636843666888084,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 5941
    },
    {
      "epoch": 1.1169066666666667,
      "grad_norm": 0.023680301873923778,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 5942
    },
    {
      "epoch": 1.11696,
      "grad_norm": 0.025164740004557495,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 5943
    },
    {
      "epoch": 1.1170133333333334,
      "grad_norm": 0.021832322874211593,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 5944
    },
    {
      "epoch": 1.1170666666666667,
      "grad_norm": 0.028343472549836057,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 5945
    },
    {
      "epoch": 1.11712,
      "grad_norm": 0.02455532027838161,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 5946
    },
    {
      "epoch": 1.1171733333333334,
      "grad_norm": 0.023688384443245693,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "step": 5947
    },
    {
      "epoch": 1.1172266666666666,
      "grad_norm": 0.025442165756779378,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 5948
    },
    {
      "epoch": 1.11728,
      "grad_norm": 0.024057783358238518,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 5949
    },
    {
      "epoch": 1.1173333333333333,
      "grad_norm": 0.023559160986768704,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 5950
    },
    {
      "epoch": 1.1173866666666668,
      "grad_norm": 0.026069430500744294,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 5951
    },
    {
      "epoch": 1.11744,
      "grad_norm": 0.02528933554315585,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 5952
    },
    {
      "epoch": 1.1174933333333334,
      "grad_norm": 0.024591998646919917,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 5953
    },
    {
      "epoch": 1.1175466666666667,
      "grad_norm": 0.023803522728687847,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 5954
    },
    {
      "epoch": 1.1176,
      "grad_norm": 0.023437289425729965,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 5955
    },
    {
      "epoch": 1.1176533333333334,
      "grad_norm": 0.02512819581475808,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 5956
    },
    {
      "epoch": 1.1177066666666666,
      "grad_norm": 0.023553930759519608,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 5957
    },
    {
      "epoch": 1.11776,
      "grad_norm": 0.02471010083976714,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 5958
    },
    {
      "epoch": 1.1178133333333333,
      "grad_norm": 0.023890978945947577,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 5959
    },
    {
      "epoch": 1.1178666666666666,
      "grad_norm": 0.022719686722798883,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 5960
    },
    {
      "epoch": 1.11792,
      "grad_norm": 0.024928643875970578,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 5961
    },
    {
      "epoch": 1.1179733333333333,
      "grad_norm": 0.024187524320133626,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 5962
    },
    {
      "epoch": 1.1180266666666667,
      "grad_norm": 0.023010009597304096,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 5963
    },
    {
      "epoch": 1.11808,
      "grad_norm": 0.025770329808923405,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 5964
    },
    {
      "epoch": 1.1181333333333334,
      "grad_norm": 0.02326110103783602,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 5965
    },
    {
      "epoch": 1.1181866666666667,
      "grad_norm": 0.0242362814737316,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 5966
    },
    {
      "epoch": 1.11824,
      "grad_norm": 0.023763691900696368,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 5967
    },
    {
      "epoch": 1.1182933333333334,
      "grad_norm": 0.022214671565407237,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 5968
    },
    {
      "epoch": 1.1183466666666666,
      "grad_norm": 0.023997406499741927,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 5969
    },
    {
      "epoch": 1.1184,
      "grad_norm": 0.026364675221371054,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 5970
    },
    {
      "epoch": 1.1184533333333333,
      "grad_norm": 0.02497346291964689,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 5971
    },
    {
      "epoch": 1.1185066666666668,
      "grad_norm": 0.023994914662545077,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 5972
    },
    {
      "epoch": 1.11856,
      "grad_norm": 0.025946145637369633,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 5973
    },
    {
      "epoch": 1.1186133333333332,
      "grad_norm": 0.025087637207131624,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 5974
    },
    {
      "epoch": 1.1186666666666667,
      "grad_norm": 0.028135445898069326,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 5975
    },
    {
      "epoch": 1.11872,
      "grad_norm": 0.02519388652607875,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 5976
    },
    {
      "epoch": 1.1187733333333334,
      "grad_norm": 0.026487001176472888,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5977
    },
    {
      "epoch": 1.1188266666666666,
      "grad_norm": 0.024526707499611125,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 5978
    },
    {
      "epoch": 1.11888,
      "grad_norm": 0.02449228509213342,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 5979
    },
    {
      "epoch": 1.1189333333333333,
      "grad_norm": 0.025577130289059655,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 5980
    },
    {
      "epoch": 1.1189866666666666,
      "grad_norm": 0.02395477208459,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 5981
    },
    {
      "epoch": 1.11904,
      "grad_norm": 0.023696082038063726,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 5982
    },
    {
      "epoch": 1.1190933333333333,
      "grad_norm": 0.024496516043729787,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 5983
    },
    {
      "epoch": 1.1191466666666667,
      "grad_norm": 0.026819693563996116,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 5984
    },
    {
      "epoch": 1.1192,
      "grad_norm": 0.024315839527815363,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 5985
    },
    {
      "epoch": 1.1192533333333334,
      "grad_norm": 0.02435610986004348,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 5986
    },
    {
      "epoch": 1.1193066666666667,
      "grad_norm": 0.025941478291374574,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 5987
    },
    {
      "epoch": 1.11936,
      "grad_norm": 0.025423181050290834,
      "learning_rate": 0.0001,
      "loss": 1.0165,
      "step": 5988
    },
    {
      "epoch": 1.1194133333333334,
      "grad_norm": 0.023841892910702496,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 5989
    },
    {
      "epoch": 1.1194666666666666,
      "grad_norm": 0.024220934486526836,
      "learning_rate": 0.0001,
      "loss": 0.8823,
      "step": 5990
    },
    {
      "epoch": 1.11952,
      "grad_norm": 0.023916493470116623,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 5991
    },
    {
      "epoch": 1.1195733333333333,
      "grad_norm": 0.024003638362095847,
      "learning_rate": 0.0001,
      "loss": 0.8975,
      "step": 5992
    },
    {
      "epoch": 1.1196266666666668,
      "grad_norm": 0.025257647657716282,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 5993
    },
    {
      "epoch": 1.11968,
      "grad_norm": 0.023817106705764264,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 5994
    },
    {
      "epoch": 1.1197333333333332,
      "grad_norm": 0.024183624494873702,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 5995
    },
    {
      "epoch": 1.1197866666666667,
      "grad_norm": 0.02465108177104548,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 5996
    },
    {
      "epoch": 1.11984,
      "grad_norm": 0.024753519553122032,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 5997
    },
    {
      "epoch": 1.1198933333333334,
      "grad_norm": 0.024227045145595625,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 5998
    },
    {
      "epoch": 1.1199466666666666,
      "grad_norm": 0.023363983402364598,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 5999
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.023009824213017976,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6000
    },
    {
      "epoch": 1.12,
      "eval_accuracy": 0.6183114529312923,
      "eval_loss": 1.3644635677337646,
      "eval_runtime": 62.3296,
      "eval_samples_per_second": 16.044,
      "eval_steps_per_second": 0.513,
      "step": 6000
    },
    {
      "epoch": 1.1200533333333333,
      "grad_norm": 0.026111068847343433,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6001
    },
    {
      "epoch": 1.1201066666666666,
      "grad_norm": 0.02517448246061294,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 6002
    },
    {
      "epoch": 1.12016,
      "grad_norm": 0.023470320923546496,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 6003
    },
    {
      "epoch": 1.1202133333333333,
      "grad_norm": 0.024581931633538168,
      "learning_rate": 0.0001,
      "loss": 1.0243,
      "step": 6004
    },
    {
      "epoch": 1.1202666666666667,
      "grad_norm": 0.02542269847506126,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 6005
    },
    {
      "epoch": 1.12032,
      "grad_norm": 0.02461495181342963,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 6006
    },
    {
      "epoch": 1.1203733333333332,
      "grad_norm": 0.024936951525056445,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 6007
    },
    {
      "epoch": 1.1204266666666667,
      "grad_norm": 0.023580510191206088,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 6008
    },
    {
      "epoch": 1.12048,
      "grad_norm": 0.022823630251138885,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 6009
    },
    {
      "epoch": 1.1205333333333334,
      "grad_norm": 0.02472076483055284,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 6010
    },
    {
      "epoch": 1.1205866666666666,
      "grad_norm": 0.022979227294491922,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 6011
    },
    {
      "epoch": 1.12064,
      "grad_norm": 0.022164063989539535,
      "learning_rate": 0.0001,
      "loss": 0.8615,
      "step": 6012
    },
    {
      "epoch": 1.1206933333333333,
      "grad_norm": 0.02450836953485121,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 6013
    },
    {
      "epoch": 1.1207466666666668,
      "grad_norm": 0.024371346851702884,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 6014
    },
    {
      "epoch": 1.1208,
      "grad_norm": 0.024205255573361954,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6015
    },
    {
      "epoch": 1.1208533333333333,
      "grad_norm": 0.02307162842576779,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 6016
    },
    {
      "epoch": 1.1209066666666667,
      "grad_norm": 0.024311077607782193,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6017
    },
    {
      "epoch": 1.12096,
      "grad_norm": 0.024355621290816816,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 6018
    },
    {
      "epoch": 1.1210133333333334,
      "grad_norm": 0.02495479196164724,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 6019
    },
    {
      "epoch": 1.1210666666666667,
      "grad_norm": 0.023140081012443074,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 6020
    },
    {
      "epoch": 1.12112,
      "grad_norm": 0.022668277615880573,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6021
    },
    {
      "epoch": 1.1211733333333334,
      "grad_norm": 0.024912704633046772,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "step": 6022
    },
    {
      "epoch": 1.1212266666666666,
      "grad_norm": 0.023977191294880316,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 6023
    },
    {
      "epoch": 1.12128,
      "grad_norm": 0.027283254420610237,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 6024
    },
    {
      "epoch": 1.1213333333333333,
      "grad_norm": 0.023760982389956924,
      "learning_rate": 0.0001,
      "loss": 1.0564,
      "step": 6025
    },
    {
      "epoch": 1.1213866666666668,
      "grad_norm": 0.025792416960791636,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 6026
    },
    {
      "epoch": 1.12144,
      "grad_norm": 0.024871047667753773,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 6027
    },
    {
      "epoch": 1.1214933333333332,
      "grad_norm": 0.024285787341284684,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6028
    },
    {
      "epoch": 1.1215466666666667,
      "grad_norm": 0.02495529407029699,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 6029
    },
    {
      "epoch": 1.1216,
      "grad_norm": 0.02437606357048867,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 6030
    },
    {
      "epoch": 1.1216533333333334,
      "grad_norm": 0.024084019071030274,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 6031
    },
    {
      "epoch": 1.1217066666666666,
      "grad_norm": 0.024219278610886383,
      "learning_rate": 0.0001,
      "loss": 0.896,
      "step": 6032
    },
    {
      "epoch": 1.12176,
      "grad_norm": 0.023864409033548528,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 6033
    },
    {
      "epoch": 1.1218133333333333,
      "grad_norm": 0.025003297524975803,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 6034
    },
    {
      "epoch": 1.1218666666666666,
      "grad_norm": 0.023938998509968383,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 6035
    },
    {
      "epoch": 1.12192,
      "grad_norm": 0.02446376424360774,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 6036
    },
    {
      "epoch": 1.1219733333333333,
      "grad_norm": 0.025277468112871144,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 6037
    },
    {
      "epoch": 1.1220266666666667,
      "grad_norm": 0.02475370929813907,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 6038
    },
    {
      "epoch": 1.12208,
      "grad_norm": 0.024925789113269287,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 6039
    },
    {
      "epoch": 1.1221333333333334,
      "grad_norm": 0.0270460472303692,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 6040
    },
    {
      "epoch": 1.1221866666666667,
      "grad_norm": 0.024585384711934822,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6041
    },
    {
      "epoch": 1.12224,
      "grad_norm": 0.025038682339951997,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 6042
    },
    {
      "epoch": 1.1222933333333334,
      "grad_norm": 0.024926258415304412,
      "learning_rate": 0.0001,
      "loss": 1.033,
      "step": 6043
    },
    {
      "epoch": 1.1223466666666666,
      "grad_norm": 0.023981757306526713,
      "learning_rate": 0.0001,
      "loss": 1.0259,
      "step": 6044
    },
    {
      "epoch": 1.1224,
      "grad_norm": 0.02320983230804631,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 6045
    },
    {
      "epoch": 1.1224533333333333,
      "grad_norm": 0.025164343176467548,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 6046
    },
    {
      "epoch": 1.1225066666666668,
      "grad_norm": 0.025433111491025572,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 6047
    },
    {
      "epoch": 1.12256,
      "grad_norm": 0.0223265644176758,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 6048
    },
    {
      "epoch": 1.1226133333333332,
      "grad_norm": 0.023186571991223485,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6049
    },
    {
      "epoch": 1.1226666666666667,
      "grad_norm": 0.02623039342849378,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 6050
    },
    {
      "epoch": 1.12272,
      "grad_norm": 0.023117770322666178,
      "learning_rate": 0.0001,
      "loss": 1.0002,
      "step": 6051
    },
    {
      "epoch": 1.1227733333333334,
      "grad_norm": 0.023145080210056453,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 6052
    },
    {
      "epoch": 1.1228266666666666,
      "grad_norm": 0.02325204173811156,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 6053
    },
    {
      "epoch": 1.12288,
      "grad_norm": 0.02311550861223969,
      "learning_rate": 0.0001,
      "loss": 0.9097,
      "step": 6054
    },
    {
      "epoch": 1.1229333333333333,
      "grad_norm": 0.025021780513159418,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 6055
    },
    {
      "epoch": 1.1229866666666666,
      "grad_norm": 0.02281200586742871,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 6056
    },
    {
      "epoch": 1.12304,
      "grad_norm": 0.023590917739044866,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 6057
    },
    {
      "epoch": 1.1230933333333333,
      "grad_norm": 0.02583454650406388,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 6058
    },
    {
      "epoch": 1.1231466666666667,
      "grad_norm": 0.02423128074029217,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 6059
    },
    {
      "epoch": 1.1232,
      "grad_norm": 0.024363236004598887,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 6060
    },
    {
      "epoch": 1.1232533333333334,
      "grad_norm": 0.02548819200245024,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 6061
    },
    {
      "epoch": 1.1233066666666667,
      "grad_norm": 0.02393100922192328,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 6062
    },
    {
      "epoch": 1.12336,
      "grad_norm": 0.024216208035003916,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6063
    },
    {
      "epoch": 1.1234133333333334,
      "grad_norm": 0.024528310397937587,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6064
    },
    {
      "epoch": 1.1234666666666666,
      "grad_norm": 0.02349848673022574,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 6065
    },
    {
      "epoch": 1.12352,
      "grad_norm": 0.02361441541077125,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 6066
    },
    {
      "epoch": 1.1235733333333333,
      "grad_norm": 0.023063036694412203,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 6067
    },
    {
      "epoch": 1.1236266666666666,
      "grad_norm": 0.024923984022584524,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 6068
    },
    {
      "epoch": 1.12368,
      "grad_norm": 0.02443193174671285,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 6069
    },
    {
      "epoch": 1.1237333333333333,
      "grad_norm": 0.023668298431952457,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 6070
    },
    {
      "epoch": 1.1237866666666667,
      "grad_norm": 0.02488470210925742,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 6071
    },
    {
      "epoch": 1.12384,
      "grad_norm": 0.025805907715965328,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6072
    },
    {
      "epoch": 1.1238933333333334,
      "grad_norm": 0.025477100545841617,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 6073
    },
    {
      "epoch": 1.1239466666666666,
      "grad_norm": 0.022758288674456333,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 6074
    },
    {
      "epoch": 1.124,
      "grad_norm": 0.024151864042117298,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6075
    },
    {
      "epoch": 1.1240533333333333,
      "grad_norm": 0.025176434871005935,
      "learning_rate": 0.0001,
      "loss": 1.0606,
      "step": 6076
    },
    {
      "epoch": 1.1241066666666666,
      "grad_norm": 0.023365188082869495,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6077
    },
    {
      "epoch": 1.12416,
      "grad_norm": 0.026567659140990508,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 6078
    },
    {
      "epoch": 1.1242133333333333,
      "grad_norm": 0.023966067201656213,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6079
    },
    {
      "epoch": 1.1242666666666667,
      "grad_norm": 0.021682254431922232,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6080
    },
    {
      "epoch": 1.12432,
      "grad_norm": 0.024738410270778208,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 6081
    },
    {
      "epoch": 1.1243733333333332,
      "grad_norm": 0.030232619647930673,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 6082
    },
    {
      "epoch": 1.1244266666666667,
      "grad_norm": 0.02734749327859642,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6083
    },
    {
      "epoch": 1.12448,
      "grad_norm": 0.02535893332748055,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6084
    },
    {
      "epoch": 1.1245333333333334,
      "grad_norm": 0.024013698409011897,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 6085
    },
    {
      "epoch": 1.1245866666666666,
      "grad_norm": 0.0257133005195854,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6086
    },
    {
      "epoch": 1.12464,
      "grad_norm": 0.026785549897715748,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 6087
    },
    {
      "epoch": 1.1246933333333333,
      "grad_norm": 0.023242032914863008,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 6088
    },
    {
      "epoch": 1.1247466666666668,
      "grad_norm": 0.025721373248724522,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 6089
    },
    {
      "epoch": 1.1248,
      "grad_norm": 0.023357480424529856,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 6090
    },
    {
      "epoch": 1.1248533333333333,
      "grad_norm": 0.024412467269085192,
      "learning_rate": 0.0001,
      "loss": 0.9038,
      "step": 6091
    },
    {
      "epoch": 1.1249066666666667,
      "grad_norm": 0.026155456730368867,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 6092
    },
    {
      "epoch": 1.12496,
      "grad_norm": 0.025461036010799073,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 6093
    },
    {
      "epoch": 1.1250133333333334,
      "grad_norm": 0.02433667320993162,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 6094
    },
    {
      "epoch": 1.1250666666666667,
      "grad_norm": 0.02522884207010873,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 6095
    },
    {
      "epoch": 1.12512,
      "grad_norm": 0.02488105842528394,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 6096
    },
    {
      "epoch": 1.1251733333333334,
      "grad_norm": 0.02644441159545943,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 6097
    },
    {
      "epoch": 1.1252266666666666,
      "grad_norm": 0.024119250928534435,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 6098
    },
    {
      "epoch": 1.12528,
      "grad_norm": 0.022850039345002696,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6099
    },
    {
      "epoch": 1.1253333333333333,
      "grad_norm": 0.026131544872740244,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6100
    },
    {
      "epoch": 1.1253866666666668,
      "grad_norm": 0.025100785661605597,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 6101
    },
    {
      "epoch": 1.12544,
      "grad_norm": 0.023191751949923522,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 6102
    },
    {
      "epoch": 1.1254933333333335,
      "grad_norm": 0.02291901236123668,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6103
    },
    {
      "epoch": 1.1255466666666667,
      "grad_norm": 0.024224498057176424,
      "learning_rate": 0.0001,
      "loss": 1.0561,
      "step": 6104
    },
    {
      "epoch": 1.1256,
      "grad_norm": 0.022659981162381757,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 6105
    },
    {
      "epoch": 1.1256533333333334,
      "grad_norm": 0.024905839223880535,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 6106
    },
    {
      "epoch": 1.1257066666666666,
      "grad_norm": 0.024248503982309134,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 6107
    },
    {
      "epoch": 1.12576,
      "grad_norm": 0.02256962982459394,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6108
    },
    {
      "epoch": 1.1258133333333333,
      "grad_norm": 0.025145871260896346,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 6109
    },
    {
      "epoch": 1.1258666666666666,
      "grad_norm": 0.025487308597288184,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6110
    },
    {
      "epoch": 1.12592,
      "grad_norm": 0.023688098743784258,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 6111
    },
    {
      "epoch": 1.1259733333333333,
      "grad_norm": 0.02720305142404734,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 6112
    },
    {
      "epoch": 1.1260266666666667,
      "grad_norm": 0.02420060419211194,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 6113
    },
    {
      "epoch": 1.12608,
      "grad_norm": 0.024040665120437166,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 6114
    },
    {
      "epoch": 1.1261333333333332,
      "grad_norm": 0.022552286008086345,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 6115
    },
    {
      "epoch": 1.1261866666666667,
      "grad_norm": 0.026065602388786538,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 6116
    },
    {
      "epoch": 1.12624,
      "grad_norm": 0.02471755097170445,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 6117
    },
    {
      "epoch": 1.1262933333333334,
      "grad_norm": 0.022442759208468235,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 6118
    },
    {
      "epoch": 1.1263466666666666,
      "grad_norm": 0.024650044882784928,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 6119
    },
    {
      "epoch": 1.1264,
      "grad_norm": 0.022850336723151825,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 6120
    },
    {
      "epoch": 1.1264533333333333,
      "grad_norm": 0.023495321867095898,
      "learning_rate": 0.0001,
      "loss": 0.8973,
      "step": 6121
    },
    {
      "epoch": 1.1265066666666668,
      "grad_norm": 0.026489702841565543,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 6122
    },
    {
      "epoch": 1.12656,
      "grad_norm": 0.02592051906073953,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6123
    },
    {
      "epoch": 1.1266133333333332,
      "grad_norm": 0.024218815716228675,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 6124
    },
    {
      "epoch": 1.1266666666666667,
      "grad_norm": 0.02395802865784599,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 6125
    },
    {
      "epoch": 1.12672,
      "grad_norm": 0.023783164391936683,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6126
    },
    {
      "epoch": 1.1267733333333334,
      "grad_norm": 0.023718381523590227,
      "learning_rate": 0.0001,
      "loss": 1.0118,
      "step": 6127
    },
    {
      "epoch": 1.1268266666666666,
      "grad_norm": 0.023638032357006674,
      "learning_rate": 0.0001,
      "loss": 0.9277,
      "step": 6128
    },
    {
      "epoch": 1.1268799999999999,
      "grad_norm": 0.02503764812833439,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 6129
    },
    {
      "epoch": 1.1269333333333333,
      "grad_norm": 0.022926698025235427,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "step": 6130
    },
    {
      "epoch": 1.1269866666666666,
      "grad_norm": 0.02260598122252205,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 6131
    },
    {
      "epoch": 1.12704,
      "grad_norm": 0.024037076659709732,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 6132
    },
    {
      "epoch": 1.1270933333333333,
      "grad_norm": 0.023784090523349646,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 6133
    },
    {
      "epoch": 1.1271466666666667,
      "grad_norm": 0.025269687379305752,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 6134
    },
    {
      "epoch": 1.1272,
      "grad_norm": 0.02503274856190863,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 6135
    },
    {
      "epoch": 1.1272533333333334,
      "grad_norm": 0.023037683084154305,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6136
    },
    {
      "epoch": 1.1273066666666667,
      "grad_norm": 0.02626065038757913,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 6137
    },
    {
      "epoch": 1.12736,
      "grad_norm": 0.02540429770808406,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 6138
    },
    {
      "epoch": 1.1274133333333334,
      "grad_norm": 0.024089892844791624,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 6139
    },
    {
      "epoch": 1.1274666666666666,
      "grad_norm": 0.025525417951854958,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 6140
    },
    {
      "epoch": 1.12752,
      "grad_norm": 0.024979096260586937,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 6141
    },
    {
      "epoch": 1.1275733333333333,
      "grad_norm": 0.025244529004704287,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6142
    },
    {
      "epoch": 1.1276266666666666,
      "grad_norm": 0.024509688119205956,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 6143
    },
    {
      "epoch": 1.12768,
      "grad_norm": 0.025028287120394472,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 6144
    },
    {
      "epoch": 1.1277333333333333,
      "grad_norm": 0.0264418534708115,
      "learning_rate": 0.0001,
      "loss": 0.9192,
      "step": 6145
    },
    {
      "epoch": 1.1277866666666667,
      "grad_norm": 0.024920841984167386,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 6146
    },
    {
      "epoch": 1.12784,
      "grad_norm": 0.024811896460693792,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6147
    },
    {
      "epoch": 1.1278933333333334,
      "grad_norm": 0.023771161696275637,
      "learning_rate": 0.0001,
      "loss": 0.9159,
      "step": 6148
    },
    {
      "epoch": 1.1279466666666667,
      "grad_norm": 0.024243997816041873,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 6149
    },
    {
      "epoch": 1.1280000000000001,
      "grad_norm": 0.025412880561679257,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 6150
    },
    {
      "epoch": 1.1280533333333334,
      "grad_norm": 0.027928726497623783,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 6151
    },
    {
      "epoch": 1.1281066666666666,
      "grad_norm": 0.022233090055961573,
      "learning_rate": 0.0001,
      "loss": 0.936,
      "step": 6152
    },
    {
      "epoch": 1.12816,
      "grad_norm": 0.026755599038276158,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 6153
    },
    {
      "epoch": 1.1282133333333333,
      "grad_norm": 0.023081559877491737,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 6154
    },
    {
      "epoch": 1.1282666666666668,
      "grad_norm": 0.023814950844741833,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 6155
    },
    {
      "epoch": 1.12832,
      "grad_norm": 0.023605180229906028,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 6156
    },
    {
      "epoch": 1.1283733333333332,
      "grad_norm": 0.025111224493499885,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 6157
    },
    {
      "epoch": 1.1284266666666667,
      "grad_norm": 0.02425242370254257,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 6158
    },
    {
      "epoch": 1.12848,
      "grad_norm": 0.02601308310997367,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 6159
    },
    {
      "epoch": 1.1285333333333334,
      "grad_norm": 0.02415136379981654,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 6160
    },
    {
      "epoch": 1.1285866666666666,
      "grad_norm": 0.024838454495899505,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6161
    },
    {
      "epoch": 1.12864,
      "grad_norm": 0.024158128680993433,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 6162
    },
    {
      "epoch": 1.1286933333333333,
      "grad_norm": 0.024699254355516526,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 6163
    },
    {
      "epoch": 1.1287466666666668,
      "grad_norm": 0.02554673124672243,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 6164
    },
    {
      "epoch": 1.1288,
      "grad_norm": 0.024426187632880427,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 6165
    },
    {
      "epoch": 1.1288533333333333,
      "grad_norm": 0.026321459829796064,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 6166
    },
    {
      "epoch": 1.1289066666666667,
      "grad_norm": 0.023840216092616485,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 6167
    },
    {
      "epoch": 1.12896,
      "grad_norm": 0.02551228337121447,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 6168
    },
    {
      "epoch": 1.1290133333333334,
      "grad_norm": 0.022461522049469163,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 6169
    },
    {
      "epoch": 1.1290666666666667,
      "grad_norm": 0.02692177760310647,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6170
    },
    {
      "epoch": 1.12912,
      "grad_norm": 0.023942360882934305,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 6171
    },
    {
      "epoch": 1.1291733333333334,
      "grad_norm": 0.02503899256004894,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 6172
    },
    {
      "epoch": 1.1292266666666666,
      "grad_norm": 0.023654882548216554,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 6173
    },
    {
      "epoch": 1.12928,
      "grad_norm": 0.02553762042443435,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 6174
    },
    {
      "epoch": 1.1293333333333333,
      "grad_norm": 0.02385422998797272,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6175
    },
    {
      "epoch": 1.1293866666666668,
      "grad_norm": 0.025334634425684996,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 6176
    },
    {
      "epoch": 1.12944,
      "grad_norm": 0.028155287725483813,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 6177
    },
    {
      "epoch": 1.1294933333333332,
      "grad_norm": 0.024488475336720217,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6178
    },
    {
      "epoch": 1.1295466666666667,
      "grad_norm": 0.02641291845625174,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6179
    },
    {
      "epoch": 1.1296,
      "grad_norm": 0.027398434497250664,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 6180
    },
    {
      "epoch": 1.1296533333333334,
      "grad_norm": 0.023067012676708545,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 6181
    },
    {
      "epoch": 1.1297066666666666,
      "grad_norm": 0.024563008576837922,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 6182
    },
    {
      "epoch": 1.12976,
      "grad_norm": 0.02437301095109284,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 6183
    },
    {
      "epoch": 1.1298133333333333,
      "grad_norm": 0.030982068318175224,
      "learning_rate": 0.0001,
      "loss": 0.9905,
      "step": 6184
    },
    {
      "epoch": 1.1298666666666666,
      "grad_norm": 0.02437734939862814,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 6185
    },
    {
      "epoch": 1.12992,
      "grad_norm": 0.02358691967933695,
      "learning_rate": 0.0001,
      "loss": 0.9331,
      "step": 6186
    },
    {
      "epoch": 1.1299733333333333,
      "grad_norm": 0.027353145036304614,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6187
    },
    {
      "epoch": 1.1300266666666667,
      "grad_norm": 0.023817086485990204,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 6188
    },
    {
      "epoch": 1.13008,
      "grad_norm": 0.02369949507919073,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 6189
    },
    {
      "epoch": 1.1301333333333332,
      "grad_norm": 0.024275952619615303,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6190
    },
    {
      "epoch": 1.1301866666666667,
      "grad_norm": 0.023039032526374438,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6191
    },
    {
      "epoch": 1.13024,
      "grad_norm": 0.02500086659048086,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 6192
    },
    {
      "epoch": 1.1302933333333334,
      "grad_norm": 0.02301590864901697,
      "learning_rate": 0.0001,
      "loss": 1.0525,
      "step": 6193
    },
    {
      "epoch": 1.1303466666666666,
      "grad_norm": 0.02567149615224196,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 6194
    },
    {
      "epoch": 1.1304,
      "grad_norm": 0.025283142351649912,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6195
    },
    {
      "epoch": 1.1304533333333333,
      "grad_norm": 0.024873782018034293,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6196
    },
    {
      "epoch": 1.1305066666666668,
      "grad_norm": 0.025395101405061054,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 6197
    },
    {
      "epoch": 1.13056,
      "grad_norm": 0.024029624849588975,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 6198
    },
    {
      "epoch": 1.1306133333333332,
      "grad_norm": 0.02431843064479585,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 6199
    },
    {
      "epoch": 1.1306666666666667,
      "grad_norm": 0.0227029774440774,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 6200
    },
    {
      "epoch": 1.1306666666666667,
      "eval_accuracy": 0.6184966489289307,
      "eval_loss": 1.3635296821594238,
      "eval_runtime": 63.3817,
      "eval_samples_per_second": 15.777,
      "eval_steps_per_second": 0.505,
      "step": 6200
    },
    {
      "epoch": 1.13072,
      "grad_norm": 0.023810241535526994,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6201
    },
    {
      "epoch": 1.1307733333333334,
      "grad_norm": 0.02381625555295138,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6202
    },
    {
      "epoch": 1.1308266666666666,
      "grad_norm": 0.024893055141667484,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 6203
    },
    {
      "epoch": 1.1308799999999999,
      "grad_norm": 0.02380990459412209,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 6204
    },
    {
      "epoch": 1.1309333333333333,
      "grad_norm": 0.023741686907397395,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 6205
    },
    {
      "epoch": 1.1309866666666666,
      "grad_norm": 0.024816415182014447,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 6206
    },
    {
      "epoch": 1.13104,
      "grad_norm": 0.023456065702652715,
      "learning_rate": 0.0001,
      "loss": 0.8911,
      "step": 6207
    },
    {
      "epoch": 1.1310933333333333,
      "grad_norm": 0.02314931131221301,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 6208
    },
    {
      "epoch": 1.1311466666666667,
      "grad_norm": 0.026720757318299693,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 6209
    },
    {
      "epoch": 1.1312,
      "grad_norm": 0.024739752724987008,
      "learning_rate": 0.0001,
      "loss": 1.0242,
      "step": 6210
    },
    {
      "epoch": 1.1312533333333334,
      "grad_norm": 0.024274034764124656,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6211
    },
    {
      "epoch": 1.1313066666666667,
      "grad_norm": 0.023097522245960744,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 6212
    },
    {
      "epoch": 1.13136,
      "grad_norm": 0.025720197284344364,
      "learning_rate": 0.0001,
      "loss": 1.0181,
      "step": 6213
    },
    {
      "epoch": 1.1314133333333334,
      "grad_norm": 0.022501823846149457,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6214
    },
    {
      "epoch": 1.1314666666666666,
      "grad_norm": 0.02536686596682958,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 6215
    },
    {
      "epoch": 1.13152,
      "grad_norm": 0.02551174468030929,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 6216
    },
    {
      "epoch": 1.1315733333333333,
      "grad_norm": 0.023212498369046233,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 6217
    },
    {
      "epoch": 1.1316266666666666,
      "grad_norm": 0.026447963661568916,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 6218
    },
    {
      "epoch": 1.13168,
      "grad_norm": 0.025262156202335368,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 6219
    },
    {
      "epoch": 1.1317333333333333,
      "grad_norm": 0.023319604876406618,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 6220
    },
    {
      "epoch": 1.1317866666666667,
      "grad_norm": 0.024574509305105855,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 6221
    },
    {
      "epoch": 1.13184,
      "grad_norm": 0.023904010349038902,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 6222
    },
    {
      "epoch": 1.1318933333333334,
      "grad_norm": 0.027067100055024728,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 6223
    },
    {
      "epoch": 1.1319466666666667,
      "grad_norm": 0.023770460079688527,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 6224
    },
    {
      "epoch": 1.1320000000000001,
      "grad_norm": 0.023705172816230368,
      "learning_rate": 0.0001,
      "loss": 0.918,
      "step": 6225
    },
    {
      "epoch": 1.1320533333333334,
      "grad_norm": 0.02613152282660081,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 6226
    },
    {
      "epoch": 1.1321066666666666,
      "grad_norm": 0.025788615092379327,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 6227
    },
    {
      "epoch": 1.13216,
      "grad_norm": 0.02334815934504521,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 6228
    },
    {
      "epoch": 1.1322133333333333,
      "grad_norm": 0.023566546498926387,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6229
    },
    {
      "epoch": 1.1322666666666668,
      "grad_norm": 0.027101348354894497,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6230
    },
    {
      "epoch": 1.13232,
      "grad_norm": 0.023721203902675302,
      "learning_rate": 0.0001,
      "loss": 0.8889,
      "step": 6231
    },
    {
      "epoch": 1.1323733333333332,
      "grad_norm": 0.023726450509201025,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 6232
    },
    {
      "epoch": 1.1324266666666667,
      "grad_norm": 0.024917492630879095,
      "learning_rate": 0.0001,
      "loss": 1.0497,
      "step": 6233
    },
    {
      "epoch": 1.13248,
      "grad_norm": 0.023610686883277703,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6234
    },
    {
      "epoch": 1.1325333333333334,
      "grad_norm": 0.023200103092173067,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6235
    },
    {
      "epoch": 1.1325866666666666,
      "grad_norm": 0.028454044777031836,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 6236
    },
    {
      "epoch": 1.13264,
      "grad_norm": 0.027446062884232937,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6237
    },
    {
      "epoch": 1.1326933333333333,
      "grad_norm": 0.025359955009642828,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 6238
    },
    {
      "epoch": 1.1327466666666668,
      "grad_norm": 0.026416662128823393,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6239
    },
    {
      "epoch": 1.1328,
      "grad_norm": 0.024024258075885964,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 6240
    },
    {
      "epoch": 1.1328533333333333,
      "grad_norm": 0.02455338558794006,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 6241
    },
    {
      "epoch": 1.1329066666666667,
      "grad_norm": 0.025239839718249918,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 6242
    },
    {
      "epoch": 1.13296,
      "grad_norm": 0.02248351355849562,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 6243
    },
    {
      "epoch": 1.1330133333333334,
      "grad_norm": 0.025514866032073126,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 6244
    },
    {
      "epoch": 1.1330666666666667,
      "grad_norm": 0.024949946459870583,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6245
    },
    {
      "epoch": 1.13312,
      "grad_norm": 0.022972560531962,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 6246
    },
    {
      "epoch": 1.1331733333333334,
      "grad_norm": 0.02474476971494049,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6247
    },
    {
      "epoch": 1.1332266666666666,
      "grad_norm": 0.026383987751659916,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6248
    },
    {
      "epoch": 1.13328,
      "grad_norm": 0.02496342811955565,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6249
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.023566542501435896,
      "learning_rate": 0.0001,
      "loss": 1.0428,
      "step": 6250
    },
    {
      "epoch": 1.1333866666666665,
      "grad_norm": 0.02563228866347953,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6251
    },
    {
      "epoch": 1.13344,
      "grad_norm": 0.0232566425048362,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 6252
    },
    {
      "epoch": 1.1334933333333332,
      "grad_norm": 0.02602743465646449,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 6253
    },
    {
      "epoch": 1.1335466666666667,
      "grad_norm": 0.023474880851999766,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 6254
    },
    {
      "epoch": 1.1336,
      "grad_norm": 0.02467508931738061,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 6255
    },
    {
      "epoch": 1.1336533333333334,
      "grad_norm": 0.024554180095735564,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 6256
    },
    {
      "epoch": 1.1337066666666666,
      "grad_norm": 0.025028045286178226,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 6257
    },
    {
      "epoch": 1.13376,
      "grad_norm": 0.02435033852630937,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6258
    },
    {
      "epoch": 1.1338133333333333,
      "grad_norm": 0.02823130710231987,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 6259
    },
    {
      "epoch": 1.1338666666666666,
      "grad_norm": 0.025246701048993753,
      "learning_rate": 0.0001,
      "loss": 1.0149,
      "step": 6260
    },
    {
      "epoch": 1.13392,
      "grad_norm": 0.02608428515814389,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 6261
    },
    {
      "epoch": 1.1339733333333333,
      "grad_norm": 0.024173936024423363,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6262
    },
    {
      "epoch": 1.1340266666666667,
      "grad_norm": 0.024870123371411326,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 6263
    },
    {
      "epoch": 1.13408,
      "grad_norm": 0.024336711709777952,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6264
    },
    {
      "epoch": 1.1341333333333332,
      "grad_norm": 0.024114020861607226,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 6265
    },
    {
      "epoch": 1.1341866666666667,
      "grad_norm": 0.02494917739101946,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 6266
    },
    {
      "epoch": 1.13424,
      "grad_norm": 0.02653453805781737,
      "learning_rate": 0.0001,
      "loss": 0.9493,
      "step": 6267
    },
    {
      "epoch": 1.1342933333333334,
      "grad_norm": 0.024309014515579392,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6268
    },
    {
      "epoch": 1.1343466666666666,
      "grad_norm": 0.024745950074251885,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 6269
    },
    {
      "epoch": 1.1344,
      "grad_norm": 0.026624318477129524,
      "learning_rate": 0.0001,
      "loss": 1.0586,
      "step": 6270
    },
    {
      "epoch": 1.1344533333333333,
      "grad_norm": 0.028018918100180694,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "step": 6271
    },
    {
      "epoch": 1.1345066666666668,
      "grad_norm": 0.02424306459936888,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 6272
    },
    {
      "epoch": 1.13456,
      "grad_norm": 0.02786765784891461,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 6273
    },
    {
      "epoch": 1.1346133333333333,
      "grad_norm": 0.024557459398895913,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6274
    },
    {
      "epoch": 1.1346666666666667,
      "grad_norm": 0.026229883230482132,
      "learning_rate": 0.0001,
      "loss": 0.9177,
      "step": 6275
    },
    {
      "epoch": 1.13472,
      "grad_norm": 0.027690034203638483,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6276
    },
    {
      "epoch": 1.1347733333333334,
      "grad_norm": 0.025068438814169723,
      "learning_rate": 0.0001,
      "loss": 0.9087,
      "step": 6277
    },
    {
      "epoch": 1.1348266666666667,
      "grad_norm": 0.02745221416528204,
      "learning_rate": 0.0001,
      "loss": 0.8997,
      "step": 6278
    },
    {
      "epoch": 1.1348799999999999,
      "grad_norm": 0.02590812577855964,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 6279
    },
    {
      "epoch": 1.1349333333333333,
      "grad_norm": 0.027912998856617084,
      "learning_rate": 0.0001,
      "loss": 1.0202,
      "step": 6280
    },
    {
      "epoch": 1.1349866666666666,
      "grad_norm": 0.024154070761963416,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 6281
    },
    {
      "epoch": 1.13504,
      "grad_norm": 0.02511778483090487,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 6282
    },
    {
      "epoch": 1.1350933333333333,
      "grad_norm": 0.025119192115491278,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6283
    },
    {
      "epoch": 1.1351466666666667,
      "grad_norm": 0.026775306196735568,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 6284
    },
    {
      "epoch": 1.1352,
      "grad_norm": 0.024915579578611048,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 6285
    },
    {
      "epoch": 1.1352533333333334,
      "grad_norm": 0.023032899350952634,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 6286
    },
    {
      "epoch": 1.1353066666666667,
      "grad_norm": 0.02394654252202087,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 6287
    },
    {
      "epoch": 1.13536,
      "grad_norm": 0.02418217759788644,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 6288
    },
    {
      "epoch": 1.1354133333333334,
      "grad_norm": 0.025836032682371023,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6289
    },
    {
      "epoch": 1.1354666666666666,
      "grad_norm": 0.022899282435598346,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 6290
    },
    {
      "epoch": 1.13552,
      "grad_norm": 0.022678063920103787,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 6291
    },
    {
      "epoch": 1.1355733333333333,
      "grad_norm": 0.024033479384927853,
      "learning_rate": 0.0001,
      "loss": 0.9099,
      "step": 6292
    },
    {
      "epoch": 1.1356266666666666,
      "grad_norm": 0.02502333895408304,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 6293
    },
    {
      "epoch": 1.13568,
      "grad_norm": 0.024286514932002904,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 6294
    },
    {
      "epoch": 1.1357333333333333,
      "grad_norm": 0.022581725345157316,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 6295
    },
    {
      "epoch": 1.1357866666666667,
      "grad_norm": 0.023804943302821215,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 6296
    },
    {
      "epoch": 1.13584,
      "grad_norm": 0.02288801716325332,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6297
    },
    {
      "epoch": 1.1358933333333334,
      "grad_norm": 0.024173125880748013,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 6298
    },
    {
      "epoch": 1.1359466666666667,
      "grad_norm": 0.024260484777648965,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 6299
    },
    {
      "epoch": 1.1360000000000001,
      "grad_norm": 0.022313465080804736,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 6300
    },
    {
      "epoch": 1.1360533333333334,
      "grad_norm": 0.024354417247663268,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 6301
    },
    {
      "epoch": 1.1361066666666666,
      "grad_norm": 0.02433730231965083,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 6302
    },
    {
      "epoch": 1.13616,
      "grad_norm": 0.02230347347243854,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6303
    },
    {
      "epoch": 1.1362133333333333,
      "grad_norm": 0.02155087598813873,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 6304
    },
    {
      "epoch": 1.1362666666666668,
      "grad_norm": 0.023086190966207534,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 6305
    },
    {
      "epoch": 1.13632,
      "grad_norm": 0.023940433596383738,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 6306
    },
    {
      "epoch": 1.1363733333333332,
      "grad_norm": 0.02440739090779018,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 6307
    },
    {
      "epoch": 1.1364266666666667,
      "grad_norm": 0.024245239259599642,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6308
    },
    {
      "epoch": 1.13648,
      "grad_norm": 0.02373605356488629,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6309
    },
    {
      "epoch": 1.1365333333333334,
      "grad_norm": 0.023514256369988766,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 6310
    },
    {
      "epoch": 1.1365866666666666,
      "grad_norm": 0.024093931373637967,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6311
    },
    {
      "epoch": 1.13664,
      "grad_norm": 0.023716466128258062,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 6312
    },
    {
      "epoch": 1.1366933333333333,
      "grad_norm": 0.02442705919304108,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 6313
    },
    {
      "epoch": 1.1367466666666666,
      "grad_norm": 0.024614998443177202,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6314
    },
    {
      "epoch": 1.1368,
      "grad_norm": 0.02270315974378459,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 6315
    },
    {
      "epoch": 1.1368533333333333,
      "grad_norm": 0.024853013504019864,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 6316
    },
    {
      "epoch": 1.1369066666666667,
      "grad_norm": 0.023717825219213225,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 6317
    },
    {
      "epoch": 1.13696,
      "grad_norm": 0.0262595493676375,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6318
    },
    {
      "epoch": 1.1370133333333334,
      "grad_norm": 0.024847488297286585,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 6319
    },
    {
      "epoch": 1.1370666666666667,
      "grad_norm": 0.023852706617085325,
      "learning_rate": 0.0001,
      "loss": 1.0472,
      "step": 6320
    },
    {
      "epoch": 1.13712,
      "grad_norm": 0.024430395656273304,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 6321
    },
    {
      "epoch": 1.1371733333333334,
      "grad_norm": 0.02296572827861205,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 6322
    },
    {
      "epoch": 1.1372266666666666,
      "grad_norm": 0.023208215186654734,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 6323
    },
    {
      "epoch": 1.13728,
      "grad_norm": 0.02309556606839938,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6324
    },
    {
      "epoch": 1.1373333333333333,
      "grad_norm": 0.023822114255089198,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 6325
    },
    {
      "epoch": 1.1373866666666665,
      "grad_norm": 0.023143037529911977,
      "learning_rate": 0.0001,
      "loss": 1.0431,
      "step": 6326
    },
    {
      "epoch": 1.13744,
      "grad_norm": 0.026511524979378764,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 6327
    },
    {
      "epoch": 1.1374933333333332,
      "grad_norm": 0.02391648836119645,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 6328
    },
    {
      "epoch": 1.1375466666666667,
      "grad_norm": 0.02292448068392983,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 6329
    },
    {
      "epoch": 1.1376,
      "grad_norm": 0.024627183630149242,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 6330
    },
    {
      "epoch": 1.1376533333333334,
      "grad_norm": 0.023476917298193328,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6331
    },
    {
      "epoch": 1.1377066666666666,
      "grad_norm": 0.022731974827275073,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 6332
    },
    {
      "epoch": 1.13776,
      "grad_norm": 0.025724531524506673,
      "learning_rate": 0.0001,
      "loss": 1.0315,
      "step": 6333
    },
    {
      "epoch": 1.1378133333333333,
      "grad_norm": 0.024448526062343275,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 6334
    },
    {
      "epoch": 1.1378666666666666,
      "grad_norm": 0.0233477678805777,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 6335
    },
    {
      "epoch": 1.13792,
      "grad_norm": 0.025874323867214544,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6336
    },
    {
      "epoch": 1.1379733333333333,
      "grad_norm": 0.023700988566114984,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 6337
    },
    {
      "epoch": 1.1380266666666667,
      "grad_norm": 0.024226089840556308,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6338
    },
    {
      "epoch": 1.13808,
      "grad_norm": 0.023604265098804214,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 6339
    },
    {
      "epoch": 1.1381333333333332,
      "grad_norm": 0.024705527585522673,
      "learning_rate": 0.0001,
      "loss": 0.9042,
      "step": 6340
    },
    {
      "epoch": 1.1381866666666667,
      "grad_norm": 0.024405342514253015,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "step": 6341
    },
    {
      "epoch": 1.13824,
      "grad_norm": 0.026655892109698365,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 6342
    },
    {
      "epoch": 1.1382933333333334,
      "grad_norm": 0.024694596146734856,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 6343
    },
    {
      "epoch": 1.1383466666666666,
      "grad_norm": 0.02547858603839723,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 6344
    },
    {
      "epoch": 1.1384,
      "grad_norm": 0.02614606970619272,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 6345
    },
    {
      "epoch": 1.1384533333333333,
      "grad_norm": 0.025607997800384676,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 6346
    },
    {
      "epoch": 1.1385066666666668,
      "grad_norm": 0.026090350234659953,
      "learning_rate": 0.0001,
      "loss": 1.0326,
      "step": 6347
    },
    {
      "epoch": 1.13856,
      "grad_norm": 0.0248663711631664,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 6348
    },
    {
      "epoch": 1.1386133333333333,
      "grad_norm": 0.02580076622949218,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 6349
    },
    {
      "epoch": 1.1386666666666667,
      "grad_norm": 0.024489516154717318,
      "learning_rate": 0.0001,
      "loss": 0.8883,
      "step": 6350
    },
    {
      "epoch": 1.13872,
      "grad_norm": 0.023984384835825642,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 6351
    },
    {
      "epoch": 1.1387733333333334,
      "grad_norm": 0.025292642583557522,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 6352
    },
    {
      "epoch": 1.1388266666666667,
      "grad_norm": 0.026052918636883506,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 6353
    },
    {
      "epoch": 1.13888,
      "grad_norm": 0.02846263906180166,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 6354
    },
    {
      "epoch": 1.1389333333333334,
      "grad_norm": 0.02580918168918304,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 6355
    },
    {
      "epoch": 1.1389866666666666,
      "grad_norm": 0.025901967246875476,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 6356
    },
    {
      "epoch": 1.13904,
      "grad_norm": 0.026689874802297783,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 6357
    },
    {
      "epoch": 1.1390933333333333,
      "grad_norm": 0.02793515074538281,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 6358
    },
    {
      "epoch": 1.1391466666666668,
      "grad_norm": 0.02632963463789118,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 6359
    },
    {
      "epoch": 1.1392,
      "grad_norm": 0.02417241403681167,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 6360
    },
    {
      "epoch": 1.1392533333333335,
      "grad_norm": 0.02688378278427708,
      "learning_rate": 0.0001,
      "loss": 0.8994,
      "step": 6361
    },
    {
      "epoch": 1.1393066666666667,
      "grad_norm": 0.02437384942918246,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 6362
    },
    {
      "epoch": 1.13936,
      "grad_norm": 0.02487071772147045,
      "learning_rate": 0.0001,
      "loss": 1.0305,
      "step": 6363
    },
    {
      "epoch": 1.1394133333333334,
      "grad_norm": 0.024600973047999644,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 6364
    },
    {
      "epoch": 1.1394666666666666,
      "grad_norm": 0.02540785519746137,
      "learning_rate": 0.0001,
      "loss": 0.9129,
      "step": 6365
    },
    {
      "epoch": 1.13952,
      "grad_norm": 0.024160967745178168,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 6366
    },
    {
      "epoch": 1.1395733333333333,
      "grad_norm": 0.024532691267725774,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 6367
    },
    {
      "epoch": 1.1396266666666666,
      "grad_norm": 0.024761506652442963,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 6368
    },
    {
      "epoch": 1.13968,
      "grad_norm": 0.024652705826265966,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 6369
    },
    {
      "epoch": 1.1397333333333333,
      "grad_norm": 0.02545978098779614,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6370
    },
    {
      "epoch": 1.1397866666666667,
      "grad_norm": 0.02295422423669946,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 6371
    },
    {
      "epoch": 1.13984,
      "grad_norm": 0.025564167893754087,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 6372
    },
    {
      "epoch": 1.1398933333333334,
      "grad_norm": 0.022540697234308293,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 6373
    },
    {
      "epoch": 1.1399466666666667,
      "grad_norm": 0.025386995073081075,
      "learning_rate": 0.0001,
      "loss": 0.911,
      "step": 6374
    },
    {
      "epoch": 1.1400000000000001,
      "grad_norm": 0.023320870140435265,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 6375
    },
    {
      "epoch": 1.1400533333333334,
      "grad_norm": 0.02690990287075511,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 6376
    },
    {
      "epoch": 1.1401066666666666,
      "grad_norm": 0.022438099335574866,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 6377
    },
    {
      "epoch": 1.14016,
      "grad_norm": 0.024572559078319584,
      "learning_rate": 0.0001,
      "loss": 0.9031,
      "step": 6378
    },
    {
      "epoch": 1.1402133333333333,
      "grad_norm": 0.02488433997001856,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 6379
    },
    {
      "epoch": 1.1402666666666668,
      "grad_norm": 0.02402286828241841,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 6380
    },
    {
      "epoch": 1.14032,
      "grad_norm": 0.025036529699760286,
      "learning_rate": 0.0001,
      "loss": 0.9058,
      "step": 6381
    },
    {
      "epoch": 1.1403733333333332,
      "grad_norm": 0.025880062427014978,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 6382
    },
    {
      "epoch": 1.1404266666666667,
      "grad_norm": 0.025739387493262187,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6383
    },
    {
      "epoch": 1.14048,
      "grad_norm": 0.025746335267111956,
      "learning_rate": 0.0001,
      "loss": 0.9,
      "step": 6384
    },
    {
      "epoch": 1.1405333333333334,
      "grad_norm": 0.024421113826270487,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6385
    },
    {
      "epoch": 1.1405866666666666,
      "grad_norm": 0.024647791301940798,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 6386
    },
    {
      "epoch": 1.1406399999999999,
      "grad_norm": 0.022101797752025264,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6387
    },
    {
      "epoch": 1.1406933333333333,
      "grad_norm": 0.025813447216464048,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 6388
    },
    {
      "epoch": 1.1407466666666666,
      "grad_norm": 0.025671302801500477,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 6389
    },
    {
      "epoch": 1.1408,
      "grad_norm": 0.024746648559867,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 6390
    },
    {
      "epoch": 1.1408533333333333,
      "grad_norm": 0.024273517074715614,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 6391
    },
    {
      "epoch": 1.1409066666666667,
      "grad_norm": 0.024190977757733528,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 6392
    },
    {
      "epoch": 1.14096,
      "grad_norm": 0.023869766035121063,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 6393
    },
    {
      "epoch": 1.1410133333333334,
      "grad_norm": 0.025244302265803025,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 6394
    },
    {
      "epoch": 1.1410666666666667,
      "grad_norm": 0.025175132795299503,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 6395
    },
    {
      "epoch": 1.14112,
      "grad_norm": 0.02487249438718337,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 6396
    },
    {
      "epoch": 1.1411733333333334,
      "grad_norm": 0.023171446752744424,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 6397
    },
    {
      "epoch": 1.1412266666666666,
      "grad_norm": 0.024840245645674833,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6398
    },
    {
      "epoch": 1.14128,
      "grad_norm": 0.024777010186551783,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 6399
    },
    {
      "epoch": 1.1413333333333333,
      "grad_norm": 0.025090654374568915,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6400
    },
    {
      "epoch": 1.1413333333333333,
      "eval_accuracy": 0.6186734942706756,
      "eval_loss": 1.3626307249069214,
      "eval_runtime": 63.9635,
      "eval_samples_per_second": 15.634,
      "eval_steps_per_second": 0.5,
      "step": 6400
    },
    {
      "epoch": 1.1413866666666665,
      "grad_norm": 0.024818713669395216,
      "learning_rate": 0.0001,
      "loss": 1.0496,
      "step": 6401
    },
    {
      "epoch": 1.14144,
      "grad_norm": 0.0234534580988266,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 6402
    },
    {
      "epoch": 1.1414933333333332,
      "grad_norm": 0.025010178583587363,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 6403
    },
    {
      "epoch": 1.1415466666666667,
      "grad_norm": 0.0238655505198689,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 6404
    },
    {
      "epoch": 1.1416,
      "grad_norm": 0.023977841924485543,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 6405
    },
    {
      "epoch": 1.1416533333333334,
      "grad_norm": 0.023504881317361743,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 6406
    },
    {
      "epoch": 1.1417066666666666,
      "grad_norm": 0.022904200601188196,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 6407
    },
    {
      "epoch": 1.14176,
      "grad_norm": 0.02470595106112979,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 6408
    },
    {
      "epoch": 1.1418133333333333,
      "grad_norm": 0.024095608670189655,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 6409
    },
    {
      "epoch": 1.1418666666666666,
      "grad_norm": 0.023461273988548505,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6410
    },
    {
      "epoch": 1.14192,
      "grad_norm": 0.02423907826447616,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6411
    },
    {
      "epoch": 1.1419733333333333,
      "grad_norm": 0.02198566462105393,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 6412
    },
    {
      "epoch": 1.1420266666666667,
      "grad_norm": 0.024883659560744984,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 6413
    },
    {
      "epoch": 1.14208,
      "grad_norm": 0.025335132768636838,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 6414
    },
    {
      "epoch": 1.1421333333333332,
      "grad_norm": 0.023621275402453477,
      "learning_rate": 0.0001,
      "loss": 1.05,
      "step": 6415
    },
    {
      "epoch": 1.1421866666666667,
      "grad_norm": 0.02367690106392082,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 6416
    },
    {
      "epoch": 1.14224,
      "grad_norm": 0.02507920267655227,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6417
    },
    {
      "epoch": 1.1422933333333334,
      "grad_norm": 0.025400689300331725,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 6418
    },
    {
      "epoch": 1.1423466666666666,
      "grad_norm": 0.02416456525007284,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 6419
    },
    {
      "epoch": 1.1424,
      "grad_norm": 0.02806600143803757,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 6420
    },
    {
      "epoch": 1.1424533333333333,
      "grad_norm": 0.02412716127454667,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 6421
    },
    {
      "epoch": 1.1425066666666668,
      "grad_norm": 0.02387214231713992,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 6422
    },
    {
      "epoch": 1.14256,
      "grad_norm": 0.02491880676648782,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 6423
    },
    {
      "epoch": 1.1426133333333333,
      "grad_norm": 0.024147535404968015,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 6424
    },
    {
      "epoch": 1.1426666666666667,
      "grad_norm": 0.02534938293533649,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 6425
    },
    {
      "epoch": 1.14272,
      "grad_norm": 0.024028147056052468,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 6426
    },
    {
      "epoch": 1.1427733333333334,
      "grad_norm": 0.02800835343618442,
      "learning_rate": 0.0001,
      "loss": 1.0299,
      "step": 6427
    },
    {
      "epoch": 1.1428266666666667,
      "grad_norm": 0.024478466695519233,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 6428
    },
    {
      "epoch": 1.14288,
      "grad_norm": 0.022683992253479023,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 6429
    },
    {
      "epoch": 1.1429333333333334,
      "grad_norm": 0.02372234361688697,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 6430
    },
    {
      "epoch": 1.1429866666666666,
      "grad_norm": 0.023380216394320284,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 6431
    },
    {
      "epoch": 1.14304,
      "grad_norm": 0.024199869321845275,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 6432
    },
    {
      "epoch": 1.1430933333333333,
      "grad_norm": 0.0246825043519838,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 6433
    },
    {
      "epoch": 1.1431466666666668,
      "grad_norm": 0.02387653488643862,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 6434
    },
    {
      "epoch": 1.1432,
      "grad_norm": 0.023963974288889484,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 6435
    },
    {
      "epoch": 1.1432533333333335,
      "grad_norm": 0.023301720122636732,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 6436
    },
    {
      "epoch": 1.1433066666666667,
      "grad_norm": 0.0261301732931032,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 6437
    },
    {
      "epoch": 1.14336,
      "grad_norm": 0.022711358965545166,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 6438
    },
    {
      "epoch": 1.1434133333333334,
      "grad_norm": 0.025277523412585295,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 6439
    },
    {
      "epoch": 1.1434666666666666,
      "grad_norm": 0.025493578540902312,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 6440
    },
    {
      "epoch": 1.14352,
      "grad_norm": 0.02440457394920936,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "step": 6441
    },
    {
      "epoch": 1.1435733333333333,
      "grad_norm": 0.025236699002938803,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6442
    },
    {
      "epoch": 1.1436266666666666,
      "grad_norm": 0.023125419888296694,
      "learning_rate": 0.0001,
      "loss": 0.9238,
      "step": 6443
    },
    {
      "epoch": 1.14368,
      "grad_norm": 0.024372963150758313,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6444
    },
    {
      "epoch": 1.1437333333333333,
      "grad_norm": 0.02330596704260975,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 6445
    },
    {
      "epoch": 1.1437866666666667,
      "grad_norm": 0.02411118917448528,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6446
    },
    {
      "epoch": 1.14384,
      "grad_norm": 0.02355055157930137,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 6447
    },
    {
      "epoch": 1.1438933333333334,
      "grad_norm": 0.025948300503684567,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "step": 6448
    },
    {
      "epoch": 1.1439466666666667,
      "grad_norm": 0.023467264413868136,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6449
    },
    {
      "epoch": 1.144,
      "grad_norm": 0.0233684580097858,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 6450
    },
    {
      "epoch": 1.1440533333333334,
      "grad_norm": 0.02357950014295757,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 6451
    },
    {
      "epoch": 1.1441066666666666,
      "grad_norm": 0.02450858733218133,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6452
    },
    {
      "epoch": 1.14416,
      "grad_norm": 0.02250780746464672,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 6453
    },
    {
      "epoch": 1.1442133333333333,
      "grad_norm": 0.023688714372722946,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 6454
    },
    {
      "epoch": 1.1442666666666668,
      "grad_norm": 0.02385060805375982,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 6455
    },
    {
      "epoch": 1.14432,
      "grad_norm": 0.024508671723858802,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 6456
    },
    {
      "epoch": 1.1443733333333332,
      "grad_norm": 0.026553438015414703,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 6457
    },
    {
      "epoch": 1.1444266666666667,
      "grad_norm": 0.02330767668186131,
      "learning_rate": 0.0001,
      "loss": 0.996,
      "step": 6458
    },
    {
      "epoch": 1.14448,
      "grad_norm": 0.023778345519342877,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 6459
    },
    {
      "epoch": 1.1445333333333334,
      "grad_norm": 0.022864320012817945,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 6460
    },
    {
      "epoch": 1.1445866666666666,
      "grad_norm": 0.02298729684665054,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 6461
    },
    {
      "epoch": 1.1446399999999999,
      "grad_norm": 0.023804306063323375,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 6462
    },
    {
      "epoch": 1.1446933333333333,
      "grad_norm": 0.022954912026556886,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6463
    },
    {
      "epoch": 1.1447466666666666,
      "grad_norm": 0.024284744533694582,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 6464
    },
    {
      "epoch": 1.1448,
      "grad_norm": 0.024806387379134244,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 6465
    },
    {
      "epoch": 1.1448533333333333,
      "grad_norm": 0.023523364657512355,
      "learning_rate": 0.0001,
      "loss": 1.0456,
      "step": 6466
    },
    {
      "epoch": 1.1449066666666667,
      "grad_norm": 0.022676090375195256,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 6467
    },
    {
      "epoch": 1.14496,
      "grad_norm": 0.023638678361237852,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 6468
    },
    {
      "epoch": 1.1450133333333334,
      "grad_norm": 0.024693479964480507,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 6469
    },
    {
      "epoch": 1.1450666666666667,
      "grad_norm": 0.022480993744444774,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 6470
    },
    {
      "epoch": 1.14512,
      "grad_norm": 0.024722106684933038,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 6471
    },
    {
      "epoch": 1.1451733333333334,
      "grad_norm": 0.024259128511809464,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 6472
    },
    {
      "epoch": 1.1452266666666666,
      "grad_norm": 0.02596744687643352,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6473
    },
    {
      "epoch": 1.14528,
      "grad_norm": 0.02474329221784223,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6474
    },
    {
      "epoch": 1.1453333333333333,
      "grad_norm": 0.024862234644773513,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "step": 6475
    },
    {
      "epoch": 1.1453866666666666,
      "grad_norm": 0.023520912930095676,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 6476
    },
    {
      "epoch": 1.14544,
      "grad_norm": 0.025325311521632705,
      "learning_rate": 0.0001,
      "loss": 1.0605,
      "step": 6477
    },
    {
      "epoch": 1.1454933333333333,
      "grad_norm": 0.024447067223005953,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 6478
    },
    {
      "epoch": 1.1455466666666667,
      "grad_norm": 0.024173224476072435,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6479
    },
    {
      "epoch": 1.1456,
      "grad_norm": 0.025119698323436437,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 6480
    },
    {
      "epoch": 1.1456533333333334,
      "grad_norm": 0.023325698159894832,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6481
    },
    {
      "epoch": 1.1457066666666667,
      "grad_norm": 0.024773929667488658,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 6482
    },
    {
      "epoch": 1.1457600000000001,
      "grad_norm": 0.025290947050124312,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 6483
    },
    {
      "epoch": 1.1458133333333334,
      "grad_norm": 0.0233744089228315,
      "learning_rate": 0.0001,
      "loss": 0.9013,
      "step": 6484
    },
    {
      "epoch": 1.1458666666666666,
      "grad_norm": 0.026197840635050925,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 6485
    },
    {
      "epoch": 1.14592,
      "grad_norm": 0.026405327382454564,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 6486
    },
    {
      "epoch": 1.1459733333333333,
      "grad_norm": 0.024867837212642876,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6487
    },
    {
      "epoch": 1.1460266666666667,
      "grad_norm": 0.025196586870557133,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 6488
    },
    {
      "epoch": 1.14608,
      "grad_norm": 0.023916046433919706,
      "learning_rate": 0.0001,
      "loss": 0.9092,
      "step": 6489
    },
    {
      "epoch": 1.1461333333333332,
      "grad_norm": 0.023531485391825473,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 6490
    },
    {
      "epoch": 1.1461866666666667,
      "grad_norm": 0.02462174841770514,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 6491
    },
    {
      "epoch": 1.14624,
      "grad_norm": 0.023193527376160643,
      "learning_rate": 0.0001,
      "loss": 0.9181,
      "step": 6492
    },
    {
      "epoch": 1.1462933333333334,
      "grad_norm": 0.02321943199383894,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 6493
    },
    {
      "epoch": 1.1463466666666666,
      "grad_norm": 0.023715694988968177,
      "learning_rate": 0.0001,
      "loss": 0.893,
      "step": 6494
    },
    {
      "epoch": 1.1464,
      "grad_norm": 0.024874294021249015,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6495
    },
    {
      "epoch": 1.1464533333333333,
      "grad_norm": 0.025047125827971174,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 6496
    },
    {
      "epoch": 1.1465066666666668,
      "grad_norm": 0.024069710496265568,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6497
    },
    {
      "epoch": 1.14656,
      "grad_norm": 0.023633505766138995,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6498
    },
    {
      "epoch": 1.1466133333333333,
      "grad_norm": 0.02565263869015109,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 6499
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 0.025800020834001337,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 6500
    },
    {
      "epoch": 1.14672,
      "grad_norm": 0.02207656729293947,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 6501
    },
    {
      "epoch": 1.1467733333333334,
      "grad_norm": 0.024995683104104074,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 6502
    },
    {
      "epoch": 1.1468266666666667,
      "grad_norm": 0.023696419923178395,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 6503
    },
    {
      "epoch": 1.14688,
      "grad_norm": 0.023806530950243994,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 6504
    },
    {
      "epoch": 1.1469333333333334,
      "grad_norm": 0.02545448128363791,
      "learning_rate": 0.0001,
      "loss": 1.0232,
      "step": 6505
    },
    {
      "epoch": 1.1469866666666666,
      "grad_norm": 0.024666916274401512,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 6506
    },
    {
      "epoch": 1.14704,
      "grad_norm": 0.022912065091635514,
      "learning_rate": 0.0001,
      "loss": 0.8944,
      "step": 6507
    },
    {
      "epoch": 1.1470933333333333,
      "grad_norm": 0.023550044758622185,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6508
    },
    {
      "epoch": 1.1471466666666668,
      "grad_norm": 0.02437685621960573,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 6509
    },
    {
      "epoch": 1.1472,
      "grad_norm": 0.023020106408630357,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 6510
    },
    {
      "epoch": 1.1472533333333335,
      "grad_norm": 0.023499942005013333,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 6511
    },
    {
      "epoch": 1.1473066666666667,
      "grad_norm": 0.02433521907324269,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6512
    },
    {
      "epoch": 1.14736,
      "grad_norm": 0.023361039305131306,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 6513
    },
    {
      "epoch": 1.1474133333333334,
      "grad_norm": 0.02349550391626517,
      "learning_rate": 0.0001,
      "loss": 1.0361,
      "step": 6514
    },
    {
      "epoch": 1.1474666666666666,
      "grad_norm": 0.023188368545517035,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 6515
    },
    {
      "epoch": 1.14752,
      "grad_norm": 0.023925489251371505,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 6516
    },
    {
      "epoch": 1.1475733333333333,
      "grad_norm": 0.023530586042873496,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 6517
    },
    {
      "epoch": 1.1476266666666666,
      "grad_norm": 0.025680789849237613,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 6518
    },
    {
      "epoch": 1.14768,
      "grad_norm": 0.02206243035409006,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 6519
    },
    {
      "epoch": 1.1477333333333333,
      "grad_norm": 0.024085432440633728,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 6520
    },
    {
      "epoch": 1.1477866666666667,
      "grad_norm": 0.02601724951316796,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6521
    },
    {
      "epoch": 1.14784,
      "grad_norm": 0.023835719266824797,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6522
    },
    {
      "epoch": 1.1478933333333332,
      "grad_norm": 0.024466475909952202,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 6523
    },
    {
      "epoch": 1.1479466666666667,
      "grad_norm": 0.02346614193503451,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6524
    },
    {
      "epoch": 1.148,
      "grad_norm": 0.0246519352945607,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 6525
    },
    {
      "epoch": 1.1480533333333334,
      "grad_norm": 0.023957835448706596,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 6526
    },
    {
      "epoch": 1.1481066666666666,
      "grad_norm": 0.025356871198898238,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 6527
    },
    {
      "epoch": 1.14816,
      "grad_norm": 0.025196456303498573,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 6528
    },
    {
      "epoch": 1.1482133333333333,
      "grad_norm": 0.022577758967935672,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 6529
    },
    {
      "epoch": 1.1482666666666668,
      "grad_norm": 0.025320586773826537,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6530
    },
    {
      "epoch": 1.14832,
      "grad_norm": 0.025790845070898384,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6531
    },
    {
      "epoch": 1.1483733333333332,
      "grad_norm": 0.026214572636302565,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6532
    },
    {
      "epoch": 1.1484266666666667,
      "grad_norm": 0.02778101246498952,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 6533
    },
    {
      "epoch": 1.14848,
      "grad_norm": 0.029227215777425954,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 6534
    },
    {
      "epoch": 1.1485333333333334,
      "grad_norm": 0.026143989103516205,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 6535
    },
    {
      "epoch": 1.1485866666666666,
      "grad_norm": 0.026800934632167667,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 6536
    },
    {
      "epoch": 1.1486399999999999,
      "grad_norm": 0.02570530826545334,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 6537
    },
    {
      "epoch": 1.1486933333333333,
      "grad_norm": 0.02607260547962967,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6538
    },
    {
      "epoch": 1.1487466666666666,
      "grad_norm": 0.02527239194893959,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 6539
    },
    {
      "epoch": 1.1488,
      "grad_norm": 0.024622948896999185,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "step": 6540
    },
    {
      "epoch": 1.1488533333333333,
      "grad_norm": 0.024031334157241475,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 6541
    },
    {
      "epoch": 1.1489066666666667,
      "grad_norm": 0.025183808606017023,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6542
    },
    {
      "epoch": 1.14896,
      "grad_norm": 0.022826426632463336,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 6543
    },
    {
      "epoch": 1.1490133333333334,
      "grad_norm": 0.02601362134779363,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 6544
    },
    {
      "epoch": 1.1490666666666667,
      "grad_norm": 0.022914594037116848,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 6545
    },
    {
      "epoch": 1.14912,
      "grad_norm": 0.026569463866633426,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 6546
    },
    {
      "epoch": 1.1491733333333334,
      "grad_norm": 0.024708495921582897,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 6547
    },
    {
      "epoch": 1.1492266666666666,
      "grad_norm": 0.02289010096352404,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 6548
    },
    {
      "epoch": 1.14928,
      "grad_norm": 0.02412196770094686,
      "learning_rate": 0.0001,
      "loss": 1.0216,
      "step": 6549
    },
    {
      "epoch": 1.1493333333333333,
      "grad_norm": 0.026461401742204092,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 6550
    },
    {
      "epoch": 1.1493866666666666,
      "grad_norm": 0.024682570180443824,
      "learning_rate": 0.0001,
      "loss": 0.9235,
      "step": 6551
    },
    {
      "epoch": 1.14944,
      "grad_norm": 0.025761971834890728,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6552
    },
    {
      "epoch": 1.1494933333333333,
      "grad_norm": 0.02491818537545462,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 6553
    },
    {
      "epoch": 1.1495466666666667,
      "grad_norm": 0.022474684921744138,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6554
    },
    {
      "epoch": 1.1496,
      "grad_norm": 0.025510344137265384,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 6555
    },
    {
      "epoch": 1.1496533333333334,
      "grad_norm": 0.024089799558805965,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 6556
    },
    {
      "epoch": 1.1497066666666667,
      "grad_norm": 0.023429502003994126,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 6557
    },
    {
      "epoch": 1.1497600000000001,
      "grad_norm": 0.02605308549672868,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 6558
    },
    {
      "epoch": 1.1498133333333334,
      "grad_norm": 0.02493382504306148,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6559
    },
    {
      "epoch": 1.1498666666666666,
      "grad_norm": 0.02494106633479154,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6560
    },
    {
      "epoch": 1.14992,
      "grad_norm": 0.0237230030892974,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 6561
    },
    {
      "epoch": 1.1499733333333333,
      "grad_norm": 0.027551523394725864,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 6562
    },
    {
      "epoch": 1.1500266666666668,
      "grad_norm": 0.026287569951938292,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6563
    },
    {
      "epoch": 1.15008,
      "grad_norm": 0.02466922380435168,
      "learning_rate": 0.0001,
      "loss": 0.9065,
      "step": 6564
    },
    {
      "epoch": 1.1501333333333332,
      "grad_norm": 0.024792417928977024,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 6565
    },
    {
      "epoch": 1.1501866666666667,
      "grad_norm": 0.023146882199210732,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 6566
    },
    {
      "epoch": 1.15024,
      "grad_norm": 0.02391134126206135,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 6567
    },
    {
      "epoch": 1.1502933333333334,
      "grad_norm": 0.02419470292797179,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6568
    },
    {
      "epoch": 1.1503466666666666,
      "grad_norm": 0.0259392224639489,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 6569
    },
    {
      "epoch": 1.1504,
      "grad_norm": 0.02457985099412832,
      "learning_rate": 0.0001,
      "loss": 0.912,
      "step": 6570
    },
    {
      "epoch": 1.1504533333333333,
      "grad_norm": 0.024789087271685287,
      "learning_rate": 0.0001,
      "loss": 1.0519,
      "step": 6571
    },
    {
      "epoch": 1.1505066666666668,
      "grad_norm": 0.022801421251511522,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 6572
    },
    {
      "epoch": 1.15056,
      "grad_norm": 0.027157772337033287,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 6573
    },
    {
      "epoch": 1.1506133333333333,
      "grad_norm": 0.02578697495754335,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 6574
    },
    {
      "epoch": 1.1506666666666667,
      "grad_norm": 0.026058724488998573,
      "learning_rate": 0.0001,
      "loss": 0.9802,
      "step": 6575
    },
    {
      "epoch": 1.15072,
      "grad_norm": 0.02448413207365997,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6576
    },
    {
      "epoch": 1.1507733333333334,
      "grad_norm": 0.02531909791909078,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6577
    },
    {
      "epoch": 1.1508266666666667,
      "grad_norm": 0.025250348525291927,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 6578
    },
    {
      "epoch": 1.15088,
      "grad_norm": 0.024367898817617775,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 6579
    },
    {
      "epoch": 1.1509333333333334,
      "grad_norm": 0.022941274013515697,
      "learning_rate": 0.0001,
      "loss": 0.9067,
      "step": 6580
    },
    {
      "epoch": 1.1509866666666666,
      "grad_norm": 0.025401242515354912,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 6581
    },
    {
      "epoch": 1.15104,
      "grad_norm": 0.025252217500779817,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 6582
    },
    {
      "epoch": 1.1510933333333333,
      "grad_norm": 0.026100053640574113,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 6583
    },
    {
      "epoch": 1.1511466666666668,
      "grad_norm": 0.023477332458554143,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6584
    },
    {
      "epoch": 1.1512,
      "grad_norm": 0.025207468179386665,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 6585
    },
    {
      "epoch": 1.1512533333333332,
      "grad_norm": 0.023516184052322243,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6586
    },
    {
      "epoch": 1.1513066666666667,
      "grad_norm": 0.023397108691315196,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 6587
    },
    {
      "epoch": 1.15136,
      "grad_norm": 0.022965549978050906,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6588
    },
    {
      "epoch": 1.1514133333333334,
      "grad_norm": 0.02455438351433295,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 6589
    },
    {
      "epoch": 1.1514666666666666,
      "grad_norm": 0.023901640922966563,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 6590
    },
    {
      "epoch": 1.15152,
      "grad_norm": 0.0238877577869763,
      "learning_rate": 0.0001,
      "loss": 1.0018,
      "step": 6591
    },
    {
      "epoch": 1.1515733333333333,
      "grad_norm": 0.024498444089627806,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 6592
    },
    {
      "epoch": 1.1516266666666666,
      "grad_norm": 0.023221026861027817,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 6593
    },
    {
      "epoch": 1.15168,
      "grad_norm": 0.02545193559111799,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 6594
    },
    {
      "epoch": 1.1517333333333333,
      "grad_norm": 0.023714847895212304,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 6595
    },
    {
      "epoch": 1.1517866666666667,
      "grad_norm": 0.023824854502992807,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 6596
    },
    {
      "epoch": 1.15184,
      "grad_norm": 0.024011579161169,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 6597
    },
    {
      "epoch": 1.1518933333333332,
      "grad_norm": 0.026070580171742717,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 6598
    },
    {
      "epoch": 1.1519466666666667,
      "grad_norm": 0.024221968036371968,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 6599
    },
    {
      "epoch": 1.152,
      "grad_norm": 0.02490220472698781,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 6600
    },
    {
      "epoch": 1.152,
      "eval_accuracy": 0.6187920197091642,
      "eval_loss": 1.3618242740631104,
      "eval_runtime": 63.0885,
      "eval_samples_per_second": 15.851,
      "eval_steps_per_second": 0.507,
      "step": 6600
    },
    {
      "epoch": 1.1520533333333334,
      "grad_norm": 0.02681574735612942,
      "learning_rate": 0.0001,
      "loss": 1.015,
      "step": 6601
    },
    {
      "epoch": 1.1521066666666666,
      "grad_norm": 0.02316386123720833,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 6602
    },
    {
      "epoch": 1.15216,
      "grad_norm": 0.022079226409837536,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 6603
    },
    {
      "epoch": 1.1522133333333333,
      "grad_norm": 0.024474126703930225,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 6604
    },
    {
      "epoch": 1.1522666666666668,
      "grad_norm": 0.023059630237737966,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 6605
    },
    {
      "epoch": 1.15232,
      "grad_norm": 0.022753099800981533,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 6606
    },
    {
      "epoch": 1.1523733333333332,
      "grad_norm": 0.023306622965100554,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6607
    },
    {
      "epoch": 1.1524266666666667,
      "grad_norm": 0.024389405841714465,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6608
    },
    {
      "epoch": 1.15248,
      "grad_norm": 0.022542361602212704,
      "learning_rate": 0.0001,
      "loss": 0.8738,
      "step": 6609
    },
    {
      "epoch": 1.1525333333333334,
      "grad_norm": 0.02523455688753056,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 6610
    },
    {
      "epoch": 1.1525866666666666,
      "grad_norm": 0.023527734075283344,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 6611
    },
    {
      "epoch": 1.1526399999999999,
      "grad_norm": 0.026293045044547953,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 6612
    },
    {
      "epoch": 1.1526933333333333,
      "grad_norm": 0.023450274173306924,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6613
    },
    {
      "epoch": 1.1527466666666666,
      "grad_norm": 0.025296651318137423,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6614
    },
    {
      "epoch": 1.1528,
      "grad_norm": 0.024570294752925253,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 6615
    },
    {
      "epoch": 1.1528533333333333,
      "grad_norm": 0.026160515623017612,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 6616
    },
    {
      "epoch": 1.1529066666666667,
      "grad_norm": 0.026959672772016864,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 6617
    },
    {
      "epoch": 1.15296,
      "grad_norm": 0.024764385568375496,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 6618
    },
    {
      "epoch": 1.1530133333333334,
      "grad_norm": 0.025177220508616985,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 6619
    },
    {
      "epoch": 1.1530666666666667,
      "grad_norm": 0.024626062041971035,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6620
    },
    {
      "epoch": 1.15312,
      "grad_norm": 0.02321121091019076,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 6621
    },
    {
      "epoch": 1.1531733333333334,
      "grad_norm": 0.025418163371526904,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 6622
    },
    {
      "epoch": 1.1532266666666666,
      "grad_norm": 0.02483514504858228,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 6623
    },
    {
      "epoch": 1.15328,
      "grad_norm": 0.02533069025999774,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 6624
    },
    {
      "epoch": 1.1533333333333333,
      "grad_norm": 0.025779558051919935,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 6625
    },
    {
      "epoch": 1.1533866666666666,
      "grad_norm": 0.02478076883524867,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 6626
    },
    {
      "epoch": 1.15344,
      "grad_norm": 0.02458587851409054,
      "learning_rate": 0.0001,
      "loss": 1.0882,
      "step": 6627
    },
    {
      "epoch": 1.1534933333333333,
      "grad_norm": 0.02552687062401559,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6628
    },
    {
      "epoch": 1.1535466666666667,
      "grad_norm": 0.025226401238378972,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6629
    },
    {
      "epoch": 1.1536,
      "grad_norm": 0.026583227932106088,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 6630
    },
    {
      "epoch": 1.1536533333333334,
      "grad_norm": 0.025985941038839444,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 6631
    },
    {
      "epoch": 1.1537066666666667,
      "grad_norm": 0.02576833780213717,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 6632
    },
    {
      "epoch": 1.1537600000000001,
      "grad_norm": 0.02326610259177104,
      "learning_rate": 0.0001,
      "loss": 1.016,
      "step": 6633
    },
    {
      "epoch": 1.1538133333333334,
      "grad_norm": 0.024512508513019143,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 6634
    },
    {
      "epoch": 1.1538666666666666,
      "grad_norm": 0.024556098288469653,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 6635
    },
    {
      "epoch": 1.15392,
      "grad_norm": 0.024907860117939294,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 6636
    },
    {
      "epoch": 1.1539733333333333,
      "grad_norm": 0.023010305013432944,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 6637
    },
    {
      "epoch": 1.1540266666666668,
      "grad_norm": 0.02529927266900219,
      "learning_rate": 0.0001,
      "loss": 0.9484,
      "step": 6638
    },
    {
      "epoch": 1.15408,
      "grad_norm": 0.025167824376891627,
      "learning_rate": 0.0001,
      "loss": 0.9023,
      "step": 6639
    },
    {
      "epoch": 1.1541333333333332,
      "grad_norm": 0.02498633707045491,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 6640
    },
    {
      "epoch": 1.1541866666666667,
      "grad_norm": 0.02469310317487284,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 6641
    },
    {
      "epoch": 1.15424,
      "grad_norm": 0.02405218733694939,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 6642
    },
    {
      "epoch": 1.1542933333333334,
      "grad_norm": 0.024416761138041046,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 6643
    },
    {
      "epoch": 1.1543466666666666,
      "grad_norm": 0.026183111837989388,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 6644
    },
    {
      "epoch": 1.1544,
      "grad_norm": 0.025734452222214824,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 6645
    },
    {
      "epoch": 1.1544533333333333,
      "grad_norm": 0.023964814495660826,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 6646
    },
    {
      "epoch": 1.1545066666666666,
      "grad_norm": 0.025161657107320788,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 6647
    },
    {
      "epoch": 1.15456,
      "grad_norm": 0.025325893747624898,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6648
    },
    {
      "epoch": 1.1546133333333333,
      "grad_norm": 0.023037455932354095,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 6649
    },
    {
      "epoch": 1.1546666666666667,
      "grad_norm": 0.022934014635574533,
      "learning_rate": 0.0001,
      "loss": 0.8957,
      "step": 6650
    },
    {
      "epoch": 1.15472,
      "grad_norm": 0.022841082480548055,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 6651
    },
    {
      "epoch": 1.1547733333333334,
      "grad_norm": 0.025401130161224465,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6652
    },
    {
      "epoch": 1.1548266666666667,
      "grad_norm": 0.025910368205511593,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 6653
    },
    {
      "epoch": 1.15488,
      "grad_norm": 0.022927783161798783,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 6654
    },
    {
      "epoch": 1.1549333333333334,
      "grad_norm": 0.02421604138452636,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 6655
    },
    {
      "epoch": 1.1549866666666666,
      "grad_norm": 0.02491107978717869,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 6656
    },
    {
      "epoch": 1.15504,
      "grad_norm": 0.02381233490051453,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 6657
    },
    {
      "epoch": 1.1550933333333333,
      "grad_norm": 0.02566985688871368,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 6658
    },
    {
      "epoch": 1.1551466666666665,
      "grad_norm": 0.02453976627830089,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 6659
    },
    {
      "epoch": 1.1552,
      "grad_norm": 0.023130529525161335,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6660
    },
    {
      "epoch": 1.1552533333333332,
      "grad_norm": 0.02438143602417584,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 6661
    },
    {
      "epoch": 1.1553066666666667,
      "grad_norm": 0.023840711122616806,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 6662
    },
    {
      "epoch": 1.15536,
      "grad_norm": 0.02426873837192867,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 6663
    },
    {
      "epoch": 1.1554133333333334,
      "grad_norm": 0.023640207409555032,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 6664
    },
    {
      "epoch": 1.1554666666666666,
      "grad_norm": 0.025151657205243483,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 6665
    },
    {
      "epoch": 1.15552,
      "grad_norm": 0.0246709798450016,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 6666
    },
    {
      "epoch": 1.1555733333333333,
      "grad_norm": 0.024386267801024486,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 6667
    },
    {
      "epoch": 1.1556266666666666,
      "grad_norm": 0.028029161139705657,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 6668
    },
    {
      "epoch": 1.15568,
      "grad_norm": 0.0251600175871147,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 6669
    },
    {
      "epoch": 1.1557333333333333,
      "grad_norm": 0.025063810452516853,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 6670
    },
    {
      "epoch": 1.1557866666666667,
      "grad_norm": 0.024347109069295315,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 6671
    },
    {
      "epoch": 1.15584,
      "grad_norm": 0.023477718494469956,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 6672
    },
    {
      "epoch": 1.1558933333333332,
      "grad_norm": 0.023613233829705572,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 6673
    },
    {
      "epoch": 1.1559466666666667,
      "grad_norm": 0.026643071339694187,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "step": 6674
    },
    {
      "epoch": 1.156,
      "grad_norm": 0.023715502301693225,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 6675
    },
    {
      "epoch": 1.1560533333333334,
      "grad_norm": 0.02579218870250928,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6676
    },
    {
      "epoch": 1.1561066666666666,
      "grad_norm": 0.02409052319374008,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 6677
    },
    {
      "epoch": 1.15616,
      "grad_norm": 0.025348229735358763,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 6678
    },
    {
      "epoch": 1.1562133333333333,
      "grad_norm": 0.022797765031446923,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6679
    },
    {
      "epoch": 1.1562666666666668,
      "grad_norm": 0.024560274801067615,
      "learning_rate": 0.0001,
      "loss": 0.925,
      "step": 6680
    },
    {
      "epoch": 1.15632,
      "grad_norm": 0.026740742300532045,
      "learning_rate": 0.0001,
      "loss": 0.9262,
      "step": 6681
    },
    {
      "epoch": 1.1563733333333333,
      "grad_norm": 0.02367491683210547,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 6682
    },
    {
      "epoch": 1.1564266666666667,
      "grad_norm": 0.025256979261666264,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 6683
    },
    {
      "epoch": 1.15648,
      "grad_norm": 0.026238227631546856,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 6684
    },
    {
      "epoch": 1.1565333333333334,
      "grad_norm": 0.023679122923234975,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 6685
    },
    {
      "epoch": 1.1565866666666667,
      "grad_norm": 0.024783535989638884,
      "learning_rate": 0.0001,
      "loss": 1.0574,
      "step": 6686
    },
    {
      "epoch": 1.15664,
      "grad_norm": 0.023462152972487424,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 6687
    },
    {
      "epoch": 1.1566933333333334,
      "grad_norm": 0.02317828703131758,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6688
    },
    {
      "epoch": 1.1567466666666666,
      "grad_norm": 0.02384659077239771,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 6689
    },
    {
      "epoch": 1.1568,
      "grad_norm": 0.024586162071671518,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 6690
    },
    {
      "epoch": 1.1568533333333333,
      "grad_norm": 0.02325862326335573,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "step": 6691
    },
    {
      "epoch": 1.1569066666666667,
      "grad_norm": 0.022816935764298003,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 6692
    },
    {
      "epoch": 1.15696,
      "grad_norm": 0.02509453372144507,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 6693
    },
    {
      "epoch": 1.1570133333333334,
      "grad_norm": 0.024894364388052276,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6694
    },
    {
      "epoch": 1.1570666666666667,
      "grad_norm": 0.02346428810787568,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 6695
    },
    {
      "epoch": 1.15712,
      "grad_norm": 0.025702337788562842,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 6696
    },
    {
      "epoch": 1.1571733333333334,
      "grad_norm": 0.02280313859506297,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 6697
    },
    {
      "epoch": 1.1572266666666666,
      "grad_norm": 0.023950956036274132,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 6698
    },
    {
      "epoch": 1.15728,
      "grad_norm": 0.022286680455545906,
      "learning_rate": 0.0001,
      "loss": 0.918,
      "step": 6699
    },
    {
      "epoch": 1.1573333333333333,
      "grad_norm": 0.024543632291675138,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 6700
    },
    {
      "epoch": 1.1573866666666666,
      "grad_norm": 0.02284178046748654,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6701
    },
    {
      "epoch": 1.15744,
      "grad_norm": 0.02371067787630345,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 6702
    },
    {
      "epoch": 1.1574933333333333,
      "grad_norm": 0.02238934045449395,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 6703
    },
    {
      "epoch": 1.1575466666666667,
      "grad_norm": 0.023930879059137874,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 6704
    },
    {
      "epoch": 1.1576,
      "grad_norm": 0.02368050825613908,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6705
    },
    {
      "epoch": 1.1576533333333334,
      "grad_norm": 0.02598800634448165,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 6706
    },
    {
      "epoch": 1.1577066666666667,
      "grad_norm": 0.022896145288164537,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 6707
    },
    {
      "epoch": 1.1577600000000001,
      "grad_norm": 0.02217140530004076,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 6708
    },
    {
      "epoch": 1.1578133333333334,
      "grad_norm": 0.02324111028355882,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 6709
    },
    {
      "epoch": 1.1578666666666666,
      "grad_norm": 0.023470606659583337,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6710
    },
    {
      "epoch": 1.15792,
      "grad_norm": 0.02354685528105356,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 6711
    },
    {
      "epoch": 1.1579733333333333,
      "grad_norm": 0.023038108734933775,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 6712
    },
    {
      "epoch": 1.1580266666666668,
      "grad_norm": 0.022799613526409853,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 6713
    },
    {
      "epoch": 1.15808,
      "grad_norm": 0.02483319800406582,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 6714
    },
    {
      "epoch": 1.1581333333333332,
      "grad_norm": 0.02458537984034475,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 6715
    },
    {
      "epoch": 1.1581866666666667,
      "grad_norm": 0.0255967675340945,
      "learning_rate": 0.0001,
      "loss": 1.069,
      "step": 6716
    },
    {
      "epoch": 1.15824,
      "grad_norm": 0.02513012135986171,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 6717
    },
    {
      "epoch": 1.1582933333333334,
      "grad_norm": 0.025185520533658915,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 6718
    },
    {
      "epoch": 1.1583466666666666,
      "grad_norm": 0.024308462649660186,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6719
    },
    {
      "epoch": 1.1584,
      "grad_norm": 0.024099717681172052,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 6720
    },
    {
      "epoch": 1.1584533333333333,
      "grad_norm": 0.024717733857271197,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6721
    },
    {
      "epoch": 1.1585066666666666,
      "grad_norm": 0.025837577766540904,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 6722
    },
    {
      "epoch": 1.15856,
      "grad_norm": 0.02469704904498805,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6723
    },
    {
      "epoch": 1.1586133333333333,
      "grad_norm": 0.024979379101575754,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 6724
    },
    {
      "epoch": 1.1586666666666667,
      "grad_norm": 0.02330719038819885,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 6725
    },
    {
      "epoch": 1.15872,
      "grad_norm": 0.025963067809105865,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 6726
    },
    {
      "epoch": 1.1587733333333334,
      "grad_norm": 0.024713506493982688,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 6727
    },
    {
      "epoch": 1.1588266666666667,
      "grad_norm": 0.02557505412951673,
      "learning_rate": 0.0001,
      "loss": 0.923,
      "step": 6728
    },
    {
      "epoch": 1.15888,
      "grad_norm": 0.02554060899926736,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6729
    },
    {
      "epoch": 1.1589333333333334,
      "grad_norm": 0.024382217276963672,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 6730
    },
    {
      "epoch": 1.1589866666666666,
      "grad_norm": 0.023434418912832444,
      "learning_rate": 0.0001,
      "loss": 0.9235,
      "step": 6731
    },
    {
      "epoch": 1.15904,
      "grad_norm": 0.023055971004936542,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 6732
    },
    {
      "epoch": 1.1590933333333333,
      "grad_norm": 0.02444022689190192,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 6733
    },
    {
      "epoch": 1.1591466666666665,
      "grad_norm": 0.024756066803880004,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 6734
    },
    {
      "epoch": 1.1592,
      "grad_norm": 0.025505810218924313,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 6735
    },
    {
      "epoch": 1.1592533333333332,
      "grad_norm": 0.0250278749121504,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 6736
    },
    {
      "epoch": 1.1593066666666667,
      "grad_norm": 0.02369400943638701,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 6737
    },
    {
      "epoch": 1.15936,
      "grad_norm": 0.027264245298889975,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6738
    },
    {
      "epoch": 1.1594133333333334,
      "grad_norm": 0.025862020906406925,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6739
    },
    {
      "epoch": 1.1594666666666666,
      "grad_norm": 0.025779465618282524,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6740
    },
    {
      "epoch": 1.15952,
      "grad_norm": 0.025760717974103148,
      "learning_rate": 0.0001,
      "loss": 0.904,
      "step": 6741
    },
    {
      "epoch": 1.1595733333333333,
      "grad_norm": 0.02671087012365056,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 6742
    },
    {
      "epoch": 1.1596266666666666,
      "grad_norm": 0.02411154620435899,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 6743
    },
    {
      "epoch": 1.15968,
      "grad_norm": 0.024832852138751676,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 6744
    },
    {
      "epoch": 1.1597333333333333,
      "grad_norm": 0.02524391150546621,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 6745
    },
    {
      "epoch": 1.1597866666666667,
      "grad_norm": 0.023225903559293277,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 6746
    },
    {
      "epoch": 1.15984,
      "grad_norm": 0.023363006481142375,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 6747
    },
    {
      "epoch": 1.1598933333333332,
      "grad_norm": 0.026630361083169966,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 6748
    },
    {
      "epoch": 1.1599466666666667,
      "grad_norm": 0.02588514356341218,
      "learning_rate": 0.0001,
      "loss": 1.0247,
      "step": 6749
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.023510948315141448,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 6750
    },
    {
      "epoch": 1.1600533333333334,
      "grad_norm": 0.023119031177599086,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 6751
    },
    {
      "epoch": 1.1601066666666666,
      "grad_norm": 0.02416566706020812,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 6752
    },
    {
      "epoch": 1.16016,
      "grad_norm": 0.024064125796787347,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 6753
    },
    {
      "epoch": 1.1602133333333333,
      "grad_norm": 0.02316044555872088,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6754
    },
    {
      "epoch": 1.1602666666666668,
      "grad_norm": 0.023307302438562737,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 6755
    },
    {
      "epoch": 1.16032,
      "grad_norm": 0.02412843703014275,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 6756
    },
    {
      "epoch": 1.1603733333333333,
      "grad_norm": 0.02465822783408485,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 6757
    },
    {
      "epoch": 1.1604266666666667,
      "grad_norm": 0.02426126103034757,
      "learning_rate": 0.0001,
      "loss": 1.0278,
      "step": 6758
    },
    {
      "epoch": 1.16048,
      "grad_norm": 0.02268615015155995,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 6759
    },
    {
      "epoch": 1.1605333333333334,
      "grad_norm": 0.023806534321443154,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 6760
    },
    {
      "epoch": 1.1605866666666667,
      "grad_norm": 0.02464580733945791,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 6761
    },
    {
      "epoch": 1.16064,
      "grad_norm": 0.023134852126629916,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 6762
    },
    {
      "epoch": 1.1606933333333334,
      "grad_norm": 0.025087351674112385,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 6763
    },
    {
      "epoch": 1.1607466666666666,
      "grad_norm": 0.024185000293092073,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 6764
    },
    {
      "epoch": 1.1608,
      "grad_norm": 0.027215027909494354,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 6765
    },
    {
      "epoch": 1.1608533333333333,
      "grad_norm": 0.024311064497770044,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 6766
    },
    {
      "epoch": 1.1609066666666668,
      "grad_norm": 0.024370406373202206,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 6767
    },
    {
      "epoch": 1.16096,
      "grad_norm": 0.024560597815670004,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 6768
    },
    {
      "epoch": 1.1610133333333335,
      "grad_norm": 0.022564323148253275,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 6769
    },
    {
      "epoch": 1.1610666666666667,
      "grad_norm": 0.02383699357386726,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "step": 6770
    },
    {
      "epoch": 1.16112,
      "grad_norm": 0.022733237424625675,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 6771
    },
    {
      "epoch": 1.1611733333333334,
      "grad_norm": 0.023993333043207107,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 6772
    },
    {
      "epoch": 1.1612266666666666,
      "grad_norm": 0.0249792914778152,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 6773
    },
    {
      "epoch": 1.16128,
      "grad_norm": 0.023512380596656515,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 6774
    },
    {
      "epoch": 1.1613333333333333,
      "grad_norm": 0.023886438887930753,
      "learning_rate": 0.0001,
      "loss": 1.0324,
      "step": 6775
    },
    {
      "epoch": 1.1613866666666666,
      "grad_norm": 0.023332776464137086,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 6776
    },
    {
      "epoch": 1.16144,
      "grad_norm": 0.027051239093929924,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 6777
    },
    {
      "epoch": 1.1614933333333333,
      "grad_norm": 0.02510530058436534,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 6778
    },
    {
      "epoch": 1.1615466666666667,
      "grad_norm": 0.024795774949340644,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 6779
    },
    {
      "epoch": 1.1616,
      "grad_norm": 0.025327692507891842,
      "learning_rate": 0.0001,
      "loss": 1.0499,
      "step": 6780
    },
    {
      "epoch": 1.1616533333333334,
      "grad_norm": 0.02333609234988742,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 6781
    },
    {
      "epoch": 1.1617066666666667,
      "grad_norm": 0.025248014964175235,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 6782
    },
    {
      "epoch": 1.16176,
      "grad_norm": 0.022971478698517053,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 6783
    },
    {
      "epoch": 1.1618133333333334,
      "grad_norm": 0.025394638363275688,
      "learning_rate": 0.0001,
      "loss": 1.0367,
      "step": 6784
    },
    {
      "epoch": 1.1618666666666666,
      "grad_norm": 0.023907325657261252,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 6785
    },
    {
      "epoch": 1.16192,
      "grad_norm": 0.02310338173572221,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6786
    },
    {
      "epoch": 1.1619733333333333,
      "grad_norm": 0.022854128729296475,
      "learning_rate": 0.0001,
      "loss": 0.9358,
      "step": 6787
    },
    {
      "epoch": 1.1620266666666668,
      "grad_norm": 0.025124368509005925,
      "learning_rate": 0.0001,
      "loss": 0.9157,
      "step": 6788
    },
    {
      "epoch": 1.16208,
      "grad_norm": 0.023521588399528788,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 6789
    },
    {
      "epoch": 1.1621333333333332,
      "grad_norm": 0.023956631005886662,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 6790
    },
    {
      "epoch": 1.1621866666666667,
      "grad_norm": 0.02430665131364572,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6791
    },
    {
      "epoch": 1.16224,
      "grad_norm": 0.023441320906224705,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 6792
    },
    {
      "epoch": 1.1622933333333334,
      "grad_norm": 0.025384153358528342,
      "learning_rate": 0.0001,
      "loss": 1.0574,
      "step": 6793
    },
    {
      "epoch": 1.1623466666666666,
      "grad_norm": 0.023361502498296643,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 6794
    },
    {
      "epoch": 1.1623999999999999,
      "grad_norm": 0.02334050237055876,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "step": 6795
    },
    {
      "epoch": 1.1624533333333333,
      "grad_norm": 0.024414647872995573,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6796
    },
    {
      "epoch": 1.1625066666666666,
      "grad_norm": 0.025803137214703908,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 6797
    },
    {
      "epoch": 1.16256,
      "grad_norm": 0.02429271628218668,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6798
    },
    {
      "epoch": 1.1626133333333333,
      "grad_norm": 0.024798230675014306,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 6799
    },
    {
      "epoch": 1.1626666666666667,
      "grad_norm": 0.02535884039837735,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 6800
    },
    {
      "epoch": 1.1626666666666667,
      "eval_accuracy": 0.6190252319781903,
      "eval_loss": 1.360657811164856,
      "eval_runtime": 62.6493,
      "eval_samples_per_second": 15.962,
      "eval_steps_per_second": 0.511,
      "step": 6800
    },
    {
      "epoch": 1.16272,
      "grad_norm": 0.025767012831928508,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 6801
    },
    {
      "epoch": 1.1627733333333334,
      "grad_norm": 0.024786011083867892,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 6802
    },
    {
      "epoch": 1.1628266666666667,
      "grad_norm": 0.026476127410031775,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 6803
    },
    {
      "epoch": 1.16288,
      "grad_norm": 0.026785218272879725,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 6804
    },
    {
      "epoch": 1.1629333333333334,
      "grad_norm": 0.0281722573010948,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 6805
    },
    {
      "epoch": 1.1629866666666666,
      "grad_norm": 0.024402256961101706,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 6806
    },
    {
      "epoch": 1.16304,
      "grad_norm": 0.024653656532676822,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 6807
    },
    {
      "epoch": 1.1630933333333333,
      "grad_norm": 0.026506022531168457,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 6808
    },
    {
      "epoch": 1.1631466666666666,
      "grad_norm": 0.025939581835983955,
      "learning_rate": 0.0001,
      "loss": 0.9138,
      "step": 6809
    },
    {
      "epoch": 1.1632,
      "grad_norm": 0.024270165928994118,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 6810
    },
    {
      "epoch": 1.1632533333333333,
      "grad_norm": 0.023018818877469066,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 6811
    },
    {
      "epoch": 1.1633066666666667,
      "grad_norm": 0.026099398230884356,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 6812
    },
    {
      "epoch": 1.16336,
      "grad_norm": 0.024318255938620432,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6813
    },
    {
      "epoch": 1.1634133333333334,
      "grad_norm": 0.024986989135682626,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 6814
    },
    {
      "epoch": 1.1634666666666666,
      "grad_norm": 0.023953957468716244,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6815
    },
    {
      "epoch": 1.16352,
      "grad_norm": 0.022879990516929877,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 6816
    },
    {
      "epoch": 1.1635733333333333,
      "grad_norm": 0.023444391230691156,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 6817
    },
    {
      "epoch": 1.1636266666666666,
      "grad_norm": 0.024278689926189662,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 6818
    },
    {
      "epoch": 1.16368,
      "grad_norm": 0.023543642052739126,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 6819
    },
    {
      "epoch": 1.1637333333333333,
      "grad_norm": 0.0232226919284889,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 6820
    },
    {
      "epoch": 1.1637866666666667,
      "grad_norm": 0.022886077787845585,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 6821
    },
    {
      "epoch": 1.16384,
      "grad_norm": 0.02386460361392815,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 6822
    },
    {
      "epoch": 1.1638933333333332,
      "grad_norm": 0.023239669663333455,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 6823
    },
    {
      "epoch": 1.1639466666666667,
      "grad_norm": 0.022462655648670973,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 6824
    },
    {
      "epoch": 1.164,
      "grad_norm": 0.026366758252185294,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 6825
    },
    {
      "epoch": 1.1640533333333334,
      "grad_norm": 0.02521332615050943,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 6826
    },
    {
      "epoch": 1.1641066666666666,
      "grad_norm": 0.025312395352453665,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 6827
    },
    {
      "epoch": 1.16416,
      "grad_norm": 0.023851067166556692,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 6828
    },
    {
      "epoch": 1.1642133333333333,
      "grad_norm": 0.024193259312865326,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 6829
    },
    {
      "epoch": 1.1642666666666668,
      "grad_norm": 0.024658956715891266,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 6830
    },
    {
      "epoch": 1.16432,
      "grad_norm": 0.0264371097239152,
      "learning_rate": 0.0001,
      "loss": 1.0491,
      "step": 6831
    },
    {
      "epoch": 1.1643733333333333,
      "grad_norm": 0.024000655188537962,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 6832
    },
    {
      "epoch": 1.1644266666666667,
      "grad_norm": 0.02307534259617658,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 6833
    },
    {
      "epoch": 1.16448,
      "grad_norm": 0.023962059098157303,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 6834
    },
    {
      "epoch": 1.1645333333333334,
      "grad_norm": 0.023376229231281468,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 6835
    },
    {
      "epoch": 1.1645866666666667,
      "grad_norm": 0.024672701884721603,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 6836
    },
    {
      "epoch": 1.16464,
      "grad_norm": 0.0293165369432914,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 6837
    },
    {
      "epoch": 1.1646933333333334,
      "grad_norm": 0.023692007911661005,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 6838
    },
    {
      "epoch": 1.1647466666666666,
      "grad_norm": 0.02735951307340649,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 6839
    },
    {
      "epoch": 1.1648,
      "grad_norm": 0.025573216318602,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6840
    },
    {
      "epoch": 1.1648533333333333,
      "grad_norm": 0.027099584383656457,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 6841
    },
    {
      "epoch": 1.1649066666666668,
      "grad_norm": 0.024264853153447796,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 6842
    },
    {
      "epoch": 1.16496,
      "grad_norm": 0.023767024579545704,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 6843
    },
    {
      "epoch": 1.1650133333333335,
      "grad_norm": 0.025746031962355344,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 6844
    },
    {
      "epoch": 1.1650666666666667,
      "grad_norm": 0.022993166096174862,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 6845
    },
    {
      "epoch": 1.16512,
      "grad_norm": 0.023612992120162074,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 6846
    },
    {
      "epoch": 1.1651733333333334,
      "grad_norm": 0.023403019348433248,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 6847
    },
    {
      "epoch": 1.1652266666666666,
      "grad_norm": 0.02402149603016801,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 6848
    },
    {
      "epoch": 1.16528,
      "grad_norm": 0.022388273494573892,
      "learning_rate": 0.0001,
      "loss": 1.0426,
      "step": 6849
    },
    {
      "epoch": 1.1653333333333333,
      "grad_norm": 0.02373755529998794,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "step": 6850
    },
    {
      "epoch": 1.1653866666666666,
      "grad_norm": 0.024511477763865742,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6851
    },
    {
      "epoch": 1.16544,
      "grad_norm": 0.023860765578444975,
      "learning_rate": 0.0001,
      "loss": 0.9169,
      "step": 6852
    },
    {
      "epoch": 1.1654933333333333,
      "grad_norm": 0.026823213971789075,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 6853
    },
    {
      "epoch": 1.1655466666666667,
      "grad_norm": 0.023712216506731932,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 6854
    },
    {
      "epoch": 1.1656,
      "grad_norm": 0.02349925342148422,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 6855
    },
    {
      "epoch": 1.1656533333333334,
      "grad_norm": 0.02303234079602407,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 6856
    },
    {
      "epoch": 1.1657066666666667,
      "grad_norm": 0.024523303832194338,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 6857
    },
    {
      "epoch": 1.16576,
      "grad_norm": 0.023739778523392947,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 6858
    },
    {
      "epoch": 1.1658133333333334,
      "grad_norm": 0.02358205922093757,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 6859
    },
    {
      "epoch": 1.1658666666666666,
      "grad_norm": 0.02531806841258065,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 6860
    },
    {
      "epoch": 1.16592,
      "grad_norm": 0.02488032250068803,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6861
    },
    {
      "epoch": 1.1659733333333333,
      "grad_norm": 0.023765009949508618,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 6862
    },
    {
      "epoch": 1.1660266666666668,
      "grad_norm": 0.025353478902466184,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 6863
    },
    {
      "epoch": 1.16608,
      "grad_norm": 0.025440184082523822,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6864
    },
    {
      "epoch": 1.1661333333333332,
      "grad_norm": 0.022155695114398806,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 6865
    },
    {
      "epoch": 1.1661866666666667,
      "grad_norm": 0.02569682743127436,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 6866
    },
    {
      "epoch": 1.16624,
      "grad_norm": 0.0249169963327629,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 6867
    },
    {
      "epoch": 1.1662933333333334,
      "grad_norm": 0.025620050650038063,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 6868
    },
    {
      "epoch": 1.1663466666666666,
      "grad_norm": 0.021753543919706297,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 6869
    },
    {
      "epoch": 1.1663999999999999,
      "grad_norm": 0.023849264811330307,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 6870
    },
    {
      "epoch": 1.1664533333333333,
      "grad_norm": 0.02513323909922531,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 6871
    },
    {
      "epoch": 1.1665066666666666,
      "grad_norm": 0.025228518653022954,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 6872
    },
    {
      "epoch": 1.16656,
      "grad_norm": 0.022852846626365168,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 6873
    },
    {
      "epoch": 1.1666133333333333,
      "grad_norm": 0.02764144751306388,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 6874
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.025944589791632788,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 6875
    },
    {
      "epoch": 1.16672,
      "grad_norm": 0.02243639122818393,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 6876
    },
    {
      "epoch": 1.1667733333333334,
      "grad_norm": 0.02472594667737776,
      "learning_rate": 0.0001,
      "loss": 0.9885,
      "step": 6877
    },
    {
      "epoch": 1.1668266666666667,
      "grad_norm": 0.02351577925787239,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 6878
    },
    {
      "epoch": 1.16688,
      "grad_norm": 0.023203252822140617,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 6879
    },
    {
      "epoch": 1.1669333333333334,
      "grad_norm": 0.025569007552464804,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 6880
    },
    {
      "epoch": 1.1669866666666666,
      "grad_norm": 0.025482773763975106,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 6881
    },
    {
      "epoch": 1.16704,
      "grad_norm": 0.0253364099844221,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 6882
    },
    {
      "epoch": 1.1670933333333333,
      "grad_norm": 0.025394455009063018,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 6883
    },
    {
      "epoch": 1.1671466666666666,
      "grad_norm": 0.025587296158033842,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 6884
    },
    {
      "epoch": 1.1672,
      "grad_norm": 0.023188288433800282,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 6885
    },
    {
      "epoch": 1.1672533333333333,
      "grad_norm": 0.023886749466556355,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 6886
    },
    {
      "epoch": 1.1673066666666667,
      "grad_norm": 0.02480113601915838,
      "learning_rate": 0.0001,
      "loss": 0.9098,
      "step": 6887
    },
    {
      "epoch": 1.16736,
      "grad_norm": 0.024299195090000968,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 6888
    },
    {
      "epoch": 1.1674133333333334,
      "grad_norm": 0.023721576389822703,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 6889
    },
    {
      "epoch": 1.1674666666666667,
      "grad_norm": 0.024221525995264708,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 6890
    },
    {
      "epoch": 1.1675200000000001,
      "grad_norm": 0.023374795381699974,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 6891
    },
    {
      "epoch": 1.1675733333333334,
      "grad_norm": 0.02666830119615866,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 6892
    },
    {
      "epoch": 1.1676266666666666,
      "grad_norm": 0.022344714666868215,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 6893
    },
    {
      "epoch": 1.16768,
      "grad_norm": 0.024641696024362086,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 6894
    },
    {
      "epoch": 1.1677333333333333,
      "grad_norm": 0.024642054270132326,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 6895
    },
    {
      "epoch": 1.1677866666666668,
      "grad_norm": 0.02482884165944881,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 6896
    },
    {
      "epoch": 1.16784,
      "grad_norm": 0.026595058921092613,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 6897
    },
    {
      "epoch": 1.1678933333333332,
      "grad_norm": 0.02383707661997,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "step": 6898
    },
    {
      "epoch": 1.1679466666666667,
      "grad_norm": 0.022814980422183606,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 6899
    },
    {
      "epoch": 1.168,
      "grad_norm": 0.02713464971935948,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 6900
    },
    {
      "epoch": 1.1680533333333334,
      "grad_norm": 0.02340131799529868,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 6901
    },
    {
      "epoch": 1.1681066666666666,
      "grad_norm": 0.023833999374026988,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 6902
    },
    {
      "epoch": 1.16816,
      "grad_norm": 0.024716291343854925,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 6903
    },
    {
      "epoch": 1.1682133333333333,
      "grad_norm": 0.023650708207617558,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 6904
    },
    {
      "epoch": 1.1682666666666668,
      "grad_norm": 0.025623724754061064,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 6905
    },
    {
      "epoch": 1.16832,
      "grad_norm": 0.02435984682274022,
      "learning_rate": 0.0001,
      "loss": 1.0147,
      "step": 6906
    },
    {
      "epoch": 1.1683733333333333,
      "grad_norm": 0.02359268182360222,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 6907
    },
    {
      "epoch": 1.1684266666666667,
      "grad_norm": 0.025067136672875683,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 6908
    },
    {
      "epoch": 1.16848,
      "grad_norm": 0.022856027030426267,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 6909
    },
    {
      "epoch": 1.1685333333333334,
      "grad_norm": 0.0254821409498281,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 6910
    },
    {
      "epoch": 1.1685866666666667,
      "grad_norm": 0.025326008952492707,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 6911
    },
    {
      "epoch": 1.16864,
      "grad_norm": 0.02283766883582871,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 6912
    },
    {
      "epoch": 1.1686933333333334,
      "grad_norm": 0.024645990757785827,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 6913
    },
    {
      "epoch": 1.1687466666666666,
      "grad_norm": 0.025121553012212645,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 6914
    },
    {
      "epoch": 1.1688,
      "grad_norm": 0.024088331371734866,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 6915
    },
    {
      "epoch": 1.1688533333333333,
      "grad_norm": 0.024917784358379786,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 6916
    },
    {
      "epoch": 1.1689066666666668,
      "grad_norm": 0.0243687198020497,
      "learning_rate": 0.0001,
      "loss": 1.0208,
      "step": 6917
    },
    {
      "epoch": 1.16896,
      "grad_norm": 0.022541976344911566,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 6918
    },
    {
      "epoch": 1.1690133333333332,
      "grad_norm": 0.024207851115426116,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 6919
    },
    {
      "epoch": 1.1690666666666667,
      "grad_norm": 0.023090589416632744,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 6920
    },
    {
      "epoch": 1.16912,
      "grad_norm": 0.0229721176709582,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 6921
    },
    {
      "epoch": 1.1691733333333334,
      "grad_norm": 0.02573731056045605,
      "learning_rate": 0.0001,
      "loss": 0.9666,
      "step": 6922
    },
    {
      "epoch": 1.1692266666666666,
      "grad_norm": 0.02417773391808054,
      "learning_rate": 0.0001,
      "loss": 1.0106,
      "step": 6923
    },
    {
      "epoch": 1.16928,
      "grad_norm": 0.025973942481454654,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 6924
    },
    {
      "epoch": 1.1693333333333333,
      "grad_norm": 0.0277372495396433,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 6925
    },
    {
      "epoch": 1.1693866666666666,
      "grad_norm": 0.02479798287015874,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 6926
    },
    {
      "epoch": 1.16944,
      "grad_norm": 0.023272842784758035,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 6927
    },
    {
      "epoch": 1.1694933333333333,
      "grad_norm": 0.02505579019339498,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 6928
    },
    {
      "epoch": 1.1695466666666667,
      "grad_norm": 0.025692110768697856,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 6929
    },
    {
      "epoch": 1.1696,
      "grad_norm": 0.023730424873614406,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 6930
    },
    {
      "epoch": 1.1696533333333332,
      "grad_norm": 0.02584344380202352,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 6931
    },
    {
      "epoch": 1.1697066666666667,
      "grad_norm": 0.024088866894179967,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 6932
    },
    {
      "epoch": 1.16976,
      "grad_norm": 0.024417460598519722,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 6933
    },
    {
      "epoch": 1.1698133333333334,
      "grad_norm": 0.025563772140873797,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 6934
    },
    {
      "epoch": 1.1698666666666666,
      "grad_norm": 0.023810609036160543,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 6935
    },
    {
      "epoch": 1.16992,
      "grad_norm": 0.02396748459555155,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 6936
    },
    {
      "epoch": 1.1699733333333333,
      "grad_norm": 0.02295706209471395,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 6937
    },
    {
      "epoch": 1.1700266666666668,
      "grad_norm": 0.025582791414694148,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 6938
    },
    {
      "epoch": 1.17008,
      "grad_norm": 0.02385783117389385,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 6939
    },
    {
      "epoch": 1.1701333333333332,
      "grad_norm": 0.02355358485610262,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 6940
    },
    {
      "epoch": 1.1701866666666667,
      "grad_norm": 0.02587938899772382,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 6941
    },
    {
      "epoch": 1.17024,
      "grad_norm": 0.025370088197923895,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 6942
    },
    {
      "epoch": 1.1702933333333334,
      "grad_norm": 0.0254445387547434,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 6943
    },
    {
      "epoch": 1.1703466666666666,
      "grad_norm": 0.02356748430450548,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 6944
    },
    {
      "epoch": 1.1703999999999999,
      "grad_norm": 0.023941273393878516,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 6945
    },
    {
      "epoch": 1.1704533333333333,
      "grad_norm": 0.0236174013575141,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 6946
    },
    {
      "epoch": 1.1705066666666666,
      "grad_norm": 0.024369899215844662,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 6947
    },
    {
      "epoch": 1.17056,
      "grad_norm": 0.024264794568095827,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 6948
    },
    {
      "epoch": 1.1706133333333333,
      "grad_norm": 0.02315334797489342,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 6949
    },
    {
      "epoch": 1.1706666666666667,
      "grad_norm": 0.02360073081579082,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 6950
    },
    {
      "epoch": 1.17072,
      "grad_norm": 0.024392234530456653,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 6951
    },
    {
      "epoch": 1.1707733333333334,
      "grad_norm": 0.023306708324441643,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 6952
    },
    {
      "epoch": 1.1708266666666667,
      "grad_norm": 0.02435775204577092,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 6953
    },
    {
      "epoch": 1.17088,
      "grad_norm": 0.022263348362326574,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 6954
    },
    {
      "epoch": 1.1709333333333334,
      "grad_norm": 0.024884897417990322,
      "learning_rate": 0.0001,
      "loss": 1.1169,
      "step": 6955
    },
    {
      "epoch": 1.1709866666666666,
      "grad_norm": 0.02367814467631621,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 6956
    },
    {
      "epoch": 1.17104,
      "grad_norm": 0.024955545331722024,
      "learning_rate": 0.0001,
      "loss": 1.0096,
      "step": 6957
    },
    {
      "epoch": 1.1710933333333333,
      "grad_norm": 0.026413734507959113,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 6958
    },
    {
      "epoch": 1.1711466666666666,
      "grad_norm": 0.026122007306020233,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 6959
    },
    {
      "epoch": 1.1712,
      "grad_norm": 0.025614446674793147,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 6960
    },
    {
      "epoch": 1.1712533333333333,
      "grad_norm": 0.02506133104795325,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 6961
    },
    {
      "epoch": 1.1713066666666667,
      "grad_norm": 0.024762384171575426,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 6962
    },
    {
      "epoch": 1.17136,
      "grad_norm": 0.024451171016053572,
      "learning_rate": 0.0001,
      "loss": 1.0267,
      "step": 6963
    },
    {
      "epoch": 1.1714133333333334,
      "grad_norm": 0.02350992511506928,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 6964
    },
    {
      "epoch": 1.1714666666666667,
      "grad_norm": 0.025039091337781146,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 6965
    },
    {
      "epoch": 1.1715200000000001,
      "grad_norm": 0.02333255919147213,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 6966
    },
    {
      "epoch": 1.1715733333333334,
      "grad_norm": 0.024161030222332392,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 6967
    },
    {
      "epoch": 1.1716266666666666,
      "grad_norm": 0.02523105485995585,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 6968
    },
    {
      "epoch": 1.17168,
      "grad_norm": 0.023930307105385712,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 6969
    },
    {
      "epoch": 1.1717333333333333,
      "grad_norm": 0.024288548384147592,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 6970
    },
    {
      "epoch": 1.1717866666666668,
      "grad_norm": 0.02538583299123739,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 6971
    },
    {
      "epoch": 1.17184,
      "grad_norm": 0.024730353603862328,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 6972
    },
    {
      "epoch": 1.1718933333333332,
      "grad_norm": 0.02652453493797288,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 6973
    },
    {
      "epoch": 1.1719466666666667,
      "grad_norm": 0.026706289322040517,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 6974
    },
    {
      "epoch": 1.172,
      "grad_norm": 0.024870089465150364,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 6975
    },
    {
      "epoch": 1.1720533333333334,
      "grad_norm": 0.0235378277320955,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 6976
    },
    {
      "epoch": 1.1721066666666666,
      "grad_norm": 0.024987070707046907,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 6977
    },
    {
      "epoch": 1.17216,
      "grad_norm": 0.024049211517626956,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 6978
    },
    {
      "epoch": 1.1722133333333333,
      "grad_norm": 0.024182675617960617,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "step": 6979
    },
    {
      "epoch": 1.1722666666666668,
      "grad_norm": 0.025761365941700205,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 6980
    },
    {
      "epoch": 1.17232,
      "grad_norm": 0.022905623612322262,
      "learning_rate": 0.0001,
      "loss": 0.8928,
      "step": 6981
    },
    {
      "epoch": 1.1723733333333333,
      "grad_norm": 0.023216065179511452,
      "learning_rate": 0.0001,
      "loss": 0.9187,
      "step": 6982
    },
    {
      "epoch": 1.1724266666666667,
      "grad_norm": 0.024530209714282193,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 6983
    },
    {
      "epoch": 1.17248,
      "grad_norm": 0.026156553312374146,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 6984
    },
    {
      "epoch": 1.1725333333333334,
      "grad_norm": 0.024843308833507695,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 6985
    },
    {
      "epoch": 1.1725866666666667,
      "grad_norm": 0.023989442552823592,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 6986
    },
    {
      "epoch": 1.17264,
      "grad_norm": 0.025059561667842258,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 6987
    },
    {
      "epoch": 1.1726933333333334,
      "grad_norm": 0.025810191638630166,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 6988
    },
    {
      "epoch": 1.1727466666666666,
      "grad_norm": 0.024121175548255304,
      "learning_rate": 0.0001,
      "loss": 0.8872,
      "step": 6989
    },
    {
      "epoch": 1.1728,
      "grad_norm": 0.025711370194559817,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 6990
    },
    {
      "epoch": 1.1728533333333333,
      "grad_norm": 0.025422542773447836,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 6991
    },
    {
      "epoch": 1.1729066666666665,
      "grad_norm": 0.025492050222549995,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 6992
    },
    {
      "epoch": 1.17296,
      "grad_norm": 0.023515717169399247,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 6993
    },
    {
      "epoch": 1.1730133333333332,
      "grad_norm": 0.02497357582126835,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 6994
    },
    {
      "epoch": 1.1730666666666667,
      "grad_norm": 0.025338519520666746,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 6995
    },
    {
      "epoch": 1.17312,
      "grad_norm": 0.02569439225513597,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 6996
    },
    {
      "epoch": 1.1731733333333334,
      "grad_norm": 0.02297163626959044,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 6997
    },
    {
      "epoch": 1.1732266666666666,
      "grad_norm": 0.023097914427197715,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 6998
    },
    {
      "epoch": 1.17328,
      "grad_norm": 0.02363924479094071,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 6999
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 0.02298821819737453,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 7000
    },
    {
      "epoch": 1.1733333333333333,
      "eval_accuracy": 0.6191704929843379,
      "eval_loss": 1.3596595525741577,
      "eval_runtime": 63.6252,
      "eval_samples_per_second": 15.717,
      "eval_steps_per_second": 0.503,
      "step": 7000
    },
    {
      "epoch": 1.1733866666666666,
      "grad_norm": 0.02667502440624875,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 7001
    },
    {
      "epoch": 1.17344,
      "grad_norm": 0.024418164012195695,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 7002
    },
    {
      "epoch": 1.1734933333333333,
      "grad_norm": 0.023625736382502004,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 7003
    },
    {
      "epoch": 1.1735466666666667,
      "grad_norm": 0.02429074094690126,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 7004
    },
    {
      "epoch": 1.1736,
      "grad_norm": 0.025065734735981372,
      "learning_rate": 0.0001,
      "loss": 0.8994,
      "step": 7005
    },
    {
      "epoch": 1.1736533333333332,
      "grad_norm": 0.02365005502432619,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 7006
    },
    {
      "epoch": 1.1737066666666667,
      "grad_norm": 0.025753522162193922,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 7007
    },
    {
      "epoch": 1.17376,
      "grad_norm": 0.023503285946185944,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 7008
    },
    {
      "epoch": 1.1738133333333334,
      "grad_norm": 0.025038874685428567,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 7009
    },
    {
      "epoch": 1.1738666666666666,
      "grad_norm": 0.022983995335784962,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 7010
    },
    {
      "epoch": 1.17392,
      "grad_norm": 0.022950361202798458,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 7011
    },
    {
      "epoch": 1.1739733333333333,
      "grad_norm": 0.024514134640961114,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 7012
    },
    {
      "epoch": 1.1740266666666668,
      "grad_norm": 0.022622454317474578,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 7013
    },
    {
      "epoch": 1.17408,
      "grad_norm": 0.023307011633868207,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 7014
    },
    {
      "epoch": 1.1741333333333333,
      "grad_norm": 0.023163832628241208,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 7015
    },
    {
      "epoch": 1.1741866666666667,
      "grad_norm": 0.025126484267711573,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 7016
    },
    {
      "epoch": 1.17424,
      "grad_norm": 0.024230724446285632,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 7017
    },
    {
      "epoch": 1.1742933333333334,
      "grad_norm": 0.023287546673252744,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 7018
    },
    {
      "epoch": 1.1743466666666666,
      "grad_norm": 0.025241235371018876,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 7019
    },
    {
      "epoch": 1.1743999999999999,
      "grad_norm": 0.026014971518258108,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 7020
    },
    {
      "epoch": 1.1744533333333333,
      "grad_norm": 0.023417539232913308,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 7021
    },
    {
      "epoch": 1.1745066666666666,
      "grad_norm": 0.025445005779137688,
      "learning_rate": 0.0001,
      "loss": 1.0397,
      "step": 7022
    },
    {
      "epoch": 1.17456,
      "grad_norm": 0.02351995989663083,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 7023
    },
    {
      "epoch": 1.1746133333333333,
      "grad_norm": 0.023543330108385784,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 7024
    },
    {
      "epoch": 1.1746666666666667,
      "grad_norm": 0.023771694626863245,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 7025
    },
    {
      "epoch": 1.17472,
      "grad_norm": 0.02551981461676124,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 7026
    },
    {
      "epoch": 1.1747733333333334,
      "grad_norm": 0.02336971266607128,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 7027
    },
    {
      "epoch": 1.1748266666666667,
      "grad_norm": 0.023946469862739003,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 7028
    },
    {
      "epoch": 1.17488,
      "grad_norm": 0.024101607353182265,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 7029
    },
    {
      "epoch": 1.1749333333333334,
      "grad_norm": 0.022652146440137157,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 7030
    },
    {
      "epoch": 1.1749866666666666,
      "grad_norm": 0.024290023893507283,
      "learning_rate": 0.0001,
      "loss": 1.0166,
      "step": 7031
    },
    {
      "epoch": 1.17504,
      "grad_norm": 0.024218984962262883,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 7032
    },
    {
      "epoch": 1.1750933333333333,
      "grad_norm": 0.023520081879556284,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 7033
    },
    {
      "epoch": 1.1751466666666666,
      "grad_norm": 0.022888075690015983,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 7034
    },
    {
      "epoch": 1.1752,
      "grad_norm": 0.025818591204743883,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 7035
    },
    {
      "epoch": 1.1752533333333333,
      "grad_norm": 0.023995650349216774,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 7036
    },
    {
      "epoch": 1.1753066666666667,
      "grad_norm": 0.024050776290608585,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 7037
    },
    {
      "epoch": 1.17536,
      "grad_norm": 0.025089706146696384,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 7038
    },
    {
      "epoch": 1.1754133333333334,
      "grad_norm": 0.02491243018034038,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 7039
    },
    {
      "epoch": 1.1754666666666667,
      "grad_norm": 0.031248511919378077,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 7040
    },
    {
      "epoch": 1.1755200000000001,
      "grad_norm": 0.023759556748708804,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 7041
    },
    {
      "epoch": 1.1755733333333334,
      "grad_norm": 0.02533332722720153,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 7042
    },
    {
      "epoch": 1.1756266666666666,
      "grad_norm": 0.025543998908305898,
      "learning_rate": 0.0001,
      "loss": 0.9882,
      "step": 7043
    },
    {
      "epoch": 1.17568,
      "grad_norm": 0.027199031154858715,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 7044
    },
    {
      "epoch": 1.1757333333333333,
      "grad_norm": 0.023662855413393618,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 7045
    },
    {
      "epoch": 1.1757866666666668,
      "grad_norm": 0.025471629993117327,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 7046
    },
    {
      "epoch": 1.17584,
      "grad_norm": 0.024160316547820096,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 7047
    },
    {
      "epoch": 1.1758933333333332,
      "grad_norm": 0.02355660260906995,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7048
    },
    {
      "epoch": 1.1759466666666667,
      "grad_norm": 0.02444471080976791,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 7049
    },
    {
      "epoch": 1.176,
      "grad_norm": 0.024487065948363685,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 7050
    },
    {
      "epoch": 1.1760533333333334,
      "grad_norm": 0.02131299612838919,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 7051
    },
    {
      "epoch": 1.1761066666666666,
      "grad_norm": 0.02471116972897347,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 7052
    },
    {
      "epoch": 1.17616,
      "grad_norm": 0.02475530305942166,
      "learning_rate": 0.0001,
      "loss": 0.9147,
      "step": 7053
    },
    {
      "epoch": 1.1762133333333333,
      "grad_norm": 0.02474976481498379,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 7054
    },
    {
      "epoch": 1.1762666666666666,
      "grad_norm": 0.02516139608752597,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 7055
    },
    {
      "epoch": 1.17632,
      "grad_norm": 0.025195399665170922,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 7056
    },
    {
      "epoch": 1.1763733333333333,
      "grad_norm": 0.027650953530258794,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 7057
    },
    {
      "epoch": 1.1764266666666667,
      "grad_norm": 0.022951753981031938,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 7058
    },
    {
      "epoch": 1.17648,
      "grad_norm": 0.022554928933921678,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 7059
    },
    {
      "epoch": 1.1765333333333334,
      "grad_norm": 0.02418030666353971,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 7060
    },
    {
      "epoch": 1.1765866666666667,
      "grad_norm": 0.022107478129663127,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 7061
    },
    {
      "epoch": 1.17664,
      "grad_norm": 0.022858225190389516,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 7062
    },
    {
      "epoch": 1.1766933333333334,
      "grad_norm": 0.022800395873512215,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 7063
    },
    {
      "epoch": 1.1767466666666666,
      "grad_norm": 0.02469216409708643,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 7064
    },
    {
      "epoch": 1.1768,
      "grad_norm": 0.023932585311814632,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 7065
    },
    {
      "epoch": 1.1768533333333333,
      "grad_norm": 0.024113585490265054,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 7066
    },
    {
      "epoch": 1.1769066666666665,
      "grad_norm": 0.024336355395716804,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 7067
    },
    {
      "epoch": 1.17696,
      "grad_norm": 0.024242534903949307,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "step": 7068
    },
    {
      "epoch": 1.1770133333333332,
      "grad_norm": 0.025121429449966988,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 7069
    },
    {
      "epoch": 1.1770666666666667,
      "grad_norm": 0.02509633027312255,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 7070
    },
    {
      "epoch": 1.17712,
      "grad_norm": 0.029457371428656648,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7071
    },
    {
      "epoch": 1.1771733333333334,
      "grad_norm": 0.02480911683329764,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 7072
    },
    {
      "epoch": 1.1772266666666666,
      "grad_norm": 0.025255828260090516,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7073
    },
    {
      "epoch": 1.17728,
      "grad_norm": 0.023873606801247203,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 7074
    },
    {
      "epoch": 1.1773333333333333,
      "grad_norm": 0.026383015616662748,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 7075
    },
    {
      "epoch": 1.1773866666666666,
      "grad_norm": 0.027267340740913908,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 7076
    },
    {
      "epoch": 1.17744,
      "grad_norm": 0.025381599941619013,
      "learning_rate": 0.0001,
      "loss": 0.9219,
      "step": 7077
    },
    {
      "epoch": 1.1774933333333333,
      "grad_norm": 0.0237847451258361,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 7078
    },
    {
      "epoch": 1.1775466666666667,
      "grad_norm": 0.02480677156609177,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 7079
    },
    {
      "epoch": 1.1776,
      "grad_norm": 0.024973570287600208,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 7080
    },
    {
      "epoch": 1.1776533333333332,
      "grad_norm": 0.025364952485788666,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 7081
    },
    {
      "epoch": 1.1777066666666667,
      "grad_norm": 0.025745289652924785,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 7082
    },
    {
      "epoch": 1.17776,
      "grad_norm": 0.023603711306276788,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7083
    },
    {
      "epoch": 1.1778133333333334,
      "grad_norm": 0.0271230754140236,
      "learning_rate": 0.0001,
      "loss": 1.0314,
      "step": 7084
    },
    {
      "epoch": 1.1778666666666666,
      "grad_norm": 0.02346104727763027,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 7085
    },
    {
      "epoch": 1.17792,
      "grad_norm": 0.023847674074655777,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 7086
    },
    {
      "epoch": 1.1779733333333333,
      "grad_norm": 0.025183848293668272,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 7087
    },
    {
      "epoch": 1.1780266666666668,
      "grad_norm": 0.024792041639925863,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 7088
    },
    {
      "epoch": 1.17808,
      "grad_norm": 0.026916552961202152,
      "learning_rate": 0.0001,
      "loss": 0.9342,
      "step": 7089
    },
    {
      "epoch": 1.1781333333333333,
      "grad_norm": 0.025462541304654612,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 7090
    },
    {
      "epoch": 1.1781866666666667,
      "grad_norm": 0.024589468766284872,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 7091
    },
    {
      "epoch": 1.17824,
      "grad_norm": 0.02548489324680942,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 7092
    },
    {
      "epoch": 1.1782933333333334,
      "grad_norm": 0.025868970639121334,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 7093
    },
    {
      "epoch": 1.1783466666666667,
      "grad_norm": 0.025776245392355596,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7094
    },
    {
      "epoch": 1.1784,
      "grad_norm": 0.023103584507833803,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 7095
    },
    {
      "epoch": 1.1784533333333334,
      "grad_norm": 0.023955616972966838,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 7096
    },
    {
      "epoch": 1.1785066666666666,
      "grad_norm": 0.02472422030536202,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 7097
    },
    {
      "epoch": 1.17856,
      "grad_norm": 0.025048452824795175,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 7098
    },
    {
      "epoch": 1.1786133333333333,
      "grad_norm": 0.02443122581651039,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7099
    },
    {
      "epoch": 1.1786666666666668,
      "grad_norm": 0.024912536861265308,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 7100
    },
    {
      "epoch": 1.17872,
      "grad_norm": 0.026364933300361854,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 7101
    },
    {
      "epoch": 1.1787733333333335,
      "grad_norm": 0.026752467754642906,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 7102
    },
    {
      "epoch": 1.1788266666666667,
      "grad_norm": 0.02364739615160194,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 7103
    },
    {
      "epoch": 1.17888,
      "grad_norm": 0.023521955050454776,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 7104
    },
    {
      "epoch": 1.1789333333333334,
      "grad_norm": 0.023786048014684008,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 7105
    },
    {
      "epoch": 1.1789866666666666,
      "grad_norm": 0.023922610192238052,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 7106
    },
    {
      "epoch": 1.17904,
      "grad_norm": 0.02433493418607752,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 7107
    },
    {
      "epoch": 1.1790933333333333,
      "grad_norm": 0.023814416542593118,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 7108
    },
    {
      "epoch": 1.1791466666666666,
      "grad_norm": 0.02308312647819943,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 7109
    },
    {
      "epoch": 1.1792,
      "grad_norm": 0.024929679413760283,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 7110
    },
    {
      "epoch": 1.1792533333333333,
      "grad_norm": 0.02429827154728894,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 7111
    },
    {
      "epoch": 1.1793066666666667,
      "grad_norm": 0.024734115513789186,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 7112
    },
    {
      "epoch": 1.17936,
      "grad_norm": 0.024277375248288095,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 7113
    },
    {
      "epoch": 1.1794133333333334,
      "grad_norm": 0.023793283975614078,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7114
    },
    {
      "epoch": 1.1794666666666667,
      "grad_norm": 0.023754388994049594,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 7115
    },
    {
      "epoch": 1.1795200000000001,
      "grad_norm": 0.024989474711045456,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 7116
    },
    {
      "epoch": 1.1795733333333334,
      "grad_norm": 0.024131252297813273,
      "learning_rate": 0.0001,
      "loss": 1.0375,
      "step": 7117
    },
    {
      "epoch": 1.1796266666666666,
      "grad_norm": 0.026265013319867154,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 7118
    },
    {
      "epoch": 1.17968,
      "grad_norm": 0.024680324878551433,
      "learning_rate": 0.0001,
      "loss": 0.9119,
      "step": 7119
    },
    {
      "epoch": 1.1797333333333333,
      "grad_norm": 0.023539857265058774,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7120
    },
    {
      "epoch": 1.1797866666666668,
      "grad_norm": 0.024841862054223254,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 7121
    },
    {
      "epoch": 1.17984,
      "grad_norm": 0.024497427111670106,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 7122
    },
    {
      "epoch": 1.1798933333333332,
      "grad_norm": 0.02267933317222244,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 7123
    },
    {
      "epoch": 1.1799466666666667,
      "grad_norm": 0.023448210891188346,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 7124
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.025523848846134664,
      "learning_rate": 0.0001,
      "loss": 1.0265,
      "step": 7125
    },
    {
      "epoch": 1.1800533333333334,
      "grad_norm": 0.02257814913109568,
      "learning_rate": 0.0001,
      "loss": 1.0145,
      "step": 7126
    },
    {
      "epoch": 1.1801066666666666,
      "grad_norm": 0.024374476857989522,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 7127
    },
    {
      "epoch": 1.1801599999999999,
      "grad_norm": 0.024269729193991233,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 7128
    },
    {
      "epoch": 1.1802133333333333,
      "grad_norm": 0.02235426548560408,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 7129
    },
    {
      "epoch": 1.1802666666666666,
      "grad_norm": 0.023223789583720376,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 7130
    },
    {
      "epoch": 1.18032,
      "grad_norm": 0.025443823403578,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 7131
    },
    {
      "epoch": 1.1803733333333333,
      "grad_norm": 0.025045093235108278,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 7132
    },
    {
      "epoch": 1.1804266666666667,
      "grad_norm": 0.023562556941936114,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 7133
    },
    {
      "epoch": 1.18048,
      "grad_norm": 0.0235384675374789,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7134
    },
    {
      "epoch": 1.1805333333333334,
      "grad_norm": 0.025494153671183347,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 7135
    },
    {
      "epoch": 1.1805866666666667,
      "grad_norm": 0.024189269245011216,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 7136
    },
    {
      "epoch": 1.18064,
      "grad_norm": 0.02232239857894109,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 7137
    },
    {
      "epoch": 1.1806933333333334,
      "grad_norm": 0.02548961372562877,
      "learning_rate": 0.0001,
      "loss": 0.8809,
      "step": 7138
    },
    {
      "epoch": 1.1807466666666666,
      "grad_norm": 0.02315384088050249,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 7139
    },
    {
      "epoch": 1.1808,
      "grad_norm": 0.024056976154347744,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 7140
    },
    {
      "epoch": 1.1808533333333333,
      "grad_norm": 0.02264280967299478,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 7141
    },
    {
      "epoch": 1.1809066666666665,
      "grad_norm": 0.02463976586916632,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 7142
    },
    {
      "epoch": 1.18096,
      "grad_norm": 0.02182445858742789,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 7143
    },
    {
      "epoch": 1.1810133333333332,
      "grad_norm": 0.024352927255960045,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 7144
    },
    {
      "epoch": 1.1810666666666667,
      "grad_norm": 0.025228808267001076,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 7145
    },
    {
      "epoch": 1.18112,
      "grad_norm": 0.023125582339206266,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 7146
    },
    {
      "epoch": 1.1811733333333334,
      "grad_norm": 0.023385489274879302,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 7147
    },
    {
      "epoch": 1.1812266666666666,
      "grad_norm": 0.02497139634601958,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 7148
    },
    {
      "epoch": 1.18128,
      "grad_norm": 0.024146412510879154,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 7149
    },
    {
      "epoch": 1.1813333333333333,
      "grad_norm": 0.025438796559784347,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 7150
    },
    {
      "epoch": 1.1813866666666666,
      "grad_norm": 0.022703589983844467,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 7151
    },
    {
      "epoch": 1.18144,
      "grad_norm": 0.023784404367671905,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 7152
    },
    {
      "epoch": 1.1814933333333333,
      "grad_norm": 0.02552037520064926,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 7153
    },
    {
      "epoch": 1.1815466666666667,
      "grad_norm": 0.023882394832724686,
      "learning_rate": 0.0001,
      "loss": 1.0225,
      "step": 7154
    },
    {
      "epoch": 1.1816,
      "grad_norm": 0.02436597341212055,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 7155
    },
    {
      "epoch": 1.1816533333333332,
      "grad_norm": 0.023779024358138192,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 7156
    },
    {
      "epoch": 1.1817066666666667,
      "grad_norm": 0.023973163474463356,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 7157
    },
    {
      "epoch": 1.18176,
      "grad_norm": 0.025121431599586113,
      "learning_rate": 0.0001,
      "loss": 0.9047,
      "step": 7158
    },
    {
      "epoch": 1.1818133333333334,
      "grad_norm": 0.024158372389672455,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 7159
    },
    {
      "epoch": 1.1818666666666666,
      "grad_norm": 0.023932361606617644,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 7160
    },
    {
      "epoch": 1.18192,
      "grad_norm": 0.023845386657451284,
      "learning_rate": 0.0001,
      "loss": 0.9046,
      "step": 7161
    },
    {
      "epoch": 1.1819733333333333,
      "grad_norm": 0.023153839626069185,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 7162
    },
    {
      "epoch": 1.1820266666666668,
      "grad_norm": 0.02417154716062577,
      "learning_rate": 0.0001,
      "loss": 0.9801,
      "step": 7163
    },
    {
      "epoch": 1.18208,
      "grad_norm": 0.024628453068397494,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 7164
    },
    {
      "epoch": 1.1821333333333333,
      "grad_norm": 0.0246900066288912,
      "learning_rate": 0.0001,
      "loss": 1.0331,
      "step": 7165
    },
    {
      "epoch": 1.1821866666666667,
      "grad_norm": 0.025998829695068087,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 7166
    },
    {
      "epoch": 1.18224,
      "grad_norm": 0.026313139106830325,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 7167
    },
    {
      "epoch": 1.1822933333333334,
      "grad_norm": 0.02509915482734428,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7168
    },
    {
      "epoch": 1.1823466666666667,
      "grad_norm": 0.025267311863319708,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 7169
    },
    {
      "epoch": 1.1824,
      "grad_norm": 0.024267569129890372,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 7170
    },
    {
      "epoch": 1.1824533333333334,
      "grad_norm": 0.024896342571798326,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 7171
    },
    {
      "epoch": 1.1825066666666666,
      "grad_norm": 0.027135605296081156,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 7172
    },
    {
      "epoch": 1.18256,
      "grad_norm": 0.02306156421541893,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 7173
    },
    {
      "epoch": 1.1826133333333333,
      "grad_norm": 0.027464219429051098,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 7174
    },
    {
      "epoch": 1.1826666666666668,
      "grad_norm": 0.02372664106663394,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 7175
    },
    {
      "epoch": 1.18272,
      "grad_norm": 0.024673695617365682,
      "learning_rate": 0.0001,
      "loss": 0.8774,
      "step": 7176
    },
    {
      "epoch": 1.1827733333333335,
      "grad_norm": 0.023496721154339262,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 7177
    },
    {
      "epoch": 1.1828266666666667,
      "grad_norm": 0.024187180291448507,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 7178
    },
    {
      "epoch": 1.18288,
      "grad_norm": 0.02451912780717266,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 7179
    },
    {
      "epoch": 1.1829333333333334,
      "grad_norm": 0.025438108870257548,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 7180
    },
    {
      "epoch": 1.1829866666666666,
      "grad_norm": 0.023130904469363216,
      "learning_rate": 0.0001,
      "loss": 1.0187,
      "step": 7181
    },
    {
      "epoch": 1.18304,
      "grad_norm": 0.022538599934898516,
      "learning_rate": 0.0001,
      "loss": 0.9154,
      "step": 7182
    },
    {
      "epoch": 1.1830933333333333,
      "grad_norm": 0.024237269983873426,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 7183
    },
    {
      "epoch": 1.1831466666666666,
      "grad_norm": 0.023147004455048126,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 7184
    },
    {
      "epoch": 1.1832,
      "grad_norm": 0.021997541991087385,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 7185
    },
    {
      "epoch": 1.1832533333333333,
      "grad_norm": 0.024547165177057285,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 7186
    },
    {
      "epoch": 1.1833066666666667,
      "grad_norm": 0.02646023612022894,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 7187
    },
    {
      "epoch": 1.18336,
      "grad_norm": 0.02451622875360858,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 7188
    },
    {
      "epoch": 1.1834133333333334,
      "grad_norm": 0.024741032673860523,
      "learning_rate": 0.0001,
      "loss": 1.0219,
      "step": 7189
    },
    {
      "epoch": 1.1834666666666667,
      "grad_norm": 0.021821057634512305,
      "learning_rate": 0.0001,
      "loss": 0.9003,
      "step": 7190
    },
    {
      "epoch": 1.18352,
      "grad_norm": 0.023589788976381025,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 7191
    },
    {
      "epoch": 1.1835733333333334,
      "grad_norm": 0.024767372149936174,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 7192
    },
    {
      "epoch": 1.1836266666666666,
      "grad_norm": 0.023481291874176222,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 7193
    },
    {
      "epoch": 1.18368,
      "grad_norm": 0.022532654975791943,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 7194
    },
    {
      "epoch": 1.1837333333333333,
      "grad_norm": 0.025316049027721953,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 7195
    },
    {
      "epoch": 1.1837866666666668,
      "grad_norm": 0.0241564343789041,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 7196
    },
    {
      "epoch": 1.18384,
      "grad_norm": 0.023526208170583863,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 7197
    },
    {
      "epoch": 1.1838933333333332,
      "grad_norm": 0.026734495524658175,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7198
    },
    {
      "epoch": 1.1839466666666667,
      "grad_norm": 0.022016571864867565,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 7199
    },
    {
      "epoch": 1.184,
      "grad_norm": 0.025431467434965604,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 7200
    },
    {
      "epoch": 1.184,
      "eval_accuracy": 0.6193622886938921,
      "eval_loss": 1.3588013648986816,
      "eval_runtime": 62.4198,
      "eval_samples_per_second": 16.021,
      "eval_steps_per_second": 0.513,
      "step": 7200
    },
    {
      "epoch": 1.1840533333333334,
      "grad_norm": 0.022779441816370517,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 7201
    },
    {
      "epoch": 1.1841066666666666,
      "grad_norm": 0.02286634694342676,
      "learning_rate": 0.0001,
      "loss": 0.9219,
      "step": 7202
    },
    {
      "epoch": 1.1841599999999999,
      "grad_norm": 0.023171542544397895,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 7203
    },
    {
      "epoch": 1.1842133333333333,
      "grad_norm": 0.022953654219945493,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 7204
    },
    {
      "epoch": 1.1842666666666666,
      "grad_norm": 0.02319044409652968,
      "learning_rate": 0.0001,
      "loss": 0.8867,
      "step": 7205
    },
    {
      "epoch": 1.18432,
      "grad_norm": 0.02285415273915913,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 7206
    },
    {
      "epoch": 1.1843733333333333,
      "grad_norm": 0.022998966704796626,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 7207
    },
    {
      "epoch": 1.1844266666666667,
      "grad_norm": 0.02431204168543591,
      "learning_rate": 0.0001,
      "loss": 1.0334,
      "step": 7208
    },
    {
      "epoch": 1.18448,
      "grad_norm": 0.023924885588803995,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 7209
    },
    {
      "epoch": 1.1845333333333334,
      "grad_norm": 0.02413748839759489,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7210
    },
    {
      "epoch": 1.1845866666666667,
      "grad_norm": 0.024076611436306277,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 7211
    },
    {
      "epoch": 1.18464,
      "grad_norm": 0.023060440111263524,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 7212
    },
    {
      "epoch": 1.1846933333333334,
      "grad_norm": 0.024696545323385857,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 7213
    },
    {
      "epoch": 1.1847466666666666,
      "grad_norm": 0.024707540141603482,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 7214
    },
    {
      "epoch": 1.1848,
      "grad_norm": 0.02524721596807039,
      "learning_rate": 0.0001,
      "loss": 0.929,
      "step": 7215
    },
    {
      "epoch": 1.1848533333333333,
      "grad_norm": 0.02482819180508248,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 7216
    },
    {
      "epoch": 1.1849066666666666,
      "grad_norm": 0.023986840990697384,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 7217
    },
    {
      "epoch": 1.18496,
      "grad_norm": 0.023653225501206528,
      "learning_rate": 0.0001,
      "loss": 0.9188,
      "step": 7218
    },
    {
      "epoch": 1.1850133333333333,
      "grad_norm": 0.02361485868346284,
      "learning_rate": 0.0001,
      "loss": 1.0014,
      "step": 7219
    },
    {
      "epoch": 1.1850666666666667,
      "grad_norm": 0.02405972772167845,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 7220
    },
    {
      "epoch": 1.18512,
      "grad_norm": 0.025237533505105676,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 7221
    },
    {
      "epoch": 1.1851733333333334,
      "grad_norm": 0.02331656396334161,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 7222
    },
    {
      "epoch": 1.1852266666666667,
      "grad_norm": 0.02463496050524071,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 7223
    },
    {
      "epoch": 1.1852800000000001,
      "grad_norm": 0.02346391816164802,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 7224
    },
    {
      "epoch": 1.1853333333333333,
      "grad_norm": 0.024845987294712324,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 7225
    },
    {
      "epoch": 1.1853866666666666,
      "grad_norm": 0.024368983417403393,
      "learning_rate": 0.0001,
      "loss": 1.0692,
      "step": 7226
    },
    {
      "epoch": 1.18544,
      "grad_norm": 0.023468143813645325,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 7227
    },
    {
      "epoch": 1.1854933333333333,
      "grad_norm": 0.023996599103790508,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 7228
    },
    {
      "epoch": 1.1855466666666667,
      "grad_norm": 0.024518401313255948,
      "learning_rate": 0.0001,
      "loss": 1.0363,
      "step": 7229
    },
    {
      "epoch": 1.1856,
      "grad_norm": 0.025316807251904827,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 7230
    },
    {
      "epoch": 1.1856533333333332,
      "grad_norm": 0.02527550400652234,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 7231
    },
    {
      "epoch": 1.1857066666666667,
      "grad_norm": 0.023490707906456916,
      "learning_rate": 0.0001,
      "loss": 1.0294,
      "step": 7232
    },
    {
      "epoch": 1.18576,
      "grad_norm": 0.022828287697539994,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 7233
    },
    {
      "epoch": 1.1858133333333334,
      "grad_norm": 0.02500555239420487,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 7234
    },
    {
      "epoch": 1.1858666666666666,
      "grad_norm": 0.025038487844966872,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 7235
    },
    {
      "epoch": 1.18592,
      "grad_norm": 0.024395239070496073,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 7236
    },
    {
      "epoch": 1.1859733333333333,
      "grad_norm": 0.023228323797986793,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 7237
    },
    {
      "epoch": 1.1860266666666668,
      "grad_norm": 0.025708563128523165,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 7238
    },
    {
      "epoch": 1.18608,
      "grad_norm": 0.02384466537103548,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 7239
    },
    {
      "epoch": 1.1861333333333333,
      "grad_norm": 0.02561311304041513,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 7240
    },
    {
      "epoch": 1.1861866666666667,
      "grad_norm": 0.02540091639856959,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 7241
    },
    {
      "epoch": 1.18624,
      "grad_norm": 0.02520104792816321,
      "learning_rate": 0.0001,
      "loss": 0.9106,
      "step": 7242
    },
    {
      "epoch": 1.1862933333333334,
      "grad_norm": 0.024427794478092985,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 7243
    },
    {
      "epoch": 1.1863466666666667,
      "grad_norm": 0.025256035077992973,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 7244
    },
    {
      "epoch": 1.1864,
      "grad_norm": 0.0255586352819274,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 7245
    },
    {
      "epoch": 1.1864533333333334,
      "grad_norm": 0.02402851730230955,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 7246
    },
    {
      "epoch": 1.1865066666666666,
      "grad_norm": 0.023265249288521223,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 7247
    },
    {
      "epoch": 1.18656,
      "grad_norm": 0.023358282066726688,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 7248
    },
    {
      "epoch": 1.1866133333333333,
      "grad_norm": 0.02347538440897358,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 7249
    },
    {
      "epoch": 1.1866666666666668,
      "grad_norm": 0.022890926176042613,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 7250
    },
    {
      "epoch": 1.18672,
      "grad_norm": 0.023676769486721295,
      "learning_rate": 0.0001,
      "loss": 0.9173,
      "step": 7251
    },
    {
      "epoch": 1.1867733333333335,
      "grad_norm": 0.023764481047069838,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 7252
    },
    {
      "epoch": 1.1868266666666667,
      "grad_norm": 0.023776013097480037,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 7253
    },
    {
      "epoch": 1.18688,
      "grad_norm": 0.024953533909598462,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 7254
    },
    {
      "epoch": 1.1869333333333334,
      "grad_norm": 0.022966099733034307,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 7255
    },
    {
      "epoch": 1.1869866666666666,
      "grad_norm": 0.027917217566379212,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 7256
    },
    {
      "epoch": 1.18704,
      "grad_norm": 0.023734157656395062,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 7257
    },
    {
      "epoch": 1.1870933333333333,
      "grad_norm": 0.022911756483660242,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 7258
    },
    {
      "epoch": 1.1871466666666666,
      "grad_norm": 0.024241788504860962,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7259
    },
    {
      "epoch": 1.1872,
      "grad_norm": 0.024889732044349643,
      "learning_rate": 0.0001,
      "loss": 1.0366,
      "step": 7260
    },
    {
      "epoch": 1.1872533333333333,
      "grad_norm": 0.025451268772212567,
      "learning_rate": 0.0001,
      "loss": 1.0384,
      "step": 7261
    },
    {
      "epoch": 1.1873066666666667,
      "grad_norm": 0.025543984647431243,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 7262
    },
    {
      "epoch": 1.18736,
      "grad_norm": 0.0263804563523575,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 7263
    },
    {
      "epoch": 1.1874133333333332,
      "grad_norm": 0.027621087085162286,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 7264
    },
    {
      "epoch": 1.1874666666666667,
      "grad_norm": 0.0250611418413037,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 7265
    },
    {
      "epoch": 1.18752,
      "grad_norm": 0.023626136273874703,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 7266
    },
    {
      "epoch": 1.1875733333333334,
      "grad_norm": 0.024869804952768464,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 7267
    },
    {
      "epoch": 1.1876266666666666,
      "grad_norm": 0.023846868221968204,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 7268
    },
    {
      "epoch": 1.18768,
      "grad_norm": 0.023954781706274977,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 7269
    },
    {
      "epoch": 1.1877333333333333,
      "grad_norm": 0.024468458679635676,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 7270
    },
    {
      "epoch": 1.1877866666666668,
      "grad_norm": 0.025027214649599575,
      "learning_rate": 0.0001,
      "loss": 1.0702,
      "step": 7271
    },
    {
      "epoch": 1.18784,
      "grad_norm": 0.024555256088353593,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7272
    },
    {
      "epoch": 1.1878933333333332,
      "grad_norm": 0.02337712007015724,
      "learning_rate": 0.0001,
      "loss": 0.9116,
      "step": 7273
    },
    {
      "epoch": 1.1879466666666667,
      "grad_norm": 0.024301293108066977,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7274
    },
    {
      "epoch": 1.188,
      "grad_norm": 0.02435944152251911,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 7275
    },
    {
      "epoch": 1.1880533333333334,
      "grad_norm": 0.02556670314046084,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 7276
    },
    {
      "epoch": 1.1881066666666666,
      "grad_norm": 0.02443190689432934,
      "learning_rate": 0.0001,
      "loss": 1.0474,
      "step": 7277
    },
    {
      "epoch": 1.1881599999999999,
      "grad_norm": 0.024176949607638457,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 7278
    },
    {
      "epoch": 1.1882133333333333,
      "grad_norm": 0.024814424083827405,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 7279
    },
    {
      "epoch": 1.1882666666666666,
      "grad_norm": 0.025660618202968586,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 7280
    },
    {
      "epoch": 1.18832,
      "grad_norm": 0.023485954172040448,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 7281
    },
    {
      "epoch": 1.1883733333333333,
      "grad_norm": 0.0235498734865542,
      "learning_rate": 0.0001,
      "loss": 1.0302,
      "step": 7282
    },
    {
      "epoch": 1.1884266666666667,
      "grad_norm": 0.02417684878125587,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 7283
    },
    {
      "epoch": 1.18848,
      "grad_norm": 0.023712823558763887,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 7284
    },
    {
      "epoch": 1.1885333333333334,
      "grad_norm": 0.026568959070020663,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 7285
    },
    {
      "epoch": 1.1885866666666667,
      "grad_norm": 0.026136954189813533,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 7286
    },
    {
      "epoch": 1.18864,
      "grad_norm": 0.02325104839331239,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 7287
    },
    {
      "epoch": 1.1886933333333334,
      "grad_norm": 0.025773118064639215,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 7288
    },
    {
      "epoch": 1.1887466666666666,
      "grad_norm": 0.02477854855594075,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 7289
    },
    {
      "epoch": 1.1888,
      "grad_norm": 0.023307576739534343,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 7290
    },
    {
      "epoch": 1.1888533333333333,
      "grad_norm": 0.023809970064805747,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 7291
    },
    {
      "epoch": 1.1889066666666666,
      "grad_norm": 0.024171925461060614,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 7292
    },
    {
      "epoch": 1.18896,
      "grad_norm": 0.023300364304008715,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 7293
    },
    {
      "epoch": 1.1890133333333333,
      "grad_norm": 0.026998156657543296,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 7294
    },
    {
      "epoch": 1.1890666666666667,
      "grad_norm": 0.023797512720073844,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 7295
    },
    {
      "epoch": 1.18912,
      "grad_norm": 0.024780136814303848,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 7296
    },
    {
      "epoch": 1.1891733333333334,
      "grad_norm": 0.023243140647513604,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 7297
    },
    {
      "epoch": 1.1892266666666667,
      "grad_norm": 0.02379946640188472,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "step": 7298
    },
    {
      "epoch": 1.1892800000000001,
      "grad_norm": 0.024613332345151704,
      "learning_rate": 0.0001,
      "loss": 1.0277,
      "step": 7299
    },
    {
      "epoch": 1.1893333333333334,
      "grad_norm": 0.02528042042201784,
      "learning_rate": 0.0001,
      "loss": 0.9167,
      "step": 7300
    },
    {
      "epoch": 1.1893866666666666,
      "grad_norm": 0.022519619927803543,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 7301
    },
    {
      "epoch": 1.18944,
      "grad_norm": 0.023034132064479948,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 7302
    },
    {
      "epoch": 1.1894933333333333,
      "grad_norm": 0.025020411583797978,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 7303
    },
    {
      "epoch": 1.1895466666666668,
      "grad_norm": 0.023129329706279553,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "step": 7304
    },
    {
      "epoch": 1.1896,
      "grad_norm": 0.024191099596572944,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 7305
    },
    {
      "epoch": 1.1896533333333332,
      "grad_norm": 0.02387902608830227,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 7306
    },
    {
      "epoch": 1.1897066666666667,
      "grad_norm": 0.022987464858405846,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 7307
    },
    {
      "epoch": 1.18976,
      "grad_norm": 0.022754983675899877,
      "learning_rate": 0.0001,
      "loss": 0.8587,
      "step": 7308
    },
    {
      "epoch": 1.1898133333333334,
      "grad_norm": 0.02357706190700962,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 7309
    },
    {
      "epoch": 1.1898666666666666,
      "grad_norm": 0.02438008959075366,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 7310
    },
    {
      "epoch": 1.18992,
      "grad_norm": 0.025071235049286968,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 7311
    },
    {
      "epoch": 1.1899733333333333,
      "grad_norm": 0.024423178236285956,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 7312
    },
    {
      "epoch": 1.1900266666666668,
      "grad_norm": 0.025981373476802367,
      "learning_rate": 0.0001,
      "loss": 0.8907,
      "step": 7313
    },
    {
      "epoch": 1.19008,
      "grad_norm": 0.024232790010131743,
      "learning_rate": 0.0001,
      "loss": 1.0358,
      "step": 7314
    },
    {
      "epoch": 1.1901333333333333,
      "grad_norm": 0.025609270684906097,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 7315
    },
    {
      "epoch": 1.1901866666666667,
      "grad_norm": 0.02623530578219802,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 7316
    },
    {
      "epoch": 1.19024,
      "grad_norm": 0.025801460531626113,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 7317
    },
    {
      "epoch": 1.1902933333333334,
      "grad_norm": 0.022939578479734882,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 7318
    },
    {
      "epoch": 1.1903466666666667,
      "grad_norm": 0.02545522570594253,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 7319
    },
    {
      "epoch": 1.1904,
      "grad_norm": 0.026456374293731176,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 7320
    },
    {
      "epoch": 1.1904533333333334,
      "grad_norm": 0.02765005641960458,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 7321
    },
    {
      "epoch": 1.1905066666666666,
      "grad_norm": 0.023307099803310884,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 7322
    },
    {
      "epoch": 1.19056,
      "grad_norm": 0.024172623739187927,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 7323
    },
    {
      "epoch": 1.1906133333333333,
      "grad_norm": 0.023393981275318613,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 7324
    },
    {
      "epoch": 1.1906666666666668,
      "grad_norm": 0.026128979376777273,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 7325
    },
    {
      "epoch": 1.19072,
      "grad_norm": 0.025279072854275872,
      "learning_rate": 0.0001,
      "loss": 1.0719,
      "step": 7326
    },
    {
      "epoch": 1.1907733333333332,
      "grad_norm": 0.02487325746004121,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 7327
    },
    {
      "epoch": 1.1908266666666667,
      "grad_norm": 0.023326716658095926,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 7328
    },
    {
      "epoch": 1.19088,
      "grad_norm": 0.02483885132731976,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 7329
    },
    {
      "epoch": 1.1909333333333334,
      "grad_norm": 0.023965568336806183,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 7330
    },
    {
      "epoch": 1.1909866666666666,
      "grad_norm": 0.02295365702978976,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 7331
    },
    {
      "epoch": 1.19104,
      "grad_norm": 0.02440923273321154,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 7332
    },
    {
      "epoch": 1.1910933333333333,
      "grad_norm": 0.023606189701284003,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 7333
    },
    {
      "epoch": 1.1911466666666666,
      "grad_norm": 0.02532364593171206,
      "learning_rate": 0.0001,
      "loss": 0.9048,
      "step": 7334
    },
    {
      "epoch": 1.1912,
      "grad_norm": 0.024829928621763264,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 7335
    },
    {
      "epoch": 1.1912533333333333,
      "grad_norm": 0.023206890475607873,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 7336
    },
    {
      "epoch": 1.1913066666666667,
      "grad_norm": 0.024364551956681312,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 7337
    },
    {
      "epoch": 1.19136,
      "grad_norm": 0.023931846435625195,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 7338
    },
    {
      "epoch": 1.1914133333333332,
      "grad_norm": 0.026460347165863023,
      "learning_rate": 0.0001,
      "loss": 1.0251,
      "step": 7339
    },
    {
      "epoch": 1.1914666666666667,
      "grad_norm": 0.023174057601070986,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 7340
    },
    {
      "epoch": 1.19152,
      "grad_norm": 0.024472848338617507,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 7341
    },
    {
      "epoch": 1.1915733333333334,
      "grad_norm": 0.02411531467343324,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 7342
    },
    {
      "epoch": 1.1916266666666666,
      "grad_norm": 0.022465804941203704,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 7343
    },
    {
      "epoch": 1.19168,
      "grad_norm": 0.023707874120103938,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 7344
    },
    {
      "epoch": 1.1917333333333333,
      "grad_norm": 0.02310725475307972,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 7345
    },
    {
      "epoch": 1.1917866666666668,
      "grad_norm": 0.024386887514083175,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 7346
    },
    {
      "epoch": 1.19184,
      "grad_norm": 0.022193427358321815,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 7347
    },
    {
      "epoch": 1.1918933333333332,
      "grad_norm": 0.02292456566002935,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 7348
    },
    {
      "epoch": 1.1919466666666667,
      "grad_norm": 0.024284459032174154,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 7349
    },
    {
      "epoch": 1.192,
      "grad_norm": 0.023345296337456974,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 7350
    },
    {
      "epoch": 1.1920533333333334,
      "grad_norm": 0.023463576530002632,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 7351
    },
    {
      "epoch": 1.1921066666666666,
      "grad_norm": 0.024983702473934728,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 7352
    },
    {
      "epoch": 1.1921599999999999,
      "grad_norm": 0.024021554170503688,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 7353
    },
    {
      "epoch": 1.1922133333333333,
      "grad_norm": 0.023721624757563686,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 7354
    },
    {
      "epoch": 1.1922666666666666,
      "grad_norm": 0.02259658250586971,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 7355
    },
    {
      "epoch": 1.19232,
      "grad_norm": 0.02394703985615632,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 7356
    },
    {
      "epoch": 1.1923733333333333,
      "grad_norm": 0.025198530650331778,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 7357
    },
    {
      "epoch": 1.1924266666666667,
      "grad_norm": 0.02304924223789944,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 7358
    },
    {
      "epoch": 1.19248,
      "grad_norm": 0.023766306636896876,
      "learning_rate": 0.0001,
      "loss": 0.9228,
      "step": 7359
    },
    {
      "epoch": 1.1925333333333334,
      "grad_norm": 0.024922361453554,
      "learning_rate": 0.0001,
      "loss": 0.9775,
      "step": 7360
    },
    {
      "epoch": 1.1925866666666667,
      "grad_norm": 0.023130411151795843,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 7361
    },
    {
      "epoch": 1.19264,
      "grad_norm": 0.02324704036423622,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 7362
    },
    {
      "epoch": 1.1926933333333334,
      "grad_norm": 0.023141999858707383,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 7363
    },
    {
      "epoch": 1.1927466666666666,
      "grad_norm": 0.022549064511613474,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 7364
    },
    {
      "epoch": 1.1928,
      "grad_norm": 0.023068696445146922,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 7365
    },
    {
      "epoch": 1.1928533333333333,
      "grad_norm": 0.023230322419577093,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 7366
    },
    {
      "epoch": 1.1929066666666666,
      "grad_norm": 0.023955375652586885,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 7367
    },
    {
      "epoch": 1.19296,
      "grad_norm": 0.022687509150943048,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 7368
    },
    {
      "epoch": 1.1930133333333333,
      "grad_norm": 0.023144071417011313,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 7369
    },
    {
      "epoch": 1.1930666666666667,
      "grad_norm": 0.023447335174748788,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 7370
    },
    {
      "epoch": 1.19312,
      "grad_norm": 0.02262756496524868,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 7371
    },
    {
      "epoch": 1.1931733333333334,
      "grad_norm": 0.024516931750017117,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 7372
    },
    {
      "epoch": 1.1932266666666667,
      "grad_norm": 0.02400520075804333,
      "learning_rate": 0.0001,
      "loss": 1.0042,
      "step": 7373
    },
    {
      "epoch": 1.1932800000000001,
      "grad_norm": 0.025746881230434976,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 7374
    },
    {
      "epoch": 1.1933333333333334,
      "grad_norm": 0.02450941935429656,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 7375
    },
    {
      "epoch": 1.1933866666666666,
      "grad_norm": 0.02213884385958393,
      "learning_rate": 0.0001,
      "loss": 0.9123,
      "step": 7376
    },
    {
      "epoch": 1.19344,
      "grad_norm": 0.023065572756390634,
      "learning_rate": 0.0001,
      "loss": 0.9297,
      "step": 7377
    },
    {
      "epoch": 1.1934933333333333,
      "grad_norm": 0.026408915930016114,
      "learning_rate": 0.0001,
      "loss": 0.9265,
      "step": 7378
    },
    {
      "epoch": 1.1935466666666668,
      "grad_norm": 0.025998941425251356,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 7379
    },
    {
      "epoch": 1.1936,
      "grad_norm": 0.024154567642150696,
      "learning_rate": 0.0001,
      "loss": 1.0362,
      "step": 7380
    },
    {
      "epoch": 1.1936533333333332,
      "grad_norm": 0.024992682344015076,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 7381
    },
    {
      "epoch": 1.1937066666666667,
      "grad_norm": 0.026059407610579368,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 7382
    },
    {
      "epoch": 1.19376,
      "grad_norm": 0.02557795321788315,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 7383
    },
    {
      "epoch": 1.1938133333333334,
      "grad_norm": 0.023656603815181563,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 7384
    },
    {
      "epoch": 1.1938666666666666,
      "grad_norm": 0.02289724713067941,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 7385
    },
    {
      "epoch": 1.19392,
      "grad_norm": 0.024935132274748008,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 7386
    },
    {
      "epoch": 1.1939733333333333,
      "grad_norm": 0.023073016187004657,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 7387
    },
    {
      "epoch": 1.1940266666666666,
      "grad_norm": 0.024891392487800864,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 7388
    },
    {
      "epoch": 1.19408,
      "grad_norm": 0.0229337197026798,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 7389
    },
    {
      "epoch": 1.1941333333333333,
      "grad_norm": 0.02492513112798984,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 7390
    },
    {
      "epoch": 1.1941866666666667,
      "grad_norm": 0.023463647706361793,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 7391
    },
    {
      "epoch": 1.19424,
      "grad_norm": 0.023155950822287795,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 7392
    },
    {
      "epoch": 1.1942933333333334,
      "grad_norm": 0.024088051354453643,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 7393
    },
    {
      "epoch": 1.1943466666666667,
      "grad_norm": 0.03395375894014035,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 7394
    },
    {
      "epoch": 1.1944,
      "grad_norm": 0.023091814175704155,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 7395
    },
    {
      "epoch": 1.1944533333333334,
      "grad_norm": 0.025614154051242562,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 7396
    },
    {
      "epoch": 1.1945066666666666,
      "grad_norm": 0.02315968517241408,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 7397
    },
    {
      "epoch": 1.19456,
      "grad_norm": 0.024065336298590048,
      "learning_rate": 0.0001,
      "loss": 0.8847,
      "step": 7398
    },
    {
      "epoch": 1.1946133333333333,
      "grad_norm": 0.022915831062199285,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 7399
    },
    {
      "epoch": 1.1946666666666665,
      "grad_norm": 0.022730668606442666,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 7400
    },
    {
      "epoch": 1.1946666666666665,
      "eval_accuracy": 0.6194253226770883,
      "eval_loss": 1.358161449432373,
      "eval_runtime": 62.7961,
      "eval_samples_per_second": 15.925,
      "eval_steps_per_second": 0.51,
      "step": 7400
    },
    {
      "epoch": 1.19472,
      "grad_norm": 0.021446175437320577,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 7401
    },
    {
      "epoch": 1.1947733333333332,
      "grad_norm": 0.025216683729206008,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 7402
    },
    {
      "epoch": 1.1948266666666667,
      "grad_norm": 0.024213210163526063,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 7403
    },
    {
      "epoch": 1.19488,
      "grad_norm": 0.02302040781443722,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 7404
    },
    {
      "epoch": 1.1949333333333334,
      "grad_norm": 0.023410594106017157,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 7405
    },
    {
      "epoch": 1.1949866666666666,
      "grad_norm": 0.025233291437894823,
      "learning_rate": 0.0001,
      "loss": 0.925,
      "step": 7406
    },
    {
      "epoch": 1.19504,
      "grad_norm": 0.025376886309657794,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 7407
    },
    {
      "epoch": 1.1950933333333333,
      "grad_norm": 0.02499387815026795,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 7408
    },
    {
      "epoch": 1.1951466666666666,
      "grad_norm": 0.022795399428021144,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 7409
    },
    {
      "epoch": 1.1952,
      "grad_norm": 0.02421858752623448,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 7410
    },
    {
      "epoch": 1.1952533333333333,
      "grad_norm": 0.025563930517645998,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 7411
    },
    {
      "epoch": 1.1953066666666667,
      "grad_norm": 0.024094290634832635,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 7412
    },
    {
      "epoch": 1.19536,
      "grad_norm": 0.023637441191500724,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 7413
    },
    {
      "epoch": 1.1954133333333332,
      "grad_norm": 0.0237391299895449,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 7414
    },
    {
      "epoch": 1.1954666666666667,
      "grad_norm": 0.026327870558596034,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 7415
    },
    {
      "epoch": 1.19552,
      "grad_norm": 0.026781662268069478,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 7416
    },
    {
      "epoch": 1.1955733333333334,
      "grad_norm": 0.02387499871997671,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 7417
    },
    {
      "epoch": 1.1956266666666666,
      "grad_norm": 0.02403936747140502,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 7418
    },
    {
      "epoch": 1.19568,
      "grad_norm": 0.02429483128480656,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 7419
    },
    {
      "epoch": 1.1957333333333333,
      "grad_norm": 0.024438543293955815,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 7420
    },
    {
      "epoch": 1.1957866666666668,
      "grad_norm": 0.02292116561062347,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 7421
    },
    {
      "epoch": 1.19584,
      "grad_norm": 0.023383976677493274,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 7422
    },
    {
      "epoch": 1.1958933333333333,
      "grad_norm": 0.024514617248973285,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 7423
    },
    {
      "epoch": 1.1959466666666667,
      "grad_norm": 0.024659955806636016,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 7424
    },
    {
      "epoch": 1.196,
      "grad_norm": 0.024553294364470686,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 7425
    },
    {
      "epoch": 1.1960533333333334,
      "grad_norm": 0.02438883423203726,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 7426
    },
    {
      "epoch": 1.1961066666666667,
      "grad_norm": 0.02503938762817216,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 7427
    },
    {
      "epoch": 1.19616,
      "grad_norm": 0.023683197234370908,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 7428
    },
    {
      "epoch": 1.1962133333333334,
      "grad_norm": 0.02610810471339212,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 7429
    },
    {
      "epoch": 1.1962666666666666,
      "grad_norm": 0.02399686695696518,
      "learning_rate": 0.0001,
      "loss": 0.8986,
      "step": 7430
    },
    {
      "epoch": 1.19632,
      "grad_norm": 0.024666088162908585,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 7431
    },
    {
      "epoch": 1.1963733333333333,
      "grad_norm": 0.02457279462446153,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 7432
    },
    {
      "epoch": 1.1964266666666667,
      "grad_norm": 0.024564889990187917,
      "learning_rate": 0.0001,
      "loss": 1.0321,
      "step": 7433
    },
    {
      "epoch": 1.19648,
      "grad_norm": 0.0238776390862944,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 7434
    },
    {
      "epoch": 1.1965333333333334,
      "grad_norm": 0.022567118650500314,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 7435
    },
    {
      "epoch": 1.1965866666666667,
      "grad_norm": 0.02454680242824364,
      "learning_rate": 0.0001,
      "loss": 1.0575,
      "step": 7436
    },
    {
      "epoch": 1.19664,
      "grad_norm": 0.023311310086464792,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 7437
    },
    {
      "epoch": 1.1966933333333334,
      "grad_norm": 0.023735900870387336,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 7438
    },
    {
      "epoch": 1.1967466666666666,
      "grad_norm": 0.02231672850063984,
      "learning_rate": 0.0001,
      "loss": 1.039,
      "step": 7439
    },
    {
      "epoch": 1.1968,
      "grad_norm": 0.02477848135967527,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 7440
    },
    {
      "epoch": 1.1968533333333333,
      "grad_norm": 0.02455128951184453,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 7441
    },
    {
      "epoch": 1.1969066666666666,
      "grad_norm": 0.02448757318309528,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 7442
    },
    {
      "epoch": 1.19696,
      "grad_norm": 0.025574639064555975,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 7443
    },
    {
      "epoch": 1.1970133333333333,
      "grad_norm": 0.02328439371155742,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 7444
    },
    {
      "epoch": 1.1970666666666667,
      "grad_norm": 0.023047607168034775,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 7445
    },
    {
      "epoch": 1.19712,
      "grad_norm": 0.023993484151347406,
      "learning_rate": 0.0001,
      "loss": 0.9901,
      "step": 7446
    },
    {
      "epoch": 1.1971733333333334,
      "grad_norm": 0.023368988771869808,
      "learning_rate": 0.0001,
      "loss": 0.9174,
      "step": 7447
    },
    {
      "epoch": 1.1972266666666667,
      "grad_norm": 0.02344179895754702,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 7448
    },
    {
      "epoch": 1.1972800000000001,
      "grad_norm": 0.02235341411435688,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 7449
    },
    {
      "epoch": 1.1973333333333334,
      "grad_norm": 0.023443178832691237,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 7450
    },
    {
      "epoch": 1.1973866666666666,
      "grad_norm": 0.02398218809258825,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 7451
    },
    {
      "epoch": 1.19744,
      "grad_norm": 0.022623822416032092,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 7452
    },
    {
      "epoch": 1.1974933333333333,
      "grad_norm": 0.023857698939356582,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 7453
    },
    {
      "epoch": 1.1975466666666668,
      "grad_norm": 0.023467002534355342,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 7454
    },
    {
      "epoch": 1.1976,
      "grad_norm": 0.023078542616859595,
      "learning_rate": 0.0001,
      "loss": 0.9119,
      "step": 7455
    },
    {
      "epoch": 1.1976533333333332,
      "grad_norm": 0.026018827915449357,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 7456
    },
    {
      "epoch": 1.1977066666666667,
      "grad_norm": 0.02413192401544408,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 7457
    },
    {
      "epoch": 1.19776,
      "grad_norm": 0.024894483832169103,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 7458
    },
    {
      "epoch": 1.1978133333333334,
      "grad_norm": 0.021879407623732406,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 7459
    },
    {
      "epoch": 1.1978666666666666,
      "grad_norm": 0.02400922445381177,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 7460
    },
    {
      "epoch": 1.19792,
      "grad_norm": 0.02583686974660191,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "step": 7461
    },
    {
      "epoch": 1.1979733333333333,
      "grad_norm": 0.024591560692769944,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 7462
    },
    {
      "epoch": 1.1980266666666666,
      "grad_norm": 0.02248282902013012,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 7463
    },
    {
      "epoch": 1.19808,
      "grad_norm": 0.023822596922863096,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 7464
    },
    {
      "epoch": 1.1981333333333333,
      "grad_norm": 0.026396723699907327,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 7465
    },
    {
      "epoch": 1.1981866666666667,
      "grad_norm": 0.0243636209680058,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 7466
    },
    {
      "epoch": 1.19824,
      "grad_norm": 0.025136451194091098,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 7467
    },
    {
      "epoch": 1.1982933333333334,
      "grad_norm": 0.023216500632941464,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 7468
    },
    {
      "epoch": 1.1983466666666667,
      "grad_norm": 0.024083901471719422,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 7469
    },
    {
      "epoch": 1.1984,
      "grad_norm": 0.024041955504645267,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 7470
    },
    {
      "epoch": 1.1984533333333334,
      "grad_norm": 0.02534715585355698,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 7471
    },
    {
      "epoch": 1.1985066666666666,
      "grad_norm": 0.025392463532643406,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 7472
    },
    {
      "epoch": 1.19856,
      "grad_norm": 0.024092115953714556,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 7473
    },
    {
      "epoch": 1.1986133333333333,
      "grad_norm": 0.024088276658927044,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 7474
    },
    {
      "epoch": 1.1986666666666665,
      "grad_norm": 0.024117079038712748,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 7475
    },
    {
      "epoch": 1.19872,
      "grad_norm": 0.024619170196906046,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 7476
    },
    {
      "epoch": 1.1987733333333332,
      "grad_norm": 0.025281407187666933,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "step": 7477
    },
    {
      "epoch": 1.1988266666666667,
      "grad_norm": 0.02523045747368325,
      "learning_rate": 0.0001,
      "loss": 1.0831,
      "step": 7478
    },
    {
      "epoch": 1.19888,
      "grad_norm": 0.024968610326212802,
      "learning_rate": 0.0001,
      "loss": 0.918,
      "step": 7479
    },
    {
      "epoch": 1.1989333333333334,
      "grad_norm": 0.02520561145998319,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7480
    },
    {
      "epoch": 1.1989866666666666,
      "grad_norm": 0.02406379971651878,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 7481
    },
    {
      "epoch": 1.19904,
      "grad_norm": 0.023377304883347355,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 7482
    },
    {
      "epoch": 1.1990933333333333,
      "grad_norm": 0.023319647910902543,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 7483
    },
    {
      "epoch": 1.1991466666666666,
      "grad_norm": 0.02295306040200707,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 7484
    },
    {
      "epoch": 1.1992,
      "grad_norm": 0.02273022625641468,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 7485
    },
    {
      "epoch": 1.1992533333333333,
      "grad_norm": 0.025221259741013212,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 7486
    },
    {
      "epoch": 1.1993066666666667,
      "grad_norm": 0.026099363739381022,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 7487
    },
    {
      "epoch": 1.19936,
      "grad_norm": 0.022777961340380647,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 7488
    },
    {
      "epoch": 1.1994133333333332,
      "grad_norm": 0.024971628336852306,
      "learning_rate": 0.0001,
      "loss": 0.9077,
      "step": 7489
    },
    {
      "epoch": 1.1994666666666667,
      "grad_norm": 0.025556983150219897,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 7490
    },
    {
      "epoch": 1.19952,
      "grad_norm": 0.02468359521110325,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 7491
    },
    {
      "epoch": 1.1995733333333334,
      "grad_norm": 0.023151292893781397,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 7492
    },
    {
      "epoch": 1.1996266666666666,
      "grad_norm": 0.02617109583503248,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 7493
    },
    {
      "epoch": 1.19968,
      "grad_norm": 0.02455468880733365,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 7494
    },
    {
      "epoch": 1.1997333333333333,
      "grad_norm": 0.024207356596957854,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 7495
    },
    {
      "epoch": 1.1997866666666668,
      "grad_norm": 0.025038919331614635,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 7496
    },
    {
      "epoch": 1.19984,
      "grad_norm": 0.02484934127880927,
      "learning_rate": 0.0001,
      "loss": 0.8885,
      "step": 7497
    },
    {
      "epoch": 1.1998933333333333,
      "grad_norm": 0.023941429842081318,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 7498
    },
    {
      "epoch": 1.1999466666666667,
      "grad_norm": 0.02420790918545988,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 7499
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.0236173721048495,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 7500
    },
    {
      "epoch": 2.0000533333333332,
      "grad_norm": 0.023243935971692872,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 7501
    },
    {
      "epoch": 2.0001066666666665,
      "grad_norm": 0.02477591348519496,
      "learning_rate": 0.0001,
      "loss": 1.0342,
      "step": 7502
    },
    {
      "epoch": 2.00016,
      "grad_norm": 0.026510344329277274,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 7503
    },
    {
      "epoch": 2.0002133333333334,
      "grad_norm": 0.023476652480063424,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 7504
    },
    {
      "epoch": 2.0002666666666666,
      "grad_norm": 0.02598958651941795,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 7505
    },
    {
      "epoch": 2.00032,
      "grad_norm": 0.025559624121707102,
      "learning_rate": 0.0001,
      "loss": 1.0325,
      "step": 7506
    },
    {
      "epoch": 2.000373333333333,
      "grad_norm": 0.02278491812143681,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 7507
    },
    {
      "epoch": 2.000426666666667,
      "grad_norm": 0.025769267338245652,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 7508
    },
    {
      "epoch": 2.00048,
      "grad_norm": 0.024448153186492006,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 7509
    },
    {
      "epoch": 2.0005333333333333,
      "grad_norm": 0.024939430519777275,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 7510
    },
    {
      "epoch": 2.0005866666666665,
      "grad_norm": 0.02536215567299092,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 7511
    },
    {
      "epoch": 2.00064,
      "grad_norm": 0.02328793101786527,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 7512
    },
    {
      "epoch": 2.0006933333333334,
      "grad_norm": 0.023750860679008782,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 7513
    },
    {
      "epoch": 2.0007466666666667,
      "grad_norm": 0.024552908007161717,
      "learning_rate": 0.0001,
      "loss": 0.9468,
      "step": 7514
    },
    {
      "epoch": 2.0008,
      "grad_norm": 0.023408590592833685,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 7515
    },
    {
      "epoch": 2.000853333333333,
      "grad_norm": 0.026423466153139775,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 7516
    },
    {
      "epoch": 2.000906666666667,
      "grad_norm": 0.02441636032304467,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "step": 7517
    },
    {
      "epoch": 2.00096,
      "grad_norm": 0.02607252784213608,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 7518
    },
    {
      "epoch": 2.0010133333333333,
      "grad_norm": 0.02603810483133439,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 7519
    },
    {
      "epoch": 2.0010666666666665,
      "grad_norm": 0.02284649372236959,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 7520
    },
    {
      "epoch": 2.00112,
      "grad_norm": 0.02741438249099059,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 7521
    },
    {
      "epoch": 2.0011733333333335,
      "grad_norm": 0.02504479094797945,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 7522
    },
    {
      "epoch": 2.0012266666666667,
      "grad_norm": 0.024219082216946075,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 7523
    },
    {
      "epoch": 2.00128,
      "grad_norm": 0.02469056804448101,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 7524
    },
    {
      "epoch": 2.001333333333333,
      "grad_norm": 0.024890841972753933,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 7525
    },
    {
      "epoch": 2.001386666666667,
      "grad_norm": 0.022889965067134636,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 7526
    },
    {
      "epoch": 2.00144,
      "grad_norm": 0.023175631419929572,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 7527
    },
    {
      "epoch": 2.0014933333333333,
      "grad_norm": 0.024553105335472527,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 7528
    },
    {
      "epoch": 2.0015466666666666,
      "grad_norm": 0.023397840227881245,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 7529
    },
    {
      "epoch": 2.0016,
      "grad_norm": 0.02420345267846469,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 7530
    },
    {
      "epoch": 2.0016533333333335,
      "grad_norm": 0.024341802050091853,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 7531
    },
    {
      "epoch": 2.0017066666666667,
      "grad_norm": 0.023655435424436603,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 7532
    },
    {
      "epoch": 2.00176,
      "grad_norm": 0.024572314248827554,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 7533
    },
    {
      "epoch": 2.0018133333333332,
      "grad_norm": 0.024305142236695988,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 7534
    },
    {
      "epoch": 2.0018666666666665,
      "grad_norm": 0.02306715253369471,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 7535
    },
    {
      "epoch": 2.00192,
      "grad_norm": 0.023967447093910535,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 7536
    },
    {
      "epoch": 2.0019733333333334,
      "grad_norm": 0.02611610410209887,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 7537
    },
    {
      "epoch": 2.0020266666666666,
      "grad_norm": 0.024319958058464007,
      "learning_rate": 0.0001,
      "loss": 0.9141,
      "step": 7538
    },
    {
      "epoch": 2.00208,
      "grad_norm": 0.02305330803036496,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 7539
    },
    {
      "epoch": 2.0021333333333335,
      "grad_norm": 0.02574463527834752,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 7540
    },
    {
      "epoch": 2.002186666666667,
      "grad_norm": 0.02377806404482787,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 7541
    },
    {
      "epoch": 2.00224,
      "grad_norm": 0.0238417335508208,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 7542
    },
    {
      "epoch": 2.0022933333333333,
      "grad_norm": 0.023245660769277806,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 7543
    },
    {
      "epoch": 2.0023466666666665,
      "grad_norm": 0.024916581071864737,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 7544
    },
    {
      "epoch": 2.0024,
      "grad_norm": 0.02391904414850068,
      "learning_rate": 0.0001,
      "loss": 0.9096,
      "step": 7545
    },
    {
      "epoch": 2.0024533333333334,
      "grad_norm": 0.023552799280155873,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 7546
    },
    {
      "epoch": 2.0025066666666667,
      "grad_norm": 0.024365704083997654,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 7547
    },
    {
      "epoch": 2.00256,
      "grad_norm": 0.024503162342505616,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 7548
    },
    {
      "epoch": 2.002613333333333,
      "grad_norm": 0.02386375951090822,
      "learning_rate": 0.0001,
      "loss": 0.9379,
      "step": 7549
    },
    {
      "epoch": 2.002666666666667,
      "grad_norm": 0.02327713660380971,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 7550
    },
    {
      "epoch": 2.00272,
      "grad_norm": 0.02334643909352209,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 7551
    },
    {
      "epoch": 2.0027733333333333,
      "grad_norm": 0.025283006885632682,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 7552
    },
    {
      "epoch": 2.0028266666666665,
      "grad_norm": 0.023766306952130622,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 7553
    },
    {
      "epoch": 2.00288,
      "grad_norm": 0.02334709265783985,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 7554
    },
    {
      "epoch": 2.0029333333333335,
      "grad_norm": 0.02522826132780556,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 7555
    },
    {
      "epoch": 2.0029866666666667,
      "grad_norm": 0.023880089936020744,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 7556
    },
    {
      "epoch": 2.00304,
      "grad_norm": 0.023271764232691745,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 7557
    },
    {
      "epoch": 2.003093333333333,
      "grad_norm": 0.023598426096339532,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 7558
    },
    {
      "epoch": 2.003146666666667,
      "grad_norm": 0.023732199600063918,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 7559
    },
    {
      "epoch": 2.0032,
      "grad_norm": 0.02503549200613846,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 7560
    },
    {
      "epoch": 2.0032533333333333,
      "grad_norm": 0.023793856975966976,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 7561
    },
    {
      "epoch": 2.0033066666666666,
      "grad_norm": 0.02413742270122237,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 7562
    },
    {
      "epoch": 2.00336,
      "grad_norm": 0.025757861375204597,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 7563
    },
    {
      "epoch": 2.0034133333333335,
      "grad_norm": 0.023679562966617666,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7564
    },
    {
      "epoch": 2.0034666666666667,
      "grad_norm": 0.025421806087267743,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 7565
    },
    {
      "epoch": 2.00352,
      "grad_norm": 0.026044500825273657,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 7566
    },
    {
      "epoch": 2.003573333333333,
      "grad_norm": 0.024100474790550094,
      "learning_rate": 0.0001,
      "loss": 0.9311,
      "step": 7567
    },
    {
      "epoch": 2.0036266666666664,
      "grad_norm": 0.02436830696050813,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 7568
    },
    {
      "epoch": 2.00368,
      "grad_norm": 0.02962010343447645,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 7569
    },
    {
      "epoch": 2.0037333333333334,
      "grad_norm": 0.024124646003296155,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 7570
    },
    {
      "epoch": 2.0037866666666666,
      "grad_norm": 0.02477405916714057,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 7571
    },
    {
      "epoch": 2.00384,
      "grad_norm": 0.02549889383715077,
      "learning_rate": 0.0001,
      "loss": 0.9067,
      "step": 7572
    },
    {
      "epoch": 2.0038933333333335,
      "grad_norm": 0.023717763574817394,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 7573
    },
    {
      "epoch": 2.0039466666666668,
      "grad_norm": 0.024052708712840994,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 7574
    },
    {
      "epoch": 2.004,
      "grad_norm": 0.026875558842505757,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 7575
    },
    {
      "epoch": 2.0040533333333332,
      "grad_norm": 0.02289423254977951,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 7576
    },
    {
      "epoch": 2.0041066666666665,
      "grad_norm": 0.024163814558609914,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 7577
    },
    {
      "epoch": 2.00416,
      "grad_norm": 0.024690328888107117,
      "learning_rate": 0.0001,
      "loss": 0.9133,
      "step": 7578
    },
    {
      "epoch": 2.0042133333333334,
      "grad_norm": 0.024429167045631774,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 7579
    },
    {
      "epoch": 2.0042666666666666,
      "grad_norm": 0.025916476799199555,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 7580
    },
    {
      "epoch": 2.00432,
      "grad_norm": 0.024595698003048415,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 7581
    },
    {
      "epoch": 2.004373333333333,
      "grad_norm": 0.025359173585568728,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 7582
    },
    {
      "epoch": 2.004426666666667,
      "grad_norm": 0.024708371060631253,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 7583
    },
    {
      "epoch": 2.00448,
      "grad_norm": 0.024991008882874317,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 7584
    },
    {
      "epoch": 2.0045333333333333,
      "grad_norm": 0.025063049019528025,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 7585
    },
    {
      "epoch": 2.0045866666666665,
      "grad_norm": 0.02672289648377867,
      "learning_rate": 0.0001,
      "loss": 1.0144,
      "step": 7586
    },
    {
      "epoch": 2.00464,
      "grad_norm": 0.02591546813284381,
      "learning_rate": 0.0001,
      "loss": 1.0459,
      "step": 7587
    },
    {
      "epoch": 2.0046933333333334,
      "grad_norm": 0.024640994302168834,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 7588
    },
    {
      "epoch": 2.0047466666666667,
      "grad_norm": 0.027297018739194042,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 7589
    },
    {
      "epoch": 2.0048,
      "grad_norm": 0.024254498245988496,
      "learning_rate": 0.0001,
      "loss": 0.9183,
      "step": 7590
    },
    {
      "epoch": 2.004853333333333,
      "grad_norm": 0.023739202984448194,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 7591
    },
    {
      "epoch": 2.004906666666667,
      "grad_norm": 0.024545109756867686,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 7592
    },
    {
      "epoch": 2.00496,
      "grad_norm": 0.02422265324686076,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 7593
    },
    {
      "epoch": 2.0050133333333333,
      "grad_norm": 0.02495687299535881,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 7594
    },
    {
      "epoch": 2.0050666666666666,
      "grad_norm": 0.023130730916007366,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 7595
    },
    {
      "epoch": 2.00512,
      "grad_norm": 0.04116549069612522,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 7596
    },
    {
      "epoch": 2.0051733333333335,
      "grad_norm": 0.023214463016474812,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 7597
    },
    {
      "epoch": 2.0052266666666667,
      "grad_norm": 0.022797433107694505,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 7598
    },
    {
      "epoch": 2.00528,
      "grad_norm": 0.02395537236099507,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 7599
    },
    {
      "epoch": 2.005333333333333,
      "grad_norm": 0.022315201739299465,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 7600
    },
    {
      "epoch": 2.005333333333333,
      "eval_accuracy": 0.6195536129954523,
      "eval_loss": 1.3575023412704468,
      "eval_runtime": 62.6204,
      "eval_samples_per_second": 15.969,
      "eval_steps_per_second": 0.511,
      "step": 7600
    },
    {
      "epoch": 2.005386666666667,
      "grad_norm": 0.02307949969957958,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 7601
    },
    {
      "epoch": 2.00544,
      "grad_norm": 0.02277814788091466,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 7602
    },
    {
      "epoch": 2.0054933333333334,
      "grad_norm": 0.023854016023842812,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 7603
    },
    {
      "epoch": 2.0055466666666666,
      "grad_norm": 0.02475861771186239,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 7604
    },
    {
      "epoch": 2.0056,
      "grad_norm": 0.023642486028264135,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 7605
    },
    {
      "epoch": 2.0056533333333335,
      "grad_norm": 0.02368635218080449,
      "learning_rate": 0.0001,
      "loss": 0.9396,
      "step": 7606
    },
    {
      "epoch": 2.0057066666666667,
      "grad_norm": 0.023058821982674903,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 7607
    },
    {
      "epoch": 2.00576,
      "grad_norm": 0.024138973335546824,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 7608
    },
    {
      "epoch": 2.0058133333333332,
      "grad_norm": 0.023903002621305045,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 7609
    },
    {
      "epoch": 2.0058666666666665,
      "grad_norm": 0.02572692042927908,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 7610
    },
    {
      "epoch": 2.00592,
      "grad_norm": 0.025039787541959773,
      "learning_rate": 0.0001,
      "loss": 0.9086,
      "step": 7611
    },
    {
      "epoch": 2.0059733333333334,
      "grad_norm": 0.026632610247347924,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 7612
    },
    {
      "epoch": 2.0060266666666666,
      "grad_norm": 0.023684650904374795,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 7613
    },
    {
      "epoch": 2.00608,
      "grad_norm": 0.02311094607380775,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 7614
    },
    {
      "epoch": 2.0061333333333335,
      "grad_norm": 0.025870483994577538,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 7615
    },
    {
      "epoch": 2.006186666666667,
      "grad_norm": 0.024926682689169866,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 7616
    },
    {
      "epoch": 2.00624,
      "grad_norm": 0.023870270383488174,
      "learning_rate": 0.0001,
      "loss": 1.023,
      "step": 7617
    },
    {
      "epoch": 2.0062933333333333,
      "grad_norm": 0.023968074339453027,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 7618
    },
    {
      "epoch": 2.0063466666666665,
      "grad_norm": 0.02483280598536694,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "step": 7619
    },
    {
      "epoch": 2.0064,
      "grad_norm": 0.023416802121110993,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 7620
    },
    {
      "epoch": 2.0064533333333334,
      "grad_norm": 0.024270125677551116,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 7621
    },
    {
      "epoch": 2.0065066666666667,
      "grad_norm": 0.02484560108822551,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 7622
    },
    {
      "epoch": 2.00656,
      "grad_norm": 0.02465149957814491,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 7623
    },
    {
      "epoch": 2.006613333333333,
      "grad_norm": 0.023342887280930383,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 7624
    },
    {
      "epoch": 2.006666666666667,
      "grad_norm": 0.026272098355205435,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 7625
    },
    {
      "epoch": 2.00672,
      "grad_norm": 0.02529198515197748,
      "learning_rate": 0.0001,
      "loss": 0.8932,
      "step": 7626
    },
    {
      "epoch": 2.0067733333333333,
      "grad_norm": 0.02494047760783118,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 7627
    },
    {
      "epoch": 2.0068266666666665,
      "grad_norm": 0.02344336905251474,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 7628
    },
    {
      "epoch": 2.00688,
      "grad_norm": 0.02419076468379764,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 7629
    },
    {
      "epoch": 2.0069333333333335,
      "grad_norm": 0.02487641781203143,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 7630
    },
    {
      "epoch": 2.0069866666666667,
      "grad_norm": 0.025105761951137916,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 7631
    },
    {
      "epoch": 2.00704,
      "grad_norm": 0.025516897875196082,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 7632
    },
    {
      "epoch": 2.007093333333333,
      "grad_norm": 0.02581361005253421,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 7633
    },
    {
      "epoch": 2.007146666666667,
      "grad_norm": 0.02484956356440348,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 7634
    },
    {
      "epoch": 2.0072,
      "grad_norm": 0.023015396973029026,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 7635
    },
    {
      "epoch": 2.0072533333333333,
      "grad_norm": 0.02554855418311322,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 7636
    },
    {
      "epoch": 2.0073066666666666,
      "grad_norm": 0.026861226544915254,
      "learning_rate": 0.0001,
      "loss": 1.026,
      "step": 7637
    },
    {
      "epoch": 2.00736,
      "grad_norm": 0.023375408643742927,
      "learning_rate": 0.0001,
      "loss": 0.9229,
      "step": 7638
    },
    {
      "epoch": 2.0074133333333335,
      "grad_norm": 0.024540456627470494,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 7639
    },
    {
      "epoch": 2.0074666666666667,
      "grad_norm": 0.024778125834917394,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 7640
    },
    {
      "epoch": 2.00752,
      "grad_norm": 0.02524817674431544,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 7641
    },
    {
      "epoch": 2.007573333333333,
      "grad_norm": 0.02393432134273214,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 7642
    },
    {
      "epoch": 2.0076266666666664,
      "grad_norm": 0.026105453094048412,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 7643
    },
    {
      "epoch": 2.00768,
      "grad_norm": 0.02691820595495598,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 7644
    },
    {
      "epoch": 2.0077333333333334,
      "grad_norm": 0.024262423306312182,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 7645
    },
    {
      "epoch": 2.0077866666666666,
      "grad_norm": 0.02529511954690568,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 7646
    },
    {
      "epoch": 2.00784,
      "grad_norm": 0.023781391535742272,
      "learning_rate": 0.0001,
      "loss": 1.0227,
      "step": 7647
    },
    {
      "epoch": 2.0078933333333335,
      "grad_norm": 0.023074890908967343,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 7648
    },
    {
      "epoch": 2.0079466666666668,
      "grad_norm": 0.024802048544241055,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 7649
    },
    {
      "epoch": 2.008,
      "grad_norm": 0.026593996974879464,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 7650
    },
    {
      "epoch": 2.0080533333333332,
      "grad_norm": 0.02394171999613348,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 7651
    },
    {
      "epoch": 2.0081066666666665,
      "grad_norm": 0.02306557824129183,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 7652
    },
    {
      "epoch": 2.00816,
      "grad_norm": 0.02399144535427004,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "step": 7653
    },
    {
      "epoch": 2.0082133333333334,
      "grad_norm": 0.02406754609261698,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 7654
    },
    {
      "epoch": 2.0082666666666666,
      "grad_norm": 0.024909104722297154,
      "learning_rate": 0.0001,
      "loss": 1.0224,
      "step": 7655
    },
    {
      "epoch": 2.00832,
      "grad_norm": 0.02392838697544229,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 7656
    },
    {
      "epoch": 2.008373333333333,
      "grad_norm": 0.0222470444709598,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 7657
    },
    {
      "epoch": 2.008426666666667,
      "grad_norm": 0.025508820807281334,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 7658
    },
    {
      "epoch": 2.00848,
      "grad_norm": 0.026976571685109453,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 7659
    },
    {
      "epoch": 2.0085333333333333,
      "grad_norm": 0.02455933676833705,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 7660
    },
    {
      "epoch": 2.0085866666666665,
      "grad_norm": 0.024184262419541372,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 7661
    },
    {
      "epoch": 2.00864,
      "grad_norm": 0.025108616519681173,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 7662
    },
    {
      "epoch": 2.0086933333333334,
      "grad_norm": 0.024912295503961675,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 7663
    },
    {
      "epoch": 2.0087466666666667,
      "grad_norm": 0.025207280338180472,
      "learning_rate": 0.0001,
      "loss": 1.0569,
      "step": 7664
    },
    {
      "epoch": 2.0088,
      "grad_norm": 0.02344540622212264,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 7665
    },
    {
      "epoch": 2.008853333333333,
      "grad_norm": 0.02331793644989003,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 7666
    },
    {
      "epoch": 2.008906666666667,
      "grad_norm": 0.02379378974794134,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 7667
    },
    {
      "epoch": 2.00896,
      "grad_norm": 0.02322290964494852,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 7668
    },
    {
      "epoch": 2.0090133333333333,
      "grad_norm": 0.023784809608236337,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 7669
    },
    {
      "epoch": 2.0090666666666666,
      "grad_norm": 0.02533919472148904,
      "learning_rate": 0.0001,
      "loss": 0.9133,
      "step": 7670
    },
    {
      "epoch": 2.00912,
      "grad_norm": 0.02449957429803978,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 7671
    },
    {
      "epoch": 2.0091733333333335,
      "grad_norm": 0.023072205650319953,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 7672
    },
    {
      "epoch": 2.0092266666666667,
      "grad_norm": 0.02484689232388344,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 7673
    },
    {
      "epoch": 2.00928,
      "grad_norm": 0.025689750593999257,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 7674
    },
    {
      "epoch": 2.009333333333333,
      "grad_norm": 0.0222795355932351,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 7675
    },
    {
      "epoch": 2.009386666666667,
      "grad_norm": 0.023839205593538245,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 7676
    },
    {
      "epoch": 2.00944,
      "grad_norm": 0.024065220465895477,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 7677
    },
    {
      "epoch": 2.0094933333333334,
      "grad_norm": 0.02349093937514229,
      "learning_rate": 0.0001,
      "loss": 1.0046,
      "step": 7678
    },
    {
      "epoch": 2.0095466666666666,
      "grad_norm": 0.022799187031250733,
      "learning_rate": 0.0001,
      "loss": 1.0465,
      "step": 7679
    },
    {
      "epoch": 2.0096,
      "grad_norm": 0.023419531251209498,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 7680
    },
    {
      "epoch": 2.0096533333333335,
      "grad_norm": 0.02291410056475035,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 7681
    },
    {
      "epoch": 2.0097066666666668,
      "grad_norm": 0.02280610888247269,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 7682
    },
    {
      "epoch": 2.00976,
      "grad_norm": 0.025426881467714955,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 7683
    },
    {
      "epoch": 2.0098133333333332,
      "grad_norm": 0.024242372383599473,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 7684
    },
    {
      "epoch": 2.0098666666666665,
      "grad_norm": 0.02536880498563146,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 7685
    },
    {
      "epoch": 2.00992,
      "grad_norm": 0.02249246632155662,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 7686
    },
    {
      "epoch": 2.0099733333333334,
      "grad_norm": 0.02395217949059243,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 7687
    },
    {
      "epoch": 2.0100266666666666,
      "grad_norm": 0.023415328628346558,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 7688
    },
    {
      "epoch": 2.01008,
      "grad_norm": 0.024143167126835296,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 7689
    },
    {
      "epoch": 2.0101333333333335,
      "grad_norm": 0.024768506491865242,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 7690
    },
    {
      "epoch": 2.010186666666667,
      "grad_norm": 0.025093509845971237,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 7691
    },
    {
      "epoch": 2.01024,
      "grad_norm": 0.02547754224822825,
      "learning_rate": 0.0001,
      "loss": 0.8963,
      "step": 7692
    },
    {
      "epoch": 2.0102933333333333,
      "grad_norm": 0.025521979740440372,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 7693
    },
    {
      "epoch": 2.0103466666666665,
      "grad_norm": 0.02502113137405311,
      "learning_rate": 0.0001,
      "loss": 0.9122,
      "step": 7694
    },
    {
      "epoch": 2.0104,
      "grad_norm": 0.023662142018570573,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 7695
    },
    {
      "epoch": 2.0104533333333334,
      "grad_norm": 0.024933323611840457,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 7696
    },
    {
      "epoch": 2.0105066666666667,
      "grad_norm": 0.025746751454222918,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 7697
    },
    {
      "epoch": 2.01056,
      "grad_norm": 0.02403587910856246,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 7698
    },
    {
      "epoch": 2.010613333333333,
      "grad_norm": 0.02601263129066741,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 7699
    },
    {
      "epoch": 2.010666666666667,
      "grad_norm": 0.023154568813382553,
      "learning_rate": 0.0001,
      "loss": 1.0109,
      "step": 7700
    },
    {
      "epoch": 2.01072,
      "grad_norm": 0.02332928344543772,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 7701
    },
    {
      "epoch": 2.0107733333333333,
      "grad_norm": 0.02297782932767715,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 7702
    },
    {
      "epoch": 2.0108266666666665,
      "grad_norm": 0.025604182451498744,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "step": 7703
    },
    {
      "epoch": 2.0108800000000002,
      "grad_norm": 0.02597074745542422,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7704
    },
    {
      "epoch": 2.0109333333333335,
      "grad_norm": 0.023992290669722895,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7705
    },
    {
      "epoch": 2.0109866666666667,
      "grad_norm": 0.023196562744581144,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 7706
    },
    {
      "epoch": 2.01104,
      "grad_norm": 0.023687991851560834,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 7707
    },
    {
      "epoch": 2.011093333333333,
      "grad_norm": 0.024439043446461035,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 7708
    },
    {
      "epoch": 2.011146666666667,
      "grad_norm": 0.02400958790722353,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 7709
    },
    {
      "epoch": 2.0112,
      "grad_norm": 0.023653230115457446,
      "learning_rate": 0.0001,
      "loss": 0.9296,
      "step": 7710
    },
    {
      "epoch": 2.0112533333333333,
      "grad_norm": 0.02461933481951277,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 7711
    },
    {
      "epoch": 2.0113066666666666,
      "grad_norm": 0.02410925464205071,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 7712
    },
    {
      "epoch": 2.01136,
      "grad_norm": 0.027411200204938906,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 7713
    },
    {
      "epoch": 2.0114133333333335,
      "grad_norm": 0.024131923229562074,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 7714
    },
    {
      "epoch": 2.0114666666666667,
      "grad_norm": 0.024323145666719923,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 7715
    },
    {
      "epoch": 2.01152,
      "grad_norm": 0.025268586260051625,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 7716
    },
    {
      "epoch": 2.011573333333333,
      "grad_norm": 0.024504141957054394,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 7717
    },
    {
      "epoch": 2.0116266666666665,
      "grad_norm": 0.023952946735813996,
      "learning_rate": 0.0001,
      "loss": 1.0183,
      "step": 7718
    },
    {
      "epoch": 2.01168,
      "grad_norm": 0.024437629223126138,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 7719
    },
    {
      "epoch": 2.0117333333333334,
      "grad_norm": 0.022474758111681682,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 7720
    },
    {
      "epoch": 2.0117866666666666,
      "grad_norm": 0.022845794758188282,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 7721
    },
    {
      "epoch": 2.01184,
      "grad_norm": 0.022938248212090815,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 7722
    },
    {
      "epoch": 2.0118933333333335,
      "grad_norm": 0.027200206252928315,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 7723
    },
    {
      "epoch": 2.0119466666666668,
      "grad_norm": 0.02377571722080312,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 7724
    },
    {
      "epoch": 2.012,
      "grad_norm": 0.022406648562741126,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 7725
    },
    {
      "epoch": 2.0120533333333332,
      "grad_norm": 0.022857805940912967,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 7726
    },
    {
      "epoch": 2.0121066666666665,
      "grad_norm": 0.02393415718097094,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 7727
    },
    {
      "epoch": 2.01216,
      "grad_norm": 0.02381913579207146,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 7728
    },
    {
      "epoch": 2.0122133333333334,
      "grad_norm": 0.02261617708353109,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 7729
    },
    {
      "epoch": 2.0122666666666666,
      "grad_norm": 0.023383222184056456,
      "learning_rate": 0.0001,
      "loss": 0.9068,
      "step": 7730
    },
    {
      "epoch": 2.01232,
      "grad_norm": 0.02291184690626212,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 7731
    },
    {
      "epoch": 2.012373333333333,
      "grad_norm": 0.024105266163065527,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 7732
    },
    {
      "epoch": 2.012426666666667,
      "grad_norm": 0.02512551913512346,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 7733
    },
    {
      "epoch": 2.01248,
      "grad_norm": 0.025021574124901403,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 7734
    },
    {
      "epoch": 2.0125333333333333,
      "grad_norm": 0.024946258268924517,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "step": 7735
    },
    {
      "epoch": 2.0125866666666665,
      "grad_norm": 0.024343435277980868,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 7736
    },
    {
      "epoch": 2.01264,
      "grad_norm": 0.023409735278351586,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 7737
    },
    {
      "epoch": 2.0126933333333334,
      "grad_norm": 0.022699580608548722,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 7738
    },
    {
      "epoch": 2.0127466666666667,
      "grad_norm": 0.024388355183177557,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 7739
    },
    {
      "epoch": 2.0128,
      "grad_norm": 0.025610570623167895,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 7740
    },
    {
      "epoch": 2.012853333333333,
      "grad_norm": 0.02422168640745936,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 7741
    },
    {
      "epoch": 2.012906666666667,
      "grad_norm": 0.02408843434977436,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 7742
    },
    {
      "epoch": 2.01296,
      "grad_norm": 0.024974007332544554,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 7743
    },
    {
      "epoch": 2.0130133333333333,
      "grad_norm": 0.02286700151145432,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 7744
    },
    {
      "epoch": 2.0130666666666666,
      "grad_norm": 0.023624250925349,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 7745
    },
    {
      "epoch": 2.01312,
      "grad_norm": 0.026729702684308323,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 7746
    },
    {
      "epoch": 2.0131733333333335,
      "grad_norm": 0.023871097474886065,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7747
    },
    {
      "epoch": 2.0132266666666667,
      "grad_norm": 0.023966328962109134,
      "learning_rate": 0.0001,
      "loss": 0.9092,
      "step": 7748
    },
    {
      "epoch": 2.01328,
      "grad_norm": 0.02445607017357704,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 7749
    },
    {
      "epoch": 2.013333333333333,
      "grad_norm": 0.024192257697376467,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 7750
    },
    {
      "epoch": 2.013386666666667,
      "grad_norm": 0.029526387515621727,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 7751
    },
    {
      "epoch": 2.01344,
      "grad_norm": 0.023276830029610847,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 7752
    },
    {
      "epoch": 2.0134933333333334,
      "grad_norm": 0.024530934127618746,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 7753
    },
    {
      "epoch": 2.0135466666666666,
      "grad_norm": 0.0246614790315511,
      "learning_rate": 0.0001,
      "loss": 0.8857,
      "step": 7754
    },
    {
      "epoch": 2.0136,
      "grad_norm": 0.02409948883117422,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 7755
    },
    {
      "epoch": 2.0136533333333335,
      "grad_norm": 0.02410692857334303,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 7756
    },
    {
      "epoch": 2.0137066666666668,
      "grad_norm": 0.02303018612881936,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 7757
    },
    {
      "epoch": 2.01376,
      "grad_norm": 0.023172958021743253,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 7758
    },
    {
      "epoch": 2.0138133333333332,
      "grad_norm": 0.02348231139177008,
      "learning_rate": 0.0001,
      "loss": 0.8854,
      "step": 7759
    },
    {
      "epoch": 2.0138666666666665,
      "grad_norm": 0.02353759679324426,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 7760
    },
    {
      "epoch": 2.01392,
      "grad_norm": 0.02609343265467788,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 7761
    },
    {
      "epoch": 2.0139733333333334,
      "grad_norm": 0.024590485487756907,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 7762
    },
    {
      "epoch": 2.0140266666666666,
      "grad_norm": 0.023325238104572352,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 7763
    },
    {
      "epoch": 2.01408,
      "grad_norm": 0.025145932684410698,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 7764
    },
    {
      "epoch": 2.0141333333333336,
      "grad_norm": 0.024971575633417873,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 7765
    },
    {
      "epoch": 2.014186666666667,
      "grad_norm": 0.023057717092117232,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 7766
    },
    {
      "epoch": 2.01424,
      "grad_norm": 0.023095295989185784,
      "learning_rate": 0.0001,
      "loss": 0.891,
      "step": 7767
    },
    {
      "epoch": 2.0142933333333333,
      "grad_norm": 0.023380839972042516,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 7768
    },
    {
      "epoch": 2.0143466666666665,
      "grad_norm": 0.036711619006226014,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 7769
    },
    {
      "epoch": 2.0144,
      "grad_norm": 0.023136707945630955,
      "learning_rate": 0.0001,
      "loss": 0.9145,
      "step": 7770
    },
    {
      "epoch": 2.0144533333333334,
      "grad_norm": 0.02341195888282366,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 7771
    },
    {
      "epoch": 2.0145066666666667,
      "grad_norm": 0.024586182361307028,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 7772
    },
    {
      "epoch": 2.01456,
      "grad_norm": 0.025800111852296737,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 7773
    },
    {
      "epoch": 2.014613333333333,
      "grad_norm": 0.02378787533564623,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 7774
    },
    {
      "epoch": 2.014666666666667,
      "grad_norm": 0.024985015721363166,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 7775
    },
    {
      "epoch": 2.01472,
      "grad_norm": 0.024889970584632066,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7776
    },
    {
      "epoch": 2.0147733333333333,
      "grad_norm": 0.025728252288082412,
      "learning_rate": 0.0001,
      "loss": 0.935,
      "step": 7777
    },
    {
      "epoch": 2.0148266666666665,
      "grad_norm": 0.02458730472885289,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 7778
    },
    {
      "epoch": 2.01488,
      "grad_norm": 0.024405070124699935,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 7779
    },
    {
      "epoch": 2.0149333333333335,
      "grad_norm": 0.025534752143502155,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 7780
    },
    {
      "epoch": 2.0149866666666667,
      "grad_norm": 0.023533868345323103,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 7781
    },
    {
      "epoch": 2.01504,
      "grad_norm": 0.023949778894880567,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 7782
    },
    {
      "epoch": 2.015093333333333,
      "grad_norm": 0.024199274469071184,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 7783
    },
    {
      "epoch": 2.015146666666667,
      "grad_norm": 0.025257174212968355,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 7784
    },
    {
      "epoch": 2.0152,
      "grad_norm": 0.023988690056957543,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 7785
    },
    {
      "epoch": 2.0152533333333333,
      "grad_norm": 0.02526193992728536,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 7786
    },
    {
      "epoch": 2.0153066666666666,
      "grad_norm": 0.024873051568586855,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 7787
    },
    {
      "epoch": 2.01536,
      "grad_norm": 0.022817681963579455,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 7788
    },
    {
      "epoch": 2.0154133333333335,
      "grad_norm": 0.022919409501214207,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 7789
    },
    {
      "epoch": 2.0154666666666667,
      "grad_norm": 0.023763119428362917,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 7790
    },
    {
      "epoch": 2.01552,
      "grad_norm": 0.0252317904025397,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 7791
    },
    {
      "epoch": 2.015573333333333,
      "grad_norm": 0.026098715535086702,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 7792
    },
    {
      "epoch": 2.0156266666666665,
      "grad_norm": 0.02579829364852468,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 7793
    },
    {
      "epoch": 2.01568,
      "grad_norm": 0.024458187753327143,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 7794
    },
    {
      "epoch": 2.0157333333333334,
      "grad_norm": 0.025053516690854337,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 7795
    },
    {
      "epoch": 2.0157866666666666,
      "grad_norm": 0.025119026609636583,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 7796
    },
    {
      "epoch": 2.01584,
      "grad_norm": 0.028426881146423787,
      "learning_rate": 0.0001,
      "loss": 0.9318,
      "step": 7797
    },
    {
      "epoch": 2.0158933333333335,
      "grad_norm": 0.022855613872283305,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 7798
    },
    {
      "epoch": 2.0159466666666668,
      "grad_norm": 0.024693884841345604,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 7799
    },
    {
      "epoch": 2.016,
      "grad_norm": 0.023468010498468042,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 7800
    },
    {
      "epoch": 2.016,
      "eval_accuracy": 0.6197596856328245,
      "eval_loss": 1.3565471172332764,
      "eval_runtime": 62.1284,
      "eval_samples_per_second": 16.096,
      "eval_steps_per_second": 0.515,
      "step": 7800
    },
    {
      "epoch": 2.0160533333333333,
      "grad_norm": 0.0251571348868813,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 7801
    },
    {
      "epoch": 2.0161066666666665,
      "grad_norm": 0.025356457139282623,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 7802
    },
    {
      "epoch": 2.01616,
      "grad_norm": 0.02680850200001137,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 7803
    },
    {
      "epoch": 2.0162133333333334,
      "grad_norm": 0.022696119544082127,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 7804
    },
    {
      "epoch": 2.0162666666666667,
      "grad_norm": 0.023994829034769183,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 7805
    },
    {
      "epoch": 2.01632,
      "grad_norm": 0.024444329472249778,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 7806
    },
    {
      "epoch": 2.016373333333333,
      "grad_norm": 0.02549708057337077,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 7807
    },
    {
      "epoch": 2.016426666666667,
      "grad_norm": 0.022694424898128295,
      "learning_rate": 0.0001,
      "loss": 0.9132,
      "step": 7808
    },
    {
      "epoch": 2.01648,
      "grad_norm": 0.02492969187429229,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 7809
    },
    {
      "epoch": 2.0165333333333333,
      "grad_norm": 0.02472749254927329,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 7810
    },
    {
      "epoch": 2.0165866666666665,
      "grad_norm": 0.02398934924442949,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 7811
    },
    {
      "epoch": 2.01664,
      "grad_norm": 0.024581979444762717,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 7812
    },
    {
      "epoch": 2.0166933333333334,
      "grad_norm": 0.024258738399187255,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 7813
    },
    {
      "epoch": 2.0167466666666667,
      "grad_norm": 0.02936427772702437,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 7814
    },
    {
      "epoch": 2.0168,
      "grad_norm": 0.02454404547652295,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 7815
    },
    {
      "epoch": 2.016853333333333,
      "grad_norm": 0.02347327172498866,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 7816
    },
    {
      "epoch": 2.016906666666667,
      "grad_norm": 0.023656378203225515,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 7817
    },
    {
      "epoch": 2.01696,
      "grad_norm": 0.02335165336774691,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 7818
    },
    {
      "epoch": 2.0170133333333333,
      "grad_norm": 0.02524103446242449,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 7819
    },
    {
      "epoch": 2.0170666666666666,
      "grad_norm": 0.022847861701549888,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 7820
    },
    {
      "epoch": 2.01712,
      "grad_norm": 0.026666743991816372,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 7821
    },
    {
      "epoch": 2.0171733333333335,
      "grad_norm": 0.0241888578869528,
      "learning_rate": 0.0001,
      "loss": 0.9474,
      "step": 7822
    },
    {
      "epoch": 2.0172266666666667,
      "grad_norm": 0.024154092570197464,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 7823
    },
    {
      "epoch": 2.01728,
      "grad_norm": 0.02321874928290078,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 7824
    },
    {
      "epoch": 2.017333333333333,
      "grad_norm": 0.026456372010058467,
      "learning_rate": 0.0001,
      "loss": 1.0406,
      "step": 7825
    },
    {
      "epoch": 2.017386666666667,
      "grad_norm": 0.025334726293158163,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 7826
    },
    {
      "epoch": 2.01744,
      "grad_norm": 0.024924900127434466,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "step": 7827
    },
    {
      "epoch": 2.0174933333333334,
      "grad_norm": 0.025564884863018462,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 7828
    },
    {
      "epoch": 2.0175466666666666,
      "grad_norm": 0.02445092219448608,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "step": 7829
    },
    {
      "epoch": 2.0176,
      "grad_norm": 0.025633971329000374,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 7830
    },
    {
      "epoch": 2.0176533333333335,
      "grad_norm": 0.02382189813564951,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 7831
    },
    {
      "epoch": 2.0177066666666668,
      "grad_norm": 0.024299888898567882,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 7832
    },
    {
      "epoch": 2.01776,
      "grad_norm": 0.02415488016699578,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 7833
    },
    {
      "epoch": 2.0178133333333332,
      "grad_norm": 0.02473157351202445,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 7834
    },
    {
      "epoch": 2.0178666666666665,
      "grad_norm": 0.023528007500381,
      "learning_rate": 0.0001,
      "loss": 1.0373,
      "step": 7835
    },
    {
      "epoch": 2.01792,
      "grad_norm": 0.0262717441795999,
      "learning_rate": 0.0001,
      "loss": 0.9381,
      "step": 7836
    },
    {
      "epoch": 2.0179733333333334,
      "grad_norm": 0.03373829018916179,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 7837
    },
    {
      "epoch": 2.0180266666666666,
      "grad_norm": 0.024315155354553607,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 7838
    },
    {
      "epoch": 2.01808,
      "grad_norm": 0.02477947508822472,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 7839
    },
    {
      "epoch": 2.018133333333333,
      "grad_norm": 0.02333261255266493,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 7840
    },
    {
      "epoch": 2.018186666666667,
      "grad_norm": 0.02390740461695378,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 7841
    },
    {
      "epoch": 2.01824,
      "grad_norm": 0.02353630226830008,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 7842
    },
    {
      "epoch": 2.0182933333333333,
      "grad_norm": 0.02362563845062899,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 7843
    },
    {
      "epoch": 2.0183466666666665,
      "grad_norm": 0.02736964403598654,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 7844
    },
    {
      "epoch": 2.0184,
      "grad_norm": 0.024633442331318214,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 7845
    },
    {
      "epoch": 2.0184533333333334,
      "grad_norm": 0.024664031501412203,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 7846
    },
    {
      "epoch": 2.0185066666666667,
      "grad_norm": 0.025250084309105136,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 7847
    },
    {
      "epoch": 2.01856,
      "grad_norm": 0.0242526929089027,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 7848
    },
    {
      "epoch": 2.018613333333333,
      "grad_norm": 0.02662570821642361,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 7849
    },
    {
      "epoch": 2.018666666666667,
      "grad_norm": 0.025034009379861583,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 7850
    },
    {
      "epoch": 2.01872,
      "grad_norm": 0.025042317749126883,
      "learning_rate": 0.0001,
      "loss": 1.0451,
      "step": 7851
    },
    {
      "epoch": 2.0187733333333333,
      "grad_norm": 0.02368146656717006,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 7852
    },
    {
      "epoch": 2.0188266666666665,
      "grad_norm": 0.022599864860236324,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 7853
    },
    {
      "epoch": 2.01888,
      "grad_norm": 0.02349847226427718,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 7854
    },
    {
      "epoch": 2.0189333333333335,
      "grad_norm": 0.024165326659149874,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 7855
    },
    {
      "epoch": 2.0189866666666667,
      "grad_norm": 0.024748840589796605,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 7856
    },
    {
      "epoch": 2.01904,
      "grad_norm": 0.022409677709016654,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 7857
    },
    {
      "epoch": 2.019093333333333,
      "grad_norm": 0.023911241361680265,
      "learning_rate": 0.0001,
      "loss": 1.0381,
      "step": 7858
    },
    {
      "epoch": 2.019146666666667,
      "grad_norm": 0.02450374861310636,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 7859
    },
    {
      "epoch": 2.0192,
      "grad_norm": 0.023833504247207562,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 7860
    },
    {
      "epoch": 2.0192533333333333,
      "grad_norm": 0.02229276291814994,
      "learning_rate": 0.0001,
      "loss": 0.9022,
      "step": 7861
    },
    {
      "epoch": 2.0193066666666666,
      "grad_norm": 0.023561007061137236,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 7862
    },
    {
      "epoch": 2.01936,
      "grad_norm": 0.02557766416404529,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 7863
    },
    {
      "epoch": 2.0194133333333335,
      "grad_norm": 0.023525718476924452,
      "learning_rate": 0.0001,
      "loss": 1.029,
      "step": 7864
    },
    {
      "epoch": 2.0194666666666667,
      "grad_norm": 0.024895593573269467,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 7865
    },
    {
      "epoch": 2.01952,
      "grad_norm": 0.02381601343872044,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 7866
    },
    {
      "epoch": 2.019573333333333,
      "grad_norm": 0.02895612258277436,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 7867
    },
    {
      "epoch": 2.0196266666666665,
      "grad_norm": 0.023441040735339206,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 7868
    },
    {
      "epoch": 2.01968,
      "grad_norm": 0.023079013887247205,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 7869
    },
    {
      "epoch": 2.0197333333333334,
      "grad_norm": 0.02435004098499625,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 7870
    },
    {
      "epoch": 2.0197866666666666,
      "grad_norm": 0.025309262594777504,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 7871
    },
    {
      "epoch": 2.01984,
      "grad_norm": 0.025741830446286425,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 7872
    },
    {
      "epoch": 2.0198933333333335,
      "grad_norm": 0.02392325099632332,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 7873
    },
    {
      "epoch": 2.019946666666667,
      "grad_norm": 0.023162600049667866,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 7874
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.02247508252994981,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 7875
    },
    {
      "epoch": 2.0200533333333333,
      "grad_norm": 0.025518619782763808,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 7876
    },
    {
      "epoch": 2.0201066666666665,
      "grad_norm": 0.023539437272762212,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 7877
    },
    {
      "epoch": 2.02016,
      "grad_norm": 0.023274541171473682,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 7878
    },
    {
      "epoch": 2.0202133333333334,
      "grad_norm": 0.025230089925979977,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 7879
    },
    {
      "epoch": 2.0202666666666667,
      "grad_norm": 0.023932991497440964,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 7880
    },
    {
      "epoch": 2.02032,
      "grad_norm": 0.022501898107824884,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 7881
    },
    {
      "epoch": 2.020373333333333,
      "grad_norm": 0.024614730029694866,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 7882
    },
    {
      "epoch": 2.020426666666667,
      "grad_norm": 0.025163325659990785,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 7883
    },
    {
      "epoch": 2.02048,
      "grad_norm": 0.023175841690063013,
      "learning_rate": 0.0001,
      "loss": 1.0288,
      "step": 7884
    },
    {
      "epoch": 2.0205333333333333,
      "grad_norm": 0.023421065461819966,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 7885
    },
    {
      "epoch": 2.0205866666666665,
      "grad_norm": 0.026864154998011452,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 7886
    },
    {
      "epoch": 2.02064,
      "grad_norm": 0.02234309314942542,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 7887
    },
    {
      "epoch": 2.0206933333333335,
      "grad_norm": 0.024472391501410454,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 7888
    },
    {
      "epoch": 2.0207466666666667,
      "grad_norm": 0.02483502925703475,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 7889
    },
    {
      "epoch": 2.0208,
      "grad_norm": 0.025552463254968537,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 7890
    },
    {
      "epoch": 2.020853333333333,
      "grad_norm": 0.025152664168468734,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 7891
    },
    {
      "epoch": 2.020906666666667,
      "grad_norm": 0.025643714620154367,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 7892
    },
    {
      "epoch": 2.02096,
      "grad_norm": 0.025294006242216505,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 7893
    },
    {
      "epoch": 2.0210133333333333,
      "grad_norm": 0.023289293482551415,
      "learning_rate": 0.0001,
      "loss": 0.9749,
      "step": 7894
    },
    {
      "epoch": 2.0210666666666666,
      "grad_norm": 0.02451650716591503,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 7895
    },
    {
      "epoch": 2.02112,
      "grad_norm": 0.023927794653776913,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 7896
    },
    {
      "epoch": 2.0211733333333335,
      "grad_norm": 0.02326580224542906,
      "learning_rate": 0.0001,
      "loss": 0.9299,
      "step": 7897
    },
    {
      "epoch": 2.0212266666666667,
      "grad_norm": 0.0236074309192709,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 7898
    },
    {
      "epoch": 2.02128,
      "grad_norm": 0.02375442352394513,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 7899
    },
    {
      "epoch": 2.021333333333333,
      "grad_norm": 0.025122452451045493,
      "learning_rate": 0.0001,
      "loss": 0.9111,
      "step": 7900
    },
    {
      "epoch": 2.0213866666666664,
      "grad_norm": 0.024391677328214893,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 7901
    },
    {
      "epoch": 2.02144,
      "grad_norm": 0.024216391049495262,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 7902
    },
    {
      "epoch": 2.0214933333333334,
      "grad_norm": 0.0235536506705202,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 7903
    },
    {
      "epoch": 2.0215466666666666,
      "grad_norm": 0.024666184911352165,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 7904
    },
    {
      "epoch": 2.0216,
      "grad_norm": 0.022915562514636483,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 7905
    },
    {
      "epoch": 2.0216533333333335,
      "grad_norm": 0.023893722386499863,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 7906
    },
    {
      "epoch": 2.0217066666666668,
      "grad_norm": 0.02534345733799749,
      "learning_rate": 0.0001,
      "loss": 1.0494,
      "step": 7907
    },
    {
      "epoch": 2.02176,
      "grad_norm": 0.024045332609320708,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 7908
    },
    {
      "epoch": 2.0218133333333332,
      "grad_norm": 0.02505386864988418,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 7909
    },
    {
      "epoch": 2.0218666666666665,
      "grad_norm": 0.023005049448211797,
      "learning_rate": 0.0001,
      "loss": 0.9199,
      "step": 7910
    },
    {
      "epoch": 2.02192,
      "grad_norm": 0.024351896540911296,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 7911
    },
    {
      "epoch": 2.0219733333333334,
      "grad_norm": 0.024451406609457056,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 7912
    },
    {
      "epoch": 2.0220266666666666,
      "grad_norm": 0.023692260890789997,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 7913
    },
    {
      "epoch": 2.02208,
      "grad_norm": 0.02490760425710272,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 7914
    },
    {
      "epoch": 2.022133333333333,
      "grad_norm": 0.02304088714702246,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 7915
    },
    {
      "epoch": 2.022186666666667,
      "grad_norm": 0.02353972950445157,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 7916
    },
    {
      "epoch": 2.02224,
      "grad_norm": 0.02366092840927252,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 7917
    },
    {
      "epoch": 2.0222933333333333,
      "grad_norm": 0.025372238142308046,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 7918
    },
    {
      "epoch": 2.0223466666666665,
      "grad_norm": 0.024668668844054747,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 7919
    },
    {
      "epoch": 2.0224,
      "grad_norm": 0.023347164930813527,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 7920
    },
    {
      "epoch": 2.0224533333333334,
      "grad_norm": 0.025098348251342727,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 7921
    },
    {
      "epoch": 2.0225066666666667,
      "grad_norm": 0.02377714196683911,
      "learning_rate": 0.0001,
      "loss": 0.8824,
      "step": 7922
    },
    {
      "epoch": 2.02256,
      "grad_norm": 0.02444035324305177,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 7923
    },
    {
      "epoch": 2.022613333333333,
      "grad_norm": 0.023919092478027308,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 7924
    },
    {
      "epoch": 2.022666666666667,
      "grad_norm": 0.022816241178498196,
      "learning_rate": 0.0001,
      "loss": 0.9018,
      "step": 7925
    },
    {
      "epoch": 2.02272,
      "grad_norm": 0.024359132420992836,
      "learning_rate": 0.0001,
      "loss": 1.0194,
      "step": 7926
    },
    {
      "epoch": 2.0227733333333333,
      "grad_norm": 0.02596859440180148,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 7927
    },
    {
      "epoch": 2.0228266666666666,
      "grad_norm": 0.026523297088522576,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 7928
    },
    {
      "epoch": 2.02288,
      "grad_norm": 0.02424108421113289,
      "learning_rate": 0.0001,
      "loss": 0.9478,
      "step": 7929
    },
    {
      "epoch": 2.0229333333333335,
      "grad_norm": 0.025044066805689713,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 7930
    },
    {
      "epoch": 2.0229866666666667,
      "grad_norm": 0.0230951761691659,
      "learning_rate": 0.0001,
      "loss": 0.911,
      "step": 7931
    },
    {
      "epoch": 2.02304,
      "grad_norm": 0.023972523778282177,
      "learning_rate": 0.0001,
      "loss": 1.0008,
      "step": 7932
    },
    {
      "epoch": 2.023093333333333,
      "grad_norm": 0.024237723674052702,
      "learning_rate": 0.0001,
      "loss": 1.0379,
      "step": 7933
    },
    {
      "epoch": 2.023146666666667,
      "grad_norm": 0.024377569033784588,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 7934
    },
    {
      "epoch": 2.0232,
      "grad_norm": 0.023025195726625383,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 7935
    },
    {
      "epoch": 2.0232533333333333,
      "grad_norm": 0.023489611941045752,
      "learning_rate": 0.0001,
      "loss": 1.0402,
      "step": 7936
    },
    {
      "epoch": 2.0233066666666666,
      "grad_norm": 0.02328075047581385,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "step": 7937
    },
    {
      "epoch": 2.02336,
      "grad_norm": 0.024119706161540324,
      "learning_rate": 0.0001,
      "loss": 0.9021,
      "step": 7938
    },
    {
      "epoch": 2.0234133333333335,
      "grad_norm": 0.023748236851763277,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 7939
    },
    {
      "epoch": 2.0234666666666667,
      "grad_norm": 0.022402458690207776,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 7940
    },
    {
      "epoch": 2.02352,
      "grad_norm": 0.02525509075006049,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 7941
    },
    {
      "epoch": 2.0235733333333332,
      "grad_norm": 0.026450702252704534,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 7942
    },
    {
      "epoch": 2.0236266666666665,
      "grad_norm": 0.023140332214132527,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 7943
    },
    {
      "epoch": 2.02368,
      "grad_norm": 0.02245414260856878,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 7944
    },
    {
      "epoch": 2.0237333333333334,
      "grad_norm": 0.027149191513827237,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 7945
    },
    {
      "epoch": 2.0237866666666666,
      "grad_norm": 0.024807274936601672,
      "learning_rate": 0.0001,
      "loss": 0.9103,
      "step": 7946
    },
    {
      "epoch": 2.02384,
      "grad_norm": 0.02276839161799091,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 7947
    },
    {
      "epoch": 2.0238933333333335,
      "grad_norm": 0.025194055066349214,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 7948
    },
    {
      "epoch": 2.023946666666667,
      "grad_norm": 0.02335674247177156,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 7949
    },
    {
      "epoch": 2.024,
      "grad_norm": 0.024430833518157228,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 7950
    },
    {
      "epoch": 2.0240533333333333,
      "grad_norm": 0.024137834466232803,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 7951
    },
    {
      "epoch": 2.0241066666666665,
      "grad_norm": 0.02346997678331699,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 7952
    },
    {
      "epoch": 2.02416,
      "grad_norm": 0.02539682550219208,
      "learning_rate": 0.0001,
      "loss": 0.9246,
      "step": 7953
    },
    {
      "epoch": 2.0242133333333334,
      "grad_norm": 0.02403812847417352,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 7954
    },
    {
      "epoch": 2.0242666666666667,
      "grad_norm": 0.025609920817181994,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 7955
    },
    {
      "epoch": 2.02432,
      "grad_norm": 0.025123943116804714,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 7956
    },
    {
      "epoch": 2.024373333333333,
      "grad_norm": 0.02420631603485884,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 7957
    },
    {
      "epoch": 2.024426666666667,
      "grad_norm": 0.026666491642148397,
      "learning_rate": 0.0001,
      "loss": 0.919,
      "step": 7958
    },
    {
      "epoch": 2.02448,
      "grad_norm": 0.022798833453647367,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 7959
    },
    {
      "epoch": 2.0245333333333333,
      "grad_norm": 0.023840619097232583,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 7960
    },
    {
      "epoch": 2.0245866666666665,
      "grad_norm": 0.024644832531985877,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 7961
    },
    {
      "epoch": 2.02464,
      "grad_norm": 0.025910860648263853,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 7962
    },
    {
      "epoch": 2.0246933333333335,
      "grad_norm": 0.023774819493791146,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 7963
    },
    {
      "epoch": 2.0247466666666667,
      "grad_norm": 0.02543804181082035,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 7964
    },
    {
      "epoch": 2.0248,
      "grad_norm": 0.02313634379922884,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 7965
    },
    {
      "epoch": 2.024853333333333,
      "grad_norm": 0.025124155249087107,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 7966
    },
    {
      "epoch": 2.024906666666667,
      "grad_norm": 0.024058106233427943,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 7967
    },
    {
      "epoch": 2.02496,
      "grad_norm": 0.025310070471966414,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 7968
    },
    {
      "epoch": 2.0250133333333333,
      "grad_norm": 0.024104865282307337,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 7969
    },
    {
      "epoch": 2.0250666666666666,
      "grad_norm": 0.0240035325099551,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 7970
    },
    {
      "epoch": 2.02512,
      "grad_norm": 0.023718419933437703,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 7971
    },
    {
      "epoch": 2.0251733333333335,
      "grad_norm": 0.02282172148024709,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 7972
    },
    {
      "epoch": 2.0252266666666667,
      "grad_norm": 0.02589289559098086,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 7973
    },
    {
      "epoch": 2.02528,
      "grad_norm": 0.026240484499391713,
      "learning_rate": 0.0001,
      "loss": 1.0298,
      "step": 7974
    },
    {
      "epoch": 2.025333333333333,
      "grad_norm": 0.024952934990240358,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 7975
    },
    {
      "epoch": 2.0253866666666664,
      "grad_norm": 0.022745867462903455,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 7976
    },
    {
      "epoch": 2.02544,
      "grad_norm": 0.024186578508699454,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 7977
    },
    {
      "epoch": 2.0254933333333334,
      "grad_norm": 0.023841898500159324,
      "learning_rate": 0.0001,
      "loss": 0.9049,
      "step": 7978
    },
    {
      "epoch": 2.0255466666666666,
      "grad_norm": 0.023131467587635592,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 7979
    },
    {
      "epoch": 2.0256,
      "grad_norm": 0.02369101615370497,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 7980
    },
    {
      "epoch": 2.0256533333333335,
      "grad_norm": 0.023103183915673786,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 7981
    },
    {
      "epoch": 2.0257066666666668,
      "grad_norm": 0.022128645365729657,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 7982
    },
    {
      "epoch": 2.02576,
      "grad_norm": 0.02234847879493341,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 7983
    },
    {
      "epoch": 2.0258133333333332,
      "grad_norm": 0.024409083011020183,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 7984
    },
    {
      "epoch": 2.0258666666666665,
      "grad_norm": 0.022466632338158574,
      "learning_rate": 0.0001,
      "loss": 0.8947,
      "step": 7985
    },
    {
      "epoch": 2.02592,
      "grad_norm": 0.023634677972850824,
      "learning_rate": 0.0001,
      "loss": 0.8885,
      "step": 7986
    },
    {
      "epoch": 2.0259733333333334,
      "grad_norm": 0.02381282384074669,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 7987
    },
    {
      "epoch": 2.0260266666666666,
      "grad_norm": 0.027071517213182024,
      "learning_rate": 0.0001,
      "loss": 1.0229,
      "step": 7988
    },
    {
      "epoch": 2.02608,
      "grad_norm": 0.022803246510421805,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 7989
    },
    {
      "epoch": 2.026133333333333,
      "grad_norm": 0.023849438995904703,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 7990
    },
    {
      "epoch": 2.026186666666667,
      "grad_norm": 0.025717535274601567,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 7991
    },
    {
      "epoch": 2.02624,
      "grad_norm": 0.024810643050891274,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 7992
    },
    {
      "epoch": 2.0262933333333333,
      "grad_norm": 0.023543437877877313,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 7993
    },
    {
      "epoch": 2.0263466666666665,
      "grad_norm": 0.023265005714845254,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 7994
    },
    {
      "epoch": 2.0264,
      "grad_norm": 0.02479458389787547,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 7995
    },
    {
      "epoch": 2.0264533333333334,
      "grad_norm": 0.02660644099386114,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 7996
    },
    {
      "epoch": 2.0265066666666667,
      "grad_norm": 0.02452528491071179,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 7997
    },
    {
      "epoch": 2.02656,
      "grad_norm": 0.02602947063297615,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "step": 7998
    },
    {
      "epoch": 2.026613333333333,
      "grad_norm": 0.02368139956853229,
      "learning_rate": 0.0001,
      "loss": 0.8784,
      "step": 7999
    },
    {
      "epoch": 2.026666666666667,
      "grad_norm": 0.024722637103953952,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 8000
    },
    {
      "epoch": 2.026666666666667,
      "eval_accuracy": 0.6199182807508021,
      "eval_loss": 1.3556348085403442,
      "eval_runtime": 62.8646,
      "eval_samples_per_second": 15.907,
      "eval_steps_per_second": 0.509,
      "step": 8000
    },
    {
      "epoch": 2.02672,
      "grad_norm": 0.024659392223663226,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 8001
    },
    {
      "epoch": 2.0267733333333333,
      "grad_norm": 0.022861293973594304,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 8002
    },
    {
      "epoch": 2.0268266666666666,
      "grad_norm": 0.022899732944053404,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 8003
    },
    {
      "epoch": 2.02688,
      "grad_norm": 0.026135359207934375,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 8004
    },
    {
      "epoch": 2.0269333333333335,
      "grad_norm": 0.024062478125130064,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 8005
    },
    {
      "epoch": 2.0269866666666667,
      "grad_norm": 0.025265073721426654,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 8006
    },
    {
      "epoch": 2.02704,
      "grad_norm": 0.022248114223363345,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 8007
    },
    {
      "epoch": 2.027093333333333,
      "grad_norm": 0.02325802268032157,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 8008
    },
    {
      "epoch": 2.027146666666667,
      "grad_norm": 0.023792764287049996,
      "learning_rate": 0.0001,
      "loss": 0.9137,
      "step": 8009
    },
    {
      "epoch": 2.0272,
      "grad_norm": 0.024032572969902945,
      "learning_rate": 0.0001,
      "loss": 0.9096,
      "step": 8010
    },
    {
      "epoch": 2.0272533333333334,
      "grad_norm": 0.024029498697089317,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 8011
    },
    {
      "epoch": 2.0273066666666666,
      "grad_norm": 0.02596963138864555,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 8012
    },
    {
      "epoch": 2.02736,
      "grad_norm": 0.02408576579274703,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 8013
    },
    {
      "epoch": 2.0274133333333335,
      "grad_norm": 0.02329079036588869,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 8014
    },
    {
      "epoch": 2.0274666666666668,
      "grad_norm": 0.02289416157192789,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 8015
    },
    {
      "epoch": 2.02752,
      "grad_norm": 0.02553966067384454,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 8016
    },
    {
      "epoch": 2.0275733333333332,
      "grad_norm": 0.023902360039718826,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 8017
    },
    {
      "epoch": 2.0276266666666665,
      "grad_norm": 0.023302865596499512,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 8018
    },
    {
      "epoch": 2.02768,
      "grad_norm": 0.022871204042510796,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 8019
    },
    {
      "epoch": 2.0277333333333334,
      "grad_norm": 0.02604723940194063,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 8020
    },
    {
      "epoch": 2.0277866666666666,
      "grad_norm": 0.025144582483134337,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 8021
    },
    {
      "epoch": 2.02784,
      "grad_norm": 0.025629439232188553,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 8022
    },
    {
      "epoch": 2.0278933333333335,
      "grad_norm": 0.02490074471501576,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 8023
    },
    {
      "epoch": 2.027946666666667,
      "grad_norm": 0.023285128985770575,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 8024
    },
    {
      "epoch": 2.028,
      "grad_norm": 0.026584543876631582,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 8025
    },
    {
      "epoch": 2.0280533333333333,
      "grad_norm": 0.023340542295834047,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 8026
    },
    {
      "epoch": 2.0281066666666665,
      "grad_norm": 0.02340766579994511,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 8027
    },
    {
      "epoch": 2.02816,
      "grad_norm": 0.023349490758995693,
      "learning_rate": 0.0001,
      "loss": 0.8857,
      "step": 8028
    },
    {
      "epoch": 2.0282133333333334,
      "grad_norm": 0.02486401163259767,
      "learning_rate": 0.0001,
      "loss": 0.933,
      "step": 8029
    },
    {
      "epoch": 2.0282666666666667,
      "grad_norm": 0.025500397138290973,
      "learning_rate": 0.0001,
      "loss": 0.9714,
      "step": 8030
    },
    {
      "epoch": 2.02832,
      "grad_norm": 0.025375907570445777,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 8031
    },
    {
      "epoch": 2.028373333333333,
      "grad_norm": 0.024525310145260097,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 8032
    },
    {
      "epoch": 2.028426666666667,
      "grad_norm": 0.025239127680744176,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 8033
    },
    {
      "epoch": 2.02848,
      "grad_norm": 0.02314463193500334,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 8034
    },
    {
      "epoch": 2.0285333333333333,
      "grad_norm": 0.023350531677779035,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 8035
    },
    {
      "epoch": 2.0285866666666665,
      "grad_norm": 0.022530991471733135,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "step": 8036
    },
    {
      "epoch": 2.02864,
      "grad_norm": 0.023460788590354564,
      "learning_rate": 0.0001,
      "loss": 0.9043,
      "step": 8037
    },
    {
      "epoch": 2.0286933333333335,
      "grad_norm": 0.02322747619681044,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 8038
    },
    {
      "epoch": 2.0287466666666667,
      "grad_norm": 0.024748647214755164,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 8039
    },
    {
      "epoch": 2.0288,
      "grad_norm": 0.023031516373900558,
      "learning_rate": 0.0001,
      "loss": 1.0425,
      "step": 8040
    },
    {
      "epoch": 2.028853333333333,
      "grad_norm": 0.02353207895048163,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 8041
    },
    {
      "epoch": 2.028906666666667,
      "grad_norm": 0.024412201990495902,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 8042
    },
    {
      "epoch": 2.02896,
      "grad_norm": 0.025099637484185953,
      "learning_rate": 0.0001,
      "loss": 1.0307,
      "step": 8043
    },
    {
      "epoch": 2.0290133333333333,
      "grad_norm": 0.022499745029055558,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 8044
    },
    {
      "epoch": 2.0290666666666666,
      "grad_norm": 0.023551991409298475,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 8045
    },
    {
      "epoch": 2.02912,
      "grad_norm": 0.023231129436747988,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 8046
    },
    {
      "epoch": 2.0291733333333335,
      "grad_norm": 0.02265105449390041,
      "learning_rate": 0.0001,
      "loss": 0.9179,
      "step": 8047
    },
    {
      "epoch": 2.0292266666666667,
      "grad_norm": 0.024463024163364717,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 8048
    },
    {
      "epoch": 2.02928,
      "grad_norm": 0.025735373112397382,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 8049
    },
    {
      "epoch": 2.029333333333333,
      "grad_norm": 0.0234980159179394,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 8050
    },
    {
      "epoch": 2.0293866666666664,
      "grad_norm": 0.024185961114439682,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 8051
    },
    {
      "epoch": 2.02944,
      "grad_norm": 0.0250673756187648,
      "learning_rate": 0.0001,
      "loss": 1.003,
      "step": 8052
    },
    {
      "epoch": 2.0294933333333334,
      "grad_norm": 0.023086740213390078,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 8053
    },
    {
      "epoch": 2.0295466666666666,
      "grad_norm": 0.02704412834541974,
      "learning_rate": 0.0001,
      "loss": 0.9203,
      "step": 8054
    },
    {
      "epoch": 2.0296,
      "grad_norm": 0.024880471260936392,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 8055
    },
    {
      "epoch": 2.0296533333333335,
      "grad_norm": 0.02501488958705885,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 8056
    },
    {
      "epoch": 2.0297066666666668,
      "grad_norm": 0.0238433776027817,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 8057
    },
    {
      "epoch": 2.02976,
      "grad_norm": 0.024709651430535166,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 8058
    },
    {
      "epoch": 2.0298133333333332,
      "grad_norm": 0.02354701014722062,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 8059
    },
    {
      "epoch": 2.0298666666666665,
      "grad_norm": 0.02453480409816384,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 8060
    },
    {
      "epoch": 2.02992,
      "grad_norm": 0.023221152504762588,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 8061
    },
    {
      "epoch": 2.0299733333333334,
      "grad_norm": 0.022838857459045073,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 8062
    },
    {
      "epoch": 2.0300266666666666,
      "grad_norm": 0.02280548277186841,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 8063
    },
    {
      "epoch": 2.03008,
      "grad_norm": 0.022933941160837083,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 8064
    },
    {
      "epoch": 2.030133333333333,
      "grad_norm": 0.023180271095383828,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 8065
    },
    {
      "epoch": 2.030186666666667,
      "grad_norm": 0.02442734401848343,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 8066
    },
    {
      "epoch": 2.03024,
      "grad_norm": 0.022578541982410064,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 8067
    },
    {
      "epoch": 2.0302933333333333,
      "grad_norm": 0.023759964366544168,
      "learning_rate": 0.0001,
      "loss": 0.9358,
      "step": 8068
    },
    {
      "epoch": 2.0303466666666665,
      "grad_norm": 0.023191535752895943,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 8069
    },
    {
      "epoch": 2.0304,
      "grad_norm": 0.021958685433951054,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 8070
    },
    {
      "epoch": 2.0304533333333334,
      "grad_norm": 0.02310591916472175,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 8071
    },
    {
      "epoch": 2.0305066666666667,
      "grad_norm": 0.025175823397591657,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 8072
    },
    {
      "epoch": 2.03056,
      "grad_norm": 0.024291234983466005,
      "learning_rate": 0.0001,
      "loss": 1.0218,
      "step": 8073
    },
    {
      "epoch": 2.030613333333333,
      "grad_norm": 0.024520233605144378,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 8074
    },
    {
      "epoch": 2.030666666666667,
      "grad_norm": 0.02235844478110179,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 8075
    },
    {
      "epoch": 2.03072,
      "grad_norm": 0.023891368231163137,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 8076
    },
    {
      "epoch": 2.0307733333333333,
      "grad_norm": 0.02475895583752306,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 8077
    },
    {
      "epoch": 2.0308266666666666,
      "grad_norm": 0.024367730006083225,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 8078
    },
    {
      "epoch": 2.03088,
      "grad_norm": 0.02273326265253286,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 8079
    },
    {
      "epoch": 2.0309333333333335,
      "grad_norm": 0.02531345773029865,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 8080
    },
    {
      "epoch": 2.0309866666666667,
      "grad_norm": 0.023458639091767177,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 8081
    },
    {
      "epoch": 2.03104,
      "grad_norm": 0.0231876429984486,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 8082
    },
    {
      "epoch": 2.031093333333333,
      "grad_norm": 0.022767930524652723,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 8083
    },
    {
      "epoch": 2.031146666666667,
      "grad_norm": 0.024082942550010866,
      "learning_rate": 0.0001,
      "loss": 0.9305,
      "step": 8084
    },
    {
      "epoch": 2.0312,
      "grad_norm": 0.02219438977578442,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 8085
    },
    {
      "epoch": 2.0312533333333334,
      "grad_norm": 0.022416138541796506,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 8086
    },
    {
      "epoch": 2.0313066666666666,
      "grad_norm": 0.02322722580617558,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 8087
    },
    {
      "epoch": 2.03136,
      "grad_norm": 0.027153134198205184,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 8088
    },
    {
      "epoch": 2.0314133333333335,
      "grad_norm": 0.02497806735141356,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 8089
    },
    {
      "epoch": 2.0314666666666668,
      "grad_norm": 0.023907968585727815,
      "learning_rate": 0.0001,
      "loss": 0.9051,
      "step": 8090
    },
    {
      "epoch": 2.03152,
      "grad_norm": 0.022104186260600026,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 8091
    },
    {
      "epoch": 2.0315733333333332,
      "grad_norm": 0.02380525603579919,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 8092
    },
    {
      "epoch": 2.0316266666666665,
      "grad_norm": 0.025410693333429105,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 8093
    },
    {
      "epoch": 2.03168,
      "grad_norm": 0.02400837857523772,
      "learning_rate": 0.0001,
      "loss": 0.9138,
      "step": 8094
    },
    {
      "epoch": 2.0317333333333334,
      "grad_norm": 0.02343609897057897,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 8095
    },
    {
      "epoch": 2.0317866666666666,
      "grad_norm": 0.025912982887393774,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 8096
    },
    {
      "epoch": 2.03184,
      "grad_norm": 0.02627770629336953,
      "learning_rate": 0.0001,
      "loss": 0.9252,
      "step": 8097
    },
    {
      "epoch": 2.0318933333333336,
      "grad_norm": 0.024477884819314684,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "step": 8098
    },
    {
      "epoch": 2.031946666666667,
      "grad_norm": 0.025642781937712588,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 8099
    },
    {
      "epoch": 2.032,
      "grad_norm": 0.02482590859679831,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 8100
    },
    {
      "epoch": 2.0320533333333333,
      "grad_norm": 0.025236991795337862,
      "learning_rate": 0.0001,
      "loss": 0.9915,
      "step": 8101
    },
    {
      "epoch": 2.0321066666666665,
      "grad_norm": 0.023843214847274738,
      "learning_rate": 0.0001,
      "loss": 1.0054,
      "step": 8102
    },
    {
      "epoch": 2.03216,
      "grad_norm": 0.02397423078023519,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 8103
    },
    {
      "epoch": 2.0322133333333334,
      "grad_norm": 0.025286139969183323,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 8104
    },
    {
      "epoch": 2.0322666666666667,
      "grad_norm": 0.023781090668934083,
      "learning_rate": 0.0001,
      "loss": 1.0426,
      "step": 8105
    },
    {
      "epoch": 2.03232,
      "grad_norm": 0.025241937576972958,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 8106
    },
    {
      "epoch": 2.032373333333333,
      "grad_norm": 0.02409305254900028,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 8107
    },
    {
      "epoch": 2.032426666666667,
      "grad_norm": 0.024478268889393938,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 8108
    },
    {
      "epoch": 2.03248,
      "grad_norm": 0.025186450536486625,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 8109
    },
    {
      "epoch": 2.0325333333333333,
      "grad_norm": 0.023999259281080668,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 8110
    },
    {
      "epoch": 2.0325866666666665,
      "grad_norm": 0.023295760913093332,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 8111
    },
    {
      "epoch": 2.03264,
      "grad_norm": 0.024090232796824762,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 8112
    },
    {
      "epoch": 2.0326933333333335,
      "grad_norm": 0.023139508655673113,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 8113
    },
    {
      "epoch": 2.0327466666666667,
      "grad_norm": 0.02529411031922049,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 8114
    },
    {
      "epoch": 2.0328,
      "grad_norm": 0.02567702905069219,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 8115
    },
    {
      "epoch": 2.032853333333333,
      "grad_norm": 0.02531263903833639,
      "learning_rate": 0.0001,
      "loss": 0.9203,
      "step": 8116
    },
    {
      "epoch": 2.032906666666667,
      "grad_norm": 0.024464119803372757,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 8117
    },
    {
      "epoch": 2.03296,
      "grad_norm": 0.02457007462163014,
      "learning_rate": 0.0001,
      "loss": 1.0415,
      "step": 8118
    },
    {
      "epoch": 2.0330133333333333,
      "grad_norm": 0.02354942053437242,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 8119
    },
    {
      "epoch": 2.0330666666666666,
      "grad_norm": 0.022630877503577965,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 8120
    },
    {
      "epoch": 2.03312,
      "grad_norm": 0.023870369747483033,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 8121
    },
    {
      "epoch": 2.0331733333333335,
      "grad_norm": 0.024869256911464684,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 8122
    },
    {
      "epoch": 2.0332266666666667,
      "grad_norm": 0.024088388200445676,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 8123
    },
    {
      "epoch": 2.03328,
      "grad_norm": 0.024466251809650345,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 8124
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 0.024442441575898883,
      "learning_rate": 0.0001,
      "loss": 0.9295,
      "step": 8125
    },
    {
      "epoch": 2.0333866666666665,
      "grad_norm": 0.023749790504796284,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 8126
    },
    {
      "epoch": 2.03344,
      "grad_norm": 0.025994213336442775,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 8127
    },
    {
      "epoch": 2.0334933333333334,
      "grad_norm": 0.023129333493271224,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 8128
    },
    {
      "epoch": 2.0335466666666666,
      "grad_norm": 0.02958073283709273,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 8129
    },
    {
      "epoch": 2.0336,
      "grad_norm": 0.023781205046635952,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 8130
    },
    {
      "epoch": 2.0336533333333335,
      "grad_norm": 0.02452181638084983,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 8131
    },
    {
      "epoch": 2.0337066666666668,
      "grad_norm": 0.02415722995397385,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "step": 8132
    },
    {
      "epoch": 2.03376,
      "grad_norm": 0.023662521361589715,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 8133
    },
    {
      "epoch": 2.0338133333333333,
      "grad_norm": 0.023875763607243874,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 8134
    },
    {
      "epoch": 2.0338666666666665,
      "grad_norm": 0.024903184081924122,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 8135
    },
    {
      "epoch": 2.03392,
      "grad_norm": 0.024110119729811155,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 8136
    },
    {
      "epoch": 2.0339733333333334,
      "grad_norm": 0.02493526699347292,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 8137
    },
    {
      "epoch": 2.0340266666666666,
      "grad_norm": 0.023308752458018795,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 8138
    },
    {
      "epoch": 2.03408,
      "grad_norm": 0.024039083520765163,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 8139
    },
    {
      "epoch": 2.034133333333333,
      "grad_norm": 0.0224580492055837,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 8140
    },
    {
      "epoch": 2.034186666666667,
      "grad_norm": 0.02314995730006006,
      "learning_rate": 0.0001,
      "loss": 0.882,
      "step": 8141
    },
    {
      "epoch": 2.03424,
      "grad_norm": 0.022895238582581783,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 8142
    },
    {
      "epoch": 2.0342933333333333,
      "grad_norm": 0.023770474287613287,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 8143
    },
    {
      "epoch": 2.0343466666666665,
      "grad_norm": 0.024706953524512104,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 8144
    },
    {
      "epoch": 2.0344,
      "grad_norm": 0.02425754433752068,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 8145
    },
    {
      "epoch": 2.0344533333333334,
      "grad_norm": 0.02347009627762369,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 8146
    },
    {
      "epoch": 2.0345066666666667,
      "grad_norm": 0.02576786916327562,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 8147
    },
    {
      "epoch": 2.03456,
      "grad_norm": 0.023591134444017177,
      "learning_rate": 0.0001,
      "loss": 0.9225,
      "step": 8148
    },
    {
      "epoch": 2.034613333333333,
      "grad_norm": 0.02318062331670095,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 8149
    },
    {
      "epoch": 2.034666666666667,
      "grad_norm": 0.023932991018958398,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 8150
    },
    {
      "epoch": 2.03472,
      "grad_norm": 0.02220219833776582,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 8151
    },
    {
      "epoch": 2.0347733333333333,
      "grad_norm": 0.024542729744217697,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 8152
    },
    {
      "epoch": 2.0348266666666666,
      "grad_norm": 0.024563565530713257,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 8153
    },
    {
      "epoch": 2.03488,
      "grad_norm": 0.024535920500480167,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 8154
    },
    {
      "epoch": 2.0349333333333335,
      "grad_norm": 0.029919484800480428,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 8155
    },
    {
      "epoch": 2.0349866666666667,
      "grad_norm": 0.02409263356190623,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 8156
    },
    {
      "epoch": 2.03504,
      "grad_norm": 0.02340122589128723,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 8157
    },
    {
      "epoch": 2.035093333333333,
      "grad_norm": 0.02485984192920413,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 8158
    },
    {
      "epoch": 2.035146666666667,
      "grad_norm": 0.024020544847916735,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 8159
    },
    {
      "epoch": 2.0352,
      "grad_norm": 0.02210193533089827,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 8160
    },
    {
      "epoch": 2.0352533333333334,
      "grad_norm": 0.02403454144884848,
      "learning_rate": 0.0001,
      "loss": 0.9306,
      "step": 8161
    },
    {
      "epoch": 2.0353066666666666,
      "grad_norm": 0.02378807448416156,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 8162
    },
    {
      "epoch": 2.03536,
      "grad_norm": 0.023077049697633478,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 8163
    },
    {
      "epoch": 2.0354133333333335,
      "grad_norm": 0.026548911878352233,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 8164
    },
    {
      "epoch": 2.0354666666666668,
      "grad_norm": 0.024441473268205765,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 8165
    },
    {
      "epoch": 2.03552,
      "grad_norm": 0.02338833054886536,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 8166
    },
    {
      "epoch": 2.0355733333333332,
      "grad_norm": 0.024931882186156832,
      "learning_rate": 0.0001,
      "loss": 0.9047,
      "step": 8167
    },
    {
      "epoch": 2.0356266666666665,
      "grad_norm": 0.023668969823517103,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 8168
    },
    {
      "epoch": 2.03568,
      "grad_norm": 0.022645653140773873,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 8169
    },
    {
      "epoch": 2.0357333333333334,
      "grad_norm": 0.025302485551223473,
      "learning_rate": 0.0001,
      "loss": 0.9025,
      "step": 8170
    },
    {
      "epoch": 2.0357866666666666,
      "grad_norm": 0.024493511835427247,
      "learning_rate": 0.0001,
      "loss": 0.9976,
      "step": 8171
    },
    {
      "epoch": 2.03584,
      "grad_norm": 0.026884061905636785,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 8172
    },
    {
      "epoch": 2.035893333333333,
      "grad_norm": 0.025479618424794733,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "step": 8173
    },
    {
      "epoch": 2.035946666666667,
      "grad_norm": 0.02384097707264775,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 8174
    },
    {
      "epoch": 2.036,
      "grad_norm": 0.026010417170684544,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 8175
    },
    {
      "epoch": 2.0360533333333333,
      "grad_norm": 0.023632927291197335,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 8176
    },
    {
      "epoch": 2.0361066666666665,
      "grad_norm": 0.024822139859183683,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 8177
    },
    {
      "epoch": 2.03616,
      "grad_norm": 0.025443044673410346,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 8178
    },
    {
      "epoch": 2.0362133333333334,
      "grad_norm": 0.024591678636044504,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 8179
    },
    {
      "epoch": 2.0362666666666667,
      "grad_norm": 0.02392360745558734,
      "learning_rate": 0.0001,
      "loss": 1.0386,
      "step": 8180
    },
    {
      "epoch": 2.03632,
      "grad_norm": 0.02319434879428145,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 8181
    },
    {
      "epoch": 2.036373333333333,
      "grad_norm": 0.022579973563786812,
      "learning_rate": 0.0001,
      "loss": 0.8969,
      "step": 8182
    },
    {
      "epoch": 2.036426666666667,
      "grad_norm": 0.02662543712976329,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 8183
    },
    {
      "epoch": 2.03648,
      "grad_norm": 0.02506446290122741,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 8184
    },
    {
      "epoch": 2.0365333333333333,
      "grad_norm": 0.021973898260113416,
      "learning_rate": 0.0001,
      "loss": 0.9075,
      "step": 8185
    },
    {
      "epoch": 2.0365866666666665,
      "grad_norm": 0.025270961303640895,
      "learning_rate": 0.0001,
      "loss": 0.9154,
      "step": 8186
    },
    {
      "epoch": 2.03664,
      "grad_norm": 0.026203590072658257,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 8187
    },
    {
      "epoch": 2.0366933333333335,
      "grad_norm": 0.025003383578902055,
      "learning_rate": 0.0001,
      "loss": 0.9241,
      "step": 8188
    },
    {
      "epoch": 2.0367466666666667,
      "grad_norm": 0.022976967931329466,
      "learning_rate": 0.0001,
      "loss": 1.0172,
      "step": 8189
    },
    {
      "epoch": 2.0368,
      "grad_norm": 0.024329412658652252,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 8190
    },
    {
      "epoch": 2.036853333333333,
      "grad_norm": 0.02430830289655051,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 8191
    },
    {
      "epoch": 2.036906666666667,
      "grad_norm": 0.025184944651419756,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 8192
    },
    {
      "epoch": 2.03696,
      "grad_norm": 0.024087057398477083,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 8193
    },
    {
      "epoch": 2.0370133333333333,
      "grad_norm": 0.02212987293825814,
      "learning_rate": 0.0001,
      "loss": 0.9316,
      "step": 8194
    },
    {
      "epoch": 2.0370666666666666,
      "grad_norm": 0.02456874675988992,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 8195
    },
    {
      "epoch": 2.03712,
      "grad_norm": 0.024140414105535447,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 8196
    },
    {
      "epoch": 2.0371733333333335,
      "grad_norm": 0.02420599528160242,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 8197
    },
    {
      "epoch": 2.0372266666666667,
      "grad_norm": 0.024482609585986203,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 8198
    },
    {
      "epoch": 2.03728,
      "grad_norm": 0.026005428137747595,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 8199
    },
    {
      "epoch": 2.037333333333333,
      "grad_norm": 0.026270972496529325,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 8200
    },
    {
      "epoch": 2.037333333333333,
      "eval_accuracy": 0.6199105361909009,
      "eval_loss": 1.355011224746704,
      "eval_runtime": 62.1389,
      "eval_samples_per_second": 16.093,
      "eval_steps_per_second": 0.515,
      "step": 8200
    },
    {
      "epoch": 2.0373866666666665,
      "grad_norm": 0.024847093641220282,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 8201
    },
    {
      "epoch": 2.03744,
      "grad_norm": 0.025094637460726134,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 8202
    },
    {
      "epoch": 2.0374933333333334,
      "grad_norm": 0.02401710400578332,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 8203
    },
    {
      "epoch": 2.0375466666666666,
      "grad_norm": 0.023547243714695302,
      "learning_rate": 0.0001,
      "loss": 1.0311,
      "step": 8204
    },
    {
      "epoch": 2.0376,
      "grad_norm": 0.02378299117019038,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 8205
    },
    {
      "epoch": 2.0376533333333335,
      "grad_norm": 0.027876125762542416,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 8206
    },
    {
      "epoch": 2.0377066666666668,
      "grad_norm": 0.0233768682134617,
      "learning_rate": 0.0001,
      "loss": 1.0104,
      "step": 8207
    },
    {
      "epoch": 2.03776,
      "grad_norm": 0.024174262693989635,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 8208
    },
    {
      "epoch": 2.0378133333333333,
      "grad_norm": 0.02503178517338438,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 8209
    },
    {
      "epoch": 2.0378666666666665,
      "grad_norm": 0.023546919203003572,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 8210
    },
    {
      "epoch": 2.03792,
      "grad_norm": 0.025168802344189046,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 8211
    },
    {
      "epoch": 2.0379733333333334,
      "grad_norm": 0.026609517304576787,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 8212
    },
    {
      "epoch": 2.0380266666666667,
      "grad_norm": 0.024174694284547656,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 8213
    },
    {
      "epoch": 2.03808,
      "grad_norm": 0.022445054791362887,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 8214
    },
    {
      "epoch": 2.038133333333333,
      "grad_norm": 0.025528605780591577,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 8215
    },
    {
      "epoch": 2.038186666666667,
      "grad_norm": 0.026022382556049516,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 8216
    },
    {
      "epoch": 2.03824,
      "grad_norm": 0.02405373208633229,
      "learning_rate": 0.0001,
      "loss": 0.9047,
      "step": 8217
    },
    {
      "epoch": 2.0382933333333333,
      "grad_norm": 0.023995003969964183,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 8218
    },
    {
      "epoch": 2.0383466666666665,
      "grad_norm": 0.02286600346138888,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 8219
    },
    {
      "epoch": 2.0384,
      "grad_norm": 0.024473995825618742,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 8220
    },
    {
      "epoch": 2.0384533333333335,
      "grad_norm": 0.023708033733230965,
      "learning_rate": 0.0001,
      "loss": 0.8881,
      "step": 8221
    },
    {
      "epoch": 2.0385066666666667,
      "grad_norm": 0.02512642060017216,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 8222
    },
    {
      "epoch": 2.03856,
      "grad_norm": 0.022914036549359723,
      "learning_rate": 0.0001,
      "loss": 0.9381,
      "step": 8223
    },
    {
      "epoch": 2.038613333333333,
      "grad_norm": 0.024915440757237534,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 8224
    },
    {
      "epoch": 2.038666666666667,
      "grad_norm": 0.023854068001089454,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 8225
    },
    {
      "epoch": 2.03872,
      "grad_norm": 0.02424643504974266,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 8226
    },
    {
      "epoch": 2.0387733333333333,
      "grad_norm": 0.024578920418784084,
      "learning_rate": 0.0001,
      "loss": 1.0122,
      "step": 8227
    },
    {
      "epoch": 2.0388266666666666,
      "grad_norm": 0.024057859754681086,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 8228
    },
    {
      "epoch": 2.03888,
      "grad_norm": 0.032514861390601175,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 8229
    },
    {
      "epoch": 2.0389333333333335,
      "grad_norm": 0.025608167947144732,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 8230
    },
    {
      "epoch": 2.0389866666666667,
      "grad_norm": 0.024480903352214905,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 8231
    },
    {
      "epoch": 2.03904,
      "grad_norm": 0.023230764007621425,
      "learning_rate": 0.0001,
      "loss": 0.9326,
      "step": 8232
    },
    {
      "epoch": 2.039093333333333,
      "grad_norm": 0.02490073437669036,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 8233
    },
    {
      "epoch": 2.039146666666667,
      "grad_norm": 0.023785911050361392,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 8234
    },
    {
      "epoch": 2.0392,
      "grad_norm": 0.02569502591672558,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 8235
    },
    {
      "epoch": 2.0392533333333334,
      "grad_norm": 0.023598712539524495,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 8236
    },
    {
      "epoch": 2.0393066666666666,
      "grad_norm": 0.02433511010110625,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 8237
    },
    {
      "epoch": 2.03936,
      "grad_norm": 0.02357596686707142,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 8238
    },
    {
      "epoch": 2.0394133333333335,
      "grad_norm": 0.023544929019749705,
      "learning_rate": 0.0001,
      "loss": 0.9053,
      "step": 8239
    },
    {
      "epoch": 2.0394666666666668,
      "grad_norm": 0.024660417041703044,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 8240
    },
    {
      "epoch": 2.03952,
      "grad_norm": 0.0253036074909081,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 8241
    },
    {
      "epoch": 2.0395733333333332,
      "grad_norm": 0.02429693467623137,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 8242
    },
    {
      "epoch": 2.0396266666666665,
      "grad_norm": 0.023146478999579202,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 8243
    },
    {
      "epoch": 2.03968,
      "grad_norm": 0.023722755671239545,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 8244
    },
    {
      "epoch": 2.0397333333333334,
      "grad_norm": 0.023330026181413912,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 8245
    },
    {
      "epoch": 2.0397866666666666,
      "grad_norm": 0.02669691888213156,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 8246
    },
    {
      "epoch": 2.03984,
      "grad_norm": 0.02428118912576661,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 8247
    },
    {
      "epoch": 2.0398933333333336,
      "grad_norm": 0.024150396891521438,
      "learning_rate": 0.0001,
      "loss": 0.9086,
      "step": 8248
    },
    {
      "epoch": 2.039946666666667,
      "grad_norm": 0.024412920922706177,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 8249
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.024514226394923795,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 8250
    },
    {
      "epoch": 2.0400533333333333,
      "grad_norm": 0.024973146209598753,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 8251
    },
    {
      "epoch": 2.0401066666666665,
      "grad_norm": 0.02801368105142024,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 8252
    },
    {
      "epoch": 2.04016,
      "grad_norm": 0.022730982723696933,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 8253
    },
    {
      "epoch": 2.0402133333333334,
      "grad_norm": 0.023312299158414016,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 8254
    },
    {
      "epoch": 2.0402666666666667,
      "grad_norm": 0.028525738406681257,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 8255
    },
    {
      "epoch": 2.04032,
      "grad_norm": 0.024110223682678178,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 8256
    },
    {
      "epoch": 2.040373333333333,
      "grad_norm": 0.023418377520790595,
      "learning_rate": 0.0001,
      "loss": 0.8961,
      "step": 8257
    },
    {
      "epoch": 2.040426666666667,
      "grad_norm": 0.024281303477200287,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 8258
    },
    {
      "epoch": 2.04048,
      "grad_norm": 0.023833348205802428,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 8259
    },
    {
      "epoch": 2.0405333333333333,
      "grad_norm": 0.02328690707160039,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 8260
    },
    {
      "epoch": 2.0405866666666665,
      "grad_norm": 0.023396280969612437,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 8261
    },
    {
      "epoch": 2.04064,
      "grad_norm": 0.024045241385832337,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 8262
    },
    {
      "epoch": 2.0406933333333335,
      "grad_norm": 0.02525289894965787,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 8263
    },
    {
      "epoch": 2.0407466666666667,
      "grad_norm": 0.023997897756076275,
      "learning_rate": 0.0001,
      "loss": 1.0528,
      "step": 8264
    },
    {
      "epoch": 2.0408,
      "grad_norm": 0.022748701603452926,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 8265
    },
    {
      "epoch": 2.040853333333333,
      "grad_norm": 0.02304140727084967,
      "learning_rate": 0.0001,
      "loss": 1.0235,
      "step": 8266
    },
    {
      "epoch": 2.040906666666667,
      "grad_norm": 0.027228835948796687,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 8267
    },
    {
      "epoch": 2.04096,
      "grad_norm": 0.02514244231026783,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 8268
    },
    {
      "epoch": 2.0410133333333333,
      "grad_norm": 0.022945920018729672,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 8269
    },
    {
      "epoch": 2.0410666666666666,
      "grad_norm": 0.024887921255313188,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 8270
    },
    {
      "epoch": 2.04112,
      "grad_norm": 0.024124794991579115,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 8271
    },
    {
      "epoch": 2.0411733333333335,
      "grad_norm": 0.024964247097842965,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 8272
    },
    {
      "epoch": 2.0412266666666667,
      "grad_norm": 0.02472280138949202,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 8273
    },
    {
      "epoch": 2.04128,
      "grad_norm": 0.025127641644683542,
      "learning_rate": 0.0001,
      "loss": 1.0359,
      "step": 8274
    },
    {
      "epoch": 2.041333333333333,
      "grad_norm": 0.022392771121359182,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 8275
    },
    {
      "epoch": 2.0413866666666665,
      "grad_norm": 0.023801555081204684,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 8276
    },
    {
      "epoch": 2.04144,
      "grad_norm": 0.02360551849846162,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 8277
    },
    {
      "epoch": 2.0414933333333334,
      "grad_norm": 0.024951406579891585,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 8278
    },
    {
      "epoch": 2.0415466666666666,
      "grad_norm": 0.023320623694131144,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 8279
    },
    {
      "epoch": 2.0416,
      "grad_norm": 0.023801724357679462,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 8280
    },
    {
      "epoch": 2.0416533333333335,
      "grad_norm": 0.025302972995450045,
      "learning_rate": 0.0001,
      "loss": 0.8931,
      "step": 8281
    },
    {
      "epoch": 2.041706666666667,
      "grad_norm": 0.023367037053308195,
      "learning_rate": 0.0001,
      "loss": 0.9203,
      "step": 8282
    },
    {
      "epoch": 2.04176,
      "grad_norm": 0.02476769890182348,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 8283
    },
    {
      "epoch": 2.0418133333333333,
      "grad_norm": 0.025775879673301024,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 8284
    },
    {
      "epoch": 2.0418666666666665,
      "grad_norm": 0.024665501197894128,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 8285
    },
    {
      "epoch": 2.04192,
      "grad_norm": 0.023751531746033783,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 8286
    },
    {
      "epoch": 2.0419733333333334,
      "grad_norm": 0.027823219438635166,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 8287
    },
    {
      "epoch": 2.0420266666666667,
      "grad_norm": 0.02557964617978921,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 8288
    },
    {
      "epoch": 2.04208,
      "grad_norm": 0.024856498551004715,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 8289
    },
    {
      "epoch": 2.042133333333333,
      "grad_norm": 0.02708160201774127,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 8290
    },
    {
      "epoch": 2.042186666666667,
      "grad_norm": 0.024880181232783335,
      "learning_rate": 0.0001,
      "loss": 1.011,
      "step": 8291
    },
    {
      "epoch": 2.04224,
      "grad_norm": 0.027256323784938676,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 8292
    },
    {
      "epoch": 2.0422933333333333,
      "grad_norm": 0.02405569375359802,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 8293
    },
    {
      "epoch": 2.0423466666666665,
      "grad_norm": 0.023217884465226445,
      "learning_rate": 0.0001,
      "loss": 0.8783,
      "step": 8294
    },
    {
      "epoch": 2.0424,
      "grad_norm": 0.02522043487869211,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 8295
    },
    {
      "epoch": 2.0424533333333335,
      "grad_norm": 0.02478168321273395,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 8296
    },
    {
      "epoch": 2.0425066666666667,
      "grad_norm": 0.02505343791843233,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 8297
    },
    {
      "epoch": 2.04256,
      "grad_norm": 0.0237100213344843,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 8298
    },
    {
      "epoch": 2.042613333333333,
      "grad_norm": 0.025206974623708897,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 8299
    },
    {
      "epoch": 2.042666666666667,
      "grad_norm": 0.024494617993614503,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 8300
    },
    {
      "epoch": 2.04272,
      "grad_norm": 0.02410123237221811,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 8301
    },
    {
      "epoch": 2.0427733333333333,
      "grad_norm": 0.024721732682537297,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 8302
    },
    {
      "epoch": 2.0428266666666666,
      "grad_norm": 0.02506157087818249,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 8303
    },
    {
      "epoch": 2.04288,
      "grad_norm": 0.023617958329411756,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 8304
    },
    {
      "epoch": 2.0429333333333335,
      "grad_norm": 0.024022591685759806,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 8305
    },
    {
      "epoch": 2.0429866666666667,
      "grad_norm": 0.02452818138574137,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 8306
    },
    {
      "epoch": 2.04304,
      "grad_norm": 0.02406194073404527,
      "learning_rate": 0.0001,
      "loss": 1.0168,
      "step": 8307
    },
    {
      "epoch": 2.043093333333333,
      "grad_norm": 0.024858410958372993,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 8308
    },
    {
      "epoch": 2.043146666666667,
      "grad_norm": 0.023192855073449526,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 8309
    },
    {
      "epoch": 2.0432,
      "grad_norm": 0.02596549638779207,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 8310
    },
    {
      "epoch": 2.0432533333333334,
      "grad_norm": 0.02432887437117552,
      "learning_rate": 0.0001,
      "loss": 1.0319,
      "step": 8311
    },
    {
      "epoch": 2.0433066666666666,
      "grad_norm": 0.024542985858935232,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 8312
    },
    {
      "epoch": 2.04336,
      "grad_norm": 0.023583741984216262,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 8313
    },
    {
      "epoch": 2.0434133333333335,
      "grad_norm": 0.024650261734525575,
      "learning_rate": 0.0001,
      "loss": 0.9258,
      "step": 8314
    },
    {
      "epoch": 2.0434666666666668,
      "grad_norm": 0.02351322190059665,
      "learning_rate": 0.0001,
      "loss": 0.915,
      "step": 8315
    },
    {
      "epoch": 2.04352,
      "grad_norm": 0.026315028568976745,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 8316
    },
    {
      "epoch": 2.0435733333333332,
      "grad_norm": 0.02437344094423076,
      "learning_rate": 0.0001,
      "loss": 1.0435,
      "step": 8317
    },
    {
      "epoch": 2.0436266666666665,
      "grad_norm": 0.023502397052965574,
      "learning_rate": 0.0001,
      "loss": 1.0577,
      "step": 8318
    },
    {
      "epoch": 2.04368,
      "grad_norm": 0.027069390388107323,
      "learning_rate": 0.0001,
      "loss": 0.8981,
      "step": 8319
    },
    {
      "epoch": 2.0437333333333334,
      "grad_norm": 0.02296380559767404,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 8320
    },
    {
      "epoch": 2.0437866666666666,
      "grad_norm": 0.023928261106516805,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 8321
    },
    {
      "epoch": 2.04384,
      "grad_norm": 0.025052007632761223,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 8322
    },
    {
      "epoch": 2.043893333333333,
      "grad_norm": 0.023538648431042978,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 8323
    },
    {
      "epoch": 2.043946666666667,
      "grad_norm": 0.023893863956638884,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 8324
    },
    {
      "epoch": 2.044,
      "grad_norm": 0.023723245994561583,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 8325
    },
    {
      "epoch": 2.0440533333333333,
      "grad_norm": 0.0244380616412186,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 8326
    },
    {
      "epoch": 2.0441066666666665,
      "grad_norm": 0.02449484598903664,
      "learning_rate": 0.0001,
      "loss": 1.0392,
      "step": 8327
    },
    {
      "epoch": 2.04416,
      "grad_norm": 0.026046267496370512,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 8328
    },
    {
      "epoch": 2.0442133333333334,
      "grad_norm": 0.024890047987987645,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 8329
    },
    {
      "epoch": 2.0442666666666667,
      "grad_norm": 0.02357182376366761,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 8330
    },
    {
      "epoch": 2.04432,
      "grad_norm": 0.026204631316132442,
      "learning_rate": 0.0001,
      "loss": 0.9336,
      "step": 8331
    },
    {
      "epoch": 2.044373333333333,
      "grad_norm": 0.023350370641122963,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 8332
    },
    {
      "epoch": 2.044426666666667,
      "grad_norm": 0.025486924580944207,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 8333
    },
    {
      "epoch": 2.04448,
      "grad_norm": 0.024843613400933807,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 8334
    },
    {
      "epoch": 2.0445333333333333,
      "grad_norm": 0.023870216599912647,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 8335
    },
    {
      "epoch": 2.0445866666666666,
      "grad_norm": 0.023394223978694464,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 8336
    },
    {
      "epoch": 2.04464,
      "grad_norm": 0.023290036184255253,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 8337
    },
    {
      "epoch": 2.0446933333333335,
      "grad_norm": 0.024460144878222352,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 8338
    },
    {
      "epoch": 2.0447466666666667,
      "grad_norm": 0.023550484758926144,
      "learning_rate": 0.0001,
      "loss": 0.9329,
      "step": 8339
    },
    {
      "epoch": 2.0448,
      "grad_norm": 0.02308219167678731,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 8340
    },
    {
      "epoch": 2.044853333333333,
      "grad_norm": 0.023001011846248257,
      "learning_rate": 0.0001,
      "loss": 0.8991,
      "step": 8341
    },
    {
      "epoch": 2.044906666666667,
      "grad_norm": 0.0239919896594445,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 8342
    },
    {
      "epoch": 2.04496,
      "grad_norm": 0.023216393516131337,
      "learning_rate": 0.0001,
      "loss": 0.9455,
      "step": 8343
    },
    {
      "epoch": 2.0450133333333333,
      "grad_norm": 0.02307381283187026,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 8344
    },
    {
      "epoch": 2.0450666666666666,
      "grad_norm": 0.02413619874874679,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "step": 8345
    },
    {
      "epoch": 2.04512,
      "grad_norm": 0.024790609214379537,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 8346
    },
    {
      "epoch": 2.0451733333333335,
      "grad_norm": 0.02273146154031188,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 8347
    },
    {
      "epoch": 2.0452266666666667,
      "grad_norm": 0.023308630860083307,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 8348
    },
    {
      "epoch": 2.04528,
      "grad_norm": 0.02399397987561762,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 8349
    },
    {
      "epoch": 2.0453333333333332,
      "grad_norm": 0.023513878737514662,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 8350
    },
    {
      "epoch": 2.0453866666666665,
      "grad_norm": 0.024939116146124075,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 8351
    },
    {
      "epoch": 2.04544,
      "grad_norm": 0.024490301724183736,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 8352
    },
    {
      "epoch": 2.0454933333333334,
      "grad_norm": 0.02504168475183338,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 8353
    },
    {
      "epoch": 2.0455466666666666,
      "grad_norm": 0.024731934319790174,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 8354
    },
    {
      "epoch": 2.0456,
      "grad_norm": 0.024276507546159877,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 8355
    },
    {
      "epoch": 2.0456533333333335,
      "grad_norm": 0.02632376025413046,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 8356
    },
    {
      "epoch": 2.045706666666667,
      "grad_norm": 0.02427683714036793,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 8357
    },
    {
      "epoch": 2.04576,
      "grad_norm": 0.023979920829114074,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 8358
    },
    {
      "epoch": 2.0458133333333333,
      "grad_norm": 0.023956581785531186,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 8359
    },
    {
      "epoch": 2.0458666666666665,
      "grad_norm": 0.024200801501734006,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 8360
    },
    {
      "epoch": 2.04592,
      "grad_norm": 0.02268885624774619,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 8361
    },
    {
      "epoch": 2.0459733333333334,
      "grad_norm": 0.02532111299875472,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 8362
    },
    {
      "epoch": 2.0460266666666667,
      "grad_norm": 0.025190645888799105,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 8363
    },
    {
      "epoch": 2.04608,
      "grad_norm": 0.025195738637644318,
      "learning_rate": 0.0001,
      "loss": 0.9133,
      "step": 8364
    },
    {
      "epoch": 2.046133333333333,
      "grad_norm": 0.023814841348804315,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 8365
    },
    {
      "epoch": 2.046186666666667,
      "grad_norm": 0.026581409025627036,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 8366
    },
    {
      "epoch": 2.04624,
      "grad_norm": 0.027090726523197956,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 8367
    },
    {
      "epoch": 2.0462933333333333,
      "grad_norm": 0.025724759835653144,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 8368
    },
    {
      "epoch": 2.0463466666666665,
      "grad_norm": 0.026285915535535043,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 8369
    },
    {
      "epoch": 2.0464,
      "grad_norm": 0.024157821459116716,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 8370
    },
    {
      "epoch": 2.0464533333333335,
      "grad_norm": 0.026823437929175614,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 8371
    },
    {
      "epoch": 2.0465066666666667,
      "grad_norm": 0.02608454898342371,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 8372
    },
    {
      "epoch": 2.04656,
      "grad_norm": 0.02299662191399399,
      "learning_rate": 0.0001,
      "loss": 0.874,
      "step": 8373
    },
    {
      "epoch": 2.046613333333333,
      "grad_norm": 0.02424385520869442,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 8374
    },
    {
      "epoch": 2.046666666666667,
      "grad_norm": 0.02361153331769294,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 8375
    },
    {
      "epoch": 2.04672,
      "grad_norm": 0.025122577501318365,
      "learning_rate": 0.0001,
      "loss": 0.9173,
      "step": 8376
    },
    {
      "epoch": 2.0467733333333333,
      "grad_norm": 0.023754017523726814,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 8377
    },
    {
      "epoch": 2.0468266666666666,
      "grad_norm": 0.02368530458214477,
      "learning_rate": 0.0001,
      "loss": 0.9952,
      "step": 8378
    },
    {
      "epoch": 2.04688,
      "grad_norm": 0.02423573406740842,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 8379
    },
    {
      "epoch": 2.0469333333333335,
      "grad_norm": 0.02543073457777633,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 8380
    },
    {
      "epoch": 2.0469866666666667,
      "grad_norm": 0.025053711832638416,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 8381
    },
    {
      "epoch": 2.04704,
      "grad_norm": 0.023044286577448125,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 8382
    },
    {
      "epoch": 2.047093333333333,
      "grad_norm": 0.022339384918724736,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 8383
    },
    {
      "epoch": 2.0471466666666664,
      "grad_norm": 0.023377748393898036,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 8384
    },
    {
      "epoch": 2.0472,
      "grad_norm": 0.024373012217248913,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 8385
    },
    {
      "epoch": 2.0472533333333334,
      "grad_norm": 0.024812428776450658,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 8386
    },
    {
      "epoch": 2.0473066666666666,
      "grad_norm": 0.02992364500684635,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 8387
    },
    {
      "epoch": 2.04736,
      "grad_norm": 0.02349469967749091,
      "learning_rate": 0.0001,
      "loss": 1.0365,
      "step": 8388
    },
    {
      "epoch": 2.0474133333333335,
      "grad_norm": 0.023671670749879966,
      "learning_rate": 0.0001,
      "loss": 1.0131,
      "step": 8389
    },
    {
      "epoch": 2.0474666666666668,
      "grad_norm": 0.021430637404034263,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 8390
    },
    {
      "epoch": 2.04752,
      "grad_norm": 0.02283646356217962,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 8391
    },
    {
      "epoch": 2.0475733333333332,
      "grad_norm": 0.02428426387391749,
      "learning_rate": 0.0001,
      "loss": 1.0356,
      "step": 8392
    },
    {
      "epoch": 2.0476266666666665,
      "grad_norm": 0.024054143835475963,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "step": 8393
    },
    {
      "epoch": 2.04768,
      "grad_norm": 0.02221668774257396,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 8394
    },
    {
      "epoch": 2.0477333333333334,
      "grad_norm": 0.0234792271942179,
      "learning_rate": 0.0001,
      "loss": 0.9115,
      "step": 8395
    },
    {
      "epoch": 2.0477866666666666,
      "grad_norm": 0.02465450719069134,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 8396
    },
    {
      "epoch": 2.04784,
      "grad_norm": 0.022861051263987808,
      "learning_rate": 0.0001,
      "loss": 0.9116,
      "step": 8397
    },
    {
      "epoch": 2.047893333333333,
      "grad_norm": 0.02442861805480912,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 8398
    },
    {
      "epoch": 2.047946666666667,
      "grad_norm": 0.023250693255655454,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 8399
    },
    {
      "epoch": 2.048,
      "grad_norm": 0.024167950855825487,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 8400
    },
    {
      "epoch": 2.048,
      "eval_accuracy": 0.6200948567165504,
      "eval_loss": 1.3544318675994873,
      "eval_runtime": 63.1685,
      "eval_samples_per_second": 15.831,
      "eval_steps_per_second": 0.507,
      "step": 8400
    },
    {
      "epoch": 2.0480533333333333,
      "grad_norm": 0.025495009082221645,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 8401
    },
    {
      "epoch": 2.0481066666666665,
      "grad_norm": 0.023362168206390158,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 8402
    },
    {
      "epoch": 2.04816,
      "grad_norm": 0.02404254573629022,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 8403
    },
    {
      "epoch": 2.0482133333333334,
      "grad_norm": 0.02462031866491078,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 8404
    },
    {
      "epoch": 2.0482666666666667,
      "grad_norm": 0.02408816327280215,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 8405
    },
    {
      "epoch": 2.04832,
      "grad_norm": 0.024238201541644345,
      "learning_rate": 0.0001,
      "loss": 0.9154,
      "step": 8406
    },
    {
      "epoch": 2.048373333333333,
      "grad_norm": 0.02414117375915966,
      "learning_rate": 0.0001,
      "loss": 0.9118,
      "step": 8407
    },
    {
      "epoch": 2.048426666666667,
      "grad_norm": 0.025214741728821592,
      "learning_rate": 0.0001,
      "loss": 0.8956,
      "step": 8408
    },
    {
      "epoch": 2.04848,
      "grad_norm": 0.022871065314200772,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 8409
    },
    {
      "epoch": 2.0485333333333333,
      "grad_norm": 0.022443888671352313,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 8410
    },
    {
      "epoch": 2.0485866666666666,
      "grad_norm": 0.023134909113309718,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 8411
    },
    {
      "epoch": 2.04864,
      "grad_norm": 0.025941130968632223,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 8412
    },
    {
      "epoch": 2.0486933333333335,
      "grad_norm": 0.02377506900207078,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 8413
    },
    {
      "epoch": 2.0487466666666667,
      "grad_norm": 0.023815469098749317,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 8414
    },
    {
      "epoch": 2.0488,
      "grad_norm": 0.025535785030679162,
      "learning_rate": 0.0001,
      "loss": 1.0558,
      "step": 8415
    },
    {
      "epoch": 2.048853333333333,
      "grad_norm": 0.023688016347798865,
      "learning_rate": 0.0001,
      "loss": 1.0318,
      "step": 8416
    },
    {
      "epoch": 2.048906666666667,
      "grad_norm": 0.02470567613157876,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 8417
    },
    {
      "epoch": 2.04896,
      "grad_norm": 0.023021795157169733,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 8418
    },
    {
      "epoch": 2.0490133333333334,
      "grad_norm": 0.02318502482278817,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 8419
    },
    {
      "epoch": 2.0490666666666666,
      "grad_norm": 0.02608972828662113,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 8420
    },
    {
      "epoch": 2.04912,
      "grad_norm": 0.023987510445770504,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 8421
    },
    {
      "epoch": 2.0491733333333335,
      "grad_norm": 0.02379588537477164,
      "learning_rate": 0.0001,
      "loss": 0.9242,
      "step": 8422
    },
    {
      "epoch": 2.0492266666666668,
      "grad_norm": 0.0229927479507711,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 8423
    },
    {
      "epoch": 2.04928,
      "grad_norm": 0.02562484325600069,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 8424
    },
    {
      "epoch": 2.0493333333333332,
      "grad_norm": 0.023915043111898897,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 8425
    },
    {
      "epoch": 2.0493866666666665,
      "grad_norm": 0.023979463611492342,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 8426
    },
    {
      "epoch": 2.04944,
      "grad_norm": 0.024152082100918938,
      "learning_rate": 0.0001,
      "loss": 0.9381,
      "step": 8427
    },
    {
      "epoch": 2.0494933333333334,
      "grad_norm": 0.023038810499567904,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 8428
    },
    {
      "epoch": 2.0495466666666666,
      "grad_norm": 0.024119315599077068,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 8429
    },
    {
      "epoch": 2.0496,
      "grad_norm": 0.025534199484723706,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 8430
    },
    {
      "epoch": 2.0496533333333335,
      "grad_norm": 0.02449542744493621,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 8431
    },
    {
      "epoch": 2.049706666666667,
      "grad_norm": 0.0241734536922655,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 8432
    },
    {
      "epoch": 2.04976,
      "grad_norm": 0.02246526238067437,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 8433
    },
    {
      "epoch": 2.0498133333333333,
      "grad_norm": 0.026919979618320395,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 8434
    },
    {
      "epoch": 2.0498666666666665,
      "grad_norm": 0.023747028771723702,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 8435
    },
    {
      "epoch": 2.04992,
      "grad_norm": 0.023472888451776183,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 8436
    },
    {
      "epoch": 2.0499733333333334,
      "grad_norm": 0.023871834004648505,
      "learning_rate": 0.0001,
      "loss": 0.8945,
      "step": 8437
    },
    {
      "epoch": 2.0500266666666667,
      "grad_norm": 0.02529684438904812,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 8438
    },
    {
      "epoch": 2.05008,
      "grad_norm": 0.027347968128024508,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 8439
    },
    {
      "epoch": 2.050133333333333,
      "grad_norm": 0.025656259171989777,
      "learning_rate": 0.0001,
      "loss": 0.9478,
      "step": 8440
    },
    {
      "epoch": 2.050186666666667,
      "grad_norm": 0.02650207112019332,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 8441
    },
    {
      "epoch": 2.05024,
      "grad_norm": 0.023244334234396882,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 8442
    },
    {
      "epoch": 2.0502933333333333,
      "grad_norm": 0.025052103066887817,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 8443
    },
    {
      "epoch": 2.0503466666666665,
      "grad_norm": 0.025175692684982893,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 8444
    },
    {
      "epoch": 2.0504,
      "grad_norm": 0.024828706737848014,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "step": 8445
    },
    {
      "epoch": 2.0504533333333335,
      "grad_norm": 0.025771915752377087,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 8446
    },
    {
      "epoch": 2.0505066666666667,
      "grad_norm": 0.023643194250613727,
      "learning_rate": 0.0001,
      "loss": 0.9298,
      "step": 8447
    },
    {
      "epoch": 2.05056,
      "grad_norm": 0.025276752830712346,
      "learning_rate": 0.0001,
      "loss": 0.9912,
      "step": 8448
    },
    {
      "epoch": 2.050613333333333,
      "grad_norm": 0.02535174657466438,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 8449
    },
    {
      "epoch": 2.050666666666667,
      "grad_norm": 0.023835571624602505,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 8450
    },
    {
      "epoch": 2.05072,
      "grad_norm": 0.023800808171546277,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 8451
    },
    {
      "epoch": 2.0507733333333333,
      "grad_norm": 0.02473069807776994,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 8452
    },
    {
      "epoch": 2.0508266666666666,
      "grad_norm": 0.02579875878455254,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 8453
    },
    {
      "epoch": 2.05088,
      "grad_norm": 0.02351742364143467,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 8454
    },
    {
      "epoch": 2.0509333333333335,
      "grad_norm": 0.02484436773729363,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 8455
    },
    {
      "epoch": 2.0509866666666667,
      "grad_norm": 0.02749834412498313,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 8456
    },
    {
      "epoch": 2.05104,
      "grad_norm": 0.022687192424785646,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 8457
    },
    {
      "epoch": 2.051093333333333,
      "grad_norm": 0.025024482665046543,
      "learning_rate": 0.0001,
      "loss": 0.8819,
      "step": 8458
    },
    {
      "epoch": 2.0511466666666665,
      "grad_norm": 0.02394254122507677,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 8459
    },
    {
      "epoch": 2.0512,
      "grad_norm": 0.02712250204268525,
      "learning_rate": 0.0001,
      "loss": 1.0287,
      "step": 8460
    },
    {
      "epoch": 2.0512533333333334,
      "grad_norm": 0.024575707962022783,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 8461
    },
    {
      "epoch": 2.0513066666666666,
      "grad_norm": 0.023875347588390872,
      "learning_rate": 0.0001,
      "loss": 0.9174,
      "step": 8462
    },
    {
      "epoch": 2.05136,
      "grad_norm": 0.025188838928527423,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 8463
    },
    {
      "epoch": 2.0514133333333335,
      "grad_norm": 0.0239247578238391,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 8464
    },
    {
      "epoch": 2.0514666666666668,
      "grad_norm": 0.02347867504208327,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 8465
    },
    {
      "epoch": 2.05152,
      "grad_norm": 0.023761854826481233,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 8466
    },
    {
      "epoch": 2.0515733333333332,
      "grad_norm": 0.022730701285689468,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 8467
    },
    {
      "epoch": 2.0516266666666665,
      "grad_norm": 0.024956560746023024,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 8468
    },
    {
      "epoch": 2.05168,
      "grad_norm": 0.022713404249666988,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 8469
    },
    {
      "epoch": 2.0517333333333334,
      "grad_norm": 0.0278798604866939,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 8470
    },
    {
      "epoch": 2.0517866666666666,
      "grad_norm": 0.024224110805477754,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 8471
    },
    {
      "epoch": 2.05184,
      "grad_norm": 0.023789599290545037,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 8472
    },
    {
      "epoch": 2.051893333333333,
      "grad_norm": 0.02477845351572029,
      "learning_rate": 0.0001,
      "loss": 1.0203,
      "step": 8473
    },
    {
      "epoch": 2.051946666666667,
      "grad_norm": 0.02562746733012866,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 8474
    },
    {
      "epoch": 2.052,
      "grad_norm": 0.024129734236192094,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 8475
    },
    {
      "epoch": 2.0520533333333333,
      "grad_norm": 0.023830890670433272,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 8476
    },
    {
      "epoch": 2.0521066666666665,
      "grad_norm": 0.024542614614862027,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 8477
    },
    {
      "epoch": 2.05216,
      "grad_norm": 0.025882096520938647,
      "learning_rate": 0.0001,
      "loss": 0.8755,
      "step": 8478
    },
    {
      "epoch": 2.0522133333333334,
      "grad_norm": 0.023737659371056888,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 8479
    },
    {
      "epoch": 2.0522666666666667,
      "grad_norm": 0.025297996079937473,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 8480
    },
    {
      "epoch": 2.05232,
      "grad_norm": 0.02413402439807666,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 8481
    },
    {
      "epoch": 2.052373333333333,
      "grad_norm": 0.023585509141916802,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 8482
    },
    {
      "epoch": 2.052426666666667,
      "grad_norm": 0.024602816272159222,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 8483
    },
    {
      "epoch": 2.05248,
      "grad_norm": 0.022401995066225863,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 8484
    },
    {
      "epoch": 2.0525333333333333,
      "grad_norm": 0.02326246421274619,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 8485
    },
    {
      "epoch": 2.0525866666666666,
      "grad_norm": 0.022581669813590128,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 8486
    },
    {
      "epoch": 2.05264,
      "grad_norm": 0.02357175775155609,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 8487
    },
    {
      "epoch": 2.0526933333333335,
      "grad_norm": 0.023236509280216762,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 8488
    },
    {
      "epoch": 2.0527466666666667,
      "grad_norm": 0.024261338500348558,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 8489
    },
    {
      "epoch": 2.0528,
      "grad_norm": 0.02517254121424348,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 8490
    },
    {
      "epoch": 2.052853333333333,
      "grad_norm": 0.023042992036515997,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 8491
    },
    {
      "epoch": 2.052906666666667,
      "grad_norm": 0.022954378096417274,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 8492
    },
    {
      "epoch": 2.05296,
      "grad_norm": 0.022091728561536874,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 8493
    },
    {
      "epoch": 2.0530133333333334,
      "grad_norm": 0.025436752366713694,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 8494
    },
    {
      "epoch": 2.0530666666666666,
      "grad_norm": 0.023518869095167108,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 8495
    },
    {
      "epoch": 2.05312,
      "grad_norm": 0.023200057852588236,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 8496
    },
    {
      "epoch": 2.0531733333333335,
      "grad_norm": 0.023936663884044234,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 8497
    },
    {
      "epoch": 2.0532266666666668,
      "grad_norm": 0.026163151772704955,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 8498
    },
    {
      "epoch": 2.05328,
      "grad_norm": 0.02443059234214081,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 8499
    },
    {
      "epoch": 2.0533333333333332,
      "grad_norm": 0.02328415867442555,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 8500
    },
    {
      "epoch": 2.0533866666666665,
      "grad_norm": 0.02518741599797472,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 8501
    },
    {
      "epoch": 2.05344,
      "grad_norm": 0.023914530595811452,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 8502
    },
    {
      "epoch": 2.0534933333333334,
      "grad_norm": 0.025705357793850674,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 8503
    },
    {
      "epoch": 2.0535466666666666,
      "grad_norm": 0.024893829200861996,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 8504
    },
    {
      "epoch": 2.0536,
      "grad_norm": 0.023512136699346185,
      "learning_rate": 0.0001,
      "loss": 1.054,
      "step": 8505
    },
    {
      "epoch": 2.053653333333333,
      "grad_norm": 0.02499680947847467,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 8506
    },
    {
      "epoch": 2.053706666666667,
      "grad_norm": 0.025056907545693938,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 8507
    },
    {
      "epoch": 2.05376,
      "grad_norm": 0.024109345129045046,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 8508
    },
    {
      "epoch": 2.0538133333333333,
      "grad_norm": 0.02492048965809326,
      "learning_rate": 0.0001,
      "loss": 1.0383,
      "step": 8509
    },
    {
      "epoch": 2.0538666666666665,
      "grad_norm": 0.02566281609627631,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 8510
    },
    {
      "epoch": 2.05392,
      "grad_norm": 0.025045820442097414,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 8511
    },
    {
      "epoch": 2.0539733333333334,
      "grad_norm": 0.025503495628991308,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 8512
    },
    {
      "epoch": 2.0540266666666667,
      "grad_norm": 0.023453638356563555,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "step": 8513
    },
    {
      "epoch": 2.05408,
      "grad_norm": 0.024701898851048558,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 8514
    },
    {
      "epoch": 2.054133333333333,
      "grad_norm": 0.02345071521190681,
      "learning_rate": 0.0001,
      "loss": 1.0132,
      "step": 8515
    },
    {
      "epoch": 2.054186666666667,
      "grad_norm": 0.024247861071009832,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 8516
    },
    {
      "epoch": 2.05424,
      "grad_norm": 0.02407855365167048,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 8517
    },
    {
      "epoch": 2.0542933333333333,
      "grad_norm": 0.026455684000380158,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 8518
    },
    {
      "epoch": 2.0543466666666665,
      "grad_norm": 0.023934307072158028,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 8519
    },
    {
      "epoch": 2.0544,
      "grad_norm": 0.023517968085976254,
      "learning_rate": 0.0001,
      "loss": 1.0056,
      "step": 8520
    },
    {
      "epoch": 2.0544533333333335,
      "grad_norm": 0.024470479240002507,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "step": 8521
    },
    {
      "epoch": 2.0545066666666667,
      "grad_norm": 0.02446755536682546,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 8522
    },
    {
      "epoch": 2.05456,
      "grad_norm": 0.023975237840824528,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 8523
    },
    {
      "epoch": 2.054613333333333,
      "grad_norm": 0.02514727541128734,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 8524
    },
    {
      "epoch": 2.054666666666667,
      "grad_norm": 0.02647466001655416,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 8525
    },
    {
      "epoch": 2.05472,
      "grad_norm": 0.024307578258316892,
      "learning_rate": 0.0001,
      "loss": 1.0419,
      "step": 8526
    },
    {
      "epoch": 2.0547733333333333,
      "grad_norm": 0.025079077762824913,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 8527
    },
    {
      "epoch": 2.0548266666666666,
      "grad_norm": 0.023411875289271255,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "step": 8528
    },
    {
      "epoch": 2.05488,
      "grad_norm": 0.024913450074321407,
      "learning_rate": 0.0001,
      "loss": 0.9036,
      "step": 8529
    },
    {
      "epoch": 2.0549333333333335,
      "grad_norm": 0.02563557850832246,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 8530
    },
    {
      "epoch": 2.0549866666666667,
      "grad_norm": 0.024044932588738386,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 8531
    },
    {
      "epoch": 2.05504,
      "grad_norm": 0.02382531420631192,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 8532
    },
    {
      "epoch": 2.055093333333333,
      "grad_norm": 0.024383651351407454,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 8533
    },
    {
      "epoch": 2.0551466666666665,
      "grad_norm": 0.023797666010495325,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 8534
    },
    {
      "epoch": 2.0552,
      "grad_norm": 0.024966640369915,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 8535
    },
    {
      "epoch": 2.0552533333333334,
      "grad_norm": 0.02260304714144289,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 8536
    },
    {
      "epoch": 2.0553066666666666,
      "grad_norm": 0.023572351090767045,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 8537
    },
    {
      "epoch": 2.05536,
      "grad_norm": 0.02267074826932176,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 8538
    },
    {
      "epoch": 2.0554133333333335,
      "grad_norm": 0.02344670128944215,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 8539
    },
    {
      "epoch": 2.0554666666666668,
      "grad_norm": 0.024453672369441525,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 8540
    },
    {
      "epoch": 2.05552,
      "grad_norm": 0.02391842800393837,
      "learning_rate": 0.0001,
      "loss": 1.0252,
      "step": 8541
    },
    {
      "epoch": 2.0555733333333333,
      "grad_norm": 0.024238656146118347,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 8542
    },
    {
      "epoch": 2.0556266666666665,
      "grad_norm": 0.024390215916058475,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 8543
    },
    {
      "epoch": 2.05568,
      "grad_norm": 0.023685049323954887,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 8544
    },
    {
      "epoch": 2.0557333333333334,
      "grad_norm": 0.02388536538797593,
      "learning_rate": 0.0001,
      "loss": 1.019,
      "step": 8545
    },
    {
      "epoch": 2.0557866666666667,
      "grad_norm": 0.02340644615997405,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 8546
    },
    {
      "epoch": 2.05584,
      "grad_norm": 0.0234290253528718,
      "learning_rate": 0.0001,
      "loss": 1.0234,
      "step": 8547
    },
    {
      "epoch": 2.055893333333333,
      "grad_norm": 0.024916417692340705,
      "learning_rate": 0.0001,
      "loss": 0.9179,
      "step": 8548
    },
    {
      "epoch": 2.055946666666667,
      "grad_norm": 0.023756411330342682,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 8549
    },
    {
      "epoch": 2.056,
      "grad_norm": 0.025340367413955216,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 8550
    },
    {
      "epoch": 2.0560533333333333,
      "grad_norm": 0.02398457686398911,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 8551
    },
    {
      "epoch": 2.0561066666666665,
      "grad_norm": 0.024176627227470906,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 8552
    },
    {
      "epoch": 2.05616,
      "grad_norm": 0.02432796790480192,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 8553
    },
    {
      "epoch": 2.0562133333333334,
      "grad_norm": 0.02635192172466289,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 8554
    },
    {
      "epoch": 2.0562666666666667,
      "grad_norm": 0.022818395237949297,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 8555
    },
    {
      "epoch": 2.05632,
      "grad_norm": 0.02353114266829824,
      "learning_rate": 0.0001,
      "loss": 0.9033,
      "step": 8556
    },
    {
      "epoch": 2.056373333333333,
      "grad_norm": 0.024923585045049806,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 8557
    },
    {
      "epoch": 2.056426666666667,
      "grad_norm": 0.0236217263271811,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 8558
    },
    {
      "epoch": 2.05648,
      "grad_norm": 0.02341096581978196,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 8559
    },
    {
      "epoch": 2.0565333333333333,
      "grad_norm": 0.023236319401021412,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 8560
    },
    {
      "epoch": 2.0565866666666666,
      "grad_norm": 0.023456254887689307,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 8561
    },
    {
      "epoch": 2.05664,
      "grad_norm": 0.022895089412186945,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 8562
    },
    {
      "epoch": 2.0566933333333335,
      "grad_norm": 0.02345071044018461,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 8563
    },
    {
      "epoch": 2.0567466666666667,
      "grad_norm": 0.022436406644812806,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 8564
    },
    {
      "epoch": 2.0568,
      "grad_norm": 0.024085892054973697,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 8565
    },
    {
      "epoch": 2.056853333333333,
      "grad_norm": 0.022616263966097852,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 8566
    },
    {
      "epoch": 2.056906666666667,
      "grad_norm": 0.024201146083298302,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "step": 8567
    },
    {
      "epoch": 2.05696,
      "grad_norm": 0.026097313135763404,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 8568
    },
    {
      "epoch": 2.0570133333333334,
      "grad_norm": 0.024838634921838267,
      "learning_rate": 0.0001,
      "loss": 1.008,
      "step": 8569
    },
    {
      "epoch": 2.0570666666666666,
      "grad_norm": 0.02297562088612933,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 8570
    },
    {
      "epoch": 2.05712,
      "grad_norm": 0.025400453560053052,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 8571
    },
    {
      "epoch": 2.0571733333333335,
      "grad_norm": 0.025904669380704962,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 8572
    },
    {
      "epoch": 2.0572266666666668,
      "grad_norm": 0.026693479663959397,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 8573
    },
    {
      "epoch": 2.05728,
      "grad_norm": 0.02403207852780826,
      "learning_rate": 0.0001,
      "loss": 1.0798,
      "step": 8574
    },
    {
      "epoch": 2.0573333333333332,
      "grad_norm": 0.024769562779236347,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 8575
    },
    {
      "epoch": 2.0573866666666665,
      "grad_norm": 0.025071199134315922,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 8576
    },
    {
      "epoch": 2.05744,
      "grad_norm": 0.02414162231281912,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 8577
    },
    {
      "epoch": 2.0574933333333334,
      "grad_norm": 0.025274595156640357,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 8578
    },
    {
      "epoch": 2.0575466666666666,
      "grad_norm": 0.02407408401675802,
      "learning_rate": 0.0001,
      "loss": 0.9109,
      "step": 8579
    },
    {
      "epoch": 2.0576,
      "grad_norm": 0.02407140494316924,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 8580
    },
    {
      "epoch": 2.0576533333333336,
      "grad_norm": 0.024980563247747226,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 8581
    },
    {
      "epoch": 2.057706666666667,
      "grad_norm": 0.025418014182714634,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 8582
    },
    {
      "epoch": 2.05776,
      "grad_norm": 0.023915241258105444,
      "learning_rate": 0.0001,
      "loss": 0.9183,
      "step": 8583
    },
    {
      "epoch": 2.0578133333333333,
      "grad_norm": 0.022796836349667584,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 8584
    },
    {
      "epoch": 2.0578666666666665,
      "grad_norm": 0.026189060301880996,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 8585
    },
    {
      "epoch": 2.05792,
      "grad_norm": 0.023622566522918165,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 8586
    },
    {
      "epoch": 2.0579733333333334,
      "grad_norm": 0.025490766610720226,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 8587
    },
    {
      "epoch": 2.0580266666666667,
      "grad_norm": 0.024458341614380655,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 8588
    },
    {
      "epoch": 2.05808,
      "grad_norm": 0.02436391340606176,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 8589
    },
    {
      "epoch": 2.058133333333333,
      "grad_norm": 0.02471926400281094,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 8590
    },
    {
      "epoch": 2.058186666666667,
      "grad_norm": 0.023917078811077942,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 8591
    },
    {
      "epoch": 2.05824,
      "grad_norm": 0.024055301316182973,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 8592
    },
    {
      "epoch": 2.0582933333333333,
      "grad_norm": 0.024037722096160015,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 8593
    },
    {
      "epoch": 2.0583466666666665,
      "grad_norm": 0.023487722778252493,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 8594
    },
    {
      "epoch": 2.0584,
      "grad_norm": 0.02463956564542268,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 8595
    },
    {
      "epoch": 2.0584533333333335,
      "grad_norm": 0.024190050674092977,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 8596
    },
    {
      "epoch": 2.0585066666666667,
      "grad_norm": 0.024527323964542252,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 8597
    },
    {
      "epoch": 2.05856,
      "grad_norm": 0.022805008487380273,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 8598
    },
    {
      "epoch": 2.058613333333333,
      "grad_norm": 0.02457964379995008,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 8599
    },
    {
      "epoch": 2.058666666666667,
      "grad_norm": 0.02466757201179792,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 8600
    },
    {
      "epoch": 2.058666666666667,
      "eval_accuracy": 0.6202372219307349,
      "eval_loss": 1.35343337059021,
      "eval_runtime": 62.8562,
      "eval_samples_per_second": 15.909,
      "eval_steps_per_second": 0.509,
      "step": 8600
    },
    {
      "epoch": 2.05872,
      "grad_norm": 0.023154507883686903,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 8601
    },
    {
      "epoch": 2.0587733333333333,
      "grad_norm": 0.023225984204154383,
      "learning_rate": 0.0001,
      "loss": 0.8969,
      "step": 8602
    },
    {
      "epoch": 2.0588266666666666,
      "grad_norm": 0.024324127080064796,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 8603
    },
    {
      "epoch": 2.05888,
      "grad_norm": 0.023513371574992663,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 8604
    },
    {
      "epoch": 2.0589333333333335,
      "grad_norm": 0.023255174741416338,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 8605
    },
    {
      "epoch": 2.0589866666666667,
      "grad_norm": 0.02383058731623144,
      "learning_rate": 0.0001,
      "loss": 0.8708,
      "step": 8606
    },
    {
      "epoch": 2.05904,
      "grad_norm": 0.022812024267756414,
      "learning_rate": 0.0001,
      "loss": 0.895,
      "step": 8607
    },
    {
      "epoch": 2.059093333333333,
      "grad_norm": 0.023817202613505305,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 8608
    },
    {
      "epoch": 2.0591466666666665,
      "grad_norm": 0.02432417390627845,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 8609
    },
    {
      "epoch": 2.0592,
      "grad_norm": 0.023014534208329728,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 8610
    },
    {
      "epoch": 2.0592533333333334,
      "grad_norm": 0.025322237869019226,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 8611
    },
    {
      "epoch": 2.0593066666666666,
      "grad_norm": 0.02382589025862248,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 8612
    },
    {
      "epoch": 2.05936,
      "grad_norm": 0.02394594134005538,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 8613
    },
    {
      "epoch": 2.0594133333333335,
      "grad_norm": 0.022750566532994537,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 8614
    },
    {
      "epoch": 2.059466666666667,
      "grad_norm": 0.02452790648731825,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 8615
    },
    {
      "epoch": 2.05952,
      "grad_norm": 0.022483357712221583,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 8616
    },
    {
      "epoch": 2.0595733333333333,
      "grad_norm": 0.023789374432591118,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 8617
    },
    {
      "epoch": 2.0596266666666665,
      "grad_norm": 0.024729495503508406,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 8618
    },
    {
      "epoch": 2.05968,
      "grad_norm": 0.025182726320167773,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 8619
    },
    {
      "epoch": 2.0597333333333334,
      "grad_norm": 0.026150227244650614,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 8620
    },
    {
      "epoch": 2.0597866666666667,
      "grad_norm": 0.023869719183608386,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 8621
    },
    {
      "epoch": 2.05984,
      "grad_norm": 0.025327202199707705,
      "learning_rate": 0.0001,
      "loss": 0.9933,
      "step": 8622
    },
    {
      "epoch": 2.059893333333333,
      "grad_norm": 0.02307328438287578,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 8623
    },
    {
      "epoch": 2.059946666666667,
      "grad_norm": 0.02392902555250011,
      "learning_rate": 0.0001,
      "loss": 0.9522,
      "step": 8624
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.023798118467241475,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 8625
    },
    {
      "epoch": 2.0600533333333333,
      "grad_norm": 0.02382509063077753,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 8626
    },
    {
      "epoch": 2.0601066666666665,
      "grad_norm": 0.025929138206921835,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 8627
    },
    {
      "epoch": 2.06016,
      "grad_norm": 0.025039280191885005,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "step": 8628
    },
    {
      "epoch": 2.0602133333333335,
      "grad_norm": 0.02570072281823165,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 8629
    },
    {
      "epoch": 2.0602666666666667,
      "grad_norm": 0.024261443724105172,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 8630
    },
    {
      "epoch": 2.06032,
      "grad_norm": 0.02382981772049744,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 8631
    },
    {
      "epoch": 2.060373333333333,
      "grad_norm": 0.024662279658465933,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 8632
    },
    {
      "epoch": 2.060426666666667,
      "grad_norm": 0.02383485549057055,
      "learning_rate": 0.0001,
      "loss": 1.0312,
      "step": 8633
    },
    {
      "epoch": 2.06048,
      "grad_norm": 0.02409382091251041,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 8634
    },
    {
      "epoch": 2.0605333333333333,
      "grad_norm": 0.024932014914335637,
      "learning_rate": 0.0001,
      "loss": 0.9925,
      "step": 8635
    },
    {
      "epoch": 2.0605866666666666,
      "grad_norm": 0.02356164492960375,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 8636
    },
    {
      "epoch": 2.06064,
      "grad_norm": 0.02409754178941889,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 8637
    },
    {
      "epoch": 2.0606933333333335,
      "grad_norm": 0.02310683995589998,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 8638
    },
    {
      "epoch": 2.0607466666666667,
      "grad_norm": 0.022910938482704906,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 8639
    },
    {
      "epoch": 2.0608,
      "grad_norm": 0.025429099915539367,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 8640
    },
    {
      "epoch": 2.060853333333333,
      "grad_norm": 0.025486490231066562,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 8641
    },
    {
      "epoch": 2.060906666666667,
      "grad_norm": 0.024773103252047856,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 8642
    },
    {
      "epoch": 2.06096,
      "grad_norm": 0.02497708285340351,
      "learning_rate": 0.0001,
      "loss": 1.0074,
      "step": 8643
    },
    {
      "epoch": 2.0610133333333334,
      "grad_norm": 0.023084242576208797,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 8644
    },
    {
      "epoch": 2.0610666666666666,
      "grad_norm": 0.0235042870746501,
      "learning_rate": 0.0001,
      "loss": 0.9537,
      "step": 8645
    },
    {
      "epoch": 2.06112,
      "grad_norm": 0.02273279879659177,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 8646
    },
    {
      "epoch": 2.0611733333333335,
      "grad_norm": 0.026851156307913574,
      "learning_rate": 0.0001,
      "loss": 0.9493,
      "step": 8647
    },
    {
      "epoch": 2.0612266666666668,
      "grad_norm": 0.023944297348634416,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 8648
    },
    {
      "epoch": 2.06128,
      "grad_norm": 0.02302474604829639,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 8649
    },
    {
      "epoch": 2.0613333333333332,
      "grad_norm": 0.02311913954263387,
      "learning_rate": 0.0001,
      "loss": 1.0443,
      "step": 8650
    },
    {
      "epoch": 2.0613866666666665,
      "grad_norm": 0.024161199869677973,
      "learning_rate": 0.0001,
      "loss": 0.8838,
      "step": 8651
    },
    {
      "epoch": 2.06144,
      "grad_norm": 0.024713626766460408,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 8652
    },
    {
      "epoch": 2.0614933333333334,
      "grad_norm": 0.027090493854188987,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 8653
    },
    {
      "epoch": 2.0615466666666666,
      "grad_norm": 0.024566798150469697,
      "learning_rate": 0.0001,
      "loss": 0.9579,
      "step": 8654
    },
    {
      "epoch": 2.0616,
      "grad_norm": 0.023157212056491256,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 8655
    },
    {
      "epoch": 2.061653333333333,
      "grad_norm": 0.025735747650842057,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 8656
    },
    {
      "epoch": 2.061706666666667,
      "grad_norm": 0.02486425263042812,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 8657
    },
    {
      "epoch": 2.06176,
      "grad_norm": 0.02241533233726412,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 8658
    },
    {
      "epoch": 2.0618133333333333,
      "grad_norm": 0.02449003802965204,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 8659
    },
    {
      "epoch": 2.0618666666666665,
      "grad_norm": 0.023878494911379937,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 8660
    },
    {
      "epoch": 2.06192,
      "grad_norm": 0.024487734778343092,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 8661
    },
    {
      "epoch": 2.0619733333333334,
      "grad_norm": 0.023433513652601864,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 8662
    },
    {
      "epoch": 2.0620266666666667,
      "grad_norm": 0.024329245276178853,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 8663
    },
    {
      "epoch": 2.06208,
      "grad_norm": 0.02463348919685793,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 8664
    },
    {
      "epoch": 2.062133333333333,
      "grad_norm": 0.02509976214409896,
      "learning_rate": 0.0001,
      "loss": 0.9122,
      "step": 8665
    },
    {
      "epoch": 2.062186666666667,
      "grad_norm": 0.02517437695799496,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 8666
    },
    {
      "epoch": 2.06224,
      "grad_norm": 0.024691350474065458,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 8667
    },
    {
      "epoch": 2.0622933333333333,
      "grad_norm": 0.026989725860345218,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 8668
    },
    {
      "epoch": 2.0623466666666666,
      "grad_norm": 0.026698468330787498,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 8669
    },
    {
      "epoch": 2.0624,
      "grad_norm": 0.024093237548322273,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 8670
    },
    {
      "epoch": 2.0624533333333335,
      "grad_norm": 0.02373350833033283,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 8671
    },
    {
      "epoch": 2.0625066666666667,
      "grad_norm": 0.024096349293724947,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 8672
    },
    {
      "epoch": 2.06256,
      "grad_norm": 0.02389958739889745,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 8673
    },
    {
      "epoch": 2.062613333333333,
      "grad_norm": 0.026913677160678835,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 8674
    },
    {
      "epoch": 2.062666666666667,
      "grad_norm": 0.02312169759206765,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 8675
    },
    {
      "epoch": 2.06272,
      "grad_norm": 0.02466918718843852,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 8676
    },
    {
      "epoch": 2.0627733333333333,
      "grad_norm": 0.024318545204010774,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 8677
    },
    {
      "epoch": 2.0628266666666666,
      "grad_norm": 0.023135252538972736,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 8678
    },
    {
      "epoch": 2.06288,
      "grad_norm": 0.02330730356118636,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 8679
    },
    {
      "epoch": 2.0629333333333335,
      "grad_norm": 0.02378679418067049,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 8680
    },
    {
      "epoch": 2.0629866666666667,
      "grad_norm": 0.025724742035962072,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 8681
    },
    {
      "epoch": 2.06304,
      "grad_norm": 0.023629961949402697,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 8682
    },
    {
      "epoch": 2.0630933333333332,
      "grad_norm": 0.022458547492331202,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 8683
    },
    {
      "epoch": 2.0631466666666665,
      "grad_norm": 0.02460236951660864,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 8684
    },
    {
      "epoch": 2.0632,
      "grad_norm": 0.026445440518219173,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 8685
    },
    {
      "epoch": 2.0632533333333334,
      "grad_norm": 0.02346525526999167,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 8686
    },
    {
      "epoch": 2.0633066666666666,
      "grad_norm": 0.02572481271121647,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 8687
    },
    {
      "epoch": 2.06336,
      "grad_norm": 0.025258146668732752,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 8688
    },
    {
      "epoch": 2.0634133333333335,
      "grad_norm": 0.027709303507137593,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 8689
    },
    {
      "epoch": 2.063466666666667,
      "grad_norm": 0.027301077373683588,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 8690
    },
    {
      "epoch": 2.06352,
      "grad_norm": 0.02479854277664367,
      "learning_rate": 0.0001,
      "loss": 0.9666,
      "step": 8691
    },
    {
      "epoch": 2.0635733333333333,
      "grad_norm": 0.025807952556306017,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 8692
    },
    {
      "epoch": 2.0636266666666665,
      "grad_norm": 0.026458776435024905,
      "learning_rate": 0.0001,
      "loss": 1.0017,
      "step": 8693
    },
    {
      "epoch": 2.06368,
      "grad_norm": 0.02698232777629887,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 8694
    },
    {
      "epoch": 2.0637333333333334,
      "grad_norm": 0.023920090843555817,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 8695
    },
    {
      "epoch": 2.0637866666666667,
      "grad_norm": 0.025315749013726123,
      "learning_rate": 0.0001,
      "loss": 0.9525,
      "step": 8696
    },
    {
      "epoch": 2.06384,
      "grad_norm": 0.02463832767355442,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 8697
    },
    {
      "epoch": 2.063893333333333,
      "grad_norm": 0.024094422762630192,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 8698
    },
    {
      "epoch": 2.063946666666667,
      "grad_norm": 0.025671850214847948,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 8699
    },
    {
      "epoch": 2.064,
      "grad_norm": 0.024176069416778606,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 8700
    },
    {
      "epoch": 2.0640533333333333,
      "grad_norm": 0.023643865222253816,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 8701
    },
    {
      "epoch": 2.0641066666666665,
      "grad_norm": 0.023371976212103178,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 8702
    },
    {
      "epoch": 2.06416,
      "grad_norm": 0.02387582811247973,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 8703
    },
    {
      "epoch": 2.0642133333333335,
      "grad_norm": 0.023355653024504198,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 8704
    },
    {
      "epoch": 2.0642666666666667,
      "grad_norm": 0.022894187304631594,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 8705
    },
    {
      "epoch": 2.06432,
      "grad_norm": 0.02568503761880718,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 8706
    },
    {
      "epoch": 2.064373333333333,
      "grad_norm": 0.028431355172268906,
      "learning_rate": 0.0001,
      "loss": 0.9145,
      "step": 8707
    },
    {
      "epoch": 2.064426666666667,
      "grad_norm": 0.02449634302341169,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 8708
    },
    {
      "epoch": 2.06448,
      "grad_norm": 0.02404224127902588,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 8709
    },
    {
      "epoch": 2.0645333333333333,
      "grad_norm": 0.02705134359618388,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 8710
    },
    {
      "epoch": 2.0645866666666666,
      "grad_norm": 0.026587250160954604,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 8711
    },
    {
      "epoch": 2.06464,
      "grad_norm": 0.024139705226234594,
      "learning_rate": 0.0001,
      "loss": 0.9076,
      "step": 8712
    },
    {
      "epoch": 2.0646933333333335,
      "grad_norm": 0.023600563396129294,
      "learning_rate": 0.0001,
      "loss": 0.9317,
      "step": 8713
    },
    {
      "epoch": 2.0647466666666667,
      "grad_norm": 0.024644062771134432,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 8714
    },
    {
      "epoch": 2.0648,
      "grad_norm": 0.024032210349833976,
      "learning_rate": 0.0001,
      "loss": 0.9699,
      "step": 8715
    },
    {
      "epoch": 2.064853333333333,
      "grad_norm": 0.024659888476079892,
      "learning_rate": 0.0001,
      "loss": 0.9041,
      "step": 8716
    },
    {
      "epoch": 2.0649066666666664,
      "grad_norm": 0.023861448889383526,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 8717
    },
    {
      "epoch": 2.06496,
      "grad_norm": 0.02325875726075528,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 8718
    },
    {
      "epoch": 2.0650133333333334,
      "grad_norm": 0.02522907811449465,
      "learning_rate": 0.0001,
      "loss": 0.9174,
      "step": 8719
    },
    {
      "epoch": 2.0650666666666666,
      "grad_norm": 0.02414771879660383,
      "learning_rate": 0.0001,
      "loss": 0.9058,
      "step": 8720
    },
    {
      "epoch": 2.06512,
      "grad_norm": 0.023927953622635518,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 8721
    },
    {
      "epoch": 2.0651733333333335,
      "grad_norm": 0.02296160328965383,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 8722
    },
    {
      "epoch": 2.0652266666666668,
      "grad_norm": 0.02319542829092166,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 8723
    },
    {
      "epoch": 2.06528,
      "grad_norm": 0.02270095238850748,
      "learning_rate": 0.0001,
      "loss": 0.9871,
      "step": 8724
    },
    {
      "epoch": 2.0653333333333332,
      "grad_norm": 0.02504644720724833,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 8725
    },
    {
      "epoch": 2.0653866666666665,
      "grad_norm": 0.02372786224978561,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 8726
    },
    {
      "epoch": 2.06544,
      "grad_norm": 0.023876797285930864,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 8727
    },
    {
      "epoch": 2.0654933333333334,
      "grad_norm": 0.025426093521014485,
      "learning_rate": 0.0001,
      "loss": 0.9638,
      "step": 8728
    },
    {
      "epoch": 2.0655466666666666,
      "grad_norm": 0.02353145811494561,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 8729
    },
    {
      "epoch": 2.0656,
      "grad_norm": 0.02454840936796575,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 8730
    },
    {
      "epoch": 2.065653333333333,
      "grad_norm": 0.026165544324905247,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 8731
    },
    {
      "epoch": 2.065706666666667,
      "grad_norm": 0.02444913565289035,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 8732
    },
    {
      "epoch": 2.06576,
      "grad_norm": 0.023641274811913627,
      "learning_rate": 0.0001,
      "loss": 0.9117,
      "step": 8733
    },
    {
      "epoch": 2.0658133333333333,
      "grad_norm": 0.024752823084978354,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 8734
    },
    {
      "epoch": 2.0658666666666665,
      "grad_norm": 0.022731384810996905,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 8735
    },
    {
      "epoch": 2.06592,
      "grad_norm": 0.02354219499669858,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 8736
    },
    {
      "epoch": 2.0659733333333334,
      "grad_norm": 0.023398675346218915,
      "learning_rate": 0.0001,
      "loss": 0.9059,
      "step": 8737
    },
    {
      "epoch": 2.0660266666666667,
      "grad_norm": 0.02411933732978403,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 8738
    },
    {
      "epoch": 2.06608,
      "grad_norm": 0.02717798948219064,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 8739
    },
    {
      "epoch": 2.066133333333333,
      "grad_norm": 0.02366797801585046,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 8740
    },
    {
      "epoch": 2.066186666666667,
      "grad_norm": 0.024196849633482138,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 8741
    },
    {
      "epoch": 2.06624,
      "grad_norm": 0.022512229407333474,
      "learning_rate": 0.0001,
      "loss": 0.8936,
      "step": 8742
    },
    {
      "epoch": 2.0662933333333333,
      "grad_norm": 0.023499480541718066,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 8743
    },
    {
      "epoch": 2.0663466666666666,
      "grad_norm": 0.02452478870310593,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 8744
    },
    {
      "epoch": 2.0664,
      "grad_norm": 0.024904061901633516,
      "learning_rate": 0.0001,
      "loss": 1.0,
      "step": 8745
    },
    {
      "epoch": 2.0664533333333335,
      "grad_norm": 0.023266434577478467,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "step": 8746
    },
    {
      "epoch": 2.0665066666666667,
      "grad_norm": 0.026804511042960805,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 8747
    },
    {
      "epoch": 2.06656,
      "grad_norm": 0.029748299112021967,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 8748
    },
    {
      "epoch": 2.066613333333333,
      "grad_norm": 0.025489995359411228,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 8749
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.023195114974447824,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 8750
    },
    {
      "epoch": 2.06672,
      "grad_norm": 0.022841487186932213,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 8751
    },
    {
      "epoch": 2.0667733333333334,
      "grad_norm": 0.026639314706613647,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 8752
    },
    {
      "epoch": 2.0668266666666666,
      "grad_norm": 0.025085179720927032,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 8753
    },
    {
      "epoch": 2.06688,
      "grad_norm": 0.02296150371505632,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 8754
    },
    {
      "epoch": 2.0669333333333335,
      "grad_norm": 0.026302060084592245,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 8755
    },
    {
      "epoch": 2.0669866666666667,
      "grad_norm": 0.029704741220018725,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 8756
    },
    {
      "epoch": 2.06704,
      "grad_norm": 0.02338512620306534,
      "learning_rate": 0.0001,
      "loss": 0.8996,
      "step": 8757
    },
    {
      "epoch": 2.0670933333333332,
      "grad_norm": 0.02450889278006365,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 8758
    },
    {
      "epoch": 2.0671466666666665,
      "grad_norm": 0.025804728180202647,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 8759
    },
    {
      "epoch": 2.0672,
      "grad_norm": 0.023257460651236902,
      "learning_rate": 0.0001,
      "loss": 1.0155,
      "step": 8760
    },
    {
      "epoch": 2.0672533333333334,
      "grad_norm": 0.023752410127983174,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 8761
    },
    {
      "epoch": 2.0673066666666666,
      "grad_norm": 0.02226221528687742,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 8762
    },
    {
      "epoch": 2.06736,
      "grad_norm": 0.02457933078553321,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 8763
    },
    {
      "epoch": 2.0674133333333335,
      "grad_norm": 0.02409909626555822,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 8764
    },
    {
      "epoch": 2.067466666666667,
      "grad_norm": 0.022773871623752055,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 8765
    },
    {
      "epoch": 2.06752,
      "grad_norm": 0.02262500355751716,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 8766
    },
    {
      "epoch": 2.0675733333333333,
      "grad_norm": 0.02430040061094826,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 8767
    },
    {
      "epoch": 2.0676266666666665,
      "grad_norm": 0.023307277208344333,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 8768
    },
    {
      "epoch": 2.06768,
      "grad_norm": 0.023432840303552666,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 8769
    },
    {
      "epoch": 2.0677333333333334,
      "grad_norm": 0.024786806673137842,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 8770
    },
    {
      "epoch": 2.0677866666666667,
      "grad_norm": 0.02307824395469305,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 8771
    },
    {
      "epoch": 2.06784,
      "grad_norm": 0.024248560957192463,
      "learning_rate": 0.0001,
      "loss": 1.0193,
      "step": 8772
    },
    {
      "epoch": 2.067893333333333,
      "grad_norm": 0.02253110953401593,
      "learning_rate": 0.0001,
      "loss": 1.0455,
      "step": 8773
    },
    {
      "epoch": 2.067946666666667,
      "grad_norm": 0.024431339500531554,
      "learning_rate": 0.0001,
      "loss": 1.0373,
      "step": 8774
    },
    {
      "epoch": 2.068,
      "grad_norm": 0.025326267790905146,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 8775
    },
    {
      "epoch": 2.0680533333333333,
      "grad_norm": 0.022505953841673938,
      "learning_rate": 0.0001,
      "loss": 0.9192,
      "step": 8776
    },
    {
      "epoch": 2.0681066666666665,
      "grad_norm": 0.025916073052928406,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 8777
    },
    {
      "epoch": 2.0681599999999998,
      "grad_norm": 0.02554395720326553,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 8778
    },
    {
      "epoch": 2.0682133333333335,
      "grad_norm": 0.02324099986143879,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 8779
    },
    {
      "epoch": 2.0682666666666667,
      "grad_norm": 0.02457459151802507,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 8780
    },
    {
      "epoch": 2.06832,
      "grad_norm": 0.024157997488261015,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 8781
    },
    {
      "epoch": 2.068373333333333,
      "grad_norm": 0.023205973275286895,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 8782
    },
    {
      "epoch": 2.068426666666667,
      "grad_norm": 0.02318768233507376,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "step": 8783
    },
    {
      "epoch": 2.06848,
      "grad_norm": 0.02400880086735067,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 8784
    },
    {
      "epoch": 2.0685333333333333,
      "grad_norm": 0.02322777327498466,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 8785
    },
    {
      "epoch": 2.0685866666666666,
      "grad_norm": 0.027052087101563326,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 8786
    },
    {
      "epoch": 2.06864,
      "grad_norm": 0.02751560879464182,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 8787
    },
    {
      "epoch": 2.0686933333333335,
      "grad_norm": 0.024851242569598305,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 8788
    },
    {
      "epoch": 2.0687466666666667,
      "grad_norm": 0.02357056867515834,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 8789
    },
    {
      "epoch": 2.0688,
      "grad_norm": 0.02358736809773772,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 8790
    },
    {
      "epoch": 2.068853333333333,
      "grad_norm": 0.027276842639015156,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 8791
    },
    {
      "epoch": 2.068906666666667,
      "grad_norm": 0.023936637872178902,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 8792
    },
    {
      "epoch": 2.06896,
      "grad_norm": 0.023862292995917817,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 8793
    },
    {
      "epoch": 2.0690133333333334,
      "grad_norm": 0.024561697768033932,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 8794
    },
    {
      "epoch": 2.0690666666666666,
      "grad_norm": 0.02574153170278155,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 8795
    },
    {
      "epoch": 2.06912,
      "grad_norm": 0.02264933459584535,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 8796
    },
    {
      "epoch": 2.0691733333333335,
      "grad_norm": 0.02433589200593183,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 8797
    },
    {
      "epoch": 2.0692266666666668,
      "grad_norm": 0.02240583028515343,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 8798
    },
    {
      "epoch": 2.06928,
      "grad_norm": 0.0231584896371871,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 8799
    },
    {
      "epoch": 2.0693333333333332,
      "grad_norm": 0.02375330496792355,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 8800
    },
    {
      "epoch": 2.0693333333333332,
      "eval_accuracy": 0.6204151447764661,
      "eval_loss": 1.3529335260391235,
      "eval_runtime": 64.2423,
      "eval_samples_per_second": 15.566,
      "eval_steps_per_second": 0.498,
      "step": 8800
    },
    {
      "epoch": 2.0693866666666665,
      "grad_norm": 0.023302793350176574,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 8801
    },
    {
      "epoch": 2.06944,
      "grad_norm": 0.024463035847085788,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 8802
    },
    {
      "epoch": 2.0694933333333334,
      "grad_norm": 0.024984547410637065,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 8803
    },
    {
      "epoch": 2.0695466666666666,
      "grad_norm": 0.02349987659651911,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 8804
    },
    {
      "epoch": 2.0696,
      "grad_norm": 0.02382104024626855,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 8805
    },
    {
      "epoch": 2.069653333333333,
      "grad_norm": 0.023491743348759368,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 8806
    },
    {
      "epoch": 2.069706666666667,
      "grad_norm": 0.023935558721272263,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 8807
    },
    {
      "epoch": 2.06976,
      "grad_norm": 0.02331197169388494,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 8808
    },
    {
      "epoch": 2.0698133333333333,
      "grad_norm": 0.028705411925383575,
      "learning_rate": 0.0001,
      "loss": 1.0373,
      "step": 8809
    },
    {
      "epoch": 2.0698666666666665,
      "grad_norm": 0.024010989027199725,
      "learning_rate": 0.0001,
      "loss": 0.9037,
      "step": 8810
    },
    {
      "epoch": 2.06992,
      "grad_norm": 0.025685083998020507,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 8811
    },
    {
      "epoch": 2.0699733333333334,
      "grad_norm": 0.022928438899957396,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 8812
    },
    {
      "epoch": 2.0700266666666667,
      "grad_norm": 0.027142866649692066,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 8813
    },
    {
      "epoch": 2.07008,
      "grad_norm": 0.0252482630709984,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 8814
    },
    {
      "epoch": 2.070133333333333,
      "grad_norm": 0.02525396147254112,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 8815
    },
    {
      "epoch": 2.070186666666667,
      "grad_norm": 0.02390808663244108,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "step": 8816
    },
    {
      "epoch": 2.07024,
      "grad_norm": 0.024533324001018125,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 8817
    },
    {
      "epoch": 2.0702933333333333,
      "grad_norm": 0.023324558606689156,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "step": 8818
    },
    {
      "epoch": 2.0703466666666666,
      "grad_norm": 0.02316801404514102,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 8819
    },
    {
      "epoch": 2.0704,
      "grad_norm": 0.02505647355845888,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 8820
    },
    {
      "epoch": 2.0704533333333335,
      "grad_norm": 0.023042156642286895,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 8821
    },
    {
      "epoch": 2.0705066666666667,
      "grad_norm": 0.024191766392706492,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 8822
    },
    {
      "epoch": 2.07056,
      "grad_norm": 0.024943811023012057,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "step": 8823
    },
    {
      "epoch": 2.070613333333333,
      "grad_norm": 0.0219079439265658,
      "learning_rate": 0.0001,
      "loss": 0.9994,
      "step": 8824
    },
    {
      "epoch": 2.070666666666667,
      "grad_norm": 0.023742973845277404,
      "learning_rate": 0.0001,
      "loss": 0.9336,
      "step": 8825
    },
    {
      "epoch": 2.07072,
      "grad_norm": 0.025748155733408266,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 8826
    },
    {
      "epoch": 2.0707733333333334,
      "grad_norm": 0.02389048517376535,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 8827
    },
    {
      "epoch": 2.0708266666666666,
      "grad_norm": 0.022961758741604263,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 8828
    },
    {
      "epoch": 2.07088,
      "grad_norm": 0.023841224824690765,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 8829
    },
    {
      "epoch": 2.0709333333333335,
      "grad_norm": 0.023846161367855744,
      "learning_rate": 0.0001,
      "loss": 0.9847,
      "step": 8830
    },
    {
      "epoch": 2.0709866666666668,
      "grad_norm": 0.022812818293924116,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 8831
    },
    {
      "epoch": 2.07104,
      "grad_norm": 0.02328946848087695,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 8832
    },
    {
      "epoch": 2.0710933333333332,
      "grad_norm": 0.022716587297350033,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 8833
    },
    {
      "epoch": 2.0711466666666665,
      "grad_norm": 0.022791329804652583,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 8834
    },
    {
      "epoch": 2.0712,
      "grad_norm": 0.02378318563544875,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 8835
    },
    {
      "epoch": 2.0712533333333334,
      "grad_norm": 0.024485489124177355,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 8836
    },
    {
      "epoch": 2.0713066666666666,
      "grad_norm": 0.023648207759352877,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 8837
    },
    {
      "epoch": 2.07136,
      "grad_norm": 0.02479348284433086,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 8838
    },
    {
      "epoch": 2.071413333333333,
      "grad_norm": 0.02575477753452935,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "step": 8839
    },
    {
      "epoch": 2.071466666666667,
      "grad_norm": 0.02355484428287616,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 8840
    },
    {
      "epoch": 2.07152,
      "grad_norm": 0.023064123632761925,
      "learning_rate": 0.0001,
      "loss": 0.9269,
      "step": 8841
    },
    {
      "epoch": 2.0715733333333333,
      "grad_norm": 0.023390937597210837,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 8842
    },
    {
      "epoch": 2.0716266666666665,
      "grad_norm": 0.02395513836677444,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 8843
    },
    {
      "epoch": 2.07168,
      "grad_norm": 0.02260901306535553,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 8844
    },
    {
      "epoch": 2.0717333333333334,
      "grad_norm": 0.02396972653381761,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 8845
    },
    {
      "epoch": 2.0717866666666667,
      "grad_norm": 0.022472246165283347,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 8846
    },
    {
      "epoch": 2.07184,
      "grad_norm": 0.02369362943195306,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 8847
    },
    {
      "epoch": 2.071893333333333,
      "grad_norm": 0.024371450967091535,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 8848
    },
    {
      "epoch": 2.071946666666667,
      "grad_norm": 0.024978303442482353,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 8849
    },
    {
      "epoch": 2.072,
      "grad_norm": 0.02531891151994998,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 8850
    },
    {
      "epoch": 2.0720533333333333,
      "grad_norm": 0.022704659043760456,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 8851
    },
    {
      "epoch": 2.0721066666666665,
      "grad_norm": 0.024779094297796032,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 8852
    },
    {
      "epoch": 2.0721600000000002,
      "grad_norm": 0.022967831682885412,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 8853
    },
    {
      "epoch": 2.0722133333333335,
      "grad_norm": 0.023024539611205968,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 8854
    },
    {
      "epoch": 2.0722666666666667,
      "grad_norm": 0.025718087429455427,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 8855
    },
    {
      "epoch": 2.07232,
      "grad_norm": 0.02575943451448957,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 8856
    },
    {
      "epoch": 2.072373333333333,
      "grad_norm": 0.024585396420021992,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 8857
    },
    {
      "epoch": 2.072426666666667,
      "grad_norm": 0.024062591803276117,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 8858
    },
    {
      "epoch": 2.07248,
      "grad_norm": 0.025088129730392667,
      "learning_rate": 0.0001,
      "loss": 1.0102,
      "step": 8859
    },
    {
      "epoch": 2.0725333333333333,
      "grad_norm": 0.023244931518130185,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 8860
    },
    {
      "epoch": 2.0725866666666666,
      "grad_norm": 0.02437475625677032,
      "learning_rate": 0.0001,
      "loss": 1.0256,
      "step": 8861
    },
    {
      "epoch": 2.07264,
      "grad_norm": 0.02295673490798107,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "step": 8862
    },
    {
      "epoch": 2.0726933333333335,
      "grad_norm": 0.023788174499738336,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 8863
    },
    {
      "epoch": 2.0727466666666667,
      "grad_norm": 0.025716142718137158,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 8864
    },
    {
      "epoch": 2.0728,
      "grad_norm": 0.023583760322648313,
      "learning_rate": 0.0001,
      "loss": 1.0027,
      "step": 8865
    },
    {
      "epoch": 2.072853333333333,
      "grad_norm": 0.022785984321085067,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 8866
    },
    {
      "epoch": 2.0729066666666665,
      "grad_norm": 0.027768964636717,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 8867
    },
    {
      "epoch": 2.07296,
      "grad_norm": 0.02452313752378718,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 8868
    },
    {
      "epoch": 2.0730133333333334,
      "grad_norm": 0.025351746838164366,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 8869
    },
    {
      "epoch": 2.0730666666666666,
      "grad_norm": 0.023739790689426412,
      "learning_rate": 0.0001,
      "loss": 1.0246,
      "step": 8870
    },
    {
      "epoch": 2.07312,
      "grad_norm": 0.024437457271122405,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 8871
    },
    {
      "epoch": 2.0731733333333335,
      "grad_norm": 0.02545836558067774,
      "learning_rate": 0.0001,
      "loss": 0.919,
      "step": 8872
    },
    {
      "epoch": 2.0732266666666668,
      "grad_norm": 0.023485229244521597,
      "learning_rate": 0.0001,
      "loss": 0.9168,
      "step": 8873
    },
    {
      "epoch": 2.07328,
      "grad_norm": 0.023631610162967415,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 8874
    },
    {
      "epoch": 2.0733333333333333,
      "grad_norm": 0.025615317059540565,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 8875
    },
    {
      "epoch": 2.0733866666666665,
      "grad_norm": 0.024306593257305983,
      "learning_rate": 0.0001,
      "loss": 0.9258,
      "step": 8876
    },
    {
      "epoch": 2.07344,
      "grad_norm": 0.024083368816148913,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 8877
    },
    {
      "epoch": 2.0734933333333334,
      "grad_norm": 0.02506057518205399,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 8878
    },
    {
      "epoch": 2.0735466666666666,
      "grad_norm": 0.02650822864985542,
      "learning_rate": 0.0001,
      "loss": 0.8972,
      "step": 8879
    },
    {
      "epoch": 2.0736,
      "grad_norm": 0.02376690328504021,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 8880
    },
    {
      "epoch": 2.073653333333333,
      "grad_norm": 0.02465245406406432,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 8881
    },
    {
      "epoch": 2.073706666666667,
      "grad_norm": 0.02488644617469682,
      "learning_rate": 0.0001,
      "loss": 0.9387,
      "step": 8882
    },
    {
      "epoch": 2.07376,
      "grad_norm": 0.025109518866544833,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 8883
    },
    {
      "epoch": 2.0738133333333333,
      "grad_norm": 0.02460295604946869,
      "learning_rate": 0.0001,
      "loss": 0.9039,
      "step": 8884
    },
    {
      "epoch": 2.0738666666666665,
      "grad_norm": 0.023696323450848662,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 8885
    },
    {
      "epoch": 2.07392,
      "grad_norm": 0.0257871891381609,
      "learning_rate": 0.0001,
      "loss": 0.9149,
      "step": 8886
    },
    {
      "epoch": 2.0739733333333334,
      "grad_norm": 0.02513131113328651,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 8887
    },
    {
      "epoch": 2.0740266666666667,
      "grad_norm": 0.023039160622344936,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 8888
    },
    {
      "epoch": 2.07408,
      "grad_norm": 0.02492607093078809,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 8889
    },
    {
      "epoch": 2.074133333333333,
      "grad_norm": 0.02496262664377144,
      "learning_rate": 0.0001,
      "loss": 0.9019,
      "step": 8890
    },
    {
      "epoch": 2.074186666666667,
      "grad_norm": 0.02441618986390071,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 8891
    },
    {
      "epoch": 2.07424,
      "grad_norm": 0.023256714909317272,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 8892
    },
    {
      "epoch": 2.0742933333333333,
      "grad_norm": 0.024099135430155873,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 8893
    },
    {
      "epoch": 2.0743466666666666,
      "grad_norm": 0.022086748055131073,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 8894
    },
    {
      "epoch": 2.0744,
      "grad_norm": 0.024357487515090915,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 8895
    },
    {
      "epoch": 2.0744533333333335,
      "grad_norm": 0.02363550674728415,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 8896
    },
    {
      "epoch": 2.0745066666666667,
      "grad_norm": 0.022034952036519288,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 8897
    },
    {
      "epoch": 2.07456,
      "grad_norm": 0.0239034426697093,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 8898
    },
    {
      "epoch": 2.074613333333333,
      "grad_norm": 0.022723522696290438,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 8899
    },
    {
      "epoch": 2.074666666666667,
      "grad_norm": 0.02435398071005705,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 8900
    },
    {
      "epoch": 2.07472,
      "grad_norm": 0.023923472885566163,
      "learning_rate": 0.0001,
      "loss": 0.9669,
      "step": 8901
    },
    {
      "epoch": 2.0747733333333334,
      "grad_norm": 0.02363589738384455,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 8902
    },
    {
      "epoch": 2.0748266666666666,
      "grad_norm": 0.023901297559075656,
      "learning_rate": 0.0001,
      "loss": 0.9034,
      "step": 8903
    },
    {
      "epoch": 2.07488,
      "grad_norm": 0.023998618047090775,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 8904
    },
    {
      "epoch": 2.0749333333333335,
      "grad_norm": 0.024144841357130156,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 8905
    },
    {
      "epoch": 2.0749866666666668,
      "grad_norm": 0.022760424193025604,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 8906
    },
    {
      "epoch": 2.07504,
      "grad_norm": 0.02550915692896576,
      "learning_rate": 0.0001,
      "loss": 0.9194,
      "step": 8907
    },
    {
      "epoch": 2.0750933333333332,
      "grad_norm": 0.024083422958981592,
      "learning_rate": 0.0001,
      "loss": 1.0521,
      "step": 8908
    },
    {
      "epoch": 2.0751466666666665,
      "grad_norm": 0.025013515431393338,
      "learning_rate": 0.0001,
      "loss": 0.9148,
      "step": 8909
    },
    {
      "epoch": 2.0752,
      "grad_norm": 0.02429475025064809,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 8910
    },
    {
      "epoch": 2.0752533333333334,
      "grad_norm": 0.0238399246279055,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 8911
    },
    {
      "epoch": 2.0753066666666666,
      "grad_norm": 0.02326454382492856,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 8912
    },
    {
      "epoch": 2.07536,
      "grad_norm": 0.032230337254335724,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 8913
    },
    {
      "epoch": 2.0754133333333336,
      "grad_norm": 0.023612977941452836,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 8914
    },
    {
      "epoch": 2.075466666666667,
      "grad_norm": 0.022937318788042487,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 8915
    },
    {
      "epoch": 2.07552,
      "grad_norm": 0.023671343092268274,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 8916
    },
    {
      "epoch": 2.0755733333333333,
      "grad_norm": 0.025285424093977653,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 8917
    },
    {
      "epoch": 2.0756266666666665,
      "grad_norm": 0.023057039047988538,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 8918
    },
    {
      "epoch": 2.07568,
      "grad_norm": 0.02270641611989122,
      "learning_rate": 0.0001,
      "loss": 1.0021,
      "step": 8919
    },
    {
      "epoch": 2.0757333333333334,
      "grad_norm": 0.024027355070084654,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 8920
    },
    {
      "epoch": 2.0757866666666667,
      "grad_norm": 0.026069348967130035,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 8921
    },
    {
      "epoch": 2.07584,
      "grad_norm": 0.023084212982451762,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 8922
    },
    {
      "epoch": 2.075893333333333,
      "grad_norm": 0.022431858741175034,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 8923
    },
    {
      "epoch": 2.075946666666667,
      "grad_norm": 0.023527964060017302,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 8924
    },
    {
      "epoch": 2.076,
      "grad_norm": 0.023814269406044964,
      "learning_rate": 0.0001,
      "loss": 0.9023,
      "step": 8925
    },
    {
      "epoch": 2.0760533333333333,
      "grad_norm": 0.025767624782952962,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 8926
    },
    {
      "epoch": 2.0761066666666665,
      "grad_norm": 0.024578902101637788,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 8927
    },
    {
      "epoch": 2.07616,
      "grad_norm": 0.02380215376082604,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 8928
    },
    {
      "epoch": 2.0762133333333335,
      "grad_norm": 0.022674556396613463,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 8929
    },
    {
      "epoch": 2.0762666666666667,
      "grad_norm": 0.022400698419354718,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 8930
    },
    {
      "epoch": 2.07632,
      "grad_norm": 0.022948857296266167,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 8931
    },
    {
      "epoch": 2.076373333333333,
      "grad_norm": 0.02324020913270728,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 8932
    },
    {
      "epoch": 2.076426666666667,
      "grad_norm": 0.02260429290557653,
      "learning_rate": 0.0001,
      "loss": 0.9105,
      "step": 8933
    },
    {
      "epoch": 2.07648,
      "grad_norm": 0.02402803962970031,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 8934
    },
    {
      "epoch": 2.0765333333333333,
      "grad_norm": 0.023903476994172345,
      "learning_rate": 0.0001,
      "loss": 0.9299,
      "step": 8935
    },
    {
      "epoch": 2.0765866666666666,
      "grad_norm": 0.02291163976232805,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "step": 8936
    },
    {
      "epoch": 2.07664,
      "grad_norm": 0.025842591040202444,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 8937
    },
    {
      "epoch": 2.0766933333333335,
      "grad_norm": 0.023410525190923705,
      "learning_rate": 0.0001,
      "loss": 1.0302,
      "step": 8938
    },
    {
      "epoch": 2.0767466666666667,
      "grad_norm": 0.024019957094546723,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 8939
    },
    {
      "epoch": 2.0768,
      "grad_norm": 0.02422540856028369,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 8940
    },
    {
      "epoch": 2.076853333333333,
      "grad_norm": 0.023506593611472906,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 8941
    },
    {
      "epoch": 2.0769066666666665,
      "grad_norm": 0.02628541823456292,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 8942
    },
    {
      "epoch": 2.07696,
      "grad_norm": 0.022626851206353788,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 8943
    },
    {
      "epoch": 2.0770133333333334,
      "grad_norm": 0.022934994422577903,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 8944
    },
    {
      "epoch": 2.0770666666666666,
      "grad_norm": 0.02328378707218064,
      "learning_rate": 0.0001,
      "loss": 1.0276,
      "step": 8945
    },
    {
      "epoch": 2.07712,
      "grad_norm": 0.022727034531111596,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 8946
    },
    {
      "epoch": 2.0771733333333335,
      "grad_norm": 0.023314931687445167,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 8947
    },
    {
      "epoch": 2.0772266666666668,
      "grad_norm": 0.024562761869678512,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 8948
    },
    {
      "epoch": 2.07728,
      "grad_norm": 0.023845798862819893,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 8949
    },
    {
      "epoch": 2.0773333333333333,
      "grad_norm": 0.02346713883280898,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 8950
    },
    {
      "epoch": 2.0773866666666665,
      "grad_norm": 0.024205179202650435,
      "learning_rate": 0.0001,
      "loss": 1.0217,
      "step": 8951
    },
    {
      "epoch": 2.07744,
      "grad_norm": 0.025099488745851526,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 8952
    },
    {
      "epoch": 2.0774933333333334,
      "grad_norm": 0.024379084765715257,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 8953
    },
    {
      "epoch": 2.0775466666666667,
      "grad_norm": 0.02376530794962782,
      "learning_rate": 0.0001,
      "loss": 0.9014,
      "step": 8954
    },
    {
      "epoch": 2.0776,
      "grad_norm": 0.02339947725131227,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "step": 8955
    },
    {
      "epoch": 2.077653333333333,
      "grad_norm": 0.02528925914962087,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 8956
    },
    {
      "epoch": 2.077706666666667,
      "grad_norm": 0.023908116418828028,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 8957
    },
    {
      "epoch": 2.07776,
      "grad_norm": 0.025169603724011638,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 8958
    },
    {
      "epoch": 2.0778133333333333,
      "grad_norm": 0.0245762012654379,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 8959
    },
    {
      "epoch": 2.0778666666666665,
      "grad_norm": 0.023340063086554716,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 8960
    },
    {
      "epoch": 2.07792,
      "grad_norm": 0.02536470409723357,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 8961
    },
    {
      "epoch": 2.0779733333333334,
      "grad_norm": 0.022885774168618263,
      "learning_rate": 0.0001,
      "loss": 0.9077,
      "step": 8962
    },
    {
      "epoch": 2.0780266666666667,
      "grad_norm": 0.023160297145736766,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 8963
    },
    {
      "epoch": 2.07808,
      "grad_norm": 0.024347927717793125,
      "learning_rate": 0.0001,
      "loss": 0.9139,
      "step": 8964
    },
    {
      "epoch": 2.078133333333333,
      "grad_norm": 0.023112025546691554,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 8965
    },
    {
      "epoch": 2.078186666666667,
      "grad_norm": 0.024433900425832752,
      "learning_rate": 0.0001,
      "loss": 0.9109,
      "step": 8966
    },
    {
      "epoch": 2.07824,
      "grad_norm": 0.024608965425428224,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 8967
    },
    {
      "epoch": 2.0782933333333333,
      "grad_norm": 0.02418615269424808,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 8968
    },
    {
      "epoch": 2.0783466666666666,
      "grad_norm": 0.0223649283043963,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 8969
    },
    {
      "epoch": 2.0784,
      "grad_norm": 0.0276135852593035,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 8970
    },
    {
      "epoch": 2.0784533333333335,
      "grad_norm": 0.025427855146633573,
      "learning_rate": 0.0001,
      "loss": 0.8955,
      "step": 8971
    },
    {
      "epoch": 2.0785066666666667,
      "grad_norm": 0.02255941215443144,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "step": 8972
    },
    {
      "epoch": 2.07856,
      "grad_norm": 0.02162716365053276,
      "learning_rate": 0.0001,
      "loss": 0.8862,
      "step": 8973
    },
    {
      "epoch": 2.078613333333333,
      "grad_norm": 0.02393795287261673,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 8974
    },
    {
      "epoch": 2.078666666666667,
      "grad_norm": 0.028143041541821564,
      "learning_rate": 0.0001,
      "loss": 0.9974,
      "step": 8975
    },
    {
      "epoch": 2.07872,
      "grad_norm": 0.0232984629046209,
      "learning_rate": 0.0001,
      "loss": 0.9825,
      "step": 8976
    },
    {
      "epoch": 2.0787733333333334,
      "grad_norm": 0.024632900292386604,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 8977
    },
    {
      "epoch": 2.0788266666666666,
      "grad_norm": 0.023922386591126086,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 8978
    },
    {
      "epoch": 2.07888,
      "grad_norm": 0.022946527072049226,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 8979
    },
    {
      "epoch": 2.0789333333333335,
      "grad_norm": 0.023104269496765265,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 8980
    },
    {
      "epoch": 2.0789866666666668,
      "grad_norm": 0.023347912218610066,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 8981
    },
    {
      "epoch": 2.07904,
      "grad_norm": 0.023886336808965892,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 8982
    },
    {
      "epoch": 2.0790933333333332,
      "grad_norm": 0.022993240872701062,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 8983
    },
    {
      "epoch": 2.0791466666666665,
      "grad_norm": 0.02564113074734003,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 8984
    },
    {
      "epoch": 2.0792,
      "grad_norm": 0.026481132535311536,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 8985
    },
    {
      "epoch": 2.0792533333333334,
      "grad_norm": 0.023540544102009283,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 8986
    },
    {
      "epoch": 2.0793066666666666,
      "grad_norm": 0.025063914512755307,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 8987
    },
    {
      "epoch": 2.07936,
      "grad_norm": 0.02539524335642424,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 8988
    },
    {
      "epoch": 2.079413333333333,
      "grad_norm": 0.024818798529132022,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 8989
    },
    {
      "epoch": 2.079466666666667,
      "grad_norm": 0.022747703148358753,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 8990
    },
    {
      "epoch": 2.07952,
      "grad_norm": 0.022908981831186313,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 8991
    },
    {
      "epoch": 2.0795733333333333,
      "grad_norm": 0.023852496519002533,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 8992
    },
    {
      "epoch": 2.0796266666666665,
      "grad_norm": 0.025974582260053107,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 8993
    },
    {
      "epoch": 2.07968,
      "grad_norm": 0.025409979739037615,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 8994
    },
    {
      "epoch": 2.0797333333333334,
      "grad_norm": 0.022194909109059684,
      "learning_rate": 0.0001,
      "loss": 1.0098,
      "step": 8995
    },
    {
      "epoch": 2.0797866666666667,
      "grad_norm": 0.023700272813048377,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 8996
    },
    {
      "epoch": 2.07984,
      "grad_norm": 0.023472679461882442,
      "learning_rate": 0.0001,
      "loss": 0.9306,
      "step": 8997
    },
    {
      "epoch": 2.079893333333333,
      "grad_norm": 0.023340563054120446,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 8998
    },
    {
      "epoch": 2.079946666666667,
      "grad_norm": 0.022569209449336464,
      "learning_rate": 0.0001,
      "loss": 0.9973,
      "step": 8999
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.024314599881795403,
      "learning_rate": 0.0001,
      "loss": 0.9134,
      "step": 9000
    },
    {
      "epoch": 2.08,
      "eval_accuracy": 0.6205653892385502,
      "eval_loss": 1.352199912071228,
      "eval_runtime": 63.1865,
      "eval_samples_per_second": 15.826,
      "eval_steps_per_second": 0.506,
      "step": 9000
    },
    {
      "epoch": 2.0800533333333333,
      "grad_norm": 0.022708748176714127,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 9001
    },
    {
      "epoch": 2.0801066666666665,
      "grad_norm": 0.024140946465831706,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 9002
    },
    {
      "epoch": 2.08016,
      "grad_norm": 0.02552341130622695,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 9003
    },
    {
      "epoch": 2.0802133333333335,
      "grad_norm": 0.024249593013482954,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 9004
    },
    {
      "epoch": 2.0802666666666667,
      "grad_norm": 0.02477850087840115,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 9005
    },
    {
      "epoch": 2.08032,
      "grad_norm": 0.025624543217376658,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 9006
    },
    {
      "epoch": 2.080373333333333,
      "grad_norm": 0.024955801827111667,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 9007
    },
    {
      "epoch": 2.080426666666667,
      "grad_norm": 0.023521210779879946,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 9008
    },
    {
      "epoch": 2.08048,
      "grad_norm": 0.024367223922216057,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 9009
    },
    {
      "epoch": 2.0805333333333333,
      "grad_norm": 0.024239498046734476,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 9010
    },
    {
      "epoch": 2.0805866666666666,
      "grad_norm": 0.02360949884421636,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 9011
    },
    {
      "epoch": 2.08064,
      "grad_norm": 0.025529022457895244,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 9012
    },
    {
      "epoch": 2.0806933333333335,
      "grad_norm": 0.023356169981516534,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 9013
    },
    {
      "epoch": 2.0807466666666667,
      "grad_norm": 0.024015910572310787,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 9014
    },
    {
      "epoch": 2.0808,
      "grad_norm": 0.025596706176792525,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 9015
    },
    {
      "epoch": 2.080853333333333,
      "grad_norm": 0.024940867376412316,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 9016
    },
    {
      "epoch": 2.0809066666666665,
      "grad_norm": 0.023245415318860162,
      "learning_rate": 0.0001,
      "loss": 0.8678,
      "step": 9017
    },
    {
      "epoch": 2.08096,
      "grad_norm": 0.024809965437677994,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "step": 9018
    },
    {
      "epoch": 2.0810133333333334,
      "grad_norm": 0.023189166248648915,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 9019
    },
    {
      "epoch": 2.0810666666666666,
      "grad_norm": 0.024341766152183357,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 9020
    },
    {
      "epoch": 2.08112,
      "grad_norm": 0.024528432393234212,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 9021
    },
    {
      "epoch": 2.0811733333333335,
      "grad_norm": 0.025198104181381485,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 9022
    },
    {
      "epoch": 2.081226666666667,
      "grad_norm": 0.024492536307471422,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 9023
    },
    {
      "epoch": 2.08128,
      "grad_norm": 0.024257661770376263,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 9024
    },
    {
      "epoch": 2.0813333333333333,
      "grad_norm": 0.025605010505499237,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 9025
    },
    {
      "epoch": 2.0813866666666665,
      "grad_norm": 0.023521154964853578,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 9026
    },
    {
      "epoch": 2.08144,
      "grad_norm": 0.02355105174110394,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 9027
    },
    {
      "epoch": 2.0814933333333334,
      "grad_norm": 0.023582436245482678,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 9028
    },
    {
      "epoch": 2.0815466666666667,
      "grad_norm": 0.026264866473149465,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 9029
    },
    {
      "epoch": 2.0816,
      "grad_norm": 0.023281665793807495,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 9030
    },
    {
      "epoch": 2.081653333333333,
      "grad_norm": 0.025230656538140033,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 9031
    },
    {
      "epoch": 2.081706666666667,
      "grad_norm": 0.025405360003029554,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 9032
    },
    {
      "epoch": 2.08176,
      "grad_norm": 0.024143517396161506,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 9033
    },
    {
      "epoch": 2.0818133333333333,
      "grad_norm": 0.02550625858083241,
      "learning_rate": 0.0001,
      "loss": 1.0161,
      "step": 9034
    },
    {
      "epoch": 2.0818666666666665,
      "grad_norm": 0.024907947499620466,
      "learning_rate": 0.0001,
      "loss": 0.9994,
      "step": 9035
    },
    {
      "epoch": 2.08192,
      "grad_norm": 0.022610561173634587,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 9036
    },
    {
      "epoch": 2.0819733333333335,
      "grad_norm": 0.025187327875498502,
      "learning_rate": 0.0001,
      "loss": 1.0731,
      "step": 9037
    },
    {
      "epoch": 2.0820266666666667,
      "grad_norm": 0.026443382702086272,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 9038
    },
    {
      "epoch": 2.08208,
      "grad_norm": 0.02426550923854434,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 9039
    },
    {
      "epoch": 2.082133333333333,
      "grad_norm": 0.026701411342809653,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 9040
    },
    {
      "epoch": 2.082186666666667,
      "grad_norm": 0.022089329117507484,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 9041
    },
    {
      "epoch": 2.08224,
      "grad_norm": 0.024188073885059582,
      "learning_rate": 0.0001,
      "loss": 0.9666,
      "step": 9042
    },
    {
      "epoch": 2.0822933333333333,
      "grad_norm": 0.023853109119032483,
      "learning_rate": 0.0001,
      "loss": 0.898,
      "step": 9043
    },
    {
      "epoch": 2.0823466666666666,
      "grad_norm": 0.023321722786849873,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 9044
    },
    {
      "epoch": 2.0824,
      "grad_norm": 0.025410755463430214,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 9045
    },
    {
      "epoch": 2.0824533333333335,
      "grad_norm": 0.024009458532919466,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 9046
    },
    {
      "epoch": 2.0825066666666667,
      "grad_norm": 0.023569220599376654,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 9047
    },
    {
      "epoch": 2.08256,
      "grad_norm": 0.022841690843712507,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 9048
    },
    {
      "epoch": 2.082613333333333,
      "grad_norm": 0.024194845883435415,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 9049
    },
    {
      "epoch": 2.0826666666666664,
      "grad_norm": 0.024004436443914763,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 9050
    },
    {
      "epoch": 2.08272,
      "grad_norm": 0.022889768881705463,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 9051
    },
    {
      "epoch": 2.0827733333333334,
      "grad_norm": 0.022816099663723048,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 9052
    },
    {
      "epoch": 2.0828266666666666,
      "grad_norm": 0.023522623788248154,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 9053
    },
    {
      "epoch": 2.08288,
      "grad_norm": 0.022967369551198824,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 9054
    },
    {
      "epoch": 2.0829333333333335,
      "grad_norm": 0.026261968030193695,
      "learning_rate": 0.0001,
      "loss": 1.0258,
      "step": 9055
    },
    {
      "epoch": 2.0829866666666668,
      "grad_norm": 0.021676699720377023,
      "learning_rate": 0.0001,
      "loss": 0.9134,
      "step": 9056
    },
    {
      "epoch": 2.08304,
      "grad_norm": 0.0231627177249165,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 9057
    },
    {
      "epoch": 2.0830933333333332,
      "grad_norm": 0.025847109193812497,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 9058
    },
    {
      "epoch": 2.0831466666666665,
      "grad_norm": 0.02518435150106906,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 9059
    },
    {
      "epoch": 2.0832,
      "grad_norm": 0.02188169496221701,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 9060
    },
    {
      "epoch": 2.0832533333333334,
      "grad_norm": 0.023850087606201116,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 9061
    },
    {
      "epoch": 2.0833066666666666,
      "grad_norm": 0.022549425968177154,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 9062
    },
    {
      "epoch": 2.08336,
      "grad_norm": 0.024848870692921205,
      "learning_rate": 0.0001,
      "loss": 0.9073,
      "step": 9063
    },
    {
      "epoch": 2.0834133333333336,
      "grad_norm": 0.023948821310627266,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 9064
    },
    {
      "epoch": 2.083466666666667,
      "grad_norm": 0.022119771849966507,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 9065
    },
    {
      "epoch": 2.08352,
      "grad_norm": 0.024343343916797842,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 9066
    },
    {
      "epoch": 2.0835733333333333,
      "grad_norm": 0.024741293047741923,
      "learning_rate": 0.0001,
      "loss": 1.0189,
      "step": 9067
    },
    {
      "epoch": 2.0836266666666665,
      "grad_norm": 0.023864493858482806,
      "learning_rate": 0.0001,
      "loss": 1.0348,
      "step": 9068
    },
    {
      "epoch": 2.08368,
      "grad_norm": 0.025605701563136525,
      "learning_rate": 0.0001,
      "loss": 0.923,
      "step": 9069
    },
    {
      "epoch": 2.0837333333333334,
      "grad_norm": 0.02388271887018704,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 9070
    },
    {
      "epoch": 2.0837866666666667,
      "grad_norm": 0.025731120824637518,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 9071
    },
    {
      "epoch": 2.08384,
      "grad_norm": 0.0248794247075788,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 9072
    },
    {
      "epoch": 2.083893333333333,
      "grad_norm": 0.024553783225805047,
      "learning_rate": 0.0001,
      "loss": 0.8848,
      "step": 9073
    },
    {
      "epoch": 2.083946666666667,
      "grad_norm": 0.0235984636022715,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 9074
    },
    {
      "epoch": 2.084,
      "grad_norm": 0.023845873349194673,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 9075
    },
    {
      "epoch": 2.0840533333333333,
      "grad_norm": 0.02245587553522472,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 9076
    },
    {
      "epoch": 2.0841066666666666,
      "grad_norm": 0.0274036868153927,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 9077
    },
    {
      "epoch": 2.08416,
      "grad_norm": 0.02359678895842327,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 9078
    },
    {
      "epoch": 2.0842133333333335,
      "grad_norm": 0.02414672105104457,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 9079
    },
    {
      "epoch": 2.0842666666666667,
      "grad_norm": 0.023966035203824097,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 9080
    },
    {
      "epoch": 2.08432,
      "grad_norm": 0.024268900451478698,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 9081
    },
    {
      "epoch": 2.084373333333333,
      "grad_norm": 0.023014023101622552,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 9082
    },
    {
      "epoch": 2.084426666666667,
      "grad_norm": 0.022436307949477517,
      "learning_rate": 0.0001,
      "loss": 1.0107,
      "step": 9083
    },
    {
      "epoch": 2.08448,
      "grad_norm": 0.024428998827966182,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 9084
    },
    {
      "epoch": 2.0845333333333333,
      "grad_norm": 0.02351519124202221,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 9085
    },
    {
      "epoch": 2.0845866666666666,
      "grad_norm": 0.023905431300307204,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 9086
    },
    {
      "epoch": 2.08464,
      "grad_norm": 0.024451345025856653,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 9087
    },
    {
      "epoch": 2.0846933333333335,
      "grad_norm": 0.021884506698428643,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 9088
    },
    {
      "epoch": 2.0847466666666667,
      "grad_norm": 0.02289436669007997,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 9089
    },
    {
      "epoch": 2.0848,
      "grad_norm": 0.023238679261571575,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 9090
    },
    {
      "epoch": 2.0848533333333332,
      "grad_norm": 0.02350637437194403,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 9091
    },
    {
      "epoch": 2.0849066666666665,
      "grad_norm": 0.022821635184358577,
      "learning_rate": 0.0001,
      "loss": 0.9381,
      "step": 9092
    },
    {
      "epoch": 2.08496,
      "grad_norm": 0.024662420880057538,
      "learning_rate": 0.0001,
      "loss": 0.8863,
      "step": 9093
    },
    {
      "epoch": 2.0850133333333334,
      "grad_norm": 0.024901759212783522,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9094
    },
    {
      "epoch": 2.0850666666666666,
      "grad_norm": 0.02438481778336074,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 9095
    },
    {
      "epoch": 2.08512,
      "grad_norm": 0.024113257412137414,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 9096
    },
    {
      "epoch": 2.0851733333333335,
      "grad_norm": 0.02299891701455483,
      "learning_rate": 0.0001,
      "loss": 1.012,
      "step": 9097
    },
    {
      "epoch": 2.085226666666667,
      "grad_norm": 0.022564269034347335,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 9098
    },
    {
      "epoch": 2.08528,
      "grad_norm": 0.023376804477809963,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 9099
    },
    {
      "epoch": 2.0853333333333333,
      "grad_norm": 0.023902036081599853,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 9100
    },
    {
      "epoch": 2.0853866666666665,
      "grad_norm": 0.02398648394335246,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 9101
    },
    {
      "epoch": 2.08544,
      "grad_norm": 0.025670257720763003,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 9102
    },
    {
      "epoch": 2.0854933333333334,
      "grad_norm": 0.022996102358267045,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 9103
    },
    {
      "epoch": 2.0855466666666667,
      "grad_norm": 0.023452564579154022,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 9104
    },
    {
      "epoch": 2.0856,
      "grad_norm": 0.023991005870054784,
      "learning_rate": 0.0001,
      "loss": 0.979,
      "step": 9105
    },
    {
      "epoch": 2.085653333333333,
      "grad_norm": 0.025701606246732005,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9106
    },
    {
      "epoch": 2.085706666666667,
      "grad_norm": 0.023470286947451253,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 9107
    },
    {
      "epoch": 2.08576,
      "grad_norm": 0.023917124243911264,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 9108
    },
    {
      "epoch": 2.0858133333333333,
      "grad_norm": 0.02513894198027282,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 9109
    },
    {
      "epoch": 2.0858666666666665,
      "grad_norm": 0.023469189811325546,
      "learning_rate": 0.0001,
      "loss": 0.8933,
      "step": 9110
    },
    {
      "epoch": 2.0859199999999998,
      "grad_norm": 0.023151860893931096,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "step": 9111
    },
    {
      "epoch": 2.0859733333333335,
      "grad_norm": 0.023623036049242485,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 9112
    },
    {
      "epoch": 2.0860266666666667,
      "grad_norm": 0.023687450561472617,
      "learning_rate": 0.0001,
      "loss": 1.0001,
      "step": 9113
    },
    {
      "epoch": 2.08608,
      "grad_norm": 0.025395268485220515,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 9114
    },
    {
      "epoch": 2.086133333333333,
      "grad_norm": 0.022802853943307312,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 9115
    },
    {
      "epoch": 2.086186666666667,
      "grad_norm": 0.02455104676265106,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 9116
    },
    {
      "epoch": 2.08624,
      "grad_norm": 0.023370819368425593,
      "learning_rate": 0.0001,
      "loss": 0.8738,
      "step": 9117
    },
    {
      "epoch": 2.0862933333333333,
      "grad_norm": 0.027038033928695086,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 9118
    },
    {
      "epoch": 2.0863466666666666,
      "grad_norm": 0.02389834037868901,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 9119
    },
    {
      "epoch": 2.0864,
      "grad_norm": 0.02300772692428526,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 9120
    },
    {
      "epoch": 2.0864533333333335,
      "grad_norm": 0.02397768611201968,
      "learning_rate": 0.0001,
      "loss": 0.9782,
      "step": 9121
    },
    {
      "epoch": 2.0865066666666667,
      "grad_norm": 0.02444183482154236,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 9122
    },
    {
      "epoch": 2.08656,
      "grad_norm": 0.02441788464973298,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 9123
    },
    {
      "epoch": 2.086613333333333,
      "grad_norm": 0.02387162862545705,
      "learning_rate": 0.0001,
      "loss": 0.9288,
      "step": 9124
    },
    {
      "epoch": 2.086666666666667,
      "grad_norm": 0.02573204461282782,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 9125
    },
    {
      "epoch": 2.08672,
      "grad_norm": 0.023427983941621485,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 9126
    },
    {
      "epoch": 2.0867733333333334,
      "grad_norm": 0.02291216453199992,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 9127
    },
    {
      "epoch": 2.0868266666666666,
      "grad_norm": 0.023926140336135715,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 9128
    },
    {
      "epoch": 2.08688,
      "grad_norm": 0.0223035487132163,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 9129
    },
    {
      "epoch": 2.0869333333333335,
      "grad_norm": 0.025200102932127065,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "step": 9130
    },
    {
      "epoch": 2.0869866666666668,
      "grad_norm": 0.023584187640044905,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 9131
    },
    {
      "epoch": 2.08704,
      "grad_norm": 0.023808421935876244,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 9132
    },
    {
      "epoch": 2.0870933333333332,
      "grad_norm": 0.02481695336079991,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 9133
    },
    {
      "epoch": 2.0871466666666665,
      "grad_norm": 0.023926448116963445,
      "learning_rate": 0.0001,
      "loss": 0.8784,
      "step": 9134
    },
    {
      "epoch": 2.0872,
      "grad_norm": 0.022876383087172446,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 9135
    },
    {
      "epoch": 2.0872533333333334,
      "grad_norm": 0.023794014972565856,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 9136
    },
    {
      "epoch": 2.0873066666666666,
      "grad_norm": 0.02691827759028359,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 9137
    },
    {
      "epoch": 2.08736,
      "grad_norm": 0.022558474297368996,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 9138
    },
    {
      "epoch": 2.087413333333333,
      "grad_norm": 0.024389848173186533,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 9139
    },
    {
      "epoch": 2.087466666666667,
      "grad_norm": 0.022585961059489092,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 9140
    },
    {
      "epoch": 2.08752,
      "grad_norm": 0.025093331507426198,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 9141
    },
    {
      "epoch": 2.0875733333333333,
      "grad_norm": 0.024366219636298328,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 9142
    },
    {
      "epoch": 2.0876266666666665,
      "grad_norm": 0.02265807804114779,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 9143
    },
    {
      "epoch": 2.08768,
      "grad_norm": 0.02371395685080468,
      "learning_rate": 0.0001,
      "loss": 1.0296,
      "step": 9144
    },
    {
      "epoch": 2.0877333333333334,
      "grad_norm": 0.022898770481009075,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 9145
    },
    {
      "epoch": 2.0877866666666667,
      "grad_norm": 0.023951183157092347,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 9146
    },
    {
      "epoch": 2.08784,
      "grad_norm": 0.022046720451594365,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 9147
    },
    {
      "epoch": 2.087893333333333,
      "grad_norm": 0.02440639962460925,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 9148
    },
    {
      "epoch": 2.087946666666667,
      "grad_norm": 0.02350582022346445,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 9149
    },
    {
      "epoch": 2.088,
      "grad_norm": 0.02361777803572139,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 9150
    },
    {
      "epoch": 2.0880533333333333,
      "grad_norm": 0.02252385878661514,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 9151
    },
    {
      "epoch": 2.0881066666666666,
      "grad_norm": 0.02285452984123858,
      "learning_rate": 0.0001,
      "loss": 1.0333,
      "step": 9152
    },
    {
      "epoch": 2.08816,
      "grad_norm": 0.023311836949323074,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 9153
    },
    {
      "epoch": 2.0882133333333335,
      "grad_norm": 0.025365656318026963,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 9154
    },
    {
      "epoch": 2.0882666666666667,
      "grad_norm": 0.0225621415181967,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 9155
    },
    {
      "epoch": 2.08832,
      "grad_norm": 0.02378649008957864,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 9156
    },
    {
      "epoch": 2.088373333333333,
      "grad_norm": 0.023628831712844134,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 9157
    },
    {
      "epoch": 2.088426666666667,
      "grad_norm": 0.022925132665392894,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 9158
    },
    {
      "epoch": 2.08848,
      "grad_norm": 0.02243026376755928,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 9159
    },
    {
      "epoch": 2.0885333333333334,
      "grad_norm": 0.024501106632319067,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 9160
    },
    {
      "epoch": 2.0885866666666666,
      "grad_norm": 0.023136856409955508,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 9161
    },
    {
      "epoch": 2.08864,
      "grad_norm": 0.024100983183310158,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 9162
    },
    {
      "epoch": 2.0886933333333335,
      "grad_norm": 0.025152346103867823,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 9163
    },
    {
      "epoch": 2.0887466666666668,
      "grad_norm": 0.024509680270246297,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 9164
    },
    {
      "epoch": 2.0888,
      "grad_norm": 0.024059358699883474,
      "learning_rate": 0.0001,
      "loss": 1.0503,
      "step": 9165
    },
    {
      "epoch": 2.0888533333333332,
      "grad_norm": 0.02273673830964979,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 9166
    },
    {
      "epoch": 2.0889066666666665,
      "grad_norm": 0.024393756271096783,
      "learning_rate": 0.0001,
      "loss": 0.8936,
      "step": 9167
    },
    {
      "epoch": 2.08896,
      "grad_norm": 0.023325890114332,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 9168
    },
    {
      "epoch": 2.0890133333333334,
      "grad_norm": 0.022726897112801396,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 9169
    },
    {
      "epoch": 2.0890666666666666,
      "grad_norm": 0.022582727499761555,
      "learning_rate": 0.0001,
      "loss": 0.8772,
      "step": 9170
    },
    {
      "epoch": 2.08912,
      "grad_norm": 0.02349748454807148,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 9171
    },
    {
      "epoch": 2.089173333333333,
      "grad_norm": 0.022534942069530137,
      "learning_rate": 0.0001,
      "loss": 1.0431,
      "step": 9172
    },
    {
      "epoch": 2.089226666666667,
      "grad_norm": 0.022475489347877423,
      "learning_rate": 0.0001,
      "loss": 0.9087,
      "step": 9173
    },
    {
      "epoch": 2.08928,
      "grad_norm": 0.022489338714514386,
      "learning_rate": 0.0001,
      "loss": 0.9251,
      "step": 9174
    },
    {
      "epoch": 2.0893333333333333,
      "grad_norm": 0.02248894117311609,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 9175
    },
    {
      "epoch": 2.0893866666666665,
      "grad_norm": 0.022132776109895606,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 9176
    },
    {
      "epoch": 2.08944,
      "grad_norm": 0.023653706715421313,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 9177
    },
    {
      "epoch": 2.0894933333333334,
      "grad_norm": 0.024167451119653748,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "step": 9178
    },
    {
      "epoch": 2.0895466666666667,
      "grad_norm": 0.0244017038843601,
      "learning_rate": 0.0001,
      "loss": 1.0441,
      "step": 9179
    },
    {
      "epoch": 2.0896,
      "grad_norm": 0.021811053936345016,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 9180
    },
    {
      "epoch": 2.089653333333333,
      "grad_norm": 0.024250869392779203,
      "learning_rate": 0.0001,
      "loss": 0.9213,
      "step": 9181
    },
    {
      "epoch": 2.089706666666667,
      "grad_norm": 0.02234319434204407,
      "learning_rate": 0.0001,
      "loss": 0.8864,
      "step": 9182
    },
    {
      "epoch": 2.08976,
      "grad_norm": 0.02407182743721561,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 9183
    },
    {
      "epoch": 2.0898133333333333,
      "grad_norm": 0.024262552247102578,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 9184
    },
    {
      "epoch": 2.0898666666666665,
      "grad_norm": 0.023178578745170545,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 9185
    },
    {
      "epoch": 2.08992,
      "grad_norm": 0.02381485916608154,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 9186
    },
    {
      "epoch": 2.0899733333333335,
      "grad_norm": 0.023810873466638002,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 9187
    },
    {
      "epoch": 2.0900266666666667,
      "grad_norm": 0.02954173184954204,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "step": 9188
    },
    {
      "epoch": 2.09008,
      "grad_norm": 0.02589370797010266,
      "learning_rate": 0.0001,
      "loss": 0.9249,
      "step": 9189
    },
    {
      "epoch": 2.090133333333333,
      "grad_norm": 0.027278889362090726,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 9190
    },
    {
      "epoch": 2.090186666666667,
      "grad_norm": 0.024052031464585018,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 9191
    },
    {
      "epoch": 2.09024,
      "grad_norm": 0.024599123385071874,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 9192
    },
    {
      "epoch": 2.0902933333333333,
      "grad_norm": 0.024025557602902474,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 9193
    },
    {
      "epoch": 2.0903466666666666,
      "grad_norm": 0.02397143974587416,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 9194
    },
    {
      "epoch": 2.0904,
      "grad_norm": 0.024857363884276718,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 9195
    },
    {
      "epoch": 2.0904533333333335,
      "grad_norm": 0.023848751345108686,
      "learning_rate": 0.0001,
      "loss": 1.0077,
      "step": 9196
    },
    {
      "epoch": 2.0905066666666667,
      "grad_norm": 0.02530453619549741,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 9197
    },
    {
      "epoch": 2.09056,
      "grad_norm": 0.024366278944529186,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 9198
    },
    {
      "epoch": 2.090613333333333,
      "grad_norm": 0.02633363238570736,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 9199
    },
    {
      "epoch": 2.0906666666666665,
      "grad_norm": 0.02278590366132861,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 9200
    },
    {
      "epoch": 2.0906666666666665,
      "eval_accuracy": 0.6207022322448051,
      "eval_loss": 1.3514800071716309,
      "eval_runtime": 62.9137,
      "eval_samples_per_second": 15.895,
      "eval_steps_per_second": 0.509,
      "step": 9200
    },
    {
      "epoch": 2.09072,
      "grad_norm": 0.023673021969888266,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 9201
    },
    {
      "epoch": 2.0907733333333334,
      "grad_norm": 0.0243030337158512,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 9202
    },
    {
      "epoch": 2.0908266666666666,
      "grad_norm": 0.023580518773378738,
      "learning_rate": 0.0001,
      "loss": 1.0156,
      "step": 9203
    },
    {
      "epoch": 2.09088,
      "grad_norm": 0.023547100724177376,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 9204
    },
    {
      "epoch": 2.0909333333333335,
      "grad_norm": 0.024319568932897648,
      "learning_rate": 0.0001,
      "loss": 0.9904,
      "step": 9205
    },
    {
      "epoch": 2.0909866666666668,
      "grad_norm": 0.02639729884964668,
      "learning_rate": 0.0001,
      "loss": 0.9679,
      "step": 9206
    },
    {
      "epoch": 2.09104,
      "grad_norm": 0.02711275432021942,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 9207
    },
    {
      "epoch": 2.0910933333333332,
      "grad_norm": 0.026486398990002512,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 9208
    },
    {
      "epoch": 2.0911466666666665,
      "grad_norm": 0.026925562213840425,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 9209
    },
    {
      "epoch": 2.0912,
      "grad_norm": 0.02428536269282137,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 9210
    },
    {
      "epoch": 2.0912533333333334,
      "grad_norm": 0.025378618915158375,
      "learning_rate": 0.0001,
      "loss": 1.0058,
      "step": 9211
    },
    {
      "epoch": 2.0913066666666666,
      "grad_norm": 0.02412719226761102,
      "learning_rate": 0.0001,
      "loss": 0.9021,
      "step": 9212
    },
    {
      "epoch": 2.09136,
      "grad_norm": 0.022883219859625242,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 9213
    },
    {
      "epoch": 2.091413333333333,
      "grad_norm": 0.02595297496256065,
      "learning_rate": 0.0001,
      "loss": 0.9525,
      "step": 9214
    },
    {
      "epoch": 2.091466666666667,
      "grad_norm": 0.02413995856531258,
      "learning_rate": 0.0001,
      "loss": 0.8972,
      "step": 9215
    },
    {
      "epoch": 2.09152,
      "grad_norm": 0.024456388146097574,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 9216
    },
    {
      "epoch": 2.0915733333333333,
      "grad_norm": 0.025192279345177034,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 9217
    },
    {
      "epoch": 2.0916266666666665,
      "grad_norm": 0.02430626291335282,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 9218
    },
    {
      "epoch": 2.09168,
      "grad_norm": 0.022624737693439048,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 9219
    },
    {
      "epoch": 2.0917333333333334,
      "grad_norm": 0.02626969022360596,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 9220
    },
    {
      "epoch": 2.0917866666666667,
      "grad_norm": 0.02345399362325379,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 9221
    },
    {
      "epoch": 2.09184,
      "grad_norm": 0.025515607276410487,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 9222
    },
    {
      "epoch": 2.091893333333333,
      "grad_norm": 0.023328193254878896,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 9223
    },
    {
      "epoch": 2.091946666666667,
      "grad_norm": 0.025261877662589843,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 9224
    },
    {
      "epoch": 2.092,
      "grad_norm": 0.02379780146555644,
      "learning_rate": 0.0001,
      "loss": 1.0354,
      "step": 9225
    },
    {
      "epoch": 2.0920533333333333,
      "grad_norm": 0.024254253005841053,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 9226
    },
    {
      "epoch": 2.0921066666666666,
      "grad_norm": 0.024883620800339536,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 9227
    },
    {
      "epoch": 2.09216,
      "grad_norm": 0.024671992320537416,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 9228
    },
    {
      "epoch": 2.0922133333333335,
      "grad_norm": 0.024789907673569256,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 9229
    },
    {
      "epoch": 2.0922666666666667,
      "grad_norm": 0.025086460421317364,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 9230
    },
    {
      "epoch": 2.09232,
      "grad_norm": 0.024235137992882405,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 9231
    },
    {
      "epoch": 2.092373333333333,
      "grad_norm": 0.02375415805422163,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 9232
    },
    {
      "epoch": 2.092426666666667,
      "grad_norm": 0.024605811278349116,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 9233
    },
    {
      "epoch": 2.09248,
      "grad_norm": 0.02255750828290023,
      "learning_rate": 0.0001,
      "loss": 0.9073,
      "step": 9234
    },
    {
      "epoch": 2.0925333333333334,
      "grad_norm": 0.025460087511927975,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 9235
    },
    {
      "epoch": 2.0925866666666666,
      "grad_norm": 0.026419212731314545,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 9236
    },
    {
      "epoch": 2.09264,
      "grad_norm": 0.02386336761477542,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 9237
    },
    {
      "epoch": 2.0926933333333335,
      "grad_norm": 0.025193294168809874,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 9238
    },
    {
      "epoch": 2.0927466666666668,
      "grad_norm": 0.02414621466062462,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 9239
    },
    {
      "epoch": 2.0928,
      "grad_norm": 0.02250306366685288,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 9240
    },
    {
      "epoch": 2.0928533333333332,
      "grad_norm": 0.024555751690468947,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 9241
    },
    {
      "epoch": 2.0929066666666665,
      "grad_norm": 0.026493175364501017,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 9242
    },
    {
      "epoch": 2.09296,
      "grad_norm": 0.02482067187457183,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 9243
    },
    {
      "epoch": 2.0930133333333334,
      "grad_norm": 0.021989624375251638,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 9244
    },
    {
      "epoch": 2.0930666666666666,
      "grad_norm": 0.02416314256792942,
      "learning_rate": 0.0001,
      "loss": 0.9812,
      "step": 9245
    },
    {
      "epoch": 2.09312,
      "grad_norm": 0.025564423162818116,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 9246
    },
    {
      "epoch": 2.0931733333333336,
      "grad_norm": 0.02492469591355613,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 9247
    },
    {
      "epoch": 2.093226666666667,
      "grad_norm": 0.02239564516888999,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 9248
    },
    {
      "epoch": 2.09328,
      "grad_norm": 0.024460705377584758,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 9249
    },
    {
      "epoch": 2.0933333333333333,
      "grad_norm": 0.024326687469127698,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 9250
    },
    {
      "epoch": 2.0933866666666665,
      "grad_norm": 0.025139148638176876,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 9251
    },
    {
      "epoch": 2.09344,
      "grad_norm": 0.023371113275365122,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 9252
    },
    {
      "epoch": 2.0934933333333334,
      "grad_norm": 0.026492962097379256,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 9253
    },
    {
      "epoch": 2.0935466666666667,
      "grad_norm": 0.024360646269253886,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 9254
    },
    {
      "epoch": 2.0936,
      "grad_norm": 0.021918092966497698,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 9255
    },
    {
      "epoch": 2.093653333333333,
      "grad_norm": 0.02352613065071253,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 9256
    },
    {
      "epoch": 2.093706666666667,
      "grad_norm": 0.022542982212570808,
      "learning_rate": 0.0001,
      "loss": 0.9108,
      "step": 9257
    },
    {
      "epoch": 2.09376,
      "grad_norm": 0.023456167731854105,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 9258
    },
    {
      "epoch": 2.0938133333333333,
      "grad_norm": 0.023933759200491702,
      "learning_rate": 0.0001,
      "loss": 0.9087,
      "step": 9259
    },
    {
      "epoch": 2.0938666666666665,
      "grad_norm": 0.02481434019497739,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 9260
    },
    {
      "epoch": 2.09392,
      "grad_norm": 0.024057336132992078,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 9261
    },
    {
      "epoch": 2.0939733333333335,
      "grad_norm": 0.02645081872591661,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 9262
    },
    {
      "epoch": 2.0940266666666667,
      "grad_norm": 0.025697328904183674,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 9263
    },
    {
      "epoch": 2.09408,
      "grad_norm": 0.024515119599377536,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 9264
    },
    {
      "epoch": 2.094133333333333,
      "grad_norm": 0.02252679033411646,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 9265
    },
    {
      "epoch": 2.094186666666667,
      "grad_norm": 0.02518388432391877,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 9266
    },
    {
      "epoch": 2.09424,
      "grad_norm": 0.024562866679605316,
      "learning_rate": 0.0001,
      "loss": 0.8975,
      "step": 9267
    },
    {
      "epoch": 2.0942933333333333,
      "grad_norm": 0.02416288074416521,
      "learning_rate": 0.0001,
      "loss": 1.0285,
      "step": 9268
    },
    {
      "epoch": 2.0943466666666666,
      "grad_norm": 0.02365725956545249,
      "learning_rate": 0.0001,
      "loss": 0.9022,
      "step": 9269
    },
    {
      "epoch": 2.0944,
      "grad_norm": 0.023307697965288036,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 9270
    },
    {
      "epoch": 2.0944533333333335,
      "grad_norm": 0.0236994321101022,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 9271
    },
    {
      "epoch": 2.0945066666666667,
      "grad_norm": 0.024282655181487568,
      "learning_rate": 0.0001,
      "loss": 0.9056,
      "step": 9272
    },
    {
      "epoch": 2.09456,
      "grad_norm": 0.022884592231203867,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 9273
    },
    {
      "epoch": 2.094613333333333,
      "grad_norm": 0.028996517544228724,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 9274
    },
    {
      "epoch": 2.0946666666666665,
      "grad_norm": 0.024031003992670153,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 9275
    },
    {
      "epoch": 2.09472,
      "grad_norm": 0.024899581163175324,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 9276
    },
    {
      "epoch": 2.0947733333333334,
      "grad_norm": 0.02369705635099272,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 9277
    },
    {
      "epoch": 2.0948266666666666,
      "grad_norm": 0.02497114738902675,
      "learning_rate": 0.0001,
      "loss": 0.8758,
      "step": 9278
    },
    {
      "epoch": 2.09488,
      "grad_norm": 0.02511201233835456,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 9279
    },
    {
      "epoch": 2.0949333333333335,
      "grad_norm": 0.024601343503314266,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 9280
    },
    {
      "epoch": 2.0949866666666668,
      "grad_norm": 0.024533459324468734,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 9281
    },
    {
      "epoch": 2.09504,
      "grad_norm": 0.02469613819569884,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 9282
    },
    {
      "epoch": 2.0950933333333333,
      "grad_norm": 0.022662980351904467,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 9283
    },
    {
      "epoch": 2.0951466666666665,
      "grad_norm": 0.0238494879009768,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 9284
    },
    {
      "epoch": 2.0952,
      "grad_norm": 0.02218483274440505,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 9285
    },
    {
      "epoch": 2.0952533333333334,
      "grad_norm": 0.022288191924591697,
      "learning_rate": 0.0001,
      "loss": 0.8906,
      "step": 9286
    },
    {
      "epoch": 2.0953066666666667,
      "grad_norm": 0.025167915814781523,
      "learning_rate": 0.0001,
      "loss": 0.8984,
      "step": 9287
    },
    {
      "epoch": 2.09536,
      "grad_norm": 0.02441055056997549,
      "learning_rate": 0.0001,
      "loss": 1.005,
      "step": 9288
    },
    {
      "epoch": 2.095413333333333,
      "grad_norm": 0.022980885284802664,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 9289
    },
    {
      "epoch": 2.095466666666667,
      "grad_norm": 0.024854361830772925,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 9290
    },
    {
      "epoch": 2.09552,
      "grad_norm": 0.02566286304848216,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 9291
    },
    {
      "epoch": 2.0955733333333333,
      "grad_norm": 0.025137081465372538,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 9292
    },
    {
      "epoch": 2.0956266666666665,
      "grad_norm": 0.024014267454658414,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 9293
    },
    {
      "epoch": 2.09568,
      "grad_norm": 0.024651905146708956,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 9294
    },
    {
      "epoch": 2.0957333333333334,
      "grad_norm": 0.02357589233000887,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 9295
    },
    {
      "epoch": 2.0957866666666667,
      "grad_norm": 0.025078595768167723,
      "learning_rate": 0.0001,
      "loss": 0.9125,
      "step": 9296
    },
    {
      "epoch": 2.09584,
      "grad_norm": 0.02506113654160896,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 9297
    },
    {
      "epoch": 2.095893333333333,
      "grad_norm": 0.025508001923139935,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 9298
    },
    {
      "epoch": 2.095946666666667,
      "grad_norm": 0.024100738442334818,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 9299
    },
    {
      "epoch": 2.096,
      "grad_norm": 0.02355491469713443,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 9300
    },
    {
      "epoch": 2.0960533333333333,
      "grad_norm": 0.024511275914418516,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 9301
    },
    {
      "epoch": 2.0961066666666666,
      "grad_norm": 0.025091610086532126,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 9302
    },
    {
      "epoch": 2.09616,
      "grad_norm": 0.023806330181489397,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 9303
    },
    {
      "epoch": 2.0962133333333335,
      "grad_norm": 0.022738020833448874,
      "learning_rate": 0.0001,
      "loss": 0.9132,
      "step": 9304
    },
    {
      "epoch": 2.0962666666666667,
      "grad_norm": 0.023855588434957543,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 9305
    },
    {
      "epoch": 2.09632,
      "grad_norm": 0.0243588829260441,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 9306
    },
    {
      "epoch": 2.096373333333333,
      "grad_norm": 0.023816135081644117,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 9307
    },
    {
      "epoch": 2.096426666666667,
      "grad_norm": 0.023719196957390314,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 9308
    },
    {
      "epoch": 2.09648,
      "grad_norm": 0.024531694324963053,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 9309
    },
    {
      "epoch": 2.0965333333333334,
      "grad_norm": 0.025199223622214235,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 9310
    },
    {
      "epoch": 2.0965866666666666,
      "grad_norm": 0.024820364299623206,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 9311
    },
    {
      "epoch": 2.09664,
      "grad_norm": 0.025806103794436302,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 9312
    },
    {
      "epoch": 2.0966933333333335,
      "grad_norm": 0.02615924678936425,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 9313
    },
    {
      "epoch": 2.0967466666666668,
      "grad_norm": 0.022644789032377047,
      "learning_rate": 0.0001,
      "loss": 0.911,
      "step": 9314
    },
    {
      "epoch": 2.0968,
      "grad_norm": 0.023735145139329283,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 9315
    },
    {
      "epoch": 2.0968533333333332,
      "grad_norm": 0.02334757414747277,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 9316
    },
    {
      "epoch": 2.0969066666666665,
      "grad_norm": 0.023722767701135794,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 9317
    },
    {
      "epoch": 2.09696,
      "grad_norm": 0.025687775674475867,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 9318
    },
    {
      "epoch": 2.0970133333333334,
      "grad_norm": 0.022371200018166792,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 9319
    },
    {
      "epoch": 2.0970666666666666,
      "grad_norm": 0.02220673182729142,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 9320
    },
    {
      "epoch": 2.09712,
      "grad_norm": 0.023086552969235636,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 9321
    },
    {
      "epoch": 2.097173333333333,
      "grad_norm": 0.0235259236357612,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 9322
    },
    {
      "epoch": 2.097226666666667,
      "grad_norm": 0.02417997971176397,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 9323
    },
    {
      "epoch": 2.09728,
      "grad_norm": 0.022639562095551197,
      "learning_rate": 0.0001,
      "loss": 1.0303,
      "step": 9324
    },
    {
      "epoch": 2.0973333333333333,
      "grad_norm": 0.025184389269612324,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 9325
    },
    {
      "epoch": 2.0973866666666665,
      "grad_norm": 0.024162691048704374,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 9326
    },
    {
      "epoch": 2.09744,
      "grad_norm": 0.022759063322672076,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 9327
    },
    {
      "epoch": 2.0974933333333334,
      "grad_norm": 0.02309210096500775,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9328
    },
    {
      "epoch": 2.0975466666666667,
      "grad_norm": 0.022709643033349592,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 9329
    },
    {
      "epoch": 2.0976,
      "grad_norm": 0.02429255312115088,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 9330
    },
    {
      "epoch": 2.097653333333333,
      "grad_norm": 0.02206791603251222,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 9331
    },
    {
      "epoch": 2.097706666666667,
      "grad_norm": 0.022925850553015048,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 9332
    },
    {
      "epoch": 2.09776,
      "grad_norm": 0.023154010880210775,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 9333
    },
    {
      "epoch": 2.0978133333333333,
      "grad_norm": 0.02420893009107783,
      "learning_rate": 0.0001,
      "loss": 0.9949,
      "step": 9334
    },
    {
      "epoch": 2.0978666666666665,
      "grad_norm": 0.02350051962354703,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "step": 9335
    },
    {
      "epoch": 2.09792,
      "grad_norm": 0.022672160086967628,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 9336
    },
    {
      "epoch": 2.0979733333333335,
      "grad_norm": 0.023634542108429375,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 9337
    },
    {
      "epoch": 2.0980266666666667,
      "grad_norm": 0.024542626608618664,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 9338
    },
    {
      "epoch": 2.09808,
      "grad_norm": 0.02447664138961189,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 9339
    },
    {
      "epoch": 2.098133333333333,
      "grad_norm": 0.023525400748515037,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 9340
    },
    {
      "epoch": 2.098186666666667,
      "grad_norm": 0.024489525998751503,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "step": 9341
    },
    {
      "epoch": 2.09824,
      "grad_norm": 0.022639467204392905,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 9342
    },
    {
      "epoch": 2.0982933333333333,
      "grad_norm": 0.023079873701134658,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 9343
    },
    {
      "epoch": 2.0983466666666666,
      "grad_norm": 0.024034151549518594,
      "learning_rate": 0.0001,
      "loss": 1.0059,
      "step": 9344
    },
    {
      "epoch": 2.0984,
      "grad_norm": 0.023601719186629594,
      "learning_rate": 0.0001,
      "loss": 1.0037,
      "step": 9345
    },
    {
      "epoch": 2.0984533333333335,
      "grad_norm": 0.024422584378638375,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 9346
    },
    {
      "epoch": 2.0985066666666667,
      "grad_norm": 0.027552291363198235,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 9347
    },
    {
      "epoch": 2.09856,
      "grad_norm": 0.022494217576548885,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 9348
    },
    {
      "epoch": 2.098613333333333,
      "grad_norm": 0.02193935385135902,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 9349
    },
    {
      "epoch": 2.0986666666666665,
      "grad_norm": 0.027196092559741803,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 9350
    },
    {
      "epoch": 2.09872,
      "grad_norm": 0.02430588230683864,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 9351
    },
    {
      "epoch": 2.0987733333333334,
      "grad_norm": 0.02376101072027126,
      "learning_rate": 0.0001,
      "loss": 0.92,
      "step": 9352
    },
    {
      "epoch": 2.0988266666666666,
      "grad_norm": 0.023626506889473164,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 9353
    },
    {
      "epoch": 2.09888,
      "grad_norm": 0.023052661714786385,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 9354
    },
    {
      "epoch": 2.0989333333333335,
      "grad_norm": 0.024503356095813673,
      "learning_rate": 0.0001,
      "loss": 0.9982,
      "step": 9355
    },
    {
      "epoch": 2.098986666666667,
      "grad_norm": 0.022619904260227735,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 9356
    },
    {
      "epoch": 2.09904,
      "grad_norm": 0.026719641494744144,
      "learning_rate": 0.0001,
      "loss": 0.9157,
      "step": 9357
    },
    {
      "epoch": 2.0990933333333333,
      "grad_norm": 0.02312760812901856,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 9358
    },
    {
      "epoch": 2.0991466666666665,
      "grad_norm": 0.022332923529696336,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 9359
    },
    {
      "epoch": 2.0992,
      "grad_norm": 0.02348239077241512,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 9360
    },
    {
      "epoch": 2.0992533333333334,
      "grad_norm": 0.025151542946478426,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 9361
    },
    {
      "epoch": 2.0993066666666667,
      "grad_norm": 0.022963192692135197,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 9362
    },
    {
      "epoch": 2.09936,
      "grad_norm": 0.024813255008311604,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 9363
    },
    {
      "epoch": 2.099413333333333,
      "grad_norm": 0.02536773004119846,
      "learning_rate": 0.0001,
      "loss": 0.8997,
      "step": 9364
    },
    {
      "epoch": 2.099466666666667,
      "grad_norm": 0.023708192628971964,
      "learning_rate": 0.0001,
      "loss": 0.9183,
      "step": 9365
    },
    {
      "epoch": 2.09952,
      "grad_norm": 0.022879063831807257,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 9366
    },
    {
      "epoch": 2.0995733333333333,
      "grad_norm": 0.022866630233813516,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 9367
    },
    {
      "epoch": 2.0996266666666665,
      "grad_norm": 0.024089852901281544,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 9368
    },
    {
      "epoch": 2.09968,
      "grad_norm": 0.02327304209665751,
      "learning_rate": 0.0001,
      "loss": 1.0261,
      "step": 9369
    },
    {
      "epoch": 2.0997333333333335,
      "grad_norm": 0.02385709578859501,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 9370
    },
    {
      "epoch": 2.0997866666666667,
      "grad_norm": 0.02432921825339004,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 9371
    },
    {
      "epoch": 2.09984,
      "grad_norm": 0.02342700936060369,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 9372
    },
    {
      "epoch": 2.099893333333333,
      "grad_norm": 0.02480005453417022,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 9373
    },
    {
      "epoch": 2.099946666666667,
      "grad_norm": 0.024363188305722542,
      "learning_rate": 0.0001,
      "loss": 1.0116,
      "step": 9374
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.02322086610515233,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 9375
    },
    {
      "epoch": 2.1000533333333333,
      "grad_norm": 0.023435632589782398,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 9376
    },
    {
      "epoch": 2.1001066666666666,
      "grad_norm": 0.02391274993441289,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 9377
    },
    {
      "epoch": 2.10016,
      "grad_norm": 0.024496698034859942,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 9378
    },
    {
      "epoch": 2.1002133333333335,
      "grad_norm": 0.025241323239010766,
      "learning_rate": 0.0001,
      "loss": 0.985,
      "step": 9379
    },
    {
      "epoch": 2.1002666666666667,
      "grad_norm": 0.022748427693877502,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 9380
    },
    {
      "epoch": 2.10032,
      "grad_norm": 0.023576724295643104,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 9381
    },
    {
      "epoch": 2.100373333333333,
      "grad_norm": 0.022761753016078197,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 9382
    },
    {
      "epoch": 2.1004266666666664,
      "grad_norm": 0.02369666462427787,
      "learning_rate": 0.0001,
      "loss": 1.0395,
      "step": 9383
    },
    {
      "epoch": 2.10048,
      "grad_norm": 0.02320929868370111,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 9384
    },
    {
      "epoch": 2.1005333333333334,
      "grad_norm": 0.025040705391912214,
      "learning_rate": 0.0001,
      "loss": 1.0177,
      "step": 9385
    },
    {
      "epoch": 2.1005866666666666,
      "grad_norm": 0.024131213985704083,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 9386
    },
    {
      "epoch": 2.10064,
      "grad_norm": 0.024569547007526345,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 9387
    },
    {
      "epoch": 2.1006933333333335,
      "grad_norm": 0.0232760725042702,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 9388
    },
    {
      "epoch": 2.1007466666666668,
      "grad_norm": 0.026158651352159466,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 9389
    },
    {
      "epoch": 2.1008,
      "grad_norm": 0.024342598689928767,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 9390
    },
    {
      "epoch": 2.1008533333333332,
      "grad_norm": 0.023940600879353967,
      "learning_rate": 0.0001,
      "loss": 0.9439,
      "step": 9391
    },
    {
      "epoch": 2.1009066666666665,
      "grad_norm": 0.026111842347972283,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 9392
    },
    {
      "epoch": 2.10096,
      "grad_norm": 0.02393997947795757,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 9393
    },
    {
      "epoch": 2.1010133333333334,
      "grad_norm": 0.024706762167330275,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 9394
    },
    {
      "epoch": 2.1010666666666666,
      "grad_norm": 0.024701136554750088,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 9395
    },
    {
      "epoch": 2.10112,
      "grad_norm": 0.025221521888816448,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 9396
    },
    {
      "epoch": 2.1011733333333336,
      "grad_norm": 0.022501115545304946,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 9397
    },
    {
      "epoch": 2.101226666666667,
      "grad_norm": 0.023049908859988713,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 9398
    },
    {
      "epoch": 2.10128,
      "grad_norm": 0.027637996009826468,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 9399
    },
    {
      "epoch": 2.1013333333333333,
      "grad_norm": 0.02570834330749103,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 9400
    },
    {
      "epoch": 2.1013333333333333,
      "eval_accuracy": 0.6208565846908368,
      "eval_loss": 1.3507401943206787,
      "eval_runtime": 63.3804,
      "eval_samples_per_second": 15.778,
      "eval_steps_per_second": 0.505,
      "step": 9400
    },
    {
      "epoch": 2.1013866666666665,
      "grad_norm": 0.02400144657911198,
      "learning_rate": 0.0001,
      "loss": 0.9161,
      "step": 9401
    },
    {
      "epoch": 2.10144,
      "grad_norm": 0.0230809112535024,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 9402
    },
    {
      "epoch": 2.1014933333333334,
      "grad_norm": 0.026327408029976088,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 9403
    },
    {
      "epoch": 2.1015466666666667,
      "grad_norm": 0.023990095732275035,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 9404
    },
    {
      "epoch": 2.1016,
      "grad_norm": 0.022591886138868332,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 9405
    },
    {
      "epoch": 2.101653333333333,
      "grad_norm": 0.024041157828974483,
      "learning_rate": 0.0001,
      "loss": 0.9463,
      "step": 9406
    },
    {
      "epoch": 2.101706666666667,
      "grad_norm": 0.0258470828708486,
      "learning_rate": 0.0001,
      "loss": 0.9106,
      "step": 9407
    },
    {
      "epoch": 2.10176,
      "grad_norm": 0.024393095410767944,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 9408
    },
    {
      "epoch": 2.1018133333333333,
      "grad_norm": 0.024480690385133178,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 9409
    },
    {
      "epoch": 2.1018666666666665,
      "grad_norm": 0.025222691402368713,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 9410
    },
    {
      "epoch": 2.10192,
      "grad_norm": 0.02361333733859403,
      "learning_rate": 0.0001,
      "loss": 1.0084,
      "step": 9411
    },
    {
      "epoch": 2.1019733333333335,
      "grad_norm": 0.023840004228082162,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 9412
    },
    {
      "epoch": 2.1020266666666667,
      "grad_norm": 0.023795354549021746,
      "learning_rate": 0.0001,
      "loss": 1.0253,
      "step": 9413
    },
    {
      "epoch": 2.10208,
      "grad_norm": 0.02513648500209778,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 9414
    },
    {
      "epoch": 2.102133333333333,
      "grad_norm": 0.024497237984755057,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 9415
    },
    {
      "epoch": 2.102186666666667,
      "grad_norm": 0.024115321988863143,
      "learning_rate": 0.0001,
      "loss": 0.8594,
      "step": 9416
    },
    {
      "epoch": 2.10224,
      "grad_norm": 0.024812397527063036,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 9417
    },
    {
      "epoch": 2.1022933333333333,
      "grad_norm": 0.02349931465063758,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 9418
    },
    {
      "epoch": 2.1023466666666666,
      "grad_norm": 0.024524131693256984,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 9419
    },
    {
      "epoch": 2.1024,
      "grad_norm": 0.022302805267236495,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 9420
    },
    {
      "epoch": 2.1024533333333335,
      "grad_norm": 0.026408396098856344,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 9421
    },
    {
      "epoch": 2.1025066666666667,
      "grad_norm": 0.023306495139262955,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 9422
    },
    {
      "epoch": 2.10256,
      "grad_norm": 0.023044075462231067,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 9423
    },
    {
      "epoch": 2.1026133333333332,
      "grad_norm": 0.02281833273837294,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 9424
    },
    {
      "epoch": 2.1026666666666665,
      "grad_norm": 0.024322037129839675,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 9425
    },
    {
      "epoch": 2.10272,
      "grad_norm": 0.024938781606308025,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 9426
    },
    {
      "epoch": 2.1027733333333334,
      "grad_norm": 0.023247062557966262,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 9427
    },
    {
      "epoch": 2.1028266666666666,
      "grad_norm": 0.023482620419192173,
      "learning_rate": 0.0001,
      "loss": 1.0427,
      "step": 9428
    },
    {
      "epoch": 2.10288,
      "grad_norm": 0.025013755165805316,
      "learning_rate": 0.0001,
      "loss": 0.9856,
      "step": 9429
    },
    {
      "epoch": 2.1029333333333335,
      "grad_norm": 0.02251534045799156,
      "learning_rate": 0.0001,
      "loss": 1.0114,
      "step": 9430
    },
    {
      "epoch": 2.102986666666667,
      "grad_norm": 0.02556695646744126,
      "learning_rate": 0.0001,
      "loss": 0.9001,
      "step": 9431
    },
    {
      "epoch": 2.10304,
      "grad_norm": 0.023374454157177614,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 9432
    },
    {
      "epoch": 2.1030933333333333,
      "grad_norm": 0.02399689893875119,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 9433
    },
    {
      "epoch": 2.1031466666666665,
      "grad_norm": 0.024247065612318885,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 9434
    },
    {
      "epoch": 2.1032,
      "grad_norm": 0.02180922373017202,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 9435
    },
    {
      "epoch": 2.1032533333333334,
      "grad_norm": 0.024309814750764044,
      "learning_rate": 0.0001,
      "loss": 0.9109,
      "step": 9436
    },
    {
      "epoch": 2.1033066666666667,
      "grad_norm": 0.023017433826086925,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 9437
    },
    {
      "epoch": 2.10336,
      "grad_norm": 0.023438785731346543,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 9438
    },
    {
      "epoch": 2.103413333333333,
      "grad_norm": 0.02378282293535924,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 9439
    },
    {
      "epoch": 2.103466666666667,
      "grad_norm": 0.025091316782013966,
      "learning_rate": 0.0001,
      "loss": 1.0091,
      "step": 9440
    },
    {
      "epoch": 2.10352,
      "grad_norm": 0.022452604969418793,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 9441
    },
    {
      "epoch": 2.1035733333333333,
      "grad_norm": 0.023402283974851574,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 9442
    },
    {
      "epoch": 2.1036266666666665,
      "grad_norm": 0.025060524320623657,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 9443
    },
    {
      "epoch": 2.1036799999999998,
      "grad_norm": 0.024331156023559612,
      "learning_rate": 0.0001,
      "loss": 0.9618,
      "step": 9444
    },
    {
      "epoch": 2.1037333333333335,
      "grad_norm": 0.023644161864584224,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 9445
    },
    {
      "epoch": 2.1037866666666667,
      "grad_norm": 0.025950423151596527,
      "learning_rate": 0.0001,
      "loss": 0.9939,
      "step": 9446
    },
    {
      "epoch": 2.10384,
      "grad_norm": 0.024320569540121198,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 9447
    },
    {
      "epoch": 2.103893333333333,
      "grad_norm": 0.024162584705960676,
      "learning_rate": 0.0001,
      "loss": 0.9145,
      "step": 9448
    },
    {
      "epoch": 2.103946666666667,
      "grad_norm": 0.023703665278965596,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 9449
    },
    {
      "epoch": 2.104,
      "grad_norm": 0.023903227371978256,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 9450
    },
    {
      "epoch": 2.1040533333333333,
      "grad_norm": 0.024937529133977808,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 9451
    },
    {
      "epoch": 2.1041066666666666,
      "grad_norm": 0.02299012829155882,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 9452
    },
    {
      "epoch": 2.10416,
      "grad_norm": 0.024243143936613858,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 9453
    },
    {
      "epoch": 2.1042133333333335,
      "grad_norm": 0.024187415933875595,
      "learning_rate": 0.0001,
      "loss": 0.9096,
      "step": 9454
    },
    {
      "epoch": 2.1042666666666667,
      "grad_norm": 0.02378398247503021,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 9455
    },
    {
      "epoch": 2.10432,
      "grad_norm": 0.02356628084170158,
      "learning_rate": 0.0001,
      "loss": 0.9043,
      "step": 9456
    },
    {
      "epoch": 2.104373333333333,
      "grad_norm": 0.023052812666080672,
      "learning_rate": 0.0001,
      "loss": 0.9242,
      "step": 9457
    },
    {
      "epoch": 2.104426666666667,
      "grad_norm": 0.02463519594351753,
      "learning_rate": 0.0001,
      "loss": 0.9296,
      "step": 9458
    },
    {
      "epoch": 2.10448,
      "grad_norm": 0.022654179329717312,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 9459
    },
    {
      "epoch": 2.1045333333333334,
      "grad_norm": 0.02374743752982112,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 9460
    },
    {
      "epoch": 2.1045866666666666,
      "grad_norm": 0.023721994211659384,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 9461
    },
    {
      "epoch": 2.10464,
      "grad_norm": 0.023680278540675316,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 9462
    },
    {
      "epoch": 2.1046933333333335,
      "grad_norm": 0.022659682123468056,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 9463
    },
    {
      "epoch": 2.1047466666666668,
      "grad_norm": 0.02342158781840561,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 9464
    },
    {
      "epoch": 2.1048,
      "grad_norm": 0.025047700191099018,
      "learning_rate": 0.0001,
      "loss": 1.0012,
      "step": 9465
    },
    {
      "epoch": 2.1048533333333332,
      "grad_norm": 0.025972494077132886,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 9466
    },
    {
      "epoch": 2.1049066666666665,
      "grad_norm": 0.024862534829101467,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 9467
    },
    {
      "epoch": 2.10496,
      "grad_norm": 0.0242328549587572,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 9468
    },
    {
      "epoch": 2.1050133333333334,
      "grad_norm": 0.02230370982631169,
      "learning_rate": 0.0001,
      "loss": 0.9716,
      "step": 9469
    },
    {
      "epoch": 2.1050666666666666,
      "grad_norm": 0.023551053157335612,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 9470
    },
    {
      "epoch": 2.10512,
      "grad_norm": 0.024077455978844732,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 9471
    },
    {
      "epoch": 2.105173333333333,
      "grad_norm": 0.02528166092617514,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 9472
    },
    {
      "epoch": 2.105226666666667,
      "grad_norm": 0.023051004501389336,
      "learning_rate": 0.0001,
      "loss": 0.9145,
      "step": 9473
    },
    {
      "epoch": 2.10528,
      "grad_norm": 0.025876472004585187,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 9474
    },
    {
      "epoch": 2.1053333333333333,
      "grad_norm": 0.024931201544242373,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 9475
    },
    {
      "epoch": 2.1053866666666665,
      "grad_norm": 0.02996418853098905,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 9476
    },
    {
      "epoch": 2.10544,
      "grad_norm": 0.026052606153580002,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 9477
    },
    {
      "epoch": 2.1054933333333334,
      "grad_norm": 0.025992760494999618,
      "learning_rate": 0.0001,
      "loss": 0.9324,
      "step": 9478
    },
    {
      "epoch": 2.1055466666666667,
      "grad_norm": 0.02547380360950464,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 9479
    },
    {
      "epoch": 2.1056,
      "grad_norm": 0.02360644689810247,
      "learning_rate": 0.0001,
      "loss": 0.8951,
      "step": 9480
    },
    {
      "epoch": 2.105653333333333,
      "grad_norm": 0.02275352660093173,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 9481
    },
    {
      "epoch": 2.105706666666667,
      "grad_norm": 0.025085029442560275,
      "learning_rate": 0.0001,
      "loss": 0.9518,
      "step": 9482
    },
    {
      "epoch": 2.10576,
      "grad_norm": 0.025237625983050054,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 9483
    },
    {
      "epoch": 2.1058133333333333,
      "grad_norm": 0.023755171120521237,
      "learning_rate": 0.0001,
      "loss": 0.9876,
      "step": 9484
    },
    {
      "epoch": 2.1058666666666666,
      "grad_norm": 0.024459242092213687,
      "learning_rate": 0.0001,
      "loss": 0.9672,
      "step": 9485
    },
    {
      "epoch": 2.10592,
      "grad_norm": 0.02537302256939379,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 9486
    },
    {
      "epoch": 2.1059733333333335,
      "grad_norm": 0.024798999010168857,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 9487
    },
    {
      "epoch": 2.1060266666666667,
      "grad_norm": 0.02347550358058584,
      "learning_rate": 0.0001,
      "loss": 0.9141,
      "step": 9488
    },
    {
      "epoch": 2.10608,
      "grad_norm": 0.02357499346500141,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 9489
    },
    {
      "epoch": 2.106133333333333,
      "grad_norm": 0.02504225559162805,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 9490
    },
    {
      "epoch": 2.106186666666667,
      "grad_norm": 0.023106153245723304,
      "learning_rate": 0.0001,
      "loss": 0.9134,
      "step": 9491
    },
    {
      "epoch": 2.10624,
      "grad_norm": 0.02480613948618244,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 9492
    },
    {
      "epoch": 2.1062933333333334,
      "grad_norm": 0.02269917761655525,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 9493
    },
    {
      "epoch": 2.1063466666666666,
      "grad_norm": 0.02427339155157761,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 9494
    },
    {
      "epoch": 2.1064,
      "grad_norm": 0.023561277532612477,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 9495
    },
    {
      "epoch": 2.1064533333333335,
      "grad_norm": 0.024211808729475332,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "step": 9496
    },
    {
      "epoch": 2.1065066666666667,
      "grad_norm": 0.022921231705479574,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 9497
    },
    {
      "epoch": 2.10656,
      "grad_norm": 0.02391378611262371,
      "learning_rate": 0.0001,
      "loss": 0.9207,
      "step": 9498
    },
    {
      "epoch": 2.1066133333333332,
      "grad_norm": 0.025025198436634196,
      "learning_rate": 0.0001,
      "loss": 0.9486,
      "step": 9499
    },
    {
      "epoch": 2.1066666666666665,
      "grad_norm": 0.02283091554082977,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "step": 9500
    },
    {
      "epoch": 2.10672,
      "grad_norm": 0.02343859340287123,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 9501
    },
    {
      "epoch": 2.1067733333333334,
      "grad_norm": 0.023031149581280486,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 9502
    },
    {
      "epoch": 2.1068266666666666,
      "grad_norm": 0.02281228343880891,
      "learning_rate": 0.0001,
      "loss": 0.8825,
      "step": 9503
    },
    {
      "epoch": 2.10688,
      "grad_norm": 0.023009045862297788,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 9504
    },
    {
      "epoch": 2.1069333333333335,
      "grad_norm": 0.023093891353552158,
      "learning_rate": 0.0001,
      "loss": 0.8947,
      "step": 9505
    },
    {
      "epoch": 2.106986666666667,
      "grad_norm": 0.026831317158450486,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "step": 9506
    },
    {
      "epoch": 2.10704,
      "grad_norm": 0.022411291911664466,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 9507
    },
    {
      "epoch": 2.1070933333333333,
      "grad_norm": 0.024044076154102607,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 9508
    },
    {
      "epoch": 2.1071466666666665,
      "grad_norm": 0.024923416971575036,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 9509
    },
    {
      "epoch": 2.1072,
      "grad_norm": 0.023611391886144643,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 9510
    },
    {
      "epoch": 2.1072533333333334,
      "grad_norm": 0.023702023778786635,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 9511
    },
    {
      "epoch": 2.1073066666666667,
      "grad_norm": 0.023471843720785153,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 9512
    },
    {
      "epoch": 2.10736,
      "grad_norm": 0.025857328695485994,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 9513
    },
    {
      "epoch": 2.107413333333333,
      "grad_norm": 0.023635447300458648,
      "learning_rate": 0.0001,
      "loss": 0.9299,
      "step": 9514
    },
    {
      "epoch": 2.107466666666667,
      "grad_norm": 0.02499025409390037,
      "learning_rate": 0.0001,
      "loss": 0.984,
      "step": 9515
    },
    {
      "epoch": 2.10752,
      "grad_norm": 0.022581046921050094,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 9516
    },
    {
      "epoch": 2.1075733333333333,
      "grad_norm": 0.023647188346647658,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 9517
    },
    {
      "epoch": 2.1076266666666665,
      "grad_norm": 0.02498723742129948,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 9518
    },
    {
      "epoch": 2.10768,
      "grad_norm": 0.023570785171151788,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 9519
    },
    {
      "epoch": 2.1077333333333335,
      "grad_norm": 0.026843939095256092,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 9520
    },
    {
      "epoch": 2.1077866666666667,
      "grad_norm": 0.025541975031714376,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 9521
    },
    {
      "epoch": 2.10784,
      "grad_norm": 0.022655744608683515,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 9522
    },
    {
      "epoch": 2.107893333333333,
      "grad_norm": 0.02459802744724418,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 9523
    },
    {
      "epoch": 2.107946666666667,
      "grad_norm": 0.023081750158571855,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 9524
    },
    {
      "epoch": 2.108,
      "grad_norm": 0.02409675507318261,
      "learning_rate": 0.0001,
      "loss": 0.936,
      "step": 9525
    },
    {
      "epoch": 2.1080533333333333,
      "grad_norm": 0.025881555553361062,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 9526
    },
    {
      "epoch": 2.1081066666666666,
      "grad_norm": 0.02354122966588568,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 9527
    },
    {
      "epoch": 2.10816,
      "grad_norm": 0.022278546078739324,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 9528
    },
    {
      "epoch": 2.1082133333333335,
      "grad_norm": 0.02325483948746018,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "step": 9529
    },
    {
      "epoch": 2.1082666666666667,
      "grad_norm": 0.02465663444600965,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 9530
    },
    {
      "epoch": 2.10832,
      "grad_norm": 0.024003000815990713,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 9531
    },
    {
      "epoch": 2.108373333333333,
      "grad_norm": 0.025883849333097578,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 9532
    },
    {
      "epoch": 2.1084266666666664,
      "grad_norm": 0.023460014236048512,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 9533
    },
    {
      "epoch": 2.10848,
      "grad_norm": 0.02380015374210754,
      "learning_rate": 0.0001,
      "loss": 0.9141,
      "step": 9534
    },
    {
      "epoch": 2.1085333333333334,
      "grad_norm": 0.024291556159128414,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 9535
    },
    {
      "epoch": 2.1085866666666666,
      "grad_norm": 0.02431868853279342,
      "learning_rate": 0.0001,
      "loss": 0.9454,
      "step": 9536
    },
    {
      "epoch": 2.10864,
      "grad_norm": 0.023023349657712834,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 9537
    },
    {
      "epoch": 2.1086933333333335,
      "grad_norm": 0.023821093851059436,
      "learning_rate": 0.0001,
      "loss": 0.9903,
      "step": 9538
    },
    {
      "epoch": 2.1087466666666668,
      "grad_norm": 0.021968968221763384,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 9539
    },
    {
      "epoch": 2.1088,
      "grad_norm": 0.025100780858533064,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 9540
    },
    {
      "epoch": 2.1088533333333332,
      "grad_norm": 0.02367593141667326,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 9541
    },
    {
      "epoch": 2.1089066666666665,
      "grad_norm": 0.02266914445084052,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 9542
    },
    {
      "epoch": 2.10896,
      "grad_norm": 0.024177887064539647,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 9543
    },
    {
      "epoch": 2.1090133333333334,
      "grad_norm": 0.022578560091183447,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "step": 9544
    },
    {
      "epoch": 2.1090666666666666,
      "grad_norm": 0.024050243710753854,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 9545
    },
    {
      "epoch": 2.10912,
      "grad_norm": 0.02369443752779662,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 9546
    },
    {
      "epoch": 2.109173333333333,
      "grad_norm": 0.024357318129364088,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "step": 9547
    },
    {
      "epoch": 2.109226666666667,
      "grad_norm": 0.023418314002090258,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 9548
    },
    {
      "epoch": 2.10928,
      "grad_norm": 0.024800751382810057,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 9549
    },
    {
      "epoch": 2.1093333333333333,
      "grad_norm": 0.024212008726281743,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 9550
    },
    {
      "epoch": 2.1093866666666665,
      "grad_norm": 0.023385009395921783,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "step": 9551
    },
    {
      "epoch": 2.10944,
      "grad_norm": 0.024120856274145078,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 9552
    },
    {
      "epoch": 2.1094933333333334,
      "grad_norm": 0.021637956111054034,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "step": 9553
    },
    {
      "epoch": 2.1095466666666667,
      "grad_norm": 0.022672815074469017,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 9554
    },
    {
      "epoch": 2.1096,
      "grad_norm": 0.02320842525203524,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 9555
    },
    {
      "epoch": 2.109653333333333,
      "grad_norm": 0.02427945273860859,
      "learning_rate": 0.0001,
      "loss": 0.9275,
      "step": 9556
    },
    {
      "epoch": 2.109706666666667,
      "grad_norm": 0.025982686590100567,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 9557
    },
    {
      "epoch": 2.10976,
      "grad_norm": 0.023798222869265095,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 9558
    },
    {
      "epoch": 2.1098133333333333,
      "grad_norm": 0.023297279353215006,
      "learning_rate": 0.0001,
      "loss": 0.9466,
      "step": 9559
    },
    {
      "epoch": 2.1098666666666666,
      "grad_norm": 0.024181157497203953,
      "learning_rate": 0.0001,
      "loss": 1.0233,
      "step": 9560
    },
    {
      "epoch": 2.10992,
      "grad_norm": 0.02321071853451429,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 9561
    },
    {
      "epoch": 2.1099733333333335,
      "grad_norm": 0.022712124550488266,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 9562
    },
    {
      "epoch": 2.1100266666666667,
      "grad_norm": 0.022660028341648004,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 9563
    },
    {
      "epoch": 2.11008,
      "grad_norm": 0.023589207498393997,
      "learning_rate": 0.0001,
      "loss": 0.9962,
      "step": 9564
    },
    {
      "epoch": 2.110133333333333,
      "grad_norm": 0.02552147584091399,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 9565
    },
    {
      "epoch": 2.110186666666667,
      "grad_norm": 0.02482720280305059,
      "learning_rate": 0.0001,
      "loss": 0.9305,
      "step": 9566
    },
    {
      "epoch": 2.11024,
      "grad_norm": 0.02325934595817185,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 9567
    },
    {
      "epoch": 2.1102933333333334,
      "grad_norm": 0.023317812427071382,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 9568
    },
    {
      "epoch": 2.1103466666666666,
      "grad_norm": 0.022060747505098784,
      "learning_rate": 0.0001,
      "loss": 1.0095,
      "step": 9569
    },
    {
      "epoch": 2.1104,
      "grad_norm": 0.025854121333040665,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 9570
    },
    {
      "epoch": 2.1104533333333335,
      "grad_norm": 0.023854268773785443,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 9571
    },
    {
      "epoch": 2.1105066666666668,
      "grad_norm": 0.024159550207791005,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 9572
    },
    {
      "epoch": 2.11056,
      "grad_norm": 0.026344833461510096,
      "learning_rate": 0.0001,
      "loss": 0.9647,
      "step": 9573
    },
    {
      "epoch": 2.1106133333333332,
      "grad_norm": 0.02451879508776183,
      "learning_rate": 0.0001,
      "loss": 0.9892,
      "step": 9574
    },
    {
      "epoch": 2.1106666666666665,
      "grad_norm": 0.02428130171939429,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 9575
    },
    {
      "epoch": 2.11072,
      "grad_norm": 0.02478274701843837,
      "learning_rate": 0.0001,
      "loss": 0.9309,
      "step": 9576
    },
    {
      "epoch": 2.1107733333333334,
      "grad_norm": 0.023749970203383243,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 9577
    },
    {
      "epoch": 2.1108266666666666,
      "grad_norm": 0.023225469074378544,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 9578
    },
    {
      "epoch": 2.11088,
      "grad_norm": 0.026643956605802096,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 9579
    },
    {
      "epoch": 2.1109333333333336,
      "grad_norm": 0.023274830335143794,
      "learning_rate": 0.0001,
      "loss": 0.8971,
      "step": 9580
    },
    {
      "epoch": 2.110986666666667,
      "grad_norm": 0.023553309844869454,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 9581
    },
    {
      "epoch": 2.11104,
      "grad_norm": 0.02460512504435567,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 9582
    },
    {
      "epoch": 2.1110933333333333,
      "grad_norm": 0.023381900592334554,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 9583
    },
    {
      "epoch": 2.1111466666666665,
      "grad_norm": 0.02610697542570022,
      "learning_rate": 0.0001,
      "loss": 0.9157,
      "step": 9584
    },
    {
      "epoch": 2.1112,
      "grad_norm": 0.02213592897202737,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 9585
    },
    {
      "epoch": 2.1112533333333334,
      "grad_norm": 0.023434355975371884,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 9586
    },
    {
      "epoch": 2.1113066666666667,
      "grad_norm": 0.02377419381900452,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 9587
    },
    {
      "epoch": 2.11136,
      "grad_norm": 0.025856404529466057,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 9588
    },
    {
      "epoch": 2.111413333333333,
      "grad_norm": 0.023804474554293322,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 9589
    },
    {
      "epoch": 2.111466666666667,
      "grad_norm": 0.025264982773661165,
      "learning_rate": 0.0001,
      "loss": 0.9601,
      "step": 9590
    },
    {
      "epoch": 2.11152,
      "grad_norm": 0.02320227033269493,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 9591
    },
    {
      "epoch": 2.1115733333333333,
      "grad_norm": 0.024369600439747653,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 9592
    },
    {
      "epoch": 2.1116266666666665,
      "grad_norm": 0.023390517565454693,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 9593
    },
    {
      "epoch": 2.11168,
      "grad_norm": 0.023820099094642697,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "step": 9594
    },
    {
      "epoch": 2.1117333333333335,
      "grad_norm": 0.022700832421216007,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 9595
    },
    {
      "epoch": 2.1117866666666667,
      "grad_norm": 0.024155387315482283,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 9596
    },
    {
      "epoch": 2.11184,
      "grad_norm": 0.024417939895448108,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 9597
    },
    {
      "epoch": 2.111893333333333,
      "grad_norm": 0.02315244316586076,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 9598
    },
    {
      "epoch": 2.111946666666667,
      "grad_norm": 0.0229428818500357,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9599
    },
    {
      "epoch": 2.112,
      "grad_norm": 0.02736661637088961,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 9600
    },
    {
      "epoch": 2.112,
      "eval_accuracy": 0.6209309998098879,
      "eval_loss": 1.3501551151275635,
      "eval_runtime": 62.8957,
      "eval_samples_per_second": 15.899,
      "eval_steps_per_second": 0.509,
      "step": 9600
    },
    {
      "epoch": 2.1120533333333333,
      "grad_norm": 0.025793012867121788,
      "learning_rate": 0.0001,
      "loss": 1.0447,
      "step": 9601
    },
    {
      "epoch": 2.1121066666666666,
      "grad_norm": 0.02449010181695459,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 9602
    },
    {
      "epoch": 2.11216,
      "grad_norm": 0.024135352112971714,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 9603
    },
    {
      "epoch": 2.1122133333333335,
      "grad_norm": 0.022281445113050736,
      "learning_rate": 0.0001,
      "loss": 1.0195,
      "step": 9604
    },
    {
      "epoch": 2.1122666666666667,
      "grad_norm": 0.023135480345696072,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 9605
    },
    {
      "epoch": 2.11232,
      "grad_norm": 0.023062940608207686,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 9606
    },
    {
      "epoch": 2.112373333333333,
      "grad_norm": 0.022526335561945273,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 9607
    },
    {
      "epoch": 2.1124266666666665,
      "grad_norm": 0.023957658013552215,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 9608
    },
    {
      "epoch": 2.11248,
      "grad_norm": 0.022910939686134873,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 9609
    },
    {
      "epoch": 2.1125333333333334,
      "grad_norm": 0.02358933222729327,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 9610
    },
    {
      "epoch": 2.1125866666666666,
      "grad_norm": 0.022743245192809357,
      "learning_rate": 0.0001,
      "loss": 0.9148,
      "step": 9611
    },
    {
      "epoch": 2.11264,
      "grad_norm": 0.023125884853127627,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 9612
    },
    {
      "epoch": 2.1126933333333335,
      "grad_norm": 0.022731058794344224,
      "learning_rate": 0.0001,
      "loss": 0.9572,
      "step": 9613
    },
    {
      "epoch": 2.1127466666666668,
      "grad_norm": 0.023116951267505938,
      "learning_rate": 0.0001,
      "loss": 0.988,
      "step": 9614
    },
    {
      "epoch": 2.1128,
      "grad_norm": 0.023007852593871683,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 9615
    },
    {
      "epoch": 2.1128533333333333,
      "grad_norm": 0.023916627710933194,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 9616
    },
    {
      "epoch": 2.1129066666666665,
      "grad_norm": 0.024202545447679896,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9617
    },
    {
      "epoch": 2.11296,
      "grad_norm": 0.021414039638453692,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 9618
    },
    {
      "epoch": 2.1130133333333334,
      "grad_norm": 0.023478872777620778,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 9619
    },
    {
      "epoch": 2.1130666666666666,
      "grad_norm": 0.023928913157997375,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 9620
    },
    {
      "epoch": 2.11312,
      "grad_norm": 0.02360202857940299,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 9621
    },
    {
      "epoch": 2.113173333333333,
      "grad_norm": 0.02370405609411715,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 9622
    },
    {
      "epoch": 2.113226666666667,
      "grad_norm": 0.02249526809852204,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 9623
    },
    {
      "epoch": 2.11328,
      "grad_norm": 0.02309440674146143,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 9624
    },
    {
      "epoch": 2.1133333333333333,
      "grad_norm": 0.024701051118703014,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 9625
    },
    {
      "epoch": 2.1133866666666665,
      "grad_norm": 0.024056873339833116,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 9626
    },
    {
      "epoch": 2.11344,
      "grad_norm": 0.022131937344972978,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 9627
    },
    {
      "epoch": 2.1134933333333334,
      "grad_norm": 0.03450587324425312,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 9628
    },
    {
      "epoch": 2.1135466666666667,
      "grad_norm": 0.022090389520998708,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 9629
    },
    {
      "epoch": 2.1136,
      "grad_norm": 0.0249945046911408,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 9630
    },
    {
      "epoch": 2.113653333333333,
      "grad_norm": 0.023414547691550026,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 9631
    },
    {
      "epoch": 2.113706666666667,
      "grad_norm": 0.023998900851383467,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 9632
    },
    {
      "epoch": 2.11376,
      "grad_norm": 0.024994279830143556,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 9633
    },
    {
      "epoch": 2.1138133333333333,
      "grad_norm": 0.023032333961914078,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 9634
    },
    {
      "epoch": 2.1138666666666666,
      "grad_norm": 0.02238851014423745,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 9635
    },
    {
      "epoch": 2.11392,
      "grad_norm": 0.02354150355047781,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 9636
    },
    {
      "epoch": 2.1139733333333335,
      "grad_norm": 0.023502840305236312,
      "learning_rate": 0.0001,
      "loss": 0.9655,
      "step": 9637
    },
    {
      "epoch": 2.1140266666666667,
      "grad_norm": 0.023900511111797564,
      "learning_rate": 0.0001,
      "loss": 0.9657,
      "step": 9638
    },
    {
      "epoch": 2.11408,
      "grad_norm": 0.025091791971754148,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 9639
    },
    {
      "epoch": 2.114133333333333,
      "grad_norm": 0.024705971928697085,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 9640
    },
    {
      "epoch": 2.114186666666667,
      "grad_norm": 0.023711092167812912,
      "learning_rate": 0.0001,
      "loss": 0.9898,
      "step": 9641
    },
    {
      "epoch": 2.11424,
      "grad_norm": 0.02541278262827662,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 9642
    },
    {
      "epoch": 2.1142933333333334,
      "grad_norm": 0.02244659644219866,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 9643
    },
    {
      "epoch": 2.1143466666666666,
      "grad_norm": 0.022322046853566473,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 9644
    },
    {
      "epoch": 2.1144,
      "grad_norm": 0.024518309275277823,
      "learning_rate": 0.0001,
      "loss": 0.9131,
      "step": 9645
    },
    {
      "epoch": 2.1144533333333335,
      "grad_norm": 0.02456443756624069,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 9646
    },
    {
      "epoch": 2.1145066666666668,
      "grad_norm": 0.022668699560474667,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 9647
    },
    {
      "epoch": 2.11456,
      "grad_norm": 0.022352588676010234,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 9648
    },
    {
      "epoch": 2.1146133333333332,
      "grad_norm": 0.024085791695073345,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 9649
    },
    {
      "epoch": 2.1146666666666665,
      "grad_norm": 0.025514443001910938,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 9650
    },
    {
      "epoch": 2.11472,
      "grad_norm": 0.023820967547014956,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 9651
    },
    {
      "epoch": 2.1147733333333334,
      "grad_norm": 0.02355599839808396,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 9652
    },
    {
      "epoch": 2.1148266666666666,
      "grad_norm": 0.02499920497013296,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 9653
    },
    {
      "epoch": 2.11488,
      "grad_norm": 0.02531665187766444,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 9654
    },
    {
      "epoch": 2.114933333333333,
      "grad_norm": 0.024311208929331158,
      "learning_rate": 0.0001,
      "loss": 1.0433,
      "step": 9655
    },
    {
      "epoch": 2.114986666666667,
      "grad_norm": 0.02263914867082463,
      "learning_rate": 0.0001,
      "loss": 0.938,
      "step": 9656
    },
    {
      "epoch": 2.11504,
      "grad_norm": 0.024690659729824264,
      "learning_rate": 0.0001,
      "loss": 0.9821,
      "step": 9657
    },
    {
      "epoch": 2.1150933333333333,
      "grad_norm": 0.02410185800205157,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 9658
    },
    {
      "epoch": 2.1151466666666665,
      "grad_norm": 0.025319391000817145,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 9659
    },
    {
      "epoch": 2.1152,
      "grad_norm": 0.025709885497002736,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 9660
    },
    {
      "epoch": 2.1152533333333334,
      "grad_norm": 0.02347393495680298,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 9661
    },
    {
      "epoch": 2.1153066666666667,
      "grad_norm": 0.02234446825965931,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 9662
    },
    {
      "epoch": 2.11536,
      "grad_norm": 0.023621390218692848,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 9663
    },
    {
      "epoch": 2.115413333333333,
      "grad_norm": 0.02466460638341968,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 9664
    },
    {
      "epoch": 2.115466666666667,
      "grad_norm": 0.02463999837016767,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 9665
    },
    {
      "epoch": 2.11552,
      "grad_norm": 0.023583170336129743,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 9666
    },
    {
      "epoch": 2.1155733333333333,
      "grad_norm": 0.02491536442722898,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 9667
    },
    {
      "epoch": 2.1156266666666665,
      "grad_norm": 0.023712054386078218,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 9668
    },
    {
      "epoch": 2.1156800000000002,
      "grad_norm": 0.025848422067539442,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 9669
    },
    {
      "epoch": 2.1157333333333335,
      "grad_norm": 0.0243556695537544,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 9670
    },
    {
      "epoch": 2.1157866666666667,
      "grad_norm": 0.02409508993007326,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 9671
    },
    {
      "epoch": 2.11584,
      "grad_norm": 0.024960974497249933,
      "learning_rate": 0.0001,
      "loss": 0.951,
      "step": 9672
    },
    {
      "epoch": 2.115893333333333,
      "grad_norm": 0.023408172066675025,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 9673
    },
    {
      "epoch": 2.115946666666667,
      "grad_norm": 0.02395002491255666,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 9674
    },
    {
      "epoch": 2.116,
      "grad_norm": 0.023797088383434185,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 9675
    },
    {
      "epoch": 2.1160533333333333,
      "grad_norm": 0.024902210269976948,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 9676
    },
    {
      "epoch": 2.1161066666666666,
      "grad_norm": 0.024261327697408172,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 9677
    },
    {
      "epoch": 2.11616,
      "grad_norm": 0.023135730855405462,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 9678
    },
    {
      "epoch": 2.1162133333333335,
      "grad_norm": 0.023465339139498612,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 9679
    },
    {
      "epoch": 2.1162666666666667,
      "grad_norm": 0.022860797846845363,
      "learning_rate": 0.0001,
      "loss": 0.9046,
      "step": 9680
    },
    {
      "epoch": 2.11632,
      "grad_norm": 0.022049001704018408,
      "learning_rate": 0.0001,
      "loss": 0.8719,
      "step": 9681
    },
    {
      "epoch": 2.116373333333333,
      "grad_norm": 0.02509176306294869,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "step": 9682
    },
    {
      "epoch": 2.1164266666666665,
      "grad_norm": 0.02350959991144934,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 9683
    },
    {
      "epoch": 2.11648,
      "grad_norm": 0.024711032726923775,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 9684
    },
    {
      "epoch": 2.1165333333333334,
      "grad_norm": 0.024542883424103535,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 9685
    },
    {
      "epoch": 2.1165866666666666,
      "grad_norm": 0.022285866744727514,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 9686
    },
    {
      "epoch": 2.11664,
      "grad_norm": 0.023178882173873875,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 9687
    },
    {
      "epoch": 2.1166933333333335,
      "grad_norm": 0.023486722805057085,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "step": 9688
    },
    {
      "epoch": 2.1167466666666668,
      "grad_norm": 0.028930650490365185,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 9689
    },
    {
      "epoch": 2.1168,
      "grad_norm": 0.022354514577653656,
      "learning_rate": 0.0001,
      "loss": 0.9117,
      "step": 9690
    },
    {
      "epoch": 2.1168533333333333,
      "grad_norm": 0.022634562893480047,
      "learning_rate": 0.0001,
      "loss": 0.9135,
      "step": 9691
    },
    {
      "epoch": 2.1169066666666665,
      "grad_norm": 0.02501818035083753,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 9692
    },
    {
      "epoch": 2.11696,
      "grad_norm": 0.02496699402105899,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 9693
    },
    {
      "epoch": 2.1170133333333334,
      "grad_norm": 0.027844330969956813,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 9694
    },
    {
      "epoch": 2.1170666666666667,
      "grad_norm": 0.022713967740097853,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 9695
    },
    {
      "epoch": 2.11712,
      "grad_norm": 0.024962107274929795,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 9696
    },
    {
      "epoch": 2.117173333333333,
      "grad_norm": 0.024953085658032375,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 9697
    },
    {
      "epoch": 2.117226666666667,
      "grad_norm": 0.02233679343264826,
      "learning_rate": 0.0001,
      "loss": 1.0153,
      "step": 9698
    },
    {
      "epoch": 2.11728,
      "grad_norm": 0.023345629811671344,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 9699
    },
    {
      "epoch": 2.1173333333333333,
      "grad_norm": 0.02430987160671366,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 9700
    },
    {
      "epoch": 2.1173866666666665,
      "grad_norm": 0.024166787044395628,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 9701
    },
    {
      "epoch": 2.11744,
      "grad_norm": 0.025984159324356132,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 9702
    },
    {
      "epoch": 2.1174933333333334,
      "grad_norm": 0.024863712957874644,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 9703
    },
    {
      "epoch": 2.1175466666666667,
      "grad_norm": 0.023716520252329648,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 9704
    },
    {
      "epoch": 2.1176,
      "grad_norm": 0.023162351454176763,
      "learning_rate": 0.0001,
      "loss": 1.0598,
      "step": 9705
    },
    {
      "epoch": 2.117653333333333,
      "grad_norm": 0.025000886664240655,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 9706
    },
    {
      "epoch": 2.117706666666667,
      "grad_norm": 0.023973555982209824,
      "learning_rate": 0.0001,
      "loss": 0.9032,
      "step": 9707
    },
    {
      "epoch": 2.11776,
      "grad_norm": 0.022307205719582782,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 9708
    },
    {
      "epoch": 2.1178133333333333,
      "grad_norm": 0.025808852368056367,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 9709
    },
    {
      "epoch": 2.1178666666666666,
      "grad_norm": 0.023142552574208473,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 9710
    },
    {
      "epoch": 2.11792,
      "grad_norm": 0.024432130055298054,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 9711
    },
    {
      "epoch": 2.1179733333333335,
      "grad_norm": 0.02702272092820019,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 9712
    },
    {
      "epoch": 2.1180266666666667,
      "grad_norm": 0.02673070641106504,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 9713
    },
    {
      "epoch": 2.11808,
      "grad_norm": 0.02243132219074958,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 9714
    },
    {
      "epoch": 2.118133333333333,
      "grad_norm": 0.027930784189864152,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 9715
    },
    {
      "epoch": 2.1181866666666664,
      "grad_norm": 0.025036397583603365,
      "learning_rate": 0.0001,
      "loss": 0.9003,
      "step": 9716
    },
    {
      "epoch": 2.11824,
      "grad_norm": 0.023915848139265374,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 9717
    },
    {
      "epoch": 2.1182933333333334,
      "grad_norm": 0.023283082265937855,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 9718
    },
    {
      "epoch": 2.1183466666666666,
      "grad_norm": 0.024192305336895367,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 9719
    },
    {
      "epoch": 2.1184,
      "grad_norm": 0.025235318701135993,
      "learning_rate": 0.0001,
      "loss": 0.98,
      "step": 9720
    },
    {
      "epoch": 2.1184533333333335,
      "grad_norm": 0.023518633374851015,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 9721
    },
    {
      "epoch": 2.1185066666666668,
      "grad_norm": 0.023018607690076808,
      "learning_rate": 0.0001,
      "loss": 0.8957,
      "step": 9722
    },
    {
      "epoch": 2.11856,
      "grad_norm": 0.022803183278771753,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 9723
    },
    {
      "epoch": 2.1186133333333332,
      "grad_norm": 0.025296696292617615,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 9724
    },
    {
      "epoch": 2.1186666666666665,
      "grad_norm": 0.023398259674085355,
      "learning_rate": 0.0001,
      "loss": 0.8904,
      "step": 9725
    },
    {
      "epoch": 2.11872,
      "grad_norm": 0.024312322363184563,
      "learning_rate": 0.0001,
      "loss": 0.8901,
      "step": 9726
    },
    {
      "epoch": 2.1187733333333334,
      "grad_norm": 0.024595118482676447,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "step": 9727
    },
    {
      "epoch": 2.1188266666666666,
      "grad_norm": 0.023168373568853772,
      "learning_rate": 0.0001,
      "loss": 1.001,
      "step": 9728
    },
    {
      "epoch": 2.11888,
      "grad_norm": 0.026151527351181935,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 9729
    },
    {
      "epoch": 2.1189333333333336,
      "grad_norm": 0.02909788677275526,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 9730
    },
    {
      "epoch": 2.118986666666667,
      "grad_norm": 0.0248598096014661,
      "learning_rate": 0.0001,
      "loss": 1.0089,
      "step": 9731
    },
    {
      "epoch": 2.11904,
      "grad_norm": 0.022644770470563253,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 9732
    },
    {
      "epoch": 2.1190933333333333,
      "grad_norm": 0.02386600297410104,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 9733
    },
    {
      "epoch": 2.1191466666666665,
      "grad_norm": 0.02502406656713905,
      "learning_rate": 0.0001,
      "loss": 1.0176,
      "step": 9734
    },
    {
      "epoch": 2.1192,
      "grad_norm": 0.02396090092651871,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 9735
    },
    {
      "epoch": 2.1192533333333334,
      "grad_norm": 0.023979639143208338,
      "learning_rate": 0.0001,
      "loss": 0.9665,
      "step": 9736
    },
    {
      "epoch": 2.1193066666666667,
      "grad_norm": 0.023236334763973906,
      "learning_rate": 0.0001,
      "loss": 1.027,
      "step": 9737
    },
    {
      "epoch": 2.11936,
      "grad_norm": 0.02325635132875721,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 9738
    },
    {
      "epoch": 2.119413333333333,
      "grad_norm": 0.024723665752166182,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 9739
    },
    {
      "epoch": 2.119466666666667,
      "grad_norm": 0.023398549540982572,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 9740
    },
    {
      "epoch": 2.11952,
      "grad_norm": 0.024783458351282605,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 9741
    },
    {
      "epoch": 2.1195733333333333,
      "grad_norm": 0.023152446778949166,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 9742
    },
    {
      "epoch": 2.1196266666666665,
      "grad_norm": 0.02425762235190495,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 9743
    },
    {
      "epoch": 2.11968,
      "grad_norm": 0.024314877266382286,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 9744
    },
    {
      "epoch": 2.1197333333333335,
      "grad_norm": 0.023586326450059696,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 9745
    },
    {
      "epoch": 2.1197866666666667,
      "grad_norm": 0.025445909534257825,
      "learning_rate": 0.0001,
      "loss": 0.9459,
      "step": 9746
    },
    {
      "epoch": 2.11984,
      "grad_norm": 0.023768330947687145,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 9747
    },
    {
      "epoch": 2.119893333333333,
      "grad_norm": 0.024853902292198547,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 9748
    },
    {
      "epoch": 2.119946666666667,
      "grad_norm": 0.02684021388676348,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 9749
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.022982941124868844,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 9750
    },
    {
      "epoch": 2.1200533333333333,
      "grad_norm": 0.024353126235754852,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 9751
    },
    {
      "epoch": 2.1201066666666666,
      "grad_norm": 0.026831110937018107,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 9752
    },
    {
      "epoch": 2.12016,
      "grad_norm": 0.02678144301617128,
      "learning_rate": 0.0001,
      "loss": 1.0123,
      "step": 9753
    },
    {
      "epoch": 2.1202133333333335,
      "grad_norm": 0.025583682240725995,
      "learning_rate": 0.0001,
      "loss": 1.0124,
      "step": 9754
    },
    {
      "epoch": 2.1202666666666667,
      "grad_norm": 0.023762474722528255,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 9755
    },
    {
      "epoch": 2.12032,
      "grad_norm": 0.02521010250023658,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 9756
    },
    {
      "epoch": 2.120373333333333,
      "grad_norm": 0.02682390427829631,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 9757
    },
    {
      "epoch": 2.1204266666666665,
      "grad_norm": 0.026097127793397554,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 9758
    },
    {
      "epoch": 2.12048,
      "grad_norm": 0.02395481816204574,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 9759
    },
    {
      "epoch": 2.1205333333333334,
      "grad_norm": 0.024237565448577195,
      "learning_rate": 0.0001,
      "loss": 1.0044,
      "step": 9760
    },
    {
      "epoch": 2.1205866666666666,
      "grad_norm": 0.02452550895165034,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 9761
    },
    {
      "epoch": 2.12064,
      "grad_norm": 0.023789110031985704,
      "learning_rate": 0.0001,
      "loss": 1.0066,
      "step": 9762
    },
    {
      "epoch": 2.1206933333333335,
      "grad_norm": 0.023728573636910517,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 9763
    },
    {
      "epoch": 2.120746666666667,
      "grad_norm": 0.02423618640139529,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 9764
    },
    {
      "epoch": 2.1208,
      "grad_norm": 0.025419339600449398,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 9765
    },
    {
      "epoch": 2.1208533333333333,
      "grad_norm": 0.02401457191178976,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 9766
    },
    {
      "epoch": 2.1209066666666665,
      "grad_norm": 0.026772835568067647,
      "learning_rate": 0.0001,
      "loss": 0.9124,
      "step": 9767
    },
    {
      "epoch": 2.12096,
      "grad_norm": 0.023008764163598438,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 9768
    },
    {
      "epoch": 2.1210133333333334,
      "grad_norm": 0.02289077627171083,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 9769
    },
    {
      "epoch": 2.1210666666666667,
      "grad_norm": 0.023010640826092894,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 9770
    },
    {
      "epoch": 2.12112,
      "grad_norm": 0.023619281159436255,
      "learning_rate": 0.0001,
      "loss": 0.9418,
      "step": 9771
    },
    {
      "epoch": 2.121173333333333,
      "grad_norm": 0.025385084582135068,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 9772
    },
    {
      "epoch": 2.121226666666667,
      "grad_norm": 0.02327662819579241,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 9773
    },
    {
      "epoch": 2.12128,
      "grad_norm": 0.024006868091288335,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 9774
    },
    {
      "epoch": 2.1213333333333333,
      "grad_norm": 0.02965788931818144,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 9775
    },
    {
      "epoch": 2.1213866666666665,
      "grad_norm": 0.024574167325293543,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 9776
    },
    {
      "epoch": 2.12144,
      "grad_norm": 0.02220731810368228,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 9777
    },
    {
      "epoch": 2.1214933333333335,
      "grad_norm": 0.02405829346133657,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 9778
    },
    {
      "epoch": 2.1215466666666667,
      "grad_norm": 0.023408057528006107,
      "learning_rate": 0.0001,
      "loss": 0.9294,
      "step": 9779
    },
    {
      "epoch": 2.1216,
      "grad_norm": 0.025554928511048746,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 9780
    },
    {
      "epoch": 2.121653333333333,
      "grad_norm": 0.023054793185986515,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 9781
    },
    {
      "epoch": 2.121706666666667,
      "grad_norm": 0.02256384566788265,
      "learning_rate": 0.0001,
      "loss": 0.9842,
      "step": 9782
    },
    {
      "epoch": 2.12176,
      "grad_norm": 0.023256187087527434,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 9783
    },
    {
      "epoch": 2.1218133333333333,
      "grad_norm": 0.02474502130567142,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 9784
    },
    {
      "epoch": 2.1218666666666666,
      "grad_norm": 0.022616590064263586,
      "learning_rate": 0.0001,
      "loss": 1.0152,
      "step": 9785
    },
    {
      "epoch": 2.12192,
      "grad_norm": 0.023861170487568462,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 9786
    },
    {
      "epoch": 2.1219733333333335,
      "grad_norm": 0.023948198369547445,
      "learning_rate": 0.0001,
      "loss": 1.0006,
      "step": 9787
    },
    {
      "epoch": 2.1220266666666667,
      "grad_norm": 0.02410135804916038,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 9788
    },
    {
      "epoch": 2.12208,
      "grad_norm": 0.023143655648567157,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 9789
    },
    {
      "epoch": 2.122133333333333,
      "grad_norm": 0.025235103431806963,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 9790
    },
    {
      "epoch": 2.122186666666667,
      "grad_norm": 0.025169309301364594,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "step": 9791
    },
    {
      "epoch": 2.12224,
      "grad_norm": 0.023767814617486966,
      "learning_rate": 0.0001,
      "loss": 0.9147,
      "step": 9792
    },
    {
      "epoch": 2.1222933333333334,
      "grad_norm": 0.023771305711601767,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 9793
    },
    {
      "epoch": 2.1223466666666666,
      "grad_norm": 0.025912816786276244,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 9794
    },
    {
      "epoch": 2.1224,
      "grad_norm": 0.02410539062032174,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 9795
    },
    {
      "epoch": 2.1224533333333335,
      "grad_norm": 0.02254631385668809,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 9796
    },
    {
      "epoch": 2.1225066666666668,
      "grad_norm": 0.02199082020427589,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 9797
    },
    {
      "epoch": 2.12256,
      "grad_norm": 0.025394918442712227,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 9798
    },
    {
      "epoch": 2.1226133333333332,
      "grad_norm": 0.023407697598098083,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 9799
    },
    {
      "epoch": 2.1226666666666665,
      "grad_norm": 0.023177969806115178,
      "learning_rate": 0.0001,
      "loss": 1.0063,
      "step": 9800
    },
    {
      "epoch": 2.1226666666666665,
      "eval_accuracy": 0.6210363258245448,
      "eval_loss": 1.3494608402252197,
      "eval_runtime": 62.7963,
      "eval_samples_per_second": 15.925,
      "eval_steps_per_second": 0.51,
      "step": 9800
    },
    {
      "epoch": 2.12272,
      "grad_norm": 0.02449419105073747,
      "learning_rate": 0.0001,
      "loss": 0.9358,
      "step": 9801
    },
    {
      "epoch": 2.1227733333333334,
      "grad_norm": 0.023338629502281032,
      "learning_rate": 0.0001,
      "loss": 0.9883,
      "step": 9802
    },
    {
      "epoch": 2.1228266666666666,
      "grad_norm": 0.024046254953955452,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 9803
    },
    {
      "epoch": 2.12288,
      "grad_norm": 0.02306809792425497,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "step": 9804
    },
    {
      "epoch": 2.122933333333333,
      "grad_norm": 0.022616133496513292,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 9805
    },
    {
      "epoch": 2.122986666666667,
      "grad_norm": 0.026409580496982457,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 9806
    },
    {
      "epoch": 2.12304,
      "grad_norm": 0.02357198712366596,
      "learning_rate": 0.0001,
      "loss": 1.079,
      "step": 9807
    },
    {
      "epoch": 2.1230933333333333,
      "grad_norm": 0.023540029794974073,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 9808
    },
    {
      "epoch": 2.1231466666666665,
      "grad_norm": 0.022291567873538563,
      "learning_rate": 0.0001,
      "loss": 0.9395,
      "step": 9809
    },
    {
      "epoch": 2.1232,
      "grad_norm": 0.024901116418349585,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 9810
    },
    {
      "epoch": 2.1232533333333334,
      "grad_norm": 0.02388975825258673,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 9811
    },
    {
      "epoch": 2.1233066666666667,
      "grad_norm": 0.02461369939075909,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 9812
    },
    {
      "epoch": 2.12336,
      "grad_norm": 0.02384648120254766,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "step": 9813
    },
    {
      "epoch": 2.123413333333333,
      "grad_norm": 0.02535189277982303,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 9814
    },
    {
      "epoch": 2.123466666666667,
      "grad_norm": 0.024889797733978234,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "step": 9815
    },
    {
      "epoch": 2.12352,
      "grad_norm": 0.024043969054958387,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 9816
    },
    {
      "epoch": 2.1235733333333333,
      "grad_norm": 0.024169500534909273,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "step": 9817
    },
    {
      "epoch": 2.1236266666666666,
      "grad_norm": 0.02386387850266369,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 9818
    },
    {
      "epoch": 2.12368,
      "grad_norm": 0.02504858200265635,
      "learning_rate": 0.0001,
      "loss": 1.0571,
      "step": 9819
    },
    {
      "epoch": 2.1237333333333335,
      "grad_norm": 0.024942996615440142,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 9820
    },
    {
      "epoch": 2.1237866666666667,
      "grad_norm": 0.023868699103555838,
      "learning_rate": 0.0001,
      "loss": 0.9709,
      "step": 9821
    },
    {
      "epoch": 2.12384,
      "grad_norm": 0.025363943715521527,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 9822
    },
    {
      "epoch": 2.123893333333333,
      "grad_norm": 0.02511901310568484,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 9823
    },
    {
      "epoch": 2.123946666666667,
      "grad_norm": 0.023269361972897768,
      "learning_rate": 0.0001,
      "loss": 0.8999,
      "step": 9824
    },
    {
      "epoch": 2.124,
      "grad_norm": 0.024451878234680216,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 9825
    },
    {
      "epoch": 2.1240533333333333,
      "grad_norm": 0.023636112878088634,
      "learning_rate": 0.0001,
      "loss": 1.0085,
      "step": 9826
    },
    {
      "epoch": 2.1241066666666666,
      "grad_norm": 0.022627162166966627,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 9827
    },
    {
      "epoch": 2.12416,
      "grad_norm": 0.023952561972918722,
      "learning_rate": 0.0001,
      "loss": 1.0188,
      "step": 9828
    },
    {
      "epoch": 2.1242133333333335,
      "grad_norm": 0.02477739243285647,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 9829
    },
    {
      "epoch": 2.1242666666666667,
      "grad_norm": 0.024681080324393576,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 9830
    },
    {
      "epoch": 2.12432,
      "grad_norm": 0.023980233836672447,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 9831
    },
    {
      "epoch": 2.1243733333333332,
      "grad_norm": 0.02307226113762788,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 9832
    },
    {
      "epoch": 2.1244266666666665,
      "grad_norm": 0.02371889182260952,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 9833
    },
    {
      "epoch": 2.12448,
      "grad_norm": 0.022749628145256655,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 9834
    },
    {
      "epoch": 2.1245333333333334,
      "grad_norm": 0.023677328076786106,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 9835
    },
    {
      "epoch": 2.1245866666666666,
      "grad_norm": 0.023926401307972127,
      "learning_rate": 0.0001,
      "loss": 0.8986,
      "step": 9836
    },
    {
      "epoch": 2.12464,
      "grad_norm": 0.025338415970142508,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 9837
    },
    {
      "epoch": 2.1246933333333335,
      "grad_norm": 0.023254462926710424,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 9838
    },
    {
      "epoch": 2.124746666666667,
      "grad_norm": 0.02538154197202175,
      "learning_rate": 0.0001,
      "loss": 0.9067,
      "step": 9839
    },
    {
      "epoch": 2.1248,
      "grad_norm": 0.023495890431434248,
      "learning_rate": 0.0001,
      "loss": 0.9006,
      "step": 9840
    },
    {
      "epoch": 2.1248533333333333,
      "grad_norm": 0.024877206059151415,
      "learning_rate": 0.0001,
      "loss": 0.9272,
      "step": 9841
    },
    {
      "epoch": 2.1249066666666665,
      "grad_norm": 0.022660190883934776,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 9842
    },
    {
      "epoch": 2.12496,
      "grad_norm": 0.02302387588039087,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 9843
    },
    {
      "epoch": 2.1250133333333334,
      "grad_norm": 0.024062361011848225,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 9844
    },
    {
      "epoch": 2.1250666666666667,
      "grad_norm": 0.02463210030570905,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 9845
    },
    {
      "epoch": 2.12512,
      "grad_norm": 0.023873195050450165,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 9846
    },
    {
      "epoch": 2.125173333333333,
      "grad_norm": 0.024282534949311436,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 9847
    },
    {
      "epoch": 2.125226666666667,
      "grad_norm": 0.02568234799707927,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 9848
    },
    {
      "epoch": 2.12528,
      "grad_norm": 0.022668184055029638,
      "learning_rate": 0.0001,
      "loss": 0.8861,
      "step": 9849
    },
    {
      "epoch": 2.1253333333333333,
      "grad_norm": 0.023013430260109557,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "step": 9850
    },
    {
      "epoch": 2.1253866666666665,
      "grad_norm": 0.02318020528723078,
      "learning_rate": 0.0001,
      "loss": 0.9041,
      "step": 9851
    },
    {
      "epoch": 2.12544,
      "grad_norm": 0.02341318192464049,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 9852
    },
    {
      "epoch": 2.1254933333333335,
      "grad_norm": 0.023721403799660645,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "step": 9853
    },
    {
      "epoch": 2.1255466666666667,
      "grad_norm": 0.02393198406337084,
      "learning_rate": 0.0001,
      "loss": 1.0301,
      "step": 9854
    },
    {
      "epoch": 2.1256,
      "grad_norm": 0.023126534104610554,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 9855
    },
    {
      "epoch": 2.125653333333333,
      "grad_norm": 0.023025533308129127,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 9856
    },
    {
      "epoch": 2.125706666666667,
      "grad_norm": 0.024251387190281422,
      "learning_rate": 0.0001,
      "loss": 0.9039,
      "step": 9857
    },
    {
      "epoch": 2.12576,
      "grad_norm": 0.02343247102226882,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 9858
    },
    {
      "epoch": 2.1258133333333333,
      "grad_norm": 0.024630304657205074,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 9859
    },
    {
      "epoch": 2.1258666666666666,
      "grad_norm": 0.023300798425973903,
      "learning_rate": 0.0001,
      "loss": 1.0372,
      "step": 9860
    },
    {
      "epoch": 2.12592,
      "grad_norm": 0.025296499962328117,
      "learning_rate": 0.0001,
      "loss": 0.9228,
      "step": 9861
    },
    {
      "epoch": 2.1259733333333335,
      "grad_norm": 0.026089417057782394,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 9862
    },
    {
      "epoch": 2.1260266666666667,
      "grad_norm": 0.023869939916786778,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 9863
    },
    {
      "epoch": 2.12608,
      "grad_norm": 0.023880906404000098,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 9864
    },
    {
      "epoch": 2.126133333333333,
      "grad_norm": 0.023909119464315814,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 9865
    },
    {
      "epoch": 2.1261866666666664,
      "grad_norm": 0.024218037475285056,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 9866
    },
    {
      "epoch": 2.12624,
      "grad_norm": 0.022868821304040523,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 9867
    },
    {
      "epoch": 2.1262933333333334,
      "grad_norm": 0.024658770466725568,
      "learning_rate": 0.0001,
      "loss": 0.9082,
      "step": 9868
    },
    {
      "epoch": 2.1263466666666666,
      "grad_norm": 0.02473865668708195,
      "learning_rate": 0.0001,
      "loss": 0.8989,
      "step": 9869
    },
    {
      "epoch": 2.1264,
      "grad_norm": 0.0248789576043223,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 9870
    },
    {
      "epoch": 2.1264533333333335,
      "grad_norm": 0.023593443837390354,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 9871
    },
    {
      "epoch": 2.1265066666666668,
      "grad_norm": 0.0242630996591794,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 9872
    },
    {
      "epoch": 2.12656,
      "grad_norm": 0.02379051156905776,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 9873
    },
    {
      "epoch": 2.1266133333333332,
      "grad_norm": 0.024190591357134368,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 9874
    },
    {
      "epoch": 2.1266666666666665,
      "grad_norm": 0.02302054356445863,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 9875
    },
    {
      "epoch": 2.12672,
      "grad_norm": 0.025211671448825638,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 9876
    },
    {
      "epoch": 2.1267733333333334,
      "grad_norm": 0.02470374186614638,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 9877
    },
    {
      "epoch": 2.1268266666666666,
      "grad_norm": 0.02425147441263638,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 9878
    },
    {
      "epoch": 2.12688,
      "grad_norm": 0.02422453863684807,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 9879
    },
    {
      "epoch": 2.1269333333333336,
      "grad_norm": 0.02375179498862335,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 9880
    },
    {
      "epoch": 2.126986666666667,
      "grad_norm": 0.023819376495008718,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 9881
    },
    {
      "epoch": 2.12704,
      "grad_norm": 0.02336941790732215,
      "learning_rate": 0.0001,
      "loss": 0.9257,
      "step": 9882
    },
    {
      "epoch": 2.1270933333333333,
      "grad_norm": 0.0231386165404591,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 9883
    },
    {
      "epoch": 2.1271466666666665,
      "grad_norm": 0.0235497861647861,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 9884
    },
    {
      "epoch": 2.1272,
      "grad_norm": 0.02400476257429425,
      "learning_rate": 0.0001,
      "loss": 0.8918,
      "step": 9885
    },
    {
      "epoch": 2.1272533333333334,
      "grad_norm": 0.02510797875858962,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 9886
    },
    {
      "epoch": 2.1273066666666667,
      "grad_norm": 0.02339854932257978,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 9887
    },
    {
      "epoch": 2.12736,
      "grad_norm": 0.02372053388949285,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 9888
    },
    {
      "epoch": 2.127413333333333,
      "grad_norm": 0.024244620762379775,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 9889
    },
    {
      "epoch": 2.127466666666667,
      "grad_norm": 0.02326578209657165,
      "learning_rate": 0.0001,
      "loss": 1.072,
      "step": 9890
    },
    {
      "epoch": 2.12752,
      "grad_norm": 0.02491734125090313,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 9891
    },
    {
      "epoch": 2.1275733333333333,
      "grad_norm": 0.026705169275157464,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 9892
    },
    {
      "epoch": 2.1276266666666666,
      "grad_norm": 0.023957520235609618,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 9893
    },
    {
      "epoch": 2.12768,
      "grad_norm": 0.02342011466903437,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 9894
    },
    {
      "epoch": 2.1277333333333335,
      "grad_norm": 0.02440683271308908,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 9895
    },
    {
      "epoch": 2.1277866666666667,
      "grad_norm": 0.02356604433229299,
      "learning_rate": 0.0001,
      "loss": 0.9987,
      "step": 9896
    },
    {
      "epoch": 2.12784,
      "grad_norm": 0.02456012104682992,
      "learning_rate": 0.0001,
      "loss": 1.0087,
      "step": 9897
    },
    {
      "epoch": 2.127893333333333,
      "grad_norm": 0.024612905237447715,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 9898
    },
    {
      "epoch": 2.1279466666666664,
      "grad_norm": 0.024414624510047923,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 9899
    },
    {
      "epoch": 2.128,
      "grad_norm": 0.021819617108314874,
      "learning_rate": 0.0001,
      "loss": 0.8973,
      "step": 9900
    },
    {
      "epoch": 2.1280533333333334,
      "grad_norm": 0.024477087281445476,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 9901
    },
    {
      "epoch": 2.1281066666666666,
      "grad_norm": 0.022757662458223336,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 9902
    },
    {
      "epoch": 2.12816,
      "grad_norm": 0.02397595135114989,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 9903
    },
    {
      "epoch": 2.1282133333333335,
      "grad_norm": 0.02335184043154336,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 9904
    },
    {
      "epoch": 2.1282666666666668,
      "grad_norm": 0.02278795509931126,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 9905
    },
    {
      "epoch": 2.12832,
      "grad_norm": 0.02426520978051114,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 9906
    },
    {
      "epoch": 2.1283733333333332,
      "grad_norm": 0.025144842036610722,
      "learning_rate": 0.0001,
      "loss": 0.9491,
      "step": 9907
    },
    {
      "epoch": 2.1284266666666665,
      "grad_norm": 0.02358578321074488,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 9908
    },
    {
      "epoch": 2.12848,
      "grad_norm": 0.023573788160094287,
      "learning_rate": 0.0001,
      "loss": 0.9136,
      "step": 9909
    },
    {
      "epoch": 2.1285333333333334,
      "grad_norm": 0.02729231058270137,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 9910
    },
    {
      "epoch": 2.1285866666666666,
      "grad_norm": 0.023316542918024975,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 9911
    },
    {
      "epoch": 2.12864,
      "grad_norm": 0.026077197676696307,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 9912
    },
    {
      "epoch": 2.1286933333333335,
      "grad_norm": 0.024447378284749004,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 9913
    },
    {
      "epoch": 2.128746666666667,
      "grad_norm": 0.024724686844163447,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 9914
    },
    {
      "epoch": 2.1288,
      "grad_norm": 0.024568622281473523,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 9915
    },
    {
      "epoch": 2.1288533333333333,
      "grad_norm": 0.024861810506531495,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 9916
    },
    {
      "epoch": 2.1289066666666665,
      "grad_norm": 0.024910741183567876,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 9917
    },
    {
      "epoch": 2.12896,
      "grad_norm": 0.02191564901349515,
      "learning_rate": 0.0001,
      "loss": 1.0065,
      "step": 9918
    },
    {
      "epoch": 2.1290133333333334,
      "grad_norm": 0.024165449510525717,
      "learning_rate": 0.0001,
      "loss": 0.9545,
      "step": 9919
    },
    {
      "epoch": 2.1290666666666667,
      "grad_norm": 0.024071772481053088,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 9920
    },
    {
      "epoch": 2.12912,
      "grad_norm": 0.023613623676593653,
      "learning_rate": 0.0001,
      "loss": 0.9246,
      "step": 9921
    },
    {
      "epoch": 2.129173333333333,
      "grad_norm": 0.023405593093022006,
      "learning_rate": 0.0001,
      "loss": 0.9224,
      "step": 9922
    },
    {
      "epoch": 2.129226666666667,
      "grad_norm": 0.025014303827509767,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 9923
    },
    {
      "epoch": 2.12928,
      "grad_norm": 0.025252493349467726,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 9924
    },
    {
      "epoch": 2.1293333333333333,
      "grad_norm": 0.023317148324632473,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 9925
    },
    {
      "epoch": 2.1293866666666665,
      "grad_norm": 0.023502859771561652,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 9926
    },
    {
      "epoch": 2.1294399999999998,
      "grad_norm": 0.023731868361325646,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 9927
    },
    {
      "epoch": 2.1294933333333335,
      "grad_norm": 0.02637260057064334,
      "learning_rate": 0.0001,
      "loss": 0.9174,
      "step": 9928
    },
    {
      "epoch": 2.1295466666666667,
      "grad_norm": 0.02391937620873924,
      "learning_rate": 0.0001,
      "loss": 1.0138,
      "step": 9929
    },
    {
      "epoch": 2.1296,
      "grad_norm": 0.02274812846716692,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 9930
    },
    {
      "epoch": 2.129653333333333,
      "grad_norm": 0.022854225296102416,
      "learning_rate": 0.0001,
      "loss": 0.916,
      "step": 9931
    },
    {
      "epoch": 2.129706666666667,
      "grad_norm": 0.024945216835584524,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 9932
    },
    {
      "epoch": 2.12976,
      "grad_norm": 0.025853789329470578,
      "learning_rate": 0.0001,
      "loss": 0.8834,
      "step": 9933
    },
    {
      "epoch": 2.1298133333333333,
      "grad_norm": 0.023806587711878015,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 9934
    },
    {
      "epoch": 2.1298666666666666,
      "grad_norm": 0.023155227705634517,
      "learning_rate": 0.0001,
      "loss": 0.9298,
      "step": 9935
    },
    {
      "epoch": 2.12992,
      "grad_norm": 0.023189371700419154,
      "learning_rate": 0.0001,
      "loss": 0.915,
      "step": 9936
    },
    {
      "epoch": 2.1299733333333335,
      "grad_norm": 0.023653097823707718,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 9937
    },
    {
      "epoch": 2.1300266666666667,
      "grad_norm": 0.023128738300234007,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 9938
    },
    {
      "epoch": 2.13008,
      "grad_norm": 0.02286208766560143,
      "learning_rate": 0.0001,
      "loss": 0.8896,
      "step": 9939
    },
    {
      "epoch": 2.130133333333333,
      "grad_norm": 0.02389988288392258,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 9940
    },
    {
      "epoch": 2.130186666666667,
      "grad_norm": 0.02374838854628771,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 9941
    },
    {
      "epoch": 2.13024,
      "grad_norm": 0.028246483025503914,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 9942
    },
    {
      "epoch": 2.1302933333333334,
      "grad_norm": 0.02629951607256805,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 9943
    },
    {
      "epoch": 2.1303466666666666,
      "grad_norm": 0.02525523136697994,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 9944
    },
    {
      "epoch": 2.1304,
      "grad_norm": 0.02369907007921289,
      "learning_rate": 0.0001,
      "loss": 1.0023,
      "step": 9945
    },
    {
      "epoch": 2.1304533333333335,
      "grad_norm": 0.022341682044760204,
      "learning_rate": 0.0001,
      "loss": 0.9609,
      "step": 9946
    },
    {
      "epoch": 2.1305066666666668,
      "grad_norm": 0.023724149026588252,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 9947
    },
    {
      "epoch": 2.13056,
      "grad_norm": 0.02518081494202175,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 9948
    },
    {
      "epoch": 2.1306133333333332,
      "grad_norm": 0.024961042118960556,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 9949
    },
    {
      "epoch": 2.1306666666666665,
      "grad_norm": 0.02428921810767605,
      "learning_rate": 0.0001,
      "loss": 0.9497,
      "step": 9950
    },
    {
      "epoch": 2.13072,
      "grad_norm": 0.025413260239408028,
      "learning_rate": 0.0001,
      "loss": 0.9958,
      "step": 9951
    },
    {
      "epoch": 2.1307733333333334,
      "grad_norm": 0.024494535724709176,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 9952
    },
    {
      "epoch": 2.1308266666666666,
      "grad_norm": 0.028757534562248326,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 9953
    },
    {
      "epoch": 2.13088,
      "grad_norm": 0.0252474717417924,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 9954
    },
    {
      "epoch": 2.130933333333333,
      "grad_norm": 0.022617630109325715,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 9955
    },
    {
      "epoch": 2.130986666666667,
      "grad_norm": 0.026616245708034746,
      "learning_rate": 0.0001,
      "loss": 1.03,
      "step": 9956
    },
    {
      "epoch": 2.13104,
      "grad_norm": 0.02551220674025352,
      "learning_rate": 0.0001,
      "loss": 1.0082,
      "step": 9957
    },
    {
      "epoch": 2.1310933333333333,
      "grad_norm": 0.02256081764627935,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 9958
    },
    {
      "epoch": 2.1311466666666665,
      "grad_norm": 0.02481567008603959,
      "learning_rate": 0.0001,
      "loss": 0.9183,
      "step": 9959
    },
    {
      "epoch": 2.1312,
      "grad_norm": 0.02379683228203195,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 9960
    },
    {
      "epoch": 2.1312533333333334,
      "grad_norm": 0.023176193522224737,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 9961
    },
    {
      "epoch": 2.1313066666666667,
      "grad_norm": 0.02389960724600674,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 9962
    },
    {
      "epoch": 2.13136,
      "grad_norm": 0.0251734257757099,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 9963
    },
    {
      "epoch": 2.131413333333333,
      "grad_norm": 0.02443723435379813,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 9964
    },
    {
      "epoch": 2.131466666666667,
      "grad_norm": 0.024655748832832447,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 9965
    },
    {
      "epoch": 2.13152,
      "grad_norm": 0.022540762121355695,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 9966
    },
    {
      "epoch": 2.1315733333333333,
      "grad_norm": 0.02817138937210374,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 9967
    },
    {
      "epoch": 2.1316266666666666,
      "grad_norm": 0.02367493473588227,
      "learning_rate": 0.0001,
      "loss": 0.9805,
      "step": 9968
    },
    {
      "epoch": 2.13168,
      "grad_norm": 0.024812444653707327,
      "learning_rate": 0.0001,
      "loss": 0.975,
      "step": 9969
    },
    {
      "epoch": 2.1317333333333335,
      "grad_norm": 0.02234854759893589,
      "learning_rate": 0.0001,
      "loss": 0.8991,
      "step": 9970
    },
    {
      "epoch": 2.1317866666666667,
      "grad_norm": 0.02297107018255144,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 9971
    },
    {
      "epoch": 2.13184,
      "grad_norm": 0.02395439780725141,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 9972
    },
    {
      "epoch": 2.131893333333333,
      "grad_norm": 0.023442947661270183,
      "learning_rate": 0.0001,
      "loss": 0.9499,
      "step": 9973
    },
    {
      "epoch": 2.131946666666667,
      "grad_norm": 0.025760046704483883,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 9974
    },
    {
      "epoch": 2.132,
      "grad_norm": 0.02306441592795346,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 9975
    },
    {
      "epoch": 2.1320533333333334,
      "grad_norm": 0.022617019265526877,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 9976
    },
    {
      "epoch": 2.1321066666666666,
      "grad_norm": 0.023192784016914724,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 9977
    },
    {
      "epoch": 2.13216,
      "grad_norm": 0.021963457983345543,
      "learning_rate": 0.0001,
      "loss": 0.8981,
      "step": 9978
    },
    {
      "epoch": 2.1322133333333335,
      "grad_norm": 0.022048438651209843,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 9979
    },
    {
      "epoch": 2.1322666666666668,
      "grad_norm": 0.024266849635948714,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 9980
    },
    {
      "epoch": 2.13232,
      "grad_norm": 0.025629378179256486,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 9981
    },
    {
      "epoch": 2.1323733333333332,
      "grad_norm": 0.023846774850047856,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 9982
    },
    {
      "epoch": 2.1324266666666665,
      "grad_norm": 0.025345236376977907,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 9983
    },
    {
      "epoch": 2.13248,
      "grad_norm": 0.023389010400275936,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 9984
    },
    {
      "epoch": 2.1325333333333334,
      "grad_norm": 0.024980986674934154,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 9985
    },
    {
      "epoch": 2.1325866666666666,
      "grad_norm": 0.024235784438218777,
      "learning_rate": 0.0001,
      "loss": 1.0171,
      "step": 9986
    },
    {
      "epoch": 2.13264,
      "grad_norm": 0.022397086716912658,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 9987
    },
    {
      "epoch": 2.132693333333333,
      "grad_norm": 0.02474476558946436,
      "learning_rate": 0.0001,
      "loss": 0.9928,
      "step": 9988
    },
    {
      "epoch": 2.132746666666667,
      "grad_norm": 0.024756499838956555,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 9989
    },
    {
      "epoch": 2.1328,
      "grad_norm": 0.025090213931948185,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "step": 9990
    },
    {
      "epoch": 2.1328533333333333,
      "grad_norm": 0.025123059067483827,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 9991
    },
    {
      "epoch": 2.1329066666666665,
      "grad_norm": 0.02353536283145298,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 9992
    },
    {
      "epoch": 2.13296,
      "grad_norm": 0.02253768955121066,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "step": 9993
    },
    {
      "epoch": 2.1330133333333334,
      "grad_norm": 0.025816941814022363,
      "learning_rate": 0.0001,
      "loss": 0.925,
      "step": 9994
    },
    {
      "epoch": 2.1330666666666667,
      "grad_norm": 0.02298359446159713,
      "learning_rate": 0.0001,
      "loss": 1.0011,
      "step": 9995
    },
    {
      "epoch": 2.13312,
      "grad_norm": 0.024672132692176607,
      "learning_rate": 0.0001,
      "loss": 0.9174,
      "step": 9996
    },
    {
      "epoch": 2.133173333333333,
      "grad_norm": 0.023535531530901932,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 9997
    },
    {
      "epoch": 2.133226666666667,
      "grad_norm": 0.022344828420781886,
      "learning_rate": 0.0001,
      "loss": 0.9623,
      "step": 9998
    },
    {
      "epoch": 2.13328,
      "grad_norm": 0.025205661115455514,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 9999
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.025395970437827115,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 10000
    },
    {
      "epoch": 2.1333333333333333,
      "eval_accuracy": 0.6211668384948805,
      "eval_loss": 1.3488553762435913,
      "eval_runtime": 63.2266,
      "eval_samples_per_second": 15.816,
      "eval_steps_per_second": 0.506,
      "step": 10000
    },
    {
      "epoch": 2.1333866666666665,
      "grad_norm": 0.025535033416991555,
      "learning_rate": 0.0001,
      "loss": 1.0121,
      "step": 10001
    },
    {
      "epoch": 2.1334400000000002,
      "grad_norm": 0.022648869844646796,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "step": 10002
    },
    {
      "epoch": 2.1334933333333335,
      "grad_norm": 0.02404716958860301,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 10003
    },
    {
      "epoch": 2.1335466666666667,
      "grad_norm": 0.02429757489819622,
      "learning_rate": 0.0001,
      "loss": 0.8928,
      "step": 10004
    },
    {
      "epoch": 2.1336,
      "grad_norm": 0.022357267090850366,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "step": 10005
    },
    {
      "epoch": 2.133653333333333,
      "grad_norm": 0.022839253422924352,
      "learning_rate": 0.0001,
      "loss": 0.9745,
      "step": 10006
    },
    {
      "epoch": 2.133706666666667,
      "grad_norm": 0.024064064910902707,
      "learning_rate": 0.0001,
      "loss": 0.9644,
      "step": 10007
    },
    {
      "epoch": 2.13376,
      "grad_norm": 0.023131555653487613,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "step": 10008
    },
    {
      "epoch": 2.1338133333333333,
      "grad_norm": 0.023804523330620928,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 10009
    },
    {
      "epoch": 2.1338666666666666,
      "grad_norm": 0.023125432638670552,
      "learning_rate": 0.0001,
      "loss": 0.9015,
      "step": 10010
    },
    {
      "epoch": 2.13392,
      "grad_norm": 0.022946147483460688,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 10011
    },
    {
      "epoch": 2.1339733333333335,
      "grad_norm": 0.022895480228970505,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 10012
    },
    {
      "epoch": 2.1340266666666667,
      "grad_norm": 0.023942326975608906,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 10013
    },
    {
      "epoch": 2.13408,
      "grad_norm": 0.0247207648429355,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 10014
    },
    {
      "epoch": 2.134133333333333,
      "grad_norm": 0.024217408711040292,
      "learning_rate": 0.0001,
      "loss": 0.9588,
      "step": 10015
    },
    {
      "epoch": 2.1341866666666665,
      "grad_norm": 0.022629399740867855,
      "learning_rate": 0.0001,
      "loss": 0.97,
      "step": 10016
    },
    {
      "epoch": 2.13424,
      "grad_norm": 0.024381171990853122,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 10017
    },
    {
      "epoch": 2.1342933333333334,
      "grad_norm": 0.025772413826917955,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "step": 10018
    },
    {
      "epoch": 2.1343466666666666,
      "grad_norm": 0.02409029922345196,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 10019
    },
    {
      "epoch": 2.1344,
      "grad_norm": 0.022917538805533634,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 10020
    },
    {
      "epoch": 2.1344533333333335,
      "grad_norm": 0.022882057466768205,
      "learning_rate": 0.0001,
      "loss": 0.9089,
      "step": 10021
    },
    {
      "epoch": 2.1345066666666668,
      "grad_norm": 0.026541204986988035,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 10022
    },
    {
      "epoch": 2.13456,
      "grad_norm": 0.02311308503988414,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 10023
    },
    {
      "epoch": 2.1346133333333333,
      "grad_norm": 0.022926590064770665,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 10024
    },
    {
      "epoch": 2.1346666666666665,
      "grad_norm": 0.022237892237434595,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 10025
    },
    {
      "epoch": 2.13472,
      "grad_norm": 0.024177115815073213,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 10026
    },
    {
      "epoch": 2.1347733333333334,
      "grad_norm": 0.026360153288924073,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 10027
    },
    {
      "epoch": 2.1348266666666667,
      "grad_norm": 0.02313476382124696,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 10028
    },
    {
      "epoch": 2.13488,
      "grad_norm": 0.02348111336136442,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 10029
    },
    {
      "epoch": 2.134933333333333,
      "grad_norm": 0.02282653074277531,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 10030
    },
    {
      "epoch": 2.134986666666667,
      "grad_norm": 0.024395412213488163,
      "learning_rate": 0.0001,
      "loss": 0.9331,
      "step": 10031
    },
    {
      "epoch": 2.13504,
      "grad_norm": 0.02444405804199922,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 10032
    },
    {
      "epoch": 2.1350933333333333,
      "grad_norm": 0.023257354927160186,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 10033
    },
    {
      "epoch": 2.1351466666666665,
      "grad_norm": 0.02463391567504066,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 10034
    },
    {
      "epoch": 2.1352,
      "grad_norm": 0.0231573369545169,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 10035
    },
    {
      "epoch": 2.1352533333333334,
      "grad_norm": 0.02250827297044125,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 10036
    },
    {
      "epoch": 2.1353066666666667,
      "grad_norm": 0.023517679785674477,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 10037
    },
    {
      "epoch": 2.13536,
      "grad_norm": 0.024773438889435336,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 10038
    },
    {
      "epoch": 2.135413333333333,
      "grad_norm": 0.0225416680873728,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 10039
    },
    {
      "epoch": 2.135466666666667,
      "grad_norm": 0.023298971606438016,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "step": 10040
    },
    {
      "epoch": 2.13552,
      "grad_norm": 0.025586789447802273,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 10041
    },
    {
      "epoch": 2.1355733333333333,
      "grad_norm": 0.023922842283977407,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 10042
    },
    {
      "epoch": 2.1356266666666666,
      "grad_norm": 0.024540494003494888,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 10043
    },
    {
      "epoch": 2.13568,
      "grad_norm": 0.023560209971827326,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 10044
    },
    {
      "epoch": 2.1357333333333335,
      "grad_norm": 0.023296144328609568,
      "learning_rate": 0.0001,
      "loss": 0.91,
      "step": 10045
    },
    {
      "epoch": 2.1357866666666667,
      "grad_norm": 0.02541843556022851,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 10046
    },
    {
      "epoch": 2.13584,
      "grad_norm": 0.0253329528367038,
      "learning_rate": 0.0001,
      "loss": 1.0249,
      "step": 10047
    },
    {
      "epoch": 2.135893333333333,
      "grad_norm": 0.02323800198439594,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 10048
    },
    {
      "epoch": 2.1359466666666664,
      "grad_norm": 0.023065669319996637,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "step": 10049
    },
    {
      "epoch": 2.136,
      "grad_norm": 0.02491223251615032,
      "learning_rate": 0.0001,
      "loss": 0.9526,
      "step": 10050
    },
    {
      "epoch": 2.1360533333333334,
      "grad_norm": 0.022948258440827998,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 10051
    },
    {
      "epoch": 2.1361066666666666,
      "grad_norm": 0.02317925345106152,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 10052
    },
    {
      "epoch": 2.13616,
      "grad_norm": 0.022826240595873504,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 10053
    },
    {
      "epoch": 2.1362133333333335,
      "grad_norm": 0.02546437812395611,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 10054
    },
    {
      "epoch": 2.1362666666666668,
      "grad_norm": 0.023762112003651855,
      "learning_rate": 0.0001,
      "loss": 0.9278,
      "step": 10055
    },
    {
      "epoch": 2.13632,
      "grad_norm": 0.024669548933840293,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 10056
    },
    {
      "epoch": 2.1363733333333332,
      "grad_norm": 0.02487823772512136,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 10057
    },
    {
      "epoch": 2.1364266666666665,
      "grad_norm": 0.023683382836746498,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 10058
    },
    {
      "epoch": 2.13648,
      "grad_norm": 0.02341548483100478,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "step": 10059
    },
    {
      "epoch": 2.1365333333333334,
      "grad_norm": 0.0235589882188244,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 10060
    },
    {
      "epoch": 2.1365866666666666,
      "grad_norm": 0.024072633313968375,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 10061
    },
    {
      "epoch": 2.13664,
      "grad_norm": 0.025053789353847698,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 10062
    },
    {
      "epoch": 2.1366933333333336,
      "grad_norm": 0.023708669766930323,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 10063
    },
    {
      "epoch": 2.136746666666667,
      "grad_norm": 0.02544067554196484,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 10064
    },
    {
      "epoch": 2.1368,
      "grad_norm": 0.02516726282826622,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 10065
    },
    {
      "epoch": 2.1368533333333333,
      "grad_norm": 0.023674999459631384,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "step": 10066
    },
    {
      "epoch": 2.1369066666666665,
      "grad_norm": 0.02403094790583123,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 10067
    },
    {
      "epoch": 2.13696,
      "grad_norm": 0.025454321032187918,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 10068
    },
    {
      "epoch": 2.1370133333333334,
      "grad_norm": 0.023089002833062963,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 10069
    },
    {
      "epoch": 2.1370666666666667,
      "grad_norm": 0.025004065625129246,
      "learning_rate": 0.0001,
      "loss": 0.9186,
      "step": 10070
    },
    {
      "epoch": 2.13712,
      "grad_norm": 0.024086520839184396,
      "learning_rate": 0.0001,
      "loss": 0.9172,
      "step": 10071
    },
    {
      "epoch": 2.137173333333333,
      "grad_norm": 0.022874556743363788,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 10072
    },
    {
      "epoch": 2.137226666666667,
      "grad_norm": 0.025461977896244145,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 10073
    },
    {
      "epoch": 2.13728,
      "grad_norm": 0.024681893568453846,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 10074
    },
    {
      "epoch": 2.1373333333333333,
      "grad_norm": 0.022967543718709255,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 10075
    },
    {
      "epoch": 2.1373866666666665,
      "grad_norm": 0.02625871280093816,
      "learning_rate": 0.0001,
      "loss": 0.9792,
      "step": 10076
    },
    {
      "epoch": 2.13744,
      "grad_norm": 0.024313244154723312,
      "learning_rate": 0.0001,
      "loss": 0.9768,
      "step": 10077
    },
    {
      "epoch": 2.1374933333333335,
      "grad_norm": 0.02496684024414466,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 10078
    },
    {
      "epoch": 2.1375466666666667,
      "grad_norm": 0.0237731601333391,
      "learning_rate": 0.0001,
      "loss": 0.9165,
      "step": 10079
    },
    {
      "epoch": 2.1376,
      "grad_norm": 0.022835191804782853,
      "learning_rate": 0.0001,
      "loss": 0.982,
      "step": 10080
    },
    {
      "epoch": 2.137653333333333,
      "grad_norm": 0.024095274743213293,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "step": 10081
    },
    {
      "epoch": 2.137706666666667,
      "grad_norm": 0.024596800409594277,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 10082
    },
    {
      "epoch": 2.13776,
      "grad_norm": 0.02553917468803141,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 10083
    },
    {
      "epoch": 2.1378133333333333,
      "grad_norm": 0.02226166381111202,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "step": 10084
    },
    {
      "epoch": 2.1378666666666666,
      "grad_norm": 0.023967077855167142,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 10085
    },
    {
      "epoch": 2.13792,
      "grad_norm": 0.02332271313811308,
      "learning_rate": 0.0001,
      "loss": 0.9682,
      "step": 10086
    },
    {
      "epoch": 2.1379733333333335,
      "grad_norm": 0.023378452739938077,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 10087
    },
    {
      "epoch": 2.1380266666666667,
      "grad_norm": 0.02262490127751747,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 10088
    },
    {
      "epoch": 2.13808,
      "grad_norm": 0.02406301486475837,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 10089
    },
    {
      "epoch": 2.138133333333333,
      "grad_norm": 0.024136740212048695,
      "learning_rate": 0.0001,
      "loss": 1.0268,
      "step": 10090
    },
    {
      "epoch": 2.138186666666667,
      "grad_norm": 0.02439659297981149,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 10091
    },
    {
      "epoch": 2.13824,
      "grad_norm": 0.022424948310235948,
      "learning_rate": 0.0001,
      "loss": 0.9342,
      "step": 10092
    },
    {
      "epoch": 2.1382933333333334,
      "grad_norm": 0.022147775775002907,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 10093
    },
    {
      "epoch": 2.1383466666666666,
      "grad_norm": 0.023705209031945985,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 10094
    },
    {
      "epoch": 2.1384,
      "grad_norm": 0.021882658772664095,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "step": 10095
    },
    {
      "epoch": 2.1384533333333335,
      "grad_norm": 0.023332021438275233,
      "learning_rate": 0.0001,
      "loss": 1.0264,
      "step": 10096
    },
    {
      "epoch": 2.1385066666666668,
      "grad_norm": 0.024428423866695352,
      "learning_rate": 0.0001,
      "loss": 0.9628,
      "step": 10097
    },
    {
      "epoch": 2.13856,
      "grad_norm": 0.02376372102971266,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 10098
    },
    {
      "epoch": 2.1386133333333333,
      "grad_norm": 0.0225742760185711,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 10099
    },
    {
      "epoch": 2.1386666666666665,
      "grad_norm": 0.023442335814073564,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 10100
    },
    {
      "epoch": 2.13872,
      "grad_norm": 0.023057982459724683,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "step": 10101
    },
    {
      "epoch": 2.1387733333333334,
      "grad_norm": 0.023886665111601202,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 10102
    },
    {
      "epoch": 2.1388266666666667,
      "grad_norm": 0.024573664322582976,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 10103
    },
    {
      "epoch": 2.13888,
      "grad_norm": 0.023030167368000835,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 10104
    },
    {
      "epoch": 2.138933333333333,
      "grad_norm": 0.022348300670371416,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 10105
    },
    {
      "epoch": 2.138986666666667,
      "grad_norm": 0.023474341120321845,
      "learning_rate": 0.0001,
      "loss": 0.9285,
      "step": 10106
    },
    {
      "epoch": 2.13904,
      "grad_norm": 0.02377144872294054,
      "learning_rate": 0.0001,
      "loss": 0.9109,
      "step": 10107
    },
    {
      "epoch": 2.1390933333333333,
      "grad_norm": 0.023654770862246502,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 10108
    },
    {
      "epoch": 2.1391466666666665,
      "grad_norm": 0.02300914323749226,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 10109
    },
    {
      "epoch": 2.1391999999999998,
      "grad_norm": 0.023716511605191174,
      "learning_rate": 0.0001,
      "loss": 0.9968,
      "step": 10110
    },
    {
      "epoch": 2.1392533333333335,
      "grad_norm": 0.021929851625500277,
      "learning_rate": 0.0001,
      "loss": 0.9844,
      "step": 10111
    },
    {
      "epoch": 2.1393066666666667,
      "grad_norm": 0.02506318833623819,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "step": 10112
    },
    {
      "epoch": 2.13936,
      "grad_norm": 0.02561030886616965,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 10113
    },
    {
      "epoch": 2.139413333333333,
      "grad_norm": 0.022921893316087457,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 10114
    },
    {
      "epoch": 2.139466666666667,
      "grad_norm": 0.02450639632746901,
      "learning_rate": 0.0001,
      "loss": 0.9662,
      "step": 10115
    },
    {
      "epoch": 2.13952,
      "grad_norm": 0.024930456221289164,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 10116
    },
    {
      "epoch": 2.1395733333333333,
      "grad_norm": 0.023773710990337073,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 10117
    },
    {
      "epoch": 2.1396266666666666,
      "grad_norm": 0.030214191261244392,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 10118
    },
    {
      "epoch": 2.13968,
      "grad_norm": 0.022310635305482083,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 10119
    },
    {
      "epoch": 2.1397333333333335,
      "grad_norm": 0.024397083604262154,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 10120
    },
    {
      "epoch": 2.1397866666666667,
      "grad_norm": 0.02489177441194842,
      "learning_rate": 0.0001,
      "loss": 0.9524,
      "step": 10121
    },
    {
      "epoch": 2.13984,
      "grad_norm": 0.023410510584858157,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 10122
    },
    {
      "epoch": 2.139893333333333,
      "grad_norm": 0.023516030418940924,
      "learning_rate": 0.0001,
      "loss": 1.0347,
      "step": 10123
    },
    {
      "epoch": 2.139946666666667,
      "grad_norm": 0.024687025965385252,
      "learning_rate": 0.0001,
      "loss": 0.995,
      "step": 10124
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.02465533949175129,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "step": 10125
    },
    {
      "epoch": 2.1400533333333334,
      "grad_norm": 0.023986239812384947,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 10126
    },
    {
      "epoch": 2.1401066666666666,
      "grad_norm": 0.026155413042283387,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 10127
    },
    {
      "epoch": 2.14016,
      "grad_norm": 0.023315542144357822,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 10128
    },
    {
      "epoch": 2.1402133333333335,
      "grad_norm": 0.023817294945565576,
      "learning_rate": 0.0001,
      "loss": 0.8829,
      "step": 10129
    },
    {
      "epoch": 2.1402666666666668,
      "grad_norm": 0.024572685692594746,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 10130
    },
    {
      "epoch": 2.14032,
      "grad_norm": 0.023539048085273805,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 10131
    },
    {
      "epoch": 2.1403733333333332,
      "grad_norm": 0.02388190128049265,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "step": 10132
    },
    {
      "epoch": 2.1404266666666665,
      "grad_norm": 0.02306629610277777,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "step": 10133
    },
    {
      "epoch": 2.14048,
      "grad_norm": 0.02289004334955011,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 10134
    },
    {
      "epoch": 2.1405333333333334,
      "grad_norm": 0.02378195314455538,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 10135
    },
    {
      "epoch": 2.1405866666666666,
      "grad_norm": 0.023324510356599763,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 10136
    },
    {
      "epoch": 2.14064,
      "grad_norm": 0.024895696052489782,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 10137
    },
    {
      "epoch": 2.140693333333333,
      "grad_norm": 0.023070878252764805,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 10138
    },
    {
      "epoch": 2.140746666666667,
      "grad_norm": 0.02271897919664065,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 10139
    },
    {
      "epoch": 2.1408,
      "grad_norm": 0.02141651725917044,
      "learning_rate": 0.0001,
      "loss": 0.92,
      "step": 10140
    },
    {
      "epoch": 2.1408533333333333,
      "grad_norm": 0.02444699885574177,
      "learning_rate": 0.0001,
      "loss": 1.0416,
      "step": 10141
    },
    {
      "epoch": 2.1409066666666665,
      "grad_norm": 0.023347625344403735,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 10142
    },
    {
      "epoch": 2.14096,
      "grad_norm": 0.023223604689722146,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 10143
    },
    {
      "epoch": 2.1410133333333334,
      "grad_norm": 0.022756063810294033,
      "learning_rate": 0.0001,
      "loss": 0.9209,
      "step": 10144
    },
    {
      "epoch": 2.1410666666666667,
      "grad_norm": 0.0235603933717486,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 10145
    },
    {
      "epoch": 2.14112,
      "grad_norm": 0.03406956086692379,
      "learning_rate": 0.0001,
      "loss": 0.9245,
      "step": 10146
    },
    {
      "epoch": 2.141173333333333,
      "grad_norm": 0.025800432509570804,
      "learning_rate": 0.0001,
      "loss": 0.9405,
      "step": 10147
    },
    {
      "epoch": 2.141226666666667,
      "grad_norm": 0.023451077108151204,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 10148
    },
    {
      "epoch": 2.14128,
      "grad_norm": 0.023523482346342356,
      "learning_rate": 0.0001,
      "loss": 0.9354,
      "step": 10149
    },
    {
      "epoch": 2.1413333333333333,
      "grad_norm": 0.023959889401792164,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 10150
    },
    {
      "epoch": 2.1413866666666665,
      "grad_norm": 0.023258653513123187,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 10151
    },
    {
      "epoch": 2.1414400000000002,
      "grad_norm": 0.02546516567725732,
      "learning_rate": 0.0001,
      "loss": 0.9813,
      "step": 10152
    },
    {
      "epoch": 2.1414933333333335,
      "grad_norm": 0.023997488131976392,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 10153
    },
    {
      "epoch": 2.1415466666666667,
      "grad_norm": 0.022899671334210538,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 10154
    },
    {
      "epoch": 2.1416,
      "grad_norm": 0.02604548936991041,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 10155
    },
    {
      "epoch": 2.141653333333333,
      "grad_norm": 0.024309849437525573,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 10156
    },
    {
      "epoch": 2.141706666666667,
      "grad_norm": 0.023217026009398952,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 10157
    },
    {
      "epoch": 2.14176,
      "grad_norm": 0.02363661330275017,
      "learning_rate": 0.0001,
      "loss": 0.9386,
      "step": 10158
    },
    {
      "epoch": 2.1418133333333333,
      "grad_norm": 0.023578348194788355,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 10159
    },
    {
      "epoch": 2.1418666666666666,
      "grad_norm": 0.02444729073515834,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 10160
    },
    {
      "epoch": 2.14192,
      "grad_norm": 0.023848561686787825,
      "learning_rate": 0.0001,
      "loss": 0.9603,
      "step": 10161
    },
    {
      "epoch": 2.1419733333333335,
      "grad_norm": 0.02264310762760964,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 10162
    },
    {
      "epoch": 2.1420266666666667,
      "grad_norm": 0.023367214066513133,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 10163
    },
    {
      "epoch": 2.14208,
      "grad_norm": 0.0246186846197609,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 10164
    },
    {
      "epoch": 2.1421333333333332,
      "grad_norm": 0.02292935899840984,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 10165
    },
    {
      "epoch": 2.1421866666666665,
      "grad_norm": 0.022232373507805648,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 10166
    },
    {
      "epoch": 2.14224,
      "grad_norm": 0.02454499543492885,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 10167
    },
    {
      "epoch": 2.1422933333333334,
      "grad_norm": 0.02274934870492224,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 10168
    },
    {
      "epoch": 2.1423466666666666,
      "grad_norm": 0.02362968505992439,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 10169
    },
    {
      "epoch": 2.1424,
      "grad_norm": 0.02300740961562532,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 10170
    },
    {
      "epoch": 2.142453333333333,
      "grad_norm": 0.02327663718474707,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 10171
    },
    {
      "epoch": 2.142506666666667,
      "grad_norm": 0.022522731751295138,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 10172
    },
    {
      "epoch": 2.14256,
      "grad_norm": 0.023381146976371028,
      "learning_rate": 0.0001,
      "loss": 0.9634,
      "step": 10173
    },
    {
      "epoch": 2.1426133333333333,
      "grad_norm": 0.02308851700143751,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 10174
    },
    {
      "epoch": 2.1426666666666665,
      "grad_norm": 0.025134135138583757,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 10175
    },
    {
      "epoch": 2.14272,
      "grad_norm": 0.02404871855904263,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 10176
    },
    {
      "epoch": 2.1427733333333334,
      "grad_norm": 0.025552098370465036,
      "learning_rate": 0.0001,
      "loss": 1.018,
      "step": 10177
    },
    {
      "epoch": 2.1428266666666667,
      "grad_norm": 0.023903829711296034,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 10178
    },
    {
      "epoch": 2.14288,
      "grad_norm": 0.022846231563680642,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 10179
    },
    {
      "epoch": 2.142933333333333,
      "grad_norm": 0.023743748235311356,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 10180
    },
    {
      "epoch": 2.142986666666667,
      "grad_norm": 0.028194819238819755,
      "learning_rate": 0.0001,
      "loss": 0.9319,
      "step": 10181
    },
    {
      "epoch": 2.14304,
      "grad_norm": 0.023842773285894337,
      "learning_rate": 0.0001,
      "loss": 0.9072,
      "step": 10182
    },
    {
      "epoch": 2.1430933333333333,
      "grad_norm": 0.021966462748764015,
      "learning_rate": 0.0001,
      "loss": 0.9118,
      "step": 10183
    },
    {
      "epoch": 2.1431466666666665,
      "grad_norm": 0.0243368413880271,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 10184
    },
    {
      "epoch": 2.1432,
      "grad_norm": 0.024402483607077724,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 10185
    },
    {
      "epoch": 2.1432533333333335,
      "grad_norm": 0.0240445183524096,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 10186
    },
    {
      "epoch": 2.1433066666666667,
      "grad_norm": 0.02323988771048596,
      "learning_rate": 0.0001,
      "loss": 0.9489,
      "step": 10187
    },
    {
      "epoch": 2.14336,
      "grad_norm": 0.024191336725551064,
      "learning_rate": 0.0001,
      "loss": 1.0043,
      "step": 10188
    },
    {
      "epoch": 2.143413333333333,
      "grad_norm": 0.024317722030778,
      "learning_rate": 0.0001,
      "loss": 1.0071,
      "step": 10189
    },
    {
      "epoch": 2.143466666666667,
      "grad_norm": 0.024757705425907404,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 10190
    },
    {
      "epoch": 2.14352,
      "grad_norm": 0.02208971743838138,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 10191
    },
    {
      "epoch": 2.1435733333333333,
      "grad_norm": 0.026446562957339576,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 10192
    },
    {
      "epoch": 2.1436266666666666,
      "grad_norm": 0.02492844566798171,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 10193
    },
    {
      "epoch": 2.14368,
      "grad_norm": 0.02210155687737749,
      "learning_rate": 0.0001,
      "loss": 0.9165,
      "step": 10194
    },
    {
      "epoch": 2.1437333333333335,
      "grad_norm": 0.02357830829181993,
      "learning_rate": 0.0001,
      "loss": 0.8748,
      "step": 10195
    },
    {
      "epoch": 2.1437866666666667,
      "grad_norm": 0.025329402554126062,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 10196
    },
    {
      "epoch": 2.14384,
      "grad_norm": 0.02336920099714502,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 10197
    },
    {
      "epoch": 2.143893333333333,
      "grad_norm": 0.02728363898200278,
      "learning_rate": 0.0001,
      "loss": 1.0049,
      "step": 10198
    },
    {
      "epoch": 2.1439466666666664,
      "grad_norm": 0.024399931222703636,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 10199
    },
    {
      "epoch": 2.144,
      "grad_norm": 0.023003344750125325,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 10200
    },
    {
      "epoch": 2.144,
      "eval_accuracy": 0.6212050898863927,
      "eval_loss": 1.3484159708023071,
      "eval_runtime": 62.9222,
      "eval_samples_per_second": 15.893,
      "eval_steps_per_second": 0.509,
      "step": 10200
    },
    {
      "epoch": 2.1440533333333334,
      "grad_norm": 0.022872338050353765,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 10201
    },
    {
      "epoch": 2.1441066666666666,
      "grad_norm": 0.02274588287498637,
      "learning_rate": 0.0001,
      "loss": 0.9142,
      "step": 10202
    },
    {
      "epoch": 2.14416,
      "grad_norm": 0.023140067632709545,
      "learning_rate": 0.0001,
      "loss": 1.0052,
      "step": 10203
    },
    {
      "epoch": 2.1442133333333335,
      "grad_norm": 0.024219708657198778,
      "learning_rate": 0.0001,
      "loss": 0.9175,
      "step": 10204
    },
    {
      "epoch": 2.1442666666666668,
      "grad_norm": 0.023609670159004458,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 10205
    },
    {
      "epoch": 2.14432,
      "grad_norm": 0.02628986347329067,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "step": 10206
    },
    {
      "epoch": 2.1443733333333332,
      "grad_norm": 0.023780434633531616,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 10207
    },
    {
      "epoch": 2.1444266666666665,
      "grad_norm": 0.02221518526075311,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 10208
    },
    {
      "epoch": 2.14448,
      "grad_norm": 0.02325403788694417,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 10209
    },
    {
      "epoch": 2.1445333333333334,
      "grad_norm": 0.024840593321601264,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 10210
    },
    {
      "epoch": 2.1445866666666666,
      "grad_norm": 0.024442803336815932,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 10211
    },
    {
      "epoch": 2.14464,
      "grad_norm": 0.023223863231038158,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 10212
    },
    {
      "epoch": 2.1446933333333336,
      "grad_norm": 0.02292679722496299,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 10213
    },
    {
      "epoch": 2.144746666666667,
      "grad_norm": 0.026775851060821042,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "step": 10214
    },
    {
      "epoch": 2.1448,
      "grad_norm": 0.022570008792952127,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 10215
    },
    {
      "epoch": 2.1448533333333333,
      "grad_norm": 0.02325313353072854,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 10216
    },
    {
      "epoch": 2.1449066666666665,
      "grad_norm": 0.023320002559557164,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 10217
    },
    {
      "epoch": 2.14496,
      "grad_norm": 0.024361056732907314,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 10218
    },
    {
      "epoch": 2.1450133333333334,
      "grad_norm": 0.022921395135763117,
      "learning_rate": 0.0001,
      "loss": 0.9017,
      "step": 10219
    },
    {
      "epoch": 2.1450666666666667,
      "grad_norm": 0.02293334659445168,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 10220
    },
    {
      "epoch": 2.14512,
      "grad_norm": 0.024219550105349336,
      "learning_rate": 0.0001,
      "loss": 0.9864,
      "step": 10221
    },
    {
      "epoch": 2.145173333333333,
      "grad_norm": 0.023730349666563053,
      "learning_rate": 0.0001,
      "loss": 0.8691,
      "step": 10222
    },
    {
      "epoch": 2.145226666666667,
      "grad_norm": 0.02226388773162516,
      "learning_rate": 0.0001,
      "loss": 0.9188,
      "step": 10223
    },
    {
      "epoch": 2.14528,
      "grad_norm": 0.02444921999808021,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 10224
    },
    {
      "epoch": 2.1453333333333333,
      "grad_norm": 0.024188672463447573,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 10225
    },
    {
      "epoch": 2.1453866666666666,
      "grad_norm": 0.023949493863388988,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 10226
    },
    {
      "epoch": 2.14544,
      "grad_norm": 0.02430306846276712,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 10227
    },
    {
      "epoch": 2.1454933333333335,
      "grad_norm": 0.02414103656701395,
      "learning_rate": 0.0001,
      "loss": 0.9019,
      "step": 10228
    },
    {
      "epoch": 2.1455466666666667,
      "grad_norm": 0.02523425978134207,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 10229
    },
    {
      "epoch": 2.1456,
      "grad_norm": 0.025342443206328665,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 10230
    },
    {
      "epoch": 2.145653333333333,
      "grad_norm": 0.021604320984670727,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 10231
    },
    {
      "epoch": 2.145706666666667,
      "grad_norm": 0.023465567547573687,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 10232
    },
    {
      "epoch": 2.14576,
      "grad_norm": 0.02312576857559384,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 10233
    },
    {
      "epoch": 2.1458133333333334,
      "grad_norm": 0.023570664865600405,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 10234
    },
    {
      "epoch": 2.1458666666666666,
      "grad_norm": 0.02325373569218935,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 10235
    },
    {
      "epoch": 2.14592,
      "grad_norm": 0.022719078743799897,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 10236
    },
    {
      "epoch": 2.1459733333333335,
      "grad_norm": 0.02405447120204081,
      "learning_rate": 0.0001,
      "loss": 0.9287,
      "step": 10237
    },
    {
      "epoch": 2.1460266666666667,
      "grad_norm": 0.023425172846228633,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 10238
    },
    {
      "epoch": 2.14608,
      "grad_norm": 0.02420873859148293,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 10239
    },
    {
      "epoch": 2.1461333333333332,
      "grad_norm": 0.02388835984107801,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 10240
    },
    {
      "epoch": 2.1461866666666665,
      "grad_norm": 0.023752032545454653,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 10241
    },
    {
      "epoch": 2.14624,
      "grad_norm": 0.023840312551643504,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 10242
    },
    {
      "epoch": 2.1462933333333334,
      "grad_norm": 0.024128105386609817,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 10243
    },
    {
      "epoch": 2.1463466666666666,
      "grad_norm": 0.023033530303917832,
      "learning_rate": 0.0001,
      "loss": 1.0413,
      "step": 10244
    },
    {
      "epoch": 2.1464,
      "grad_norm": 0.022935902961220986,
      "learning_rate": 0.0001,
      "loss": 0.9492,
      "step": 10245
    },
    {
      "epoch": 2.1464533333333335,
      "grad_norm": 0.023516189807932242,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 10246
    },
    {
      "epoch": 2.146506666666667,
      "grad_norm": 0.025557335846360028,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 10247
    },
    {
      "epoch": 2.14656,
      "grad_norm": 0.021864579767215044,
      "learning_rate": 0.0001,
      "loss": 0.9545,
      "step": 10248
    },
    {
      "epoch": 2.1466133333333333,
      "grad_norm": 0.025605497840787868,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 10249
    },
    {
      "epoch": 2.1466666666666665,
      "grad_norm": 0.023867744392107072,
      "learning_rate": 0.0001,
      "loss": 0.9557,
      "step": 10250
    },
    {
      "epoch": 2.14672,
      "grad_norm": 0.02270936134933514,
      "learning_rate": 0.0001,
      "loss": 0.9741,
      "step": 10251
    },
    {
      "epoch": 2.1467733333333334,
      "grad_norm": 0.025652439333723902,
      "learning_rate": 0.0001,
      "loss": 0.9932,
      "step": 10252
    },
    {
      "epoch": 2.1468266666666667,
      "grad_norm": 0.022552240138836985,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 10253
    },
    {
      "epoch": 2.14688,
      "grad_norm": 0.022497317461222896,
      "learning_rate": 0.0001,
      "loss": 0.9372,
      "step": 10254
    },
    {
      "epoch": 2.146933333333333,
      "grad_norm": 0.02620799075843105,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 10255
    },
    {
      "epoch": 2.146986666666667,
      "grad_norm": 0.024015529373636,
      "learning_rate": 0.0001,
      "loss": 0.9941,
      "step": 10256
    },
    {
      "epoch": 2.14704,
      "grad_norm": 0.02357158463901129,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "step": 10257
    },
    {
      "epoch": 2.1470933333333333,
      "grad_norm": 0.024061688191031595,
      "learning_rate": 0.0001,
      "loss": 0.8947,
      "step": 10258
    },
    {
      "epoch": 2.1471466666666665,
      "grad_norm": 0.02292998687299849,
      "learning_rate": 0.0001,
      "loss": 0.9237,
      "step": 10259
    },
    {
      "epoch": 2.1471999999999998,
      "grad_norm": 0.025644556572072628,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 10260
    },
    {
      "epoch": 2.1472533333333335,
      "grad_norm": 0.024299988817583256,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 10261
    },
    {
      "epoch": 2.1473066666666667,
      "grad_norm": 0.02483317650884676,
      "learning_rate": 0.0001,
      "loss": 0.9384,
      "step": 10262
    },
    {
      "epoch": 2.14736,
      "grad_norm": 0.024417127243117426,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 10263
    },
    {
      "epoch": 2.147413333333333,
      "grad_norm": 0.023586632214193888,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 10264
    },
    {
      "epoch": 2.147466666666667,
      "grad_norm": 0.024436777839002683,
      "learning_rate": 0.0001,
      "loss": 0.8823,
      "step": 10265
    },
    {
      "epoch": 2.14752,
      "grad_norm": 0.024279889030049216,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 10266
    },
    {
      "epoch": 2.1475733333333333,
      "grad_norm": 0.022917524721498776,
      "learning_rate": 0.0001,
      "loss": 0.9736,
      "step": 10267
    },
    {
      "epoch": 2.1476266666666666,
      "grad_norm": 0.021836829067339,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 10268
    },
    {
      "epoch": 2.14768,
      "grad_norm": 0.024408955601629118,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 10269
    },
    {
      "epoch": 2.1477333333333335,
      "grad_norm": 0.02373968538476411,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 10270
    },
    {
      "epoch": 2.1477866666666667,
      "grad_norm": 0.02339615795743772,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 10271
    },
    {
      "epoch": 2.14784,
      "grad_norm": 0.024031875104003907,
      "learning_rate": 0.0001,
      "loss": 0.948,
      "step": 10272
    },
    {
      "epoch": 2.147893333333333,
      "grad_norm": 0.022553281747983243,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 10273
    },
    {
      "epoch": 2.147946666666667,
      "grad_norm": 0.026983864384780502,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 10274
    },
    {
      "epoch": 2.148,
      "grad_norm": 0.022563507678736935,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "step": 10275
    },
    {
      "epoch": 2.1480533333333334,
      "grad_norm": 0.026091515284763906,
      "learning_rate": 0.0001,
      "loss": 0.9243,
      "step": 10276
    },
    {
      "epoch": 2.1481066666666666,
      "grad_norm": 0.023205414725552223,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 10277
    },
    {
      "epoch": 2.14816,
      "grad_norm": 0.023515716853955853,
      "learning_rate": 0.0001,
      "loss": 0.9365,
      "step": 10278
    },
    {
      "epoch": 2.1482133333333335,
      "grad_norm": 0.024420769522805714,
      "learning_rate": 0.0001,
      "loss": 0.9262,
      "step": 10279
    },
    {
      "epoch": 2.1482666666666668,
      "grad_norm": 0.022617812294612297,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "step": 10280
    },
    {
      "epoch": 2.14832,
      "grad_norm": 0.02379588533410179,
      "learning_rate": 0.0001,
      "loss": 0.9072,
      "step": 10281
    },
    {
      "epoch": 2.1483733333333332,
      "grad_norm": 0.022455377415698977,
      "learning_rate": 0.0001,
      "loss": 0.9712,
      "step": 10282
    },
    {
      "epoch": 2.1484266666666665,
      "grad_norm": 0.022940804795022175,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "step": 10283
    },
    {
      "epoch": 2.14848,
      "grad_norm": 0.02470727607462752,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 10284
    },
    {
      "epoch": 2.1485333333333334,
      "grad_norm": 0.025333007174225066,
      "learning_rate": 0.0001,
      "loss": 0.9453,
      "step": 10285
    },
    {
      "epoch": 2.1485866666666666,
      "grad_norm": 0.023424084160979415,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 10286
    },
    {
      "epoch": 2.14864,
      "grad_norm": 0.023700764591998068,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "step": 10287
    },
    {
      "epoch": 2.148693333333333,
      "grad_norm": 0.022359725426705362,
      "learning_rate": 0.0001,
      "loss": 0.9476,
      "step": 10288
    },
    {
      "epoch": 2.148746666666667,
      "grad_norm": 0.022902101489626434,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 10289
    },
    {
      "epoch": 2.1488,
      "grad_norm": 0.022469318826890416,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 10290
    },
    {
      "epoch": 2.1488533333333333,
      "grad_norm": 0.02426991566258362,
      "learning_rate": 0.0001,
      "loss": 1.0399,
      "step": 10291
    },
    {
      "epoch": 2.1489066666666665,
      "grad_norm": 0.023490497051006237,
      "learning_rate": 0.0001,
      "loss": 0.9122,
      "step": 10292
    },
    {
      "epoch": 2.14896,
      "grad_norm": 0.02441143059702685,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 10293
    },
    {
      "epoch": 2.1490133333333334,
      "grad_norm": 0.025126189555561614,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 10294
    },
    {
      "epoch": 2.1490666666666667,
      "grad_norm": 0.0229404869965763,
      "learning_rate": 0.0001,
      "loss": 0.894,
      "step": 10295
    },
    {
      "epoch": 2.14912,
      "grad_norm": 0.02567921433613981,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 10296
    },
    {
      "epoch": 2.149173333333333,
      "grad_norm": 0.022954238623142147,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 10297
    },
    {
      "epoch": 2.149226666666667,
      "grad_norm": 0.023677084040480068,
      "learning_rate": 0.0001,
      "loss": 0.9167,
      "step": 10298
    },
    {
      "epoch": 2.14928,
      "grad_norm": 0.024974766161483718,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 10299
    },
    {
      "epoch": 2.1493333333333333,
      "grad_norm": 0.02356699804218174,
      "learning_rate": 0.0001,
      "loss": 0.9301,
      "step": 10300
    },
    {
      "epoch": 2.1493866666666666,
      "grad_norm": 0.024404767029092073,
      "learning_rate": 0.0001,
      "loss": 0.9025,
      "step": 10301
    },
    {
      "epoch": 2.14944,
      "grad_norm": 0.02440492142549004,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 10302
    },
    {
      "epoch": 2.1494933333333335,
      "grad_norm": 0.02246659113202335,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 10303
    },
    {
      "epoch": 2.1495466666666667,
      "grad_norm": 0.02445292055265016,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 10304
    },
    {
      "epoch": 2.1496,
      "grad_norm": 0.022260859613149615,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 10305
    },
    {
      "epoch": 2.149653333333333,
      "grad_norm": 0.024856904012891874,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 10306
    },
    {
      "epoch": 2.149706666666667,
      "grad_norm": 0.024424399021000246,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 10307
    },
    {
      "epoch": 2.14976,
      "grad_norm": 0.024637991359615388,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 10308
    },
    {
      "epoch": 2.1498133333333334,
      "grad_norm": 0.02334365630999859,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 10309
    },
    {
      "epoch": 2.1498666666666666,
      "grad_norm": 0.02457378168579028,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 10310
    },
    {
      "epoch": 2.14992,
      "grad_norm": 0.023605360874501338,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 10311
    },
    {
      "epoch": 2.1499733333333335,
      "grad_norm": 0.0259068662436706,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 10312
    },
    {
      "epoch": 2.1500266666666668,
      "grad_norm": 0.02377362690266842,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 10313
    },
    {
      "epoch": 2.15008,
      "grad_norm": 0.022975259574181676,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 10314
    },
    {
      "epoch": 2.1501333333333332,
      "grad_norm": 0.024886331834231865,
      "learning_rate": 0.0001,
      "loss": 0.9758,
      "step": 10315
    },
    {
      "epoch": 2.1501866666666665,
      "grad_norm": 0.022837818112203263,
      "learning_rate": 0.0001,
      "loss": 0.9238,
      "step": 10316
    },
    {
      "epoch": 2.15024,
      "grad_norm": 0.024251139607728674,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 10317
    },
    {
      "epoch": 2.1502933333333334,
      "grad_norm": 0.023163310685383492,
      "learning_rate": 0.0001,
      "loss": 0.9816,
      "step": 10318
    },
    {
      "epoch": 2.1503466666666666,
      "grad_norm": 0.024199009990002972,
      "learning_rate": 0.0001,
      "loss": 0.9571,
      "step": 10319
    },
    {
      "epoch": 2.1504,
      "grad_norm": 0.025582295934698965,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "step": 10320
    },
    {
      "epoch": 2.150453333333333,
      "grad_norm": 0.025927682341845743,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 10321
    },
    {
      "epoch": 2.150506666666667,
      "grad_norm": 0.023523824533528984,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 10322
    },
    {
      "epoch": 2.15056,
      "grad_norm": 0.02468879268540713,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 10323
    },
    {
      "epoch": 2.1506133333333333,
      "grad_norm": 0.023740815393879067,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 10324
    },
    {
      "epoch": 2.1506666666666665,
      "grad_norm": 0.023240850585308618,
      "learning_rate": 0.0001,
      "loss": 0.9231,
      "step": 10325
    },
    {
      "epoch": 2.15072,
      "grad_norm": 0.024831132787771697,
      "learning_rate": 0.0001,
      "loss": 0.9045,
      "step": 10326
    },
    {
      "epoch": 2.1507733333333334,
      "grad_norm": 0.021911606185799494,
      "learning_rate": 0.0001,
      "loss": 0.9529,
      "step": 10327
    },
    {
      "epoch": 2.1508266666666667,
      "grad_norm": 0.02319435426478841,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 10328
    },
    {
      "epoch": 2.15088,
      "grad_norm": 0.024076545459602212,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 10329
    },
    {
      "epoch": 2.150933333333333,
      "grad_norm": 0.02438374685111734,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 10330
    },
    {
      "epoch": 2.150986666666667,
      "grad_norm": 0.024193710806792692,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 10331
    },
    {
      "epoch": 2.15104,
      "grad_norm": 0.02494782601287086,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 10332
    },
    {
      "epoch": 2.1510933333333333,
      "grad_norm": 0.024190637404384204,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 10333
    },
    {
      "epoch": 2.1511466666666665,
      "grad_norm": 0.02567000058193091,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 10334
    },
    {
      "epoch": 2.1512000000000002,
      "grad_norm": 0.023170249189763983,
      "learning_rate": 0.0001,
      "loss": 0.9711,
      "step": 10335
    },
    {
      "epoch": 2.1512533333333335,
      "grad_norm": 0.025881818463750785,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 10336
    },
    {
      "epoch": 2.1513066666666667,
      "grad_norm": 0.022007688491329207,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 10337
    },
    {
      "epoch": 2.15136,
      "grad_norm": 0.024407422070568036,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 10338
    },
    {
      "epoch": 2.151413333333333,
      "grad_norm": 0.02345332517909826,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 10339
    },
    {
      "epoch": 2.151466666666667,
      "grad_norm": 0.02306941548777179,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "step": 10340
    },
    {
      "epoch": 2.15152,
      "grad_norm": 0.0220038591045273,
      "learning_rate": 0.0001,
      "loss": 0.9235,
      "step": 10341
    },
    {
      "epoch": 2.1515733333333333,
      "grad_norm": 0.02523700509921268,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 10342
    },
    {
      "epoch": 2.1516266666666666,
      "grad_norm": 0.022271737613407075,
      "learning_rate": 0.0001,
      "loss": 0.9247,
      "step": 10343
    },
    {
      "epoch": 2.15168,
      "grad_norm": 0.023915886477478582,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 10344
    },
    {
      "epoch": 2.1517333333333335,
      "grad_norm": 0.023783056276689214,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 10345
    },
    {
      "epoch": 2.1517866666666667,
      "grad_norm": 0.023432632803632565,
      "learning_rate": 0.0001,
      "loss": 0.9071,
      "step": 10346
    },
    {
      "epoch": 2.15184,
      "grad_norm": 0.02518371553363897,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 10347
    },
    {
      "epoch": 2.151893333333333,
      "grad_norm": 0.023053784672820096,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 10348
    },
    {
      "epoch": 2.1519466666666665,
      "grad_norm": 0.022547263731002805,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 10349
    },
    {
      "epoch": 2.152,
      "grad_norm": 0.02453900396456068,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 10350
    },
    {
      "epoch": 2.1520533333333334,
      "grad_norm": 0.02509817169750933,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 10351
    },
    {
      "epoch": 2.1521066666666666,
      "grad_norm": 0.022199266648945344,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 10352
    },
    {
      "epoch": 2.15216,
      "grad_norm": 0.023791675103967697,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 10353
    },
    {
      "epoch": 2.1522133333333335,
      "grad_norm": 0.0246425152615935,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 10354
    },
    {
      "epoch": 2.1522666666666668,
      "grad_norm": 0.022593362186075806,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 10355
    },
    {
      "epoch": 2.15232,
      "grad_norm": 0.02378143317469388,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 10356
    },
    {
      "epoch": 2.1523733333333332,
      "grad_norm": 0.026026827449254775,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 10357
    },
    {
      "epoch": 2.1524266666666665,
      "grad_norm": 0.023495580836002002,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 10358
    },
    {
      "epoch": 2.15248,
      "grad_norm": 0.021915470127331804,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 10359
    },
    {
      "epoch": 2.1525333333333334,
      "grad_norm": 0.023629022399346996,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 10360
    },
    {
      "epoch": 2.1525866666666666,
      "grad_norm": 0.022175513425788846,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 10361
    },
    {
      "epoch": 2.15264,
      "grad_norm": 0.02348194450819735,
      "learning_rate": 0.0001,
      "loss": 0.9253,
      "step": 10362
    },
    {
      "epoch": 2.152693333333333,
      "grad_norm": 0.023718712988159158,
      "learning_rate": 0.0001,
      "loss": 1.0041,
      "step": 10363
    },
    {
      "epoch": 2.152746666666667,
      "grad_norm": 0.022851540839409375,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 10364
    },
    {
      "epoch": 2.1528,
      "grad_norm": 0.02246684863239728,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 10365
    },
    {
      "epoch": 2.1528533333333333,
      "grad_norm": 0.024146489141013933,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 10366
    },
    {
      "epoch": 2.1529066666666665,
      "grad_norm": 0.022715323784983588,
      "learning_rate": 0.0001,
      "loss": 0.906,
      "step": 10367
    },
    {
      "epoch": 2.15296,
      "grad_norm": 0.02418309955702311,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 10368
    },
    {
      "epoch": 2.1530133333333334,
      "grad_norm": 0.022336203291450776,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "step": 10369
    },
    {
      "epoch": 2.1530666666666667,
      "grad_norm": 0.02459580184249676,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 10370
    },
    {
      "epoch": 2.15312,
      "grad_norm": 0.023141729121596375,
      "learning_rate": 0.0001,
      "loss": 0.9206,
      "step": 10371
    },
    {
      "epoch": 2.153173333333333,
      "grad_norm": 0.023664458885722082,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 10372
    },
    {
      "epoch": 2.153226666666667,
      "grad_norm": 0.02338526327704501,
      "learning_rate": 0.0001,
      "loss": 0.8836,
      "step": 10373
    },
    {
      "epoch": 2.15328,
      "grad_norm": 0.02452571150879112,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "step": 10374
    },
    {
      "epoch": 2.1533333333333333,
      "grad_norm": 0.023385322639969744,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 10375
    },
    {
      "epoch": 2.1533866666666666,
      "grad_norm": 0.023794660875047738,
      "learning_rate": 0.0001,
      "loss": 0.9232,
      "step": 10376
    },
    {
      "epoch": 2.15344,
      "grad_norm": 0.023911148566047494,
      "learning_rate": 0.0001,
      "loss": 0.9804,
      "step": 10377
    },
    {
      "epoch": 2.1534933333333335,
      "grad_norm": 0.02296760115430994,
      "learning_rate": 0.0001,
      "loss": 1.0315,
      "step": 10378
    },
    {
      "epoch": 2.1535466666666667,
      "grad_norm": 0.025537391512596663,
      "learning_rate": 0.0001,
      "loss": 0.9208,
      "step": 10379
    },
    {
      "epoch": 2.1536,
      "grad_norm": 0.02511329782963739,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 10380
    },
    {
      "epoch": 2.153653333333333,
      "grad_norm": 0.024226776117673814,
      "learning_rate": 0.0001,
      "loss": 1.0035,
      "step": 10381
    },
    {
      "epoch": 2.1537066666666664,
      "grad_norm": 0.024721950246154877,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 10382
    },
    {
      "epoch": 2.15376,
      "grad_norm": 0.025792690956845565,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 10383
    },
    {
      "epoch": 2.1538133333333334,
      "grad_norm": 0.023419522550779986,
      "learning_rate": 0.0001,
      "loss": 0.9018,
      "step": 10384
    },
    {
      "epoch": 2.1538666666666666,
      "grad_norm": 0.024194593704269542,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 10385
    },
    {
      "epoch": 2.15392,
      "grad_norm": 0.025280191404539125,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 10386
    },
    {
      "epoch": 2.1539733333333335,
      "grad_norm": 0.025109210665681912,
      "learning_rate": 0.0001,
      "loss": 0.9869,
      "step": 10387
    },
    {
      "epoch": 2.1540266666666668,
      "grad_norm": 0.024354272369442712,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 10388
    },
    {
      "epoch": 2.15408,
      "grad_norm": 0.025779842409425685,
      "learning_rate": 0.0001,
      "loss": 0.9408,
      "step": 10389
    },
    {
      "epoch": 2.1541333333333332,
      "grad_norm": 0.024894873551558276,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 10390
    },
    {
      "epoch": 2.1541866666666665,
      "grad_norm": 0.022724148982553483,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 10391
    },
    {
      "epoch": 2.15424,
      "grad_norm": 0.02395258661715906,
      "learning_rate": 0.0001,
      "loss": 0.9178,
      "step": 10392
    },
    {
      "epoch": 2.1542933333333334,
      "grad_norm": 0.024532818226904982,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 10393
    },
    {
      "epoch": 2.1543466666666666,
      "grad_norm": 0.022980012571078665,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 10394
    },
    {
      "epoch": 2.1544,
      "grad_norm": 0.023601367285994275,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 10395
    },
    {
      "epoch": 2.1544533333333336,
      "grad_norm": 0.025922241195676498,
      "learning_rate": 0.0001,
      "loss": 1.0192,
      "step": 10396
    },
    {
      "epoch": 2.154506666666667,
      "grad_norm": 0.023875892820183552,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 10397
    },
    {
      "epoch": 2.15456,
      "grad_norm": 0.025100528867534916,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 10398
    },
    {
      "epoch": 2.1546133333333333,
      "grad_norm": 0.024041933633551026,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 10399
    },
    {
      "epoch": 2.1546666666666665,
      "grad_norm": 0.025461258512596195,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 10400
    },
    {
      "epoch": 2.1546666666666665,
      "eval_accuracy": 0.621354930284482,
      "eval_loss": 1.3477436304092407,
      "eval_runtime": 63.5083,
      "eval_samples_per_second": 15.746,
      "eval_steps_per_second": 0.504,
      "step": 10400
    },
    {
      "epoch": 2.15472,
      "grad_norm": 0.024416182443417374,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 10401
    },
    {
      "epoch": 2.1547733333333334,
      "grad_norm": 0.026331877471497206,
      "learning_rate": 0.0001,
      "loss": 0.9096,
      "step": 10402
    },
    {
      "epoch": 2.1548266666666667,
      "grad_norm": 0.02369783084864029,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 10403
    },
    {
      "epoch": 2.15488,
      "grad_norm": 0.02360153253592384,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 10404
    },
    {
      "epoch": 2.154933333333333,
      "grad_norm": 0.023051258419484726,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 10405
    },
    {
      "epoch": 2.154986666666667,
      "grad_norm": 0.024291768453954234,
      "learning_rate": 0.0001,
      "loss": 0.9065,
      "step": 10406
    },
    {
      "epoch": 2.15504,
      "grad_norm": 0.025131526196731157,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 10407
    },
    {
      "epoch": 2.1550933333333333,
      "grad_norm": 0.023136456433679984,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 10408
    },
    {
      "epoch": 2.1551466666666665,
      "grad_norm": 0.024878929954947383,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 10409
    },
    {
      "epoch": 2.1552,
      "grad_norm": 0.02426161352536333,
      "learning_rate": 0.0001,
      "loss": 0.9752,
      "step": 10410
    },
    {
      "epoch": 2.1552533333333335,
      "grad_norm": 0.025567770285928857,
      "learning_rate": 0.0001,
      "loss": 1.0128,
      "step": 10411
    },
    {
      "epoch": 2.1553066666666667,
      "grad_norm": 0.026454876805547364,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 10412
    },
    {
      "epoch": 2.15536,
      "grad_norm": 0.024056378229767802,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 10413
    },
    {
      "epoch": 2.155413333333333,
      "grad_norm": 0.023841026355303958,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 10414
    },
    {
      "epoch": 2.155466666666667,
      "grad_norm": 0.023801219280344555,
      "learning_rate": 0.0001,
      "loss": 0.9204,
      "step": 10415
    },
    {
      "epoch": 2.15552,
      "grad_norm": 0.02311838723854802,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 10416
    },
    {
      "epoch": 2.1555733333333333,
      "grad_norm": 0.02285501723221785,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 10417
    },
    {
      "epoch": 2.1556266666666666,
      "grad_norm": 0.022079719989696277,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 10418
    },
    {
      "epoch": 2.15568,
      "grad_norm": 0.025148549419322222,
      "learning_rate": 0.0001,
      "loss": 0.8902,
      "step": 10419
    },
    {
      "epoch": 2.1557333333333335,
      "grad_norm": 0.024896230603717536,
      "learning_rate": 0.0001,
      "loss": 0.9309,
      "step": 10420
    },
    {
      "epoch": 2.1557866666666667,
      "grad_norm": 0.026895390507830453,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "step": 10421
    },
    {
      "epoch": 2.15584,
      "grad_norm": 0.023834387406448884,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 10422
    },
    {
      "epoch": 2.155893333333333,
      "grad_norm": 0.024874474631804623,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 10423
    },
    {
      "epoch": 2.155946666666667,
      "grad_norm": 0.02344334317857286,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 10424
    },
    {
      "epoch": 2.156,
      "grad_norm": 0.02421953382854916,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 10425
    },
    {
      "epoch": 2.1560533333333334,
      "grad_norm": 0.024733755818544104,
      "learning_rate": 0.0001,
      "loss": 0.9001,
      "step": 10426
    },
    {
      "epoch": 2.1561066666666666,
      "grad_norm": 0.025509110859059988,
      "learning_rate": 0.0001,
      "loss": 0.8944,
      "step": 10427
    },
    {
      "epoch": 2.15616,
      "grad_norm": 0.023988147908925554,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 10428
    },
    {
      "epoch": 2.1562133333333335,
      "grad_norm": 0.023528292179559623,
      "learning_rate": 0.0001,
      "loss": 1.0167,
      "step": 10429
    },
    {
      "epoch": 2.1562666666666668,
      "grad_norm": 0.024470650847032812,
      "learning_rate": 0.0001,
      "loss": 0.905,
      "step": 10430
    },
    {
      "epoch": 2.15632,
      "grad_norm": 0.025446000888636928,
      "learning_rate": 0.0001,
      "loss": 0.8916,
      "step": 10431
    },
    {
      "epoch": 2.1563733333333333,
      "grad_norm": 0.023242447075144734,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 10432
    },
    {
      "epoch": 2.1564266666666665,
      "grad_norm": 0.022658896100478,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 10433
    },
    {
      "epoch": 2.15648,
      "grad_norm": 0.024315538725815534,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 10434
    },
    {
      "epoch": 2.1565333333333334,
      "grad_norm": 0.023938079307396384,
      "learning_rate": 0.0001,
      "loss": 0.9569,
      "step": 10435
    },
    {
      "epoch": 2.1565866666666667,
      "grad_norm": 0.023457087470066182,
      "learning_rate": 0.0001,
      "loss": 0.9993,
      "step": 10436
    },
    {
      "epoch": 2.15664,
      "grad_norm": 0.024359993992733683,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 10437
    },
    {
      "epoch": 2.156693333333333,
      "grad_norm": 0.0265070041709453,
      "learning_rate": 0.0001,
      "loss": 1.0322,
      "step": 10438
    },
    {
      "epoch": 2.156746666666667,
      "grad_norm": 0.02622973374992315,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 10439
    },
    {
      "epoch": 2.1568,
      "grad_norm": 0.025472895447301615,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 10440
    },
    {
      "epoch": 2.1568533333333333,
      "grad_norm": 0.022724436234780328,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 10441
    },
    {
      "epoch": 2.1569066666666665,
      "grad_norm": 0.022802358220090517,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 10442
    },
    {
      "epoch": 2.1569599999999998,
      "grad_norm": 0.024226641949650546,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 10443
    },
    {
      "epoch": 2.1570133333333334,
      "grad_norm": 0.022691833229432034,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 10444
    },
    {
      "epoch": 2.1570666666666667,
      "grad_norm": 0.0222237061087729,
      "learning_rate": 0.0001,
      "loss": 0.9854,
      "step": 10445
    },
    {
      "epoch": 2.15712,
      "grad_norm": 0.02268237010377094,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "step": 10446
    },
    {
      "epoch": 2.157173333333333,
      "grad_norm": 0.024735126431221097,
      "learning_rate": 0.0001,
      "loss": 0.904,
      "step": 10447
    },
    {
      "epoch": 2.157226666666667,
      "grad_norm": 0.02565565740331536,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 10448
    },
    {
      "epoch": 2.15728,
      "grad_norm": 0.02285095440042804,
      "learning_rate": 0.0001,
      "loss": 0.9164,
      "step": 10449
    },
    {
      "epoch": 2.1573333333333333,
      "grad_norm": 0.022504147865380467,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 10450
    },
    {
      "epoch": 2.1573866666666666,
      "grad_norm": 0.023657991143404795,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "step": 10451
    },
    {
      "epoch": 2.15744,
      "grad_norm": 0.02501482033109765,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 10452
    },
    {
      "epoch": 2.1574933333333335,
      "grad_norm": 0.023671717398566248,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 10453
    },
    {
      "epoch": 2.1575466666666667,
      "grad_norm": 0.022619992909616957,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 10454
    },
    {
      "epoch": 2.1576,
      "grad_norm": 0.022482510599866425,
      "learning_rate": 0.0001,
      "loss": 0.9567,
      "step": 10455
    },
    {
      "epoch": 2.157653333333333,
      "grad_norm": 0.023275897595268998,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 10456
    },
    {
      "epoch": 2.157706666666667,
      "grad_norm": 0.021842377503463916,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 10457
    },
    {
      "epoch": 2.15776,
      "grad_norm": 0.022660167756040565,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 10458
    },
    {
      "epoch": 2.1578133333333334,
      "grad_norm": 0.021715732097919285,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 10459
    },
    {
      "epoch": 2.1578666666666666,
      "grad_norm": 0.023419754621546423,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 10460
    },
    {
      "epoch": 2.15792,
      "grad_norm": 0.024060237412236698,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 10461
    },
    {
      "epoch": 2.1579733333333335,
      "grad_norm": 0.022449459751172074,
      "learning_rate": 0.0001,
      "loss": 0.9599,
      "step": 10462
    },
    {
      "epoch": 2.1580266666666668,
      "grad_norm": 0.024081646785929743,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 10463
    },
    {
      "epoch": 2.15808,
      "grad_norm": 0.024592725607619586,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 10464
    },
    {
      "epoch": 2.1581333333333332,
      "grad_norm": 0.02349274429657769,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 10465
    },
    {
      "epoch": 2.1581866666666665,
      "grad_norm": 0.022881583286246208,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 10466
    },
    {
      "epoch": 2.15824,
      "grad_norm": 0.023650011819513105,
      "learning_rate": 0.0001,
      "loss": 0.9395,
      "step": 10467
    },
    {
      "epoch": 2.1582933333333334,
      "grad_norm": 0.023523557075748266,
      "learning_rate": 0.0001,
      "loss": 0.965,
      "step": 10468
    },
    {
      "epoch": 2.1583466666666666,
      "grad_norm": 0.024037955296188043,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 10469
    },
    {
      "epoch": 2.1584,
      "grad_norm": 0.023125182677477634,
      "learning_rate": 0.0001,
      "loss": 1.0469,
      "step": 10470
    },
    {
      "epoch": 2.158453333333333,
      "grad_norm": 0.023620755847660175,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 10471
    },
    {
      "epoch": 2.158506666666667,
      "grad_norm": 0.023459923015095415,
      "learning_rate": 0.0001,
      "loss": 1.0994,
      "step": 10472
    },
    {
      "epoch": 2.15856,
      "grad_norm": 0.02292787926962657,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 10473
    },
    {
      "epoch": 2.1586133333333333,
      "grad_norm": 0.02261547211636085,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 10474
    },
    {
      "epoch": 2.1586666666666665,
      "grad_norm": 0.023061308802530527,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 10475
    },
    {
      "epoch": 2.15872,
      "grad_norm": 0.022408113684622782,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 10476
    },
    {
      "epoch": 2.1587733333333334,
      "grad_norm": 0.022601427695050694,
      "learning_rate": 0.0001,
      "loss": 0.8985,
      "step": 10477
    },
    {
      "epoch": 2.1588266666666667,
      "grad_norm": 0.02285152852791847,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "step": 10478
    },
    {
      "epoch": 2.15888,
      "grad_norm": 0.024674944517485507,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 10479
    },
    {
      "epoch": 2.158933333333333,
      "grad_norm": 0.022976831095237054,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 10480
    },
    {
      "epoch": 2.158986666666667,
      "grad_norm": 0.02381428262397581,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 10481
    },
    {
      "epoch": 2.15904,
      "grad_norm": 0.02348485922579144,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "step": 10482
    },
    {
      "epoch": 2.1590933333333333,
      "grad_norm": 0.024371377363176218,
      "learning_rate": 0.0001,
      "loss": 0.9622,
      "step": 10483
    },
    {
      "epoch": 2.1591466666666665,
      "grad_norm": 0.022760736662757564,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 10484
    },
    {
      "epoch": 2.1592000000000002,
      "grad_norm": 0.025403050227382158,
      "learning_rate": 0.0001,
      "loss": 0.9617,
      "step": 10485
    },
    {
      "epoch": 2.1592533333333335,
      "grad_norm": 0.024650711009534247,
      "learning_rate": 0.0001,
      "loss": 0.9045,
      "step": 10486
    },
    {
      "epoch": 2.1593066666666667,
      "grad_norm": 0.022941002422711222,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 10487
    },
    {
      "epoch": 2.15936,
      "grad_norm": 0.023302248843375974,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "step": 10488
    },
    {
      "epoch": 2.159413333333333,
      "grad_norm": 0.024002941121849808,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 10489
    },
    {
      "epoch": 2.159466666666667,
      "grad_norm": 0.02412113877632323,
      "learning_rate": 0.0001,
      "loss": 0.9789,
      "step": 10490
    },
    {
      "epoch": 2.15952,
      "grad_norm": 0.02256660816223891,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "step": 10491
    },
    {
      "epoch": 2.1595733333333333,
      "grad_norm": 0.024126985798789722,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 10492
    },
    {
      "epoch": 2.1596266666666666,
      "grad_norm": 0.024535224646272,
      "learning_rate": 0.0001,
      "loss": 0.8993,
      "step": 10493
    },
    {
      "epoch": 2.15968,
      "grad_norm": 0.02303694430150172,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 10494
    },
    {
      "epoch": 2.1597333333333335,
      "grad_norm": 0.022750082098002482,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 10495
    },
    {
      "epoch": 2.1597866666666667,
      "grad_norm": 0.024718129244025625,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 10496
    },
    {
      "epoch": 2.15984,
      "grad_norm": 0.024279983654231976,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "step": 10497
    },
    {
      "epoch": 2.159893333333333,
      "grad_norm": 0.024066726580016316,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 10498
    },
    {
      "epoch": 2.1599466666666665,
      "grad_norm": 0.025611122939937395,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 10499
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.023101698179971465,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 10500
    },
    {
      "epoch": 2.1600533333333334,
      "grad_norm": 0.023992291886705798,
      "learning_rate": 0.0001,
      "loss": 1.0062,
      "step": 10501
    },
    {
      "epoch": 2.1601066666666666,
      "grad_norm": 0.022567376734004326,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 10502
    },
    {
      "epoch": 2.16016,
      "grad_norm": 0.024791706238913427,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 10503
    },
    {
      "epoch": 2.1602133333333335,
      "grad_norm": 0.02478808679638289,
      "learning_rate": 0.0001,
      "loss": 0.8923,
      "step": 10504
    },
    {
      "epoch": 2.160266666666667,
      "grad_norm": 0.022891437266631794,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 10505
    },
    {
      "epoch": 2.16032,
      "grad_norm": 0.023062544596267033,
      "learning_rate": 0.0001,
      "loss": 0.9246,
      "step": 10506
    },
    {
      "epoch": 2.1603733333333333,
      "grad_norm": 0.022466707190084718,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 10507
    },
    {
      "epoch": 2.1604266666666665,
      "grad_norm": 0.023615179978376644,
      "learning_rate": 0.0001,
      "loss": 1.0289,
      "step": 10508
    },
    {
      "epoch": 2.16048,
      "grad_norm": 0.0247526029885558,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 10509
    },
    {
      "epoch": 2.1605333333333334,
      "grad_norm": 0.024209068164714055,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 10510
    },
    {
      "epoch": 2.1605866666666667,
      "grad_norm": 0.023204970443639464,
      "learning_rate": 0.0001,
      "loss": 0.934,
      "step": 10511
    },
    {
      "epoch": 2.16064,
      "grad_norm": 0.025906045093515184,
      "learning_rate": 0.0001,
      "loss": 0.9873,
      "step": 10512
    },
    {
      "epoch": 2.160693333333333,
      "grad_norm": 0.021694963550634005,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 10513
    },
    {
      "epoch": 2.160746666666667,
      "grad_norm": 0.023620872533102966,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 10514
    },
    {
      "epoch": 2.1608,
      "grad_norm": 0.023469373423546255,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 10515
    },
    {
      "epoch": 2.1608533333333333,
      "grad_norm": 0.02222640447149753,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 10516
    },
    {
      "epoch": 2.1609066666666665,
      "grad_norm": 0.0239478351556069,
      "learning_rate": 0.0001,
      "loss": 0.9938,
      "step": 10517
    },
    {
      "epoch": 2.16096,
      "grad_norm": 0.023156681535550422,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 10518
    },
    {
      "epoch": 2.1610133333333335,
      "grad_norm": 0.0231852700053728,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 10519
    },
    {
      "epoch": 2.1610666666666667,
      "grad_norm": 0.02179608994107293,
      "learning_rate": 0.0001,
      "loss": 0.9473,
      "step": 10520
    },
    {
      "epoch": 2.16112,
      "grad_norm": 0.024839393863867514,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 10521
    },
    {
      "epoch": 2.161173333333333,
      "grad_norm": 0.024651727213476908,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 10522
    },
    {
      "epoch": 2.161226666666667,
      "grad_norm": 0.02259986897119828,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "step": 10523
    },
    {
      "epoch": 2.16128,
      "grad_norm": 0.0239109059613428,
      "learning_rate": 0.0001,
      "loss": 0.9143,
      "step": 10524
    },
    {
      "epoch": 2.1613333333333333,
      "grad_norm": 0.02235767380106699,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 10525
    },
    {
      "epoch": 2.1613866666666666,
      "grad_norm": 0.024307266170711175,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 10526
    },
    {
      "epoch": 2.16144,
      "grad_norm": 0.02346663719985036,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 10527
    },
    {
      "epoch": 2.1614933333333335,
      "grad_norm": 0.023862887646917037,
      "learning_rate": 0.0001,
      "loss": 1.048,
      "step": 10528
    },
    {
      "epoch": 2.1615466666666667,
      "grad_norm": 0.02234327573936608,
      "learning_rate": 0.0001,
      "loss": 0.9279,
      "step": 10529
    },
    {
      "epoch": 2.1616,
      "grad_norm": 0.02367111645064373,
      "learning_rate": 0.0001,
      "loss": 0.9951,
      "step": 10530
    },
    {
      "epoch": 2.161653333333333,
      "grad_norm": 0.0231022061965111,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 10531
    },
    {
      "epoch": 2.1617066666666664,
      "grad_norm": 0.021168876205357002,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 10532
    },
    {
      "epoch": 2.16176,
      "grad_norm": 0.02294070945480302,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 10533
    },
    {
      "epoch": 2.1618133333333334,
      "grad_norm": 0.02372482841974153,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 10534
    },
    {
      "epoch": 2.1618666666666666,
      "grad_norm": 0.021144564758687857,
      "learning_rate": 0.0001,
      "loss": 0.9221,
      "step": 10535
    },
    {
      "epoch": 2.16192,
      "grad_norm": 0.023884101658871087,
      "learning_rate": 0.0001,
      "loss": 0.9566,
      "step": 10536
    },
    {
      "epoch": 2.1619733333333335,
      "grad_norm": 0.02431052872154831,
      "learning_rate": 0.0001,
      "loss": 0.9404,
      "step": 10537
    },
    {
      "epoch": 2.1620266666666668,
      "grad_norm": 0.02349255321688229,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 10538
    },
    {
      "epoch": 2.16208,
      "grad_norm": 0.022701755319253128,
      "learning_rate": 0.0001,
      "loss": 0.9062,
      "step": 10539
    },
    {
      "epoch": 2.1621333333333332,
      "grad_norm": 0.023138818350710504,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 10540
    },
    {
      "epoch": 2.1621866666666665,
      "grad_norm": 0.022435447707739455,
      "learning_rate": 0.0001,
      "loss": 0.9756,
      "step": 10541
    },
    {
      "epoch": 2.16224,
      "grad_norm": 0.025348327762185253,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "step": 10542
    },
    {
      "epoch": 2.1622933333333334,
      "grad_norm": 0.024776678002401045,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 10543
    },
    {
      "epoch": 2.1623466666666666,
      "grad_norm": 0.022194466093952543,
      "learning_rate": 0.0001,
      "loss": 0.9494,
      "step": 10544
    },
    {
      "epoch": 2.1624,
      "grad_norm": 0.02357644996896044,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 10545
    },
    {
      "epoch": 2.1624533333333336,
      "grad_norm": 0.025118382319554475,
      "learning_rate": 0.0001,
      "loss": 1.0146,
      "step": 10546
    },
    {
      "epoch": 2.162506666666667,
      "grad_norm": 0.02422572074339995,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 10547
    },
    {
      "epoch": 2.16256,
      "grad_norm": 0.024209584045139735,
      "learning_rate": 0.0001,
      "loss": 1.0068,
      "step": 10548
    },
    {
      "epoch": 2.1626133333333333,
      "grad_norm": 0.02385248964043557,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 10549
    },
    {
      "epoch": 2.1626666666666665,
      "grad_norm": 0.0229020354408648,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 10550
    },
    {
      "epoch": 2.16272,
      "grad_norm": 0.02190003716577537,
      "learning_rate": 0.0001,
      "loss": 0.9071,
      "step": 10551
    },
    {
      "epoch": 2.1627733333333334,
      "grad_norm": 0.02415388211936743,
      "learning_rate": 0.0001,
      "loss": 1.0293,
      "step": 10552
    },
    {
      "epoch": 2.1628266666666667,
      "grad_norm": 0.02315308501592758,
      "learning_rate": 0.0001,
      "loss": 0.966,
      "step": 10553
    },
    {
      "epoch": 2.16288,
      "grad_norm": 0.02388119947036359,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 10554
    },
    {
      "epoch": 2.162933333333333,
      "grad_norm": 0.02298046943868777,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 10555
    },
    {
      "epoch": 2.162986666666667,
      "grad_norm": 0.024120959330150547,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 10556
    },
    {
      "epoch": 2.16304,
      "grad_norm": 0.02707407648715165,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 10557
    },
    {
      "epoch": 2.1630933333333333,
      "grad_norm": 0.024439378834692042,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 10558
    },
    {
      "epoch": 2.1631466666666666,
      "grad_norm": 0.022974790593185555,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "step": 10559
    },
    {
      "epoch": 2.1632,
      "grad_norm": 0.02354585992697766,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 10560
    },
    {
      "epoch": 2.1632533333333335,
      "grad_norm": 0.022147435657511046,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "step": 10561
    },
    {
      "epoch": 2.1633066666666667,
      "grad_norm": 0.02297193739537221,
      "learning_rate": 0.0001,
      "loss": 1.0105,
      "step": 10562
    },
    {
      "epoch": 2.16336,
      "grad_norm": 0.02474267439095634,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 10563
    },
    {
      "epoch": 2.163413333333333,
      "grad_norm": 0.022580524753675484,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 10564
    },
    {
      "epoch": 2.163466666666667,
      "grad_norm": 0.021545919061708784,
      "learning_rate": 0.0001,
      "loss": 0.9331,
      "step": 10565
    },
    {
      "epoch": 2.16352,
      "grad_norm": 0.026568573161494292,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 10566
    },
    {
      "epoch": 2.1635733333333333,
      "grad_norm": 0.02370293941663343,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 10567
    },
    {
      "epoch": 2.1636266666666666,
      "grad_norm": 0.022639187124067546,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 10568
    },
    {
      "epoch": 2.16368,
      "grad_norm": 0.029238984771295235,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 10569
    },
    {
      "epoch": 2.1637333333333335,
      "grad_norm": 0.023254054269675424,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 10570
    },
    {
      "epoch": 2.1637866666666667,
      "grad_norm": 0.024442596357173083,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "step": 10571
    },
    {
      "epoch": 2.16384,
      "grad_norm": 0.024032546820046463,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 10572
    },
    {
      "epoch": 2.1638933333333332,
      "grad_norm": 0.025071116030322662,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 10573
    },
    {
      "epoch": 2.1639466666666665,
      "grad_norm": 0.02296466428238958,
      "learning_rate": 0.0001,
      "loss": 0.9964,
      "step": 10574
    },
    {
      "epoch": 2.164,
      "grad_norm": 0.02806762317730998,
      "learning_rate": 0.0001,
      "loss": 1.0135,
      "step": 10575
    },
    {
      "epoch": 2.1640533333333334,
      "grad_norm": 0.023444329684639935,
      "learning_rate": 0.0001,
      "loss": 0.8828,
      "step": 10576
    },
    {
      "epoch": 2.1641066666666666,
      "grad_norm": 0.02331016963251937,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 10577
    },
    {
      "epoch": 2.16416,
      "grad_norm": 0.025097628495408152,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "step": 10578
    },
    {
      "epoch": 2.1642133333333335,
      "grad_norm": 0.023555562680892175,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 10579
    },
    {
      "epoch": 2.164266666666667,
      "grad_norm": 0.023427006858693734,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 10580
    },
    {
      "epoch": 2.16432,
      "grad_norm": 0.022917245628009154,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 10581
    },
    {
      "epoch": 2.1643733333333333,
      "grad_norm": 0.026384080627050315,
      "learning_rate": 0.0001,
      "loss": 0.9895,
      "step": 10582
    },
    {
      "epoch": 2.1644266666666665,
      "grad_norm": 0.02428495954064154,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 10583
    },
    {
      "epoch": 2.16448,
      "grad_norm": 0.025243155894815024,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 10584
    },
    {
      "epoch": 2.1645333333333334,
      "grad_norm": 0.02476575830652335,
      "learning_rate": 0.0001,
      "loss": 0.9007,
      "step": 10585
    },
    {
      "epoch": 2.1645866666666667,
      "grad_norm": 0.022998501479984387,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 10586
    },
    {
      "epoch": 2.16464,
      "grad_norm": 0.024329268802711492,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 10587
    },
    {
      "epoch": 2.164693333333333,
      "grad_norm": 0.023894524171372063,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 10588
    },
    {
      "epoch": 2.164746666666667,
      "grad_norm": 0.0220889304302231,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 10589
    },
    {
      "epoch": 2.1648,
      "grad_norm": 0.023964897239945365,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 10590
    },
    {
      "epoch": 2.1648533333333333,
      "grad_norm": 0.022878555665885168,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 10591
    },
    {
      "epoch": 2.1649066666666665,
      "grad_norm": 0.022239964192901446,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 10592
    },
    {
      "epoch": 2.1649599999999998,
      "grad_norm": 0.023549653258660343,
      "learning_rate": 0.0001,
      "loss": 0.9274,
      "step": 10593
    },
    {
      "epoch": 2.1650133333333335,
      "grad_norm": 0.02623892453023,
      "learning_rate": 0.0001,
      "loss": 0.9036,
      "step": 10594
    },
    {
      "epoch": 2.1650666666666667,
      "grad_norm": 0.02370716872035044,
      "learning_rate": 0.0001,
      "loss": 0.9966,
      "step": 10595
    },
    {
      "epoch": 2.16512,
      "grad_norm": 0.023762716892986206,
      "learning_rate": 0.0001,
      "loss": 0.9449,
      "step": 10596
    },
    {
      "epoch": 2.165173333333333,
      "grad_norm": 0.023868012816248535,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 10597
    },
    {
      "epoch": 2.165226666666667,
      "grad_norm": 0.022610569440157203,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 10598
    },
    {
      "epoch": 2.16528,
      "grad_norm": 0.022902752876153232,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 10599
    },
    {
      "epoch": 2.1653333333333333,
      "grad_norm": 0.024119026554880126,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 10600
    },
    {
      "epoch": 2.1653333333333333,
      "eval_accuracy": 0.621481806378864,
      "eval_loss": 1.347088098526001,
      "eval_runtime": 62.9515,
      "eval_samples_per_second": 15.885,
      "eval_steps_per_second": 0.508,
      "step": 10600
    },
    {
      "epoch": 2.1653866666666666,
      "grad_norm": 0.022002326211602117,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 10601
    },
    {
      "epoch": 2.16544,
      "grad_norm": 0.02651708052563921,
      "learning_rate": 0.0001,
      "loss": 0.9136,
      "step": 10602
    },
    {
      "epoch": 2.1654933333333335,
      "grad_norm": 0.023253630174085084,
      "learning_rate": 0.0001,
      "loss": 0.9992,
      "step": 10603
    },
    {
      "epoch": 2.1655466666666667,
      "grad_norm": 0.02670887640506785,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 10604
    },
    {
      "epoch": 2.1656,
      "grad_norm": 0.0246465792282661,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 10605
    },
    {
      "epoch": 2.165653333333333,
      "grad_norm": 0.022609217466018884,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 10606
    },
    {
      "epoch": 2.165706666666667,
      "grad_norm": 0.023842838641060963,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 10607
    },
    {
      "epoch": 2.16576,
      "grad_norm": 0.022941496174482327,
      "learning_rate": 0.0001,
      "loss": 0.9525,
      "step": 10608
    },
    {
      "epoch": 2.1658133333333334,
      "grad_norm": 0.026266276883565077,
      "learning_rate": 0.0001,
      "loss": 0.9734,
      "step": 10609
    },
    {
      "epoch": 2.1658666666666666,
      "grad_norm": 0.025993705153410047,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 10610
    },
    {
      "epoch": 2.16592,
      "grad_norm": 0.025884564078132933,
      "learning_rate": 0.0001,
      "loss": 0.9862,
      "step": 10611
    },
    {
      "epoch": 2.1659733333333335,
      "grad_norm": 0.023876294237215673,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 10612
    },
    {
      "epoch": 2.1660266666666668,
      "grad_norm": 0.023675836420340456,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "step": 10613
    },
    {
      "epoch": 2.16608,
      "grad_norm": 0.0242375029912147,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 10614
    },
    {
      "epoch": 2.1661333333333332,
      "grad_norm": 0.02526476405748467,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 10615
    },
    {
      "epoch": 2.1661866666666665,
      "grad_norm": 0.0237841492194618,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 10616
    },
    {
      "epoch": 2.16624,
      "grad_norm": 0.022351236452084786,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 10617
    },
    {
      "epoch": 2.1662933333333334,
      "grad_norm": 0.025998660111562433,
      "learning_rate": 0.0001,
      "loss": 0.9545,
      "step": 10618
    },
    {
      "epoch": 2.1663466666666666,
      "grad_norm": 0.022660860313607298,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 10619
    },
    {
      "epoch": 2.1664,
      "grad_norm": 0.022778210322585517,
      "learning_rate": 0.0001,
      "loss": 0.9045,
      "step": 10620
    },
    {
      "epoch": 2.166453333333333,
      "grad_norm": 0.021915241190070555,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 10621
    },
    {
      "epoch": 2.166506666666667,
      "grad_norm": 0.022251788538718047,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 10622
    },
    {
      "epoch": 2.16656,
      "grad_norm": 0.02469751569912556,
      "learning_rate": 0.0001,
      "loss": 1.0473,
      "step": 10623
    },
    {
      "epoch": 2.1666133333333333,
      "grad_norm": 0.023198789464080112,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 10624
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.022607603115160312,
      "learning_rate": 0.0001,
      "loss": 0.9781,
      "step": 10625
    },
    {
      "epoch": 2.16672,
      "grad_norm": 0.02668230858356216,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 10626
    },
    {
      "epoch": 2.1667733333333334,
      "grad_norm": 0.024153001593258706,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 10627
    },
    {
      "epoch": 2.1668266666666667,
      "grad_norm": 0.023873807939892334,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 10628
    },
    {
      "epoch": 2.16688,
      "grad_norm": 0.023141791876714907,
      "learning_rate": 0.0001,
      "loss": 0.8879,
      "step": 10629
    },
    {
      "epoch": 2.166933333333333,
      "grad_norm": 0.023752789025989745,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 10630
    },
    {
      "epoch": 2.166986666666667,
      "grad_norm": 0.02363000659230983,
      "learning_rate": 0.0001,
      "loss": 1.0244,
      "step": 10631
    },
    {
      "epoch": 2.16704,
      "grad_norm": 0.02323472265449553,
      "learning_rate": 0.0001,
      "loss": 0.9319,
      "step": 10632
    },
    {
      "epoch": 2.1670933333333333,
      "grad_norm": 0.023261707060109764,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 10633
    },
    {
      "epoch": 2.1671466666666666,
      "grad_norm": 0.023783003010996576,
      "learning_rate": 0.0001,
      "loss": 0.9565,
      "step": 10634
    },
    {
      "epoch": 2.1672,
      "grad_norm": 0.023767486062055147,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 10635
    },
    {
      "epoch": 2.1672533333333335,
      "grad_norm": 0.02536943852981537,
      "learning_rate": 0.0001,
      "loss": 0.8743,
      "step": 10636
    },
    {
      "epoch": 2.1673066666666667,
      "grad_norm": 0.02400508283361586,
      "learning_rate": 0.0001,
      "loss": 0.9865,
      "step": 10637
    },
    {
      "epoch": 2.16736,
      "grad_norm": 0.021975858857057783,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 10638
    },
    {
      "epoch": 2.167413333333333,
      "grad_norm": 0.024231451281972766,
      "learning_rate": 0.0001,
      "loss": 0.9485,
      "step": 10639
    },
    {
      "epoch": 2.167466666666667,
      "grad_norm": 0.02348308025643559,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 10640
    },
    {
      "epoch": 2.16752,
      "grad_norm": 0.02578964381157,
      "learning_rate": 0.0001,
      "loss": 0.9141,
      "step": 10641
    },
    {
      "epoch": 2.1675733333333334,
      "grad_norm": 0.02343141258472021,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 10642
    },
    {
      "epoch": 2.1676266666666666,
      "grad_norm": 0.025477657088856413,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 10643
    },
    {
      "epoch": 2.16768,
      "grad_norm": 0.023191189019802702,
      "learning_rate": 0.0001,
      "loss": 0.9517,
      "step": 10644
    },
    {
      "epoch": 2.1677333333333335,
      "grad_norm": 0.025383334959568824,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 10645
    },
    {
      "epoch": 2.1677866666666668,
      "grad_norm": 0.026325293958730313,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 10646
    },
    {
      "epoch": 2.16784,
      "grad_norm": 0.0235760342246853,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 10647
    },
    {
      "epoch": 2.1678933333333332,
      "grad_norm": 0.022926741942073062,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 10648
    },
    {
      "epoch": 2.1679466666666665,
      "grad_norm": 0.02346685873912634,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 10649
    },
    {
      "epoch": 2.168,
      "grad_norm": 0.023104204201304785,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 10650
    },
    {
      "epoch": 2.1680533333333334,
      "grad_norm": 0.023772197156733416,
      "learning_rate": 0.0001,
      "loss": 0.9282,
      "step": 10651
    },
    {
      "epoch": 2.1681066666666666,
      "grad_norm": 0.024754587878822887,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 10652
    },
    {
      "epoch": 2.16816,
      "grad_norm": 0.02409580963375454,
      "learning_rate": 0.0001,
      "loss": 0.9374,
      "step": 10653
    },
    {
      "epoch": 2.168213333333333,
      "grad_norm": 0.023772820945627618,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 10654
    },
    {
      "epoch": 2.168266666666667,
      "grad_norm": 0.022059657750654136,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "step": 10655
    },
    {
      "epoch": 2.16832,
      "grad_norm": 0.024673589014753496,
      "learning_rate": 0.0001,
      "loss": 0.942,
      "step": 10656
    },
    {
      "epoch": 2.1683733333333333,
      "grad_norm": 0.023256185325403682,
      "learning_rate": 0.0001,
      "loss": 1.0182,
      "step": 10657
    },
    {
      "epoch": 2.1684266666666665,
      "grad_norm": 0.023994472138689826,
      "learning_rate": 0.0001,
      "loss": 0.9208,
      "step": 10658
    },
    {
      "epoch": 2.16848,
      "grad_norm": 0.023936432584185697,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 10659
    },
    {
      "epoch": 2.1685333333333334,
      "grad_norm": 0.025789856657234295,
      "learning_rate": 0.0001,
      "loss": 0.9853,
      "step": 10660
    },
    {
      "epoch": 2.1685866666666667,
      "grad_norm": 0.02606567035887779,
      "learning_rate": 0.0001,
      "loss": 0.9981,
      "step": 10661
    },
    {
      "epoch": 2.16864,
      "grad_norm": 0.023476255215829966,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 10662
    },
    {
      "epoch": 2.168693333333333,
      "grad_norm": 0.02260292971097644,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 10663
    },
    {
      "epoch": 2.168746666666667,
      "grad_norm": 0.025393645322573426,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 10664
    },
    {
      "epoch": 2.1688,
      "grad_norm": 0.02388274443878815,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 10665
    },
    {
      "epoch": 2.1688533333333333,
      "grad_norm": 0.02516585538295852,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 10666
    },
    {
      "epoch": 2.1689066666666665,
      "grad_norm": 0.022958647386627735,
      "learning_rate": 0.0001,
      "loss": 0.9457,
      "step": 10667
    },
    {
      "epoch": 2.16896,
      "grad_norm": 0.026004521705479205,
      "learning_rate": 0.0001,
      "loss": 0.8664,
      "step": 10668
    },
    {
      "epoch": 2.1690133333333335,
      "grad_norm": 0.02702809898358779,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "step": 10669
    },
    {
      "epoch": 2.1690666666666667,
      "grad_norm": 0.023832146252133354,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 10670
    },
    {
      "epoch": 2.16912,
      "grad_norm": 0.023696728095223073,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 10671
    },
    {
      "epoch": 2.169173333333333,
      "grad_norm": 0.02519311083060641,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 10672
    },
    {
      "epoch": 2.169226666666667,
      "grad_norm": 0.0229991990831968,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 10673
    },
    {
      "epoch": 2.16928,
      "grad_norm": 0.024437876103604435,
      "learning_rate": 0.0001,
      "loss": 1.0092,
      "step": 10674
    },
    {
      "epoch": 2.1693333333333333,
      "grad_norm": 0.024640630319532324,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 10675
    },
    {
      "epoch": 2.1693866666666666,
      "grad_norm": 0.02428576949118294,
      "learning_rate": 0.0001,
      "loss": 0.8893,
      "step": 10676
    },
    {
      "epoch": 2.16944,
      "grad_norm": 0.026058564248666115,
      "learning_rate": 0.0001,
      "loss": 0.9302,
      "step": 10677
    },
    {
      "epoch": 2.1694933333333335,
      "grad_norm": 0.023382449889734085,
      "learning_rate": 0.0001,
      "loss": 1.0221,
      "step": 10678
    },
    {
      "epoch": 2.1695466666666667,
      "grad_norm": 0.02264238758954798,
      "learning_rate": 0.0001,
      "loss": 0.9054,
      "step": 10679
    },
    {
      "epoch": 2.1696,
      "grad_norm": 0.027224658755227824,
      "learning_rate": 0.0001,
      "loss": 0.9233,
      "step": 10680
    },
    {
      "epoch": 2.169653333333333,
      "grad_norm": 0.023682963835297364,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 10681
    },
    {
      "epoch": 2.1697066666666665,
      "grad_norm": 0.023159333361622337,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 10682
    },
    {
      "epoch": 2.16976,
      "grad_norm": 0.025326136415674928,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 10683
    },
    {
      "epoch": 2.1698133333333334,
      "grad_norm": 0.024216557837549637,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 10684
    },
    {
      "epoch": 2.1698666666666666,
      "grad_norm": 0.024202693577411987,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 10685
    },
    {
      "epoch": 2.16992,
      "grad_norm": 0.025848642463082886,
      "learning_rate": 0.0001,
      "loss": 1.0432,
      "step": 10686
    },
    {
      "epoch": 2.1699733333333335,
      "grad_norm": 0.024850060446417847,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 10687
    },
    {
      "epoch": 2.1700266666666668,
      "grad_norm": 0.02350600170550292,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 10688
    },
    {
      "epoch": 2.17008,
      "grad_norm": 0.023999010317436564,
      "learning_rate": 0.0001,
      "loss": 0.9463,
      "step": 10689
    },
    {
      "epoch": 2.1701333333333332,
      "grad_norm": 0.023115247136214937,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "step": 10690
    },
    {
      "epoch": 2.1701866666666665,
      "grad_norm": 0.023138192591718725,
      "learning_rate": 0.0001,
      "loss": 0.8792,
      "step": 10691
    },
    {
      "epoch": 2.17024,
      "grad_norm": 0.021887216471006943,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 10692
    },
    {
      "epoch": 2.1702933333333334,
      "grad_norm": 0.02624345271563381,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 10693
    },
    {
      "epoch": 2.1703466666666666,
      "grad_norm": 0.02429299485528346,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 10694
    },
    {
      "epoch": 2.1704,
      "grad_norm": 0.02332580118670564,
      "learning_rate": 0.0001,
      "loss": 0.9688,
      "step": 10695
    },
    {
      "epoch": 2.1704533333333336,
      "grad_norm": 0.03336457357236194,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 10696
    },
    {
      "epoch": 2.170506666666667,
      "grad_norm": 0.023620920288559454,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 10697
    },
    {
      "epoch": 2.17056,
      "grad_norm": 0.023510070081720708,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 10698
    },
    {
      "epoch": 2.1706133333333333,
      "grad_norm": 0.025254600719700822,
      "learning_rate": 0.0001,
      "loss": 1.0498,
      "step": 10699
    },
    {
      "epoch": 2.1706666666666665,
      "grad_norm": 0.02495446259301269,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 10700
    },
    {
      "epoch": 2.17072,
      "grad_norm": 0.02242399091851339,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 10701
    },
    {
      "epoch": 2.1707733333333334,
      "grad_norm": 0.02297680956195023,
      "learning_rate": 0.0001,
      "loss": 0.9837,
      "step": 10702
    },
    {
      "epoch": 2.1708266666666667,
      "grad_norm": 0.024818802014573874,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 10703
    },
    {
      "epoch": 2.17088,
      "grad_norm": 0.02438945419425821,
      "learning_rate": 0.0001,
      "loss": 0.9764,
      "step": 10704
    },
    {
      "epoch": 2.170933333333333,
      "grad_norm": 0.025083804977643485,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 10705
    },
    {
      "epoch": 2.170986666666667,
      "grad_norm": 0.023146352676008897,
      "learning_rate": 0.0001,
      "loss": 0.9277,
      "step": 10706
    },
    {
      "epoch": 2.17104,
      "grad_norm": 0.02281781454818983,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "step": 10707
    },
    {
      "epoch": 2.1710933333333333,
      "grad_norm": 0.023880172358624985,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 10708
    },
    {
      "epoch": 2.1711466666666666,
      "grad_norm": 0.02301088173841997,
      "learning_rate": 0.0001,
      "loss": 0.9399,
      "step": 10709
    },
    {
      "epoch": 2.1712,
      "grad_norm": 0.022380319262582854,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 10710
    },
    {
      "epoch": 2.1712533333333335,
      "grad_norm": 0.024875407293295747,
      "learning_rate": 0.0001,
      "loss": 0.9103,
      "step": 10711
    },
    {
      "epoch": 2.1713066666666667,
      "grad_norm": 0.02454952451578767,
      "learning_rate": 0.0001,
      "loss": 0.9998,
      "step": 10712
    },
    {
      "epoch": 2.17136,
      "grad_norm": 0.0234694667674266,
      "learning_rate": 0.0001,
      "loss": 0.9382,
      "step": 10713
    },
    {
      "epoch": 2.171413333333333,
      "grad_norm": 0.02281644599099656,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "step": 10714
    },
    {
      "epoch": 2.1714666666666664,
      "grad_norm": 0.02214414468018354,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 10715
    },
    {
      "epoch": 2.17152,
      "grad_norm": 0.025073680268542287,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 10716
    },
    {
      "epoch": 2.1715733333333334,
      "grad_norm": 0.02461007501453314,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 10717
    },
    {
      "epoch": 2.1716266666666666,
      "grad_norm": 0.02348613174029276,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 10718
    },
    {
      "epoch": 2.17168,
      "grad_norm": 0.022856869635617384,
      "learning_rate": 0.0001,
      "loss": 1.0115,
      "step": 10719
    },
    {
      "epoch": 2.1717333333333335,
      "grad_norm": 0.023169112862550828,
      "learning_rate": 0.0001,
      "loss": 0.9961,
      "step": 10720
    },
    {
      "epoch": 2.1717866666666668,
      "grad_norm": 0.02367754383941535,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 10721
    },
    {
      "epoch": 2.17184,
      "grad_norm": 0.02159119193463245,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 10722
    },
    {
      "epoch": 2.1718933333333332,
      "grad_norm": 0.022961233975897298,
      "learning_rate": 0.0001,
      "loss": 1.0061,
      "step": 10723
    },
    {
      "epoch": 2.1719466666666665,
      "grad_norm": 0.02418420772615409,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 10724
    },
    {
      "epoch": 2.172,
      "grad_norm": 0.02288450792029338,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "step": 10725
    },
    {
      "epoch": 2.1720533333333334,
      "grad_norm": 0.023586726534581052,
      "learning_rate": 0.0001,
      "loss": 1.0382,
      "step": 10726
    },
    {
      "epoch": 2.1721066666666666,
      "grad_norm": 0.023664736587122346,
      "learning_rate": 0.0001,
      "loss": 0.9103,
      "step": 10727
    },
    {
      "epoch": 2.17216,
      "grad_norm": 0.02485490769064434,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 10728
    },
    {
      "epoch": 2.1722133333333336,
      "grad_norm": 0.023727998065477873,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "step": 10729
    },
    {
      "epoch": 2.172266666666667,
      "grad_norm": 0.023307933468459337,
      "learning_rate": 0.0001,
      "loss": 0.9364,
      "step": 10730
    },
    {
      "epoch": 2.17232,
      "grad_norm": 0.02436203650501642,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 10731
    },
    {
      "epoch": 2.1723733333333333,
      "grad_norm": 0.02455519089147858,
      "learning_rate": 0.0001,
      "loss": 1.0112,
      "step": 10732
    },
    {
      "epoch": 2.1724266666666665,
      "grad_norm": 0.02273709575780497,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 10733
    },
    {
      "epoch": 2.17248,
      "grad_norm": 0.0234881026703684,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "step": 10734
    },
    {
      "epoch": 2.1725333333333334,
      "grad_norm": 0.02261069938174135,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 10735
    },
    {
      "epoch": 2.1725866666666667,
      "grad_norm": 0.023013123984328674,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 10736
    },
    {
      "epoch": 2.17264,
      "grad_norm": 0.022150447744184083,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 10737
    },
    {
      "epoch": 2.172693333333333,
      "grad_norm": 0.023643647162431152,
      "learning_rate": 0.0001,
      "loss": 0.8732,
      "step": 10738
    },
    {
      "epoch": 2.172746666666667,
      "grad_norm": 0.02508672974343647,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 10739
    },
    {
      "epoch": 2.1728,
      "grad_norm": 0.023628464544548103,
      "learning_rate": 0.0001,
      "loss": 1.0004,
      "step": 10740
    },
    {
      "epoch": 2.1728533333333333,
      "grad_norm": 0.023618559743425277,
      "learning_rate": 0.0001,
      "loss": 1.0022,
      "step": 10741
    },
    {
      "epoch": 2.1729066666666665,
      "grad_norm": 0.023877984275693594,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 10742
    },
    {
      "epoch": 2.17296,
      "grad_norm": 0.02468297327054712,
      "learning_rate": 0.0001,
      "loss": 0.9144,
      "step": 10743
    },
    {
      "epoch": 2.1730133333333335,
      "grad_norm": 0.02541762584668996,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 10744
    },
    {
      "epoch": 2.1730666666666667,
      "grad_norm": 0.025388086621202777,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 10745
    },
    {
      "epoch": 2.17312,
      "grad_norm": 0.023652494195966895,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "step": 10746
    },
    {
      "epoch": 2.173173333333333,
      "grad_norm": 0.023453104927992043,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 10747
    },
    {
      "epoch": 2.173226666666667,
      "grad_norm": 0.0235548795764103,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 10748
    },
    {
      "epoch": 2.17328,
      "grad_norm": 0.024191211285353727,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 10749
    },
    {
      "epoch": 2.1733333333333333,
      "grad_norm": 0.023691221180155826,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 10750
    },
    {
      "epoch": 2.1733866666666666,
      "grad_norm": 0.024053642243589884,
      "learning_rate": 0.0001,
      "loss": 0.9683,
      "step": 10751
    },
    {
      "epoch": 2.17344,
      "grad_norm": 0.024872963475244293,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 10752
    },
    {
      "epoch": 2.1734933333333335,
      "grad_norm": 0.02435216928605842,
      "learning_rate": 0.0001,
      "loss": 1.0417,
      "step": 10753
    },
    {
      "epoch": 2.1735466666666667,
      "grad_norm": 0.023974633705249663,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 10754
    },
    {
      "epoch": 2.1736,
      "grad_norm": 0.023888119856528712,
      "learning_rate": 0.0001,
      "loss": 0.9697,
      "step": 10755
    },
    {
      "epoch": 2.173653333333333,
      "grad_norm": 0.023322881396744384,
      "learning_rate": 0.0001,
      "loss": 0.9128,
      "step": 10756
    },
    {
      "epoch": 2.173706666666667,
      "grad_norm": 0.022803793062953007,
      "learning_rate": 0.0001,
      "loss": 0.8814,
      "step": 10757
    },
    {
      "epoch": 2.17376,
      "grad_norm": 0.02307193828101871,
      "learning_rate": 0.0001,
      "loss": 0.9219,
      "step": 10758
    },
    {
      "epoch": 2.1738133333333334,
      "grad_norm": 0.024058520086743636,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 10759
    },
    {
      "epoch": 2.1738666666666666,
      "grad_norm": 0.023329899459212,
      "learning_rate": 0.0001,
      "loss": 0.8993,
      "step": 10760
    },
    {
      "epoch": 2.17392,
      "grad_norm": 0.023447968580716048,
      "learning_rate": 0.0001,
      "loss": 1.0136,
      "step": 10761
    },
    {
      "epoch": 2.1739733333333335,
      "grad_norm": 0.02381893486897342,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 10762
    },
    {
      "epoch": 2.1740266666666668,
      "grad_norm": 0.02299258279069518,
      "learning_rate": 0.0001,
      "loss": 0.9225,
      "step": 10763
    },
    {
      "epoch": 2.17408,
      "grad_norm": 0.023167574425725736,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 10764
    },
    {
      "epoch": 2.1741333333333333,
      "grad_norm": 0.022484843020858986,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "step": 10765
    },
    {
      "epoch": 2.1741866666666665,
      "grad_norm": 0.02228306048417553,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "step": 10766
    },
    {
      "epoch": 2.17424,
      "grad_norm": 0.02358977613911397,
      "learning_rate": 0.0001,
      "loss": 0.9435,
      "step": 10767
    },
    {
      "epoch": 2.1742933333333334,
      "grad_norm": 0.027200380818774406,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "step": 10768
    },
    {
      "epoch": 2.1743466666666666,
      "grad_norm": 0.023131346277225098,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "step": 10769
    },
    {
      "epoch": 2.1744,
      "grad_norm": 0.024376071623311082,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 10770
    },
    {
      "epoch": 2.174453333333333,
      "grad_norm": 0.023407915126373625,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 10771
    },
    {
      "epoch": 2.174506666666667,
      "grad_norm": 0.023522749624731387,
      "learning_rate": 0.0001,
      "loss": 1.0119,
      "step": 10772
    },
    {
      "epoch": 2.17456,
      "grad_norm": 0.02325829581742589,
      "learning_rate": 0.0001,
      "loss": 0.9605,
      "step": 10773
    },
    {
      "epoch": 2.1746133333333333,
      "grad_norm": 0.025091690752028124,
      "learning_rate": 0.0001,
      "loss": 0.8983,
      "step": 10774
    },
    {
      "epoch": 2.1746666666666665,
      "grad_norm": 0.023322155402102078,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 10775
    },
    {
      "epoch": 2.1747199999999998,
      "grad_norm": 0.024380375280645333,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 10776
    },
    {
      "epoch": 2.1747733333333334,
      "grad_norm": 0.023376278986848572,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 10777
    },
    {
      "epoch": 2.1748266666666667,
      "grad_norm": 0.024643002554099364,
      "learning_rate": 0.0001,
      "loss": 0.969,
      "step": 10778
    },
    {
      "epoch": 2.17488,
      "grad_norm": 0.023438020314182975,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 10779
    },
    {
      "epoch": 2.174933333333333,
      "grad_norm": 0.02357434931035952,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 10780
    },
    {
      "epoch": 2.174986666666667,
      "grad_norm": 0.02425006780445687,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 10781
    },
    {
      "epoch": 2.17504,
      "grad_norm": 0.023172240691782194,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 10782
    },
    {
      "epoch": 2.1750933333333333,
      "grad_norm": 0.023645733724531087,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "step": 10783
    },
    {
      "epoch": 2.1751466666666666,
      "grad_norm": 0.025254729448140886,
      "learning_rate": 0.0001,
      "loss": 1.0101,
      "step": 10784
    },
    {
      "epoch": 2.1752,
      "grad_norm": 0.024289426920456225,
      "learning_rate": 0.0001,
      "loss": 0.9923,
      "step": 10785
    },
    {
      "epoch": 2.1752533333333335,
      "grad_norm": 0.022541321270110007,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "step": 10786
    },
    {
      "epoch": 2.1753066666666667,
      "grad_norm": 0.02275176856690146,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 10787
    },
    {
      "epoch": 2.17536,
      "grad_norm": 0.02298426697558266,
      "learning_rate": 0.0001,
      "loss": 0.95,
      "step": 10788
    },
    {
      "epoch": 2.175413333333333,
      "grad_norm": 0.0235714768984576,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 10789
    },
    {
      "epoch": 2.175466666666667,
      "grad_norm": 0.024600344063852204,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 10790
    },
    {
      "epoch": 2.17552,
      "grad_norm": 0.02469819915270216,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 10791
    },
    {
      "epoch": 2.1755733333333334,
      "grad_norm": 0.023149093903022788,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 10792
    },
    {
      "epoch": 2.1756266666666666,
      "grad_norm": 0.022523934785078005,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 10793
    },
    {
      "epoch": 2.17568,
      "grad_norm": 0.025502201680658355,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 10794
    },
    {
      "epoch": 2.1757333333333335,
      "grad_norm": 0.023257689362733786,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 10795
    },
    {
      "epoch": 2.1757866666666668,
      "grad_norm": 0.025087443603517386,
      "learning_rate": 0.0001,
      "loss": 0.9935,
      "step": 10796
    },
    {
      "epoch": 2.17584,
      "grad_norm": 0.021521985391818318,
      "learning_rate": 0.0001,
      "loss": 0.8679,
      "step": 10797
    },
    {
      "epoch": 2.1758933333333332,
      "grad_norm": 0.02427900387296362,
      "learning_rate": 0.0001,
      "loss": 1.0007,
      "step": 10798
    },
    {
      "epoch": 2.1759466666666665,
      "grad_norm": 0.02308247048257351,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 10799
    },
    {
      "epoch": 2.176,
      "grad_norm": 0.023713799073480216,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 10800
    },
    {
      "epoch": 2.176,
      "eval_accuracy": 0.6215559521219185,
      "eval_loss": 1.3465375900268555,
      "eval_runtime": 62.4368,
      "eval_samples_per_second": 16.016,
      "eval_steps_per_second": 0.513,
      "step": 10800
    },
    {
      "epoch": 2.1760533333333334,
      "grad_norm": 0.024197833736797087,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 10801
    },
    {
      "epoch": 2.1761066666666666,
      "grad_norm": 0.02405106841045461,
      "learning_rate": 0.0001,
      "loss": 0.9906,
      "step": 10802
    },
    {
      "epoch": 2.17616,
      "grad_norm": 0.0232498138139618,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 10803
    },
    {
      "epoch": 2.176213333333333,
      "grad_norm": 0.024087398012575718,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 10804
    },
    {
      "epoch": 2.176266666666667,
      "grad_norm": 0.026592902625284243,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 10805
    },
    {
      "epoch": 2.17632,
      "grad_norm": 0.023613287267783358,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 10806
    },
    {
      "epoch": 2.1763733333333333,
      "grad_norm": 0.024280583769525486,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 10807
    },
    {
      "epoch": 2.1764266666666665,
      "grad_norm": 0.024703702092641208,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 10808
    },
    {
      "epoch": 2.17648,
      "grad_norm": 0.024182219927453546,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 10809
    },
    {
      "epoch": 2.1765333333333334,
      "grad_norm": 0.02371600902745891,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 10810
    },
    {
      "epoch": 2.1765866666666667,
      "grad_norm": 0.022066932066322004,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "step": 10811
    },
    {
      "epoch": 2.17664,
      "grad_norm": 0.0240920690375087,
      "learning_rate": 0.0001,
      "loss": 0.9525,
      "step": 10812
    },
    {
      "epoch": 2.176693333333333,
      "grad_norm": 0.022985548326311462,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "step": 10813
    },
    {
      "epoch": 2.176746666666667,
      "grad_norm": 0.021996134736566152,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 10814
    },
    {
      "epoch": 2.1768,
      "grad_norm": 0.02204030590673641,
      "learning_rate": 0.0001,
      "loss": 0.9553,
      "step": 10815
    },
    {
      "epoch": 2.1768533333333333,
      "grad_norm": 0.02803458692697237,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 10816
    },
    {
      "epoch": 2.1769066666666665,
      "grad_norm": 0.023019019465536094,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 10817
    },
    {
      "epoch": 2.1769600000000002,
      "grad_norm": 0.025034042889547758,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 10818
    },
    {
      "epoch": 2.1770133333333335,
      "grad_norm": 0.02317274873618337,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "step": 10819
    },
    {
      "epoch": 2.1770666666666667,
      "grad_norm": 0.0222373437023283,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 10820
    },
    {
      "epoch": 2.17712,
      "grad_norm": 0.023997986220912263,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 10821
    },
    {
      "epoch": 2.177173333333333,
      "grad_norm": 0.02346303086203983,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 10822
    },
    {
      "epoch": 2.177226666666667,
      "grad_norm": 0.023030126191478425,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 10823
    },
    {
      "epoch": 2.17728,
      "grad_norm": 0.02318961559818216,
      "learning_rate": 0.0001,
      "loss": 0.9707,
      "step": 10824
    },
    {
      "epoch": 2.1773333333333333,
      "grad_norm": 0.02321401549533503,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 10825
    },
    {
      "epoch": 2.1773866666666666,
      "grad_norm": 0.024788699735163292,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 10826
    },
    {
      "epoch": 2.17744,
      "grad_norm": 0.023477936705536714,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 10827
    },
    {
      "epoch": 2.1774933333333335,
      "grad_norm": 0.02457676538579832,
      "learning_rate": 0.0001,
      "loss": 0.9597,
      "step": 10828
    },
    {
      "epoch": 2.1775466666666667,
      "grad_norm": 0.022842547006974814,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 10829
    },
    {
      "epoch": 2.1776,
      "grad_norm": 0.02274843361086117,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 10830
    },
    {
      "epoch": 2.177653333333333,
      "grad_norm": 0.02239283415785569,
      "learning_rate": 0.0001,
      "loss": 1.0111,
      "step": 10831
    },
    {
      "epoch": 2.1777066666666665,
      "grad_norm": 0.022407498631822405,
      "learning_rate": 0.0001,
      "loss": 0.9568,
      "step": 10832
    },
    {
      "epoch": 2.17776,
      "grad_norm": 0.023405390234097247,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 10833
    },
    {
      "epoch": 2.1778133333333334,
      "grad_norm": 0.02207903520536174,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "step": 10834
    },
    {
      "epoch": 2.1778666666666666,
      "grad_norm": 0.022903542970836868,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "step": 10835
    },
    {
      "epoch": 2.17792,
      "grad_norm": 0.023177829399997952,
      "learning_rate": 0.0001,
      "loss": 0.9539,
      "step": 10836
    },
    {
      "epoch": 2.1779733333333335,
      "grad_norm": 0.023479935038333163,
      "learning_rate": 0.0001,
      "loss": 0.868,
      "step": 10837
    },
    {
      "epoch": 2.1780266666666668,
      "grad_norm": 0.024069665498875716,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 10838
    },
    {
      "epoch": 2.17808,
      "grad_norm": 0.03098388008417561,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 10839
    },
    {
      "epoch": 2.1781333333333333,
      "grad_norm": 0.024453903962340817,
      "learning_rate": 0.0001,
      "loss": 1.0169,
      "step": 10840
    },
    {
      "epoch": 2.1781866666666665,
      "grad_norm": 0.024689411336662442,
      "learning_rate": 0.0001,
      "loss": 0.9198,
      "step": 10841
    },
    {
      "epoch": 2.17824,
      "grad_norm": 0.023195716244533014,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 10842
    },
    {
      "epoch": 2.1782933333333334,
      "grad_norm": 0.0234705769941161,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 10843
    },
    {
      "epoch": 2.1783466666666667,
      "grad_norm": 0.027386121227121512,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 10844
    },
    {
      "epoch": 2.1784,
      "grad_norm": 0.02402231184518301,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 10845
    },
    {
      "epoch": 2.178453333333333,
      "grad_norm": 0.02418101263992456,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 10846
    },
    {
      "epoch": 2.178506666666667,
      "grad_norm": 0.024669179820865306,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 10847
    },
    {
      "epoch": 2.17856,
      "grad_norm": 0.023359342429053014,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 10848
    },
    {
      "epoch": 2.1786133333333333,
      "grad_norm": 0.023405385576664675,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 10849
    },
    {
      "epoch": 2.1786666666666665,
      "grad_norm": 0.023670746726811267,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 10850
    },
    {
      "epoch": 2.17872,
      "grad_norm": 0.024320598292024136,
      "learning_rate": 0.0001,
      "loss": 0.9878,
      "step": 10851
    },
    {
      "epoch": 2.1787733333333335,
      "grad_norm": 0.02434271005604994,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 10852
    },
    {
      "epoch": 2.1788266666666667,
      "grad_norm": 0.024475942003298577,
      "learning_rate": 0.0001,
      "loss": 0.9318,
      "step": 10853
    },
    {
      "epoch": 2.17888,
      "grad_norm": 0.02453018446301607,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 10854
    },
    {
      "epoch": 2.178933333333333,
      "grad_norm": 0.024202037937660913,
      "learning_rate": 0.0001,
      "loss": 0.9264,
      "step": 10855
    },
    {
      "epoch": 2.178986666666667,
      "grad_norm": 0.02613125025729098,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 10856
    },
    {
      "epoch": 2.17904,
      "grad_norm": 0.0235604181261239,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 10857
    },
    {
      "epoch": 2.1790933333333333,
      "grad_norm": 0.02386159129188224,
      "learning_rate": 0.0001,
      "loss": 0.993,
      "step": 10858
    },
    {
      "epoch": 2.1791466666666666,
      "grad_norm": 0.02414896669892628,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 10859
    },
    {
      "epoch": 2.1792,
      "grad_norm": 0.023773879776035164,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 10860
    },
    {
      "epoch": 2.1792533333333335,
      "grad_norm": 0.025351125150849526,
      "learning_rate": 0.0001,
      "loss": 0.9857,
      "step": 10861
    },
    {
      "epoch": 2.1793066666666667,
      "grad_norm": 0.02374841083276072,
      "learning_rate": 0.0001,
      "loss": 0.9549,
      "step": 10862
    },
    {
      "epoch": 2.17936,
      "grad_norm": 0.02432151684591873,
      "learning_rate": 0.0001,
      "loss": 0.9436,
      "step": 10863
    },
    {
      "epoch": 2.179413333333333,
      "grad_norm": 0.023936457688835067,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 10864
    },
    {
      "epoch": 2.1794666666666664,
      "grad_norm": 0.024615531183740224,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 10865
    },
    {
      "epoch": 2.17952,
      "grad_norm": 0.023831898682813758,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 10866
    },
    {
      "epoch": 2.1795733333333334,
      "grad_norm": 0.024841053732009566,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 10867
    },
    {
      "epoch": 2.1796266666666666,
      "grad_norm": 0.023953394475140773,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 10868
    },
    {
      "epoch": 2.17968,
      "grad_norm": 0.02287020211694277,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 10869
    },
    {
      "epoch": 2.1797333333333335,
      "grad_norm": 0.023534255084307093,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 10870
    },
    {
      "epoch": 2.1797866666666668,
      "grad_norm": 0.02543016083536098,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 10871
    },
    {
      "epoch": 2.17984,
      "grad_norm": 0.02368098937757466,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 10872
    },
    {
      "epoch": 2.1798933333333332,
      "grad_norm": 0.024145512043013097,
      "learning_rate": 0.0001,
      "loss": 0.9429,
      "step": 10873
    },
    {
      "epoch": 2.1799466666666665,
      "grad_norm": 0.023266178919793597,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 10874
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.025151788065996,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "step": 10875
    },
    {
      "epoch": 2.1800533333333334,
      "grad_norm": 0.028997347641348308,
      "learning_rate": 0.0001,
      "loss": 0.9414,
      "step": 10876
    },
    {
      "epoch": 2.1801066666666666,
      "grad_norm": 0.023236824856143427,
      "learning_rate": 0.0001,
      "loss": 0.9725,
      "step": 10877
    },
    {
      "epoch": 2.18016,
      "grad_norm": 0.025795715068953468,
      "learning_rate": 0.0001,
      "loss": 0.9211,
      "step": 10878
    },
    {
      "epoch": 2.1802133333333336,
      "grad_norm": 0.023741298664584593,
      "learning_rate": 0.0001,
      "loss": 0.9948,
      "step": 10879
    },
    {
      "epoch": 2.180266666666667,
      "grad_norm": 0.0249754503836372,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 10880
    },
    {
      "epoch": 2.18032,
      "grad_norm": 0.026528062380280198,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "step": 10881
    },
    {
      "epoch": 2.1803733333333333,
      "grad_norm": 0.024598290603412357,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 10882
    },
    {
      "epoch": 2.1804266666666665,
      "grad_norm": 0.02306513309897243,
      "learning_rate": 0.0001,
      "loss": 0.9832,
      "step": 10883
    },
    {
      "epoch": 2.18048,
      "grad_norm": 0.02431646943414027,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 10884
    },
    {
      "epoch": 2.1805333333333334,
      "grad_norm": 0.023315539743259853,
      "learning_rate": 0.0001,
      "loss": 0.9227,
      "step": 10885
    },
    {
      "epoch": 2.1805866666666667,
      "grad_norm": 0.02297504685065717,
      "learning_rate": 0.0001,
      "loss": 0.9071,
      "step": 10886
    },
    {
      "epoch": 2.18064,
      "grad_norm": 0.023045345612063055,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 10887
    },
    {
      "epoch": 2.180693333333333,
      "grad_norm": 0.023364366701450565,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 10888
    },
    {
      "epoch": 2.180746666666667,
      "grad_norm": 0.023473996029719703,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 10889
    },
    {
      "epoch": 2.1808,
      "grad_norm": 0.024437566851643385,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 10890
    },
    {
      "epoch": 2.1808533333333333,
      "grad_norm": 0.024302655081039005,
      "learning_rate": 0.0001,
      "loss": 0.9573,
      "step": 10891
    },
    {
      "epoch": 2.1809066666666665,
      "grad_norm": 0.024502952808794623,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 10892
    },
    {
      "epoch": 2.18096,
      "grad_norm": 0.023387196839011897,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "step": 10893
    },
    {
      "epoch": 2.1810133333333335,
      "grad_norm": 0.024420593454186887,
      "learning_rate": 0.0001,
      "loss": 0.9834,
      "step": 10894
    },
    {
      "epoch": 2.1810666666666667,
      "grad_norm": 0.02414037512565086,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 10895
    },
    {
      "epoch": 2.18112,
      "grad_norm": 0.024367485938819045,
      "learning_rate": 0.0001,
      "loss": 0.9109,
      "step": 10896
    },
    {
      "epoch": 2.181173333333333,
      "grad_norm": 0.024572045216658442,
      "learning_rate": 0.0001,
      "loss": 0.9532,
      "step": 10897
    },
    {
      "epoch": 2.181226666666667,
      "grad_norm": 0.022481633716925666,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 10898
    },
    {
      "epoch": 2.18128,
      "grad_norm": 0.02196842060726842,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 10899
    },
    {
      "epoch": 2.1813333333333333,
      "grad_norm": 0.02364122977258706,
      "learning_rate": 0.0001,
      "loss": 0.8855,
      "step": 10900
    },
    {
      "epoch": 2.1813866666666666,
      "grad_norm": 0.024661541216190384,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 10901
    },
    {
      "epoch": 2.18144,
      "grad_norm": 0.025335448001376694,
      "learning_rate": 0.0001,
      "loss": 0.921,
      "step": 10902
    },
    {
      "epoch": 2.1814933333333335,
      "grad_norm": 0.0232258201838485,
      "learning_rate": 0.0001,
      "loss": 0.9304,
      "step": 10903
    },
    {
      "epoch": 2.1815466666666667,
      "grad_norm": 0.02458642903450984,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 10904
    },
    {
      "epoch": 2.1816,
      "grad_norm": 0.02392316414931056,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 10905
    },
    {
      "epoch": 2.1816533333333332,
      "grad_norm": 0.0242269870925452,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 10906
    },
    {
      "epoch": 2.1817066666666665,
      "grad_norm": 0.023162875805650792,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 10907
    },
    {
      "epoch": 2.18176,
      "grad_norm": 0.02213240068215879,
      "learning_rate": 0.0001,
      "loss": 0.8449,
      "step": 10908
    },
    {
      "epoch": 2.1818133333333334,
      "grad_norm": 0.0266031687528713,
      "learning_rate": 0.0001,
      "loss": 0.8836,
      "step": 10909
    },
    {
      "epoch": 2.1818666666666666,
      "grad_norm": 0.02320819738401564,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 10910
    },
    {
      "epoch": 2.18192,
      "grad_norm": 0.023719854101163625,
      "learning_rate": 0.0001,
      "loss": 0.9358,
      "step": 10911
    },
    {
      "epoch": 2.1819733333333335,
      "grad_norm": 0.023687033814221485,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 10912
    },
    {
      "epoch": 2.182026666666667,
      "grad_norm": 0.022650934236770132,
      "learning_rate": 0.0001,
      "loss": 0.9726,
      "step": 10913
    },
    {
      "epoch": 2.18208,
      "grad_norm": 0.02441770347355172,
      "learning_rate": 0.0001,
      "loss": 1.0141,
      "step": 10914
    },
    {
      "epoch": 2.1821333333333333,
      "grad_norm": 0.02295869619197927,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 10915
    },
    {
      "epoch": 2.1821866666666665,
      "grad_norm": 0.021916421769344323,
      "learning_rate": 0.0001,
      "loss": 0.9126,
      "step": 10916
    },
    {
      "epoch": 2.18224,
      "grad_norm": 0.02211199459698367,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 10917
    },
    {
      "epoch": 2.1822933333333334,
      "grad_norm": 0.023166222980504126,
      "learning_rate": 0.0001,
      "loss": 0.9146,
      "step": 10918
    },
    {
      "epoch": 2.1823466666666667,
      "grad_norm": 0.022883899940052913,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 10919
    },
    {
      "epoch": 2.1824,
      "grad_norm": 0.023807262037462213,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 10920
    },
    {
      "epoch": 2.182453333333333,
      "grad_norm": 0.02202180267766476,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 10921
    },
    {
      "epoch": 2.182506666666667,
      "grad_norm": 0.02301804959671449,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 10922
    },
    {
      "epoch": 2.18256,
      "grad_norm": 0.026397905754796152,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 10923
    },
    {
      "epoch": 2.1826133333333333,
      "grad_norm": 0.022115850485491962,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 10924
    },
    {
      "epoch": 2.1826666666666665,
      "grad_norm": 0.024022687561581584,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 10925
    },
    {
      "epoch": 2.1827199999999998,
      "grad_norm": 0.025065978447593378,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 10926
    },
    {
      "epoch": 2.1827733333333335,
      "grad_norm": 0.0239787431861891,
      "learning_rate": 0.0001,
      "loss": 1.044,
      "step": 10927
    },
    {
      "epoch": 2.1828266666666667,
      "grad_norm": 0.02705696337352819,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 10928
    },
    {
      "epoch": 2.18288,
      "grad_norm": 0.02423010388970518,
      "learning_rate": 0.0001,
      "loss": 0.9369,
      "step": 10929
    },
    {
      "epoch": 2.182933333333333,
      "grad_norm": 0.02406718113571912,
      "learning_rate": 0.0001,
      "loss": 0.9361,
      "step": 10930
    },
    {
      "epoch": 2.182986666666667,
      "grad_norm": 0.025637531747833446,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 10931
    },
    {
      "epoch": 2.18304,
      "grad_norm": 0.024022494486263424,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 10932
    },
    {
      "epoch": 2.1830933333333333,
      "grad_norm": 0.039337129223519146,
      "learning_rate": 0.0001,
      "loss": 1.0595,
      "step": 10933
    },
    {
      "epoch": 2.1831466666666666,
      "grad_norm": 0.02634389105455781,
      "learning_rate": 0.0001,
      "loss": 0.9561,
      "step": 10934
    },
    {
      "epoch": 2.1832,
      "grad_norm": 0.02479657069556935,
      "learning_rate": 0.0001,
      "loss": 0.929,
      "step": 10935
    },
    {
      "epoch": 2.1832533333333335,
      "grad_norm": 0.024189871409361477,
      "learning_rate": 0.0001,
      "loss": 0.944,
      "step": 10936
    },
    {
      "epoch": 2.1833066666666667,
      "grad_norm": 0.025949216335069122,
      "learning_rate": 0.0001,
      "loss": 1.0173,
      "step": 10937
    },
    {
      "epoch": 2.18336,
      "grad_norm": 0.023721697566161364,
      "learning_rate": 0.0001,
      "loss": 0.9612,
      "step": 10938
    },
    {
      "epoch": 2.183413333333333,
      "grad_norm": 0.025427111088749163,
      "learning_rate": 0.0001,
      "loss": 0.9133,
      "step": 10939
    },
    {
      "epoch": 2.183466666666667,
      "grad_norm": 0.02705900833829476,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 10940
    },
    {
      "epoch": 2.18352,
      "grad_norm": 0.02386899402227621,
      "learning_rate": 0.0001,
      "loss": 0.9664,
      "step": 10941
    },
    {
      "epoch": 2.1835733333333334,
      "grad_norm": 0.02368839915751477,
      "learning_rate": 0.0001,
      "loss": 0.9836,
      "step": 10942
    },
    {
      "epoch": 2.1836266666666666,
      "grad_norm": 0.022057953540252927,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "step": 10943
    },
    {
      "epoch": 2.18368,
      "grad_norm": 0.02315584027751196,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 10944
    },
    {
      "epoch": 2.1837333333333335,
      "grad_norm": 0.022407162580763373,
      "learning_rate": 0.0001,
      "loss": 0.911,
      "step": 10945
    },
    {
      "epoch": 2.1837866666666668,
      "grad_norm": 0.023247960722700887,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 10946
    },
    {
      "epoch": 2.18384,
      "grad_norm": 0.022427746355693664,
      "learning_rate": 0.0001,
      "loss": 0.9051,
      "step": 10947
    },
    {
      "epoch": 2.1838933333333332,
      "grad_norm": 0.024830601947207268,
      "learning_rate": 0.0001,
      "loss": 0.9447,
      "step": 10948
    },
    {
      "epoch": 2.1839466666666665,
      "grad_norm": 0.025523624863494878,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 10949
    },
    {
      "epoch": 2.184,
      "grad_norm": 0.023907129822638002,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 10950
    },
    {
      "epoch": 2.1840533333333334,
      "grad_norm": 0.024868514470412002,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 10951
    },
    {
      "epoch": 2.1841066666666666,
      "grad_norm": 0.02402355799889388,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 10952
    },
    {
      "epoch": 2.18416,
      "grad_norm": 0.024533456761640003,
      "learning_rate": 0.0001,
      "loss": 0.9461,
      "step": 10953
    },
    {
      "epoch": 2.184213333333333,
      "grad_norm": 0.02414436886734191,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 10954
    },
    {
      "epoch": 2.184266666666667,
      "grad_norm": 0.02633720094208322,
      "learning_rate": 0.0001,
      "loss": 0.9519,
      "step": 10955
    },
    {
      "epoch": 2.18432,
      "grad_norm": 0.023764531186198343,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 10956
    },
    {
      "epoch": 2.1843733333333333,
      "grad_norm": 0.022182146180286206,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 10957
    },
    {
      "epoch": 2.1844266666666665,
      "grad_norm": 0.023975402036369636,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 10958
    },
    {
      "epoch": 2.18448,
      "grad_norm": 0.024372392963707464,
      "learning_rate": 0.0001,
      "loss": 0.9959,
      "step": 10959
    },
    {
      "epoch": 2.1845333333333334,
      "grad_norm": 0.024537113553372535,
      "learning_rate": 0.0001,
      "loss": 0.9179,
      "step": 10960
    },
    {
      "epoch": 2.1845866666666667,
      "grad_norm": 0.022594765750029118,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 10961
    },
    {
      "epoch": 2.18464,
      "grad_norm": 0.025813049066033506,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 10962
    },
    {
      "epoch": 2.184693333333333,
      "grad_norm": 0.023571117586607862,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 10963
    },
    {
      "epoch": 2.184746666666667,
      "grad_norm": 0.022384792072821263,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 10964
    },
    {
      "epoch": 2.1848,
      "grad_norm": 0.022802847117568206,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 10965
    },
    {
      "epoch": 2.1848533333333333,
      "grad_norm": 0.024226052260216912,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 10966
    },
    {
      "epoch": 2.1849066666666666,
      "grad_norm": 0.025058043171030685,
      "learning_rate": 0.0001,
      "loss": 0.924,
      "step": 10967
    },
    {
      "epoch": 2.1849600000000002,
      "grad_norm": 0.02518214063160444,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 10968
    },
    {
      "epoch": 2.1850133333333335,
      "grad_norm": 0.023006923414547735,
      "learning_rate": 0.0001,
      "loss": 0.9985,
      "step": 10969
    },
    {
      "epoch": 2.1850666666666667,
      "grad_norm": 0.02437213880240971,
      "learning_rate": 0.0001,
      "loss": 0.977,
      "step": 10970
    },
    {
      "epoch": 2.18512,
      "grad_norm": 0.02615848934892346,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 10971
    },
    {
      "epoch": 2.185173333333333,
      "grad_norm": 0.02418907728385686,
      "learning_rate": 0.0001,
      "loss": 1.0029,
      "step": 10972
    },
    {
      "epoch": 2.185226666666667,
      "grad_norm": 0.023112503028580922,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 10973
    },
    {
      "epoch": 2.18528,
      "grad_norm": 0.02296878244185698,
      "learning_rate": 0.0001,
      "loss": 1.0162,
      "step": 10974
    },
    {
      "epoch": 2.1853333333333333,
      "grad_norm": 0.023102923380288812,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 10975
    },
    {
      "epoch": 2.1853866666666666,
      "grad_norm": 0.025585769702908264,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 10976
    },
    {
      "epoch": 2.18544,
      "grad_norm": 0.024286282371494845,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "step": 10977
    },
    {
      "epoch": 2.1854933333333335,
      "grad_norm": 0.026248688013596873,
      "learning_rate": 0.0001,
      "loss": 0.9212,
      "step": 10978
    },
    {
      "epoch": 2.1855466666666667,
      "grad_norm": 0.03021993849613148,
      "learning_rate": 0.0001,
      "loss": 0.9931,
      "step": 10979
    },
    {
      "epoch": 2.1856,
      "grad_norm": 0.024310265940763964,
      "learning_rate": 0.0001,
      "loss": 0.9894,
      "step": 10980
    },
    {
      "epoch": 2.1856533333333332,
      "grad_norm": 0.02496436580098116,
      "learning_rate": 0.0001,
      "loss": 1.0076,
      "step": 10981
    },
    {
      "epoch": 2.1857066666666665,
      "grad_norm": 0.023219198108083483,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 10982
    },
    {
      "epoch": 2.18576,
      "grad_norm": 0.02366761481357965,
      "learning_rate": 0.0001,
      "loss": 0.9855,
      "step": 10983
    },
    {
      "epoch": 2.1858133333333334,
      "grad_norm": 0.024380486293730706,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 10984
    },
    {
      "epoch": 2.1858666666666666,
      "grad_norm": 0.02409962086276912,
      "learning_rate": 0.0001,
      "loss": 0.9703,
      "step": 10985
    },
    {
      "epoch": 2.18592,
      "grad_norm": 0.024891069862909492,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "step": 10986
    },
    {
      "epoch": 2.185973333333333,
      "grad_norm": 0.02620976032487956,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 10987
    },
    {
      "epoch": 2.186026666666667,
      "grad_norm": 0.025873176186481238,
      "learning_rate": 0.0001,
      "loss": 1.0125,
      "step": 10988
    },
    {
      "epoch": 2.18608,
      "grad_norm": 0.024667080313366074,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 10989
    },
    {
      "epoch": 2.1861333333333333,
      "grad_norm": 0.022945091760462628,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 10990
    },
    {
      "epoch": 2.1861866666666665,
      "grad_norm": 0.02357190237904671,
      "learning_rate": 0.0001,
      "loss": 0.987,
      "step": 10991
    },
    {
      "epoch": 2.18624,
      "grad_norm": 0.022853000854062264,
      "learning_rate": 0.0001,
      "loss": 0.9393,
      "step": 10992
    },
    {
      "epoch": 2.1862933333333334,
      "grad_norm": 0.02454717586206049,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 10993
    },
    {
      "epoch": 2.1863466666666667,
      "grad_norm": 0.02229091611472342,
      "learning_rate": 0.0001,
      "loss": 0.9421,
      "step": 10994
    },
    {
      "epoch": 2.1864,
      "grad_norm": 0.02428641239491554,
      "learning_rate": 0.0001,
      "loss": 1.0511,
      "step": 10995
    },
    {
      "epoch": 2.186453333333333,
      "grad_norm": 0.02448617824979535,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "step": 10996
    },
    {
      "epoch": 2.186506666666667,
      "grad_norm": 0.023650425634715366,
      "learning_rate": 0.0001,
      "loss": 0.9592,
      "step": 10997
    },
    {
      "epoch": 2.18656,
      "grad_norm": 0.023911060855865803,
      "learning_rate": 0.0001,
      "loss": 0.9298,
      "step": 10998
    },
    {
      "epoch": 2.1866133333333333,
      "grad_norm": 0.022493634090229243,
      "learning_rate": 0.0001,
      "loss": 0.9965,
      "step": 10999
    },
    {
      "epoch": 2.1866666666666665,
      "grad_norm": 0.025687351780349806,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 11000
    },
    {
      "epoch": 2.1866666666666665,
      "eval_accuracy": 0.6216488194967342,
      "eval_loss": 1.3462148904800415,
      "eval_runtime": 62.9894,
      "eval_samples_per_second": 15.876,
      "eval_steps_per_second": 0.508,
      "step": 11000
    },
    {
      "epoch": 2.18672,
      "grad_norm": 0.024032960150055255,
      "learning_rate": 0.0001,
      "loss": 0.8793,
      "step": 11001
    },
    {
      "epoch": 2.1867733333333335,
      "grad_norm": 0.026318164546802896,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 11002
    },
    {
      "epoch": 2.1868266666666667,
      "grad_norm": 0.02231576423874507,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 11003
    },
    {
      "epoch": 2.18688,
      "grad_norm": 0.023789131123652604,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "step": 11004
    },
    {
      "epoch": 2.186933333333333,
      "grad_norm": 0.02530385490435649,
      "learning_rate": 0.0001,
      "loss": 1.0097,
      "step": 11005
    },
    {
      "epoch": 2.186986666666667,
      "grad_norm": 0.024308347325786475,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 11006
    },
    {
      "epoch": 2.18704,
      "grad_norm": 0.022469774254374304,
      "learning_rate": 0.0001,
      "loss": 0.8978,
      "step": 11007
    },
    {
      "epoch": 2.1870933333333333,
      "grad_norm": 0.02261494063009662,
      "learning_rate": 0.0001,
      "loss": 0.9264,
      "step": 11008
    },
    {
      "epoch": 2.1871466666666666,
      "grad_norm": 0.02441923382901018,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 11009
    },
    {
      "epoch": 2.1872,
      "grad_norm": 0.025486598908015013,
      "learning_rate": 0.0001,
      "loss": 0.9083,
      "step": 11010
    },
    {
      "epoch": 2.1872533333333335,
      "grad_norm": 0.022975636186957395,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 11011
    },
    {
      "epoch": 2.1873066666666667,
      "grad_norm": 0.022646585043953497,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 11012
    },
    {
      "epoch": 2.18736,
      "grad_norm": 0.02289879897291538,
      "learning_rate": 0.0001,
      "loss": 0.9629,
      "step": 11013
    },
    {
      "epoch": 2.187413333333333,
      "grad_norm": 0.024970986646608483,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 11014
    },
    {
      "epoch": 2.1874666666666664,
      "grad_norm": 0.024361116627106095,
      "learning_rate": 0.0001,
      "loss": 0.9547,
      "step": 11015
    },
    {
      "epoch": 2.18752,
      "grad_norm": 0.025338175568020264,
      "learning_rate": 0.0001,
      "loss": 1.0231,
      "step": 11016
    },
    {
      "epoch": 2.1875733333333334,
      "grad_norm": 0.023339906925181526,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 11017
    },
    {
      "epoch": 2.1876266666666666,
      "grad_norm": 0.023319234668764365,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 11018
    },
    {
      "epoch": 2.18768,
      "grad_norm": 0.02351902204885309,
      "learning_rate": 0.0001,
      "loss": 0.9007,
      "step": 11019
    },
    {
      "epoch": 2.1877333333333335,
      "grad_norm": 0.023587363775926483,
      "learning_rate": 0.0001,
      "loss": 0.9546,
      "step": 11020
    },
    {
      "epoch": 2.1877866666666668,
      "grad_norm": 0.023662390491778908,
      "learning_rate": 0.0001,
      "loss": 0.9704,
      "step": 11021
    },
    {
      "epoch": 2.18784,
      "grad_norm": 0.022313788352445085,
      "learning_rate": 0.0001,
      "loss": 0.9614,
      "step": 11022
    },
    {
      "epoch": 2.1878933333333332,
      "grad_norm": 0.023970435327774143,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 11023
    },
    {
      "epoch": 2.1879466666666665,
      "grad_norm": 0.023440012462649495,
      "learning_rate": 0.0001,
      "loss": 0.9955,
      "step": 11024
    },
    {
      "epoch": 2.188,
      "grad_norm": 0.0242670507152745,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 11025
    },
    {
      "epoch": 2.1880533333333334,
      "grad_norm": 0.022499591077298223,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "step": 11026
    },
    {
      "epoch": 2.1881066666666666,
      "grad_norm": 0.024144087467295527,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 11027
    },
    {
      "epoch": 2.18816,
      "grad_norm": 0.023771510693752034,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 11028
    },
    {
      "epoch": 2.1882133333333336,
      "grad_norm": 0.0224167676698852,
      "learning_rate": 0.0001,
      "loss": 0.9947,
      "step": 11029
    },
    {
      "epoch": 2.188266666666667,
      "grad_norm": 0.02316405547406939,
      "learning_rate": 0.0001,
      "loss": 0.9999,
      "step": 11030
    },
    {
      "epoch": 2.18832,
      "grad_norm": 0.024404633344739263,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 11031
    },
    {
      "epoch": 2.1883733333333333,
      "grad_norm": 0.02527345024662974,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 11032
    },
    {
      "epoch": 2.1884266666666665,
      "grad_norm": 0.022628971740799086,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 11033
    },
    {
      "epoch": 2.18848,
      "grad_norm": 0.022955044881215112,
      "learning_rate": 0.0001,
      "loss": 0.9478,
      "step": 11034
    },
    {
      "epoch": 2.1885333333333334,
      "grad_norm": 0.022712618743014584,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 11035
    },
    {
      "epoch": 2.1885866666666667,
      "grad_norm": 0.02276554631152148,
      "learning_rate": 0.0001,
      "loss": 0.9661,
      "step": 11036
    },
    {
      "epoch": 2.18864,
      "grad_norm": 0.024743194013959562,
      "learning_rate": 0.0001,
      "loss": 0.9196,
      "step": 11037
    },
    {
      "epoch": 2.188693333333333,
      "grad_norm": 0.021435761134870956,
      "learning_rate": 0.0001,
      "loss": 0.9717,
      "step": 11038
    },
    {
      "epoch": 2.188746666666667,
      "grad_norm": 0.026588135531209825,
      "learning_rate": 0.0001,
      "loss": 1.0199,
      "step": 11039
    },
    {
      "epoch": 2.1888,
      "grad_norm": 0.02564260947425272,
      "learning_rate": 0.0001,
      "loss": 0.9747,
      "step": 11040
    },
    {
      "epoch": 2.1888533333333333,
      "grad_norm": 0.024731202732235003,
      "learning_rate": 0.0001,
      "loss": 0.9708,
      "step": 11041
    },
    {
      "epoch": 2.1889066666666666,
      "grad_norm": 0.024264920050648356,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 11042
    },
    {
      "epoch": 2.18896,
      "grad_norm": 0.024757966044636967,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 11043
    },
    {
      "epoch": 2.1890133333333335,
      "grad_norm": 0.023245926330669527,
      "learning_rate": 0.0001,
      "loss": 1.0103,
      "step": 11044
    },
    {
      "epoch": 2.1890666666666667,
      "grad_norm": 0.024079986667201646,
      "learning_rate": 0.0001,
      "loss": 0.9733,
      "step": 11045
    },
    {
      "epoch": 2.18912,
      "grad_norm": 0.02348930370836062,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 11046
    },
    {
      "epoch": 2.189173333333333,
      "grad_norm": 0.023967491523139154,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "step": 11047
    },
    {
      "epoch": 2.1892266666666664,
      "grad_norm": 0.025465958866572345,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 11048
    },
    {
      "epoch": 2.18928,
      "grad_norm": 0.02266740213432823,
      "learning_rate": 0.0001,
      "loss": 0.9772,
      "step": 11049
    },
    {
      "epoch": 2.1893333333333334,
      "grad_norm": 0.022118877297309145,
      "learning_rate": 0.0001,
      "loss": 0.9852,
      "step": 11050
    },
    {
      "epoch": 2.1893866666666666,
      "grad_norm": 0.022825750580330574,
      "learning_rate": 0.0001,
      "loss": 0.9552,
      "step": 11051
    },
    {
      "epoch": 2.18944,
      "grad_norm": 0.023233802933113123,
      "learning_rate": 0.0001,
      "loss": 0.9924,
      "step": 11052
    },
    {
      "epoch": 2.1894933333333335,
      "grad_norm": 0.02415846364394578,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 11053
    },
    {
      "epoch": 2.1895466666666668,
      "grad_norm": 0.021824004570171248,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 11054
    },
    {
      "epoch": 2.1896,
      "grad_norm": 0.02407404434390423,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 11055
    },
    {
      "epoch": 2.1896533333333332,
      "grad_norm": 0.023253859616997895,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 11056
    },
    {
      "epoch": 2.1897066666666665,
      "grad_norm": 0.023208341839639265,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 11057
    },
    {
      "epoch": 2.18976,
      "grad_norm": 0.02401774880753716,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 11058
    },
    {
      "epoch": 2.1898133333333334,
      "grad_norm": 0.026725403677992105,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 11059
    },
    {
      "epoch": 2.1898666666666666,
      "grad_norm": 0.02738328679752215,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 11060
    },
    {
      "epoch": 2.18992,
      "grad_norm": 0.023183589269812965,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 11061
    },
    {
      "epoch": 2.1899733333333335,
      "grad_norm": 0.02392185408221179,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "step": 11062
    },
    {
      "epoch": 2.190026666666667,
      "grad_norm": 0.02352865350468075,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 11063
    },
    {
      "epoch": 2.19008,
      "grad_norm": 0.0241407922810184,
      "learning_rate": 0.0001,
      "loss": 0.932,
      "step": 11064
    },
    {
      "epoch": 2.1901333333333333,
      "grad_norm": 0.02653630406606149,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 11065
    },
    {
      "epoch": 2.1901866666666665,
      "grad_norm": 0.025229396915958692,
      "learning_rate": 0.0001,
      "loss": 0.9829,
      "step": 11066
    },
    {
      "epoch": 2.19024,
      "grad_norm": 0.0237466015657457,
      "learning_rate": 0.0001,
      "loss": 0.9777,
      "step": 11067
    },
    {
      "epoch": 2.1902933333333334,
      "grad_norm": 0.023592939662669548,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 11068
    },
    {
      "epoch": 2.1903466666666667,
      "grad_norm": 0.023289742070400576,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 11069
    },
    {
      "epoch": 2.1904,
      "grad_norm": 0.023338679243400322,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "step": 11070
    },
    {
      "epoch": 2.190453333333333,
      "grad_norm": 0.023609163503685363,
      "learning_rate": 0.0001,
      "loss": 0.9815,
      "step": 11071
    },
    {
      "epoch": 2.190506666666667,
      "grad_norm": 0.02355522008180941,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 11072
    },
    {
      "epoch": 2.19056,
      "grad_norm": 0.025320938329445042,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 11073
    },
    {
      "epoch": 2.1906133333333333,
      "grad_norm": 0.023001049526849025,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "step": 11074
    },
    {
      "epoch": 2.1906666666666665,
      "grad_norm": 0.025606200835532493,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "step": 11075
    },
    {
      "epoch": 2.19072,
      "grad_norm": 0.0242823886836441,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 11076
    },
    {
      "epoch": 2.1907733333333335,
      "grad_norm": 0.025721809181610173,
      "learning_rate": 0.0001,
      "loss": 0.9322,
      "step": 11077
    },
    {
      "epoch": 2.1908266666666667,
      "grad_norm": 0.02418137394374964,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 11078
    },
    {
      "epoch": 2.19088,
      "grad_norm": 0.0240669909390504,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 11079
    },
    {
      "epoch": 2.190933333333333,
      "grad_norm": 0.024075309691482496,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 11080
    },
    {
      "epoch": 2.190986666666667,
      "grad_norm": 0.02286821353208466,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 11081
    },
    {
      "epoch": 2.19104,
      "grad_norm": 0.02407266122134266,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 11082
    },
    {
      "epoch": 2.1910933333333333,
      "grad_norm": 0.0289590739750532,
      "learning_rate": 0.0001,
      "loss": 0.9773,
      "step": 11083
    },
    {
      "epoch": 2.1911466666666666,
      "grad_norm": 0.022224233915267597,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "step": 11084
    },
    {
      "epoch": 2.1912,
      "grad_norm": 0.023274374902466748,
      "learning_rate": 0.0001,
      "loss": 0.981,
      "step": 11085
    },
    {
      "epoch": 2.1912533333333335,
      "grad_norm": 0.023869502218358974,
      "learning_rate": 0.0001,
      "loss": 0.9684,
      "step": 11086
    },
    {
      "epoch": 2.1913066666666667,
      "grad_norm": 0.022938979330364373,
      "learning_rate": 0.0001,
      "loss": 0.8935,
      "step": 11087
    },
    {
      "epoch": 2.19136,
      "grad_norm": 0.0224464507117579,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 11088
    },
    {
      "epoch": 2.191413333333333,
      "grad_norm": 0.02316474917727474,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 11089
    },
    {
      "epoch": 2.191466666666667,
      "grad_norm": 0.023162344176122084,
      "learning_rate": 0.0001,
      "loss": 0.9735,
      "step": 11090
    },
    {
      "epoch": 2.19152,
      "grad_norm": 0.026300099739616573,
      "learning_rate": 0.0001,
      "loss": 0.8918,
      "step": 11091
    },
    {
      "epoch": 2.1915733333333334,
      "grad_norm": 0.02356154000534962,
      "learning_rate": 0.0001,
      "loss": 1.0159,
      "step": 11092
    },
    {
      "epoch": 2.1916266666666666,
      "grad_norm": 0.025780946843287536,
      "learning_rate": 0.0001,
      "loss": 0.9442,
      "step": 11093
    },
    {
      "epoch": 2.19168,
      "grad_norm": 0.02346485932868439,
      "learning_rate": 0.0001,
      "loss": 0.9937,
      "step": 11094
    },
    {
      "epoch": 2.1917333333333335,
      "grad_norm": 0.023241325551345317,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 11095
    },
    {
      "epoch": 2.1917866666666668,
      "grad_norm": 0.02351488789538145,
      "learning_rate": 0.0001,
      "loss": 0.9794,
      "step": 11096
    },
    {
      "epoch": 2.19184,
      "grad_norm": 0.025528637609043947,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 11097
    },
    {
      "epoch": 2.1918933333333332,
      "grad_norm": 0.021973125594060373,
      "learning_rate": 0.0001,
      "loss": 0.9262,
      "step": 11098
    },
    {
      "epoch": 2.1919466666666665,
      "grad_norm": 0.02295430480348483,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 11099
    },
    {
      "epoch": 2.192,
      "grad_norm": 0.024214453056102783,
      "learning_rate": 0.0001,
      "loss": 0.9611,
      "step": 11100
    },
    {
      "epoch": 2.1920533333333334,
      "grad_norm": 0.0236893855242438,
      "learning_rate": 0.0001,
      "loss": 0.8992,
      "step": 11101
    },
    {
      "epoch": 2.1921066666666666,
      "grad_norm": 0.023983898838387557,
      "learning_rate": 0.0001,
      "loss": 0.9754,
      "step": 11102
    },
    {
      "epoch": 2.19216,
      "grad_norm": 0.024441871083413665,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "step": 11103
    },
    {
      "epoch": 2.192213333333333,
      "grad_norm": 0.022675039501667268,
      "learning_rate": 0.0001,
      "loss": 1.0033,
      "step": 11104
    },
    {
      "epoch": 2.192266666666667,
      "grad_norm": 0.023580465769148077,
      "learning_rate": 0.0001,
      "loss": 0.962,
      "step": 11105
    },
    {
      "epoch": 2.19232,
      "grad_norm": 0.02378622766705038,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "step": 11106
    },
    {
      "epoch": 2.1923733333333333,
      "grad_norm": 0.023767237901681136,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 11107
    },
    {
      "epoch": 2.1924266666666665,
      "grad_norm": 0.02339573748493221,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "step": 11108
    },
    {
      "epoch": 2.19248,
      "grad_norm": 0.027259725836312504,
      "learning_rate": 0.0001,
      "loss": 0.9214,
      "step": 11109
    },
    {
      "epoch": 2.1925333333333334,
      "grad_norm": 0.022574794481019733,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 11110
    },
    {
      "epoch": 2.1925866666666667,
      "grad_norm": 0.023141162224594745,
      "learning_rate": 0.0001,
      "loss": 1.0198,
      "step": 11111
    },
    {
      "epoch": 2.19264,
      "grad_norm": 0.02447768914434938,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11112
    },
    {
      "epoch": 2.192693333333333,
      "grad_norm": 0.02519304973065764,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 11113
    },
    {
      "epoch": 2.192746666666667,
      "grad_norm": 0.023960321144853355,
      "learning_rate": 0.0001,
      "loss": 0.9746,
      "step": 11114
    },
    {
      "epoch": 2.1928,
      "grad_norm": 0.02574161123143111,
      "learning_rate": 0.0001,
      "loss": 0.9593,
      "step": 11115
    },
    {
      "epoch": 2.1928533333333333,
      "grad_norm": 0.023581177620397,
      "learning_rate": 0.0001,
      "loss": 0.9337,
      "step": 11116
    },
    {
      "epoch": 2.1929066666666666,
      "grad_norm": 0.025180680830443065,
      "learning_rate": 0.0001,
      "loss": 0.9759,
      "step": 11117
    },
    {
      "epoch": 2.19296,
      "grad_norm": 0.02309661955979911,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 11118
    },
    {
      "epoch": 2.1930133333333335,
      "grad_norm": 0.02409947984975993,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 11119
    },
    {
      "epoch": 2.1930666666666667,
      "grad_norm": 0.024797460045265316,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 11120
    },
    {
      "epoch": 2.19312,
      "grad_norm": 0.022858342976699524,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 11121
    },
    {
      "epoch": 2.193173333333333,
      "grad_norm": 0.024926957178090695,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 11122
    },
    {
      "epoch": 2.193226666666667,
      "grad_norm": 0.024408574075956913,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 11123
    },
    {
      "epoch": 2.19328,
      "grad_norm": 0.02345881793081776,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 11124
    },
    {
      "epoch": 2.1933333333333334,
      "grad_norm": 0.02411152934847166,
      "learning_rate": 0.0001,
      "loss": 0.9253,
      "step": 11125
    },
    {
      "epoch": 2.1933866666666666,
      "grad_norm": 0.024477929718456807,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 11126
    },
    {
      "epoch": 2.19344,
      "grad_norm": 0.023698956695848164,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "step": 11127
    },
    {
      "epoch": 2.1934933333333335,
      "grad_norm": 0.02320244709981202,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "step": 11128
    },
    {
      "epoch": 2.1935466666666668,
      "grad_norm": 0.023681974165021238,
      "learning_rate": 0.0001,
      "loss": 1.0026,
      "step": 11129
    },
    {
      "epoch": 2.1936,
      "grad_norm": 0.023427984709035732,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 11130
    },
    {
      "epoch": 2.1936533333333332,
      "grad_norm": 0.023551661174022142,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 11131
    },
    {
      "epoch": 2.1937066666666665,
      "grad_norm": 0.02256768951407686,
      "learning_rate": 0.0001,
      "loss": 0.9929,
      "step": 11132
    },
    {
      "epoch": 2.19376,
      "grad_norm": 0.023875971960069874,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 11133
    },
    {
      "epoch": 2.1938133333333334,
      "grad_norm": 0.023257193390835023,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "step": 11134
    },
    {
      "epoch": 2.1938666666666666,
      "grad_norm": 0.024448962779029564,
      "learning_rate": 0.0001,
      "loss": 0.9225,
      "step": 11135
    },
    {
      "epoch": 2.19392,
      "grad_norm": 0.02388177560075042,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 11136
    },
    {
      "epoch": 2.193973333333333,
      "grad_norm": 0.02513560655561325,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "step": 11137
    },
    {
      "epoch": 2.194026666666667,
      "grad_norm": 0.024059242283930696,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 11138
    },
    {
      "epoch": 2.19408,
      "grad_norm": 0.02607391319966176,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 11139
    },
    {
      "epoch": 2.1941333333333333,
      "grad_norm": 0.024737766515770022,
      "learning_rate": 0.0001,
      "loss": 0.9739,
      "step": 11140
    },
    {
      "epoch": 2.1941866666666665,
      "grad_norm": 0.021498686258107486,
      "learning_rate": 0.0001,
      "loss": 0.8763,
      "step": 11141
    },
    {
      "epoch": 2.19424,
      "grad_norm": 0.02409728955849162,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 11142
    },
    {
      "epoch": 2.1942933333333334,
      "grad_norm": 0.023864012042927058,
      "learning_rate": 0.0001,
      "loss": 0.9196,
      "step": 11143
    },
    {
      "epoch": 2.1943466666666667,
      "grad_norm": 0.023596301798080546,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "step": 11144
    },
    {
      "epoch": 2.1944,
      "grad_norm": 0.02360304985901091,
      "learning_rate": 0.0001,
      "loss": 0.9148,
      "step": 11145
    },
    {
      "epoch": 2.194453333333333,
      "grad_norm": 0.026950909658377542,
      "learning_rate": 0.0001,
      "loss": 0.9809,
      "step": 11146
    },
    {
      "epoch": 2.194506666666667,
      "grad_norm": 0.024894426944122673,
      "learning_rate": 0.0001,
      "loss": 0.9953,
      "step": 11147
    },
    {
      "epoch": 2.19456,
      "grad_norm": 0.0232559019408566,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "step": 11148
    },
    {
      "epoch": 2.1946133333333333,
      "grad_norm": 0.02335631253469512,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 11149
    },
    {
      "epoch": 2.1946666666666665,
      "grad_norm": 0.02353379999980739,
      "learning_rate": 0.0001,
      "loss": 1.0034,
      "step": 11150
    },
    {
      "epoch": 2.1947200000000002,
      "grad_norm": 0.024253590391507807,
      "learning_rate": 0.0001,
      "loss": 0.8811,
      "step": 11151
    },
    {
      "epoch": 2.1947733333333335,
      "grad_norm": 0.023968792885852994,
      "learning_rate": 0.0001,
      "loss": 0.9329,
      "step": 11152
    },
    {
      "epoch": 2.1948266666666667,
      "grad_norm": 0.022982783385693505,
      "learning_rate": 0.0001,
      "loss": 0.9164,
      "step": 11153
    },
    {
      "epoch": 2.19488,
      "grad_norm": 0.024262164170627553,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "step": 11154
    },
    {
      "epoch": 2.194933333333333,
      "grad_norm": 0.02612799800877075,
      "learning_rate": 0.0001,
      "loss": 0.9767,
      "step": 11155
    },
    {
      "epoch": 2.194986666666667,
      "grad_norm": 0.023781535041594668,
      "learning_rate": 0.0001,
      "loss": 1.0045,
      "step": 11156
    },
    {
      "epoch": 2.19504,
      "grad_norm": 0.02425978873122324,
      "learning_rate": 0.0001,
      "loss": 0.9477,
      "step": 11157
    },
    {
      "epoch": 2.1950933333333333,
      "grad_norm": 0.023806408271395386,
      "learning_rate": 0.0001,
      "loss": 0.9416,
      "step": 11158
    },
    {
      "epoch": 2.1951466666666666,
      "grad_norm": 0.024052890672469376,
      "learning_rate": 0.0001,
      "loss": 0.922,
      "step": 11159
    },
    {
      "epoch": 2.1952,
      "grad_norm": 0.023642690598369962,
      "learning_rate": 0.0001,
      "loss": 0.983,
      "step": 11160
    },
    {
      "epoch": 2.1952533333333335,
      "grad_norm": 0.024373029676675515,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "step": 11161
    },
    {
      "epoch": 2.1953066666666667,
      "grad_norm": 0.025721411501301264,
      "learning_rate": 0.0001,
      "loss": 1.0047,
      "step": 11162
    },
    {
      "epoch": 2.19536,
      "grad_norm": 0.022990191761081833,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11163
    },
    {
      "epoch": 2.195413333333333,
      "grad_norm": 0.022571295193578998,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 11164
    },
    {
      "epoch": 2.1954666666666665,
      "grad_norm": 0.023364225127237046,
      "learning_rate": 0.0001,
      "loss": 1.0206,
      "step": 11165
    },
    {
      "epoch": 2.19552,
      "grad_norm": 0.02421765310012738,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 11166
    },
    {
      "epoch": 2.1955733333333334,
      "grad_norm": 0.021964903903494374,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 11167
    },
    {
      "epoch": 2.1956266666666666,
      "grad_norm": 0.02850944753927592,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "step": 11168
    },
    {
      "epoch": 2.19568,
      "grad_norm": 0.024397732290489787,
      "learning_rate": 0.0001,
      "loss": 0.9167,
      "step": 11169
    },
    {
      "epoch": 2.1957333333333335,
      "grad_norm": 0.02398815063028147,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 11170
    },
    {
      "epoch": 2.1957866666666668,
      "grad_norm": 0.022568175609463545,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 11171
    },
    {
      "epoch": 2.19584,
      "grad_norm": 0.02304569710192053,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 11172
    },
    {
      "epoch": 2.1958933333333333,
      "grad_norm": 0.02465616056075426,
      "learning_rate": 0.0001,
      "loss": 0.9125,
      "step": 11173
    },
    {
      "epoch": 2.1959466666666665,
      "grad_norm": 0.024361036062875766,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 11174
    },
    {
      "epoch": 2.196,
      "grad_norm": 0.024641805841184417,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "step": 11175
    },
    {
      "epoch": 2.1960533333333334,
      "grad_norm": 0.022236007055135502,
      "learning_rate": 0.0001,
      "loss": 0.9062,
      "step": 11176
    },
    {
      "epoch": 2.1961066666666667,
      "grad_norm": 0.02444522994766454,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 11177
    },
    {
      "epoch": 2.19616,
      "grad_norm": 0.02765127125686243,
      "learning_rate": 0.0001,
      "loss": 0.9398,
      "step": 11178
    },
    {
      "epoch": 2.196213333333333,
      "grad_norm": 0.023971379874670067,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 11179
    },
    {
      "epoch": 2.196266666666667,
      "grad_norm": 0.025392589812740115,
      "learning_rate": 0.0001,
      "loss": 0.9831,
      "step": 11180
    },
    {
      "epoch": 2.19632,
      "grad_norm": 0.02362433887375327,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "step": 11181
    },
    {
      "epoch": 2.1963733333333333,
      "grad_norm": 0.024060392920780754,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "step": 11182
    },
    {
      "epoch": 2.1964266666666665,
      "grad_norm": 0.02475056369322786,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 11183
    },
    {
      "epoch": 2.19648,
      "grad_norm": 0.026527492586060523,
      "learning_rate": 0.0001,
      "loss": 0.9819,
      "step": 11184
    },
    {
      "epoch": 2.1965333333333334,
      "grad_norm": 0.023717757274778827,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 11185
    },
    {
      "epoch": 2.1965866666666667,
      "grad_norm": 0.024080628450341736,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "step": 11186
    },
    {
      "epoch": 2.19664,
      "grad_norm": 0.02243814068845618,
      "learning_rate": 0.0001,
      "loss": 0.9283,
      "step": 11187
    },
    {
      "epoch": 2.196693333333333,
      "grad_norm": 0.023869374821227026,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 11188
    },
    {
      "epoch": 2.196746666666667,
      "grad_norm": 0.024397598089174428,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "step": 11189
    },
    {
      "epoch": 2.1968,
      "grad_norm": 0.022980182246342493,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 11190
    },
    {
      "epoch": 2.1968533333333333,
      "grad_norm": 0.023056297456770663,
      "learning_rate": 0.0001,
      "loss": 0.941,
      "step": 11191
    },
    {
      "epoch": 2.1969066666666666,
      "grad_norm": 0.023559858334649998,
      "learning_rate": 0.0001,
      "loss": 0.9335,
      "step": 11192
    },
    {
      "epoch": 2.19696,
      "grad_norm": 0.023300962381326167,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 11193
    },
    {
      "epoch": 2.1970133333333335,
      "grad_norm": 0.022276248610205388,
      "learning_rate": 0.0001,
      "loss": 0.9493,
      "step": 11194
    },
    {
      "epoch": 2.1970666666666667,
      "grad_norm": 0.024292071161497217,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 11195
    },
    {
      "epoch": 2.19712,
      "grad_norm": 0.023317354041719692,
      "learning_rate": 0.0001,
      "loss": 0.9425,
      "step": 11196
    },
    {
      "epoch": 2.197173333333333,
      "grad_norm": 0.025748794611718827,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 11197
    },
    {
      "epoch": 2.1972266666666664,
      "grad_norm": 0.023337138595356098,
      "learning_rate": 0.0001,
      "loss": 0.9127,
      "step": 11198
    },
    {
      "epoch": 2.19728,
      "grad_norm": 0.024352133111401355,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 11199
    },
    {
      "epoch": 2.1973333333333334,
      "grad_norm": 0.023776353081160828,
      "learning_rate": 0.0001,
      "loss": 0.9633,
      "step": 11200
    },
    {
      "epoch": 2.1973333333333334,
      "eval_accuracy": 0.621704984392018,
      "eval_loss": 1.345715045928955,
      "eval_runtime": 62.5756,
      "eval_samples_per_second": 15.981,
      "eval_steps_per_second": 0.511,
      "step": 11200
    },
    {
      "epoch": 2.1973866666666666,
      "grad_norm": 0.021923708216095506,
      "learning_rate": 0.0001,
      "loss": 0.925,
      "step": 11201
    },
    {
      "epoch": 2.19744,
      "grad_norm": 0.023341953210108363,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 11202
    },
    {
      "epoch": 2.1974933333333335,
      "grad_norm": 0.02542076759798981,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 11203
    },
    {
      "epoch": 2.1975466666666668,
      "grad_norm": 0.02324886269525973,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 11204
    },
    {
      "epoch": 2.1976,
      "grad_norm": 0.023354495158374212,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 11205
    },
    {
      "epoch": 2.1976533333333332,
      "grad_norm": 0.02230121738291699,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 11206
    },
    {
      "epoch": 2.1977066666666665,
      "grad_norm": 0.02666544874491553,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "step": 11207
    },
    {
      "epoch": 2.19776,
      "grad_norm": 0.022571558270438604,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 11208
    },
    {
      "epoch": 2.1978133333333334,
      "grad_norm": 0.024898651915610283,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 11209
    },
    {
      "epoch": 2.1978666666666666,
      "grad_norm": 0.024416680843042462,
      "learning_rate": 0.0001,
      "loss": 0.9887,
      "step": 11210
    },
    {
      "epoch": 2.19792,
      "grad_norm": 0.022621831464143816,
      "learning_rate": 0.0001,
      "loss": 0.9183,
      "step": 11211
    },
    {
      "epoch": 2.1979733333333336,
      "grad_norm": 0.023276002977861966,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "step": 11212
    },
    {
      "epoch": 2.198026666666667,
      "grad_norm": 0.02660451141012402,
      "learning_rate": 0.0001,
      "loss": 1.0201,
      "step": 11213
    },
    {
      "epoch": 2.19808,
      "grad_norm": 0.023490988289626764,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "step": 11214
    },
    {
      "epoch": 2.1981333333333333,
      "grad_norm": 0.025016315816275128,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "step": 11215
    },
    {
      "epoch": 2.1981866666666665,
      "grad_norm": 0.026017466042514634,
      "learning_rate": 0.0001,
      "loss": 0.9972,
      "step": 11216
    },
    {
      "epoch": 2.19824,
      "grad_norm": 0.024595887185780815,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11217
    },
    {
      "epoch": 2.1982933333333334,
      "grad_norm": 0.0238160357543662,
      "learning_rate": 0.0001,
      "loss": 0.9783,
      "step": 11218
    },
    {
      "epoch": 2.1983466666666667,
      "grad_norm": 0.02441421069967338,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 11219
    },
    {
      "epoch": 2.1984,
      "grad_norm": 0.02251204578686231,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 11220
    },
    {
      "epoch": 2.198453333333333,
      "grad_norm": 0.022163755855861462,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 11221
    },
    {
      "epoch": 2.198506666666667,
      "grad_norm": 0.02233375561633939,
      "learning_rate": 0.0001,
      "loss": 1.0327,
      "step": 11222
    },
    {
      "epoch": 2.19856,
      "grad_norm": 0.026221089842876927,
      "learning_rate": 0.0001,
      "loss": 1.0005,
      "step": 11223
    },
    {
      "epoch": 2.1986133333333333,
      "grad_norm": 0.0230766986887607,
      "learning_rate": 0.0001,
      "loss": 0.9641,
      "step": 11224
    },
    {
      "epoch": 2.1986666666666665,
      "grad_norm": 0.023269869580742685,
      "learning_rate": 0.0001,
      "loss": 0.9208,
      "step": 11225
    },
    {
      "epoch": 2.19872,
      "grad_norm": 0.02165695021147276,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 11226
    },
    {
      "epoch": 2.1987733333333335,
      "grad_norm": 0.023562683281193313,
      "learning_rate": 0.0001,
      "loss": 0.9788,
      "step": 11227
    },
    {
      "epoch": 2.1988266666666667,
      "grad_norm": 0.02360099860786699,
      "learning_rate": 0.0001,
      "loss": 0.9248,
      "step": 11228
    },
    {
      "epoch": 2.19888,
      "grad_norm": 0.024113960324398834,
      "learning_rate": 0.0001,
      "loss": 0.9845,
      "step": 11229
    },
    {
      "epoch": 2.198933333333333,
      "grad_norm": 0.022663626163292983,
      "learning_rate": 0.0001,
      "loss": 0.9437,
      "step": 11230
    },
    {
      "epoch": 2.198986666666667,
      "grad_norm": 0.023184402056469825,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 11231
    },
    {
      "epoch": 2.19904,
      "grad_norm": 0.026158886794999146,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 11232
    },
    {
      "epoch": 2.1990933333333333,
      "grad_norm": 0.0236553603899042,
      "learning_rate": 0.0001,
      "loss": 1.0099,
      "step": 11233
    },
    {
      "epoch": 2.1991466666666666,
      "grad_norm": 0.024696075743965266,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 11234
    },
    {
      "epoch": 2.1992,
      "grad_norm": 0.02270959629392814,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 11235
    },
    {
      "epoch": 2.1992533333333335,
      "grad_norm": 0.021775789034094026,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 11236
    },
    {
      "epoch": 2.1993066666666667,
      "grad_norm": 0.024754396416462515,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "step": 11237
    },
    {
      "epoch": 2.19936,
      "grad_norm": 0.025010610648297557,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "step": 11238
    },
    {
      "epoch": 2.199413333333333,
      "grad_norm": 0.022650559284206777,
      "learning_rate": 0.0001,
      "loss": 1.0093,
      "step": 11239
    },
    {
      "epoch": 2.1994666666666665,
      "grad_norm": 0.02385767710093119,
      "learning_rate": 0.0001,
      "loss": 1.0184,
      "step": 11240
    },
    {
      "epoch": 2.19952,
      "grad_norm": 0.023548082068518945,
      "learning_rate": 0.0001,
      "loss": 0.9995,
      "step": 11241
    },
    {
      "epoch": 2.1995733333333334,
      "grad_norm": 0.024790998348850384,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 11242
    },
    {
      "epoch": 2.1996266666666666,
      "grad_norm": 0.02336537281362153,
      "learning_rate": 0.0001,
      "loss": 0.9642,
      "step": 11243
    },
    {
      "epoch": 2.19968,
      "grad_norm": 0.024837719910767834,
      "learning_rate": 0.0001,
      "loss": 0.9891,
      "step": 11244
    },
    {
      "epoch": 2.1997333333333335,
      "grad_norm": 0.025830355275916147,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 11245
    },
    {
      "epoch": 2.199786666666667,
      "grad_norm": 0.022918979650322753,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 11246
    },
    {
      "epoch": 2.19984,
      "grad_norm": 0.025231802540361514,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "step": 11247
    },
    {
      "epoch": 2.1998933333333333,
      "grad_norm": 0.02482246781950298,
      "learning_rate": 0.0001,
      "loss": 0.967,
      "step": 11248
    },
    {
      "epoch": 2.1999466666666665,
      "grad_norm": 0.02326349374446715,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 11249
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.02580893649619102,
      "learning_rate": 0.0001,
      "loss": 1.004,
      "step": 11250
    },
    {
      "epoch": 3.0000533333333332,
      "grad_norm": 0.024638028858310623,
      "learning_rate": 0.0001,
      "loss": 0.9255,
      "step": 11251
    },
    {
      "epoch": 3.0001066666666665,
      "grad_norm": 0.02322219747361999,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 11252
    },
    {
      "epoch": 3.00016,
      "grad_norm": 0.02308720765734533,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "step": 11253
    },
    {
      "epoch": 3.0002133333333334,
      "grad_norm": 0.02368758316852945,
      "learning_rate": 0.0001,
      "loss": 0.9515,
      "step": 11254
    },
    {
      "epoch": 3.0002666666666666,
      "grad_norm": 0.025145241282198992,
      "learning_rate": 0.0001,
      "loss": 0.9323,
      "step": 11255
    },
    {
      "epoch": 3.00032,
      "grad_norm": 0.02246790036506784,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 11256
    },
    {
      "epoch": 3.000373333333333,
      "grad_norm": 0.031435660964601056,
      "learning_rate": 0.0001,
      "loss": 1.0003,
      "step": 11257
    },
    {
      "epoch": 3.000426666666667,
      "grad_norm": 0.024103323619571338,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 11258
    },
    {
      "epoch": 3.00048,
      "grad_norm": 0.02209339284706833,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 11259
    },
    {
      "epoch": 3.0005333333333333,
      "grad_norm": 0.02292264954388281,
      "learning_rate": 0.0001,
      "loss": 0.9814,
      "step": 11260
    },
    {
      "epoch": 3.0005866666666665,
      "grad_norm": 0.023472272189852726,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 11261
    },
    {
      "epoch": 3.00064,
      "grad_norm": 0.02585371480185917,
      "learning_rate": 0.0001,
      "loss": 0.9098,
      "step": 11262
    },
    {
      "epoch": 3.0006933333333334,
      "grad_norm": 0.02666848043366243,
      "learning_rate": 0.0001,
      "loss": 0.9317,
      "step": 11263
    },
    {
      "epoch": 3.0007466666666667,
      "grad_norm": 0.023178633363146343,
      "learning_rate": 0.0001,
      "loss": 0.9859,
      "step": 11264
    },
    {
      "epoch": 3.0008,
      "grad_norm": 0.022913269814078038,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 11265
    },
    {
      "epoch": 3.000853333333333,
      "grad_norm": 0.023998898652024373,
      "learning_rate": 0.0001,
      "loss": 0.9771,
      "step": 11266
    },
    {
      "epoch": 3.000906666666667,
      "grad_norm": 0.024400214003216285,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "step": 11267
    },
    {
      "epoch": 3.00096,
      "grad_norm": 0.02281324557062815,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "step": 11268
    },
    {
      "epoch": 3.0010133333333333,
      "grad_norm": 0.021453957621335663,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 11269
    },
    {
      "epoch": 3.0010666666666665,
      "grad_norm": 0.023699044100414637,
      "learning_rate": 0.0001,
      "loss": 0.9389,
      "step": 11270
    },
    {
      "epoch": 3.00112,
      "grad_norm": 0.02403758915911985,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "step": 11271
    },
    {
      "epoch": 3.0011733333333335,
      "grad_norm": 0.02386362087473317,
      "learning_rate": 0.0001,
      "loss": 0.9332,
      "step": 11272
    },
    {
      "epoch": 3.0012266666666667,
      "grad_norm": 0.024417057812420914,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 11273
    },
    {
      "epoch": 3.00128,
      "grad_norm": 0.022384391433211057,
      "learning_rate": 0.0001,
      "loss": 0.9839,
      "step": 11274
    },
    {
      "epoch": 3.001333333333333,
      "grad_norm": 0.024621541406517265,
      "learning_rate": 0.0001,
      "loss": 0.9753,
      "step": 11275
    },
    {
      "epoch": 3.001386666666667,
      "grad_norm": 0.022350868334982288,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 11276
    },
    {
      "epoch": 3.00144,
      "grad_norm": 0.024400391393469105,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 11277
    },
    {
      "epoch": 3.0014933333333333,
      "grad_norm": 0.02491877349655114,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 11278
    },
    {
      "epoch": 3.0015466666666666,
      "grad_norm": 0.022957712105712944,
      "learning_rate": 0.0001,
      "loss": 0.9563,
      "step": 11279
    },
    {
      "epoch": 3.0016,
      "grad_norm": 0.023898069162539153,
      "learning_rate": 0.0001,
      "loss": 0.9152,
      "step": 11280
    },
    {
      "epoch": 3.0016533333333335,
      "grad_norm": 0.02451177205516322,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "step": 11281
    },
    {
      "epoch": 3.0017066666666667,
      "grad_norm": 0.022253242576507317,
      "learning_rate": 0.0001,
      "loss": 0.9313,
      "step": 11282
    },
    {
      "epoch": 3.00176,
      "grad_norm": 0.027218036651738834,
      "learning_rate": 0.0001,
      "loss": 0.913,
      "step": 11283
    },
    {
      "epoch": 3.0018133333333332,
      "grad_norm": 0.02871784180339178,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 11284
    },
    {
      "epoch": 3.0018666666666665,
      "grad_norm": 0.023168546206739152,
      "learning_rate": 0.0001,
      "loss": 0.9179,
      "step": 11285
    },
    {
      "epoch": 3.00192,
      "grad_norm": 0.023280783013189355,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 11286
    },
    {
      "epoch": 3.0019733333333334,
      "grad_norm": 0.024291542939194423,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 11287
    },
    {
      "epoch": 3.0020266666666666,
      "grad_norm": 0.023263775571025803,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 11288
    },
    {
      "epoch": 3.00208,
      "grad_norm": 0.023935904289720186,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "step": 11289
    },
    {
      "epoch": 3.0021333333333335,
      "grad_norm": 0.02271967230980459,
      "learning_rate": 0.0001,
      "loss": 0.894,
      "step": 11290
    },
    {
      "epoch": 3.002186666666667,
      "grad_norm": 0.022838320521030006,
      "learning_rate": 0.0001,
      "loss": 1.0388,
      "step": 11291
    },
    {
      "epoch": 3.00224,
      "grad_norm": 0.023620458235127068,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "step": 11292
    },
    {
      "epoch": 3.0022933333333333,
      "grad_norm": 0.02335609312606439,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 11293
    },
    {
      "epoch": 3.0023466666666665,
      "grad_norm": 0.025869901163666078,
      "learning_rate": 0.0001,
      "loss": 0.9441,
      "step": 11294
    },
    {
      "epoch": 3.0024,
      "grad_norm": 0.025153848853555386,
      "learning_rate": 0.0001,
      "loss": 0.9266,
      "step": 11295
    },
    {
      "epoch": 3.0024533333333334,
      "grad_norm": 0.022762416631738985,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "step": 11296
    },
    {
      "epoch": 3.0025066666666667,
      "grad_norm": 0.022365262231408996,
      "learning_rate": 0.0001,
      "loss": 0.9705,
      "step": 11297
    },
    {
      "epoch": 3.00256,
      "grad_norm": 0.024204740951011727,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "step": 11298
    },
    {
      "epoch": 3.002613333333333,
      "grad_norm": 0.0243495720164469,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 11299
    },
    {
      "epoch": 3.002666666666667,
      "grad_norm": 0.024443326770734745,
      "learning_rate": 0.0001,
      "loss": 0.8977,
      "step": 11300
    },
    {
      "epoch": 3.00272,
      "grad_norm": 0.025010607371833284,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 11301
    },
    {
      "epoch": 3.0027733333333333,
      "grad_norm": 0.026894286782539762,
      "learning_rate": 0.0001,
      "loss": 0.9724,
      "step": 11302
    },
    {
      "epoch": 3.0028266666666665,
      "grad_norm": 0.025524251316306625,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 11303
    },
    {
      "epoch": 3.00288,
      "grad_norm": 0.023903595429293344,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11304
    },
    {
      "epoch": 3.0029333333333335,
      "grad_norm": 0.023974071241703764,
      "learning_rate": 0.0001,
      "loss": 0.872,
      "step": 11305
    },
    {
      "epoch": 3.0029866666666667,
      "grad_norm": 0.02401256940257488,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "step": 11306
    },
    {
      "epoch": 3.00304,
      "grad_norm": 0.0252183813803082,
      "learning_rate": 0.0001,
      "loss": 0.9458,
      "step": 11307
    },
    {
      "epoch": 3.003093333333333,
      "grad_norm": 0.026440354213334433,
      "learning_rate": 0.0001,
      "loss": 0.9363,
      "step": 11308
    },
    {
      "epoch": 3.003146666666667,
      "grad_norm": 0.02549458741891667,
      "learning_rate": 0.0001,
      "loss": 0.9722,
      "step": 11309
    },
    {
      "epoch": 3.0032,
      "grad_norm": 0.027055203248278575,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "step": 11310
    },
    {
      "epoch": 3.0032533333333333,
      "grad_norm": 0.024409792944135388,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 11311
    },
    {
      "epoch": 3.0033066666666666,
      "grad_norm": 0.023448696621903384,
      "learning_rate": 0.0001,
      "loss": 0.9521,
      "step": 11312
    },
    {
      "epoch": 3.00336,
      "grad_norm": 0.028447597232335857,
      "learning_rate": 0.0001,
      "loss": 0.9259,
      "step": 11313
    },
    {
      "epoch": 3.0034133333333335,
      "grad_norm": 0.02400363786322356,
      "learning_rate": 0.0001,
      "loss": 0.9786,
      "step": 11314
    },
    {
      "epoch": 3.0034666666666667,
      "grad_norm": 0.023334990925384186,
      "learning_rate": 0.0001,
      "loss": 0.9325,
      "step": 11315
    },
    {
      "epoch": 3.00352,
      "grad_norm": 0.02405552099055603,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 11316
    },
    {
      "epoch": 3.003573333333333,
      "grad_norm": 0.023911017363309785,
      "learning_rate": 0.0001,
      "loss": 0.9179,
      "step": 11317
    },
    {
      "epoch": 3.0036266666666664,
      "grad_norm": 0.023369656031578548,
      "learning_rate": 0.0001,
      "loss": 1.0078,
      "step": 11318
    },
    {
      "epoch": 3.00368,
      "grad_norm": 0.02387275246102042,
      "learning_rate": 0.0001,
      "loss": 0.9114,
      "step": 11319
    },
    {
      "epoch": 3.0037333333333334,
      "grad_norm": 0.023001945147488646,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 11320
    },
    {
      "epoch": 3.0037866666666666,
      "grad_norm": 0.023138443641804708,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 11321
    },
    {
      "epoch": 3.00384,
      "grad_norm": 0.024927590361364715,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 11322
    },
    {
      "epoch": 3.0038933333333335,
      "grad_norm": 0.025457512983358428,
      "learning_rate": 0.0001,
      "loss": 0.9851,
      "step": 11323
    },
    {
      "epoch": 3.0039466666666668,
      "grad_norm": 0.02618839815930338,
      "learning_rate": 0.0001,
      "loss": 0.8933,
      "step": 11324
    },
    {
      "epoch": 3.004,
      "grad_norm": 0.02356984553746599,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 11325
    },
    {
      "epoch": 3.0040533333333332,
      "grad_norm": 0.023361072268447396,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 11326
    },
    {
      "epoch": 3.0041066666666665,
      "grad_norm": 0.023526984693495148,
      "learning_rate": 0.0001,
      "loss": 0.9528,
      "step": 11327
    },
    {
      "epoch": 3.00416,
      "grad_norm": 0.02651088037741935,
      "learning_rate": 0.0001,
      "loss": 0.9963,
      "step": 11328
    },
    {
      "epoch": 3.0042133333333334,
      "grad_norm": 0.024903845808228815,
      "learning_rate": 0.0001,
      "loss": 0.9043,
      "step": 11329
    },
    {
      "epoch": 3.0042666666666666,
      "grad_norm": 0.0259482222659897,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 11330
    },
    {
      "epoch": 3.00432,
      "grad_norm": 0.024561939316896077,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "step": 11331
    },
    {
      "epoch": 3.004373333333333,
      "grad_norm": 0.023243698795666422,
      "learning_rate": 0.0001,
      "loss": 0.9351,
      "step": 11332
    },
    {
      "epoch": 3.004426666666667,
      "grad_norm": 0.024648730061561683,
      "learning_rate": 0.0001,
      "loss": 0.9256,
      "step": 11333
    },
    {
      "epoch": 3.00448,
      "grad_norm": 0.025351720680434016,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 11334
    },
    {
      "epoch": 3.0045333333333333,
      "grad_norm": 0.023947727205015416,
      "learning_rate": 0.0001,
      "loss": 1.043,
      "step": 11335
    },
    {
      "epoch": 3.0045866666666665,
      "grad_norm": 0.023883622834898064,
      "learning_rate": 0.0001,
      "loss": 0.9381,
      "step": 11336
    },
    {
      "epoch": 3.00464,
      "grad_norm": 0.02360410920045005,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "step": 11337
    },
    {
      "epoch": 3.0046933333333334,
      "grad_norm": 0.023673875378448277,
      "learning_rate": 0.0001,
      "loss": 0.9293,
      "step": 11338
    },
    {
      "epoch": 3.0047466666666667,
      "grad_norm": 0.026601034331108983,
      "learning_rate": 0.0001,
      "loss": 0.9407,
      "step": 11339
    },
    {
      "epoch": 3.0048,
      "grad_norm": 0.022401113655800543,
      "learning_rate": 0.0001,
      "loss": 0.9527,
      "step": 11340
    },
    {
      "epoch": 3.004853333333333,
      "grad_norm": 0.02327571413257052,
      "learning_rate": 0.0001,
      "loss": 0.9685,
      "step": 11341
    },
    {
      "epoch": 3.004906666666667,
      "grad_norm": 0.02354072515657198,
      "learning_rate": 0.0001,
      "loss": 0.9355,
      "step": 11342
    },
    {
      "epoch": 3.00496,
      "grad_norm": 0.026603400101281025,
      "learning_rate": 0.0001,
      "loss": 0.9171,
      "step": 11343
    },
    {
      "epoch": 3.0050133333333333,
      "grad_norm": 0.02347280310338319,
      "learning_rate": 0.0001,
      "loss": 0.9653,
      "step": 11344
    },
    {
      "epoch": 3.0050666666666666,
      "grad_norm": 0.02294440572152452,
      "learning_rate": 0.0001,
      "loss": 0.9631,
      "step": 11345
    },
    {
      "epoch": 3.00512,
      "grad_norm": 0.024052087866435624,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "step": 11346
    },
    {
      "epoch": 3.0051733333333335,
      "grad_norm": 0.023602398125191503,
      "learning_rate": 0.0001,
      "loss": 0.9943,
      "step": 11347
    },
    {
      "epoch": 3.0052266666666667,
      "grad_norm": 0.022910326781415538,
      "learning_rate": 0.0001,
      "loss": 0.9806,
      "step": 11348
    },
    {
      "epoch": 3.00528,
      "grad_norm": 0.023829136657987148,
      "learning_rate": 0.0001,
      "loss": 0.9671,
      "step": 11349
    },
    {
      "epoch": 3.005333333333333,
      "grad_norm": 0.02456557425384155,
      "learning_rate": 0.0001,
      "loss": 0.9501,
      "step": 11350
    },
    {
      "epoch": 3.005386666666667,
      "grad_norm": 0.02381021185306547,
      "learning_rate": 0.0001,
      "loss": 0.9743,
      "step": 11351
    },
    {
      "epoch": 3.00544,
      "grad_norm": 0.022800329887375438,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 11352
    },
    {
      "epoch": 3.0054933333333334,
      "grad_norm": 0.023318011506900986,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "step": 11353
    },
    {
      "epoch": 3.0055466666666666,
      "grad_norm": 0.022070190083208055,
      "learning_rate": 0.0001,
      "loss": 0.9263,
      "step": 11354
    },
    {
      "epoch": 3.0056,
      "grad_norm": 0.023222010722803842,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "step": 11355
    },
    {
      "epoch": 3.0056533333333335,
      "grad_norm": 0.024388313761076495,
      "learning_rate": 0.0001,
      "loss": 0.928,
      "step": 11356
    },
    {
      "epoch": 3.0057066666666667,
      "grad_norm": 0.023668486357819513,
      "learning_rate": 0.0001,
      "loss": 0.9329,
      "step": 11357
    },
    {
      "epoch": 3.00576,
      "grad_norm": 0.02362638861030846,
      "learning_rate": 0.0001,
      "loss": 0.9273,
      "step": 11358
    },
    {
      "epoch": 3.0058133333333332,
      "grad_norm": 0.023166218459446362,
      "learning_rate": 0.0001,
      "loss": 0.952,
      "step": 11359
    },
    {
      "epoch": 3.0058666666666665,
      "grad_norm": 0.02501087146868118,
      "learning_rate": 0.0001,
      "loss": 0.9991,
      "step": 11360
    },
    {
      "epoch": 3.00592,
      "grad_norm": 0.022561373715076806,
      "learning_rate": 0.0001,
      "loss": 1.013,
      "step": 11361
    },
    {
      "epoch": 3.0059733333333334,
      "grad_norm": 0.02405414233624098,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 11362
    },
    {
      "epoch": 3.0060266666666666,
      "grad_norm": 0.02319284126053344,
      "learning_rate": 0.0001,
      "loss": 0.9755,
      "step": 11363
    },
    {
      "epoch": 3.00608,
      "grad_norm": 0.0229574733882866,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 11364
    },
    {
      "epoch": 3.0061333333333335,
      "grad_norm": 0.024805499866802066,
      "learning_rate": 0.0001,
      "loss": 0.903,
      "step": 11365
    },
    {
      "epoch": 3.006186666666667,
      "grad_norm": 0.023020491114216706,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 11366
    },
    {
      "epoch": 3.00624,
      "grad_norm": 0.024607665959636274,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 11367
    },
    {
      "epoch": 3.0062933333333333,
      "grad_norm": 0.02397316531686939,
      "learning_rate": 0.0001,
      "loss": 0.9254,
      "step": 11368
    },
    {
      "epoch": 3.0063466666666665,
      "grad_norm": 0.022456526732936202,
      "learning_rate": 0.0001,
      "loss": 0.9003,
      "step": 11369
    },
    {
      "epoch": 3.0064,
      "grad_norm": 0.026394853590073555,
      "learning_rate": 0.0001,
      "loss": 0.9099,
      "step": 11370
    },
    {
      "epoch": 3.0064533333333334,
      "grad_norm": 0.024497876581263206,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 11371
    },
    {
      "epoch": 3.0065066666666667,
      "grad_norm": 0.023053253495741166,
      "learning_rate": 0.0001,
      "loss": 0.9293,
      "step": 11372
    },
    {
      "epoch": 3.00656,
      "grad_norm": 0.024791855351718756,
      "learning_rate": 0.0001,
      "loss": 0.9636,
      "step": 11373
    },
    {
      "epoch": 3.006613333333333,
      "grad_norm": 0.022627030499988158,
      "learning_rate": 0.0001,
      "loss": 0.9554,
      "step": 11374
    },
    {
      "epoch": 3.006666666666667,
      "grad_norm": 0.023175475772486756,
      "learning_rate": 0.0001,
      "loss": 0.9091,
      "step": 11375
    },
    {
      "epoch": 3.00672,
      "grad_norm": 0.02376168748832895,
      "learning_rate": 0.0001,
      "loss": 0.9648,
      "step": 11376
    },
    {
      "epoch": 3.0067733333333333,
      "grad_norm": 0.02533316673891695,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 11377
    },
    {
      "epoch": 3.0068266666666665,
      "grad_norm": 0.022387544244183655,
      "learning_rate": 0.0001,
      "loss": 0.8905,
      "step": 11378
    },
    {
      "epoch": 3.00688,
      "grad_norm": 0.026087791092444433,
      "learning_rate": 0.0001,
      "loss": 0.8422,
      "step": 11379
    },
    {
      "epoch": 3.0069333333333335,
      "grad_norm": 0.024071452190633107,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "step": 11380
    },
    {
      "epoch": 3.0069866666666667,
      "grad_norm": 0.023129981262816082,
      "learning_rate": 0.0001,
      "loss": 0.9908,
      "step": 11381
    },
    {
      "epoch": 3.00704,
      "grad_norm": 0.022101482753985335,
      "learning_rate": 0.0001,
      "loss": 0.92,
      "step": 11382
    },
    {
      "epoch": 3.007093333333333,
      "grad_norm": 0.023434035746072283,
      "learning_rate": 0.0001,
      "loss": 1.0237,
      "step": 11383
    },
    {
      "epoch": 3.007146666666667,
      "grad_norm": 0.02284145401800224,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 11384
    },
    {
      "epoch": 3.0072,
      "grad_norm": 0.02675438698821568,
      "learning_rate": 0.0001,
      "loss": 0.9096,
      "step": 11385
    },
    {
      "epoch": 3.0072533333333333,
      "grad_norm": 0.023340140942491247,
      "learning_rate": 0.0001,
      "loss": 0.9095,
      "step": 11386
    },
    {
      "epoch": 3.0073066666666666,
      "grad_norm": 0.02174579587251957,
      "learning_rate": 0.0001,
      "loss": 0.9092,
      "step": 11387
    },
    {
      "epoch": 3.00736,
      "grad_norm": 0.023472224983388412,
      "learning_rate": 0.0001,
      "loss": 0.998,
      "step": 11388
    },
    {
      "epoch": 3.0074133333333335,
      "grad_norm": 0.024575665700810954,
      "learning_rate": 0.0001,
      "loss": 0.9691,
      "step": 11389
    },
    {
      "epoch": 3.0074666666666667,
      "grad_norm": 0.023553797097254785,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 11390
    },
    {
      "epoch": 3.00752,
      "grad_norm": 0.02402426167324507,
      "learning_rate": 0.0001,
      "loss": 0.9583,
      "step": 11391
    },
    {
      "epoch": 3.007573333333333,
      "grad_norm": 0.023864763420316962,
      "learning_rate": 0.0001,
      "loss": 0.9031,
      "step": 11392
    },
    {
      "epoch": 3.0076266666666664,
      "grad_norm": 0.023600755137217055,
      "learning_rate": 0.0001,
      "loss": 0.9348,
      "step": 11393
    },
    {
      "epoch": 3.00768,
      "grad_norm": 0.023269790894999826,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "step": 11394
    },
    {
      "epoch": 3.0077333333333334,
      "grad_norm": 0.024933535945561202,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 11395
    },
    {
      "epoch": 3.0077866666666666,
      "grad_norm": 0.02215385857080057,
      "learning_rate": 0.0001,
      "loss": 0.9624,
      "step": 11396
    },
    {
      "epoch": 3.00784,
      "grad_norm": 0.02253383036891405,
      "learning_rate": 0.0001,
      "loss": 1.0013,
      "step": 11397
    },
    {
      "epoch": 3.0078933333333335,
      "grad_norm": 0.023034757281028426,
      "learning_rate": 0.0001,
      "loss": 0.9608,
      "step": 11398
    },
    {
      "epoch": 3.0079466666666668,
      "grad_norm": 0.022043762714682755,
      "learning_rate": 0.0001,
      "loss": 0.9191,
      "step": 11399
    },
    {
      "epoch": 3.008,
      "grad_norm": 0.023741722795190014,
      "learning_rate": 0.0001,
      "loss": 0.8923,
      "step": 11400
    },
    {
      "epoch": 3.008,
      "eval_accuracy": 0.6218992044855414,
      "eval_loss": 1.3449797630310059,
      "eval_runtime": 62.4869,
      "eval_samples_per_second": 16.003,
      "eval_steps_per_second": 0.512,
      "step": 11400
    },
    {
      "epoch": 3.0080533333333332,
      "grad_norm": 0.02230207877601979,
      "learning_rate": 0.0001,
      "loss": 1.0226,
      "step": 11401
    },
    {
      "epoch": 3.0081066666666665,
      "grad_norm": 0.022423495142439853,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "step": 11402
    },
    {
      "epoch": 3.00816,
      "grad_norm": 0.02356103829626399,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "step": 11403
    },
    {
      "epoch": 3.0082133333333334,
      "grad_norm": 0.023684338270253822,
      "learning_rate": 0.0001,
      "loss": 0.9934,
      "step": 11404
    },
    {
      "epoch": 3.0082666666666666,
      "grad_norm": 0.02418648526716863,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 11405
    },
    {
      "epoch": 3.00832,
      "grad_norm": 0.022931211375474433,
      "learning_rate": 0.0001,
      "loss": 0.9676,
      "step": 11406
    },
    {
      "epoch": 3.008373333333333,
      "grad_norm": 0.02512887847702793,
      "learning_rate": 0.0001,
      "loss": 0.8926,
      "step": 11407
    },
    {
      "epoch": 3.008426666666667,
      "grad_norm": 0.02297608235380551,
      "learning_rate": 0.0001,
      "loss": 0.9268,
      "step": 11408
    },
    {
      "epoch": 3.00848,
      "grad_norm": 0.02420404304013232,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 11409
    },
    {
      "epoch": 3.0085333333333333,
      "grad_norm": 0.022635139250453188,
      "learning_rate": 0.0001,
      "loss": 0.9345,
      "step": 11410
    },
    {
      "epoch": 3.0085866666666665,
      "grad_norm": 0.02237914546847278,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 11411
    },
    {
      "epoch": 3.00864,
      "grad_norm": 0.024615345530994585,
      "learning_rate": 0.0001,
      "loss": 0.9516,
      "step": 11412
    },
    {
      "epoch": 3.0086933333333334,
      "grad_norm": 0.023603054261296743,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 11413
    },
    {
      "epoch": 3.0087466666666667,
      "grad_norm": 0.023447743111023833,
      "learning_rate": 0.0001,
      "loss": 1.0139,
      "step": 11414
    },
    {
      "epoch": 3.0088,
      "grad_norm": 0.022598692439443176,
      "learning_rate": 0.0001,
      "loss": 0.9507,
      "step": 11415
    },
    {
      "epoch": 3.008853333333333,
      "grad_norm": 0.02596360137745977,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 11416
    },
    {
      "epoch": 3.008906666666667,
      "grad_norm": 0.023084985519446044,
      "learning_rate": 0.0001,
      "loss": 0.9576,
      "step": 11417
    },
    {
      "epoch": 3.00896,
      "grad_norm": 0.025680454029128164,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 11418
    },
    {
      "epoch": 3.0090133333333333,
      "grad_norm": 0.023113893263206304,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 11419
    },
    {
      "epoch": 3.0090666666666666,
      "grad_norm": 0.02591325099571857,
      "learning_rate": 0.0001,
      "loss": 0.9158,
      "step": 11420
    },
    {
      "epoch": 3.00912,
      "grad_norm": 0.02473040908561732,
      "learning_rate": 0.0001,
      "loss": 0.9916,
      "step": 11421
    },
    {
      "epoch": 3.0091733333333335,
      "grad_norm": 0.026316152670731518,
      "learning_rate": 0.0001,
      "loss": 1.051,
      "step": 11422
    },
    {
      "epoch": 3.0092266666666667,
      "grad_norm": 0.026278018679745344,
      "learning_rate": 0.0001,
      "loss": 0.9434,
      "step": 11423
    },
    {
      "epoch": 3.00928,
      "grad_norm": 0.021966547841676263,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 11424
    },
    {
      "epoch": 3.009333333333333,
      "grad_norm": 0.023579831105133543,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "step": 11425
    },
    {
      "epoch": 3.009386666666667,
      "grad_norm": 0.025938352029436382,
      "learning_rate": 0.0001,
      "loss": 0.9543,
      "step": 11426
    },
    {
      "epoch": 3.00944,
      "grad_norm": 0.022734941472479297,
      "learning_rate": 0.0001,
      "loss": 0.9101,
      "step": 11427
    },
    {
      "epoch": 3.0094933333333334,
      "grad_norm": 0.023248469003952714,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "step": 11428
    },
    {
      "epoch": 3.0095466666666666,
      "grad_norm": 0.02163759508829268,
      "learning_rate": 0.0001,
      "loss": 0.9483,
      "step": 11429
    },
    {
      "epoch": 3.0096,
      "grad_norm": 0.022074819614164003,
      "learning_rate": 0.0001,
      "loss": 0.9144,
      "step": 11430
    },
    {
      "epoch": 3.0096533333333335,
      "grad_norm": 0.02393737597144355,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 11431
    },
    {
      "epoch": 3.0097066666666668,
      "grad_norm": 0.02484390185818054,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 11432
    },
    {
      "epoch": 3.00976,
      "grad_norm": 0.02314493177130149,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "step": 11433
    },
    {
      "epoch": 3.0098133333333332,
      "grad_norm": 0.024257818285949743,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "step": 11434
    },
    {
      "epoch": 3.0098666666666665,
      "grad_norm": 0.02377509123454757,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 11435
    },
    {
      "epoch": 3.00992,
      "grad_norm": 0.025302283769503484,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 11436
    },
    {
      "epoch": 3.0099733333333334,
      "grad_norm": 0.024075991313630106,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 11437
    },
    {
      "epoch": 3.0100266666666666,
      "grad_norm": 0.026283905037917953,
      "learning_rate": 0.0001,
      "loss": 0.9164,
      "step": 11438
    },
    {
      "epoch": 3.01008,
      "grad_norm": 0.02364981499186511,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "step": 11439
    },
    {
      "epoch": 3.0101333333333335,
      "grad_norm": 0.022124330054918293,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 11440
    },
    {
      "epoch": 3.010186666666667,
      "grad_norm": 0.02328129217623798,
      "learning_rate": 0.0001,
      "loss": 0.9368,
      "step": 11441
    },
    {
      "epoch": 3.01024,
      "grad_norm": 0.023790836480429567,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "step": 11442
    },
    {
      "epoch": 3.0102933333333333,
      "grad_norm": 0.023393192553206186,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 11443
    },
    {
      "epoch": 3.0103466666666665,
      "grad_norm": 0.02292530636640073,
      "learning_rate": 0.0001,
      "loss": 0.9276,
      "step": 11444
    },
    {
      "epoch": 3.0104,
      "grad_norm": 0.023142317179152657,
      "learning_rate": 0.0001,
      "loss": 0.9986,
      "step": 11445
    },
    {
      "epoch": 3.0104533333333334,
      "grad_norm": 0.025286898592958823,
      "learning_rate": 0.0001,
      "loss": 0.9763,
      "step": 11446
    },
    {
      "epoch": 3.0105066666666667,
      "grad_norm": 0.026231732529722992,
      "learning_rate": 0.0001,
      "loss": 0.9556,
      "step": 11447
    },
    {
      "epoch": 3.01056,
      "grad_norm": 0.02239495385424336,
      "learning_rate": 0.0001,
      "loss": 0.9223,
      "step": 11448
    },
    {
      "epoch": 3.010613333333333,
      "grad_norm": 0.022498484221443887,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 11449
    },
    {
      "epoch": 3.010666666666667,
      "grad_norm": 0.02490204716007246,
      "learning_rate": 0.0001,
      "loss": 0.9835,
      "step": 11450
    },
    {
      "epoch": 3.01072,
      "grad_norm": 0.024221367689641327,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "step": 11451
    },
    {
      "epoch": 3.0107733333333333,
      "grad_norm": 0.023002000709672732,
      "learning_rate": 0.0001,
      "loss": 0.8885,
      "step": 11452
    },
    {
      "epoch": 3.0108266666666665,
      "grad_norm": 0.02281994561592992,
      "learning_rate": 0.0001,
      "loss": 1.0053,
      "step": 11453
    },
    {
      "epoch": 3.0108800000000002,
      "grad_norm": 0.02247849355973267,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 11454
    },
    {
      "epoch": 3.0109333333333335,
      "grad_norm": 0.02249901357917581,
      "learning_rate": 0.0001,
      "loss": 0.889,
      "step": 11455
    },
    {
      "epoch": 3.0109866666666667,
      "grad_norm": 0.02750725146933886,
      "learning_rate": 0.0001,
      "loss": 0.9826,
      "step": 11456
    },
    {
      "epoch": 3.01104,
      "grad_norm": 0.02508078053449982,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "step": 11457
    },
    {
      "epoch": 3.011093333333333,
      "grad_norm": 0.022164775802903238,
      "learning_rate": 0.0001,
      "loss": 0.8779,
      "step": 11458
    },
    {
      "epoch": 3.011146666666667,
      "grad_norm": 0.023107552017466622,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 11459
    },
    {
      "epoch": 3.0112,
      "grad_norm": 0.023120989658243347,
      "learning_rate": 0.0001,
      "loss": 0.9625,
      "step": 11460
    },
    {
      "epoch": 3.0112533333333333,
      "grad_norm": 0.022989486371046627,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "step": 11461
    },
    {
      "epoch": 3.0113066666666666,
      "grad_norm": 0.023326450927307747,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 11462
    },
    {
      "epoch": 3.01136,
      "grad_norm": 0.027588947925899342,
      "learning_rate": 0.0001,
      "loss": 0.9177,
      "step": 11463
    },
    {
      "epoch": 3.0114133333333335,
      "grad_norm": 0.02575376947119143,
      "learning_rate": 0.0001,
      "loss": 0.8931,
      "step": 11464
    },
    {
      "epoch": 3.0114666666666667,
      "grad_norm": 0.024463023031304796,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "step": 11465
    },
    {
      "epoch": 3.01152,
      "grad_norm": 0.025803999256744196,
      "learning_rate": 0.0001,
      "loss": 0.9545,
      "step": 11466
    },
    {
      "epoch": 3.011573333333333,
      "grad_norm": 0.02341577436190252,
      "learning_rate": 0.0001,
      "loss": 0.9849,
      "step": 11467
    },
    {
      "epoch": 3.0116266666666665,
      "grad_norm": 0.025137974611141534,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 11468
    },
    {
      "epoch": 3.01168,
      "grad_norm": 0.02242464656929339,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 11469
    },
    {
      "epoch": 3.0117333333333334,
      "grad_norm": 0.022456288619079435,
      "learning_rate": 0.0001,
      "loss": 0.9012,
      "step": 11470
    },
    {
      "epoch": 3.0117866666666666,
      "grad_norm": 0.023465256054684126,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "step": 11471
    },
    {
      "epoch": 3.01184,
      "grad_norm": 0.022620544466621192,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 11472
    },
    {
      "epoch": 3.0118933333333335,
      "grad_norm": 0.024405334313919145,
      "learning_rate": 0.0001,
      "loss": 0.9751,
      "step": 11473
    },
    {
      "epoch": 3.0119466666666668,
      "grad_norm": 0.023905203876755682,
      "learning_rate": 0.0001,
      "loss": 0.9652,
      "step": 11474
    },
    {
      "epoch": 3.012,
      "grad_norm": 0.025160148488082002,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 11475
    },
    {
      "epoch": 3.0120533333333332,
      "grad_norm": 0.023104555750810392,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 11476
    },
    {
      "epoch": 3.0121066666666665,
      "grad_norm": 0.027494486407075438,
      "learning_rate": 0.0001,
      "loss": 0.9082,
      "step": 11477
    },
    {
      "epoch": 3.01216,
      "grad_norm": 0.02513687261980468,
      "learning_rate": 0.0001,
      "loss": 0.9719,
      "step": 11478
    },
    {
      "epoch": 3.0122133333333334,
      "grad_norm": 0.02399273085329484,
      "learning_rate": 0.0001,
      "loss": 0.9548,
      "step": 11479
    },
    {
      "epoch": 3.0122666666666666,
      "grad_norm": 0.024101216838755175,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "step": 11480
    },
    {
      "epoch": 3.01232,
      "grad_norm": 0.022777627472900755,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 11481
    },
    {
      "epoch": 3.012373333333333,
      "grad_norm": 0.022186175806155915,
      "learning_rate": 0.0001,
      "loss": 0.9564,
      "step": 11482
    },
    {
      "epoch": 3.012426666666667,
      "grad_norm": 0.02328096496334358,
      "learning_rate": 0.0001,
      "loss": 0.9582,
      "step": 11483
    },
    {
      "epoch": 3.01248,
      "grad_norm": 0.02295852012562603,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 11484
    },
    {
      "epoch": 3.0125333333333333,
      "grad_norm": 0.025373243016770068,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "step": 11485
    },
    {
      "epoch": 3.0125866666666665,
      "grad_norm": 0.025187672638609642,
      "learning_rate": 0.0001,
      "loss": 0.9729,
      "step": 11486
    },
    {
      "epoch": 3.01264,
      "grad_norm": 0.022623357818178473,
      "learning_rate": 0.0001,
      "loss": 0.9946,
      "step": 11487
    },
    {
      "epoch": 3.0126933333333334,
      "grad_norm": 0.026528340264101297,
      "learning_rate": 0.0001,
      "loss": 0.9957,
      "step": 11488
    },
    {
      "epoch": 3.0127466666666667,
      "grad_norm": 0.02468982126829838,
      "learning_rate": 0.0001,
      "loss": 0.8973,
      "step": 11489
    },
    {
      "epoch": 3.0128,
      "grad_norm": 0.024247846292823304,
      "learning_rate": 0.0001,
      "loss": 0.9799,
      "step": 11490
    },
    {
      "epoch": 3.012853333333333,
      "grad_norm": 0.02240165477453884,
      "learning_rate": 0.0001,
      "loss": 0.9371,
      "step": 11491
    },
    {
      "epoch": 3.012906666666667,
      "grad_norm": 0.024648043526983975,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 11492
    },
    {
      "epoch": 3.01296,
      "grad_norm": 0.02386476026918516,
      "learning_rate": 0.0001,
      "loss": 0.9591,
      "step": 11493
    },
    {
      "epoch": 3.0130133333333333,
      "grad_norm": 0.024402994669677016,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "step": 11494
    },
    {
      "epoch": 3.0130666666666666,
      "grad_norm": 0.02463945048951394,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 11495
    },
    {
      "epoch": 3.01312,
      "grad_norm": 0.024036107643721927,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "step": 11496
    },
    {
      "epoch": 3.0131733333333335,
      "grad_norm": 0.025244864693594108,
      "learning_rate": 0.0001,
      "loss": 0.9796,
      "step": 11497
    },
    {
      "epoch": 3.0132266666666667,
      "grad_norm": 0.025332466680079404,
      "learning_rate": 0.0001,
      "loss": 0.933,
      "step": 11498
    },
    {
      "epoch": 3.01328,
      "grad_norm": 0.02250987750080965,
      "learning_rate": 0.0001,
      "loss": 0.9362,
      "step": 11499
    },
    {
      "epoch": 3.013333333333333,
      "grad_norm": 0.022886121550771795,
      "learning_rate": 0.0001,
      "loss": 0.9451,
      "step": 11500
    },
    {
      "epoch": 3.013386666666667,
      "grad_norm": 0.024348992492353942,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "step": 11501
    },
    {
      "epoch": 3.01344,
      "grad_norm": 0.023332101302830775,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "step": 11502
    },
    {
      "epoch": 3.0134933333333334,
      "grad_norm": 0.026296706155594967,
      "learning_rate": 0.0001,
      "loss": 0.9575,
      "step": 11503
    },
    {
      "epoch": 3.0135466666666666,
      "grad_norm": 0.025242516561699024,
      "learning_rate": 0.0001,
      "loss": 0.9241,
      "step": 11504
    },
    {
      "epoch": 3.0136,
      "grad_norm": 0.023674813338177093,
      "learning_rate": 0.0001,
      "loss": 0.9698,
      "step": 11505
    },
    {
      "epoch": 3.0136533333333335,
      "grad_norm": 0.02384192093912968,
      "learning_rate": 0.0001,
      "loss": 0.9587,
      "step": 11506
    },
    {
      "epoch": 3.0137066666666668,
      "grad_norm": 0.024264505073599337,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "step": 11507
    },
    {
      "epoch": 3.01376,
      "grad_norm": 0.024209507839258605,
      "learning_rate": 0.0001,
      "loss": 0.9397,
      "step": 11508
    },
    {
      "epoch": 3.0138133333333332,
      "grad_norm": 0.02341943933507366,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "step": 11509
    },
    {
      "epoch": 3.0138666666666665,
      "grad_norm": 0.022797566615677427,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 11510
    },
    {
      "epoch": 3.01392,
      "grad_norm": 0.022284682675654328,
      "learning_rate": 0.0001,
      "loss": 0.9202,
      "step": 11511
    },
    {
      "epoch": 3.0139733333333334,
      "grad_norm": 0.02312475996383706,
      "learning_rate": 0.0001,
      "loss": 0.9419,
      "step": 11512
    },
    {
      "epoch": 3.0140266666666666,
      "grad_norm": 0.024217548561719072,
      "learning_rate": 0.0001,
      "loss": 0.9667,
      "step": 11513
    },
    {
      "epoch": 3.01408,
      "grad_norm": 0.02226024625450421,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 11514
    },
    {
      "epoch": 3.0141333333333336,
      "grad_norm": 0.02552105391241752,
      "learning_rate": 0.0001,
      "loss": 0.909,
      "step": 11515
    },
    {
      "epoch": 3.014186666666667,
      "grad_norm": 0.023574340842096256,
      "learning_rate": 0.0001,
      "loss": 0.9309,
      "step": 11516
    },
    {
      "epoch": 3.01424,
      "grad_norm": 0.025043536273858077,
      "learning_rate": 0.0001,
      "loss": 0.9465,
      "step": 11517
    },
    {
      "epoch": 3.0142933333333333,
      "grad_norm": 0.02340380812134596,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 11518
    },
    {
      "epoch": 3.0143466666666665,
      "grad_norm": 0.02336216191845281,
      "learning_rate": 0.0001,
      "loss": 0.9446,
      "step": 11519
    },
    {
      "epoch": 3.0144,
      "grad_norm": 0.022597854121330873,
      "learning_rate": 0.0001,
      "loss": 0.9221,
      "step": 11520
    },
    {
      "epoch": 3.0144533333333334,
      "grad_norm": 0.024835503590587976,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "step": 11521
    },
    {
      "epoch": 3.0145066666666667,
      "grad_norm": 0.023871101630853122,
      "learning_rate": 0.0001,
      "loss": 0.9888,
      "step": 11522
    },
    {
      "epoch": 3.01456,
      "grad_norm": 0.022760749056030007,
      "learning_rate": 0.0001,
      "loss": 0.9637,
      "step": 11523
    },
    {
      "epoch": 3.014613333333333,
      "grad_norm": 0.023719981299484084,
      "learning_rate": 0.0001,
      "loss": 1.0309,
      "step": 11524
    },
    {
      "epoch": 3.014666666666667,
      "grad_norm": 0.023809949609317337,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "step": 11525
    },
    {
      "epoch": 3.01472,
      "grad_norm": 0.026226941504991053,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 11526
    },
    {
      "epoch": 3.0147733333333333,
      "grad_norm": 0.024472040763352087,
      "learning_rate": 0.0001,
      "loss": 0.9956,
      "step": 11527
    },
    {
      "epoch": 3.0148266666666665,
      "grad_norm": 0.02331569045508522,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 11528
    },
    {
      "epoch": 3.01488,
      "grad_norm": 0.024842584759552776,
      "learning_rate": 0.0001,
      "loss": 0.9422,
      "step": 11529
    },
    {
      "epoch": 3.0149333333333335,
      "grad_norm": 0.024351513847883484,
      "learning_rate": 0.0001,
      "loss": 1.0036,
      "step": 11530
    },
    {
      "epoch": 3.0149866666666667,
      "grad_norm": 0.023598289891244448,
      "learning_rate": 0.0001,
      "loss": 0.9321,
      "step": 11531
    },
    {
      "epoch": 3.01504,
      "grad_norm": 0.023133644000854246,
      "learning_rate": 0.0001,
      "loss": 0.9626,
      "step": 11532
    },
    {
      "epoch": 3.015093333333333,
      "grad_norm": 0.022836305107515522,
      "learning_rate": 0.0001,
      "loss": 0.9744,
      "step": 11533
    },
    {
      "epoch": 3.015146666666667,
      "grad_norm": 0.023307479264549017,
      "learning_rate": 0.0001,
      "loss": 0.8907,
      "step": 11534
    },
    {
      "epoch": 3.0152,
      "grad_norm": 0.026574506740348176,
      "learning_rate": 0.0001,
      "loss": 0.991,
      "step": 11535
    },
    {
      "epoch": 3.0152533333333333,
      "grad_norm": 0.022532116253976057,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11536
    },
    {
      "epoch": 3.0153066666666666,
      "grad_norm": 0.02403439857027094,
      "learning_rate": 0.0001,
      "loss": 0.9503,
      "step": 11537
    },
    {
      "epoch": 3.01536,
      "grad_norm": 0.02242486845491485,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 11538
    },
    {
      "epoch": 3.0154133333333335,
      "grad_norm": 0.024769540200609296,
      "learning_rate": 0.0001,
      "loss": 0.9721,
      "step": 11539
    },
    {
      "epoch": 3.0154666666666667,
      "grad_norm": 0.025078286117994574,
      "learning_rate": 0.0001,
      "loss": 0.9217,
      "step": 11540
    },
    {
      "epoch": 3.01552,
      "grad_norm": 0.02330278656993119,
      "learning_rate": 0.0001,
      "loss": 0.9784,
      "step": 11541
    },
    {
      "epoch": 3.015573333333333,
      "grad_norm": 0.02274050782384072,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 11542
    },
    {
      "epoch": 3.0156266666666665,
      "grad_norm": 0.023236245314468232,
      "learning_rate": 0.0001,
      "loss": 1.0179,
      "step": 11543
    },
    {
      "epoch": 3.01568,
      "grad_norm": 0.023293242102191827,
      "learning_rate": 0.0001,
      "loss": 0.957,
      "step": 11544
    },
    {
      "epoch": 3.0157333333333334,
      "grad_norm": 0.023899548677462145,
      "learning_rate": 0.0001,
      "loss": 0.9173,
      "step": 11545
    },
    {
      "epoch": 3.0157866666666666,
      "grad_norm": 0.023516260419215482,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "step": 11546
    },
    {
      "epoch": 3.01584,
      "grad_norm": 0.02258661325669158,
      "learning_rate": 0.0001,
      "loss": 1.017,
      "step": 11547
    },
    {
      "epoch": 3.0158933333333335,
      "grad_norm": 0.023083924682185522,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 11548
    },
    {
      "epoch": 3.0159466666666668,
      "grad_norm": 0.023808056748901598,
      "learning_rate": 0.0001,
      "loss": 0.9262,
      "step": 11549
    },
    {
      "epoch": 3.016,
      "grad_norm": 0.022167844210810358,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "step": 11550
    },
    {
      "epoch": 3.0160533333333333,
      "grad_norm": 0.021140931565867063,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "step": 11551
    },
    {
      "epoch": 3.0161066666666665,
      "grad_norm": 0.024865041612461756,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 11552
    },
    {
      "epoch": 3.01616,
      "grad_norm": 0.024451948132622303,
      "learning_rate": 0.0001,
      "loss": 0.9687,
      "step": 11553
    },
    {
      "epoch": 3.0162133333333334,
      "grad_norm": 0.023837280140931814,
      "learning_rate": 0.0001,
      "loss": 0.9513,
      "step": 11554
    },
    {
      "epoch": 3.0162666666666667,
      "grad_norm": 0.02337162551446488,
      "learning_rate": 0.0001,
      "loss": 0.9346,
      "step": 11555
    },
    {
      "epoch": 3.01632,
      "grad_norm": 0.026464837072750918,
      "learning_rate": 0.0001,
      "loss": 1.0174,
      "step": 11556
    },
    {
      "epoch": 3.016373333333333,
      "grad_norm": 0.02378890570084942,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 11557
    },
    {
      "epoch": 3.016426666666667,
      "grad_norm": 0.024813643603337484,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "step": 11558
    },
    {
      "epoch": 3.01648,
      "grad_norm": 0.02421484344479337,
      "learning_rate": 0.0001,
      "loss": 0.9131,
      "step": 11559
    },
    {
      "epoch": 3.0165333333333333,
      "grad_norm": 0.025458760825863288,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 11560
    },
    {
      "epoch": 3.0165866666666665,
      "grad_norm": 0.023936383933900185,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "step": 11561
    },
    {
      "epoch": 3.01664,
      "grad_norm": 0.02385898495427693,
      "learning_rate": 0.0001,
      "loss": 1.0025,
      "step": 11562
    },
    {
      "epoch": 3.0166933333333334,
      "grad_norm": 0.02259705577989472,
      "learning_rate": 0.0001,
      "loss": 0.9774,
      "step": 11563
    },
    {
      "epoch": 3.0167466666666667,
      "grad_norm": 0.02434422418223191,
      "learning_rate": 0.0001,
      "loss": 0.909,
      "step": 11564
    },
    {
      "epoch": 3.0168,
      "grad_norm": 0.02565599861423203,
      "learning_rate": 0.0001,
      "loss": 0.9433,
      "step": 11565
    },
    {
      "epoch": 3.016853333333333,
      "grad_norm": 0.023572892511108556,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "step": 11566
    },
    {
      "epoch": 3.016906666666667,
      "grad_norm": 0.0228237179465603,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 11567
    },
    {
      "epoch": 3.01696,
      "grad_norm": 0.02635889750374834,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 11568
    },
    {
      "epoch": 3.0170133333333333,
      "grad_norm": 0.02408536564286742,
      "learning_rate": 0.0001,
      "loss": 0.9863,
      "step": 11569
    },
    {
      "epoch": 3.0170666666666666,
      "grad_norm": 0.02392801233901758,
      "learning_rate": 0.0001,
      "loss": 0.9732,
      "step": 11570
    },
    {
      "epoch": 3.01712,
      "grad_norm": 0.023709631798049798,
      "learning_rate": 0.0001,
      "loss": 0.9799,
      "step": 11571
    },
    {
      "epoch": 3.0171733333333335,
      "grad_norm": 0.025223177654476632,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 11572
    },
    {
      "epoch": 3.0172266666666667,
      "grad_norm": 0.02552661824672957,
      "learning_rate": 0.0001,
      "loss": 1.0215,
      "step": 11573
    },
    {
      "epoch": 3.01728,
      "grad_norm": 0.022833566098466276,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "step": 11574
    },
    {
      "epoch": 3.017333333333333,
      "grad_norm": 0.0230005186367222,
      "learning_rate": 0.0001,
      "loss": 0.9574,
      "step": 11575
    },
    {
      "epoch": 3.017386666666667,
      "grad_norm": 0.02640568189600473,
      "learning_rate": 0.0001,
      "loss": 0.9417,
      "step": 11576
    },
    {
      "epoch": 3.01744,
      "grad_norm": 0.028510544069758625,
      "learning_rate": 0.0001,
      "loss": 1.0338,
      "step": 11577
    },
    {
      "epoch": 3.0174933333333334,
      "grad_norm": 0.023532030959977523,
      "learning_rate": 0.0001,
      "loss": 1.0086,
      "step": 11578
    },
    {
      "epoch": 3.0175466666666666,
      "grad_norm": 0.02338405288062905,
      "learning_rate": 0.0001,
      "loss": 0.936,
      "step": 11579
    },
    {
      "epoch": 3.0176,
      "grad_norm": 0.027409056349685466,
      "learning_rate": 0.0001,
      "loss": 0.9581,
      "step": 11580
    },
    {
      "epoch": 3.0176533333333335,
      "grad_norm": 0.024282408627700633,
      "learning_rate": 0.0001,
      "loss": 0.923,
      "step": 11581
    },
    {
      "epoch": 3.0177066666666668,
      "grad_norm": 0.024917256477724505,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 11582
    },
    {
      "epoch": 3.01776,
      "grad_norm": 0.022032120438915358,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "step": 11583
    },
    {
      "epoch": 3.0178133333333332,
      "grad_norm": 0.023111293591856527,
      "learning_rate": 0.0001,
      "loss": 0.9649,
      "step": 11584
    },
    {
      "epoch": 3.0178666666666665,
      "grad_norm": 0.02409980278341785,
      "learning_rate": 0.0001,
      "loss": 0.9025,
      "step": 11585
    },
    {
      "epoch": 3.01792,
      "grad_norm": 0.025081026652168638,
      "learning_rate": 0.0001,
      "loss": 0.94,
      "step": 11586
    },
    {
      "epoch": 3.0179733333333334,
      "grad_norm": 0.024195545999478298,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 11587
    },
    {
      "epoch": 3.0180266666666666,
      "grad_norm": 0.023263712998439545,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "step": 11588
    },
    {
      "epoch": 3.01808,
      "grad_norm": 0.02277793771319084,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 11589
    },
    {
      "epoch": 3.018133333333333,
      "grad_norm": 0.022893417270226608,
      "learning_rate": 0.0001,
      "loss": 0.9584,
      "step": 11590
    },
    {
      "epoch": 3.018186666666667,
      "grad_norm": 0.023948705787349037,
      "learning_rate": 0.0001,
      "loss": 0.9044,
      "step": 11591
    },
    {
      "epoch": 3.01824,
      "grad_norm": 0.02453748033388943,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 11592
    },
    {
      "epoch": 3.0182933333333333,
      "grad_norm": 0.022676690773494483,
      "learning_rate": 0.0001,
      "loss": 0.9917,
      "step": 11593
    },
    {
      "epoch": 3.0183466666666665,
      "grad_norm": 0.025189734374596512,
      "learning_rate": 0.0001,
      "loss": 0.9264,
      "step": 11594
    },
    {
      "epoch": 3.0184,
      "grad_norm": 0.02514364465656887,
      "learning_rate": 0.0001,
      "loss": 0.9505,
      "step": 11595
    },
    {
      "epoch": 3.0184533333333334,
      "grad_norm": 0.02305426302036187,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 11596
    },
    {
      "epoch": 3.0185066666666667,
      "grad_norm": 0.02334477243976388,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 11597
    },
    {
      "epoch": 3.01856,
      "grad_norm": 0.022864474844008675,
      "learning_rate": 0.0001,
      "loss": 0.9791,
      "step": 11598
    },
    {
      "epoch": 3.018613333333333,
      "grad_norm": 0.024097195307967716,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 11599
    },
    {
      "epoch": 3.018666666666667,
      "grad_norm": 0.023325352379298083,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "step": 11600
    },
    {
      "epoch": 3.018666666666667,
      "eval_accuracy": 0.6219148282933421,
      "eval_loss": 1.3445541858673096,
      "eval_runtime": 62.8257,
      "eval_samples_per_second": 15.917,
      "eval_steps_per_second": 0.509,
      "step": 11600
    },
    {
      "epoch": 3.01872,
      "grad_norm": 0.022354749399371394,
      "learning_rate": 0.0001,
      "loss": 0.9187,
      "step": 11601
    },
    {
      "epoch": 3.0187733333333333,
      "grad_norm": 0.023585618798490065,
      "learning_rate": 0.0001,
      "loss": 0.9658,
      "step": 11602
    },
    {
      "epoch": 3.0188266666666665,
      "grad_norm": 0.02233417348293247,
      "learning_rate": 0.0001,
      "loss": 0.9277,
      "step": 11603
    },
    {
      "epoch": 3.01888,
      "grad_norm": 0.024735617416308756,
      "learning_rate": 0.0001,
      "loss": 0.9327,
      "step": 11604
    },
    {
      "epoch": 3.0189333333333335,
      "grad_norm": 0.022532324357640417,
      "learning_rate": 0.0001,
      "loss": 0.9413,
      "step": 11605
    },
    {
      "epoch": 3.0189866666666667,
      "grad_norm": 0.02552225085686534,
      "learning_rate": 0.0001,
      "loss": 0.917,
      "step": 11606
    },
    {
      "epoch": 3.01904,
      "grad_norm": 0.024159352073070205,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 11607
    },
    {
      "epoch": 3.019093333333333,
      "grad_norm": 0.025425281411288154,
      "learning_rate": 0.0001,
      "loss": 0.9409,
      "step": 11608
    },
    {
      "epoch": 3.019146666666667,
      "grad_norm": 0.022092426902304733,
      "learning_rate": 0.0001,
      "loss": 0.9969,
      "step": 11609
    },
    {
      "epoch": 3.0192,
      "grad_norm": 0.02261020986368185,
      "learning_rate": 0.0001,
      "loss": 0.9868,
      "step": 11610
    },
    {
      "epoch": 3.0192533333333333,
      "grad_norm": 0.02468031495718079,
      "learning_rate": 0.0001,
      "loss": 0.9645,
      "step": 11611
    },
    {
      "epoch": 3.0193066666666666,
      "grad_norm": 0.02377697909308783,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 11612
    },
    {
      "epoch": 3.01936,
      "grad_norm": 0.026437012001540857,
      "learning_rate": 0.0001,
      "loss": 0.9471,
      "step": 11613
    },
    {
      "epoch": 3.0194133333333335,
      "grad_norm": 0.024892742223910216,
      "learning_rate": 0.0001,
      "loss": 0.9713,
      "step": 11614
    },
    {
      "epoch": 3.0194666666666667,
      "grad_norm": 0.025511445941035087,
      "learning_rate": 0.0001,
      "loss": 0.9443,
      "step": 11615
    },
    {
      "epoch": 3.01952,
      "grad_norm": 0.026224017164640123,
      "learning_rate": 0.0001,
      "loss": 1.0295,
      "step": 11616
    },
    {
      "epoch": 3.019573333333333,
      "grad_norm": 0.024841711291604094,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 11617
    },
    {
      "epoch": 3.0196266666666665,
      "grad_norm": 0.027630349730668094,
      "learning_rate": 0.0001,
      "loss": 0.9352,
      "step": 11618
    },
    {
      "epoch": 3.01968,
      "grad_norm": 0.024582028986845528,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 11619
    },
    {
      "epoch": 3.0197333333333334,
      "grad_norm": 0.024235844180607286,
      "learning_rate": 0.0001,
      "loss": 0.8924,
      "step": 11620
    },
    {
      "epoch": 3.0197866666666666,
      "grad_norm": 0.023203700175693114,
      "learning_rate": 0.0001,
      "loss": 0.9411,
      "step": 11621
    },
    {
      "epoch": 3.01984,
      "grad_norm": 0.022923159537839997,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "step": 11622
    },
    {
      "epoch": 3.0198933333333335,
      "grad_norm": 0.025588535119926613,
      "learning_rate": 0.0001,
      "loss": 0.946,
      "step": 11623
    },
    {
      "epoch": 3.019946666666667,
      "grad_norm": 0.02664234376924841,
      "learning_rate": 0.0001,
      "loss": 0.9828,
      "step": 11624
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.023231380194309075,
      "learning_rate": 0.0001,
      "loss": 0.9779,
      "step": 11625
    },
    {
      "epoch": 3.0200533333333333,
      "grad_norm": 0.024053265086753445,
      "learning_rate": 0.0001,
      "loss": 0.9799,
      "step": 11626
    },
    {
      "epoch": 3.0201066666666665,
      "grad_norm": 0.02408553219776758,
      "learning_rate": 0.0001,
      "loss": 0.9012,
      "step": 11627
    },
    {
      "epoch": 3.02016,
      "grad_norm": 0.023508789009840676,
      "learning_rate": 0.0001,
      "loss": 0.9807,
      "step": 11628
    },
    {
      "epoch": 3.0202133333333334,
      "grad_norm": 0.02274811653061226,
      "learning_rate": 0.0001,
      "loss": 0.986,
      "step": 11629
    },
    {
      "epoch": 3.0202666666666667,
      "grad_norm": 0.024318792340513026,
      "learning_rate": 0.0001,
      "loss": 0.9344,
      "step": 11630
    },
    {
      "epoch": 3.02032,
      "grad_norm": 0.023098015629495088,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "step": 11631
    },
    {
      "epoch": 3.020373333333333,
      "grad_norm": 0.02227027282197046,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 11632
    },
    {
      "epoch": 3.020426666666667,
      "grad_norm": 0.025808451648849852,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "step": 11633
    },
    {
      "epoch": 3.02048,
      "grad_norm": 0.024971394129469297,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "step": 11634
    },
    {
      "epoch": 3.0205333333333333,
      "grad_norm": 0.028339613138189033,
      "learning_rate": 0.0001,
      "loss": 0.9277,
      "step": 11635
    },
    {
      "epoch": 3.0205866666666665,
      "grad_norm": 0.024726995852352322,
      "learning_rate": 0.0001,
      "loss": 1.0129,
      "step": 11636
    },
    {
      "epoch": 3.02064,
      "grad_norm": 0.025870079111397177,
      "learning_rate": 0.0001,
      "loss": 0.9738,
      "step": 11637
    },
    {
      "epoch": 3.0206933333333335,
      "grad_norm": 0.024104935731567082,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 11638
    },
    {
      "epoch": 3.0207466666666667,
      "grad_norm": 0.024924402932002262,
      "learning_rate": 0.0001,
      "loss": 0.9482,
      "step": 11639
    },
    {
      "epoch": 3.0208,
      "grad_norm": 0.02733337806890832,
      "learning_rate": 0.0001,
      "loss": 0.9922,
      "step": 11640
    },
    {
      "epoch": 3.020853333333333,
      "grad_norm": 0.022330724812645846,
      "learning_rate": 0.0001,
      "loss": 0.8894,
      "step": 11641
    },
    {
      "epoch": 3.020906666666667,
      "grad_norm": 0.023889725020131994,
      "learning_rate": 0.0001,
      "loss": 0.9535,
      "step": 11642
    },
    {
      "epoch": 3.02096,
      "grad_norm": 0.02300576284862705,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "step": 11643
    },
    {
      "epoch": 3.0210133333333333,
      "grad_norm": 0.02347119568786852,
      "learning_rate": 0.0001,
      "loss": 0.9668,
      "step": 11644
    },
    {
      "epoch": 3.0210666666666666,
      "grad_norm": 0.025930751417101976,
      "learning_rate": 0.0001,
      "loss": 0.9472,
      "step": 11645
    },
    {
      "epoch": 3.02112,
      "grad_norm": 0.025206819627388397,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "step": 11646
    },
    {
      "epoch": 3.0211733333333335,
      "grad_norm": 0.024634884721501497,
      "learning_rate": 0.0001,
      "loss": 0.9129,
      "step": 11647
    },
    {
      "epoch": 3.0212266666666667,
      "grad_norm": 0.0245248806979328,
      "learning_rate": 0.0001,
      "loss": 0.9284,
      "step": 11648
    },
    {
      "epoch": 3.02128,
      "grad_norm": 0.023682549706928447,
      "learning_rate": 0.0001,
      "loss": 0.9469,
      "step": 11649
    },
    {
      "epoch": 3.021333333333333,
      "grad_norm": 0.023615417540745493,
      "learning_rate": 0.0001,
      "loss": 0.9391,
      "step": 11650
    },
    {
      "epoch": 3.0213866666666664,
      "grad_norm": 0.02365305194446948,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 11651
    },
    {
      "epoch": 3.02144,
      "grad_norm": 0.0238394154902283,
      "learning_rate": 0.0001,
      "loss": 0.9627,
      "step": 11652
    },
    {
      "epoch": 3.0214933333333334,
      "grad_norm": 0.024308826576638295,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "step": 11653
    },
    {
      "epoch": 3.0215466666666666,
      "grad_norm": 0.02439192912140777,
      "learning_rate": 0.0001,
      "loss": 0.955,
      "step": 11654
    },
    {
      "epoch": 3.0216,
      "grad_norm": 0.02418601763417813,
      "learning_rate": 0.0001,
      "loss": 0.9234,
      "step": 11655
    },
    {
      "epoch": 3.0216533333333335,
      "grad_norm": 0.023709021308484988,
      "learning_rate": 0.0001,
      "loss": 0.9311,
      "step": 11656
    },
    {
      "epoch": 3.0217066666666668,
      "grad_norm": 0.02380372324068671,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 11657
    },
    {
      "epoch": 3.02176,
      "grad_norm": 0.02701510915522868,
      "learning_rate": 0.0001,
      "loss": 1.007,
      "step": 11658
    },
    {
      "epoch": 3.0218133333333332,
      "grad_norm": 0.025058725701057848,
      "learning_rate": 0.0001,
      "loss": 0.9383,
      "step": 11659
    },
    {
      "epoch": 3.0218666666666665,
      "grad_norm": 0.02535766315427051,
      "learning_rate": 0.0001,
      "loss": 0.9797,
      "step": 11660
    },
    {
      "epoch": 3.02192,
      "grad_norm": 0.022991180656683746,
      "learning_rate": 0.0001,
      "loss": 0.954,
      "step": 11661
    },
    {
      "epoch": 3.0219733333333334,
      "grad_norm": 0.022861529996912343,
      "learning_rate": 0.0001,
      "loss": 0.926,
      "step": 11662
    },
    {
      "epoch": 3.0220266666666666,
      "grad_norm": 0.02285374798759366,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 11663
    },
    {
      "epoch": 3.02208,
      "grad_norm": 0.02320414517893816,
      "learning_rate": 0.0001,
      "loss": 0.9071,
      "step": 11664
    },
    {
      "epoch": 3.022133333333333,
      "grad_norm": 0.02369738447973728,
      "learning_rate": 0.0001,
      "loss": 0.9846,
      "step": 11665
    },
    {
      "epoch": 3.022186666666667,
      "grad_norm": 0.02592924630901491,
      "learning_rate": 0.0001,
      "loss": 1.0038,
      "step": 11666
    },
    {
      "epoch": 3.02224,
      "grad_norm": 0.023857085830920517,
      "learning_rate": 0.0001,
      "loss": 0.939,
      "step": 11667
    },
    {
      "epoch": 3.0222933333333333,
      "grad_norm": 0.02442951238356945,
      "learning_rate": 0.0001,
      "loss": 1.0332,
      "step": 11668
    },
    {
      "epoch": 3.0223466666666665,
      "grad_norm": 0.023649875242007172,
      "learning_rate": 0.0001,
      "loss": 0.9715,
      "step": 11669
    },
    {
      "epoch": 3.0224,
      "grad_norm": 0.023937551617805315,
      "learning_rate": 0.0001,
      "loss": 0.9748,
      "step": 11670
    },
    {
      "epoch": 3.0224533333333334,
      "grad_norm": 0.02457812516846486,
      "learning_rate": 0.0001,
      "loss": 0.9798,
      "step": 11671
    },
    {
      "epoch": 3.0225066666666667,
      "grad_norm": 0.02316865134194081,
      "learning_rate": 0.0001,
      "loss": 0.9761,
      "step": 11672
    },
    {
      "epoch": 3.02256,
      "grad_norm": 0.026840078519391936,
      "learning_rate": 0.0001,
      "loss": 0.9757,
      "step": 11673
    },
    {
      "epoch": 3.022613333333333,
      "grad_norm": 0.023328501627024097,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 11674
    },
    {
      "epoch": 3.022666666666667,
      "grad_norm": 0.02381354273269549,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "step": 11675
    },
    {
      "epoch": 3.02272,
      "grad_norm": 0.02685225021049906,
      "learning_rate": 0.0001,
      "loss": 1.0213,
      "step": 11676
    },
    {
      "epoch": 3.0227733333333333,
      "grad_norm": 0.02170442832788045,
      "learning_rate": 0.0001,
      "loss": 0.9186,
      "step": 11677
    },
    {
      "epoch": 3.0228266666666666,
      "grad_norm": 0.023644098994007743,
      "learning_rate": 0.0001,
      "loss": 0.9053,
      "step": 11678
    },
    {
      "epoch": 3.02288,
      "grad_norm": 0.024127248013683808,
      "learning_rate": 0.0001,
      "loss": 0.9727,
      "step": 11679
    },
    {
      "epoch": 3.0229333333333335,
      "grad_norm": 0.023989875550467707,
      "learning_rate": 0.0001,
      "loss": 0.9909,
      "step": 11680
    },
    {
      "epoch": 3.0229866666666667,
      "grad_norm": 0.02327214584232841,
      "learning_rate": 0.0001,
      "loss": 0.949,
      "step": 11681
    },
    {
      "epoch": 3.02304,
      "grad_norm": 0.02483387535241112,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 11682
    },
    {
      "epoch": 3.023093333333333,
      "grad_norm": 0.027787402579758622,
      "learning_rate": 0.0001,
      "loss": 0.9651,
      "step": 11683
    },
    {
      "epoch": 3.023146666666667,
      "grad_norm": 0.024896768105640607,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "step": 11684
    },
    {
      "epoch": 3.0232,
      "grad_norm": 0.023829124924327805,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "step": 11685
    },
    {
      "epoch": 3.0232533333333333,
      "grad_norm": 0.02455516750411266,
      "learning_rate": 0.0001,
      "loss": 0.9621,
      "step": 11686
    },
    {
      "epoch": 3.0233066666666666,
      "grad_norm": 0.024304885536165336,
      "learning_rate": 0.0001,
      "loss": 0.9146,
      "step": 11687
    },
    {
      "epoch": 3.02336,
      "grad_norm": 0.02324995893130607,
      "learning_rate": 0.0001,
      "loss": 0.9833,
      "step": 11688
    },
    {
      "epoch": 3.0234133333333335,
      "grad_norm": 0.023976007833509578,
      "learning_rate": 0.0001,
      "loss": 0.9373,
      "step": 11689
    },
    {
      "epoch": 3.0234666666666667,
      "grad_norm": 0.023560309595464422,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "step": 11690
    },
    {
      "epoch": 3.02352,
      "grad_norm": 0.024585278946586707,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "step": 11691
    },
    {
      "epoch": 3.0235733333333332,
      "grad_norm": 0.023172607589482665,
      "learning_rate": 0.0001,
      "loss": 0.8726,
      "step": 11692
    },
    {
      "epoch": 3.0236266666666665,
      "grad_norm": 0.025833461988223887,
      "learning_rate": 0.0001,
      "loss": 0.9412,
      "step": 11693
    },
    {
      "epoch": 3.02368,
      "grad_norm": 0.025072447905562813,
      "learning_rate": 0.0001,
      "loss": 0.9267,
      "step": 11694
    },
    {
      "epoch": 3.0237333333333334,
      "grad_norm": 0.02520737331639218,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 11695
    },
    {
      "epoch": 3.0237866666666666,
      "grad_norm": 0.025772951675256003,
      "learning_rate": 0.0001,
      "loss": 1.0081,
      "step": 11696
    },
    {
      "epoch": 3.02384,
      "grad_norm": 0.02353809608684032,
      "learning_rate": 0.0001,
      "loss": 0.9297,
      "step": 11697
    },
    {
      "epoch": 3.0238933333333335,
      "grad_norm": 0.02466201162397859,
      "learning_rate": 0.0001,
      "loss": 0.9445,
      "step": 11698
    },
    {
      "epoch": 3.023946666666667,
      "grad_norm": 0.024735281901918166,
      "learning_rate": 0.0001,
      "loss": 1.0064,
      "step": 11699
    },
    {
      "epoch": 3.024,
      "grad_norm": 0.022798318095567854,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "step": 11700
    },
    {
      "epoch": 3.0240533333333333,
      "grad_norm": 0.022274895643132116,
      "learning_rate": 0.0001,
      "loss": 0.9328,
      "step": 11701
    },
    {
      "epoch": 3.0241066666666665,
      "grad_norm": 0.022965457321033955,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 11702
    },
    {
      "epoch": 3.02416,
      "grad_norm": 0.026613516497909804,
      "learning_rate": 0.0001,
      "loss": 0.9723,
      "step": 11703
    },
    {
      "epoch": 3.0242133333333334,
      "grad_norm": 0.02297427569433572,
      "learning_rate": 0.0001,
      "loss": 0.9988,
      "step": 11704
    },
    {
      "epoch": 3.0242666666666667,
      "grad_norm": 0.021889008527181723,
      "learning_rate": 0.0001,
      "loss": 0.9151,
      "step": 11705
    },
    {
      "epoch": 3.02432,
      "grad_norm": 0.024347396252110607,
      "learning_rate": 0.0001,
      "loss": 0.9911,
      "step": 11706
    },
    {
      "epoch": 3.024373333333333,
      "grad_norm": 0.023264918603919986,
      "learning_rate": 0.0001,
      "loss": 0.9347,
      "step": 11707
    },
    {
      "epoch": 3.024426666666667,
      "grad_norm": 0.02457721265628841,
      "learning_rate": 0.0001,
      "loss": 0.9541,
      "step": 11708
    },
    {
      "epoch": 3.02448,
      "grad_norm": 0.02386343807121461,
      "learning_rate": 0.0001,
      "loss": 0.9795,
      "step": 11709
    },
    {
      "epoch": 3.0245333333333333,
      "grad_norm": 0.023817077242076875,
      "learning_rate": 0.0001,
      "loss": 0.8952,
      "step": 11710
    },
    {
      "epoch": 3.0245866666666665,
      "grad_norm": 0.024459556045191337,
      "learning_rate": 0.0001,
      "loss": 0.9589,
      "step": 11711
    },
    {
      "epoch": 3.02464,
      "grad_norm": 0.023052848926917675,
      "learning_rate": 0.0001,
      "loss": 0.997,
      "step": 11712
    },
    {
      "epoch": 3.0246933333333335,
      "grad_norm": 0.02303442609414603,
      "learning_rate": 0.0001,
      "loss": 0.9765,
      "step": 11713
    },
    {
      "epoch": 3.0247466666666667,
      "grad_norm": 0.023633893941193338,
      "learning_rate": 0.0001,
      "loss": 0.9867,
      "step": 11714
    },
    {
      "epoch": 3.0248,
      "grad_norm": 0.025786985083972723,
      "learning_rate": 0.0001,
      "loss": 0.9913,
      "step": 11715
    },
    {
      "epoch": 3.024853333333333,
      "grad_norm": 0.02496887388019882,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "step": 11716
    },
    {
      "epoch": 3.024906666666667,
      "grad_norm": 0.02397998596774744,
      "learning_rate": 0.0001,
      "loss": 0.9162,
      "step": 11717
    },
    {
      "epoch": 3.02496,
      "grad_norm": 0.023069861651749866,
      "learning_rate": 0.0001,
      "loss": 0.9693,
      "step": 11718
    },
    {
      "epoch": 3.0250133333333333,
      "grad_norm": 0.023163521192495394,
      "learning_rate": 0.0001,
      "loss": 1.0009,
      "step": 11719
    },
    {
      "epoch": 3.0250666666666666,
      "grad_norm": 0.023758700715283465,
      "learning_rate": 0.0001,
      "loss": 0.8922,
      "step": 11720
    },
    {
      "epoch": 3.02512,
      "grad_norm": 0.02343257368957068,
      "learning_rate": 0.0001,
      "loss": 0.9841,
      "step": 11721
    },
    {
      "epoch": 3.0251733333333335,
      "grad_norm": 0.02315035992120449,
      "learning_rate": 0.0001,
      "loss": 0.9487,
      "step": 11722
    },
    {
      "epoch": 3.0252266666666667,
      "grad_norm": 0.02296587918323169,
      "learning_rate": 0.0001,
      "loss": 0.9339,
      "step": 11723
    },
    {
      "epoch": 3.02528,
      "grad_norm": 0.026584500979166908,
      "learning_rate": 0.0001,
      "loss": 0.9823,
      "step": 11724
    },
    {
      "epoch": 3.025333333333333,
      "grad_norm": 0.023229924539681007,
      "learning_rate": 0.0001,
      "loss": 0.8987,
      "step": 11725
    },
    {
      "epoch": 3.0253866666666664,
      "grad_norm": 0.024830192165554807,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "step": 11726
    },
    {
      "epoch": 3.02544,
      "grad_norm": 0.023002389790113518,
      "learning_rate": 0.0001,
      "loss": 0.978,
      "step": 11727
    },
    {
      "epoch": 3.0254933333333334,
      "grad_norm": 0.023489816537068567,
      "learning_rate": 0.0001,
      "loss": 1.0363,
      "step": 11728
    },
    {
      "epoch": 3.0255466666666666,
      "grad_norm": 0.025294913319204797,
      "learning_rate": 0.0001,
      "loss": 0.9785,
      "step": 11729
    },
    {
      "epoch": 3.0256,
      "grad_norm": 0.022388534775171706,
      "learning_rate": 0.0001,
      "loss": 0.9464,
      "step": 11730
    },
    {
      "epoch": 3.0256533333333335,
      "grad_norm": 0.023979870280224105,
      "learning_rate": 0.0001,
      "loss": 0.9046,
      "step": 11731
    },
    {
      "epoch": 3.0257066666666668,
      "grad_norm": 0.022186846825345396,
      "learning_rate": 0.0001,
      "loss": 0.9481,
      "step": 11732
    },
    {
      "epoch": 3.02576,
      "grad_norm": 0.02275456614161224,
      "learning_rate": 0.0001,
      "loss": 0.9221,
      "step": 11733
    },
    {
      "epoch": 3.0258133333333332,
      "grad_norm": 0.022538747772115647,
      "learning_rate": 0.0001,
      "loss": 1.0175,
      "step": 11734
    },
    {
      "epoch": 3.0258666666666665,
      "grad_norm": 0.02516117268577195,
      "learning_rate": 0.0001,
      "loss": 0.8962,
      "step": 11735
    },
    {
      "epoch": 3.02592,
      "grad_norm": 0.022984580170199876,
      "learning_rate": 0.0001,
      "loss": 0.96,
      "step": 11736
    },
    {
      "epoch": 3.0259733333333334,
      "grad_norm": 0.02405908497233139,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 11737
    },
    {
      "epoch": 3.0260266666666666,
      "grad_norm": 0.02360053674021628,
      "learning_rate": 0.0001,
      "loss": 0.915,
      "step": 11738
    },
    {
      "epoch": 3.02608,
      "grad_norm": 0.023696071237823132,
      "learning_rate": 0.0001,
      "loss": 0.9456,
      "step": 11739
    },
    {
      "epoch": 3.026133333333333,
      "grad_norm": 0.023725774462302736,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 11740
    },
    {
      "epoch": 3.026186666666667,
      "grad_norm": 0.02634823128654584,
      "learning_rate": 0.0001,
      "loss": 0.9918,
      "step": 11741
    },
    {
      "epoch": 3.02624,
      "grad_norm": 0.02298911126394776,
      "learning_rate": 0.0001,
      "loss": 0.9512,
      "step": 11742
    },
    {
      "epoch": 3.0262933333333333,
      "grad_norm": 0.023265870913492036,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "step": 11743
    },
    {
      "epoch": 3.0263466666666665,
      "grad_norm": 0.024228921445721096,
      "learning_rate": 0.0001,
      "loss": 0.9359,
      "step": 11744
    },
    {
      "epoch": 3.0264,
      "grad_norm": 0.02422688889963684,
      "learning_rate": 0.0001,
      "loss": 0.9376,
      "step": 11745
    },
    {
      "epoch": 3.0264533333333334,
      "grad_norm": 0.023420324226107188,
      "learning_rate": 0.0001,
      "loss": 0.9787,
      "step": 11746
    },
    {
      "epoch": 3.0265066666666667,
      "grad_norm": 0.024244443765296577,
      "learning_rate": 0.0001,
      "loss": 0.9866,
      "step": 11747
    },
    {
      "epoch": 3.02656,
      "grad_norm": 0.02368297039130338,
      "learning_rate": 0.0001,
      "loss": 0.994,
      "step": 11748
    },
    {
      "epoch": 3.026613333333333,
      "grad_norm": 0.02506898738299799,
      "learning_rate": 0.0001,
      "loss": 0.9675,
      "step": 11749
    },
    {
      "epoch": 3.026666666666667,
      "grad_norm": 0.02316431682067441,
      "learning_rate": 0.0001,
      "loss": 0.9452,
      "step": 11750
    },
    {
      "epoch": 3.02672,
      "grad_norm": 0.023725360904283586,
      "learning_rate": 0.0001,
      "loss": 0.9146,
      "step": 11751
    },
    {
      "epoch": 3.0267733333333333,
      "grad_norm": 0.02308897142615715,
      "learning_rate": 0.0001,
      "loss": 0.9426,
      "step": 11752
    },
    {
      "epoch": 3.0268266666666666,
      "grad_norm": 0.024766360352686735,
      "learning_rate": 0.0001,
      "loss": 0.9495,
      "step": 11753
    },
    {
      "epoch": 3.02688,
      "grad_norm": 0.023605632205477504,
      "learning_rate": 0.0001,
      "loss": 0.973,
      "step": 11754
    },
    {
      "epoch": 3.0269333333333335,
      "grad_norm": 0.02241986093075411,
      "learning_rate": 0.0001,
      "loss": 0.9615,
      "step": 11755
    },
    {
      "epoch": 3.0269866666666667,
      "grad_norm": 0.02464114753727375,
      "learning_rate": 0.0001,
      "loss": 0.9562,
      "step": 11756
    },
    {
      "epoch": 3.02704,
      "grad_norm": 0.023819110482217867,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "step": 11757
    },
    {
      "epoch": 3.027093333333333,
      "grad_norm": 0.025128424459167284,
      "learning_rate": 0.0001,
      "loss": 0.9341,
      "step": 11758
    },
    {
      "epoch": 3.027146666666667,
      "grad_norm": 0.022323487838144668,
      "learning_rate": 0.0001,
      "loss": 0.9778,
      "step": 11759
    },
    {
      "epoch": 3.0272,
      "grad_norm": 0.02485591614573203,
      "learning_rate": 0.0001,
      "loss": 0.9475,
      "step": 11760
    },
    {
      "epoch": 3.0272533333333334,
      "grad_norm": 0.024550525759913865,
      "learning_rate": 0.0001,
      "loss": 0.9681,
      "step": 11761
    },
    {
      "epoch": 3.0273066666666666,
      "grad_norm": 0.02688461439082191,
      "learning_rate": 0.0001,
      "loss": 0.9431,
      "step": 11762
    },
    {
      "epoch": 3.02736,
      "grad_norm": 0.024397175418023803,
      "learning_rate": 0.0001,
      "loss": 0.9848,
      "step": 11763
    },
    {
      "epoch": 3.0274133333333335,
      "grad_norm": 0.02483594904786837,
      "learning_rate": 0.0001,
      "loss": 0.9192,
      "step": 11764
    },
    {
      "epoch": 3.0274666666666668,
      "grad_norm": 0.02437824790950923,
      "learning_rate": 0.0001,
      "loss": 0.9639,
      "step": 11765
    },
    {
      "epoch": 3.02752,
      "grad_norm": 0.025131148169486292,
      "learning_rate": 0.0001,
      "loss": 0.9014,
      "step": 11766
    },
    {
      "epoch": 3.0275733333333332,
      "grad_norm": 0.022996641956877797,
      "learning_rate": 0.0001,
      "loss": 0.9448,
      "step": 11767
    },
    {
      "epoch": 3.0276266666666665,
      "grad_norm": 0.026266655741495937,
      "learning_rate": 0.0001,
      "loss": 0.9983,
      "step": 11768
    },
    {
      "epoch": 3.02768,
      "grad_norm": 0.02299511298457818,
      "learning_rate": 0.0001,
      "loss": 0.9508,
      "step": 11769
    },
    {
      "epoch": 3.0277333333333334,
      "grad_norm": 0.024942087672444175,
      "learning_rate": 0.0001,
      "loss": 0.9936,
      "step": 11770
    },
    {
      "epoch": 3.0277866666666666,
      "grad_norm": 0.022685355111393034,
      "learning_rate": 0.0001,
      "loss": 0.9239,
      "step": 11771
    },
    {
      "epoch": 3.02784,
      "grad_norm": 0.023327722015401224,
      "learning_rate": 0.0001,
      "loss": 0.9496,
      "step": 11772
    },
    {
      "epoch": 3.0278933333333335,
      "grad_norm": 0.02505648553025367,
      "learning_rate": 0.0001,
      "loss": 0.9858,
      "step": 11773
    },
    {
      "epoch": 3.027946666666667,
      "grad_norm": 0.02270429722013617,
      "learning_rate": 0.0001,
      "loss": 0.8979,
      "step": 11774
    },
    {
      "epoch": 3.028,
      "grad_norm": 0.022117639583840235,
      "learning_rate": 0.0001,
      "loss": 0.9076,
      "step": 11775
    },
    {
      "epoch": 3.0280533333333333,
      "grad_norm": 0.023372114750048474,
      "learning_rate": 0.0001,
      "loss": 0.9907,
      "step": 11776
    },
    {
      "epoch": 3.0281066666666665,
      "grad_norm": 0.02325020205619472,
      "learning_rate": 0.0001,
      "loss": 0.9088,
      "step": 11777
    },
    {
      "epoch": 3.02816,
      "grad_norm": 0.023216045529274417,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "step": 11778
    },
    {
      "epoch": 3.0282133333333334,
      "grad_norm": 0.024329276562749122,
      "learning_rate": 0.0001,
      "loss": 0.9927,
      "step": 11779
    },
    {
      "epoch": 3.0282666666666667,
      "grad_norm": 0.022725371627238058,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "step": 11780
    },
    {
      "epoch": 3.02832,
      "grad_norm": 0.025101508371512284,
      "learning_rate": 0.0001,
      "loss": 0.971,
      "step": 11781
    },
    {
      "epoch": 3.028373333333333,
      "grad_norm": 0.025082811805524723,
      "learning_rate": 0.0001,
      "loss": 0.9488,
      "step": 11782
    },
    {
      "epoch": 3.028426666666667,
      "grad_norm": 0.023532368790128513,
      "learning_rate": 0.0001,
      "loss": 0.8998,
      "step": 11783
    },
    {
      "epoch": 3.02848,
      "grad_norm": 0.024847703641692583,
      "learning_rate": 0.0001,
      "loss": 0.9538,
      "step": 11784
    },
    {
      "epoch": 3.0285333333333333,
      "grad_norm": 0.023529951211408287,
      "learning_rate": 0.0001,
      "loss": 0.9604,
      "step": 11785
    },
    {
      "epoch": 3.0285866666666665,
      "grad_norm": 0.023373566363222558,
      "learning_rate": 0.0001,
      "loss": 0.9303,
      "step": 11786
    },
    {
      "epoch": 3.02864,
      "grad_norm": 0.02339352505339849,
      "learning_rate": 0.0001,
      "loss": 0.9996,
      "step": 11787
    },
    {
      "epoch": 3.0286933333333335,
      "grad_norm": 0.023556905686655326,
      "learning_rate": 0.0001,
      "loss": 0.9607,
      "step": 11788
    },
    {
      "epoch": 3.0287466666666667,
      "grad_norm": 0.024171957733226807,
      "learning_rate": 0.0001,
      "loss": 0.9702,
      "step": 11789
    },
    {
      "epoch": 3.0288,
      "grad_norm": 0.02328346295594373,
      "learning_rate": 0.0001,
      "loss": 0.9415,
      "step": 11790
    },
    {
      "epoch": 3.028853333333333,
      "grad_norm": 0.02394163027299237,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "step": 11791
    },
    {
      "epoch": 3.028906666666667,
      "grad_norm": 0.02402508686356912,
      "learning_rate": 0.0001,
      "loss": 0.956,
      "step": 11792
    },
    {
      "epoch": 3.02896,
      "grad_norm": 0.024910757088759325,
      "learning_rate": 0.0001,
      "loss": 0.9205,
      "step": 11793
    },
    {
      "epoch": 3.0290133333333333,
      "grad_norm": 0.025940236942946678,
      "learning_rate": 0.0001,
      "loss": 0.8979,
      "step": 11794
    },
    {
      "epoch": 3.0290666666666666,
      "grad_norm": 0.023680885658792762,
      "learning_rate": 0.0001,
      "loss": 0.9706,
      "step": 11795
    },
    {
      "epoch": 3.02912,
      "grad_norm": 0.02585229463989441,
      "learning_rate": 0.0001,
      "loss": 0.9619,
      "step": 11796
    },
    {
      "epoch": 3.0291733333333335,
      "grad_norm": 0.022998552186831812,
      "learning_rate": 0.0001,
      "loss": 0.945,
      "step": 11797
    },
    {
      "epoch": 3.0292266666666667,
      "grad_norm": 0.023645151694259778,
      "learning_rate": 0.0001,
      "loss": 0.9776,
      "step": 11798
    },
    {
      "epoch": 3.02928,
      "grad_norm": 0.024265512308730544,
      "learning_rate": 0.0001,
      "loss": 0.9559,
      "step": 11799
    },
    {
      "epoch": 3.029333333333333,
      "grad_norm": 0.025559329516461185,
      "learning_rate": 0.0001,
      "loss": 0.9635,
      "step": 11800
    },
    {
      "epoch": 3.029333333333333,
      "eval_accuracy": 0.6220997549149839,
      "eval_loss": 1.3440815210342407,
      "eval_runtime": 62.8576,
      "eval_samples_per_second": 15.909,
      "eval_steps_per_second": 0.509,
      "step": 11800
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 18750,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 200,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1454363644985344e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}